求个好用的支持API的多模态大模型,具体任务是输入照片识别图片旋转方向。
本帖最后由 吴怀在 于 2024-12-30 19:57 编辑老相机照的数码照片没有rotation信息,需要添加90CW和90CCW到exif里。
求个好用的支持API的多模态大模型,具体任务是输入照片识别图片旋转方向。
请问哪些比较好的大模型支持API和图片输入?
我试了下通义千问网页版,5张照片错了2张,放弃这个。
deepseek不支持多模态
OpenAI的同样五张照片全对,但是API国内买起来是不是不方便?openai-sb.com这种代理服务用起来有坑吗?
glm-4v-flash api免费,但是不知道准确度能不能满足你的需求 本帖最后由 吴怀在 于 2025-1-1 17:53 编辑
话说OpenAI还是厉害,拿颠倒屋的照片没有骗过去。
这张图片也 无需旋转,因为它是故意设计成让人感到错乱的室内装饰或场景,模拟一种“颠倒”的效果。https://p.sda1.dev/21/8fd5b1edfbab3a558f0d87246ed16e2c/image.png
本帖最后由 泰坦失足 于 2025-1-1 18:04 编辑
通义的网页和APP从交互角度讲挺抽象的,有可能用小模型给你跑了。你看下https://huggingface.co/spaces/Qwen/Qwen2-VL这个72b api如何 https://build.nvidia.com/meta/llama-3.2-90b-vision-instruct 是llama 3.2 vision的 https://openrouter.ai/qwen/qvq-72b-preview 是最新的通义推理多模态
页:
[1]