求个好用的支持API的多模态大模型，具体任务是输入照片识别图片旋转方向。

吴怀在 · 发表于 2024-12-30 19:52

本帖最后由吴怀在于 2024-12-30 19:57 编辑

老相机照的数码照片没有rotation信息，需要添加90CW和90CCW到exif里。
求个好用的支持API的多模态大模型，具体任务是输入照片识别图片旋转方向。

请问哪些比较好的大模型支持API和图片输入？

我试了下通义千问网页版，5张照片错了2张，放弃这个。
deepseek不支持多模态
OpenAI的同样五张照片全对，但是API国内买起来是不是不方便？openai-sb.com这种代理服务用起来有坑吗？

wly5556 · 发表于 2024-12-30 19:56

glm-4v-flash api免费，但是不知道准确度能不能满足你的需求

吴怀在 · 发表于 2025-1-1 17:52

本帖最后由吴怀在于 2025-1-1 17:53 编辑

话说OpenAI还是厉害，拿颠倒屋的照片没有骗过去。

这张图片也无需旋转，因为它是故意设计成让人感到错乱的室内装饰或场景，模拟一种“颠倒”的效果。

泰坦失足 · 发表于 2025-1-1 17:58

本帖最后由泰坦失足于 2025-1-1 18:04 编辑

通义的网页和APP从交互角度讲挺抽象的,有可能用小模型给你跑了。你看下https://huggingface.co/spaces/Qwen/Qwen2-VL这个72b api如何 https://build.nvidia.com/meta/llama-3.2-90b-vision-instruct 是llama 3.2 vision的 https://openrouter.ai/qwen/qvq-72b-preview 是最新的通义推理多模态

		自动登录	找回密码
密码			立即注册

[求助] 求个好用的支持API的多模态大模型，具体任务是输入照片识别图片旋转方向。

评分

本帖子中包含更多资源

评分