找回密码
 立即注册
搜索
查看: 492|回复: 3

[求助] 求个好用的支持API的多模态大模型,具体任务是输入照片识别图片旋转方向。

[复制链接]
     
发表于 2024-12-30 19:52 | 显示全部楼层 |阅读模式
本帖最后由 吴怀在 于 2024-12-30 19:57 编辑

老相机照的数码照片没有rotation信息,需要添加90CW和90CCW到exif里。
求个好用的支持API的多模态大模型,具体任务是输入照片识别图片旋转方向。


请问哪些比较好的大模型支持API和图片输入?


我试了下通义千问网页版,5张照片错了2张,放弃这个。
deepseek不支持多模态
OpenAI的同样五张照片全对,但是API国内买起来是不是不方便?openai-sb.com这种代理服务用起来有坑吗?

回复

使用道具 举报

     
发表于 2024-12-30 19:56 来自手机 | 显示全部楼层
glm-4v-flash api免费,但是不知道准确度能不能满足你的需求

评分

参与人数 1战斗力 +1 收起 理由
吴怀在 + 1 记下来试试

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2025-1-1 17:52 | 显示全部楼层
本帖最后由 吴怀在 于 2025-1-1 17:53 编辑

话说OpenAI还是厉害,拿颠倒屋的照片没有骗过去。

这张图片也 无需旋转,因为它是故意设计成让人感到错乱的室内装饰或场景,模拟一种“颠倒”的效果。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-1 17:58 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-1 18:04 编辑

通义的网页和APP从交互角度讲挺抽象的,有可能用小模型给你跑了。你看下https://huggingface.co/spaces/Qwen/Qwen2-VL这个72b api如何 https://build.nvidia.com/meta/llama-3.2-90b-vision-instruct 是llama 3.2 vision的 https://openrouter.ai/qwen/qvq-72b-preview 是最新的通义推理多模态

评分

参与人数 1战斗力 +1 收起 理由
吴怀在 + 1 感谢,都试试

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-31 17:10 , Processed in 0.027506 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表