找回密码
 立即注册
搜索
查看: 1166|回复: 13

[科技] 哪个大模型排名的榜单比较权威认可度高?

[复制链接]
     
发表于 2025-1-22 13:34 | 显示全部楼层 |阅读模式
本帖最后由 marquez 于 2025-1-22 14:15 编辑

deepseek-r1发布有感。

目前榜单很多,国内一堆,国外也有lmarena、livebench等等,所以哪个榜单认可度比较高?哪个权威一些?为什么?

---

编辑:更新了标题,明确想比较的是榜单。
回复

使用道具 举报

     
发表于 2025-1-22 13:36 | 显示全部楼层
本帖最后由 枯风瘦雪 于 2025-1-22 13:58 编辑

算了,看错,不过各个榜单都是凸显某个维度的特殊能力的,主流的玩家也都有特定的刷榜的trick,不是业内说不出来
回复

使用道具 举报

     
发表于 2025-1-22 13:38 来自手机 | 显示全部楼层
看别人给的方案是代码用claude/qwen,翻译用deepseek,总结用gemini
回复

使用道具 举报

     
发表于 2025-1-22 13:39 来自手机 | 显示全部楼层
对一般人来说deepseek够用了
回复

使用道具 举报

     
发表于 2025-1-22 13:51 | 显示全部楼层
楼主问的是哪个榜单更权威认可度更高,结果回帖一堆人在这说什么场景用啥模型,确实是不如AI了

评分

参与人数 1战斗力 +2 收起 理由
tokamak + 2

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-22 13:53 | 显示全部楼层
怎么判断模型强不强?o1pro那价格重复问来问去不是钱多烧得慌,我觉得中立的第三方评测肯定比个人的感觉更准,看参数肯定比用户感受更准
然后就我自己的用户感受来判断的话,首先取决于提问技巧,其次看ai有没偷懒(现在ai不会现编了但是明显忙时会敷衍),最后看领域,我问天体物理学问题最好用的是gemini2.0thinking,编程最好用的是copilot(主要是方便,编程ai现在普遍有点呆),信息检索openai最好用(o1pro用不起),入门claude最好用,因为claude理解能力我觉得是最强的,有时候不用提示词他就能懂你想要什么
回复

使用道具 举报

发表于 2025-1-22 13:57 | 显示全部楼层
有钱o1 pro呗,这个最强,毋庸置疑的强,强到没用

回复

使用道具 举报

     
发表于 2025-1-22 13:59 | 显示全部楼层
claude写代码比gpt强么?小白打算跟着ai学python,这么说用claude比较好?
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-1-22 14:02 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2025-1-22 14:03 | 显示全部楼层
每个榜都有所侧重。具体你要看详细描述。但是如果大部份模型都能做到80-90多的榜基本没啥没啥参考意义了
回复

使用道具 举报

     
发表于 2025-1-22 14:07 | 显示全部楼层
我体感是逻辑推理用deepseek,文字处理(注意仅限文本,不包括表格什么的)用豆包,日常提问、知识检索还得是4o。
回复

使用道具 举报

     
发表于 2025-1-22 14:11 | 显示全部楼层
tokamak 发表于 2025-1-22 14:02
在有人提醒大家楼主的问题是“榜单哪家强”后,大家还是孜孜不倦地探讨模型哪家强。
我决定开始支持ai代替 ...

让楼主把标题的排名改榜单吧,只看个标题歧义确实多
回复

使用道具 举报

     
发表于 2025-1-22 15:13 来自手机 | 显示全部楼层
S1用户认可度也是权威榜单!

干脆搞个大模型鉴赏投票
回复

使用道具 举报

     
发表于 2025-1-22 15:14 | 显示全部楼层
r1的网页版现在有限量吗?还是说无限用?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-29 08:05 , Processed in 0.066492 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表