哪个大模型排名的榜单比较权威认可度高？

marquez 发表于 2025-1-22 13:34

本帖最后由 marquez 于 2025-1-22 14:15 编辑

deepseek-r1发布有感。

目前榜单很多，国内一堆，国外也有lmarena、livebench等等，所以哪个榜单认可度比较高？哪个权威一些？为什么？

---

编辑：更新了标题，明确想比较的是榜单。

枯风瘦雪 发表于 2025-1-22 13:36

本帖最后由枯风瘦雪于 2025-1-22 13:58 编辑

算了，看错，不过各个榜单都是凸显某个维度的特殊能力的，主流的玩家也都有特定的刷榜的trick，不是业内说不出来

はちたや 发表于 2025-1-22 13:38

看别人给的方案是代码用claude/qwen，翻译用deepseek，总结用gemini

JustW 发表于 2025-1-22 13:39

对一般人来说deepseek够用了

komoechan 发表于 2025-1-22 13:51

楼主问的是哪个榜单更权威认可度更高，结果回帖一堆人在这说什么场景用啥模型，确实是不如AI了

雪城飞鸟 发表于 2025-1-22 13:53

怎么判断模型强不强？o1pro那价格重复问来问去不是钱多烧得慌，我觉得中立的第三方评测肯定比个人的感觉更准，看参数肯定比用户感受更准
然后就我自己的用户感受来判断的话，首先取决于提问技巧，其次看ai有没偷懒（现在ai不会现编了但是明显忙时会敷衍），最后看领域，我问天体物理学问题最好用的是gemini2.0thinking，编程最好用的是copilot（主要是方便，编程ai现在普遍有点呆），信息检索openai最好用（o1pro用不起），入门claude最好用，因为claude理解能力我觉得是最强的，有时候不用提示词他就能懂你想要什么

mimighost 发表于 2025-1-22 13:57

有钱o1 pro呗，这个最强，毋庸置疑的强，强到没用

Ollie 发表于 2025-1-22 13:59

claude写代码比gpt强么？小白打算跟着ai学python，这么说用claude比较好？

tokamak 发表于 2025-1-22 14:02

overflowal 发表于 2025-1-22 14:03

每个榜都有所侧重。具体你要看详细描述。但是如果大部份模型都能做到80-90多的榜基本没啥没啥参考意义了

假面骑士decade 发表于 2025-1-22 14:07

我体感是逻辑推理用deepseek，文字处理（注意仅限文本，不包括表格什么的）用豆包，日常提问、知识检索还得是4o。

枯风瘦雪 发表于 2025-1-22 14:11

tokamak 发表于 2025-1-22 14:02
在有人提醒大家楼主的问题是“榜单哪家强”后，大家还是孜孜不倦地探讨模型哪家强。
我决定开始支持ai代替 ...
让楼主把标题的排名改榜单吧，只看个标题歧义确实多

吴怀在 发表于 2025-1-22 15:13

S1用户认可度也是权威榜单！

干脆搞个大模型鉴赏投票

bixinhaner 发表于 2025-1-22 15:14

r1的网页版现在有限量吗？还是说无限用？

页: [1]

Stage1st's Archiver

哪个大模型排名的榜单比较权威认可度高？