marquez 发表于 2025-1-22 13:34

哪个大模型排名的榜单比较权威认可度高?

本帖最后由 marquez 于 2025-1-22 14:15 编辑

deepseek-r1发布有感。

目前榜单很多,国内一堆,国外也有lmarena、livebench等等,所以哪个榜单认可度比较高?哪个权威一些?为什么?

---

编辑:更新了标题,明确想比较的是榜单。

枯风瘦雪 发表于 2025-1-22 13:36

本帖最后由 枯风瘦雪 于 2025-1-22 13:58 编辑

算了,看错,不过各个榜单都是凸显某个维度的特殊能力的,主流的玩家也都有特定的刷榜的trick,不是业内说不出来

はちたや 发表于 2025-1-22 13:38

看别人给的方案是代码用claude/qwen,翻译用deepseek,总结用gemini

JustW 发表于 2025-1-22 13:39

对一般人来说deepseek够用了

komoechan 发表于 2025-1-22 13:51

楼主问的是哪个榜单更权威认可度更高,结果回帖一堆人在这说什么场景用啥模型,确实是不如AI了

雪城飞鸟 发表于 2025-1-22 13:53

怎么判断模型强不强?o1pro那价格重复问来问去不是钱多烧得慌,我觉得中立的第三方评测肯定比个人的感觉更准,看参数肯定比用户感受更准
然后就我自己的用户感受来判断的话,首先取决于提问技巧,其次看ai有没偷懒(现在ai不会现编了但是明显忙时会敷衍),最后看领域,我问天体物理学问题最好用的是gemini2.0thinking,编程最好用的是copilot(主要是方便,编程ai现在普遍有点呆),信息检索openai最好用(o1pro用不起),入门claude最好用,因为claude理解能力我觉得是最强的,有时候不用提示词他就能懂你想要什么

mimighost 发表于 2025-1-22 13:57

有钱o1 pro呗,这个最强,毋庸置疑的强,强到没用

Ollie 发表于 2025-1-22 13:59

claude写代码比gpt强么?小白打算跟着ai学python,这么说用claude比较好?

tokamak 发表于 2025-1-22 14:02

overflowal 发表于 2025-1-22 14:03

每个榜都有所侧重。具体你要看详细描述。但是如果大部份模型都能做到80-90多的榜基本没啥没啥参考意义了

假面骑士decade 发表于 2025-1-22 14:07

我体感是逻辑推理用deepseek,文字处理(注意仅限文本,不包括表格什么的)用豆包,日常提问、知识检索还得是4o。

枯风瘦雪 发表于 2025-1-22 14:11

tokamak 发表于 2025-1-22 14:02
在有人提醒大家楼主的问题是“榜单哪家强”后,大家还是孜孜不倦地探讨模型哪家强。
我决定开始支持ai代替 ...
让楼主把标题的排名改榜单吧,只看个标题歧义确实多

吴怀在 发表于 2025-1-22 15:13

S1用户认可度也是权威榜单!

干脆搞个大模型鉴赏投票

bixinhaner 发表于 2025-1-22 15:14

r1的网页版现在有限量吗?还是说无限用?
页: [1]
查看完整版本: 哪个大模型排名的榜单比较权威认可度高?