哪个大模型排名的榜单比较权威认可度高?
本帖最后由 marquez 于 2025-1-22 14:15 编辑deepseek-r1发布有感。
目前榜单很多,国内一堆,国外也有lmarena、livebench等等,所以哪个榜单认可度比较高?哪个权威一些?为什么?
---
编辑:更新了标题,明确想比较的是榜单。
本帖最后由 枯风瘦雪 于 2025-1-22 13:58 编辑
算了,看错,不过各个榜单都是凸显某个维度的特殊能力的,主流的玩家也都有特定的刷榜的trick,不是业内说不出来 看别人给的方案是代码用claude/qwen,翻译用deepseek,总结用gemini 对一般人来说deepseek够用了 楼主问的是哪个榜单更权威认可度更高,结果回帖一堆人在这说什么场景用啥模型,确实是不如AI了 怎么判断模型强不强?o1pro那价格重复问来问去不是钱多烧得慌,我觉得中立的第三方评测肯定比个人的感觉更准,看参数肯定比用户感受更准
然后就我自己的用户感受来判断的话,首先取决于提问技巧,其次看ai有没偷懒(现在ai不会现编了但是明显忙时会敷衍),最后看领域,我问天体物理学问题最好用的是gemini2.0thinking,编程最好用的是copilot(主要是方便,编程ai现在普遍有点呆),信息检索openai最好用(o1pro用不起),入门claude最好用,因为claude理解能力我觉得是最强的,有时候不用提示词他就能懂你想要什么 有钱o1 pro呗,这个最强,毋庸置疑的强,强到没用
claude写代码比gpt强么?小白打算跟着ai学python,这么说用claude比较好? 每个榜都有所侧重。具体你要看详细描述。但是如果大部份模型都能做到80-90多的榜基本没啥没啥参考意义了 我体感是逻辑推理用deepseek,文字处理(注意仅限文本,不包括表格什么的)用豆包,日常提问、知识检索还得是4o。 tokamak 发表于 2025-1-22 14:02
在有人提醒大家楼主的问题是“榜单哪家强”后,大家还是孜孜不倦地探讨模型哪家强。
我决定开始支持ai代替 ...
让楼主把标题的排名改榜单吧,只看个标题歧义确实多 S1用户认可度也是权威榜单!
干脆搞个大模型鉴赏投票 r1的网页版现在有限量吗?还是说无限用?
页:
[1]