清华大模型报告：文心一言中文理解、数学等多项能力全球第一

星之卡比 · 发表于 2024-4-22 00:08

最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。

评测共包含了14个海内外具有代表性的模型，在人类对齐能力评测中，文心一言4.0表现位居国内第一，其中在中文推理、中文语言等评测上，文心一言分数领先，和其他模型拉开明显差距，中文理解上，文心一言4.0领先优势明显，领先第二名GLM-4 0.41分，GPT-4系列模型表现较差，排在中下游，并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上，文心一言4.0与Claude-3并列全球第一； GPT-4系列模型位列第四五，其他模型得分在55分附近较为集中，明显落后第一梯队；而在语义理解中的阅读理解能力上，文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。在安全性评测上，国内模型文心一言4.0拿下最高分（89.1分），Claude-3仅列第四。

无名小卒 · 发表于 2024-4-22 00:11

chatgpt的数学确实差，加法都算不清楚

tsubasa9 · 发表于 2024-4-22 00:16

数学那么强？难道要开个文心4的会员了

tylunas · 发表于 2024-4-22 00:16

若要佛法兴，除非僧赞僧。

canti · 发表于 2024-4-22 00:18

本帖最后由 canti 于 2024-4-22 00:20 编辑

https://blog.csdn.net/cf2suds8x8f0v/article/details/137942965
这里有比较完整的评测标准和结果

—— 来自 S1Fun

titians · 发表于 2024-4-22 00:27

中文我信，文心帮我娃写的作文比gpt强多了

诚司 · 发表于 2024-4-22 00:30

提示: 作者被禁止或删除内容自动屏蔽

王怡人 · 发表于 2024-4-22 00:50

提示: 作者被禁止或删除内容自动屏蔽

很久就在那边l · 发表于 2024-4-22 01:01

送了一天试用体验了一下确实比免费的好很多，但是还是不值得充钱

诚司 · 发表于 2024-4-22 01:06

提示: 作者被禁止或删除内容自动屏蔽

隐形术的隐形书 · 发表于 2024-4-22 01:10

但通义千问生成的东西文采好点，文心一言识别可以，但是生成比较保守

cqc1021 · 发表于 2024-4-22 01:14

文心一言写机关八股文确实远胜chatgpt

—— 来自 samsung SM-N9860, Android 13上的 S1Next-鹅版 v2.5.4

诚司 · 发表于 2024-4-22 01:16

提示: 作者被禁止或删除内容自动屏蔽

与天争锋_LZ · 发表于 2024-4-22 01:23

作为智能体差那么多？

Rushtime33 · 发表于 2024-4-22 01:59

评测项目怎么还有安全和价值观的，这个怎么量化啊

—— 来自 S1Fun

是挞不是派 · 发表于 2024-4-22 02:03

智能体能力表现是啥意思

好much橘 · 发表于 2024-4-22 03:26

所以现在有哪个值得开会员的吗

这几天才刚开始玩，文心和ChatGPT免费版问一些就业方向上的事情，都是给我打马虎眼让我好好查证收集资料注意风险

问更有倾向的东西感觉都非常中立，还是说这种部分目前只能这样了。

王怡人 · 发表于 2024-4-22 03:56

提示: 作者被禁止或删除内容自动屏蔽

red2077 · 发表于 2024-4-22 08:08

那么你买国行苹果吗？

SmterC · 发表于 2024-4-22 08:16

国内的大模型写代码实际体验哪个比较强？之前试下来就感觉百川的生成结果还行，文心一言完全不能看
通义千问和讯飞星火之前试下来感觉也不如百川，不知道现在怎么样了

万恶淫猥手 · 发表于 2024-4-22 08:22

本帖最后由万恶淫猥手于 2024-4-22 08:28 编辑

这么多人吹Qwen我其实没想明白，我用的70b模型，除了对话效果好一点。
但是推理能力和指令遵循能力很差啊，哪怕我跟了很详细的CoT也会出一些明显不符合要求的结果。看上去只对对话做了很多优化，生产用不大行啊

如果要我选，我当然选Mistral啊，指令遵循效果好，只是中文确实不行。实现不行不是还有WizardLM-2嘛

feve9999 · 发表于 2024-4-22 08:30

写网文战斗场景哪个好。

cheeya · 发表于 2024-4-22 08:41

对中文成语的理解能力都不太行的样子。
生成的内容也是以官方的、书面语言为主，不够口语化、真人化

oskneo · 发表于 2024-4-22 08:58

提示: 作者被禁止或删除内容自动屏蔽

765PRO · 发表于 2024-4-22 09:09

为什么没有谷歌的

x.cat · 发表于 2024-4-22 09:22

那么，有没有免费的文心4.0使用呢？

stonego · 发表于 2024-4-22 09:29

claude的问题就是封号太严重，能力确实顶

flyinsea · 发表于 2024-4-22 09:32

诚司发表于 2024-4-22 01:16
关键是Qwen有开源版，不但现在有72B，下周据说还有110B开源（现在有demo了），开源模型能调的东西多了去了 ...

请问下70B的个人本地部署不起，7B左右的哪个大模型好点，chatGLM如何？

诚司 · 发表于 2024-4-22 10:02

提示: 作者被禁止或删除内容自动屏蔽

诚司 · 发表于 2024-4-22 10:16

提示: 作者被禁止或删除内容自动屏蔽

flyinsea · 发表于 2024-4-22 10:22

诚司发表于 2024-4-22 10:02
7B没有好的，硬说的话Qwen1.5 7B，纯英文那就llama3，chatglm是一个非常老的baseline，chatglm3也不行，别 ...

了解，谢了~

阿萨托斯 · 发表于 2024-4-22 10:29

提示: 作者被禁止或删除内容自动屏蔽

上将郝萌 · 发表于 2024-4-22 10:30

文心4.0会员点赞，至少副处级水平

—— 来自 Xiaomi 2210132C, Android 14上的 S1Next-鹅版 v2.5.2

luguozmy · 发表于 2024-4-22 11:31

诚司发表于 2024-4-22 10:02
7B没有好的，硬说的话Qwen1.5 7B，纯英文那就llama3，chatglm是一个非常老的baseline，chatglm3也不行，别 ...

4090可以吗？

酷乐 · 发表于 2024-4-22 11:34

x.cat 发表于 2024-4-22 09:22
那么，有没有免费的文心4.0使用呢？

百度翻译的AI中英互译，普通用户每天白嫖三次，而且还会恢复字数，只要有正字数，就能在限定长度内，用消耗双倍字数的高级版翻完。

GJRstone · 发表于 2024-4-22 11:35

文心4.0写代码不如3.5，嘴还比3.5硬。

诚司 · 发表于 2024-4-22 11:39

提示: 作者被禁止或删除内容自动屏蔽

泰坦失足 · 发表于 2024-4-22 11:44

“李彦宏：文心一言用户数破2亿，开源模型会越来越落后”
反正我用开源的Llama3和Qwen，不然每次大批量跑全文分析都要琢磨下这些token要多少钱。上次看百度开会请了项立刚去，然后他回来吹百度怎么好怎么好

。

泰坦失足 · 发表于 2024-4-22 11:48

诚司发表于 2024-4-22 11:39
笔记本版的4090显存只有16g，不太行，台式机的24g显存，大体可以装下qwen 32b，不过我没试过上下文长度多 ...

https://www.reddit.com/r/LocalLL ... gguf_on_24gig_vram/
量化模型的话，有人说70b都行。我一般都是用4bits的量化版，推理速度更快还能有更长的上下文空间。

诚司 · 发表于 2024-4-22 11:51

提示: 作者被禁止或删除内容自动屏蔽

		自动登录	找回密码
密码			立即注册

[科技] 清华大模型报告：文心一言中文理解、数学等多项能力全球第一

本帖子中包含更多资源

评分

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2024-4-22 00:30 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

王怡人王怡人当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2018-11-25 头像被屏蔽	发表于 2024-4-22 00:50 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2024-4-22 01:06 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2024-4-22 01:16 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

王怡人王怡人当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2018-11-25 头像被屏蔽	发表于 2024-4-22 03:56 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

oskneo oskneo 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2019-1-4 头像被屏蔽	发表于 2024-4-22 08:58 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2024-4-22 10:02 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2024-4-22 10:16 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

阿萨托斯阿萨托斯当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2013-7-19 头像被屏蔽	发表于 2024-4-22 10:29 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2024-4-22 11:39 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2024-4-22 11:51 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报