zt用弱智吧数据训练的AI爆杀了所有中文平台

yweili999 · 发表于 2024-4-4 04:15

本帖最后由 yweili999 于 2024-4-4 08:22 编辑

https://zhuanlan.zhihu.com/p/690640864

“是的，就是我们认识那个弱智吧”
不行太好笑了。

[2403.18058] COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning (arxiv.org)

中科院为了搞出更适合中国宝宝的 AI，搜集了各大社区平台的语料，精心整理出一份数据集。

他们拿这些数据去炼ai，然后测了下各家数据炼出来的性能，就下面这个表：

嗯？第一名ruozhiba？
我的心情：看看是谁的部将， 76.9 得分第一……嗯？ Ruozhiba？什么论坛，没听说过？等会，弱智吧？真的假的？

往上前一翻，还真就那个弱智吧，他们收集了点赞最多的500个帖子，可以看到，吃了弱智吧数据集的 Yi-34B 在开放式问答、头脑风暴、分类、生成、总结、封闭式问答、提取、代码8个项目下都拿到了最高分。（遥遥领先！）

哇，真的是你啊

再看眼这个表：

最强的是，弱智吧 code 得分连 SegmentFault 都超了。

知乎均分第二，Math 这一项拿了第一，守住了知识平台的荣光。要是这波没弱智吧知乎就第一了！

题外话，小红书均分才50.3，遥遥落后！

研究员说，

有趣的是，弱智吧在所有子集中平均排名第二。我们推测这是因为它可以增强模型的逻辑推理能力，从而有利于大多数指令跟踪任务。

我还有一点小疑问，就他们为什么会想到去弱智吧收集数据（挠头）。

腥棚 · 发表于 2024-4-4 04:24

至今仍然觉得弱智吧最乐的贴是“男子悬崖坠亡工作人员称买100米蹦极绳送100米”

ultraseven · 发表于 2024-4-4 04:28

看看S1的

御坂MKII · 发表于 2024-4-4 05:36

草，这下真成人类智慧结晶了

weiyang · 发表于 2024-4-4 05:59

这下弱智吧真没法收弱智了，话说回来研究员怎么想到去弱智吧这么个冷门论坛收集语料，怕不是有个黄牌在里面

Alpha1918 · 发表于 2024-4-4 06:04

weiyang 发表于 2024-4-4 05:59
这下弱智吧真没法收弱智了，话说回来研究员怎么想到去弱智吧这么个冷门论坛收集语料，怕不是有个黄牌在里面 ...

为什么会想不到，我看知乎 B 站上面各种大语言模型评测时必有的环节就是挑战弱智吧

red2077 · 发表于 2024-4-4 06:05

我也想看看这500个高赞帖子，不知道有没有文档

roP6lFN · 发表于 2024-4-4 06:19

一本正经的解释弱智吧为什么适合当样本那段真的乐到我了

女神アイギス · 发表于 2024-4-4 06:30

当年彭罗斯写科普的时候，设想的图灵测试中真正为难ai的题目就是类似弱智吧的抖机灵段子

第七月球 · 发表于 2024-4-4 06:32

弱智吧里精选笑话含金量真的很高，运营的官博收集的那些就比较水了

与天争锋_LZ · 发表于 2024-4-4 06:51

weiyang 发表于 2024-4-4 05:59
这下弱智吧真没法收弱智了，话说回来研究员怎么想到去弱智吧这么个冷门论坛收集语料，怕不是有个黄牌在里面 ...

网上一堆弱智吧大战chatgpt4的

能代 · 发表于 2024-4-4 07:33

所以..有没有S1的数据训练成果..

Jumbohard · 发表于 2024-4-4 07:37

能代发表于 2024-4-4 07:33
所以..有没有S1的数据训练成果..

可以先用微博的当代餐

—— 来自 S1Fun

诚司 · 发表于 2024-4-4 08:59

提示: 作者被禁止或删除内容自动屏蔽

所罗门大善人 · 发表于 2024-4-4 09:03

弱智吧没有弱智
就如同老婆饼里没有老婆

囧Smith · 发表于 2024-4-4 09:06

诚司发表于 2024-4-4 08:59
这个数据集可以在https://hf-mirror.com/datasets/m-a-p/COIG-CQIA/tree/main/ruozhiba
下载到

这些是处理过的吗？output看起来挺ai的

gane1010 · 发表于 2024-4-4 09:07

schneehertz · 发表于 2024-4-4 09:07

囧Smith 发表于 2024-4-4 09:06
这些是处理过的吗？output看起来挺ai的

output明显就是GPT-4

—— 来自 Xiaomi 2203121C, Android 14上的 S1Next-鹅版 v2.5.3-play

诚司 · 发表于 2024-4-4 09:08

提示: 作者被禁止或删除内容自动屏蔽

fat · 发表于 2024-4-4 09:12

哈哈哈哈哈哈草。真的能理解弱智吧才是真的智能啊

schneehertz · 发表于 2024-4-4 09:17

大概看了下，弱智吧的数据基本就是弱智吧问题+GPT-4的回答，其他的语料是网站上的文字+人工/LLM写的问题，input的文本很短而output比较长

所以就是原始语料训练 vs GPT-4蒸馏，那得到主楼的数据再正常不过了，有点哗众取宠吧

—— 来自 Xiaomi 2203121C, Android 14上的 S1Next-鹅版 v2.5.3-play

stplum · 发表于 2024-4-4 09:27

第七月球发表于 2024-4-4 06:32
弱智吧里精选笑话含金量真的很高，运营的官博收集的那些就比较水了

那个官博是真的弱智，上次我还看到发了个算命的广告

寒蝉 · 发表于 2024-4-4 09:35

谁跟你说弱智吧里头有弱智？

skgaminger1988 · 发表于 2024-4-4 09:42

提示: 作者被禁止或删除内容自动屏蔽

jiklp87 · 发表于 2024-4-4 10:46

这下大智若愚了

—— 来自 S1Fun

a317216007 · 发表于 2024-4-4 10:49

弱智吧才是大智若愚
知乎本质大于弱智

—— 来自 OnePlus KB2000, Android 11上的 S1Next-鹅版 v2.5.2-play

skyuni · 发表于 2024-4-4 10:54

提示: 作者被禁止或删除内容自动屏蔽

墨圣 · 发表于 2024-4-4 10:54

提示: 作者被禁止或删除内容自动屏蔽

ycjiang1337 · 发表于 2024-4-4 10:57

schneehertz 发表于 2024-4-4 09:17
大概看了下，弱智吧的数据基本就是弱智吧问题+GPT-4的回答，其他的语料是网站上的文字+人工/LLM写的问题，i ...

你这个“再正常不过了”是怎么得出来的？训练数据跟测试数据又不在同一个领域内

好读书_不求甚解 · 发表于 2024-4-4 11:06

weiyang 发表于 2024-4-4 05:59
这下弱智吧真没法收弱智了，话说回来研究员怎么想到去弱智吧这么个冷门论坛收集语料，怕不是有个黄牌在里面 ...

估计一作就是高强度冲浪的人，机器学习那边好像还有用坤坤训练图像识别的，据说原视频很好用

推倒大叔 · 发表于 2024-4-4 11:07

外野比的过ruoviba吗

坚果大爷 · 发表于 2024-4-4 11:14

毕竟弱智吧不收真弱智

萌二 · 发表于 2024-4-4 12:26

破解弱智吧逻辑陷阱提高性能

最终兵器狂战 · 发表于 2024-4-4 13:39

更好奇均分垫底36.7，搞不好分数没我体温高的那个Finance是个什么强者。。。

希克苏鲁伯 · 发表于 2024-4-4 13:42

red2077 发表于 2024-4-4 06:05
我也想看看这500个高赞帖子，不知道有没有文档

去微博的弱智吧官微搜每半年的合集就行了

reficul · 发表于 2024-4-4 13:48

弱智吧是来研究弱智的

phorcys02 · 发表于 2024-4-4 14:00

诚司发表于 2024-4-4 08:59
这个数据集可以在https://hf-mirror.com/datasets/m-a-p/COIG-CQIA/tree/main/ruozhiba
下载到

我看了下，是只取了弱智吧的问题，换上了自己的回答吧...

Surlert · 发表于 2024-4-4 14:01

也许是因为弱智吧的内容确实要过脑才能理解，训练出脑回路的效率比四平八稳的信息类网站高许多。

句扶 · 发表于 2024-4-4 14:06

弱智吧那个
岳飞北伐——暴金毙咯
风波亭——宋人投了
的段子太棒了

蓝骑士 · 发表于 2024-4-4 14:06

去年不还有个孙笑川吧ai嘛

-- 来自有消息提醒的 Stage1官方 Android客户端

		自动登录	找回密码
密码			立即注册

[科技] zt用弱智吧数据训练的AI爆杀了所有中文平台

本帖子中包含更多资源

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2024-4-4 08:59 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2024-4-4 09:08 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

skgaminger1988 skgaminger1988 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2019-4-1 头像被屏蔽	发表于 2024-4-4 09:42 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

skyuni skyuni 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2009-2-15 头像被屏蔽	发表于 2024-4-4 10:54 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

墨圣墨圣当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2021-1-27 头像被屏蔽	发表于 2024-4-4 10:54 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报