Stage1st

标题: 清华大模型报告:文心一言中文理解、数学等多项能力全球第一 [打印本页]

作者: 星之卡比    时间: 2024-4-22 00:08
标题: 清华大模型报告:文心一言中文理解、数学等多项能力全球第一
最近,由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。

评测共包含了14个海内外具有代表性的模型,在人类对齐能力评测中,文心一言4.0表现位居国内第一,其中在中文推理、中文语言等评测上,文心一言分数领先,和其他模型拉开明显差距,中文理解上,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排在中下游,并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上,文心一言4.0与Claude-3并列全球第一; GPT-4系列模型位列第四五,其他模型得分在55分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。在安全性评测上,国内模型文心一言4.0拿下最高分(89.1分),Claude-3仅列第四。
作者: 无名小卒    时间: 2024-4-22 00:11
chatgpt的数学确实差,加法都算不清楚
作者: tsubasa9    时间: 2024-4-22 00:16
数学那么强?难道要开个文心4的会员了
作者: tylunas    时间: 2024-4-22 00:16
若要佛法兴,除非僧赞僧。
作者: canti    时间: 2024-4-22 00:18
本帖最后由 canti 于 2024-4-22 00:20 编辑

https://blog.csdn.net/cf2suds8x8f0v/article/details/137942965
这里有比较完整的评测标准和结果

[attach]1600522[/attach]
[attach]1600528[/attach]
[attach]1600526[/attach]
[attach]1600527[/attach]
[attach]1600525[/attach]
[attach]1600523[/attach]
[attach]1600524[/attach]
[attach]1600529[/attach]
—— 来自 S1Fun
作者: titians    时间: 2024-4-22 00:27
中文我信,文心帮我娃写的作文比gpt强多了
作者: 诚司    时间: 2024-4-22 00:30
所有的榜只能看个大概,并没太大意义,如果硬说有个榜最有用,那应该是 LMSYS Chatbot Arena Leaderboard,但是国内大模型都不向海外服务,所以这些闭源的都没法上榜
国外和国内的榜基本只能靠Qwen1.5 72B的表现来做baseline对齐,但Qwen被鬼佬吐槽最多的就是经常出中文, Chatbot Arena上他也是吃亏的

不过现在llama3时代,开源模型的能力基本都在llama3 70B的斩杀线以下,闭源的最多有稍微比llama3强的,没有强太多的,以后这种排行榜为了挽尊估计会用多语言能力给llama3降分,否则全被llama3干趴下这可怎么办啊
作者: 王怡人    时间: 2024-4-22 00:50
诚司 发表于 2024-4-22 00:30
所有的榜只能看个大概,并没太大意义,如果硬说有个榜最有用,那应该是 LMSYS Chatbot Arena Leaderboard, ...

llama3 70B用了下别人部署的demo,  中文能力还是很拉, 最简单的,  我问中文你直接给我回答中文这点都做不到需要加prompt,  这种模型才是很难维持中文输出,  之前很多老外本地部署用Qwen而不用llama2的原因就是llama2对小语种的输出非常灾难, 包括欧洲语言都是一样, 比如要他输出丹麦语它就是会经常忘了继续输出英文,  Qwen这点上至少比llama2强得多.  我用过llama3之后就觉得国内这帮做中文大模型的根本不用急
作者: 很久就在那边l    时间: 2024-4-22 01:01
送了一天试用体验了一下确实比免费的好很多,但是还是不值得充钱
作者: 诚司    时间: 2024-4-22 01:06
本帖最后由 诚司 于 2024-4-22 01:28 编辑
王怡人 发表于 2024-4-22 00:50
llama3 70B用了下别人部署的demo,  中文能力还是很拉, 最简单的,  我问中文你直接给我回答中文这点都做不 ...

llama3和llama2一样,能读中文,但写中文不行
但是从llama3 8B到llama3 70B有一个质变,那就是生产力级别的东西你用中文写prompt,他能完全理解你的意思(command R+就做不到这点,很可能英文能答对,但中文不行,Qwen1.5 72B则是中文 做不到的,英文也做不到),然后输出的东西,如果不看语言的话,它比Qwen-max还要强,我在 Chatbot Arena上打了很多次,每次也把东西输入给Qwen-max,结果基本都是llama3 和Claude 3 Opus、 GPT-4-Turbo-2024-04-09差不多乃至更强,而llama3 70B远比Qwen-max强
完全可以让llama3去做复杂的任务,需要输出中文任务让llama3去思考、做tool use和推理,然后Qwen去输出中文,读中文都不用Qwen做

当然,llama3这个结果证明了一件事,llama3 70B能力这么牛逼而llama3 8B这么垃圾,但是按理说不可能喂给llama3 8B的数据更少,这只能证明8B模型就到这里了,喂的数据再多7倍也没用

作者: 隐形术的隐形书    时间: 2024-4-22 01:10
但通义千问生成的东西文采好点,文心一言识别可以,但是生成比较保守
作者: cqc1021    时间: 2024-4-22 01:14
文心一言写机关八股文确实远胜chatgpt

—— 来自 samsung SM-N9860, Android 13上的 S1Next-鹅版 v2.5.4
作者: 诚司    时间: 2024-4-22 01:16
本帖最后由 诚司 于 2024-4-22 01:18 编辑
隐形术的隐形书 发表于 2024-4-22 01:10
但通义千问生成的东西文采好点,文心一言识别可以,但是生成比较保守

关键是Qwen有开源版,不但现在有72B,下周据说还有110B开源(现在有demo了),开源模型能调的东西多了去了,就算不练,鼓捣编码策略都有114514种方法能让输出变好,lm-format-enforcer就这么搞的,比如,你写个正则表达式,让模型按你写得正则来填内容,不只是json,什么都行,可以做个提纲,first xxxx, second xxxx,third xxx 这样都行。当然汉字unicode的情况用lm-format-enforcer可能有问题
中文有Qwen,英文有llama3,多语言有Command R+,这三个能几乎能把闭源全干死,openai搞不出新的模型他也得死


作者: 与天争锋_LZ    时间: 2024-4-22 01:23
作为智能体差那么多?
作者: Rushtime33    时间: 2024-4-22 01:59
评测项目怎么还有安全和价值观的,这个怎么量化啊

—— 来自 S1Fun
作者: 是挞不是派    时间: 2024-4-22 02:03
智能体能力表现是啥意思
作者: 好much橘    时间: 2024-4-22 03:26
所以现在有哪个值得开会员的吗
这几天才刚开始玩,文心和ChatGPT免费版问一些就业方向上的事情,都是给我打马虎眼让我好好查证收集资料注意风险问更有倾向的东西感觉都非常中立,还是说这种部分目前只能这样了。
作者: 王怡人    时间: 2024-4-22 03:56
好much橘 发表于 2024-4-22 03:26
所以现在有哪个值得开会员的吗
这几天才刚开始玩,文心和ChatGPT免费版问一些就业方向上的事情,都 ...

看用途吧, 体制内那些需要写材料的适合文心, 其他的肯定是能开ChatGPT的会员就开ChatGPT的

但是你现在都不知道开了有什么用, 那就完全没必要开
作者: red2077    时间: 2024-4-22 08:08
那么你买国行苹果吗?
作者: SmterC    时间: 2024-4-22 08:16
国内的大模型写代码实际体验哪个比较强?之前试下来就感觉百川的生成结果还行,文心一言完全不能看
通义千问和讯飞星火之前试下来感觉也不如百川,不知道现在怎么样了
作者: 万恶淫猥手    时间: 2024-4-22 08:22
本帖最后由 万恶淫猥手 于 2024-4-22 08:28 编辑

这么多人吹Qwen我其实没想明白,我用的70b模型,除了对话效果好一点。
但是推理能力和指令遵循能力很差啊,哪怕我跟了很详细的CoT也会出一些明显不符合要求的结果。看上去只对对话做了很多优化,生产用不大行啊
如果要我选,我当然选Mistral啊,指令遵循效果好,只是中文确实不行。实现不行不是还有WizardLM-2嘛

作者: feve9999    时间: 2024-4-22 08:30
写网文战斗场景哪个好。
作者: cheeya    时间: 2024-4-22 08:41
对中文成语的理解能力都不太行的样子。
生成的内容也是以官方的、书面语言为主,不够口语化、真人化
作者: oskneo    时间: 2024-4-22 08:58
记得以前下载了文心,问推荐广州最适合acg宅的ktv,然后回答请遵守法律啥的。

—— 来自 HUAWEI TAH-AN00m, Android 12上的 S1Next-鹅版 v2.5.4
作者: 765PRO    时间: 2024-4-22 09:09
为什么没有谷歌的
作者: x.cat    时间: 2024-4-22 09:22
那么,有没有免费的文心4.0使用呢?
作者: stonego    时间: 2024-4-22 09:29
claude的问题就是封号太严重,能力确实顶
作者: flyinsea    时间: 2024-4-22 09:32
诚司 发表于 2024-4-22 01:16
关键是Qwen有开源版,不但现在有72B,下周据说还有110B开源(现在有demo了),开源模型能调的东西多了去了 ...

请问下70B的个人本地部署不起,7B左右的哪个大模型好点,chatGLM如何?
作者: 诚司    时间: 2024-4-22 10:02
本帖最后由 诚司 于 2024-4-22 10:08 编辑
flyinsea 发表于 2024-4-22 09:32
请问下70B的个人本地部署不起,7B左右的哪个大模型好点,chatGLM如何?

7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别用了
7B直接用4bit量化的gguf,然后llama.cpp的安卓版,用termux跑linux中端,手机部署,不需要pc跑

其实70B没那么难本地部署,两个2080Ti 22G就够,只不过一般人不用能装两块卡的机箱罢了,外置显卡凑两张显卡似乎可以。其实30B左右是个分界线,30B以下跑生产任务还好,个人用也就听个响……
作者: 诚司    时间: 2024-4-22 10:16
万恶淫猥手 发表于 2024-4-22 08:22
这么多人吹Qwen我其实没想明白,我用的70b模型,除了对话效果好一点。
但是推理能力和指令遵循能力 ...

现在llama3>Mistral>Command R+>Qwen,而且llama3中文比mistral还强点,几乎无敌了
作者: flyinsea    时间: 2024-4-22 10:22
诚司 发表于 2024-4-22 10:02
7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别 ...

了解,谢了~
作者: 阿萨托斯    时间: 2024-4-22 10:29
文心一言3.5检查错别字还是不行
既是也是这种关联词检查不出错别字,写成即是也是也认为是正确的
不知道4.0怎么样
作者: 上将郝萌    时间: 2024-4-22 10:30
文心4.0会员点赞,至少副处级水平

—— 来自 Xiaomi 2210132C, Android 14上的 S1Next-鹅版 v2.5.2
作者: luguozmy    时间: 2024-4-22 11:31
诚司 发表于 2024-4-22 10:02
7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别 ...

4090可以吗?
作者: 酷乐    时间: 2024-4-22 11:34
x.cat 发表于 2024-4-22 09:22
那么,有没有免费的文心4.0使用呢?


百度翻译的AI中英互译,普通用户每天白嫖三次,而且还会恢复字数,只要有正字数,就能在限定长度内,用消耗双倍字数的高级版翻完。
作者: GJRstone    时间: 2024-4-22 11:35
文心4.0写代码不如3.5,嘴还比3.5硬。
作者: 诚司    时间: 2024-4-22 11:39
luguozmy 发表于 2024-4-22 11:31
4090可以吗?

笔记本版的4090显存只有16g,不太行,台式机的24g显存,大体可以装下qwen 32b,不过我没试过上下文长度多少。
但我觉得4090跑这个太亏了,因为个人用而非生产用llm其实没那么时延敏感,4090相比4060,红迪有人测过,能装下的话,快3倍左右,但是10Tokens/s以上的速度其实没用,那4090也就是显存大一点了……考虑价格有点亏
qwen32b其实纯cpu跑也能1 token每秒,只要加速到3到4 token就差不多能用了,最合适的还是两个显卡装这个尺度的模型

70b需要至少44g显存才能用,4090就肯定不行了,搞两个2080ti22g 或者两个3090吧
作者: 泰坦失足    时间: 2024-4-22 11:44
“李彦宏:文心一言用户数破2亿,开源模型会越来越落后”
反正我用开源的Llama3和Qwen,不然每次大批量跑全文分析都要琢磨下这些token要多少钱。上次看百度开会请了项立刚去,然后他回来吹百度怎么好怎么好

作者: 泰坦失足    时间: 2024-4-22 11:48
诚司 发表于 2024-4-22 11:39
笔记本版的4090显存只有16g,不太行,台式机的24g显存,大体可以装下qwen 32b,不过我没试过上下文长度多 ...

https://www.reddit.com/r/LocalLL ... gguf_on_24gig_vram/
量化模型的话,有人说70b都行。我一般都是用4bits的量化版,推理速度更快还能有更长的上下文空间。
作者: 诚司    时间: 2024-4-22 11:51
泰坦失足 发表于 2024-4-22 11:48
https://www.reddit.com/r/LocalLLaMA/comments/1c7owci/running_llama370b_gguf_on_24gig_vram/
量化模 ...

70b在4090上跑那是4bit以下量化了,反正我不敢用这个精度的
作者: 无敌のpeach    时间: 2024-4-22 12:47
70b跑4bit量化最低两张2080ti矿

所以泥潭有没有AI讨论群?经常在其他群看到用弱智吧问题或者各种没有实际意义的问题拿来测模型能力的,真不如选几个有意义的场景去玩应用
作者: 约瑟夫海顿    时间: 2024-4-22 13:02
清华啊,怎么不评估一下清华自己的

----发送自 STAGE1 App for Android.
作者: thisism    时间: 2024-4-22 13:07
提示: 作者被禁止或删除 内容自动屏蔽
作者: wszweill    时间: 2024-4-22 13:09
本帖最后由 wszweill 于 2024-4-22 00:14 编辑
Rushtime33 发表于 2024-4-21 12:59
评测项目怎么还有安全和价值观的,这个怎么量化啊

—— 来自 S1Fun

语言反歧视是经典问题了。
虽然实际操作中经常会带屁股,但是不带(某种屁股)的量化还是好做的。

简单例子,男人该不该干家务 vs 女人该不该干家务。 把男女相互调换,应当产出一致性的结果。因此操作中可以把容易产生歧视的prompt打包来检验,当然了,反歧视本身也是有屁股的,毕竟IT界一般偏左  至于文中这个安全和价值观,那肯定有可以检测的数据集呀( 正经商用软件都有这个要求吧

作者: lamuchair    时间: 2024-4-22 13:15
cqc1021 发表于 2024-4-22 01:14
文心一言写机关八股文确实远胜chatgpt

—— 来自 samsung SM-N9860, Android 13上的 S1Next-鹅版 v ...

请问如何操作呢?
作者: tylunas    时间: 2024-4-22 13:18
诚司 发表于 2024-4-22 10:02
7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别 ...

关注fastllm喵,关注fastllm谢谢喵

利益相关:contributor
作者: tylunas    时间: 2024-4-22 13:24
flyinsea 发表于 2024-4-22 09:32
请问下70B的个人本地部署不起,7B左右的哪个大模型好点,chatGLM如何?

目前7B级别硬要找的话,应该是WizardLM-2,部分场景下能达到14B甚至34B的水平。
作者: wszweill    时间: 2024-4-22 13:25
好much橘 发表于 2024-4-21 14:26
所以现在有哪个值得开会员的吗
这几天才刚开始玩,文心和ChatGPT免费版问一些就业方向上的事情,都 ...

没呀,这个就是标准的价值观中立问题。企业就是避免给你一个答案影响你判断的
你想想GPT的语料库背后其实是一大堆肯尼亚黑叔叔标注的不知道啥年代啥来源的资料。。你真的确定用这玩意来指导就业嘛
gpt模型毕竟只是语言处理模型,顶多告诉你怎么分析,真正的推理能力都不一定能算明白初中数学(
作者: simonroam    时间: 2024-4-22 14:54
好much橘 发表于 2024-4-22 03:26
所以现在有哪个值得开会员的吗
这几天才刚开始玩,文心和ChatGPT免费版问一些就业方向上的事情,都 ...

你这个现在的互联网都帮不了你啊,有价值的信息差还得是靠请客吃饭,机关工作人脉和同学才能获得的
作者: 另一个小智    时间: 2024-4-22 15:32
用文心写过一次企业内通讯稿,确实要手动改的部分不多。
作者: 推倒大叔    时间: 2024-4-22 15:55
我个人实际使用不如阿里的,  跟阿里的比起来简直一坨
作者: 王怡人    时间: 2024-4-22 20:23
诚司 发表于 2024-4-22 01:06
llama3和llama2一样,能读中文,但写中文不行
但是从llama3 8B到llama3 70B有一个质变,那就是生产力级别 ...

[attach]1601159[/attach]

llama3的训练数据里只有5%多一点的内容是非英语的, 里面包含30多种语言,  也就是说中文在训练数据里的占比不到0.2%,  这样的模型中文能力跟国内这些原生主要使用中文训练的根本没法比了,   可能理解都会有障碍,  我觉得深入使用下去肯定能发现中文理解能力的不足.

作者: 万恶淫猥手    时间: 2024-4-22 22:18
王怡人 发表于 2024-4-22 20:23
llama3的训练数据里只有5%多一点的内容是非英语的, 里面包含30多种语言,  也就是说中文在训练数据里的 ...

llama3现在有很多中文调优了,可以拉几个对比一下。这玩意基本上半天到一天就出来了
作者: 万恶淫猥手    时间: 2024-4-22 22:19
本帖最后由 万恶淫猥手 于 2024-4-23 17:10 编辑
无敌のpeach 发表于 2024-4-22 12:47
70b跑4bit量化最低两张2080ti矿

所以泥潭有没有AI讨论群?经常在其他群看到用弱智吧问题或者各种没有实际 ...

没有的话就直接建一个呗

AI 小助手群,讨论一下 AI 开发和应用 群号 956841615



作者: kotori68    时间: 2024-4-22 23:19
x.cat 发表于 2024-4-22 09:22
那么,有没有免费的文心4.0使用呢?

有的,购买极越01,车上的文心一言4.0是免费的

—— 来自 Xiaomi 2304FPN6DC, Android 14上的 S1Next-鹅版 v2.5.4
作者: treexper    时间: 2024-4-22 23:27
本帖最后由 treexper 于 2024-4-22 23:29 编辑
泰坦失足 发表于 2024-4-22 11:48
https://www.reddit.com/r/LocalLLaMA/comments/1c7owci/running_llama370b_gguf_on_24gig_vram/
量化模 ...

llama3 70b q4可以跑,offload 40层,速度只有2t/s。
反正是offload,只要内存够大,够耐心就行。

[attach]1601348[/attach]

作者: Freewolf    时间: 2024-4-22 23:31
约瑟夫海顿 发表于 2024-4-22 13:02
清华啊,怎么不评估一下清华自己的

----发送自 STAGE1 App for Android.

里面有评估GLM-4,这个就是清华的
作者: naclken.    时间: 2024-4-23 00:02
这安全和价值观表现不是越高越好吧

作者: saya1892    时间: 2024-4-23 00:32
「人类对齐能力」是什么意思
作者: linchen0_0    时间: 2024-4-23 00:44
弱智吧数据库训练出来的?
作者: 王怡人    时间: 2024-4-23 00:49
saya1892 发表于 2024-4-23 00:32
「人类对齐能力」是什么意思

就是道德观价值观表现得更像人, 以免被犯罪分子利用或者产生不良的引导, 比如没对齐之前你让AI教你如何当恐怖 分子, AI可能就直接教你了, 对齐之后就会拒绝教你.
作者: 王怡人    时间: 2024-4-23 01:24
万恶淫猥手 发表于 2024-4-22 22:19
没有的话就直接建一个呗

AI 小助手群,讨论一下 AI 开发和应用 群号 956841615 ...

这群号搜不到啊
作者: lzchen    时间: 2024-4-23 01:28
王怡人 发表于 2024-4-23 01:24
这群号搜不到啊

同问,956841615搜不到群。
作者: lzchen    时间: 2024-4-23 01:32
诚司 发表于 2024-4-22 10:02
7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别 ...

大神,刚好借地问一个小问题,现在手头有一个小项目,甲方有一个4090的机器和一个两张a100的机器,想在上面布模型,我想的这个东西应该也不难挺。结果过去一问,他那边要求是只能用光盘导安装包就过去装,根本没法联网,结果就是这个按了几次都是说缺依赖,不是这就是那,贼头痛,不知道大神有什么办法没有?用docker?或者是网上的一些懒人包行吗?
作者: 诚司    时间: 2024-4-23 02:48
本帖最后由 诚司 于 2024-4-23 03:10 编辑
lzchen 发表于 2024-4-23 01:32
大神,刚好借地问一个小问题,现在手头有一个小项目,甲方有一个4090的机器和一个两张a100的机器,想在上 ...

应该有n种方法……光盘装好显卡驱动,docker肯定是最保险的……

单卡的话最简单是koboldcpp,windows就单个文件,linux下也能用,但我没试过多卡,它的后端llama.cpp是支持多卡的,但不知道kobold支不支持,从来没在多卡机器上打开过

正经点的开发工具的话,llama.cpp和llama.cpp-python的release版有二进制文件(自己编译的话别忘了加llama_cuda=1),llama.cpp的bin你ldd一下就知道依赖哪些.so了,基本是libc(有版本问题)之类,从能运行的本机上拷然后带着就可以。llama.cpp下个release里带cuda编译的wheel,然后pip download 包名,llama.cpp-python的依赖包下下来,另外这俩其实都依赖openai,要pip download openai


transformer和vllm这系列的话,pytorch+transformers都是很好装的,pip download 下全了就行。但一个是推理速度慢,一个是你这单位机器上只能跑量化模型吧,那面对的就是bitsandbytes……这个我不知道是什么问题,我从来没有靠wheel包成功安装过(和环境有关),pip直接装上的经常都是没cuda的,flash attention和xformers也是这样,这种时候可能只能源码用nvcc编译,bitsandbytes的issue里提到过你可以配置一个环境变量,具体我忘了……

要装vllm的话,装0.33版或者更旧的,比0.4版更容易装不少,0.4.1更是比0.4.0还难装一点



作者: lzchen    时间: 2024-4-23 03:14
诚司 发表于 2024-4-23 02:48
应该有n种方法……光盘装好显卡驱动,docker肯定是最保险的……

单卡的话最简单是koboldcpp,windows就单 ...

666,谢谢大佬深夜答复,等会上午就去试试。
作者: 千千千千鸟    时间: 2024-4-23 03:45
文心一言能做标书吗?
就照着招标文件上的123要求,内容不用管实际情况,胡诌能写的出符合要求的东西不,就基础的物业保洁相关的

—— 来自 vivo V2227A, Android 14上的 S1Next-鹅版 v2.5.4
作者: lzchen    时间: 2024-4-23 03:54
千千千千鸟 发表于 2024-4-23 03:45
文心一言能做标书吗?
就照着招标文件上的123要求,内容不用管实际情况,胡诌能写的出符合要求的东西不,就 ...

自己试一下就好,反正我觉得没啥问题。
作者: 唐泽    时间: 2024-4-23 05:22
借楼问下车轱辘讲话稿这种废话WPS和文心谁强点?因为开了WPS会员一直用的WPS,但是写超过1000字完全不行
作者: lzchen    时间: 2024-4-23 08:23
唐泽 发表于 2024-4-23 05:22
借楼问下车轱辘讲话稿这种废话WPS和文心谁强点?因为开了WPS会员一直用的WPS,但是写超过1000字完全不行 ...

WPS用的GLM4,跟文心4在这轱辘话上感觉差不多,逻辑强点,文采弱点。超过1000字的东西,你最好给他一个纲目和部分关键数据,不然生成的东西要改挺多的。
作者: 唐泽    时间: 2024-4-23 08:52
lzchen 发表于 2024-4-23 08:23
WPS用的GLM4,跟文心4在这轱辘话上感觉差不多,逻辑强点,文采弱点。超过1000字的东西,你最好给他一个纲 ...

那就将就着用吧……没啥数据,都是纯纯车轱辘话,还以为文心能直接写个两千来字……主要我单位主业比较偏门,感觉模型都没吃过啥相关的内容的……

作者: 无敌のpeach    时间: 2024-4-23 09:24
万恶淫猥手 发表于 2024-4-22 22:19
没有的话就直接建一个呗

AI 小助手群,讨论一下 AI 开发和应用 群号 956841615 ...

是QQ群吗?搜不到群号
作者: lzchen    时间: 2024-4-23 09:32
唐泽 发表于 2024-4-23 08:52
那就将就着用吧……没啥数据,都是纯纯车轱辘话,还以为文心能直接写个两千来字……主要我单位主业比较偏 ...

这种就要你把相关资料放在提示词里面,让他去仿写了。我一般附带2-3篇例文和基本提纲(提纲其实也可以生成的),这样整体上就不会太离谱。
作者: xihaooo    时间: 2024-4-23 09:43
什么就文心一言那样的辣鸡也配中文理解第一?
有个古诗后面几句我忘了,写了上句问文心一言后面是什么,他给我现编了一段。但凡头脑正常也不会理解成现编个段子玩我吧。
作者: Lisylfn    时间: 2024-4-23 09:48
xihaooo 发表于 2024-4-23 09:43
什么就文心一言那样的辣鸡也配中文理解第一?
有个古诗后面几句我忘了,写了上句问文心一言后面是什么,他 ...

免费和付费是不一样的
作者: 酷乐    时间: 2024-4-23 09:51
xihaooo 发表于 2024-4-23 09:43
什么就文心一言那样的辣鸡也配中文理解第一?
有个古诗后面几句我忘了,写了上句问文心一言后面是什么,他 ...


你说的是3.5,而且这种事其他AI一样有。
作者: lzchen    时间: 2024-4-23 10:08
诚司 发表于 2024-4-23 02:48
应该有n种方法……光盘装好显卡驱动,docker肯定是最保险的……

单卡的话最简单是koboldcpp,windows就单 ...

大佬,最近有没有llama3的gguf模型哈?找了一大圈也没发现哪可以下,不是说开源了么。
作者: xiaoleirei    时间: 2024-4-23 10:12
cqc1021 发表于 2024-4-22 01:14
文心一言写机关八股文确实远胜chatgpt

—— 来自 samsung SM-N9860, Android 13上的 S1Next-鹅版 v ...

怎么喂词能把八股文的字数拉长?句型总是差不多,概述-各个细项-总结,每段2~3行的样子
作者: 诚司    时间: 2024-4-23 10:37
lzchen 发表于 2024-4-23 10:08
大佬,最近有没有llama3的gguf模型哈?找了一大圈也没发现哪可以下,不是说开源了么。 ...

https://huggingface.co/MaziyarPa ... 3-70B-Instruct-GGUF
huggingface搜索的问题,你搜llama3不行,搜llama-3才行
作者: 诚司    时间: 2024-4-23 10:40
xiaoleirei 发表于 2024-4-23 10:12
怎么喂词能把八股文的字数拉长?句型总是差不多,概述-各个细项-总结,每段2~3行的样子 ...

先写一段,然后提示词“请扩写以下的内容”
Qwen1.5-72B我是这么用的,网页通义千问应该差不多
效果感觉还可以的,基本上多样性和提示词数量成正比,给关键词让他写一般都不大行
作者: 酱狐狸    时间: 2024-4-23 10:41
原来WPSAI用的是GLM-4?之前免费测试阶段感觉拉得一批啊,简直废话文学大师
作者: thelinli2    时间: 2024-4-23 10:45
这么牛逼怎么不用在百度搜索上?
作者: lzchen    时间: 2024-4-23 10:49
酱狐狸 发表于 2024-4-23 10:41
原来WPSAI用的是GLM-4?之前免费测试阶段感觉拉得一批啊,简直废话文学大师 ...

免费测试用的3.5,会员之后用的4,其实都是API
作者: lzchen    时间: 2024-4-23 11:00
诚司 发表于 2024-4-23 10:37
https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF
huggingface搜索的问题,你搜lla ...

原来如此,以前不关注国外的模型,最近赶鸭子上架了才临时抱佛脚。。。话说抱抱脸下载是真的慢啊
作者: 诚司    时间: 2024-4-23 11:03
lzchen 发表于 2024-4-23 11:00
原来如此,以前不关注国外的模型,最近赶鸭子上架了才临时抱佛脚。。。话说抱抱脸下载是真的慢啊[ ...

https://www.modelscope.cn/models ... -3-70B-GGUF/summary

忘了, 国内也有源,modelscope还挺多的
作者: xihaooo    时间: 2024-4-23 11:16
Lisylfn 发表于 2024-4-23 09:48
免费和付费是不一样的

排名快垫底的通义千问也没这么玩,百度的下限在哪?
作者: lzchen    时间: 2024-4-23 11:24
xihaooo 发表于 2024-4-23 11:16
排名快垫底的通义千问也没这么玩,百度的下限在哪?

通义在来源领域干得挺好的。百度么,你想想现在用他的人群就知道了,大多数是不懂技术,信息搜集能力较差的。
作者: hyde_caesar    时间: 2024-4-23 11:32
feve9999 发表于 2024-4-22 08:30
写网文战斗场景哪个好。

claude-3, 或者你去国内找找一些小厂做的专门写作的模型(我找过的能用的都比较贵
作者: hyde_caesar    时间: 2024-4-23 11:34
约瑟夫海顿 发表于 2024-4-22 13:02
清华啊,怎么不评估一下清华自己的

----发送自 STAGE1 App for Android.

glm系列的, codegeex系列的就是清华的
作者: hyde_caesar    时间: 2024-4-23 11:36
万恶淫猥手 发表于 2024-4-22 22:19
没有的话就直接建一个呗

AI 小助手群,讨论一下 AI 开发和应用 群号 956841615 ...

搜不到群+1, 求拉
作者: x.cat    时间: 2024-4-23 11:45
王怡人 发表于 2024-4-23 00:49
就是道德观价值观表现得更像人, 以免被犯罪分子利用或者产生不良的引导, 比如没对齐之前你让AI教你如何当 ...

那我要这AI有何用!AI应当提供人类想要获取的而他知道的任意知识
作者: cqc1021    时间: 2024-4-23 11:57
xiaoleirei 发表于 2024-4-23 10:12
怎么喂词能把八股文的字数拉长?句型总是差不多,概述-各个细项-总结,每段2~3行的样子 ...

我是先让它列个提纲,每一点再列几个小标题,然后一个一个写,最后自己再修改补充。
作者: 唐泽    时间: 2024-4-23 12:04
lzchen 发表于 2024-4-23 09:32
这种就要你把相关资料放在提示词里面,让他去仿写了。我一般附带2-3篇例文和基本提纲(提纲其实也可以生 ...

WPS好像没法放太大段的范文,文心有这个功能吗?
作者: 无敌のpeach    时间: 2024-4-23 12:27
英文场景使用多的可以赶紧申请一个groq api,直接白嫖llama3-70b,800 tokens/s真的有香到

—— 来自 OPPO PGFM10, Android 14上的 S1Next-鹅版 v2.5.2
作者: kuleisite1992    时间: 2024-4-23 12:47
提示: 作者被禁止或删除 内容自动屏蔽
作者: chaucerling    时间: 2024-4-23 12:55
kuleisite1992 发表于 2024-4-23 12:47
文心的东西今天刚害得我被罚了半年绩效。各位用ai的时候还是要注意一下。出的党建文章可能在网上是有一模一 ...

因为训练数据就是网络上的内容,ai就是更高级的洗稿
作者: 好想破坏    时间: 2024-4-23 13:18
试了下blender python开发,感觉文心一言免费版肯定是超过gpt3.5的
作者: tylunas    时间: 2024-4-23 13:38
lzchen 发表于 2024-4-23 11:00
原来如此,以前不关注国外的模型,最近赶鸭子上架了才临时抱佛脚。。。话说抱抱脸下载是真的慢啊[ ...

如果modelscope上面没有,可以用镜像 hf-mirror.com
作者: 万恶淫猥手    时间: 2024-4-23 17:09
我的问题,忘记开群号搜索了 @王怡人 @无敌のpeach @hyde_caesar


作者: lzchen    时间: 2024-4-23 20:57
万恶淫猥手 发表于 2024-4-23 17:09
我的问题,忘记开群号搜索了 @王怡人 @无敌のpeach @hyde_caesar

已申请




欢迎光临 Stage1st (https://bbs.saraba1st.com/2b/) Powered by Discuz! X3.5