找回密码
 立即注册
搜索
查看: 17648|回复: 62

[欢乐] 台湾“中研院”宣布发布自主研发的繁体中文大语言模型

[复制链接]
     
发表于 2023-10-9 03:56 | 显示全部楼层 |阅读模式
本帖最后由 Alpha1918 于 2023-10-9 04:14 编辑

发布新闻稿
从事中文自然语言处理(NLP)研究的中研院CKIP Lab中文词知识库小组,最新开源释出了以Llama 2开发的繁中优化的大型语言模型CKIP-Llama-2-7b,提供给台湾学术圈或AI开发者来使用,可运用在文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学。该模型已放上Github 和Huggingface开放给公众使用,并采用Apache 2.0授权释出。中研院抢先开放测试网页,开放所有人测试。

中研院公开展示了经过多任务微调训练的 CKIP-Llama-2-7b-chat 模型。例如,当你输入「台湾最高的山?」,它可以回答「玉山」,甚至问他「在台湾,什么是22K?」,模型都能够提供相应的回答。此外,你也可以要求它针对台湾的特定主题进行讨论。如「规划一下日月潭二日游」或是能用七言绝句吟诗作对。

其中,CKIP-Llama-2-7b使用了5.8GB资料进行预训练,总共包含273万笔资料,大约28亿个token数。这些资料包括了中英**、CommonCrawl子集、台湾硕博士论文摘要、中央研究院汉语平衡语料库、徐志摩诗歌全集、朱自清散文全集等内容。另外,使用纯人工产生的COIG-PC资料集和dolly资料集来进行多任务微调训练。

根据他们的测试,经过C-Eval中文模型评测结果,CKIP-Llama-2-7b-chat和CKIP-Llama-2-7b模型表现在整体平均都高于Llama2-7b、Atom-7B等模型,例如,CKIP-Llama-2-7b平均分数约37.03,高于Llama2-7b的22.26和Atom-7B 的35.95。甚至多任务微调训练后的CKIP-Llama-2-7b-chat,平均分更高,有38.39分。

CKIP Lab小组表示,这个模型可应用于各种领域,包括文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等等。中研院抢先开放测试网页,开放所有人测试。

除了释出繁中优化的Llama 2模型,CKIP Lab小组在这之前还有释出了繁体中文的transformers预训练模型,包含ALBERT、BERT、GPT2,提供使用者试用,并以GPL-3.0授权释出。随着中研院繁中优化的Llama 2模型推出,将有助于加速台湾繁中大型语言模型研究和商用的发展。

不过台湾网民发现这个模型好像有点……















本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2023-10-9 03:59 | 显示全部楼层
很有党性
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-10-9 04:01 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-10-9 04:09 | 显示全部楼层
这个怎么玩?

给个app 下载地址啊?
回复

使用道具 举报

     
发表于 2023-10-9 04:10 来自手机 | 显示全部楼层
偷的复旦的?这样也能宣布自主研发不愧是蛙蛙

—— 来自 vivo V1981A, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
 楼主| 发表于 2023-10-9 04:16 来自手机 | 显示全部楼层
本帖最后由 Alpha1918 于 2023-10-9 04:17 编辑
NINTENDO64 发表于 2023-10-9 04:09
这个怎么玩?
给个app 下载地址啊?

名字有给出来,你用搜索引擎找一下。
回复

使用道具 举报

头像被屏蔽
发表于 2023-10-9 05:33 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-10-9 07:21 来自手机 | 显示全部楼层
非常正常.训练用的语料都是简中呗,光繁中互联网大概没那么多语料可以用来做这种事
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-10-9 07:32 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-10-9 07:54 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-10-9 07:59 来自手机 | 显示全部楼层
南港最高水平,乐死了
回复

使用道具 举报

     
发表于 2023-10-9 08:38 | 显示全部楼层
ai也可以是爱国的
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-10-9 08:42 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-10-9 08:52 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-10-9 08:55 | 显示全部楼层
笑死
回复

使用道具 举报

     
发表于 2023-10-9 08:56 | 显示全部楼层
样本库的碾压
回复

使用道具 举报

     
发表于 2023-10-9 08:56 | 显示全部楼层
看起来就是Ctrl+shift+F
回复

使用道具 举报

     
发表于 2023-10-9 08:57 | 显示全部楼层
连基本的规避都没作,果然骗经费这种事情无论哪边都熟练的很
回复

使用道具 举报

发表于 2023-10-9 09:05 | 显示全部楼层
不样纯表。。。
回复

使用道具 举报

     
发表于 2023-10-9 09:05 | 显示全部楼层
民进党现在干的事情就是最后捞一笔,无论是鸡蛋事件,还是什么“潜舰国造”
回复

使用道具 举报

头像被屏蔽
发表于 2023-10-9 09:07 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-10-9 09:18 | 显示全部楼层
Alpha1918 发表于 2023-10-9 04:16
名字有给出来,你用搜索引擎找一下。

是这里吗 huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
不能直连呢
回复

使用道具 举报

     
发表于 2023-10-9 09:21 | 显示全部楼层
简转繁吗,试试干隆
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-10-9 09:30 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2023-10-9 09:31 来自手机 | 显示全部楼层
喷了,回答是“上海制造”,说明根本就是抄的,再改一下繁体字库。
回复

使用道具 举报

     
发表于 2023-10-9 09:35 来自手机 | 显示全部楼层
你也是中共同路人

—— 来自 OnePlus GM1910, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-10-9 09:47 | 显示全部楼层
这是国际共识
我寻思也没毛病啊
回复

使用道具 举报

     
发表于 2023-10-9 09:50 | 显示全部楼层
那复旦大学的这个原版ai可以在哪里用到,想试试
回复

使用道具 举报

     
发表于 2023-10-9 09:53 | 显示全部楼层

这训练素材有点问题啊,中文互联网的语境是以色列被孤立么?
回复

使用道具 举报

     
发表于 2023-10-9 09:54 | 显示全部楼层
国际共识
回复

使用道具 举报

     
发表于 2023-10-9 09:55 | 显示全部楼层

这可还行

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2023-10-9 09:55 | 显示全部楼层
有一种()()()()画个国旗下的讲话画出美国国旗的美
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-10-9 09:56 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-10-9 09:58 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-10-9 10:20 来自手机 | 显示全部楼层
他们不是应该自称正体中文吗

—— 来自 Xiaomi MI 8 SE, Android 10上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-10-9 10:44 来自手机 | 显示全部楼层
忠诚
回复

使用道具 举报

     
发表于 2023-10-9 10:48 来自手机 | 显示全部楼层
你们这个地方没有政审的吗?
回复

使用道具 举报

     
发表于 2023-10-9 10:50 | 显示全部楼层
看来整个台岛就只这个AI是正常人
回复

使用道具 举报

     
发表于 2023-10-9 10:52 | 显示全部楼层
这简繁转换甚至不像是在原始语料上做的,要不就是用的库太差了

服务器集群 -> 伺服器叢集

只转换简繁体写成服务器集群也能理解,集羣是什么鬼
回复

使用道具 举报

     
发表于 2023-10-9 11:09 | 显示全部楼层
仔细看了下 7B参数量
那基本就是智障级别
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 02:52 , Processed in 0.140732 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表