找回密码
 立即注册
搜索
查看: 3851|回复: 18

[科技] 马斯克旗下大模型Grok宣布开源:参数量全球最大

[复制链接]
头像被屏蔽
     
发表于 2024-3-18 18:09 | 显示全部楼层 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-18 18:22 来自手机 | 显示全部楼层
那么能写小黄文吗
回复

使用道具 举报

发表于 2024-3-18 18:25 | 显示全部楼层
AI 够巨魔吗

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2024-3-18 18:28 | 显示全部楼层
去年才成立这就能做出来么
回复

使用道具 举报

     
发表于 2024-3-18 18:29 | 显示全部楼层
还好之前meta开源了llama,不然又会有一帮人把大模型发展归功于马斯克开源grok了


论坛助手,iPhone
回复

使用道具 举报

     
发表于 2024-3-18 18:36 | 显示全部楼层
Nanachi 发表于 2024-3-18 18:29
还好之前meta开源了llama,不然又会有一帮人把大模型发展归功于马斯克开源grok了

马斯克这模型要8张H100才跑得动, 有谁来试试这模型效果怎么样没
回复

使用道具 举报

     
发表于 2024-3-18 18:40 来自手机 | 显示全部楼层
314b模型权重大概在600g以上吧...告辞
回复

使用道具 举报

     
发表于 2024-3-18 19:12 | 显示全部楼层
马老板是不是觉得越大越先进
回复

使用道具 举报

     
发表于 2024-3-18 19:22 | 显示全部楼层
有八卡A100所以我一直觉得deepspeed的推理完全没屁用,现在看还是too young了
回复

使用道具 举报

     
发表于 2024-3-18 19:25 | 显示全部楼层
本帖最后由 logiczr 于 2024-3-18 19:29 编辑

不是MOE架构吗,一次推理只会调用部分权重。
314 billion parameter Mixture-of-Experts model
回复

使用道具 举报

     
发表于 2024-3-18 19:35 | 显示全部楼层
源神开2.0版本了
回复

使用道具 举报

     
发表于 2024-3-18 19:39 来自手机 | 显示全部楼层
泥潭ai楼现在看不了了,以前还能看那种楼主被塞了的,不知道什么时候开始就不行了。
回复

使用道具 举报

发表于 2024-3-18 22:07 | 显示全部楼层
天地一机成化育 发表于 2024-3-18 18:36
马斯克这模型要8张H100才跑得动, 有谁来试试这模型效果怎么样没

这个8张卡估计要200w了吧,考验s1成色的时候来了
回复

使用道具 举报

     
发表于 2024-3-18 22:13 | 显示全部楼层
宵待草 发表于 2024-3-18 18:40
314b模型权重大概在600g以上吧...告辞

给的权重做了8bit量化了, 300G左右


另外这个训练用的JAX+RUST

马斯克还是很潮流的
回复

使用道具 举报

     
发表于 2024-3-18 22:17 | 显示全部楼层
logiczr 发表于 2024-3-18 19:25
不是MOE架构吗,一次推理只会调用部分权重。
314 billion parameter Mixture-of-Experts model
...

是算的时候用一部分 加载还是要一起都加载到显存的
不保对 我是菜鸡
回复

使用道具 举报

     
发表于 2024-3-18 22:29 | 显示全部楼层
这下马斯克又开源了
回复

使用道具 举报

     
发表于 2024-3-18 22:35 | 显示全部楼层
性能还不如mix8x7b,辣鸡
回复

使用道具 举报

     
发表于 2024-3-18 22:44 | 显示全部楼层

英文不清楚,中文有人测的不太行
回复

使用道具 举报

     
发表于 2024-3-18 23:01 | 显示全部楼层
本帖最后由 诚司 于 2024-3-18 23:03 编辑

reddit看到qwen1.5b因为有system prompt,可以改system prompt来实现完全“自由”的对话,当然我没试过,不过按道理是可以用来写黄文的

当然其实无审查的模型很容易搞,随便找哪家的base model,用role play的sharegpt数据稍微练练就是没审查的,也很适合拿来“玩”
当然这样练出来的指令遵循能力一般比大厂练的差一些,那在chat上常识修改也行,lora其实不费多少显存
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-5-24 07:43 , Processed in 0.102416 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表