找回密码
 立即注册
搜索
查看: 3725|回复: 25

[硬件] 想弄一台能本地部署grok的机器要怎么弄?

[复制链接]
     
发表于 2024-3-25 20:32 | 显示全部楼层 |阅读模式
上周老板把我喊到办公室,叫我下载一下grok-1,我赶紧和他解释说这玩意本地部署要300g显存,不是咱能玩得起的。老板没说话直接叫我下,这周又找我聊天,问我下的如何了,我说经过我不懈的努力可算下好了。老板叫我去调研,如果本地部署要多少,我随便问了一家报价接近170个,但是我想货比三家,有老哥知道其他渠道吗?
回复

使用道具 举报

     
发表于 2024-3-25 21:15 | 显示全部楼层
不如换mixtral 8x7b,阿里云租个服务器就能一键部署,一个月只要15个
回复

使用道具 举报

     
发表于 2024-3-26 00:03 | 显示全部楼层
schneehertz 发表于 2024-3-25 21:15
不如换mixtral 8x7b,阿里云租个服务器就能一键部署,一个月只要15个

4b或者8b,一个A100就能部署,
不过这种开源模型不微调为啥不直接用API.
微调的价格可就不止170个了
回复

使用道具 举报

     
发表于 2024-3-26 09:32 来自手机 | 显示全部楼层
用ollama上yi,chat能力基本在gpt3.5左右,16G显存的消费级显卡混合32G内存就能跑,不过是逐字出结果,要快大概需要40G以上显存
回复

使用道具 举报

发表于 2024-3-26 09:41 | 显示全部楼层
本帖最后由 mimighost 于 2024-3-26 09:46 编辑

你需要8个h100/h800的机器,而且还必须要nvlink

你确定你老板搞得定这个?????
回复

使用道具 举报

发表于 2024-3-26 09:42 | 显示全部楼层
mixtral 8x7b或者阿里的千问72b都是经济实用的多的模型,grok这种基本不用理会
回复

使用道具 举报

     
 楼主| 发表于 2024-3-26 09:44 | 显示全部楼层
mimighost 发表于 2024-3-26 09:41
你需要8台h100/h800的机器,而且还必须要nvlink

你确定你老板搞得定这个????? ...

这我就不懂了,反正他是叫我去调研本地部署的配置,我是想把调研好的表格提交给他,他怎么处理是他的事
回复

使用道具 举报

     
 楼主| 发表于 2024-3-26 09:46 | 显示全部楼层
mp5 发表于 2024-3-26 09:32
用ollama上yi,chat能力基本在gpt3.5左右,16G显存的消费级显卡混合32G内存就能跑,不过是逐字出结果,要快 ...

我们想找多语言模型,这个yi可能不太适用吧
回复

使用道具 举报

发表于 2024-3-26 10:15 | 显示全部楼层
如果只是推理Mixtral 8x7B,Gemma更实惠,量化的单机就能跑
回复

使用道具 举报

     
发表于 2024-3-26 10:37 | 显示全部楼层
本帖最后由 naiveyan 于 2024-3-26 10:38 编辑

网上搜到跑起来的相对比较低的配置是8卡a800 80g,https://www.j i a n s h u.com/p/0660ab9727dc
可以按照这个配置查查租赁价格先?买的话怎么也得上百万了。
回复

使用道具 举报

     
 楼主| 发表于 2024-3-26 11:22 | 显示全部楼层
naiveyan 发表于 2024-3-26 10:37
网上搜到跑起来的相对比较低的配置是8卡a800 80g,https://www.j i a n s h u.com/p/0660ab9727dc
可以按照 ...

找了家上海的渠道,给的报价是170(含税)老板叫我多找几家问问,这种渠道在哪找比较靠谱
回复

使用道具 举报

     
发表于 2024-3-26 13:25 来自手机 | 显示全部楼层
你老板真的懂么?如果其实不懂的话弄个千问72B可以糊弄过去吧

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2024-3-26 14:18 来自手机 | 显示全部楼层
mamc06 发表于 2024-3-26 09:46
我们想找多语言模型,这个yi可能不太适用吧

我没记错的话yi也是支持多语言的,不过你们要弄训练的话还是从mixtral 8x7b开始弄吧,我记得南开还是哪个大学基于mixtral 8x7b弄了个活字模型的,可以参考一下
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-26 15:56 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-26 16:41 | 显示全部楼层
是单纯做inference还是要做fine tuning,两者的显存需求不是一个量级的
回复

使用道具 举报

     
 楼主| 发表于 2024-3-26 21:40 | 显示全部楼层
webashrat 发表于 2024-3-26 15:56
300g?我朋友跟我说他八卡640g都不够

—— 来自 QUALCOMM OWW212, Android 11上的 S1Next-鹅版 v2.5.2 ...

目前找到的配置单
QQ20240326-213852@2x.png
回复

使用道具 举报

     
发表于 2024-3-27 23:10 | 显示全部楼层
TiiTiiLL 发表于 2024-3-26 16:41
是单纯做inference还是要做fine tuning,两者的显存需求不是一个量级的

能详细说下嘛 谢谢哦
回复

使用道具 举报

     
发表于 2024-3-27 23:56 | 显示全部楼层
本帖最后由 ambivalence 于 2024-3-28 04:10 编辑

314B
部署这个模型如果要达到能让多人比较流畅地使用的话 8卡A100吧
看了一下 MOE模型啊,那不用期待太高

回复

使用道具 举报

     
发表于 2024-3-28 07:54 来自手机 | 显示全部楼层
只做推理可以考虑纯cpu,毕竟比起显存,内存简直不要钱

—— 来自 Sony XQ-AT52, Android 14上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2024-3-28 08:58 | 显示全部楼层
调用api + 本地接入一个小模型来监管不好吗?
回复

使用道具 举报

     
发表于 2024-3-28 10:46 | 显示全部楼层
我开P918 发表于 2024-3-27 23:10
能详细说下嘛 谢谢哦

比如单纯用一个7b的模型做inference,消费级显卡4080就可以了,可能只是output会有点慢。但如果你要做fine-tuning,就是你给定一个数据集去做微调,就得要A100这种大显存才行了,可能还不止需要一张。
回复

使用道具 举报

     
发表于 2024-3-29 14:46 来自手机 | 显示全部楼层
推理的话,4bit用8*22应该是够的,最低成本是8块22g显存的2080ti,整机大概3w吧。
回复

使用道具 举报

     
发表于 2024-3-29 14:51 | 显示全部楼层
grok参数这么高也没见比其他开源模型强到哪去啊,非要用它难道你老板是马一龙真爱粉?
回复

使用道具 举报

     
发表于 2024-3-29 14:58 | 显示全部楼层
简单计算就是
训练 每10亿(b)需要16g
推理 每10亿(b)没q过的就是4g q过的 半精度是2g int8是1g int4是0.5g
回复

使用道具 举报

     
 楼主| 发表于 2024-3-29 15:00 | 显示全部楼层
Benighted 发表于 2024-3-29 14:51
grok参数这么高也没见比其他开源模型强到哪去啊,非要用它难道你老板是马一龙真爱粉? ...

这我也不太懂,更新一下,我把价格都问了一遍然后做成表格发给老板,老板又叫我去调研可部署的云平台
回复

使用道具 举报

     
发表于 2024-3-29 15:03 | 显示全部楼层
mamc06 发表于 2024-3-29 15:00
这我也不太懂,更新一下,我把价格都问了一遍然后做成表格发给老板,老板又叫我去调研可部署的云 ...

另外一提 grok1.5刚刚出了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-11-27 10:24 , Processed in 0.162466 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表