想弄一台能本地部署grok的机器要怎么弄?
上周老板把我喊到办公室,叫我下载一下grok-1,我赶紧和他解释说这玩意本地部署要300g显存,不是咱能玩得起的。老板没说话直接叫我下,这周又找我聊天,问我下的如何了,我说经过我不懈的努力可算下好了。老板叫我去调研,如果本地部署要多少,我随便问了一家报价接近170个,但是我想货比三家,有老哥知道其他渠道吗? 不如换mixtral 8x7b,阿里云租个服务器就能一键部署,一个月只要15个 schneehertz 发表于 2024-3-25 21:15不如换mixtral 8x7b,阿里云租个服务器就能一键部署,一个月只要15个
4b或者8b,一个A100就能部署,
不过这种开源模型不微调为啥不直接用API.
微调的价格可就不止170个了 用ollama上yi,chat能力基本在gpt3.5左右,16G显存的消费级显卡混合32G内存就能跑,不过是逐字出结果,要快大概需要40G以上显存 本帖最后由 mimighost 于 2024-3-26 09:46 编辑
你需要8个h100/h800的机器,而且还必须要nvlink
你确定你老板搞得定这个????? mixtral 8x7b或者阿里的千问72b都是经济实用的多的模型,grok这种基本不用理会 mimighost 发表于 2024-3-26 09:41
你需要8台h100/h800的机器,而且还必须要nvlink
你确定你老板搞得定这个????? ...
这我就不懂了,反正他是叫我去调研本地部署的配置,我是想把调研好的表格提交给他,他怎么处理是他的事 mp5 发表于 2024-3-26 09:32
用ollama上yi,chat能力基本在gpt3.5左右,16G显存的消费级显卡混合32G内存就能跑,不过是逐字出结果,要快 ...
我们想找多语言模型,这个yi可能不太适用吧 如果只是推理Mixtral 8x7B,Gemma更实惠,量化的单机就能跑 本帖最后由 naiveyan 于 2024-3-26 10:38 编辑
网上搜到跑起来的相对比较低的配置是8卡a800 80g,https://www.j i a n s h u.com/p/0660ab9727dc
可以按照这个配置查查租赁价格先?买的话怎么也得上百万了。 naiveyan 发表于 2024-3-26 10:37
网上搜到跑起来的相对比较低的配置是8卡a800 80g,https://www.j i a n s h u.com/p/0660ab9727dc
可以按照 ...
找了家上海的渠道,给的报价是170(含税)老板叫我多找几家问问,这种渠道在哪找比较靠谱 你老板真的懂么?如果其实不懂的话弄个千问72B可以糊弄过去吧
—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4 mamc06 发表于 2024-3-26 09:46
我们想找多语言模型,这个yi可能不太适用吧
我没记错的话yi也是支持多语言的,不过你们要弄训练的话还是从mixtral 8x7b开始弄吧,我记得南开还是哪个大学基于mixtral 8x7b弄了个活字模型的,可以参考一下 是单纯做inference还是要做fine tuning,两者的显存需求不是一个量级的 webashrat 发表于 2024-3-26 15:56
300g?我朋友跟我说他八卡640g都不够
—— 来自 QUALCOMM OWW212, Android 11上的 S1Next-鹅版 v2.5.2 ...
目前找到的配置单
TiiTiiLL 发表于 2024-3-26 16:41
是单纯做inference还是要做fine tuning,两者的显存需求不是一个量级的
能详细说下嘛 谢谢哦 本帖最后由 ambivalence 于 2024-3-28 04:10 编辑
314B
部署这个模型如果要达到能让多人比较流畅地使用的话 8卡A100吧
看了一下 MOE模型啊,那不用期待太高
只做推理可以考虑纯cpu,毕竟比起显存,内存简直不要钱
—— 来自 Sony XQ-AT52, Android 14上的 S1Next-鹅版 v2.5.4 调用api + 本地接入一个小模型来监管不好吗? 我开P918 发表于 2024-3-27 23:10
能详细说下嘛 谢谢哦
比如单纯用一个7b的模型做inference,消费级显卡4080就可以了,可能只是output会有点慢。但如果你要做fine-tuning,就是你给定一个数据集去做微调,就得要A100这种大显存才行了,可能还不止需要一张。 推理的话,4bit用8*22应该是够的,最低成本是8块22g显存的2080ti,整机大概3w吧。 grok参数这么高也没见比其他开源模型强到哪去啊,非要用它难道你老板是马一龙真爱粉? 简单计算就是
训练 每10亿(b)需要16g
推理 每10亿(b)没q过的就是4g q过的 半精度是2g int8是1g int4是0.5g
Benighted 发表于 2024-3-29 14:51
grok参数这么高也没见比其他开源模型强到哪去啊,非要用它难道你老板是马一龙真爱粉? ...
这我也不太懂,更新一下,我把价格都问了一遍然后做成表格发给老板,老板又叫我去调研可部署的云平台 mamc06 发表于 2024-3-29 15:00
这我也不太懂,更新一下,我把价格都问了一遍然后做成表格发给老板,老板又叫我去调研可部署的云 ...
另外一提 grok1.5刚刚出了
页:
[1]