求推荐生成式AI 配置

坑爹虎 · 发表于 2024-4-28 22:50

公司开始搭AI工作站搭建ChatGLM，预算10万以内
我正在选配置，但是根本没概念，找了个实习生慢慢配进展好慢，求一步到胃

高端显卡的渠道应该没问题，就是不知道预算上限够不够

诚司 · 发表于 2024-4-28 23:01

本帖最后由诚司于 2024-4-28 23:49 编辑

第一步就错了，以后步步错
chatglm3只有6B，而且都什么时代的玩意了

手机都能跑量化的chatglm 6b，你十万搭出来老板得撕了你

坑爹虎 · 发表于 2024-4-28 23:05

诚司发表于 2024-4-28 23:01
第一步就错了，以后步步错
chatglm3只有6B，而且都什么时代的玩意了
手机都能跑量化的chatglm 6b， ...

大佬，求推荐下吧

我可能被实习生带偏了

诚司 · 发表于 2024-4-28 23:10

本帖最后由诚司于 2024-4-28 23:17 编辑

坑爹虎发表于 2024-4-28 23:05
大佬，求推荐下吧

我可能被实习生带偏了

你可以看这个人:
【AI大模型本地化部署Q/A硬件篇-哔哩哔哩】 https://b23.tv/qS4RUJy
不知道你们单位什么采购流程，最便宜的是买二手，二手主机加八卡魔改2080ti，三万多，你十万可以买三台，每台8乘22g显存，用vllm跑张量并行，可以跑无量化的llama3 qwen1.5 72b，也可以跑量化的command R+

不能买二手的话就3090 24g八卡，再买八卡主机，钱也够了
训练才需要买a100，a6000，h100，推理的话a100都没有4090强
3090也能勉强qlora训练，不过全量我只在a100上练过
单机训练的话，8卡a100 40g，lora用deepspeed zero3足够微调100b以下的了，速度也很快。多机八卡3090lora+deepspeed zero3练70b估计极慢，但是应该是可以的。
全量的话，你的预算不够练7B以上的，不用考虑。

坑爹虎 · 发表于 2024-4-28 23:20

诚司发表于 2024-4-28 23:10
你可以看这个人:
【AI大模型本地化部署Q/A硬件篇-哔哩哔哩】 https://b23.tv/qS4RUJy
不知道你们单位什么 ...

主要是发票问题，二手会比较麻烦

3090 的性价比最高？

诚司 · 发表于 2024-4-28 23:31

本帖最后由诚司于 2024-4-28 23:36 编辑

坑爹虎发表于 2024-4-28 23:20
主要是发票问题，二手会比较麻烦

3090 的性价比最高？

24g显卡，p40太老了，4090太贵了，那只能3090
买4090那不如直接a6000了，48g显存才3w

a6000约等于3090专业版，通信速度更快，推理和训练都需要

如果你需要无量化的模型，首先你得配够160g显存装下70b的模型
如果是lora训练，这个160g显存就勉强够用了，显存满足之后考虑的问题是训练比推理更要通信速度，a6000显存是两个3090，但比两个3090贵，而通信速度更好，而且训练卡越少通信带宽需要的越小，看你预算权衡吧

如果不需要练，直接3090走起。如果需要练，我觉得微调14b没意思，以微调70b为基准考虑硬件吧，尤其是在llama3 70b开源之后
最极限的训练是Qlora，70b大约也就需要四五十G显存，理论上也可以用，不过我不保证效果，4bit推理对70b模型来说损耗比较小，但训练不一定，firefly的模型就是这么练的，榜上还可以，但用起来感觉一般

mythgogo · 发表于 2024-4-28 23:40

ChatGLM开源已经太监了。投入Qwen怀抱把。
10W的话，买双卡A6000，能把Qwen32B跑起来，能稍微微调一下。72B-4bit也能跑。

为什么不买4卡4090，因为vllm的parallel size 对模型隐层有要求。

诚司 · 发表于 2024-4-28 23:46

mythgogo 发表于 2024-4-28 23:40
ChatGLM开源已经太监了。投入Qwen怀抱把。
10W的话，买双卡A6000，能把Qwen32B跑起来，能稍微微调一下。72B ...

一般head数都整除四的吧，不至于四卡跑不起来

squarezty · 发表于 2024-4-29 10:08

本帖最后由 squarezty 于 2024-4-29 10:14 编辑

预算10万以内想搞正经训练确实太少了，好的计算卡买不到只能买二手，好不容易买了板u跟一大堆二手卡光是it工作都够你喝一壶的，那还不如来点邪门的，买或者租台192G内存的mac studio，m2 ultra芯片那款，保证能运行70b语言模型（比如llama3-70b），但是！不保证速度，推理速度大概个位数的token/s吧，看你老板能不能接受了。搭建也很简单网上一大堆教程，其实可以租台机器试试的，短时间把环境搞好交差，跟你老板说要更好效果得加钱

坑爹虎 · 发表于 2024-4-29 14:32

mythgogo 发表于 2024-4-28 23:40
ChatGLM开源已经太监了。投入Qwen怀抱把。
10W的话，买双卡A6000，能把Qwen32B跑起来，能稍微微调一下。72B ...

今天看了你们的帖子，我好好合计了下，会买两张A6000，同步正在申请修改预算，节后会换成千问看看

绕指流光 · 发表于 2024-4-29 15:32

GLM已经是老皇历了

虽然也才几个月
现在QWEN72B是比较现实的选择

—— 来自 vivo V2302A, Android 14上的 S1Next-鹅版 v2.5.4

ycjiang1337 · 发表于 2024-4-29 16:16

本帖最后由 ycjiang1337 于 2024-4-29 16:18 编辑

可以关注一下L20，便宜大碗的48G新架构卡，搭配VLLM基本上随便跑推理，LoRA微调也可以跑一下。另外ChatGLM-6B已经是时代的眼泪了，目前智谱的重心已经放在闭源GLM4上了，想用开源模型的话基本上要么LLama3要么千问家族

泰坦失足 · 发表于 2024-4-29 18:02

英文上llama3，中文上qwen，而且qwen还帮你做好了防止AI乱说话的措施（就是看reddit还是能轻松越狱）

诚司 · 发表于 2024-4-29 20:35

中文现在可以选command R+和qwen 110B，写作的话qwen 72b都比command R+强，但生产力不一定，这俩我拿来跑工具调用，都真的不怎么样，被llama3完爆
现在最合适的就是用llama3处理任务，另外配个qwen 32b做翻译

		自动登录	找回密码
密码			立即注册

[硬件] 求推荐生成式AI 配置

评分

评分