泰坦失足 发表于 2024-4-29 15:27

各大公司说的LLM一键落地/一键研发相关app有成功的吗

本地自己用各种库搭LLM与python环境可真是太神奇了,更新了Vllm来更好的适应llama3,flash attention突然不工作了,更新flash attention后Vllm报Cuda错误了。改成Docker吧,一样的启动参数报错目标文件夹不存在。而且我部署的模型token上限和网上相同硬件的还不相同,他们能输入的token长度明显更长。至少推理方面还是付费API舒服只要付钱就行了。但是想finetune还是得靠自己,而且各种Prompt engineering/RAG还是要有个有经验的人来调整。
更新:重启了下,cuda不报错了,神奇。

jumbleh 发表于 2024-4-29 15:29

现在AMD显卡能用么。。。
具体到6800xt

泰坦失足 发表于 2024-4-29 15:30

jumbleh 发表于 2024-4-29 15:29
现在AMD显卡能用么。。。
具体到6800xt

试下ollama吧,博客说能用
https://ollama.com/blog/amd-preview

jumbleh 发表于 2024-4-29 15:37

泰坦失足 发表于 2024-4-29 15:30
试下ollama吧,博客说能用
https://ollama.com/blog/amd-preview

谢谢~五一玩玩

ycjiang1337 发表于 2024-4-29 16:15

想多了,配CUDA环境至今依然非常痛苦

mimighost 发表于 2024-4-29 16:35

llm的docker都是宝贝,你随便升级,可能结果就不对了

我不是很理解那些要自己host的人或者公司是什么想法,不过领导要玩儿你也拦不住,跟着起舞也不是不可以

andychen 发表于 2024-4-29 16:39

模型性能越高,fine tune的意义越小,prompt engineering的意义越大

我感觉现在绝大部分自己训练模型的公司都会发现这是浪费钱。不过国内有特殊的生态说不定可以排除在外

少打音游多读书 发表于 2024-4-29 17:20

vllm已经是易用性最好的一批了

—— 来自 Xiaomi 2211133C, Android 13上的 S1Next-鹅版 v2.5.4

草格瓦拉 发表于 2024-7-7 21:23

z



—— 来自 Xiaomi 23049RAD8C, Android 14上的 S1Next-鹅版 v2.5.2-play

Midnight.Coup 发表于 2024-7-7 22:05

炼丹的配环境本来就是依赖地狱中的地狱啊
页: [1]
查看完整版本: 各大公司说的LLM一键落地/一键研发相关app有成功的吗