求教,5080装机玩大模型能跑什么尺寸的?
rt,只是想自己跑模型玩玩。 deekseek r1 14b随便跑,32b可以试试但基本没戏 Herreimu 发表于 2025-2-1 01:1614b随便跑,32b可以试试但基本没戏
14b效果怎么样?
—— 来自 鹅球 v3.3.96-alpha 32b就是个弱智,与网页版的天差地别,别试了 jojohunter 发表于 2025-2-1 01:16
14b效果怎么样?
—— 来自 鹅球 v3.3.96-alpha
跟完整版比的话,蒸馏版都是傻子
自己搞个ollama之类的简单部署试试呗,十来分钟就下完了 都是图一乐水平 14b跟32b的qwen性能差别挺大的,能上24g还是上24,话说老黄这个32g也是对生成式模型也比较尴尬,70b对于32b提升已经开始边际,但是32g没有啥对于24g特别优秀的开源生成式模型。 能让你低成本自己跑的基本都是傻子别指望,还不如买个api
—— 来自 鹅球 v3.3.96 5080这么贵也就给你16G显存,性价比太低了(只指ai推理 咬咬牙等明年的24g 5080s
—— 来自 鹅球 v3.3.96-alpha 不如堆内存,跑量化版的全参数R1,推理过程性能瓶颈主要是内存和硬盘的交换,能把整个模型加载到内存就起飞了 玩大模型主要看的是显存,5080和4080比不能说没有提高吧,只能说提高的程度你感觉不出来。 16g 什么大模型也跑不了
—— 来自 鹅球 v3.3.96 4090改48G 16g最大能跑20b出头的模型,这个尺寸主流厂商里只有法国的mistral在出,可以试试这两天出的mistral-small-2501,自称24b跑分打平qwen2.5-32b,我试了一下中文能力还行。
国产的有书生浦语internlm,不过强化了“深度思考能力”的3代还没出20b这个尺寸的,还得再等等。 用ollama,显存不够会自动用内存跑
显存+内存大小之内的模型都能跑,就是很慢
怎么部署直接问deepseek就行,图一乐够用了 单卡显存不够的话能多卡跑吗? 确实别试了,32B很烂,动不动就开始无限复读,真要用还是API 尺寸看内存,一个变量占0.5个字节,自己算吧 testalphagogogo 发表于 2025-2-1 22:54
单卡显存不够的话能多卡跑吗?
不能,否则老黄怎么赚钱
页:
[1]