求教，5080装机玩大模型能跑什么尺寸的？

jojohunter 发表于 2025-2-1 01:09

rt，只是想自己跑模型玩玩。

dualist 发表于 2025-2-1 01:11

deekseek r1

TiiTiiLL 发表于 2025-2-1 01:14

Herreimu 发表于 2025-2-1 01:16

14b随便跑，32b可以试试但基本没戏

jojohunter 发表于 2025-2-1 01:16

Herreimu 发表于 2025-2-1 01:16
14b随便跑，32b可以试试但基本没戏

14b效果怎么样？

—— 来自鹅球 v3.3.96-alpha

龙骑士尹志平 发表于 2025-2-1 01:18

32b就是个弱智，与网页版的天差地别，别试了

Herreimu 发表于 2025-2-1 01:20

jojohunter 发表于 2025-2-1 01:16
14b效果怎么样？

—— 来自鹅球 v3.3.96-alpha

跟完整版比的话，蒸馏版都是傻子
自己搞个ollama之类的简单部署试试呗，十来分钟就下完了

孤狼arcueid 发表于 2025-2-1 01:28

都是图一乐水平

Vacuolar 发表于 2025-2-1 08:24

14b跟32b的qwen性能差别挺大的，能上24g还是上24，话说老黄这个32g也是对生成式模型也比较尴尬，70b对于32b提升已经开始边际，但是32g没有啥对于24g特别优秀的开源生成式模型。

sakurarealm 发表于 2025-2-1 15:47

能让你低成本自己跑的基本都是傻子别指望，还不如买个api

—— 来自鹅球 v3.3.96

anoza 发表于 2025-2-1 15:54

5080这么贵也就给你16G显存，性价比太低了（只指ai推理

大暴死 发表于 2025-2-1 17:26

咬咬牙等明年的24g 5080s

—— 来自鹅球 v3.3.96-alpha

何尚生 发表于 2025-2-1 17:54

不如堆内存，跑量化版的全参数R1，推理过程性能瓶颈主要是内存和硬盘的交换，能把整个模型加载到内存就起飞了

tillnight 发表于 2025-2-1 18:05

玩大模型主要看的是显存，5080和4080比不能说没有提高吧，只能说提高的程度你感觉不出来。

塔奇克马 发表于 2025-2-1 21:47

16g 什么大模型也跑不了

—— 来自鹅球 v3.3.96

cosx 发表于 2025-2-1 22:10

4090改48G

yanjunle 发表于 2025-2-1 22:26

16g最大能跑20b出头的模型，这个尺寸主流厂商里只有法国的mistral在出，可以试试这两天出的mistral-small-2501，自称24b跑分打平qwen2.5-32b，我试了一下中文能力还行。
国产的有书生浦语internlm，不过强化了“深度思考能力”的3代还没出20b这个尺寸的，还得再等等。

黄泉川此方 发表于 2025-2-1 22:31

用ollama，显存不够会自动用内存跑
显存+内存大小之内的模型都能跑，就是很慢
怎么部署直接问deepseek就行，图一乐够用了

testalphagogogo 发表于 2025-2-1 22:54

单卡显存不够的话能多卡跑吗？

魔灵高达 发表于 2025-2-2 01:30

确实别试了，32B很烂，动不动就开始无限复读，真要用还是API

KH2841 发表于 2025-2-2 01:42

尺寸看内存，一个变量占0.5个字节，自己算吧

KH2841 发表于 2025-2-2 01:43

testalphagogogo 发表于 2025-2-1 22:54
单卡显存不够的话能多卡跑吗？

不能，否则老黄怎么赚钱

页: [1]

Stage1st's Archiver

求教，5080装机玩大模型能跑什么尺寸的？