啥样的笔记本能跑本地大模型？请老哥们支招

rougevelvet · 发表于 2024-2-18 10:54

本帖最后由 rougevelvet 于 2024-2-19 13:00 编辑

非码农非业界二道贩子，这几天对AI有点兴趣，想整个能跑本地大模型的本子玩玩。
起因是某公众号上看到这么一段（为免引流就不放链接了）：

写这份文档的最主要原因是之前算了一笔账：如果未来我们让电脑每天都来帮忙我们整理和分析最新的信息，那我们一天需要多少Token？假设一篇文档大概需要4000Token，LLM一轮输出400 Token，那么10轮交互下来最少需要5W Token，20篇那就消耗了100W Token；如果需要跟之前的文档进行交叉比较和深度分析，假设库里有100篇文章，那一天需要消耗1亿Token，如果是用GPT4来分析文档大概每天最少需要1000美元（当然这是粗略的计算，而且前提是没有其他技术的加持）。这个真的不是危言耸听，如果你让AI帮你定期浏览和总结最新的信息，那每天肯定不止20篇；假设每天加上好几篇大约几万字的论文...长期下来这个Token的消耗会是指数级的暴涨。

打算这几个月研究研究，有适合的618就入。

64G+4080TI是不是差不多能玩？放在单位/出差用，重量无所谓，最好灰黑色商务风；或者移动工作站也行？

———
看今天笔吧评测室推了thinkbook 16p，要是二季度4080ti放出来，感觉还可以玩一玩

楼里大概好多业内老哥，我也不是业内，就是感兴趣玩一玩，感觉应该还行？

静滞场 · 发表于 2024-2-18 10:59

正在用4080laptop，本地跑过chatglm3和rwkv5，感觉速度也算不上快，显存也仍然嫌小，我的建议是等50系

—— 来自 HUAWEI WLZ-AL10, Android 12上的 S1Next-鹅版 v2.5.2-play

天气姐姐 · 发表于 2024-2-18 11:08

问下a卡行不行，看坛友发的zluda那帖，跑sd挺快的

脚本水平 · 发表于 2024-2-18 11:12

哪里来的4080ti

雪影 · 发表于 2024-2-18 11:14

你的大模型是llm大模型？还是SD这种赛博画师？
前者7B打底24G显存，你还得会部署

—— 来自 Xiaomi 2304FPN6DC, Android 13上的 S1Next-鹅版 v2.5.4

水母干 · 发表于 2024-2-18 11:40

M3 Max 128GB，瓶颈在内存通道上所以跑大模型token输出速度是M2 Ultra的一半左右（ https://github.com/ggerganov/llama.cpp/discussions/4167 ）。可以通过sudo sysctl iogpu.wired_limit_mb=126976 （就是124 * 1024）让显存最多使用124G，留4G给系统，这个显存可以跑110B级别 8bit量化的大模型。

sunbeach · 发表于 2024-2-18 12:15

本地gpu能跑的llm都跟人工智障差不多，要想拿来玩不如狠狠心弄个农企32核以上的洋垃圾+128g以上内存，慢是慢点但是智力高不少

luffyzhou · 发表于 2024-2-18 12:43

插个眼

Midnight.Coup · 发表于 2024-2-18 12:53

本帖最后由 Midnight.Coup 于 2024-2-18 12:56 编辑

M3 Max 128GB 内存拉满也许可以，但本地跑起来的模型肯定不如 GPT4，该买 API 还是买

gloomnize · 发表于 2024-2-18 12:59

lenovo p16？
dell和hp的移动式服务器？

Kiraru · 发表于 2024-2-18 13:12

正经玩别想了，笔记本4090 16g显存也就勉强能跑个7B模型，以下的7B都跑不起来

诚司 · 发表于 2024-2-18 13:31

8G显存就能跑7B Int4了，int4和float16相比差一些，但也没差太多
没显卡32G内存，你CPU好点，llama.cpp直接跑14B int4也行

但是别说7B，14B都没什么生产力，除了跑不需要训练只是调prompt的实验，一般人基本没用，唯一需要本地模型的是涩涩

正经用就买api，gpt买不到就用国内的，国内的这些模型现在虽然限速，但大多不用花钱

泰坦失足 · 发表于 2024-2-18 13:36

干嘛不白嫖Colab或者Kaggle的显卡资源呢

Rowen233 · 发表于 2024-2-18 14:06

从逆天的角度来看，笔记本跑稍微大一点的模型的话Mac因为内存显存共用反而有性价比了（只能怪byd老黄消费级显卡显存抠门

自旋 · 发表于 2024-2-18 14:08

提示: 作者被禁止或删除内容自动屏蔽

noahhhh · 发表于 2024-2-18 14:19

除了AI还有啥想玩的，玩腻了也不至于浪费，入门8G显存就行了，往上无止境，但是本地模型再怎么样最后效果还是被gpt4吊打，除非你看中速度要自己做应用。

—— 来自 S1Fun

路西欧拉 · 发表于 2024-2-18 14:27

我看现在很多AI画图（比如好说AI）都是基于SD，然后卖使用次数给普通用户体验

SD查了下好像是免费开源的，那就是本地也可以自己部署？

openai的DALL-E3**使用，然后按张计费？

哪个相对不太折腾？平时画点公众号插图的话

袄_偶滴小乔 · 发表于 2024-2-18 14:41

sunbeach 发表于 2024-2-18 12:15
本地gpu能跑的llm都跟人工智障差不多，要想拿来玩不如狠狠心弄个农企32核以上的洋垃圾+128g以上内存，慢是 ...

我这有两块闲置的26核的5320可以用吗，可以跑啥模型

tsubasa9 · 发表于 2024-2-18 14:44

7B也是玩具，何况笔记本大概连7B都跑不了

木谷高明 · 发表于 2024-2-18 16:37

开源能本地跑的远不如付费买api的

如果模型能用CPU跑，内存够大就行

用显卡跑，如果模型有int量化，显存占用会小很多，全精度的还是算了吧

处男鉴黄师 · 发表于 2024-2-18 16:46

提示: 作者被禁止或删除内容自动屏蔽

sunbeach · 发表于 2024-2-18 19:42

袄_偶滴小乔发表于 2024-2-18 14:41
我这有两块闲置的26核的5320可以用吗，可以跑啥模型

直接搜cpu大模型就行，主要吃内存，65B的差不多要吃75G，CPU跑基本都在一秒1~2字符这样
对比8g显存的显卡只能跑7B模型那智力水平就是降维打击

ambivalence · 发表于 2024-2-18 22:16

本帖最后由 ambivalence 于 2024-2-18 22:29 编辑

LLM的话我推荐你直接上X99工作站然后四路魔改22G 2080ti拉满，没有比这个更高性价比的选择，淘宝搜超微7048GR 2000左右,CPU一百出头一颗，内存70左右一条，显卡现在大概2500一块总共加起来都不到一块4090的价格.至于单卡4080 16G显存LLM拉个屎都不够擦屁股的
CPU嗯跑我前段时间试过，双路2698V3+128G内存，70B模型1t/s，基本上没有实用价值

schneehertz · 发表于 2024-2-18 23:03

路西欧拉发表于 2024-2-18 14:27
我看现在很多AI画图（比如好说AI）都是基于SD，然后卖使用次数给普通用户体验

SD查了下好像是免费开源的， ...

要上生产买chatgpt plus用DALLE
sd不适合画配图，DALLE的API贵的要命，不如chatgpt plus来的合算

abcxiawei · 发表于 2024-2-19 10:53

schneehertz 发表于 2024-2-18 23:03
要上生产买chatgpt plus用DALLE
sd不适合画配图，DALLE的API贵的要命，不如chatgpt plus来的合算 ...

为什么SD不适合画配图呢？
有没有适合画配图的开源系统？

		自动登录	找回密码
密码			立即注册

[屁股] 啥样的笔记本能跑本地大模型？请老哥们支招

评分

自旋自旋当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2012-8-24 头像被屏蔽	发表于 2024-2-18 14:08 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

处男鉴黄师处男鉴黄师当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2019-6-1 头像被屏蔽	发表于 2024-2-18 16:46 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报