炸裂 2000元成本跑deepseek全量671b模型

无可奉吿 · 发表于 2025-2-18 08:05

本帖最后由无可奉吿于 2025-2-18 08:12 编辑

思路就是3674服务器搭配英特尔持久内存
把模型跑到持久内存模拟的磁盘上
买2条256g的就够了，速度是1.1token
现在都在等ktransformers方案落地那样搭配m10计算卡就能跑到7token速度就真完美了
毕竟是五六年前服务器用的了现在鱼上大把淘汰处理的
当然这个价格能下来前提是鱼贩子不会应声涨价

可惜我去年买的是730xd 当时要是加点钱上740就玩上了

https://www.bilibili.com/video/BV1SPwdevEKP

雪影 · 发表于 2025-2-18 08:09

带宽多少？最大限制是带宽

—— 来自鹅球 v3.3.96-alpha

无可奉吿 · 发表于 2025-2-18 08:14

雪影发表于 2025-2-18 08:09
带宽多少？最大限制是带宽

—— 来自鹅球 v3.3.96-alpha

英特尔持久内存磁盘模式读取是80g/s吧
比固态虚拟内存可快太多了

thelinli2 · 发表于 2025-2-18 08:57

感觉这真是改变时代的创举了。。。

曾经很纯良 · 发表于 2025-2-18 09:11

这两根傲腾的带宽比双路X99的八通道ddr3还高一点

qqks · 发表于 2025-2-18 09:15

再多加几根傲腾可行吗

ltycomputer · 发表于 2025-2-18 09:21

本帖最后由 ltycomputer 于 2025-2-18 09:27 编辑

两年前还真买过这玩意洋垃圾

首先这玩意DDR4 2666，硬盘模式单条带宽只有20GB/s读，延迟比DIMM高一个数量级，带宽和同频内存一样，也就便宜点

另外视频里量化到很小，UP说128G硬盘就够用……全量671B模型占用多少大家都知道

另外真想便宜，CPU去买腾讯定制的6133，几十块一颗，英业达刀片双路主板，200元一张

双路合计12通道DDR4 2666带宽仍然捉鸡

Hikiyaga⑧man · 发表于 2025-2-18 09:22

傲腾价格要起飞了吗英特尔又卖飞一个业务

—— 来自鹅球 v3.3.96-alpha

鸳鸳相抱 · 发表于 2025-2-18 09:25

Hikiyaga⑧man 发表于 2025-2-18 09:22
傲腾价格要起飞了吗英特尔又卖飞一个业务

—— 来自鹅球 v3.3.96-alpha

也就是现在消费级产品缺失所以各种玩具频出…论个人用性价比不如直接买API，多人用token太低没法做服务
推理专用的产品以后大概率还是靠统一内存

GrimReaper · 发表于 2025-2-18 09:29

这思路莫名有种图吧大佬的感觉……

—— 来自鹅球 v3.3.96

小牛无大将 · 发表于 2025-2-18 09:31

1.1token能干啥…太慢了，翻十倍都不够快

论坛助手,iPhone

隰有苌楚 · 发表于 2025-2-18 09:32

可以说是AI篮子工程了

—— 来自鹅球 v3.3.96

百猪夜行 · 发表于 2025-2-18 09:33

如果只想低成本玩玩可以这样弄，但这种已淘汰硬件后续维护成本还是挺高的，过几年价格翻几倍都很正常。

—— 来自鹅球 v3.3.96-alpha

格林达姆 · 发表于 2025-2-18 09:33

1.1.token，那说句话岂不是都是以分钟为单位

Elicasa · 发表于 2025-2-18 09:35

按d老师的深度思考强度，一个问题等300秒思考，再300秒回答

----发送自 Sony XQ-AT72,Android 12

中国人 · 发表于 2025-2-18 09:37

闪电："Ha~~ha~~ha~~"

Rufus.X · 发表于 2025-2-18 09:41

3DXpoint 技术刚出时惊为天人，傲腾退市时我扼腕叹息
搞不好这才是英特尔翻身的机会，抢的还是英伟达的饭碗

原装大小姐 · 发表于 2025-2-18 09:42

这太慢了，不属于可用范畴，100每秒还差不多

—— 来自鹅球 v3.3.96-alpha

ysubm · 发表于 2025-2-18 09:43

ltycomputer 发表于 2025-2-18 09:21
两年前还真买过这玩意洋垃圾

首先这玩意DDR4 2666，硬盘模式单条带宽只有20GB/s读，延迟比DIMM高一个数 ...

视频里的方案是6条128g的傲腾

—— 来自鹅球 v3.3.96-alpha

like0036 · 发表于 2025-2-18 09:48

这个速度还不如花2000充值一下api

罗莉控 · 发表于 2025-2-18 09:53

无可奉吿发表于 2025-2-18 08:14
英特尔持久内存磁盘模式读取是80g/s吧
比固态虚拟内存可快太多了

感觉拿16根32GB的基础版傲腾条子，插到高内存通道的主板上，效果更好吧

蜇灵 · 发表于 2025-2-18 09:57

这也太慢了

翻十倍可能还凑合一下

塔奇克马 · 发表于 2025-2-18 09:59

有2000元 14t/s方案吗

—— 来自鹅球 v3.3.96

シマエナガ · 发表于 2025-2-18 10:00

1.1 token/s。好家伙，问AI点事睡一觉起来看回答是吧

哌啶 · 发表于 2025-2-18 10:00

我平时拿api读文献都是三万三万的用

这速度比我自己读还慢了

treexper · 发表于 2025-2-18 10:04

别这样。

gearh · 发表于 2025-2-18 10:05

不考虑思考过程，至少要5token每秒以上才能匹配人类阅读速度

ColinWine · 发表于 2025-2-18 10:06

不上d5这带宽约等于残废啊，基本没什么没可用性，等过两年上d5吧

9Suns · 发表于 2025-2-18 10:12

本帖最后由 9Suns 于 2025-2-18 10:17 编辑

KTransformer的新更新

https://github.com/kvcache-ai/kt ... ekR1_V3_tutorial.md

[NEW!!!] Local 671B DeepSeek-Coder-V3/R1: Running its Q4_K_M version using only 14GB VRAM and 382GB DRAM.
- Prefill Speed (tokens/s):
  - KTransformers: 54.21 (32 cores) → 74.362 (dual-socket, 2×32 cores) → 255.26 (optimized AMX-based MoE kernel, V0.3 only) → 286.55 (selectively using 6 experts, V0.3 only)
  - Compared to 10.31 tokens/s in llama.cpp with 2×32 cores, achieving up to 27.79× speedup.
- Decode Speed (tokens/s):
  - KTransformers: 8.73 (32 cores) → 11.26 (dual-socket, 2×32 cores) → 13.69 (selectively using 6 experts, V0.3 only)
  - Compared to 4.51 tokens/s in llama.cpp with 2×32 cores, achieving up to 3.03× speedup.

看这个速度算是不错了，不过硬件要求还是有的，跑的也只是Q4量化

Model: DeepseekV3-q4km (int4)
CPU: cpu_model_name: Intel (R) Xeon (R) Gold 6454S, 32 cores per socket, 2 sockets, 2 numa nodes
GPU: 4090 24G VRAM

UNICORN00 · 发表于 2025-2-18 10:27

纯垃圾佬的玩具。。

黑夜再来1987 · 发表于 2025-2-18 10:52

好嘛.2000块钱我是真的有.

ltycomputer · 发表于 2025-2-18 11:12

シマエナガ发表于 2025-2-18 10:00
1.1 token/s。好家伙，问AI点事睡一觉起来看回答是吧

什么赛博笔友

老岳 · 发表于 2025-2-18 11:15

以前是垃圾佬装机跑3A游戏，以后就是垃圾佬装机跑AI模型了

thq · 发表于 2025-2-18 11:16

格林达姆发表于 2025-2-18 09:33
1.1.token，那说句话岂不是都是以分钟为单位

佛诺文奇的《真名实姓》里面，大反派邮件人的token怕是都不到1.1。现在2000就能有了。

剑起苍斓 · 发表于 2025-2-18 11:16

9Suns 发表于 2025-2-18 10:12
KTransformer的新更新

还有内存382G啊

—— 来自鹅球 v3.3.96-alpha

Alexmacau8 · 发表于 2025-2-18 11:32

傲腾内存本来就是个半成品还要附带配置普通ddr4 搭配兼容性极差垃圾佬折腾折腾可以生产是不可能的

gammatau · 发表于 2025-2-18 11:45

Hikiyaga⑧man 发表于 2025-2-18 09:22
傲腾价格要起飞了吗英特尔又卖飞一个业务

—— 来自鹅球 v3.3.96-alpha

傲腾有人接吗？不是卖飞是直接没了吧

琉璃苑軒風 · 发表于 2025-2-18 11:48

原装大小姐发表于 2025-2-18 09:42
这太慢了，不属于可用范畴，100每秒还差不多

—— 来自鹅球 v3.3.96-alpha

你有没有用过ds的api，他都没有100tokens/s

—— 来自鹅球 v3.3.96-alpha

原装大小姐 · 发表于 2025-2-18 11:51

琉璃苑軒風发表于 2025-2-18 11:48
你有没有用过ds的api，他都没有100tokens/s

你用钉钉带的那个吧，就ds那动不动上万token的回复，4 50/s回答个问题就要几分钟了，用来干嘛，我还不如用通义千问

—— 来自鹅球 v3.3.96-alpha

cleaner · 发表于 2025-2-18 11:56

有种末世之后去垃圾填埋区捡垃圾维系数字化社会，然后发射航天器进行银河播种计划的莫名史诗感

		自动登录	找回密码
密码			立即注册

[科技] 炸裂 2000元成本跑deepseek全量671b模型

评分

评分

评分