找回密码
 立即注册
搜索
查看: 13633|回复: 55

[科技] 炸裂 2000元成本跑deepseek全量671b模型

[复制链接]
     
发表于 2025-2-18 08:05 | 显示全部楼层 |阅读模式
本帖最后由 无可奉吿 于 2025-2-18 08:12 编辑

思路就是3674服务器搭配英特尔持久内存
把模型跑到持久内存模拟的磁盘上
买2条256g的就够了,速度是1.1token
现在都在等ktransformers方案落地 那样搭配m10计算卡就能跑到7token速度就真完美了
毕竟是五六年前服务器用的了 现在鱼上大把淘汰处理的
当然这个价格能下来前提是鱼贩子不会应声涨价

可惜我去年买的是730xd 当时要是加点钱上740就玩上了

https://www.bilibili.com/video/BV1SPwdevEKP

回复

使用道具 举报

     
发表于 2025-2-18 08:09 来自手机 | 显示全部楼层
带宽多少?最大限制是带宽

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
 楼主| 发表于 2025-2-18 08:14 | 显示全部楼层
雪影 发表于 2025-2-18 08:09
带宽多少?最大限制是带宽

—— 来自 鹅球 v3.3.96-alpha

英特尔持久内存磁盘模式读取是80g/s吧
比固态虚拟内存可快太多了
回复

使用道具 举报

     
发表于 2025-2-18 08:57 | 显示全部楼层
感觉这真是改变时代的创举了。。。
回复

使用道具 举报

     
发表于 2025-2-18 09:11 | 显示全部楼层
这两根傲腾的带宽比双路X99的八通道ddr3还高一点
回复

使用道具 举报

     
发表于 2025-2-18 09:15 | 显示全部楼层
再多加几根傲腾可行吗
回复

使用道具 举报

     
发表于 2025-2-18 09:21 | 显示全部楼层
本帖最后由 ltycomputer 于 2025-2-18 09:27 编辑



两年前还真买过这玩意洋垃圾

首先这玩意DDR4 2666,硬盘模式单条带宽只有20GB/s读,延迟比DIMM高一个数量级,带宽和同频内存一样,也就便宜点

另外视频里量化到很小,UP说128G硬盘就够用……全量671B模型占用多少大家都知道

另外真想便宜,CPU去买腾讯定制的6133,几十块一颗,英业达刀片双路主板,200元一张

双路合计12通道DDR4 2666带宽仍然捉鸡

回复

使用道具 举报

     
发表于 2025-2-18 09:22 来自手机 | 显示全部楼层
傲腾价格要起飞了吗 英特尔又卖飞一个业务

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-18 09:25 | 显示全部楼层
Hikiyaga⑧man 发表于 2025-2-18 09:22
傲腾价格要起飞了吗 英特尔又卖飞一个业务

—— 来自 鹅球 v3.3.96-alpha

也就是现在消费级产品缺失所以各种玩具频出…论个人用性价比不如直接买API,多人用token太低没法做服务
推理专用的产品以后大概率还是靠统一内存
回复

使用道具 举报

     
发表于 2025-2-18 09:29 来自手机 | 显示全部楼层
这思路莫名有种图吧大佬的感觉……

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-18 09:31 | 显示全部楼层
1.1token能干啥…太慢了,翻十倍都不够快

论坛助手,iPhone
回复

使用道具 举报

发表于 2025-2-18 09:32 来自手机 | 显示全部楼层
可以说是AI篮子工程了

—— 来自 鹅球 v3.3.96

评分

参与人数 2战斗力 +3 收起 理由
我是大鲨鱼1453 + 1 笑死我了,什么社会主义优越性.
darktide + 2 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2025-2-18 09:33 来自手机 | 显示全部楼层
如果只想低成本玩玩可以这样弄,但这种已淘汰硬件后续维护成本还是挺高的,过几年价格翻几倍都很正常。

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-18 09:33 来自手机 | 显示全部楼层
1.1.token,那说句话岂不是都是以分钟为单位
回复

使用道具 举报

发表于 2025-2-18 09:35 来自手机 | 显示全部楼层
按d老师的深度思考强度,一个问题等300秒思考,再300秒回答

----发送自 Sony XQ-AT72,Android 12
回复

使用道具 举报

     
发表于 2025-2-18 09:37 | 显示全部楼层
闪电:"Ha~~ha~~ha~~"

评分

参与人数 3战斗力 +3 收起 理由
reichelite + 1 画面感嗷的一下就有了
ninomo + 1 没有防备笑出声
darklinden + 1 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2025-2-18 09:41 | 显示全部楼层
3DXpoint 技术刚出时惊为天人,傲腾退市时我扼腕叹息
搞不好这才是英特尔翻身的机会,抢的还是英伟达的饭碗
回复

使用道具 举报

     
发表于 2025-2-18 09:42 来自手机 | 显示全部楼层
这太慢了,不属于可用范畴,100每秒还差不多

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-18 09:43 来自手机 | 显示全部楼层
ltycomputer 发表于 2025-2-18 09:21
两年前还真买过这玩意洋垃圾

首先这玩意DDR4 2666,硬盘模式单条带宽只有20GB/s读,延迟比DIMM高一个数 ...

视频里的方案是6条128g的傲腾

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-18 09:48 | 显示全部楼层
这个速度 还不如花2000充值一下api
回复

使用道具 举报

     
发表于 2025-2-18 09:53 | 显示全部楼层
无可奉吿 发表于 2025-2-18 08:14
英特尔持久内存磁盘模式读取是80g/s吧
比固态虚拟内存可快太多了

感觉拿16根32GB的基础版傲腾条子,插到高内存通道的主板上,效果更好吧
回复

使用道具 举报

发表于 2025-2-18 09:57 来自手机 | 显示全部楼层
这也太慢了
翻十倍可能还凑合一下
回复

使用道具 举报

     
发表于 2025-2-18 09:59 来自手机 | 显示全部楼层
有2000元 14t/s方案吗

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-18 10:00 | 显示全部楼层
1.1 token/s。好家伙,问AI点事睡一觉起来看回答是吧
回复

使用道具 举报

     
发表于 2025-2-18 10:00 来自手机 | 显示全部楼层
我平时拿api读文献都是三万三万的用这速度比我自己读还慢了
回复

使用道具 举报

     
发表于 2025-2-18 10:04 | 显示全部楼层
别这样。
回复

使用道具 举报

     
发表于 2025-2-18 10:05 | 显示全部楼层
不考虑思考过程,至少要5token每秒以上才能匹配人类阅读速度
回复

使用道具 举报

     
发表于 2025-2-18 10:06 来自手机 | 显示全部楼层
不上d5这带宽约等于残废啊,基本没什么没可用性,等过两年上d5吧
回复

使用道具 举报

     
发表于 2025-2-18 10:12 | 显示全部楼层
本帖最后由 9Suns 于 2025-2-18 10:17 编辑


KTransformer的新更新




https://github.com/kvcache-ai/kt ... ekR1_V3_tutorial.md

  • [NEW!!!] Local 671B DeepSeek-Coder-V3/R1: Running its Q4_K_M version using only 14GB VRAM and 382GB DRAM.
    • Prefill Speed (tokens/s):
      • KTransformers: 54.21 (32 cores) → 74.362 (dual-socket, 2×32 cores) → 255.26 (optimized AMX-based MoE kernel, V0.3 only) → 286.55 (selectively using 6 experts, V0.3 only)
      • Compared to 10.31 tokens/s in llama.cpp with 2×32 cores, achieving up to 27.79× speedup.
    • Decode Speed (tokens/s):
      • KTransformers: 8.73 (32 cores) → 11.26 (dual-socket, 2×32 cores) → 13.69 (selectively using 6 experts, V0.3 only)
      • Compared to 4.51 tokens/s in llama.cpp with 2×32 cores, achieving up to 3.03× speedup.




看这个速度算是不错了,不过硬件要求还是有的, 跑的也只是Q4量化
  • Model: DeepseekV3-q4km (int4)
  • CPU: cpu_model_name: Intel (R) Xeon (R) Gold 6454S, 32 cores per socket, 2 sockets, 2 numa nodes
  • GPU: 4090 24G VRAM

回复

使用道具 举报

     
发表于 2025-2-18 10:27 | 显示全部楼层
纯垃圾佬的玩具。。
回复

使用道具 举报

     
发表于 2025-2-18 10:52 | 显示全部楼层
好嘛.2000块钱我是真的有.
回复

使用道具 举报

     
发表于 2025-2-18 11:12 | 显示全部楼层
シマエナガ 发表于 2025-2-18 10:00
1.1 token/s。好家伙,问AI点事睡一觉起来看回答是吧

什么赛博笔友

评分

参与人数 2战斗力 +2 收起 理由
纹水 + 1 欢乐多
zing223 + 1 可爱的比喻hhh

查看全部评分

回复

使用道具 举报

     
发表于 2025-2-18 11:15 | 显示全部楼层
以前是垃圾佬装机跑3A游戏,以后就是垃圾佬装机跑AI模型了
回复

使用道具 举报

     
发表于 2025-2-18 11:16 | 显示全部楼层
格林达姆 发表于 2025-2-18 09:33
1.1.token,那说句话岂不是都是以分钟为单位

佛诺文奇的《真名实姓》里面, 大反派邮件人的token怕是都不到1.1。现在2000就能有了。
回复

使用道具 举报

     
发表于 2025-2-18 11:16 来自手机 | 显示全部楼层
9Suns 发表于 2025-2-18 10:12
KTransformer的新更新

还有内存382G啊

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

发表于 2025-2-18 11:32 | 显示全部楼层
傲腾内存本来就是个半成品 还要附带配置普通ddr4 搭配兼容性极差 垃圾佬折腾折腾可以 生产是不可能的
回复

使用道具 举报

     
发表于 2025-2-18 11:45 来自手机 | 显示全部楼层
Hikiyaga⑧man 发表于 2025-2-18 09:22
傲腾价格要起飞了吗 英特尔又卖飞一个业务

—— 来自 鹅球 v3.3.96-alpha

傲腾有人接吗?不是卖飞是直接没了吧
回复

使用道具 举报

     
发表于 2025-2-18 11:48 来自手机 | 显示全部楼层
原装大小姐 发表于 2025-2-18 09:42
这太慢了,不属于可用范畴,100每秒还差不多

—— 来自 鹅球 v3.3.96-alpha

你有没有用过ds的api,他都没有100tokens/s



—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-18 11:51 来自手机 | 显示全部楼层
琉璃苑軒風 发表于 2025-2-18 11:48
你有没有用过ds的api,他都没有100tokens/s

你用钉钉带的那个吧,就ds那动不动上万token的回复,4 50/s回答个问题就要几分钟了,用来干嘛,我还不如用通义千问

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-18 11:56 | 显示全部楼层
有种末世之后去垃圾填埋区捡垃圾维系数字化社会,然后发射航天器进行银河播种计划的莫名史诗感
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 03:24 , Processed in 0.269135 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表