找回密码
 立即注册
搜索
查看: 9239|回复: 51

[科技] 华为推出Deepseek本地部署一体机

[复制链接]
     
发表于 2025-2-18 16:11 | 显示全部楼层 |阅读模式
本帖最后由 ltycomputer 于 2025-2-18 16:12 编辑

原帖

最近DeepSeek R1的火爆,引起了本地部署的热潮,但大部分个人用户,受到设备的限制,一般只能在个人电脑上部署小尺寸的1.5B或7B等轻量版。要本地部署完整版的R1 671B版本,至少需要500GB内存,以及约800GB(FP8精度)或1.4TB(FP16/BF16精度)显存。

对于企业用户而言,本地部署能够有效保护数据安全和隐私,避免将核心数据传输至第三方云端。针对企业需求,近期DeepSeek一体机也开始快速进入市场,帮助企业或个人客户AI应用快速落地。

华为在上周推出了昇腾DeepSeek大模型一体机,提供从服务器、推理卡、到加速模组等丰富的DeepSeek一体机产品形态。而2月17日华为DCS AI解决方案针对DeepSeek本地部署又推出了一系列FusionCube A3000训练/推理超融合一体机,深度适配DeepSeek V3/R1.以及蒸馏模型,支持私有化部署。

据介绍,FusionCube A3000分为三个版本,一是面向“满血版”DeepSeek R1和V3(671B)的FusionCube A3000 Ultra,支持模型推理,内置2个Atlas800I A2推理服务器,根据官网的操作维护指南,Atlas800I A2是一款4U形态的推理服务器,CPU支持4路鲲鹏920处理器,最多32个DDR4内存插槽,支持最高8个昇腾910 AI加速卡;存储方面使用OceanStor Dorado 5500全闪存存储系统,最大缓存384GB~4TB。

二是面向32B、70B蒸馏模型的FusionCube A3000 Pro,使用一个Atlas800I A2推理服务器和OceanStor Dorado 2100全闪存存储系统。

三是面向1.5B、7B、14B等蒸馏轻量版模型的FusionCube A3000 Lite,采用1个Atlas800 3000(4个Atlas 300I Duo),没有配备全闪存存储系统,满足一些智能办公、个性推荐等简单应用。

回复

使用道具 举报

     
 楼主| 发表于 2025-2-18 16:12 | 显示全部楼层
(根据《中华人民共和国数据安全法》,就算不搞网安等保测评,数据安全所有实体都要遵守,本地部署不上云是很多场景的刚需)
回复

使用道具 举报

发表于 2025-2-18 16:14 | 显示全部楼层
铲子企业又要大卖特卖铲子了

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2025-2-18 16:15 | 显示全部楼层
虽然知道买不起,但还是好奇价格是多少?
回复

使用道具 举报

     
发表于 2025-2-18 16:16 来自手机 | 显示全部楼层
本帖最后由 a4ac7 于 2025-2-18 16:18 编辑

新闻是有了,就是购买链接还没找到

主要是看下面英伟达的对比样机说3000美元的,有点想法
英伟达表示,GB10超级芯片让Project DIGITS只需使用标准电源插座就能提供强大的性能。借助 Project DIGITS,用户则可以使用自己的桌面系统开发和运行模型推理,并在加速的云或数据中心基础设施上无缝部署模型。同时,用户还可以通过英伟达技术将两台Project DIGITS AI超级计算机连接在一起,运行包含高达4050亿参数的模型。

华为DS版FusionCube A3000以及中科曙光的DS超融合一体机价格暂不清楚,而英伟达面向个人的消费级Project DIGITS的具体售价约在3000美元左右,今年晚些时候上市。


—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-18 16:19 | 显示全部楼层

跑671b是1911 token/s
回复

使用道具 举报

     
发表于 2025-2-18 16:20 | 显示全部楼层
一骑当千 发表于 2025-2-18 16:15
虽然知道买不起,但还是好奇价格是多少?

“满血版”DeepSeek R1那个,里面2台Atlas800I A2,250-300万吧,还加了存储超300万也正常
回复

使用道具 举报

发表于 2025-2-18 16:22 来自手机 | 显示全部楼层
第一个满配的先不说
后两个肯定比不上隔壁贴2000块的垃圾佬拼装版本吧?
回复

使用道具 举报

     
发表于 2025-2-18 16:25 | 显示全部楼层
满血版1911 token/s,300万以上吗

要是能有百分之一速度和百分之一价格,面向个人消费者的就好了
回复

使用道具 举报

     
发表于 2025-2-18 16:29 来自手机 | 显示全部楼层
70b以下也去卖,有什么必要吗
什么都划拉是吧
回复

使用道具 举报

发表于 2025-2-18 16:31 | 显示全部楼层
Sunyalche 发表于 2025-2-18 16:25
满血版1911 token/s,300万以上吗

要是能有百分之一速度和百分之一价格,面向个人消费者的就好了 ...

企业、学校、机关本地部署一台,给100个人用,不就是这个效果吗?
回复

使用道具 举报

     
发表于 2025-2-18 16:32 | 显示全部楼层
Realplayer 发表于 2025-2-18 16:29
70b以下也去卖,有什么必要吗
什么都划拉是吧

两台服务器变一台呗
回复

使用道具 举报

     
发表于 2025-2-18 16:33 | 显示全部楼层
a4ac7 发表于 2025-2-18 16:16
新闻是有了,就是购买链接还没找到

主要是看下面英伟达的对比样机说3000美元的,有点想法

比较香, 虽然天生的tensor core较少导致推理速度慢. 但是别的解决方案都涉及到显存内存交换数据, 只有小黑盒是统一内存.理论上两个Project DIGITS合并到256GB就能跑量化到2bits的R1 671了 https://unsloth.ai/blog/deepseekr1-dynamic, 还有剩余越70G到90G的统一内存空间给长上下文用. 老黄看了拍断腿说早知道有R1这种超大显存需求,就不当场公布价格了.
回复

使用道具 举报

     
发表于 2025-2-18 16:36 | 显示全部楼层
现在性价比还是烂,期待国内芯片技术上去,能把单人使用价格打到中高端手机售价
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-2-18 16:38 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-2-18 16:38 | 显示全部楼层
哪里看的价格啊?
回复

使用道具 举报

     
发表于 2025-2-18 16:40 来自手机 | 显示全部楼层
本帖最后由 tylunas 于 2025-2-18 17:01 编辑

一台Atlas 800 A2包含8张910B,前两天群友公司得到的报价是价格200W。两台之间应该是用InfiniBand连接的。估计价格450万往上了。再加上全固态存储更不止(两机共32T SSD,其实可以不买)。

亲民的方案大佬还在开发中,一块3090+512G DDR4内存就能流畅运行满血版R1了。

【满血DeepSeek V3 ,国产cpu低成本流畅运行-哔哩哔哩】 https://b23.tv/bV1OhB8
回复

使用道具 举报

     
发表于 2025-2-18 16:43 来自手机 | 显示全部楼层
泰坦失足 发表于 2025-2-18 16:33
比较香, 虽然天生的tensor core较少导致推理速度慢. 但是别的解决方案都涉及到显存内存交换数据, 只有小 ...

你是不是把苹果给忘了,价格不可能比苹果贵的
回复

使用道具 举报

     
发表于 2025-2-18 16:44 来自手机 | 显示全部楼层
70b及以下模型有个96g内存的家用PC都能跑的很好,就算是企业用x86服务器也不会很贵,没必要花大钱买专用硬件。

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-18 16:44 | 显示全部楼层
秦南心 发表于 2025-2-18 16:36
现在性价比还是烂,期待国内芯片技术上去,能把单人使用价格打到中高端手机售价 ...

这个还是别做梦了,看看API托管吧
回复

使用道具 举报

     
发表于 2025-2-18 16:45 来自手机 | 显示全部楼层
能不能把显存做成ssd插拔可替换模式
回复

使用道具 举报

     
发表于 2025-2-18 16:46 | 显示全部楼层
百猪夜行 发表于 2025-2-18 16:44
70b及以下模型有个96g内存的家用PC都能跑的很好,就算是企业用x86服务器也不会很贵,没必要花大钱买专用硬 ...

今后MoE模型推理会两极分化——你说的这种是KTransformers方案,基本上没有并发能力,企业不可能给每个人都配上几万块钱的设备
回复

使用道具 举报

     
发表于 2025-2-18 16:49 来自手机 | 显示全部楼层
洛拉斯 发表于 2025-2-18 16:38
个人部署的话真不如租云算力

云算力这价格是给个人的吗,比如华为云p2s每个月租金1万6左右,两张V100的机器,还只能搞32b的推理的

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-18 16:49 | 显示全部楼层
qratosones1337 发表于 2025-2-18 16:46
今后MoE模型推理会两极分化——你说的这种是KTransformers方案,基本上没有并发能力,企业不可能给每个人 ...

家用不提,四卡双路线程的4U就能跑
甚至有新闻说单卡24G+480RAM能跑完整的模型
菊花这么搞怕不是在硬件名字前面加上吃鸡二字
再者说了,你都Local跑70B了还要什么并发
回复

使用道具 举报

     
发表于 2025-2-18 16:50 | 显示全部楼层
前几年因项目需要,研发环境逐步切换到ARM架构机器上,首选当然是华为的,然而实在是太贵了,公司舍不得大面积更换,只采购2台作为编译环境。
当时公司的很多机器都是i7-9700、i5-9400、 i5-10400 ,32G,500G或1T SSD采购价才4000~5000(DIY当然更便宜,这个另说)。这样的机器在开个几个虚拟机,能部署分布式集群。
华为的ARM机器配置是单CPU 4核,32G内存,500G SSD,一万多块,夸张点就是一台华为机器可以买2台性能更好的X86机器。
当然国产化替代无可避免,尤其是政府项目,不仅是硬件,后续操作系统也从centos切换到麒麟、openeuler等国产操作系统。
但是这种价格差距足以让“非必要”的项目重新思考。
回复

使用道具 举报

     
发表于 2025-2-18 16:56 | 显示全部楼层
洛拉斯 发表于 2025-2-18 16:38
个人部署的话真不如租云算力

那要求隐私呢?总不能啥都上网吧……
回复

使用道具 举报

     
发表于 2025-2-18 17:01 | 显示全部楼层
洛拉斯 发表于 2025-2-18 16:38
个人部署的话真不如租云算力

租用云算力是不是不能搞瑟瑟,这生产力得不到解放
回复

使用道具 举报

发表于 2025-2-18 17:03 来自手机 | 显示全部楼层
老黄也有类似的机器,有点事带宽很高

搞cpu gpu的offload很好用
回复

使用道具 举报

     
发表于 2025-2-18 17:04 来自手机 | 显示全部楼层
一骑当千 发表于 2025-2-18 16:15
虽然知道买不起,但还是好奇价格是多少?

910B* 20万一张吧,2机16卡你算算
回复

使用道具 举报

     
发表于 2025-2-18 17:08 | 显示全部楼层
Realplayer 发表于 2025-2-18 16:49
家用不提,四卡双路线程的4U就能跑
甚至有新闻说单卡24G+480RAM能跑完整的模型
菊花这么搞怕不是在硬件名 ...

8卡910B跑LLama70B级模型,上百并发每秒几千Token还不是轻轻松松
回复

使用道具 举报

     
发表于 2025-2-18 17:09 来自手机 | 显示全部楼层
Sunyalche 发表于 2025-2-18 16:25
满血版1911 token/s,300万以上吗

要是能有百分之一速度和百分之一价格,面向个人消费者的就好了 ...

个人用户也没必要满血版吧,一般 70b 就够了
回复

使用道具 举报

     
发表于 2025-2-18 17:10 | 显示全部楼层
本帖最后由 qratosones1337 于 2025-2-18 17:12 编辑
Realplayer 发表于 2025-2-18 16:49
家用不提,四卡双路线程的4U就能跑
甚至有新闻说单卡24G+480RAM能跑完整的模型
菊花这么搞怕不是在硬件名 ...

你提到的那个新闻指的是KTransformers方案,所谓“完整的模型”指的是Q4量化的模型,完全不可并发且Decode勉强能跑到7t/s的下限速度。华为这边要是一样用量化模型的话四张Atlas300I Duo就能跑,一张三万块钱,而且推理速度比你说的KTransformers方案快很多。
回复

使用道具 举报

     
发表于 2025-2-18 17:10 | 显示全部楼层
tylunas 发表于 2025-2-18 16:40
一台Atlas 800 A2包含8张910B,前两天群友公司得到的报价是价格200W。两台之间应该是用InfiniBand连接的。 ...

512G内存哪里亲民了
回复

使用道具 举报

     
发表于 2025-2-18 17:11 | 显示全部楼层
alixsander 发表于 2025-2-18 17:04
910B* 20万一张吧,2机16卡你算算

没那么贵,24年Q2的报价,某互联网大厂采购的x86底座16卡910B整机才170W
回复

使用道具 举报

     
发表于 2025-2-18 17:13 | 显示全部楼层
qratosones1337 发表于 2025-2-18 17:10
你提到的那个新闻指的是KTransformers方案,所谓“完整的模型”指的是Q4量化的模型,完全不可并发且Decode ...

跑70B够了

没必要花那个冤枉钱
回复

使用道具 举报

     
发表于 2025-2-18 17:13 | 显示全部楼层

跑70B本来也不用你说的那套东西啊,四张4090开vllm就勉强够了,而且速度还挺快
回复

使用道具 举报

     
发表于 2025-2-18 17:14 | 显示全部楼层
本帖最后由 Realplayer 于 2025-2-18 17:16 编辑
qratosones1337 发表于 2025-2-18 17:13
跑70B本来也不用你说的那套东西啊,四张4090开vllm就勉强够了,而且速度还挺快 ...

那你说说菊花卖的单路什么配置什么价格
PS:而且我说的是单卡跑满血,直接ollama可能还不够
菊花这些1.5~70B的到底准备卖给谁
回复

使用道具 举报

     
发表于 2025-2-18 17:16 来自手机 | 显示全部楼层
qratosones1337 发表于 2025-2-18 17:11
没那么贵,24年Q2的报价,某互联网大厂采购的x86底座16卡910B整机才170W

B1-4有区别,要看某厂买的是啥
还有16卡 应该当前跑的是int8量化的(量化流程见昇腾社区FP8->BF16->INT8)
回复

使用道具 举报

     
发表于 2025-2-18 17:20 来自手机 | 显示全部楼层

洋垃圾DDR4 32G*16,大船货马上还会来一堆。

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-18 17:31 | 显示全部楼层
本帖最后由 qratosones1337 于 2025-2-18 17:34 编辑
alixsander 发表于 2025-2-18 17:16
B1-4有区别,要看某厂买的是啥
还有16卡 应该当前跑的是int8量化的(量化流程见昇腾社区FP8->BF16->INT8 ...

推理用的Atlas800I便宜多了,这里说的16卡机器指的是训练卡(好像是B2)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 15:54 , Processed in 0.218215 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表