华为推出Deepseek本地部署一体机

ltycomputer · 发表于 2025-2-18 16:11

本帖最后由 ltycomputer 于 2025-2-18 16:12 编辑

原帖

最近DeepSeek R1的火爆，引起了本地部署的热潮，但大部分个人用户，受到设备的限制，一般只能在个人电脑上部署小尺寸的1.5B或7B等轻量版。要本地部署完整版的R1 671B版本，至少需要500GB内存，以及约800GB(FP8精度)或1.4TB(FP16/BF16精度)显存。

对于企业用户而言，本地部署能够有效保护数据安全和隐私，避免将核心数据传输至第三方云端。针对企业需求，近期DeepSeek一体机也开始快速进入市场，帮助企业或个人客户AI应用快速落地。

华为在上周推出了昇腾DeepSeek大模型一体机，提供从服务器、推理卡、到加速模组等丰富的DeepSeek一体机产品形态。而2月17日华为DCS AI解决方案针对DeepSeek本地部署又推出了一系列FusionCube A3000训练/推理超融合一体机，深度适配DeepSeek V3/R1.以及蒸馏模型，支持私有化部署。

据介绍，FusionCube A3000分为三个版本，一是面向“满血版”DeepSeek R1和V3(671B)的FusionCube A3000 Ultra，支持模型推理，内置2个Atlas800I A2推理服务器，根据官网的操作维护指南，Atlas800I A2是一款4U形态的推理服务器，CPU支持4路鲲鹏920处理器，最多32个DDR4内存插槽，支持最高8个昇腾910 AI加速卡;存储方面使用OceanStor Dorado 5500全闪存存储系统，最大缓存384GB~4TB。

二是面向32B、70B蒸馏模型的FusionCube A3000 Pro，使用一个Atlas800I A2推理服务器和OceanStor Dorado 2100全闪存存储系统。

三是面向1.5B、7B、14B等蒸馏轻量版模型的FusionCube A3000 Lite，采用1个Atlas800 3000(4个Atlas 300I Duo)，没有配备全闪存存储系统，满足一些智能办公、个性推荐等简单应用。

ltycomputer · 发表于 2025-2-18 16:12

（根据《中华人民共和国数据安全法》，就算不搞网安等保测评，数据安全所有实体都要遵守，本地部署不上云是很多场景的刚需）

i0ncube_R · 发表于 2025-2-18 16:14

铲子企业又要大卖特卖铲子了

论坛助手,iPhone

一骑当千 · 发表于 2025-2-18 16:15

虽然知道买不起，但还是好奇价格是多少？

a4ac7 · 发表于 2025-2-18 16:16

本帖最后由 a4ac7 于 2025-2-18 16:18 编辑

新闻是有了，就是购买链接还没找到

主要是看下面英伟达的对比样机说3000美元的，有点想法

英伟达表示，GB10超级芯片让Project DIGITS只需使用标准电源插座就能提供强大的性能。借助 Project DIGITS，用户则可以使用自己的桌面系统开发和运行模型推理，并在加速的云或数据中心基础设施上无缝部署模型。同时，用户还可以通过英伟达技术将两台Project DIGITS AI超级计算机连接在一起，运行包含高达4050亿参数的模型。

华为DS版FusionCube A3000以及中科曙光的DS超融合一体机价格暂不清楚，而英伟达面向个人的消费级Project DIGITS的具体售价约在3000美元左右，今年晚些时候上市。

—— 来自鹅球 v3.3.96

sellboy · 发表于 2025-2-18 16:19

跑671b是1911 token/s

best32167 · 发表于 2025-2-18 16:20

一骑当千发表于 2025-2-18 16:15
虽然知道买不起，但还是好奇价格是多少？

“满血版”DeepSeek R1那个，里面2台Atlas800I A2，250-300万吧，还加了存储超300万也正常

INDIASH · 发表于 2025-2-18 16:22

第一个满配的先不说
后两个肯定比不上隔壁贴2000块的垃圾佬拼装版本吧？

Sunyalche · 发表于 2025-2-18 16:25

满血版1911 token/s，300万以上吗

要是能有百分之一速度和百分之一价格，面向个人消费者的就好了

Realplayer · 发表于 2025-2-18 16:29

70b以下也去卖，有什么必要吗
什么都划拉是吧

الطائر · 发表于 2025-2-18 16:31

Sunyalche 发表于 2025-2-18 16:25
满血版1911 token/s，300万以上吗

要是能有百分之一速度和百分之一价格，面向个人消费者的就好了 ...

企业、学校、机关本地部署一台，给100个人用，不就是这个效果吗？

qratosones1337 · 发表于 2025-2-18 16:32

Realplayer 发表于 2025-2-18 16:29
70b以下也去卖，有什么必要吗
什么都划拉是吧

两台服务器变一台呗

泰坦失足 · 发表于 2025-2-18 16:33

a4ac7 发表于 2025-2-18 16:16
新闻是有了，就是购买链接还没找到

主要是看下面英伟达的对比样机说3000美元的，有点想法

比较香, 虽然天生的tensor core较少导致推理速度慢. 但是别的解决方案都涉及到显存内存交换数据, 只有小黑盒是统一内存.理论上两个Project DIGITS合并到256GB就能跑量化到2bits的R1 671了 https://unsloth.ai/blog/deepseekr1-dynamic, 还有剩余越70G到90G的统一内存空间给长上下文用. 老黄看了拍断腿说早知道有R1这种超大显存需求,就不当场公布价格了.

秦南心 · 发表于 2025-2-18 16:36

现在性价比还是烂，期待国内芯片技术上去，能把单人使用价格打到中高端手机售价

洛拉斯 · 发表于 2025-2-18 16:38

提示: 作者被禁止或删除内容自动屏蔽

UNICORN00 · 发表于 2025-2-18 16:38

哪里看的价格啊？

tylunas · 发表于 2025-2-18 16:40

本帖最后由 tylunas 于 2025-2-18 17:01 编辑

一台Atlas 800 A2包含8张910B，前两天群友公司得到的报价是价格200W。两台之间应该是用InfiniBand连接的。估计价格450万往上了。再加上全固态存储更不止(两机共32T SSD，其实可以不买)。

亲民的方案大佬还在开发中，一块3090+512G DDR4内存就能流畅运行满血版R1了。

【满血DeepSeek V3 ，国产cpu低成本流畅运行-哔哩哔哩】 https://b23.tv/bV1OhB8

qwased · 发表于 2025-2-18 16:43

泰坦失足发表于 2025-2-18 16:33
比较香, 虽然天生的tensor core较少导致推理速度慢. 但是别的解决方案都涉及到显存内存交换数据, 只有小 ...

你是不是把苹果给忘了，价格不可能比苹果贵的

百猪夜行 · 发表于 2025-2-18 16:44

70b及以下模型有个96g内存的家用PC都能跑的很好，就算是企业用x86服务器也不会很贵，没必要花大钱买专用硬件。

—— 来自鹅球 v3.3.96-alpha

qratosones1337 · 发表于 2025-2-18 16:44

秦南心发表于 2025-2-18 16:36
现在性价比还是烂，期待国内芯片技术上去，能把单人使用价格打到中高端手机售价 ...

这个还是别做梦了，看看API托管吧

随机抽查 · 发表于 2025-2-18 16:45

能不能把显存做成ssd插拔可替换模式

qratosones1337 · 发表于 2025-2-18 16:46

百猪夜行发表于 2025-2-18 16:44
70b及以下模型有个96g内存的家用PC都能跑的很好，就算是企业用x86服务器也不会很贵，没必要花大钱买专用硬 ...

今后MoE模型推理会两极分化——你说的这种是KTransformers方案，基本上没有并发能力，企业不可能给每个人都配上几万块钱的设备

a4ac7 · 发表于 2025-2-18 16:49

洛拉斯发表于 2025-2-18 16:38
个人部署的话真不如租云算力

云算力这价格是给个人的吗，比如华为云p2s每个月租金1万6左右，两张V100的机器，还只能搞32b的推理的

—— 来自鹅球 v3.3.96

Realplayer · 发表于 2025-2-18 16:49

qratosones1337 发表于 2025-2-18 16:46
今后MoE模型推理会两极分化——你说的这种是KTransformers方案，基本上没有并发能力，企业不可能给每个人 ...

家用不提，四卡双路线程的4U就能跑
甚至有新闻说单卡24G+480RAM能跑完整的模型
菊花这么搞怕不是在硬件名字前面加上吃鸡二字
再者说了，你都Local跑70B了还要什么并发

hentai烧酒 · 发表于 2025-2-18 16:50

前几年因项目需要，研发环境逐步切换到ARM架构机器上，首选当然是华为的，然而实在是太贵了，公司舍不得大面积更换，只采购2台作为编译环境。
当时公司的很多机器都是i7-9700、i5-9400、 i5-10400 ，32G，500G或1T SSD采购价才4000~5000（DIY当然更便宜，这个另说）。这样的机器在开个几个虚拟机，能部署分布式集群。
华为的ARM机器配置是单CPU 4核，32G内存，500G SSD，一万多块，夸张点就是一台华为机器可以买2台性能更好的X86机器。
当然国产化替代无可避免，尤其是政府项目，不仅是硬件，后续操作系统也从centos切换到麒麟、openeuler等国产操作系统。
但是这种价格差距足以让“非必要”的项目重新思考。

logiccat · 发表于 2025-2-18 16:56

洛拉斯发表于 2025-2-18 16:38
个人部署的话真不如租云算力

那要求隐私呢？总不能啥都上网吧……

macrosszhao · 发表于 2025-2-18 17:01

洛拉斯发表于 2025-2-18 16:38
个人部署的话真不如租云算力

租用云算力是不是不能搞瑟瑟,这生产力得不到解放

FeteFete · 发表于 2025-2-18 17:03

老黄也有类似的机器，有点事带宽很高

搞cpu gpu的offload很好用

alixsander · 发表于 2025-2-18 17:04

一骑当千发表于 2025-2-18 16:15
虽然知道买不起，但还是好奇价格是多少？

910B* 20万一张吧，2机16卡你算算

qratosones1337 · 发表于 2025-2-18 17:08

Realplayer 发表于 2025-2-18 16:49
家用不提，四卡双路线程的4U就能跑
甚至有新闻说单卡24G+480RAM能跑完整的模型
菊花这么搞怕不是在硬件名 ...

8卡910B跑LLama70B级模型，上百并发每秒几千Token还不是轻轻松松

万恶淫猥手 · 发表于 2025-2-18 17:09

Sunyalche 发表于 2025-2-18 16:25
满血版1911 token/s，300万以上吗

要是能有百分之一速度和百分之一价格，面向个人消费者的就好了 ...

个人用户也没必要满血版吧，一般 70b 就够了

qratosones1337 · 发表于 2025-2-18 17:10

本帖最后由 qratosones1337 于 2025-2-18 17:12 编辑

Realplayer 发表于 2025-2-18 16:49
家用不提，四卡双路线程的4U就能跑
甚至有新闻说单卡24G+480RAM能跑完整的模型
菊花这么搞怕不是在硬件名 ...

你提到的那个新闻指的是KTransformers方案，所谓“完整的模型”指的是Q4量化的模型，完全不可并发且Decode勉强能跑到7t/s的下限速度。华为这边要是一样用量化模型的话四张Atlas300I Duo就能跑，一张三万块钱，而且推理速度比你说的KTransformers方案快很多。

处男老司机 · 发表于 2025-2-18 17:10

tylunas 发表于 2025-2-18 16:40
一台Atlas 800 A2包含8张910B，前两天群友公司得到的报价是价格200W。两台之间应该是用InfiniBand连接的。 ...

512G内存哪里亲民了

qratosones1337 · 发表于 2025-2-18 17:11

alixsander 发表于 2025-2-18 17:04
910B* 20万一张吧，2机16卡你算算

没那么贵，24年Q2的报价，某互联网大厂采购的x86底座16卡910B整机才170W

Realplayer · 发表于 2025-2-18 17:13

qratosones1337 发表于 2025-2-18 17:10
你提到的那个新闻指的是KTransformers方案，所谓“完整的模型”指的是Q4量化的模型，完全不可并发且Decode ...

跑70B够了

没必要花那个冤枉钱

qratosones1337 · 发表于 2025-2-18 17:13

Realplayer 发表于 2025-2-18 17:13
跑70B够了

跑70B本来也不用你说的那套东西啊，四张4090开vllm就勉强够了，而且速度还挺快

Realplayer · 发表于 2025-2-18 17:14

本帖最后由 Realplayer 于 2025-2-18 17:16 编辑

qratosones1337 发表于 2025-2-18 17:13
跑70B本来也不用你说的那套东西啊，四张4090开vllm就勉强够了，而且速度还挺快 ...

那你说说菊花卖的单路什么配置什么价格
PS:而且我说的是单卡跑满血，直接ollama可能还不够
菊花这些1.5~70B的到底准备卖给谁

alixsander · 发表于 2025-2-18 17:16

qratosones1337 发表于 2025-2-18 17:11
没那么贵，24年Q2的报价，某互联网大厂采购的x86底座16卡910B整机才170W

B1-4有区别，要看某厂买的是啥
还有16卡应该当前跑的是int8量化的（量化流程见昇腾社区FP8->BF16->INT8）

tylunas · 发表于 2025-2-18 17:20

处男老司机发表于 2025-2-18 17:10
512G内存哪里亲民了

洋垃圾DDR4 32G*16，大船货马上还会来一堆。

—— 来自鹅球 v3.3.96-alpha

qratosones1337 · 发表于 2025-2-18 17:31

本帖最后由 qratosones1337 于 2025-2-18 17:34 编辑

alixsander 发表于 2025-2-18 17:16
B1-4有区别，要看某厂买的是啥
还有16卡应该当前跑的是int8量化的（量化流程见昇腾社区FP8->BF16->INT8 ...

推理用的Atlas800I便宜多了，这里说的16卡机器指的是训练卡（好像是B2）

		自动登录	找回密码
密码			立即注册

洛拉斯洛拉斯当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2019-8-21 头像被屏蔽	发表于 2025-2-18 16:38 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

[科技] 华为推出Deepseek本地部署一体机