DeepSeek 公布理论日总收入为 $562,027，成本利润率比545%

7uly · 发表于 2025-3-1 18:12

真的破防了然后还嘴硬太难看了

moekyo · 发表于 2025-3-1 18:16

这姓尤的有人科普吗

2017.05.04 · 发表于 2025-3-1 18:16

想起功夫了

这不就是打不过对面想揪个围观拱火的打一顿显微风吗

——来自 S1 Orange 1.2.5

Nanachi · 发表于 2025-3-1 18:16

感觉这人已经开始借机炒作吸引流量了

—— 来自鹅球 v3.3.96

overflowal · 发表于 2025-3-1 18:17

moekyo 发表于 2025-3-1 18:16
这姓尤的有人科普吗

能说出Deepseek难道不该对美国心存感恩吗这种话的人，你细品，学术界出来的废物

—— 来自鹅球 v3.3.96

orecheng · 发表于 2025-3-1 18:29

overflowal 发表于 2025-3-1 18:17
能说出Deepseek难道不该对美国心存感恩吗这种话的人，你细品，学术界出来的废物

—— 来自鹅球 v3.3.96 ...

我觉得都得向卖假药的百度感恩，毕竟Scaling Law是百度发现的，然后Anthropic创始人带到了OpenAI去的。

李彦宏这人眼光是真的牛皮，就是定力实在太差了

yswm · 发表于 2025-3-1 19:03

本帖最后由 yswm 于 2025-3-1 19:05 编辑

deepseek这些天不管是开源自己的技术组件，还是发布运行报告，应该是奔着要引领AI技术发展方向去的，做AI领域的linux

T型钉宫病毒 · 发表于 2025-3-1 19:51

体感来说这两天沉浸式翻译接deepseek快了很多

Fuuki · 发表于 2025-3-1 19:53

硅基确实慢，公司冲了pro，一周前经常因为慢切换到免费的阿里，上周开始才感觉好一些了
输出还只有4k token

mahoraga · 发表于 2025-3-1 20:14

moekyo 发表于 2025-3-1 18:16
这姓尤的有人科普吗

我前两年还真看到过，当时是看到一个叫colossalAI的项目，大概是训练和推理的框架都做吧,我没有具体实验过,就是当时看stra数量比较多就简单看了下. 当时看了下他的资料, 是搞AI方面高性能计算的。

但是说实话这个colossalAI有点一直不温不火的，我看到至少都有两三年了，我记得是chatgpt之前我就有看到过一次，但是到现在好像也没弄出什么名堂，反而是后来的像是vllm, SGLang这些现在比较主流

空き地卯木 · 发表于 2025-3-1 20:23

mahoraga 发表于 2025-3-1 20:14
我前两年还真看到过，当时是看到一个叫colossalAI的项目，大概是训练和推理的框架都做吧,我没有具体实验 ...

那大方向上岂不是ds同行吗？性能或者功能，他的团队写出来啥成果了么？

rednaxela · 发表于 2025-3-1 20:25

这么算H800每年利润7w刀？现在H800有没有25万？那不是半年回本每年200%利润

overflowal · 发表于 2025-3-1 20:29

空き地卯木发表于 2025-3-1 20:23
那大方向上岂不是ds同行吗？性能或者功能，他的团队写出来啥成果了么？

是硅基的同行。急了说跑deepseek赚不了钱。最后被deepseek发的报告打脸。
硅基老板最后的表示是，你这种每天只有几千人访问的小虾米确实不赚钱

—— 来自鹅球 v3.3.96

2017.05.04 · 发表于 2025-3-1 20:40

rednaxela 发表于 2025-3-1 20:25
这么算H800每年利润7w刀？现在H800有没有25万？那不是半年回本每年200%利润

没有，市场目录价20w
稳赚不赔的

——来自 S1 Orange 1.2.5

mahoraga · 发表于 2025-3-1 20:45

空き地卯木发表于 2025-3-1 20:23
那大方向上岂不是ds同行吗？性能或者功能，他的团队写出来啥成果了么？

大的方向上是，但是他们不自己做模型，主要是搞框架的，所以其实赛道差的还比较远。

其实chatgpt刚出llama刚出那会我还时不时看到他们发个博客说诶呀我们这个框架训练llama复现了什么什么效果，多少多少高效. 当时觉得这个团队跟进得还算挺快的，最近确实没怎么关注了，训练方面不确定，推理肯定是干不过那几个主流开源框架

我其实都很好奇他怎么能算出来差这么多的，之前到底怎么算的，我回去找找他之前的算法到底误差最大的在哪里

ryanghj · 发表于 2025-3-1 20:47

mahoraga 发表于 2025-3-1 20:45
大的方向上是，但是他们不自己做模型，主要是搞框架的，所以其实赛道差的还比较远。

其实chatgpt刚出lla ...

他是直接用vllm部署了一下觉得很慢，然后觉得DeepSeek团队水平肯定不如vllm所以一定更慢

但是vllm这两天一直在跟着DeepSeek搞适配就很难绷了

qratosones1337 · 发表于 2025-3-1 20:51

Fuuki 发表于 2025-3-1 19:53
硅基确实慢，公司冲了pro，一周前经常因为慢切换到免费的阿里，上周开始才感觉好一些了
输出还只有4k token ...

阿里那不是更慢，想要速度的话还得是火山

—— 来自鹅球 v3.3.96

ryanghj · 发表于 2025-3-1 20:55

按照ds官方的数据，全中国的ai需求只需要大约20万张H800（2500个节点）就可以满足

moekyo · 发表于 2025-3-1 20:56

mahoraga 发表于 2025-3-1 20:14
我前两年还真看到过，当时是看到一个叫colossalAI的项目，大概是训练和推理的框架都做吧,我没有具体实验 ...

你说的vllm是这个这个吗https://github.com/vllm-project/vllm/pull/13747

约翰里德 · 发表于 2025-3-1 20:57

硅基老板说他们的特色是可以调temperature，别的都是假的，默认0.6，只有他们是真的可以调0-2的，没用过其他的，是的吗

2017.05.04 · 发表于 2025-3-1 21:11

——来自 S1 Orange 1.2.5

mahoraga · 发表于 2025-3-1 21:12

moekyo 发表于 2025-3-1 20:56
你说的vllm是这个这个吗https://github.com/vllm-project/vllm/pull/13747

是的啊， vllm应该是现在最主流的了把，SGLang也经常听到有人在用。

2017.05.04 · 发表于 2025-3-1 21:30

这个讽刺的最好

——来自 S1 Orange 1.2.5

daliang · 发表于 2025-3-1 21:33

ryanghj 发表于 2025-3-1 20:55
按照ds官方的数据，全中国的ai需求只需要大约20万张H800（2500个节点）就可以满足 ...

2500个节点那就2万张吧

2017.05.04 · 发表于 2025-3-1 21:36

——来自 S1 Orange 1.2.5

凉良 · 发表于 2025-3-1 21:42

ww-tsl 发表于 2025-3-1 12:40
要是把写皇叔解禁哪怕只是放宽限制，就算不能加个0至少也能X5。

DS破限难度非常低啊只比grok稍许甲厚点。 DS写皇叔的问题是太发散太折磨人了。

ryanghj · 发表于 2025-3-1 21:44

daliang 发表于 2025-3-1 21:33
2500个节点那就2万张吧

打错了，25000个节点

流浪的翅膀 · 发表于 2025-3-1 21:44

艾诺琳发表于 2025-3-1 14:37
折旧也是云服务商考虑的
你出门打车还要考虑出租车折旧费？

人家说自有服务器部署，运营只需考虑电费。
类比自己用电车开出租还差不多。

nemo_mxc · 发表于 2025-3-1 22:09

终于也有一天S1吃瓜迟到自己身边了笑死

overflowal · 发表于 2025-3-1 22:09

2000多个H800每天处理600B的token，神之优化，英伟达都要承认自己不会用GPU

—— 来自鹅球 v3.3.96

mahoraga · 发表于 2025-3-1 22:11

本帖最后由 mahoraga 于 2025-3-1 22:22 编辑

ryanghj 发表于 2025-3-1 20:47
他是直接用vllm部署了一下觉得很慢，然后觉得DeepSeek团队水平肯定不如vllm所以一定更慢

但是vllm这两天 ...

我靠我刚自己去看了下视频算了下，本来没仔细看之前，我以为是业务场景和一些假设上不一致，导致差这么多，毕竟尤洋也是干这个的，我想不可能实际技术上差了那么远吧，还拉了个表准备逐个环节算差异

结果我算到一半发现两边差别最大的就是单台H800的推理效率，尤洋的假设是250 token/秒， deepseek给的我哪怕按低了算也是1万 token/秒，这中间几十倍的差距啊，那还有什么好说的。我都怀疑我自己是不是算错了，但是我从两边算（一遍是24小时的总输出token数，另一边是根据总收入算的处理token数）基本上都是1万上下。另一个角度说deepseek一天的输出token就是1680亿（用的机器我就算是300台吧），尤洋说要4000台机器才能一天跑1000亿，这个差距也很大。

算到这里我真的有点怀疑自己，对于单台H800的推理效率差距能有这么大吗？差几倍其实我可以理解，差几十倍那也太夸张了

另外他这个没事去Q一下硅基流动，还把deepseek从自己公司下线的举动，也太不成熟了，Deepseek这么大的热点硅基流动肯定要做的啊，有啥好说人家的

绕指流光 · 发表于 2025-3-1 22:12

尤洋太小丑了，等R2再出来的时候把他另外一半脸打肿

—— 来自鹅球 v3.3.96

ads147147 · 发表于 2025-3-1 22:12

充分理解了为什么让火云邪神破防的不是打死他而是你想学啊，我教你啊。。

—— 来自鹅球 v3.3.96

shqingda_ · 发表于 2025-3-1 22:13

本帖最后由 shqingda_ 于 2025-3-1 22:15 编辑

虽然不想引流但是看乐了

https://www.zhihu.com/question/13759294910
https://www.zhihu.com/question/13752772042

neptunehs · 发表于 2025-3-1 22:38

约翰里德发表于 2025-3-1 20:57
硅基老板说他们的特色是可以调temperature，别的都是假的，默认0.6，只有他们是真的可以调0-2的，没用过其 ...

但也有一种说法是temperature这个参数对r1是完全无效的

coldhot3 · 发表于 2025-3-1 22:46

neptunehs 发表于 2025-3-1 22:38
但也有一种说法是temperature这个参数对r1是完全无效的

deepseek的r1文档上说是没用的，但是硅基是不是自己弄了啥改进，这就不知道了。

kouym · 发表于 2025-3-1 22:47

天涯墨客发表于 2025-3-1 14:09
官网接沉浸式翻译那些有点不太方便

—— 来自鹅球 v3.3.96

很方便的只要兼容openai格式的就能用官网的api 不需要单独适配的
就是现在多了个排队模式体验上稍微比之前没火前慢一点点

ryanghj · 发表于 2025-3-1 22:49

coldhot3 发表于 2025-3-1 22:46
deepseek的r1文档上说是没用的，但是硅基是不是自己弄了啥改进，这就不知道了。 ...

你误解了，所有Transformer模型都可以设置Temperature，只是官网不让调因为推理模型对Temperature很敏感所以没开放，第三方自己部署的都可以调

coldhot3 · 发表于 2025-3-1 22:52

ryanghj 发表于 2025-3-1 22:49
你误解了，所有Transformer模型都可以设置Temperature，只是官网不让调因为推理模型对Temperature很敏感所 ...

就是说他们的模型能调，但是ds人为锁死了？那我们私有部署的ds蒸馏模型也能调了？我们正在挠头怎么解决ai思维发散问题呢。降低temperature有效果吗？

ryanghj · 发表于 2025-3-1 22:54

coldhot3 发表于 2025-3-1 22:52
就是说他们的模型能调，但是ds人为锁死了？那我们私有部署的ds蒸馏模型也能调了？我们正在挠头怎么解决ai ...

Temp=0的时候每次相同输入都会给出相同输出，这个参数本质上是在最后挑选的时候改变候选词的权重

		自动登录	找回密码
密码			立即注册

[科技] DeepSeek 公布理论日总收入为 $562,027，成本利润率比545%

评分

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源