找回密码
 立即注册
搜索
楼主: 小野賢章

[科技] DeepSeek 公布理论日总收入为 $562,027,成本利润率比545%

[复制链接]
     
发表于 2025-3-1 18:12 | 显示全部楼层
真的破防了 然后还嘴硬 太难看了
回复

使用道具 举报

     
发表于 2025-3-1 18:16 | 显示全部楼层
这姓尤的有人科普吗
回复

使用道具 举报

     
发表于 2025-3-1 18:16 来自手机 | 显示全部楼层
想起功夫了
这不就是打不过对面想揪个围观拱火的打一顿显微风吗

——来自 S1 Orange 1.2.5
回复

使用道具 举报

     
发表于 2025-3-1 18:16 来自手机 | 显示全部楼层
感觉这人已经开始借机炒作吸引流量了

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

发表于 2025-3-1 18:17 来自手机 | 显示全部楼层
moekyo 发表于 2025-3-1 18:16
这姓尤的有人科普吗

能说出Deepseek难道不该对美国心存感恩吗这种话的人,你细品,学术界出来的废物

—— 来自 鹅球 v3.3.96

评分

参与人数 1战斗力 +1 收起 理由
moekyo + 1 那没事了

查看全部评分

回复

使用道具 举报

     
发表于 2025-3-1 18:29 | 显示全部楼层
overflowal 发表于 2025-3-1 18:17
能说出Deepseek难道不该对美国心存感恩吗这种话的人,你细品,学术界出来的废物

—— 来自 鹅球 v3.3.96 ...

我觉得都得向卖假药的百度感恩,毕竟Scaling Law是百度发现的,然后Anthropic创始人带到了OpenAI去的。


李彦宏这人眼光是真的牛皮,就是定力实在太差了
回复

使用道具 举报

     
发表于 2025-3-1 19:03 | 显示全部楼层
本帖最后由 yswm 于 2025-3-1 19:05 编辑

deepseek这些天不管是开源自己的技术组件,还是发布运行报告,应该是奔着要引领AI技术发展方向去的,做AI领域的linux
回复

使用道具 举报

     
发表于 2025-3-1 19:51 | 显示全部楼层
体感来说这两天沉浸式翻译接deepseek快了很多
回复

使用道具 举报

发表于 2025-3-1 19:53 来自手机 | 显示全部楼层
硅基确实慢,公司冲了pro,一周前经常因为慢切换到免费的阿里,上周开始才感觉好一些了
输出还只有4k token
回复

使用道具 举报

     
发表于 2025-3-1 20:14 | 显示全部楼层
moekyo 发表于 2025-3-1 18:16
这姓尤的有人科普吗

我前两年还真看到过,当时是看到一个叫colossalAI的项目,大概是训练和推理的框架都做吧,我没有具体实验过,就是当时看stra数量比较多就简单看了下. 当时看了下他的资料, 是搞AI方面高性能计算的。

但是说实话这个colossalAI有点一直不温不火的,我看到至少都有两三年了,我记得是chatgpt之前我就有看到过一次,但是到现在好像也没弄出什么名堂,反而是后来的像是vllm, SGLang这些现在比较主流
回复

使用道具 举报

     
发表于 2025-3-1 20:23 来自手机 | 显示全部楼层
mahoraga 发表于 2025-3-1 20:14
我前两年还真看到过,当时是看到一个叫colossalAI的项目,大概是训练和推理的框架都做吧,我没有具体实验 ...

那大方向上岂不是ds同行吗?性能或者功能,他的团队写出来啥成果了么?
回复

使用道具 举报

发表于 2025-3-1 20:25 | 显示全部楼层
这么算H800每年利润7w刀?现在H800有没有25万?那不是半年回本每年200%利润
回复

使用道具 举报

发表于 2025-3-1 20:29 来自手机 | 显示全部楼层
空き地卯木 发表于 2025-3-1 20:23
那大方向上岂不是ds同行吗?性能或者功能,他的团队写出来啥成果了么?

是硅基的同行。急了说跑deepseek赚不了钱。最后被deepseek发的报告打脸。
硅基老板最后的表示是,你这种每天只有几千人访问的小虾米确实不赚钱
—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-3-1 20:40 来自手机 | 显示全部楼层
rednaxela 发表于 2025-3-1 20:25
这么算H800每年利润7w刀?现在H800有没有25万?那不是半年回本每年200%利润

没有,市场目录价20w
稳赚不赔的

——来自 S1 Orange 1.2.5
回复

使用道具 举报

     
发表于 2025-3-1 20:45 来自手机 | 显示全部楼层
空き地卯木 发表于 2025-3-1 20:23
那大方向上岂不是ds同行吗?性能或者功能,他的团队写出来啥成果了么?

大的方向上是,但是他们不自己做模型,主要是搞框架的,所以其实赛道差的还比较远。

其实chatgpt刚出llama刚出那会我还时不时看到他们发个博客说诶呀我们这个框架训练llama复现了什么什么效果,多少多少高效. 当时觉得这个团队跟进得还算挺快的,最近确实没怎么关注了,训练方面不确定,推理肯定是干不过那几个主流开源框架

我其实都很好奇他怎么能算出来差这么多的,之前到底怎么算的,我回去找找他之前的算法到底误差最大的在哪里
回复

使用道具 举报

发表于 2025-3-1 20:47 | 显示全部楼层
mahoraga 发表于 2025-3-1 20:45
大的方向上是,但是他们不自己做模型,主要是搞框架的,所以其实赛道差的还比较远。

其实chatgpt刚出lla ...

他是直接用vllm部署了一下觉得很慢,然后觉得DeepSeek团队水平肯定不如vllm所以一定更慢

但是vllm这两天一直在跟着DeepSeek搞适配就很难绷了


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-3-1 20:51 来自手机 | 显示全部楼层
Fuuki 发表于 2025-3-1 19:53
硅基确实慢,公司冲了pro,一周前经常因为慢切换到免费的阿里,上周开始才感觉好一些了
输出还只有4k token ...

阿里那不是更慢,想要速度的话还得是火山

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

发表于 2025-3-1 20:55 | 显示全部楼层
按照ds官方的数据,全中国的ai需求只需要大约20万张H800(2500个节点)就可以满足
回复

使用道具 举报

     
发表于 2025-3-1 20:56 | 显示全部楼层
mahoraga 发表于 2025-3-1 20:14
我前两年还真看到过,当时是看到一个叫colossalAI的项目,大概是训练和推理的框架都做吧,我没有具体实验 ...

你说的vllm是这个这个吗https://github.com/vllm-project/vllm/pull/13747
回复

使用道具 举报

     
发表于 2025-3-1 20:57 来自手机 | 显示全部楼层
硅基老板说他们的特色是可以调temperature, 别的都是假的,默认0.6,只有他们是真的可以调0-2的,没用过其他的,是的吗
回复

使用道具 举报

     
发表于 2025-3-1 21:11 来自手机 | 显示全部楼层




——来自 S1 Orange 1.2.5

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 1战斗力 +1 收起 理由
絆創膏 + 1 他甚至教你怎么做鱼竿

查看全部评分

回复

使用道具 举报

     
发表于 2025-3-1 21:12 | 显示全部楼层
moekyo 发表于 2025-3-1 20:56
你说的vllm是这个这个吗https://github.com/vllm-project/vllm/pull/13747

是的啊, vllm应该是现在最主流的了把,SGLang也经常听到有人在用。
回复

使用道具 举报

     
发表于 2025-3-1 21:30 来自手机 | 显示全部楼层

这个讽刺的最好

——来自 S1 Orange 1.2.5

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2025-3-1 21:33 来自手机 | 显示全部楼层
ryanghj 发表于 2025-3-1 20:55
按照ds官方的数据,全中国的ai需求只需要大约20万张H800(2500个节点)就可以满足 ...

2500个节点那就2万张吧
回复

使用道具 举报

     
发表于 2025-3-1 21:36 来自手机 | 显示全部楼层


——来自 S1 Orange 1.2.5

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-3-1 21:42 | 显示全部楼层
ww-tsl 发表于 2025-3-1 12:40
要是把写皇叔解禁哪怕只是放宽限制,就算不能加个0至少也能X5。

DS破限难度非常低啊 只比grok稍许甲厚点。 DS写皇叔的问题是太发散太折磨人了。
回复

使用道具 举报

发表于 2025-3-1 21:44 | 显示全部楼层
daliang 发表于 2025-3-1 21:33
2500个节点那就2万张吧

打错了,25000个节点
回复

使用道具 举报

     
发表于 2025-3-1 21:44 | 显示全部楼层
艾诺琳 发表于 2025-3-1 14:37
折旧也是云服务商考虑的
你出门打车还要考虑出租车折旧费?

人家说自有服务器部署,运营只需考虑电费。
类比自己用电车开出租还差不多。
回复

使用道具 举报

     
发表于 2025-3-1 22:09 | 显示全部楼层
终于也有一天S1吃瓜迟到自己身边了 笑死
回复

使用道具 举报

发表于 2025-3-1 22:09 来自手机 | 显示全部楼层
2000多个H800每天处理600B的token,神之优化,英伟达都要承认自己不会用GPU

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-3-1 22:11 | 显示全部楼层
本帖最后由 mahoraga 于 2025-3-1 22:22 编辑
ryanghj 发表于 2025-3-1 20:47
他是直接用vllm部署了一下觉得很慢,然后觉得DeepSeek团队水平肯定不如vllm所以一定更慢

但是vllm这两天 ...

我靠我刚自己去看了下视频算了下,本来没仔细看之前,我以为是业务场景和一些假设上不一致,导致差这么多,毕竟尤洋也是干这个的,我想不可能实际技术上差了那么远吧,还拉了个表准备逐个环节算差异

结果我算到一半发现两边差别最大的就是单台H800的推理效率,尤洋的假设是250 token/秒, deepseek给的我哪怕按低了算也是1万 token/秒, 这中间几十倍的差距啊,那还有什么好说的。我都怀疑我自己是不是算错了,但是我从两边算(一遍是24小时的总输出token数, 另一边是根据总收入算的处理token数)基本上都是1万上下。另一个角度说deepseek一天的输出token就是1680亿(用的机器我就算是300台吧),尤洋说要4000台机器才能一天跑1000亿,这个差距也很大。

算到这里我真的有点怀疑自己,对于单台H800的推理效率差距能有这么大吗?差几倍其实我可以理解,差几十倍那也太夸张了

另外他这个没事去Q一下硅基流动,还把deepseek从自己公司下线的举动, 也太不成熟了,Deepseek这么大的热点硅基流动肯定要做的啊,有啥好说人家的





回复

使用道具 举报

     
发表于 2025-3-1 22:12 来自手机 | 显示全部楼层
尤洋太小丑了,等R2再出来的时候把他另外一半脸打肿

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-3-1 22:12 来自手机 | 显示全部楼层
充分理解了为什么让火云邪神破防的不是打死他而是你想学啊,我教你啊。。

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-3-1 22:13 | 显示全部楼层
本帖最后由 shqingda_ 于 2025-3-1 22:15 编辑

虽然不想引流但是看乐了


  
https://www.zhihu.com/question/13759294910
https://www.zhihu.com/question/13752772042

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-3-1 22:38 来自手机 | 显示全部楼层
约翰里德 发表于 2025-3-1 20:57
硅基老板说他们的特色是可以调temperature, 别的都是假的,默认0.6,只有他们是真的可以调0-2的,没用过其 ...

但也有一种说法是temperature这个参数对r1是完全无效的
回复

使用道具 举报

     
发表于 2025-3-1 22:46 来自手机 | 显示全部楼层
neptunehs 发表于 2025-3-1 22:38
但也有一种说法是temperature这个参数对r1是完全无效的

deepseek的r1文档上说是没用的,但是硅基是不是自己弄了啥改进,这就不知道了。
回复

使用道具 举报

     
发表于 2025-3-1 22:47 | 显示全部楼层
天涯墨客 发表于 2025-3-1 14:09
官网接沉浸式翻译那些有点不太方便

—— 来自 鹅球 v3.3.96

很方便的 只要兼容openai格式的就能用官网的api 不需要单独适配的
就是现在多了个排队模式 体验上稍微比之前没火前 慢一点点
回复

使用道具 举报

发表于 2025-3-1 22:49 | 显示全部楼层
coldhot3 发表于 2025-3-1 22:46
deepseek的r1文档上说是没用的,但是硅基是不是自己弄了啥改进,这就不知道了。 ...

你误解了,所有Transformer模型都可以设置Temperature,只是官网不让调因为推理模型对Temperature很敏感所以没开放,第三方自己部署的都可以调
回复

使用道具 举报

     
发表于 2025-3-1 22:52 来自手机 | 显示全部楼层
ryanghj 发表于 2025-3-1 22:49
你误解了,所有Transformer模型都可以设置Temperature,只是官网不让调因为推理模型对Temperature很敏感所 ...

就是说他们的模型能调,但是ds人为锁死了?那我们私有部署的ds蒸馏模型也能调了?我们正在挠头怎么解决ai思维发散问题呢。降低temperature有效果吗?
回复

使用道具 举报

发表于 2025-3-1 22:54 | 显示全部楼层
coldhot3 发表于 2025-3-1 22:52
就是说他们的模型能调,但是ds人为锁死了?那我们私有部署的ds蒸馏模型也能调了?我们正在挠头怎么解决ai ...

Temp=0的时候每次相同输入都会给出相同输出,这个参数本质上是在最后挑选的时候改变候选词的权重
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 03:19 , Processed in 0.137987 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表