找回密码
 立即注册
搜索
查看: 1440|回复: 13

[科技] 关于Deepseek模型推理速度的一些探讨

[复制链接]
     
发表于 2025-3-1 23:09 | 显示全部楼层 |阅读模式
本帖最后由 mahoraga 于 2025-3-1 23:34 编辑

刚刚在deepseek那个帖子里我根据deepseek给的数据算了下,Deepseek的文章里说一天输出168B token, 也就是1680亿token, 平均机器数量是226台,算出来平均每秒每台机器(8*H800)的输出是8603每秒。这个数字很大,vllm两天前发的benchmark加入了FlashMLA,在8*H200上跑到600 token每秒(6000:1000 接近deepseek的输入输出比),换到8*H800可能300 token/s? 这已经算很快了,deepseek大概是这个的10~20倍,这个数字我感觉已经干出代差来了吧,我知道它快但是没想到这么快

另外其他数字我都能对的上,唯一有个我算不太明白的是deepseek的文章里说“The average output speed was 20–22 tokens per second”,这个是什么意思有专业的老哥能帮忙解读下吗? 注:现在搞懂了,是每个请求的平均输出tps

说实话算的有点让我怀疑自己是不是算错了或者哪里理解错了  


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-3-1 23:14 来自手机 | 显示全部楼层
本帖最后由 wly5556 于 2025-3-1 23:17 编辑

这个平均输出速率指是单次请求而言吧,然后由于排队导致首token延迟高,平均之后tps就降下来了

评分

参与人数 1战斗力 +2 收起 理由
mahoraga + 2

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2025-3-1 23:17 | 显示全部楼层
wly5556 发表于 2025-3-1 23:14
这个平均输出速率指是单次请求而言吧

哦哦,这样我大概理解了

现在唯一感觉就是,我靠,真的有这么快
回复

使用道具 举报

发表于 2025-3-1 23:25 | 显示全部楼层
从我现在做的东西来看

会存在一组无法全部跑不满的情况

比如发送到模型的batchsize = 16

vllm会做出交换或者重新计算的情况?



这样一次性发送过去的之后,显存不一定真的有足够空间,给这一次跑满
需要交换到cpu 空间等待计算  ,

之后有空闲显存在重新计算
这样实现上这样看起来可能就会出现

不过我还是没搞懂你的意思

是指平均输出速率为 20~22 tps和每秒每台机器(8*H800)的输出是8603每秒
对不上么?

回复

使用道具 举报

发表于 2025-3-1 23:27 | 显示全部楼层
理论上vllm会把一组请求,全部要求引擎全部计算,
但是实际上实现上必然会出现交换或者重新计算(这也是vllm的核心实现)

我猜你的意思大概是单个seq请求和整体机器的token输出对不上?
回复

使用道具 举报

     
 楼主| 发表于 2025-3-1 23:29 | 显示全部楼层
FeteFete 发表于 2025-3-1 23:25
从我现在做的东西来看

会存在一组无法全部跑不满的情况

是的我原来没搞懂它这个平均输出速率到底是平均的啥,上面老哥说是平均到每个请求里面我就明白了
回复

使用道具 举报

     
 楼主| 发表于 2025-3-1 23:33 | 显示全部楼层
FeteFete 发表于 2025-3-1 23:25
从我现在做的东西来看

会存在一组无法全部跑不满的情况

那理论上来说,这个优化空间是不是也不是deepseek这个模型专有的,是不是意味着目前大部分的llm模型在推理上可能有一个比较容易触及的10~20倍左右的速度提升?
回复

使用道具 举报

     
发表于 2025-3-1 23:47 | 显示全部楼层
mahoraga 发表于 2025-3-1 23:33
那理论上来说,这个优化空间是不是也不是deepseek这个模型专有的,是不是意味着目前大部分的llm模型在推 ...

不一定那么泛用,性能蛮大一部分来自 EP 还有通信计算间的 overlap,别的开源模型通常没有那么多专家数。
回复

使用道具 举报

发表于 2025-3-1 23:47 | 显示全部楼层
mahoraga 发表于 2025-3-1 23:33
那理论上来说,这个优化空间是不是也不是deepseek这个模型专有的,是不是意味着目前大部分的llm模型在推 ...

理论上是有提升

但是会不会那么高我觉得要打问号

你看这里替换vllm里面 他说最大到16%

理论上他家做的方案其实因该和某些方案不冲突
回复

使用道具 举报

     
 楼主| 发表于 2025-3-1 23:57 | 显示全部楼层
FeteFete 发表于 2025-3-1 23:47
理论上是有提升

但是会不会那么高我觉得要打问号

是的啊,vllm这个提升个16%都要出来发个帖子开心一下,我在想要是真有10~20倍的空间,那搞推理加速的人还不得一下子全疯魔了,就算是鼓捣个两三倍的方案出来,论文还不是随便发,可能确实也有其他挑战
回复

使用道具 举报

     
 楼主| 发表于 2025-3-2 00:01 | 显示全部楼层
宵待草 发表于 2025-3-1 23:47
不一定那么泛用,性能蛮大一部分来自 EP 还有通信计算间的 overlap,别的开源模型通常没有那么多专家数。 ...

嗯,感觉要回去仔细看看之前deepseek一周发的模型妙妙工具了
回复

使用道具 举报

     
发表于 2025-3-2 00:02 | 显示全部楼层
FeteFete 发表于 2025-3-1 23:47
理论上是有提升

但是会不会那么高我觉得要打问号

一般这种都是特定优化,还得看场景,没那么通用
回复

使用道具 举报

     
发表于 2025-3-2 00:12 来自手机 | 显示全部楼层
知乎上有文章中文版,看不懂英文的可以去看
链接
回复

使用道具 举报

     
 楼主| 发表于 2025-3-2 00:18 | 显示全部楼层
123485k 发表于 2025-3-2 00:12
知乎上有文章中文版,看不懂英文的可以去看
链接

https://www.saraba1st.com/2b/thread-2247802-1-1.html

嗯,论坛里这个帖子用的应该是同一个
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 03:08 , Processed in 0.052321 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表