找回密码
 立即注册
搜索
查看: 4894|回复: 14

[科技] Deepseek开源FlashMLA:高效MLA解码内核,专为Hopper GPU优化

[复制链接]
     
发表于 2025-2-24 10:41 | 显示全部楼层 |阅读模式
Deepseek今日开源FlashMLA,这是一款专为Hopper GPU设计的高效MLA(多层级注意力)解码内核。FlashMLA针对变长序列进行了优化,支持BF16数据类型,并采用分页KV缓存(块大小为64),显著提升了计算效率。

在H800 GPU上,FlashMLA实现了高达3000 GB/s的内存带宽和580 TFLOPS的计算性能,适用于大规模语言模型推理任务。这一创新技术将加速AI推理过程,为自然语言处理等领域带来更高效的解决方案。

回复

使用道具 举报

发表于 2025-2-24 11:13 | 显示全部楼层
真·源神梁圣来教云服务商怎么加速推理
回复

使用道具 举报

     
发表于 2025-2-24 12:50 来自手机 | 显示全部楼层
是不是对N卡底层越了解,就越能破解限制,说不定哪天4090 5090限制全开,1TB显存直接往上怼
回复

使用道具 举报

     
发表于 2025-2-24 12:51 | 显示全部楼层
不是很懂,意思是让第三方的D老师更好用?
回复

使用道具 举报

     
发表于 2025-2-24 13:07 | 显示全部楼层
名居守 发表于 2025-2-24 12:51
不是很懂,意思是让第三方的D老师更好用?

可能是比nv提供的sdk效率更高
回复

使用道具 举报

     
 楼主| 发表于 2025-2-24 13:30 | 显示全部楼层
名居守 发表于 2025-2-24 12:51
不是很懂,意思是让第三方的D老师更好用?

主要用来优化模型训练的效率的

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2025-2-25 10:05 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-25 11:44 来自手机 | 显示全部楼层
算利好nv吧

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-25 11:48 | 显示全部楼层
今天这个deepeEP看不懂了,有课代表吗
回复

使用道具 举报

发表于 2025-2-25 11:51 来自手机 | 显示全部楼层
bixinhaner 发表于 2025-2-25 11:48
今天这个deepeEP看不懂了,有课代表吗

通信库,用来给集群用的。

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
 楼主| 发表于 2025-2-26 09:37 | 显示全部楼层
DeepSeek开源周第 3 天:DeepGEMM

DeepGEMM 是一个用 CUDA 编写的库,旨在实现干净高效的具有细粒度缩放的 FP8 通用矩阵乘法(GEMM),支持普通和混合专家(MoE)分组 GEMM。安装时无需编译,通过轻量级即时(JIT)模块在运行时编译内核。
https://github.com/deepseek-ai/DeepGEMM
回复

使用道具 举报

     
发表于 2025-2-26 09:52 | 显示全部楼层
利好老黄
回复

使用道具 举报

     
发表于 2025-2-26 09:54 | 显示全部楼层
虽然我不懂但是我觉得好牛逼
回复

使用道具 举报

     
发表于 2025-2-26 12:47 来自手机 | 显示全部楼层
老黄啊,你的硬件还凑合,软件就不行了,来,我教你怎么优化

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
 楼主| 发表于 2025-2-27 13:19 | 显示全部楼层
DeepSeek 开源周第 4 天:DualPipe、EPLB 优化并行策略

2月27日,DeepSeek 在其“开源周”进度中发布了优化并行策略的项目。此次更新包括:

DualPipe:一种双向管道并行算法,用于 V3/R1 训练中的计算-通信重叠,能实现计算和通信阶段的完全重叠,并减少流水线气泡。

EPLB:专家并行负载均衡器,确保在使用专家并行时,不同 GPU 负载平衡,优化专家分配并减少数据流量。

计算-通信重叠分析:分享 V3/R1 中的训练和推理数据,帮助社区理解计算-通信重叠策略。

论坛助手,iPhone
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 03:28 , Processed in 0.134582 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表