找回密码
 立即注册
搜索
查看: 1646|回复: 5

[科技] ZT:deepseek突破意义内容的博客访谈总结

[复制链接]
头像被屏蔽
     
发表于 2025-2-11 15:04 来自手机 | 显示全部楼层 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2025-2-11 15:13 来自手机 | 显示全部楼层
资瓷一下

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-11 15:14 | 显示全部楼层
没有什么新的营养,deepseek R1的报告书真的很详细了,拿pdf喂D指导就能得到差不多一样的中文解释。
回复

使用道具 举报

     
发表于 2025-2-11 15:18 | 显示全部楼层
总之还是开源和全球化
回复

使用道具 举报

     
发表于 2025-2-11 15:19 | 显示全部楼层
张小珺的播客刚收了正准备听

关于R1和R1-ZERO,论文里提到完全无监督学习的ZERO最后思维链是人类不可读的,所以在训练R1时使用了监督数据进行冷启动。这事想想还是有点背后发凉的

至于Anthropic这种上来就拿国防部单子的货,那简直就是真正的大坏蛋,干出啥事都不奇怪
回复

使用道具 举报

     
发表于 2025-2-11 15:25 | 显示全部楼层
- OpenAI的研究员roon认为DeepSeek为了克服H800芯片所作出的降级优化——工程师用不了英伟达的CUDA,只能选择更低端的PTX——是错误的示范,因为这意味着他们浪费在这上面的时间无法弥补,而美国的工程师可以毫无顾虑的申请H100,削弱硬件无法带来真正的创新;
- 如果2004年的Google听取了roon的建议,不去「浪费」宝贵的研究人员构建更经济性的数据中心,那么也许美国的互联网公司今天都在租用阿里巴巴的云服务器,在财富涌入的这二十年里,硅谷已经失去了优化基础设施的原动力,大厂小厂也都习惯了资本密集型的生产模式,乐于提交预算表格去换取投资,甚至把英伟达的芯片干成了抵押物,至于如何在有限的资源里尽可能多的交付价值,没人在乎;


这个算不算是真空管隔了50年的回旋镖打回来

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-14 16:34 , Processed in 0.085645 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表