西方自找的没落（转型DEEPSEEK讨论楼

一骑当千 · 发表于 2025-1-26 22:22

机吉斯卡发表于 2025-1-24 11:31
艹，现在是个水群都在传SEEK写的小黄温

就是那个静香的那个

好奇，求私信看看

—— 来自鹅球 v3.3.96

alixsander · 发表于 2025-1-27 00:43

机吉斯卡发表于 2025-1-26 19:58

不是的，显然很多实验室都知道。而且八成O1. O3也是直接RL的，没有像DS这样正义开源而已。

你可以看一下GEMINI 2 FLASH THINKING的思考过程，会经常性的切换语言。说法是这样的，思维链在不同语言中切换说明是RL DONE RIGHT，因为模型输出使用信息熵最高的方式向答案收敛

阿刚 · 发表于 2025-1-27 01:08

用他帮我出ai图的提示词差点把自己气死，就像个一根筋的刚毕业死大，要么就是点子王，要么就是报复性的删减你的要求

然后急眼了他就不反馈了

riin2 · 发表于 2025-1-27 02:40

硫黄发表于 2025-1-26 18:52
在我们中国，快过年了随便出门逛一圈，就会发现人山人海
大家都拿着手机一遍逛街一遍打游戏看直播刷抖音 ...

绝大部分地区没必要上5g，lte足矣。在人群密集区，比如一个大型演唱会会场，需要更高的连接密度，5g才能发挥优势。目前美国就是这么干的，只有密集区域才有5g信号。个人认为美国的由市场导向的5g建设是经济实惠的解决方案。

我很好奇国内的5g当年是怎么立项推动的，有人把原因都归给华为，我觉得也许也有其他的利益团体

riin2 · 发表于 2025-1-27 02:45

Alce79 发表于 2025-1-26 19:06
5G和星际之门的差距在于5G失败不能灭鳖，但星际之门失败真的能灭美。
半导体和AI芯片属于看得见摸得着的东 ...

替代制造业？不要小瞧美国工会的力量。码头自动化都做不到，还agi

硫黄 · 发表于 2025-1-27 02:57

riin2 发表于 2025-1-27 02:40
绝大部分地区没必要上5g，lte足矣。在人群密集区，比如一个大型演唱会会场，需要更高的连接密度，5g才能 ...

毕竟美国只在他需要的时候地广人稀，而且已经被开除美国人的底层确实不需要5G

cube · 发表于 2025-1-27 04:52

本帖最后由 cube 于 2025-1-27 04:53 编辑

艹，港科大的人用7B版的模型搞蒸馏，模型在第44步发现自己推理的公式有错误居然直接进入自我纠正了。

mimighost · 发表于 2025-1-27 05:28

openai肯定就是直接rl训练出来的，有人对比他们system card里面那个thinking和r1的区别，发现两个model用词和语气都差不多，直接rl可能收敛到的语法都是相似的

希望之花 · 发表于 2025-1-27 06:06

一般本地部署是怎么做的，我找个教程就直接下个ollama然后挑个模型下好就能跑了甚至环境都不用配了

科学的力量真伟大

目前拿游戏本4060，8gb，win11里跑14b，问一些简单的问题回复速度还算能接受，满载跑时占有6gb显存，拿来给自己写的东西改语法和润色毫无问题

----发送自 STAGE1 App for Android.

pf67 · 发表于 2025-1-27 07:16

希望之花发表于 2025-1-27 06:06
一般本地部署是怎么做的，我找个教程就直接下个ollama然后挑个模型下好就能跑了甚至环境都不用配了科学的力 ...

如果只做这些你根本不需要自己部署吧

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4

orecheng · 发表于 2025-1-27 07:44

变老的大二发表于 2025-1-25 16:52
已经开始换赢法了，开源的deepseek的思路塞到拥有更多计算资源的西大互联网巨头手里会加速AGI的诞生，赢 ...

如果西大不止一家公司点出了AGI, 那就进入了全面内卷时代，互相比拼低价，谁也实现不了盈利。同时技术路线也会泄露，东大虽然算力不如，但只要路线正确，也花不了多少时间也能实现AGI

pf67 · 发表于 2025-1-27 08:06

本帖最后由 pf67 于 2025-1-27 08:08 编辑

赢学赢来赢去到底谁赢

ds开源怎么都对消费者是大好事，但国内一堆的大厂也都在搞闭源嘛，只不过是因为内卷没closeai那么贵，我很期待把他们也逼到开源

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4

pf67 · 发表于 2025-1-27 08:13

本帖最后由 pf67 于 2025-1-27 08:16 编辑

riin2 发表于 2025-1-27 02:40
绝大部分地区没必要上5g，lte足矣。在人群密集区，比如一个大型演唱会会场，需要更高的连接密度，5g才能 ...

当然是所有运营商，设备商，政府一起推啊，推成了大家都有肉吃，国外因为涉及自负盈亏运营商和政府的动力会弱一些

hw在4g时代已经算设备商no1，不推5g怎么继续卖设备，肯定是力推，有没有必要都不可能停下来，当年无线产品线老大还无限寄望于vr的爆发产生大量流量需求来匹配5g流量

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4

無始無終 · 发表于 2025-1-27 08:17

本帖最后由無始無終于 2025-1-27 08:48 编辑

泰坦失足发表于 2025-1-26 17:19
要是真那么简单直接左手放prompt右手放output跑SFT得了。这条路大家都没走通都在寻思是不是o1有啥独门秘 ...

DeepSeek没做多模态是因为他们用的是MoE架构，而其它家不是，MoE做多模态的难度比较大
（不好意思之前对MoE了解有些肤浅了）

—— 来自 S1Fun

無始無終 · 发表于 2025-1-27 08:25

机吉斯卡发表于 2025-1-26 19:58

这次之所以大家都不看好强化学习，是因为21/22年那阵爆发过一次用RL训练LLM的风潮，结果是训出来的模型都非常差，后面大家都觉得RL搞LLM是骗人的了
这次DeepSeek直接点出来当年之所以RL效果差是因为用的模型太小了，RL真正发挥威力需要靠千亿以上参数的大模型。DeepSeek团队在R1 Zero搞出效果后也试了在Qwen 32B上用RL训练，效果和阿里自己的QwQ半斤八两，说明RL是锦上添花的，而不能雪中送炭

—— 来自 S1Fun

pf67 · 发表于 2025-1-27 08:28

無始無終发表于 2025-1-27 08:17
DeepSeek没做多模态是因为他们用的是MoE架构，而其它家不是，目前还没摸索出来MoE做多模特的路子，甚至还 ...

怎么可能走不通，多模态moe模型都有好几个了

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4

泰坦失足 · 发表于 2025-1-27 08:30

initium 发表于 2025-1-26 20:38
5G新设备提供了更多的接入连接数，提高了接入速度，以前球赛/演唱会/漫展/大型集会人员聚集场所需要提前 ...

我不否认5G存在的必要性。我不认可的是全国统一上最新最先进的5G. 行，就算目的是不用LTE给外国长期交专利费。但是当时对5G的吹捧，无视有线网/WiFI的存在，什么都要硬绑一个5G，现在更是把CS领域的发展和5G强绑定在一起。我有一个好点子，把现在常见多卡并联的方式切换为5G专用网，更是5G赋能AI训练了。有必要吗，完全没有这个必要
谁用过以下吹得玩意了？ 5G-A 4K高清直播（限定和5G-A强绑定的这个）5G-A裸眼3D 5G-A云手机， 5G-A新通话。管道商就应该当管道商，谁见过电网天天说自己支持了xx应用？
“移动5G-A赋能，引爆网红力” 湖北移动5G-A 4K高清直播首秀亮相汉口北，传统行业焕发新活力
https://www.c114.com.cn/local/2787/a1271057.html

pf67 · 发表于 2025-1-27 08:31

無始無終发表于 2025-1-27 08:25
这次之所以大家都不看好强化学习，是因为21/22年那阵爆发过一次用RL训练LLM的风潮，结果是训出来的模型都 ...

未必，因为sft需要高质量标注样本，这方面已经很难找了，rl能成相比直接怼算力算一个大捷径

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4

Azcarlo · 发表于 2025-1-27 08:34

無始無終发表于 2025-1-27 08:17
DeepSeek没做多模态是因为他们用的是MoE架构，而其它家不是，目前还没摸索出来MoE做多模特的路子，甚至还 ...

你在说什么，多模moe又不是没有

— from S1 Next Goose v3.3.96

無始無終 · 发表于 2025-1-27 08:36

whzfjd 发表于 2025-1-26 20:30
deepseek 出来前，我推的四两拨千斤选手还是 kimi chat

Kimi模型的性能太差了，怎么四两拨千斤啊，拿知乎toyama nao做的模型评分来看
这是24年6月DeepSeek V2推出时的评测

这是今年1月的评测

国内这些模型里，之前国内吹的最多的Kimi和豆包这些都是做产品的，而通义和DeepSeek才是做模型的，当然现在字节把阿里做大模型的人挖走了，今年豆包可能会爆发

泰坦失足 · 发表于 2025-1-27 08:37

本帖最后由泰坦失足于 2025-1-27 08:52 编辑

pf67 发表于 2025-1-27 08:13
当然是所有运营商，设备商，政府一起推啊，推成了大家都有肉吃，国外因为涉及自负盈亏运营商和政府的动力 ...

裸眼3D/云游戏/VR 这些已经被市场证明过消费者不买账的东西，刚开放5G和现在5G-A都有人blabla在那说必将是未来。我就纳闷了，之前有线网和WiFI时代，大家最后的选择还是2D屏幕玩本地游戏/看视频，为什么到了5G就能不一样。现在最流行最火爆的直播，你往20年前就能发现当时QQ群/XX网站自建的直播流服务已经在搞这些了. 当时大家心中都有这股需求，由于条件限制没被激发，移动互联网**降低了门槛。
life finds a way。云游戏这东西，全球用户就是不买账。哪怕是只有手机的用户，最后的选择也往往是玩本地运行手游。2025年了，绝大多数人都不自己架设RSS服务器，而是选择各种信息流推荐服务，也不自己本地下载，而是看在线视频。但是云游戏，至今仍是个新鲜玩意。再说云游戏/云VR要的带宽是最夸张的, 对有线/wifi还好说。5G时代，别的用户100G顶天了，一个云游戏/云VR用户用1T？打算向他们收多少钱

無始無終 · 发表于 2025-1-27 08:49

本帖最后由無始無終于 2025-1-27 08:53 编辑

pf67 发表于 2025-1-27 08:28
怎么可能走不通，多模态moe模型都有好几个了

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5. ...

Azcarlo 发表于 2025-1-27 08:34
你在说什么，多模moe又不是没有

— from S1 Next Goose v3.3.96

不好意思之前对MoE了解肤浅了

—— 来自 S1Fun

希望之花 · 发表于 2025-1-27 09:13

一个是我还是喜欢东西都在本地跑

还有之前一直用的gpt，总感觉closeai 会拿用户的输入去干别的事情

----发送自 STAGE1 App for Android.

qratosones1337 · 发表于 2025-1-27 09:25

riin2 发表于 2025-1-27 02:40
绝大部分地区没必要上5g，lte足矣。在人群密集区，比如一个大型演唱会会场，需要更高的连接密度，5g才能 ...

你有没有想过中国的人口密度根本就不存在所谓的“没必要上5G的绝大部分地区”

qratosones1337 · 发表于 2025-1-27 09:27

pf67 发表于 2025-1-27 08:06
赢学赢来赢去到底谁赢

ds开源怎么都对消费者是大好事，但国内一堆的大厂也都在搞闭源嘛，只不过是因为内卷 ...

国内闭源的几家本来也不成气候，目前国内AI两大扛把子，一个是DeepSeek，另一个是阿里，恰好都是搞开源的

sellboy · 发表于 2025-1-27 09:27

泰坦失足发表于 2025-1-27 08:30
我不否认5G存在的必要性。我不认可的是全国统一上最新最先进的5G. 行，就算目的是不用LTE给外国长期交专 ...

高铁只有京沪线稳定盈利，是不是只要京沪线就可以了？

泰坦失足 · 发表于 2025-1-27 09:32

sellboy 发表于 2025-1-27 09:27
高铁只有京沪线稳定盈利，是不是只要京沪线就可以了？

我也没见县城到县城之间有高铁啊？再说5G更像是高速公路，铁路/高速公路/普通道路/空运/海运就像有线/WLAN/蜂窝数据网/基于PICE等接口的边缘计算。各有各的用途。德国工业在过去打下来的基础总不能说全靠那个据说不限速的德国高速公路吧。

x分裂者 · 发表于 2025-1-27 09:32

无人码头用了这么久5g了，又是我用不到=没有，而且讨论ds的楼扯什么勾八5g，在这恶心人吗

bonnwang · 发表于 2025-1-27 09:42

我花了几年才总结出来的东西ds几秒就出了

泰坦失足 · 发表于 2025-1-27 09:47

本帖最后由泰坦失足于 2025-1-27 09:51 编辑

机吉斯卡发表于 2025-1-27 09:17
我能吧泰坦哥踢出这个楼吗？好像只有版主才可以吧

你要觉得你赢了，你随意。我只是觉得这些鉴证博主和卖课博主上来就是赢赢赢就莫名其妙的。
https://planetbanatt.net/articles/v3fermi.html 并不是“任何拥有 500 万美元的人都可以训练 Deepseek-V3 ”，而是只有足够数据，走在正确路线上的人，在付出了“500 万美元成本的GPU小时”后，能获得一个4o级的模型。而R1，只能说OpenAI是the man who sold the world。所有人都不知道RL才是走的通的道路之一。而DeepSeek有足够的成本和勇气走通了。对于小公司和学术研究而言，那一个“4.2. Unsuccessful Attempts”就是一个公司的大裁员。
而且MOE和Dense模型本来在训练成本上有差距，这一点大家本就知道。但是之前大家一直认为MOE这路不如Dense。两大龙头Llama和Qwen主要都走的是Dense这条路。Qwen有时候是Dense有时候是MOE，最新的还是以Dense居多。我在R1之前一直也是Dense这派的。而且认为70b左右的模型就是甜点尺寸。正好能量化后装进一个4090里。
https://www.microsoft.com/en-us/ ... eneration-ai-scale/

Alce79 · 发表于 2025-1-27 09:52

泰坦失足发表于 2025-1-27 09:47
你要觉得你赢了，你随意。我只是觉得这些鉴证博主和卖课博主上来就是赢赢赢就莫名其妙的。
https://planet ...

可算了吧我说星际之门纯骗钱的你就搬出5G骗钱，后面EUV灭美怎么不回我了？这玩意儿是真的美股毁灭机

sellboy · 发表于 2025-1-27 09:53

泰坦失足发表于 2025-1-27 09:32
我也没见县城到县城之间有高铁啊？再说5G更像是高速公路，铁路/高速公路/普通道路/空运/海运就像有线/WLA ...

4G属于被5G上位替代难以构成互补的，首先基础算法就保证了5G有比4G更高的利用率。
而使用波束成形天线更是允许在人少的地方使用低频频段实现更稀的全覆盖。
人多的地方使用高频，不仅频宽更大数据吞吐量增强，而且低覆盖反而成了基站高密度部署不怕彼此干扰的优点。

无论疏密部署，5G都是上位选择。

泰坦失足 · 发表于 2025-1-27 10:04

Alce79 发表于 2025-1-27 09:52
可算了吧我说星际之门纯骗钱的你就搬出5G骗钱，后面EUV灭美怎么不回我了？这玩意儿是真的美股毁灭机 ...

我又不懂EUV，投资美股基金纯粹是为了跑赢通胀，。国内电车/消费电子这么发达也没影响美股中的对应公司股票啊。再说我是觉得AI这路还走的下去，5年前最先进最大最in的模型还是Google的T5。它能干这个：

Alce79 · 发表于 2025-1-27 10:09

泰坦失足发表于 2025-1-27 10:04
我又不懂EUV，投资美股基金纯粹是为了跑赢通胀，。国内电车/消费电子这么发达也没影响美股中的对应公司股 ...

是美国跑AGI快还是闹钟跑EUV快？
我之前说星际之门连应用场景的饼都没画摆明对家内部是无头苍蝇继续堆算力，你上来就说堆算力是对很快出简陋版AGI。
提EUV的原因是你自己先转5G得出无用没关系，我提EUV的理由是无用有关系星际之门要真像5G结局就等着被闹钟的EUV引爆美股核弹。

下九流3 · 发表于 2025-1-27 10:10

你们能不能不要回泰坦了，这人说话总让我幻视成一个话多的MD2.

sellboy · 发表于 2025-1-27 10:12

泰坦失足发表于 2025-1-27 10:04
我又不懂EUV，投资美股基金纯粹是为了跑赢通胀，。国内电车/消费电子这么发达也没影响美股中的对应公司股 ...

能不能发展有没有泡沫是两个问题
现代互联网比21世纪初的互联网发展何止百倍，但是那时的互联网企业的估值就是有泡沫还爆了。

星花 · 发表于 2025-1-27 10:13

现实技术，和股票之类早没关系了。

alixsander · 发表于 2025-1-27 10:16

本帖最后由 alixsander 于 2025-1-28 10:45 编辑

泰坦失足发表于 2025-1-27 09:47
你要觉得你赢了，你随意。我只是觉得这些鉴证博主和卖课博主上来就是赢赢赢就莫名其妙的。
https://planet ...

我也同意这个看法

本身MoE又不被看好，又转回稠密了，是DS有魄力重新去走这条路

DSV3的训练机时估算是500万美元很厉害
但不代表项目开销是500万，这本身是一个很显然的事实

赢赢赢没意思，实际上硬件劣势还是存在。Dual Pipe本身也是针对H800的创新，其他企业也可以使用。对Ascend超节点来说实际上不能使用TP发挥不了高联算比优势，在Dsv3的训练架构提升远没有H800大。

当然我也不怀疑后面会有针对国产设备进行极致优化的实践出现

泰坦失足 · 发表于 2025-1-27 10:19

Alce79 发表于 2025-1-27 10:09
是美国跑AGI快还是闹钟跑EUV快？
我之前说星际之门连应用场景的饼都没画摆明对家内部是无头苍蝇继续堆算力 ...

我从来都没觉得吹的那种AGI能短期内实现，我看好的一直都是大模型驱动的机器人。以NLP为例，最开始能正确处理几个长句子甚至一个文章输出一句话的答案都惊为天人。现在LLM的上下文低于64k就很丢人了。那如果一个模型能正确的认知世界，甚至3D世界，知道自己的交互对世界能产生什么作用。那会如何？是否是通用性人形助手机器人的曙光。我24年认为Sora有这种潜力，毕竟GPT最开始也不过是知道上面100个token给你往下写10个续写机器而已。后来证明，哦，好像没用。可能缺点什么，有可能是模型尺寸太小，有可能是这路走不通。
反正5000亿美元又不是一口气投进去的，美元通胀也不缺这一手，于是比喻了下5G。5G不也没想象中管用吗？5G元年时候各个写的和科幻小说似的。

星花 · 发表于 2025-1-27 10:19

Ai没了，再找新题材就行了，比如卖火星土地。据说当年上海解放时股市还在涨呐，你们太小看金融有多离谱了。

		自动登录	找回密码
密码			立即注册

[科技] 西方自找的没落（转型DEEPSEEK讨论楼

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

评分

评分

评分

评分

本帖子中包含更多资源

评分

评分

评分