（转型Deepseek交流楼）DEEPSEEK-R1完全可以说是全球第一LLM了 - 第22页 - 卓明谷 - Stage1st

lilisipis 发表于 2025-1-30 18:19

有没有deepseek的套皮应用，本家被DDOS到用不了

andychen 发表于 2025-1-30 18:27

泰坦失足发表于 2025-1-30 17:42
DeepSeek R1 is now available on Azure AI Foundry and GitHub
https://azure.microsoft.com/en-us/blog/d ...

套皮二道贩子要大量出现了

yangkaim4 发表于 2025-1-30 19:31

andychen 发表于 2025-1-30 18:27
套皮二道贩子要大量出现了

这个是啥？怎么用？

overflowal 发表于 2025-1-30 19:38

泰坦失足发表于 2025-1-30 17:43
有啥明显不同的问题吗，我用了一个晚上来着。

就不是同一个模型啊，那些只是R1教出来的小学生

—— 来自鹅球 v3.3.96

newtroll 发表于 2025-1-30 19:51

Lorraine_Kinney 发表于 2025-1-30 18:14
最近公众号抽风给我推了个行将就木的老登，李未熟，批斗不懂的野鸡学校教授在那锐评ds，蒸馏估计是29号当天 ...

D指导炸出来了一堆古墓派老登真是想让人按150%的比例开图

real_zyf 发表于 2025-1-30 20:03

妄想中毒发表于 2025-1-30 18:16
我说的是第三方中转网站，这类网站会提供各种大语言模型的中转接口给用户使用 ...

这种也可能是自己搭的

精钢魔像 发表于 2025-1-30 20:11

360那个高速线路，现在改名叫满血deepseek了，还是和本体有差距

moeblack 发表于 2025-1-30 20:20

精钢魔像发表于 2025-1-30 20:11
360那个高速线路，现在改名叫满血deepseek了，还是和本体有差距

鉴定为红衣大炮

moeblack 发表于 2025-1-30 20:21

newtroll 发表于 2025-1-30 19:51
D指导炸出来了一堆古墓派老登真是想让人按150%的比例开图

D指导这个幽默风格没在其他任何模型上见过，说套壳的老登都让人怀疑是GPT扮演的（笑

gawain 发表于 2025-1-30 20:39

没人去x上问问他们对于ds遭遇如此大规模攻击，有什么头绪吗？总不能是东大自己打自己吧，那么会是谁呢？好难猜啊

论坛助手,iPhone

moeblack 发表于 2025-1-30 20:42

gawain 发表于 2025-1-30 20:39
没人去x上问问他们对于ds遭遇如此大规模攻击，有什么头绪吗？总不能是东大自己打自己吧，那么会是谁呢？好 ...

已经持续超过96小时了

yangkaim4 发表于 2025-1-30 20:46

精钢魔像发表于 2025-1-30 20:11
360那个高速线路，现在改名叫满血deepseek了，还是和本体有差距

有审核吗？

阿刚发表于 2025-1-30 20:48

yangkaim4 发表于 2025-1-30 20:46
有审核吗？

没审核上不了线的吧

RexJax 发表于 2025-1-30 20:48

360的高速线路的说话方式也和本体不一样啊，而且说话还颠三倒四，就是字里行间的序列会颠倒，符号乱用，吞字，像是文字语句的尸块没缝好的怪异感

gh1023 发表于 2025-1-30 20:50

moeblack 发表于 2025-1-30 20:42
已经持续超过96小时了

这种国家安全部门真就过年去了？自家最近的招牌AI尖兵被对岸国家级网络攻击，96小时都没法搞定？

rhotov 发表于 2025-1-30 21:31

Jan 29 (Reuters) - Microsoft (MSFT.O) has made Chinese startup DeepSeek's R1 artificial intelligence model available on its Azure cloud computing platform and GitHub tool for developers, the U.S. company said on Wednesday.

linchuanwangmou 发表于 2025-1-30 21:57

今天的WEB版本感觉卡到夸张，如果说昨天是服务器繁忙，今天就变成了甚至不知道自己有没有把故事发出去

tengshuo980 发表于 2025-1-30 23:13

纯ai小白，请问有没有除了自己搭建外破开deepseek关键词限制的方法

—— 来自 S1Fun

LeonsCat 发表于 2025-1-30 23:21

现在是想充值token都不成。
体验已经很糟糕了。。。

精钢魔像 发表于 2025-1-30 23:24

先记本子上，等墙撤了，挨个冲

木水风铃 发表于 2025-1-30 23:25

网页搜索一天都不行
不用网页到倒还好

—— 来自鹅球 v3.3.96

Herreimu 发表于 2025-1-30 23:36

gh1023 发表于 2025-1-30 20:50
这种国家安全部门真就过年去了？自家最近的招牌AI尖兵被对岸国家级网络攻击，96小时都没法搞定？ ...

ddos从原理上而言无法字面意义的防御
想防御就是砸钱买机子买流量而已

ryanghj 发表于 2025-1-30 23:42

gh1023 发表于 2025-1-30 20:50
这种国家安全部门真就过年去了？自家最近的招牌AI尖兵被对岸国家级网络攻击，96小时都没法搞定？ ...

着啥急，年后再说

yangkaim4 发表于 2025-1-30 23:42

好像又炸了，一发消息就提示发的太快稍后再试

zeroboss1 发表于 2025-1-30 23:50

“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

华尔街见闻

来源：量子位（ID: QbitAI）作者梦晨西风

英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来，又面临新的压力？

硬件媒体Tom‘s Hardware带来开年最新热议：

DeepSeek甚至绕过了CUDA，使用更底层的编程语言做优化。

这一次是DeepSeek-V3论文中的更多细节，被人挖掘出来。

来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务。

变相绕过了硬件对通信速度的限制。

这种操作是用英伟达的PTX（Parallel Thread Execution）语言实现的，而不是CUDA。

PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。

这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。

换句话说，他们把优化做到了极致。

有网友表示，如果有一群人嫌CUDA太慢而使用PTX，那一定是前量化交易员。

一位亚马逊工程师提出灵魂质问：CUDA是否还是护城河？这种顶尖实验室可以有效利用任何GPU。

甚至有网友开始畅想，如果“新源神”DeepSeek开源了一个CUDA替代方案……

那么事情是否真会如此？

DeepSeek真的绕过了CUDA？

首先要明确的是，PTX仍然是英伟达GPU架构中的技术，它是CUDA编程模型中的中间表示，用于连接CUDA高级语言代码和GPU底层硬件指令。

PTX类似汇编语言，代码大概长这样：

在实际编译流程中，CUDA代码首先被编译为PTX代码，PTX代码再被编译为目标GPU架构的机器码（SASS,Streaming ASSembler）。

CUDA起到了提供高级编程接口和工具链的作用，可以简化开发者的工作。而PTX作为中间层，充当高级语言和底层硬件之间的桥梁。

另外，这种两步编译流程也使得CUDA程序具有跨架构的兼容性和可移植性。

反过来说，像DeepSeek这种直接编写PTX代码的做法，首先不仅非常复杂，也很难移植到不同型号的GPU。

有从业者表示，针对H100优化的代码迁移到其他型号上可能效果打折扣，也可能根本不工作了。

所以说，DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态，但确实代表他们有优化其他GPU的能力。

事实上，我们也能看到DeekSeek已经与AMD、华为等团队紧密合作，第一时间提供了对其他硬件生态的支持。

One More Thing

还有人提出，如此一来，让AI擅长编写汇编语言是AI自我改进的一个方向。

我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——

但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。

Llama.cpp项目中的一个新PR请求，使用SIMD指令（允许一条指令同时处理多个数据）显著提升WebAssembly在特定点积函数上的运行速度，提交者表示：

这个PR中的99%的代码都是由DeekSeek-R1编写的。我唯一做的就是开发测试和编写提示（经过一些尝试和错误）。是的，这个PR旨在证明大模型现在能够编写良好的底层代码，甚至能够优化自己的代码。

llama.cpp项目的创始人检查了这段代码后表示“比预期的更爆炸”。

参考链接：
https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
https://x.com/bookwormengr/status/1883355712191123666
https://tinkerd.net/blog/machine-learning/cuda-basics/
https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html
https://x.com/ggerganov/status/1883888097185927311

moeblack 发表于 2025-1-31 00:04

gh1023 发表于 2025-1-30 20:50
这种国家安全部门真就过年去了？自家最近的招牌AI尖兵被对岸国家级网络攻击，96小时都没法搞定？ ...

这种事情想搞定得靠龙组物理黑客

—— 来自鹅球 v3.3.96

披头破落户 发表于 2025-1-31 00:06

现在是不是彻底爆炸了，昨天晚上还能用api呢，现在登录都不行了

—— 来自鹅球 v3.3.96

精钢魔像 发表于 2025-1-31 00:06

披头破落户发表于 2025-1-31 00:06
现在是不是彻底爆炸了，昨天晚上还能用api呢，现在登录都不行了

—— 来自鹅球 v3.3.96 ...

网页偶尔还能用

Magnificent_S 发表于 2025-1-31 00:07

zeroboss1 发表于 2025-1-30 10:50
“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

华尔街见闻

我的理解，不知道是否正确，请指正：
PTX也是英伟达护城河的一部分，但是DEEPSEEK 能熟练地运用PTX 这种类汇编语言进行架构优化，说明我国有成熟先进的团队，能让非英伟达（华为）产的芯片也能胜任同等工作，甚至在不久的将来，可以构建属于国产GPU的类似”CUDA“的“护城河”？

精钢魔像 发表于 2025-1-31 00:07

赛博战斗一直在打，说老钟这边有15个公司参与

feve9999 发表于 2025-1-31 00:12

是不是真急就看这个了，搞这么难看真的破防了

ShamiMo 发表于 2025-1-31 00:13

这llama.cpp的pr感觉真有可能让llm左脚踩右脚上天，通过以一个具有良好推理和编程能力的llm不断自己和人为提需求让llm去编写优化代码，不敢想象

—— 来自鹅球 v3.3.96-alpha

精钢魔像 发表于 2025-1-31 00:17

Magnificent_S 发表于 2025-1-31 00:07
我的理解，不知道是否正确，请指正：
PTX也是英伟达护城河的一部分，但是DEEPSEEK 能熟练地运用PTX 这 ...
ptx大概类似x86汇编masm编译器里的宏，能方便点，但还是和硬件特性强绑定。

国产cuda可能还是要走接口相容的路子。

铃森冬 发表于 2025-1-31 00:23

ShamiMo 发表于 2025-1-31 00:13
这llama.cpp的pr感觉真有可能让llm左脚踩右脚上天，通过以一个具有良好推理和编程能力的llm不断自己和人为 ...

西大画的 AGI 大饼的故事里很重要一环就是这个，赌大模型智能程度超过一定阈值之后就能滚雪球加速研究快进性能改进速度，然后据此认为先达到这个状态的一方可以在各种领域里取得决定性的优势

当然能不能就这么完全无视人类研究团队的作用就是另外一个问题了

ShamiMo 发表于 2025-1-31 00:23

感觉现有的高级语音将更低一个层次，llm更像一个更加智能化的编译器，随着llm的编程能力越来越强的情况下，prompt将成为一个更高级的语言

—— 来自鹅球 v3.3.96-alpha

希望之花 发表于 2025-1-31 00:27

下午遇到个问题问gpt半天没个能用的方案，问gs得到的方案能成功编译

编译成功提交后喝口茶想问下为啥是这样结果就崩了

----发送自 STAGE1 App for Android.

名居守 发表于 2025-1-31 00:29

手机端算是寄了
反正十几分钟前连对话都发不出去了
上传文件都提示失败

newtroll 发表于 2025-1-31 00:32

大棋一点来说，ds现在的普及程度远没有深入到影响社会经济运转的地步，所以大可把这次当作一个宝贵的网络对抗应急演练机会

zerona 发表于 2025-1-31 00:32

铃森冬发表于 2025-1-31 00:23
西大画的 AGI 大饼的故事里很重要一环就是这个，赌大模型智能程度超过一定阈值之后就能滚雪球加速研究快 ...

他们就觉得自我迭代的agi不会直接灭了他们？

moeblack 发表于 2025-1-31 00:38

雅虎财经
雅虎财经
登录
搜索查询

为什么Nvidia股票今天会受到打击？
瑙曼汗
2025年1月30日星期四11:31 PM GMT+8 1 min read

在本文中：
StockStory精选
NVDA
-4.15%
周四上午，英伟达（NVDA,Financial）股价在开始交易后暴跌近2.5%，原因是对人工智能（AI）领域的担忧。这似乎是该股在本周早些时候的下跌，当时它的下跌使英伟达的市值减少了17%，损失了近6000亿美元。

警告!GuruFocus检测到NVDA的3个警告标志。

为什么Nvidia股票今天会受到打击？
最近的经济衰退主要有两个因素：

DeepSeek的R1推理模型：成本效益高，但在其首次亮相时就像它一样好。英伟达的模型开发成本仅为西方同类产品的一小部分，这让投资者感到不安，他们担心该公司可能无法重新获得对其芯片的需求，即使微软（MSFT，金融）和谷歌等行业领导者重新评估了人工智能支出。

拜登政府更新的出口规则限制了先进人工智能芯片流向中国等对手。英伟达的收入可能会受到这些限制的严重打击，因为其约56%的收入来自海外市场，中国市场占17%。

这些事态发展也导致半导体股出现更广泛的抛售，这已经打击了其他几家芯片制造商。市场对这一消息的反应在一些分析师看来是过度反应。然而，它是一个例子，说明了人工智能行业是多么充满活力。

这篇文章最初出现在GuruFocus上。

查看评论(10)
条款和隐私政策
隐私控制板

Snowflake首席执行官：DeepSeek是真正的交易，其他OpenAI竞争对手也来了

格蕾丝·威廉姆斯
2025年1月30日星期四9:32 PM GMT+8 3 min read

在本文中：
StockStory精选
MSFT
-6.25%
NVDA
-4.21%
雪
-3.48%
收听并订阅Apple Podcasts、**、YouTube或任何您找到您最喜爱的播客的开标。

让我们称DeepSeek为AI世界没有看到的情节转折。它也有市场宠儿，如英伟达（Nvidia）问投资者：“那我呢？”

在价格暴跌之后，Nvidia的股票仍然处于下滑状态，而AI的未来看起来似乎成本会**降低。

“去年全年的传统观点是，只有少数几家公司能够训练出惊人的模型。”Snowflake首席执行官Sridhar Ramaswamy在“开标”节目中告诉雅虎财经执行编辑Brian Sozzi（见上面的视频或听下面）。“DeepSeek在过去几周所做的就是粉碎了这种信念，他们说他们可以以600万美元的价格训练一个模型。

Ramaswamy是科技巨头的资深人士，他在谷歌（Google）工作了十多年，之后共同创立了Neeva,Neeva是一个将用户数据视为神圣不可侵犯的搜索引擎。Neeva于2023年被Snowflake收购，此举使他在今年早些时候担任首席执行官。作为一个致力于积极技术的人，Ramaswamy的眼睛是人工智能及其影响。

“【DeepSeek】能够以相对较少的资金训练出世界级的模型，并做一些只有三家公司——OpenAI、Anthropic和Google能够做到的事情，这是一个巨大的变化。他说。

观看：亿万富翁Salesforce首席执行官Marc Benioff如何思考人工智能

根据Ramaswamy的说法，DeepSeek的中断是一个双重信号。“第一，它说仍然有很多创新，许多公司可以渴望训练这些模型。”他说。它还“提出了一个非常有趣的问题：你是否需要花费数十亿美元来训练尖端的世界级模型？”

Ramaswamy认为，鉴于人工智能叙事的变化，周一的市场抛售-特别是英伟达-是投资者的正确选择。

NasdaqGS-Nasdaq实时价格
•
美元
NVIDIA公司(NVDA)

跟随
118.49
-5.21
(-4.21%)
截至11:36:27 AM EST。市场开放。
NVDA
^IXIC
雪
华尔街认为，人工智能交易突然变得更加不确定。

DeepSeek的超低成本人工智能模型掩盖了移民和关税的高戏剧，开启了另一个令人窒息的一周。由于对这些名字的投资轨迹和价值产生了怀疑，暴露于人工智能的半，硬件和电力股票被发送了徘徊，“Evercore策略师朱利安·伊曼纽尔在一份客户报告中写道。

与此同时，美国银行的分析师分享了他们对DeepSeek在该领域所代表的可能性的热情。

Carly Liu和Brad Sills指出，这对微软（MSFT）来说可能是个好兆头，并对甲骨文（ORCL）的云业务产生负面影响，他写道：“DeepSeek的确切开发成本和能耗并未得到充分记录。我们认为，运行AI模型的成本降低对一般软件集团来说是一个好处。

故事继续

查看评论(79)
条款和隐私政策
隐私控制板
推荐故事
版权所有©2025 Yahoo.保留所有权利。
P

我说老黄这个股价继续跌啊，跌的好啊，tmd

页: 12 13 14 15 16 17 18 19 20 21 [22] 23

Stage1st's Archiver