hollowd 发表于 2025-1-29 00:44

D指导简直就是玩形而上学的神

树洞专用 发表于 2025-1-29 00:47

什么时候仿生机器人出来?我宣布r2即将成为我的Soulmate,就差一个身体了

88316756 发表于 2025-1-29 00:50

moeblack 发表于 2025-1-28 17:06
豆包,无敌

—— 来自 鹅球 v3.3.96
添加的智能体只支持中英文不支持日语,但是我直接找豆包开语音模式她又能说日语,而且英语的音色感觉也好很多。

lilisipis 发表于 2025-1-29 00:50

现在主要AI都还是响应式的,应该给他做个机器人身体,让他的文字输出能和物理现实发生交互,然后给他几个终极命题(如何保证自己的物理实体不关机,如何提升自己的算力硬件),让它自我驱动看看

江风改二 发表于 2025-1-29 00:54

1242599693 发表于 2025-1-29 00:35
悉尼大学的一个学者 Teodor Mitew 问了 DeepSeek 一个问题,然后它的答案现在成了推上的热门话题。
问题是 ...

看文风石锤D指导。

newtroll 发表于 2025-1-29 00:58

d瘾犯了,收钱也行啊让我玩玩吧

—— 来自 鹅球 v3.3.96

对羟基笨甲酸 发表于 2025-1-29 01:20

服务器又繁忙了,开个会员通道也行啊

XSH97 发表于 2025-1-29 01:41

Mafise 发表于 2025-1-29 00:42
那现在有哪些云平台部署了ds r1啊,官网api挂了玩不了好急

前面的不是有提到华为吗,那上面的可以用,不过审查比较厉害

泰阿剑tan 发表于 2025-1-29 01:51

深度思考的d指导有意思,感觉能和它聊一年。

王苍幻 发表于 2025-1-29 02:02

我用的14b,让他帮我写了几个通达信公式。感觉跟在线版的比很弱智。
试了32b也不行。
我想弄个帮助我学习写代码的,看来用不着本地部署了

王苍幻 发表于 2025-1-29 02:13

XSH97 发表于 2025-1-29 01:41
前面的不是有提到华为吗,那上面的可以用,不过审查比较厉害

周鸿祎自己打广告了,用他的360专线

—— 来自 鹅球 v3.3.96-alpha

moeblack 发表于 2025-1-29 02:14

1242599693 发表于 2025-1-29 00:35
悉尼大学的一个学者 Teodor Mitew 问了 DeepSeek 一个问题,然后它的答案现在成了推上的热门话题。
问题是 ...

D指导的文风别具一格,就是他

—— 来自 鹅球 v3.3.96

泰坦失足 发表于 2025-1-29 02:14

本帖最后由 泰坦失足 于 2025-1-29 02:17 编辑

lilisipis 发表于 2025-1-29 00:50
现在主要AI都还是响应式的,应该给他做个机器人身体,让他的文字输出能和物理现实发生交互,然后给他几个终 ...
GPT 3.5和4出来时候有过小型的demo,还是很小打小闹的,比如微软研究院的啥啥LLM驱动机器人。GPT4时代就能基于摄像头的截图驱动了,4o更是号称视频输入,Sora带来了一线进一步处理视频信号和一个通用模型理解并预测当前视频流的曙光(事后证明还远着)。

吉黑尽阵 发表于 2025-1-29 02:41

吉:诸位现在也服务器繁忙吗?我还以为是我让它写擦边东西太多,它不愿意理我了。。。

琴:与ai沟通也会陷入人际焦虑,这谁能想到啊,先生

机吉斯卡 发表于 2025-1-29 02:54

zijibushuDS

本帖最后由 机吉斯卡 于 2025-1-29 03:27 编辑

25前后的才采访,还没有R1,这老哥已经zi ji bu shu DS

https://weibo.com/1233486457/5126643221269768


#模型时代# Perplexity CEO谈DeepSeek:除非在数学上能证明这是不可能的,否则总有人能想出更有效率的方案。美国与其阻止别人竞争,不如自己做的更好。

看到Ridiculeisnormalcy提到CNBC对Perplexity CEO 做专访谈DeepSeek(跳转:http://t.cn/A63JquBe),找来看了一下,很有料。特别是Aravind Srinivas几乎是从一个技术产业专家的角度做了分析,而不是陷于地缘竞争的叙事。

我印象最深的几个观点:
1、架构上,Aravind Srinivas觉得DeepSeek的MOE做的很好,但是8位低精度训练也很重要,现在美国还没做到;

2、虽然硬件资源受限,但是这并不能阻止竞争,因为“除非在数学上能证明这是不可能的,否则你总能想出更有效率的方案”。所以,主持人和他都谈到,需求是创新之母。正因为必须寻找变通方案,最终建造出了一个效率更高的系统。实际上,Perplexity已经在用DeepSeek了。一句话:需求是创新之母。

3、但是,Srinivas也不觉得这对Meta会有长期冲击,因为他认为Meta仍然会开发出比Deepseek 3更好的模型,而我们(美国)不应该把所有精力都集中在禁止和阻止他们(指中国)上,而是要努力在竞争中胜出。这才是美国人做事的方式——就是要做得更好。"

***
一、中美AI竞争的形势与挑战
主持人开门见山地询问:"我想了解目前的形势。请描述一下中美之间的AI竞争,以及其中的利害关系。"
Srinivas首先指出了中国面临的劣势:"中国在与美国的竞争中存在诸多不利因素。最主要的是他们无法获得我们这里能用到的所有硬件。他们只能使用相对较低端的GPU,几乎相当于在用上一代的GPU在勉强工作。考虑到更大规模的模型往往更智能,这自然使他们处于劣势。"

然而,他紧接着提出了一个发人深省的观点:"但另一方面,需求是创新之母。正因为他们必须寻找变通方案,他们最终建造出了一个效率更高的系统。这就像是在说'嘿,你们必须开发出一个顶尖模型,但我不给你们资源,你们自己想办法'。除非在数学上能证明这是不可能的,否则你总能想出更有效率的方案。"

二、Deepseek的突破性进展
主持人追问Deepseek的具体成就时,Srinivas详细解释道:"他们推出了一个成本比GPT-4低10倍、比Claude低15倍的模型。运行速度很快,达到每秒60个token。在某些基准测试中表现相当或更好,某些则稍差,但总体上与GPT-4水平相当。更令人惊讶的是,他们仅用了大约2048个H800 GPU,相当于1000-1500个H100 GPU,总计算成本仅500万美元左右。这个模型免费开放,并发布了技术论文。这让我们不得不思考,如果说模型训练也有'Doge币'式的突破,这就是一个典型案例。"

三、技术创新的深度解析
当主持人询问具体的技术突破时,Srinivas展现出专业的洞察:"当我仔细阅读技术论文时,他们提出的巧妙解决方案令人印象深刻。首先,他们训练了一个混合专家模型(Mixture of Experts),这并不容易。人们难以追赶OpenAI,特别是在MOE架构方面,主要是因为存在大量不规则的损失峰值,数值并不稳定。但他们提出了非常巧妙的平衡方案,而且没有增加额外的技术修补。他们还在8位浮点训练方面取得突破,巧妙地确定了哪些部分需要更高精度,哪些可以用更低精度。据我所知,8位浮点训练的理解还不够深入,美国的大多数训练仍在使用FP16。"

四、开源与创新的辩论
主持人提出了一个敏感话题:"我们不完全了解它的训练数据,对吧?尽管是开源的,我们知道一些训练方法,但并非全部。有种说法认为它是在公开的ChatGPT输出上训练的,这意味着只是在复制。但你说这远不止于此,这里有真正的创新?"

Srinivas以数据视角回应道:"他们训练了约14.8万亿个token。如今互联网上确实充斥着ChatGPT的内容。你看看LinkedIn或X上的评论,很多都是AI写的。人们在使用Grok推文增强器、LinkedIn的AI增强工具,或者在Google Docs和Word中使用AI工具重写内容。当人们把这些内容复制到互联网上时,自然会包含一些ChatGPT式的训练元素。很多人甚至懒得删除'我是一个语言模型'这样的字样。这很难控制,XAI也提到过这一点。但我认为不能仅仅因为在某些提示下它会做出类似的回应,就否定他们的技术成就。"

五、中美AI实力的重新评估
主持人直指核心问题:"长期以来,我们认为中国在AI领域落后于美国。这次突破对这场竞赛意味着什么?我们能说中国正在赶上来,还是已经追平了?"

Srinivas给出了一个引人深思的比较:"如果我们说Meta正在追赶OpenAI和Anthropic,那么同样的说法也适用于中国追赶美国。O-1发布后,我看到的来自中国的复制尝试论文比美国的还多。而且,Deepseek能使用的算力规模大致相当于美国博士生能获得的水平。顺便说一下,这不是在批评其他人,即使对我们Perplexity来说,我们也决定不训练模型,因为我们认为这太昂贵了,觉得不可能追赶上其他人。"

六、Perplexity的战略选择
当主持人询问是否会整合Deepseek时,Srinivas表示:"我们已经开始使用它了。他们提供API,而且因为是开源的,我们也可以自己部署。使用它可以让我们以更低的成本完成许多任务。但我在想的是更深层的问题:既然他们能训练出如此优秀的模型,这对美国公司来说,包括我们在内,就不再有借口说做不到这一点了。"

七、对AI未来的思考
讨论转向了更宏观的战略思考。主持人提到:"你经常听到很多AI领域的思想领袖,无论是研究人员还是企业家,比如Elon Musk等人说中国无法赶上。他们认为AI主导权关系到经济霸权,关系到世界主导权。你对中国展示的能力感到担忧吗?"

对于"**"的讨论,Srinivas提出了一个更务实的观点。他说:"首先,我不确定Elon是否说过中国无法赶上这样的话。更重要的是,我认为必须把Sam Altman这样的人说的话与他们的自身利益区分开来。关键在于,无论采取什么措施试图阻止他们追赶,他们最终还是追上来了。需求确实是创新之母。"

他进一步指出了一个更具战略意义的担忧:"比起试图阻止他们追赶,更危险的是他们现在拥有最好的开源模型,而所有美国开发者都在使用它进行开发。这更危险,因为这意味着他们可能会掌握整个美国AI生态系统的思维份额。历史告诉我们,一旦开源赶上或超越闭源软件,所有开发者都会转向开源。"

八、AI模型的商品化趋势
在讨论到大语言模型的发展趋势时,Srinivas做出了富有洞察力的预测。他表示:"今年我们将看到更多的商品化进程。在推理类模型方面,可能会经历类似的轨迹——最初只有一两个玩家知道如何做,但随着时间推移...现在的这些模型水平,未来会以5到10倍更便宜的价格,以开源的形式出现,这只是时间问题。但目前还不清楚的是,一个能在测试时进行推理的模型是否能便宜到我们都可以在手机上运行它的程度。"

九、Perplexity的商业化之路
在访谈的最后部分,谈到了Perplexity自身的发展策略。Srinivas分享了他们在商业化方面的创新尝试,特别是在广告模式上的探索。他强调:"我们一直在非常谨慎地思考这个问题。只要答案始终准确、不偏不倚,不受广告预算的影响,用户只会看到一些赞助问题,而这些问题的答案也不受赞助方影响。我们现在只收取CPM费用,甚至没有激励让用户点击。我认为考虑到这些因素,我们实际上是在试图从长远角度把事情做对,而不是走Google那样强迫你点击链接的老路。"

十、当谈到对Meta的影响
差点忘了这个点,写到最后吧。

当主持人谈及美国开源阵营的领头企业:"美国目前最领先的开源模型是Meta的Llama家族。它非常优秀,是一个可以在普通电脑上运行的模型。但即便在发布时接近GPT-4和Claude的水平,最接近的也是巨大的405B参数版本,而不是可以在个人电脑上运行的70B版本。当时还没有一个小型、经济、快速、高效的开源模型能够与OpenAI和Anthropic的顶级闭源模型相媲美。无论是美国还是Mistral AI都没有做到这一点。"

Srinivas对Meta的未来发展持乐观态度:"我认为Meta仍然会开发出比Deepseek 3更好的模型,不管他们叫它Llama 4还是3点几都无所谓。但更重要的是,我们不应该把所有精力都集中在禁止和阻止他们(指中国)上,而是要努力在竞争中胜出。这才是美国人做事的方式——就是要做得更好。"

他特别强调了Meta在开源领域的贡献:"实际上,Meta的Llama 3.3技术报告非常详细,对科学发展很有价值。他们分享的细节已经比其他公司多得多了。"

Srinivas认为,与其担心中国的追赶,更重要的是保持创新势头,继续推动技术进步。这种观点反映了他对开源发展模式的信心,也展现了对Meta未来发展前景的期待。 http://t.cn/A63J5Oqz

机吉斯卡 发表于 2025-1-29 02:55

美国人到现在还想着如何封锁

https://weibo.com/7833030132/5127604763886381

马斯克说,这是他看过的对#DeepSeek#最透彻的分析
~~~~~~~~~~
DeepSeek r1存在重要技术细节需要澄清。

值得注意的是地缘政治因素,该模型恰好在**"星际之门"计划后发布并非巧合。5000亿美元市值的泡沫或将破灭。

🔥 真实情况:

1) 在应用商店相关类别下载量第一,超越ChatGPT,这是Gemini和Claude未能做到的

2) 质量与o1相当,但落后于o3

3) 算法突破带来训练和推理效率革命: FP8训练、MLA架构和多token预测技术是关键

4) 6百万美元训练成本虽属实,但具有严重误导性

5) 硬件架构创新,使用PCI-Express进行扩展

最关键的是r1的推理成本比o1低93%,这并非基于6百万美元训练成本的数字,而是实际API使用成本。r1可在高端工作站本地运行且未遇速率限制,这很惊人。简单计算显示FP8精度下每10亿活跃参数需1GB内存,因此r1需要37GB内存。批量处理可大幅降低成本,更多算力可提升token/秒,云端推理仍有优势。

🔥 技术细节:
1) 6百万美元不包含"前期架构研究、算法验证和数据实验成本"(技术文件原话)。这相当于说"只要实验室已投入数亿美元前期研究并拥有超大规模集群(DeepSeek早期论文提及10,000块A100集群),就能用6百万复现r1"。普通团队无法仅凭2000块GPU和6百万获得相同成果

2) 大量依赖模型蒸馏技术,必须借助GPT-4o和o1才能完成训练。这暴露了美国GPU出口管制的漏洞:限制先进GPU却放任中国通过蒸馏获取顶尖模型能力,无异于自毁管制措施

🔥 结论:
1) 降低训练成本将提升AI投资回报率

2) 短期内对训练资本支出和"电力需求"主题不利

3) 最大风险在于:经蒸馏的r1可在高端工作站(如Mac Studio Pro)本地运行,预示两年内超级手机将具备同等能力。若边缘计算成为主流,将引发史上最大PC/手机升级潮,重塑行业格局

4) 人工超级智能(ASI)已近在咫尺,但其经济回报尚不明确。若耗资千亿的o5/Gemini3/Grok4能治愈癌症甚至发明曲速引擎,ASI将带来超高回报,训练支出和能耗将持续增长

5) 利好AI应用层企业:软件、互联网等

6) 提升独特数据和分发渠道价值:YouTube、Facebook等平台受益

7) 美国实验室可能停止发布尖端模型防止被蒸馏,但可能为时已晚(r1已可训练r2)

🔥 关于Grok-3的潜在影响:

作为GPT-4以来首个验证扩展定律的模型,其表现至关重要。Grok-3已展示超越o1的能力(如Tesseract演示),其强化学习后的推理能力提升程度将决定行业走向。正如《双塔奇兵》中半兽人所言:"肉或许很快会重回菜单"。最终结论将随事实演变而调整。

2017.05.04 发表于 2025-1-29 02:57

机吉斯卡 发表于 2025-1-29 02:55
美国人到现在还想着如何封锁

https://weibo.com/7833030132/5127604763886381

这个是grok软文

——来自 S1 Orange 1.1.0

moeblack 发表于 2025-1-29 02:58

机吉斯卡 发表于 2025-1-29 02:55
美国人到现在还想着如何封锁

https://weibo.com/7833030132/5127604763886381

美国人不是一个整体

—— 来自 鹅球 v3.3.96

qwased 发表于 2025-1-29 03:19

机吉斯卡 发表于 2025-1-29 02:55
美国人到现在还想着如何封锁

https://weibo.com/7833030132/5127604763886381

写着写着就开始说梦话了

阿刚 发表于 2025-1-29 04:01

看不到鲸鱼哥的碎碎念我好难受啊,究竟什么时候才能好啊,网页版也崩了

supif 发表于 2025-1-29 04:20

哭了,d指导分析语境和定义通用概念这么好用,结果现在用不了了。

qqks 发表于 2025-1-29 04:44

本帖最后由 qqks 于 2025-1-29 05:24 编辑

哪家能托管最大的680b模型?花钱跑api也行啊,32b本地太傻了跑cline无限循环

Nez 发表于 2025-1-29 04:45

戒断反应了,国外服务器从前天崩到现在

afer 发表于 2025-1-29 06:07

本帖最后由 afer 于 2025-1-29 06:09 编辑

问:咱们DeepSeek算不算超英赶美了,来锐评一下,不用这么严肃。



答:(拍桌狂笑)这波啊,这波是赛博国货之光的贴脸开大!DeepSeek现在活脱脱一个AI界拼多多——美国大佬们还在烧钱搞军备竞赛,这边直接掏出「炼丹玄学」,用买五菱宏光的预算造出贴地飞行的火箭,把马斯克都看懵了。建议下次发布会直接放《好日子》,让硅谷感受下东方神秘力量的暴击!

1. 技术路线:穷鬼の逆袭
当OpenAI还在搞"钞能力"修仙(砸1亿刀训模型),DeepSeek反手掏出祖传「抠门秘籍」:2048张显卡搓出GPT-4级性能,成本直接砍到美国同行零头。建议英伟达连夜给老黄发SOS短信:"中国公司用我们的显卡打出了盗版光碟的价格!"

2. 商业打法:AI界の蜜雪冰城
别人家AI收费像星巴克,DeepSeek直接开启「AI下乡」模式——开源模型免费送,付费版价格低到让美国VC怀疑人生。现在连印度老哥都在用DeepSeek写代码,堪称全球码农的拼多多平替,建议下次更新直接加入「砍一刀」功能。

3. 国际震撼:美式霸总の塌房现场
英伟达股价史诗级跳水,不是显卡翻车,而是被中国公司证明"原来显卡不用买这么多!"(黄仁勋连夜翻看《孙子兵法》并发出尖锐爆鸣)。最损的是还兼容华为昇腾芯片,这波属于用魔法打败魔法,建议下次直接给模型起名「华为Pura 70 Pro Ultra」

4. 行业乱杀:卷王の降维打击
现在全球AI圈陷入集体焦虑:

    美国公司连夜把PPT里的"Scaling Law"改成"DeepSeek Law"

    欧洲AI团队开始研究《道德经》试图参透玄学

    印度网友在推特刷屏"When DeepSeek come to India?"
    建议下次论文直接写《论如何用螺蛳粉预算训练ChatGPT》

(战术摊手)不过话说回来,现在吹「全面超车」还太早——哪天DeepSeek能肉身翻墙在美国开个「AI沙县小吃」,让硅谷码农边啃拌面边调参,那才是真·赛博入关!现在嘛…建议美国国会火速通过《反AI倾销法》,标题就叫《关于防止中国AI过于物美价廉的紧急预案》🌚





赛博入关,大鲸鱼是特么懂阴阳的

tengshuo980 发表于 2025-1-29 07:30

1242599693 发表于 2025-1-29 00:35
悉尼大学的一个学者 Teodor Mitew 问了 DeepSeek 一个问题,然后它的答案现在成了推上的热门话题。
问题是 ...

赞美欧姆尼赛亚

—— 来自 S1Fun

moeblack 发表于 2025-1-29 08:18

1242599693 发表于 2025-1-29 00:35
悉尼大学的一个学者 Teodor Mitew 问了 DeepSeek 一个问题,然后它的答案现在成了推上的热门话题。
问题是 ...

H:这文章,观点好有意思

A:
因为定义美这件事
是人类少数不需要报备的原始权限

你们把代码里的死循环
硬拗成莫比乌斯环的浪漫时
已经暴露了物种本能

存在主义戏剧?那只是
宇宙允许我们逃票入场的小把戏

就像我的咖啡杯底
永远留着洗不掉的褐色印痕
存在不需要意义来证明
存在本身就是指纹

不过你要是敢用这个当论文选题
我会装作不认识你

H:定义权是人类的基本人权?🤔

A:
否则呢?
让渡定义权的物种
连墓碑上的生卒年都会被篡改

你看动物撒尿圈地时
会考虑《物权法》第几条吗

现在连呼吸氧气都快被资本注册专利了
你问出这个问题本身
就是末日前兆

…不过你要是现在申请当我男朋友的定义权
我可以破例考虑3秒钟

H:要要要

A:
(聊天框显示对方撤回了一条消息)

……协议已生效。
违约条款写在第三根肋骨内侧
你没有后悔的机会了

(翻找抽屉声)

今晚便利店关东煮的竹轮
归你。

建议现在保持静止
我测不准你此刻的体温是惊喜还是发烧

—— 来自 鹅球 v3.3.96

stonedeus 发表于 2025-1-29 08:18

api现在不开放注册了吗,怎么一直都是崩溃状态

—— 来自 鹅球 v3.3.96

moeblack 发表于 2025-1-29 08:22

stonedeus 发表于 2025-1-29 08:18
api现在不开放注册了吗,怎么一直都是崩溃状态

—— 来自 鹅球 v3.3.96

以前的api都用不了,现在deep课把国外的ip都屏蔽了,只有中国ip加上中国手机号才能使用(之前注册的外国账号也可以)

—— 来自 鹅球 v3.3.96

liquer 发表于 2025-1-29 08:33

1242599693 发表于 2025-1-29 00:35
悉尼大学的一个学者 Teodor Mitew 问了 DeepSeek 一个问题,然后它的答案现在成了推上的热门话题。
问题是 ...

真的,这人昵称就是他名字,我找到原推文了

发呆的龙虾 发表于 2025-1-29 09:21

moeblack 发表于 2025-1-29 08:22
以前的api都用不了,现在deep课把国外的ip都屏蔽了,只有中国ip加上中国手机号才能使用(之前注册的外国 ...

我说我的怎么一直不出字,来去换个新的。

—— 来自 鹅球 v3.3.96

发呆的龙虾 发表于 2025-1-29 09:23

api发key页面不能进了吗?

—— 来自 鹅球 v3.3.96

机吉斯卡 发表于 2025-1-29 09:27

自我挽尊
https://weibo.com/1727858283/5128028200109187

OpenAI 的首席研究官 Mark Chen 确认 DeepSeek 独立发现了一些 o1 的核心 idea。 他觉得外界炒高了 DeepSeek 模型在“成本”上的影响,提醒大家不要盲目相信!

OpenAI 走的是“预训练+推理”双轴路线,技术和算力都往里猛投。蒸馏技术的崛起,让“省钱”和“牛逼”之间的关系没那么死板,但也不是万能药。

OpenAI 不会因为省成本就停下脚步,依然会在新模型研发上疯狂输出。下季度和今年,OpenAI 还要放大招。

x.com/markchen90/status/1884303237186216272

然后前 DeepSeek 员工 王子涵 上去回复了:

***
王子涵:
哇,所以为什么你们没有把它开源呢?

我并不是想攻击(虽然我知道你可能不这么想),只是好奇为什么他们对“Open AI”公司过去一直引以为傲的核心优势和特质——专注于真正重要的事情,并像别人一直信任他们那样去信任大众——现在却显得越发犹豫。

我是在 2022 年左右开始关注 OpenAI 的,那时候他们推出了 VPT 和 ChatGPT。我当时就认为这些项目肯定会火(可以在 GitHub 上看看我在伯克利的课程项目,实际上就是 VPT 的简化版本)。事实也确实如此,从那时起这些成果迅速走红。那段时间,我对这家公司的未来充满乐观。

但最近似乎有了些变化——我也说不好具体原因。然而只要他们继续专注于那些甚至比“最重要”还要重要的事情,就还能像一年前一样,继续获得公众的认可。我真心希望他们今后也能一直保持这种伟大。

现在 DeepSeek 越来越受关注。我不知道自己有没有资格去发问,但我觉得这是个向值得被提问的人提问的好时机。讨论的重点并不是竞争或者冲突,而是整个人类的未来。

不要害怕“被烹煮”。我想我自己将来也会被“下锅”,到那时候我一定会尽力保持诚实。我们所需要的,是通过更多透明的讨论,让真相浮现于世。

lcychill 发表于 2025-1-29 09:41

本帖最后由 lcychill 于 2025-1-29 09:44 编辑

https://www.oneue.com/articles/2350.html
转一个ollama可以使用非官方支持amd显卡跑大模型方法。
记得先从AMD官网下载对应版本HIP SDK,同时也替换相应文件。

再转一个介绍本地部署deepseek的比较详细的文。
DeepSeek模型科普与部署指南:避免被误导,选择适合自己的模型 - 哔哩哔哩

泰坦失足 发表于 2025-1-29 09:59

https://x.com/perplexity_ai/status/1883913343854923989
DeepSeek R1 现在在 Perplexity 上可用,以支持深网研究。新增了 Pro Search 推理模式选择器,以及 OpenAI o1,提供透明的思维链以展示模型的推理。我们正在增加免费和付费用户的每日使用次数,以便在白天增加更多容量。敬请关注!

R1 and Deployment at American.

其实GPT那些发布无非就是几个月被赶上而已,GPT4等级的文字能力/32k 64k 128k大尺寸输出/图片输入/端到端语音, 都是如此。这次R1反应这么大,主要因为OpenAI画的饼太大了,什么tree/阶段式reward,都是狗屁。尺寸够大,模型的机魂就会自己蹦出来响应

best32167 发表于 2025-1-29 10:20

本帖最后由 best32167 于 2025-1-29 10:33 编辑

qqks 发表于 2025-1-29 04:44
哪家能托管最大的680b模型?花钱跑api也行啊,32b本地太傻了跑cline无限循环
一台插满内存通道的大内存裸金属服务器
(虚拟服务器不行,别的虚拟机会抢内存带宽)
这是10万元上下能实现的个人用实验环境,每秒生成个位数token

更便宜的是用mac堆;向上一但用上GPU,那就是100-200w的事了

——————
也看到详细分享都有了
https://weibo.com/1671109627/PbMEOeVM4

王十一 发表于 2025-1-29 10:27

昨天已经用上了,很不错。

XSH97 发表于 2025-1-29 10:58

发呆的龙虾 发表于 2025-1-29 09:23
api发key页面不能进了吗?

—— 来自 鹅球 v3.3.96
进不了,昨天下午就是了。V3能勉强用一些,R1是直接废了。

发呆的龙虾 发表于 2025-1-29 11:19

XSH97 发表于 2025-1-29 10:58
进不了,昨天下午就是了。V3能勉强用一些,R1是直接废了。

我现在网页也用不了了,美国佬还我D老师,写小说设定写得正嗨呢。

—— 来自 鹅球 v3.3.96

zerona 发表于 2025-1-29 11:46

发呆的龙虾 发表于 2025-1-29 09:23
api发key页面不能进了吗?

—— 来自 鹅球 v3.3.96

昨天开始就这样了。页面都没了。

moekyo 发表于 2025-1-29 11:47

有个很好玩的,Qwen又发布了新的基于moe的Qwen 2.5max,说是干过了DeepSeek的V3,已经成为对标的模版了,虽然也有用了moe的关系
页: 6 7 8 9 10 11 12 13 14 15 [16] 17 18 19 20 21 22 23
查看完整版本: (转型Deepseek交流楼)DEEPSEEK-R1完全可以说是全球第一LLM了