（转型Deepseek交流楼）DEEPSEEK-R1完全可以说是全球第一LLM了

moeblack 发表于 2025-1-21 13:24

本帖最后由 moeblack 于 2025-1-26 15:58 编辑

livebench出分全球第二，价格消耗和o1已经是两个数量级了。
MIT协议的开源模型，671b参数量，后面看有没有人卷api价格
这种数量级的成本差异上来说，这差的分完全无所谓。
今天早上试了一早上，效果无敌。

星星狐 发表于 2025-1-21 13:32

那这个模型下有哪些应用可以给我们用呢？推荐一下

丨丨发表于 2025-1-21 13:38

星星狐发表于 2025-1-21 13:32 那这个模型下有哪些应用可以给我们用呢？推荐一下

官网文档里有，实用集成。

lzrtwilight 发表于 2025-1-21 13:43

星星狐发表于 2025-1-21 13:32
那这个模型下有哪些应用可以给我们用呢？推荐一下

https://chat.deepseek.com/
点深度思考用的就是R1

枯风瘦雪 发表于 2025-1-21 13:44

可用、参数量不太大、算力需求不太高
这三条已经在踹closeai的屁股了
希望对面那条路能彻底证伪

无畏的巴利斯坦 发表于 2025-1-21 13:48

试了下R1，有点意思

Nanachi 发表于 2025-1-21 13:50

和v3有什么使用方向上的区别吗

—— 来自鹅球 v3.3.96

moeblack 发表于 2025-1-21 13:56

枯风瘦雪发表于 2025-1-21 13:44
可用、参数量不太大、算力需求不太高
这三条已经在踹closeai的屁股了
希望对面那条路能彻底证伪 ...

这种数量级的性能差异可以说其他模型路线就走偏了

挖泥船 发表于 2025-1-21 13:57

Nanachi 发表于 2025-1-21 13:50
和v3有什么使用方向上的区别吗

—— 来自鹅球 v3.3.96

这个是长思维模型，适合数学、推理等高难度需要过程的任务。在通用任务上可能表现会比较奇特。
v3适合普通的直觉、知识类任务，通用能力稳定。

—— 来自鹅球 v3.3.96

treexper 发表于 2025-1-21 14:00

q4 需要500G内存，2台m2 ultra可跑。

油条小贩 发表于 2025-1-21 14:01

R1是V3的再升级？

狭义文具爱好者 发表于 2025-1-21 14:07

sonnet 1022这个coding真高的耀眼，这还是都三个月没怎么更新模型

小野賢章 发表于 2025-1-21 14:10

GitHub的copilot用的是什么模型，我还有十个多月的会员

弗兰肯斯坦 发表于 2025-1-21 14:13

之前就可以点那个深度思考了，这个R1模型是刚刚部署还是刚刚出分？

油条小贩 发表于 2025-1-21 14:14

弱问下
这些模型是啥意思，区别在哪里？
就是原始数据处理的方法吗？

komoechan 发表于 2025-1-21 14:18

弗兰肯斯坦发表于 2025-1-21 14:13
之前就可以点那个深度思考了，这个R1模型是刚刚部署还是刚刚出分？

昨天刚正式发布

moekyo 发表于 2025-1-21 14:20

油条小贩发表于 2025-1-21 14:14
弱问下
这些模型是啥意思，区别在哪里？
就是原始数据处理的方法吗？

直接去问啊

alixsander 发表于 2025-1-21 14:43

弗兰肯斯坦发表于 2025-1-21 14:13
之前就可以点那个深度思考了，这个R1模型是刚刚部署还是刚刚出分？

之前是R1-LITE

R1-LITE是个1几B的MOE

R1是670B的MOE

小ghoul 发表于 2025-1-21 14:47

只想知道代码能力咋样，用了一圈感觉都不如gpt4，这个咋样了

alixsander 发表于 2025-1-21 14:49

本帖最后由 alixsander 于 2025-1-21 18:54 编辑

枯风瘦雪发表于 2025-1-21 13:44
可用、参数量不太大、算力需求不太高
这三条已经在踹closeai的屁股了
希望对面那条路能彻底证伪 ...

只是MOE和一些训练和推理工程（MLA MTP DUALPIPE PD分离什么）上的优化

和其他LLM又没有什么路线之争

neptunehs 发表于 2025-1-21 14:51

这模型用来翻译的话效率如何？

香料永流传 发表于 2025-1-21 14:53

主要是提升的思维链能力，通用任务和code上可能还不如V3

qqks 发表于 2025-1-21 14:53

neptunehs 发表于 2025-1-21 14:51
这模型用来翻译的话效率如何？

翻译你用1.5b核显都能跑的超小型模型都能完爆传统机翻了，用不上这么高档的东西。

这东西就是把一个数学系研究生塞你电脑里去了

洛拉斯 发表于 2025-1-21 14:54

neptunehs 发表于 2025-1-21 14:51
这模型用来翻译的话效率如何？

小红书就是用的类似的模型，翻译很强，基本上可以和外国人无障碍交流

alixsander 发表于 2025-1-21 14:56

油条小贩发表于 2025-1-21 14:14
弱问下
这些模型是啥意思，区别在哪里？
就是原始数据处理的方法吗？

alixsander 发表于 2025-1-21 15:01

小ghoul 发表于 2025-1-21 14:47
只想知道代码能力咋样，用了一圈感觉都不如gpt4，这个咋样了

4o什么cjb，非reasoning模型的代码和数学能力很难和reseaning model比（可能sonnet是个例外）

什么QwQ， Gemini 2 Flash thinking，o1 从mini到pro，sonnet3.5, 当然包括R1 4o，这种普通多模态的数学，代码和科学能力是比不上的。

精钢魔像 发表于 2025-1-21 15:04

小野賢章发表于 2025-1-21 14:10
GitHub的copilot用的是什么模型，我还有十个多月的会员

claude 3.5 sonnet和gpt 4o
集成进vscode后好像能一直免费用了

斡旋专家 发表于 2025-1-21 15:06

卧槽，这个太牛逼了

这玩意稍微调教一下可以直接做流体仿真，Claude3.5s是打死都学不会的

大韩李明博 发表于 2025-1-21 15:30

狠狠打脸了说中国AI落后美国N年的人一巴掌。

某浩发表于 2025-1-21 16:20

但是我实际使用下来，觉得和 claude 3.5 sonnet还是有差距的，虽然某些特定的问题已经比claude 3.5 sonnet好，但是深入一点解决方案的话，还是claude 3.5 sonnet要优秀

但考虑到DEEPSEEK是完全开源的，那就很恐怖了。非常吊炸天了

Azcarlo 发表于 2025-1-21 16:24

https://p.sda1.dev/21/bddbb2765c3b896bc5fb4afea1214be6/image.jpg

— from S1 Next Goose v3.3.96

子虚乌有 发表于 2025-1-21 16:29

lzrtwilight 发表于 2025-1-21 13:43
https://chat.deepseek.com/
点深度思考用的就是R1

这个是完全不要钱吗？

Azcarlo 发表于 2025-1-21 16:30

D家甚至把qwen和llama的R1蒸馏模型也放出来了
https://p.sda1.dev/21/7a1460d6fef92f6b22389c5c63e8dd08/image.jpg
大洋对岸的什么close路边公司，DS才是真正的源神

— from S1 Next Goose v3.3.96

qratosones1337 发表于 2025-1-21 16:37

某浩发表于 2025-1-21 16:20
但是我实际使用下来，觉得和 claude 3.5 sonnet还是有差距的，虽然某些特定的问题已经比claude 3.5 sonne ...

推理模型不是Chat模型的上位平替，最后还是要看迭代之后的V3。下一个版本的V3估计会引入更多的R1合成数据

nukacolamania 发表于 2025-1-21 17:06

这玩意儿好像还活在去年

overflowal 发表于 2025-1-21 17:06

某浩发表于 2025-1-21 16:20
但是我实际使用下来，觉得和 claude 3.5 sonnet还是有差距的，虽然某些特定的问题已经比claude 3.5 sonne ...
R1这种推理模型在某些领域是不如普通模型的，擅长的是复杂coding和数学推理，这方面可以吊着所有非推理模型打

东之伊甸 发表于 2025-1-21 17:10

话说翻译最好的模型还是claude3.5吗？

小野賢章 发表于 2025-1-21 17:15

nukacolamania 发表于 2025-1-21 17:06
这玩意儿好像还活在去年

可以勾选【联网搜索】

sellboy 发表于 2025-1-21 17:27

小野賢章发表于 2025-1-21 17:15
可以勾选【联网搜索】

联网搜索的模型是V3

chronicle 发表于 2025-1-21 17:29

实测到底怎么样，网上营销号实在太多了，真真假假

页: [1] 2 3 4 5 6 7 8 9 10

Stage1st's Archiver

（转型Deepseek交流楼）DEEPSEEK-R1完全可以说是全球第一LLM了