幻方旗下的DeepSeek发布全新DeepSeek V3开源大模型

overflowal 发表于 2024-12-27 10:12

https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ

总结：超过600B参数的MoE模型，在各种测试中和sonnet媲美，不少测试中都超过了sonnet和4o。推理速度大幅度提升
X上讨论的热火朝天，不仅仅是因为这是第一个真正达到闭源商业模型水平的开源模型，
还有他们只用了2000块H800，训练了两个月，大概550万美金的训练成本，和友商动辄上亿的训练成本相比显得友商非常小丑
同时api的费用就算涨价了也远远低于友商。

Lillia 发表于 2024-12-27 10:15

这也太牛逼了只花550W，3.5sonnet的文字处理能力已经非常强了

qratosones1337 发表于 2024-12-27 10:16

土五老师说的没错，美国就是人种不行，不然你无法解释Meta和XAI花了那么多钱屯了那么多卡，最后都干啥了

hencechen 发表于 2024-12-27 10:17

本帖最后由 hencechen 于 2024-12-27 10:23 编辑

qratosones1337 发表于 2024-12-27 10:16
土五老师说的没错，美国就是人种不行，不然你无法解释Meta和XAI花了那么多钱屯了那么多卡，最后都干啥了 ...
meta新出来的Llama那个版本还可以。我觉得现在有种’大模型倦怠“。大家数据指标上都在刷新刷新，今天你长文本解读能力提高15%，明天我在aime上可以拿高分……看上去你好我也好，但是真部署起来开始推理，又感觉都差球不多，拉不开档次的差距。

感觉就像功能机时代的手机，诺基亚爱立信moto今天你出一款，明天我出一款，反正都是你提高了续航、我提高了喇叭音量，竞争了3、5年回头一看，还是那个鸟样……亟需要一款iPhone级别的产品来降维打击，真正”教育“市场，可惜现在看起来最有希望的chatGPT也没做到

qratosones1337 发表于 2024-12-27 10:20

hencechen 发表于 2024-12-27 10:17
meta新出来的Llama那个版本还可以。我觉得现在有种’大模型倦怠“。大家数据指标上都在刷新刷新，看上去你 ...

Meta的卡是阿里的五到六倍，然后LLama现在也就是个跟Qwen有来有回的水平，长链推理方面也没啥动静

中国人 发表于 2024-12-27 10:21

幻方主业还是搞量化交易的

qratosones1337 发表于 2024-12-27 10:29

另外这次首发上了NPU推理，看来DeepSeek现在也是华为KA客户了

泰坦失足 发表于 2024-12-27 10:30

Sonnet不是已经被自己啥Haiku超越了吗。看了下就是比Qwen 2.5 72b强些的水平（但是400b）。现在最需要的还是一个能自我反思的长思考树的模型，类似 O1 Pro mode, 但是准确性需要提升。

前略，消失的盘古大模型5.0

qratosones1337 发表于 2024-12-27 10:34

泰坦失足发表于 2024-12-27 10:30
Sonnet不是已经被自己啥Haiku超越了吗。看了下就是比Qwen 2.5 72b强些的水平（但是400b）。现在最需要的还 ...

你搞反了吧，Haiku是小号模型，Sonnet才是中号，现在A社对外提供服务的最好模型就是Sonnet 3.5

Nanachi 发表于 2024-12-27 10:38

一直在用DeepSeek的API搭配沉浸式翻译看外网文章

泰坦失足 发表于 2024-12-27 10:41

qratosones1337 发表于 2024-12-27 10:34
你搞反了吧，Haiku是小号模型，Sonnet才是中号，现在A社对外提供服务的最好模型就是Sonnet 3.5 ...

在最终测试中，Haiku 在许多基准测试中超越了 Claude 3 Opus，我们之前的旗舰模型，成本却低得多，" Anthropic 在 X 上写道。"因此，我们提高了 Claude 3.5 Haiku 的定价，以反映其智能的提升。

记错了，Claude的命名比OpenAI还抽象

無始無終 发表于 2024-12-27 10:56

啥时候代码能力能恢复到V2.5 Coder的水平

—— 来自 S1Fun

overflowal 发表于 2024-12-27 11:01

無始無終发表于 2024-12-27 10:56
啥时候代码能力能恢复到V2.5 Coder的水平

—— 来自 S1Fun

恢复啥，这模型code能力很多benchmark比3.5 sonnet都强

qratosones1337 发表于 2024-12-27 11:05

泰坦失足发表于 2024-12-27 10:41
在最终测试中，Haiku 在许多基准测试中超越了 Claude 3 Opus，我们之前的旗舰模型，成本却低得多，" Anth ...

理论上Claude 3.5这一代还有超大杯，但现在没有对外开放，目前开放的最好的就是3.5 Sonnet

weibo.com 发表于 2024-12-27 11:07

幻方的人是不是浙大竺院派的？

洛拉斯 发表于 2024-12-27 11:11

Nanachi 发表于 2024-12-27 10:38
一直在用DeepSeek的API搭配沉浸式翻译看外网文章

成本如何？

qratosones1337 发表于 2024-12-27 11:12

洛拉斯发表于 2024-12-27 11:11
成本如何？
GPT-4o的百分之一

DeepSeek最大的特点就是价格极其便宜

迷路的石头 发表于 2024-12-27 11:12

幻方这家神奇的公司，本来是做量化私募的，20年21年大牛市运营的基金效益非常好，老总就梭哈买了10000张A100搞人工智能量化，结果碰上熊市和算法过拟合大回撤，现在看清大A本质连中性策略也不做了。当初知乎都在笑话他们投资AI步子太大扯着蛋。
结果老登开始搞算力禁运后，这些卡瞬间成了香饽饽，现在转型人工智能服务商了

qqq2142 发表于 2024-12-27 11:13

但是deep价格翻倍了啊
我还指望跑小黄油呢

—— 来自鹅球 v3.0.87-alpha

Nanachi 发表于 2024-12-27 11:13

洛拉斯发表于 2024-12-27 11:11
成本如何？

可用总余额
212.92 万
tokens
可用 tokens 根据最新输出价格预估

充值余额
¥4.25
CNY
约 212.92 万 tokens

赠送余额查看有效期
¥0.00
CNY
0 token

本月消费
¥2.49
CNY
约 284.99 万 tokens

迷路的石头 发表于 2024-12-27 11:15

中国人发表于 2024-12-27 10:21
幻方主业还是搞量化交易的

量化步子迈太大，参数过拟合，业绩回撤
结果又因为这个大步子，阴拆阳错手握了国内仅此于几个互联网大厂的算力，顺势转型AI

迷路的石头 发表于 2024-12-27 11:15

weibo.com 发表于 2024-12-27 11:07
幻方的人是不是浙大竺院派的？

浙大的很多

gnihton314 发表于 2024-12-27 11:19

迷路的石头发表于 2024-12-27 11:15
浙大的很多

不是很多，初创团队就是一帮浙大老同学攒的局

mandown 发表于 2024-12-27 11:25

泰坦失足发表于 2024-12-27 10:41
在最终测试中，Haiku 在许多基准测试中超越了 Claude 3 Opus，我们之前的旗舰模型，成本却低得多，" Anth ...

haiku是日语俳句的意思吗？

ffail 发表于 2024-12-27 11:27

Nanachi 发表于 2024-12-27 10:38
一直在用DeepSeek的API搭配沉浸式翻译看外网文章

求分享具体教程

UNICORN00 发表于 2024-12-27 11:29

在用2.5，免费，还行吧

闷吸发表于 2024-12-27 11:30

中国人发表于 2024-12-27 10:21
幻方主业还是搞量化交易的

充分说明深度学习在量化行业没有那么work

Nanachi 发表于 2024-12-27 11:33

ffail 发表于 2024-12-27 11:27
求分享具体教程

DeepSeek | 沉浸式翻译
https://immersivetranslate.com/zh-Hans/docs/services/deepseek/

沉浸式翻译官方就有指南

—— 来自鹅球 v3.3.92

overflowal 发表于 2024-12-27 11:41

洛拉斯发表于 2024-12-27 11:11
成本如何？

百万token输入1元，输出2元。2月后涨价到输入2元，输出8元。考虑到这是3.5 sonnet级别的性能，简直是击穿底线的价格

小野賢章 发表于 2024-12-27 11:48

试了一下，被回答的速度震惊了

迷路的石头 发表于 2024-12-27 11:49

闷吸发表于 2024-12-27 11:30
充分说明深度学习在量化行业没有那么work

金融行业的数据信噪比极低，搞深度学习就是给模型喂噪音，出来一堆过拟合

浅井惠 发表于 2024-12-27 13:31

最重要的是不知道v3上线后还能不能继续用v2，目前主要用来翻译小黄油感觉其实v2已经够用了，玩得多一个月估计得用上千万token，成本一下就从30升到上百了

紧那罗 发表于 2024-12-27 13:48

借帖问一下现在ASR模型有什么比openai的whisper好用或者便宜的么
这两年llm感觉发展极快价格也是猛降
语音识别还在用最老的whisper 价格也挺贵的

bl0ck 发表于 2024-12-27 13:52

xibeijian 发表于 2024-12-27 13:59

overflowal 发表于 2024-12-27 11:41
百万token输入1元，输出2元。2月后涨价到输入2元，输出8元。考虑到这是3.5 sonnet级别的性能，简直是击穿 ...

本地使用 lmstudio + GGUF模型搞翻译，可以试试吧。如果显卡内存超过 12G的话。

cfeng123 发表于 2024-12-27 14:06

我一直用他们的本地模型，算是日常小助手，还挺好用的

screeper 发表于 2024-12-27 14:09

紧那罗发表于 2024-12-27 13:48
借帖问一下现在ASR模型有什么比openai的whisper好用或者便宜的么
这两年llm感觉发展极快价格也是猛降
语音 ...

在本地跑faster-whisper，8G显存就能跑large-v3了，效果也很不错

無始無終 发表于 2024-12-27 14:16

overflowal 发表于 2024-12-27 11:01
恢复啥，这模型code能力很多benchmark比3.5 sonnet都强

至少我看的知乎上那个评测人的题，V3的编程能力和V2.5持平，不如V2 Coder

UncleDracula 发表于 2024-12-27 21:42

Nanachi 发表于 2024-12-27 11:33
DeepSeek | 沉浸式翻译
https://immersivetranslate.com/zh-Hans/docs/services/deepseek/

试了下翻译网页，速度很慢，同一个网页谷歌秒翻，请问是什么原因？

洛拉斯 发表于 2024-12-27 21:46

UncleDracula 发表于 2024-12-27 21:42
试了下翻译网页，速度很慢，同一个网页谷歌秒翻，请问是什么原因？

因为服务器ai翻译服务器响应本来就慢

谷歌块那是机翻

页: [1] 2

Stage1st's Archiver

幻方旗下的DeepSeek发布全新DeepSeek V3开源大模型