幻方旗下的DeepSeek发布全新DeepSeek V3开源大模型
https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ总结:超过600B参数的MoE模型,在各种测试中和sonnet媲美,不少测试中都超过了sonnet和4o。推理速度大幅度提升
X上讨论的热火朝天,不仅仅是因为这是第一个真正达到闭源商业模型水平的开源模型,
还有他们只用了2000块H800,训练了两个月,大概550万美金的训练成本,和友商动辄上亿的训练成本相比显得友商非常小丑
同时api的费用就算涨价了也远远低于友商。
这也太牛逼了只花550W,3.5sonnet的文字处理能力已经非常强了 土五老师说的没错,美国就是人种不行,不然你无法解释Meta和XAI花了那么多钱屯了那么多卡,最后都干啥了 本帖最后由 hencechen 于 2024-12-27 10:23 编辑
qratosones1337 发表于 2024-12-27 10:16
土五老师说的没错,美国就是人种不行,不然你无法解释Meta和XAI花了那么多钱屯了那么多卡,最后都干啥了 ...
meta新出来的Llama那个版本还可以。我觉得现在有种’大模型倦怠“。大家数据指标上都在刷新刷新,今天你长文本解读能力提高15%,明天我在aime上可以拿高分……看上去你好我也好,但是真部署起来开始推理,又感觉都差球不多,拉不开档次的差距。
感觉就像功能机时代的手机,诺基亚爱立信moto今天你出一款,明天我出一款,反正都是你提高了续航、我提高了喇叭音量,竞争了3、5年回头一看,还是那个鸟样……亟需要一款iPhone级别的产品来降维打击,真正”教育“市场,可惜现在看起来最有希望的chatGPT也没做到
hencechen 发表于 2024-12-27 10:17
meta新出来的Llama那个版本还可以。我觉得现在有种’大模型倦怠“。大家数据指标上都在刷新刷新,看上去你 ...
Meta的卡是阿里的五到六倍,然后LLama现在也就是个跟Qwen有来有回的水平,长链推理方面也没啥动静 幻方主业还是搞量化交易的 另外这次首发上了NPU推理,看来DeepSeek现在也是华为KA客户了 Sonnet不是已经被自己啥Haiku超越了吗。看了下就是比Qwen 2.5 72b强些的水平(但是400b)。现在最需要的还是一个能自我反思的长思考树的模型,类似 O1 Pro mode, 但是准确性需要提升。
前略,消失的盘古大模型5.0 泰坦失足 发表于 2024-12-27 10:30
Sonnet不是已经被自己啥Haiku超越了吗。看了下就是比Qwen 2.5 72b强些的水平(但是400b)。现在最需要的还 ...
你搞反了吧,Haiku是小号模型,Sonnet才是中号,现在A社对外提供服务的最好模型就是Sonnet 3.5 一直在用DeepSeek的API搭配沉浸式翻译看外网文章 qratosones1337 发表于 2024-12-27 10:34
你搞反了吧,Haiku是小号模型,Sonnet才是中号,现在A社对外提供服务的最好模型就是Sonnet 3.5 ...
在最终测试中,Haiku 在许多基准测试中超越了 Claude 3 Opus,我们之前的旗舰模型,成本却低得多," Anthropic 在 X 上写道。"因此,我们提高了 Claude 3.5 Haiku 的定价,以反映其智能的提升。
记错了,Claude的命名比OpenAI还抽象 啥时候代码能力能恢复到V2.5 Coder的水平
—— 来自 S1Fun 無始無終 发表于 2024-12-27 10:56
啥时候代码能力能恢复到V2.5 Coder的水平
—— 来自 S1Fun
恢复啥,这模型code能力很多benchmark比3.5 sonnet都强 泰坦失足 发表于 2024-12-27 10:41
在最终测试中,Haiku 在许多基准测试中超越了 Claude 3 Opus,我们之前的旗舰模型,成本却低得多," Anth ...
理论上Claude 3.5这一代还有超大杯,但现在没有对外开放,目前开放的最好的就是3.5 Sonnet
幻方的人是不是浙大竺院派的? Nanachi 发表于 2024-12-27 10:38
一直在用DeepSeek的API搭配沉浸式翻译看外网文章
成本如何? 洛拉斯 发表于 2024-12-27 11:11
成本如何?
GPT-4o的百分之一
DeepSeek最大的特点就是价格极其便宜
幻方这家神奇的公司,本来是做量化私募的,20年21年大牛市运营的基金效益非常好,老总就梭哈买了10000张A100搞人工智能量化,结果碰上熊市和算法过拟合大回撤,现在看清大A本质连中性策略也不做了。当初知乎都在笑话他们投资AI步子太大扯着蛋。
结果老登开始搞算力禁运后,这些卡瞬间成了香饽饽,现在转型人工智能服务商了 但是deep价格翻倍了啊
我还指望跑小黄油呢
—— 来自 鹅球 v3.0.87-alpha 洛拉斯 发表于 2024-12-27 11:11
成本如何?
可用总余额
212.92 万
tokens
可用 tokens 根据最新输出价格预估
充值余额
¥4.25
CNY
约 212.92 万 tokens
赠送余额查看有效期
¥0.00
CNY
0 token
本月消费
¥2.49
CNY
约 284.99 万 tokens 中国人 发表于 2024-12-27 10:21
幻方主业还是搞量化交易的
量化步子迈太大,参数过拟合,业绩回撤
结果又因为这个大步子,阴拆阳错手握了国内仅此于几个互联网大厂的算力,顺势转型AI
weibo.com 发表于 2024-12-27 11:07
幻方的人是不是浙大竺院派的?
浙大的很多 迷路的石头 发表于 2024-12-27 11:15
浙大的很多
不是很多,初创团队就是一帮浙大老同学攒的局 泰坦失足 发表于 2024-12-27 10:41
在最终测试中,Haiku 在许多基准测试中超越了 Claude 3 Opus,我们之前的旗舰模型,成本却低得多," Anth ...
haiku是日语俳句的意思吗? Nanachi 发表于 2024-12-27 10:38
一直在用DeepSeek的API搭配沉浸式翻译看外网文章
求分享具体教程 在用2.5,免费,还行吧 中国人 发表于 2024-12-27 10:21
幻方主业还是搞量化交易的
充分说明深度学习在量化行业没有那么work ffail 发表于 2024-12-27 11:27
求分享具体教程
DeepSeek | 沉浸式翻译
https://immersivetranslate.com/zh-Hans/docs/services/deepseek/
沉浸式翻译官方就有指南
—— 来自 鹅球 v3.3.92 洛拉斯 发表于 2024-12-27 11:11
成本如何?
百万token输入1元,输出2元。2月后涨价到输入2元,输出8元。考虑到这是3.5 sonnet级别的性能,简直是击穿底线的价格 试了一下,被回答的速度震惊了 闷吸 发表于 2024-12-27 11:30
充分说明深度学习在量化行业没有那么work
金融行业的数据信噪比极低,搞深度学习就是给模型喂噪音,出来一堆过拟合 最重要的是不知道v3上线后还能不能继续用v2,目前主要用来翻译小黄油感觉其实v2已经够用了,玩得多一个月估计得用上千万token,成本一下就从30升到上百了 借帖问一下现在ASR模型有什么比openai的whisper好用或者便宜的么
这两年llm感觉发展极快 价格也是猛降
语音识别还在用最老的whisper 价格也挺贵的 overflowal 发表于 2024-12-27 11:41
百万token输入1元,输出2元。2月后涨价到输入2元,输出8元。考虑到这是3.5 sonnet级别的性能,简直是击穿 ...
本地使用 lmstudio + GGUF模型搞翻译,可以试试吧。如果显卡内存超过 12G的话。 我一直用他们的本地模型,算是日常小助手,还挺好用的
紧那罗 发表于 2024-12-27 13:48
借帖问一下现在ASR模型有什么比openai的whisper好用或者便宜的么
这两年llm感觉发展极快 价格也是猛降
语音 ...
在本地跑faster-whisper,8G显存就能跑large-v3了,效果也很不错 overflowal 发表于 2024-12-27 11:01
恢复啥,这模型code能力很多benchmark比3.5 sonnet都强
至少我看的知乎上那个评测人的题,V3的编程能力和V2.5持平,不如V2 Coder Nanachi 发表于 2024-12-27 11:33
DeepSeek | 沉浸式翻译
https://immersivetranslate.com/zh-Hans/docs/services/deepseek/
试了下翻译网页,速度很慢,同一个网页谷歌秒翻,请问是什么原因? UncleDracula 发表于 2024-12-27 21:42
试了下翻译网页,速度很慢,同一个网页谷歌秒翻,请问是什么原因?
因为服务器ai翻译服务器响应本来就慢
谷歌块那是机翻
页:
[1]
2