幻方旗下的DeepSeek发布全新DeepSeek V3开源大模型 - 第2页 - 卓明谷 - Stage1st

Van夫膜开 发表于 2024-12-27 22:10

看看同期的清华，字节的发展。

这群论文制霸学阀和“顶级”高校弟子组成的论文大神专业队伍，做出来的模型，真的是一言难尽，纯纯浪费电力。

幻方能从一堆论文天才和顶会霸王导师里面选了纯国产的几位大牛搞出deepseek这个模型，这个眼光是真没得说。

UncleDracula 发表于 2024-12-27 22:11

洛拉斯发表于 2024-12-27 21:46
因为服务器ai翻译服务器响应本来就慢

谷歌块那是机翻

懂了，感谢

凉良发表于 2024-12-27 22:16

试用了下翻译玩了会酒馆感觉不错

行星减速器MK2 发表于 2024-12-27 22:51

用来给酒馆和日用coder的，酒馆温度高点用个好预设真打平克劳德，而且价格低所以roll完全不心疼

—— 来自 S1Fun

大阪黑鸡 发表于 2024-12-27 22:53

takitaki 发表于 2024-12-27 22:53

自带的"深度思考"反而会让ai变成不听人话的智障，不过真的很好用。

overflowal 发表于 2024-12-27 22:54

takitaki 发表于 2024-12-27 22:53
自带的"深度思考"反而会让ai变成不听人话的智障，不过真的很好用。

深度思考是另一个模型在回答，r1-lite

—— 来自 Xiaomi 23049RAD8C, Android 14上的 S1Next-鹅版 v2.5.2-play

陈八尺 发表于 2024-12-27 22:55

这价格涨得有点猛啊，看来要提前多充点。

kouym 发表于 2024-12-27 23:01

之前是真便宜看了眼就算涨价了还是很便宜

kouym 发表于 2024-12-27 23:05

浅井惠发表于 2024-12-27 13:31
最重要的是不知道v3上线后还能不能继续用v2，目前主要用来翻译小黄油感觉其实v2已经够用了，玩得多一个月估 ...

看公告今天已经换v3了应该是没有v2对外的接口了
原来黄油这么大的文字量吗

笨拙的机器人 发表于 2024-12-27 23:06

闷吸发表于 2024-12-27 11:30
充分说明深度学习在量化行业没有那么work

因为股价不太是一个自回归系统，用transformer直接预测next token从建模角度是不合理的。用无监督范式呢，建模方式倒是合理了，但是样本量需求量更大，要大好几个数量级才能训出来，也不容易啦

Rachalgepa 发表于 2024-12-28 00:35

宣传上有功夫，meta当时有成熟的fp8驱动吗？好意思跟人家比训练时间。

kozalak 发表于 2024-12-28 00:50

有大佬测过翻译和4o比差别大吗

—— 来自鹅球 v3.1.88.3

页: 1 [2]

Stage1st's Archiver