找回密码
 立即注册
搜索
楼主: overflowal

[科技] 华为云和硅基流动已经把deepseek V3和R1移植到昇腾平台

[复制链接]
     
发表于 2025-2-8 15:28 | 显示全部楼层
传火
https://cloud.siliconflow.cn/i/8Y0F0QF2

—— 来自 S1Fun
回复

使用道具 举报

发表于 2025-2-8 15:35 | 显示全部楼层
sellboy 发表于 2025-2-1 15:47
可能一年后的蒸馏后的72b版本就能达到现在671b相当水平,这个就可以在STX halo的128GB一体机部署了,理论 ...

低参数模型通过蒸馏能达到高参数模型的效果实在有些反逻辑
回复

使用道具 举报

     
发表于 2025-2-8 15:45 | 显示全部楼层
https://cloud.siliconflow.cn/i/FGBheDJl


话说今天特别卡,是我网速的问题吗
回复

使用道具 举报

     
发表于 2025-2-8 17:00 | 显示全部楼层
希德尼娅 发表于 2025-2-8 15:35
低参数模型通过蒸馏能达到高参数模型的效果实在有些反逻辑

高密度小模型反杀参数更大的模型是过去一年的主旋律
回复

使用道具 举报

     
发表于 2025-2-8 17:05 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-8 17:07 | 显示全部楼层
希德尼娅 发表于 2025-2-8 15:35
低参数模型通过蒸馏能达到高参数模型的效果实在有些反逻辑

不是刚出现了50美元训练成本的S1-32b在Math500、AIME24、GPQA,3个科目上打平了R1和o1么。
回复

使用道具 举报

     
发表于 2025-2-8 17:31 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-8 19:41 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-8 21:37 | 显示全部楼层
回复

使用道具 举报

发表于 2025-2-9 11:05 来自手机 | 显示全部楼层
qratosones1337 发表于 2025-2-8 17:00
高密度小模型反杀参数更大的模型是过去一年的主旋律

但是ds的671b不就打败了o1的300b,说明参数少还是不行吧
回复

使用道具 举报

     
发表于 2025-2-9 11:36 来自手机 | 显示全部楼层
希德尼娅 发表于 2025-2-8 15:35
低参数模型通过蒸馏能达到高参数模型的效果实在有些反逻辑

并不吧,按照微软的论文透露,openai 和 claude 参数量也没有巨高,数据本身质量也是一个重要变量
回复

使用道具 举报

     
发表于 2025-2-9 11:38 来自手机 | 显示全部楼层
本帖最后由 爱莉希雅 于 2025-2-9 15:28 编辑

https://cloud.siliconflow.cn/i/aOP5MMkm点点
回复

使用道具 举报

     
发表于 2025-2-9 14:50 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-9 14:56 | 显示全部楼层
希德尼娅 发表于 2025-2-9 11:05
但是ds的671b不就打败了o1的300b,说明参数少还是不行吧

o1参数多少现在还没有定论,另外DSV3作为MoE模型每次激活参数只有33B
回复

使用道具 举报

     
发表于 2025-2-9 15:05 来自手机 | 显示全部楼层
希德尼娅 发表于 2025-2-9 11:05
但是ds的671b不就打败了o1的300b,说明参数少还是不行吧

作为知名CloseAI,OAI早就停止公布参数量了,有多少都靠猜。
回复

使用道具 举报

发表于 2025-2-9 15:13 | 显示全部楼层
希德尼娅 发表于 2025-2-9 11:05
但是ds的671b不就打败了o1的300b,说明参数少还是不行吧

首先没人知道o1参数量,但是有传言是1T的大模型(基于GPT-4)

另外o1是dense的,r1是sparse的moe

别看r1参数量671b,激活参数量只有33b
回复

使用道具 举报

发表于 2025-2-9 16:12 | 显示全部楼层
传个火:https://cloud.siliconflow.cn/i/Fm5CEXMb
邀请码Fm5CEXMb
回复

使用道具 举报

     
发表于 2025-2-9 19:26 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-9 20:28 来自手机 | 显示全部楼层
已用楼内邀请码注册,传个火
https://cloud.siliconflow.cn/i/gEn14WDG
邀请码:gEn14WDG

ds本体现在好像限制了一段时间内的提问次数,转投这边了
回复

使用道具 举报

     
发表于 2025-2-9 20:51 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-9 21:18 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-9 21:24 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-9 21:31 来自手机 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-9 21:32 | 显示全部楼层
连接 SiliconFlow API 失败。这通常是由于配置错误或 SiliconFlow API 账户问题。请检查您的设置并验证您的 SiliconFlow API 账户状态。
这是咋回事,用chatbox配置的,昨天用的好好的,今天就出现这个提示
回复

使用道具 举报

     
发表于 2025-2-9 21:48 | 显示全部楼层
siliconflow的r1模型也卡的几乎用不了。,,哎
回复

使用道具 举报

     
发表于 2025-2-10 00:26 来自手机 | 显示全部楼层
传火
https://cloud.siliconflow.cn/i/T4MkKkyW
邀请码:T4MkKkyW
回复

使用道具 举报

     
发表于 2025-2-10 00:40 | 显示全部楼层
回复

使用道具 举报

发表于 2025-2-10 00:53 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-10 01:02 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-10 08:27 | 显示全部楼层
我用赠送费用的那个普通版r1经常返回504,是不是用pro版会好点,用v3倒是没怎么出过504超时

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-2-10 11:29 来自手机 | 显示全部楼层
[url=]https://cloud.siliconflow.cn/i/6ZwBZ1Wz[/url]

传火
回复

使用道具 举报

     
发表于 2025-2-10 16:32 | 显示全部楼层
话说都是二道贩子,openrouter和硅基流动比起来哪个好?我试了下感觉openrouter 要快好多,而且感觉也便宜些?
回复

使用道具 举报

     
发表于 2025-2-10 17:50 | 显示全部楼层
https://cloud.siliconflow.cn/i/UbFOJM5v
没法充值ds了,注册了硅基先用着。传火
回复

使用道具 举报

     
发表于 2025-2-10 17:57 | 显示全部楼层
现在这吊样,怕不是要等国产算力卡大规模普及才能好起来了,等之后发布新东西,只会更加雪上加霜
回复

使用道具 举报

     
发表于 2025-2-10 18:22 来自手机 | 显示全部楼层
原生鸿蒙版小艺App上架的DeepSeek-R1智能体升级为正式版,新增“联网搜索”功能


试了下确实可以
回复

使用道具 举报

发表于 2025-2-10 18:24 | 显示全部楼层
chinesepy 发表于 2025-2-10 16:32
话说都是二道贩子,openrouter和硅基流动比起来哪个好?我试了下感觉openrouter 要快好多,而且感觉也便宜 ...

openrouter 上部署的都有问题,比较弱智
回复

使用道具 举报

     
发表于 2025-2-10 18:37 | 显示全部楼层
回复

使用道具 举报

发表于 2025-2-10 21:17 | 显示全部楼层
回复

使用道具 举报

     
发表于 2025-2-10 21:29 | 显示全部楼层
2017.05.04 发表于 2025-2-10 18:22
原生鸿蒙版小艺App上架的DeepSeek-R1智能体升级为正式版,新增“联网搜索”功能

自家这块有项业务的是真好。
回复

使用道具 举报

     
发表于 2025-2-11 00:42 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-4 07:37 , Processed in 0.179256 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表