找回密码
 立即注册
搜索
查看: 10326|回复: 49

[欢乐] 还有高手?千问发布新的旗舰多模态模型Qwen2.5-VL

[复制链接]
     
发表于 2025-1-27 23:00 | 显示全部楼层 |阅读模式
本帖最后由 moekyo 于 2025-1-28 07:42 编辑

长此以往,确实像隔壁说的,不是什么史普尼克时刻,而是史普尼克时代了


不过讲真,由奢入俭难,经过Deepseek这次,如果不能对标的话就落下风了
这次过年真快乐

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 1战斗力 +1 收起 理由
黄泉川此方 + 1 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-27 23:05 | 显示全部楼层
新版的qwenvl
回复

使用道具 举报

     
发表于 2025-1-27 23:05 | 显示全部楼层
大的要来了
回复

使用道具 举报

     
发表于 2025-1-27 23:06 来自手机 | 显示全部楼层
都别睡太死,大的要来了!
回复

使用道具 举报

     
发表于 2025-1-27 23:07 | 显示全部楼层
各家AI公司多少都有一点保留的
当初QwQ只有32b我就觉得它只是一个蒸馏过的模型了。
回复

使用道具 举报

     
发表于 2025-1-27 23:08 来自手机 | 显示全部楼层
明天要放假了,有活别过完年再整

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

发表于 2025-1-27 23:09 来自手机 | 显示全部楼层
估计要咬打火机了
回复

使用道具 举报

发表于 2025-1-27 23:11 来自手机 | 显示全部楼层
IT'S HAPPENING

— from S1 Next Goose v3.3.96
回复

使用道具 举报

     
发表于 2025-1-27 23:12 | 显示全部楼层
千问APP今天特别慢,不知道是不是只有我这样。
回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 23:14 | 显示全部楼层
Tomorrow_D 发表于 2025-1-27 23:12
千问APP今天特别慢,不知道是不是只有我这样。

都一样的,用的人太多了
回复

使用道具 举报

     
发表于 2025-1-27 23:17 | 显示全部楼层
moekyo 发表于 2025-1-27 23:14
都一样的,用的人太多了

一个字一个字地蹦呢,好几分钟了
回复

使用道具 举报

发表于 2025-1-27 23:19 | 显示全部楼层
还有40分钟可以咬个打火机
回复

使用道具 举报

     
发表于 2025-1-27 23:21 | 显示全部楼层
有一说一,通义千问确实极大地改善了我对阿里的印象。

希望并且情感上相信国内的几家头部的大模型最终都能跑出来。百度除外。

评分

参与人数 1战斗力 +1 收起 理由
笨拙的机器人 + 1

查看全部评分

回复

使用道具 举报

发表于 2025-1-27 23:33 | 显示全部楼层
同行者
спу́тник
回复

使用道具 举报

     
 楼主| 发表于 2025-1-27 23:34 | 显示全部楼层
本帖最后由 moekyo 于 2025-1-28 00:11 编辑
Tomorrow_D 发表于 2025-1-27 23:17
一个字一个字地蹦呢,好几分钟了

感觉现在是先确保网页端了,我用app很慢,甚至还报错,但是网页版还行,当我没说,网页也基本用不了了。。。

评分

参与人数 1战斗力 +1 收起 理由
Tomorrow_D + 1 多谢!

查看全部评分

回复

使用道具 举报

发表于 2025-1-27 23:59 | 显示全部楼层
就1分钟了,真有活还是咬打火机?
回复

使用道具 举报

     
发表于 2025-1-28 00:02 | 显示全部楼层
Alce79 发表于 2025-1-27 23:59
就1分钟了,真有活还是咬打火机?

推特发的明显是给美西时间的人看的,还早了去了。
回复

使用道具 举报

     
发表于 2025-1-28 02:18 来自手机 | 显示全部楼层
deepseek:千问,在你整活之前,我已经整了。
回复

使用道具 举报

发表于 2025-1-28 02:28 | 显示全部楼层
happy Chinese new years MotherFocker
回复

使用道具 举报

     
发表于 2025-1-28 08:49 | 显示全部楼层
我真是醉了,但凡到HF上看下呢,Image-Text-to-Text本来就是国内大模型的强势领域啊,去年就是这样了
真的是,好多地方国内本来就是领先的,结果直到R1出来了,大家才反应过来“原来国内是领先的啊”

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-1-28 09:32 来自手机 | 显示全部楼层
左边来了个Qwen 2 vl 右边来了个qwen 2.5,上面飘着个qwen-deepseek-r1-distilled 地上躺着个QWQ,拿镜子一看,哦,我是QVQ啊
回复

使用道具 举报

     
发表于 2025-1-28 09:32 来自手机 | 显示全部楼层
qvq刚出在hf试用就很强了,看图说话能力一流
回复

使用道具 举报

     
发表于 2025-1-28 09:34 来自手机 | 显示全部楼层
注册deekseek时验证码要点击识图是否人类,心想这东西是不是ai自己就能绕过去了
回复

使用道具 举报

     
发表于 2025-1-28 09:38 来自手机 | 显示全部楼层
66367749 发表于 2025-1-28 09:34
注册deekseek时验证码要点击识图是否人类,心想这东西是不是ai自己就能绕过去了 ...

我问了d老师,他说不知道🙈
回复

使用道具 举报

     
发表于 2025-1-28 09:49 来自手机 | 显示全部楼层
去年下半年开始心血来潮自己倒腾过一段,印象中从qwen2和deepseek2出来之后社区基本上reddit几个localllm的社区就一直在吹了,用中文的时候体感更是比gemini和llama好一截,只是当时谁都没想到这么快居然真的开始冲击到gpt和claude了。
回复

使用道具 举报

     
发表于 2025-1-28 09:55 | 显示全部楼层
如果你之前去过阿里的大模型广场,你就会发现他们有林林总总几十个大模型,什么pro max VL plus utral
主打一个好词全占了
阿里的模型最出圈的一次是qwen72b开源模型,出圈的理由和deepseek一样,上了大模型排行榜,只不过qwen是入榜,deepseek是登顶
大模型这块还得实力说话,光发布不代表什么
回复

使用道具 举报

     
发表于 2025-1-28 10:06 | 显示全部楼层
無始無終 发表于 2025-1-28 08:49
我真是醉了,但凡到HF上看下呢,Image-Text-to-Text本来就是国内大模型的强势领域啊,去年就是这样了
真的 ...

早说了国内企业不会吹

sora这个垃圾玩意儿没出来都能吹成改变世界了

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2025-1-28 10:07 | 显示全部楼层
一直没搞懂hf怎么白嫖API,只能希望groq会上了

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2025-1-28 11:10 来自手机 | 显示全部楼层
Tomorrow_D 发表于 2025-1-27 23:21
有一说一,通义千问确实极大地改善了我对阿里的印象。

希望并且情感上相信国内的几家头部的大模型最终都能 ...

看字节腾讯会不会被逼着开源

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-28 11:19 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-28 11:21 编辑
pf67 发表于 2025-1-28 11:10
看字节腾讯会不会被逼着开源

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4 ...

https://github.com/Tencent/Tence ... ?tab=readme-ov-file
腾讯的非推理模型的常规LLM已经在这里了。是我,是我先,明明都是我先来的,对标SOTA也好,MOE也好。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-28 11:27 | 显示全部楼层
Qwen一直很强啊,没出圈而已。之前一直是开源大模型第一的水平。

现状来说是闭源三神:chatGPT,claude,gemini 和 开源三杰:Qwen,deepseek,Llama。只是这次deepseek太强太出圈了。
回复

使用道具 举报

     
发表于 2025-1-28 11:34 | 显示全部楼层
大韩李明博 发表于 2025-1-28 11:27
Qwen一直很强啊,没出圈而已。之前一直是开源大模型第一的水平。

现状来说是闭源三神:chatGPT,claude,g ...

我deepseek、qwen大好男儿竟与llama齐名
说真的llama也就占个开源了,llama3.1一个405b参数量的模型被qwen 2.5一个72b的爆锤,中文能力更是差得远
回复

使用道具 举报

     
发表于 2025-1-28 11:38 | 显示全部楼层
大韩李明博 发表于 2025-1-28 11:27
Qwen一直很强啊,没出圈而已。之前一直是开源大模型第一的水平。

现状来说是闭源三神:chatGPT,claude,g ...

之前对deepseek的理解一直都是:那个做很大MOE模型的家伙,API非常非常便宜(第一刷到就是人夸这个公司API太便宜了),开源的模型部署起来却很麻烦。
回复

使用道具 举报

     
发表于 2025-1-28 13:02 | 显示全部楼层
https://chat.qwenlm.ai/

qwen的网站已经光速上线了Qwen2.5-VL-72B-Instruct. 感兴趣可以试下。


回复

使用道具 举报

     
发表于 2025-1-28 13:13 来自手机 | 显示全部楼层
meta说llama3.3的70b模型能力可以媲美原来的405b模型。
qwen也不是所有模型都开源,闭源的模型qwen plus据说和开源的qwen2.5 72b能力差不多甚至更强,但是api调用成本低很多,应该是moe。
豆包前几天新发布的模型doubao 1.5 pro跑分是比deepseek v3强的。
腾讯字节这些公司水平应该也不差,但是又不开源,进度也不怎么领先。
deepseek 是r1这么强直接打平O1才出圈的

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-28 13:18 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-28 13:19 编辑
scg2017 发表于 2025-1-28 13:13
meta说llama3.3的70b模型能力可以媲美原来的405b模型。
qwen也不是所有模型都开源,闭源的模型qwen plus据 ...

还有就是R1那个RL就行在LLM领域过于惊世骇俗,打破了OpenAI释放的无限月读。要是按烂大街的网红论文命名思路,应该是 RL is all your need。
回复

使用道具 举报

     
发表于 2025-1-28 13:48 | 显示全部楼层
本帖最后由 無始無終 于 2025-1-28 13:50 编辑
scg2017 发表于 2025-1-28 13:13
meta说llama3.3的70b模型能力可以媲美原来的405b模型。
qwen也不是所有模型都开源,闭源的模型qwen plus据 ...

在当前这个时间点,腾讯的大模型是真不行,跟字节阿里不是一个级别的,只能跟一年多没大更新的百度文心4.0坐一桌

—— 来自 S1Fun
回复

使用道具 举报

发表于 2025-1-28 13:51 来自手机 | 显示全部楼层
这个是用什么卡训练的

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
 楼主| 发表于 2025-1-28 14:59 | 显示全部楼层
魔法师lain 发表于 2025-1-28 13:51
这个是用什么卡训练的

—— 来自 鹅球 v3.3.96


我搜到了这个,https://uqtg4okxsd.feishu.cn/wiki/HgYJwtW7jiarsfkt9w2cAg9inla
问: 阿里目前AI算力储备情况?

答: 阿里国内AI算力储备最多,然后以次为: 字节、百度、腾讯。
阿里云现在云上至少应该有上万片的A100 了,整体至少能够达到10万片,集团的话应该会是阿里云5倍的这样的一个量级。达摩院、天猫、淘宝的算力资源都是集团内资源使用。阿里云这块今年增速会有30-50%。有个别8-9个客户会有复现GPT的需求,提出了大规模AI算力需求, 我们以云的方式给。百度年初紧急下单3000台8卡的A800服务器,2.4万张卡,我预计全年百度会有A-H800共5万张的需求。阿里云需求不会这么多,去年采购2万多,今年可能采购量会下降。预计云上就1万张左右,其中6000张是H800。此外阿里云也会用到平头哥这种自研的,每年大概3000张去采购。从除此之外,阿里云也会选择国产芯片的一家,看是否在云上商业化。

问: 阿里云采购的哪家国产芯片, 为何选择?

答: 选择的是寒武纪MLU370, 主要是性能基本过关(A100的60-70%), 检测合格, 态度积极,愿意对接, 服务贴身。今年会采购大概2000张的水平,主要用在一些CV等小模型的训练或推理上。寒武纪MLU 370没有供货的风险,后续的MLU590也许就会有了,。对于壁仞等,宣传上不错, 但拿不到实测的卡, 流片大约都是今年4-6月,量产半年后。而且壁仞4月要流片的卡,不能支持FP64,互通带宽不支持8卡,支持最多4卡,采用NV bridge方式, 达到180GB水平。 8卡用PCIe方式只能做到32GB,弱点显著。针对海光,我们技术人员也有看好的, 参数也足够支撑训练,但可能由于海光因产能等因素, 可能更侧重满足国有算力那边的需求。同时,集团层面是否对接,不清楚。

问: 海光为何会不给样片测试? 出于什么考虑? 海光DCU的量应该是够的。

答:海光的话, 我们确实没有拿到他的样卡,就是不知道为什么, 我们也得知很多国产化的订单他们都中标且供货,但我们跟他对接的时候,好像反正是各种各样的问题, 就是没有测起来。我们内部其实也有一些同学是支持海光深算1号的, 但是一方面当时寒武纪还没被拉入黑名单,而海光被拉入了黑名单,然后我们其实也有一定的担心,就是在阿里云上了之后, 可能会给自己引火烧身,所以这方面也是我们考量的一个因素。最后反正就没采海光后期的供货,可能也会成问题,这也是我们考量的原因之一。不知道他们是手头是不是比较重要的这种国产化的项目,或者订单的交付还是没有人力来支持。我们也不是特别知道,可能他们团队也就几百个人吧,就是没有这个时间周期。总体上,在其他国产AI芯片竞争上, 海光好像不是很在意这个云上的这个市场。
回复

使用道具 举报

     
发表于 2025-1-28 15:04 | 显示全部楼层
moekyo 发表于 2025-1-28 14:59
我搜到了这个,https://uqtg4okxsd.feishu.cn/wiki/HgYJwtW7jiarsfkt9w2cAg9inla

gpt3.5时代的老文了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-31 07:21 , Processed in 0.141811 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表