阿里 Qwen2 超越 llama3 登顶抱抱脸，成为现在最强的开源大模型

ycjiang1337 · 发表于 2024-6-8 02:26

本帖最后由 ycjiang1337 于 2024-6-8 02:28 编辑

风怒编辑

s1234y · 发表于 2024-6-8 02:28

ycjiang1337 发表于 2024-6-8 02:16
你正好说反了，互联网大厂有合规要求反而不好买N卡。LLM现在是训练比推理简单，因为基于Paged Attention的 ...

我了解互联网公司里边就美团买了910b，目前没见到他们训出来啥东西，有靠谱模型的公司里边智谱和讯飞和910b适配的还行。qwen1.5如果不用华为内部mindie rc2根本拉不起来推理，就算拉起来我手里还一大堆异常prompt华为没解决。ascend device plugin也有大坑。我手里就有推理精度下降的石锤证据，华为都认你不认

整体看下来ascend工具链问题很多，还得再发现2-3年。

ycjiang1337 · 发表于 2024-6-8 02:29

本帖最后由 ycjiang1337 于 2024-6-8 03:04 编辑

s1234y 发表于 2024-6-8 02:28
我了解互联网公司里边就美团买了910b，目前没见到他们训出来啥东西，有靠谱模型的公司里边智谱和讯飞和91 ...

首先你消息完全不灵通，去年10月华为来宣讲的时候提到的标杆互联网客户就至少有美团腾讯百度这仨，百度用910B给文心一言App的后端跑推理。美团之所以没有模型是因为他们竟然拿这玩意跑CTR任务，腾讯也一样，还养了一大堆人手搓Ascend C算子。

在此基础上，我司不是这上述三家其中之一。从目前能看到的资源组数量预估，整个集团已经实装的起码有几千卡910B，跟外界传言的万卡集群差不多对得上。

你说推理精度存在问题，这个我信，但问题是推理并不能跟训练划等号——你看到Mind IE有问题不代表训练也有问题，因为大模型推理需要量化和Paged Attention，这部分手搓实现有bug正常（vllm就是手搓的CUDA算子）。反而训练的pytorch算子到现在已经基本上打磨得差不多了。现在我手头实锤的训练负载是两类，一类是我自己直接用单卡开发机加torch2.1和公开版torch-npu训的BERT和大模型LoRA，跟H800上训练的结果完全一样；另一类是用算法中台自己做的框架搞的多卡持续预训练，同样也没见到收敛性问题，目前训出来的内部版千问14B已经投入使用了，评测结果完全符合预期。现在我们这边在给算法中台提需求，在Q3结束前解决多机多卡模型并行问题。

mimighost · 发表于 2024-6-8 02:41

单卡和集群不是一个东西，集群跑飞的情况可太多了

甚至用a100跑的通的，a800就跑不通，这两个的计算核心应该是完全一样的，这两天知乎就有帖子聊这个东西

ycjiang1337 · 发表于 2024-6-8 02:45

本帖最后由 ycjiang1337 于 2024-6-8 02:48 编辑

mimighost 发表于 2024-6-8 02:41
单卡和集群不是一个东西，集群跑飞的情况可太多了

甚至用a100跑的通的，a800就跑不通，这两个的计算核心应 ...

然而我们同样也跑通了16卡训练，持续预训练训出来的模型已经通过评测了。更大规模的多机多卡目前张量并行确实存在问题，中台承诺的预期是Q3解决问题。

另外大部分业务需要的模型都可以通过一个个零散的8-16卡分组处理，这一来一回就能放出来很多A100，极端情况下把所有A100集中起来使用都足够解决很多问题了。

诚司 · 发表于 2024-6-8 02:48

美团、讯飞、京东、百度至少是都用了昇腾910b的
不过qwen，当时华为的人问了我一个奇怪的问题，为什么要用qwen？我说除了qwen（那时候还没command R+）还有几个开源的参数多的中英文都支持好的大模型？大概确实没适配吧

ycjiang1337 · 发表于 2024-6-8 02:51

本帖最后由 ycjiang1337 于 2024-6-8 03:00 编辑

诚司发表于 2024-6-8 02:48
美团、讯飞、京东、百度至少是都用了昇腾910b的
不过qwen，当时华为的人问了我一个奇怪的问题，为什么要用q ...

千问确实非常好用，电商业务上的典型任务，大尺寸的千问甚至能跟GPT-4掰掰手腕。之前我们打比赛，KDD Cup第一阶段的测试集（英文电商问题）用千问1.5-7B性能压倒性领先于所有同尺寸模型，包括LLama3-8B。反正实在不行的话离线跑推理任务，用Transformers强行运行也不是不能跑……

目前实际结果跟预期完全相反，现在我们是910B训练，然后用N卡部署……部署的卡现在用的是4090，之后估计L20到了之后要换过去。不得不说L20真是便宜大碗，老黄难得的良心。

诚司 · 发表于 2024-6-8 02:53

刷了一下Chatbot Arena，发现qwen2低于预期的原因是中英之外的语言部分没上榜，感觉是Chatbot Arena对战里选模型的问题，因为qwen1.5排名都在那里，甚至llama2都在那里……
中英文都比command R+强，最后因为多语言没上榜导致在command R+后面……

cmd R+的多语言问题其实还挺大的，用中文提问回答能力比英文弱多了。这很正常，不过qwen从一开始就是中英双母语水平的，虽然有英文prompt蹦出来random Chinese token的问题，不过能力还是中英差不多（虽然可能是中英都烂），cmd R+就可能是英文烂中文更烂……

ycjiang1337 · 发表于 2024-6-8 02:57

本帖最后由 ycjiang1337 于 2024-6-8 02:59 编辑

诚司发表于 2024-6-8 02:53
刷了一下Chatbot Arena，发现qwen2低于预期的原因是中英之外的语言部分没上榜，感觉是Chatbot Arena对战里 ...

我感觉qwen的跨语言理解应该不是问题，KDD Cup那个英文电商测试集用qwen1.5-7B直接Zero-shot提交就能大比分吊打大多数其它模型……连LLama3-8B都被吊打了。

当时我们参赛的时候优化的方向甚至干脆就是如何在有限空间和时间限制里塞进去更大的qwen1.5……

ycjiang1337 · 发表于 2024-6-8 03:03

本帖最后由 ycjiang1337 于 2024-6-8 03:06 编辑

另外说到推理，最近算法中台在向我们推销他们的框架，号称910B能实现相当于A800-vllm方案的1.5倍性能。从他们的描述来看那个框架应该是基于MindIE的，但是里面的算子是他们自己写的，没有用华为的。目前我们部门暂时没有这么大的推理需求，所以还没接触。

估计我们现在没有遇到大坑可能也是因为很多算子都没有用华为的——这么算下来如果能得到反馈的话昇腾的生态要进步还是挺容易的。

诚司 · 发表于 2024-6-8 03:09

本帖最后由诚司于 2024-6-8 03:11 编辑

naiveyan 发表于 2024-6-7 19:44
阿里做得最好的一点是愿意反哺开源环境，国际上给流行的开源库都交了代码，墙内搞了魔搭和各种docker/pypi ...

qwen1时代就有qwen VL和qwen audio，估计也就是整合重新练一下，audio还好，VL按现在的开放程度，不会放太好的模型出来，qwen VL max和开源版的水平就是天差地别……
更期待的还是gpt-o那种低时延的支持audio模态实时输出的模型，现在我用的tts，要么时延大要么语气生硬，毕竟vits模型是要把text全输入才能输出的……gpt-o这种活感觉不难做但是还是适合训大模型的人做
明明低时延聊天应该是一看就商业价值满满的路线，不知道为什么没人做……

s1234y · 发表于 2024-6-8 03:24

ycjiang1337 发表于 2024-6-8 02:29
首先你消息完全不灵通，去年10月华为来宣讲的时候提到的标杆互联网客户就至少有美团腾讯百度这仨，百度用9 ...

我们用客户的910b跑了基于qwen-14b的nl2sql子任务全参sft，训完跑测试集，和A100同样数据全参sft训出来的模型对比，sql正确率差了1.3%。我们冒充客户去和华为的人沟通，华为开始给的解释是说可能是权重转换完就有差异，后来发现我们不是客户自己人干脆不理我们了。
推理这么一个基本的事情现在都跑的稀碎，出任何小问题就让客户从驱动开始升级工具链全家桶，升级的版本还都是小版本号很接近的rc版本，这些都给我一种把客户当小白鼠的印象。
说实话有没有page attention这些优化我觉得都无所谓，就正常把模型推理跑起来，批量跑测试prompt不要有上百个乱码的case，把国内开源的hf格式的模型做好兼容，ascend做好这些真的就可以了。

s1234y · 发表于 2024-6-8 03:28

诚司发表于 2024-6-8 03:09
qwen1时代就有qwen VL和qwen audio，估计也就是整合重新练一下，audio还好，VL按现在的开放程度，不会放太 ...

难度有点大，现在产业界的实践都是希望做到多模态进，然后意图识别，最后根据意图从录好的语音库里找录好的音频放出去

诚司 · 发表于 2024-6-8 03:37

s1234y 发表于 2024-6-8 03:28
难度有点大，现在产业界的实践都是希望做到多模态进，然后意图识别，最后根据意图从录好的语音库里找录好 ...

anygpt那种就行……

现在speech这边已经可以离散token化了，离散token到语音这部分可以外挂，预测语音token对大语言模型来说感觉并不是一个很难的事。gpt-sovits用hubert token，再连一个sovits，时延主要是gpt部分不是实时预测的，对大模型应用来说，vit部分就算没gpto那样控制语气的水平，换个固定模板也可以应用了

s1234y · 发表于 2024-6-8 04:06

诚司发表于 2024-6-8 03:37
anygpt那种就行…… 现在speech这边已经可以离散token化了，离散token到语音这部分可以外挂，预测语音to ...

我们遇到的语音场景，端到端延迟不能超过300ms，否则用户会有明显感知，在这个时延上客户还希望能够检测到用户打断当前语音，我感觉这个需求听起来就很难落地

诚司 · 发表于 2024-6-8 04:15

本帖最后由诚司于 2024-6-8 04:18 编辑

s1234y 发表于 2024-6-8 04:06
我们遇到的语音场景，端到端延迟不能超过300ms，否则用户会有明显感知，在这个时延上客户还希望能够检测 ...

groq的llama3 70B，首token时延能达到200ms，理论上说speech的transformer上会更快得多吧，按理说是可能达到的，不过现在语音合成的推理优化的工作确实感觉不多

東云研究所 · 发表于 2024-6-8 09:00

提示: 作者被禁止或删除内容自动屏蔽

naiveyan · 发表于 2024-6-8 10:13

ycjiang1337 发表于 2024-6-7 21:41
其实论使用方便已经超过LLama了，毕竟不用申请。之前LLama3首发的时候有些在硅谷的中国人甚至是从Modelsc ...

llama主要是在开源领域号召力强，出了什么问题一群人第一时间饱和式修复，vllm在llama3发布第二天就专门发了个版本，llama.cpp为了llama3专门改了pre-tokenizer那一套代码，以及一大堆runtime从llama3开始才支持多个eos token，更不用说exl2和awq作者本人下场出量化版。至于需要申请使用，llama3一出一大群人第一时间做绕过申请的备份，我就是根据llama2时期的经验直接在nousresearch那边下的。
其他开源模型哪有这种待遇，遇到问题都是直接挂个help wanted issue开摆，跑不起来就是跑不起来，qwen使用方便全靠阿里愿意出人出力下场给开源项目做支持。

子虚乌有 · 发表于 2024-6-8 10:22

有没有guide教普通人怎么用这种开源大模型？

yeo · 发表于 2024-6-8 10:31

子虚乌有发表于 2024-6-8 10:22
有没有guide教普通人怎么用这种开源大模型？

貌似也有gguf格式的参数，直接llama.cpp就能跑吧...建议知乎搜索

naiveyan · 发表于 2024-6-8 11:46

诚司发表于 2024-6-8 03:09
qwen1时代就有qwen VL和qwen audio，估计也就是整合重新练一下，audio还好，VL按现在的开放程度，不会放太 ...

就是因为qwen以前开源过水平还不错的多模态模型所以才信他新画的饼啊
至于水平，现在整个多模态大模型领域都很草台，不管是之前的llava只训了一天就成了开源sota，还是最近的基于8b9b llm的多模态模型跑分超过规模大上百倍的gpt4v和qwen-vl-max都挺不可思议的，希望阿里（和字节？llava-next的blog里好多字节的人）之后能提升一下开源多模态模型的准入门槛吧

宵待草 · 发表于 2024-6-8 12:13

子虚乌有发表于 2024-6-8 10:22
有没有guide教普通人怎么用这种开源大模型？

https://www.bentoml.com/blog/benchmarking-llm-inference-backends

主流的工具就这几个，基本都有教程

诚司 · 发表于 2024-6-8 12:18

本帖最后由诚司于 2024-6-8 12:28 编辑

naiveyan 发表于 2024-6-8 11:46
就是因为qwen以前开源过水平还不错的多模态模型所以才信他新画的饼啊
至于水平，现在整个多模态大模型领 ...

Minicpm虽然宣传里带上了超过qwen vl max，但benchmark比较的是qwen vl chat，textvqa之类的分数是没有qwen vl max高的……而且说白了minicpm和qwen vl max参数都不多，但也都能超过gpt4v，主要还是都有高质量的ocr精细标注数据……尤其minicpm，很明显是专门做了数据格式，页眉页脚标题都标好了……
这种模型按理说，如果同样标注量，对非ocr任务，对真实世界的认识肯定是不如cogvlm那种拿clip做视觉编码器的模型的(我猜gptv也是这种)，但现在这个标注量后者ocr也不行，image caption也没强到哪里去，先当玩具玩吧只能

现在的问题还是ocr的vlm太生产力了，百度和阿里都不想开源，而llava这套太玩具了，结果整个领域也就这样

诚司 · 发表于 2024-6-8 12:27

子虚乌有发表于 2024-6-8 10:22
有没有guide教普通人怎么用这种开源大模型？

koboldcpp，请
一个exe文件，自带前后端。后端基于llama.cpp，性能好，开了之后自带koboldcpp和openai server两个接口，前端接什么都行。
前端支持滑动context窗口，唯一缺点是丑

不过新模型可能用旧版本跑不了，多更新

泰坦失足 · 发表于 2024-6-8 12:33

诚司发表于 2024-6-8 12:18
Minicpm虽然宣传里带上了超过qwen vl max，但benchmark比较的是qwen vl chat，textvqa之类的分数是没有qwe ...

而且LLM有成熟的VLLM Ollama LLama.cpp快速部署，图像大模型连个类似的解决方案都没。再加上SOTA都不开源，不然我都想手搓个类似明日方舟MAA的工具帮我打各种手游了。

诚司 · 发表于 2024-6-8 12:38

泰坦失足发表于 2024-6-8 12:33
而且LLM有成熟的VLLM Ollama LLama.cpp快速部署，图像大模型连个类似的解决方案都没。再加上SOTA都不开源 ...

这个有啊，vllm和llama.cpp都是支持vlm的推理的，只不过只支持llava不支持cogvlm……minicpm倒是手搓了一个llama.cpp的版本
可以直接用llama.cpp加载minicpm的gguf，不过不要用量化版的，直接fp16走起，这破量化版给我弄麻了，这性能就不该放出来，ocr能力相当差

ycjiang1337 · 发表于 2024-6-8 13:13

本帖最后由 ycjiang1337 于 2024-6-8 13:24 编辑

s1234y 发表于 2024-6-8 03:24
我们用客户的910b跑了基于qwen-14b的nl2sql子任务全参sft，训完跑测试集，和A100同样数据全参sft训出来的 ...

所以你们这是国企客户？那估计也正常，等更新吧，没准之后你们客户就能用上我们给写的算子了。我们这边算法中台哪怕是对N卡也一样自己写算子，一个羊也是赶两个羊也是放。

华为现在的玩法全面舔互联网客户，把互联网客户伺候好了，然后嫖客户写的算子。

—— 来自 HUAWEI HBN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

naiveyan · 发表于 2024-6-8 13:14

诚司发表于 2024-6-8 12:18
Minicpm虽然宣传里带上了超过qwen vl max，但benchmark比较的是qwen vl chat，textvqa之类的分数是没有qwe ...

要是只有minicpm能以小博大那还能当成特例，可能面壁有独家高质量标注数据，关键一周之后智谱的glm4v9b（←虽然实际上是14b）也把这俩大的连带minicpm一锅烩了，那结论只能是整个领域开源闭源都是草台，没有半点护城河。
我看的是opencompass那个leaderboard，虽然minicpm均分主要是靠遥遥领先的ocrbench拉高的，但扣掉ocrbench只输qwen-vl-max0.1分，依然比gpt4v1106高，这个结果也很惊悚了。

xing7673 · 发表于 2024-6-8 13:15

weiyang 发表于 2024-6-7 20:11
之前参加过一个会，阿里专家就说会坚持开源，因为无论搞什么样的大模型，都需要算力，都需要服务器，只要能 ...

原来如此，基本就是微软的思路了

诚司 · 发表于 2024-6-8 13:17

本帖最后由诚司于 2024-6-8 13:20 编辑

naiveyan 发表于 2024-6-8 13:14
要是只有minicpm能以小博大那还能当成特例，可能面壁有独家高质量标注数据，关键一周之后智谱的glm4v9b（ ...

其实qwen vl就这么大

我倾向于认为qwen vl max也这么大，只不过数据上有差别而已。当年都觉得bert大，现在llm这么大主要是要求高，就现在vlm 这benchmark，lm部分用qwen3b都不一定有多大差别，反正当年image caption还用lstm呢

ycjiang1337 · 发表于 2024-6-8 13:21

本帖最后由 ycjiang1337 于 2024-6-8 13:29 编辑

s1234y 发表于 2024-6-8 03:24
我们用客户的910b跑了基于qwen-14b的nl2sql子任务全参sft，训完跑测试集，和A100同样数据全参sft训出来的 ...

Mind IE推理绝对不是什么“小事情”，因为这玩意本来就是对标vllm的高性能框架，paged attention是它存在的基础。能称得上“小事情”和“基础”的只有transformers直接跑前向。

我这边的常规离线推理任务直接用transformers跑出来的结果没有任何问题，同一份数据训同一个lora模型，910B的结果跟H800完全一致。

—— 来自 HUAWEI HBN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

s1234y · 发表于 2024-6-8 18:11

ycjiang1337 发表于 2024-6-8 13:13
所以你们这是国企客户？那估计也正常，等更新吧，没准之后你们客户就能用上我们给写的算子了。我们这边算 ...

我是阿里云的，华为听说我们是阿里云的直接就不理我们了哈哈，非常抵触我们

tillnight · 发表于 2024-6-8 18:42

s1234y 发表于 2024-6-8 02:28
我了解互联网公司里边就美团买了910b，目前没见到他们训出来啥东西，有靠谱模型的公司里边智谱和讯飞和91 ...

哪怕按照开源情报的公开信息，去年第一批拿910b的就起码有百度。

rmzxe · 发表于 2024-6-8 19:24

这么专业的么。。

—— 来自 Xiaomi 22041216C, Android 13上的 S1Next-鹅版 v2.5.4

诚司 · 发表于 2024-6-8 19:37

本帖最后由诚司于 2024-6-8 19:40 编辑

s1234y 发表于 2024-6-8 18:11
我是阿里云的，华为听说我们是阿里云的直接就不理我们了哈哈，非常抵触我们 ...

华为这太搞了吧
我这边听的消息，互联网公司都是对华为感觉还可以，讯飞、百度的人都直接说过昇腾可以替代A100，和华为的口径一样，而国企都觉得昇腾一点也不行
没想到阿里因为阿里云的问题这么搞

Herreimu · 发表于 2024-6-8 21:01

本帖最后由 Herreimu 于 2024-6-8 21:08 编辑

试着拿上网本跑了一下，这tm mx250是怎么跑的动7b模型的

不得不说，qwen2在写痔疮诗这方面比1.5强得不是一点半点

不过毕竟是7b，要求不能太高

naiveyan · 发表于 2024-6-19 15:40

Risa 发表于 2024-6-7 21:15
所以这次不给32B和14B了，
32B单卡24G用，14B16G卡用，用爽了就不买服务器了。 ...

https://github.com/QwenLM/Qwen2/ ... ecomment-2172125101
最后还是听劝了

		自动登录	找回密码
密码			立即注册

[科技] 阿里 Qwen2 超越 llama3 登顶抱抱脸，成为现在最强的开源大模型

评分

本帖子中包含更多资源

東云研究所東云研究所当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2022-5-24 头像被屏蔽	发表于 2024-6-8 09:00 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报