出差路上闲着，介绍下当前国内AI业界的战国志

lukesweet · 发表于 2023-11-9 17:49

本帖最后由 lukesweet 于 2023-11-9 19:44 编辑

和AI这块也算有些孽缘，以前算是从业者，几年前因为对一些事和人心灰意冷转行去搞其他方向了，当时也是整个行业的低谷。没想到22年Transformer出来后直接改变了整个生态，重新参与了一些相关的投资项目，也算兜兜转转又回来了。未来也许会重回一线，看心情。今天出差路上没事干，随便聊聊一些圈内的现状，帮一些感兴趣的潭友们了解一下，可以当成如厕读物。先套个盾，我说的部分也仅仅是我了解到的，现在的初创高管/IR经常对投资方说话也是七分真三分假的

，不保证我叙述每句话都具有绝对的真实性和时效性。
首先希望大家能够辩证看待国内的AI公司和美国头部AI企业的差距（请注意我说的是“美国”而不是“国外”，牌桌上本质只有这两个国家）。OpenAI拥有的优势是国内难以比拟的：比中国企业一个量级的算力，高薪获取的最优秀的工程师，以及微软爹给予的充分的财力支持。Anthropic本质是OpenAI的一个稍低配的分身，所以自然也可以稳坐第二。他们之外的所有美国AI公司和国内头部是同一梯队的（冤大头Google情况比较特殊，不做讨论）。

我介绍了美国的现状，其实是为了更好地帮大家理解国内AI企业的状况。由于美国对算力的限制，且国内暂无量产的替代品（最近刚有苗头），大家其实是拿着差一个量级的落后算力，紧咬住了美国头部的进展。整个局面有点类似抗美援朝，你很难苛责具体某一家为什么没能做得更好（除了某个公司，下文会提到）。
那么说是“国内”，具体是哪些参与者呢？其实可以根据大模型的牌照来看，8.30发放了第一批，11.4第二批，现在国内牌桌上一共是**小小20+玩家。

百度
上来就是重量级

。其实我很犹豫要不要第一个介绍它，因为贵圈的傻逼事情光它就占了一半，但因为确实存在感太强了也绕不过去，那就从它开始吧。
首先，客观来说文心的水平其实还是凑合的，基本没有真正掉出过国内的第一梯队。几个月前应该是明确走过一些弯路，但毕竟多年的老店，很快调整过来了。不过百度的产品力一直是个巨大的问题，文心本身并没有出彩之处，却花了好几亿买广告和宣发，大家应该时常能在微博和微信公众号看到非常假的软文和水军回复，什么“超过GPT4/4V”、“中国大模型领头羊”基本是张口就来。然后很多让人鄙夷的“百度式”操作，比如把版本号改成3.5（普通版）和4（进阶版）当蹭子，然后迫不及待地开始对标OpenAI收费等等。但这不是最傻逼的事情，百度这逼公司的法务部不知道是不是没事干，每个月的KPI就是固定举报竞争对手，讯飞智谱Minimax（只要你有商业应用）都被他举报过不止一次，整个一赛博慈禧。怎么举报呢？每个月有人固定往你的模型里输入诱导性的问题，只要出现涉政涉黄的东西就给你记下来，然后每个月攒一波举报上去。这么一直干了得有半年以上，圈子内基本都是仇家了（不过自从陆奇跑路，圈内早已没有口碑可言了）。当然百度也不在乎你投资人和同行的看法，靠软文和水军能骗到C端用户就行。不过很遗憾，论C端现在文心的实际调用量不及GPT的百分之一，希望艳红好好努力，早日重回科技巨头

。

字节
字节虽然比（老）BAT都要年轻，但在AI这块走得非常扎实。他们这边入局比较晚，所以非常虚心地在进行探索。考虑到他们的算力是国内最多的一家，以及人才密度非常之高，未来的上限还是非常值得期待的。字节还有另外一些优势。首先就是基建和生态，字节的技术基建以及2B的生态布局得很早，只要模型能尽量挤进第一梯队，基本就不会输了。此外，火山方舟一直想做大模型的统一化云服务，也是野心非常大，但火山在圈子里的口碑整体很好（有相当一部分来自于负责人杨），所以这块有一定的前景。最后，字节的产品力还是相当可以的（虽然泥潭一直看不起这种下沉的东西），只要有可用的模型服务能够架起来，我不太怀疑他们能够快速拿出一个killer app。
但是字节面临的问题也很严峻：首先，字节的内斗一直非常严重，派系林立，之前电商和生活服务几轮折腾下来，一些老高管之间的矛盾已经上升到了明面上，大模型这块一直是拆拆合合，很难说主线有没有受到影响。另外，今年的字节跟谷歌有微妙的相似，想法很多，好脑子很多，但就是拿不出一个具有说服力的落地模型。还有一个终极问题，字节的“耐心”一直不怎么好，如果一件事情始终无法有有效产出，那么投降主义会迅速占据上风。

百川
百川应该算是初创里的带明星了，主要得益于王小川本人。王一直是圈子里的宠儿，很多资本冲着他的存在就会给百川投资。百川做的是开源，想把baichuan做中国的Llama，而且确实看起来很不错。百川的人并不多，几十个人，没有明确的应用落地方向，感觉是隐患之一，目前还是主要靠投资的钱活着。不过我个人还是比较喜欢百川的，除了本身开源给人带来的好感，整体风格也比较踏实。但需要指出，它这个弱点长期来看可能是致命的，由于非常容易受到投资人压力，最近刷榜打脸也有他们，消耗了许多之前积攒的声望。

Minimax
另一个初创带明星，但和百川不同，极度低调，几乎很少看到他们的介绍。他们的老板闫是商汤的前CTO。和百度完全相反，Mmx几乎不在大众眼前抛头露面，但投资人关系维护得非常好，2B也非常强。他们有自己的落地应用，在海外市场做角色扮演的chatbot（国内也有，但似乎没海外火）。说到Mmx不得不提到宿敌Character.AI，也是美国做角色扮演chabtot的一家公司，这两家应该是目前比较最大的两家娱乐类AI（但这个市场目前并不大，也有可能被字节/Meta后来居上）。这里需要特别指出，模型基座的能力和特定的扮演能力不是完全等同的，他们两家都具备特殊的技术（RLHF的变种）和模型调教思路，因此这两家估值都很高。我不太理解为什么Mmx会考虑先做出海，但结果看来不算错。

智谱
又一个重量级。如果说百度包圆了场外乐子，那智谱包圆了模型本身的乐子。智谱本身是清华计算机系的人搞出来的，所以带有强烈的科研和国资味儿，也继承了那种为了发论文拿成绩不择手段的风格。大模型由于评测很多时候都是基于一些客观题的Benchmark，所以理论上透题就可以作弊，然后在对应的榜单上获得高名次，这个叫做“刷榜”。刷榜本身不太光彩，但如果不太过分，也互相不说破，毕竟大家都混口饭吃，没必要为这事弄得很难看。偶尔会有一些乐子人出来嘲讽，比如之前Rylan的《Pretraining on the test set is all you need》，这巨魔老哥要不是外国人我甚至怀疑有S1账号。但这次昆仑万维的一篇报告直接戳穿了遮羞布，用客观指标直接量化了过拟合和泄露的程度，GLM刷得非常严重，直接被当众抽脸。
智谱也有自己的产品团队，负责人是来自抖音的败军之将Seven，很多迷惑操作（比如清言跟文心、星火拼买量，“三大顶刊”批量买软文等等）应该出自她手。我对智谱倒谈不上厌恶（尤其是百度的衬托下），但它的背景以及高管构成决定了是一个很奇怪的怪胎。

第一批除了以上这些，还有几个简单说下。
讯飞：我对讯飞了解的不多，但毕竟底蕴在那里，而且资金也很宽裕，模型水平也能常驻第一梯队。但讯飞过去一直给人一种“那毕竟讯飞，你懂的吧？”的感觉，所以不太看好应用，最好状态也就2B满足温饱。第一批牌照发放后做出的各种操作和百度几乎形成了双输，让人怀疑决策层的判断力。
腾讯：鹅厂拿牌照属于典型“虽然不知道有什么用，但拿了万一将来用得上”。鹅厂自己做不出像样的大模型，它的结构（松散的联邦）也决定了不可能做出来。但它的投资部门是真的牛逼，Mmx和百川都有腾讯的投资，而且它一直是非常好的金主爹，所以只要这些初创中有胜者，你鹅爹永远不会输。
华为：拿牌照的目的跟腾讯差不多。顺便向不是圈内的朋友澄清一下，“盘古大模型”是很多垂直的ML集合，而恰恰不是现在流行的“通用语言大模型”的概念。但华子恰恰是圈子最重要的玩家之一，因为他是现在国内芯片的全村希望，所以无论如何只要中国AI产业不死，它已经赢了。
商汤：冢中枯骨，爬。
中科院：呃呃呃，为什么还要特意拿个牌照。
上海人工智能实验室：跟商汤有比较深的关系，但整体存在感不高，不多评价。

第二批相对弱一些，捡我感兴趣的说几个：
网易：报备的时候特别申明了是教育方向，不是特别看好，在通用模型的语境下强调垂直本身已经输一半了。而且，“那毕竟网易，你懂的吧？”
昆仑万维：业界搅屎棍，在泛学术圈名声不佳。其他无法评价。
美团：之前吃了光年之外的尸体，但重回正轨花了太多时间，感觉可能想拼一下某个垂直方向，但具体决策应该还没形成。这里说一下光年之外，如果王慧文没出问题，现在初创的首席带明星应该是他而不是小川，但很明确技术路径和团队出了非常严重的问题，直接玉玉离场。
知乎：呃呃呃
月之暗面：有点意思的初创，因为一些成果受到不少关注，但成立时间过短，还不好判断真实潜力。另外这名字真的中二到爆。
金山：金山之前非常高调地和Mmx还有讯飞合作，这次拿牌照不确定是什么具体想法。它没这方面的基因，如果单纯为了降低成本而自研模型，不太看好。
蚂蚁：没具体落地之前不好判断，上下限都很夸张。
360：您来辣？

国内这些我个人的心中排序（按两年内期望的AI业务体量，2B+2C）：字节>百度≈Minimax>百川≈讯飞≈智谱>其他，华为完全吃掉支持性生态。纯主观，你喷就是你对

（补充：希望大家不要单纯以现在的模型体验来判断优劣，局部的能力变化是很不稳定的。鹿死谁手和技术力、产品力、决心、口碑都有关联）
其他感兴趣的问题也可以楼里随便闲聊。

请发顺丰一谢谢 · 发表于 2023-11-9 17:56

好文好评

—— 来自 S1Fun

nexus1 · 发表于 2023-11-9 18:01

国内有个科普网站前几个月调用chatgpt3.5 的api整了一个收费的问答(很便宜的那种收费
后来不是国内禁止了吗,就暂停收费又生称准备退款.
然后忽然某天重新开放收费了,说是这玩意合法了
结果有时候服务器连不上就会报一些带"文心xxxx"链接的error

a4ac7 · 发表于 2023-11-9 18:01

讯飞和百度的模型我加到api里面用过

讯飞星火3.0动不动就报错，稳定性还不如2.0，试用起来还有诸多上下文等问题

百度么稍好一点，就是吃相比较难看，过了一段时间我自用的百度api报错了，debug结果是欠费，感觉也就这家有此问题了

—— 来自 HUAWEI NOH-AN00, Android 12上的 S1Next-鹅版 v2.5.4

ColinWine · 发表于 2023-11-9 18:07

阿里系呢，淘宝问问用起来好像还不错

—— 来自 Xiaomi 23013RK75C, Android 13上的 S1Next-鹅版 v2.5.4

freedomkought · 发表于 2023-11-9 18:07

提示: 作者被禁止或删除内容自动屏蔽

jjymhkx0820 · 发表于 2023-11-9 18:07

好文好评

wly5556 · 发表于 2023-11-9 18:08

想读一下那篇glm过拟合的报告，有链接吗

lukesweet · 发表于 2023-11-9 18:08

nexus1 发表于 2023-11-9 18:01
国内有个科普网站前几个月调用chatgpt3.5 的api整了一个收费的问答(很便宜的那种收费
后来不是国内 ...

oai以及任何美国公司在国内是不可能生存的，上面已经把这个当战略决战地之一了。所以小的使用者只能吃代餐。
代餐目前只有Mmx百度讯飞智谱，其他家开平整体还不太成熟

lukesweet · 发表于 2023-11-9 18:09

ColinWine 发表于 2023-11-9 18:07
阿里系呢，淘宝问问用起来好像还不错

—— 来自 Xiaomi 23013RK75C, Android 13上的 S1Next-鹅版 v2.5.4 ...

用的Mmx的API，阿里自己没大模型牌照

sagajytc · 发表于 2023-11-9 18:11

今天赶报告用了文心一言4.0
上传一堆素材后告诉我要“3-5个工作日”
我寻思着你AI还要周末休息的？

lukesweet · 发表于 2023-11-9 18:12

wly5556 发表于 2023-11-9 18:08
想读一下那篇glm过拟合的报告，有链接吗

https://arxiv.org/pdf/2310.19341.pdf
只看P13就行，其他部分都是不可燃垃圾

sqlist · 发表于 2023-11-9 18:15

本帖最后由 sqlist 于 2023-11-9 18:16 编辑

我记得还有一个好未来的mathGPT。话说，中科院要牌照干嘛，打算开公司吗

lukesweet · 发表于 2023-11-9 18:15

freedomkought 发表于 2023-11-9 18:07
字节据我上周部署RVC的时候看到的数据，他们的声音分离AI是现在天梯榜压倒性的第一的，腾讯和阿里除了自家 ...

非文字的部分就是另一个故事了，现在形式比较复杂，大家发力点不太一样。视频部分字节投了很多资源，因为跟抖音要形成配合，但其他家几乎不太碰；生图部分Mmx比较强，因为他们要做RP chatbot，其他公司就不怎么关心。
声音这块了解比较少，感谢free大佬补充

DeepFishing · 发表于 2023-11-9 18:32

ai越做越没意思

—— 来自 Xiaomi 22041211AC, Android 12上的 S1Next-鹅版 v2.5.4

moekyo · 发表于 2023-11-9 18:33

其实游戏npc上这个什么时候能看到实物

seki_m · 发表于 2023-11-9 18:35

商汤为什么会混成这样

DFM_otto · 发表于 2023-11-9 18:36

从我自己的体验上来说，文心一言和glm是最靠谱的两个，可以达到3.5上位替代的水平，未来国内市场很有可能是这两家争雄。不知道楼主为什么对字节的信心那么强，从我3年+的字节经验出发，我对字节屁都做不出来很有信心，从教育游戏到pico，字节的决策层有走对一步吗

这只是个只会抄抄抄的翻版tx罢了

naiveyan · 发表于 2023-11-9 18:36

本帖最后由 naiveyan 于 2023-11-9 19:05 编辑

等下，昆仑万维那个报告里不是说百川和通义千问也过拟合了吗？怎么只喷智谱的？而且那个榜上黑得最厉害的是测试集也过拟合了的智源吧
以及这两天发了一波软文的元象就是腾讯的吧。

lukesweet · 发表于 2023-11-9 18:40

moekyo 发表于 2023-11-9 18:33
其实游戏npc上这个什么时候能看到实物

这个具体得问游戏那边的行家，但我了解下来有几个因素：调教人力和推理成本控不住，形成一个大体系的AI对话，又吃人力又吃算力，没人敢冒这个风险；其次会吸走对游戏核心体验的关注，总得来看得不偿失。所以只能指望新的游戏原生地加入这些能力，那接下来大体量的手游大作岂不是……

阿酷怕苦 · 发表于 2023-11-9 18:40

总结现在能用能看的就是文心一言，但是百度吃相过于难看，如果不是墙内护着，早就死球了。

Lucario · 发表于 2023-11-9 18:42

居然还有牌照么？没牌照的国内公司不给做大模型？

Van夫膜开 · 发表于 2023-11-9 18:44

讯飞的代码能力进步的有些让人吃惊，至少现在比什么百度之类强得多。

顺便说一下，现在的zephyr-7B还有phind-codellama-34B-v2这两个模型都非常牛逼。

zephyr-7B用gguf q4km量化准确率就已经很高了。

phind那个用q5km量化，我的幻15还能保证基本上1token/s，这个模型关于code的回答准确率我觉得已经比国内这些大模型都要好了，甚至有些问题超过了3.5。用量化的在本地跑，可以自己调一些参数，然后支持长文本。

我就很好奇，国内搞这么些个大模型，最后搞出来的东西还没有国外一些开源团队的性能好，真的是一言难尽

frosta · 发表于 2023-11-9 18:44

其他公司不好说
说字节基建好真的很难绷

要不是天天被傻逼基建折磨吐血我就真的信了

weiyang · 发表于 2023-11-9 18:44

请教下这股热潮大概能持续多久呢

gaybro · 发表于 2023-11-9 18:44

除了文心一言，国内还有能用其他的ai吗

lvseqiji · 发表于 2023-11-9 18:45

提示: 作者被禁止或删除内容自动屏蔽

zzt955 · 发表于 2023-11-9 18:45

感谢科普

lvseqiji · 发表于 2023-11-9 18:48

提示: 作者被禁止或删除内容自动屏蔽

lukesweet · 发表于 2023-11-9 18:54

DFM_otto 发表于 2023-11-9 18:36
从我自己的体验上来说，文心一言和glm是最靠谱的两个，可以达到3.5上位替代的水平，未来国内市场很有可能是 ...

现在的这些体验并没有太多意义，因为工具app都是伪需求。连创世神chatgpt现在都远远无法盈利，而且数据其实很一般。
短期决胜显然在别的战场上，比如娱乐，这种就比拼产品力了，字节显然是有优势的。当然了，我在主楼也提到了很多它的问题，有些甚至是致命的，看它能不能克服了。我单纯觉得百度更烂罢了。

lukesweet · 发表于 2023-11-9 18:55

Lucario 发表于 2023-11-9 18:42
居然还有牌照么？没牌照的国内公司不给做大模型？

可以做，但不能对公众提供服务。你自己拿llama基座炼一个自己写小黄文出小黄图没人管的。

bkzzd233 · 发表于 2023-11-9 18:56

在经过虚拟货币，元宇宙，室温超导等一次次狼来了后，我现在看到啥科技新闻都很淡定了

23年就剩2个月不到，还有啥象征工业革命到来一键咩鳖的神器都一起端上来吧

-- 来自能搜索的 Stage1官方 Android客户端

ciciswan · 发表于 2023-11-9 18:56

提示: 作者被禁止或删除内容自动屏蔽

诚司 · 发表于 2023-11-9 18:58

提示: 作者被禁止或删除内容自动屏蔽

shutup · 发表于 2023-11-9 19:03

提示: 作者被禁止或删除内容自动屏蔽

鸡毛当令箭 · 发表于 2023-11-9 19:04

智谱出了codegee，算是个下位替代

lukesweet · 发表于 2023-11-9 19:05

naiveyan 发表于 2023-11-9 18:36
等下，昆仑万维那个报告里不是说百川和通义千问也过拟合了吗？怎么只喷智谱的？
以及这两天发了一波软文的 ...

百川这次也被打脸了，但这事之前干的不多，所以也就嘲笑一下。
GLM可是老刷子了，性质不一样的。
Qwen，谁？（无关心

lukesweet · 发表于 2023-11-9 19:06

shutup 发表于 2023-11-9 19:03
这里说的都是大语言模型吗？还是说包括其他类型AI

都是基于Transformer的LLM，或者说“这一代”通用语言模型，架构在此上的图像和语音能力也在讨论范围内。

精钢魔像 · 发表于 2023-11-9 19:07

sagajytc 发表于 2023-11-9 18:11
今天赶报告用了文心一言4.0
上传一堆素材后告诉我要“3-5个工作日”
我寻思着你AI还要周末休息的？ ...

ai帮你转人工

蛋饼 · 发表于 2023-11-9 19:12

提示: 作者被禁止或删除内容自动屏蔽

		自动登录	找回密码
密码			立即注册

[科技] 出差路上闲着，介绍下当前国内AI业界的战国志

评分

评分

评分

freedomkought freedomkought 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2016-7-12 头像被屏蔽	发表于 2023-11-9 18:07 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

lvseqiji lvseqiji 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-4-16 头像被屏蔽	发表于 2023-11-9 18:45 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

lvseqiji lvseqiji 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2011-4-16 头像被屏蔽	发表于 2023-11-9 18:48 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

ciciswan ciciswan 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2022-4-12 头像被屏蔽	发表于 2023-11-9 18:56 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

诚司诚司当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2014-11-27 头像被屏蔽	发表于 2023-11-9 18:58 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

shutup shutup 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2023-5-12 头像被屏蔽	发表于 2023-11-9 19:03 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

蛋饼蛋饼当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2020-2-7 头像被屏蔽	发表于 2023-11-9 19:12 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报