找回密码
 立即注册
搜索
查看: 35608|回复: 202

[科技] 出差路上闲着,介绍下当前国内AI业界的战国志

[复制链接]
     
发表于 2023-11-9 17:49 | 显示全部楼层 |阅读模式
本帖最后由 lukesweet 于 2023-11-9 19:44 编辑

和AI这块也算有些孽缘,以前算是从业者,几年前因为对一些事和人心灰意冷转行去搞其他方向了,当时也是整个行业的低谷。没想到22年Transformer出来后直接改变了整个生态,重新参与了一些相关的投资项目,也算兜兜转转又回来了。未来也许会重回一线,看心情。今天出差路上没事干,随便聊聊一些圈内的现状,帮一些感兴趣的潭友们了解一下,可以当成如厕读物。先套个盾,我说的部分也仅仅是我了解到的,现在的初创高管/IR经常对投资方说话也是七分真三分假的,不保证我叙述每句话都具有绝对的真实性和时效性。
首先希望大家能够辩证看待国内的AI公司和美国头部AI企业的差距(请注意我说的是“美国”而不是“国外”,牌桌上本质只有这两个国家)。OpenAI拥有的优势是国内难以比拟的:比中国企业一个量级的算力,高薪获取的最优秀的工程师,以及微软爹给予的充分的财力支持。Anthropic本质是OpenAI的一个稍低配的分身,所以自然也可以稳坐第二。他们之外的所有美国AI公司和国内头部是同一梯队的(冤大头Google情况比较特殊,不做讨论)。

我介绍了美国的现状,其实是为了更好地帮大家理解国内AI企业的状况。由于美国对算力的限制,且国内暂无量产的替代品(最近刚有苗头),大家其实是拿着差一个量级的落后算力,紧咬住了美国头部的进展。整个局面有点类似抗美援朝,你很难苛责具体某一家为什么没能做得更好(除了某个公司,下文会提到)。
那么说是“国内”,具体是哪些参与者呢?其实可以根据大模型的牌照来看,8.30发放了第一批,11.4第二批,现在国内牌桌上一共是**小小20+玩家。

百度
上来就是重量级。其实我很犹豫要不要第一个介绍它,因为贵圈的傻逼事情光它就占了一半,但因为确实存在感太强了也绕不过去,那就从它开始吧。
首先,客观来说文心的水平其实还是凑合的,基本没有真正掉出过国内的第一梯队。几个月前应该是明确走过一些弯路,但毕竟多年的老店,很快调整过来了。不过百度的产品力一直是个巨大的问题,文心本身并没有出彩之处,却花了好几亿买广告和宣发,大家应该时常能在微博和微信公众号看到非常假的软文和水军回复,什么“超过GPT4/4V”、“中国大模型领头羊”基本是张口就来。然后很多让人鄙夷的“百度式”操作,比如把版本号改成3.5(普通版)和4(进阶版)当蹭子,然后迫不及待地开始对标OpenAI收费等等。但这不是最傻逼的事情,百度这逼公司的法务部不知道是不是没事干,每个月的KPI就是固定举报竞争对手,讯飞智谱Minimax(只要你有商业应用)都被他举报过不止一次,整个一赛博慈禧。怎么举报呢?每个月有人固定往你的模型里输入诱导性的问题,只要出现涉政涉黄的东西就给你记下来,然后每个月攒一波举报上去。这么一直干了得有半年以上,圈子内基本都是仇家了(不过自从陆奇跑路,圈内早已没有口碑可言了)。当然百度也不在乎你投资人和同行的看法,靠软文和水军能骗到C端用户就行。不过很遗憾,论C端现在文心的实际调用量不及GPT的百分之一,希望艳红好好努力,早日重回科技巨头

字节
字节虽然比(老)BAT都要年轻,但在AI这块走得非常扎实。他们这边入局比较晚,所以非常虚心地在进行探索。考虑到他们的算力是国内最多的一家,以及人才密度非常之高,未来的上限还是非常值得期待的。字节还有另外一些优势。首先就是基建和生态,字节的技术基建以及2B的生态布局得很早,只要模型能尽量挤进第一梯队,基本就不会输了。此外,火山方舟一直想做大模型的统一化云服务,也是野心非常大,但火山在圈子里的口碑整体很好(有相当一部分来自于负责人杨),所以这块有一定的前景。最后,字节的产品力还是相当可以的(虽然泥潭一直看不起这种下沉的东西),只要有可用的模型服务能够架起来,我不太怀疑他们能够快速拿出一个killer app。
但是字节面临的问题也很严峻:首先,字节的内斗一直非常严重,派系林立,之前电商和生活服务几轮折腾下来,一些老高管之间的矛盾已经上升到了明面上,大模型这块一直是拆拆合合,很难说主线有没有受到影响。另外,今年的字节跟谷歌有微妙的相似,想法很多,好脑子很多,但就是拿不出一个具有说服力的落地模型。还有一个终极问题,字节的“耐心”一直不怎么好,如果一件事情始终无法有有效产出,那么投降主义会迅速占据上风。

百川
百川应该算是初创里的带明星了,主要得益于王小川本人。王一直是圈子里的宠儿,很多资本冲着他的存在就会给百川投资。百川做的是开源,想把baichuan做中国的Llama,而且确实看起来很不错。百川的人并不多,几十个人,没有明确的应用落地方向,感觉是隐患之一,目前还是主要靠投资的钱活着。不过我个人还是比较喜欢百川的,除了本身开源给人带来的好感,整体风格也比较踏实。但需要指出,它这个弱点长期来看可能是致命的,由于非常容易受到投资人压力,最近刷榜打脸也有他们,消耗了许多之前积攒的声望。

Minimax
另一个初创带明星,但和百川不同,极度低调,几乎很少看到他们的介绍。他们的老板闫是商汤的前CTO。和百度完全相反,Mmx几乎不在大众眼前抛头露面,但投资人关系维护得非常好,2B也非常强。他们有自己的落地应用,在海外市场做角色扮演的chatbot(国内也有,但似乎没海外火)。说到Mmx不得不提到宿敌Character.AI,也是美国做角色扮演chabtot的一家公司,这两家应该是目前比较最大的两家娱乐类AI(但这个市场目前并不大,也有可能被字节/Meta后来居上)。这里需要特别指出,模型基座的能力和特定的扮演能力不是完全等同的,他们两家都具备特殊的技术(RLHF的变种)和模型调教思路,因此这两家估值都很高。我不太理解为什么Mmx会考虑先做出海,但结果看来不算错。

智谱
又一个重量级。如果说百度包圆了场外乐子,那智谱包圆了模型本身的乐子。智谱本身是清华计算机系的人搞出来的,所以带有强烈的科研和国资味儿,也继承了那种为了发论文拿成绩不择手段的风格。大模型由于评测很多时候都是基于一些客观题的Benchmark,所以理论上透题就可以作弊,然后在对应的榜单上获得高名次,这个叫做“刷榜”。刷榜本身不太光彩,但如果不太过分,也互相不说破,毕竟大家都混口饭吃,没必要为这事弄得很难看。偶尔会有一些乐子人出来嘲讽,比如之前Rylan的《Pretraining on the test set is all you need》,这巨魔老哥要不是外国人我甚至怀疑有S1账号。但这次昆仑万维的一篇报告直接戳穿了遮羞布,用客观指标直接量化了过拟合和泄露的程度,GLM刷得非常严重,直接被当众抽脸。
智谱也有自己的产品团队,负责人是来自抖音的败军之将Seven,很多迷惑操作(比如清言跟文心、星火拼买量,“三大顶刊”批量买软文等等)应该出自她手。我对智谱倒谈不上厌恶(尤其是百度的衬托下),但它的背景以及高管构成决定了是一个很奇怪的怪胎。

第一批除了以上这些,还有几个简单说下。
讯飞:我对讯飞了解的不多,但毕竟底蕴在那里,而且资金也很宽裕,模型水平也能常驻第一梯队。但讯飞过去一直给人一种“那毕竟讯飞,你懂的吧?”的感觉,所以不太看好应用,最好状态也就2B满足温饱。第一批牌照发放后做出的各种操作和百度几乎形成了双输,让人怀疑决策层的判断力。
腾讯:鹅厂拿牌照属于典型“虽然不知道有什么用,但拿了万一将来用得上”。鹅厂自己做不出像样的大模型,它的结构(松散的联邦)也决定了不可能做出来。但它的投资部门是真的牛逼,Mmx和百川都有腾讯的投资,而且它一直是非常好的金主爹,所以只要这些初创中有胜者,你鹅爹永远不会输。
华为:拿牌照的目的跟腾讯差不多。顺便向不是圈内的朋友澄清一下,“盘古大模型”是很多垂直的ML集合,而恰恰不是现在流行的“通用语言大模型”的概念。但华子恰恰是圈子最重要的玩家之一,因为他是现在国内芯片的全村希望,所以无论如何只要中国AI产业不死,它已经赢了。
商汤:冢中枯骨,爬。
中科院:呃呃呃,为什么还要特意拿个牌照。
上海人工智能实验室:跟商汤有比较深的关系,但整体存在感不高,不多评价。

第二批相对弱一些,捡我感兴趣的说几个:
网易:报备的时候特别申明了是教育方向,不是特别看好,在通用模型的语境下强调垂直本身已经输一半了。而且,“那毕竟网易,你懂的吧?”
昆仑万维:业界搅屎棍,在泛学术圈名声不佳。其他无法评价。
美团:之前吃了光年之外的尸体,但重回正轨花了太多时间,感觉可能想拼一下某个垂直方向,但具体决策应该还没形成。这里说一下光年之外,如果王慧文没出问题,现在初创的首席带明星应该是他而不是小川,但很明确技术路径和团队出了非常严重的问题,直接玉玉离场。
知乎:呃呃呃
月之暗面:有点意思的初创,因为一些成果受到不少关注,但成立时间过短,还不好判断真实潜力。另外这名字真的中二到爆。
金山:金山之前非常高调地和Mmx还有讯飞合作,这次拿牌照不确定是什么具体想法。它没这方面的基因,如果单纯为了降低成本而自研模型,不太看好。
蚂蚁:没具体落地之前不好判断,上下限都很夸张。
360:您来辣?

国内这些我个人的心中排序(按两年内期望的AI业务体量,2B+2C):字节>百度≈Minimax>百川≈讯飞≈智谱>其他,华为完全吃掉支持性生态。纯主观,你喷就是你对(补充:希望大家不要单纯以现在的模型体验来判断优劣,局部的能力变化是很不稳定的。鹿死谁手和技术力、产品力、决心、口碑都有关联)
其他感兴趣的问题也可以楼里随便闲聊。

评分

参与人数 60战斗力 +74 收起 理由
unconsolable + 1 好评加鹅
三杉酸宁碱 + 1 好评加鹅
wbzdwsmnmsl + 2 好玩!
tubarl_kumiko + 1 欢乐多
SmterC + 2 欢乐多
forestbee + 1 好评加鹅
自主规制 + 1
passgan + 2 好评加鹅
比乐 + 1 好评加鹅
jamboo + 1 好评加鹅
widder + 2 好评加鹅
webto + 1
evilpanda + 1 好评加鹅
帕蕾莉亚 + 3 360:您来辣?
ACFUNBILI + 1
GAT_ZZZ + 1
Hao123 + 1 好评加鹅
darknor + 2 感谢分享
Z7AlZI7VZT + 1 好评加鹅
noonehere + 1 感谢分享

查看全部评分

回复

使用道具 举报

     
发表于 2023-11-9 17:56 | 显示全部楼层
好文好评

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2023-11-9 18:01 | 显示全部楼层
国内有个科普网站前几个月调用chatgpt3.5 的api整了一个收费的问答(很便宜的那种收费
后来不是国内禁止了吗,就暂停收费又生称准备退款.
然后忽然某天重新开放收费了,说是这玩意合法了
结果有时候服务器连不上就会报一些带"文心xxxx"链接的error
回复

使用道具 举报

     
发表于 2023-11-9 18:01 来自手机 | 显示全部楼层
讯飞和百度的模型我加到api里面用过

讯飞星火3.0动不动就报错,稳定性还不如2.0,试用起来还有诸多上下文等问题

百度么稍好一点 ,就是吃相比较难看,过了一段时间我自用的百度api报错了,debug结果是欠费,感觉也就这家有此问题了

—— 来自 HUAWEI NOH-AN00, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-11-9 18:07 来自手机 | 显示全部楼层
阿里系呢,淘宝问问用起来好像还不错

—— 来自 Xiaomi 23013RK75C, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-9 18:07 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-11-9 18:07 | 显示全部楼层
好文好评
回复

使用道具 举报

     
发表于 2023-11-9 18:08 来自手机 | 显示全部楼层
想读一下那篇glm过拟合的报告,有链接吗
回复

使用道具 举报

     
 楼主| 发表于 2023-11-9 18:08 | 显示全部楼层
nexus1 发表于 2023-11-9 18:01
国内有个科普网站前几个月调用chatgpt3.5 的api整了一个收费的问答(很便宜的那种收费
后来不是国内 ...

oai以及任何美国公司在国内是不可能生存的,上面已经把这个当战略决战地之一了。所以小的使用者只能吃代餐。
代餐目前只有Mmx百度讯飞智谱,其他家开平整体还不太成熟
回复

使用道具 举报

     
 楼主| 发表于 2023-11-9 18:09 | 显示全部楼层
ColinWine 发表于 2023-11-9 18:07
阿里系呢,淘宝问问用起来好像还不错

—— 来自 Xiaomi 23013RK75C, Android 13上的 S1Next-鹅版 v2.5.4 ...

用的Mmx的API,阿里自己没大模型牌照
回复

使用道具 举报

     
发表于 2023-11-9 18:11 | 显示全部楼层
今天赶报告用了文心一言4.0
上传一堆素材后告诉我要“3-5个工作日”
我寻思着你AI还要周末休息的?
回复

使用道具 举报

     
 楼主| 发表于 2023-11-9 18:12 | 显示全部楼层
wly5556 发表于 2023-11-9 18:08
想读一下那篇glm过拟合的报告,有链接吗

https://arxiv.org/pdf/2310.19341.pdf
只看P13就行,其他部分都是不可燃垃圾

评分

参与人数 1战斗力 +1 收起 理由
wly5556 + 1 感谢

查看全部评分

回复

使用道具 举报

     
发表于 2023-11-9 18:15 来自手机 | 显示全部楼层
本帖最后由 sqlist 于 2023-11-9 18:16 编辑

我记得还有一个好未来的mathGPT。话说,中科院要牌照干嘛,打算开公司吗
回复

使用道具 举报

     
 楼主| 发表于 2023-11-9 18:15 | 显示全部楼层
freedomkought 发表于 2023-11-9 18:07
字节据我上周部署RVC的时候看到的数据,他们的声音分离AI是现在天梯榜压倒性的第一的,腾讯和阿里除了自家 ...

非文字的部分就是另一个故事了,现在形式比较复杂,大家发力点不太一样。视频部分字节投了很多资源,因为跟抖音要形成配合,但其他家几乎不太碰;生图部分Mmx比较强,因为他们要做RP chatbot,其他公司就不怎么关心。
声音这块了解比较少,感谢free大佬补充
回复

使用道具 举报

     
发表于 2023-11-9 18:32 来自手机 | 显示全部楼层
ai越做越没意思

—— 来自 Xiaomi 22041211AC, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-11-9 18:33 | 显示全部楼层
其实游戏npc上这个什么时候能看到实物
回复

使用道具 举报

发表于 2023-11-9 18:35 来自手机 | 显示全部楼层
商汤为什么会混成这样
回复

使用道具 举报

     
发表于 2023-11-9 18:36 | 显示全部楼层
从我自己的体验上来说,文心一言和glm是最靠谱的两个,可以达到3.5上位替代的水平,未来国内市场很有可能是这两家争雄。不知道楼主为什么对字节的信心那么强,从我3年+的字节经验出发,我对字节屁都做不出来很有信心,从教育游戏到pico,字节的决策层有走对一步吗这只是个只会抄抄抄的翻版tx罢了
回复

使用道具 举报

     
发表于 2023-11-9 18:36 | 显示全部楼层
本帖最后由 naiveyan 于 2023-11-9 19:05 编辑

等下,昆仑万维那个报告里不是说百川和通义千问也过拟合了吗?怎么只喷智谱的?而且那个榜上黑得最厉害的是测试集也过拟合了的智源吧
以及这两天发了一波软文的元象就是腾讯的吧。
回复

使用道具 举报

     
 楼主| 发表于 2023-11-9 18:40 | 显示全部楼层
moekyo 发表于 2023-11-9 18:33
其实游戏npc上这个什么时候能看到实物

这个具体得问游戏那边的行家,但我了解下来有几个因素:调教人力和推理成本控不住,形成一个大体系的AI对话,又吃人力又吃算力,没人敢冒这个风险;其次会吸走对游戏核心体验的关注,总得来看得不偿失。所以只能指望新的游戏原生地加入这些能力,那接下来大体量的手游大作岂不是……

评分

参与人数 1战斗力 +1 收起 理由
moekyo + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2023-11-9 18:40 来自手机 | 显示全部楼层
总结现在能用能看的就是文心一言,但是百度吃相过于难看,如果不是墙内护着,早就死球了。
回复

使用道具 举报

     
发表于 2023-11-9 18:42 来自手机 | 显示全部楼层
居然还有牌照么?没牌照的国内公司不给做大模型?
回复

使用道具 举报

     
发表于 2023-11-9 18:44 | 显示全部楼层
讯飞的代码能力进步的有些让人吃惊,至少现在比什么百度之类强得多。

顺便说一下,现在的zephyr-7B还有phind-codellama-34B-v2这两个模型都非常牛逼。

zephyr-7B用gguf q4km量化准确率就已经很高了。

phind那个用q5km量化,我的幻15还能保证基本上1token/s,这个模型关于code的回答准确率我觉得已经比国内这些大模型都要好了,甚至有些问题超过了3.5。用量化的在本地跑,可以自己调一些参数,然后支持长文本。

我就很好奇,国内搞这么些个大模型,最后搞出来的东西还没有国外一些开源团队的性能好,真的是一言难尽
回复

使用道具 举报

发表于 2023-11-9 18:44 来自手机 | 显示全部楼层
其他公司不好说
说字节基建好真的很难绷要不是天天被傻逼基建折磨吐血我就真的信了
回复

使用道具 举报

     
发表于 2023-11-9 18:44 来自手机 | 显示全部楼层
请教下这股热潮大概能持续多久呢
回复

使用道具 举报

     
发表于 2023-11-9 18:44 来自手机 | 显示全部楼层
除了文心一言,国内还有能用其他的ai吗
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-9 18:45 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-11-9 18:45 来自手机 | 显示全部楼层
感谢科普
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-9 18:48 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
 楼主| 发表于 2023-11-9 18:54 | 显示全部楼层
DFM_otto 发表于 2023-11-9 18:36
从我自己的体验上来说,文心一言和glm是最靠谱的两个,可以达到3.5上位替代的水平,未来国内市场很有可能是 ...

现在的这些体验并没有太多意义,因为工具app都是伪需求。连创世神chatgpt现在都远远无法盈利,而且数据其实很一般。
短期决胜显然在别的战场上,比如娱乐,这种就比拼产品力了,字节显然是有优势的。当然了,我在主楼也提到了很多它的问题,有些甚至是致命的,看它能不能克服了。我单纯觉得百度更烂罢了。
回复

使用道具 举报

     
 楼主| 发表于 2023-11-9 18:55 | 显示全部楼层
Lucario 发表于 2023-11-9 18:42
居然还有牌照么?没牌照的国内公司不给做大模型?

可以做,但不能对公众提供服务。你自己拿llama基座炼一个自己写小黄文出小黄图没人管的。
回复

使用道具 举报

     
发表于 2023-11-9 18:56 | 显示全部楼层
在经过虚拟货币,元宇宙,室温超导等一次次狼来了后,我现在看到啥科技新闻都很淡定了23年就剩2个月不到,还有啥象征工业革命到来一键咩鳖的神器都一起端上来吧

  -- 来自 能搜索的 Stage1官方 Android客户端
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-9 18:56 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-9 18:58 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-9 19:03 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-11-9 19:04 来自手机 | 显示全部楼层
智谱出了codegee,算是个下位替代
回复

使用道具 举报

     
 楼主| 发表于 2023-11-9 19:05 | 显示全部楼层
naiveyan 发表于 2023-11-9 18:36
等下,昆仑万维那个报告里不是说百川和通义千问也过拟合了吗?怎么只喷智谱的?
以及这两天发了一波软文的 ...

百川这次也被打脸了,但这事之前干的不多,所以也就嘲笑一下。
GLM可是老刷子了,性质不一样的。
Qwen,谁?(无关心
回复

使用道具 举报

     
 楼主| 发表于 2023-11-9 19:06 | 显示全部楼层
shutup 发表于 2023-11-9 19:03
这里说的都是大语言模型吗?还是说包括其他类型AI

都是基于Transformer的LLM,或者说“这一代”通用语言模型,架构在此上的图像和语音能力也在讨论范围内。
回复

使用道具 举报

     
发表于 2023-11-9 19:07 | 显示全部楼层
sagajytc 发表于 2023-11-9 18:11
今天赶报告用了文心一言4.0
上传一堆素材后告诉我要“3-5个工作日”
我寻思着你AI还要周末休息的? ...

ai帮你转人工
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-11-9 19:12 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-31 07:22 , Processed in 0.200035 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表