泰坦失足 发表于 2024-7-24 18:22

李彦宏: 开源大模型不如闭源,扎克伯格: 开源AI是未来发展之路


Meta刚发布了Llama3.1 405b,性能对标GPT4o。最低的Int4量化要200G内存,并且输入128K文本时候要使用123.05G内存。过去直接载入70b模型到80G VRAM的,这次笑不出来了。
扎克伯格随着405b的发布写的公开信:

在高性能计算的早期阶段,各大科技公司都投入巨资开发各自的闭源版Unix。当时很难想象,会有任何其他方法可以开发出如此先进的软件。但最终,开源Linux获得了普及,这最初是因为它允许开发人员随意修改其代码,而且价格更实惠。随着时间的推移,它变得更加先进、更加安全,并且拥有比任何闭源Unix支持更多功能的更广泛生态系统。如今,Linux 是云计算和驱动大多数移动设备的操作系统的行业标准基础,促使了卓越产品的诞生,让我们全都受益。

我相信AI也会以类似的方式发展。今天,几家科技公司正在开发领先的闭源模型。但是,开源模型正在迅速缩小差距。去年,Llama 2的性能仅与领先模型的上一代产品相当。今年,Llama 3可与最先进的模型相媲美,并在某些领域处于领先地位。从明年开始,我们预计未来的Llama模型将成为业内最先进的大模型。但是即便在此之前,Llama已经在开放性、可修改性和成本效益方面处于领先地位。

开源AI有益于开发者。我们需要训练、微调和提炼我们自己的模型。每个组织都有不同的需求,最好使用不同大小的模型来满足这些需求,这些模型是根据其特定数据进行训练或微调的。设备上的任务和分类任务需要小型模型,而更复杂的任务则需要更大的模型。现在,你将能够采用最先进的Llama模型,继续使用你自己的数据进行训练,然后将它们提炼成最佳大小的模型,而无需我们或任何其他人查看你的数据。

开源AI有益于Meta。Meta的商业模式是为人们打造最佳体验和服务。要做到这一点,我们必须确保我们始终能够使用最好的技术,并且不会陷入竞争对手的封闭生态系统,因为竞争对手会限制我们构建内容。

开源AI有益于世界。我相信开源对于建立一个美好的AI未来必不可少。与任何其他现代技术相比,AI更有潜力提高人类的生产力、创造力和生活质量,并加速经济增长,同时推动医学和科学研究的进步。开源将确保世界上更多的人能够享受AI带来的好处和机会,避免权力集中在少数公司手中,让该技术更均衡、更安全地应用于整个社会。

与此同时三个月前的李彦宏:

李彦宏近期在内部讲话中对大模型开源还是闭源等业界焦点话题,发表看法。

4月11日,澎湃新闻获悉,百度(Nasdaq:BIDU,09888.HK)创始人、董事长兼首席执行官李彦宏谈及文心大模型为何不开源时表示:“一年前文心刚刚发布的时候,我们内部是有过非常激烈的讨论的,最后当然大家也知道这个结果,我们的决定是不开源。为什么不开源?当时的判断是,市场上一定会有开源的模型,而且是不止一家会开源。在这种情况下,多百度一家开源不多,少百度一家开源也不少。”

李彦宏认为,目前国外像Llama(编注:Meta开源模型),Mistral(编注:法国人工智能初创公司 Mistral发布的模型)都有相当的影响力,国内的智源、百川、阿里的通义也都是开源模型,市场上不缺百度这一家开源的模型。百度要开源还得自己去维护一套开源的版本,这不划算。

在李彦宏看来,开源模型均是在外头零零散散小规模地去做各种各样的验证应用,没有经过大算力的验证,而且模型开源不是一个众人拾柴火焰高的情况,闭源模型能力会持续领先,“虽然Llama也鼓励大家去贡献各种各样的数据、代码,但是实际上大家明白最主要的开发者就是Meta这些人,它并不是一个真正由大家一起来协同开发的产品。”

面对模型开源与闭源,李彦宏的判断是,闭源才有真正的商业模式,才能聚集人才和算力。

“闭源,是能够赚到钱的,能够赚到钱才能聚集算力、聚集人才。其实也很简单,大家比较一下,比如硅谷有一个优秀的人才,他有OpenAI的offer,有Meta的offer,有Llama的offer,他会去哪儿?这是非常显而易见的选择。”李彦宏说。

除了聚集人才和算力,闭源在成本上的优势也被李彦宏提及。李彦宏认为,在同能力下,闭源模型的推理成本更低、响应速度更快。同等参数的情况下,闭源模型的能力更强。

李彦宏表示:“今天不管是在中国也好、在美国也好,最强的基础模型都是闭源的,而各种各样的小模型、最好的小模型,都是通过大模型蒸馏来的。通过大模型降维做出来的模型就是更好的,这样也会导致闭源在成本上、在效率上也会有优势。”

据悉,百度在去年8月官宣开放“文心一言”之后,一方面在C端用大模型重构用户侧产品,将AI功能接入百度系的多个产品,另一方面,在B端,通过云业务推出企业级一站式大模型平台“千帆大模型平台”。

财报显示,百度2023年的研发支出为242亿元,较2022年增长4%。百度在财报中表示,这主要由于支持生成式AI研发投入的服务器的折旧开支及服务器机架费增加。百度表示,2023年,文心一言使用量与文心大模型API调用量均保持高速增长,而随着文心大模型的推理成本持续下降,训练效率持续提升,自2023年3月至12月底,文心大模型基本已将推理成本降低至原有的1%。

澎湃新闻记者梳理发现,如果回看李彦宏近几个月对于大模型的观点,多数集中在“应用”方面。他一直认为创业者卷大模型没有意义,卷应用机会更大。

在这次内部谈话中,李彦宏也着重谈及创业者为何可以依赖文心大模型。他认为既做模型又做应用的“双轮驱动”,对创业公司不是好模式,创业公司的精力和资源都很有限,更应该专注。对于AI创业者来说,真正的优势是在某一个领域的知识、数据,“市面上有这么多模型,大的、小的、开源的、闭源的,在特定应用当中怎么样使用这些模型的组合,是有技巧的,这是创业者可以干的事儿,是可以提供价值增益的。”

对于基础模型会不会“通吃”AI应用,看到有人应用做得好,就抄过来,李彦宏以拼多多、滴滴举例说:“大家去看一看,在移动时代,微信没有去吃掉拼多多,滴滴也没有变成腾讯的一部分,它们都各自提供了自己独特的价值,有自己非常不一样的竞争力,它们的兴起都是依赖移动生态里的一个封闭平台——微信,但是它们并不怕微信去抢它的饭碗,所以没有必要担心基础模型通吃AI应用。”

百度2月28日发布的2023年第四季度及全年财报显示,百度去年总营收达1345.98亿元,同比增长9%;归属百度的净利润(non-GAAP)287亿元,同比增速达39%;四季度营收349.51亿元,同比增长6%,归属百度的净利润(non-GAAP)77.55亿元,同比大涨44%。2023年,百度全年营收和利润均超市场预期。李彦宏在财报会上预计,2024年生成式人工智能与基础模型业务将为百度带来数十亿元人民币的增量收入,这也将为百度的总收入带来正向影响。

截至2023年12月,百度App的MAU(月活跃用户)达到6.67亿,同比增长3%。

燕山雪 发表于 2024-7-24 20:19

本帖最后由 燕山雪 于 2024-7-24 20:20 编辑

百度ai自己玩的时候还算国内领先的,艳红一重视就做成一坨屎了。其实他讲话那会文心已经比不过llama2了,不知道哪来的脸在那大放厥词

samfs 发表于 2024-7-24 20:29

百度在大模型部分几乎没有展示出一点先发优势,倒是智能驾驶是国内相对较早落地的

Nanachi 发表于 2024-7-24 20:46

假开源真噱头?Meta再陷开源争议 LeCun被炮轰Meta只是开放模型

新智元   2024-07-19 15:13:03

摘要:
大模型开源的热潮下,隐藏着诸多问题,从定义的模糊到实际开放内容的局限性,Lecun再陷Meta大模型是否真开源的质疑风波只是冰山一角。在热火朝天的大模型市场,早已形成了“开源派”和“闭源派”两大门派。开源被视为技术共享和创新的一种重要方式。实际上,大模型开源相比传统软件开源,情况要更加复杂。

在开源的定义、性质、开放内容和开源策略上都有不同的标准和内容。

因此,“开源派”的帽子并不是那么好戴的。



Meta发布了Llama系列生成AI模型的最新版本Llama 3 8B和Llama 3 70B并宣称是完全开源的,就引来了许多质疑。

Llama 3模型并不是真正意义的开源,至少不是按照最严格定义的开源。

开源意味着研究开发人员可以自由选择如何使用这些模型,不受限制。

但在Llama 3的一些案例中,Meta对于一些许可的授权进行了限制。

例如,Llama模型不能用于训练其他模型;拥有超过7亿月活跃用户的应用程序开发人员则必须向Meta申请特殊许可证。

许多学者和研究机构也注意到了对于“开源”一词的滥用情况,许多标榜为“开源”的大模型都存在重大限制,“真假开源”存疑。

diss闭源却“翻车”?

Meta掌门人Mark Zuckerberg在上周四发表的一篇访谈中谈到了他对人工智能未来的看法,他深信“不会只有一种人工智能”。

Zuckerberg着重强调了开源的价值,即把人工智能工具交到许多人手中。

他还不忘diss那些他认为不够开放的竞争对手,并补充说他们似乎认为自己在“创造上帝”。



小扎的采访句句绵里藏针,原话也有许多值得细品的点。

“I find it a pretty big turnoff when people in the tech industry…talk about building this ‘one true AI,’ It’s almost as if they kind of think they’re creating God or something and…it’s just—that’s not what we’re doing, I don’t think that’s how this plays out.”

当科技行业的人...谈论打造“唯一真正的人工智能”时,我觉得这让人非常反感。这几乎就像是他们认为自己在创造上帝之类的东西,而这根本不是我们正在做的事情,我也不认为事情会这样发展。

小扎认为,打造唯一真正的AI听上去刺耳又令人反胃,暗含一种垄断和控制的野心,你是“唯一真正的AI”,那其他AI都是歪门邪道?

其次,创造上帝是用来讽刺追求“唯一真正的AI”的人,狂妄地想要把握AI领域的绝对话语权。

最后,小扎赶紧和这些人划清界限,不是一路人。

可见,小扎认为AI世界应该是百花齐放、百家争鸣的,一家独大绝不可取。

CEO的言论也代表了Meta的态度,Meta一直以来都宣传秉持着开放的态度,Zuckerberg更是开源的坚定支持者。

diss一出也会面临各种评论“diss back”的挑战,你说你是开源,真的吗?

Meta的首席人工智能科学家Yann LeCun上个月在LinkedIn上发布了有关 Meta公司免费发布大型语言模型战略的帖子。

一些评论者对其做法大加赞赏,称其正在“重塑行业合作”。

也有人不同意LeCun将这一战略描述为“开源”。

一位评论者写道,“这绝对只能叫做开放模式而非开源,称某些东西为开源而实则并非开源,实在是对开源运动的曲解。”

另一位评论者说,“很遗憾,在这种情况下,开源只是数据洗钱的营销手段。”

第三位专家建议Meta将Llama模型称为“开放权重”,而不是“开源”。因为该公司共享模型权重,但不共享训练数据等信息。

这似乎是语义学上的争论。但是,一些模型,包括Meta、法国Mistral和德国Aleph Alpha的模型,是否真正开源,已经成为人工智能工作者,尤其是学术研究人员之间反复争论的问题。

对于这个问题的答案也会带来相关政策的导向。

欧盟的《人工智能法》规定,开源模型不受某些法条的限制。

如果欧盟认为某个模型是开源的,那么它可能会要求模型制作者必须公开关于如何开发模型的信息。

什么才算“开源”?

这种争论源于开源人工智能缺乏一个明确的定义。

为开源软件制定标准的“开源计划”目前正在制定开源人工智能的定义。

它对开源软件的定义有几个标准,包括软件必须允许自由再分发并包含源代码。

除此之外,该非营利组织和其他开源软件的支持者还强调技术的透明度和同行评审制度。

但一些开源支持者表示,开源软件的传统定义并不能很好地诠释AI大模型开源。

软件开源是指源代码的开源,拿到源代码就能“知其然而知其所以然”,可以在源代码的基础上,进行修改优化或增加新功能。

然而,许多自称开源的大模型开发者并不是真正的开源,虽然这些大模型提供了部分代码和训练好的权重,但在训练数据和具体训练过程透明度却有所欠缺,或者很少分享他们的模型是如何训练和微调的。

例如,Meta的Llama3要求月活跃用户超过7亿的公司申请许可证,而这些公司的申请后享有的权利可能比Llama3的一般协议还要少。

OSI尚未批准Meta的许可证,这表明该组织认为开发者遵循了其开放源码软件标准。

OSI执行董事Stefano Maffulli在接受TechCrunch采访时说,“参与评审的其他人都完全同意,Llama本身不能被视为开源。与我交谈过的在Meta工作的人都知道,这有点牵强。”

在OSI为开源人工智能下定义的同时,一些研究人员和学者也开始自己动手。

荷兰拉德布德大学语言研究中心的教授们上个月提出了一个新的框架,用于评估一个模型是否开源,该框架基于可用性、文档和访问许可相关的14项标准。

该框架并不敲定一个模型的代码是开放的还是封闭的,而是为14项标准中的每一项划定一个等级:开放、部分开放或封闭。



因此 ,在这一框架下,Meta的Llama2被评为封闭代码,而不是开放代码。

因为“该模型的源代码都没有公开,而且只共享了运行该模型的脚本”。

相比之下,研究小组BigScience Workshop的BloomZ模型在这一标准上被评为开放,因为它“提供了用于训练、微调和运行模型的源代码”。

论文作者、拉德布德大学语言技术助理教授Andreas Liesenfeld表示,“我们发现,模型制造商存在过度营销的问题,他们将自己的产品宣传得比他们所说的更开放。”

他补充说,“如果不了解模型是如何训练的以及训练的内容,就很难解决法律责任和公平性的问题。”

与此类似,斯坦福大学基金会模型研究中心的研究人员去年10月推出了基金会模型透明度指数,根据100项指标来衡量模型开发商的透明度。



论文地址:https://hai.stanford.edu/news/introducing-foundation-model-transparency-indexhttps://crfm.stanford.edu/fmti/fmti.pdf

该指数给Meta在模型基础知识、访问和能力方面的透明度打了高分,但在数据和劳动力方面的透明度较低。

该指数的共同创建者、斯坦福大学计算机科学副教授Percy Liang说,“拥有开放权重或开放源代码的模型、训练数据和代码,对于学术机构、研究人员或只想了解科学的公司来说,将是一个巨大的好处。”

大模型作为一个黑匣子,模型中可能存在各种不确定的东西,只有对模型所训练的数据有实际的保证,才能真正确保模型足够“开源”。

开源内容的局限性

一般开放的内容

在绝大多数宣称自己是开源模型的案例中,开源大模型通常只开放以下几部分内容。

代码:实现大模型训练和推理所需的代码,包括模型架构、训练算法、模型推理等核心代码。

这些代码让开发者能够理解模型的基本结构和推理过程,但无法完全复现或改进模型,增加功能等等。

权重:训练完成后得到的模型参数,这些参数是模型在推理过程中所需的核心要素。

权重数据使得开发者能够在现有模型基础上进行相关推理,但对模型的核心训练细节,例如如何进行模型训练却一无所知。

例如,Meta的Llama系列模型只开放了模型的权重和部分代码,而对训练数据和具体训练过程的详细信息却守口如瓶。

这种有限的开放使得开发者只能使用现有模型进行推理,依葫芦画瓢,而无法深入理解或改进模型。

未开放的关键内容

然而,对于大模型来说,真正决定其性能的关键在于这些通常保密的训练数据和训练过程。

训练数据:原始训练用的数据集和数据来源,以及在训练过程中进行数据处理和预处理的细节。

这些数据通常包含大量的高质量、有代表性的文本数据,对模型的性能至关重要。

然而,大部分开源模型并未公开这些训练数据。

例如,Llama系列模型虽然提供了训练好的权重,但并未公开其训练所用的数据集及其详细信息。

缺乏这些数据,开发者就无法对模型进行重新训练或在相似任务上进行微调。

训练过程:具体的训练步骤、参数设置、优化方法等。

这些细节决定了模型的训练效果和最终性能,但在所谓的“开源”大模型中,这些信息往往是闭源的。

例如,尽管一些大模型提供了部分代码和权重,但训练过程中使用的超参数、数据增强方法、训练策略等关键细节并未公开。

这种不完全开放的做法使得开发者在复现模型时面临诸多困难,无法真正掌握模型的核心技术,限制了他们对模型进行优化和改进的能力。

实际上,它们提供的只是使用现有模型的使用便利,而不是完全的技术透明和开发自由。

samfs 发表于 2024-7-24 21:20

大多数小公司没有训练大模型的财力,许多行业数据根本永远也不能放到公有云去训练,一个授权协议宽松的开放模型可以让小公司和个人也能微调出接近自己需要的结果,总比全封闭强点

诚司 发表于 2024-7-24 21:52

普通论坛用户 发表于 2024-7-24 22:17

yanjunle 发表于 2024-7-24 22:22


贴公开信怎么不把这段也贴出来呢
好奇现在还有1tb的thumb drive卖吗?狗东上搜了下全是移动固态硬盘

天地一机成化育 发表于 2024-7-24 23:13

405B要运行起来推理的话, 需要投入多少资金?

↓↘→AB 发表于 2024-7-25 00:52

自机跑开源模型的成本已经大于4omini了,百万token 1人刀。一张4090就算能放下全部参数,用开源框架一天能不能跑出3百万token都是问题,3块钱只是个电费,还有20块显卡钱。前两天sam altman在推上说4omini每日处理200B token,也就是每日20万人刀,推算每年1亿左右的流水。1亿只够支持1千张H100,1万张4090,目测是亏本赚吆喝,作为用户自然是能薅且薅。

— from Razer Phone 2, Android 9 of S1 Next Goose v2.5.2-play

泰坦失足 发表于 2024-7-25 04:41

yanjunle 发表于 2024-7-24 22:22
贴公开信怎么不把这段也贴出来呢
好奇现在还有1tb的thumb drive卖吗?狗东上搜了下全是移动固态硬盘 ...

看的是中文翻译版,所以说还真没见到。按理来说是并驾齐驱,可灵比sora更早开放,玩了几天,挺有意思的。

lixianfyss 发表于 2024-7-25 04:59

yanjunle 发表于 2024-7-24 22:22
贴公开信怎么不把这段也贴出来呢
好奇现在还有1tb的thumb drive卖吗?狗东上搜了下全是移动固态硬盘 ...

明白人,李总看的比绝大多数人长远,闭源是一盘大棋。

mimighost 发表于 2024-7-25 05:45

天地一机成化育 发表于 2024-7-24 23:13
405B要运行起来推理的话, 需要投入多少资金?

8卡a100至少

自己买的话,100w人民币吧

mimighost 发表于 2024-7-25 05:50

本帖最后由 mimighost 于 2024-7-25 05:53 编辑

lixianfyss 发表于 2024-7-25 04:59
明白人,李总看的比绝大多数人长远,闭源是一盘大棋。
闭源比开源强才是一盘大棋

否则就是闹剧

llama 3.1一出,我可以说除了openai和anthropic,勉强带上一个google,其他闭源模型统统可以去歇菜,因为这model你可以随便蒸馏,基本就是打开大门让你偷。小扎还是狠,直接把很多人清盘送走了,什么mistral之流,统统都💊

泰坦失足 发表于 2024-7-25 07:21

mimighost 发表于 2024-7-25 05:45
8卡a100至少

自己买的话,100w人民币吧

算了下还真是,以后更不可能看见老黄给消费级显卡大VRAM了。70b两块4090就能跑量化模型和微调,450b的硬件要求太夸张了

無始無終 发表于 2024-7-25 07:29

↓↘→AB 发表于 2024-7-25 00:52
自机跑开源模型的成本已经大于4omini了,百万token 1人刀。一张4090就算能放下全部参数,用开源框架一天能 ...

开放平台比本地部署模型便宜是个趋势,DeepSeek拿着只有友商十分之一乃至百分之一的价格提供同级甚至更优的模型的时候,我就感觉以后除了特殊需求以外,本地部署大模型就纯粹是折腾行为了

—— 来自 S1Fun

燕山雪 发表于 2024-7-25 09:31

诚司 发表于 2024-7-24 21:52
不一定比llama3强,但比和llama2比还是算了,llama2基本就没好过

是llama3,笔误了

yanjunle 发表于 2024-7-25 09:51

lixianfyss 发表于 2024-7-25 04:59
明白人,李总看的比绝大多数人长远,闭源是一盘大棋。

比起大棋,更像是李总吸取了自己以前做开源的教训
李总之前开源过paddleocr和apollo,东西都挺好,可惜既没有打击到闭源竞争对手,也没有提升自己和百度的声望

naalo2 发表于 2024-7-25 09:53

mimighost 发表于 2024-7-25 05:50
闭源比开源强才是一盘大棋

否则就是闹剧


剑指 Meta:Mistral Large2 凌晨开源,媲美 Llama3.1
测试截图笑喷2333
https://53ai.com/news/OpenSourceLLM/2024072589160.html

naalo2 发表于 2024-7-25 10:01

無始無終 发表于 2024-7-25 07:29
开放平台比本地部署模型便宜是个趋势,DeepSeek拿着只有友商十分之一乃至百分之一的价格提供同级甚至更优 ...

求教一下,大陆能用的哪个平台比较强

lilod 发表于 2024-7-25 10:08

开源 + 模型量化就是普通人接触 AI 最好的方式

yanjunle 发表于 2024-7-25 10:30

本帖最后由 yanjunle 于 2024-7-25 10:33 编辑

mimighost 发表于 2024-7-25 05:50
闭源比开源强才是一盘大棋

否则就是闹剧


https://mistral.ai/news/mistral-large-2407/
mistral今天直接投降了,放弃小模型和moe路线,专注nemo-12b,codestral-22b,large-123b这种meta不做的尺寸
以后小模型靠智谱扛旗,moe靠幻方扛旗了

三千珈蓝 发表于 2024-7-25 11:51

samfs 发表于 2024-7-24 20:29
百度在大模型部分几乎没有展示出一点先发优势,倒是智能驾驶是国内相对较早落地的 ...

智能驾驶他们先发那么多年了,要是还被后来者抢跑落地,那这么多年真就一事无成了

诚司 发表于 2024-7-25 14:00

mimighost 发表于 2024-7-25 15:14

yanjunle 发表于 2024-7-25 10:30
https://mistral.ai/news/mistral-large-2407/
mistral今天直接投降了,放弃小模型和moe路线,专注nemo-1 ...

也不算吧,毕竟mistral large 2这个不能商用

不过大量的人肯定会直接投奔llama 3.1 70b,先微调了再说,为啥要买你mistral的license

無始無終 发表于 2024-7-25 17:43

naalo2 发表于 2024-7-25 10:01
求教一下,大陆能用的哪个平台比较强

我目前没有多模态和MoE需求,用的是DeepSeek,主要是图便宜而且性能比较强
不过看知乎上有人反馈,DeepSeek最近在一些领域搞左脚踩右脚上天式的微调(超级对齐?),搞的一些原本能答对的问题现在答错了,就很……

—— 来自 S1Fun

leviathan 发表于 2024-7-25 20:02

天地一机成化育 发表于 2024-7-25 20:14

单单这两段话的对比, 很明显扎克伯格务虚, 李彦宏务实, 感觉最近李彦宏有点脱离互联网思维, 回归传统行业思维的意思了, 不再追求先垄断再盈利, 都是能盈利那我就直接盈利, 不烧钱抢市场了.文心一言国内最早开始收费的, 甚至目前国内都还没有其他人跟进, 萝卜快跑也是刚启动就可以收支平衡了.
页: [1]
查看完整版本: 李彦宏: 开源大模型不如闭源,扎克伯格: 开源AI是未来发展之路