对AI这块不了解,所谓开源模型到底开源的啥玩意
本帖最后由 wtyrambo 于 2025-1-28 17:44 编辑网上搜了下定义,感觉这些所谓的“开源”都是狗屁,因为按照这些开源的部分,根本是没法完成复现训练出来一个同样的大模型的,和编程的源代码完全不是一回事
https://github.com/deepseek-ai/DeepSeek-V3
huggerface上已经给出模型,本身模型已经可以跑了
另外这些模型本身已经放到抱脸之后模型的结构是已经给出来的 本帖最后由 泰坦失足 于 2025-1-28 17:50 编辑
顶级的:训练代码,数据集,成品,技术报告全给你,没人这么做
次一点的:成品,技术报告全给你。如果技术报告造假的话,后面可不就没人信了。比如这次R1的报告,大家看到它有成品,自然相信这个报告上的路线。并且成品大多开放了各种许可证,你可以二次开发,二次使用。
OpenAI式:技术报告,语焉不详,但是好歹四次中了三次(大尺寸是必要的,大模型可以训练出多模态合一,Sora<-失败目前看来没起到世界模拟器作用,长推理是走的通的)。除了O1这次,之前的看着各种教你怎么验证性能,怎么微调优化还是很有启发的。
马神式:Grok1 300B超大尺寸代码,压根没法用,性能也不行。怒斥OpenAI不开源,轮到自己了,“诶呀我们说过Grok2开源啊?等Grok3出了我们就开源上一代的” FeteFete 发表于 2025-1-28 17:47
https://github.com/deepseek-ai/DeepSeek-V3
huggerface上已经给出模型,本身模型已经可以跑了
所以只能说是给你用,但是怎么做出来的呢?用的啥语料啥权重啥参数呢 wtyrambo 发表于 2025-1-28 17:49
所以只能说是给你用,但是怎么做出来的呢?用的啥语料啥权重啥参数呢
https://zhuanlan.zhihu.com/p/709272621
大概长这样,基本上告诉你哪条路走的通。不会自己训练半个月一看性能压根没提升。 wtyrambo 发表于 2025-1-28 17:49
所以只能说是给你用,但是怎么做出来的呢?用的啥语料啥权重啥参数呢
那这是啥 https://huggingface.co/blog/open-r1 源码开源本来也不是真开源,在现代软件架构越来越复杂的现在,内部的流程工具测试用例等等一坨不会彻底公开的东西反而可能重要
—— 来自 鹅球 v3.3.96 数据不可能开源,因为有版权问题,有些数据可以用,但不能重新发布(就像买的书可以看,但你不能翻印)
基础框架是技术积累,是加工厂,暂时不能开源,基础框架能做什么,要怎么发展,边界清晰,没什么秘密,大家都能逐渐积累,但是也确实需要积累。
模型权重开源,已经做得很好了,相当于这个产品免费属于全人类。
—— 来自 鹅球 v3.3.96 模型权重开源
是可以重新部署推理,并且可以永各种推理工具优化
模型开源后,可以根据论文自己搭建,至于自己训练和数据集,各家都有各家的东西,这个属于商业机密了 我的文科生理解就是
把九阴真经公开
但你要练成还是要功力基础,配合服用的丹药也要自己花钱 有些项目是真开源的,训练集和代码都给你的那种
开放权重open weights也不是狗屁,只要许可证没问题,还是能拿来干很多事的,自己部署,量化,微调训练都可以 数据集这个东西,不一定拿的到或者下的到,但是通常国内论文你用啥玩意儿训练的论文里不可能不写,因为数据集这玩意儿本身也是有说法的
然后代码是开的最多,基本都会公开出来,理论上要使用的话代码+训练模型两个东西就能用了
如果你要从训练开始重现,你要达到大模型的需求,你就不可能是中小实验室,个人而言很多时候就压根不看了,之后欧美那边一串大多压根不说自己开源
你真要找,刚去看了眼DeepSeek新的VL的论文,用啥数据的都给你列出来了,数据占比啥的都有 wtyrambo 发表于 2025-1-28 17:42
网上搜了下定义,感觉这些所谓的“开源”都是狗屁,因为按照这些开源的部分,根本是没法完成复现训练出来一 ...
就像网游,这个开源了服务器exe你就能自己架私服了,也能在这基础上开发99倍掉落新怪物的魔改新游戏。
相对于只有官服,没事就封号禁言的当然自由n倍。。。
整个源码,原画高模都给的那种“开源”也就如rm这种做引擎的会干了。 moekyo 发表于 2025-1-28 17:52
那这是啥 https://huggingface.co/blog/open-r1
这是别人根据论文复现的 泰坦失足 发表于 2025-1-28 17:48
顶级的:训练代码,数据集,成品,技术报告全给你,没人这么做
次一点的:成品,技术报告全给你。如果技术 ...
开源程度顶级的有 ai2公司的一系列 不过性能确实不是顶级
论坛助手,iPhone 软件源代码也没交代设计思想呀。 本帖最后由 lin2004 于 2025-1-28 19:05 编辑
DARK_HGCG 发表于 2025-1-28 18:03
我的文科生理解就是
把九阴真经公开
但你要练成还是要功力基础,配合服用的丹药也要自己花钱 ...
尼这也太抽象了。
源码:一台播放器硬件
权重:播放器各类可调节参数
成品:放着这台播放器的私人小放映厅
数据:播放器被工人调试好存好是内置的影片片源和各种编辑成的播放列表啥的
使用者只会对这间放映厅的使用感做评价,很主观的东西,数据存哪些怎么存和播放器的音响啊视频啊的参数调试就是关键技术活 wtyrambo 发表于 2025-1-28 17:42
网上搜了下定义,感觉这些所谓的“开源”都是狗屁,因为按照这些开源的部分,根本是没法完成复现训练出来一 ...
此外LLM和源码不一样,就算给数据集,个人也没500万电费从头开始训练,各种数据清洗也不是一个人的活,至少得个全职团队来。
所以给源码+exe和只给允许MOD的exe对绝大多数用户没有区别。 万恶淫猥手 发表于 2025-1-28 18:51
这是别人根据论文复现的
这还不是开源吗 本帖最后由 FeteFete 于 2025-1-28 19:56 编辑
给出模型后,可以用吗模型做很多推理优化
这里官方很贴心给出了vllm rt等等推理架构的方案,说明他们已经调试过
包括泥潭在内全球所有单机用户,都可以依托这些推理工具进行二次优化,甚至进一步升级
只要你本机硬件显存足够
有了推理工具,甚至可以根据最新的那些推理工具和算子写二开 (你可以理解为mod)
用vllm甚至可以把显存尺度进一步拉低(没用过vllm)
这几年技术的普及,各类工具和推理优化技术都已经集成到各类框架里面
有论文和模型,乃至参数
各个大学公司实验室
可以在技术路线上进行开放和搭积木
当然我本人不是做这一快等等就不扯淡了
页:
[1]