OpenAI发布O3

alixsander · 发表于 2024-12-22 12:57

本帖最后由 alixsander 于 2024-12-22 16:55 编辑

过去一天了没人讨论

基准测试结果：

ARC-AGI测试：87.5%

Codeforces Elo评分：2727

AIME 2024数学竞赛：96.7%

GPQA Diamond测试：87.7%

FrontierMath:25.2%

李少卿 · 发表于 2024-12-22 12:58

据说数学能力突飞猛进

—— 来自鹅球 v3.1.88.3

AshPenguin · 发表于 2024-12-22 13:00

但我不得不说一句 4o比o1-preview好用，所以这个o3能不能直接转换成生产力得试试才知道

Jet.Black · 发表于 2024-12-22 13:03

为啥最近几天各路懂哥都说OpenAI药丸？还说谷歌已经无敌了。

asion617 · 发表于 2024-12-22 13:03

这价格短时内跟我们一般plus订阅也没啥关系了

泰坦失足 · 发表于 2024-12-22 13:05

to 广大科研人员：
这是lab的4090，现在快用它来战胜o3吧。

泰坦失足 · 发表于 2024-12-22 13:07

Jet.Black 发表于 2024-12-22 13:03
为啥最近几天各路懂哥都说OpenAI药丸？还说谷歌已经无敌了。

谷歌在OpenAI的几个领域：视频生成，长推理模型，多模态模型上都赶上了OpenAI吧。和过去的GPT4时代，幽默Gemini才到GPT3.5水平有很大差距。
当然还有盘古大模型5.0....至少序号上比GPT4/O3大

juluck000 · 发表于 2024-12-22 13:08

A社c模聊擦边已经废了，赶紧来个代餐吧

UNICORN00 · 发表于 2024-12-22 13:45

成本绷不住了吧

—— 来自鹅球 v3.3.92

yanjunle · 发表于 2024-12-22 15:53

怎么不贴最哈人的swebench71.7%？提10个issue能修7个已经达到一般码农水平了吧，就看推理成本下降多快了。按arc-agi那边的说法，做一道题要14分钟3500刀，比码农贵太多了。
阿里预告说千问明年赶上，可惜按照qwq32b做题时动不动把自己绕进去用掉一两万token的表现看，正经修bug可能也要用几亿甚至几十亿token，推理成本还是降不下来。

Nanachi · 发表于 2024-12-22 16:00

四千美刀能回答宇宙的终极答案，就算是死也值回票价呀！

—— 来自鹅球 v3.3.92

张元英 · 发表于 2024-12-22 16:08

提示: 作者被禁止或删除内容自动屏蔽

宏. · 发表于 2024-12-22 16:12

Jet.Black 发表于 2024-12-22 13:03
为啥最近几天各路懂哥都说OpenAI药丸？还说谷歌已经无敌了。

WSJ的消息是烧了10亿美元之后效果不如预期，这就说明基础假设就让人怀疑了

OpenAI 的新人工智能项目进度落后，而且花费巨大。尚不清楚它何时或是否会成功。世界上可能没有足够的数据让它变得足够聪明。

该项目正式名称为 GPT-5，代号为 Orion，已筹备了 18 个多月，旨在成为 ChatGPT 技术的重大进步。知情人士称，OpenAI 最亲密的合作伙伴和最大的投资者微软原本预计将在 2024 年中期左右看到新模型。

OpenAI 已经进行了至少两次大规模训练，每次训练都需要数月时间处理大量数据，目的是让 Orion 变得更智能。据了解该项目的人士称，每次训练都会出现新问题，软件无法达到研究人员所期望的结果。

他们表示，Orion 的表现充其量比 OpenAI 目前的产品要好，但还不足以证明维持新模型运行的巨大成本是合理的。根据公共和私人对训练各个方面的估计，为期六个月的训练运行仅在计算成本方面就可能花费约 5 亿美元。

铃森冬 · 发表于 2024-12-22 16:37

力大砖飞式的工作，主要价值在于给投资人和围观群众展示 o1 的方法堆推理时间上限真的很高

不过话说回来推理成本降下去只是时间问题，保守估计两年降两个数量级肯定就比用人便宜了，以及说 AI 在某些任务上就是不行的可以闭嘴了

—— 来自鹅球 v3.3.92

依然荏苒 · 发表于 2024-12-22 16:44

张元英发表于 2024-12-22 16:08
sora吹半天拉了坨大的, 被打过脸的哪还敢轻信openai的营销了, 有些人已经开始喊openai天下第一营销了 ...

gpt如果是天下第一营销，那那些对标的算什么？

—— 来自鹅球 v3.2.91

zack2012 · 发表于 2024-12-22 17:09

有sora这个造假先例在，openai的东西还是先观望吧

撸一记 · 发表于 2024-12-22 17:15

本来openAI就是典型大力出奇迹，现在力竭了，建议学阿诺多扎几针

tillnight · 发表于 2024-12-22 17:16

裹挟全人类走上生成式人工智能这条可能完全歪了的AI道路当然不叫营销。实现AGI本来就有多种猜测和假想，在gpt之后只有一种了，确实不叫营销。

StarForceTi · 发表于 2024-12-22 17:34

Jet.Black 发表于 2024-12-22 13:03
为啥最近几天各路懂哥都说OpenAI药丸？还说谷歌已经无敌了。

谷歌免费的小模型就能有openai付费订阅的4o的水平，速度和延迟还更好

mrkikokiko · 发表于 2024-12-22 17:46

Jet.Black 发表于 2024-12-22 13:03
为啥最近几天各路懂哥都说OpenAI药丸？还说谷歌已经无敌了。

因为openai的领先越来越小，有些部分被反超，免费的开源模型能力也在接近，如果不能保持技术上的壁垒，那么openai凭什么以后能取得商业上的成功呢

mimighost · 发表于 2024-12-22 18:41

o3看来他们大力搞出了另一个路子

是不是agi不知道，但是做题已经超过99.9%的人类了

戏谑二次元 · 发表于 2024-12-22 18:43

资本市场对o3的反应怎么样？

瓦格雷 · 发表于 2024-12-22 18:44

Nanachi 发表于 2024-12-22 16:00
四千美刀能回答宇宙的终极答案，就算是死也值回票价呀！

—— 来自鹅球 v3.3.92 ...

我只要2000刀而且先给你答案 42

记得打钱

Fuero · 发表于 2024-12-22 18:53

pro订阅中，无限用o1还是爽的，不过再涨价就没啥心思续了

双刀少女 · 发表于 2024-12-22 19:00

码农朋友都在传这个，

还是很好奇它的实际工程能力

子虚乌有 · 发表于 2024-12-22 19:04

就一个劲吹呗

御坂MKII · 发表于 2024-12-22 19:11

cf 2727 蒙谁呢

Prolun · 发表于 2024-12-22 19:45

cf2727的确强

jeokeo · 发表于 2024-12-22 20:34

借地问问有没有办法给gpt充值？我喜欢用api按量扣费，不喜欢包月。

吴怀在 · 发表于 2024-12-22 20:41

本帖最后由吴怀在于 2024-12-22 20:43 编辑

开源模型才是未来

我就等个本地的视频模型了，我要在听萌萌二次元歌曲MV时能完成下一首MV的自动剪辑。

迟早的事，老黄不做人也会有其他家搞的

alixsander · 发表于 2024-12-22 21:16

吴怀在发表于 2024-12-22 20:41
开源模型才是未来
我就等个本地的视频模型了，我要在听萌萌二次元歌曲MV时能完成下一首MV的自动剪辑。

不是有hunyuan了么

猫屎盆子 · 发表于 2024-12-22 21:24

利好我们这种出事要背锅的岗位，AI永远不可能替人坐牢

無始無終 · 发表于 2024-12-23 07:56

Jet.Black 发表于 2024-12-22 13:03
为啥最近几天各路懂哥都说OpenAI药丸？还说谷歌已经无敌了。

因为谷歌爷爷真的做到了用小模型打掉OpenAI大模型

—— 来自 S1Fun

痴货 · 发表于 2024-12-23 09:03

目前推动的所谓AGI就是个很矛盾的概念。不同于工业革命，如果达成了的话导致大部分人工生产力被替代，大量人失业，这些打工人同时又是重要的消费者，消费需求肯定会一蹶不振，那么那些主推部署AI的公司的营业额从哪里获取，难不成都跑步进入计划经济了？

前不久Ilyad的演讲就提到了目前AI预训练碰到的天花板就是数据不够用了，除非另辟蹊径自动产生大量高质量的数据，但这个本身就是有些类似鸡和蛋哪个先有的问题。如果已经能够自动生成大量的高质量数据，那么生产数据的算法或者模型岂不是已经具有了AGI？

泰坦失足 · 发表于 2024-12-23 09:41

“2022年是AI最难的一年。
那一年风头最旺的Deepmind，AI2，都稳稳压OpenAI一头，那个年代像OpenAI的公司有十几个。
湾区搞deep learning的startup基本在疫情闪崩后死了一大半，根本融不到钱，当时A16z和红杉的钱，全都在币圈的NFT小图片、DAO、各种DeFi等五花八门的项目里。
OpenAI当时几乎快死了， GPT-3出来的时候，几乎没人看，也并不开放使用。
那天我记得很清楚，在Github上面，GPT-3是第一名，而你党哥也第一次上了github trending，排名第四，那时候我还用的是《请回答1988》里成德善的头像。
那一年，人民币基金全都在等着快手、滴滴等等一批互联网公司全球上市，解锁套现，而国产AI的四小龙、地平线、寒武纪等等当时被认为吊打OpenAI，一个个摩拳擦掌，等着代表中国商业力量IPO。
那一年，中美半导体制裁，孟晚舟一个人把华为拖入深渊，搞得国内各政府主导基金像应激一样all in大炼芯片，加上去年石破天惊拿到了8万亿土地出让金，国内各省市像下饺子一样大造AI芯片，而大洋彼岸，大傻逼Intel收购了Nervana和Harbana，跟Xilinx收购深鉴科技一样，成了冤大头。
那一年，北美一大批教授们都在融资搞mlsys，ml infra，一个个开源各种库，把pytorch封装了一遍又一遍，打算做成toB的业务，卖给未来人。
那一年，另一批华人教授们坐飞机回国，开始趁着AI浪潮立山头，无论搞optimization的还是搞baysian的，摇身一变，全都成了深度学习泰斗，成了北京、上海、深圳政府和国资委的座上宾，招兵买马，全国各地AI研究院如雨后春笋一般挂牌成立，高薪聘请工程师，继续大灌水。
那一年，搞imagen和GPT/bert路线的人，都跟孙子似的，在全世界融不到钱，被那些做federated learning（联邦学习）、causal inference（因果推断）、AI Ethics（AI伦理）、土味商业分析、手搭神经网络的各种牛鬼蛇神在VC市场里打得找不着北——VC们根本不相信，也想象不到stable diffusion和ChatGPT会诞生出来。
那一年，人们看OpenAI，就像看个小丑一样，人们都在看GPT-3如何被Google T5吊打，拿DALLE paper当作废纸。
那一年，是AI的至暗时刻。”

不走大模型这条路走啥呢，那些Task你一个Task训练一个模型，一个领域出一个ResNet？当时还有个很火的AUTO ML自动调参，现在也早没人说了.

泰坦失足 · 发表于 2024-12-23 09:47

痴货发表于 2024-12-23 09:03
目前推动的所谓AGI就是个很矛盾的概念。不同于工业革命，如果达成了的话导致大部分人工生产力被替代，大量 ...

AGI我看不知道啥时候才能出。但是推动Zeroshot/Fewshots就能完成任务的通用人形机器人，感觉有戏。比如最简单的做个鸡蛋灌饼，可能未来就是我演示下怎么做, 机器人就会做了。考虑到LLM现在还有几率发疯，重要岗位肯定还得是人，但是出点岔子也没事的地方就能用机器人了，可能是一个人类监督5到10个机器人，及时阻止出错的机器人。人形的好处是在各个领域都能用，以及淘汰的旧款能随便卖给别人。

空気力学 · 发表于 2024-12-23 09:51

泰坦失足发表于 2024-12-23 09:41
“2022年是AI最难的一年。
那一年风头最旺的Deepmind，AI2，都稳稳压OpenAI一头，那个年代像OpenAI的公司有 ...

说到底大语言模型也就革了NLP的命，把高级中文屋子吹成AGI的路已经要到头了

alixsander · 发表于 2024-12-23 10:13

空気力学发表于 2024-12-23 09:51
说到底大语言模型也就革了NLP的命，把高级中文屋子吹成AGI的路已经要到头了 ...

中文房间这种古早思辨根本没有价值

姑且不论不可能存在无限的LOOK UP TABLE给每个问题列出答案（换句话说LLM根本不是这么实现的，LLM本身是实现了对语言的建模，自回归只是实现模型输出的形式，而不是对训练集的重复）

如果有一个许愿机，能给你的每个问题都输出答案，那它就是全知全能的，和它的实现形式没有关系

空気力学 · 发表于 2024-12-23 12:27

alixsander 发表于 2024-12-23 10:13
中文房间这种古早思辨根本没有价值

姑且不论不可能存在无限的LOOK UP TABLE给每个问题列出答案（换句话 ...

你说的对，但是大语言模型（和语言）也就是中文屋式的局部索引和查表输出。这个输出无法实现熵减，完全没法支持大模型实现自举，所以Closed AI才说训练材料不够了。

alixsander · 发表于 2024-12-23 15:46

本帖最后由 alixsander 于 2024-12-23 15:51 编辑

空気力学发表于 2024-12-23 12:27
你说的对，但是大语言模型（和语言）也就是中文屋式的局部索引和查表输出。这个输出无法实现熵减，完全没 ...

迷惑发言：
1.熵减是热力学系统概念，越有序熵越低。信息熵定义不一样，信息越有价值信息熵越高，为什么要熵减？
2.当然可以自举，当前已经大量使用合成语料，大模型训小模型进行预训练了。预训练到头是ILYA说的，meta和OAI并不同意。
3.自然语言和LLM都不是词表映射。这几乎是不证自明的。1B模型就能正常说话，查找表能那么小？

现在还认为LLM是表象的next token prediction也太迟钝了，除非你说你没关心这块的发展。

就像LeCun之前认为的，LLM一定无药可救，因为仅仅是自回归猜字必然导致累积误差随输出增长而增大，必然导致长输出胡言乱语。

然而实际上呢，推理时越大（而且只是单纯的接字没有MCTS之类的东西）性能和洞察力越强，说明自回归只是输出它内在建模的手段而已，已经是不证自明的了

		自动登录	找回密码
密码			立即注册

[欢乐] OpenAI发布O3

本帖子中包含更多资源

评分

张元英张元英当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2018-11-25 头像被屏蔽	发表于 2024-12-22 16:08 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报