OAI发布O1

ZekNagPul · 发表于 2024-9-13 09:52

本帖最后由 ZekNagPul 于 2024-9-13 09:55 编辑

OAI发布了传说中的strawberry，数学能力提升巨大，直接到奥赛金牌水平了

https://mp.weixin.qq.com/s/sGcx90Q_uI8se-DKosj9dw

spacious · 发表于 2024-9-13 09:56

考试直接用？

瓦格雷 · 发表于 2024-9-13 09:56

10.7和10.11谁大

Van夫膜开 · 发表于 2024-9-13 09:59

看网上评测，还是解决不了9.11和9.8哪个大的问题

ZekNagPul · 发表于 2024-9-13 10:15

瓦格雷发表于 2024-9-13 09:56
10.7和10.11谁大

早八百年解决的tokenizer问题

ryanghj · 发表于 2024-9-13 10:32

本帖最后由 ryanghj 于 2024-9-13 10:36 编辑

大韩李明博 · 发表于 2024-9-13 10:38

没解决吧。

cnwind042 · 发表于 2024-9-13 10:43

满腹经纶的人工智障？

hencechen · 发表于 2024-9-13 10:45

本帖最后由 hencechen 于 2024-9-13 10:59 编辑

研究表明，这个策略是有效的。因为如果直接随机提交一个答案，则平均得分仅有 156。这说明在该竞赛条件下，这个策略至少值 60 分。

OpenAI 发现，如果放宽提交限制条件，则模型性能更是能大幅提升。如果每个问题允许提交 1 万次答案，即使不使用上述测试时选取策略，该模型也能得到 362.14 分——可以得金牌了。

只能说谨慎乐观吧，说白了还是力大飞砖。问题是”人类的考试是一次性作答，需要独立的判断答案的正确性“，这种所谓的超越奥赛人类金牌，只不过还是用那种crash战术，没法真正的"识别”有价值的正确答案。本质上，和stable diffusion一口气出1000张色图，但是只能靠人类肉眼挑出没有六只手指的“正常色图”有什么区别？

lix310 · 发表于 2024-9-13 10:45

本帖最后由 lix310 于 2024-9-13 10:47 编辑

ZekNagPul 发表于 2024-9-13 10:15
早八百年解决的tokenizer问题

4o没解决，多刷几次能刷出正确答案，但也能刷出错误答案，看ai心情

o1应该是解决了

ZekNagPul · 发表于 2024-9-13 10:49

本帖最后由 ZekNagPul 于 2024-9-13 10:51 编辑

大韩李明博发表于 2024-9-13 10:38
没解决吧。

强制要求它推导就行，我试了几次都是正确的

Linjiangzhu · 发表于 2024-9-13 10:51

比大小不是说是分词器的问题吗，我看这也没解决啊

这o1不就是用RL调了个Cot特化的模型出来，基底模型没多大变化，我看LLM大概也就走到头了。

— from S1 Next Goose v3.1.89

万恶淫猥手 · 发表于 2024-9-13 10:58

Linjiangzhu 发表于 2024-9-13 10:51
比大小不是说是分词器的问题吗，我看这也没解决啊
这o1不就是用RL调了个Cot特化的模型出来，基底模型没多大 ...

纵向发展受阻也不能不允许人家不能横向发展不是，好歹也是在尝试新方向。

不过营销上肯定算翻车了

万恶淫猥手 · 发表于 2024-9-13 11:02

其实在很多问题上，新模型上 CoT 之后比目前大部分用户的裸用的效果会好上很多

比如这个： 10 分钟利用 OpenAI o1 和 Cursor 开发一个 SwiftUI 天气应用

https://www.bilibili.com/video/BV1fq4tevEeN/

jinmaple · 发表于 2024-9-13 11:11

提示: 作者被禁止或删除内容自动屏蔽

masterkeaton · 发表于 2024-9-13 11:12

Linjiangzhu 发表于 2024-9-13 10:51
比大小不是说是分词器的问题吗，我看这也没解决啊
这o1不就是用RL调了个Cot特化的模型出来，基底模型没多大 ...

我觉得继续上规模压力太大，所以先横向释放些应用出来。
从现在功能来看，能应用的场景很大

masterkeaton · 发表于 2024-9-13 11:14

hencechen 发表于 2024-9-13 10:45
只能说谨慎乐观吧，说白了还是力大飞砖。问题是”人类的考试是一次性作答，需要独立的判断答案的正确性“ ...

这可以了，给出1000份乃至1w份后选里可能由真正答案都比人类从头想出一个要进步的多

yeo · 发表于 2024-9-13 11:17

ZekNagPul 发表于 2024-9-13 10:15
早八百年解决的tokenizer问题

tokenizer问题可太本质，本质到难以解决了

因为无法给每个数字一个token

tillnight · 发表于 2024-9-13 11:32

masterkeaton 发表于 2024-9-13 11:14
这可以了，给出1000份乃至1w份后选里可能由真正答案都比人类从头想出一个要进步的多 ...

是谁给你的勇气让你觉得他能给的答案超过人类已经想出的范围？

masterkeaton · 发表于 2024-9-13 11:35

tillnight 发表于 2024-9-13 11:32
是谁给你的勇气让你觉得他能给的答案超过人类已经想出的范围？

很多问题是我想不出来但可以分辨出来啊
难道有个完美的立在顶端的人类？

aithinkso · 发表于 2024-9-13 11:57

赛博姜萍

—— 来自鹅球 v3.1.88.3

treexper · 发表于 2024-9-13 12:07

强制触发cot后就可以解决。否则是否正确随机。

泰坦失足 · 发表于 2024-9-13 12:11

本帖最后由泰坦失足于 2024-9-13 12:38 编辑

LLM界有鱼目混珠的，有滥竽充数的，但是SOTA方法毫无疑问被LLM彻底刷榜了。过去的BERT/LTSM/RNN/Word2Vector你标到死，也做不到现在这些能力啊。多模态领域在图像识别上，也展现出了吓人的零样本识别能力。比元宇宙几乎都是骗子好多了，也比5G应用不知道高到哪里去了。5G新通话，5G信息，太震撼了

我也支持5G能把一切屏幕做成瘦客户端，网络就是计算机。问题是它也没支棱起来啊，最后还不是本地计算解决了。

mimighost · 发表于 2024-9-13 12:22

讲真，这个模型我真的有点儿迷

做面试题那种题真的强，比我强得多

但是是解决问题没啥要突出的地方

高分低能？

Midnight.Coup · 发表于 2024-9-13 13:16

要不大家来做一下这道测试题

长难句了属于是

whzfjk · 发表于 2024-9-13 13:18

提示: 作者被禁止或删除内容自动屏蔽

ryanghj · 发表于 2024-9-13 13:20

泰坦失足发表于 2024-9-13 12:11
LLM界有鱼目混珠的，有滥竽充数的，但是SOTA方法毫无疑问被LLM彻底刷榜了。过去的BERT/LTSM/RNN/Word2Vecto ...

多模态实际上还不太行，图像识别幻觉很严重

泰坦失足 · 发表于 2024-9-13 14:13

Midnight.Coup 发表于 2024-9-13 13:16
要不大家来做一下这道测试题长难句了属于是

O1：
**Answer:**

An explicit solution: All ages where the prince is 3 × k and the princess is 4 × k years old; that is,

Prince’s age = 3 × any positive integer,
Princess’s age = 4 × the same integer.

GPT4o：
王子和公主的年龄是相同的，解得王子和公主年龄相同。这是根据题目条件得到的唯一解。

我：
题目啥意思来着？

泰坦失足 · 发表于 2024-9-13 14:16

本帖最后由泰坦失足于 2024-9-13 14:18 编辑

泰坦失足发表于 2024-9-13 14:13
O1：
**Answer:**

看了下，好像是对的？花了51秒，4000tokens。OpenAI O1，我现在命令你立刻研究出如何一个二次元高中美少女的完美prompt.

杂色k · 发表于 2024-9-13 14:24

我让它算了一道积分基础题，真的还行，至少结果是对的，过程因为我不会，我也不好判断了

wly5556 · 发表于 2024-9-13 15:03

公主王子这题去国内arena上面拿glm4plus也能推理出正确答案。这种老题目大概包含在语料里了，也不好拿来评判各家的推理能力

In general, the ages of the prince and princess can be expressed as:

Prince's age ( R = 3k )
Princess's age ( P = 4k )
where ( k ) is any positive integer.

NBXX · 发表于 2024-9-13 15:07

本帖最后由 NBXX 于 2024-9-13 15:18 编辑

楼上几个算数的根本没搞清楚o1，o1-preview，o1-mini的区别。

ryanghj · 发表于 2024-9-13 15:32

NBXX 发表于 2024-9-13 15:07
楼上几个算数的根本没搞清楚o1，o1-preview，o1-mini的区别。

然而现在只有o1 preview和o1 mini能用啊，oai老耍猴发布了，吹了大半年的sora连个影都没有呢

当初gpt4的图像功能也是等了整整一年，出来的时候开源模型也搞得差不多了

—— 来自 Xiaomi 2308CPXD0C, Android 14上的 S1Next-鹅版 v2.5.2-play

yanjunle · 发表于 2024-9-13 19:23

lmarena点了一下，日翻中能力提升也不小（虽然打不过gemini1.5pro-exp0827）
不理解官方为啥特意挑奥赛拿牌出来吹，又不是类似上上个月的mathstral和上个月的qwen2math的做题家模型

jojog · 发表于 2024-9-13 21:55

成本太高了

web一周30次毛都没法用，先开个api好吗

		自动登录	找回密码
密码			立即注册

[科技] OAI发布O1

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

评分

本帖子中包含更多资源

本帖子中包含更多资源

jinmaple jinmaple 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2010-4-5 头像被屏蔽	发表于 2024-9-13 11:11 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

whzfjk whzfjk 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-5-11 头像被屏蔽	发表于 2024-9-13 13:18 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报