找回密码
 立即注册
搜索
查看: 5479|回复: 34

[科技] OAI发布O1

[复制链接]
     
发表于 2024-9-13 09:52 来自手机 | 显示全部楼层 |阅读模式
本帖最后由 ZekNagPul 于 2024-9-13 09:55 编辑

OAI发布了传说中的strawberry,数学能力提升巨大,直接到奥赛金牌水平了


https://mp.weixin.qq.com/s/sGcx90Q_uI8se-DKosj9dw

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-9-13 09:56 | 显示全部楼层
考试直接用?
回复

使用道具 举报

     
发表于 2024-9-13 09:56 | 显示全部楼层
10.7和10.11谁大
回复

使用道具 举报

     
发表于 2024-9-13 09:59 | 显示全部楼层
看网上评测,还是解决不了9.11和9.8哪个大的问题
回复

使用道具 举报

     
 楼主| 发表于 2024-9-13 10:15 来自手机 | 显示全部楼层
瓦格雷 发表于 2024-9-13 09:56
10.7和10.11谁大

早八百年解决的tokenizer问题

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2024-9-13 10:32 来自手机 | 显示全部楼层
本帖最后由 ryanghj 于 2024-9-13 10:36 编辑



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-9-13 10:38 | 显示全部楼层

没解决吧。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-9-13 10:43 | 显示全部楼层
满腹经纶的人工智障?
回复

使用道具 举报

发表于 2024-9-13 10:45 | 显示全部楼层
本帖最后由 hencechen 于 2024-9-13 10:59 编辑
研究表明,这个策略是有效的。因为如果直接随机提交一个答案,则平均得分仅有 156。这说明在该竞赛条件下,这个策略至少值 60 分。

OpenAI 发现,如果放宽提交限制条件,则模型性能更是能大幅提升。如果每个问题允许提交 1 万次答案,即使不使用上述测试时选取策略,该模型也能得到 362.14 分——可以得金牌了。

只能说谨慎乐观吧,说白了还是力大飞砖。问题是”人类的考试是一次性作答,需要独立的判断答案的正确性“,这种所谓的超越奥赛人类金牌,只不过还是用那种crash战术,没法真正的"识别”有价值的正确答案。本质上,和stable diffusion一口气出1000张色图,但是只能靠人类肉眼挑出没有六只手指的“正常色图”有什么区别?

评分

参与人数 2战斗力 0 收起 理由
Belisarius + 1
busuji -1

查看全部评分

回复

使用道具 举报

发表于 2024-9-13 10:45 | 显示全部楼层
本帖最后由 lix310 于 2024-9-13 10:47 编辑
ZekNagPul 发表于 2024-9-13 10:15
早八百年解决的tokenizer问题

4o没解决,多刷几次能刷出正确答案,但也能刷出错误答案,看ai心情

o1应该是解决了
回复

使用道具 举报

     
 楼主| 发表于 2024-9-13 10:49 来自手机 | 显示全部楼层
本帖最后由 ZekNagPul 于 2024-9-13 10:51 编辑
大韩李明博 发表于 2024-9-13 10:38
没解决吧。


强制要求它推导就行,我试了几次都是正确的




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-9-13 10:51 来自手机 | 显示全部楼层
比大小不是说是分词器的问题吗,我看这也没解决啊
这o1不就是用RL调了个Cot特化的模型出来,基底模型没多大变化,我看LLM大概也就走到头了。

— from S1 Next Goose v3.1.89
回复

使用道具 举报

     
发表于 2024-9-13 10:58 | 显示全部楼层
Linjiangzhu 发表于 2024-9-13 10:51
比大小不是说是分词器的问题吗,我看这也没解决啊
这o1不就是用RL调了个Cot特化的模型出来,基底模型没多大 ...

纵向发展受阻也不能不允许人家不能横向发展不是,好歹也是在尝试新方向。

不过营销上肯定算翻车了
回复

使用道具 举报

     
发表于 2024-9-13 11:02 | 显示全部楼层
其实在很多问题上,新模型上 CoT 之后比目前大部分用户的裸用的效果会好上很多

比如这个: 10 分钟利用 OpenAI o1 和 Cursor 开发一个 SwiftUI 天气应用

https://www.bilibili.com/video/BV1fq4tevEeN/
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-9-13 11:11 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-9-13 11:12 | 显示全部楼层
Linjiangzhu 发表于 2024-9-13 10:51
比大小不是说是分词器的问题吗,我看这也没解决啊
这o1不就是用RL调了个Cot特化的模型出来,基底模型没多大 ...

我觉得继续上规模压力太大,所以先横向释放些应用出来。
从现在功能来看,能应用的场景很大
回复

使用道具 举报

     
发表于 2024-9-13 11:14 | 显示全部楼层
hencechen 发表于 2024-9-13 10:45
只能说谨慎乐观吧,说白了还是力大飞砖。问题是”人类的考试是一次性作答,需要独立的判断答案的正确性“ ...

这可以了,给出1000份乃至1w份后选里可能由真正答案都比人类从头想出一个要进步的多
回复

使用道具 举报

     
发表于 2024-9-13 11:17 来自手机 | 显示全部楼层
ZekNagPul 发表于 2024-9-13 10:15
早八百年解决的tokenizer问题

tokenizer问题可太本质,本质到难以解决了

因为无法给每个数字一个token
回复

使用道具 举报

     
发表于 2024-9-13 11:32 来自手机 | 显示全部楼层
masterkeaton 发表于 2024-9-13 11:14
这可以了,给出1000份乃至1w份后选里可能由真正答案都比人类从头想出一个要进步的多 ...

是谁给你的勇气让你觉得他能给的答案超过人类已经想出的范围?
回复

使用道具 举报

     
发表于 2024-9-13 11:35 | 显示全部楼层
tillnight 发表于 2024-9-13 11:32
是谁给你的勇气让你觉得他能给的答案超过人类已经想出的范围?

很多问题是我想不出来但可以分辨出来啊
难道有个完美的立在顶端的人类 ?
回复

使用道具 举报

     
发表于 2024-9-13 11:57 来自手机 | 显示全部楼层
赛博姜萍

—— 来自 鹅球 v3.1.88.3
回复

使用道具 举报

     
发表于 2024-9-13 12:07 | 显示全部楼层
强制触发cot后就可以解决。否则是否正确随机。
回复

使用道具 举报

     
发表于 2024-9-13 12:11 | 显示全部楼层
本帖最后由 泰坦失足 于 2024-9-13 12:38 编辑

LLM界有鱼目混珠的,有滥竽充数的,但是SOTA方法毫无疑问被LLM彻底刷榜了。过去的BERT/LTSM/RNN/Word2Vector你标到死,也做不到现在这些能力啊。多模态领域在图像识别上,也展现出了吓人的零样本识别能力。比元宇宙几乎都是骗子好多了,也比5G应用不知道高到哪里去了。5G新通话,5G信息,太震撼了 我也支持5G能把一切屏幕做成瘦客户端,网络就是计算机。问题是它也没支棱起来啊,最后还不是本地计算解决了。

评分

参与人数 1战斗力 -1 收起 理由
厍无春 -1 图穷匕见

查看全部评分

回复

使用道具 举报

发表于 2024-9-13 12:22 | 显示全部楼层
讲真,这个模型我真的有点儿迷

做面试题那种题真的强,比我强得多

但是是解决问题没啥要突出的地方

高分低能?
回复

使用道具 举报

     
发表于 2024-9-13 13:16 | 显示全部楼层
要不大家来做一下这道测试题长难句了属于是

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-9-13 13:18 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2024-9-13 13:20 | 显示全部楼层
泰坦失足 发表于 2024-9-13 12:11
LLM界有鱼目混珠的,有滥竽充数的,但是SOTA方法毫无疑问被LLM彻底刷榜了。过去的BERT/LTSM/RNN/Word2Vecto ...

多模态实际上还不太行,图像识别幻觉很严重
回复

使用道具 举报

     
发表于 2024-9-13 14:13 | 显示全部楼层
Midnight.Coup 发表于 2024-9-13 13:16
要不大家来做一下这道测试题长难句了属于是

O1:
**Answer:**

An explicit solution: All ages where the prince is 3 × k and the princess is 4 × k years old; that is,

 Prince’s age = 3 × any positive integer,
 Princess’s age = 4 × the same integer.

GPT4o:
王子和公主的年龄是相同的,解得 王子和公主年龄相同。这是根据题目条件得到的唯一解。

我:
题目啥意思来着?
回复

使用道具 举报

     
发表于 2024-9-13 14:16 | 显示全部楼层
本帖最后由 泰坦失足 于 2024-9-13 14:18 编辑

看了下,好像是对的?花了51秒,4000tokens。OpenAI O1,我现在命令你立刻研究出如何一个二次元高中美少女的完美prompt.
回复

使用道具 举报

     
发表于 2024-9-13 14:24 | 显示全部楼层
我让它算了一道积分基础题,真的还行,至少结果是对的,过程因为我不会,我也不好判断了
回复

使用道具 举报

     
发表于 2024-9-13 15:03 来自手机 | 显示全部楼层
公主王子这题去国内arena上面拿glm4plus也能推理出正确答案。这种老题目大概包含在语料里了,也不好拿来评判各家的推理能力
In general, the ages of the prince and princess can be expressed as:

Prince's age ( R = 3k )
Princess's age ( P = 4k )
where ( k ) is any positive integer.
回复

使用道具 举报

     
发表于 2024-9-13 15:07 | 显示全部楼层
本帖最后由 NBXX 于 2024-9-13 15:18 编辑

楼上几个算数的根本没搞清楚o1,o1-preview,o1-mini的区别。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2024-9-13 15:32 来自手机 | 显示全部楼层
NBXX 发表于 2024-9-13 15:07
楼上几个算数的根本没搞清楚o1,o1-preview,o1-mini的区别。

然而现在只有o1 preview和o1 mini能用啊,oai老耍猴发布了,吹了大半年的sora连个影都没有呢当初gpt4的图像功能也是等了整整一年,出来的时候开源模型也搞得差不多了

—— 来自 Xiaomi 2308CPXD0C, Android 14上的 S1Next-鹅版 v2.5.2-play
回复

使用道具 举报

     
发表于 2024-9-13 19:23 | 显示全部楼层
lmarena点了一下,日翻中能力提升也不小(虽然打不过gemini1.5pro-exp0827)
不理解官方为啥特意挑奥赛拿牌出来吹,又不是类似上上个月的mathstral和上个月的qwen2math的做题家模型
回复

使用道具 举报

     
发表于 2024-9-13 21:55 | 显示全部楼层
成本太高了

web一周30次毛都没法用,先开个api好吗
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-9-21 03:24 , Processed in 0.173489 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表