找回密码
 立即注册
搜索
查看: 15088|回复: 68

[软件] GPT4-o-mini发布,直接杀死了LLM降价比赛。更新:mini微调上线

[复制链接]
发表于 2024-7-19 07:52 来自手机 | 显示全部楼层 |阅读模式
本帖最后由 泰坦失足 于 2024-7-24 04:40 编辑

百万tokens输入15美分,输出60美分。比广大api服务(除了deepseek)都便宜。甚至比天天嚷嚷的百度的国内价格都是便宜。官方页面没和国内模型以及开源模型比,只说比谷歌和克劳德上强。
最重要的1点:支持多模态图形输入,这点是别的任何其他模型都做不好或者不提供服务的。gpt4v的效果更是顶级。
第二点:新闻宣布提供gpt4omini的微调服务。byd openai最开始公布gpt4时候就说这太危险了,不向非企业合作伙伴提供gpt4微调,至今都只有gpt3.5的微调服务。即使能微调的开源模型和同行早就超过3.5的水平了
不太重要的一点:再次强调安全,想用来nsfw的请继续自寻无审查模型。
之后可以用llm低成本驱动自动化脚本了,而不是常规的状态机了。甚至图像识别都能直接喂给llm
回复

使用道具 举报

发表于 2024-7-19 08:09 | 显示全部楼层
一直用deepseek翻译网页

论坛助手,iPhone
回复

使用道具 举报

发表于 2024-7-19 08:15 来自手机 | 显示全部楼层
所以有什么稳定的获取openai api key的方式吗,没国外的信用卡

—— 来自 鹅球 v3.0.86-alpha
回复

使用道具 举报

发表于 2024-7-19 08:36 | 显示全部楼层
deepseek没比gpt4o差多少,除非特殊需求,deepseek基本上可以替代
回复

使用道具 举报

发表于 2024-7-19 08:49 来自手机 | 显示全部楼层
有说模型是多大的了吗
回复

使用道具 举报

 楼主| 发表于 2024-7-19 08:51 | 显示全部楼层
zyhang 发表于 2024-7-19 08:49
有说模型是多大的了吗

Openai没正式公布过参数
回复

使用道具 举报

发表于 2024-7-19 09:33 | 显示全部楼层
国内API不是不给用了
回复

使用道具 举报

发表于 2024-7-19 10:01 | 显示全部楼层
确实便宜,个人使用都可以随便造了。不知道和gpt4o差距多少
回复

使用道具 举报

发表于 2024-7-19 10:07 | 显示全部楼层
128k 上下文窗口和 16k 的输出,比 3.5turbo 还便宜一个量级的价格。
比赛?OpenAI 从不和你比赛
回复

使用道具 举报

发表于 2024-7-19 10:42 | 显示全部楼层
Midnight.Coup 发表于 2024-7-19 09:33
国内API不是不给用了

什么时候给用过
回复

使用道具 举报

发表于 2024-7-19 10:44 来自手机 | 显示全部楼层
很久没用3.5了,一直都在用4o

—— 来自 鹅球 v3.0.87-alpha
回复

使用道具 举报

发表于 2024-7-19 10:46 来自手机 | 显示全部楼层
前两个月论坛不是还有帖子说中国的大模型公司没有技术只会降价……
回复

使用道具 举报

发表于 2024-7-19 11:35 | 显示全部楼层
上个月刚把长文本总结相关的应用切到国内的kimi 这是又要切回去吗

所以无审查模型有啥推荐的吗
回复

使用道具 举报

发表于 2024-7-19 12:53 来自手机 | 显示全部楼层
回头试试这个fine tune效果如何
回复

使用道具 举报

发表于 2024-7-19 12:58 | 显示全部楼层
oswald 发表于 2024-7-19 08:15
所以有什么稳定的获取openai api key的方式吗,没国外的信用卡

—— 来自 鹅球 v3.0.86-alpha ...

那基本上就是国内的各种二道贩子了,我个人目前在用这个 https://burn.hair/

跑一些个人娱乐项目没啥问题,如果有商用打算还是自己用官方渠道最好
回复

使用道具 举报

 楼主| 发表于 2024-7-19 13:07 来自手机 | 显示全部楼层
andychen 发表于 2024-7-19 12:53
回头试试这个fine tune效果如何

我看了一下,我的后台目前还没有开放,一直以来都只有3.5可以用。不知道他这个新闻稿里说的是对那些开放了4微调的企业级用户。
回复

使用道具 举报

发表于 2024-7-19 13:09 | 显示全部楼层
泰坦失足 发表于 2024-7-19 13:07
我看了一下,我的后台目前还没有开放,一直以来都只有3.5可以用。不知道他这个新闻稿里说的是对那些开放 ...

我的也没有,估计还得等等
回复

使用道具 举报

发表于 2024-7-19 13:55 | 显示全部楼层
杀死个勾八,24年7月发布的模型,训练数据截止到23年10月,然后明明成本都已经降下来了却依然不支持联网搜索(哪怕Plus会员)
回复

使用道具 举报

发表于 2024-7-19 14:20 | 显示全部楼层
本帖最后由 诚司 于 2024-7-19 14:24 编辑
紧那罗 发表于 2024-7-19 11:35
上个月刚把长文本总结相关的应用切到国内的kimi 这是又要切回去吗

所以无审查模型有啥推荐的吗 ...

api审查比较少的只有command R+
本地的那可多了,dolphin系模型都删除了sft里的拒答,不过并不是完全去审查
完全无审查的话,可以用casuallm 35b long,是基于command R练的模型,这个得益于command 系模型的低审查强度,是完全无审查的,以至于完全是黄文看多了那种
回复

使用道具 举报

发表于 2024-7-19 14:32 来自手机 | 显示全部楼层
oswald 发表于 2024-7-19 08:15
所以有什么稳定的获取openai api key的方式吗,没国外的信用卡

—— 来自 鹅球 v3.0.86-alpha ...

搞个虚拟信用卡?wildcard
回复

使用道具 举报

发表于 2024-7-19 14:48 | 显示全部楼层
美国时间 2024 年 7 月 16 日,LMSYS 组织的大模型竞技场(Chatbot Arena)更新结果发布,DeepSeek-V2-0628 超越 Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B 等开源模型,登上全球开源模型榜首。


Snipaste_2024-07-19_14-48-16.webp
回复

使用道具 举报

头像被屏蔽
发表于 2024-7-19 15:12 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2024-7-19 15:16 | 显示全部楼层
不可以用openai,但可以用微软的
回复

使用道具 举报

发表于 2024-7-20 09:44 | 显示全部楼层

DeepSeek V2主要是不支持多模态吧

—— 来自 S1Fun
回复

使用道具 举报

发表于 2024-7-20 10:20 来自手机 | 显示全部楼层
泰坦失足 发表于 2024-7-19 08:51
Openai没正式公布过参数

老黄泄漏过,最大的模型好像是个位数trillion?顶上还有mixture,记不得了,有兴趣可以查一查

— from Razer Phone 2, Android 9 of S1 Next Goose v2.5.2-play
回复

使用道具 举报

发表于 2024-7-20 10:26 来自手机 | 显示全部楼层
本帖最后由 ↓↘→AB 于 2024-7-20 10:31 编辑

性能介于4o和3.5turbo之间,目测可能是7~30B级别的模型?悬念不在performance,而在inference成本优化到了什么程度,15分每million的价格可能已经低于无优化跑7b模型的**了。

— from Razer Phone 2, Android 9 of S1 Next Goose v2.5.2-play
回复

使用道具 举报

发表于 2024-7-20 11:38 来自手机 | 显示全部楼层
無始無終 发表于 2024-7-20 09:44
DeepSeek V2主要是不支持多模态吧

—— 来自 S1Fun

官网版4o mini好像也没法上传图片

—— 来自 HUAWEI HBN-AL80, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

发表于 2024-7-20 13:15 | 显示全部楼层
qratosones1337 发表于 2024-7-20 11:38
官网版4o mini好像也没法上传图片

—— 来自 HUAWEI HBN-AL80, Android 12上的 S1Next-鹅版 v2.5.4 ...

poe的4o mini好像可以
回复

使用道具 举报

发表于 2024-7-20 16:31 | 显示全部楼层
诚司 发表于 2024-7-19 14:20
api审查比较少的只有command R+
本地的那可多了,dolphin系模型都删除了sft里的拒答,不过并不是完全去审 ...

我去抱脸看了眼casuallm 35B LONG那里直接说不会在抱脸批下载允许了

那么还能去哪里下?
回复

使用道具 举报

发表于 2024-7-20 16:40 | 显示全部楼层
7776169 发表于 2024-7-20 16:31
我去抱脸看了眼casuallm 35B LONG那里直接说不会在抱脸批下载允许了

那么还能去哪里下? ...

https://hf-mirror.com/bartowski/35b-beta-long-GGUF

这个gguf只有8bit以下的,不过自己用也够了吧
我这倒是有fp16的,你需要再说
回复

使用道具 举报

发表于 2024-7-20 16:53 | 显示全部楼层
诚司 发表于 2024-7-20 16:40
https://hf-mirror.com/bartowski/35b-beta-long-GGUF

这个gguf只有8bit以下的,不过自己用也够了吧

足够了
我也就8G显存而已
回复

使用道具 举报

发表于 2024-7-20 17:01 | 显示全部楼层
本帖最后由 诚司 于 2024-7-20 17:02 编辑
7776169 发表于 2024-7-20 16:53
足够了
我也就8G显存而已

那跑不起来的,不用下了,用causallm 7b吧
35b的这个基于command R,这模型没有GQA,8k左右长度下kv cache显存占的也多,至少也要两个16G或者24G的显卡

不过7b和35b是天壤之别,更别说8g只能跑量化后的7b,量化后的7b基本上各方面都不怎么行……而35b,我在酒馆拿来玩,基本上70%的情况下,跑三十多轮对话都不太会崩
回复

使用道具 举报

发表于 2024-7-20 17:23 | 显示全部楼层
本帖最后由 7776169 于 2024-7-20 18:07 编辑
诚司 发表于 2024-7-20 17:01
那跑不起来的,不用下了,用causallm 7b吧
35b的这个基于command R,这模型没有GQA,8k左右长度下kv cache ...

我也就是随便试试看而已
换显卡也是没钱的啦

试了下用这个https://hf-mirror.com/tastypear/ ... lpha-GGUF/tree/main


重新试了下,可以不量化跑
呃。。。。。。。
回复

使用道具 举报

发表于 2024-7-20 18:13 | 显示全部楼层
gpt4o mini 比 gpt4o 还要缩小.
并且 这里面的识图价格和 gpt4o 是一样的. (强烈怀疑这识图就是4o)

这东西就是为了狙击 claude haiku 的.  还杀死llm降价比赛.
closeAI 天天画饼. sora多少个月了出来了吗?
回复

使用道具 举报

发表于 2024-7-20 18:18 | 显示全部楼层
gpt4o跟claude 3.5 sonnet比简直就像弱智一样
回复

使用道具 举报

发表于 2024-7-20 18:27 来自手机 | 显示全部楼层
RookieTnT 发表于 2024-7-20 18:18
gpt4o跟claude 3.5 sonnet比简直就像弱智一样

求问claude现在有什么好的使用渠道吗?之前账号老是被封禁就放弃使用了
回复

使用道具 举报

发表于 2024-7-20 18:53 | 显示全部楼层
池袋西柚 发表于 2024-7-20 18:27
求问claude现在有什么好的使用渠道吗?之前账号老是被封禁就放弃使用了

IP问题, sim卡问题. 有能力的开张esim月抛来解决
特别注意注册时所用的环境与IP质量
解决不了就直接找API中转商把.
反正不贵. 代码能力比gpt4o强不少.

我的calude 是刚出就用Google账号注册了的. 一直用到现在
回复

使用道具 举报

发表于 2024-7-20 23:10 | 显示全部楼层
池袋西柚 发表于 2024-7-20 18:27
求问claude现在有什么好的使用渠道吗?之前账号老是被封禁就放弃使用了

直接poe.com吧
回复

使用道具 举报

发表于 2024-7-21 09:45 | 显示全部楼层
诚司 发表于 2024-7-20 17:01
那跑不起来的,不用下了,用causallm 7b吧
35b的这个基于command R,这模型没有GQA,8k左右长度下kv cache ...

又试了下
勉强能跑35b-beta-long-IQ1_S.gguf这个

就是速度慢的像石头门的嘟嘟噜在说话
((((
回复

使用道具 举报

发表于 2024-7-21 09:53 | 显示全部楼层
本帖最后由 诚司 于 2024-7-21 09:55 编辑
7776169 发表于 2024-7-21 09:45
又试了下
勉强能跑35b-beta-long-IQ1_S.gguf这个

显存不够可以offload到内存上,cpu跑,大于8G的模型也可以。不过不够5 tokens/s的话,流式输出人类根本忍不了,一般14b人类还能忍,30+ B的用cpu都不太行

我试过Qwen1.5 32B可以搭配Qwen1.5 1.8B,llama.cpp用投机采样加速一点(但需要修改源码里的宏定义然后重新编译),但command r就没办法了,没有同样tokenizer的小模型,没法投机采样
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-9-8 07:24 , Processed in 0.322833 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表