找回密码
 立即注册
搜索
楼主: 泰坦失足

[软件] GPT4-o-mini发布,直接杀死了LLM降价比赛。更新:mini微调上线

[复制链接]
发表于 2024-7-21 09:56 | 显示全部楼层
诚司 发表于 2024-7-21 09:53
显存不够只能offload到内存上,cpu跑就是这样,不够5 tokens/s的话,流式输出人类根本忍不了,一般14b人 ...

我倒是习惯了等,毕竟之前玩AI画画的时候也8G显存也是慢的锤子一样(
回复

使用道具 举报

发表于 2024-7-21 10:50 来自手机 | 显示全部楼层
诚司 发表于 2024-7-21 09:53
显存不够可以offload到内存上,cpu跑,大于8G的模型也可以。不过不够5 tokens/s的话,流式输出人类根本忍 ...

后来试了下35b q4的模型
把内存都吃满了

不过输出质量倒是比q1的好不少

另外我去下了个14b的dpo q4,怎么输出结果是乱码了?而且牛头不搭马嘴

—— 来自 OnePlus GM1900, Android 10上的 S1Next-鹅版 v3.0.0.81-alpha
回复

使用道具 举报

发表于 2024-7-21 10:52 | 显示全部楼层
7776169 发表于 2024-7-21 10:50
后来试了下35b q4的模型
把内存都吃满了

https://hf-mirror.com/TheBloke/CausalLM-14B-GGUF
可以用这个
回复

使用道具 举报

发表于 2024-7-21 10:56 来自手机 | 显示全部楼层
诚司 发表于 2024-7-21 10:52
https://hf-mirror.com/TheBloke/CausalLM-14B-GGUF
可以用这个

另外想多麻烦一下,请问有什么写prompt的教程或者说有没有什么脸色扮演的预设分享的地方?


—— 来自 OnePlus GM1900, Android 10上的 S1Next-鹅版 v3.0.0.81-alpha
回复

使用道具 举报

发表于 2024-7-21 11:21 | 显示全部楼层
7776169 发表于 2024-7-21 10:56
另外想多麻烦一下,请问有什么写prompt的教程或者说有没有什么脸色扮演的预设分享的地方?


聊天前端用SillyTavern
角色卡可以在janitorai.me  这里找到

做卡片可以用AI Character Editor,github上有

我现在就是用SillyTavern做前端,导入角色卡,后端用双卡跑35B大模型,然后语音我没有用SillyTavern的接口,因为SillyTavern的语音接口没办法流式解析大模型输出的内容再转语音。
我的办法是做一个openai server的中转代理,然后hook大模型流式输出,满足切分条件就送到GPT-sovits模型里生成语音,然后语音输出

这样整个流程就是,我输入文字,大模型输出到第一个分句就会转化成语音,然后回应我,语音时延大约是1到1.5秒左右,看着屏幕的输出话延迟可以接受。大模型两块显卡,GPT-Sovits单独一块显卡(微服务在别的机器上),都是消费级的
如果把语音模型换成CosyVoice,时延应该更低
回复

使用道具 举报

发表于 2024-7-21 17:55 | 显示全部楼层
诚司 发表于 2024-7-21 10:52
https://hf-mirror.com/TheBloke/CausalLM-14B-GGUF
可以用这个

好了,从这里下的就正常了

怎么这名字一样的模型还可以效果完全不一样的啊(((

回复

使用道具 举报

发表于 2024-7-21 17:58 | 显示全部楼层
已经一转AI老婆养成帖了嘛
回复

使用道具 举报

发表于 2024-7-21 22:15 | 显示全部楼层
诚司 发表于 2024-7-21 11:21
聊天前端用SillyTavern
角色卡可以在janitorai.me  这里找到

问一下,SillyTavern文档FAQ提到Mixtral MoE更适合角色扮演,上下文处理的比较好些,你觉得CausalLM 35b和Mixtral MoE相比如何,哪个更适合NSFW角色扮演?

看了下CausalLM 35b的GGUF,1~4bit能否比14b的8bit的16k 8k上下文输出质量更好一些?
回复

使用道具 举报

发表于 2024-7-21 22:23 | 显示全部楼层
本帖最后由 诚司 于 2024-7-21 22:33 编辑
普通论坛用户 发表于 2024-7-21 22:15
问一下,SillyTavern文档FAQ提到Mixtral MoE更适合角色扮演,上下文处理的比较好些,你觉得CausalLM 35b ...

Mixtral中文不行,不用考虑

而且官方模型,无论是Mixtral、Qwen、Llama、Yi还是别的,都有安全对齐,nsfw能力不行,就算强行破限也很容易复读
别说官方的了,CausalLM 34B都不如CausalLM 35B,原因很简单,CausalLM 34B是基于Yi-34B练的,因为Yi在base里加了sft乃至sft的拒答,导致CausalLM 34B的nsfw能力很差的

CausalLM的作者是华人,而且sft数据里有很多nsfw的,角色扮演的,所以CausalLM比dolphin系强,而CausalLM 35B是最强的,因为Command R是所有base里黄文看得最多的


14B和35B我不好估计,一般14B fp 16远差于35B的int4,我没做过量化模型的评测,不过不建议用任何4bit以下的模型
14B是基于Qwen1.5,而35B基于Command R,一般来说Command R的语料比Qwen1.5强……
回复

使用道具 举报

发表于 2024-7-21 22:25 | 显示全部楼层
andychen 发表于 2024-7-21 17:58
已经一转AI老婆养成帖了嘛

都是谈prompt如何更好设计一个角色背景、语气、性格、小动作、思维习惯、服装等细节,人设做的越好,造的老婆就越像真人

提示词学习的路还长着呢,角色设定的学习有大量的网站可参考:janitorai.me、https://www.chub.ai/searchwww.characterhub.org、realm.risuai.net、https://pygmalion.chat/home
回复

使用道具 举报

发表于 2024-7-21 22:45 | 显示全部楼层
本帖最后由 chaos7 于 2024-7-21 23:11 编辑

搭车问一下, 日语翻译除了SakuraLLm外, 还有什么其它开源大模型的选择? 感觉sakura不能很好处理主语省略情况, 经常搞错上下文的主语。
回复

使用道具 举报

发表于 2024-7-22 20:27 | 显示全部楼层
本帖最后由 普通论坛用户 于 2024-7-22 21:16 编辑
诚司 发表于 2024-7-21 22:23
Mixtral中文不行,不用考虑

而且官方模型,无论是Mixtral、Qwen、Llama、Yi还是别的,都有安全对齐,nsfw ...

https://huggingface.co/QuantFactory/CausalLM-35b-beta-long-GGUF

下来的模型无法运行

python -m llama_cpp.server --model CausalLM-35b-beta-long.Q8_0.gguf --chat_format chatml

结果报错

llama_model_load: error loading model: check_tensor_dims: tensor 'token_embd.weight' has wrong shape; expected  8192, 255029, got  8192, 256000,     1,     1

换了text-generation-webui,先git clone再执行pip install -r requirements.txt,又提示找不到模块llama.dll,真是奇怪了,明明dll是实际存在的

谷歌了下错误报告,没找到什么可靠的解决方案,大概是用不了,不知道是不是模型自己的问题,能分享一下你那里的35b模型吗?只要llama.cpp支持的格式就可以的

如果用TheBloke/CausalLM-14B-GGUF没什么问题,8bit能正常运行,但运行好慢,显卡GTX3080 VRAM 10G 内存条RAM 64G,每一次对话耗时4~6分钟左右

  1. <div>llama_print_timings:        load time =   54493.69 ms
  2. llama_print_timings:      sample time =    2314.14 ms /   250 runs   (    9.26 ms per token,   108.03 tokens per second)
  3. llama_print_timings: prompt eval time =  108348.57 ms /  1094 tokens (   99.04 ms per token,    10.10 tokens per second)
  4. llama_print_timings:        eval time =  124820.02 ms /   249 runs   (  501.29 ms per token,     1.99 tokens per second)
  5. llama_print_timings:       total time =  236032.58 ms /  1343 tokens
  6. INFO:     127.0.0.1:8017 - "POST /v1/completions HTTP/1.1" 200 OK
  7. Llama.generate: prefix-match hit

  8. llama_print_timings:        load time =   54493.69 ms
  9. llama_print_timings:      sample time =    2918.14 ms /   250 runs   (   11.67 ms per token,    85.67 tokens per second)
  10. llama_print_timings: prompt eval time =   91216.11 ms /   388 tokens (  235.09 ms per token,     4.25 tokens per second)
  11. llama_print_timings:        eval time =  170496.56 ms /   249 runs   (  684.73 ms per token,     1.46 tokens per second)
  12. llama_print_timings:       total time =  265187.78 ms /   637 tokens
  13. INFO:     127.0.0.1:8287 - "POST /v1/completions HTTP/1.1" 200 OK</div>
复制代码



怪不得SillyTavern文档提到大部分本地模型的体验远远不如不如云LLM……也有可能是我硬件太低端了,或许要VRAM 24G商业级显卡,响应速度才会秒响应吧?文档也提到GPTQ/AWQ 在 GPU 上运行比GGUP快得多,但需要高端大显存显卡

网上有哪些无审查的中文云模型比较好用?看了SillyTavern推荐的DreamGen,中文不太行的样子,最低级的模型回复很蠢

Mancer AI、NovelAI是无审查的,但中文输出质量不太清楚

编辑,忘了补充一点,AI模型放在机械硬盘的,其它固态硬盘空间都满了


回复

使用道具 举报

发表于 2024-7-22 20:31 | 显示全部楼层
本帖最后由 诚司 于 2024-7-22 20:35 编辑

https://hf-mirror.com/bartowski/35b-beta-long-GGUF
用这个,我没发quantfactory的就是因为这个有问题……


你10g显存,跑8bit的大模型,别说14b的,7b都不行的,跑得慢是因为offload到cpu了……10g显存太小了跑不了什么

中文无审查,一概用causallm系,要么就自己练……没别的了

回复

使用道具 举报

发表于 2024-7-23 15:06 | 显示全部楼层
chaos7 发表于 2024-7-21 22:45
搭车问一下, 日语翻译除了SakuraLLm外, 还有什么其它开源大模型的选择? 感觉sakura不能很好处理主语省略情 ...

同搭车问下,有没有中翻日(用于游戏的日语本地化)的大模型,现在直接用的gpt4o和claude3,但水平一言难尽,字典容量低不说,时间久了就开始记不住字典内容,非常不好用
回复

使用道具 举报

发表于 2024-7-24 01:01 | 显示全部楼层
今天趁dify更新顺手简单对比了一下gpt4o-mini和各种开源的多模态小模型,感想是gpt4o-mini太全能了,清华那几个ocr能力牛逼但是做不了物体检测,阿里能做物体检测但是ocr一塌糊涂,只有gpt4o-mini样样都能做,希望阿里能尽快出个对标的
以及gpt4o-mini在openrouter上图片输入费用非常高,用openrouter的时候务必注意一下
回复

使用道具 举报

发表于 2024-7-24 03:15 | 显示全部楼层
过几年来挖坟看看Sam Assman杀不杀得死比赛
回复

使用道具 举报

 楼主| 发表于 2024-7-24 04:36 | 显示全部楼层
gpt4o-mini上线了finetuning功能,算是难得最近openai速度最快的一次
回复

使用道具 举报

发表于 2024-7-24 06:51 来自手机 | 显示全部楼层
本帖最后由 aritionkb 于 2024-7-24 06:57 编辑
诚司 发表于 2024-7-20 16:40
https://hf-mirror.com/bartowski/35b-beta-long-GGUF

这个gguf只有8bit以下的,不过自己用也够了吧

求一份35b long的fp16模型,感谢

— from meizu MEIZU 20 Pro, Android 14 of S1 Next Goose v2.5.2-play
回复

使用道具 举报

发表于 2024-7-24 06:59 来自手机 | 显示全部楼层
yanjunle 发表于 2024-7-24 01:01
今天趁dify更新顺手简单对比了一下gpt4o-mini和各种开源的多模态小模型,感想是gpt4o-mini太全能了,清华那 ...

不是openrouter的问题,openai官方定价就是如此,官方pricing页可以看到同样大小的图片,4omini和4o价格是一样的

评分

参与人数 1战斗力 +2 收起 理由
yanjunle + 2 原来如此,还好没多用

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2024-7-24 07:29 来自手机 | 显示全部楼层
纱夜抱着榴弹炮 发表于 2024-7-24 06:59
不是openrouter的问题,openai官方定价就是如此,官方pricing页可以看到同样大小的图片,4omini和4o价格 ...

也太坑了,如果想写什么自动化脚本的话,估计还是用opencv 检测文字和标记对应的位置,然后LLM得出下一步点击哪里
回复

使用道具 举报

发表于 2024-7-24 10:01 | 显示全部楼层
aritionkb 发表于 2024-7-24 06:51
求一份35b long的fp16模型,感谢

— from meizu MEIZU 20 Pro, Android 14 of S1 Next Goose v2.5.2-pla ...

ok,等我下完llama3.1再发
回复

使用道具 举报

发表于 2024-7-24 12:21 | 显示全部楼层
本帖最后由 qratosones1337 于 2024-7-24 12:22 编辑
yanjunle 发表于 2024-7-24 01:01
今天趁dify更新顺手简单对比了一下gpt4o-mini和各种开源的多模态小模型,感想是gpt4o-mini太全能了,清华那 ...

你确定GPT4o-mini真的具备多模态功能么?OpenAI官网给的定价估算显示这玩意输入图片的价格跟GPT4o完全一样,极大概率是直接用的GPT4o……
回复

使用道具 举报

发表于 2024-7-24 13:19 | 显示全部楼层
两个模型的视觉定价虽然在单位尺寸图像的价格上是一样的,不过计算公式并不同,一个是 5*255‎ = 1,275,另一个是 0.15*8,500‎ = 1,275。
后者因为 Token 单价极为低廉,所以在相同价格下能够接收处理的图像 Token 更多(255 vs 8,500)。
价格相同只能说 OpenAI 的定价策略如此,说明不了别的什么东西。
回复

使用道具 举报

发表于 2024-7-24 14:56 | 显示全部楼层
有没有用azure openai API 的?不知道上线mini了没?我找了半天没找到
回复

使用道具 举报

发表于 2024-7-24 15:28 | 显示全部楼层
qratosones1337 发表于 2024-7-24 12:21
你确定GPT4o-mini真的具备多模态功能么?OpenAI官网给的定价估算显示这玩意输入图片的价格跟GPT4o完全一样 ...

https://rank.opencompass.org.cn/ ... timodal/?m=REALTIME
看opencompass跑分,全方位不如gpt4o,只有ocr领先,感觉更像是集成了个新的能生成更多token来增强ocr能力的视觉模型而不是套壳。
回复

使用道具 举报

发表于 2024-7-24 19:06 | 显示全部楼层
aritionkb 发表于 2024-7-24 06:51
求一份35b long的fp16模型,感谢

— from meizu MEIZU 20 Pro, Android 14 of S1 Next Goose v2.5.2-pla ...

链接:https://pan.baidu.com/s/1Fl65dRDsl42fn8_BMSC6hQ?pwd=t1f6
提取码:t1f6
--来自百度网盘超级会员V7的分享
回复

使用道具 举报

发表于 2024-7-24 22:54 | 显示全部楼层
诚司 发表于 2024-7-24 19:06
链接:https://pan.baidu.com/s/1Fl65dRDsl42fn8_BMSC6hQ?pwd=t1f6
提取码:t1f6
--来自百度网盘超级会 ...

能给下md5.txt文件吗?百度云下载经常出现文件损坏的情况,以防万一用md5检测下
回复

使用道具 举报

发表于 2024-7-24 23:29 | 显示全部楼层
本帖最后由 诚司 于 2024-7-24 23:30 编辑
普通论坛用户 发表于 2024-7-24 22:54
能给下md5.txt文件吗?百度云下载经常出现文件损坏的情况,以防万一用md5检测下 ...

5428fa31fd03765d5c0eb14d3680ba058ee1e0eca4b25140092bb9d669914bbf  ./model-00001-of-00015.safetensors
c8d70c9ce69e42faf9616e1bda1448c2766f00fcaa20800d3beda8302cbb8e5c  ./model-00002-of-00015.safetensors
10f1162a4f10ebf07324293635b6b9ee3509a835dc47a409abd87b92203f4d26  ./model-00003-of-00015.safetensors
6d3d16b8c67947bbfbd37c3b235f50337aa4e0b8450a5c1f21d216bb75456e59  ./model-00004-of-00015.safetensors
120a4429056e6efd04b1d2756b3e625bd829c4b458203d1cbf1e2e8a7b678489  ./model-00005-of-00015.safetensors
478c89965e4390aa458d52bbef525f95cb69eb277db1f8454ad3b0dbd8b52b7c  ./model-00006-of-00015.safetensors
5d71536b1c2a5c33f27330b19010f7493c1599898207dc57aa1e7e38767a4c2b  ./model-00007-of-00015.safetensors
57a64b41fcf22f9fd4855f542dac9d99aae242c9ad1245d34d2b71c428fe32aa  ./model-00008-of-00015.safetensors
7ad83531189bb6d9456710a903396ec02987be03f6539048b85f1ac25a01dd10  ./model-00009-of-00015.safetensors
b18986af87bed9d98c7b9deff616540b7721c379113668191bf8f848e5a050fc  ./model-00010-of-00015.safetensors
5ac15fdc4368f7a3532b7e114938aa5e8e50db07f01962bc3801240b9939d9c1  ./model-00011-of-00015.safetensors
b9ae9ccf809835bfd3c3466c80b1377da957896b34a7090614a508220bd7c1df  ./model-00012-of-00015.safetensors
b058ba038b230322ef83091c8a91731d384eb6ca11058a9f5df38a7c3da3df83  ./model-00013-of-00015.safetensors
7f6db7c3e17ce948ac5202197613ad977a2dd6a8e474e30076f5146571a4a0a4  ./model-00014-of-00015.safetensors
cd1fabad5e9533b25b07d107ba37c5f580bc7a8c1871b794baefdae3fa976b76  ./model-00015-of-00015.safetensors


sha256
回复

使用道具 举报

发表于 2024-7-26 02:26 来自手机 | 显示全部楼层
诚司 发表于 2024-7-24 19:06
链接:https://pan.baidu.com/s/1Fl65dRDsl42fn8_BMSC6hQ?pwd=t1f6
提取码:t1f6
--来自百度网盘超级会 ...

非常感谢,回去就下

— from meizu MEIZU 20 Pro, Android 14 of S1 Next Goose v2.5.2-play
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-9-8 07:22 , Processed in 0.101817 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表