GPT4-o-mini发布，直接杀死了LLM降价比赛。更新：mini微调上线 - 第2页 - ＰＣ数码 - Stage1st

7776169 发表于 2024-7-21 09:56

7776169 发表于 2024-7-21 10:50

诚司发表于 2024-7-21 10:52

7776169 发表于 2024-7-21 10:50
后来试了下35b q4的模型
把内存都吃满了

https://hf-mirror.com/TheBloke/CausalLM-14B-GGUF
可以用这个

7776169 发表于 2024-7-21 10:56

诚司发表于 2024-7-21 11:21

7776169 发表于 2024-7-21 10:56
另外想多麻烦一下，请问有什么写prompt的教程或者说有没有什么脸色扮演的预设分享的地方？

聊天前端用SillyTavern
角色卡可以在janitorai.me这里找到

做卡片可以用AI Character Editor，github上有

我现在就是用SillyTavern做前端，导入角色卡，后端用双卡跑35B大模型，然后语音我没有用SillyTavern的接口，因为SillyTavern的语音接口没办法流式解析大模型输出的内容再转语音。
我的办法是做一个openai server的中转代理，然后hook大模型流式输出，满足切分条件就送到GPT-sovits模型里生成语音，然后语音输出

这样整个流程就是，我输入文字，大模型输出到第一个分句就会转化成语音，然后回应我，语音时延大约是1到1.5秒左右，看着屏幕的输出话延迟可以接受。大模型两块显卡，GPT-Sovits单独一块显卡（微服务在别的机器上），都是消费级的
如果把语音模型换成CosyVoice，时延应该更低

7776169 发表于 2024-7-21 17:55

andychen 发表于 2024-7-21 17:58

已经一转AI老婆养成帖了嘛

普通论坛用户 发表于 2024-7-21 22:15

诚司发表于 2024-7-21 22:23

本帖最后由诚司于 2024-7-21 22:33 编辑

普通论坛用户发表于 2024-7-21 22:15
问一下，SillyTavern文档FAQ提到Mixtral MoE更适合角色扮演，上下文处理的比较好些，你觉得CausalLM 35b ...
Mixtral中文不行，不用考虑

而且官方模型，无论是Mixtral、Qwen、Llama、Yi还是别的，都有安全对齐，nsfw能力不行，就算强行破限也很容易复读
别说官方的了，CausalLM 34B都不如CausalLM 35B，原因很简单，CausalLM 34B是基于Yi-34B练的，因为Yi在base里加了sft乃至sft的拒答，导致CausalLM 34B的nsfw能力很差的

CausalLM的作者是华人，而且sft数据里有很多nsfw的，角色扮演的，所以CausalLM比dolphin系强，而CausalLM 35B是最强的，因为Command R是所有base里黄文看得最多的

14B和35B我不好估计，一般14B fp 16远差于35B的int4，我没做过量化模型的评测，不过不建议用任何4bit以下的模型
14B是基于Qwen1.5，而35B基于Command R，一般来说Command R的语料比Qwen1.5强……

普通论坛用户 发表于 2024-7-21 22:25

chaos7 发表于 2024-7-21 22:45

本帖最后由 chaos7 于 2024-7-21 23:11 编辑

搭车问一下, 日语翻译除了SakuraLLm外, 还有什么其它开源大模型的选择? 感觉sakura不能很好处理主语省略情况, 经常搞错上下文的主语。

普通论坛用户 发表于 2024-7-22 20:27

诚司发表于 2024-7-22 20:31

本帖最后由诚司于 2024-7-22 20:35 编辑

普通论坛用户发表于 2024-7-22 20:27
https://huggingface.co/QuantFactory/CausalLM-35b-beta-long-GGUF

下来的模型无法运行

https://hf-mirror.com/bartowski/35b-beta-long-GGUF
用这个，我没发quantfactory的就是因为这个有问题……

你10g显存，跑8bit的大模型，别说14b的，7b都不行的，跑得慢是因为offload到cpu了……10g显存太小了跑不了什么

中文无审查，一概用causallm系，要么就自己练……没别的了

華蝶風雪 发表于 2024-7-23 15:06

chaos7 发表于 2024-7-21 22:45
搭车问一下, 日语翻译除了SakuraLLm外, 还有什么其它开源大模型的选择? 感觉sakura不能很好处理主语省略情 ...

同搭车问下，有没有中翻日（用于游戏的日语本地化）的大模型，现在直接用的gpt4o和claude3，但水平一言难尽，字典容量低不说，时间久了就开始记不住字典内容，非常不好用

yanjunle 发表于 2024-7-24 01:01

今天趁dify更新顺手简单对比了一下gpt4o-mini和各种开源的多模态小模型，感想是gpt4o-mini太全能了，清华那几个ocr能力牛逼但是做不了物体检测，阿里能做物体检测但是ocr一塌糊涂，只有gpt4o-mini样样都能做，希望阿里能尽快出个对标的
以及gpt4o-mini在openrouter上图片输入费用非常高，用openrouter的时候务必注意一下

StaticAnalysis 发表于 2024-7-24 03:15

过几年来挖坟看看Sam Assman杀不杀得死比赛

泰坦失足 发表于 2024-7-24 04:36

gpt4o-mini上线了finetuning功能，算是难得最近openai速度最快的一次

aritionkb 发表于 2024-7-24 06:51

本帖最后由 aritionkb 于 2024-7-24 06:57 编辑

诚司发表于 2024-7-20 16:40
https://hf-mirror.com/bartowski/35b-beta-long-GGUF

这个gguf只有8bit以下的，不过自己用也够了吧

求一份35b long的fp16模型，感谢

— from meizu MEIZU 20 Pro, Android 14 of S1 Next Goose v2.5.2-play

纱夜抱着榴弹炮 发表于 2024-7-24 06:59

yanjunle 发表于 2024-7-24 01:01
今天趁dify更新顺手简单对比了一下gpt4o-mini和各种开源的多模态小模型，感想是gpt4o-mini太全能了，清华那 ...

不是openrouter的问题，openai官方定价就是如此，官方pricing页可以看到同样大小的图片，4omini和4o价格是一样的

泰坦失足 发表于 2024-7-24 07:29

纱夜抱着榴弹炮发表于 2024-7-24 06:59
不是openrouter的问题，openai官方定价就是如此，官方pricing页可以看到同样大小的图片，4omini和4o价格 ...

也太坑了，如果想写什么自动化脚本的话，估计还是用opencv 检测文字和标记对应的位置，然后LLM得出下一步点击哪里

诚司发表于 2024-7-24 10:01

aritionkb 发表于 2024-7-24 06:51
求一份35b long的fp16模型，感谢

— from meizu MEIZU 20 Pro, Android 14 of S1 Next Goose v2.5.2-pla ...

ok，等我下完llama3.1再发

qratosones1337 发表于 2024-7-24 12:21

本帖最后由 qratosones1337 于 2024-7-24 12:22 编辑

yanjunle 发表于 2024-7-24 01:01
今天趁dify更新顺手简单对比了一下gpt4o-mini和各种开源的多模态小模型，感想是gpt4o-mini太全能了，清华那 ...
你确定GPT4o-mini真的具备多模态功能么？OpenAI官网给的定价估算显示这玩意输入图片的价格跟GPT4o完全一样，极大概率是直接用的GPT4o……

Junakr 发表于 2024-7-24 13:19

两个模型的视觉定价虽然在单位尺寸图像的价格上是一样的，不过计算公式并不同，一个是 5*255‎ = 1,275，另一个是 0.15*8,500‎ = 1,275。
后者因为 Token 单价极为低廉，所以在相同价格下能够接收处理的图像 Token 更多（255 vs 8,500）。
价格相同只能说 OpenAI 的定价策略如此，说明不了别的什么东西。

bixinhaner 发表于 2024-7-24 14:56

有没有用azure openai API 的？不知道上线mini了没？我找了半天没找到

yanjunle 发表于 2024-7-24 15:28

qratosones1337 发表于 2024-7-24 12:21
你确定GPT4o-mini真的具备多模态功能么？OpenAI官网给的定价估算显示这玩意输入图片的价格跟GPT4o完全一样 ...
https://rank.opencompass.org.cn/ ... timodal/?m=REALTIME
看opencompass跑分，全方位不如gpt4o，只有ocr领先，感觉更像是集成了个新的能生成更多token来增强ocr能力的视觉模型而不是套壳。

诚司发表于 2024-7-24 19:06

aritionkb 发表于 2024-7-24 06:51
求一份35b long的fp16模型，感谢

— from meizu MEIZU 20 Pro, Android 14 of S1 Next Goose v2.5.2-pla ...

链接：https://pan.baidu.com/s/1Fl65dRDsl42fn8_BMSC6hQ?pwd=t1f6
提取码：t1f6
--来自百度网盘超级会员V7的分享

普通论坛用户 发表于 2024-7-24 22:54

诚司发表于 2024-7-24 23:29

本帖最后由诚司于 2024-7-24 23:30 编辑

普通论坛用户发表于 2024-7-24 22:54
能给下md5.txt文件吗？百度云下载经常出现文件损坏的情况，以防万一用md5检测下 ...
5428fa31fd03765d5c0eb14d3680ba058ee1e0eca4b25140092bb9d669914bbf./model-00001-of-00015.safetensors
c8d70c9ce69e42faf9616e1bda1448c2766f00fcaa20800d3beda8302cbb8e5c./model-00002-of-00015.safetensors
10f1162a4f10ebf07324293635b6b9ee3509a835dc47a409abd87b92203f4d26./model-00003-of-00015.safetensors
6d3d16b8c67947bbfbd37c3b235f50337aa4e0b8450a5c1f21d216bb75456e59./model-00004-of-00015.safetensors
120a4429056e6efd04b1d2756b3e625bd829c4b458203d1cbf1e2e8a7b678489./model-00005-of-00015.safetensors
478c89965e4390aa458d52bbef525f95cb69eb277db1f8454ad3b0dbd8b52b7c./model-00006-of-00015.safetensors
5d71536b1c2a5c33f27330b19010f7493c1599898207dc57aa1e7e38767a4c2b./model-00007-of-00015.safetensors
57a64b41fcf22f9fd4855f542dac9d99aae242c9ad1245d34d2b71c428fe32aa./model-00008-of-00015.safetensors
7ad83531189bb6d9456710a903396ec02987be03f6539048b85f1ac25a01dd10./model-00009-of-00015.safetensors
b18986af87bed9d98c7b9deff616540b7721c379113668191bf8f848e5a050fc./model-00010-of-00015.safetensors
5ac15fdc4368f7a3532b7e114938aa5e8e50db07f01962bc3801240b9939d9c1./model-00011-of-00015.safetensors
b9ae9ccf809835bfd3c3466c80b1377da957896b34a7090614a508220bd7c1df./model-00012-of-00015.safetensors
b058ba038b230322ef83091c8a91731d384eb6ca11058a9f5df38a7c3da3df83./model-00013-of-00015.safetensors
7f6db7c3e17ce948ac5202197613ad977a2dd6a8e474e30076f5146571a4a0a4./model-00014-of-00015.safetensors
cd1fabad5e9533b25b07d107ba37c5f580bc7a8c1871b794baefdae3fa976b76./model-00015-of-00015.safetensors

sha256

aritionkb 发表于 2024-7-26 02:26

诚司发表于 2024-7-24 19:06
链接：https://pan.baidu.com/s/1Fl65dRDsl42fn8_BMSC6hQ?pwd=t1f6
提取码：t1f6
--来自百度网盘超级会 ...

非常感谢，回去就下

— from meizu MEIZU 20 Pro, Android 14 of S1 Next Goose v2.5.2-play

页: 1 [2]

Stage1st's Archiver