开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

处男鉴黄师 · 发表于 2023-4-6 23:14

godzillaqqq 发表于 2023-4-6 23:01
大矿 m40 24g 对跑这些ai模型拉不拉，听说跑图不行

-- 来自有消息提醒的 Stage1官方 Android客户端 ...

这个是CPU跑的

燕山雪 · 发表于 2023-4-6 23:45

处男鉴黄师发表于 2023-4-6 22:51
试了下，跑几句就会顿一下是因为算力问题吗？

是……

godzillaqqq · 发表于 2023-4-7 02:18

燕山雪发表于 2023-04-06 19:39:01
注意内存至少16G，老爷机就不用试了

对cpu要求的下限是几代能跑，现在内存不要钱了，32g是标配了

-- 来自有消息提醒的 Stage1官方 Android客户端

伊莉伊莉雅 · 发表于 2023-4-7 20:17

新建了个群
809851632
点击链接加入群聊【Stage1st 赛博猫娘研究院】：https://jq.qq.com/?_wv=1027&k=nUxucp4m

jcwatm1 · 发表于 2023-4-8 10:45

请教一下，本地部署用来辅助写材料，用哪个模型好啊

perfaceNext · 发表于 2023-4-8 11:45

燕山雪发表于 2023-4-6 19:39
注意内存至少16G，老爷机就不用试了

就没有适合老爷机的模型吗？

燕山雪 · 发表于 2023-4-8 11:50

godzillaqqq 发表于 2023-4-7 02:18
对cpu要求的下限是几代能跑，现在内存不要钱了，32g是标配了

-- 来自有消息提醒的 Stage1官方 Android ...

支持avx2

燕山雪 · 发表于 2023-4-8 11:51

perfaceNext 发表于 2023-4-8 11:45
就没有适合老爷机的模型吗？

见上，否则建议用在线版

jimmy_nyc · 发表于 2023-4-8 12:04

Tavern AI + GPT-3.5-turbo，prompt设置好后跑文字冒险，不能更爽

jcwatm1 · 发表于 2023-4-8 14:57

https://github.com/imClumsyPanda/langchain-ChatGLM

这个项目大佬们了解么，根据本地资料生成答案？

bixinhaner · 发表于 2023-4-8 16:48

略小白想入门有什么途径吗？有什么技术交流群没有？lz发的这些好多都看不懂

Machinery · 发表于 2023-4-8 19:55

koala-13b模型，重点研究了数据集对于小模型局限的弥补，发现开源数据集，以及简单经过转换的数量优先的数据集训练的模型并不能直接提升更多的实际能力

demo地址:https://chat.lmsys.org/?model=koala-13b

项目地址:https://bair.berkeley.edu/blog/2023/04/03/koala/

权重地址(有点大):https://drive.google.com/drive/folders/10f7wrlAFoPIy-TECHsx9DKIvbQYunCfl?usp=sharing

—— 来自 S1Fun

勿徊哉 · 发表于 2023-4-8 19:58

提示: 作者被禁止或删除内容自动屏蔽

Machinery · 发表于 2023-4-8 20:05

本帖最后由 Machinery 于 2023-4-8 20:06 编辑

StackLLaMA

使用StackExchange数据集(也就是写代码的数据集)训练的LLaMa，可以输出代码，StackExchange因为本身有投票机制(类似知乎)，所以也可以用来培训人类反馈(RLHF)

hugface方面详细讲解了微调过程与相关经验:huggingface.co/blog/stackllama

demo地址:https://huggingface.co/spaces/trl-lib/stack-llama

模型权重地址:https://huggingface.co/trl-lib/llama-7b-se-rl-peft

—— 来自 S1Fun

Machinery · 发表于 2023-4-8 20:14

本帖最后由 Machinery 于 2023-4-8 20:18 编辑

微软的论文
arxiv.org/abs/2304.03277
使用 GPT-4 进行指令调优

项目页面:https://instruction-tuning-with-gpt-4.github.io/

简单来说就是微软内部根据Alpaca的数据集，仅使用问题生成对应的GPT4答案，再使用这个GPT4答案数据集，微调了LLaMa7b模型，发现这个模型可以打过之前使用chatGPT数据微调的13b LLaMa模型，在参数减少的情况下使用更优质的数据集提升了效果

这篇论文最重要的工作之一就是他们同时制作了完全的中文数据集而且开源了(当然论文中也有中文效果测试对比)

https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

—— 来自 S1Fun

Machinery · 发表于 2023-4-8 20:30

本帖最后由 Machinery 于 2023-4-8 23:00 编辑

AI界这几天最最最重磅的消息

由meta公司开源的新作品
Segment Anything(简称SAM)

被誉为CV(计算机视觉)界的GPT3时刻
上线github一天获得8.3k star
AR与元宇宙的基础，赛博猫娘的摇篮，神之眼

重磅到我完全不需要说明这个项目
相关讨论可以查看下方具体说明，或者…知乎讨论区
https://www.zhihu.com/question/593914819

demo地址:https://segment-anything.com/

项目介绍页:https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/

论文地址:https://arxiv.org/abs/2304.02643

github页面(含权重下载地址):https://github.com/facebookresearch/segment-anything

数据集:https://ai.facebook.com/datasets/segment-anything/

注:这个项目本身有是text prompt的，但是meta并没有开源对应的部分，这个只能等民间复刻了，目前有一个clip暴力匹配复刻，不过效率较低

—— 来自 S1Fun

Machinery · 发表于 2023-4-8 20:42

本帖最后由 Machinery 于 2023-4-8 20:45 编辑

Firefly(流萤): 中文对话式大语言模型

github地址:

相比其他开源微调项目，最大的差异在于底层模型使用了Bloom大模型，而且公开了对应的高质量的包含1.1M(110万)中文多任务指令微调数据集

同时使用了Belle项目的0.5M数据集，总计165万训练数据微调

—— 来自 S1Fun

Machinery · 发表于 2023-4-8 21:14

jcwatm1 发表于 2023-4-8 14:57
https://github.com/imClumsyPanda/langchain-ChatGLM

这个项目大佬们了解么，根据本地资料生成答案？ ...

这个项目简单来说就是将本地资料/文件/文档等文件存为向量(vectorstore embedding)数据库

再根据prompt提出的问题，使用langchain作为中间接口，搜索与prompt有关的向量相似度，来进行相关资料检索进行离线知识问答，目前类似的项目有chatpdf等

自动搜索和选取文件的相关内容填充到chat的上下文中，让AI根据相关内容回答你的问题，其实也可以用作对话数据库

主要原因就是记忆系统太难搞，LLM的序列容量又太小

只能曲线救国

—— 来自 S1Fun

wave14 · 发表于 2023-4-8 21:34

Machinery 发表于 2023-4-8 21:14
这个项目简单来说就是将本地资料/文件/文档等文件存为向量(vectorstore embedding)数据库

再根据prompt ...

chatglm下面有个叫闻达的项目，好像就是差不多的东西
所有的知识库资料用txt保存，index到db
我试了下感觉还行，做成专业垂直领域的会话机器人应该不错，当对于一款AI版的企业搜索？

Machinery · 发表于 2023-4-8 21:41

wave14 发表于 2023-4-8 21:34
chatglm下面有个叫闻达的项目，好像就是差不多的东西
所有的知识库资料用txt保存，index到db
我试了下感 ...

拓展用处挺大的，不过项目大多还在发展，记忆库知识知识库都是可以的，openai不久前开放过一个叫text-embedding的api产品，就是专门做这个相关业务的，不过本地来说还是离线实现的安全性更高就是了，虽然性能表现可能差一些

https://openai.com/blog/introducing-text-and-code-embeddings

—— 来自 S1Fun

ziyuan008 · 发表于 2023-4-8 22:23

wave14 发表于 2023-4-8 21:34
chatglm下面有个叫闻达的项目，好像就是差不多的东西
所有的知识库资料用txt保存，index到db
我试了下感 ...

这个我也试了试，的确不错

伊莉伊莉雅 · 发表于 2023-4-9 08:01

本帖最后由伊莉伊莉雅于 2023-4-9 08:08 编辑

最后剩一句按回车想换行的，没想到就发出来了，编辑完发现还风怒了，把这楼编辑掉。

伊莉伊莉雅 · 发表于 2023-4-9 08:01

本帖最后由伊莉伊莉雅于 2023-4-9 08:07 编辑

截止楼主被塞为止的简单总结。（非专业，有些名词或者介绍可能不标准）主要是帖子里中文llama相关的项目和通用webui项目（非中文和非llama都没咋看），后续再整详细使用方法。
可以自己训练的中文llama分为两类，一种是lora，一种是增量训练，项目里都有训练方法（还没研究训练相关）。
前提：meta开源了llama的模型，是gpt协议且不能商用。原版模型是.pth格式，一般再训练或使用都会转成huggingface格式，简称hf，后缀是.bin。所以这些项目1.不会提供llama原模型，2.需要将llama原模型转换成hf格式使用。但是可以在网上下到原模型，也有其他人转换好的hf格式。通常可以直接下载转换好的hf格式即可。
lora项目有：
https://github.com/LC1332/Chinese-alpaca-lora（效果一般，但是可以直接在text generation里添加lora，比如模型选原版llama的hf，lora选这个就可以识别中文了）
https://github.com/ymcui/Chinese-LLaMA-Alpaca（效果比上面的好，但是不能在text generation里添加lora的形式使用，必须融合原llama的hf模型，这个跟作者提issue了，不知道能不能处理。另外按作者推荐的用法是用llama.cpp用cpu推理，速度挺快，不占用gpu。如果是用gpu的话就是用webui。另外受限于训练数据，多轮对话能力较弱）
增量训练项目：
https://github.com/ydli-ai/Chinese-ChatLLaMA（7b的gpu需要25g现存寄，cpu略慢，可能训练数据的问题，感觉多轮对话比Chinese-LLaMA-Alpaca好一些。因为使用了腾讯的预训练框架，又是另一种数据格式，不能用于webui。）
然后是Vicuna，中文水平也挺不错，官网说能达到gpt-4的90%，单对中文能力表示存疑。
https://huggingface.co/lmsys/vicuna-7b-delta-v0，提供的权重不能直接用，需要和llama的hf混了之后才能用（类似Chinese-LLaMA-Alpaca的lora）
然后是webui的项目
https://github.com/lm-sys/FastChat 这个是Vicuna配套的webui，但是也能给原版llama，alpaca，glm这些用。但是需要开三个程序，很麻烦。demo：https://chat.lmsys.org/
https://github.com/oobabooga/text-generation-webui 这个功能很多，支持的模型也比较多，不过暂时还不支持glm。目前我还没完全摸透用法，有文本生成模式和聊天模式，支持lora，也可以训练lora（看到有选项卡，但是没试过）。启动也方便，不过在windows上启动需要改些东西，稍微麻烦一点点（但还是比FastChat简单），目标是成为对标A1111的sd-webui的text generation的webui。
上面说了llama无法商用，针对这个出的项目https://github.com/Lightning-AI/lit-llama可以避开这一点，但是上面的项目目前没有支持这个的。

另外gpt4all的webui刚开始部署没成功，后来看gpt4all不支持中文就没继续弄了。
https://github.com/nomic-ai/gpt4all
https://github.com/nomic-ai/gpt4all-ui

总的来说，目前推荐
1.使用llama.cpp、alpaca.cpp，配合Chinese-LLaMA-Alpaca与vicuna的模型，因为是用cpu推理，对gpu无要求（前面有坛友分享过用法），适合日常投产使用。不过量化的模型对生成的结果还是有些影响。
2.搭建text generation，配合原版llama，alpaca，vicuna，Chinese-LLaMA-Alpaca等llama模型，以及其他类型的模型（有些模型虽然暂时没支持，战未来），耗gpu，但是折腾上限较高。

痴货 · 发表于 2023-4-9 08:29

伊莉伊莉雅发表于 2023-4-9 08:01
截止楼主被塞为止的简单总结。（非专业，有些名词或者介绍可能不标准）主要是帖子里中文llama相关的项目和 ...

text-generation-webui提到了一个GPT-4chan model，搜了一下，好家伙：

GPT-4chan was trained on over 3 years of posts from 4chan's "politically incorrect" (/pol/) board.

这是粪坑练蛊吧，难怪被抱脸下架了

Machinery · 发表于 2023-4-9 11:32

痴货发表于 2023-4-9 08:29
text-generation-webui提到了一个GPT-4chan model，搜了一下，好家伙：

这玩意甚至投入过实战，而且如果不是空回复和发帖太快甚至没人看出来

—— 来自 S1Fun

jcwatm1 · 发表于 2023-4-9 11:34

Machinery 发表于 2023-4-8 21:14
这个项目简单来说就是将本地资料/文件/文档等文件存为向量(vectorstore embedding)数据库

再根据prompt ...

测试了下，还是受限glm 6b小模型的局限性

Machinery · 发表于 2023-4-9 16:21

本帖最后由 Machinery 于 2023-4-9 16:23 编辑

Grounded-SAM

项目地址:https://github.com/IDEA-Research/Grounded-Segment-Anything

通过混合使用多种模型，如Grounding DINO/Segment Anything/Stable diffusion/blip，实现了多种功能，如自动label与segment区块，生成自动重绘mask区域，自然语言标注等，目前项目还在快速迭代中，效果强大

—— 来自 S1Fun

伊莉伊莉雅 · 发表于 2023-4-9 18:52

本帖最后由伊莉伊莉雅于 2023-4-9 20:39 编辑

痴货发表于 2023-4-9 08:29
text-generation-webui提到了一个GPT-4chan model，搜了一下，好家伙：

找到问题了，把gpt-j-6B里的文件都扔进去就行了，之前只拷贝了config和tokenizer两个文件

~~这模型我加载会报错，之前看issue里也有出一样问题的人~~（webui还有个类型可以直接生成4chan风格

晓古城 · 发表于 2023-4-9 19:08

打个标

痴货 · 发表于 2023-4-9 23:53

Machinery 发表于 2023-4-9 16:21
Grounded-SAM

项目地址:https://github.com/IDEA-Research/Grounded-Segment-Anything

这个好啊，方便了抠图和后期

大江户战士 · 发表于 2023-4-9 23:54

提示: 作者被禁止或删除内容自动屏蔽

marlun · 发表于 2023-4-10 00:13

大江户战士发表于 2023-4-9 23:54
https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

AI训练AI的项目，AI的自我进化

看起来是用GPT4优化过的数据对于参数小的模型也有很大的提升

矢吹奈子 · 发表于 2023-4-10 05:50

用llama本地部署跑了下试试，6800h卡到不能自理，X3D系列这种三级缓存比较大的CPU是不是比较有优势

伊莉伊莉雅 · 发表于 2023-4-10 06:39

矢吹奈子发表于 2023-4-10 05:50
用llama本地部署跑了下试试，6800h卡到不能自理，X3D系列这种三级缓存比较大的CPU是不是比较有优势 ...

是llama.cpp麽?我5900x跑llama.cpp跑起来很快，占用也不算高。
但是用text generation跑cpu就不行，因为用的是python接的llama.cpp，内存占用是普通的两倍，cpu占用也到了100%，速度也慢，不清楚是py的原因还是啥

矢吹奈子 · 发表于 2023-4-10 13:05

伊莉伊莉雅发表于 2023-4-10 06:39
是llama.cpp麽?我5900x跑llama.cpp跑起来很快，占用也不算高。
但是用text generation跑cpu就不行，因为 ...

是哇，也不是跑不动，就遇到很奇怪的问题，跑起来会对话到一半卡死，然后直接可以继续输入提示词，输完之后它继续输出上一段话再往后接提示词==；
我重新配置下环境看看

Machinery · 发表于 2023-4-10 20:09

MM-REACT：提示 ChatGPT 进行多模态推理和行动

微软出品的东西

通过多模型协作与复杂设计的ReAct prompt，可以让chatgpt这类LLM模型达到类GPT4级别的多模态任务理解能力(具体请看附图示例)，github的也给了一堆项目接口，能力非常强悍，感觉完全不逊色于GPT4的图片模态

论文:https://ai.papers.bar/paper/8e0ee1dcc84c11edb95839eec3084ddd

github地址:https://github.com/microsoft/MM-REACT

—— 来自 S1Fun

Machinery · 发表于 2023-4-10 20:27

Machinery 发表于 2023-4-10 20:09
MM-REACT：提示 ChatGPT 进行多模态推理和行动

微软出品的东西

发点个人感想，之前完全没想到ReAct能达到这种程度，微软虽然控股Openai，但是似乎完全没有接触到GPT4的核心算法，从最近微软的动态来看，似乎是准备走依靠核心LLM，多模型多协作多任务处理的范式，效果和应用程度上都非常不错，而且也大都开源，比较核心的LLM底层进步反而不多，也可能是在藏(不确定)，这方面可能还得看meta或者其他大厂

—— 来自 S1Fun

Machinery · 发表于 2023-4-11 05:19

DoctorGLM
在ChatGLM-6B的基础上使用问诊数据集(https://github.com/Toyhom/Chinese-medical-dialogue-data)进行微调

项目主页:https://xionghonglin.github.io/DoctorGLM/
项目地址:https://github.com/xionghonglin/DoctorGLM

注:这项工作处于非常早期的阶段并且包含许多错误，因此不适合任何商业或临床使用。

—— 来自 S1Fun

Machinery · 发表于 2023-4-11 05:24

Segment Anything的打包版本
安装与使用十分便捷，且支持视频内容切割

注:如遇到显存不足的情况，可以尝试减少points_per_side和points_per_batch参数的数值

项目地址:https://github.com/kadirnar/segment-anything-video

—— 来自 S1Fun

Machinery · 发表于 2023-4-11 05:46

本帖最后由 Machinery 于 2023-4-11 05:49 编辑

使用Segment-Anything编辑一切

项目地址:https://github.com/sail-sg/EditAnything

使用多模型协作编辑和生成图像中的任何内容，由Segment Anything、ControlNet、 BLIP2、Stable Diffusion等组成

可以理解为自动生成掩码再自动重绘，PS PLUS(简称PSP)，因为SAM切割的细粒度非常好所以理论上这类项目大有前途

—— 来自 S1Fun

		自动登录	找回密码
密码			立即注册

[科技] 开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

勿徊哉勿徊哉当前离线禁止发言精华 \| 战斗力鹅 \| 帖子注册时间 2022-12-26 头像被屏蔽	133^# 发表于 2023-4-8 19:58 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

大江户战士大江户战士当前离线禁止发言精华 \| 战斗力鹅 \| 帖子注册时间 2014-2-4 头像被屏蔽	151^# 发表于 2023-4-9 23:54 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报