开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

勿徊哉 · 发表于 2023-4-15 09:50

提示: 作者被禁止或删除内容自动屏蔽

Machinery · 发表于 2023-4-15 16:36

发错编辑/

Machinery · 发表于 2023-4-15 16:37

大江户战士发表于 2023-4-15 08:36
只炼了lora是硬件不行吗

lora比较高效吧，没有全量微调的必要，三个checkpoint都是在8xA100(40G) DGX上微调出来的

—— 来自 S1Fun

Machinery · 发表于 2023-4-15 21:16

本帖最后由 Machinery 于 2023-4-15 21:21 编辑

Image2Paragraph

使用ChatGPT、BLIP2、OFA、GRIT、Segment Anything、ControlNet等组件将图像转换为独特的具有丰富细粒度的自然语言描述段落(俗称打标)

github地址:https://github.com/showlab/Image2Paragraph

效果如下

注:作者在待办事项中已经准备用其他LLM代替chatgpt实现完全本地化

配备对应的gradio ui

—— 来自 S1Fun

Machinery · 发表于 2023-4-15 22:22

本帖最后由 Machinery 于 2023-4-16 00:38 编辑

rwkv-4-raven

要解释rwkv-4-raven就要解释ChatRWKV，要解释ChatRWKV就要解释RWKV

挨个来吧

RWKV是国人研发的(作者知乎主页:https://www.zhihu.com/people/bopengbopeng)，具有Transformer级LLM模型性能的 RNN模型(注意，是RNN模型)，结合了RNN和Transformer的优点，更好的性能表现,快速推理,更节省VRAM,更快的训练速度,(相对)无限的上下文长度,自由的语句嵌入等

作者github主页:https://github.com/BlinkDL

而ChatRWKV则是在这个模型基础设计上进行对话微调的系列模型，根据不同的参数量，训练集语料比例以及版本划分为不同的模型命名，以及对应开源的模型权重

项目地址:https://huggingface.co/BlinkDL/rwkv-4-raven

RWKV-4-Pile系列模型有3B/7B/14B等版本，最近在Alpaca, CodeAlpaca, Guanaco, GPT4All, ShareGPT等公开数据集上进行微调，具体安装使用可以根据作者的readme步骤进行

—— 来自 S1Fun

Machinery · 发表于 2023-4-16 01:43

OpenAssistant Conversations (OASST1对话数据集)

OpenAssistant项目模型所公开的对话数据集，相关资料如下

数据集地址:https://huggingface.co/datasets/OpenAssistant/oasst1

—— 来自 S1Fun

大江户战士 · 发表于 2023-4-16 02:31

提示: 作者被禁止或删除内容自动屏蔽

191634 · 发表于 2023-4-16 09:58

那个号称地球上唯一一个能用rnn实现gpt4效果的rwkv怎么样？

Machinery · 发表于 2023-4-16 15:40

191634 发表于 2023-4-16 09:58
那个号称地球上唯一一个能用rnn实现gpt4效果的rwkv怎么样？

效果确实挺好的，discord有bot，可以去看看

—— 来自 S1Fun

Machinery · 发表于 2023-4-16 15:50

文本到图像生成模型-Paella

Laion组织的新文本到图像生成模型，模型本身在量化的潜在空间中工作，学习方式类似于 MUSE 和扩散模型，也同样是通过逐步加噪方式来生成图像，不过本项目与扩散模型最大的区别在于，Paella 的训练和采样代码极简，几分钟就可以理解，进一步扩展，快速测试，想法测试等非常快。例如，整个采样代码可以写成12行代码，关于方法、训练和采样的更多细节可以在论文和 GitHub 上找到。

论文链接:https://arxiv.org/abs/2211.07292

hugface权重下载:https://huggingface.co/dome272/Paella

github项目页:https://github.com/dome272/Paella

—— 来自 S1Fun

勿徊哉 · 发表于 2023-4-16 19:49

提示: 作者被禁止或删除内容自动屏蔽

死宅真恶心 · 发表于 2023-4-17 08:25

借地问一下有无体制内八股文的模型

Machinery · 发表于 2023-4-17 14:43

本帖最后由 Machinery 于 2023-4-17 15:07 编辑

LLMZoo

LLMZoo是由香港中文大学(CUHKSZ)所关联的项目，项目本身旨在梳理近期LLM项目与数据集，发布了两种新模型，同时计划发布更多类型模型

大型语言模型Phoenix(跨语言LLM/使用BLOOMZ作为基础模型)
大型语言模型Chimera(拉丁语与西里尔语言LLM/使用LLaMA作为基础模型)

模型的主要区别在于同时使用了两类数据，即指令数据和对话数据，它们以前分别仅由Alpaca与Vicuna使用，指令数据有助于驯服语言模型以遵守人类指令，而对话数据则有助于模型中对话技能的发展，相辅相成，共同创建更全面的语言模型，同时项目对于模型进行了一定的基准测试，请于github中查阅

项目地址:https://github.com/FreedomIntelligence/LLMZoo

项目整理的相关数据集:https://github.com/FreedomIntelligence/InstructionZoo

—— 来自 S1Fun

Machinery · 发表于 2023-4-17 17:17

本帖最后由 Machinery 于 2023-4-17 17:18 编辑

Inpaint-Anything

使用SAM切割后重绘任何图片，这个思路本身不算特别出奇，而且已经见到相当多的工程项目，但是这个项目作者用的图片重绘组件不是扩散模型，而是卷积修复模型，这点在今日是相当罕见的，但效果真的特别好

github项目地址:https://github.com/geekyutao/Inpaint-Anything

重点说说作者使用的模型LaMa

LaMa(使用傅里叶卷积核进行高清掩码稳健性重绘)
项目空间:https://advimman.github.io/lama-project/

LaMa 出人意料地很好地泛化了比它在训练期间看到的 (256x256) 更高的分辨率 (~2k❗️)，并且即使在具有挑战性的场景中也能实现出色的性能，例如周期性结构的完成，以下为例图

虽然在生成方面卷积不如扩散模型的语义丰富，但对于图片修复与周期性结构，或者细节填补等，卷积是非常优秀的，而且速度极快(对比扩散模型)，不过扩散近期也有一致性模型的新方法，不知道以后的AR图像编辑会采取什么样的方案

—— 来自 S1Fun

lvseqiji · 发表于 2023-4-17 22:23

提示: 作者被禁止或删除内容自动屏蔽

我开P918 · 发表于 2023-4-17 22:32

编辑

Machinery · 发表于 2023-4-17 22:47

lvseqiji 发表于 2023-4-17 22:23
https://minigpt-4.github.io/
新项目，基于Vicuna-13B和BLIP2的多模态模型，其实只是做了些缝合+自己搞了 ...

这个多模态项目不错，最近C4多模态数据集也发布了，加上SAM的高细粒度标注，以及越来越多的民间语料与项目合作，比如RedPajama和openAssistant这类的，未来开源多模态LLM越来越光明了

—— 来自 S1Fun

Machinery · 发表于 2023-4-17 23:15

简单介绍一下RedPajama，目标是创建一个领先的开源LLM模型系列

目前已经公开了包含超过 1.2 万亿个token的仿LLaMA预训练预处理数据集

项目公开地址:https://www.together.xyz/blog/redpajama

数据集公开地址:https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

—— 来自 S1Fun

Machinery · 发表于 2023-4-17 23:38

本帖最后由 Machinery 于 2023-4-18 00:01 编辑

lvseqiji 发表于 2023-4-17 22:23
https://minigpt-4.github.io/
新项目，基于Vicuna-13B和BLIP2的多模态模型，其实只是做了些缝合+自己搞了 ...

github项目地址:https://github.com/Vision-CAIR/MiniGPT-4

贴一下效果，真的好到爆炸，感觉完全不输GPT4，至少我用discord的GPT4图片模态，细粒度也不会比这个好太多，更关键的在于只用了13B的LLM模型，看项目署名似乎是沙特土豪和国人的合作项目

—— 来自 S1Fun

冰箱研会长 · 发表于 2023-4-18 09:33

今天终于有空好好追一下这个帖子了
想找个用来paraphrase的模型
打算先测试一下Vicuna和gpt4all

Machinery · 发表于 2023-4-18 15:19

本帖最后由 Machinery 于 2023-4-18 15:53 编辑

DINOv2
最新sota级自监督机器视觉学习模型

meta开源的又一个震撼的新作品，自监督模型，产生适用于图像级视觉任务（图像分类、实例检索、视频理解）以及像素级视觉任务（深度估计、语义分割）的通用特征，性能稳健，而且不需要微调(重点)

适合成为机器视觉模型的backbone，因为是自监督模型所以可以从任何图片集合中学习，也包括深度估计等特征图片

项目博客:https://ai.facebook.com/blog/dino-v2-computer-vision-self-supervised-learning/

实时演示:https://dinov2.metademolab.com/

发现量子位更新了介绍文章:https://www.qbitai.com/2023/04/47152.html
—— 来自 S1Fun

Machinery · 发表于 2023-4-18 16:22

本帖最后由 Machinery 于 2023-4-18 16:27 编辑

LLaVA-13B-v0

多模态模型，从理解上来说类似minigpt4，但是训练与架构方法不同，结合使用了CLIP ViT-L/14和 Vicuna 以实现通用视觉和语言理解，同时公布了所使用的GPT4指令微调合成多模态数据集

模型地址:https://huggingface.co/liuhaotian/LLaVA-13b-delta-v0

项目空间:https://llava-vl.github.io/

演示地址:https://llava.hliu.cc/

数据集地址:https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K

不知道为啥，演示老是错误，所以去推上找了找示例

—— 来自 S1Fun

Machinery · 发表于 2023-4-18 16:39

注:这里的法学硕士是谷歌的错误机翻，实际上是LLM(大语言模型)

来个比较生草的，最初是刷到这条博客，愣了一下，进去一看，这不是赛博群友嘛！

包含全套赛博群友练成指南:https://www.izzy.co/blogs/robo-boys.html

—— 来自 S1Fun

Machinery · 发表于 2023-4-18 17:19

LongForm

今日最离谱项目，直接看数据，简单的prompt合成技巧能拉这么多点就离谱，这数据已经完全达到了chatgpt水平，按这个提升，13b小羊驼加上这种微调方法已经完全可以和chatgpt一战了，再加上开源多模态实现，完美实现gpt4平替版，数据太好到有点难以想象

github地址:https://github.com/akoksal/LongForm

—— 来自 S1Fun

Machinery · 发表于 2023-4-18 20:50

项目地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese

—— 来自 S1Fun

Machinery · 发表于 2023-4-18 21:00

Bark
文本prompt提示音频生成模型
项目地址:https://github.com/suno-ai/bark

能说外语，能用prompt提示，能生成音乐风格，流畅连贯，还有语气，github自带演示，效果也太好了

—— 来自 S1Fun

nexus1 · 发表于 2023-4-19 12:40

一个电脑上有多个环境不会相互冲突吧

顺便,古汉语和语言学目前还没找到应用?我感觉这个llm是最适合做古语言内容的了,可以把学界几个世纪的积累从头犁一遍

oldttt · 发表于 2023-4-19 13:46

Machinery 发表于 2023-4-18 21:00
Bark
文本prompt提示音频生成模型
项目地址:https://github.com/suno-ai/bark

我试了感觉中文的一般腔调奇怪像影视剧里洋人学中文

Machinery · 发表于 2023-4-19 13:48

oldttt 发表于 2023-4-19 13:46
我试了感觉中文的一般腔调奇怪像影视剧里洋人学中文

昨天测试时发现了，应该是训练集训练量不足的问题，靠泛化达到这个性能很不错了，实际上我觉得这更有点像语音版的SD，如果能重新训练微调，比现在这些TTS强太多了

—— 来自 S1Fun

oldttt · 发表于 2023-4-19 13:51

Machinery 发表于 2023-4-19 13:48
昨天测试时发现了，应该是训练集训练量不足的问题，靠泛化达到这个性能很不错了，实际上我觉得这 ...

那倒是我比较在意它那些可以调整语气的tag 只是重音这种靠大小写控制的中文也不知怎么搞

塔奇克马 · 发表于 2023-4-19 13:56

nexus1 发表于 2023-4-19 12:40
一个电脑上有多个环境不会相互冲突吧

顺便,古汉语和语言学目前还没找到应用?我感觉这个llm是最适合 ...

不会，先装pyenv 可以随意切换版本然后再用python -m虚拟环境

Machinery · 发表于 2023-4-19 13:56

本帖最后由 Machinery 于 2023-4-19 14:31 编辑

Guanaco

llama概念验证模型，拥有多语言，使用system prompt进行准确的外部知识整合推理(类似gpt4的泛化知识角色扮演)，多轮对话，类似chatgpt的三位一体角色设定 (System, Assistant, User)，更易于使用等，性能十分强大

项目地址:https://huggingface.co/JosephusCheung/Guanaco

另注:作者不推荐使用llama.cpp运行Guanaco，也不推荐直接量化模型，模型在fp16的情况下工作性能更好，可以使用专用的量化模型，hugface页有写

—— 来自 S1Fun

lvcha · 发表于 2023-4-19 14:08

提示: 作者被禁止或删除内容自动屏蔽

hyde_caesar · 发表于 2023-4-19 14:11

mark一下, 顺便楼主怎么进去了

塔奇克马 · 发表于 2023-4-19 14:16

Machinery 发表于 2023-4-19 13:56
Guanaco

llama概念验证模型，拥有多语言，使用system prompt进行准确的外部知识整合推理(类似gpt4的泛化知 ...

那这玩意用啥跑？

Machinery · 发表于 2023-4-19 14:27

塔奇克马发表于 2023-4-19 14:16
那这玩意用啥跑？

只是不推荐用llama.cpp，可以用webui，他colab也有代码整合

https://colab.research.google.com/drive/1ocSmoy3ba1EkYu7JWT1oCw9vz8qC2cMk#scrollTo=zLORi5OcPcIJ

—— 来自 S1Fun

Machinery · 发表于 2023-4-19 14:57

SAM-Adaptor

微调SAM以适应表现不佳的场景
注:论文标题非常生草

项目地址:https://tianrun-chen.github.io/SAM-Adaptor/

github地址:https://github.com/tianrun-chen/SAM-Adapter-PyTorch

构架如下

—— 来自 S1Fun

Machinery · 发表于 2023-4-20 00:09

本帖最后由 Machinery 于 2023-4-20 00:45 编辑

StableLM

Stability Ai公布的独立LLM模型，测试版30亿和70亿参数，预定今后还有150亿和650亿版本的，使用的预训练数据集是在The Pile数据集上构建的新数据集，包含大约1.5万亿token，训练上下文长度4096，即将发布的技术报告将记录模型规格和训练设置。

github仓库代码使用Apache License 2.0，开源模型权重使用CC BY-SA-4.0许可，微调模型根据Stanford Alpaca训练集的关联许可为CC BY-NC-SA-4.0

3B/7B/15B/30B/65B/175B
一共计划中是六个版本，同时使用了最近的五个公开数据集(Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, and Anthropic's HH)进行了微调概念验证，在github有地址

StableLM微调版需要使用格式化的prompt提示，格式与方法与chatgpt api差不多

微调版演示Demo:https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat

项目博客:https://stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models

github地址:https://github.com/Stability-AI/StableLM

—— 来自 S1Fun

Machinery · 发表于 2023-4-20 18:32

alpaca-lora-65B-GGML

https://huggingface.co/TheBloke/alpaca-lora-65B-GGML

使用实验性质的2bit量化和4bit量化对alpaca-lora-65b进行cpu推理测试

注:非常非常的实验性质，可以看看readme

—— 来自 S1Fun

Machinery · 发表于 2023-4-21 04:50

本帖最后由 Machinery 于 2023-4-21 04:55 编辑

Anything-3D

切割2D图像，重建到3D物体/视角/场景/面部等，与多种模型与方法搭配使用，效果不错

项目地址:https://github.com/Anything-of-anything/Anything-3D

—— 来自 S1Fun

		自动登录	找回密码
密码			立即注册

[科技] 开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

勿徊哉勿徊哉当前离线禁止发言精华 \| 战斗力鹅 \| 帖子注册时间 2022-12-26 头像被屏蔽	201^# 发表于 2023-4-15 09:50 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

大江户战士大江户战士当前离线禁止发言精华 \| 战斗力鹅 \| 帖子注册时间 2014-2-4 头像被屏蔽	207^# 发表于 2023-4-16 02:31 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

勿徊哉勿徊哉当前离线禁止发言精华 \| 战斗力鹅 \| 帖子注册时间 2022-12-26 头像被屏蔽	211^# 发表于 2023-4-16 19:49 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

lvseqiji lvseqiji 当前离线禁止发言精华 \| 战斗力鹅 \| 帖子注册时间 2011-4-16 头像被屏蔽	215^# 发表于 2023-4-17 22:23 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

lvcha lvcha 当前离线禁止发言精华 \| 战斗力鹅 \| 帖子注册时间 2011-6-22 头像被屏蔽	233^# 发表于 2023-4-19 14:08 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报