Stage1st

 找回密码
 立即注册
搜索
楼主: yesicant
打印 上一主题 下一主题

[科技] 开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

  [复制链接]
头像被屏蔽
     
201#
发表于 2023-4-15 09:50 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
202#
发表于 2023-4-15 16:36 | 只看该作者
发错编辑/
回复

使用道具 举报

     
203#
发表于 2023-4-15 16:37 | 只看该作者
大江户战士 发表于 2023-4-15 08:36
只炼了lora是硬件不行吗

lora比较高效吧,没有全量微调的必要,三个checkpoint都是在8xA100(40G) DGX上微调出来的

—— 来自 S1Fun
回复

使用道具 举报

     
204#
发表于 2023-4-15 21:16 | 只看该作者
本帖最后由 Machinery 于 2023-4-15 21:21 编辑

Image2Paragraph

使用ChatGPT、BLIP2、OFA、GRIT、Segment Anything、ControlNet等组件将图像转换为独特的具有丰富细粒度的自然语言描述段落(俗称打标)

github地址:https://github.com/showlab/Image2Paragraph

效果如下



注:作者在待办事项中已经准备用其他LLM代替chatgpt实现完全本地化


配备对应的gradio ui

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
205#
发表于 2023-4-15 22:22 | 只看该作者
本帖最后由 Machinery 于 2023-4-16 00:38 编辑

rwkv-4-raven

要解释rwkv-4-raven就要解释ChatRWKV,要解释ChatRWKV就要解释RWKV挨个来吧

RWKV是国人研发的(作者知乎主页:https://www.zhihu.com/people/bopengbopeng),具有Transformer级LLM模型性能的 RNN模型(注意,是RNN模型),结合了RNN和Transformer的优点,更好的性能表现,快速推理,更节省VRAM,更快的训练速度,(相对)无限的上下文长度,自由的语句嵌入等

作者github主页:https://github.com/BlinkDL


而ChatRWKV则是在这个模型基础设计上进行对话微调的系列模型,根据不同的参数量,训练集语料比例以及版本划分为不同的模型命名,以及对应开源的模型权重

项目地址:https://huggingface.co/BlinkDL/rwkv-4-raven

RWKV-4-Pile系列模型有3B/7B/14B等版本,最近在Alpaca, CodeAlpaca, Guanaco, GPT4All, ShareGPT等公开数据集上进行微调,具体安装使用可以根据作者的readme步骤进行

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

评分

参与人数 1战斗力 +1 收起 理由
巨魔型美羽 + 1

查看全部评分

回复

使用道具 举报

     
206#
发表于 2023-4-16 01:43 | 只看该作者
OpenAssistant Conversations (OASST1对话数据集)

OpenAssistant项目模型所公开的对话数据集,相关资料如下

数据集地址:https://huggingface.co/datasets/OpenAssistant/oasst1



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

头像被屏蔽
207#
发表于 2023-4-16 02:31 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
208#
发表于 2023-4-16 09:58 来自手机 | 只看该作者
那个号称地球上唯一一个能用rnn实现gpt4效果的rwkv怎么样?
回复

使用道具 举报

     
209#
发表于 2023-4-16 15:40 | 只看该作者
191634 发表于 2023-4-16 09:58
那个号称地球上唯一一个能用rnn实现gpt4效果的rwkv怎么样?

效果确实挺好的,discord有bot,可以去看看

—— 来自 S1Fun
回复

使用道具 举报

     
210#
发表于 2023-4-16 15:50 | 只看该作者
文本到图像生成模型-Paella

Laion组织的新文本到图像生成模型,模型本身在量化的潜在空间中工作,学习方式类似于 MUSE 和扩散模型,也同样是通过逐步加噪方式来生成图像,不过本项目与扩散模型最大的区别在于,Paella 的训练和采样代码极简,几分钟就可以理解,进一步扩展,快速测试,想法测试等非常快。例如,整个采样代码可以写成12行代码,关于方法、训练和采样的更多细节可以在论文和 GitHub 上找到。






论文链接:https://arxiv.org/abs/2211.07292

hugface权重下载:https://huggingface.co/dome272/Paella

github项目页:https://github.com/dome272/Paella

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

头像被屏蔽
     
211#
发表于 2023-4-16 19:49 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
212#
发表于 2023-4-17 08:25 | 只看该作者
借地问一下有无体制内八股文的模型
回复

使用道具 举报

     
213#
发表于 2023-4-17 14:43 | 只看该作者
本帖最后由 Machinery 于 2023-4-17 15:07 编辑

LLMZoo

LLMZoo是由香港中文大学(CUHKSZ)所关联的项目,项目本身旨在梳理近期LLM项目与数据集,发布了两种新模型,同时计划发布更多类型模型

大型语言模型Phoenix(跨语言LLM/使用BLOOMZ作为基础模型)
大型语言模型Chimera(拉丁语与西里尔语言LLM/使用LLaMA作为基础模型)

模型的主要区别在于同时使用了两类数据,即指令数据和对话数据,它们以前分别仅由Alpaca与Vicuna使用,指令数据有助于驯服语言模型以遵守人类指令,而对话数据则有助于模型中对话技能的发展,相辅相成,共同创建更全面的语言模型,同时项目对于模型进行了一定的基准测试,请于github中查阅


项目地址:https://github.com/FreedomIntelligence/LLMZoo

项目整理的相关数据集:https://github.com/FreedomIntelligence/InstructionZoo


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
214#
发表于 2023-4-17 17:17 | 只看该作者
本帖最后由 Machinery 于 2023-4-17 17:18 编辑

Inpaint-Anything

使用SAM切割后重绘任何图片,这个思路本身不算特别出奇,而且已经见到相当多的工程项目,但是这个项目作者用的图片重绘组件不是扩散模型,而是卷积修复模型,这点在今日是相当罕见的,但效果真的特别好

github项目地址:https://github.com/geekyutao/Inpaint-Anything

重点说说作者使用的模型LaMa

LaMa(使用傅里叶卷积核进行高清掩码稳健性重绘)
项目空间:https://advimman.github.io/lama-project/

LaMa 出人意料地很好地泛化了比它在训练期间看到的 (256x256) 更高的分辨率 (~2k❗️),并且即使在具有挑战性的场景中也能实现出色的性能,例如周期性结构的完成,以下为例图




虽然在生成方面卷积不如扩散模型的语义丰富,但对于图片修复与周期性结构,或者细节填补等,卷积是非常优秀的,而且速度极快(对比扩散模型),不过扩散近期也有一致性模型的新方法,不知道以后的AR图像编辑会采取什么样的方案

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

头像被屏蔽
     
215#
发表于 2023-4-17 22:23 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
216#
发表于 2023-4-17 22:32 | 只看该作者
编辑
回复

使用道具 举报

     
217#
发表于 2023-4-17 22:47 | 只看该作者
lvseqiji 发表于 2023-4-17 22:23
https://minigpt-4.github.io/
新项目,基于Vicuna-13B和BLIP2的多模态模型,其实只是做了些缝合+自己搞了 ...

这个多模态项目不错,最近C4多模态数据集也发布了,加上SAM的高细粒度标注,以及越来越多的民间语料与项目合作,比如RedPajama和openAssistant这类的,未来开源多模态LLM越来越光明了

—— 来自 S1Fun
回复

使用道具 举报

     
218#
发表于 2023-4-17 23:15 | 只看该作者
简单介绍一下RedPajama,目标是创建一个领先的开源LLM模型系列

目前已经公开了包含超过 1.2 万亿个token的仿LLaMA预训练预处理数据集

项目公开地址:https://www.together.xyz/blog/redpajama

数据集公开地址:https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
219#
发表于 2023-4-17 23:38 | 只看该作者
本帖最后由 Machinery 于 2023-4-18 00:01 编辑
lvseqiji 发表于 2023-4-17 22:23
https://minigpt-4.github.io/
新项目,基于Vicuna-13B和BLIP2的多模态模型,其实只是做了些缝合+自己搞了 ...
github项目地址:https://github.com/Vision-CAIR/MiniGPT-4

贴一下效果,真的好到爆炸,感觉完全不输GPT4,至少我用discord的GPT4图片模态,细粒度也不会比这个好太多,更关键的在于只用了13B的LLM模型,看项目署名似乎是沙特土豪和国人的合作项目






—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
220#
发表于 2023-4-18 09:33 | 只看该作者
今天终于有空好好追一下这个帖子了
想找个用来paraphrase的模型
打算先测试一下Vicuna和gpt4all
回复

使用道具 举报

     
221#
发表于 2023-4-18 15:19 | 只看该作者
本帖最后由 Machinery 于 2023-4-18 15:53 编辑

DINOv2
最新sota级自监督机器视觉学习模型

meta开源的又一个震撼的新作品,自监督模型,产生适用于图像级视觉任务(图像分类、实例检索、视频理解)以及像素级视觉任务(深度估计、语义分割)的通用特征,性能稳健,而且不需要微调(重点)

适合成为机器视觉模型的backbone,因为是自监督模型所以可以从任何图片集合中学习,也包括深度估计等特征图片

项目博客:https://ai.facebook.com/blog/dino-v2-computer-vision-self-supervised-learning/

实时演示:https://dinov2.metademolab.com/



发现量子位更新了介绍文章:https://www.qbitai.com/2023/04/47152.html
—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
222#
发表于 2023-4-18 16:22 | 只看该作者
本帖最后由 Machinery 于 2023-4-18 16:27 编辑

LLaVA-13B-v0

多模态模型,从理解上来说类似minigpt4,但是训练与架构方法不同,结合使用了CLIP ViT-L/14和 Vicuna 以实现通用视觉和语言理解,同时公布了所使用的GPT4指令微调合成多模态数据集

模型地址:https://huggingface.co/liuhaotian/LLaVA-13b-delta-v0

项目空间:https://llava-vl.github.io/

演示地址:https://llava.hliu.cc/

数据集地址:https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K

不知道为啥,演示老是错误,所以去推上找了找示例



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
223#
发表于 2023-4-18 16:39 | 只看该作者

注:这里的法学硕士是谷歌的错误机翻,实际上是LLM(大语言模型)

来个比较生草的,最初是刷到这条博客,愣了一下,进去一看,这不是赛博群友嘛!



包含全套赛博群友练成指南:https://www.izzy.co/blogs/robo-boys.html

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
224#
发表于 2023-4-18 17:19 | 只看该作者
LongForm

今日最离谱项目,直接看数据,简单的prompt合成技巧能拉这么多点就离谱,这数据已经完全达到了chatgpt水平,按这个提升,13b小羊驼加上这种微调方法已经完全可以和chatgpt一战了,再加上开源多模态实现,完美实现gpt4平替版,数据太好到有点难以想象
github地址:https://github.com/akoksal/LongForm




—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
225#
发表于 2023-4-18 20:50 | 只看该作者
项目地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese





—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
226#
发表于 2023-4-18 21:00 | 只看该作者
Bark
文本prompt提示音频生成模型
项目地址:https://github.com/suno-ai/bark

能说外语,能用prompt提示,能生成音乐风格,流畅连贯,还有语气,github自带演示,效果也太好了



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
227#
发表于 2023-4-19 12:40 | 只看该作者
一个电脑上有多个环境不会相互冲突吧

顺便,古汉语和语言学目前还没找到应用?我感觉这个llm是最适合做古语言内容的了,可以把学界几个世纪的积累从头犁一遍
回复

使用道具 举报

     
228#
发表于 2023-4-19 13:46 | 只看该作者
Machinery 发表于 2023-4-18 21:00
Bark
文本prompt提示音频生成模型
项目地址:https://github.com/suno-ai/bark


我试了感觉中文的一般 腔调奇怪 像影视剧里洋人学中文
回复

使用道具 举报

     
229#
发表于 2023-4-19 13:48 | 只看该作者
oldttt 发表于 2023-4-19 13:46
我试了感觉中文的一般 腔调奇怪 像影视剧里洋人学中文

昨天测试时发现了,应该是训练集训练量不足的问题,靠泛化达到这个性能很不错了,实际上我觉得这更有点像语音版的SD,如果能重新训练微调,比现在这些TTS强太多了

—— 来自 S1Fun
回复

使用道具 举报

     
230#
发表于 2023-4-19 13:51 | 只看该作者
Machinery 发表于 2023-4-19 13:48
昨天测试时发现了,应该是训练集训练量不足的问题,靠泛化达到这个性能很不错了,实际上我觉得这 ...

那倒是 我比较在意它那些可以调整语气的tag 只是重音这种靠大小写控制的 中文也不知怎么搞
回复

使用道具 举报

     
231#
发表于 2023-4-19 13:56 | 只看该作者
nexus1 发表于 2023-4-19 12:40
一个电脑上有多个环境不会相互冲突吧

顺便,古汉语和语言学目前还没找到应用?我感觉这个llm是最适合 ...

不会,先装pyenv 可以随意切换 版本然后再用python -m虚拟环境
回复

使用道具 举报

     
232#
发表于 2023-4-19 13:56 | 只看该作者
本帖最后由 Machinery 于 2023-4-19 14:31 编辑

Guanaco

llama概念验证模型,拥有多语言,使用system prompt进行准确的外部知识整合推理(类似gpt4的泛化知识角色扮演),多轮对话,类似chatgpt的三位一体角色设定 (System, Assistant, User),更易于使用等,性能十分强大

项目地址:https://huggingface.co/JosephusCheung/Guanaco

另注:作者不推荐使用llama.cpp运行Guanaco,也不推荐直接量化模型,模型在fp16的情况下工作性能更好,可以使用专用的量化模型,hugface页有写





—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

头像被屏蔽
     
233#
发表于 2023-4-19 14:08 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
234#
发表于 2023-4-19 14:11 | 只看该作者
mark一下, 顺便楼主怎么进去了
回复

使用道具 举报

     
235#
发表于 2023-4-19 14:16 | 只看该作者
Machinery 发表于 2023-4-19 13:56
Guanaco

llama概念验证模型,拥有多语言,使用system prompt进行准确的外部知识整合推理(类似gpt4的泛化知 ...

那这玩意用啥跑?
回复

使用道具 举报

     
236#
发表于 2023-4-19 14:27 | 只看该作者

只是不推荐用llama.cpp,可以用webui,他colab也有代码整合

https://colab.research.google.com/drive/1ocSmoy3ba1EkYu7JWT1oCw9vz8qC2cMk#scrollTo=zLORi5OcPcIJ

—— 来自 S1Fun
回复

使用道具 举报

     
237#
发表于 2023-4-19 14:57 | 只看该作者
SAM-Adaptor

微调SAM以适应表现不佳的场景
注:论文标题非常生草

项目地址:https://tianrun-chen.github.io/SAM-Adaptor/

github地址:https://github.com/tianrun-chen/SAM-Adapter-PyTorch



构架如下


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
238#
发表于 2023-4-20 00:09 | 只看该作者
本帖最后由 Machinery 于 2023-4-20 00:45 编辑

StableLM

Stability Ai公布的独立LLM模型,测试版30亿和70亿参数,预定今后还有150亿和650亿版本的,使用的预训练数据集是在The Pile数据集上构建的新数据集,包含大约1.5万亿token,训练上下文长度4096,即将发布的技术报告将记录模型规格和训练设置。

github仓库代码使用Apache License 2.0,开源模型权重使用CC BY-SA-4.0许可,微调模型根据Stanford Alpaca训练集的关联许可为CC BY-NC-SA-4.0

3B/7B/15B/30B/65B/175B
一共计划中是六个版本,同时使用了最近的五个公开数据集(Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, and Anthropic's HH)进行了微调概念验证,在github有地址

StableLM微调版需要使用格式化的prompt提示,格式与方法与chatgpt api差不多

微调版演示Demo:https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat

项目博客:https://stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models

github地址:https://github.com/Stability-AI/StableLM





—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
239#
发表于 2023-4-20 18:32 | 只看该作者
alpaca-lora-65B-GGML

https://huggingface.co/TheBloke/alpaca-lora-65B-GGML

使用实验性质的2bit量化和4bit量化对alpaca-lora-65b进行cpu推理测试



注:非常非常的实验性质,可以看看readme

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
240#
发表于 2023-4-21 04:50 | 只看该作者
本帖最后由 Machinery 于 2023-4-21 04:55 编辑

Anything-3D

切割2D图像,重建到3D物体/视角/场景/面部等,与多种模型与方法搭配使用,效果不错

项目地址:https://github.com/Anything-of-anything/Anything-3D



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-5-2 20:09 , Processed in 0.059492 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表