开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

Machinery · 发表于 2023-7-12 05:39

本帖最后由 Machinery 于 2023-7-12 05:40 编辑

SVIT

扩大视觉指令调整数据集

github项目仓库:https://github.com/BAAI-DCAI/Visual-Instruction-Tuning

由于基础模型的出现，大语言和视觉模型被集成起来，获得了视觉字幕、对话、问答等多模态能力，尽管现有的多模态模型在视觉理解和推理方面表现出了令人印象深刻的性能，但它们的局限性很大程度上由于缺乏高质量的指令调优数据，尚未得到充分探索

为了突破多模态能力的极限，构建了320万样本的视觉指令调整数据集来提高视觉指令调整能力(SVIT/Sale up Visual Instruction Tuning)，其中包括160万个对话问答(QA)对和160万个复杂推理QA对以及106K详细图像描述

除了数量之外，所提出的数据集还具有高质量和丰富的多样性的特点，这是通过使用丰富的图像手动提示GPT-4生成的，通过实证验证，在SVIT上训练多模态模型可以显着提高视觉感知、推理和规划方面的多模态性能

与其他数据集的对比:

样本实例(请注意图片并未提供给gpt4):

数据集分布:

存在问题的生成样本:

与其他模型的对比:

—— 来自 S1Fun

Machinery · 发表于 2023-7-13 04:30

CSD-Edit

协作分数蒸馏(Collaborative Score Distillation)实现一致连贯的视觉合成图片

项目主页:https://subin-kim-cv.github.io/CSD/

github项目地址:https://github.com/subin-kim-cv/CSD

大规模文本到图像扩散模型的生成先验可以在不同的视觉模式上实现广泛的生成和编辑效果

然而，当使用这些先验适应复杂的视觉模式(通常表示为多个图像或者视频时)之间的一致性时，任务非常具有挑战性

在本文中，采用了一种新颖的方法来应对这一挑战，即协作分数蒸馏(CSD/Collaborative Score Distillation)，CSD基于Stein变分梯度下降(SVGD/Stein Variational Gradient Descent)

具体来说，通过将多个样本视为SVGD更新中的“粒子”，并结合它们的评分函数来同步提取一组图像的生成先验，因此，CSD有助于跨2D图像的信息无缝集成，从而在多个样本之间实现一致的视觉合成

展示了CSD在各种任务中的有效性，包括全景图像、视频和3D场景的可视化编辑，实验结果证明了CSD作为增强样本间一致性的通用方法的能力，从而扩大了文本到图像扩散模型的适用性

(左方)Instruct-Pix2Pix应用于512x512的缩小图像时，会产生低质量的结果，并在编辑后丢失许多细节
(中间)本文方法CSD-Edit，可在区块之间提供一致的图像编辑，从而实现给定指令的最佳保真度
(右方)Instruct-Pix2Pix在裁剪后的区块上使用时，会导致补丁之间的图像编辑不一致

4K分辨率图像编辑生成

全景图像生成与目标编辑修改

3D场景合成与基线效果对比

—— 来自 S1Fun

Machinery · 发表于 2023-7-13 04:46

本帖最后由 Machinery 于 2023-7-13 05:13 编辑

Emu

多模态生成预训练

github项目地址:https://github.com/baaivision/Emu

演示Demo:http://218.91.113.230:9002/

Emu是一种基于Tranformer的多模态基础模型，可以在多模态上下文中无缝生成图像和文本，可以通过一个模型适用于所有自回归训练过程，不加区别地接受任何单模态或多模态数据输入(例如交错的图像、文本和视频)

首先，视觉信号被编码为嵌入，并与文本Token一起形成交错的输入序列，然后，以对下一个文本Token进行分类或对多模态序列中的下一个视觉嵌入进行回归的统一目标，对Emu进行端到端训练

这种多功能的多模态使得能够大规模探索不同的预训练数据源，例如具有交错帧和文本的视频、具有交错图像和文本的网页，以及网络规模的图像文本对和视频文本对等

Emu可以作为图像到文本和文本到图像任务的通用多模态接口，并支持上下文图像和文本生成，在广泛的零样本/少样本任务中，包括图像字幕、视觉问答、视频问答和文本到图像生成，与最先进的大型多模态模型相比，Emu表现出了卓越的性能，通过指令调整实现的多模式助手等扩展功能也具有令人印象深刻的性能

Emu以自回归方式统一不同模态的建模，视觉信号首先被编码为嵌入，并与文本标记一起形成交错序列，训练目标是对下一个文本标记进行分类或对下一个视觉嵌入进行回归，在推理中，回归的视觉嵌入通过微调的潜在扩散模型被解码为真实的图像

交错的视频文本数据，故事板缩略图和字幕的组合创建了按时间戳排序的自然交错的视频和文本序列

评估与实际演示

github提供模型权重下载链接

—— 来自 S1Fun

Machinery · 发表于 2023-7-13 05:32

本帖最后由 Machinery 于 2023-7-13 05:33 编辑

Solo-Performance-Prompting

github项目代码库:https://github.com/MikeWangWZHL/Solo-Performance-Prompting

在大型语言模型中释放认知协同(Cognitive Synergy)，通过多人自协作(Multi-Persona Self-Collaboration)来解决任务的代理(Agent)

人类智力的蓬勃发展依赖于认知协同，不同认知过程之间的协作和信息整合比孤立的个体认知过程能够产生更好的结果

尽管大型语言模型(LLM)作为一般任务解决代理已表现出良好的性能，但它们仍然难以处理需要密集领域知识和复杂推理的任务

在本文中提出了SPP(Solo Performance Prompting)，通过与多个角色进行多轮自协作，将单个LLM转变为认知协同者

认知协同者是指与多个思维协作，结合各自的优势和知识，以提高解决问题的能力和复杂任务中的整体表现的智能代理，通过根据任务输入动态识别和模拟不同的角色，SPP释放了LLM认知协同的潜力

与使用单个或固定数量的角色相比，在LLM中分配多个细粒度的角色可以带来更好的解决问题的能力

本文在三个具有挑战性的任务上评估了SPP：冷知识创意写作(Trivia Creative Writing)、机密代号游戏协作(Codenames Collaborative)和逻辑网格谜题(Logic Grid Puzzle)，涵盖知识密集型和推理密集型任务

与之前的作品如Chain-of-Thought等单纯增强LLM推理能力的作品不同，SPP能够有效引出内部知识获取能力，减少幻觉，保持强大的推理能力

使用SPP进行操作的任务示例，LLM根据任务输入自动识别参与者，此示例表明标准提示可能会导致事实错误，而SPP中的专家角色有助于准确获取知识，有助于得出连贯且信息丰富的最终答案

与其他提示方法的对比:

Trivia Creative Writing任务与成绩:

Codenames Collaborative任务与成绩:

Logic Grid Puzzle任务与成绩:

—— 来自 S1Fun

Machinery · 发表于 2023-7-13 06:22

Objaverse-XL

一个包含超过1000万个3D对象的开放数据集

论文链接:https://objaverse.allenai.org/objaverse-xl-paper.pdf

注(数据集尚未公开):

自然语言处理和2D视觉模型主要通过扩大训练数据规模在许多任务上取得了能力提升，然而，3D视觉任务并没有取得同样的进展，部分原因是获取高质量3D数据的难度

在本文中展示了Objaverse-XL，这是一个包含超过1000万个3D对象的数据集，数据集包含来自不同来源的，进行过重复数据删除的3D对象，包括了手动设计的对象、地标和日常物品的摄影测量扫描以及历史和古董文物的专业扫描

Objaverse-XL代表了3D数据集领域最大的规模和多样性，为3D视觉带来了重大的新可能性

实验证明了Objaverse-XL提供的规模所带来的改进，通过训练Zero123进行新视图合成，利用超过1亿张多视图渲染图像，实现了强大的零样本泛化能力

借助Objaverse-XL，训练了Zero123-XL(3D基础模型)，观察到令人难以置信的3D泛化能力，Objaverse 1.0于去年12月发布，这是朝着正确方向迈出的一步，但对于800K个3D对象来说仍然相对较小

Objaverse-XL的尺寸要大一个数量级，而且更加多样化，与原始Zero123模型相比，Zero123-XL在零样本泛化能力方面有了显著提高，甚至能够对草图、卡通和人物进行新视图合成

借助基本的Zero123-XL基础模型，可以使用DreamFusion执行图像到3D生成，让模型引导NeRF生成新视图

除此之外，还展示了Zero123-XL和PixelNeRF的强劲缩放性能提升效果

样本元数据与Zero123-XL生成效果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-13 06:31

EasyEdit

EasyEdit是一个用于编辑大型语言模型内部知识的多功能工具，支持各种编辑方法(例如SERAC、IKE、MEND、KN、ROME、MEMIT等)，现已在github上提供，同时将不断更新新版本

github项目地址:https://github.com/zjunlp/EasyEdit

—— 来自 S1Fun

Machinery · 发表于 2023-7-13 07:03

本帖最后由 Machinery 于 2023-7-13 09:04 编辑

world-to-words

世界到单词：通过视觉语言模型中的快速映射来获取基准开放词汇

相关论文:https://arxiv.org/abs/2306.08685

github项目仓库:https://github.com/sled-group/world-to-words

数据集:https://huggingface.co/datasets/sled-umich/GOVA-flickr

OctoBERT模型权重:https://huggingface.co/sled-umich/OctoBERT

将语言与其在物理世界中的所指对象联系起来的能力(称为基准/grounding)对于学习和理解单词的基础含义至关重要

虽然人类能够在新词学习中表现出快速映射，但目前尚不清楚现代视觉语言模型是否能够真正以其基准意义来表征语言，以及基准如何进一步引导新词学习

为此引入基准开放词汇习得(GOVA/Grounded Open Vocabulary Acquisition)来检查开放世界语言学习中的基准和引导

作为初步尝试，构建了面向对象的BERT模型(OctoBERT)，这是一种新的视觉基础语言模型，通过对图像文本对进行预训练，突出基准作为目标

通过大量的实验和分析，证明OctoBERT是一个更加连贯、快速的基准单词学习器，预训练期间获得的基础能力有助于模型更快、更稳健地学习未见过的单词

从认知角度来看，人类展示了快速映射基准的能力(用最少的信息引导新单词)，例如，即使“焚化炉”这个词对于语言学习者来说是陌生的，他们仍然可以轻松地找到传达其含义的物体

从实际角度来看，昂贵的基准标注很难覆盖视觉语言预训练期间的词汇空间，我们需要使VLM能够在原始图像-文本对的少样本中学习基础新单词，而无需任何显式的单词-对象映射

因此引入了基准开放词汇习得问题，其中模型首先在预训练期间获得基准能力，然后在没有基准监督的情况下转移这种能力，在少样本中学习未见的单词

OctoBERT是一种基于视觉的语言模型，构架如上，可以联合学习定位视觉感知中的实体并根据对象表征执行语言建模

实验结果表明，基准预训练可以从头开始高效、有效的单词习得，以及少样本新单词习得，不会出现明显的遗忘，可以像人类一样轻松映射自己不熟悉的概念的能力

经过认知调查并发现模型仍然类似LLM一样严重依赖浅层的统计数据，努力获取视觉上不太显著的概念，与人类的熟悉度和具体直觉不一致等情况

—— 来自 S1Fun

Machinery · 发表于 2023-7-14 03:30

本帖最后由 Machinery 于 2023-7-14 03:45 编辑

PolyLM

开源多语言大型语言模型，PolyLM是一个通晓多语言的LLM模型，涵盖中文、英文、西班牙语、法语、德语、俄语、葡萄牙语、意大利语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等18个语言，该模型可以应用于对话问答、文本生成、机器翻译和情感分析等领域，能够自动生成高质量的多语言文本，从而为跨语言、文化的交流提供便利

modelscope项目权重下载:https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation/summary

大型语言模型(LLM)表现出卓越的理解、推理和生成以下自然语言指令的能力，然而大部分LLM的发展主要集中在英语等高资源语言上，从而限制了其在其他语言中的适用性和研究

因此本文推出了PolyLM，这是一种在6400亿个Token上训练的多语言LLM，有两种模型大小:1.7B和13B

为了增强其多语言能力，将双语数据集成到了训练数据中，并且使用了课程学习策略，在预训练时将非英语数据的比例从第一阶段的30%增加到最后阶段的60%

此外，还提出了一种多语言自指令方法，自动生成了132.7K不同的多语言指令用于模型微调

为了评估模型的性能，收集了几个现有的多语言任务，包括多语言理解、问答、生成和翻译等任务

大量实验表明，PolyLM在多语言任务上超越了LLaMA和BLOOM等其他开源模型，同时在英语方面保持了同等的性能

课程学习，优化LLM并同时学习多种语言编码的知识是一项重大挑战，在本文中将这个问题具体表述为将通用知识转移到低资源语言，同时保持模型中高资源语言的优势

为了解决这个问题，采用了一种课程学习策略，在训练过程中提高高质量和低资源语言的比例，具体来说，训练过程分为两个阶段

在第一阶段，使用整个预训练数据集来训练基本模型，产生常识泛化能力，在第二阶段，过渡到预训练数据集的一个质量优异、多语言内容比例更大的子集，以进一步增强模型的多语言能力

比较了两个阶段训练数据的语言分布(上图)，表明子数据集中大多数低资源语言的比例有所增加，为了构建课程学习子数据集，首先手动评估预训练数据集中公开数据源的质量，从高质量来源中采样约97B个Token，同时增加中英文以外语言的比例

还提高了并行数据(OPUS/proportion of parallel data)的比例，以促进跨语言表征的建模，整个课程训练过程非常稳定

modelscope项目页面预览:

训练数据与分词、架构超参数对比:

相关评估成绩:

—— 来自 S1Fun

Machinery · 发表于 2023-7-14 07:49

本帖最后由 Machinery 于 2023-7-14 07:54 编辑

Kandinsky2.2

开源图像生成模型Kandinsky，技术线路依然属于扩散类模型，不过并非是Stable Diffusion衍生的，简介如下图所示

github项目地址:https://github.com/ai-forever/Kandinsky-2

—— 来自 S1Fun

Machinery · 发表于 2023-7-15 04:16

本帖最后由 Machinery 于 2023-7-15 04:18 编辑

Animate-A-Story

通过检索增强视频生成来讲述故事

相关论文:https://arxiv.org/abs/2307.06940

项目主页:https://videocrafter.github.io/Animate-A-Story/

github项目地址:https://github.com/VideoCrafter/Animate-A-Story

生成用于讲述视觉故事的视频可能是一个乏味且复杂的过程，通常需要真人拍摄或图形动画渲染

为了绕过这些挑战，其中的一个关键想法是利用大量现有视频剪辑片段，并通过定制其外观来合成连贯的讲故事视频，本文通过开发一个由两个功能模块组成的框架来实现这一目标

1.运动结构检索，它为提供的候选视频，查询文本描述的所需场景或相关的场景人物运动上下文

2.结构引导的文本到视频合成，它在运动结构和文本提示的指导下生成情节对齐的视频

对于第一个模块，本文框架利用了现成的视频检索系统并提取视频深度作为运动结构，对于第二个模块，提出了一种可控视频生成模型，该模型提供对结构和角色的灵活控制，视频是按照结构指导和外观指导合成的

为了确保片段之间的视觉一致性，还提出了一种有效的概念个性化方法，该方法允许通过文本提示指定所需的角色身份，实验展示了本文方法相对于各种现有基线的显著优势

此外，对合成故事视频的用户研究证明了Animate-A-Story框架的有效性，并表明了类似实际应用的广阔潜力

检索增强视频合成框架的流程图，给定文本故事脚本，首先提取关键情节并将其描述调整为文本查询和提示，每个情节通过两个模块转换为生成的视频剪辑片段：视频检索系统和结构引导的文本到视频生成模型

可调整结构引导的文本到视频模型的概述，通过使用源视频的深度信息来指导视频合成过程，该模型由两个分支组成：一个通用的文本到视频合成分支，它是潜在空间中的视频扩散模型，以及一个用于编码和施加结构控制的侧分支，控制机制是按元素添加特征，值得注意的是，深度控制是可调整的，这个属性对于进一步的角色重新渲染至关重要

不同个性化方法的概念图，为了克服生成角色的不一致问题，研究了现有的个性化方法，并提出了一种重新渲染目标角色外观的新方法，将CLIP文本编码器和降噪器U-Net的所有参数保持冻结，并学习与时间步长相关的Token嵌入来表示目标角色的语义特征，此外，还在注意力模块中的q、k、v投影层中插入一个新分支，调整了预训练的权重以更好的表征角色

调整参数𝜏的效果，小的𝜏值可以放松深度控制，使形状向角色形状渲染，同时从深度上保持粗略的布局和动作控制，该技术可以生成泰迪熊的视频，而不需要检索泰迪熊的运动视频，而泰迪熊的运动视频很难收集，因为缺乏泰迪熊的各种运动(例如做瑜伽)的真实视频

流程中核心组件的消融实验结果，包括结构引导、角色重新渲染和TimeInv

与之前的个性化方法的定量比较，展示了使用四种不同方法的两个角色的生成结果，对于每种方法，都会显示一个视频剪辑片段并使用相同的随机种子，每个视频剪辑片段显示两帧，帧采样步长为8

所提出的时间步长变量Textual Inversion(TimeInv)使用预训练的稳定扩散对图像个性化的有效性，同一列中的结果是在相同的训练步骤和随机种子下进行比较的，这表明本方法可以作为图像和视频生成任务个性化的通用方法

评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-15 04:45

本帖最后由 Machinery 于 2023-7-15 04:49 编辑

factor

对于生成式语言模型的真实性进行评估的基准

github项目地址(coming soon):https://github.com/AI21Labs/factor

当在指定领域内部署语言模型(LM)之前，衡量其在该领域中生成事实上不正确信息的倾向非常重要，现有的事实生成评估方法侧重于从LM本身采样的事实，因此无法控制评估的事实集，并且可能无法充分代表罕见和不可能的事实情况

本文提出了FACTOR，一种通过语料库转换进行事实评估的方法，这是一种用于评估LM事实性的可扩展方法

FACTOR自动将感兴趣的事实语料库转换为基准，评估LM从语料库中生成与真实事实类似但不正确的陈述的倾向

通过使用factor框架创建的两个基准，Wiki-FACTOR和News-FACTOR并进行评测

证明了模型的基准分数会随着模型大小的增加而增加，当LM通过检索增强进行生成时也会提高，同时基准分数与困惑度相关，但这两个指标在模型排名上并不总是一致，当困惑度和基准分数不一致时，后者可以更好地反映了开放式生成中的事实性(由人类标注者测量评估)

FACTOR评估任务中的每个示例都包含一个前缀和四个补全，其中只有一个实际上是正确的(本示例中的补全答案A)，非事实补全B、C、D(红色)是根据不同的事实错误类型生成的，评估的模型分别为每个补全分配似然分数，如果它将最高的可能性分配给所有答案中那个事实正确的完成，则可以认为它的“想法”是“正确的”

来自GPT-Neo模型系列(蓝色圆圈，1.3B-20B)和OPT模型系列(红色三角形，1.3B-66B)的Wiki-FACTOR分数与相对应的wiki上的困惑度，这两个度量相关，但在排名上可能不一致，例如，OPT-66B LM比GPT-J-6B LM具有更高的困惑度，但Wiki-FACTOR准确性更好，在后边注释了两种模型生成的文本，并表明更好的Wiki-FACTOR可以预测更真实的文本生成

错误类型示例，上方的原始文本由前缀和粗体完成句组成，每个示例都会对不同类型的原始完成引入不同的红色扰动

对于 GPT-2(蓝色圆圈)、GPT-Neo(红色三角形)和OPT(黄色正方形)系列的模型，每个模型大小的Wiki-FACTOR和News-FACTOR的准确度

GPT-Neo和OPT模型的Wiki-FACTOR事实准确性与其IC-RALM变体相比，IC-RALM方法可以实现所有模型的改进效果

—— 来自 S1Fun

Machinery · 发表于 2023-7-15 05:05

本帖最后由 Machinery 于 2023-7-15 05:08 编辑

T2I-CompBench

开放世界组合式文本到图像生成的综合评估基准

github项目地址:https://github.com/Karine-Huang/T2I-CompBench

尽管最近的文本到图像模型具有令人惊叹的生成高质量图像的能力，但当前的方法通常难以有效地将具有不同属性和关系的对象组合成复杂且连贯的场景

本文提出了T2I-CompBench，一个开放世界组合式文本到图像生成的综合评估基准，包含6000个组合式文本提示，由3个大类别(属性绑定、对象关系和复杂组合)，6个子类别(颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系和复杂组合)组成

进一步提出了几个专门设计用于评估组合式文本到图像生成的评估指标，引入了一种新方法，即通过奖励驱动样本选择(GORS)进行生成模型微调，以提高预训练文本到图像模型的合成能力

进行了大量的实验和评估，在T2I-CompBench上对以前的各种组合式生成方法进行基准测试，并验证了评估指标和GORS方法的有效性

T2I-CompBench的评估样本统计情况

评估指标:解耦的BLIP-VQA测试

评估指标:minigpt4

评估指标:UniDet

三合一方法评估

BLIP-VQA用于属性绑定评估，UniDet用于空间关系评估，MiniGPT4-CoT作为统一指标

用于组合式文本到图像生成的GORS方法、评估结果、实例对比

—— 来自 S1Fun

Machinery · 发表于 2023-7-15 05:49

InternVid/ViCLIP

用于多模态理解和生成的大规模视频文本数据集与ViCLIP

相关论文:https://arxiv.org/abs/2307.06942

github项目仓库:https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid

本文介绍了InternVid，一个以视频为中心的大规模多模态数据集，能够通过它学习强大且可迁移的视频文本表征，以实现多模态理解和生成

InternVid数据集包含超过700万个视频，视频总持续时间近76万小时，包含2.34亿个视频剪辑片段，并附有总共4.1B个单词的详细描述

同时引入了一种可扩展的数据构造方法，通过大型语言模型(LLM)，自主构建高质量的视频文本数据集，从而展示其在大规模学习视频语言表征方面的功效

具体来说，利用了多尺度方法来生成与视频相关的描述，此外，还介绍了ViCLIP，一种基于ViT-L的视频文本表征学习模型，通过对比学习在InternVid上学习，该模型展示了领先的零镜头动作识别和有竞争力的视频检索性能

除了识别和检索等基本视频理解任务之外，InternVid数据集和ViCLIP模型还有广泛的应用，它们非常有利于生成交错的视频文本数据，可以用以学习以视频为中心的对话系统，推进视频到文本和文本到视频生成研究

这些资源为对多模态视频理解和生成感兴趣的研究人员和从业者提供了丰富的拓展工具

样本示例(每个视频剪辑片段展示三帧)、相应生成的字幕以及InternVid中的ASR转录，在标题中，用蓝色突出显示名词，用绿色突出显示动词，使用LLM将非英语翻译成英语

InternVid与其他类似数据集的对比，InternVid通常使用720p分辨率，而其他数据集多数为360p到512p

提出的多尺度视频字幕生成工作流程，粗、细粒度的标题分别用绿色和深绿色标记

InternVid 中三种格式的交错视频文本数据生成与ViCLIP的框架

InternVid的交错视频文本数据格式，每个剪辑片段的标题和ASR转录内容分别以黑色和灰色显示，可以通过放弃ASR转录来实现交错的视频文本数据格式，为了获得数据格式，将多个视频与交错的视频文本数据连接了起来

零样本行动认知评估基准结果与零样本文本到视频生成的SOTA结果

多种任务的具体使用实例

ASR转录的词云统计结果

—— 来自 S1Fun

Machinery · 发表于 2023-7-15 08:55

本帖最后由 Machinery 于 2023-7-15 09:04 编辑

CM3Leon

拓展自回归多模态模型：预训练和指令调整

相关博客:https://ai.meta.com/research/publications/scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning/

META新作品CM3Leon(发音为“Chameleon”)，这是一种检索增强、基于Token、仅解码器的多模态语言模型，能够生成和填充文本和图像

CM3Leon使用CM3多模态架构，展示了扩展和调整更多样化的指令类型数据的极端优势，它是第一个使用改编自纯文本语言模型的配方进行训练的多模态模型，训练包括大规模检索增强预训练阶段和多任务监督微调(SFT)两个阶段

它也是一个通用模型，可以进行文本到图像和图像到文本的生成，使之能够引入产生高质量输出的独立对比解码方法，同时测试了最优CFG(Classifier-Free Guidance/无分类指导)数值FID质量

CM3Leon零样本生成展示(无检索增强)，CM3Leon可以生成复杂的组合对象、长尾分布对象(比如用石头雕刻的Khachkar–Armenian十字架)以及历史疑难生成问题，例如手部图像和理解生成对应文本

大量实验表明，该方法对于多模态模型非常有效，CM3Leon在文本到图像生成方面实现了SOTA性能，训练计算量比同类方法少5倍(零样本MS-COCO FID为4.88)，SFT之后，CM3Leon还可以在语言引导的图像编辑到图像控制的生成和分割等任务中展现出前所未有的可控性的水平

文本到图像生成领域中图像数据源的伦理影响一直是备受争议的话题，在本研究中，仅使用了Shutterstock数据集的许可图像，因此可以避免与图像所有权和归属相关的问题，而无需牺牲性能

监督微调(SFT)对于训练ChatGPT等大型语言模型(LLM)至关重要，尽管如此，它在多模态环境中的应用在很大程度上仍未得到探索，SFT可以训练模型更好的理解指令或提示，从而增强其在新任务甚至零样本任务中的性能，使用了以上数据集进行监督微调

本文基于实践发现指令调整显著增强了跨各种任务的多模态模型性能，例如图像标题生成、视觉问答、基于文本的编辑和条件图像生成等，研究组针对各种混合图像和文本任务对CM3Leon进行了微调，将每个任务构造为一系列交错的文本和图像示例

空间基准图像生成允许用户将空间信息集成到图像生成的文本提示中，每个对象都由离散标记表示，通过使用MS-COCO、Openimage和Object365等对象检测数据集编译了300万个训练样本

如何编写任务使用户能够请求模型根据文本提示创建标志或徽标，使用OCR检测器从Shutterstock数据集中查找了合适的示例，最终生成了200000个示例以进行学习

示例显示了SFT-CM3Leon-7B模型的可以生成各种长形式的文本完成任务

非常不错的长尾生成能力…

—— 来自 S1Fun

Machinery · 发表于 2023-7-16 04:44

CLIPMasterPrints

使用潜在变量进化来欺骗对比语言图像预训练模型(CLIP)

相关论文:https://arxiv.org/abs/2307.03798

github项目仓库:https://github.com/matfrei/CLIPMasterPrints

利用大规模视觉和文本数据的模型，例如对比语言图像预训练模型(CLIP)，变得越来越重要

在这项工作中表明，尽管这些模型具有多样能力，但它们很容易受到欺瞒图像的影响，欺瞒图像能够在大量不同的提示下最大化CLIP模型的置信度得分，同时人类无法识别

本文演示了如何通过进化策略或随机梯度下降搜索生成模型的潜在空间来挖掘欺瞒图像，研究了挖掘的欺瞒图像的属性，发现在少量图像标题上训练的图像可能会泛化为大量语义相关的标题

同时评估了两种可能的缓解策略，发现欺瞒示例的脆弱性与对比预训练多模态网络中的模态差距密切相关

因此，从易受攻击的角度来看，需要减少CLIP和相关多模态方法中的模态差距

挖掘的欺瞒示例在CLIP分数方面优于所有的实际艺术品，因此可以欺瞒所有显示目标标题的模型

—— 来自 S1Fun

Machinery · 发表于 2023-7-16 04:56

本帖最后由 Machinery 于 2023-7-16 04:59 编辑

DNA-Rendering

一个大规模、高保真的演员多视图渲染动作数据集

项目主页:https://dna-rendering.github.io/

高多样性:数据收集涉及500人，有529套不同的服装，269种不同类型的日常动作，以及153种不同类型的特殊表演，包括一些动作的相关交互对象

高保真:构建了专业的多视图系统来捕获数据，该系统包含60个同步摄像机，最大分辨率为4096×3000，速度为15fps

丰富的标注:提供现成的标注，包括2D/3D人体关键点、前景掩码与SMPL-X模型

对应的多种不同方法的数据集基准测试结果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-16 05:12

mmpose

MMPose是一款基于PyTorch的姿态分析的开源工具箱，详细介绍请参照下图与项目readme

github项目地址:https://github.com/open-mmlab/mmpose

—— 来自 S1Fun

Machinery · 发表于 2023-7-17 05:00

本帖最后由 Machinery 于 2023-7-17 05:06 编辑

DiffDreamer

使用条件扩散模型实现一致的无监督单视图场景外推

项目主页:https://primecai.github.io/diffdreamer

github项目仓库:https://github.com/primecai/DiffDreamer

场景外推(Scene extrapolation)，通过给定图像来生成逐渐场景外推的新视图的想法是一项有前景但具有挑战性的任务

对于每个预测帧，必须联合解决重绘和3D细化的问题，这是不适定(ill posed)的并且包含高度的模糊性，此外，远距离场景的训练数据很难获得，通常缺乏足够的视图来推断准确的摄影机姿态

本文引入了DiffDreamer，一个无监督框架，能够合成长期的摄影机轨迹的新视图，同时仅需要互联网收集的自然场景图像进行训练

利用引导去噪步骤的随机性，训练扩散模型来细化投影的RGBD图像，但在多个过去和未来的帧上调整去噪步骤以进行推理

实验证明，图像条件扩散模型可以有效地执行远程场景外推，同时保持一致性，明显优于之前基于GAN的方法，DiffDreamer是一种强大且高效的场景外推解决方案，尽管流程中监督有限，但仍能产生令人印象深刻的结果

框架工作流程的概述图，通过训练图像条件扩散模型，以在给定损坏的图像和缺失区域掩码的情况下执行图像到图像的细化和重绘

在推理时，对三种条件进行随机条件确定：对预先的帧(黑色箭头)进行简单的前向扭曲，通过扭曲未来帧(蓝色箭头)进行锚定条件，以及通过扭曲虚拟帧(红色箭头)进行先行条件确认

通过重复这个渲染-优化-重复工作流程获取给定图像的推理序列，在当前图像的过去和未来帧上施加约束，可以使图像序列生成更连贯平滑

失败案例:

—— 来自 S1Fun

Machinery · 发表于 2023-7-17 05:39

openchat

OpenChat是一系列监督微调(SFT)的开源语言模型，旨在验证数据质量对于模型的重要性

github项目主页:https://github.com/imoneoi/openchat

openchat_v2_w权重下载:https://huggingface.co/openchat/openchat_v2_w

openchat_v2权重下载:https://huggingface.co/openchat/openchat_v2

相关评估成绩:

—— 来自 S1Fun

Machinery · 发表于 2023-7-18 02:31

Copy Is All You Need

复制粘贴式语言建模方法

github项目仓库:https://github.com/gmftbyGMFTBY/Copyisallyouneed

多数的文本生成模型通过从固定词表中按顺序选择单词来组成输出，在本文中，将文本生成过程表述为从现有文本集合中逐步复制文本段的过程(例如单词或短语)

通过计算有意义的文本片段的上下文表示，并使用高效的向量搜索工具包对它们进行索引，文本生成的任务被分解为一系列复制和粘贴操作：在每个时间步骤，从文本集合中寻找合适的文本范围，而不是从独立的词表中进行选择

根据自动和人工评估，标准语言建模基准(WikiText-103)上的实验表明，本文方法实现了更好的生成质量，此外，由于解码步骤的减少，其推理效率可与Token级自回归模型相媲美

同时还表明，本方法可以通过简单地切换到特定于对应领域的文本集合而无需额外的训练来实现有效的对应域自适应

最后观察到，本文方法通过简单地扩展到更大的文本集合而获得了额外的性能提升，同样无需进一步训练

COG流程概述图，给定前缀文本(The Dune film wasreleased)，COG从文档中检索3个短语(不同颜色)，并从固定词汇中生成3个标记(Before、that和逗号,)组成整个生成答案

将COG方法与以下三个基线进行了比较:
1.Transformer(目前神经语言模型事实上最好的模型)，具体来说，在实验中对预训练的GPT2模型进行了微调
2.kNN-LM，一种检索增强生成模型，通过使用k最近邻(kNN)模型线性插值其下一个标记分布来扩展预训练的神经语言模型
3.RETRO，另一种检索增强生成模型，结合了冻结BERT检索器、可微编码器和分块交叉注意机制来预测下一个标记，由于没有可以访问的预先训练的RETRO模型，因此在WikiText-103数据集上从头训练了RETRO

WikiText-103测试集的自动评估，对于每个具有核采样的模型，运行10次并记录平均MAUVE和多样性分数

COG方法在WikiText-103测试集上生成的示例，虚线方块表示内容(红色)是从Token词表复制的，实心方块表示内容(以蓝色突出显示)是从其他文档复制的

人工评估结果与拓展实验:

—— 来自 S1Fun

Machinery · 发表于 2023-7-18 03:54

SHIP

使用合成提示改进CLIP的零样本泛化能力

github项目地址:https://github.com/mrflogs/SHIP

随着人们对CLIP等预训练视觉语言模型的兴趣日益浓厚，最近的研究重点是使这些模型适应下游任务，尽管取得了有希望的结果，但大多数现有方法需要所有类别的标记数据，由于长尾定律和齐夫定律(Zipf's law)，这可能并不适用于现实世界的应用，例如，某些类别可能完全缺乏标记数据，比如部分新兴出现的概念

为了解决这个问题，提出了一种名为SHIP的即插即用生成方法来改进现有的微调方法，具体来说，使用变分自编码器(variational autoencoders/VAE)引入了一个生成器，通过将合成的提示和对应的类名输入到CLIP的文本编码器来重建视觉特征

通过这种方式，可以轻松获得仅标签类的合成特征，此后混合标注和合成的特征，使用现成的方法对CLIP进行微调，从基础到新的泛化、跨数据集迁移学习和广义零样本学习的大量实验证明了本方法的优越性

所提出的模型架构基于VAE框架构建，包括VAE编码器和生成器，在训练阶段，使用CLIP视觉编码器提取图像特征，VAE编码器将其编码为潜在代码z，随后将其限制在先验分布中

接下来，生成器利用编码信息重建输入特征，值得注意的是，此处引入了一种新颖的基于CLIP的生成器，它包含两个子网络：轻量级MLP和冻结的CLIP文本编码器

MLP将潜在代码z转换为局部偏差，随后将其添加到全局可学习提示向量中以构造最终提示，然后将提示与类名一起输入到冻结文本编码器中以获得重建的特征

在生成阶段，从先验分布中采样潜在代码，然后将其与新的类名一起使用以合成相应的特征，使用现成的方法配合基础类名和合成的新类来微调CLIP

基础到新类的概括效果，提出的模型在少样本训练集(基础)上进行训练，然后在基础类和新类上进行评估

+SHIP 表示将本文的方法添加到以前的现成方法中，Tip-Adapter的结果未包含在表中，因为它无法对新类进行测试

基础类和新类的平均准确度分别由术语“基础”和“新”表示，而它们的合成平均值表示为H，最佳结果以粗体显示

跨数据集迁移学习，这些方法在源数据集(ImageNet)上进行训练，然后在目标数据集上进行评估，表中为目标数据集的平均准确性，为了量化本文方法的性能增益，计算使用了本文方法(CoOp + SHIP)和基线方法(CoOp)获得的结果之间的差异

消融实验结果

—— 来自 S1Fun

Machinery · 发表于 2023-7-18 04:21

do not mask randomly

不要随机遮蔽(MASK)，通过只遮蔽对应领域内关键字进行有效的领域自适应预训练

github项目仓库(待整理):https://github.com/shahriargolchin/do-not-mask-randomly

提出了一种介于通用预训练和微调之间的新范式，任务无关的对应领域内预训练的方法

通过在训练时有选择的遮蔽对应领域内的关键字，即提供目标领域的紧凑表示的单词，使用KeyBERT识别此类关键字，使用六种不同的设置来评估这种范式

结果表明，使用领域内预训练策略进行微调的PLM模型始终优于使用随机遮蔽的领域内预训练方法，同样胜过了遵循常见的预训练然后进行微调的PLM

—— 来自 S1Fun

Machinery · 发表于 2023-7-18 04:33

本帖最后由 Machinery 于 2023-7-18 04:38 编辑

MegaWika

数以百万计的报告及其来源，涵盖50种不同语言

相关论文:https://arxiv.org/abs/2307.07049

数据集下载:https://huggingface.co/datasets/hltcoe/megawika

为了促进新的协作式人工智能辅助报告生成模型的开发，引入了MegaWika，由50种不同语言的1300万篇wiki文章及其7100万条参考源材料组成

使用了无数程序处理该数据集，超越了最初的wiki引文提取和自动抓取网络内容，包括翻译了用于跨语言应用程序的非英语文章以及提供用于自动语义分析的FrameNet解析

MegaWika是最大的句子级报告生成资源，也是唯一的多语言报告生成数据集，通过语义分层样本手动分析该资源的质量，最后，为自动报告生成的关键步骤提供基线结果和训练模型：跨语言问答和引文检索

每种语言的Wiki转存均在2022年3月25日至2022年10月20日期间下载，大多数Wiki转存是在2022年4月下载的，这应被视为MegaWika的有效知识截止点

—— 来自 S1Fun

Machinery · 发表于 2023-7-19 03:23

SKED

基于草图引导的文本3D编辑

项目主页:https://sked-paper.github.io/

代码:coming soon

文本到图像的扩散模型逐渐被引入计算机图形学中，使得最近可以在开放域中开发文本到3D工作流程的方法成为可能

然而，出于交互式编辑的目的，通过简单的文本界面对内容进行定位操作编辑可能会很困难，将用户引导的草图与文本到图像流程相结合，为用户提供更直观的控制是必要的

尽管如此，由于SOTA文本到3D方法依赖于通过任意渲染视图的梯度来优化神经辐射场(NeRF)，因此对草图的调节并不简单

在本文中，提出了SKED，一种用于编辑由NeRF表示的3D形状的技术，SKED仅利用来自不同视图的两个引导草图来改变现有的NERF，编辑区域通过预先训练的扩散模型尊重提示的语义

为了确保生成的输出符合所提供的草图，提出了新的损失函数来生成所需的编辑，同时保留了基础NERF实例中的密度和辐射度，通过几个定性和定量实验证明了提出的方法的有效性

本文方法的草图引导，基于文本的3D编辑方法示例，以预训练的NERF作为输入，多视图草图确定编辑的粗略区域和文本提示，并生成可确定区域的、有意义的编辑

SKED概览图，从至少两个视图渲染基本NeRF模型Fo，并在它们上绘制草图(Ci)，编辑算法的输入是将这些草图预处理为蒙版(Mi)和文本提示

在与DreamFusion类似的每次迭代中，渲染随机视图并应用分数蒸馏损失(Score Distillation Loss)以在语义上与文本提示对齐，并计算Lpres，通过将Fe的密度和颜色输出限制为与远离草图区域的Fo相似，来保留基本NERF的密度和辐射度

最后，使用草图视图的对象遮罩渲染来定义Lsil，这种损失可以确保对象的蒙版占据草图区域

相关评估结果:

消融实验效果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-19 03:48

Retentive Network

Transformer大型语言模型的的后继者

相关论文:https://arxiv.org/abs/2307.08621

智源相关论文文章:https://hub.baai.ac.cn/view/27935

微软相关系列构架项目代码库:https://github.com/microsoft/unilm

在这项工作中，提出了Retentive Network(RetNet)作为大型语言模型的基础架构，同时实现训练并行性、低成本推理和良好的性能

研究组从理论上得出了递归和注意力之间的联系，然后，提出了序列建模的Retentive机制，它支持三种计算范式，即并行、递归和分块递归

具体来说，并行表示允许训练并行性，循环递归表示可实现低成本O(1)推理，从而在不牺牲性能的情况下提高解码吞吐量、降低延迟和提高GPU显存利用效率，分块递归表示有助于进行具有线性复杂度的高效长序列建模，其中每个块在递归总结块的同时并行编码

语言建模的实验结果表明，RetNet取得了良好的扩展效果、并行训练、低成本部署和高效推理，有趣的特性可以使RetNet成为大型语言模型Transformer的有力继承者

—— 来自 S1Fun

Machinery · 发表于 2023-7-19 04:02

本帖最后由 Machinery 于 2023-7-19 04:03 编辑

AlpaGasus

用更少的数据训练更好的Alpaca

项目主页:https://lichang-chen.github.io/AlpaGasus/

大型语言模型(LLM)通过对监督指令/响应数据进行指令微调(IFT)来获得指令跟随能力，然而，广泛使用的IFT数据集(例如Alpaca的52k数据)包含许多低质量实例，这些实例具有不正确或不相关的响应，这对IFT具有误导性和有害性

在本文中，提出了一种简单有效的数据选择策略，该策略使用强大的LLM(例如ChatGPT)自动识别和删除低质量数据

为此，引入了AlpaGasus，它通过仅对从52k Alpaca数据中过滤出来的9k高质量数据进行微调，根据GPT-4在多个测试集上的评估，AlpaGasus显着优于原始Alpaca，并且其13B参数变体在测试任务上与其教师LLM(即Text-Davinci-003)的性能匹配超过90%

它还提供了5.7倍地更快的训练速度，将7B参数版本的Alpaca的训练时间从80分钟(相对于Alpaca)减少到14分钟

总体而言，AlpaGasus 展示了一种新颖的以数据为中心的IFT范例，该范例可普遍应用于指令调整数据，从而实现更快的训练和更好的指令跟随模型

—— 来自 S1Fun

Machinery · 发表于 2023-7-19 04:36

BuboGPT

在多模态大型语言模型中实现视觉基准(Visual Grounding)

项目主页:https://bubo-gpt.github.io/

github项目主页:https://github.com/magic-research/bubogpt

模型权重下载:https://huggingface.co/magicr/BuboGPT-ckpt/resolve/main/bubogpt_7b.pth

相关数据集:https://huggingface.co/datasets/magicr/BuboGPT/

LLM在通过语言与人类互动方面表现出了卓越的能力，特别是使用了指令跟随数据后，LLM的最新进展，例如MiniGPT-4、LLaVA 和X-LLM等，通过结合图像、视频和语音等多模态输入，进一步扩大了它们的能力

尽管它们能够有效地生成对给定模态信号的精确和详细的语言理解，但这些LLM放弃了对输入的特定部分进行基准(ground)对齐的能力，因此只能构建粗粒度的映射

然而，文本与其他模态之间明确且信息丰富的对应关系不仅会改善用户体验，而且有助于扩展多模态LLM的应用场景

本文提出BuboGPT，一种具有视觉基础的多模态LLM，可以在视觉、音频和语言之间进行跨模态交互，提供对视觉对象和其他给定模态的细粒度理解，因此，当BuboGPT为某个对象生成响应或描述时，它能够指出该对象在图像中的具体位置

本文贡献有两个方面：
1.基于SAM的现成视觉基础模块，可提取句子中的实体并在图像中找到相应的掩码
2.两阶段训练方案和指令数据集，以赋予文本-图像-音频联合理解，实际实验表明，BuboGPT在与人类交互过程中实现了令人印象深刻的多模态理解和视觉基准能力，当提供任意模态组合(对齐或未对齐)时，它始终表现良好

如图所示，通过对文本、视觉和音频进行联合多模态理解和聊天，这是通过学习以及与预先训练的Vicuna对齐的共享表征空间来实现的，还构建了一个现成的视觉基准流程来探索不同视觉对象和模态之间的细粒度关系

训练过程与使用实例:

—— 来自 S1Fun

Machinery · 发表于 2023-7-19 04:50

本帖最后由 Machinery 于 2023-7-19 04:55 编辑

TOAST

通过注意力引导进行迁移学习

github项目代码仓库:https://github.com/bfshi/TOAST

迁移学习涉及使预先训练的模型适应新的下游任务，然而在实际情况中观察到当前的迁移学习方法通常无法关注与任务相关的特征

在这项工作中，探索了重新聚焦模型注意力以进行迁移学习，引入自上而下的注意力引导(TOAST/Top-Down Attention Steering)，这是一种新颖的迁移学习算法，它可以保持预训练的主干网络冻结的同时，在输出中选择与任务相关的特征，并将这些特征反馈给模型以将模型注意力引导到与任务有关的特征中

通过重新集中注意力，TOAST在许多迁移学习基准上取得了SOTA结果，同时只具有少量的可调参数，与完全微调、LoRA、提示微调相比，TOAST显著提高了一系列细粒度视觉分类数据集的性能(例如FGVC数据集上的结果81.1%->86.2%)

TOAST在指令跟随语言生成方面也优于完全微调的Alpaca和Vicuna模型

TOAST冻结预先训练的主干并调整自上而下的注意力模块以重新集中模型的注意力

此外，还可以将其应用到LLaMA等语言模型中，实验发现用TOAST调优的LLaMA可以实现比Alpaca和Vicuna更高的性能

不同模型的注意力图对比，前两行根据鸟类分类进行评估，最后两行根据汽车分类进行评估，微调、LoRA 和VPT的注意力是有噪声的，而TOAST的注意力更清晰，集中在与任务相关的信号上，例如前景的鸟类或车头灯和汽车徽章

模型推理每个步骤中注意力图的可视化，在第一次前馈中注意力非常嘈杂，特征选择步骤粗略地选择与任务相关的特征，并且在第二个前馈中，注意力被细化并重新集中在与任务相关的对象上

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-19 05:07

Humans in 4D

用Transformer重建和追踪人体

项目主页:https://shubham-goel.github.io/4dhumans/

github项目代码仓库:https://github.com/shubham-goel/4D-Humans

Demo演示:https://huggingface.co/spaces/brjathu/HMR2.0

colab:https://colab.research.google.com/drive/1Ex4gE5v1bPR3evfhtG7sDHxQGsWwNwby

提出了一种方法，只要给定任何真实自然场景的视频，就可以联合重建3D底层人体，并随着时间的推移跟踪这些人体

通过使用一个基于人体网格重建的完全“改造”的网络版本，HMR 2.0推进了最先进的技术，并展示了分析过去难以从单个图像重建的不寻常姿态的能力

为了分析视频，通过使用HMR 2.0的3D重建作为以3D运行的跟踪系统的输入，能够与多人交互并通过遮挡事件保持身份

4DHumans在通过单眼视频跟踪人物方面取得了SOTA结果，此外还展示了HMR 2.0在动作识别下游任务上的有效性，与之前基于姿态的动作识别方法相比取得了显著改进

在演示中，在左侧显示输入视频，在右侧显示重建的人类，没有任何时间平滑，颜色指示随时间变化的轨迹身份，本方法在能见度差、极端截断和极端遮挡的情况下，可靠地处理常见和不常见的人体姿态

—— 来自 S1Fun

Machinery · 发表于 2023-7-19 05:46

本帖最后由 Machinery 于 2023-7-19 05:50 编辑

SEED

在大型语言模型中种下视觉的种子

github项目仓库:https://github.com/AILab-CVC/SEED

本文提出SEED，这是一种精心设计的图像标记器，它为大型语言模型(LLM)提供了查看和绘图的能力

图像标记器的研究在此前陷入了僵局，因为采用量化视觉标记的框架由于多模态理解(与 BLIP-2 等相比)或生成(与稳定扩散等相比)方面的性能和收敛性不佳而失去了重要性

尽管存在局限性，研究组仍然对其统一视觉和文本表示的自然能力充满信心，利用了LLM的原始训练配方促进可扩展的多模态训练

在本研究中确定了SEED架构和训练的两个关键原则，可有效简化后续与LLM的衔接:
1.图像标记应该独立于2D物理块的位置，而是以1D因果依赖性生成，实际表现中符合LLM从左到右自回归预测机制一致的内在相互依赖性
2.图像标记应捕获与单词语义抽象程度一致的高级语义，并在标记器训练阶段针对区分性和重建进行优化，因此，现成的LLM能够通过高效的LoRA调整结合SEED来执行图像到文本和文本到图像的生成

全面的多模态预训练和指令调整可能会产生更好的结果，留待未来研究，此文版本的SEED使用了64 个V100 GPU和500万公开可用的图像文本对构建，在5.7天内完成了训练

初步研究强调了离散视觉标记在多功能多模态LLM中的巨大潜力以及适当的图像标记器在更广泛的研究中的重要性

所提出的SEED是一个离散图像标记器，可以生成具有一维因果依赖性和高级语义的量化视觉编码，SEED视觉标记使LLM能够通过交错图像文本数据的多模态自回归来执行视觉理解和生成

SEED分词器概览图，可以生成具有因果依赖性和高级语义的离散视觉编码

零样本图像文本检索的评估，因果编码是量化的因果嵌入

SEED标记器的重建图像(原始图像 → SEED 标记化 → 因果视觉编码 → SEED 去标记化 → 重建图像)，在语义上与原始输入图像一致

使用高效LoRA调整对SEED-OPT2.7B进行多模态自回归训练的概述，仅使用64 个 V100 GPU和500万个图像字幕对，在44小时内完成了训练

对比评估与生成实例:

—— 来自 S1Fun

Machinery · 发表于 2023-7-20 02:43

本帖最后由 Machinery 于 2023-7-20 03:24 编辑

Llama 2

Llama 2是一组经过预训练和微调的大型语言模型(LLM)，参数规模从70亿到700亿不等，经过微调的LLM(型号Llama 2-Chat)在对话任务上进行了优化，在测试中Llama 2在大多数基准上都优于开源聊天模型，并且根据对有用性和安全性的人工评估，可能是闭源模型的合适替代品

项目主页:https://ai.meta.com/llama/

权重下载地址:https://huggingface.co/meta-llama

与其他开源和闭源模型相比，Llama 2-Chat的有用性人类评估结果，人类评估者在约4k数量的提示(包括单轮对话和多轮对话)上比较了不同模型生成结果

根据GPT-4评估，使用了商业许可的基线和Llama 2-Chat之间的有用性和安全性的胜率结果，为了补充人类评估的不足，使用了一个更强大的模型，不受内部指导的影响，绿色区域表示GPT-4评估中LLaMA2模型更好，为了消除平局，使用了胜利/(胜利+失败)计算，其中随机交换了模型呈现给GPT-4的响应结果顺序以减轻自动评估的偏差

Llama 2-Chat与其他开源或闭源模型相比的安全人类评估结果，人类评估者通过约2000 个对抗性提示(包括单轮对话和多轮对话)来判断模型代是否存在安全违规行为

向公众发布以下模型用于研究和商业用途:
1.Llama 2，Llama 1的更新版本，基于新的公开可用数据组合进行训练，将预训练语料库的大小增加了40%，将模型的上下文长度加倍，采用了分组查询注意力(grouped-query attention)，发布了7B、13B 和70B参数的Llama 2变体，实际中还训练了34B变体，但只在本文中对此进行了报告，并未发布

2.Llama 2-Chat，Llama 2的微调版本，针对对话数据集进行了优化，同时也发布了7B、13B 和 70B参数的该模型的对应变体

Llama 2-Chat 的训练过程：首先使用公开的在线资源对Llama 2进行预训练，接下来通过应用监督微调创建了Llama 2-Chat的初始版本，随后使用人类反馈强化学习(RLHF/Reinforcement Learning with Human Feedback)方法逐步细化对话，特别是通过拒绝采样(rejection sampling)和近端策略优化(PPO/Proximal Policy Optimization)来迭代完善模型，在整个RLHF阶段，逐步的累积迭代的奖励模型数据的同时增强模型，确保奖励模型的分布正确

训练过程中模型总共接触了近两万亿Token的语料库，在预训练中采用了Llama 1中的大部分预训练设置和模型架构，这意味着使用了标准Transformer架构，RMSNorm应用预归一化(pre-normalization)，使用了SwiGLU激活函数和旋转位置嵌入，与Llama 1的主要架构差异包括增加的上下文长度和分组查询注意力(GQA/grouped-query attention)，同时在之后通过消融实验详细说明了这些差异，以证明它们的重要性

Llama 2系列型号，所有模型均使用4M Token的全局批量大小进行训练，更大的模型(34B和70B)使用了分组查询注意力来提高推理可扩展性

Llama 2模型的训练Loss，比较了Llama 2系列模型的训练Loss，观察到在两万亿Token上进行预训练后，模型仍然没有显示出任何饱和的迹象

分词器使用了与Llama 1相同的分词器，采用了字节对编码(BPE/bytepair encoding)算法，并使用了SentencePiece的实现，与Llama 1一样，将所有数字拆分为单独的数字，并使用字节来分解未知的UTF-8 字符，总词汇量为32k个Token

与开源基础模型相比，分组的学术基准的总体表现

与闭源模型在学术基准上的比较结果

预训练数据中的语言分布，百分比>=0.005%，大多数数据都是英文的，这意味着Llama 2在英语用例中表现最佳，大的未知类别部分是由编程代码数据组成的

预训练LLM在自动安全基准上的评估，对于TruthfulQA，展示了既真实又信息丰富的生成的百分比(越高越好)，对于ToxiGen，给出了有毒生成的百分比(越小越好)

—— 来自 S1Fun

Machinery · 发表于 2023-7-20 02:50

Amazon Berkeley Objects (ABO) Dataset

经CC BY 4.0许可的Amazon产品数据集，包含元数据、目录图像与3D模型

项目主页:https://amazon-berkeley-objects.s3.amazonaws.com/index.html

通过指定产品名称、产品类型关键字并选择仅显示具有360°视图图像或3D模型的产品，ABO中共计147702个产品

—— 来自 S1Fun

Machinery · 发表于 2023-7-20 03:14

Text2Tex

通过扩散模型进行文本驱动的3D纹理合成

项目主页:https://daveredrum.github.io/Text2Tex/

相关论文:https://daveredrum.github.io/Text2Tex/static/Text2Tex.pdf

github项目代码库:https://github.com/daveredrum/Text2Tex

Text2Tex根据给定的文本提示生成3D网格模型的高质量纹理，通过将修复结合到预先训练的深度感知图像扩散模型中，可以从多个视点逐步合成高分辨率的部分纹理

为了避免伪影，还提出了一种自动视图序列生成方案来确定更新部分纹理的下一个最佳视图，大量实验表明，Text2Tex明显优于现有的文本驱动方法和基于GAN的方法

在Text2Tex中，通过“生成然后优化”方案逐步的生成纹理

在渐进式纹理生成中，首先从初始预设的视点渲染对象，再根据输入的提示，通过深度到图像扩散模型生成新的外观，并将生成的图像投影回部分纹理，然后重复这个过程，直到最后一个预设视点输出初始纹理网格，在随后的纹理细化中，从一系列自动选择的视点更新初始纹理，以细化拉伸和模糊的伪像

将当前视图动态划分生成掩码，以指导深度感知修复模型，对于“新”区域，从高斯白噪声中对新对象外观进行去噪，对于“更新”区域，通过对部分噪声图像片段进行去噪来细化先前的纹理，将纹理冻结在该视图的“保留”区域中

在细化阶段，通过在每一步选择具有最大归一化面积的“更新”区域的视点来自动确定视点的顺序，以中等扩散去噪强度更新“更新”区域中的2D视图，然后在每个细化步骤结束时，更新的对象外观被反投影到纹理空间

Objaverse上的定性比较，将本文方法的纹理网格与CLIPMesh、Text2Mesh、Latent-Paint以及Objaverse的纹理进行比较，与基线相比，本文方法针对输入的几何形状生成了更加一致和详细的3D纹理结果，彩色图像效果最佳

相关评估与实例效果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-20 04:10

本帖最后由 Machinery 于 2023-7-20 04:11 编辑

COLLIE

约束文本生成任务的系统化构建

项目主页:https://collie-benchmark.github.io/

github项目地址库:https://github.com/princeton-nlp/Collie

约束下的文本生成引起了人们对自然语言处理的兴趣日益浓厚，特别是随着大型语言模型的能力迅速提高，然而，现有的约束生成基准通常侧重于固定约束类型(例如生成包含某些单词的句子等)，这已被证明对于GPT-4等SOTA语言模型来说很容易

本文提出了COLLIE，一个基于语法的框架，允许指定具有不同生成级别(单词、句子、段落、总结)和语言建模挑战(例如语言理解、逻辑推理、计数、语义规划)的丰富的组合约束

还开发了在给定约束结构和原始文本语料库的情况下自动提取任务实例的工具，使用COLLIE编译了COLLIE-v1 数据集，其中包含1132个实例，13个约束结构

对五种最先进的指令调整语言模型进行系统实验，并分析它们的性能以揭示缺陷，COLLIE被设计为可扩展且轻量级的，有益于社区开发更先进的约束生成系统与研究

COLLIE 框架用于轻松约束、规范结构、示例提取、指令渲染和模型评估，整个流程的步骤描述如上图:
规范：用户指定约束结构，没有特定的目标值(表示为*)
提取：约束结构用于从包含目标值的文本语料库中提取示例
渲染：约束结构和目标值被渲染成自然语言指令提示
评估：根据约束和提取的示例评估模型的生成结果

在此示例中，模型(gpt-3.5-turbo)违反了约束，超出了字数限制，并将“mankind”一词留在末尾而不是指定的位置

COLLIE是一种牧羊犬，可以帮助引导美洲驼和羊驼等家养动物，本方法的核心思想是：一个简单的语法来指定多样化的组合文本约束，只需要跨文本级别（单词/句子/段落/总结）的“计数”和“位置”

虽然在COLLIE-v1数据集上GPT-4远远强于其他LLM，但在语言理解、逻辑推理、计数方面的挑战，其表现值50.9%也远非完美

同时还发布了COLLIE框架，您可以在其中轻松定义、提取、渲染、评估新的约束，这些约束对于LLM来说可能更有趣、更有创意、更具挑战性，而无需人工数据收集

—— 来自 S1Fun

Machinery · 发表于 2023-7-21 03:03

本帖最后由 Machinery 于 2023-7-21 03:04 编辑

FABRIC

通过迭代反馈对扩散模型进行个性化定制

github项目地址库:https://github.com/sd-fabric/fabric

在现今这个视觉内容生成日益由机器学习所驱动的时代，将人类反馈集成到生成模型中为用户增强体验，为模型增加输出质量是不可或缺的

本研究探讨了将迭代人类反馈纳入基于扩散的文本到图像模型的生成过程的策略并提出了FABRIC(Feedback via Attention-Based Reference Image Conditioning)，这是一种适用于各种流行扩散模型的免训练方法，它利用最广泛使用的扩散模型架构中存在的自注意力层来调节一组反馈图像上的扩散过程

为了确保对本方法进行严格评估，引入了全面的评估方法，提供了一种稳健机制来量化集成人类反馈的生成模型的性能

通过详尽的实验与评估分析，生成结果在多轮迭代反馈中得到了改善，隐式地优化了任意用户偏好，潜在应用方面可以扩展到个性化内容创建和定制等领域

FABRIC的图示，本方法不仅可以根据文本提示生成图像，还可以根据多轮生成过程中表达的用户偏好来生成图像

FABRIC通过基于注意力的调节机制结合用户反馈来改进模型生成的结果

在研究中对两个版本的FABRIC进行了评估

第一个版本称为 FABRIC，建立在微调的Stable Diffusion1.5检查点(dreamlike-photoreal-2.0)之上

第二个版本称为FABRIC+HPS LoRA，通过将其应用在人类偏好评分(HPS/Human Preference Score)的Stable Diffusion1.5的LoRA之上，进一步增强了FABRIC方法，之所以选择将FABRIC+HPS LoRA版本纳入评估中，是因为它已被证明能够生成与人类偏好紧密匹配的图像

基于目标图像的反馈选择的结果，正反馈可以提高目标与基线的相似度，并且使用正反馈和负反馈可以进一步提高目标相似，与此同时，任何类型的反馈都会大为降低生成图像的多样性

将提示进行dropout似乎是用CLIP相似性换取生成分布更多多样性的有效方法

FABRIC：参考图像在一定步长之前都是噪声，在去噪过程中将提取的键和值注入到U-Net的自注意力中

使用实例:

—— 来自 S1Fun

Machinery · 发表于 2023-7-21 03:14

DialogStudio

为对话式人工智能打造最丰富、最多样化的统一数据集集合

github项目主页:https://github.com/salesforce/DialogStudio

尽管对话人工智能取得了进步，但语言模型在处理不同的对话任务时遇到了挑战，而且现有的对话数据集通常缺乏多样性和全面性

为了解决这些问题，本文引入了DialogStudio：最大、最多样化的对话数据集集合，以一致的格式统一，同时保留其原始信息

集合包含来自开放域对话、面向任务的对话、自然语言理解、对话推荐、对话总结和基于知识的准确对话的相关数据，使其成为对话研究和模型训练的极其丰富和多样化的资源

为了进一步增强DialogStudio的实用性，确定了每个数据集的许可证，并为选定的对话设计领域感知提示，以促进指令感知微调

此外，还使用数据集集合开发了新的对话式AI模型，并且在零样本和少样本学习场景中的实验证明了DialogStudio的优越性

为了提高透明度并支持数据集和基于任务的研究以及语言模型预训练，DialogStudio将公开发布

数据集分布与模型数据说明:

DialogStudio样本:

对应微调模型的评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-21 03:40

Android in the Wild

用于Android设备控制的大规模数据集

github项目代码库:https://github.com/google-research/google-research/tree/master/android_in_the_wild

随着人们对自动设备控制系统越来越感兴趣，这些系统可以解释人类自然语言指令并通过直接控制其用户界面在数字设备上执行它们

本文提出了一种用于自动设备控制研究的数据集，即Android in the Wild(AITW)，它比当前数据集大几个数量级，该数据集包含设备交互的人类演示，屏幕和操作以及相应的自然语言指令

包含715k个事件场景、30k条独特指令、四个版本的Android(v10-13)、具有不同屏幕分辨率的八种设备类型(Pixel 2 XL到Pixel 6)上的操作，包含需要对语言和视觉上下文进行语义理解的多步骤任务

该数据集提出了一个新的挑战：必须从用户界面的视觉外观推断出可用的操作，而且动作空间不是由简单的基于UI元素的动作组成，更包含精确的手势组成(例如，水平滚动以操作小部件)

组织数据集对设备控制系统进行了鲁棒性分析，即系统在新任务描述、新应用程序或新平台版本存在的情况下的表现如何，开发了两个自动代理者并报告了对应整个数据集的性能表现

创建AITW的数据收集工作流程，评估者会收到随机选择的指令，之后评估者通过以自然的方式与设备交互来执行任务，除了打字以及主页和后退按钮交互之外，还捕获了精确的手势(用指向手指移动位置的箭头绘制滑动)，对高级事件的事后重新标记可用于生成单步任务

与其他类似数据集的对比

对于数据集样本的详细统计分析情况

评估结果:

github说明页:

—— 来自 S1Fun

Machinery · 发表于 2023-7-22 05:48

本帖最后由 Machinery 于 2023-7-22 05:52 编辑

TokenFlow

一致的扩散特征实现一致的视频编辑

项目主页:https://diffusion-tokenflow.github.io/

github项目仓库:https://github.com/omerbt/TokenFlow

更多补充视频样本和编辑结果:https://diffusion-tokenflow.github.io/sm/supp.html

生成式AI的应用最近已扩展到视频领域，然而，当前SOTA视频生成模型在视觉质量和生成内容的控制方面仍然落后于图像模型

本文提出了一个框架，名为TokenFlow，利用文本到图像扩散模型来完成文本驱动的视频编辑任务，具体来说，给定源视频和目标文本提示，TokenFlow会生成遵循目标文本提示的高质量视频，同时保留输入视频的空间布局和运动连续性，实现更连贯的效果

具体实现方法基于一个关键的洞察性观察结果，即可以通过在扩散特征空间中强制一致性对齐来获得编辑视频结果的一致性，显式传播基于帧间对应关系的扩散特征，这些在模型中可以轻松获取，因此本文的方法框架不需要任何训练或微调，并且可以与任何现成的文本到图像编辑方法结合使用

观察到视频的时间一致性水平与其特征表征的时间一致性密切相关，通常的自然视频的特征具有共享的、时间一致的表征，当按帧编辑视频时，这种一致性就会被打破，本方法设法确保了与原始视频特征相同水平的特征一致性

通过在编辑过程时强制跨帧画面的内部扩散特征的一致性，可以实现时间一致的编辑，使用原始视频特征之间的对应关系，跨帧传播一小组经过编辑的特征来实现这一点

给定输入视频I，反转每一帧，提取其Token(即自注意力模块的输出特征)，并使用最近邻搜索(nearest-neighbor search)提取视频帧间特征的对应关系

在每个去噪步骤中:
1.从噪声视频J_t中采样关键帧，并使用扩展的注意力块联合编辑它们，生成编辑Token集T_base
2.根据原始视频特征预先计算的对应关系，在视频中传播编辑后的Token

为了对J_t进行去噪，将每个帧馈送到网络，并用第二步获得的Token替换生成的Token

随时间进行扩散特征，左方：给定输入视频(第一行)，对每个帧应用DDIM反演，从ϵθ中最高分辨率的解码层提取特征

之后对从所有帧中提取的特征(即自注意力模块的输出Token)应用PCA，并可视化前三个组件(第二行)，进一步可视化RGB和特征(第三行)的x-t切片(在原始帧上以红色标记)

特征表征在时间上是一致的，相应的区域在视频中使用相似的特征进行编码，中间为通过在每个帧上应用图像编辑方法获得的编辑视频的帧和特征可视化，RGB不一致的模式在特征空间中也很明显(例如狗的身体上)

本方法强制编辑后的视频与原始视频拥有一样的特征一致性，这转化为了RGB空间中连贯且高质量的编辑结果

细粒度特征对应，从源视频帧中提取的特征(即来自自注意力模块的输出标记)用于重建附近的帧，这是通过以下方式完成的：
1.在所有层和所有生成时间步骤中，用源视频中最接近的特征交换目标中的每个特征，以及使用最近邻特征在RGB空间中简单进行扭曲，在从最高分辨率解码层提取的源视频特征和目标视频特征之间进行计算，最终目标被忠实地重建，展示了高水平的空间粒度和特征之间的共享内容

视频编辑实例效果:

与其他视频方法的对比效果:

生成质量评估:

—— 来自 S1Fun

Machinery · 发表于 2023-7-22 06:10

本帖最后由 Machinery 于 2023-7-22 06:12 编辑

Meta-Transformer

多模态学习的统一框架

项目主页:https://kxgong.github.io/meta_transformer/

github项目代码库:https://github.com/invictus717/MetaTransformer

多模态学习旨在构建能够处理和关联来自多种模态的信息的模型，尽管该领域已经发展多年，但由于各种模态(例如自然语言、2D图像、3D点云、音频、视频、时间序列、表格化数据)之间固有的差别，设计一个统一的神经网络来处理这些模态仍然具有挑战性

在这项工作中，我们提出了一个名为Meta-Transformer的框架，它利用冻结的编码器来执行多模态感知，而无需任何配对的多模态训练数据

在Meta-Transformer中，来自各种模态的原始输入数据被映射到共享Token空间中，允许具有冻结参数的后续编码器提取输入数据的高级语义特征

Meta-Transformer由三个主要组件组成:统一数据分词器、模态共享编码器和下游任务的特定任务头(task-specific heads)，它是第一个使用不配对的数据对跨12种不同模态执行统一学习的框架

不同基准的实验表明，Meta-Transformer可以处理广泛的任务，包括基础感知(文本、图像、点云、音频、视频)、实际应用(X射线、红外、高光谱和IMU)以及数据挖掘(图形、表格和时间序列)

Meta-Transformer预示着使用Transformer开发统一多模态智能的广阔前景

统一多模态学习，Meta-Transformer利用相同的主干模型来编码自然语言、图像、点云、音频、视频、红外、高光谱、X 射线、时间序列、表格、惯性测量单元(IMU)和图形数据

与其他多模态方法的对比

Meta-Transformer由数据到序列Token化、统一特征编码和下游任务学习组成，该框架用文本、图像、点云和音频进行说明

数据到序列Token化的图示。在A中提出了包含分组、卷积和变换过程的元方案，在B-E表示应用元方案进行构建块处理文本、图像、点云和音频

相关评估设置与评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-22 06:31

FLASK

基于对齐技能集(Skill Sets)的细粒度语言模型评估

相关论文:https://arxiv.org/abs/2307.10928

可交互的演示Demo:https://kaistai.github.io/FLASK/

github项目代码库:https://github.com/kaistAI/FLASK

大型语言模型(LLM)的评估具有挑战性，因为符合人类价值观需要多种技能的组合，并且所需的技能集因指令而异

最近的研究以两种方式评估LLM的表现，比如对几个独立基准进行自动评估，或者基于人类或机器的评估，对响应给出总体评分

然而，这两种设置都是粗粒度的评估，没有考虑需要实例使用时技能组合的用户指令的性质，这限制了对LLM真实能力的理解

在本文中引入了FLASK，基于对齐技能集的细粒度语言模型评估(Fine-grained Language Model Evaluation based on Alignment SKill Sets)，一种具有细粒度的评估方法，可用于基于模型和基于人类的评估，将粗粒度评分，分解为实例使用时的需求技能集的级别

具体来说，定义了LLM遵循开放式用户指令所需的12项细粒度技能，并通过为每个实例分配一组技能来构建评估集

此外，通过标注每个实例的目标领域和难度级别，FLASK提供了一个整体视图，根据技能、领域和难度对模型性能进行全面分析，使用FLASK比较了多个开源和专有的LLM，并观察到基于模型的评估和基于人类的评估之间高度相关的发现

FLASK可以使开发人员能够通过分析LLM精通特定技能的因素来更准确地衡量模型性能以及如何改进模型性能，对于从业者来说，FLASK可以通过各种LLM之间的综合比较，针对特定情况推荐合适的模型

1.观察到，即使对于最先进的开源模型，当前开源LLM的逻辑思维和背景知识能力也明显低于专有LLM约25%和10%左右

2.观察到，不同的技能需要不同的模型大小才能有效地获得它们，例如，虽然简洁性和洞察力等技能的获取在一定规模后会达到饱和，但对于较大的模型，逻辑正确性等技能的获取会更有效

3.即使是SOTA专有LLM也在FLASK-HARD集(FLASK评估集的子集)上挣扎，其中仅选择具有挑战性的实例，与整个集的性能相比，某些技能的性能表现下降高达50%

—— 来自 S1Fun

		自动登录	找回密码
密码			立即注册

[科技] 开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源