开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

Machinery · 发表于 2023-8-17 15:30

ZetaGo 发表于 2023-8-16 23:34
请教下各位潭友，手里有1万来张标注好质量信息(云量，条纹，过曝，偏色...)的卫星影像，想炼一个能识别遥感 ...

这个是非常经典的图像分类任务，类似AI图像鉴别，ModelScope和百度飞桨有大把现成的应用

—— 来自 S1Fun

Machinery · 发表于 2023-8-17 15:53

Link-Context-Learning

多模态LLM的链接上下文学习(Link-Context Learning)

github项目主页:https://github.com/isekai-portal/Link-Context-Learning

从上下文中学习新概念并提供适当响应的能力在人类对话中至关重要，尽管当前的多模态大型语言模型(MLLM/Multimodal Large Language Models)和大型语言模型(LLM)在大规模数据集上进行训练，但以免训练的方式识别未见图像或理解新概念仍然是一个挑战

上下文学习(ICL)探索免训练的小样本学习，鼓励模型从有限的任务中“学会学习(learn to learn)”并泛化到未见过的任务

在这项工作中，提出了链接上下文学习(LCL/link-context learning)，它强调“因果推理(reasoning from cause and effect)”来增强MLLM的学习能力

LCL超越了传统的ICL，明确强化了支持集和查询集之间的因果关系，通过提供因果关系的演示，LCL引导模型辨别，而不仅仅是类比，还包括数据点之间的潜在因果关系，这使MLLM能够更有效地识别未见图像并理解新概念

为了方便评估这种新方法，引入了ISEKAI数据集，该数据集专门包含为链接上下文学习而设计的未见的生成图像的标签对

大量实验表明，LCL-MLLM对新颖概念的链接上下文学习能力优于普通MLLM

本文提出的链接上下文学习的演示对话，在向模型呈现一对未见的图像和新颖的概念后，改进的模型获得了在整个对话过程中学习和保留所获得知识的能力，而普通MLLM无法提供准确的答案

链接上下文学习与普通上下文学习之间的区别，上下文学习涉及为演示提供不相关的任务，而链接上下文学习的演示和推理阶段之间存在直接的因果关系

ISEKAI数据集几个类别的结果概览图，本文模型在几乎所有类别上都优于OpenFlamingo和Otter，在涉及完全未见的图像的场景中展示了卓越的性能

ISEKAI数据集概述，该数据集完全由生成的图像组成，其中“ISEKAI World”中的图像在现实生活中不存在，而“Real World”中的图像来自现实

对ImageNet-100从0-shot到16-shot的定量评估，以准确率衡量，与 Otter和OpenFlamingo相比，取得了最好的结果

与 OpenFlamingo、Otter之间关于全新图像理解结果的定性比较，“Cactihog”这个名字是“cactus”和“hedgehog”的融合，结合了这两种生物的主要特征，“MushroomHaven”这个名字暗示了一个以巨型蘑菇为特征的居所

消融实验与评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-8-18 19:45

本帖最后由 Machinery 于 2023-8-18 19:46 编辑

TeCH

文本引导的拟真人类着装重建

项目主页(待整理):https://huangyangyi.github.io/tech

尽管最近从单个图像重建着装人类任务的解决方法取得了进展，但使用高标准的细节准确地恢复“未见区域(unseen regions)”仍然是一个尚未解决且缺乏关注的挑战

现有方法通常会生成过于光滑且纹理模糊的后视图(back-side)的表面纹理，如何从单个图像中有效地捕获个体的所有视觉属性，从而足以重建未见区域？

受到基础模型力量的推动，TeCH通过利用描述性文本提示(例如服装、颜色、发型)来重建3D人体，这些文本提示是通过服装解析模型和视觉问答VQA自动生成的

而个性化微调的文本到图像扩散模型(T2I/Text-to-Image diffusion model)，则可以学习“难以描述”的外观，为了以可承受的成本表现出高分辨率的3D着装人类，提出了一种基于DMTet的混合3D表征，它由显式的身体形状网格(explicit body shape grid)和隐式的距离场(implicit distance field)组成

在描述性提示+个性化T2I扩散模型的指导下，通过多视图分数蒸馏采样(SDS/multi-view Score Distillation Sampling)和基于原始观察(original observation)的重建损失来优化3D着装人体的几何和纹理，TeCH可以生产出高保真的3D着装人体，具有一致且精美的纹理和详细的全身几何形状

定量和定性实验表明，TeCH在重建精度和渲染质量方面都优于前SOTA方法

给定单个图像，TeCH可以重建一个栩栩如生的3D着装人类

“栩栩如生”包含详细的全身几何形状，正面和看不见的区域的面部特征和衣服皱纹，以及具有一致颜色和复杂图案的高质量纹理，其中的关键在于使用个性化的文本到图像扩散模型、视觉问答VQA导出的文本信息来指导重建、分数蒸馏采样(SDS)建立多视图监督等

方法概览图，TeCH首先将人类图像I作为输入

文本引导是通过以下方式构建的：第一步使用服装解析模型(SegFormer)和VQA模型(BLIP)解析具有预定义问题Q的人类属性A，第二步则将特定于主题的外观作为唯一标记嵌入[V]送入DreamBooth D'，接下来，TeCH使用SMPL-X初始化的混合DMTet表征3D着装人类，并使用提示P=[V]+PVQA(A)引导的LSDS优化几何结构和纹理

在优化过程中，引入Lrecon来确保输入视图的一致性，LCD用于强制不同视图之间的颜色一致性，Lnormal用作服装表面的正则化，最后提取的高质量纹理网格可用于各种下游应用程序

提示构筑(P=PVQA+[V])，使用关于个人外观的预定义问题查询VQA模型，以构建可描述的提示PVQA，以及使用背景增强图像对DreamBooth进行微调，将难以描述的特定于主题的细节嵌入到唯一标识符[V]中

文本引导的效果，比较了仅使用VQA描述(TeCH vqa)、仅使用DreamBooth身份Token (TeCHdb)以及两者都使用(TeCH)的有效性

上方描述了文本指导中特定元素的影响，例如服装款式和颜色、发型、面部特征以及“[V]”的放置和包含，下方展示了TeCH可以进行文本引导的服装颜色编辑

正常正则化的效果，Lnorm使用预测的法线图像Nˆfront、Nˆback对表面进行正则化

颜色一致性损失LCD和多姿态训练(MA/multipose training)对纹理优化的影响，LCD可以纠正SDS生成的过饱和的后视图颜色，而MA可以提高自遮挡或极端姿势下的纹理质量

SHHQ图像的定性比较，TeCH很好地概括了具有不同服装风格和纹理的真实自然图像，通过文本引导成功恢复了衣服身体的整体结构，并生成与衣服的颜色图案和材质一致的逼真的全身纹理

主观用户研究，报告了与其他基线相比用户对TeCH的偏好的百分比，大多数参与者更喜欢几何和彩色渲染纹理的TeCH

针对SOTA的定量评估，TeCH的3D指标和2D图像质量指标方面均超过了SOTA基线，这证明了其在准确重建具有复杂细节的穿着人体几何形状以及生成具有一致外观的高质量纹理方面的卓越性能

消融实验，定量评估每个组件的有效性，前两个结果的颜色为第一第二。所有因素均按w.r.t分组，它们的影响：A.几何+纹理，B.仅几何，C.仅纹理

动画化结果，TeCH创建的化身可以使用SMPL-X的运动序列进行动画处理

文本引导的风格化

所提出的方法依然可能会表现出极其宽松的衣服的嘈杂表面或不匹配的图案，PIXEL预测错误的初始姿势，会将错误传播到TeCH

—— 来自 S1Fun

Machinery · 发表于 2023-8-22 03:00

本帖最后由 Machinery 于 2023-8-22 03:18 编辑

HumanLiff

具有层级区别的3D扩散模型人体生成

项目主页:https://skhu101.github.io/HumanLiff

Demo演示视频:https://youtu.be/WbZhELYfnp8

github项目仓库:https://github.com/skhu101/HumanLiff

通过协同使用神经渲染(neural rendering)和生成模型(generative models)，使用2D图像进行3D人体生成在近期取得了超常规的发展速度

现有的主要3D人体生成模型通常都是一次性生成整体着装的3D人体，且一般都是不可检查修改的3D模型，很少考虑穿着衣物的3D人体的分层性质，而通常的人体模型都由人体和各种衣服组成，例如内衣、外套、裤子、鞋子等

本文提出了HumanLiff是目前来说第一个具有统一扩散过程的分层3D人体生成模型(layer-wise 3D human generative model with a unified diffusion process)

具体来说，HumanLiff首先在标准空间(canonical space)中生成由三平面特征表征(tri-plane features)的最小化着装人体(minimal-clothed humans)，然后以分层的方式逐步生成衣服

通过这种方式，3D人体生成被形式化为基于扩散的3D条件生成序列，为了用三平面表征重建更具有细粒度的3D人体，还提出了一种三平面移位操作，将每个三平面分割成三个子平面(three sub-planes)，并移动这些子平面以实现特征网格细分

为了进一步增强3D分层条件下的3D生成的可控性，HumanLiff分层融合三平面特征和3D分层条件，以帮助3D扩散模型学习

通过对两个分层3D人体数据集SynBody(合成人体)和TightCap(真实人体)进行的大量实验，验证了HumanLiff在分层3D人体生成方面明显优于前SOTA方法

HumanLiff 框架，第一阶段使用共享解码器(shared decoder)从多视图图像(multi-view images)重建三平面(tri-planes)3D表征，为了在空间上对齐3D特征，将LBS反转(inverse linear blend skinning)用于将不同形状或姿态的人体变换到标准空间

在第二阶段，使用第一阶段重建的三平面3D表征，让人体扩散模型学习逐层生成，为了进行有序的条件生成，通过使用UNet编码器进行分层合并先前步骤中的三平面3D特征，并将扩散获得的三平面特征作为去噪网络的输入

HumanLiff学习使用统一的扩散过程生成分层3D人体，首先从随机噪声开始，首先生成人体，然后以之前的生成结果为条件逐步生成新的3D人体，图中使用相同的背景颜色来表示同一人类层的生成结果

三平面移动操作，其中每个三平面(RH×W×C)会被分成三个子平面(RH×W×C/3)，之后将一个子平面半单位(0.5/W)向右移动，再将子平面半单位移动向下(0.5/H)

通过这样的设计，投影到同一正方形区域(浅橙色、橙色、浅蓝色、蓝色五角星)的3D点将提取不同的特征，并且可以在不增加三平面参数总数的情况下获得改进的重建结果

EG3D、EVA3D、Rodin和HumanLiff模型在分层区别的SynBody和TightCap数据集上的性能(FID和L-PSNR)比较

消融实验结果
—— 来自 S1Fun

Machinery · 发表于 2023-8-22 03:50

本帖最后由 Machinery 于 2023-8-22 03:52 编辑

SimDA

用于高效视频生成的简单扩散适配器(Adapter)

项目主页:https://chenhsing.github.io/SimDA/

github项目仓库:待整理

最近的人工智能生成内容浪潮见证了文本到图像(T2I)技术的巨大发展和成功，相比之下，文本转视频(T2V)虽然吸引了越来越多的兴趣，但仍然没有达到预期，现有的工作要么从头开始训练，要么使大型T2I模型适应视频，这两种方法都需要大量的计算和资源

在本文中提出了一种简单的扩散适配器(SimDA/Simple Diffusion Adapter)，通过仅对强大的T2I模型的总共1.1B参数中的24M参数进行微调，以高效的参数调整的方式使其适应视频生成

通过设计用于迁移学习的轻量级空间和时间适配器，将T2I模型转变为T2V模型，此外还将原来的空间注意力改为提出的潜在转移注意力(LSA/Latent-Shift Attention)以实现时间一致性，通过类似的模型架构，进一步的训练视频超分辨率模型以生成高清分辨率(1024x1024)视频

除了直接生成T2V之外，SimDA还可以用于零样本视频编辑，只需要2分钟的微调，通过这些方法，最终达成使用极少的模型适应可调参数来最大程度地减少训练工作

SimDA生成结果示例，A为开放式文本到视频生成的结果，B为文本引导视频编辑结果，使用了一份文本视频对进行微调

参数高效的文本到视频框架的工作流程，通过利用Stable Diffusion中的预训练自动编码器来获得潜在表征，在训练过程中，只更新新添加的适配器模块的参数，以黄色突出显示，其他模块的参数被冻结，以蓝色突出显示

模型大小和推理速度比较，测试平台为单张A100 (80GB) GPU上以秒为单位测量

时间潜在转移注意力模块(Temporal Latent-shift Attention module)概览图，值得注意的是，潜在转移注意力是在潜在空间上进行的，但可视化概览图是在图像级别上显示的，以便于理解

MSR-VTT数据集上的文本到视频生成比较，报告了Frechet Video Distance分数和CLIPSIM分数

在推理过程中，在编辑过的文本提示(例如“一辆保时捷跑车正在路上行驶”)的指导下，从输入视频反转的潜在噪声中采样了一段新颖的新合成视频

在用户研究评估集上与VDM、CogVideo、VideoFusion和LVDM模型进行的文本到视频生成的比较结果图

在WebVid验证集上生成的文本到视频，报告了FVD和CLIPSIM分数

SimDA生成样例

用户偏好被描述为百分比，表明相对于比较方法，更喜欢我们的方法的个人用户比例，参数比率则是指网络的参数量与本方法的参数量的比率

消融实验结果与对比的基线结果

—— 来自 S1Fun

Machinery · 发表于 2023-8-22 04:24

ChatHaruhi

通过大型语言模型在现实中复活动漫角色

github项目主页:https://github.com/LC1332/Chat-Haruhi-Suzumiya

基于大型语言模型构建的角色扮演聊天机器人引起了人们的兴趣，但需要更好的技术来模仿特定的虚构角色

本文提出了一种算法，通过改进的提示，以及从剧本中提取的角色记忆来控制语言模型，从而构建了ChatHaruhi，一个涵盖32个中文/英文，TV/动漫角色，和超过54k的模拟对话的数据集

自动评估和人工评估都表明本文方法相比基线提高了角色扮演能力

角色扮演Haruhi Suzumiya，请注意，用户的问题与原始情节相关但不完全相同，而模拟的春日凉宫的回答很大程度上引用了原始情节的内容

ChatHaruhi-54K数据集的统计，显示32个角色和54726个对话，不透明条表示原始剧本数据，而半透明条表示由Alpaca等模型生成的模拟对话

完整的ChatHaruhi系统的蓝图，首先从小说、电视剧等中提取对话作为每个角色的参考交流D，形成核心聊天机器人

模拟对话进一步由类羊驼模型生成，训练7B模型，因此可以使用像ChatGPT和Claude这样的大型模型，或者微调的7B模型

ChatHaruhi的核心对话系统，包括系统提示、针对用户查询q检索的角色记忆D(q,R)以及对话历史H

ChatHaruhi-54K涵盖了32个不同的中英文角色

微调的22k原文交流摘自电影剧本、小品剧本、电视剧和小说

使用类似Alpaca的方式大量生成模拟查询

A为带提示的ChatGPT，B为完整的ChatHaruhi+ChatGPT，C为带提示的ChatGLM2，D为完整的ChatHaruhi+ChatGLM2，E为完整的ChatHaruhi+微调的ChatGLM2

github页面:

—— 来自 S1Fun

Machinery · 发表于 2023-8-23 14:13

StoryBench

多方面地连续化故事的可视基准

基准排行榜:https://paperswithcode.com/dataset/storybench

github项目主页:https://github.com/google/storybench

根据文本提示生成视频故事是一项非常复杂的任务，除了需要具有高视觉质量之外，视频还需要真实地遵循一系列文本提示，同时在整个视频帧中保持一致性

同时创建视频生成基准需要随时间标注的数据，这与大部分视频数据集中经常使用的单个视频标题文本形成了鲜明对比

为了填补这一差异，研究组在三个现有的数据集上收集了全面的人工标注，引入了StoryBench：一种新的、具有挑战性的多任务基准，可以可靠地评估即将到来的文本到视频模型

基准测试包括三个难度不断增加的视频生成任务：动作执行，必须从条件视频开始生成下一个动作；故事延续，必须从条件视频开始执行一系列动作生成；故事生成，其中视频必须仅根据文本提示生成

实验评估了小而强大的文本到视频基线，展示了对从现有视频字幕算法生成的故事类数据进行训练的好处

最后，建立了视频故事的人工评估指南，并重申需要更好的视频生成自动指标，StoryBench目标旨在鼓励未来在这个令人兴奋的新领域的研究工作

表格1为收集的评估数据集的统计数据，其中Actor是指在视频中起关键作用的角色实体，表格2为每个视频片段的类别和标签概览图，可轻松检测故障模式

将VidLN标注转换为故事标注的自动工作流程，从视频、其标题和带标注的关键帧开始，使用LLM将标题拆分为多个句子，然后将原始字幕的关键帧转移到新的关键帧中，并为每个字幕选择一个关键帧，合并具有相同关键帧的字幕，最后相应地分割视频

比较了PHENAKI-GEN-ZS与PHENAKI-CONT-ST在提示执行操作时的结果，虽然PHENAKI-GEN-ZS为动物设置了动画，但它并不怎么遵循文本提示，而且美洲驼会随着时间的推移而变化，而PHENAKI-CONT-ST成功地显示了上下文中的两个实体(人和碗)，同时持续保留了动物和周围环境

将PHENAKI-CONT-ST应用于较长的序列，并提供了多故事延续的提示，该模型可以生成正确的动作，包括女孩落入水中时溅起的水花，背景在短时间内保持相对一致，但在较长的时间尺度内开始发生变化

在Oops-CSV上故事延续的人工评估结果，对于100个随机选择的故事，向3位不同的评分者展示生成的视频并报告他们的多数投票，对于其中每对进行比较的模型，L指左侧模型，R指右侧模型

Oops-CSV任务的自动评估指标的结果，最佳结果以粗体显示，FID和SIM使用InceptionV3进行评估，FVD使用I3D，PQA使用DOVER，VTM则使用CLIP

在三种任务上进行的自动评估结果

—— 来自 S1Fun

Machinery · 发表于 2023-8-23 14:34

本帖最后由 Machinery 于 2023-8-23 15:03 编辑

SeamlessM4T

大规模多语言&多模态机器翻译

项目主页:https://ai.meta.com/blog/seamless-m4t/

相关文章:https://hub.baai.ac.cn/view/29132

Demo演示:https://seamless.metademolab.com/

hugface演示:https://huggingface.co/spaces/facebook/seamless_m4t

github项目主页:https://github.com/facebookresearch/seamless_communication

创建巴别鱼(Babel Fish)，这种可以帮助个人在任意两种语言之间翻译语音的工具需要什么？

虽然基于文本的模型最近取得的突破已经使机器翻译能够覆盖的范围超过200种语言，但统一的语音到语音翻译模型尚未取得类似的进步，更具体地说，传统的语音到语音翻译系统依赖于逐步执行翻译的级联系统，这使得高性能的统一系统遥不可及

为了解决这些差距，推出了SeamlessM4T，一个单一模型，支持语音到语音翻译、语音到文本翻译、文本到语音翻译、文本到文本翻译和自动语音识别，最多可支持100种语言

为了构建模型，使用了100万小时的开放语音音频数据，再通过w2v-BERT 2.0学习自监督语音表征，随后创建了一个经过过滤并且与人工标记和伪标记数据相结合的自动对齐语音翻译的多模态语料库，开发了第一个能够将语音和文本翻译成英语的多语言系统

在FLEURS上，SeamlessM4T为多目标语言的翻译制定了新标准，在直接语音到文本翻译方面比之前的SOTA实现了近20%的BLEU性能提升，与强级联模型相比，SeamlessM4T将语音到文本的英译质量提高了1.3 BLEU点，将语音到语音的ASR-BLEU提高了2.6个点

经过稳健性测试，与当前的SOTA模型相比，SeamlessM4T系统在语音转文本任务中针对背景噪声和说话人变化的表现更好，还评估了SeamlessM4T的性别偏见，并增加了毒性评估翻译安全性

本文工作中的任务名标注

SOTA基线模型和SeamlessM4T模型的列表，†表示语言覆盖率是根据监督标记数据的使用或评估的零样本语言和方向来估计的

S2TT和S2ST的2级以及3级级联系统，这些级联系统将Whisper ASR模型与T2TT模型配对

这项工作使用的自动和人工评估指标列表

支持语言的部分列表:

使用图:

—— 来自 S1Fun

Machinery · 发表于 2023-8-23 15:26

MeVTR

多事件(Multi-event)视频文本(Video-Text)检索

github项目主页:https://github.com/gengyuanmax/MeVTR

在互联网海量视频文本数据的时代，视频文本检索(VTR/Video-Text Retrieval )是一项至关重要的多模态任务，以使用双流视觉语言模型架构(two-stream Vision-Language model architecture)来学习视频文本对的联合表征的大量工作已成为VTR任务的重要方法

然而，这些模型在视频-文本对应的双射假设(assumption of bijective)下运行，并忽略了更实际的场景，其中视频内容通常包含多个事件，而用户查询或网页元数据等文本往往是特定的并对应于单个事件，这在之前的训练目标和实际应用之间建立了差距，导致早期模型在推理过程中的潜在性能下降

在本研究中，引入了多事件视频文本检索(MeVTR/Multi-event Video-Text Retrieval)任务，解决每个视频包含多个不同事件的场景，作为传统视频文本检索任务的友好利用场景，提出了一个简单的模型Me-Retriever，它结合了关键事件视频表示和MeVTR任务的新MeVTR损失

综合实验表明，这个简单的框架在视频到文本和文本到视频任务中优于其他模型，有效地为MeVTR任务建立了稳健的基线。相信这项工作可以为未来的研究奠定坚实的基础

来自ActivityNet的多事件视频示例，视频描绘了一系列不相关且不连续的事件，包括“一个女孩坐在沙滩上”→“一个年轻人正在练习走钢丝”→“海边日落的场景”，其中每个文字标题仅对应于视频的一个片段，这种简短而具体的文本字幕在我们日常的视频数据中普遍存在，构成了常见的视频文本检索场景

ActivityNet Captions上VTR和MeVTR任务的模型性能比较，使用原始代码在ActivityNet Captions上训练每个模型，并在MeVTR上对其进行评估

在符号↘与↗的左侧显示VTR的性能，在右侧显示MeVTR的性能，↑表示越高越好，↓表示越低越好，结果表明，在视频到文本和文本到视频任务上，模型性能都大幅恶化

Me-Retriever的整体框架，该模型使用CLIP的视觉编码器(VE)和文本编码器(TE)，在视觉编码器之后，最后一个隐藏层中的[CLASS]标记被视为帧嵌入，再使用基于聚类的关键事件选择模块来聚合相似的帧并提取关键事件，每个文本标题都会输入文本编码器，[EOS]将用作文本嵌入，任何视频vi和任何文本字幕tj的关键事件之间的相似度都在相似度计算器中进行测量，对于每个视频，都有多个文本对应作为正样本

比较了具有不同事件数量的视频的所有文本对之间的平均余弦相似度，Me-Retriever可以生成比CLIP4Clip更多样化的文本特征，并且避免了文本特征崩溃

相关评估结果与消融实验等:

—— 来自 S1Fun

Machinery · 发表于 2023-8-23 16:21

SwinFace

用于人脸识别、表情识别、年龄估计和属性估计的多任务的Transformer模型

github项目主页:https://github.com/lxq1000/SwinFace

近年来，视觉Transformer被引入人脸识别和分析领域，并取得了性能突破，然而以往的大多数方法通常训练单个模型或聚合模型来执行所需的任务，忽略了不同任务之间的协同作用，无法实现提高预测精度、提高数据效率和缩短训练时间

本文提出了一种基于单个Swin Transformer的多用途算法，可以同时进行人脸识别、面部表情识别、年龄估计和人脸属性估计(包括性别在内的40个属性)

SwinFace由单个的共享骨干(shared backbone)模型和用于每组相关任务的子网络(subnet)模型组成，为了解决多个任务之间的冲突并满足任务的不同需求，多级通道注意力(MLCA/Multi-Level Channel Attention)模块被集成到每个特定任务的分析子网络模型中，该模块可以自适应地从特征中选择最佳级别的通道执行所需的任务

大量实验表明，所提出的模型对人脸有更好的理解，并且在所有任务上都取得了优异的性能，在RAF-DB上实现了90.97%的准确率，在CLAP2015上实现了0.22 ε-error，分别是面部表情识别和年龄估计方面的SOTA结果

以前的人脸识别和分析方法与本文方法进行对比的概览图，通过共享参数和提出的MLCA模块，模型可以提高应用效率并提高预测精度

人脸识别和人脸分析数据集的比较

SwinFace的构架概览图

人脸分析的任务分配

多级特征融合模块与通道注意力模块

多任务训练阶段的训练数据集按标签类型可以分为四类

人脸识别模型的比较，人脸识别模型的主干参数数量，LFW、CFP-FP、AGEDB-30、CALFW、CPLFW、IJB-C数据集上的1:1验证精度

RAF-DB上的面部表情识别比较

CLAP2015上的年龄估计比较

面部认知对齐，以及不同级别的特征图对于表情、年龄、性别和整个面部属性的重要性

相关评估与测试:

—— 来自 S1Fun

Machinery · 发表于 2023-8-23 17:22

本帖最后由 Machinery 于 2023-8-23 17:25 编辑

observer

一个很有趣的反向总结数据集

数据集:https://huggingface.co/datasets/JosephusCheung/observer

作者演示视频:https://www.bilibili.com/video/BV1G8411Q7tg

微调GPT-3.5，使其本质上充当观察者，不回答问题，而是分析用户输入并提供指令并将任务分配给Answer GPT，该数据集由用户在Quora(英文)和知乎(中文)上查询的问答数据组成，用于GPT-3.5的微调模型

普通的总结任务往精简的方向总结，反向总结则以复杂方向总结用户的输入，并不直接进行回应

—— 来自 S1Fun

Machinery · 发表于 2023-8-24 18:26

本帖最后由 Machinery 于 2023-8-24 18:27 编辑

Prompt2Model

根据自然语言指令生成可部署的模型

github项目主页:https://github.com/neulab/prompt2model

如今，大型语言模型(LLM)使系统构建者能够通过提示创建有效的NLP系统，只需要用自然语言描述任务并提供一些示例

然而，在其他方面，LLM相比传统的专用NLP模型反而倒退了，它们需要大量的计算资源来进行部署，并且被藏在API背后

在本文中，提出了Prompt2Model，这是一种通用方法，它采用自然语言任务描述，比如提供给LLM的提示，并用来训练有利于部署的专用模型，这是通过多步骤实现的，例如检索现有数据集和预训练模型、使用LLM生成数据集以及对这些检索和生成的数据集进行监督微调完成的

通过三个任务，研究组证明了在给定相同的少样本提示作为输入的情况下，Prompt2Model训练的模型的性能比强大的专有LLM gpt-3.5-turbo的结果平均高出20%，同时尺寸最多缩小了700倍

研究还表明，这些数据可用于获得模型性能的可靠性能估计，使模型开发人员能够在实际部署之前评估模型的可靠性

Prompt2Model可以根据提示生成小而准确的模型的框架

Prompt2Model架构旨在实现核心机器学习开发流程的自动化，使大众能够仅通过提示来训练小型但准确的模型

对于模型检索器，首先为查询构建一个假设的模型描述，然后计算该假设的模型描述与真实模型的描述之间的相似度得分

在真实基准的测试集上评估了Prompt2Model 生成的模型，并与用来为数据集生成器提供动力的gpt-3.5-turbo进行比较，还检查了删除工作流程特定部分(模型检索和数据集检索)的效果

因为没有可用于Temporal任务的相关数据集，因此没有将检索到的数据用于Prompt2Model

使用Prompt2Model不同模块生成的数据集以及完全手动标注，在标注成本的基础上比较了SQuAD上的模型性能，所有模型报告的性能与测试集完全匹配，这反映了真实的任务性能

在真实测试集及其相应生成的克隆上评估10个不同的模型，在模型排名列表上计算了肯德尔等级相关系数(Kendall’s Tau)，并发现3个数据集中的2个数据集具有显著的统计相关性

—— 来自 S1Fun

Machinery · 发表于 2023-8-24 19:09

CLIPN

用于零样本数据集分布外(Out-of-distribution)检测的CLIPN，让CLIP学会说“no”

github项目主页:https://github.com/xmed-lab/CLIPN

分布外检测(Out-of-distribution detection)是指在分布内(in-distribution)数据集上训练模型以对输入图像是否来自未知类别进行分类，人们投入了大量的精力来设计基于卷积神经网络或Transformer的各种OOD检测方法，然而，由CLIP驱动的零样本OOD检测方法(仅需要类名作为ID)受到的关注较少

本文提出了一种新颖的方法，即让CLIP学会说“不”(CLIPN/CLIP saying "no")，增强了CLIP中说“no”的逻辑，其中的主要动机是让CLIP具备使用肯定语义提示和否定语义提示区分OOD和ID样本的能力

具体来说，设计了一种新颖的可学习的“no”提示和一个“no”文本编码器来捕获图像中的否定语义，并引入了两个损失函数：图像-文本二元对立损失(image-text binary-opposite loss)和文本语义-对立损失(text semantic-opposite loss)，用它们来教CLIPN将图像与“no”提示相关联，从而使其能够识别未知样本

此外，提出了两种无阈值推理算法(threshold-free inference algorithms)，通过利用“no”提示和文本编码器的否定语义来执行OOD检测

在9个基准数据集(3个ID数据集和6个OOD数据集)上的ODD检测任务的实验结果表明，基于ViT-B-16的CLIPN在性能方面优于7个常用算法

简单对比图示，对比了标准的OOD检测算法和所提案的CLIPN之间的特征空间，CLIPN方法涉及“no”逻辑，它提供了一个新的特征空间(黄色区域)来直接识别OOD样本

一个简单演示插图，用于确定原始CLIP缺乏“no”逻辑

CLIPN的推理工作流程，它由三个网络组成：图像编码器、文本编码器和带有可学习“不”提示ρ的“no”文本编码器，对于推理阶段，提出竞争获胜(competing-to-win)和同意不同(agreeing-to-differ)的方式来让两个文本编码器共同确定结果，其中ID类是牛、猫、鱼，OOD类别是狗

匹配x和t的图示，绿色和粉色框分别表示标准文本t和“无”文本tno，m(xi,t no j)=1表示它们匹配但不相关(即“no”文本不是错误的描述，但在语义上不相关)，m(xi,t no j)=0表示它们是反向匹配的(即“no”文本与图像具有相反的语义)

相关评估结果与消融实验:

—— 来自 S1Fun

Machinery · 发表于 2023-8-26 01:01

Qwen-VL

Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)，Qwen-VL可以以图像、文本、检测框作为输入，并以文本和检测框作为输出

github项目主页:https://github.com/QwenLM/Qwen-VL

Qwen-VL 系列模型的特点包括：
强大的性能：在四大类多模态任务的标准英文测评中（Zero-shot Captioning/VQA/DocVQA/Grounding）上，均取得同等通用模型大小下最好效果；
多语言对话模型：天然支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；
多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等；
首个支持中文开放域定位的通用模型：通过中文开放域语言表达进行检测框标注；
细粒度识别和理解：相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

github页面预览:

—— 来自 S1Fun

Machinery · 发表于 2023-8-26 01:08

本帖最后由 Machinery 于 2023-8-26 01:42 编辑

CodeLlama

Meta开源的针对代码编程任务进行了微调的 Llama2 版本模型

github项目主页:https://github.com/facebookresearch/codellama

相关链接:https://sota.jiqizhixin.com/implements/f56621e0-f311-4b86-bad5-ce884cc481e0

具有填充功能，支持大型输入上下文，以及编程任务的零镜头指令跟随能力。提供多种版本以覆盖广泛的应用程序：基础模型（CodeLlama），Python 专业化（CodeLlama - Python）和指令跟随模型（CodeLlama - Instruct），每个模型都有 7B、13B 和 34B 参数。所有模型都在 16k tokens的序列上进行训练，并在最多 100k tokens的输入上显示改进

—— 来自 S1Fun

Machinery · 发表于 2023-8-26 01:40

本帖最后由 Machinery 于 2023-8-26 02:11 编辑

Scenimefy

通过半监督图像到图像转换学习制作动漫场景

项目主页:https://yuxinn-j.github.io/projects/Scenimefy.html

github项目主页:https://github.com/Yuxinn-J/Scenimefy

高质量动漫场景数据集:https://github.com/Yuxinn-J/Scenimefy#open_file_folder-anime-scene-dataset

从复杂的现实世界图像中自动高质量地渲染动漫场景具有重要的实用价值，这项任务的挑战在于场景的复杂性、动漫风格的独特性以及缺乏高质量的数据集来桥接领域差距，尽管之前的方法努力做出了有希望的尝试，但仍然无法在一致的语义保留、明显的风格化和精细的细节方面取得令人满意的结果

在这项研究中，提出了Scenimefy，一种新颖的半监督图像到图像转换框架，可以解决这些难题，方法利用了结构一致的伪配对数据指导学习，简化了纯无监督设置

伪数据是通过使用CLIP等丰富模型的先验进行语义约束后，从StyleGAN中特别导出的，进一步应用分割引导(segmentation-guided)的数据选择来获得高质量的伪监督(pseudo supervision)，引入了分块对比风格损失(patch-wise contrastive style loss)以改善风格化和精细细节

此外，还提供了高分辨率的动漫场景数据集以方便未来的研究，广泛的实验证明了本方法在感知质量和定量性能方面均优于之前的SOTA基线方法

通过Scenimefy渲染动漫场景的示例(对Real-ESRGAN样本进行了上采样操作)

本方法的目标是用细粒度的动漫纹理来风格化自然场景，同时保留底层语义，将所提出的Scenimefy制定为三阶段流程:
1.配对数据生成(paired data generation)
2.分割引导数据选择(segmentation-guided data selection)
3.半监督图像到图像转换(semi-supervised image-to-image translation)

将Scenimefy方法与五种代表性方法进行了比较：
1.为场景卡通化定制的代表性的图像到图像转换方法，即CartoonGAN、AnimeGAN、White-box、CTSS等
2.与SOTA基线相比，例如基于StyleGAN的方法，即VToonify等，Scenimefy产生的语义约束生成的动漫风格纹理更加一致

使用实例:

相关的高质量动漫场景数据集:

—— 来自 S1Fun

naiveyan · 发表于 2023-8-26 23:47

看了一下楼里提到的两个中文benchmark，ceval和cmmlu榜单里都没有llama2，楼里没提到的opencompass测了llama2但是没测在那之前两个榜单里大出风头的chatglm2，有点好奇单纯是因为开源项目还在等人测好上传结果还是几家组织有什么梁子？

Machinery · 发表于 2023-8-26 23:50

本帖最后由 Machinery 于 2023-8-26 23:51 编辑

naiveyan 发表于 2023-8-26 23:47
看了一下楼里提到的两个中文benchmark，ceval和cmmlu榜单里都没有llama2，楼里没提到的opencompass测了llam ...

评测榜单一直是不太全的，更多的属于是给人一个大致印象的模型能力，更何况llama2出的比较晚，算是近期的，比如，你在各种榜单里几乎都看不到rwkv，但rwkvv4算是很能打的，或者模型做的超绝无敌，基准评测秒天秒地，恨不得全天下都知道

哦，还有一个原因，llama2的中文预训练分量太少，中文榜单这方面没有什么测的实际意义
—— 来自 S1Fun

Machinery · 发表于 2023-8-27 00:58

本帖最后由 Machinery 于 2023-8-27 01:19 编辑

DenseDiffusion

经由注意力调制(Attention Modulation)的密集文本到图像生成

github项目主页:https://github.com/naver-ai/DenseDiffusion

现有的文本到图像扩散模型很难在给定密集的字幕说明(dense captions)的情况下(其中每个文本提示都提供特定图像区域的详细描述)合成高保真的图像

为了解决这个问题，本文提出了DenseDiffusion，一种免训练的方法，它采用预先训练的文本到图像模型来处理密集的字幕说明，例如提供对场景布局的控制等

研究组首先分析生成的图像布局和预训练模型的中间注意力图(intermediate attention maps)之间的关系，开发了一种注意力调制方法，能够根据布局指导引导对象出现在特定区域，无需额外的微调或数据集，改进了给定密集的字幕说明提示情况下的自动和人工评估分数，提高了图像生成性能

此外，还通过训练布局条件的模型实现了类似质量的视觉结果

DenseDiffusion能够将文本和布局信息合并到预先训练的文本到图像模型中，而不需要额外的微调，DenseDiffusion不仅可以更忠实地遵循文本提示合成图像，还提供了对象和场景布局的更好控制，通过根据文本和布局条件调制预训练模型的注意力图实现了这一目标(例如Stable Diffusion模型)

从Stable Diffusion的交叉注意力(A)和自注意力(B)层获得的16×16的注意力图的可视化结果，在A图中，可视化了“树懒”和“啤酒”的交叉注意力图，感兴趣的对象用蓝色和黄色边界框勾勒出轮廓，在B图中，展示了自注意力层中红色框标记的Token keys的注意图，随着时间步长t接近零，属于同一对象的Token之间的通信更加紧密，从而影响图像布局

分析了匹配和不匹配key的注意力分数:
YOLOv7检测的对象边界框的交叉注意力层的上下文中，假如key的文本Token与框的类标签匹配了，就定义为一个匹配的key，在自注意力层中，框中的图像Token符合条件的作为匹配的key，在这两层中，匹配的key始终比不匹配的key具有更高的平均和最大注意力值

注意力调制过程，方法目标是将特定的文本特征聚合到由其相应的布局条件定义的区域中，在交叉注意力层，调制每个分割中成对图像和文本Token之间的注意力分数，使其具有更高的值，在自注意力层，对属于同一对象的图像Token对应用调制以表现出更高的值，在注意力图中，较亮的颜色代表了更高的注意力分数

定量评估结果对文本条件的保真度，本文方法在自动指标和用户研究方面都实现了最佳性能，人类偏好百分比显示AMT参与者相比基线更喜欢DenseDiffusion结果的比例

布局条件保真度的定量评估结果仅与SD-Pww进行比较，因为它是唯一可以使用分割图的基线，63%的AMT参与者更喜欢DenseDiffusion结果，而不是SD-Pww

与其他基于Stable Diffusion的免训练方法的比较，对于所有方法，每个图像都使用相同的密集的字幕说明提示生成，然而结果只有SD-Pww和本文方法DenseDiffusion支持用于布局控制的分割图，DenseDiffusion相比SD-Pww更符合输入的掩码

与不同布局引导的文本到图像方法的比较，其中MAS和SpaText是专门针对布局控制进行训练的方法，SD-Pww和DenseDiffusion是基于预先训练的Stable Diffusion模型的免训练方法

尽管如此，DenseDiffusion与SpaText一样遵循布局条件，甚至在许多情况下优于MAS

通过修改部分给定的文本条件，使用相同的布局条件但并不相同的文本提示来生成图像，DenseDiffusion更忠实地遵循了文本和布局条件

消融实验，展示了从完整方法中去除各种组件时的一些示例结果，将组件定义为:
A.交叉注意力层的注意调制
B.自注意力层的注意调制
C.值范围的自适应注意力调制
D.掩码区域的自适应注意力调制

所有图像均使用相同的初始噪声图生成，根据结果可以推断，所有组件都有助于提高给定条件下Stable Diffusion的保真度

消融实验的定量评估与失败案例的局限性

—— 来自 S1Fun

Machinery · 发表于 2023-8-29 00:36

本帖最后由 Machinery 于 2023-8-29 00:37 编辑

PVIT

位置增强(Position-Enhanced)的多模态大语言模型视觉指令调整

github项目主页(待整理):https://github.com/THUNLP-MT/PVIT

最近，通过对大型语言模型(LLM)进行视觉指令微调来推理图像的多模态大型语言模型(MLLM/Multimodal Large Language Models)取得了巨大的成功，然而现有的视觉指令调整方法仅利用图像语言指令数据来对齐语言和图像模态，缺乏更细粒度的跨模态对齐

在本文中提出了位置增强视觉指令调整(PVIT/Position-enhanced Visual Instruction Tuning)，通过集成额外的区域级视觉编码器(region-level vision encoder)来扩展MLLM的功能，这种集成促进了MLLM对图像的更精细的理解

此外，为了有效地实现视觉模块和LLM之间的细粒度对齐，研究组设计了多种数据生成策略来构建图像区域语言指令数据集，进行了定量实验和定性分析，证明了方法的有效性

MLLM和PVIT的比较，MLLM有两个明显的局限性：使用简单语言传递信息效率低下，以及对于详细图像理解能力有限

PVIT通过位置增强指令调整将额外的区域级视觉编码器合并到MLLM中解决这些问题

PVIT的模型构架

所提出的区域级指令数据构建方案的图示，在A中，利用现有的数据集(例如GQA)，应用提示模板(templates)来构建简单的指令数据，在B中，利用ChatGPT，根据为特定任务类型设计的提示和标注生成具有更高多样性的数据，在C中，通过改进的提示方法导出指令数据

首先从原始标注中生成图像的详细描述，然后从详细描述中自动化提取基准标注，最后，ChatGPT 采用标题、详细描述、自动基准标注和随机选择的上下文示例作为提示，生成高质量的多轮指令数据，生成的问题类型丰富，推理答案复杂

识别任务(COCO)和多模态推理任务(GQA)的结果

所提出的人类评估数据FineEval的两个示例，以及FineEval的统计数据和PVIT在人类排名中相对于LLaVA (a)、Shikra(b)和GPT 4 RoI(c)的胜率

六个代表性案例展示了所提出的PVIT方法的不同能力

对识别任务中不同类型的区域表示方法的比较成绩(“文本坐标”是指直接将区域坐标作为文本数据输入的方式)，以及对图像文本描述的人类评估

—— 来自 S1Fun

Machinery · 发表于 2023-8-29 00:57

Nougat

学术文档的神经光学理解(Neural Optical Understanding)

github项目主页:https://github.com/facebookresearch/nougat

前沿科学知识主要存储在书籍和科学期刊中，通常以PDF的形式存储，然而PDF这种格式本身会导致语义信息丢失，尤其是数学表达式

本文提出了Nougat(学术文档的神经光学理解)，一种Visual Transformer模型，可以执行光学字符识别(OCR/Optical Character Recognition)任务，将科学文档处理为标记语言，并在新的科学文档数据集上证明了模型的有效性

所提出的方法提供了一种有前途的解决方案，通过弥合人类可读文档和机器可读文本之间的差距，增强了数字时代科学知识的可访问性

遵循Donut的简单的端到端架构，Swin Transformer编码器获取文档图像并将其转换为潜在嵌入，随后以自回归方式将其转换为标记序列

训练期间使用的不同图像增强方法的列表，示例文档中的示例片段

数据处理过程，源文件被转换为HTML，然后再转换为Markdown ，其中A为作者提供的LaTeX源代码，B使用LaTeXML从LaTeX源代码计算出HTML文件，C为从HTML文件解析出的Markdown文件，D为作者提供的PDF文件

将源代码中的段落拆分为不同页面的示例，蓝色点表示SVM预测的页面索引

左图：文档中页面的图像，右图：模型输出转换为LaTeX并渲染回 PDF

arXiv测试集的结果，PDF是嵌入在PDF文件中的文本，模态“ALL”是指没有任何分割的输出文本，*代表参数数量

—— 来自 S1Fun

Machinery · 发表于 2023-8-30 02:36

本帖最后由 Machinery 于 2023-8-30 05:57 编辑

MagicEdit

高保真且时间一致的连贯视频编辑

项目主页:https://magic-edit.github.io/

github项目代码仓库:https://github.com/magic-research/magic-edit

MagicEdit是一种非常简单但有效的文本引导视频编辑任务解决方案，研究组发现，通过在训练期间明确的解耦了内容、结构和运动信号的学习，可以实现高保真和时间连贯的视频到视频转换

这与大多数现有方法相矛盾，大多数现有方法试图在单个框架内对外观和时间表征进行联合建模，研究组认为这会导致每帧质量下降，尽管MagicEdit很简单，但实验表明MagicEdit可以支持各种下游视频编辑任务，包括视频风格化、定位编辑、Video-MagicMix和视频拓展渲染绘制

MagicEdit的工作流程，在训练过程中明确的解耦了内容、结构和时间平滑度是高保真时间一致的连贯视频编辑的关键

视频风格化，生成了具有不同主题和不同背景的新场景，同时保留原始视频的结构，条件视差图和关键点显示在每个编辑视频的左上角，为了保护身份，源视频中的面孔已被模糊处理

定位编辑，给定源视频，MagicEdit可以实现文本引导的定位编辑(例如戴眼镜或更改性别)

Video-MagicMix，MagicEdit也允许混合两个不同的概念(例如“兔子”和“老虎”)以在视频领域生成一个新颖的概念(例如类似兔子的老虎)

视频重绘，MagicEdit还支持各种外拓比例的视频拓展

不同比例的视频拓展

不同提示对拓展视频的效果

—— 来自 S1Fun

Machinery · 发表于 2023-8-30 03:26

本帖最后由 Machinery 于 2023-8-30 06:02 编辑

VideoCutLER

惊人简单的无监督视频实例分割

github项目仓库:https://github.com/facebookresearch/CutLER

现有的无监督视频实例分割方法通常依赖于运动估计(motion estimates)，并且在跟踪小动作或发散(divergent)的动作时经常遇到困难

本文提出了VideoCutLER，一种用于无监督多实例视频分割的简单方法，无需使用基于运动的学习信号(例如光流)或自然视频训练

方法关键在于，使用高质量的伪掩码和简单的视频合成方法进行模型训练就足以令人惊讶地使生成的视频模型能够有效地分割和跟踪视频帧中的多个实例

在具有挑战性的YouTubeVIS-2019基准测试上展示了第一个有竞争力的无监督学习结果，达到了50.7%的APvideo^50 ，大幅超越了之前的最先进水平(SOTA)，VideoCutLER还可以作为监督视频实例分割任务的强大预训练模型，在YouTubeVIS-2019上的APvideo超越DINO整整15.9%

第1行:提出了VideoCutLER，一个简单的剪切合成和学习的工作流程(cut-synthesis-and-learn pipeline)，涉及三个主要步骤，首先使用MaskCut为图像中的多个对象生成伪掩码，然后使用ImageCut2Video将小批量(minibatch)中的一对随机图像转换为具有相应伪掩码轨迹的视频，最后使用这些掩码轨迹训练无监督视频实例分割模型

第2行:尽管仅在未标注的图像上进行训练，但在推理时VideoCutLER可以直接应用于未见视频，并且可以跨时间分割和跟踪多个实例，甚至对于小对象、特定帧中不存在的，以及具有高度重叠的实例依然可行

本文方法在类别无关的APvideo 50指标方面超过了之前的SOTA方法OCLR近10倍的成绩

先前的SOTA方法OCLR遇到的挑战：在OCLR方法(一种严重依赖光流作为模型输入的方法)的框架内，出现了几种不同的失败案例

比如该方法难以准确分割移动和静态对象的情况、难以有效地将非刚性对象作为一个连贯单元进行跟踪、在区分重叠的实例时遇到困难，并且无法在不同的照明条件下保持一致的预测，尽管如此，其中许多挑战可以通过应用VideoCutLER得到有效解决，而无需依赖于各种先前各种作品使用的光学估计，使用YouTubeVIS数据集进行了定性比较

将之前的无监督实例分割方法(包括CRW、DINO和OCLR)与VideoCutLER的关键属性进行了比较，VideoCutLER是满足所有这些所需特性的唯一方法

†:OCLR使用的光流估计器(RAFT)在合成数据和人工标注数据(如 KITTI-2015和HD1K)上进行过了预训练

YouTubeVIS-2019和YouTubeVIS-2021上的零样本无监督多实例视频分割结果

零样本无监督单实例与少实例分割

VideoCutLER在YouTubeVIS数据集上的零样本无监督视频实例分割结果定性对比可视化，其中VideoCutLER仅在图像数据集ImageNet-1K上进行预训练，其评估直接在视频数据集YouTubeVIS上进行(无需进一步微调)，提供的视觉结果有效地强调了VideoCutLER能够分割和跟踪多个实例的效果，在视频帧之间也提供了一致的跟踪结果，并成功地区分各种实例，即使发生显着重叠时也是如此

使用不同百分比的标记训练数据对VideoCutLER进行微调，以在YouTubeVIS-2019数据集上进行半监督视频实例分割，报告了YouTubeVIS-2019验证集的平均精度和召回率来评估方法的性能

为了建立强大的基线，使用自监督DINO模型并使用DINO初始化VideoMask2Former的权重，为了确保公平比较，基线和VideoCutLER均使用相同的时间表和配方进行训练

不同监督方法指标，消融实验与OOD实测结果:

—— 来自 S1Fun

Machinery · 发表于 2023-8-30 03:53

本帖最后由 Machinery 于 2023-8-30 06:07 编辑

LongBench

用于长上下文理解的双语、多任务评估基准

github项目主页:https://github.com/THUDM/LongBench

尽管大型语言模型(LLM)在许多语言任务中表现出令人印象深刻的性能，但它们中的大多数只能处理几千个Token长的文本，这限制了它们在较长序列输入(例如书籍、报告和代码库)中的应用

最近的工作提出了通过扩展上下文窗口和更复杂的记忆机制来提高LLM的长上下文能力的方法，但依然缺乏为评估长期上下文理解而定制的综合基准

在本文中介绍了LongBench，这是第一个用于长上下文理解的双语、多任务基准，可以对长上下文理解进行更严格的评估，LongBench包含6个任务类别的21个英文和中文数据集，平均长度为6711个单词(英文)和13386个字符(汉字)，这些任务涵盖了关键的长文本应用领域，包括单文档QA、多文档QA、摘要、小样本学习、综合任务和代码补完

LongBench中的所有数据集均标准化为统一格式，可轻松自动评估LLM，通过对LongBench上的8个LLM进行综合评估发现:
1.商业模型(GPT-3.5-Turbo-16k)优于其他开源模型，但在更长的上下文中仍然表现不佳
2.较长序列上的缩放位置嵌入和微调可以显著改善长上下文理解
3.检索等上下文压缩技术为长上下文理解能力较弱的模型带来了改进，但性能仍然落后于长上下文理解能力强的模型

左图为LongBeach中每种类型任务的数据数量，右图为LongBeach中的英文和中文数据的长度分布，以单词和字符数来衡量

LongBench中数据集统计数据的概览图，中文数据集被突出显示

“来源”表示上下文的源内容， “Avg len”(平均长度)是使用英语(代码)数据集的单词数和中文数据集的字符数计算的，“Accuracy (CLS)”指分类准确率，而“Accuracy (EM)”是指精确匹配的准确率

少样本学习、合成和代码任务的百分比结果

模型们分别在英文和中文数据集上的6个主要任务的平均得分

不同截断大小下的百分比平均得分

LongBench-E中不同上下文长度下的百分比平均得分和每对任务之间的Spearman相关性

LongBench上基于检索的上下文压缩的百分比结果，E、C、B表示不同的检索方法，分别是text-embedding-ada-002、Contriever、BM25

M×N表示按M个单词分割成块时检索前N个片段，对于每个模型和每个数据集，所有检索方法的最佳性能以粗体显示

Long Bench上基于摘要的上下文压缩百分比结果

—— 来自 S1Fun

Machinery · 发表于 2023-9-1 19:39

本帖最后由 Machinery 于 2023-9-1 19:42 编辑

PointLLM

赋予大型语言模型理解点云的能力

项目主页:https://runsenxu.com/projects/PointLLM

github项目代码仓库:https://github.com/OpenRobotLab/PointLLM

演示Demo:http://101.230.144.196/

大型语言模型(LLM)前所未有的进步对自然语言处理产生了深远的影响，但尚未完全涉足3D理解领域

本文介绍了PointLLM，这是填补这一空白的初步努力，从而使LLM能够理解点云并提供超越2D视觉数据的新途径

PointLLM可以根据人类指令处理彩色点云对象，并能根据具体情况生成适当的回应，拥有对于点云和一般常识的掌握，具体来说，它利用强大LLM的点云编码器来有效融合几何、外观和语言信息

还收集了一个包含660K(简单)和70K(复杂)的点文本指令对(point-text instruction pairs)的新数据集，以实现两阶段训练策略：首先对齐潜在空间，随后对统一模型进行指令调整

为了严格评估模型的感知能力及其泛化能力，建立了两个基准：生成3D对象分类(Generative 3D Object Classification)和3D对象描述(3D Object Captioning)，通过三种不同的方法进行评估(人类评估、GPT-4/ChatGPT评估、传统指标)

实验结果表明，PointLLM表现出优于现有的2D基线方法的性能，特别值得注意的是，在人工评估的对象描述任务中，PointLLM在超过50%的样本中都优于人工标注者

PointLLM的使用演示图，一种能够理解彩色点云物体的多模态大语言模型，它可以感知对象类型、几何结构和外观，而无需考虑模糊的深度、遮挡或视点依赖性，通过这种理解和现有的先验知识，PointLLM可以准确地响应用户指令，正如它在这些未见样本上的表现所证明的那样，为了说明点云的优势，强调了模型响应中的关键点，由于上述问题，这些点通常很难从图像中获取

跟随指令的提示模板

PointLLM框架概览图，点编码器从输入点云中提取特征并将其投影到LLM主干的潜在空间，LLM主干则处理点Token和文本Token序列，并生成预测标记作为输出，该模型使用交叉熵损失进行训练，该损失仅在与模型响应相对应的标记上计算

在本文基准上与InstructBLIP和基准事实进行定性对比，展示了ModelNet40和Objaverse上两个模型的分类和字幕描述结果，以及基准事实答案

样本1-2和3-4分别显示了ModelNet40和Objaverse上的分类，示例5-6显示了Objaverse上的对象字幕描述

每个样本的第一张图像是InstructBLIP的输入，还显示了其他视图的点云以供参考，这些样本表明PointLLM相比基于图像的InstructBLIP甚至人工标注的基准事实答案来说，产生了更准确、更详细的结果

PointLLM-13B和人类用户之间的对话，该图展示了PointLLM-13B与人类之间的交互，强调了模型理解点云的形状、外观、功能的能力，模型对于遮挡的弹性理解使其能够感知详细特征，例如汽车或物体的内部结构，鞋子上的徽标，这对于图像输入可能具有挑战性，此外PointLLM-13B还表现出了用常识响应人类指令、避免偏见等能力

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-9-1 21:40

SpeechTokenizer

用于语音大型语言模型的统一语音Token器

项目主页:https://github.com/ZhangXInFD/SpeechTokenizer/

当前的语音大语言模型建立在离散语音表征的基础上，可以分为语义Token(semantic tokens)和声学Token(acoustic tokens)，然而现有的语音Token并不是专门为语音语言任务建模的

为了评估语音Token对于构建语音语言模型的适用性，研究组建立了第一个基准SLMTokBench，结果表明，语义Token和声学Token都不是达到此目的的理想选择，因此随后提出SpeechTokenizer，一种用于语音大语言模型的统一语音Token器

SpeechTokenizer采用带有残差向量量化(RVQ/residual vector quantization)的编码器-解码器架构，统一了语义和声学Token，在不同的RVQ层上分层地分解了语音信息的不同方面

此外，利用SpeechTokenizer构建了统一语音语言模型(USLM)，实验表明，SpeechTokenizer在语音重建方面的表现与EnCodec相当，并且在SLMTokBench的基准测试中表现出强大的性能，而USLM更是在零样本文本转语音任务中的表现优于VALL-E

不同离散语音表征信息组成的图示，语音Token用彩色圆圈表示，不同的颜色代表不同的信息

不同语音语言模型之间的比较，Semantic LM是指语义语言模型，Acoustic LM是指声学语言模型，Hierarchical LM是指分层语音语言模型，USLM指本文的统一语音语言模型

SpeechTokenizer框架图示

统一语音语言模型的图示，AR是指自回归方式，NAR是指非自回归方式，语音Token用彩色圆圈表示，不同的颜色代表不同的信息

Speech Tokenizer不同RVQ层的量化输出的可视化，第一层表示为 RVQ-1，而第二层到第八层的总和表示为RVQ-2:8

TIMIT训练集上条件概率P(phoneme|code) 的可视化，y轴是音素集，x轴是按最相关音素排序的第一层RVQ的codewords

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-9-5 01:29

OpenIns3D

3D开放词汇实例分割的捕捉和查找

项目主页:https://zheninghuang.github.io/OpenIns3D/

github项目代码仓库:https://github.com/Pointcept/OpenIns3D

当前的3D开放词表(open-vocabulary)场景理解方法大多利用对齐优良的2D图像作为桥接进而再通过语言学习3D特征，然而在没有2D图像的情况下，应用这些方法变得具有挑战性

在本文中引入了一种全新的工作流程，即OpenIns3D，在不需要2D图像输入的情况下即可在实例级别进行3D开放词汇场景理解

OpenIns3D框架采用“Mask-Snap-Lookup”方案:
1.“Mask”模块学习3D点云中与类别无关(class-agnostic)的掩码建议(mask proposals)
2.“Snap”模块生成多个尺度的合成场景级图像，并利用2D视觉语言模型来提取感兴趣的对象
3.“Lookup”模块借助Mask2Pixel映射搜索“Snap”的结果，其中包含3D掩码和合成图像之间的精确对应关系，以便为建议的掩码分配类别名称

这种无2D输入需求、易于训练且灵活的方法在广泛的室内和室外数据集上都取得了SOTA结果，并且具有很大的优势

此外，OpenIns3D也允许轻松切换2D捕捉器而无需重新训练，当集成最先进的2D开放世界模型(例如ODISE和GroundingDINO)，可以在开放词汇实例分割上观察到优越的结果，当与LISA等LLM支持的2D模型集成时，它表现出可以处理高度复杂的文本查询的非凡能力，包括那些需要复杂推理和世界知识的查询

OpenIns3D(LISA)的开放词表实例分割示例，OpenIns3D将2D视觉和语言(VL)模型的开放世界功能无缝转移到3D领域，LISA是一种基于LLM的推理分割模型(Lisa: Reasoning segmentation via large language model)

A图为OpenIns3D遵循“掩码-捕捉-查找”步骤进行的开放词汇场景理解，B图为在室内和室外数据集上都取得了SOTA的结果列表，其中OVOD为开放词汇对象检测，OVIS为开放词汇实例分割

OpenIns3D框架的通用工作流程，作为纯3D框架，OpenIns3D首先将点云传递到MPM中以生成初步的3D掩码和掩码分数，然后执行Snap模块来渲染N个合成场景级图像，这些图像随后与输入文本查询一起传递到2D开放世界模型中，2D模型的检测结果存储在类查找表(CLT/Class Lookup Table)中，最后初步的掩码提案和CLT都被输入Lookup模块，在全局级别执行Mask2Pixel Guided Lookup，然后在定位级别执行Local Enforced Lookup以初步掩码的语义含义，最终的掩码过滤对初步掩码进行细化并获得最终结果

Snap和Mask2Pixel映射，摄像机均匀放置在场景外边界，并抬高1m，以捕捉清晰的视野，每个摄像机都指向场景中心，所有图像均经过校准以包含所有建议的掩码，姿态和内在矩阵存储在CLT中，并在稍后用于生成Mask2Pixel映射(使用相同的颜色表示2D-3D对应关系)以指导类别名称的搜索

Mask2Pixel引导查找图，3D中的初步掩码被投影到具有相同相机参数的2D平面上，以形成Mask2Pixel映射，2D检测结果和投影掩码之间的IoU为3D掩码分配类名称的指导，来自多个图像的结果被集成以用于最终预测

上图为S3DIS和ScanNetv2上的3D开放词汇实例分割结果，下图为渲染和推理时间消融实验的结果

相关评估与更多消融实验结果

—— 来自 S1Fun

Machinery · 发表于 2023-9-5 01:52

Point-Bind&Point-LLM

将点云与多模态对齐，以实现3D理解、生成和指令跟随

github项目主页:https://github.com/ZiyuGuo99/Point-Bind_Point-LLM

Point-Bind，一种将点云与2D图像、语言、音频和视频对齐的3D多模态模型，通过集成ImageBind，构建了3D和多模态之间的联合嵌入空间，从而实现了许多有前景的应用，例如任意模态输入到3D生成、3D嵌入算法和3D开放世界理解

除此之外，进一步介绍了Point-LLM，这是第一个遵循3D多模态指令的3D大型语言模型(LLM)，通过使用参数高效的微调技术，Point-LLM将Point-Bind的语义注入预训练的LLM中，例如LLaMA，从而不需要3D指令数据集，但依然可以表现出卓越的3D和多模态问答能力

Point-Bind的特点，通过将3D与多模态结合起来，开发一个统一的框架Point-Bind，该框架扩展了各种3D多模态应用，在Point-Bind的基础上，进一步引入了Point-LLM，一种具有双语3D指令跟随能力的3D大语言模型

Point-Bind的3D多模态应用，通过联合的3D多模态嵌入空间Point-Bind实现了许多有前景的应用场景，例如用于3D指令跟随的Point-LLM、以任意模态为条件的3D生成、3D嵌入空间算法和多模态3D零样本理解

Point-LLM的3D问答示例，给定3D和多模态指令，Point-LLM可以有效地生成详细的响应并进行卓越的跨模态推理，值得注意的是，这里不需要任何3D指令数据进行训练

Point-Bind的整体工作流程，首先收集3D-图像-音频-文本数据对进行对比学习，从而将3D模态与其他引导的ImageBind保持一致，再借助联合嵌入空间，Point-Bind既可用于3D跨模态检索、任意模态到3D生成、3D零样本理解以及开发3D大型语言模型Point-LLM

Point-LLM的推理范式，参考ImageBind-LLM，采用bind网络、视觉缓存模型和零初始化门控机制来微调LLaMA以遵循3D指令，或者，Point-LLM将多模态数据作为输入，并对语言响应进行跨模态推理

3D和音频的嵌入空间算法，通过结合3D点云和音频嵌入来检索2D图像，展示了Point-Bind的多模态语义组合功能

3D跨模态检索性能

任意模态到3D生成

零样本3D分类性能

—— 来自 S1Fun

Machinery · 发表于 2023-9-5 02:21

CityDreamer

无边界3D城市的组合生成模型

项目主页:https://haozhexie.com/project/city-dreamer

github项目主页:https://github.com/hzxie/city-dreamer

近年来，广泛的研究聚焦在3D自然场景生成上，但3D城市生成领域还没有得到太多的探索，这是因为3D城市生成具有更多的挑战性，例如人类对城市环境的结构扭曲更加敏感等，此外生成的3D城市比3D自然场景更复杂，因为与自然场景中树木等对象相对一致的外观相比，建筑物作为同一类对象表现出了更广泛的不同外观

为了应对这些挑战，本文提出了CityDreamer，一种专门为无边界3D城市设计的组合生成模型，它将建筑实例的生成与其他背景对象(例如道路、绿地和水域)分离成不同的模块

构建了两个数据集OSM和GoogleEarth，其中包含大量真实世界的城市图像，以增强生成的3D城市在布局和外观方面的真实感，通过大量实验，CityDreamer证明其可以在生成各种逼真的3D城市方面优于之前的SOTA方法

提案的CityDreamer生成了各种各样的无边界城市布局和多视图一致的外观，具有明确的几何形状和多样化的风格

CityDreamer概览图，无边界布局生成器创建城市布局L，然后城市背景生成器执行ray采样以检索L中的特征，并使用体积渲染器生成背景图像，重点关注道路、绿地和水域等背景对象

类似的建筑物实例生成器使用另一个体积渲染器来渲染建筑物实例图像，最后合成器将渲染的背景和建筑实例合并，生成统一且连贯的最终图像，“Mod.”、“Cond.”、“Bg.”和“Bldg.”分别表示“调制”、“条件”、“背景”和“建筑物”

OSM数据集包含成对的高度场和语义地图，提供真实世界的城市布局，根据高度场和语义映射，生成的城市布局有助于自动标注生成，GoogleEarth数据集包括真实世界的城市外观以及语义分割和建筑实例分割，数据集统计数据展示了GoogleEarth数据集中可用的各种视角

GoogleEarth与代表性城市相关数据集的比较，请注意图像数量和面积是根据真实世界图像计算的，“sate” 代表卫星，“inst.”、“sem.”和“plane”分别表示“实例分割”、“语义分割”和“平面分割”

定量比较，最佳值以粗体突出显示，请注意，InfiniCity的结果不包含在本次比较中，因为它不是开源的

定性对比，与所有基线方法相比，CityDreamer都产生了更现实和多样化的结果，请注意，InfiniCity的视觉结果由作者提供

用户研究与模块效果对比

—— 来自 S1Fun

Machinery · 发表于 2023-9-5 02:56

FactLLaMA

利用外部知识优化指令跟随语言模型以进行自动事实检查

项目主页:https://thcheung.github.io/factllama

github项目主页:https://github.com/thcheung/FactLLaMA…

相关数据集:https://github.com/Nicozwy/CofCED

自动事实核查(Automatic fact-checking)在打击错误信息的传播方面发挥着至关重要的作用，大型语言模型 (LLM)和指令跟随变体模型，例如InstructGPT和Alpaca等在各种自然语言处理任务中表现出了卓越的性能

然而，模型知识可能并不总是最新的或足够的，可能导致事实核查的不准确，为了解决这一限制，可以将指令遵循语言模型的力量与外部证据检索相结合，以增强事实检查性能

本文方法涉及利用搜索引擎检索给定输入声明的相关证据，这些外部证据可以作为有价值的补充信息来增强预训练语言模型的知识，然后，通过使用这些证据指示调整LLaMA开源语言模型，使其能够更准确地预测输入声明的准确性

为了评估本方法，对两个广泛使用的事实检查数据集进行了实验(RAWFC和LIAR)，结果表明，FactLLaMA在事实检查任务中实现了SOTA性能

通过整合外部证据，弥合了模型知识与最新且充分的可用背景之间的差距，从而改善了事实核查结果，研究结果对于打击错误信息和促进在线平台上准确信息的传播具有重要意义

使用从搜索引擎检索的外部证据进行自动事实检查的方法

使用LORA调整模型，利用外部证据优化指令跟随模型的图示

相关评估结果

—— 来自 S1Fun

Machinery · 发表于 2023-9-7 02:48

nanoT5

在资源有限的情况下预训练和微调T5模型的PyTorch框架

项目主页:https://github.com/PiotrNawrot/nanoT5

类似T5这样的SOTA语言模型彻底改变了 NLP 领域，但对于计算需求的阻碍阻挡大部分社区研究的发展

为了应对这一挑战，本文推出了nanoT5，一种特别优化的PyTorch框架，用于T5模型的高效预训练和微调

通过综合考虑优化器差异和优先考虑效率的情况下，nanoT5允许在短短16个小时内在单个GPU上预训练T5-Base模型，而且不会造成任何性能损失

通过推出这个开源框架，希望能够扩大语言建模研究的可触及性，并满足社区对更用户友好的T5(编码器-解码器构架)实现方法的需求

模型在不同预训练的训练时间周期内的下游任务性能，其中包括可以通过Huggingface Hub访问的现有T5构架的基础变体

不同优化器和和学习率参数的训练损失曲线

预训练期间各种不同配置设置的效率指标

使用不同的优化方法和学习率参数对C4测试集的负对数似然分数进行了比较

—— 来自 S1Fun

Machinery · 发表于 2023-9-7 03:19

本帖最后由 Machinery 于 2023-9-7 03:22 编辑

STEP

迈向结构化场景文本识别

项目主页:https://github.com/Sergigb/STEP

本文将介绍结构化场景文本识别任务(structured scene-text spotting task)，该任务需要场景文本OCR系统可以根据正则表达式查询识别图片中的自然文本，与通用场景文本OCR识别相反，结构化场景文本识别旨在根据用户提供的正则表达式动态调节场景文本检测和识别

为了解决这一任务，本文提出了STEP(Structured TExt sPotter)，一种利用提供的文本结构来指导模型进行OCR过程的方法，STEP能够处理包含空格的正则表达式，并且不只限于字级粒度(word-level granularity)的检测

STEP可以在各种现实世界的阅读场景中实现准确的零样本结构化文本识别，并且仅根据公开数据进行训练，为了证明方法的有效性，还引入了一个新的具有挑战性的测试数据集，其中包含几种类型的词汇外结构化文本(out-of-vocabulary structured text)，反映了价格、日期、序列号、车牌等领域的重要阅读应用，证明了STEP可以在所有测试场景中按需提供专门的OCR性能

STEP架构由一个Transformer编码器和两个用于字符和定位的解码器组成，经由查询的正则表达式进行引导

STEP的详细示意图，提出的方法基于TESTR的结构化场景文本检测和识别架构

CNN提取的特征被送入类似Deformable DETR的编码器作为输入，编码器中的交叉注意力层结合了图像特征和目标结构，使指导生成器可以产生偏向用以生成所需的文本

两个不同的分支解码器，在字符和定位解码器中的交叉注意力层的指导下执行识别(字符解码分支)和多边形坐标回归(定位解码器分支)

HierText派生数据集，使用行和字级标注来创建带有空格的新标注，从单个带标注的行开始(图A)，保留包含至少一个非字母字符的所有单词(图B)，此外，还尝试通过将所选标注与其相邻单词合并来创建新标注，在图C和图D中，将单词“v1.0”的多边形与其两个相邻单词合并，最终的标题文本是由空格分隔的两个子标题

用拆分测试进行的端到端结果，表中的每个单元格都显示了特定代码的每种方法的最终F分数

相关评估结果

使用实例:

—— 来自 S1Fun

Machinery · 发表于 2023-9-7 03:48

Baichuan 2

百川智能推出的新一代开源大语言模型

项目主页:https://github.com/baichuan-inc/Baichuan2/

Baichuan 2是百川智能推出的新一代开源大语言模型，采用2.6万亿 Tokens的高质量语料训练，在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果，本次发布包含有7B、13B的Base和Chat版本，并提供了Chat版本的4bits量化

相关基准成绩:

—— 来自 S1Fun

Machinery · 发表于 2023-9-7 03:52

TinyLlama-1.1B

TinyLlama项目旨在在3万亿tokens上进行预训练，构建一个拥有11亿参数的Llama模型

项目主页:https://github.com/jzhang38/TinyLlama

项目中文说明:

—— 来自 S1Fun

Machinery · 发表于 2023-9-7 04:00

VALL-E X

一个强大而创新的多语言文本转语音(TTS)模型，最初由微软发布，虽然微软最初在他们的研究论文中提出了该概念，但并未发布任何代码或预训练模型，本项目是训练并复现的相关开源可用的VALL-E X模型

项目主页:https://github.com/Plachtaa/VALL-E-X

中文项目说明:

—— 来自 S1Fun

Machinery · 发表于 2023-9-7 04:07

本帖最后由 Machinery 于 2023-9-7 04:08 编辑

Refact LLM

具有1.6B参数的代码模型，支持20种编程语言、4K上下文的代码补全，fill-in-the-middle(FIM/中间填充)和聊天功能

官方项目博客:https://refact.ai/blog/2023/introducing-refact-code-llm/

hugface模型下载:https://huggingface.co/smallcloudai/Refact-1_6B-fim

Refact LLM在HumanEval基准测试中取得了SOTA性能，接近Starcoder，同时模型参数缩小了10倍，并在HumanEval指标上击败了其他代码模型，如StableCode、CodeGen和ReplitCode，在许可的代码数据集上训练并允许商用

相关测试成绩:

模型详情:

—— 来自 S1Fun

Machinery · 发表于 2023-9-9 03:51

InstructDiffusion

面向视觉任务的通用建模方法

项目主页:https://gengzigang.github.io/instructdiffusion.github.io/

github项目仓库:https://github.com/cientgu/InstructDiffusion

Demo演示:https://e0448e59d09dbe092f.gradio.live/

本文推出了InstructDiffusion，一个统一的通用框架，用于将计算机视觉任务与人类指令对齐，与整合先验知识并为每个视觉任务预先定义输出空间(例如类别或坐标)的现有方法不同，通过将多种不同的视觉任务转化为符合人类直觉(human-intuitive)的图像处理过程(image-manipulating process)，使输出空间成为可灵活处理且交互式的像素空间

具体来说，该模型建立在扩散过程的基础上，并经过训练以根据用户指令预测像素，例如用红色圈住该人的左肩或对左侧的汽车应用蓝色遮罩等

InstructDiffusion可以处理各种视觉任务，包括理解任务(例如分割和关键点检测)或生成任务(例如编辑和增强)，甚至可以表现出处理训练未见过的任务的泛用能力，并在新数据集上优于先前的方法，这代表着向通用视觉任务建模迈出了重要一步，推动了计算机视觉领域的通用人工智能的发展

InstructDiffusion，一个用于通用视觉任务的建模方法，给定输入图像和人工指令，统一模型可以有效地完成图像编辑、分割、关键点估计、检测和低级视觉等任务

InstructDiffusion的训练流程，为了简单说明，以关键点检测为例

用于不同任务的有效训练样本的数量

COCO val2017、HumanArt和AP-10K数据集上的平均精度对比，对所有参赛的官方大模型进行评估，确保公平性，基准答案的边界框用于所有结果，其中表现最好的通用模型以粗体突出显示

使用实例与对应的人类指令(以abcd给出)

以cIoU为单位的参考分割的定量对比结果(U：UMD split/G：split)
表现最好的通用模型以粗体突出显示

InstructDiffusion也可以适用于低级视觉任务，包括图像去模糊、去噪和去水印

图像编辑和图像增强的定量对比结果，对于编辑任务(替换、删除和添加)，使用CLIP-Sim/AP分数，对于增强任务，该数字反映了PSNR指标

括号中的数字表示使用了VAE重建基准真实图像所获得的结果，代表所使用的VAE模型可以实现的性能上限

不同指令引导图像编辑方法结果之间的对比，从左到右分别为：输入、Prompt-to-prompt、Magic Brush、EDICT、Null-text Inversion与本方法(InstructDiffusion)

InstructDiffusion生成的图像编辑结果

消融实验

各种任务与效果测试

—— 来自 S1Fun

Machinery · 发表于 2023-9-9 04:45

Tracking-Anything-with-DEVA

通过解耦视频分割(Decoupled Video Segmentation)跟踪任何内容(Tracking Anything)

项目主页:https://hkchengrex.com/Tracking-Anything-with-DEVA/

github项目仓库:https://github.com/hkchengrex/Tracking-Anything-with-DEVA

colab体验:https://colab.research.google.com/drive/1OsyNVoV_7ETD1zIE8UWxL3NXxu12m_YZ?usp=sharing

训练视频分割的数据标注成本通常很高，这阻碍了端到端算法扩展到新的视频分割任务中，特别是在大词汇量(large-vocabulary)的设置中

为了在无需对每个独立任务的视频数据都进行训练的情况下“跟踪任何内容”，本文开发了一种解耦的视频分割方法(DEVA/decoupled video segmentation approach)，该方法由特定于任务的图像级分割和与类/任务无关(class/task-agnostic)的双向时间传播(bidirectional temporal propagation)组成

由于这种设计，只需要目标任务的图像级模型(训练成本更低)和通用的时间传播模型即可进行任务，其中时间传播模型只需训练一次即可跨任务泛化

为了有效地结合这两个模块，通过使用双向传播对来自不同帧的分割假设(segmentation hypotheses)进行(半)在线融合，生成连贯的分割结果

在一些数据稀缺任务中，这种解耦形式优于端到端方法，在大词汇量视频全景分割(large-vocabulary video panoptic segmentation)、开放世界视频分割、参考视频分割和无监督视频对象分割中都是如此

半在线视频分割结果的可视化，上方为DEVA算法将Segment Anything (SAM)扩展到视频，以实现开放世界视频分割，无需用户输入，下方为DEVA通过集成Grounding-DINO和SAM对新物体执行文本提示视频分割(提示为“beyblade”，一种陀螺玩具)

绘制了当改变目标域中的训练数据时解耦方法相对于端到端基线模型的相对VPQ增加(VIPSeg)，常见/稀有类是训练集中标注最多的前50%或后50%的对象类别，在训练数据量较少时，本文方法的改进在稀有类别中最为显著(>60%)，这是因为本文的解耦方法允许使用外部的与类无关的时间传播数据，而现有的端到端基线方法一般无法使用这类数据

框架概览图，首先使用视频片段内共识(in-clip consensus)过滤图像级的分割结果，并在时间上向前传播此结果，为了在稍后的时间步合并新的图像分割(对于先前未见的对象，例如红色框)，将传播的结果与视频片段内共识合并

视频片段内共识的简单说明，顶部三个方块表示来自与时间t对齐的三个不同帧的对象提案建议，其中蓝色形状最受其他对象提案支持，并被选为输出，黄色形状不受任何支持，因此被排除为噪声，由于剩下的与所选的(蓝色)形状显著重叠，因此并未使用

使用相同的基础模型情况下的Video-K-Net和DEVA解耦方法的性能趋势比较，DEVA随着k的增大而减小得更慢，这表明所提出的解耦方法具有更好的长期传播

端到端方法(例如SOTA方法Video-K-Net)与DEVA在大规模视频全景分割数据集VIPSeg上的解耦方法的比较，本文方法可以使用更好的图像模型进行扩展，并且在考虑长期关联的情况下，在大k值的情况下表现得尤其好，所有的基线均使用官方代码库复制

开放世界视频分割数据集BURST中的基线进行比较，“com”代表“常见类”，“unc”代表“非常见类”，在DEVA使用Mask2Former作为常见类的图像骨干方法，使用EntitySeg作为不常见类的情况下，都表现更好，能够敏捷的切换图像主干是DEVA的主要优势之一

BURST数据集中的真实自然场景结果，DEVA甚至可以追踪小滑板手

使用实例:

—— 来自 S1Fun

Machinery · 发表于 2023-9-9 05:16

DoLa

通过对比层(Contrasting Layers)解码可提高大型语言模型的真实性

github项目主页:https://github.com/voidism/DoLa

尽管大型语言模型(LLM)的能力令人印象深刻，但它们也很容易产生幻觉，即生成的结果与预训练期间看到的事实所不同的内容

本文提出了一种简单的解码策略，通过预训练的LLM来减少幻觉，不需要使用检索到的外部知识作为条件，也不需要额外的微调

通过对比将后面的层与前面的层投影到词汇空间所获得的不同logits，利用LLM中的事实知识通常被证明局限于特定的Transformer层这一事实，来获得下一个Token分布

这种通过对比层解码(DoLa/Decoding by Contrasting Layers)方法能够更好地呈现事实知识并减少错误事实的产生，DoLa不断提高多项选择任务和开放式生成任务的真实性，例如将LLaMA系列模型在TruthfulQA上的性能提高了12-17%，展示了可靠地使LLM生成真实事实的潜力

基于Transformer的LM如何沿层逐步合并更多事实信息的图示，可以观察到，虽然“西雅图”的下一个单词概率在不同层中保持相似，但正确答案“奥林匹亚”的概率从较低层到较高层逐渐增加，DoLa利用这一事实并通过对比两层之间的差异进行解码，以提高LLM获得实际正确的输出的概率

最后第32层和偶数早期层之间的JS散度(Jensen–Shannon divergence)结果，列名称代表每个解码步骤中预测的下一个Token，行名称表示早期退出层的层索引，从第0层(词嵌入)到第30层

动态过早层选择(dynamic premature layer selection)如何进行处理的图示

TruthfulQA和FACTOR的多项选择题对比结果

TruthfulQA、StrategyQA和GSM8K上的开放式生成对比结果

GPT4判断的LLaMA+DoLa与LLaMA的比较

DoLa与DoLa-static具有不同的过早层

—— 来自 S1Fun

Machinery · 发表于 2023-9-12 06:12

CSPRD

中国股票政策检索数据集(Chinese Stock Policy Retrieval Dataset)

github项目数据集下载:https://github.com/noewangjy/csprd_dataset

在近些年，预训练语言模型 (PLMs) 取得了巨大的进展，引发了大量的研究焦点，并在密集段落检索的方法上取得了令人瞩目的性能，此方法旨在根据给定的问题从大型文献中检索相关段落

然而，大多数现有的数据集主要是用一般常识的事实性查询来评估模型的性能，而像金融和经济这样的专业领域由于缺乏大规模、高质量且带有专家注解的数据集而尚未被探索

在这项工作中，提出了一个新任务，即政策检索任务，为此构造了“中国股票政策检索数据集”(CSPRD)，其中提供了700多个由经验丰富的专家标注的招股说明书段落，这些段落与收集的中国政策文献中的10k+条目中的相关文章有关，对词汇、嵌入和微调的双编码器模型的实验显示了CSPRD的有效性，但也表明还有很大的改进潜力

在开发集上，表现最好的基线达到了56.1%的MRR@10，28.5%的NDCG@10，37.5%的Recall@10和80.6%的Precision@10

在CSPRD上执行的政策检索任务的演示插图，该数据集包含了700+条招股说明书段落，由经验丰富的专家仔细标记，并参考了上海证券交易所而收集的相关政策文章

标注过程概览图，经过数据处理后，收集到的招股说明书段落和政策文章被输入由无监督模型组成的混合专家(MoE)选择系统，每个招股说明书段落的Top20的排名政策文章被选为人工标注过程的推荐样本以供学习

CSPRD开发集上几种方法的检索基准性能，使用中文BERT编码器在约60GB的中文语料库上从头开始预训练RetroMAE，其中带有†的模型是使用DPR框架进行微调的

源文件来源

每篇政策文章匹配的招股说明书段落数量的分布

其他数据集相关统计数据:

—— 来自 S1Fun

		自动登录	找回密码
密码			立即注册

[科技] 开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源