开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

Machinery · 发表于 2023-7-22 06:46

本帖最后由 Machinery 于 2023-7-22 06:53 编辑

SciBench

评估大学水平的大型语言模型科学解决问题的能力

相关论文:https://arxiv.org/abs/2307.10635

github项目地址:https://github.com/mandyyyyii/scibench

最近的大型语言模型(LLM)的在许多数学基准上展现了显著的进步，然而，这些基准大多只针对初中和高中科目，仅包含多项选择题，并且仅限于有限的初等算术运算范围

为了解决这些问题，本文引入了一个扩展的基准测试套件SciBench，旨在系统地检查解决复杂科学问题所需的推理能力

SciBench 包含两个精心策划的数据集：一个开放集，具有来自数学、化学和物理教科书的一系列大学水平的科学问题，另一个封闭集，具有来自计算机科学和数学本科水平考试的问题

基于这两个数据集，对两个具有代表性的LLM采用各种激励策略进行了深入的基准研究。结果显示，目前的LLM成绩不佳，总分仅为35.80%

此外，通过详细的用户研究，将LLM所犯的错误分为十种解决问题的能力，分析表明，没有任何一种激励策略能够显著优于其他策略，并且一些显示出某些解决问题技能的改进的策略会导致其他技能的下降

物理化学的一个示例问题，以及在两种提示策略下生成的解决方案，具有思想链CoT提示的GPT-4计算错误，而提示Python作为外部工具的GPT-4会误解数学方程，错误以红色突出显示，更正以紫色显示

封闭考试数据集的统计数据，报告每次考试中的问题实例数量以及考试中包含详细解决方案的问题比例，进一步报告了不同格式的问题比例，包括自由回答、多项选择和判断题，作为参考，括号中的数字表示分配给问题的评分

其他相关评估结果

评估流程，包括在人工标注者的帮助下分析LLM和参考(正确)解决方案，以确定错误原因，然后将这些原因总结为LLM可能面临挑战的十项基本的科学问题解决技能

随后，LLM验证者会自动将每个错误回答的问题归因于缺乏特定技能，由此产生的错误概况可以通过某些提示策略来解释改进的技能以及直接比较各种策略

数据集分布:

六种设置下GPT-3.5在文本数据集上的错误概况，以及揭示了其十种基本解决问题能力的缺陷分布图

与其他类似数据集的相关比较:

—— 来自 S1Fun

Machinery · 发表于 2023-7-23 06:04

FreeWilly

指令微调模型

项目主页:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models

FreeWilly1增量模型权重:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly2模型权重:https://huggingface.co/stabilityai/FreeWilly2

Stability AI&CarperAI联合出品，FreeWilly1及其后继产品FreeWilly2，这是两个功能强大的开源微调LLM，两种模型在不同的基准测试中都表现出了卓越的推理能力

FreeWilly1模型基座为LLaMA 65B基础模型，使用标准Alpaca格式的监督微调(SFT)通过新的综合生成的数据集进行微调

FreeWilly2模型基座为LLaMA 2 70B，在某些任务上达到了与GPT-3.5相媲美的性能

两种模型都在并在非商业许可下发布以促进开放研究

FreeWilly系列模型的训练受到来自Microsoft的论文“Orca：从 GPT-4 的复杂解释轨迹中进行渐进式学习”中首创的方法的启发，虽然生成数据的过程相似，但数据源有所不同

为了评估这些模型，使用了EleutherAI的lm-eval-harness，并添加了AGIEval，两种FreeWilly模型在许多领域都表现出色，包括复杂的推理、理解语言的微妙之处以及回答与专业领域相关的复杂问题，例如解决法律和数学问题等

—— 来自 S1Fun

Machinery · 发表于 2023-7-24 02:13

L-Eval

为长上下文语言模型建立标准化评估

github项目地址:https://github.com/OpenLMLab/LEval

最近，人们对有效地处理单轮长输入(例如总结论文)或者具有更广泛历史记录的对话聊天，扩展指令跟随模型的上下文长度越来越感兴趣

虽然GPT-4和Claude等专有模型在处理数以万计的上下文Token方面表现出了相当大的进步，但开源模型依然仍处于实验的早期阶段

目前尚不清楚，与基于检索的方法或仅在分块上下文上训练的模型相比，开发这些长上下文模型是否可以为实际下游任务带来实质性收益

为了应对这一挑战，本文研究组建议对长上下文语言模型进行标准化评估，因此构建了L-Eval，一个包含411个长文档和2000多个查询-响应对，由作者手动标注和检查，涵盖法律、金融、学校讲座、冗长对话、新闻、长篇小说和会议等领域的数据集

L-Eval还采用了多样化的评估方法和指导风格，能够更可靠地评估长上下文语言模型(LCLM/Long Context Language Models)，研究结果表明，虽然开源模型通常落后于商业模型，但它们仍然表现出令人印象深刻的性能

LLaMA2在仅4k上下文长度的开放式任务上取得了最佳结果(与Turbo-16k相比，获胜率45%)，而ChatGLM2在具有8k输入标记的封闭式任务上取得了最佳结果

该表显示了L-Eval数据集的统计数据，data-name表示数据集的名称，Instruction-style表示数据集中的任务类型或指令风格，#samples表示样本数量，#insts表示为每个样本提供的指令数量，doc-len表示文档输入的平均长度，inst-len表示为每个样本提供的指令的平均长度，Ans-len对应于数据集中每个样本的预期输出的平均长度

对于当前LCLM的5个子任务的考试评估，Ret表示是否对基本模型使用基于检索的算法，Tokens表示模型的输入token的数量，为了评估进一步微调的有效性，使用不同的输入长度

L-Eval开放式生成任务的不同模型与Turbo-16k-0613的比较的总体结果，Turbo3.5是一个有偏见的评估器，更喜欢长答案，因此，如果您有GPT-4 API，研究组建议最好不要使用Turbo3.5评估器评估生成结果

各种模型在不同数据集上的F1分数

各种模型在基于查询的摘要和生成任务上的性能

各种模型在长文档摘要任务上的性能

L-Eval的人工标注流程界面

—— 来自 S1Fun

Machinery · 发表于 2023-7-24 08:09

OBJECT/3DIT

语言引导3D感知(Language-guided 3D-aware)图像编辑

项目主页:https://prior.allenai.org/projects/object-edit

现有的图像编辑工具虽然功能强大，但通常会忽略投影图像潜在的3D几何，因此，使用这些工具进行编辑可能会脱离图像形成过程中基础的几何形状和照明条件

在这项工作中提出了语言引导3D感知编辑的新要求，要求图像中的对象应该遵循潜在的3D场景上下文进行语言指令编辑

为了促进实现这一目标的进展，本文发布了OBJECT：一个数据集，包含根据程序生成的3D场景创建的40万个编辑示例，每个示例由输入图像、语言编辑指令和编辑后的图像组成

同时介绍了3DIT：用于四个编辑任务的单任务和多任务模型，模型显示出令人印象深刻的能力，可以理解整个场景的3D组成，并考虑周围的物体、表面、照明条件、阴影和物理上合理的物体配置

令人惊讶的是，仅对来自OBJECT的合成场景进行训练，3DIT的编辑功能可以推广到现实世界的图像编辑

除了提供精确的旋转角度或图像上的点位置等数字信息之外，还允许用户使用自然语言描述来指定要编辑的对象，直观的语言界面与编辑的精确几何控制的结合产生了一个易于使用但具有高度表现力和可控性的编辑系统

从3DIT生成的示例以及OBJECT基准测试中四个任务中每一个任务的基线结果

使用生成的样本进行定量评估，对于每种方法，每个测试图像生成四个样本，根据PSNR指标选择最佳图像来代表每个样本，并对这些值在样本之间进行平均，为了确保指标集中在变换后的对象上，而不是大部分保持不变的背景上，指标是使用变换后的周围区域对象蒙版来计算的

3DIT处理3D感知图像编辑的各种挑战的能力，例如：透视尺寸变化、综合生成新视点图片、生成遮挡区域、在渲染对象及其阴影时考虑场景照明

人工评估的结果，评估者对根据几何精度和3D照明一致性评估的3DIT的偏好，由于基线方法维持几何质量和照明一致性的能力有限，因此很少受到青睐

3DIT能够推广到现实世界，同时仅在合成数据集上进行训练，在图示中为四个编辑任务中的每一个显示不同的提示

—— 来自 S1Fun

Machinery · 发表于 2023-7-24 08:29

本帖最后由 Machinery 于 2023-7-26 10:02 编辑

CNOS

基于CAD的新型对象分割模型，强大的基线对比效果

github项目地址库：https://github.com/nv-nguyen/cnos

本文提出了一种简单的三阶段方法，使用CAD模型来分割RGB图像中的未见对象

利用最新强大的基础模型DINOv2和Segment Anything，构造描述符并生成提案，包括给定输入的RGB图像的二元掩码(binary mask)

通过将提案与CAD模型创建的参考描述符进行匹配，实现了精确的对象ID分配以及模态掩码

通过实验证明，本文方法在基于CAD的新型对象分割方面取得了SOTA结果，使用相同的BOP评估规则，在BOP挑战的七个核心数据集上超过了现有方法19.8%

CNOS是一种简单的三阶段方法，用于基于CAD的新型对象分割，基于Segmenting Anything与DINOv2，可用于任何对象而无需重新训练，CNOS优于在目标对象上训练的有监督MaskRCNN模型(在CosyPose中)，CNOS已被用作2023年BOP challenge 2023中任务5和任务6的基线

方法概述，给定运行时的一组CAD模型和RGB图像，首先渲染一组模板并提取它们的视觉描述符，然后使用提案网络来分割2D图像中所有可能的对象，并使用相同的描述符网络提取它们的视觉描述符，最后使用余弦相似度来匹配这两组描述符，并应用视图聚合和argmax为每个提案分配一个对象ID

使用 Pyrender渲染的Linemod数据集中“benchwise”对象模板的可视化，展示了从正二十面体定义的视点渲染的42个模板，以实现有效的模板匹配

相关对比评估结果

一些实例：

—— 来自 S1Fun

Machinery · 发表于 2023-7-25 01:22

本帖最后由 Machinery 于 2023-7-25 01:38 编辑

Subject-Diffusion

开放域个性化文本到图像生成，无需测试时微调

项目主页:https://oppo-mente-lab.github.io/subject_diffusion/

github项目地址:https://github.com/OPPO-Mente-Lab/Subject-Diffusion

使用扩散模型生成个性化图像的最新进展非常迅速，然而开放域和非微调个性化图像生成领域的发展进展相当缓慢

在本文中提出了主题扩散(Subject-Diffusion)，一种新颖的开放域个性化图像生成模型，除了不需要在测试时微调之外，同时支持单张参考图像即可生成任何特定领域的单个或多主题的个性化图像

首先构建了一个自动数据标记工具，使用LAION-Aesthetics数据集构建了一个由76M个图像及其相应的主题检测边界框、分割掩码和文本描述组成的大规模数据集

其次设计了一个新的统一框架，使用粗糙定位和细粒度参考图像控制来结合文本和图像语义，以最大限度地提高主题保真度和泛化能力

此外还采用注意力控制机制来支持多主题主体生成，广泛的定性和定量结果表明，Subject-Diffusion在单个、多个和人类定制图像生成方面优于其他SOTA框架

生成训练数据的过程涉及以下步骤：首先利用BLIP-2为输入图像提供标题，然后使用spaCy从标题句子(caption sentence)的整段里提取每个单词作为标签，提取的标签用作Grounding DINO的输入，以获得每个物体的检测框，然后用作SAM获取相应物体分割掩码的提示，最终所有模态组合成结构化数据以生成多模态数据集

所提出的基于稳定扩散结构的Subject-Diffusion方法概览图

对于图像潜在部分，将图像掩码lm连接到图像潜在特征zt，在多个对象的情况下，将多对象图像掩码叠加

然后组合的潜在特征zt用作UNet的输入，对于文本条件部分，首先构造一个特殊的提示模板，然后在文本编码器的嵌入层，使用分割图像的“CLS”嵌入来替换相应的token嵌入

此外，通过常规控制处理这些嵌入的交叉注意力图，以及实际图像分割图的图像

在融合部分，分割图像的区块嵌入(patch embeddings)和边界框坐标信息被集成用来训练类似UNet的单独层网络

相关使用实例与超参数、评估结果以及与其他方法的对比:

—— 来自 S1Fun

Machinery · 发表于 2023-7-25 07:18

OxfordTVG-HIC

从图像中制作幽默的字幕说明

项目主页:https://torrvision.com/tvghic/

数据集下载地址:https://drive.google.com/drive/folders/1BDuUcMeaWrFD8TwgHLhFPkuAwmoHaVNQ

github项目主页:https://github.com/runjiali-rl/Oxford_HIC

本文介绍了OxfordTVG-HIC(幽默图像字幕/Humorous Image Captions)，这是一个用于幽默文本生成和理解的大型数据集

幽默是一种抽象的、主观的、依赖于情境的认知结构，涉及多种认知因素，使其生成和解释成为一项具有挑战性的任务

因此，幽默的生成和理解可以作为评估深度学习方法处理抽象和主观信息能力的新任务，由于数据稀缺，与幽默相关的生成任务(例如字幕说明)仍未得到充分探索，为了弥补这一差距，在本文中引入了OxfordTVG-HIC，一个提供了大约290万个带有幽默分数标注的图像文本对数据集，以训练通用的幽默字幕模型

与现有的字幕数据集相反，OxfordTVG-HIC具有广泛的情感和语义多样性，导致脱离上下文的示例特别有利于产生幽默，此外，OxfordTVG-HIC的构造不涉及任何攻击性内容，同时还展示了如何利用OxfordTVG-HIC来评估生成文本的幽默感

通过对训练模型的可解释性分析，确定了对引发幽默预测(和生成)有影响的视觉和语言线索，定性地观察到，这些观察结果与认知心理学中幽默的良性冲突理论(benign violation theory of humour)相一致

来自 OxfordTVG-HIC和COCO的图像文本样本，在OxfordTVG-HIC中，猫图像的说明文字并不描述猫的身体特征，而是描述可能引发猫面部表情的情况，这些情况会产生幽默的表达效果，因为它们并不具有冒犯性，也没有违反观众的日常生活期望(良性冲突理论)，另一方面，COCO中类似猫图像的标题明确描述了图像中的事实

与其他数据集的对比

OxfordTVG-HIC 在每张图像的字幕数量的均值和方差方面比其他图像字幕数据集大得多

数据集的情感与语法模式分析

通过不同损失所训练的模型在未见图像上生成的说明文字，位置条件损失生成的字幕呈现为蓝色，从中可以发现位置条件损失有效解决了交叉熵多样性有限的问题

评估其他数据集的幽默分数等

注意力热力图与可视化梯度分析

生成实例:

以及失败案例:

—— 来自 S1Fun

3233 · 发表于 2023-7-25 11:36

这帖子终于又能看了，贴主辛苦

Machinery · 发表于 2023-7-26 01:25

3D-LLM

将3D世界注入大型语言模型

项目主页:https://vis-www.cs.umass.edu/3dllm/

github项目仓库:https://github.com/UMass-Foundation-Model/3D-LLM

大型语言模型 (LLM) 和视觉语言模型 (VLM) 已被证明在多项任务上表现出色，例如常识推理等

尽管这些模型非常强大，但它们并不以3D物理世界为基础，而3D物理世界中涉及更丰富的概念，例如空间关系、可供性(affordances)、物理、布局等，在这项工作中，通过将3D世界注入大型语言模型中，引入了全新的3D-LLM系列

具体来说，3D-LLM可以将3D点云及其特征作为输入，并执行各种3D相关任务，包括字幕、密集字幕、3D问答、任务分解、3D基准(grounding)、3D辅助对话、导航等，使用设计的三种类型的提示机制，收集超过30万个涵盖这些任务的3D语言数据(3D-language data)

为了有效地训练3D-LLM，首先利用3D特征提取器从渲染的多视图图像中获取3D特征，然后使用2D VLM模型(Visual language model)作为骨干来训练3D-LLM，通过引入3D定位机制，3D-LLM可以更好地捕获3D空间信息

ScanQA上的实验表明，本文方法的模型大幅优于SOTA基线(例如BLEU-1分数超过前SOTA分数9%)，此外，对保留的3D字幕、任务组合和3D辅助对话数据集进行的实验表明，本文方法的模型优于2D VLM，定性示例还表明模型可以执行超出现有LLM和VLM范围的更多任务

3D语言数据(3D-language data)生成流程

3D-LLM框架概览图，前两列显示了3D特征提取器，首先从3D场景中渲染一些多视图图像，提取2D密集特征，然后使用三种方法从这些多视图图像构建3D特征，随后3D特征和输入语言提示被输入到3D-LLM以生成响应，还使用了一种3D定位机制，以更好地捕获3D空间信息

相关评估对比结果:

对象导航的可视化与使用实例:

—— 来自 S1Fun

Machinery · 发表于 2023-7-26 01:53

本帖最后由 Machinery 于 2023-7-26 01:57 编辑

Encyclopedic VQA

细粒度类别的详细属性的视觉提问

github项目地址:https://github.com/google-research/google-research/tree/master/encyclopedic_vqa

Encyclopedic-VQA是一个大规模视觉问答(VQA)数据集，包含实例使用有关的细粒度类别的详细属性的视觉问题样本

它包含221k个独特的问题+答案对，每个问题+答案与(最多5个)图像相匹配，从而产生总共1M个VQA样本

此外，本数据集还附带来自wiki的受控知识库，标记了支持每个答案的证据，实验中发现Encyclopedic VQA数据集对大型视觉+语言模型提出了严峻的挑战，因为这些模型在数据集上表现均为不佳：PaLI是OK-VQA的SOTA模型，但它在本文数据集上仅达到了13.0%的准确率

此外，通过实验表明，使用从知识库检索相关信息的机制来增强大型模型，可以在回答百科全书式问题方面取得进展，具有完美检索的预言实验(oracle experiment)在Encyclopedic VQA数据集的单跳部分上实现了87.0%的准确率，而自动检索增强原型的准确率为48.8%

数据收集流程模板并自动化生成单跳问题:

使用桥接的实体生成双跳问题的图示:

数据集分析、问题分布、以及OK-VAQ的SOTA模型PALI的成绩:

单跳问题测试准确率，以及一些测试实例:

Encyclopedic VQA全面样本情况分析表:

—— 来自 S1Fun

Machinery · 发表于 2023-7-26 09:06

本帖最后由 Machinery 于 2023-7-27 01:19 编辑

interpolation

使用扩散模型在给定图像对之间进行平滑的插值生成

项目主页:https://clintonjwang.github.io/interpolation

github项目地址:https://github.com/clintonjwang/ControlNet

图像生成和编辑的一个鲜为人知的前沿领域是在给定的两个输入图像之间进行平滑插值(interpolating between two input images)生成的任务，这是当前部署的所有图像生成工作流程中都缺少的功能

这样的特性可以扩展此类模型的创造性应用，并提出了一种使用潜在扩散模型进行零样本插值图像生成的方法

以一系列降低噪声水平的序列在潜在空间中应用插值，然后根据从文本反转(textual inversion)和可选的主体姿势(subject poses)衍生的插值文本嵌入(interpolated text embeddings)进行去噪，为了获得更高的图像一致性或指定其他标准，可以生成多个候选图像并使用CLIP来选择最高质量的图像

在不同的主体姿势、图像风格和图像内容中获得了令人信服的平滑插值，并表明诸如FID等标准定量指标不足以衡量图像插值的生成质量

姿势调节可以减轻相邻帧之间姿势突然变化的发生，即使预测姿势不正确也是如此

当输入图像被风格化时，OpenPose无法生成高置信度的姿势，因此首先使用潜在扩散模型执行图像到图像的转换，在应用OpenPose之前将输入图像转换为照片风格，即使转换后的图像质量较低，通常依然可以成功

不同插值方案的比较，从输入图像导出的潜在图像添加噪声，并对插值的潜在图像进行去噪以生成输出帧，与其他类似于alpha混合(resemble alpha blending)的方法相比，这种方法达成了从人到山之间更令人信服的语义转换效果

失败案例，本文方法在弥合风格、语义或布局方面的巨大差距面前依然有所局限

使用实例:

—— 来自 S1Fun

Machinery · 发表于 2023-7-26 09:55

RippleEdits

评估语言模型中知识编辑的连锁效应

github项目仓库:https://github.com/edenbiran/RippleEdits/

现代语言模型以庞大的大小捕获了大量事实知识，然而随着时间的推移，一些事实可能会被错误地归纳或变得过时，从而导致事实上不正确的生成结果，这导致了各种知识编辑方法的发展，这些方法允许更新模型已经编码在参数内的事实

对这些方法的评估主要集中于测试单个事实是否已成功注入，以及对其他受测试的类似预测是否改变，这种评估实际上是有限的，因为注入一个事实后，会以模型需要更新其他事实的形式引入“连锁效应(Ripple Effects)”

为了解决这个问题，本文提出了一套新颖的评估标准，考虑了编辑对相关事实的影响，然后使用这些标准构建了ripple，一个基于5K事实编辑的判断基准，可以捕获各种类型的连锁效应

在ripple上评估了各种知识编辑方法，表明当前方法未能在模型知识中引入一致变化，此外，还发现了一个简单的上下文编辑基线在基准测试中获得了最好的分数，这表明了当前模型知识编辑的一个有前途的研究方向

与现有知识编辑基准相比，RippleEdits的评估范围图示，对于给定的事实编辑，需要考虑编辑对于模型知识的“连锁效应”

6个评估标准的测试示例，编辑自身模拟为向实体prince添加节点(sibling)，并在每个条件的顶部显示一个粗体箭头，在节点关系上显示一个编辑符号

对于每个测试，输入主题显示为蓝色，目标对象显示为绿色，其他节点显示为橙色，边的颜色源自其目标节点

对于Logical Generalization，需要插入知识图谱的附加事实，在关系旁边显示有编辑符号

对于Compositions I和Composition II，模型需要跳过编辑才能到达目标

在Subject Aliasing中，验证编辑是否也会传播到输入的释义

在Forgetfulness中，验证在必要关系中共享输入主题和关系的其他目标，会不会被遗忘

在Relation Specificity中，验证主题的其他关系有没有被修改

为以下修改编辑生成RippleEdits测试的图示:(Bill Gates, Spouse, Melinda Gates) → (Bill Gates, Spouse, Ricciarda Cybo Malaspina)

首先从知识图谱中采样原始事实，对于修改编辑，通过选择与原始对象共享相同类型的对象来创建反事实修改，主要步骤为通过使用知识图谱和采样应保留或修改的新三元组来生成评估测试，进行后期编辑，最后利用预定义的模板将知识图谱三元组翻译为自然语言短语

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-26 10:35

Decomposition Faithfulness

问题分解提高了模型生成推理的可信度

相关论文:https://arxiv.org/abs/2307.11768

github项目仓库:https://github.com/anthropics/DecompositionFaithfulnessPaper

随着大型语言模型(LLM)执行更困难的任务，验证其行为的正确性和安全性变得更加困难，帮助解决这个问题的一种方法是促使LLM将他们的推理具体化，例如，让他们在回答问题时生成逐步推理(思想链/CoT)

推理可以使我们检查模型用于执行任务的过程，然而这种方法依赖于模型，需要实际推理中的陈述推理忠实依赖于实际情况，但现实则并非总是如此

为了提高CoT推理的准确性，可以让模型通过将问题分解为子问题来生成推理，基于分解的方法在问答任务上实现了强大的性能，有时接近CoT，同时提高了模型在最近提出的几个指标上陈述的推理的可信度

通过强制模型在不同的上下文中回答更简单的子问题，远远提高了模型生成推理相对于CoT的忠实度，同时仍然实现了CoT的一些性能提升

结果表明，提高模型生成推理的可信度是可能的，持续的改进将使我们能够通过推理验证LLM行为的正确性和安全性

思维链、思维链分解和事实分解的问答表现和可信度得分的帕累托边界(Pareto frontier)，每种方法都使用了带有高质量演示的少样本提示，基于分解的方法在研究的任务中取得了良好的性能，同时生成推理步骤，这些步骤更忠实地解释了为什么语言模型会这样回答

本文研究的每种方法的高级概览图(省略了一些格式)，用于提示模型在回答问题之前生成推理，还为每种方法使用说明和少样本提示

思维链由模型在预测最终答案之前在一次采样调用中生成的逐步推理组成，思维链分解则包括在一次采样调用中生成一系列更简单的子问题及其各自的答案，形式上类似于思维链，然后再预测最终答案

事实分解还会生成子问题和答案，但会在新的上下文中回答每个子问题，分解降低了模型使用原始问题中的虚假信息回答子问题的可能性，使模型的推理更忠实可信

推理生成方法的性能和可信度，思维链实现了最佳的问答准确性，而事实分解实现了最佳的推理可信度，所有指标都是四项问答任务的平均值

prompt格式和中间过程展示

在四项任务的评估中使用每种提示策略的模型的基线问答准确性，事实分解优于零样本和少样本基线，并且思想链和思想链分解实现了最强的性能，推理生成方法在HotpotQA和StrategyQA上的表现优于零样本/少样本，这两个任务最适合逐步推理或问题分解

一些相关推理性能的评估指标结果:

—— 来自 S1Fun

lvcha · 发表于 2023-7-26 15:25

提示: 作者被禁止或删除内容自动屏蔽

Machinery · 发表于 2023-7-26 15:42

本帖最后由 Machinery 于 2023-7-26 15:50 编辑

lvcha 发表于 2023-7-26 15:25
打扰，借楼请教一下。
我门外汉，只稍微懂一点深度学习。

有几个选择可以解决这个问题，比如考虑用别人调好的本地代码模型或者api模型(比如:https://gorilla.cs.berkeley.edu/)，之后提示里提供给模型一些描述样本，用few shot生成或者配上类似jsonformer之类的约束生成插件，也可以自己准备标注好的样本或者数据配合很多开源微调框架直接调模型

也可以用langchain之类的开源工具，向量数据库啥的给模型做api指导，基本都是可以本地搞定的

总体来说效果不会很理想，要理想一定需要花大功夫

—— 来自 S1Fun

fufusako · 发表于 2023-7-26 16:51

Machinery 发表于 2023-7-26 09:06
interpolation

使用扩散模型在给定图像对之间进行平滑的插值生成

虽然是用了AI识别再生成，但这效果好像还不如用补帧软件啊

要是能给出一个流畅的在两个动作间切换的样例就好了，不过我估计做不到，给的成功例子都什么鬼

Machinery · 发表于 2023-7-27 00:56

LoraHub

通过动态的LoRA组合实现高效的跨任务泛化能力

github项目地址(待整理):https://github.com/sail-sg/lorahub

LoRA模块可通过以下网址访问获取:https://www.huggingface.co/models?search=lorahub

低秩适应(LoRA/Low-rank adaptations)通常用于在下游任务中针对性微调大型语言模型(LLM)，本文研究了LoRA跨任务泛化的可组合性，并提出了LoraHub，一种策略式框架，旨在有目的性的集成经过不同给定任务训练的LoRA模块，框架目标是在模型未见任务上实现高适应力的能力表现

只需举几个新任务的例子，LoraHub就可以实现多个LoRA模块的流畅组合，从而消除了对人类专业知识的需求，最关键的是，这种组合既不需要额外的模型参数也不需要梯度

从Big-Bench Hard (BBH)基准得出的实证结果表明，LoraHub可以有效地模仿少样本场景中的上下文学习能力，排除了在每个推理输入中使用上下文示例的必要性

本文研究的其中一个重大贡献是LoRA社区，用户可以在其中分享他们训练的LoRA模块，从而促进使用这些模块应用于新任务

预计该资源将促进通用智能的提升以及对于LLM发展做出重大帮助

零样本学习、少样本上下文学习和少样本LoraHub学习(本文方法)的图示，请注意，Compose过程是按任务而不是按示例执行的，LoraHub实现了与零样本学习类似的推理吞吐量，但在BIG-Bench Hard (BBH)基准上实现了接近少样本上下文学习的性能

LoraHub包含两阶段，COMPOSE阶段和ADAPT阶段：
1.在COMPOSE阶段，现有的LoRA模块被集成到一个统一的模块中，使用一组权重(表示为w)作为系数

2.在ADAPT阶段，合并的LoRA模块根据来自未见任务的几个示例进行评估，随后，应用无梯度算法来细化w，执行K次迭代后，会生成一个高度适应性的LoRA模块，该模块可以与LLM合并来执行预期的任务

零样本学习 (Zero)、少样本上下文学习(ICL)和少样本LoraHub学习之间的性能比较分析，在比较成绩中，为每个任务使用5个示例作为ICL和LoraHub的少样本演示，LoraHub的平均(avg)性能是通过使用不同随机种子的5次不同运行计算得出的，而最佳(best)性能则报告为这些运行中获得的最大值

这三幅图显示了传统微调 (FFT)、LoRA微调(LoRA)和LoraHub学习(Ours)在不同数量的任务演示示例中的性能比较，x轴表示示例数量，y轴表示任务性能，使用精确匹配的指标进行量化，如结果所示，当未见过的任务的可用示例少于20个时，LoraHub可能会优于lora调整

—— 来自 S1Fun

thallium · 发表于 2023-7-27 01:00

提示: 作者被禁止或删除内容自动屏蔽

Machinery · 发表于 2023-7-27 01:44

本帖最后由 Machinery 于 2023-7-27 01:46 编辑

ARB

大型语言模型的高级推理基准测试集

项目主页:https://arb.duckai.org/

github项目代码库:https://github.com/TheDuckAI/arb

测试问题样例(不包含测试集):https://arb.duckai.org/home

大型语言模型(LLM)在各种定量推理和知识基准测试中表现出了卓越的性能，然而随着LLM获得的分数越来越高，尽管尚未达到这些领域的人类专家级表现，但其中许多基准正在失去实用性

本文介绍ARB(Advanced Reasoning Benchmark)，一种由多个领域的高级推理问题组成的新基准，ARB提出了比之前的基准更具挑战性的测试问题，其中包含数学、物理、生物、化学和法律方面

作为ARB的子集，引入了一组具有挑战性的数学和物理问题，这些问题需要高级符号象征推理和深度的领域知识理解，在ARB上评估了最新的模型，例如GPT-4和Claude等，证明当前模型在很多要求严格的任务上的得分远低于50%

为了提高自动和辅助评估能力，引入了基于评分标准的评估方法，允许GPT-4对其自己的中间推理步骤进行评分，还对ARB的困难符号推理子集进行了人工评估，发现标注者与GPT-4的评估分数之间有希望达成一致性

按领域划分的基准测试数据集中的问题类型

ARB基准自动评分组件的模型准确率

GPT-4在ARB中的数学和物理问题的错误

—— 来自 S1Fun

Machinery · 发表于 2023-7-27 23:14

本帖最后由 Machinery 于 2023-7-27 23:15 编辑

WavJourney

使用大型语言模型进行合成音频创作

项目主页:https://audio-agi.github.io/WavJourney_demopage/

github项目代码库:https://github.com/Audio-AGI/WavJourney

大型语言模型(LLM)通过集成不同的专家模型来解决错综复杂的语言和视觉任务方面显示出了巨大的潜力，尽管它们在推进人工智能生成内容(AIGC)领域具有重要意义，但它们在智能生成音频内容方面的潜力仍未得到开发

在这项工作中，解决了在文本指令的指导下创建含有语音、音乐和音效的故事情节的音频内容的问题，WavJourney，一个利用LLM连接各种音频模型进而生成音频内容的系统

给定听觉场景的文本描述，WavJourney首先提示LLM生成用于音频讲故事的结构化脚本，音频脚本基于空间关系组织不同的音频元素，作为音频的概念化表现，音频脚本为人类创作者提供了交互式和可解释的基本原理，之后，音频脚本被输入脚本编译器，将其转换为计算机程序，程序的每一行都调用特定于任务的音频生成模型或计算操作函数(例如接续、混合等操作)，然后执行程序以获得可解释的音频生成解决方案

展示了WavJourney在各种现实世界场景中的实用性，包括科幻小说、教育和广播剧等，WavJourney的可解释性和交互性设计促进了多轮对话中的人机协同创作，增强了音频制作中的创意控制和适应性

WavJourney的概览图，LLM首先被提示成为一名音频剧本作家，而作为音频的概念表现，音频脚本为用户提供了交互式且可解释的界面，然后使用脚本编译器来编译音频脚本并作为计算机程序执行，执行过程也可以由一组专家音频生成模型提供支持，图中示例说明了一个科幻小说场景的创作

—— 来自 S1Fun

Machinery · 发表于 2023-7-27 23:31

本帖最后由 Machinery 于 2023-7-27 23:35 编辑

WebArena

用于构建自治自主代理浏览的现实Web环境

项目主页:https://webarena.dev/

github项目地址:https://github.com/web-arena-x/webarena

测试数据集:https://github.com/web-arena-x/webarena/blob/main/config_files/test.raw.json

随着生成式人工智能的进步，自主代理通过自然语言命令管理日常任务的令人兴奋的潜力已经显现，然而，当前的代理主要是在简化的合成环境中创建和测试的，这远远限制了现实世界的场景表现

在本文中，构建了一个高度真实且可重复的代理命令和控制环境，具体来说，本文专注于在网站上执行任务的自主代理，并创建一个具有四个常见领域的功能齐全的网站的环境：电子商务、社交论坛讨论、协作软件开发和内容管理

环境充满了工具(例如地图)和外部知识库(例如用户手册等)，以鼓励模型像人类一样解决任务，以WebArena环境为基础，构建了一组基准任务，重点在于评估任务完成的功能正确性

基准测试中的任务是多样化的、长期的，旨在模拟人类在互联网上日常执行的任务，本文设计并实现了多个自主代理，集成了行动前推理等最新技术

结果表明，解决复杂任务具有挑战性：其中最好的基于GPT-4的代理仅实现了10.59%的端到端任务成功率，这些结果凸显了进一步开发强大代理的必要性，当前最先进的LM在这些现实任务中的性能还远未达到完美，并且WebArena可以用来衡量这种进展

WebArena是一个独立的、可本地托管的Web环境，用于构建自主代理，WebArena创建了四个流行类别的网站，其功能和数据模仿了现实世界的同等内容

为了模拟人类解决问题的能力，WebArena还嵌入了工具和知识资源作为独立网站，WebArena引入了将高级现实自然语言命令解释为具体的基于网络的交互的基准，同时提供带注释的程序，旨在以编程方式验证每个任务的功能正确性

可以在WebArena中执行的全面的高级任务，完成此类任务需要复杂的长期规划和推理能力，为了实现所述的目标，代理需要通过搜索wiki来找出匹兹堡有哪些艺术博物馆，之后应该在地图上识别每个博物馆的位置，并根据收集的信息优化行程，最后，代理还需要使用计划的路线更新相应存储库中的README文件

将观察设计为网页的URL和内容，并提供将内容表示为屏幕截图、HTML DOM树和可访问树的选项，中图和右图的内容都被修剪以节省演示空间

在WebArena中可以进行的操作

WebArena内的资源与网站分类

两种评估方法与自主代理行动的评估成绩:

成功与失败的任务分布:

与其他类似基准的对比:

—— 来自 S1Fun

Machinery · 发表于 2023-7-27 23:51

本帖最后由 Machinery 于 2023-7-27 23:52 编辑

HQTrack

高质量追踪任何事物

github项目地址:https://github.com/jiawen-zhu/HQTrack

视觉对象跟踪是计算机视觉中的一项基本的计算机视频任务，最近感知算法的能力显著增强，使得单/多目标和基于框/掩码的跟踪得以统一，其中SAM模型(Segment Anything Model)备受关注

在本文中提出了HQTrack，一个用于高质量跟踪视频中任何内容的框架，HQTrack主要由视频多对象分割器(VMOS/video multi-object segmenter)和掩码细化器(MR/mask refiner)组成

给定视频初始帧中要跟踪的对象，VMOS会将对象掩码传播到当前帧，此阶段的掩码结果尚且不够准确，因为VMOS是在几个较为接近的视频对象分割(VOS)数据集上进行训练的，其泛化到复杂场景和角落场景的能力有限

为了进一步提高跟踪掩码的质量，采用了预训练的MR模型来细化跟踪结果，作为对范式有效性的证明，在不使用任何测试时数据增强和模型集成等技巧的情况下，HQTrack在视觉对象跟踪和分割(VOTS2023/Visual Object Tracking and Segmentation)挑战中达成了第二名

HQTrack框架概览图:

消融实验测试:

评估结果:

github页面:

—— 来自 S1Fun

Machinery · 发表于 2023-7-28 01:08

FacTool

生成式人工智能中的事实检测，多任务和多领域场景的增强工具框架

github项目仓库:https://github.com/GAIR-NLP/factool

生成式预训练模型的出现促进了高质量文本的合成，但也给识别生成文本中的事实错误带来了挑战

特别是，现在更广泛的任务在由生成模型处理时面临着越来越大的包含事实错误的风险，同时生成的文本往往很长，并且缺乏对各个事实的明确定义的粒度，以及缺乏明确证据的事实核查过程

考虑到上述挑战，提出了FacTool，这是一种与任务和领域无关的框架，用于检测大型语言模型(例如ChatGPT等)生成的文本的事实错误，对四种不同任务(基于知识的QA、代码生成、数学推理和科学文献分析)的实验都表明了该方法的有效性

已发布的事实性检测方法在生成的响应和基于收集的证据进行验证的声明方面的比较， “scenario”代表相应方法已被证明是合理的任务和领域，其中“sci”代表科学

不同任务的事实错误定义

提出的四个领域的事实检测框架：基于知识的QA、代码生成、数学问题解决和科学文献分析写作

用于检测代码生成中的事实错误的单元测试库生成

相关数据与评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-28 01:17

StableSwarmUI

Emad推荐的Stability官方ALPHA版本Webui竞品(而且更适合SDXL)

github项目主页:https://github.com/Stability-AI/StableSwarmUI

—— 来自 S1Fun

Machinery · 发表于 2023-7-29 02:53

本帖最后由 Machinery 于 2023-7-29 02:55 编辑

PointOdyssey

用于长程点跟踪的大规模综合数据集

项目主页:https://pointodyssey.com/

gdrive数据集下载:https://drive.google.com/drive/folders/1AyoI_9fw-G1X1MYEmOBuTFnCjX6PjoH6?usp=drive_link

hugface数据集下载:https://huggingface.co/datasets/aharley/pointodyssey/tree/main

改进的pips方法的项目代码库:https://github.com/aharley/pips

PointOdyssey 是一个大规模合成数据集，用于训练和评估长程细粒度追踪算法，研究组的目标着重于通过具有自然运动(naturalistic motion)的长视频来推进SOTA技术，以匹配收集的人体动作数据3D扫描，在具有随机3D素材的室外场景以及精心构建的室内场景中重新利用人类和动物动作的捕捉数据实现的

通过随机多样化角色外观、运动轮廓、材质、照明、3D素材和天气效果来创造组合的多样性

数据集目前包含105个视频，平均长度为2000帧，对应的标注内容比之前的工作多了几个数量级，现有模型可以在PointOdyssey数据集中从头开始训练，表现优于已开源的其他变体

最后对PIPs点跟踪方法进行了修改，拓宽了其时间感受野，从而提高了其在PointOdyssey以及两个现实世界基准上的性能

与其他数据集的对比:

数据生成收集工作流程，利用真实人体捕捉数据的同时保证多样性:

PIPs点跟踪方法概览图：
上方:对于任何查询点pt，首先计算相似度代价体积(similarity cost volume)Cpt，通过利用局部背景下的信息特征并结合全局指导来保持一致和稳健的跟踪

下方：使用1D Resnet迭代更新位置轨迹

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-29 03:18

Take-A-Photo(TAP)

点云模型的3D到2D生成预训练

项目主页:https://tap.ivg-research.xyz

github项目地址:https://github.com/wangzy22/TAP

随着MAE引领的掩码图像建模的势不可挡的趋势，生成式预训练在提升2D视觉基础模型的性能方面表现出了巨大的潜力，然而在3D视觉中，对基于Transformer的主干的过度依赖以及点云的无序自然性限制了生成式预训练的进一步发展

在本文中提出了一种新颖的3D到2D生成预训练方法，适用于任何点云模型，通过交叉注意力机制从不同的指示姿态生成视图图像作为预训练方案，生成视图图像比点云对应物具有更精确的监督，从而可以帮助3D主干更好地理解点云的几何结构和立体关系

实验结果证明了3D到2D生成预训练相对于之前的预训练方法的优越性，本方法还可以有效指导了架构的性能提升方法，在对ScanObjectNN分类和ShapeNetPart分割任务进行微调时实现了SOTA性能

3D到2D生成预训练的原理流程，照片方法模块将姿态条件显式编码为来自主干模型的3D特征，2D生成器将姿态条件特征解码为不同的视图图像

TAP预训练方法的工作流程，首先设计了一个查询生成器来编码姿态条件并附加交叉注意力层，根据姿态条件将3D点云特征F3d转换为2D视图图像特征F2d，2D生成器预测的与姿势相关的视图图像通过MSE损失由基准真实(ground truth)视图图像进行监督训练

可视化的生成预训练样本效果图，第一行为TAP生成结果，第二行为基准真实图像:

相关评估结果:

消融实验:

—— 来自 S1Fun

Machinery · 发表于 2023-7-30 03:00

本帖最后由 Machinery 于 2023-7-30 03:13 编辑

peS2o

4000万篇规模的已清洗论文数据集，简介如下

github项目页:https://github.com/allenai/peS2o

hugface数据集地址:https://huggingface.co/datasets/allenai/peS2o

—— 来自 S1Fun

Machinery · 发表于 2023-7-30 03:06

TransGPT · 致远

TransGPT，国内首款开源交通大模型

github项目地址:https://github.com/DUOMO/TransGPT

模型权重下载:https://huggingface.co/DUOMO-Lab/TransGPT-v0

Demo1:https://bc18ebd4c22f6cfb17.gradio.live/

Demo2:https://d7a24e72c1e7f12d9e.gradio.live/

主要致力于在真实交通行业中发挥实际价值，能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能

—— 来自 S1Fun

Machinery · 发表于 2023-7-30 03:12

Llama2-Code-Interpreter

基于llama2的Code Interpreter(openai)复刻实现

github项目地址:https://github.com/SeungyounShin/Llama2-Code-Interpreter

—— 来自 S1Fun

Machinery · 发表于 2023-7-31 23:07

Med-Flamingo

多模态医疗小样本学习者

github项目地址:https://github.com/snap-stanford/med-flamingo

医学是一个多方面的领域，需要各种跨模态的综合信息处理，医学视觉语言生成模型(MVLMs/Medical generative vision-language models)朝这个方向迈出了第一步，并带来了许多令人兴奋的临床应用

然而，现有的模型通常必须在相当大的下游数据集上进行微调，这造成了很大的限制，因为在许多医疗应用中数据稀缺，这样就需要一种能够从少数示例中实时学习的模型

提出了Med-Flamingo，一种适用于医学领域的多模态少样本学习者，基于OpenFlamingo-9B，通过继续对来自出版物和教科书的配对的交错医学图像文本数据集进行预训练，Med-Flamingo解锁了少样本医学视觉问答生成(VQA/few-shot generative medical visual question answering)能力，在多个数据集上对其进行了评估，其中包括一个新颖的具有挑战性的视觉USMLE风格问题的开放VQA数据集

此外，对医学VQA生成进行了首次人类评估，医生在交互式应用程序中审查问题，在这个过程中模型进行匿名生成答案

Med-Flamingo在临床医生的评分中将生成医学VQA的性能提高了20%，并且首先实现了多模态医学少样本问题适应，例如基本原理生成等

Med-Flamingo通过文本和视觉信息生成开放式响应来回答复杂的多模态医学问题的示例

Med-Flamingo模型概览图与学习的三个步骤:
首先使用来自一般医学领域的配对交错图像文本数据(源自出版物和教科书)来预训练Med-Flamingo模型，在OpenFlamingo检查点初始化模型，继续对医学图像文本数据进行预训练

其次，执行少样本视觉问答生成(VQA)，为此利用了两个现有的医学VQA数据集和一个新的Visual USMLE风格数据集

最后与临床医生进行了一项人类评分研究，在给定图像、问题和正确答案的背景下对各种生成进行评分，人类评估是通过专用应用程序进行的，并产生临床评估分数，作为主要评估指标

MTB数据集的医学教材类别分布图，使用Claude-1模型将每个书名分类为49个手动创建的类别之一或“其他”类别

通过示例说明多模态医疗少样本提示，这里的少样本提示允许用户自定义响应格式，例如，为所提供的答案提供理由等，此外，多模态少样本提示也可以成为提供诸如从医学文献中检索到的相关上下文的能力

人类评分评估界面

相关基准指标评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-7-31 23:32

本帖最后由 Machinery 于 2023-7-31 23:33 编辑

Seal-3D

NERF(神经辐射场/Neural Radiance Fields)的交互式像素级编辑

项目主页:https://windingwind.github.io/seal-3d/

github项目仓库:https://github.com/windingwind/seal-3d/

随着隐式神经表征或神经辐射场(NeRF)的流行，迫切需要能够与隐式3D模型交互的编辑方法，以完成处理后重建场景和3D内容创建等任务

虽然之前的作品从不同角度探索了NeRF编辑方法，但它们在编辑灵活性、质量和速度方面受到限制，无法提供直接的编辑响应和即时预览效果，这其中最关键的挑战是构思一种本地可编辑的神经表征，它可以直接反映编辑指令并立即更新效果

为了弥合这之间的差距，提出了一种新的隐式表征交互式编辑方法和系统，称之为Seal-3D，它允许用户以像素级和自由的方式编辑NeRF模型，并具有广泛的类NeRF主干，可以立即编辑效果并预览

为了实现这些效果，提案的代理函数将编辑指令映射到NeRF模型的原始空间，以及具有局部预训练和全局微调的师生训练策略来解决这些挑战，NeRF编辑系统可以进行各种编辑类型，可以实现1秒级的交互速度来实现引人注目的编辑效果

第一个交互式像素级NeRF编辑工具，设计了一种交互式用户编辑方法和系统，Seal-3D，左图为通过新颖的预训练策略实现即时(小于1s)预览，通过短时间(1~2分钟)的微调，可以进一步获得高质量的编辑结果，右图为编辑工具的编辑结果与左上的原始表面上，其丰富的阴影细节在视图上一致

编辑框架图示，左方为用户编辑后目标空间的3D点和视图方向映射到原始空间，以从教师模型fTθ获取指导ct和σt，用于学生训练，右图为学生训练由两个阶段组成，快速预训练，通过局部损失更新网络的部分参数来提供即时预览，以及全局损失的微调

重建评估与对比结果:

全局微调效果与消融实验结果:

项目主页的样本预览:

—— 来自 S1Fun

Machinery · 发表于 2023-8-1 00:01

UnifiedInstructionTuning

探索指令微调的格式一致性

项目主页:https://github.com/thunlp/UnifiedInstructionTuning

指令微调已成为增强大型语言模型，使其遵循人类指令的有效方法，实验结果表明，增加训练数据中指令的多样性和数量可以持续增强泛化性能，这有助于最近收集各种指令并将现有指令调整数据集集成到更大的集合中，然而，不同的用户有其独特的指令表达方式，不同数据集的指令风格和格式往往存在差异，即格式不一致

在这项工作中，研究了格式不一致如何影响指令调整的性能，并提出了一个名为“统一指令微调”(UIT/Unified Instruction Tuning)的框架，它调用了OpenAI API在不同指令微调数据集之间自动进行格式转换

实验证明UIT成功地提高了未见指令的泛化性能，这凸显了格式一致性对于指令调优的重要性，为了使UIT框架更加实用，进一步提出了一种新颖的基于困惑度的去噪方法来降低自动格式转换的噪声

还训练了一个更小的离线模型，该模型实现了与 OpenAI API相当的格式转换能力，以降低实践成本

提议的格式转换框架，适用于两种设置情况：测试时传输和训练时传输，s1，····，sN表示原始指令格式的训练数据，t1，···，tN表示所有转换的目标格式的训练数据

具有代表性的不同格式指令微调数据集

使用UIT转换指令格式，现有的指令格式在不同的数据集上表现出差异，可以分为三种不同的异构格式：任务级别、实例级别和关键字级别，UIT利用种子并行数据(seed parallel data)自动进行不同格式之间的格式转换

使用GPT3.5进行格式转换的示例，其中使用3个并行示例提示模型生成第4个示例的目标指令

测试时格式转换与训练时格式转换的评估结果

不同样本数量的测试和训练时去噪策略的性能

相关评估结果:

实例演示:

—— 来自 S1Fun

Machinery · 发表于 2023-8-2 01:52

ToolLLM

使大型语言模型熟练掌握16000多个真实世界的API使用

github项目地址:https://github.com/OpenBMB/ToolBench.

尽管开源大型语言模型(LLM)及其变体(例如LLaMA和Vicuna)最近取得了很大进步，但它们在执行更高级别的任务方面仍然受到很大限制，例如遵循人类指令使用外部工具(API)，这是因为当前的指令调优主要集中在基本语言任务而不是工具使用领域，这与私有的SOTA LLM(例如ChatGPT等)形成鲜明对比，后者展示了出色的工具使用能力，但不幸的是闭源的

为了促进开源LLM的工具使用能力，引入了ToolLLM，这是一个数据构建、模型训练和评估的通用工具使用框架

首先介绍的是ToolBench，一个供工具使用的指令调整数据集，通过使用ChatGPT自动化创建的，具体来说，从RapidAPI Hub收集了16464个真实世界的RESTful API，涵盖49个类别，然后通过提示ChatGPT生成涉及这些API的各种人工指令，涵盖单工具和多工具场景，最后使用ChatGPT为每条指令搜索有效的解决方案路径，API调用链(chain of API calls)

为了使搜索过程更加高效，开发了一种新颖的基于深度优先搜索的决策树(DFSDT/depth-first search-based decision tree)，使LLM能够评估多个推理轨迹并扩展搜索空间，通过实验证明了DFSDT能够显著增强LLM的规划和推理能力

为了有效评估工具使用情况，开发了一个自动评估器：ToolEval，在ToolBench上微调LLaMA并获得ToolLLaMA，ToolEval表明ToolLLaMA表现出执行复杂指令和泛化到未见过的API的卓越能力，并且表现出了与ChatGPT相当的性能。

为了使工作流程更加实用，还设计了一个神经API检索器来为每条指令推荐合适的API，从而无需手动选择API

构建ToolBench的三个阶段以及如何训练API检索器和ToolLLaMA，在指令推理过程中，API检索器向ToolLLaMA推荐相关API，ToolLLaMA执行多轮API调用以得出最终答案，整个推理过程由ToolEval评估

工具使用评估中不同方法的通过率和胜率(越高越好)，对于胜率，将每种方法与ChatGPT-ReACT进行比较，DFSDT是在ReACT基础上改进的推理策略，ToolLLaMA超越了Text-Davinci-003，几乎与ChatGPT性能相当

ToolBench与用于工具学习的其他著名指令调整数据集的比较

左图为RapidAPI的层次结构，右图为指令生成过程

左图为模型推理过程中DFSDT与传统CoT或ReACT策略的比较，右图展示了使用ChatGPT的解决方案路径标注过程的一部分

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-8-2 02:10

LP-MusicCaps

基于大型语言模型的伪标签音乐字幕说明

github项目地址:https://github.com/seungheondoh/lp-music-caps

自动音乐字幕说明可以为给定的音乐曲目生成自然语言描述，在增强对大量音乐数据的理解与关系方面具有巨大的潜力，尽管这非常重要，但由于现有音乐语言数据集的收集过程成本高昂且耗时且规模有限，研究人员面临着挑战

为了解决这个数据稀缺问题，可以使用大型语言模型(LLM)从大规模标签数据集中人工生成描述句子，在这个过程中研究组生成了大约220万个字幕说明以及50万个音频片段，将其称为基于大型语言模型的伪标签音乐字幕说明数据集，简称LP-MusicCaps

使用自然语言处理和人类评估领域使用的各种定量评估指标对大规模伪标签音乐字幕说明数据集进行了系统评估，此外还使用数据集训练了基于Transformer的音乐字幕说明模型，并在零样本和迁移学习设置下对其进行了评估，结果表明，提出的方法优于监督的基线模型效果

通过向大型语言模型提供指令和手动标注标签来生成伪字幕的过程

数据集样本示例

提案的方法与其他伪标签生成方法的指标对比结果以及AB测试的正负平评估结果

与其他数据集的对比以及提案的Transformer跨模态模型架构

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-8-2 02:33

MovieChat

密集Token到稀疏记忆以实现长视频理解

项目主页:https://rese1f.github.io/MovieChat

github项目地址:https://github.com/rese1f/MovieChat

最近，通过集成视频基础模型和大型语言模型，可以构建视频理解系统克服特定的预定义视觉任务(specific pre-defined vision tasks)的限制，然而现有的系统只能处理帧数很少的视频，对于长视频，计算复杂性、显存成本和长态时间连续理解是依然需要克服的挑战

受Atkinson-Shiffrin记忆模型的启发，开发了一种记忆机制，包括快速更新的短期记忆和紧凑的持续长期记忆，通过在Transformer中使用Token作为记忆的载体，MovieChat 在长视频理解方面实现了SOTA性能

Y轴为千兆字节(GB)下的GPU显存成本与X轴的帧数对比，在224×224的分辨率下测试所有方法的仅视觉推理，无需帧采样，虽然之前的方法只能支持大约100帧的推理，但MovieChat可以在24GB显存显卡上处理超过10K帧的视频，在每帧GPU显存成本平均增加(每帧需要21.3KB到200MB)方面，MovieChat比其他方法有近10000倍的优势

MovieChat框架，通过使用滑动窗口方法(sliding window approach)来提取视频特征并以Token形式表征它们，然后将其按顺序逐帧输入到短期记忆中，短期记忆有固定的长度，当达到设定的限制时，最早的令牌将被弹出并合并到长期记忆中

总共设计了两种推理模式：全局模式，专门利用长期记忆；断点模式，额外将当前短期记忆作为视频表征的一部分，断点模式允许在特定时刻理解视频，最后经过投影层后，视频表征被输入到大型语言模型中用以与用户交互

使用样例:

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-8-2 11:36

本帖最后由 Machinery 于 2023-8-2 11:37 编辑

UnIVAL

图像、视频、音频与语言等任务的统合模型

github项目地址:https://github.com/mshukor/UnIVAL

大型语言模型(LLM)使得对通用智能代理的追求不再是一个幻想，构建此类通用模型的一个关键障碍是任务和模式的多样性和异质性(heterogeneity)

一种有希望的解决方案是统合，允许在一个统一的框架内支持无数的任务和模态，虽然在海量数据集上训练的大型模型(例如 Flamingo等)可以支持两种以上的模态，但当前的中小型统一模型仍然仅限于2种模态，通常是图像文本或视频文本

是否有可能有效地构建一个可以支持所有模态的统一模型？本文提出了UnIVAL，不依赖于繁多的数据集大小或数十亿参数的模型

不到0.25B参数的UnIVAL模型超越了两种模态，将文本、图像、视频和音频统一到一个模型中，模型本身基于任务平衡和多模态课程学习在许多任务上进行了有效的预训练

UnIVAL在跨图像和视频文本任务上对比现有SOTA方法具有竞争性能，可以从图像和视频文本模态中学习特征表征，尽管没有对音频进行预训练，但模型在音频文本任务上进行微调时依然实现了有竞争性的性能结果

得益于统合模型，提出了一项通过对不同多模态任务训练的模型进行权重插值来进行多模态模型合并的新研究，展示了它们对于分布外泛化的好处，最后还通过展示任务之间的协同作用来激励统合效果

UnIVAL模型构架，序列到序列模型统一了架构、任务、输入/输出格式和训练目标(下一个标记预测)，UnIVAL针对图像和视频文本任务进行了预训练，并且可以进行微调以处理预训练期间未使用的新模态(音频文本)和任务(文本到图像生成)

不同基础模型的比较，UnIVAL方法是在相对较小的数据集上进行预训练的，可以处理图像/视频/音频文本模态

多模态课程学习，在不同阶段对UnIVAL进行不同的预训练:
第一次预训练是在文本语料上进行经典语言模型的训练，第二阶段则是在图像和文本数据上训练模型以获得图像语言模型，第三阶段在视频文本数据上对模型进行额外训练，以获得视频图像语言模型，为了获得多模态统合模型，应该对模型进行多种模态的训练，按照此过程，UnIVAL最终可用于解决图像/视频/音频文本任务

多模态课程学习与单阶段的效果对比，附加为多模态平衡数据集的效果对比，以及不同任务之间的协同作用效果:

评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-8-2 12:25

AntGPT

大型语言模型可以帮助预测视频的长期动作吗？

项目地址:https://brown-palm.github.io/AntGPT

代码:coming soon

通过了解行动者当前的动作(例如打鸡蛋等)，是否可以预测之后通常会发生什么，能否更好的预测行动者的未来动作(例如混合鸡蛋)？

如果我们还知道行动者的长期目标(例如做蛋炒饭)怎么办？长期动作预期(LTA/long-term action anticipation)任务旨在通过排列动词与名词序列形式的视频观察来预测行动者的未来行为，这对于人机交互至关重要

本文从两个角度制定了LTA任务：自下而上的方法，通过对时间动态建模来自回归预测下一步动作；以及自上而下的方法，推断参与者的目标并规划完成目标所需的过程

其中假设大型语言模型(LLM)已经在程序文本数据(例如食谱、操作方法)上进行了预训练，有潜力可以从这两个方面帮助LTA，它可以帮助提供有关下一步可能采取的行动的先验知识，并分别在给定过程的观察部分的情况下推断出目标

为了利用LLM，提出了一个两阶段框架AntGPT，它首先识别观察到的视频中已经执行的动作，然后要求LLM通过条件生成来预测未来的动作，或者通过CoT提示来推断目标并规划整个过程

Ego4D LTA v1和v2基准、EPIC-Kitchens-55以及EGTEA GAZE+的实验结果证明了本文提出的方法的有效性，AntGPT在所有上述基准上都实现了SOTA性能，并且可以成功推断目标，从而通过定性分析执行目标条件的“反事实”预测

AntGPT是一个视觉语言框架，旨在探索如何将大型语言模型的新兴能力纳入视频长期动作预期(LTA)中，LTA任务本质上是对人类行为进行视频观察，以预测行为者未来的行为

为了表示LLM的视频信息，使用动作识别模型将视频观察表示为离散动作标签，它们将视觉信息和语言联系起来，使LLM能够执行下游推理任务

首先查询LLM以推断观察到的行为背后的目标，然后将目标信息合并到仅视觉工作流程中，看看这种目标条件预测是否有帮助，还使用了LLM直接对人类活动的时间动态进行建模，看看LLM是否具有有关行动先验的内置知识，最后则是使用流行的提示策略测试LLM在少样本设置中执行预测任务的能力

AntGPT展现了以下新功能：
1.通过几次观察来预测目标：观察到LLM非常有能力预测参与者的目标，即使观察到的人类行为不完美，在上文中展示了一些成功的例子，其中给出了正确的行动和目标，然后在查询中，输入观察到的动作序列，并让LLM输出目标
2.用目标信息增强视觉框架：为了证明输出目标是否对LTA任务有帮助，将目标信息编码到文本特征中，并将其合并到视觉框架中，以执行“目标条件”的未来预测并观察到SOTA级改进
3.建模动作时间动态：探讨了LLM是否可以直接充当推理支柱来建模时间动作动态，为此对域内动作序列上的LLM进行了直接微调，并观察到 LLM可以比从头开始训练的Transformer带来额外的更多改进
4.在少样本设置中预测未来行动：进一步研究了LLM如何在少样本设置中执行LTA任务，当仅在上下文中演示几个例子时，LLM仍然可以预测未来的行动序列，此外还尝试了流行的提示策略

1.对于 LTA 任务，视频和LLM之间的良好接口是什么？：尝试了各种预处理技术，发现将视频片段表示为离散动作标签与LLM交互的性能非常好，允许LLM从视频观察中执行下游推理
2.LLM可以推断目标吗？它们对自上而下的LTA有帮助吗？：结论是，LLM可以推断目标，并且它们对于以目标为条件的自上而下的LTA特别有帮助，正如实验所证明的，目标条件预测框架始终比仅视觉框架表现得更好
3.LLM是否掌握了有助于自下而上LTA的有关时间动态的先验知识？：发现经过微调的LLM比从头开始训练的类似Transformer模型具有更好的推理能力，即使输出结构不完善且后处理粗糙，LLM的表现仍然优于Transformer同行们
4.了解目标会影响LLM在少样本设置中预测的行动吗？：观察到所有基于LLM的方法在少样本设置下的性能都比Transformer好得多，尤其是在名词预测方面，这表明利用LLM中编码的先验知识进行LTA任务的有效性

文中所做的一项有趣的定性实验，虽然得出了结论，推断的目标是有用的，并且会在情境学习期间影响LLM，但还是想看看如果给出一个替代目标而不是真正推断的目标，LLM的输出会受到什么影响？

观察到LLM确实根据目标做出反应，例如，将推断目标“修复机器”切换为“检查机器”时，LLM会预测一些与“检查机器”专门相关的操作，如“读取仪表”、“记录数据”等

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-8-2 12:41

SEED-Bench

利用生成理解对多模态LLM进行基准测试

github项目主页:https://github.com/AILab-CVC/SEED-Bench

基于强大的大语言模型(LLM)，最近的生成式多模态大型语言模型(MLLM)作为一个关键研究领域而受到瞩目，表现出卓越的理解和生成能力

在本文中引入了名为SEED-Bench的基准，对MLLM的生成理解进行了评估，作为全面评估生成模型的第一步，SEED-Bench包含19K个多项选择题，具有准确的人工标注(比现有基准大6倍)，覆盖了12个评估维度，包括对图像和视频模态的理解

开发了一个先进的工作流程，用于生成针对特定评估维度的多项选择题，集成自动过滤和手动验证流程，具有源自人工标注的真实选项的多项选择问题可以对模型性能进行客观有效的评估，从而消除了评估过程中人工或GPT干预的需要

进一步评估了18个模型在所有12个维度上的性能，涵盖空间和时间理解。通过评估结果揭示了现有MLLM的局限性，本文的目标是推动SEED-Bench为未来的研究提供见解，将推出并持续维护排行榜，为社区提供评估和调查模型能力的平台

左图为SEED-Bench中12个评估维度的概述，包括空间和时间理解，其中条形中的数字表示每个维度中人工标注的多项选择题的数量，右图为总体排行榜，显示了18个模型在12个评估维度上的平均准确率

数据集样本以及与其他类似数据集的对比:

12个不同的评估维度:

数据集收集流程:

相关评估结果:

—— 来自 S1Fun

Machinery · 发表于 2023-8-3 03:35

LISA

通过大语言模型进行推理分割(Reasoning Segmentation)

github项目地址:https://github.com/dvlab-research/LISA

尽管感知系统(perception systems)近年来取得了明显进步，但它们在执行视觉识别任务之前依然依赖于明确的人类指令来识别目标对象或类别，此类系统缺乏主动推理和理解用户隐含意图的能力

在本文中确立并提出了一个新的分割任务，推理分割(reasoning segmentation)，该任务的目标为输入复杂与隐含的查询文本(given a complex and implicit query text)后输出需求的分段掩码(segmentation mask)，此外还建立了一个由一千多个图像指令对组成的基准，结合了复杂的推理和世界知识以进行评估

最后提出了LISA(大型语言指令分割助手/large Language Instructed Segmentation Assistant)，它继承了多模态大型语言模型(LLM)的语言生成能力，同时还具备生成分割掩码的能力

使用<SEG> Token扩展了原始词汇表，并提出嵌入作为掩码范式来解锁分割功能，值得注意的是，LISA可以处理涉及以下情况的案例:1.复杂推理；2.世界知识；3.解释性答案；4.多轮对话

此外，当专门在无推理数据集上进行训练时，它表现出了强大的零样本能力，当仅使用239个推理分割图像指令对微调模型的情况下，可以进一步提高性能

实验表明，本基准与方法不仅解锁了新的推理分割功能，而且在复杂推理分割和标准引用分割任务中也被证明是有效的

为当前的多模态LLM解锁了新的细分功能，由此产生的模型(LISA)能够处理涉及以下情况的任务：复杂推理、世界知识、解释性答案、多轮对话

带标注的图像指令对的示例，左图为简短查询，右图为长查询

LISA的概览图，给定输入图像和文本查询，多模态LLM生成文本输出，输出结果中最后的<SEG>令牌的最后一层嵌入，可以通过解码器解码为分段掩码还原成分割掩码，视觉主干可以灵活选择(例如SAM或者Mask2Former等)

不同类型数据的训练数据格式化说明，包括语义分割数据、引用分割数据和视觉问答(VQA)数据

LISA和之前的有关工作之间的推理分割结果

引用分割评估结果与消融实验

方法样本结果可视化

—— 来自 S1Fun

Machinery · 发表于 2023-8-3 17:49

本帖最后由 Machinery 于 2023-8-3 17:53 编辑

Qwen-7B

通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的开源模型，目前有预训练与chat两个版本

github项目地址:https://github.com/QwenLM/Qwen-7B

Qwen-7B权重下载(hugface仓库):https://huggingface.co/Qwen/Qwen-7B

Qwen-7B-Chat权重下载(hugface仓库):https://huggingface.co/Qwen/Qwen-7B-Chat

Demo演示:https://modelscope.cn/studios/qwen/Qwen-7B-Chat-Demo/summary

Qwen-7B是基于Transformer的大型语言模型，在超大规模的预训练数据上进行训练得到，预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等

github项目说明:

Qwen-7B-Chat项目说明:

—— 来自 S1Fun

		自动登录	找回密码
密码			立即注册

[科技] 开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

lvcha lvcha 当前离线禁止发言精华 \| 战斗力鹅 \| 帖子注册时间 2011-6-22 头像被屏蔽	734^# 发表于 2023-7-26 15:25 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

thallium thallium 当前离线禁止发言精华 \| 战斗力鹅 \| 帖子注册时间 2022-4-4 头像被屏蔽	738^# 发表于 2023-7-27 01:00 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报