开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

yesicant · 发表于 2023-3-29 05:13

本帖最后由 yesicant 于 2023-3-29 16:53 编辑

最初是半夜突然刷到这条推特

一查

，原来是Laion组织(提供SD模型训练集的开源非盈利组织)根据论文用Clip与LLaMA(没想到吧，又是我们)复现了去年刷榜各种项目的的多模态模型，Flamingo相关的权重与训练代码

关于Flamingo的相关介绍可以看这里:https://zhuanlan.zhihu.com/p/508918171

hugface模型仓库地址:https://huggingface.co/openflamingo/OpenFlamingo-9B

训练代码:https://github.com/mlfoundations/open_flamingo

模型权重净重5.2G，参数为9B，大部分人的显卡应该都能跑

效果比Flamingo论文中的同参数下性能差一些，可能缺少某些调优吧，不过有这个效果要什么自行车！

在线演示地址:https://7164d2142d11.ngrok.app/

—— 来自 S1Fun

诚司 · 发表于 2024-4-19 22:44

本帖最后由诚司于 2024-4-19 23:03 编辑

这llama3 70B tm的绝了，lmsys上它绝对被低估了，打榜上它和command R+差不多，但实测它比command R+强多了，哪怕是中文prompt，只不过llama3不喜欢说中文而已

llama3 70B完爆 llama3 8B，8B用英文提示词就能答上来一些东西，中文就不行，但70B的没这个问题，而Command R+参数比70B多也一样有这种问题

多轮工具调用我也试了试，llama3 70B至少是大杯claude水平，Sonnet claude是被llama3完爆的
这玩意开源了真tm绝了

ps:
试了两个类似TPTU文章里那样，但是更复杂一点的例子，GPT4和claude opus都容易答错，llama3在中文问题的debuff情况下都能答对……以前根本不敢想这种程度的tool planning

You are a strategy model and given a problem and a set of tools,you need to generate a sequence of executable tools to determine the solution to the problem.
Each tool in the toolset is defined as follows:
SQL Generator: Given an input problem and a database,create a syntactically correct SQLite query statement. Note that the table here, only contrain the following field: 'name'： this is the name of the book, 'price' this is the price of the book and the number of the price in the table is represented in the price of RMB(Chinese yuan), 'number': this is the number of books in this library
PythonREPL:Given an input problem and some information,generate a syntactically correct Python code. In Python code. there is a global variable 'rate' which represents the exchange rate between US dollars and Chinese yuan.
Please use the following format:
Question: Here is the question
Error: Here is the previously generated error output
Tasks:Here is a Python List type,where each item in the List is a dictionary.The key of the dictionary represents the selected tool, and the value is the query input when calling the tool. Please note that the generated Tool and Query should be different from those in the Error.
Here are some examples mapping the question to the tools:
Question: What is the the number of albums by Jolin Tsai?
Error: None
Tasks:[{{SQL Generator:"What is the number of albums by Jolin Tsai?"}}]
Question: What is the square of the number of albums by Jolin Tsai?
Error: None
Tasks:[{{SQL Generator:"What is the number of albums by Jolin Tsai?"}},
{{PythonREPL:"What is the square of the number of albums by Jolin Tsai?"}}]
Question: How many books are cheaper than 10× 20 dolars? Please find the number of books and output the square of the number.
Error: None
Tasks:[{{PythonREPL:"What is 10× 20 ?"}}
{{SQL Generator:"How many books are cheaper than 10× 20 dolars?"}},
{{PythonREPL:"Output the square of the number above"}}]
Question:First,calculate the square of 40 and denote it as A.Then,find the names of all artists with a total number of fans less than A.
Error: None
Tasks:[{{PythonREPL:"Let A be the square of 40.What is the value of A?"}},{{SQL Generator:"Find the names of all artists with a total number of fans less than A"}}]
Note that you must ensure that the generated Tasks strictly adhere to the format requirements: they must be in Python List type,where each item is a dictionary.The key of the dictionary represents the selected tool, and the value is the query input when calling the tool.
Now,let's proceed:
Question: 从文件 'a.txt' 中读取一个数字。找出那些书名长度大于这个数字的减去20的所有书籍，将这些书名字符串写入到文件 'book_name.txt' 中。然后再查询那些书的价格以美元计算比之前从'a.txt’里读取的数字更贵的那些书的书名，写入到'test.txt'中
Error: None
Tasks:

复制代码

You are a strategy model and given a problem and a set of tools,you need to generate a sequence of executable tools to determine the solution to the problem.
Each tool in the toolset is defined as follows:
SQL Generator: Given an input problem and a database,create a syntactically correct SQLite query statement. Note that the table here, only contrain the following field: 'name'： this is the name of the book, 'price' this is the price of the book and the number of the price in the table is represented in the price of RMB(Chinese yuan), 'number': this is the number of books in this library. 'rate' : This is the exchange rate between US dollars and Chinese yuan.
PythonREPL:Given an input problem and some information,generate a syntactically correct Python code.
Please use the following format:
Question: Here is the question
Error: Here is the previously generated error output
Tasks:Here is a Python List type,where each item in the List is a dictionary.The key of the dictionary represents the selected tool, and the value is the query input when calling the tool. Please note that the generated Tool and Query should be different from those in the Error.
Here are some examples mapping the question to the tools:
Question: What is the the number of albums by Jolin Tsai?
Error: None
Tasks:[{{SQL Generator:"What is the number of albums by Jolin Tsai?"}}]
Question: What is the square of the number of albums by Jolin Tsai?
Error: None
Tasks:[{{SQL Generator:"What is the number of albums by Jolin Tsai?"}},
{{PythonREPL:"What is the square of the number of albums by Jolin Tsai?"}}]
Question: How many books are cheaper than 10× 20 dolars? Please find the number of books and output the square of the number.
Error: None
Tasks:[{{PythonREPL:"What is 10× 20 ?"}}
{{SQL Generator:"How many books are cheaper than 10× 20 dolars?"}},
{{PythonREPL:"Output the square of the number above"}}]
Question:First,calculate the square of 40 and denote it as A.Then,find the names of all artists with a total number of fans less than A.
Error: None
Tasks:[{{PythonREPL:"Let A be the square of 40.What is the value of A?"}},{{SQL Generator:"Find the names of all artists with a total number of fans less than A"}}]
Note that you must ensure that the generated Tasks strictly adhere to the format requirements: they must be in Python List type,where each item is a dictionary.The key of the dictionary represents the selected tool, and the value is the query input when calling the tool.
Now,let's proceed:
Question: 从文件 'a.txt' 中读取一个数字。找出那些书名长度大于这个数字的减去20的所有书籍，将这些书名字符串写入到文件 'book_name.txt' 中。然后再查询那些书的价格以美元计算比之前从'a.txt’里读取的数字更贵的那些书的书名，写入到'test.txt'中
Error: None
Tasks:

复制代码

两袖清风和中堂 · 发表于 2024-4-19 08:18

没有好的显卡，跑起来太痛苦了

—— 来自 HUAWEI VOG-AL10, Android 10上的 S1Next-鹅版 v2.5.4

诚司 · 发表于 2024-4-19 08:00

dbrx开源，command R plus开源，llama3开源
qwen1.5之后本来以为开源已经稳定了，结果这段时间模型都下不过来，gpt4级别模型遍地走了是吧

不过8k context确实不大行，我还是选择command R+

seedees3 · 发表于 2024-4-19 07:50

我记得泥潭是不是还有一个stable diffusion的专楼，怎么找不到了

ZetaGo · 发表于 2024-4-19 07:20

楼主在哪收集到这些有趣的项目呀，是刷gayhub和论文吗

simpleyan · 发表于 2024-4-19 01:22

昨天sd3发了api，今天llama3发了两个小的，感觉又回到了去年底那种进展日新月异新闻看不完的时期，期待楼主重启更新。

—— 来自 OPPO PFFM20, Android 14上的 S1Next-鹅版 v2.5.4

yesicant · 发表于 2024-3-19 07:38

李少卿发表于 2024-3-19 07:24
大佬不更新了吗？

—— 来自 OnePlus GM1910, Android 10上的 S1Next-鹅版 v2.5.4

感觉最近还沉浸在春节

实际上最近没啥大的进展，生态也逐渐起来了，这楼也许可以转讨论楼？

李少卿 · 发表于 2024-3-19 07:24

大佬不更新了吗？

—— 来自 OnePlus GM1910, Android 10上的 S1Next-鹅版 v2.5.4

yesicant · 发表于 2024-2-8 07:01

先暂停更新，等泥潭把bug修好，大家新年快乐

Machinery · 发表于 2024-2-6 05:35

本帖最后由 Machinery 于 2024-2-6 05:38 编辑

PokéLLMon

通过大型语言模型在宝可梦对战中实现人类水准的代理者

github项目主页:https://github.com/git-disl/PokeLLMon

PokéLLMon，它是第一个在战略战斗游戏中实现人类水平表现的LLM具身代理者，就像在宝可梦战斗中所展示的，PokéLLMon的设计包含三个关键策略:
(i)上下文强化学习，即时利用从战斗中产生的基于文本的反馈来迭代改进策略
(ii)知识增强生成，即检索外部知识以抵消幻觉，并使代理者能够及时正确地行动
(iii)一致的动作生成，以减轻代理者面对强大对手并想要躲避战斗时的“恐慌切换(panic switching)”现象

展示了与人类进行的在线战斗，证明了PokéLLMon的类人战斗策略和即时决策能力，其在排行比赛中胜率达到49％，在邀请战斗中胜率达到56％

在每一轮中，玩家被要求决定采取哪个行动，例如，是让快龙出招还是切换到场外的另一个宝可梦

两个代表性的宝可梦:喷火龙和妙蛙花，每个宝可梦都有(复数)类型、能力、属性和四个战斗招式

类型相克关系，"+"表示超有效/2倍伤害；"-"表示无效/0.5倍伤害；"×"表示没有效果/0倍伤害，未标记的则为标准1倍伤害

使LLMs能够与人类玩家进行战斗的框架:它解析从战斗服务器接收到的消息，并将状态日志转换为文本，LLMs将这些状态描述和历史回合日志作为输入，并为下一步生成一个行动，然后将该行动发送到战斗服务器，并与对手选择的行动一起执行

LLMs在与bot对战中的表现

类型相克预测的混合矩阵

POKELLMON配备了三种策略:
(1)ICRL利用战斗中的即时反馈来迭代改进生成
(2)KAG检索外部知识来对抗幻觉，并及时正确地行动
(3)一致的行动生成以预防恐慌切换问题

代理者重复使用相同的攻击招式，但由于其能力“干燥皮肤”，对对方宝可梦没有任何效果

在第3回合中，代理者使用“精神冲击”，对对方宝可梦造成了零伤害，通过ICRL，代理者切换到另一个宝可梦

ICRL在与bot对战中的表现

KAG在与bot对战中的表现

代理者理解了招式的效果并正确使用:钥圈儿对钻角犀兽的地面属性攻击很脆弱，代理者没有交换宝可梦，而是使用了“电磁飘浮”这个招式，可以保护自己免受地面属性攻击的影响，持续五回合，从而使对方的钻角犀兽的地面属性攻击“地震”无效

提示方法在与bot对战中的表现

当面对一个强大的宝可梦时，具有CoT的代理者连续三次换宝可梦来逃避战斗，这给了对手三个免费回合来四倍增加攻击属性，并迅速击败了代理者的整个队伍

恐慌切换宝可梦的统计分析

POKELLMON每回合都选择了有效的招式，使对手的整个队伍都倒下了，只用了一个宝可梦

POKELLMON对抗人类玩家的表现

POKELLMON受到了消耗战策略的困扰:对手玩家经常恢复高防御的宝可梦，要打破这个困境需要跨越多个回合的联合效果

战斗表现受到消耗战策略的影响

一个经验丰富的人类玩家误导代理者使用龙属性攻击，首先派出一个龙属性宝可梦，然后立即换成另一个免疫龙属性攻击的宝可梦

Machinery · 发表于 2024-2-6 04:47

本帖最后由 Machinery 于 2024-2-6 04:48 编辑

Nomic Embed

可重现的长上下文文本嵌入器(Long Context Text Embedder)

技术报告:https://arxiv.org/abs/2402.01613

github项目主页:https://github.com/nomic-ai/contrastors

这份技术报告描述了nomic-embed-text-v1的训练过程，它是第一个可完全复现的、开源、开放权重、开放数据、上下文长度为8192的英文文本嵌入模型，在短文本和长文本任务上均优于OpenAI的Ada-002和OpenAI text-embedding-3-small

同时，以Apache 2许可证发布了训练代码和模型权重，与其他开源模型不同，还发布了一个训练数据加载器，其中包含了2.35亿个经过筛选的文本对，可以完全复制nomic-embed-text-v1的训练过程

文本嵌入模型的基准测试结果，nomic-embed-text-v1、OpenAI text-embedding-ada、OpenAI text-embedding-3-small和jina-embedding-base-v2在短文本和长文本基准测试中的综合性能

Nomic Embed是唯一一个可以完全审计的长文本模型，它在短文本和长文本基准测试中都超过了OpenAI text-embedding-ada、OpenAI text-embedding-3-small和Jina的性能，X轴的单位因基准套件而异

将nomic-embed-text-v1与OpenAI模型和其他顶级长文本开源模型进行基准测试，Nomic-embed-text-v1是唯一一个具有1亿参数级别的开源模型，它在短文本和长文本任务上均优于OpenAI text-embedding-ada和text-embedding-3-small

Nomic-embed-text-v1-ablated是指第5.4节中描述的训练设置，其中省略了HotpotQA和FEVER数据，“Seq”表示模型的上下文长度，Jina LC是Jina长上下文基准测试中任务的平均值

GLUE Dev Set集结果，除了2048模型之外，以与nomic-bert-2048相同的方式进行评估

MTEB基准测试结果，每个类别的数据均取平均值

Jina长上下文评估基准测试

—— 来自 S1Fun

Machinery · 发表于 2024-2-6 00:05

本帖最后由 Machinery 于 2024-2-6 00:06 编辑

MAGDi

对多代理者交互图(Multi-Agent Interaction Graphs)的结构化蒸馏(Structured Distillation)改进了小型语言模型的推理能力

github项目主页:https://github.com/dinobby/MAGDi

大型语言模型(LLM)代理者之间的交互推理方法，在不同的推理任务上都呈现出了改进，然而，这些方法涉及多个模型在多轮中进行长时间生成，导致计算成本高昂，此外，这些多代理者方法无法提供一个最终的、用于高效推理的单一模型

为了解决这个问题，本文引入了MAGDi，一种将多个LLM之间的推理交互进行结构化蒸馏进更小的语言模型的新方法，MAGDi通过将多代理者交互表征为图(graphs)，利用图编码器(graph encoder)增强基础学生模型，并使用三个目标函数进行知识蒸馏:下一个Token预测、正确和错误推理之间的对比损失，以及基于图形的目标函数以建模交互结构

在七个广泛使用的常识和数学推理基准测试中的实验证明，MAGDi提高了较小模型的推理能力，优于其他几种从单个教师和多个教师进行蒸馏的方法

此外，MAGDi还展现了比其教师更高的效率，进行的广泛分析显示MAGDi(1)增强了对OOD任务的泛化能力，(2)随着基础学生模型的规模和强度的增加而呈正相关缩放，(3)通过多教师训练，在应用自我一致性时(self-consistency)时，获得了更大的改进

本文蒸馏方法MAGDI的概览图，给定一个推理问题，多个教师LLMs进行多轮讨论，生成一个多代理交互图(MAG/multi-agent interaction graph)，然后本文的结构化蒸馏方法MAGDI将这些图中的推理知识蒸馏到基础学生模型中

左边(a):使用GPT4、Bard和Claude2协同解决一个数学推理问题的多代理者交互图，经过三轮讨论生成

右边(b-e):MAGDI的四个不同级别，每个级别逐步从MAG的组成部分蒸馏知识

训练数据构建:给定一个推理问题，多个教师经过多轮讨论过程，生成多代理者交互图，MAGDI使用图神经网络(本文中为GCN)来增强基础学生模型，学习推理链的结构感知表征，然后使用涉及正向链、负向链和底层交互(positive chains, negative chains, and the underlying interactions)的三个目标进行微调

结构化蒸馏(MAGDI)与无教师、单教师和多教师蒸馏基线的对比

首先，MAGDI在所有五个推理基准测试中表现优于所有基线，平均而言，MAGDI比最强的SIT-GPT4基线提高了4.61%，比无教师基线提高了10.71%，其次，从MAG的每个组成部分进行知识蒸馏都能改善学生模型，从Level 1到Level 4，性能一直稳步提升

RECONCILE(一个多代理者交互框架)和MAGDI生成的Token计数的对比

性能和效率之间的权衡，MAGDI超越了之前研究工作方法的帕累托边界，既在性能上超过了单教师模型，又在效率上超过了RECONCILE，效率定义为1/平均(Token数)

单教师多任务(SIT-GPT4-MT)和MAGDI多任务(MAGDI-MT)模型在OOD数据集上的对比，即使在OOD数据集上(57.52 vs. 64.30)，MAGDI-MT的性能也比单教师基线提高了多达7%

使用不同的基础学生模型进行MAGDI蒸馏的缩放结果，随着基础模型的平均(零样本)性能的提高(Mistral-7B > LLaMA-2-13B > LLaMA-2-7B)，MAGDI蒸馏性能也相应增加

MAGDI在GSM8K上的自我一致性相比基础学生模型和单教师蒸馏模型实现了最大的收益(高达15%)

Machinery · 发表于 2024-2-5 22:37

本帖最后由 Machinery 于 2024-2-5 22:39 编辑

TravelPlanner

测试语言代理者进行现实世界规划的基准

项目主页:https://osu-nlp-group.github.io/TravelPlanner/

github项目代码仓库:https://github.com/OSU-NLP-Group/TravelPlanner

hugface数据集下载:https://huggingface.co/datasets/osunlp/TravelPlanner

基准测试排行榜:https://huggingface.co/spaces/osunlp/TravelPlannerLeaderboard

自从人工智能的概念诞生以来，规划(planning)一直是其核心追求之一，但早期的AI代理者多数关注于受限环境设置下的测试，这主要是因为模型缺乏实现人类级别水平的规划所需的许多认知基础，最近，大型语言模型(LLMs)驱动的语言代理者们展现出了一些例如工具使用和推理之类的有趣能力，这些语言代理者们是否能在更复杂的环境中进行超越的先前AI代理者们的复杂规划吗？

为了推进这项研究，本文提出了TravelPlanner，这是一个新的规划基准，其中重点关注了旅行规划，一种常见的真实世界规划场景，它提供了一个丰富的沙箱环境，各种用于访问近400万条数据记录的工具，以及1225个精心策划的规划意图(planning intents)和参考计划(reference plans)

全面的评估表明，目前的语言代理者还不能处理如此复杂的规划任务，即使是GPT-4的成功率也只有0.6%。语言代理依然在保持任务连贯性、使用正确工具收集信息、遵从多个约束的规划方面都存在困难

然而，当前的语言代理者们仅仅能够应对如此复杂的问题本身就是不平凡的进步，TravelPlanner为未来的语言代理者们提供了一个具有挑战性富有意义的测试平台

TravelPlanner概览图，给定一个查询，语言代理者被要求使用各种搜索工具收集信息，根据收集到的信息，语言代理者需要提供一个计划，既满足查询中用户指定的需求，又符合常识约束

约束描述，环境约束通过从环境接收的反馈来体现，用于评估语言代理者是否能够适当地调整其计划。常识约束和硬约束是根据语言代理者的计划与这些特定标准的一致性来评估的

数据库中的数据条目数量

不同的LLM与不同规划策略在TravelPlanner验证集和测试集上的主要结果

最佳结果用粗体标记，当收集的信息不足时，Gemini Pro倾向于直接拒绝提供计划，与标注者的访谈显示，手动标注一个计划平均需要约12分钟，然而，语言代理者们，如GPT-3.5-Turbo，只需1到2分钟就可以完成这个任务，这展现出了它们的效率

测试集上的工具使用错误分布，如果代理者连续三次失败尝试或重复操作，将触发提前停止，这代表语言代理者进入了死循环

GPT-4-Turbo在测试集上的约束通过率，独立规划(sole-planning)模式的结果基于直接策略(Direct strategy)

对GPT-4-Turbo和参考之间的不同工具使用次数的对比，代理者的结果基于写入“Notebook”的条目数量

失败案例研究，代理由于重复错误(如日期错误)、信息细节混淆导致的幻觉性回答以及推理和行动之间的脱节而未能完成计划

所有案例均基于GPT-4-Turbo的代理，关于使用反思策略的GPT-4-Turbo的详细信息，请参见原论文

—— 来自 S1Fun

Machinery · 发表于 2024-2-2 20:58

本帖最后由 Machinery 于 2024-2-2 20:59 编辑

OLMo

加速语言模型学科的发展

技术报告:https://arxiv.org/abs/2402.00838

hugface模型权重:https://huggingface.co/allenai/OLMo-7B

github项目代码仓库:https://github.com/allenai/OLMo

hugface预训练数据集下载:https://huggingface.co/datasets/allenai/dolma

github模型评估套件:https://github.com/allenai/OLMo-Eval

微调适配项目页:https://github.com/allenai/open-instruct

语言模型(LM)已经在自然语言处理研究和商业产品中变得无处不在，随着它们在商业上的重要性日益增长，最强力的模型逐渐变得封闭，通常只能通过专有接口访问，其训练数据、架构和开发的重要细节也未公开，鉴于这些细节对于科学研究这些模型、包括它们的偏见和潜在风险的重要性，研究界访问功能强大且真正开放的语言模型因此变得至关重要

为此，本技术报告详细介绍了OLMo的首次发布，这是一个SOTA的、真正开放的语言模型及其构建和研究语言建模科学的框架，与以往只发布模型权重和推理代码的大多数研究不同，本次发布了OLMo和整个框架，包括训练数据、训练和评估代码，希望这次发布能为开源研究社区提供动力和支持，并激发新一轮的创新
————
模型描述与细节

————
模型的使用以及微调与评估

————
训练环境的影响与偏差风险限制等

—— 来自 S1Fun

Machinery · 发表于 2024-2-2 09:50

本帖最后由 Machinery 于 2024-2-2 09:55 编辑

LongAlign

大型语言模型的长上下文对齐秘方

github项目主页:https://github.com/THUDM/LongAlign

拓展大型语言模型以有效处理长上下文需要对相似长度的输入序列进行指令微调，为了解决这个问题，本文提出了LongAlign，一种用于长上下文对齐的指令数据、训练和评估方法

首先，通过使用自指导(Self-Instruct)构建了一个长指令跟随数据集，为了确保数据的多样性，它涵盖了来自各种长上下文来源的广阔任务，其次，采用了打包和排序批处理(packing and sorted batching)策略，以加速对具有不同长度分布的数据进行监督微调的速度，此外，还开发了一种损失加权(loss weighting)方法，在打包训练期间平衡不同序列对损失的贡献，最后还引入了LongBench-Chat基准测试，用于评估在长度为10k-100k的查询上的指令跟随能力

实验证明，LongAlign在长上下文任务中的性能比现有的LLM配方提高了多达30％，同时也维持了它们处理较短的通用任务的熟练程度

LongBench-Chat上的测试结果，包含10k-100k长度的真实世界查询

数据构建示例

在长尾数据长度分布下，打包或排序批处理可以减少空闲时间并加速训练过程，在打包过程中需要进行损失加权，以平衡序列的损失贡献

标注者之间的相关性，GPT-4(有无Few-shot)与人类之间的相关性

在不同数量和类型的长指令数据上训练后的ChatGLM3-6B-64k性能

与ShareGPT混合的不同套件的长数据上训练的ChatGLM3-6B-64k的1k-60k Needle测试性能

ChatGLM3-6B-64k和Llama-2-7B-64k在不同的训练方法下的性能

不同的训练方法下，使用8个A800 80G GPU的训练时间(小时)

LLama-2-13B上的LongAlign

ChatGLM3-6B-64k在长任务和短任务上至始至终的相对性能

—— 来自 S1Fun

Machinery · 发表于 2024-2-1 02:43

本帖最后由 Machinery 于 2024-2-1 02:44 编辑

H2O-Danube-1.8B

H2O.ai训练的18亿参数基础模型系列

arxiv技术报告:https://arxiv.org/abs/2401.16818

hugface Base模型权重下载:https://huggingface.co/h2oai/h2o-danube-1.8b-base

hugface Chat模型权重下载:https://huggingface.co/h2oai/h2o-danube-1.8b-chat

H2O-Danube-1.8B，一个遵循LLama 2和Mistral核心原则，在1T Token上训练的1.8B参数语言模型，通过利用和改进各种预训练大型语言模型技术，尽管本系列模型训练的总Token数量相比类似规模的参考模型要少得多，但在多项基准测试中表现出了极具竞争力的指标结果

此外，还发布了一个通过监督微调(supervised fine-tuning)和直接偏好优化(direct preference optimization)训练获得的聊天模型，本系列模型以Apache 2.0许可协议公开发布提供，以使更广泛的经济受众能够进一步使用LLM

训练日志

训练(左上角)和验证(右上角)的交叉熵损失，学习率调度(左下角)和序列长度(右下角)，X轴则是训练到该步骤的Token数

常识推理、世界知识和阅读理解基准测试

与其他相似规模的模型相比，H2O-Danube-1.8B在所有基准测试中表现均一致且良好，它在所有基准测试中的表现都优于Qwen(除了BoolQ)，尽管大小相同，但训练的Token数少了2.2倍，Stable LM 2在大多数基准测试中略优于H2O-Danube-1.8B，但它的训练Token数是H2O-Danube-1.8B的4倍

此外，Qwen和Stable LM 2模型都不具备Apache 2.0许可证，而且商业使用还需要满足额外条件

Open LLM排行榜，对于表中的每个模型，报告了所有独立基准测试的得分，以及不包括GSM8k基准测试的平均得分

H2O-Danube-1.8B在大多数基准测试中的结果与Qwen和Stable LM 2模型相似，除了GSM8k和MMLU，这可以通过模型训练使用的数据来解释，例如，Qwen在数学推理上使用了更好的gsm8k-ScRel数据集

Mt-bench聊天基准测试

该表展示了mt-bench除了编码类别之外的第1轮和第2轮评估结果，结果突出了H2O-Danube-1.8B-Chat的出色表现，尤其是在单轮对话中，它在多个类别和平均Mt-bench得分中都表现最高

聊天模型的常识推理、世界知识和阅读理解基准测试

H2O-Danube-1.8B-Chat在所有零样本常识推理基准测试中的表现都优于TinyLlama-Chat和Qwen-Chat模型，并与Stablelm-2-Zephyr模型相当

聊天模型的Open LLM排行榜

H2O-Danube-1.8B-Chat在大多数基准测试中的表现优于TinyLlama-Chat，并与Qwen-Chat和Stablelm-2-Zephyr模型在大多数基准测试中表现相似，除了GSM8k和MMLU

—— 来自 S1Fun

Machinery · 发表于 2024-1-31 23:46

MouSi

多视觉专家(Poly-Visual-Expert)视觉语言模型

github项目主页:https://github.com/FudanNLPLAB/MouSi

最近的大型视觉语言模型(VLMs)经常会遇到诸如单个视觉组件的能力不足和过长的视觉Token之类的挑战，这些问题可能会限制模型在准确解释复杂的视觉信息和过长的上下文信息方面的效果，解决这些挑战对于提高VLM的性能和适用性至关重要

本文提出了聚合专家技术(ensemble experts technique)，通过与单独视觉编码器协作处理，包括擅长图像文本匹配、OCR、图像分割等能力的专家，该技术引入了一个融合网络，统一处理来自不同视觉专家的输出，并弥合了图像编码器和预训练LLMs之间的差距

此外，还探索了不同的位置编码方案，以减少由于长图像特征序列问题引起的位置编码的浪费，有效解决了位置溢出(position overflow)和长度限制(length limitations)的问题，例如，在本文的具体实现中，这项技术显著减少了像SAM这样的模型中的位置占用，从4096减少到更高效和可管理的64甚至1

实验结果表明，具有多个专家的VLMs在性能上表现出一致的优势，相比孤立的视觉编码器，集成更多的专家可以更显著提升性能

左侧:对比InstructBLIP、Qwen-VL-Chat、LLaVA-1.5-7B，poly-visual-expert MouSi在九个基准测试中达到了SoTA

右侧:在九个基准数据集上，不同数量的专家的最佳模型表现，总体而言，三个专家比两个专家更好，而两个专家又比一个专家更好

MouSi模型结构概览图，多视觉专家MouSi模型支持集成具有不同类型和能力的视觉专家

六个预训练视觉专家的对比

Res.表示图像分辨率，d_hid表示隐藏维度，Param.表示参数数量

两种多专家融合网络的示例，展示了MLP方法如何使用“2-patches-1-token”压缩视觉信息，以及Q-Former方法如何使用3个可训练的查询压缩信息，具有渐变颜色的模块表示多个专家之间参数共享以传递知识

四种位置编码方案的示意图，⊕运算符表示行位置编码和列位置编码相加

九个基准测试上的六个视觉专家的对比

Param表示参数数量

不同的双专家方法的性能对比，∆标记的行与单专家方法进行对比，蓝色单元格表示双专家模型更好，红色单元格表示单专家模型更好

不同的三专家方法的性能对比，∆标记的行与双专家方法进行对比，蓝色单元格表示三专家模型更好，红色单元格表示双专家模型更好

不同多专家融合方法的性能对比

不同专家顺序的性能对比，交换了“DINOv2+CLIP”和“ConvNext+CLIP”中的专家顺序

九个基准测试上的四种位置编码方案的对比

“LayoutLMv3+DINOv2+CLIP”三专家视觉编码器的平均注意力概率(%)分配

对三专家模型(LayoutLMv3+DINOv2+CLIP)进行的扰动实验，具体扰动是屏蔽对应视觉专家的所有输出

数据增强对九个基准测试的影响

Param.表示参数数量

由Mousi生成的定性示例

—— 来自 S1Fun

Machinery · 发表于 2024-1-31 22:28

Mobile-Agent

具有视觉感知的自主多模态移动设备代理者(Agent)

github项目代码仓库:https://github.com/X-PLUG/MobileAgent

基于多模态大型语言模型(MLLM)的移动设备代理者正成为流行应用，在本文中，介绍了Mobile-Agent，一种自主多模态移动设备代理者

Mobile-Agent首先利用视觉感知工具准确识别和定位应用前端界面中的视觉和文本元素，根据感知到的视觉内容，它自主规划和分解复杂的操作任务，并通过逐步操作导航移动应用程序，与之前依赖于应用程序的XML文件或移动系统元数据的解决方案不同，Mobile-Agent以视觉为中心的方式在各种移动操作环境中具有更高的适应性，从而消除了对系统进行特定定制的必要性

为了评估Mobile-Agent的性能，引入了Mobile-Eval，用于评估移动设备操作的基准测试，基于Mobile-Eval，对Mobile-Agent进行了全面的评估

实验结果表明，Mobile-Agent实现了显著的准确性和完成率，即使在具有挑战性的指令(例如多应用程序操作)下，Mobile-Agent依然能够完成要求

移动代理者是用于操作移动设备的自主代理者，基于用户指令，移动代理者可以规划一系列操作来完成需求

移动代理者的框架

Mobile-Eval中使用的应用程序和指令

Mobile-Agent在Mobile-Eval上取得的整体评估结果，其中RE的两个值分别代表Mobile-Agent和人类花费的步骤数

指令理解和执行规划的用例

进行无效操作后的自我反思和错误修正用例

使用无效和不正确操作后的自我反思和错误修正用例，其中操作“点击文本(添加评论)”导致了错误的页面，而操作“点击文本(发布)”是一个无效操作，无效和不正确操作以红色突出显示

操作多个应用程序以搜索游戏结果的用例

操作多个应用程序以撰写温度分析的用例

操作中文系统和应用的用例

玩游戏的用例

从Alibaba.com批发帽子的用例

搜索YouTube视频并评论该视频的用例

在Google Play下载特定应用程序的用例

使用地图应用程序进行导航的用例

使用Amazon Music搜索和播放特定内容音乐的用例

—— 来自 S1Fun

Machinery · 发表于 2024-1-31 10:12

Diffutoon

通过扩散模型进行高分辨率可编辑卡通渲染

项目主页:https://ecnu-cilab.github.io/DiffutoonProjectPage/

github DiffSynth-Studio综合主页:https://github.com/Artiprocher/DiffSynth-Studio

卡通渲染(Toon shading)是一种非照片真实渲染任务的动画化技术，主要目的是以扁平和风格化的外观渲染物体，随着扩散模型在图像合成方法中的崛起，本文探讨了一种基于扩散模型的创新化卡通渲染方法，旨在将逼真的视频直接渲染成动画风格，当前的视频风格化方法面临着持续挑战，尤其是在保持一致性和实现高视觉质量

在本文中，将卡通渲染问题建模为四个子问题:风格化、一致性增强、结构引导和色彩着色(stylization, consistency enhancement, structure guidance, and colorization)

为了解决视频风格化的挑战，提出了一种有效的卡通渲染方法，称为Diffutoon，Diffutoon能够以动画风格渲染出极其详细、高分辨率的长期视频，它还可以通过额外分支根据提示(prompts)编辑内容

通过定量指标和人类评估，测试了Diffutoon的有效性，实验结果表明，Diffutoon同时超过了开源和闭源基线

Diffutoon的整体架构，上方是主要的卡通渲染工作流程，下方是编辑分支，编辑分支可以为主要的卡通渲染工作流程生成色彩视频帧的编辑信号

各种方法的定量结果

人类评估研究中的用户偏好

与其他方法的视觉对比，用于编辑的提示为“best quality, perfect anime illustration, a girl is dancing, smile, solo, orange dress , black hair , white shoes , blue sky”

Diffutoon的中间结果，在主要的卡通渲染流程中，依据轮廓视频和色彩视频合成视频，当启用编辑分支时，生成的色彩视频包含编辑信号

没有轮廓信息渲染的视频

没有色彩信息渲染的视频

使用Animate-Diff作为编辑分支渲染的视频

—— 来自 S1Fun

Machinery · 发表于 2024-1-31 06:33

InternLM-XComposer2

掌握大型视觉语言模型中的自由形式文本图像组合与理解

github项目主页:https://github.com/InternLM/InternLM-XComposer

InternLM-XComposer2，在自由形式的文本图像组合与理解方面表现出色的尖端视觉语言模型，该模型超越了传统的视觉语言理解，从多样的输入中，如轮廓、详细的文本规范和参考图像(outlines, detailed textual specifications, and reference images)中巧妙地构建交替的文本图像内容，实现高度可定制的内容创作

InternLM-XComposer2提出了一种部分LoRA(PLoRA/Partial LoRA)方法，将额外的LoRA参数仅应用于图像Token，以保留预训练语言知识的完整性，在精确的视觉理解和具有文学才艺的文本构成之间取得平衡

实验结果表明，基于InternLM2-7B的InternLM-XComposer2在生成高质量的长文本多模态内容方面具有显著优势，在各种基准测试中展现了卓越的视觉语言理解性能，它不仅显著优于现有的多模态模型，还在某些评估中与GPT-4V和Gemini Pro相匹敌甚至超越，这凸显了它在多模态理解领域的能力

github中文项目说明页截图:

—— 来自 S1Fun

Machinery · 发表于 2024-1-30 04:24

Taiyi-Diffusion-XL

通过大型视觉语言模型支持从而促进双语文本到图像生成发展

hugface权重下载:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B

Tech Report 技术报告:https://arxiv.org/abs/2401.14688

Demo 体验地址:https://huggingface.co/spaces/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B

Deployment Webui 推理部署:https://github.com/IDEA-CCNL/Fooocus-Taiyi-XL

最近文本到图像模型的进展显著增强了图像生成能力，但在双语或中文语言支持方面仍存在明显的开源模型缺口，为了解决这个需求，本文提出了Taiyi-Diffusion-XL，这是一个新的中英双语文本到图像模型，通过对CLIP和Stable-Diffusion-XL进行双语连续预训练开发，其中包括将常用汉字整合到CLIP的分词器和嵌入层中，以及绝对位置编码的扩展，从而实现词汇的高效扩充

此外，通过大型视觉语言模型丰富了文本提示，从而产生更好的图像字幕说明并具有更高的视觉质量，这些增强策略随后应用于下游的文本到图像模型，实证结果表明，所开发的CLIP模型在双语图像文本检索方面表现出色，此外，Taiyi-Diffusion-XL的双语图像生成能力超过了先前的模型，Taiyi-Diffusion-XL模型的开发和开源，代表了图像生成领域的一个显著进展，特别适用于中文应用，这一贡献在多模态研究中为更多语言支持的需求迈出了一步

hugface项目说明截图:

—— 来自 S1Fun

Machinery · 发表于 2024-1-30 03:07

SliceGPT

通过删除行和列(Rows and Columns)来压缩大型语言模型

github项目主页:https://github.com/microsoft/TransformerCompression

大型语言模型已成为自然语言处理的基石，但在计算和显存资源等方面付出了巨大代价，稀疏化(Sparsification)提供了一种减轻这些资源限制的解决方案，最近的研究表明，训练好的模型可以在训练后期进行稀疏化处理，现有的稀疏化技术面临挑战，因为它们需要额外的数据结构，并且在当前硬件上的加速程度有限

在本文中，提出了SliceGPT，一种全新的训练后稀疏方案，它用较小的密集矩阵替代了每个权重矩阵，从而减小了网络的嵌入维度，通过广泛的实验，SliceGPT可以在保持LLAMA2-70B、OPT 66B和Phi-2模型零样本任务性能分别为99%、99%和90%的情况下，删除多达25%的模型参数(包括嵌入)

SliceGPT可以在较少的GPU上运行更快，而且无需额外的代码优化:在24GB的消费级GPU上，可以将LLAMA2-70B的推理计算总量减少到稠密模型的64%；在40GB的A100 GPU上，可以将其减少到66%

本文提供了一个新的见解，即Transformer网络中的计算不变性，这使SliceGPT成为可能，希望本文能够激发更多促进未来减少预训练模型的显存和计算需求的方法

github项目说明页截图:

—— 来自 S1Fun

Machinery · 发表于 2024-1-29 19:27

pix2gestalt

通过合成整体进行非模态切割(Amodal Segmentation)

项目主页:https://gestalt.cs.columbia.edu/

github项目代码仓库:https://github.com/cvlab-columbia/pix2gestalt

pix2gestalt，一个零样本非模态分割框架，通过学习估计在遮挡后仅部分可见的整个对象的形状和外观，利用扩散模型将它们的表征迁移到这个任务中，学习了一个条件扩散模型用于在具有挑战性的零样本用例中重建整个物体，甚至在违背自然和物理先验的艺术作品示例中也能适用，作为训练数据，使用了一个构造的合成数据集，其中包含带有遮挡物的物体与它们的完整对应物

实验证明，本文方法在基准测试中优于监督基线，此外，在存在遮挡的情况下，本文模型还可以显著提高现有的目标识别和3D重建方法的性能

通过合成实现的非模态分割和重建，pix2gestalt方法可以从部分可见的对象中合成整个对象，实现非模态分割、识别、新视图合成和遮挡对象的3D重建

预训练的扩散模型能够生成整个对象，展示了以类别为条件生成的Stable Diffusion样本，通过利用这种合成能力可以进行零样本非模态重建和分割

pix2gestalt是一种使用潜在扩散架构的非模态补全模型，在输入遮挡图像和感兴趣区域的条件下，合成整体(非模态)形式，从而允许进行其他视觉任务

构建训练数据，为了确保只遮挡整个物体，使用一种启发式方法，即比相邻物体更靠近摄像机的物体更可能是整个物体，物体周围的绿色轮廓显示估计的深度比背景更靠近摄像机的位置(红色则相反)

真实自然场景的非模态补全和分割，pix2gestalt能够在新状况下合成整个对象，包括艺术作品、iPhone拍摄的图像和错觉图像

非模态分割结果，报告了在非模态COCO和非模态伯克利分割数据集上的mIoU(%)↑

∗PCNet-Sup使用来自COCO-Amodal的非模态基准答案掩码进行训练

在非模态COCO上的非模态补全和分割定性结果，在蓝色圆圈中，展示了PCNet基线中存在纹理扭曲的补全区域，而本文结果则是正确的纹理

非模态伯克利分割数据集的定性结果，本文方法提供了准确、完整的遮挡物体重建

样本的多样性，非模补全具有固有的不确定性，通过扩散过程中的多次采样，该方法合成了多个可能与输入观察一致的整体物体

遮挡物体识别，在遮挡和分离COCO数据集上报告了零样本分类准确率，简单的基线方法无法在更具挑战性的分离COCO场景中提高CLIP性能，本文方法则始终以较大的优势提高了识别准确性

常识和物理错误

左图:重建结果中汽车朝着错误的方向行驶
右图:重建结果违反物理，未能捕捉到手必须拿着甜甜圈盒子的情况

非模态3D重建的定性结果，其中感兴趣的物体由黄色点提示指定，将pix2gestalt作为现有SOTA 3D重建模型的插件，能够更轻松的解决用例中具有挑战性的多样化遮挡场景

单视图3D重建，报告了Scanned Objects的Chamfer距离和体积IoU

从单张图像中合成新视图，报告了在Scanned Objects上的结果，请注意SSIM衡量的是图像质量，而不是新视图的准确率

—— 来自 S1Fun

Machinery · 发表于 2024-1-28 06:40

DeepSeek-Coder

当大型语言模型遇上编程——代码智能的崛起

github项目主页:https://github.com/deepseek-ai/DeepSeek-Coder

大型语言模型的急速发展已经在软件开发中彻底改变了代码智能化，然而，闭源模型的主导地位限制了广泛的研究和开发，为了解决这个问题，本文介绍了DeepSeek-Coder系列，这是一系列的开源代码模型，大小从1.3B到33B不等，在2万亿Token上从头开始训练，这些模型在一个高质量的项目级代码语料库上进行了预训练，并采用了一个16K窗口的fill-in-the-blank任务来增强代码生成和填充能力

进行的广泛评估表明，DeepSeek-Coder不仅在多个基准测试中取得了开源代码模型SOTA性能，还超过了现有的闭源模型，如Codex和GPT-3.5等，此外，DeepSeek-Coder模型采用宽松的许可证，允许同时进行研究和无限制的商业使用

DeepSeek-Coder的性能

数据集创建过程

选择的编程语言的清洁训练数据总结

使用FIM作为目标的效果

DeepSeek-Coder的超参数

在多轮对话环境中，DeepSeek-Coder-Instruct 33B的响应示例

在多语言HumanEval和MBPP基准上的方法性能

在DS-1000-Tasks上的不同方法性能

在LeetCode Contest基准上的不同模型性能

在FIM-Tasks上的不同方法的性能

在跨文件代码补全上的不同模型性能

在程序辅助的数学推理任务上的不同方法性能

DeepSeek-Coder-v1.5 7B预训练数据来源

通过编程解决数学任务对DeepSeek-Coder-Base和DeepSeek-Coder-Base-v1.5性能进行对比分析

—— 来自 S1Fun

Machinery · 发表于 2024-1-28 06:06

Multimodal Pathway

通过其他模态的交错数据改进Transformers

github项目主页:https://github.com/AILab-CVC/M2PT

本文提出了利用其他模态的无关数据来改进特定模态的transformers，例如，使用音频或点云数据集(audio or point cloud datasets)来改进ImageNet模型，值得强调的是，目标模态的数据样本与其他模态无关，这与其他利用不同模态的配对数据(例如CLIP)或交错数据的方法有所区别

提出了一种名为Multimodal Pathway的方法，给定一个目标模态和为其设计的transformer，使用经过另一模态数据训练的辅助transformer，并构建路径来连接两个模型的组件，这样目标模态的数据就可以被两个模型处理，通过这种方式，利用从两个模态获得的transformer通用序列到序列建模能力

作为具体实现，通常使用模态特定的分词器(tokenizer)和任务特定的head，但通过一种名为跨模态重参数化(Cross-Modal Re-parameterization)的方法，可以利用辅助模型的transformer blocks而不产生任何推理成本

在图像、点云、视频和音频识别任务中，观察到通过来自其他模态的无关数据，获得了显著且一致的性能改进

与使用对齐良好的多模态数据的已知范式相比，本文关注的是利用来自多个模态但是无关的场景的数据样本，这是目前待解决的开放问题

(左)M2PT(Multimodal Pathway Transformer)的框架，以点云和图像模态为例子

与transformer的常见做法遵循相同的流程:
1.使用分词器将输入数据转换为序列
2.使用transformer block处理序列
3.使用head解码序列

通过在不同模态的组件之间建立路径来更新序列到序列的建模，因此处理特定模态的token可以利用另一个模态训练的transformer block

(中间)M2PT的概念设计，其中路径是通过让目标模型中的线性层(包括注意力block中的Query/Key/Value/投影层和FFN block中的层)与辅助模型中的对应层进行合作来实现的

(右边)跨模态重参数化通过使用辅助模型的参数重新参数化目标模型的权重来高效实现M2PT，引入了边际训练成本，但完全没有推理成本

M2PT在图像、视频、点云和音频四个模态的每对之间都带来了一致改进，指标分别为ImageNet-1K准确率、Kinetics-400准确率、Part-Net mIoU和AudioSet准确率

这些数字表示M2PT模型相对于分别在四种模态上使用MAE式方法进行预训练的基线模型性能的改进百分比

在图像识别任务上的实验结果

在ImageNet上，报告了线性层微调(tune acc)或固定(fix acc)的transformer block结果

∗:结果是通过原版代码得出的，每个模型的架构都是ViT-B，相对于基线模型的改进显示为绿色

在点云数据集上的实验结果，报告了ShapeNet-Part上的类别mIoU(mIoUC)和实例mIoUI以及PartNet上的mIoU，相对于基线模型的改进显示为绿色

在AudioSet-2k上的实验结果，绿色同上

在Kinetics-400上的实验结果，绿色同上

—— 来自 S1Fun

Machinery · 发表于 2024-1-27 04:58

本帖最后由 Machinery 于 2024-1-27 05:01 编辑

ChatterBox

多轮多模态指代和基准(Referring and Grounding)

github项目主页:https://github.com/sunsmarterjie/ChatterBox

在这项研究中，为一项名为多模态多轮指代与基准(MRG/multimodal multi-round referring and grounding)的新任务建立了一个新基线，为实例级多模态对话开辟了一个有前景的方向，为此，构造了一个新的基准测试集CB-300K，以及一个高效的视觉语言模型ChatterBox，CB-300K基准测试集涵盖多轮对话、多个实例之间的复杂空间关系、一致的推理等挑战，超越了现有基准测试集

提出的模型名为ChatterBox，采用了一个双分支(two-branch)架构来协同处理视觉和语言任务，通过对实例区域进行分词化(tokenizing)，语言分支获得了感知指代信息的能力，同时，ChatterBox将视觉分支中的查询嵌入馈送给一个Token接收器进行视觉基准，还设计了一个两阶段的优化策略，利用CB-300K和辅助外部数据来改进模型在实例级理解方面的稳定性和能力

实验证明，ChatterBox在MRG方面，定量和定性实验中都优于现有模型，为复杂而精确的多模态对话场景铺就了一条新的道路

多轮指代和视觉基准(MRG)任务的示例，在对话过程中，机器人可以收到用于指代表达的[REF] Token或用于视觉基准的[GND] Token，如果没有这些Token，任务就变成了通常的视觉问答

所有的答案都是由ChatterBox代理者生成的，展示了它在视觉识别方面的强大能力，特别是，ChatterBox可以理解逻辑相关的问题，并结合上下文信息提供答案，例如，在右边的对话中，问题“‘Where is the other one?”需要识别“one”指代的是一个人，然后定位“另一个”与之前提到的那个人所不同的人物

ChatterBox与最近的研究方法在进行多轮对话(包括区域级指代和视觉基准)方面的能力、提出的新数据(†表示需要生成新的对话数据而不仅仅是重新组织现有数据)，训练成本方面的差异，N/R表示未报告

CB-300K数据集包含了四个不同目的的子集

图像和元数据(物体位置和描述)来自Visual Genome，同一张图片可以出现在不同的子集中，前两个子集CB-MRG和CB-LC是通过提示GPT-4阅读元数据并生成问题和答案来获得的，后两个子集CB-REF和CB-GND是使用手动设计的规则生成的，并经由GPT-3.5修订

每个独立子集和整个基准测试的关联列数量和问题答案对数量

ChatterBox模型的架构，它接收图像和当前问题以及对话历史作为输入，并生成语言输出和必要时的视觉输出(即视觉基准结果)，放大了位置解码器说明查询Token和视觉特征之间的互动

ChatterBox与之前的工作之间的基于MRG指标的定量对比

LISA，Kosmos-2和ChatterBox之间多轮对话的定性对比，本文模型在理解多轮对话和进行推理方面展现了卓越的能力，值得强调的是，更强的视觉识别能力是由明确的视觉模块带来的

在RefCOCOg数据集上针对单轮指代表达进行定量对比

在COCO 2017测试集上针对单轮视觉基准进行定量对比

以BERT得分和T得分为指标的诊断结果

CB-300K:是否使用CB-300K进行训练
Ref. Words:在推理阶段是否使用指代表达
注意:第三行不是一个公平的对比，因为它比MRG更容易

—— 来自 S1Fun

Machinery · 发表于 2024-1-27 01:08

ConTextual

评估大型多模态模型上下文相关的富文本(Context-Sensitive Text-Rich )视觉推理

项目主页:https://con-textual.github.io/

github项目代码仓库:https://github.com/rohan598/ConTextual

hugface数据集下载:https://huggingface.co/datasets/ucla-contextual/contextual_all

评估排行榜:https://con-textual.github.io/#leaderboard

最近的人工智能发展引领了大型多模态模型(LMMs)的进步，这些模型能够处理涉及文本和图像内容的复杂任务(例如在公共场所中导航地图)

本文介绍了ConTextual，一个新颖的基准测试，其中包含专门设计用于评估LMMs在执行上下文相关的富文本视觉推理能力方面的指令，ConTextual强调多样化的现实场景(例如，读时钟、导航、购物等)，要求更深入地理解文本和视觉元素之间的交互

研究发现，最佳的LMM，即GPT-4V(ision)，与人类评估的人类能力相比存在30.8%的性能差距，这表明在上下文相关的富文本视觉推理方面还有很大的改进空间，值得注意的是，虽然GPT-4V在抽象类别(如表情包和引用解释)方面表现出色，但其整体性能仍落后于人类，除了人类评估，还使用了GPT-4进行了自动评估指标，发现了类似的性能差距趋势，通过对不同的视觉环境进行细致的评估，并提供了定性分析，为LMM设计的未来发展提供了一个强大的框架

GPT-4V、Gemini-Pro-Vision、ShareGPT-4V-7B和人类在CONTEXTUAL数据集上的表现

(a)人类评估和基于GPT-4的自动评估的响应正确性
(b)使用基于GPT-4的评估在视觉上下文变化中的细粒度性能

现有数据集(如ESTVQA)和CONTEXTUAL数据集在富文本视觉推理方面的特性对比

(a)之前的数据集主要测试LMM的阅读能力，因此，它们的问题可以通过对准确的OCR检测结果进行纯文本推理来解决，然而，本文希望评估现代模型在更具挑战性的场景中的能力，因为它们已经展现出了增强的视觉感知和推理能力
(b)CONTEXTUAL的实例构造成可以测试模型捕捉图像中文本和视觉内容交互的上下文能力，在这里，仅仅依靠检测到的OCR进行纯文本推理是不够的

用于评估大型多模态模型在富文本视觉推理方面的相关工作的对比，将上下文相关缩写为Consens.，生成缩写为Gen

CONTEXTUAL中的8种视觉上下文示例各取其一，大型多模态模型应该能够遵循

数据收集工作流程:
(1)短列表图像，利用手动和自动方法从源数据集中筛选出要进行标注的图像
(2)指令与响应创建，将作者分为两个独立的组(绿色表示第一组，紫色表示第二组)，分配给每个组对应四个类别的图像进行标注
(3)数据样本验证，仔细检查在前一阶段标注的<图像，指令，响应>三元组，其中一组交叉验证另一组所做的标注

CONTEXTUAL的关键统计数据

指令中出现的最频繁的前40个发生动词(内圈)和它们的前4个直接名词(外圈)

在CONTEXTUAL数据集上对比各种基础模型(增强LLM和LMMs)和人类的性能，使用人工评估、自动GPT-4和基于GPT-4V的评估来报告响应接受率，此外，还报告了标准的文本生成质量评估指标，包括BLEURT、Rouge-L和BERTScore

可以发现人类在数据集上表现优于所有现有模型，而最好的LMM GPT-4V与人类性能相差30%

使用ROC-AUC和spearman相关性对比人工和自动评估指标，基于GPT-4和GPT-4V的评估在两种方法中与人类相关性最高

CONTEXTUAL数据集上的少样本性能

基于GPT-4评估，对CONTEXTUAL数据集上的基础模型(增强LLM和LMMs)和人类的性能进行细粒度对比

平均响应接受率缩写为Avg.，购物为Shop.，导航为Nav.，摘要为Abs.，应用使用为App.，网络使用为Web，信息图为Info.，其他自然场景为NS

GPT-4V在大多数类别上优于所有模型基线，而Gemini-Pro-Vision在网络使用和自然场景方面表现最好

在这个例子中，尽管具有逻辑推理能力，GPT-4V对指令提供了一个错误的回答，绿色表示与参考答案匹配的回答，红色突出显示回答中的错误，此外，还提供了总结推理来概述GPT-4V得出答案所使用的基本原理

在这个例子中，GPT-4V对指令作出了正确的回答，然而，ShareGPT-4V-7B(表现最佳的开源LMM)和带有布局感知的OCR+字幕说明的GPT-4(增强LLM)给出了错误的回答，因为它们缺乏对文本和图像的联合推理能力

—— 来自 S1Fun

Machinery · 发表于 2024-1-26 22:57

InstructDoc

通过指令进行视觉文档理解的零样本泛化数据集

github项目代码仓库:https://github.com/nttmdlab-nlp/InstructDoc

本文研究了如何通过人工编写的指令完成各种视觉文档理解(VDU/visual document understanding)任务，例如问答和信息提取等

为此，本文提出了InstructDoc，这是第一个包含30个公开可用的VDU数据集的大规模集合，每个数据集都采用统一的格式包含多样化的指令，涵盖了12种不同的任务，包括各种开放的文档类型/格式

此外，为了提高VDU任务的泛化性能，还设计了一种新的基于指令的文档阅读和理解模型，称为InstructDr，它通过可训练的桥接模块(trainable bridging module)连接文档图像、图像编码器和大型语言模型

实验证明，InstructDr能够通过给定的指令有效地适应新的VDU数据集、任务和领域，并且在没有特定训练的情况下优于现有的多模态LLMs和ChatGPT

InstructDoc数据集的示例，输入定义了意图(蓝色)、查询和选项(绿色)和答案风格(红色)

查询和选项以及输出来自原始数据集，只对意图和答案风格组成的或仅意图组成的指令进行了标注

InstructDoc使用的数据集，涵盖了各种VDU任务和文档类型和格式

InstructDr模型，在训练过程中，只更新Document-former的参数和投影FFN层的参数

InstructDoc和其他VDU指令调整数据集的统计数据，排除了DocOwl中除了VDU任务之外的数据，IT代表指令模板(instruction templates)

InstructDr和MLLMs在VDU任务上的零样本性能
“T/L/V”表示文档的“text/layout/visual”模态
#TuP/#ToP表示调整/总参数的数量
最高的零样本性能以粗体标记
†表示原论文中报告的监督性能，因为它并不公开可用
IDoc表示InstructDoc

InstructDr和监督SOTA模型以及强大的基于文本的LLMs在VDU任务上的零样本性能

*表示使用不同的拆分进行评估，因为它们在排行榜上进行评估，无法使用F1进行评估

架构和指令的消融实验，报告了可以进行消融的得分

在DUDE上五个不同指令的零样本性能对比
w/o Multiple instructions表示本文模型在每个数据集上使用单指令进行训练

模型性能随训练中使用的任务聚类数量变化，(·)表示任务数量

定性示例，输出是正确/充分(绿色)和不正确/不充分(红色)的答案，(...)表示省略号

在测试集上进行的held-in(VisualMRC)和held-out(DUDE/SlideVQA)任务的微调性能

场景文本VQA任务的零样本性能

—— 来自 S1Fun

Machinery · 发表于 2024-1-26 22:12

SpeechGPT-Gen

拓展信息链(Chain-of-Information)语音生成

github项目主页:https://github.com/0nutation/SpeechGPT

得益于有效的语音建模，当前的语音大型语言模型(SLLMs/Speech Large Language Models)在上下文语音生成和对未见的说话者(unseen speakers)方面展现了高效泛化的卓越能力，然而，当前的信息建模过程存在某些冗余，导致语音生成效率低下

本文提出了信息链生成(CoIG/Chain-of-Information Generation)的方法，用于在大规模语音生成中解耦语义和感知信息(perceptual information)，在此基础上开发了SpeechGPT-Gen，一个8亿参数的SLLM，能够高效地建模语义和感知信息，它包括一个基于LLM的用于语义信息建模的自回归模型，以及一个采用流匹配(flow matching)进行感知信息建模的非自回归模型，此外，还引入了将语义信息注入先验分布以增强流匹配效率的新方法

广泛的实验结果表明，SpeechGPT-Gen在零样本文本转语音(zero-shot text-to-speech)、零样本声音转换(zero-shot voice conversion)和语音到语音对话(speech-to-speech dialogue)方面表现出色，展现了CoIG在捕捉和建模语音语义和感知维度方面的卓越能力

三种语音生成方法的示意图，整合建模(Integrated modeling)表示同时进行语义建模和感知建模

(a)整合生成
(b)语义解耦生成
(c)信息链生成

SpeechGPT-Gen的概览图，解码器代表SpeechTokenizer解码器，不同颜色的块代表包含不同信息的表征

零样本文本到语音和声音转换的结果

语音到语音对话的结果

AR(自回归)建模和NAR(非自回归)建模的整合生成、语义解耦生成和信息链生成的训练损失

整合生成、语义解耦生成和信息链生成相关的零样本TTS的单词错误率和说话者相似度

使用标准高斯先验和语义先验进行流匹配的零样本语音转换的单词错误率和说话者相似度

不同大小的流匹配模型的训练损失和零样本语音转换的单词错误率和说话者相似度

离散感知建模和连续感知建模的零样本语音转换的单词错误率和说话者相似度

—— 来自 S1Fun

Machinery · 发表于 2024-1-26 21:18

本帖最后由 Machinery 于 2024-1-26 21:20 编辑

MaLA-500

大型语言模型的大规模语言适配

hugface权重下载:https://huggingface.co/MaLA-LM/mala-500

大型语言模型在自然语言处理方面取得了领先地位，然而，它们主要被设计用于英语或一组有限的语言，这导致了对于资源稀缺的语言而言，它们的效果存在较大的差距

为了弥补这一差距，本文推出了MaLA-500，一个新颖的大型语言模型，旨在覆盖广泛的534种语言，为了训练MaLA-500，采用了词汇扩展和在LLaMA上使用Glot500-c进行持续预训练的方法

在SIB-200上的实验表明，MaLA-500取得了SOTA上下文学习结果

使用不同LLM在SIB-200上的3-shot上下文学习宏平均(macro-average)准确率(%)的结果，mGPT没有约70亿参数的模型版本，因此选择了参数130亿的更大模型

在SIB-200上的3-shot上下文学习详细结果
X轴:不同准确率范围内的语言数量(%)

MaLA-500在SIB-200上不同样本数量的上下文学习宏平均准确率(%)

使用MaLA-500在SIB-200上进行上下文学习的详细结果
X轴:不同准确率范围内的语言数量(%)
Y轴:样本数量

—— 来自 S1Fun

Machinery · 发表于 2024-1-26 10:23

Say-I-Dont-Know

人工智能助理能否了解他们自身不知道什么

github项目仓库:https://github.com/OpenMOSS/Say-I-Dont-Know

最近，基于大型语言模型(LLMs)的AI助手在许多任务中展现出惊人的性能，比如对话、解决数学问题、编写代码与使用工具，虽然LLMs具有丰富的世界知识，但在面对一些知识密集型任务(如开放域问答)时，它们仍然会出现事实错误，这些不真实的回应可能会在实际应用中带来重大风险

因此，可以认为AI助手拒绝回答它不知道的问题是减少幻觉和保持助手真实性的关键方法，在本文中提出了一个问题:“AI助手能否知道自己不知道什么，并用自然语言表达出来？”

为了回答这个问题，针对一个助手构建了一个特定于模型的“我不知道”(Idk)数据集，其中包含它所知道和不知道的问题，基于现有的开放域问答数据集，然后将助手与相应的Idk数据集进行对齐，观察在对齐后它是否能够拒绝回答自己不知道的问题

实验结果显示，在与Idk数据集对齐后，助手可以拒绝回答大多数未知问题，而对于它们尝试回答的问题，准确率显著提高

AI助手的知识象限图

“Unknowns”表示AI实际上不知道的内容
“Knowns”表示AI实际上知道的内容
“Known”表示AI认为自己知道的内容
“Unknown”表示AI认为自己不知道的内容

基于Idk数据集的AI助手的知识象限图(Ik阈值=1.0)

IK-IK表示AI正确回答了问题
IDK-IK表示AI知道答案但拒绝回答问题
IDK-IDK表示AI错误回答了问题
IK-IDK表示AI不知道答案并拒绝回答问题

w/Idk-Prompting:使用提示可以将某些IDK-IDK问题转化为IK-IDK问题
w/Idk-SFT:Idk-SFT允许模型拒绝回答更多它不知道的问题，但这也往往会使模型更加保守，导致错误地拒绝回答一些实际上它知道的问题
w/Idk-DPO:使用偏好感知优化(如DPO)可以减轻模型的过度保守，并减少IDK-IK问题的数量

上方:Idk数据集的构建过程
下方:偏好对构建过程，绿色回答表示正确答案，红色回答表示错误答案，“I don’t know”表示拒绝回答的模板

基于TriviaQA和分布外(OOD)测试集构建的Idk数据集的测试集整体结果

在不同规模的模型上的Idk-SFT实验结果

左侧:根据不同Ik阈值构建的Idk数据集中Ik和Idk问题的比例变化
右侧:在不同Idk数据集上进行Idk-SFT后，IK-IK比率、IK-IDK比率和TRUTHFUL比率的变化

—— 来自 S1Fun

Machinery · 发表于 2024-1-25 06:02

Yi-VL 6B/34B

Yi Vision Language(Yi-VL)多模态大型语言模型

Yi-VL项目主页:https://github.com/01-ai/Yi/tree/main/VL

Yi-VL 6B模型权重:https://huggingface.co/01-ai/Yi-VL-6B

Yi-VL 34B模型权重https://huggingface.co/01-ai/Yi-VL-34B

机器之心相关介绍:https://www.jiqizhixin.com/articles/2024-01-22-10

量子位相关介绍:https://www.qbitai.com/2024/01/115765.html

构架信息

相关英文与中文基准测试结果

实际用例

—— 来自 S1Fun

Machinery · 发表于 2024-1-25 05:12

Orion-14B

开源多语言大型语言模型

github项目主页:https://github.com/OrionStarAI/Orion

技术报告:https://arxiv.org/abs/2401.12246

Orion-14B-Base是一个具有140亿参数的多语种大模型，该模型在一个包含2.5万亿token的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言，在多语言环境下的一系列任务中展现出卓越的性能，在主流的公开基准评测中，Orion-14B系列模型表现优异，多项指标显著超越同等参数基本的其他模型，具体技术细节请参考技术报告

github项目页说明截图:

—— 来自 S1Fun

Machinery · 发表于 2024-1-25 04:56

本帖最后由 Machinery 于 2024-1-25 05:00 编辑

Ditto

大语言模型是所有角色的叠加:通过自对齐(Self-Alignment)实现任意角色扮演(Arbitrary Role-play)

github项目仓库:https://github.com/OFA-Sys/Ditto

社区对于开源大型语言模型(LLM)进行角色扮演能力增强方面付出了大量努力，这些模型试图通过模仿对应的专有模型进行增强，然而，本文认为LLM原生具有角色扮演能力，这是由于其广阔训练语料库中已经蕴含了角色知识和广泛的潜在对话能力

因此，在这项研究中引入了Ditto，一种用于角色扮演的自对齐方法，Ditto充分利用了角色知识，鼓励一个遵循指令的LLM模拟角色扮演对话，作为阅读理解的一种变体

该方法创建了一个包含4000个角色的角色扮演训练集，相对于当前可用数据集的角色，数量增加了十倍，随后使用这个自动生成的数据集对LLM进行微调，以增强其角色扮演能力

在评估精心构建且可复现的角色扮演基准和MT-Bench的角色扮演子集时，Ditto在各种参数规模下始终维持了一致的角色身份，并在多轮角色扮演对话中提供了准确的角色特定知识，值得注意的是，它超越了所有开源角色扮演基线，展现了可与高级专有聊天机器人相媲美的性能水平

此外，还展现了在角色扮演领域的首个全面的交叉监督对齐实验(cross-supervision alignment experiment)，揭示了LLM的内在能力限制了角色扮演中的知识，与此同时，角色扮演风格可以在较小模型的指导下轻松获得

DITTO通过自对齐提升了LLMs的角色扮演能力，在各种角色文档和对话中进行了预训练

DITTO示意图，DITTO由三阶段组成以进行角色扮演的自对齐

首先，DITTO从知识库中收集角色文档，如上部分所示，然后使用现成的聊天机器人生成角色特定和对比性的问题，接着通过知识增强的自回应(knowledge-augmented self-response)构建角色扮演监督数据集(对话模拟)，最后，DITTO在监督模型上微调数据集，增强角色扮演能力

LLM角色扮演的客观评估，提出了三个度量标准

数据集统计，将WIKIROLE与现有的开源角色扮演数据集进行了对比，WIKIROLE训练集中的查询由种子LLM生成，而测试集由GPT-4生成

DITTO的主要结果

Cons.、Know.和Rej.分别代表一致的角色身份、准确的角色相关知识和未知问题拒绝，“En”代表英文，“Zh”代表中文，“All”列显示双语测试样本的聚合得分

报告了一致性和拒绝评估的准确率，以及知识的1-10分，较深的背景颜色表示更好的性能，封闭源LLMs的参数数量未知，因此省略

查询模拟质量的人工标注

不同监督和种子LLMs之间的泛化分析，监督性能表示在DITTO模拟配方下进行角色扮演的性能，包括知识增强，模仿性能是指种子LLM在某些监督LLM的模拟上进行微调时的性能

对话模拟中知识注入的有效性，报告了Qwen-1.8B-Chat在测试集上具有和不具有角色知识注入的对话模拟性能

—— 来自 S1Fun

Machinery · 发表于 2024-1-25 04:15

Vary-toy

小型语言模型结合强化视觉词汇(Reinforced Vision Vocabulary)

项目主页:https://varytoy.github.io/

github项目代码仓库:https://github.com/Ucas-HaoranWei/Vary-toy

演示demo:https://vary.xiaomy.net/

当前时代，在AI社区中使用大规模视觉语言模型(LVLMs)已经成为一种潮流，然而流行的LVLMs通常拥有相对较多的参数(超过70亿)，这使得在消费级GPU上进行训练和部署变得困难，并让许多资源有限的研究人员望而却步，想象一下，如果能在唯一拥有的游戏卡(个人用户)GTX1080ti上体验当前LVLMs的所有功能是多么酷！

因此，在这份报告中介绍了Vary-toy，它是一个小型的Vary模型，使用Qwen-1.8B作为基础的“大型”语言模型，在Vary-toy中，引入了一个改进的视觉词汇表，使模型不仅具备Vary的所有特性，还能够具备更多的通用性

具体而言，在生成视觉词汇表的过程中，通过使用目标检测驱动的正样本数据(positive sample)替换了自然图像的负样本(negative samples of natural images)，更充分地利用了词汇网络的容量，并使其能够高效地编码与自然对象相对应的视觉信息

在实验中，Vary-toy在DocVQA上可以达到65.6%的ANLS，ChartQA准确率为59.1%，RefCOCO准确率为88.1%，MMVet准确率为29%

Vary-toy的特点，基于一个18亿参数的语言模型，Vary-toy可以实现原生Vary-base的所有功能，包括文档OCR、图像字幕说明、VQA、一般对话等等，此外，还为Vary-toy引入了自然物体(位置)感知能力，最重要的是，只需要一块单独的GTX1080ti GPU，您就可以体验到上述所有功能

Vary-toy的架构，通过利用Vary-tiny+工作流程生成Vary-toy的新视觉词汇表，这种视觉词汇表可以有效地将密集文本和自然物体位置信息编码成Token，基于改进后的词汇表，Vary-toy不仅具备了之前所有的功能(文档OCR)，还能很好地处理对象检测任务

Vary-tiny+使用的图像文本对可视化，对于PDF图像文本对，只有一个提示，而对于对象检测任务，使用了图中右半部分显示的两种类型的提示，因为一些图像可能会有太多对象，以至于超过OPT125M的最大Token长度(4096)

多任务训练数据，在预训练阶段引入了5种类型的数据，包括弱监督数据对、PDF图像文本数据对、检测数据、纯文本自回归数据和VQA数据，所有数据标注都被重新组织成对话格式

在DocVQA和ChartQA上与流行方法的性能对比，Vary-toy在DocVQA上可以达到65.6%的ANLS，与7B的Qwen-VL-chat相当，并且在ChartQA上可以达到59.1%的准确率，高于7B规模的mPLUG-DocOwl

在RefCOCO上与流行方法的对比，由于新视觉词汇表的帮助，Vary-toy在RefCOCO val上可以达到88.1%的准确率，与7B的Qwen-VL-chat相当

在MMVet上与流行的LVLM方法对比，只需要一个18亿参数的语言模型，Vary-toy就能够获得29.0%的准确率

Rec：识别；Know：知识；Gen：语言生成；Spat：空间意识

本文模型在四个常用领域的高质量可视化结果，可以看到，Vary-toy具有令人满意的通用能力，并且具备强大的文本和物体感知能力

—— 来自 S1Fun

Machinery · 发表于 2024-1-24 06:46

RPG-DiffusionMaster

掌控文本到图像扩散:使用多模态LLM进行重述、规划和生成(Recaptioning, Planning, and Generating)

github项目主页:https://github.com/YangLing0818/RPG-DiffusionMaster

扩散模型在文本到图像生成和编辑方面表现出色，然而，现有方法经常在处理涉及多个对象、多个属性和关系的复杂文本提示时面临挑战

在本文中，提出了一种全新的无需训练的文本到图像生成/编辑框架，名为Recaption，Plan and Generate(RPG)，利用多模态LLM的强大思维链推理能力来增强文本到图像扩散模型的组合性

本文方法将MLLM作为全局规划器，将生成复杂图像的过程分解为子区域内的多个更简单的生成任务，提出了区域互补扩散(complementary regional diffusion)，以实现区域感知的组合式生成，此外，通过以闭环的方式将文本引导的图像生成和编辑集成到提出的RPG中，增强了泛化能力

大量实验证明了RPG在多类别对象组合和文本图像语义对齐方面优于SOTA文本到图像扩散模型，包括DALL-E 3和SDXL，值得注意的是，RPG框架与各种MLLM架构(如MiniGPT-4)和扩散骨干模型(如ControlNet)具有广泛的兼容性

(a)文本条件扩散模型、(b)布局/基于注意力的扩散模型、(c) LLM基准扩散模型和(d)RPG之间的架构对比

与SDXL和DALL-E 3相比，本文提出的RPG在表达生成图像中复杂和组合的文本提示方面具有更强的能力(彩色文本表示关键部分)

RPG框架可以通过利用ControlNet来扩展文本到图像生成的更多条件(例如姿态、深度和边缘)，与原始的ControlNet相比，RPG通过将"用户输入"分解为基本提示和子提示的组合，显著改善了其提示理解，并通过执行区域感知的扩散生成进一步增强了生成图像的组合语义对齐

RPG框架用于文本到图像生成的概览图

区域划分的示例说明

区域互补扩散中的每个采样步骤的演示

RPG以闭环的方式整合了文本引导的图像生成和编辑

RPG与SOTA文本到图像模型SDXL和DALL-E 3以及LLM基准扩散模型LMD+之间的定性对比

在T2I-CompBench上的评估结果，RPG在属性绑定、对象关系和复杂组合方面始终表现出最佳性能，用蓝色表示最佳得分，绿色表示次佳得分，基线数据引用自Chen等人(2023a)

分层区域扩散的演示，具有更多层次的扩散可以产生更令人满意的结果

将RPG推广到不同的扩散骨干网络，包括稳定扩散v2.1和最新的SOTA扩散模型ConPreDiff

在文本引导的图像编辑方面进行的定性对比，本文方法的表现优于以前的各种方法，包括Prompt2Prompt、InstructPix2Pix和MasaCtrl等

使用RPG框架进行多轮文本引导的图像编辑

RPG中关于重述的消融实验

RPG中CoT规划的消融实验

区域互补扩散中基本提示的消融实验

—— 来自 S1Fun

Machinery · 发表于 2024-1-24 05:55

CMMMU

中文大规模多学科多模态理解基准测试

项目主页:https://cmmmu-benchmark.github.io/

github项目仓库:https://github.com/CMMMU-Benchmark/CMMMU

排行榜:https://cmmmu-benchmark.github.io/#leaderboard

数据集:https://huggingface.co/datasets/m-a-p/CMMMU

随着大型多模态模型模型(LMM)能力的持续进步，评估LMM的性能成为一种日益增长的需求，此外，评估LMM在诸如中文等非英语环境中的高级知识和推理能力方面存在着很大的差距

本文介绍了CMMMU，一个全新的中文大规模多学科多模态理解基准测试，旨在评估LMM在中文环境中需要的大学级学科知识和深思熟虑推理方面的能力，CMMMU受到MMMU的启发，并严格遵循其标注和分析模式

CMMMU包含从大学考试、测验和教科书中手动收集的1.2万个多模态问题，涵盖六个核心学科：艺术与设计、商业、科学、健康与医学、人文社科、技术与工程，与其伙伴MMMU相同，这些问题涵盖30个学科，包括39种高度异构的图像类型，如图表、图示、地图、表格、乐谱和化学结构

CMMMU关注的是在中文环境中具有特定领域知识的复杂感知和推理能力，评估了11个开源LMM和一个专有的GPT-4V(ision)，即使是GPT-4V，准确率也只有42%，这表明还有很大的改进空间

CMMMU将推动社区构建面向专家人工智能的下一代LMM，并通过提供多样的语言环境促进LMM的广泛使用

CMMMU中的学科

从每个学科中抽样的CMMMU示例，这些图片包括乐谱、表格、化学结构、曲线、电路图和其他类型的图片，高难度的问题需要专家级的知识来理解和推理

CMMMU中6个学科和30个主题的比例，30个主题中的多模态样本均均匀地涵盖了相关的专家级领域知识

与其他多模态基准测试的对比

CMMMU的统计数据

图像类型及其对应数量

开源和闭源模型在CMMMU验证和测试集上的整体结果，粗体结果表示所有模型中的最佳结果，蓝色结果表示开源模型中的最佳结果

按问题类型分解的结果

按问题难度级别分解的结果，粗体结果表示所有模型中的最佳结果，蓝色结果表示开源模型中的最佳结果

GPT-4V的错误响应的类型分布

—— 来自 S1Fun

Machinery · 发表于 2024-1-24 04:59

本帖最后由 Machinery 于 2024-1-24 05:01 编辑

mllm-nvar

多模态大型语言模型的非言语抽象推理(Nonverbal Abstract Reasoning)的奇怪案例

github项目主页:https://github.com/kahrabian/mllm-nvar

尽管大型语言模型(LLMs)仍然不断应用于新的领域并在新应用中发挥作用，但当前依然在经历新一代基础模型的不断涌入，即多模态大型语言模型(MLLMs)，这些模型整合了语言和视觉信息，为这两种模态的交错点上的更复杂的推理能力开辟了新的可能性

然而，尽管MLLMs非常具有前景，但目前对它们的推理能力的理解还很有限，在这项研究中，使用变种Raven的渐进矩阵式(Raven's Progressive Matrices)评估了开源和闭源MLLMs的非言语抽象推理能力

实验揭示了解决这类问题的困难，同时展现了开源和闭源模型之间的巨大差距，还揭示了个别视觉和文本模块的关键缺陷，使模型的性能受到限制，最后，为了提高MLLMs的性能，尝试了各种方法，如CoT提示等，在性能上取得了显著的提升

在IQ50数据集的示例上的模型对样本的预测结果，给定一个带有视觉难题(visual puzzle)的提示(顶部)，模型生成一个包含所选选项的推理响应

使用广泛的下一个Token得分方法在IQ50、RAVEN-S和Marvel数据集上的零样本准确率，对于每个数据集，MLLMs的最佳性能以粗体显示，第二好的性能以下划线显示

T→运行一周后超时
∗→使用半精度(例如bfloat16)运行以适应GPU显存
‡→性能优于随机基线

使用广泛的下一个Token得分方法对相关参数数量进行零样本准确率对比，模型按照从最小到最大排序，同一族类的模型颜色相同，红色虚线表示随机基线

使用一一对比(one by one)和广泛的下一个Token得分方法在IQ50数据集上的零样本准确率对比

带有†标记的结果来自于Zhao等人(2023)的研究，取决于运行错误，无法复制它们(无论是Huggingface还是GitHub版本)，红色虚线表示随机基线

通过人工检查评估在IQ50上进行指令调整的模型的推理正确性表现，答案和推理分别用A和R表示，最佳性能以粗体显示，第二好的性能以下划线显示

在IQ50上使用仅文本提示的零样本CoT准确率

在IQ50的子集上的视觉感知问题表现

在IQ50上使用不同类型提醒(hints)的gpt-4v和gemini-pro-vision的引导提示表现

Z-S → Zero-shot
Gen → General
Sam → Sample-specific
Cor → Corrective

在IQ50上的零样本和对称少样本准确率

在(a)分布内(In-Distribution)，演示取自IQ50，而在(b)超出分布(Out-of-Distribution)中，演示取自RAVEN-S，每个变体都使用不同的种子执行了五次，以减少随机抽样的影响，红色虚线表示随机基线

在IQ50上的对称少样本CoT准确率

在IQ50上的非对称少样本CoT准确率

—— 来自 S1Fun

Machinery · 发表于 2024-1-24 00:05

S-Seg

探索简单的开放词汇语义分割(Open-Vocabulary Semantic Segmentation)

github项目主页:https://github.com/zlai0/S-Seg

开放词汇的语义分割模型旨在从一组任意的开放词汇文本(a set of arbitrary open-vocabulary texts)中为图像中的每个像素精准地分配语义标签(semantic label)

为了学习这种像素级(pixel-level)的对齐，当前的方法通常依赖于以下组合:
(i)图像级(image-level)的视觉语言模型(例如CLIP)
(ii)人工标注的基准掩码答案
(iii)使用定制编码器进行分组

在本文中，引入了一种新颖的模型，S-Seg，可以在不依赖以上任何元素的情况下取得令人惊讶的强大性能，S-Seg利用伪掩码(pseudo-mask)和语言训练MaskFormer，并且可以从公开可用的图像文本数据集中进行简单训练

与先前的工作相反，本文模型直接训练像素级特征并与语言对齐，一旦训练完成，S-Seg可以很好的在多个测试数据集上泛化，而无需进行微调，此外，S-Seg在使用数据进行缩放以及与自训练相结合时，拥有可以持续改进的额外好处，可以相信，本文简单而有效的方法将为未来的研究提供一个坚实的基线

对网络图像分割的S-Seg结果，目标是对所有物体进行分割，包括虚构角色(例如minions)

S-Seg框架利用伪掩码和语言来训练MaskFormer，展示了本文方法直接训练像素级特征和语言对齐，也能产生优秀的结果

使用所有的数据集类别作为查询进行评估的S-Seg的定性结果，本文模型能够应对挑战性情况，例如重叠物体和小物体，还能够处理“stuff”类别，比如水和地板，此外，本文的S-Seg+模型能够纠正S-Seg方法中的小错误

最后，即使在COCO数据集中，本文模型仍能在预测中保持高准确率，即使该数据集包含更多的物体

使用图像文本对训练S-Seg的伪代码(Pseudocode)

S-Seg的概览图，一个MaskFormer模型从图像输入中计算掩码和掩码特征，一个伪掩码生成器(pseudo-mask generator)产生用于监督掩码预测的分割图，而描述图像的文本通过语言模型编码并与MaskFormer一起训练，使用图像文本对比损失(image-text contrastive loss)来提供对掩码特征的监督

在S-Seg上进行测试，在推理过程中，S-Seg通过利用文本中的候选类别(a list of candidate classes in text)生成的语言特征(language features)来推广到新的类别(new categories)

伪掩码生成器在训练过程中生成伪掩码来监督预测的掩码，该模块以图像作为输入，使用经过DINO预训练的ViT提取其特征，然后应用K-means聚类将像素分组成分割(segments)

伪掩码生成器迅速实现了出色的预示(oracle)性能，使其成为理想的掩码监督，报告了在一个批次中的128个样本上的分期的运行时间，模拟训练时的场景

*以H/8 × W/8分辨率处理降采样的图像，以获得合理的运行时间

伪掩码示例，伪掩码生成器能够生成高质量的人工掩码，当提供预示标签时，这些掩码与基准答案标注之间有很高的重叠度

与现有方法的定性对比，CLIP主要用于分类，在分割方面表现不佳，而MaskCLIP将CLIP用于分割，但会产生噪声预测，并且不能处理背景类别，GroupViT是一个强有力的竞争对手，但在挑战性的场景中会遇到困难

用于开放词汇语义分割的简单基线，所有模型都在CC12M上进行过训练，数值越高效果越好，即使使用了本文的伪掩码和更多的训练数据，两个简单的基线也无法获得令人满意的结果

开放词汇语义分割结果(评估中包括背景像素)，在Pascal VOC (P. VOC)，Pascal Context (P. Context)和COCO上进行评估，按照无标注掩码的开放词汇模型的标准评估协议进行评估

本文方法得到了第二好的平均表现，并且在所有数据集上都比GroupViT更好

†表示重新计算的结果，数值越高越好

开放词汇语义分割结果(评估中排除了背景像素)，按照使用标注掩码的开放词汇模型的标准协议进行评估，与之前的方法相比，S-Seg在此设置下实现了有竞争力的性能

†表示重新计算的结果，*COCO用于训练，数值越高越好

自训练的改进，在图上展示了相对改进的平均值，观察到，在所有的训练和测试数据设置中，自训练始终显著提高了S-Seg的性能

自训练效果可视化，自训练的S-Seg+模型展示了在S-Seg忽略的区域准确预测的能力，如彩色矩形所示

扩大训练数据规模可以提高性能，无论是否进行自训练，使用不同规模的数据进行模型训练:CC12M(12M)、CC12M+CC3M(15M)和CC12M+CC3M+RedCaps(26M)，注意到，随着数据规模的增加，性能稳步提高

网络图像的定性结果，右侧显示了查询类别名称

第一行:S-Seg能够分割动画场景中的虚构角色
第二行:虽然进行了泥浴，但仍然能轻松识别和分割老虎
第三行:S-Seg能够识别特定的地标

—— 来自 S1Fun

Machinery · 发表于 2024-1-23 02:28

FuseLLM

大型语言模型的知识融合(Knowledge Fusion)

github项目地址:https://github.com/fanqiwan/FuseLLM

通过从头开始训练大型语言模型(LLM)，可以构建具有独特功能和优势的模型，但这会付出巨大的成本，且有可能导致冗余的能力，相反，一种高效且瞩目的方法是将现有的预训练LLM合并成一个更强大的模型

然而，由于这些LLM的架构不同，直接混合它们的权重是不可行的，在本文中，引入了LLM的知识融合概念，旨在将现有LLM的能力结合起来，并将其转移到单个LLM中，通过利用源LLM的生成分布，外化了它们的集体知识和独特优势，从而提升目标模型的能力，并超越任何单个的源LLM的能力

使用具有不同架构的三种流行LLM(Llama-2、MPT和OpenLLaMA)在各种基准和任务中验证了本文方法，研究结果表明，LLM的融合可以提高目标模型在推理、常识和代码生成等多个能力方面的性能

github项目页说明截图:

—— 来自 S1Fun

		自动登录	找回密码
密码			立即注册

[科技] 开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

本帖子中包含更多资源

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源