Stage1st

 找回密码
 立即注册
搜索
楼主: yesicant
打印 上一主题 下一主题

[科技] 开源类GPT4多模态模型项目-OpenFlamingo-转型开源模型项目集合页

  [复制链接]
     
641#
发表于 2023-7-4 02:51 | 只看该作者
本帖最后由 Machinery 于 2023-7-4 06:09 编辑

Magic123

使用2D和3D扩散先验从一张图像生成高质量3D对象

项目主页:https://guochengqian.github.io/project/magic123

github项目仓库(待整理):https://github.com/guochengqian/Magic123

Magic123是一种两阶段的从粗到细的优化方法,可使用2D和3D先验从真实自然场景的单张未给出摄像头姿态的图像重建具有详细3D几何形状和高渲染分辨率(1024×1024)的高质量3D网格

在第一阶段,优化NERF产生粗略的几何形状,在第二阶段,采用显存高效的可微网格表征来生成具有视觉吸引力的纹理的高分辨率网格

在这两个阶段中,3D内容通过参考视图进行监督和由2D和3D扩散先验相结合引导的新颖视图来学习的,通过在2D和3D先验之间引入了一个权衡参数,可以控制生成的几何图形的倾向(更有想象力或更精确)

此外,分别采用了文本反转(textual inversion)和单眼深度正则化来鼓励不同视图之间的外观一致并防止效果退化,Magic123展示了比以前的图像转3D技术更显著改进,这一点通过对合成基准和各种真实世界图像的大量实验进行了验证

Magic123框架流程:


质量评估示例与控制参数效果对比:





—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
642#
发表于 2023-7-4 03:30 | 只看该作者
ChatLaw

具有集成外部知识库的开源法律大语言模型

简介如下图

github项目地址:https://github.com/PKU-YuanGroup/ChatLaw

相关文章:https://www.zhihu.com/question/610072848/answer/3101663890





注:既然开了相似度匹配模型怎么不把数据集也开了

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
643#
发表于 2023-7-4 05:53 | 只看该作者
本帖最后由 Machinery 于 2023-7-4 05:56 编辑

replit-code-instruct-glaive

glaive公司微调的开源代码生成模型replit-code-instruct-glaive,使用的模型底座为replit-code-3B(from csahil28)

模型权重仓库:https://huggingface.co/sahil2801/replit-code-instruct-glaive

code-eval评测记录:https://github.com/abacaj/code-eval

演示Demo(from teknium):https://huggingface.co/spaces/teknium/sahil2801-replit-code-instruct-glaive

instruct-glaive的新微调代码模型在HumanEval的pass@1基准测试中取得了63.5%的新SOTA开源记录,超越了WizardCoder,该模型只有3B个参数,比WizardCoder小5倍

注:与gpt4相比,replit-code-instruct-glaive更擅长直接生成代码而不是解释代码



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
644#
发表于 2023-7-5 01:16 | 只看该作者
本帖最后由 Machinery 于 2023-7-5 01:26 编辑

JourneyDB

对于生成图像理解的基准数据集

项目主页:https://journeydb.github.io/

github项目仓库:https://github.com/JourneyDB/JourneyDB

JourneyDB数据集地址:https://huggingface.co/datasets/JourneyDB/JourneyDB


最近的视觉语言模型(vision-language models)的最新进展彻底改变了多模态理解,但仍不清楚它们是否具有理解生成图像的能力,与真实数据相比,合成图像在内容和风格上表现出更高程度的多样性,而模型要完全理解这些多样性存在很大的困难

为此,本文提出了一个大规模数据集JourneyDB,可以应用于生成图像中的多模态视觉理解领域,包含精心策划构建的涵盖400万张多样化且高质量的生成图像,以及用于生成这些图像的文本提示



进一步设计了4个基准来量化生成图像理解,包括内容和风格解释方面的性能,分别是提示反转(prompt inversion)、风格检索、图像字幕和视觉问答

最后,评估了当前的SOTA多模态模型应用于JourneyDB时的性能,并深入分析了它们在生成内容理解方面的优势和局限性,研究组希望所提出的数据集和基准能够促进生成内容理解领域的研究


数据收集程序,为了收集足够的生成图像,研究组调查了Discord上的Midjourney频道以收集可用的图片,然后使用GPT-3.5来注释下游任务,包括
1.将提示分为“风格”和“内容”
2.根据从任务1获得的内容词生成标题
3.生成“风格相关” 问题”和“内容相关问题”,每个问题提供 4 个选项以及答案

然而,预测图像的提示(prompts)是一项具有挑战性的任务,现有的视觉理解模型,例如图像标题(image-caption)模型,通常无法提供图像主要内容(例如主题)的详细描述,而忽略了其他重要细节,例如视点、照明或艺术风格

在实验过程中,观察到现有模型难以捕获输入图像的复杂细节和风格相关信息,导致与传统数据集相比性能更低

为了验证数据集的有效性,对Uni-Perceiver v2进行了20 个epoch的微调,并注意到提示反演任务有了显着改进。 值得注意的是,微调遵循概述中的训练方法,没有调整超参数或采用数据增强,这表明JourneyDB可以补充现有的图像文本数据集来训练提示反演模型, 不过即便如此,开发稳健有效的提示反演模型还有很长的路要走

相关评估结果:



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
645#
发表于 2023-7-5 01:52 | 只看该作者
本帖最后由 Machinery 于 2023-7-5 01:53 编辑

metatrained-demRAG

使用范例检索进行的元训练可实现高效的小样本学习效率

github项目仓库(待整理):https://github.com/facebookresearch/metatrained-demRAG

大型语言模型在少样本NLP任务上显示出令人印象深刻的结果,然而,这些模型是显存和计算密集型的

元训练(Meta-training)允许人们利用较小的模型以领域通用和任务无关的方式进行少样本泛化,然而,这些方法本身会导致模型可能没有足够的参数化或知识来快速适应多样化的任务

为了克服这个问题,本文提出了带有范例检索的元训练,其中使用密集的段落检索器来检索与每个示例语义相似的标记演示,以实现更多样化的监督,通过将外部知识与模型参数分离,可以使用元训练来训练参数高效的模型,这些模型可以很好地泛化到通用领域更多种类的任务性能中

研究组从UnifiedQA和CrossFit构建了一个元训练集,并提出了一个基于UnifiedQA任务的范例库(demonstration bank)

本文是第一个将检索与元训练相结合的工作,通过使用DPR模型检索演示,并同时利用来自多个任务的演示,而不是从目标任务的训练集中随机采样演示

本文方法在QA、NLI和文本分类任务(包括SQuAD、QNLI和TREC)上优于各种目标参数高效和检索增强的小样本方法,同时可以在单个GPU上进行快速的元训练和微调


方法流程,给定来自许多可能的QA任务之一的输入x,使用密集段落检索器从标记示例组成的范例库Z中检索K个语义相似的演示Z={zk}1,...,K,对BART进行元训练,监督它在给定x和Z的不同QA任务集合中生成(问题和)答案y

数据集与相关评估结果:




—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
646#
发表于 2023-7-5 02:15 | 只看该作者
sam-pt

当SAM遇到点追踪(Point Tracking)

github项目地址:https://github.com/SysCV/sam-pt

Segment Anything Model(SAM)已成为强大的零样本图像分割模型,其使用交互式提示(例如点)来生成掩码

本文介绍了SAM-PT,这是一种扩展SAM跟踪和分割到任意动态视频中任何内容的能力的方法

SAM-PT利用稳健且稀疏的点选择和传播技术来生成掩码,证明了基于SAM的分割跟踪器也可以在流行的视频对象分割基准(包括 DAVIS、YouTube-VOS和MOSE)中产生强大的零样本性能

与传统的以对象为中心的掩码传播策略相比,独特地使用点传播来利用与对象语义无关的局部结构信息,通过对零样本开放世界未识别视频对象(UVO/zero-shot open-world Unidentified Video Objects)基准的直接评估来强调基于点的跟踪的优点

为了进一步增强本方法,还利用了K-Medoids聚类进行点初始化并跟踪正点和负点以清楚地区分目标对象,采用了多个掩码解码通道进行掩码细化,并设计了跟踪点重新初始化策略以提高跟踪精度





SAM-PT 是第一个利用稀疏点传播进行视频对象分割(VOS)的方法,SAM-PT的本质是用长期点跟踪器扩展SAM,以零样本的方式有效地预测视频,SAM-PT将视频以及第一帧中目标对象的注释作为输入,这些注释称为“查询点”,表示目标对象(正点)或指定非目标片段(负点)

使用点跟踪器在整个视频中跟踪点,将查询点传播到所有视频帧,生成预测轨迹和遮挡分数,随后用轨迹中的非遮挡点提示SAM,以便独立地输出每个视频帧的分段掩码

重新初始化有助于消除不可靠和遮挡的点,并添加在后续帧中变得可见的对象部分或片段中的点,例如当对象旋转时

相关示例:



相关评估:




—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
647#
发表于 2023-7-5 02:22 | 只看该作者
非官方的StyleDrop开源复现

github项目代码库:https://github.com/zideliu/StyleDrop-PyTorch

hugface权重下载地址:https://huggingface.co/zideliu/StyleDrop/tree/main




—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
648#
发表于 2023-7-5 02:50 | 只看该作者
本帖最后由 Machinery 于 2023-7-5 02:54 编辑

DisCo

参考现实世界中的人类舞蹈进行解耦的控制生成

项目主页:https://disco-dance.github.io/

github项目仓库:https://github.com/Wangt-CN/DisCo

Demo演示:https://d383ecc864f168ffb5.gradio.live/

生成式AI在计算机视觉领域取得了重大进展,特别是在基于文本描述的图像/视频合成方面,尽管取得了进步,但仍然具有挑战性,特别是在生成以人为中心的内容(例如舞蹈合成)方面等,现有的舞蹈合成方法难以解决合成内容与现实世界舞蹈场景之间的差距


在本文中,定义了一个新的问题设定:参考人类舞蹈生成,它侧重于具有三个重要属性的现实世界舞蹈场景:
1.忠实性:合成应保留参考中人类主体前景和背景的外观图像,精确跟随目标姿势
2.泛化性:模型应该泛化到未见的人类主体、背景和姿势
3.组合性:它应该允许来自不同来源的可见/不可见主题、背景和姿势的组合

为了应对这些挑战,引入了一种新方法,DISCO,它包括一种新颖的模型架构,具有解耦控制,以提高舞蹈合成的忠实度和组合性,以及有效的人类属性预训练,可以更好地推广到未来的人类动作

大量的定性和定量结果表明,DISCO可以生成外观多样、动作灵活的高质量人类舞蹈图像和视频


(a)具有解耦控制的模型架构:提出了条件与交叉注意力和ControlNet的有机集成,具体来说,用人类主体的CLIP图像嵌入替换了T2I扩散模型中的文本条件,这是通过U-Net的交叉注意模块合并的,而背景和人体姿势条件则被输入两个独立的ControlNet分支,通过解耦所有三个条件的控制,DisCo不仅可以实现人类前景和背景的保真度,还可以实现人类主体、背景和舞蹈动作的任意组合

(b)人体属性预训练:设计了一个代理任务,其中模型以单独的前景和背景区域为条件,并且必须重建完整的图像,这样模型在预训练时就学会了更好地对复杂的人脸和衣服进行编码和解码,并将姿势控制学习留给了人类舞蹈合成的微调阶段,至关重要的是,在没有成对人类图像用于姿势控制的约束的情况下,可以利用大规模的人类图像集合来学习不同的人类属性,从而提高DISCO对未见人类的泛化能力

生成结果与最近的其他方法:




—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
649#
发表于 2023-7-5 03:59 | 只看该作者
本帖最后由 Machinery 于 2023-7-5 04:06 编辑

llm-japanese-dataset v0

大型语言模型的日语聊天数据集及其构建方法

相关论文:https://arxiv.org/abs/2305.12720

项目主页:https://llm.msuzuki.me/

相关数据集:https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset

llm-japanese-dataset原生数据集(日英翻译数据集等已被削除):https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset-vanilla

GitHub项目主页:https://github.com/masanorihirano/llm-japanese-dataset

这项研究构建了一个用于调整大型语言模型(LLM)的日语聊天数据集,该数据集包含约840万条(现为905万)记录

最近,LLM得到了发展并受到欢迎,然而,表现优异的LLM通常主要是英语专业,这些LLM有两种支持英语以外的语言的方法:从头开始构建LLM或调整现有模型

然而在这两种方式中,数据集都是必要的部分,因此这项研究的重点是支持日语LLM的发展,并制作用于训练或调整LLM的数据集

构建的数据集包含各种任务,例如翻译和知识任务,在实验中评估了使用本项目的数据集调整的现有的LLM,结果表明本数据集对于LLM的可能增益,同时也揭示了一些用英语以外的语言构建LLM涉及到的具体困难







—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
650#
发表于 2023-7-5 04:27 | 只看该作者
SketchMetaFace

基于学习的高保真3D角色面部草图绘制界面自动建模

项目主页:https://zhongjinluo.github.io/SketchMetaFace/

github项目仓库:https://github.com/zhongjinluo/SketchMetaFace

3D虚拟形象建模有利于AR/VR、游戏、影视等多种应用场景,角色面部作为虚拟形象的重要组成部分,具有显著的多样性和生动性,然而构建3D人物面部模型通常需要使用商业工具进行大量工作,即使对于经验丰富的艺术家来说也是如此,现有的各种基于草图的工具无法支持业余爱好者建模不同的面部形状和丰富的几何细节

在本文中介绍了SketchMetaFace,一个针对业余用户的草图绘制系统,可在几分钟内对高保真3D脸部进行建模

全程使用精心设计的用户界面和底层算法,首先,采用曲率感知笔画,更好地支持雕刻面部细节的可控性,其次,考虑到将2D草图映射到3D模型的关键问题,开发了一种新颖的基于学习的方法,称为“隐式和深度引导的网格建模”(IDGMM/Implicit and Depth Guided Mesh Modeling),融合了网格、隐式和深度表征的优点,以高效率获得高质量的结果

此外,为了进一步支持可用性,还提出了从粗到细的2D草图界面设计和数据驱动的笔画建议工具,用户研究证明了本系统在易用性和结果的视觉质量方面优于现有建模工具,实验分析还表明IDGMM在精度和效率之间达到了更好的权衡





—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
651#
发表于 2023-7-5 04:43 | 只看该作者
InstructEval

系统性评估各种上下文指令选择方式的性能

相关论文:https://arxiv.org/abs/2307.00259

github项目仓库(待整理):https://github.com/princeton-nlp/InstructEval

上下文学习(ICL)通过使用指令和一小组带标注的示例(称为演示)提示大型语言模型(LLM)来执行任务

最近的研究表明,提示中使用的输入的精确细节会显著影响ICL,从而激励了指令选择算法的开发

然而,指令选择的影响还被严重低估,现有的分析仅限于模型和任务的浅层子集,这限制了其见解的普遍性

本文研究组开发了ICL评估套件来对这些技术进行全面评估,该套件包括来自4个不同模型系列的13个不同规模的开源LLM,涵盖9种不同的任务,代表3个类别的一系列任务类型,使用与ICL相关的5个需求的基准测试来评估7种流行指令选择方法的相对性能

实验发现,使用精心策划的手动编写指令和没有任何特定于任务描述的简单指令通常会比自动指令归纳方法产生更好的ICL性能,这表明后者缺乏通用性,同时发布了用于基准指令选择方法的评估套件,并呼吁在该领域采用更严格和更通用的方法

评估流程等:




—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
652#
发表于 2023-7-5 06:05 | 只看该作者
LEDITS

使用DDPM反演和语义指导进行真实图像编辑

Demo演示:https://huggingface.co/spaces/editing-images/ledits


最近的大规模文本引导扩散模型提供了强大的图像生成功能,目前,人们也付出了巨大的努力来通过仅使用文本作为直观和多功能编辑的方式来修改这些图像

然而,由于编辑技术的固有性质,编辑对于这些生成模型来说是困难的,其中涉及保留原始图像中的某些内容,相反,在基于文本的模型中,即使对文本提示进行微小的修改也常常会导致完全不同的结果,这使得实现准确对应用户意图的一次性生成变得极具挑战性

此外,要使用SOTA方法编辑真实图像,必须首先将图像反转到预先训练的模型域中,添加了另一个影响编辑质量的因素,以及延迟

在这份探索性报告中,提出了LEDITS,一种用于真实图像编辑的组合轻量级方法,将对编辑友好的DDPM反演技术与语义指导相结合,从而将语义指导扩展到真实图像编辑,同时利用DDPM反演的编辑功能

这种方法实现了多种编辑效果,微妙和广泛以及构图和风格的改变,同时不需要对架构进行优化或扩展


LEDITS概览图

上方为输入图像的反转,首先对原始图像应用DDPM反演以获得反演的潜在(inverted latents)和对应的噪声图

下方则使用反演潜在在语义指导下驱动反向扩散过程,在每个去噪步骤中,根据SEGA逻辑计算噪声估计,使用预计算的噪声图根据DDPM scheme计算更新后的潜在

引入语义指导的概念是为了增强对文本引导扩散模型生成过程的细粒度控制,SEGA通过专门与模型潜在空间中已有的概念进行交互,扩展了无分类器指导中引入的原则

该计算在正在进行的扩散迭代中进行,旨在影响多个方向的扩散过程,更具体地说,SEGA除了文本提示p之外,还使用多个文本描述ei来表示生成图像的给定目标概念

生成实例与对比结果:



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
653#
发表于 2023-7-6 03:43 | 只看该作者
本帖最后由 Machinery 于 2023-7-6 03:51 编辑

SDXL(预览技术报告)/stable-diffusion-xl-base-0.9

改进潜在扩散模型的高分辨率图像合成

hugface的stable-diffusion-xl-base-0.9权重:https://huggingface.co/stabilityai/stable-diffusion-xl-base-0.9

SDXL,一种用于文本到图像合成的新型潜在扩散模型,与之前版本的Stable Diffusion相比,SDXL将构架中的UNet主干扩大了三倍,模型参数的增加主要是由于更多的注意力块和更大的交叉注意力上下文,因为SDXL使用两个文本编码器,还设计了多种新颖的调节方案以在多种图片纵横比上训练SDXL,最后还引入了一种细化模型,该模型用于使用事后的图像到图像技术提高SDXL生成的样本的视觉保真度

用户研究表明,SDXL始终大幅超越所有以前版本的Stable Diffusion,SDXL显著提高了性能,并取得了与黑盒闭源SOTA图像生成器相媲美的结果,本着促进开放研究并提高大型模型训练和评估透明度的精神,将提供对代码和模型权重的访问


左图:比较了SDXL与Stable Diffusion 1.5和2.1之间的用户偏好,虽然SDXL的性能已经明显优于1.5和2.1,但添加额外的细化阶段依然可以继续提高性能

右图:两阶段工作流程的可视化,首先使用SDXL生成大小为128×128的初始潜在变量,之后利用专门的高分辨率细化模型,并使用相同的提示对第一步中生成的潜在变量应用SDEdit,SDXL和细化模型使用相同的自动编码器


与原始的Stable Diffusion架构相比,在UNe内使用Transformer Block的异构分布,出于效率原因,省略了最高特征级别的Transformer Block,在较低级别使用2和10个Block, 并完全删除UNet中的最低级别(8×下采样)

比较Stable Diffusion1.x & 2.x和SDXL的架构,选择了更强大的预训练文本编码器用于文本调节,具体来说,将OpenCLIP ViT-bigG与CLIP ViT-L结合使用,其中沿着通道轴连接倒数第二个文本编码器输出,除了使用交叉注意力层来根据文本输入来调节模型之外,并根据(arXiv:2112.10741,2021)进行修改,以及使用OpenCLIP模型的池化文本嵌入来调节模型,这些变化导致UNet中的模型大小为2.6B参数


SDXL与之前版本的Stable Diffusion的输出比较,对于每个提示,使用DDIM采样器和cfg-scale 8.0的50个步骤的相应模型的3个随机样本



细化阶段,根据经验,发现生成的模型有时会产生局部质量较低的样本,为了提高样本质量,在同一潜在空间中训练一个单独的LDM,该LDM专门用于高质量、高分辨率的数据,并对来自基本模型的样本采用SDEdit引入的噪声去噪过程

在推理过程中,从基础SDXL渲染潜在变量,并使用相同的文本输入,通过细化模型直接在潜在空间中对它们进行扩散和去噪,此步骤是可选的,但可以提高详细背景和人脸的样本质量

为了评估模型的性能(有或没有细化阶段),进行了一项用户研究,并让用户从以下四种型号中选择自己喜欢的:SDXL、SDXL(带细化器)、Stable Diffusion1.5和Stable Diffusion 2.1

结果表明,具有细化阶段的SDXL是评级最高的选择,并且显著优于Stable Diffusion1.5和2.1(获胜率为:带细化的SDXL:48.44%,SDXL基础:36.93%,Stable Diffusion1.5:7.91%  ,Stable Diffusion2.1:6.71%)

然而,当使用FID和CLIP分数等经典性能指标时,SDXL相对于以前方法的改进并没有反映出来,这可能是因为自动评估指标的局限性



SDXL的失败案例,尽管与之前版本的稳定扩散相比有了很大的改进,该模型有时仍然难以处理涉及详细空间安排和详细描述的非常复杂的描述

此外,手部也并不总是能正确生成,并且模型有时会遇到两个概念相互渗透的问题,图中所有示例都是使用DDIM采样器和cfg-scale 8.0的50个步骤生成的随机样本

虽然SDXL在生成逼真图像和合成复杂场景方面表现出了令人印象深刻的能力,但重要的是要承认其固有的局限性

了解这些限制对于进一步改进和确保负责任地使用该技术至关重要,首先模型在​​合成复杂的结构时可能会遇到挑战,例如人手,尽管它已经接受了各种数据的训练,但人体解剖学的复杂性给实现一致的准确表示带来了困难,这种限制表明需要进一步的缩放模型规模和更强大的训练技术,例如专门针对细粒度细节的合成

发生这种情况的原因可能是手和类似物体在照片中出现的差异非常大,在这种情况下模型很难提取真实3D形状和物理限制的知识,其次,虽然该模型在生成的图像中实现了显着的真实感水平,但值得注意的是,它并没有达到完美的照片真实感,某些细微差别,例如微妙的灯光效果或微小的纹理变化,可能仍然不存在或在生成的图像中不太忠实地表示,此限制意味着在需要高度视觉保真度的应用程序中仅依赖模型生成的视觉效果时应谨慎行事

此外,该模型的训练过程严重依赖于大规模数据集,这可能会无意中引入社会和种族偏见,因此,模型在生成图像或推断视觉属性时可能会无意中加剧这些偏差

在样本包含多个对象或主体的某些情况下,模型可能会表现出一种称为“概念出血”的现象,此问题表现为不同视觉元素的意外合并或重叠

对于未来的可能改进:


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
654#
发表于 2023-7-6 04:00 | 只看该作者
SearchAnything

“SearchAnything”是一个本地语义搜索引擎,由各种AI模型提供支持,可以让您根据语义搜索句子和图像

github项目地址:https://github.com/Immortalise/SearchAnything

应用工作流程:


演示视频截图:



Todo列表:


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
655#
发表于 2023-7-6 04:22 | 只看该作者
本帖最后由 Machinery 于 2023-7-6 04:33 编辑

HyenaDNA

可达到单核苷酸级别良好细粒度分辨率的长距基因组序列建模

相关论文:https://arxiv.org/abs/2306.15794

模型权重下载:https://huggingface.co/LongSafari



github项目仓库:https://github.com/HazyResearch/hyena-dna

开箱既用的colab:https://colab.research.google.com/drive/1wyVEQd4R3HYLTUOXEEQmp_I8aNC_aLhL?usp=sharing

项目博客:https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna


基因组(DNA)序列编码大量用于基因调控和蛋白质合成的信息,与自然语言模型类似,研究人员提出了基因组的基础模型,从未标记的基因组数据中学习可概括的特征,然后可以针对下游任务(例如识别作用元件)进行微调

由于注意力的二次缩放原因,之前基于Transformer的基因组模型通常使用512到4k个Token作为上下文(总量小于人类基因组的 0.001%),极大地限制了DNA中远程相互作用的建模精确性

此外,这些方法依赖分词器来聚合有意义的DNA单元,从而失去单核苷酸级别的细粒度分辨率,其中细微的遗传变异可以通过单核苷酸多态性(SNP/single nucleotide polymorphisms)完全改变蛋白质功能

最近,Hyena(鬣狗)架构模型,基于隐式卷积的大型语言模型被证明可以在质量上匹配通常的Transformer注意力架构,同时允许更长的上下文长度和更低的时间复杂度

查看关于Hyena(鬣狗)卷积注意力构架的其他博客说明:
1.https://hazyresearch.stanford.edu/blog/2023-03-07-hyena
2.https://hazyresearch.stanford.edu/blog/2023-03-27-long-learning
3.https://hazyresearch.stanford.edu/blog/2023-06-08-hyena-safari

利用Hyenas架构新的长程能力,研究组推出了HyenaDNA,这是一种在人类参考基因组上进行预训练的基因组基础模型,在单核苷酸级别的上下文长度高达100万Token的训练集上训练,比之前基于密集注意力的模型增加了500倍

HyenaDNA在序列长度上按次二次复杂度缩放(训练速度比 Transformer快160倍),使用单核苷酸级别的Token,并且在每一层都有完整的全局上下文,探索了更长的上下文可以带来什么,包括在基因组中首次使用上下文学习来简单地适应新任务,而无需更新预训练的模型权重

根据Nucleotide Transformer的微调基准,HyenaDNA使用参数和预训练数据少几个数量级的模型,在17个数据集中的12个上达到了SotA水平,在GenomicBenchmarks基准上,HyenaDNA在所有8个数据集上,平均超过前SotA+9%

硬件需求:


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
656#
发表于 2023-7-7 02:29 | 只看该作者
本帖最后由 Machinery 于 2023-7-7 02:43 编辑

counterfactual-evaluation

推理还是背诵?通过反事实任务评估探索语言模型的能力和局限性

相关论文:https://arxiv.org/abs/2307.02477

github项目地址(coming soon):https://github.com/ZhaofengWu/counterfactual-evaluation

最近的语言模型在广泛的任务中令人印象深刻的表现,表明它们拥有一定程度的抽象推理能力,这些技能是通用的、可转移的,还是专门针对在预训练期间看到的特定任务的?

为了理清这些影响,本文提出了一个基于“反事实”的任务变体的评估框架,这些任务变体偏离了标准任务的默认假设,在一组11项任务中,观察到反事实变体的非平凡性能,但发现与默认条件相比,性能仍然持续大幅下降

这表明,虽然当前的语言模型可能在一定程度上拥有抽象的任务解决技能,但他们通常也依赖狭窄的、不可转移的任务解决方式

这些结果激发了对语言模型性能的更仔细的解释,从而为区分这些行为的不同方面做出努力


GPT-4在各种任务(蓝色)和对应的反事实情况下(橙色)的默认版本上的性能,使用了零样本思维链提示,可以看到GPT-4与默认任务实例相比,在反事实变体任务上始终表现不佳



评估了GPT-4(gpt-4-0314,OpenAI,2023)、GPT-3.5(gpt-3.5-turbo-0301)、Claude(claude-v1.3,Anthropic,2023)和PaLM-2(text-bison-001,Anil et al.,2023)

由于这些是闭源模型,没有任何有关其大小、架构和保留细节的信息,其中最大的PaLM模型并不能公开访问,只能测试第二大的版本

对于每项任务,都通过在提示中添加或者不添加短语“让我们一步一步思考”来尝试鼓励或者不鼓励模型进行逐步推理,在反事实任务变体上的结果,无论是否有0-shot CoT,对于大多数情况, LM都表现出了高于随机的反事实性能,表明拥有一定程度的目标能力,但是总体来说看到了一个一致的模式,即LM在反事实任务变体上的表现要差得多

还在初步实验中探索了开源模型,但发现它们的指令跟随能力并不令人满意,以至于它们的输出通常无法有意义地解析为预测,因此结果中不包括这些模型型号

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
657#
发表于 2023-7-7 03:19 | 只看该作者
本帖最后由 Machinery 于 2023-7-7 03:20 编辑

KokoMind

LLM可以理解社交互动吗?

项目主页:https://chats-lab.github.io/KokoMind/

github项目仓库:https://github.com/CHATS-lab/KokoMind

引入了Koko Mind,这是一个具有多方社交互动的数据集,用于评估LLM的社交理解能力

想象一下:假如您正在参加一个充满活力的鸡尾酒会,充满了热闹的谈话声和玻璃杯的叮当声,而您是一个悠闲的观察者,舒适地躲在角落里

即使如此,您仍然可以轻松地弄清楚不同人之间的社会关系,了解正在发生的事情,甚至通过阅读人们的言语和非言语线索来提供社交建议

如果一个大型语言模型(LLM)能够复制这种水平的社交能力,那么我们可以说它具有一定的社交能力,那么不同的LLM表现能力如何?


GPT-4在通常情况下位居榜首,在很多情况下紧随其后的是Claude,以text-davinci-003作为参考,评估了AlpacaEval的不同模型,并进行了消融研究,其中包括从上下文中删除了括号中的非语言线索(例如,紧张地喝咖啡等),以下是一些有趣的要点

1.在基于LLM的自动评估者中,与Claude相比,GPT-4在识别获胜模型方面表现出更大的确定性和信心

2.当上下文没有非语言线索,并且交互要么完全由GPT-4生成,要么基于电影时,Claude的表现优于GPT-4(两位自动评估者都同意),而如果上下文包含非语言线索,GPT-4总是比Claude更好,一种可能的解释是GP​​T-4是一种多模态模型,因此正如预期的那样,它可以更好地理解额外的非语言信息,当提供非语言线索时,基于LLM的评估者们都认为表现最好的模型比成绩较差的模型确实的具有更实质性的优势

3.人们可能会想,如果社交互动是由GPT-4生成的,是否意味着GPT-4已经可以回答这些问题了?实际上问题的类型(问题的形式和性质)更加影响答案,而问题来自于谁(问题的来源)的影响相对较小

4.看起来基于LLM的评估者发现在与心理理论无关的任务中更容易确定更好的模型,尤其是从ToMi数据集生成的样本中,这可能是因为即使是LLM评估者也可能很难在心理理论背景下辨别正确答案

5.克劳德在多数情况下都可以给出不错的社交建议



数据集示例:


数据集分布:


虽然本项目在很多方面都令人兴奋,但也有一定的局限性,Koko Mind数据集的规模相对较小,这可能会限制结论的广泛适用性和全面性

其次, Koko Mind中的所有交互都是由GPT-4生成的,需要人工验证,这使得数据集难以扩展,虽然Koko Mind在数据集中提供了经过人工验证的答案,但并没有在评估时使用这些答案作为参考,并且由于这些答案是由 GPT-4 生成的,因此它们可能会偏向 GPT-4

未来的研究可以集中在如何评估模型上具有经过人工验证的机器生成的参考答案,评估中的模型型号都是2023年6月1日之前的版本,新发布的模型型号可能会有更好的性能

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
658#
发表于 2023-7-7 04:27 | 只看该作者
Flacuna

通过FLAN微调释放Vicuna解决问题的能力

github项目仓库:https://github.com/declare-lab/flacuna

hugface模型权重下载:https://huggingface.co/declare-lab/flacuna-13b-v1.0

数据集下载地址:https://huggingface.co/datasets/declare-lab/flan-mini

最近,instruct eval(github项目地址:https://github.com/declare-lab/instruct-eval)的发布为利用编码器-解码器或仅解码器架构的大型语言模型(LLM)的性能提供了评估基准

有趣的是,尽管是四年前推出的构架,基于T5的LLM(例如Flan-T5)在需要通用问题解决技能的任务上继续优于最新的基于解码器的LLM(例如LLaMa和Vicuna)

这种性能差异可归因于三个关键因素:预训练数据、主干架构、指令数据集

在这份技术报告中,主要关注的是利用基于LLAMA微调的大型语言模型Vicuna来调查第三个因素的影响,该模型在ChatGPT对话上进行了微调

为了实现这一目标,使用了名为Flan-mini的定制指令数据集集合对Vicuna进行了微调,该集合包括称为Flan的大规模指令数据集的子集,以及其他源自ChatGPT/GPT-4的各种代码相关数据集和会话数据集,这些数据包含大量解决问题任务需求的能力

实验结果表明,Flacuna解决问题的能力是通过在FLAN数据集上微调Vicuna来获得的,从而导致Flacuna在instruct eval中对于众多基准数据集的测试的显著改进

Flan-mini数据集分布:


基准测试成绩:



下表展示了Flacuna在IMPACT数据集上的写作能力,该数据集是InstructEval评估套件的组成部分,生成的响应由ChatGPT进行评估,并按1到5的等级对它们的相关性和连贯性进行评分:


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
659#
发表于 2023-7-7 04:48 | 只看该作者
本帖最后由 Machinery 于 2023-7-7 04:50 编辑

DragonDiffusion

在扩散模型上启用拖动式操作

项目主页:https://mc-e.github.io/project/DragonDiffusion/

github项目仓库:https://github.com/MC-E/DragonDiffusion


尽管现有的大规模文本到图像(T2I)模型能够根据详细的文本描述生成高质量的图像,但它们通常缺乏精确编辑生成的或真实图像的能力

在本文中,提出了一种新颖的图像编辑方法DragonDiffusion,可以在扩散模型上进行拖动式操作控制编辑(类似GragGan)

具体来说,基于扩散模型中的中间特征的强对应性构建了分类器指导(classifier guidance),分类器指导可以通过特征对应loss将编辑信号转换为梯度,以修改扩散模型的中间表征,基于此指导策略,还构建了多尺度指导来考虑语义和几何对齐,而且,添加了跨分支的自注意力以保持原始图像和编辑结果之间的一致性

本方法通过有效的设计,实现了对生成图像或真实图像的各种编辑模式,例如对象移动、对象大小调整、对象外观替换和内容拖动等操作

值得注意的是,所有编辑和内容保存信号都来自图像本身,模型不需要微调或附加的模块


设计示意图,提出的方法由两个分支组成,即引导分支和生成分支,模型基于Stable Diffusion构建,无需微调或训练


使用不同层的特征作为指导重建原始图像的图示,在实验中,将zT设置为随机高斯噪声,将mgen 、 mgud设置为零矩阵,并将mshare设置为一矩阵



对比loss和修复loss在对象移动任务中所扮演的操作的可视化,设计的对比loss可以消除多对象现象,而修复loss可以在缺失区域生成更自然的内容

操作实例:



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
660#
发表于 2023-7-7 07:37 | 只看该作者
本帖最后由 Machinery 于 2023-7-7 07:40 编辑

DiT-3D

探索用于3D形状生成的平面扩散Transformer

项目主页:https://dit-3d.github.io/

github项目地址:https://github.com/DiT-3D/DiT-3D



本文提出了DiT-3D,一种新颖的普通扩散Transformer构架,可以进行高保真和多样化的3D形状生成,直接对体素化的点云进行去噪处理

最近的扩散Transformer(例如DiT)已经证明了它们在生成高质量2D图像方面的强大功效,然而Transformer架构在3D形状生成方面是否表现同样出色仍有待确定,因为之前的3D扩散方法大多采用U-Net

为了弥补这一差距,提出了一种用于3D形状生成的新型扩散Transformer,即DiT-3D,它可以使用普通Transformer直接对体素化点云进行去噪处理

与现有的U-Net方法相比,DiT-3D在模型大小方面更具可扩展性,还可以产生更高质量的生成

具体来说,DiT-3D采用了DiT的设计理念,但通过合并3D位置和区块嵌入(patch embeddings)来对其进行修改,以自适应地聚合来自体素化点云的输入

为了降低3D形状生成中自注意力的计算成本,将3D窗口注意力合并到Transformer Block中,因为体素的附加维度增加的3D Token长度可能导致高计算量,最后,使用线性层和去像素化层来预测去噪点云

此外,本文架构也支持从2D到3D的高效微调,其中在ImageNet上预训练的DiT-2D检查点权重可以显著改进ShapeNet上的DiT-3D性能

ShapeNet数据集上的实验结果表明,所提出的DiT-3D在高保真和多样化的3D点云生成方面实现了SOTA性能


DiT-3D将体素化点云作为输入,使用区块化算子(patchification operator)来生成Token级别的区块嵌入(patch embeddings),其中3D位置嵌入被添加到一起,然后基于3D窗口注意力的多个Transformer Block从所有输入Token中提取点化体素表征,最后对线性层的未区块化的体素张量输出进行去体素化,以预测点云空间中的噪声

评估结果:



去噪生成实例:



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
661#
发表于 2023-7-8 03:27 | 只看该作者
本帖最后由 Machinery 于 2023-7-8 03:29 编辑

CodeGen2.5

小巧而强大的编程模型

博客项目说明:https://blog.salesforceairesearch.com/codegen25/

相关论文:https://arxiv.org/abs/2305.02309

模型权重下载:https://github.com/salesforce/CodeGen

github项目代码库:https://github.com/salesforce/CodeGen

CodeGen2.5的模型参数仅7B,作为对比的其他编程模型,比如CodeGen1-16B,CodeGen2-16B,StarCoder-15B等,虽然参数量小了一半,但实际性能却更加优秀

具有稳健的填充采样(robust infill sampling)能力,这意味着模型可以“读取”当前光标位置左右方向的大小文本增强生成效果,为个人计算机配置情况下的服务和本地部署优化了快速注意力(Flash attention )的快速采样(fast sampling)效率,模型授权许可使用Apache 2.0


n=200时的HumanEval通过率,仅包含7B参数的CodeGen2.5的性能优于早期模型的两倍以上,多语言代码模型(Multi-lingual Code Models)使用多种编程语言进行训练,单语言代码模型(Mono-lingual Code Models)则仅在Python上进行微调


n=40时的HumanEval单行填充通过率,该基准测试衡量了模型“填充中间”一段代码(“中间”已被遮蔽)的能力,为了产品化,CodeGen2.5引入了专门用于截断的哨兵令牌(specialized sentinel token),并具有非常高的填充性能


在指令调整模型上,n=200时的HumanEval通过率,指令调优模型意味着在特定的指令数据集上进行微调,以提高根据英文指令生成代码的能力


使用NVIDIA Triton支持的快速注意力,各种推理框架的采样延迟(以毫秒为单位),上下文长度为2000个令牌,批量大小设置为2,不同数量的Token代表代码助手产品的实际设置,CodeGen2.5具有更低的延迟,可以有效改善用户体验

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
662#
发表于 2023-7-8 03:52 | 只看该作者
本帖最后由 Machinery 于 2023-7-8 03:53 编辑

mPLUG-DocOwl

用于文档理解的模块化的多模态大语言模型

github项目代码库:https://github.com/X-PLUG/mPLUG-DocOwl


文档理解是指从各种类型的数字文档,例如网页中自动提取、分析和理解信息,现有的多模型(Multi-model)大型语言模型(MLLM),包括mPLUG-Owl,已经在浅显的无OCR(Optical character recognition)文本识别中展示了有前途的零样本能力,这表明它们拥有在无OCR文档理解方面的潜力

然而,如果没有对应的相关领域内训练,这些模型往往会忽略细粒度的OCR特征,例如复杂的表格或大文本块,但实际上这些内容对于无OCR的文档理解至关重要

在本文中,提出了基于mPLUG-Owl的mPLUG-DocOwl,用于无OCR文档理解,具体来说,首先构建一个包含广泛的视觉文本理解任务的指令调整数据集,然后通过统一的指令调整策略在纯语言、通用视觉和语言、以及文档指令调整数据集上联合训练模型,增强了无OCR的文档理解能力,还构建了一个无OCR的文档指令理解评估数据集LLMDoc,以更好地对比模型在指令遵循和文档理解方面的能力

实验结果表明,mPLUG-DocOwl模型优于现有的多模态模型,展示了其强大的文档理解能力,无需特定的微调,mPLUG-DocOwl就可以很好地使用在各种下游任务上

相关训练数据集与使用例:



基准对比评估成绩:


mPLUG-DocOwl与minigpt-4模型在LLMdoc上的效果对比:



mPLUG-DocOwl的失败案例:


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
663#
发表于 2023-7-8 04:25 | 只看该作者
LONGLLAMA

聚焦(Focused)的Transformer,上下文拓展的比对(Contrastive)训练

相关论文:https://arxiv.org/abs/2307.03170

注:We release the checkpoints and the source code of LONGLLAMA , see also our colab.

大型语言模型具有以上下文方式合并新信息的卓越能力,然而由于有效上下文长度的限制,这种方法的全部潜力常常受到限制

这个问题的其中一种解决方案是赋予注意力层访问外部记忆的权限,外部记忆由键值对(key-value pairs)组成,然而随着文档数量的增加,相关键对比不相关键的比例会下降,导致模型更加关注不相关的键

因此这里揭示了一个重大挑战,称之为分心问题(distraction issue),其中与不同语义值相关的键可能会重叠,从而使它们难以区分

为了解决这个问题,引入了Focused Transformer(FoT),这是一种采用受比对学习启发的训练过程的技术, 这种新颖的方法增强了(键与值)空间的结构,从而能够扩展上下文长度

本文方法允许对预先存在的大型模型进行微调,以延长其有效上下文,对3B和7B的OpenLLaMA检查点权重的微调证明了这一点

由此产生的模型,命名为LongLLaMA,在需要长上下文的任务中表现出了进步,LongLLaMA模型可以熟练地管理256k上下文长度内容以进行密钥检索(passkey retrieval)


与原始OpenLLaMA模型相比,LONGLLAMA-3B在密钥检索方面的准确性,本文方法超出了训练时的长度,在100k的上下文长度下实现了94.5%的准确率,在256k个Token下实现了73%的准确率,而基线模型则无法处理比其训练长度(2k)更长的上下文


聚焦Transformer概述,在推理过程中,记忆注意力层(绿色)通过kNN查找使用键值对的外部记忆,这有效地扩展了其上下文长度,该层使用crossbatch进行训练,简而言之,来自当前上下文Ccurr的Tokens以可微分的方式(Att+∇)参与同一文档的先前上下文Cprev,也参与其他文档的d−1个上下文,后者作为“反面”例子,旨在更好地塑造(键与值)空间


分心问题,使用不同参数d值训练的FOT与标准Transformer基线进行比较,在评估过程中,两个模型都会看到先前的局部上下文以及所选层中其他文档的一些上下文(如在跨批次训练过程中),对于文档δ,测量p上注意力质量的分布
比例图x:模型可以看到的文档中的上下文数量
比例图y:当前文档的先前局部上下文的平均注意力质量

相关评估成绩:





—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
664#
发表于 2023-7-8 05:31 | 只看该作者
reframe thoughts

训练模型来生成、识别和重构无益的想法

github项目地址:https://github.com/facebookresearch/ParlAI/tree/main/projects/reframe_thoughts

当前有许多关于良好的心理健康(well-being)的认知方法,例如识别和重构无益的想法,在过去几十年中获得了相当多的实证支持,但缺少以自助的形式进行真正广泛的使用

其中的一个障碍是缺乏足够具体和多样化的专业实践资料,这项工作检查是否可以利用当前的语言模型来生成几乎无限数量的实践资料,说明与特定给定上下文相匹配的标准的无益思维模式,并生成合适的积极重构建议

本文提出了PATTERNRE FRAME,这是一个包含约10000个想法示例的新颖数据集,其中包含以给定角色为条件的无用思维模式,并伴有约27000个积极的重构想法建议

通过使用该数据集来训练或评估当前模型,表明现有模型已经可以成为强大的工具,可以帮助生成大量定制的实践资料和假设,而无需或只需要很少的额外模型训练


来自PATTERNRE FRAME数据集的无益想法及其重构版本的示例,思维模式的定义源自wiki


数据集中不同模式的无用想法分布的混淆矩阵,行代表用于收集第一个任务中无用想法的模式,列代表注释者在第二个任务中选择的模式,正如预期的那样,一些相关模式,例如低估积极因素(DP)和心理过滤(MF),表现出很强的跨标签关联

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
665#
发表于 2023-7-8 05:44 | 只看该作者
本帖最后由 Machinery 于 2023-7-8 05:47 编辑

MMPreTrain

MMPreTrain是一个基于PyTorch的开源预训练工具箱


github项目地址:https://github.com/open-mmlab/mmpretrain

中文说明页:https://github.com/open-mmlab/mmpretrain/blob/main/README_zh-CN.md

支持BLIP-2、LLaVA、MiniGPT4等多模态算法和COCOCaption、VQA、VizWiz、ScienceQA等数据集,也支持先进的主干应用,如EVA02、DINOv2、ViTSAM、InternImage、SparK等




—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
666#
发表于 2023-7-8 05:57 | 只看该作者
LLongMA

LLongMA是一系列OpenLLaMA微调模型,使用线性位置插值缩放在8k上下文长度上进行训练(from:https://twitter.com/EnricoShippole/status/1677346578720256000?s=19)

LLongMA-7B权重下载:https://huggingface.co/conceptofmind/LLongMA-7b

LLongMA-3B权重下载:https://huggingface.co/conceptofmind/LLongMA-3b





—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
667#
发表于 2023-7-9 03:08 | 只看该作者
本帖最后由 Machinery 于 2023-7-9 03:44 编辑

InternLM-7B

InternLM的7B开源版本

hugface项目仓库:https://github.com/InternLM/InternLM

简介如下图所示,或者查看中文说明(地址:https://github.com/InternLM/InternLM/blob/main/README-zh-Hans.md)

internlm/intern-7b权重:https://huggingface.co/internlm/internlm-7b

intern-chat-7b chat版本权重:https://huggingface.co/internlm/internlm-chat-7b

internlm/intern-chat-7b 8k上下文版本权重:https://huggingface.co/internlm/internlm-chat-7b-8k






—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
668#
发表于 2023-7-9 04:19 | 只看该作者
本帖最后由 Machinery 于 2023-7-9 04:21 编辑

T-MARS

通过规避学习文本特征来改进视觉表征

项目主页:https://tmars-clip.github.io/

github项目代码仓库:https://github.com/locuslab/t-mars

来自网络的大型多模态数据集为学习通用视觉表征的一系列新方法提供了动力,推动了计算机视觉的最新技术发展,并彻底改变了零样本和少样本识别

其中面临的一个关键抉择是如何管理这些越来越大的数据集,例如LAION-5B数据集的创建者选择仅保留CLIP相似度分数超过指定阈值的图像标题对


在本文中提出了一种新颖的SOTA数据过滤方法,其动机是研究组观察到近40%的LAION图像包含与标题显著重叠的文本,直观地说,这些数据可能是浪费的,因为这会激励模型进行OCR识别而不是学习视觉特征,然而,随意的删除所有的此类数据也不太行,因为会丢弃包含视觉特征的图像(除了重叠的文本)

T-MARS(文本遮蔽和重新评分/Text Masking and Re-Scoring)仅过滤掉那些,文本在其余视觉特征中占主导地位的图文对,首先遮蔽掉图像中的文本,然后过滤掉那些具有较低CLIP相似度得分的文本对的掩码图像

实际实验中,T-MARS在DataComp(数据过滤基准)的“中等规模”上优于排名靠前的方法,在ImageNet上优于排名第一的方法6.5%,在VTAB上优于排名第一的方法4.7%。 此外,通过对从2M到64M的各种数据池大小的系统评估表明,随着数据和计算呈指数级拓展,T-MARS的准确性增益会呈线性增加






—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
669#
发表于 2023-7-10 01:13 | 只看该作者
本帖最后由 Machinery 于 2023-7-10 02:32 编辑

OpenLLaMA 7Bv2/Otter-MPT7B Image

OpenLLaMA 7Bv2模型,该模型在Falcon的细化Web数据集、 starcoder数据集、wikipedia、arxiv以及RedPajama的books和stackexchange上进行训练,v2版本修复了前代存在的分词与代码生成方面的问题,3Bv2版本模型也即将推出



github项目仓库:https://github.com/openlm-research/open_llama

hugface权重下载:https://huggingface.co/openlm-research/open_llama_7b_v2

Otter-MPT7B Image模型通过合并OpenFlamingv2权重来更新模型,并对其进行专门调整以使其提升长答案和短答案的生成能力

github项目仓库:https://github.com/Luodian/Otter

hugface权重下载:https://huggingface.co/luodian/OTTER-Image-MPT7B

新版Demo演示:https://otter.cliangyu.com/






—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
670#
发表于 2023-7-10 02:16 | 只看该作者
本帖最后由 Machinery 于 2023-7-10 02:25 编辑

knowno

可以寻求帮助的机器人,大型语言模型规划者的不确定性调整

项目主页:https://robot-help.github.io/

github项目仓库(待整理):https://github.com/google-research/google-research/tree/master/knowno

大型语言模型(LLM)展现出广泛的有前景的能力,比如从逐步规划到常识推理,这可为机器人提供实用性先验,但仍然容易产生自信的幻觉预测

在这项工作中提出了KnowNo,这是一个用于衡量和调整基于LLM的规划者的不确定性的框架,以便他们知道何时不知道并在需要时寻求帮助


KnowNo建立在共形预测(conformal prediction)理论的基础上,为任务完成提供统计学保证,同时最大限度地减少复杂的多步骤规划设置中的人工帮助

其中涉及具有不同模糊模式的任务(例如从空间不确定性到数字不确定性,从人类偏好到威诺格拉德(Winograd Schema)模式)的各种模拟和真实机器人设置的实验表明,KnowNo的表现优于现代基线(这些基线可能集成使用了广泛的提示调整),在提高效率和自主性方面,同时提供正式的统计学保证

KnowNo可以与开箱即用的LLM一起使用,无需进行模型微调,并提出了一种有前途的轻量级方法来建模不确定性,该方法可以随着基础模型不断增长的功能进行补充和扩展


在机器人能够获得基于LLM的规划器和人类帮助的设置中需要实现以下两个目标:校准置信度(机器人应该寻求足够的帮助以确保用户指定的任务成功达到统计保证水平),最小化场外帮助(机器人应该通过缩小任务中可能存在的模糊性来最小化其寻求的帮助总量),这些充分性和最小性条件统称为不确定性对齐


KnowNo以共形预测为基础,正式量化LLM不确定性并实现不确定性对齐,首先构建一个校准数据集,涵盖机器人遇到的各种场景,对于每种情况,KnowNo都会提示LLM生成合理的选项,然后要求其选择一个,类似于多项选择题回答(MCQA/Multiple Choice Question Answering)


KnowNo获得LLM预测A、B、C、D、E这五个选项的似然度,然后利用校准数据的真实选项的似然度进行校准,同时设定似然阈值,在给定新场景的测试时,预测集需要生成可能性高于阈值的选项,共形预测在其中提供统计保证,即真实选项以用户指定级别的概率包含在预测集中,共形预测同时具有在理论上保证生成最小的平均预测集结果的优点


KnowNo采用一种简单的人工干预设置,如果某个场景的预测集不是单一的(即包含多个最终选项),KnowNo会认为机器人不确定正确的行动并触发人类的帮助,在人类如实提供帮助的情况下,KnowNo将覆盖保障从共形预测转变为任务完成保障,由于共形预测提供的预测集较小,因此人类需要提供帮助微乎其微,这两个属性实现了校准置信度和最小化帮助的目标,KnowNo还可以应用于多步骤规划设置(每个步骤可能有多个可接受的选项),并在实际工作中衍生出新的其他扩展方法


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
671#
发表于 2023-7-10 03:06 | 只看该作者
本帖最后由 Machinery 于 2023-7-10 03:07 编辑

Whisper-AT

抗噪声的自动语音识别模型也是强大的通用音频事件标记模型

github项目仓库:https://github.com/yuangongnd/whisper-at

演示Demo:https://c916b4a5ed75eac733.gradio.live/

也可用于本地notebook的colab文件:https://github.com/YuanGongND/whisper-at/blob/main/sample/whisper_at_demo.ipynb

527种分类的AudioSet音频事件类型标签表:https://github.com/YuanGongND/whisper-at/blob/main/audioset_label.csv

在本文中,重点关注了openai的Whisper模型的背景声音识别,whisper是一种最新的自动语音识别模型,使用在不同条件下记录的约68万小时的标注的语音语料数据集进行训练而获得的

首先展示了一个有趣的发现,虽然whisper对于现实世界的背景声音(例如背景音乐等)非常稳健,但它的音频表征实际上不是噪声不变的,而是与非语音高度相关,这表明Whisper理论上可以识别以噪声类型为条件的语音

有了这一发现,通过冻结Whisper的主干并在其之上训练轻量级的音频标记模型可以构建统一的音频标记和语音识别模型Whisper-AT

Whisper-AT的额外计算花费成本不到1%,除了语音文本之外,还可以在单​​次前向传递中识别音频事件并生成相关标记

模型构架:


Whisper-AT是一种联合的音频标记和语音识别模型,它继承了OpenAI Whisper强大的语音识别能力,其ASR性能与原始Whisper完全相同,API接口和使用方式也与原版OpenAI Whisper相同,因此用户可以从原版Whisper无缝切换到Whisper-AT,在内部,Whisper-AT冻结所有原始Whisper参数,并在Whisper编码器表征之上训练时间和分层Transformer,以执行音频标记任务


令人惊讶的是,ASR模型的噪声鲁棒性与其中间表征中编码的一般背景声音(ASR 噪声)信息量呈正相关,在上图的上半部分中,当语音(Librispeech)受到ESC-50中越来越多的背景声音的污染时,Whisper的鲁棒性明显增强(单词错误率增加较小)

在上图的下半部分中,展示了Whisper的中间表征在相同的ESC-50数据上获得了最佳的线性探测声音分类精度,这表明Whisper编码了大多数背景声音信息,与其他模型不同的是,Whisper甚至在最深层也对背景声音信息进行编码,其中PR=自监督预训练; FT=PR和微调模型

相关评估结果:


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
672#
发表于 2023-7-10 05:41 | 只看该作者
CMMLU

测量中文的大规模多任务语言理解

github项目仓库:https://github.com/haonan-li/CMMLU

随着大型语言模型(LLM)的能力不断进步,评估其性能变得越来越重要和具有挑战性,本文旨在通过引入CMMLU来弥补这一差距

CMMLU是一个涵盖自然科学、社会科学、工程和人文学科等多个学科的综合性中文基准

通过对18款面向多语言和中文的高级LLM进行了全面评估,评估他们在不同学科和环境中的表现,结果显示,大多数现有的LLM很难达到50%的平均准确率,即使提供了上下文示例和思维链提示,而随机基线则为25%

这凸显了LLM的巨大改进空间,此外,还通过大量实验来确定了影响模型性能的因素,并提出增强LLM的方向,CMMLU填补了评估中文环境下大型语言模型的知识和推理能力的部分空白




数据集相关数据分布与论文原始榜单数据:





—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
673#
发表于 2023-7-11 03:31 | 只看该作者
本帖最后由 Machinery 于 2023-7-11 08:33 编辑

teaching arithmetic

教授小型Transformer模型计算

相关论文:https://arxiv.org/abs/2307.03381

github项目代码库:https://github.com/lee-ny/teaching_arithmetic

(注:该代码库基于NanoGPT项目代码实现,研究组对代码库进行了一些修改以支持进行实验)

当对大量文本数据进行训练时,像GPT-4这样的大型语言模型在通用任务(例如基本算数)上表现出新兴的能力,即使这些任务实际上并没有针对无监督的下一个Token预测目标进行明确的任务编码

本文研究了通过随机初始化训练的小型Transformer使用下一个标记预测目标的建模方式有效地进行算数运算学习,例如加法、乘法和诸如平方根等基本函数的准确运算

首先实验证明传统的训练数据对于算数学习并不是最有效的,简单的训练样本的格式更改可以非常显著的提高准确率,随着训练数据量的增加,模型的性能会出现急剧的阶段性提升,在某些情况下,这种阶段性的性能提升可以通过深度学习模型与低秩矩阵完成问题之间的关联来解释

然后,在之前的工作的基础上,对包括中间步骤结果的思想链(COT)数据进行训练,即使完全没有预训练,这种方法也能同时显著提高准确性、样本复杂性和收敛速度

同时还研究了训练过程中算数数据和文本数据之间的相互作用,并检查了小样本提示、预训练和模型规模的效果,此外,还讨论了长度泛化挑战

本文工作的结果强调了高质量、有指导性的数据的重要性,这些数据同时考虑了下一个单词预测目标建模的特定特征,可以让模型快速获得算数能力


本文研究的四种数据格式化方法:
1.普通:标准加法格式化
2.反转:反转输出
3.简化暂存器:按数字记录总和和进位
4.详细暂存器:提供详细的加法中间步骤


通过使用这些不同的格式化方法转换的数据从头开始训练小型Transformer模型以进行加法,结果如右图所示,展示了数据格式化在性能和样本效率方面的关键作用

简单的Plain方法永远不会达到100%的准确度,并且随着数据格式的详细程度提高,其余学习加法的方法的样本复杂性会稳步降低


减法任务的各种数据格式化方法(普通、反向和两个版本的详细暂存器(DS))之间的性能比较,实验是在NanoGPT模型上进行的,该模型在10000个示例的数据集上进行训练,版本2包含操作数比较,与版本1相比,其性能显着降低,这一观察结果强调了中间步骤的构建对模型性能的重大影响

论文相关预览:


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
674#
发表于 2023-7-11 04:01 | 只看该作者
本帖最后由 Machinery 于 2023-7-11 08:35 编辑

GPT4RoI

在感兴趣的区域(Region-of-Interest)上对大型语言模型进行指令调整

github项目代码库:https://github.com/jshilong/GPT4RoI

在图像-文本对上调整大语言模型(LLM)的指令已经实现了前所未有的视觉-语言多模态能力,然而这些的视觉语言对齐仅建立在图像级别上,缺乏图像区域级对齐限制了这些方法在细粒度多模态理解方面的进步


在本文中提出了对感兴趣区域进行指令调整的方法,其中的关键设计是将边界框重新表述为空间指令的格式,将空间指令和语言嵌入提取的视觉特征的交错序列输入到LLM,并以指令调整格式对转换后的区域文本数据进行训练

本文提出的区域级视觉语言模型(称为GPT4RoI)带来了超越图像级理解的全新对话和交互体验,其中包括:
1.可控性:用户可以通过语言和空间指令与模型进行交互,以灵活调整问题的细节程度
2.容量:GPT4RoI模型不仅支持单独的区域空间指令,还支持多区域,这解锁了更多区域级多模态能力,例如详细的区域标题和复杂的区域推理
3.组合:任何现成的物体检测器都可以作为空间指令提供者,以便从GPT4RoI模型中挖掘信息丰富的物体属性,如颜色、形状、材质、动作、与其他物体的关系等



GPT4RoI与其他多模态模型的对比

GPT4RoI是一种基于区域文本对的大语言模型(LLM)指令调整的视觉语言模型,它能够处理包含交错的语言序列和空间信息<region>的用户指令,实现了细粒度的多模态理解任务,例如生成区域标题或推理


图像-文本对的视觉指令调整和区域-文本对的空间指令调整的比较,每个对象的边界框和文本描述在区域文本数据集中提供,在训练过程中,空间指令来自标注,而在推理过程中,空间指令由用户输入给出


GPT4RoI是一种端到端视觉语言模型,用于处理包含空间信息的指令,例如<region>,在Token化和转换为嵌入期间,指令中<region>的嵌入被多级图像特征的RoIAlign结果替换,随后所有嵌入都可以发送到大型语言模型(LLM)进行进一步处理,类似于纯文本指令,其中还可以利用整个图像的特征来捕获全局信息,并为了简洁起见在图中省略了这部分

训练数据信息与具体实例:




—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
675#
发表于 2023-7-11 04:28 | 只看该作者
本帖最后由 Machinery 于 2023-7-11 08:39 编辑

MeetingQA

会议记录信息的提取后问答

项目主页:https://archiki.github.io/meetingqa.html

注:


随着在线会议平台和强大的自动语音识别系统的普遍使用,会议记录已成为自然语言任务的一个新的有趣领域,最近有关会议记录的工作仅限于总结和提取行动项目,然而,会议讨论也有一个有用的问答(QA)组件,这对于理解讨论或会议内容至关重要,并且可用于在长记录的基础上构建交互式界面进行处理

因此,在这项工作中,引入了MeetingQA,这是一个提取QA数据集,其中包含会议参与者提出的问题和相应的响应

问题可以是开放式的寻求积极的讨论,而答案可以是多跨度的并分布在多个发言者中,研究组对几个强大的基线(包括长上下文语言模型和最近的指令调整模型)进行的全面实证研究表明,模型普遍在这项任务上表现不佳,并且严重落后于人类表现,本文实际提出了一种有用的、 社区需要改进的挑战性新任务


对来自AMI(增强多方交互)语料库的公开会议进行了标注,手动转录的会议时间约为100小时,为此招募了标注者来标记记录中的哪些句子回答的问题以及元数据,发现标注者之间的一致性很高,Krippendorff的α为0.73,以每次会议61美元的价格获得了166次会议的标注

问题类型:即使以“是/否”方式提出的问题也是寻求信息并引发详细答复,约50%的问题是寻求意见,约20%的问题是修辞性的
答案类型:30%的问题无法回答,40%的答案是多跨度(非连续句子),48%涉及多个发言者,近70%的多发言者答案包含参与者之间某种程度的分歧
长度分布:文字记录、问题和相应答案的平均长度分别为5.9K、12和35个单词
人类表现:在测试集中的250个问题上,F1=84.6


具体实验中:对于短上下文模型,发现整个会议记录不适合作为输入上下文,因此,实践中根据问题的位置从记录中检索片段,另一方面,长上下文模型具有更长的输入上下文预算,因此对于这些模型,实验中尽可能多地容纳文本(围绕问题),探索了预测从第一个到最后一个相关句子的单跨度答案的单跨度模型和将QA视为Token分类任务的多跨度模型,此外,还使用了MediaSum数据集中采访的自动标注数据来扩充训练数据


比较了经过微调的单跨度模型的性能和人类在不同答案类型上的性能(最佳数字以粗体显示)


比较了不同评估指标和答案类型的微调的多跨度模型的性能


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
676#
发表于 2023-7-11 05:26 | 只看该作者
本帖最后由 Machinery 于 2023-7-11 08:42 编辑

NORMBANK

社会情景的规范知识库

github项目仓库:https://github.com/SALT-NLP/normbank


NormBank是一个包含155k情景规范的知识库,该资源旨在为交互式、辅助和协作人工智能系统提供灵活的规范推理,与之前的常识性资源不同,NormBank的每个推论建立在多维元素的社会文化框架内,其中包括环境(例如餐厅)、代理人的角色(服务员、顾客)、他们的属性(年龄、性别)以及其他身体、社会、和文化限制(例如,温度或运营国家/地区)等


总的来说,NormBank包含引入并迭代完善分类的63k个独特约束,然后以不同的组合应用约束来构建社会规范

在这些操纵下,规范是非单调的,人们可以通过稍微更新其框架来取消原来的推理,同时发现神经网络模型可以帮助可靠地扩展NormBank的范围和覆盖范围,通过一系列转移实验进一步证明了该资源的实用性


NORMBANK有什么特别之处? 规范以情境约束为基础——环境和个人属性,以及角色和其他行为,在此示例中,对于咖啡馆中的顾客来说,在其原型环境中喝咖啡是一项受到鼓励的活动,但对于在同一家咖啡馆中工作的咖啡师来说,或者对于儿童年龄的学生在教室中这样做来说,这是违反规范的 ,这些代表了NORMBANK中的一些非单调规范推理

用于约束NORMBANK的SCENE演剧化框架示例,餐厅设置由环境中的出席人数(不拥挤)和一天中的时间(夜间)指定,两种代理角色,客户和服务者; 后者由年龄段(成人)和性别(男性)属性指定,前者有饮酒、约会等行为

注:图形仅供参考,NORMBANK是一个文本数据集,不包含任何图像


约束生成结果,左图为自动评估,实验表明BART比其他生成模型更具有优势,中间图的生成的约束属于SCENE分类法67.2-100%[Tax.  Constr.]并在30-64%的时间内使用预填充约束[Pre-pop.Constr.],时间取决于使用的不同解码策略,右图为人类评估,显示出令人鼓舞的结果,经过NORMBANK训练的BART可以生成合理的、正确的、规范的和相关的约束,用于自动扩展NORMBANK,此处,突出显示了最佳微调模型结果,以粗体显示

数据集分布与构建:



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
677#
发表于 2023-7-12 03:51 | 只看该作者
本帖最后由 Machinery 于 2023-7-12 03:55 编辑

AnimateDiff

在无需进行特定微调的情况下为您的个性化文本到图像扩散模型生成图片制作连贯的动画

项目主页:https://animatediff.github.io/

github项目地址:https://github.com/guoyww/animatediff/

随着文本到图像模型(例如Stable Diffusion)和相应的个性化技术(例如DreamBooth和LoRA)的进步,大众得以在可承受的成本范围内将他们的想象力转化为高质量的图像,在这之后,对生成的图像进行动画化的技术需求很大,需要进一步将生成的静态图像与动态运动相结合

在本报告中,提出了一个实用的框架,可以一劳永逸地对大多数现有的个性化文本到图像模型进行动画化处理,从而节省模型特定调整的工作量


AnimateDiff的核心是将全新的初始化运动建模模块插入到冻结的文本到图像模型中,并在视频剪辑片段上对其进行训练,以提取合理的运动先验

只要经过一次预先的训练,这个简单地注入的运动建模模块,可以让所有源自相同基础文本到图像模型的个性化微调版本都可以轻松地变成文本驱动的动画生成模型,从而产生多样化和个性化的动画图像,而无需再次训练

对跨动漫图片和现实照片的几个具有代表性的个性化文本到图像模型进行了评估,证明了提出的框架可以帮助这些模型生成时间平滑的动画剪辑片段,同时保留其输出的风格和多样性

项目框架:


AnimateDiff可以轻松作为插件插入由用户训练的个性化T2I模型中,例如直接从CivitAI或Huggingface等平台下载的图像模型,并生成具有适当运动效果的动画剪辑片段

效果演示(项目主页可查看示例的动态视频):


对比效果:


消融实验:


失败案例:


—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
678#
发表于 2023-7-12 04:32 | 只看该作者
VampNet

通过遮蔽(Mask)声学Token模型进行音乐生成

github项目地址库:https://github.com/hugofloresgarcia/vampnet

音频试听样本:https://tinyurl.com/bdfj7rdx

预训练模型:https://zenodo.org/record/8136545

本文引入了VampNet,一种用于音乐合成、压缩、重制和变化的遮蔽声学Token建模方法

模型在训练期间使用可变遮蔽计划,使之能够在模型推理过程中应用各种遮蔽方法(又称为遮蔽提示)从模型中采样连贯的音乐

VampNet构架是非自回归的,利用双向Transformer来处理前向传递中的所有Token,只需36次采样,VampNet就可以生成连贯的高保真音乐波形

通过以各种遮蔽的方式提示VampNet,可以将其应用于音乐压缩、修复、重制、延续和变化循环(vamping)等任务

在适当的提示下,VampNet能够保持音乐的风格、流派、乐器和其他高级语义方面,这种灵活的提示能力使VampNet能够成为强大的音乐辅助创作工具


VampNet概览图,首先使用音频标记器将音频转换为一系列离散Token,之后Token被遮蔽,然后传递到遮蔽生成模型,该模型通过两个级别的高效迭代并行解码采样生成过程来预测被遮蔽的Token的值,之后将结果解码回音频


训练、采样和提示VampNet

训练:使用遮蔽声学Token模型来训练VampNet,首先随机遮蔽一组输入声学Token的一部分,并学习使用可变遮蔽时间表来预测遮蔽的Token集合,粗粒度模型只被训练遮蔽粗略的Token,而从粗到精的训练则只会遮蔽细粒度的Token

采样:使用并行迭代解码从VampNet中采样新的声学标记序列,在每次迭代中采样最置信的预测Token的子集

提示:VampNet可以通过多种方式提示来生成音乐,例如,它可以进行定期提示设置,其中输入序列中的每个第P个时间步长都被取消遮蔽,或者以节拍驱动的方式提示,其中歌曲中节拍标记周围的时间步长被取消遮蔽


使用不同数量的采样步骤获取的VampNet样本的梅尔重建误差(上方)和Fréchet音频距离(FAD,下方),使用P=16的周期性遮蔽提示获取,样本是通过解压缩令牌生成的,以极低的比特率(50 bps)有效地生成了输入音乐的变化


图 4. 使用不同类型的提示获取的VampNet 10s样本的多尺度梅尔频谱图误差(上方)和Fréchet音频距离(FAD,下方)


不同比特率下VampNet样本的梅尔频谱图误差(上方)和Fréchet音频距离(FAD,下方),根据噪声比例r用随机Token替换输入序列中的Token来提供基线对比

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
679#
发表于 2023-7-12 04:52 | 只看该作者
本帖最后由 Machinery 于 2023-7-12 04:53 编辑

PCFG

大型语言模型可以作为通用的模式生成机器

相关论文:https://arxiv.org/abs/2307.04721

项目主页:https://general-pattern-machines.github.io/

项目代码与colab:coming soon

预训练的大语言模型(LLM)能够以自回归的方式完成复杂的标记序列生成,从概率上下文无关语法(PCFG/probabilistic context-free grammars)程序生成任意标记序列,到抽象推理语料库(ARC/Abstract Reasoning Corpus)中发现的更丰富的空间模式

令人惊讶的是,即使使用从词汇表中随机采样的标记来表达序列,也可以部分保留模式完成能力,这些结果表明,无需任何额外的培训,LLM就可以在上下文学习的驱动下充当通用序列建模者

在这项工作中,研究了如何将这些零样本能力应用于机器人技术中的问题,从推断代表随时间变化的状态的数字序列来完成简单的运动,到从最小到最大的奖励条件轨迹的提示,这些轨迹可以发现并表征闭环策略(例如CartPole的稳定控制器)

虽然由于延迟、上下文大小限制和计算成本,目前很难在实际系统中部署,但使用LLM驱动低级机器控制的方法可能会令人兴奋地了解单词之间的模式如何转换为具体的操作


开箱即用的LLM可以完成(图中以突出显示)以任意Token表达复杂的ARC模式

开箱即用的预训练LLM可以作为通用模式机的基本版本,识别和完成数字或任意符号的标记序列,表征机器人技术和顺序决策中的抽象问题


实验表明,在某种程度上,LLM可以在上下文中学习
1.序列变换(例如,对符号的空间重新排列进行推理,用于动态建模和下采样图像的下一状态预测)
2.完成简单功能(例如推断运动感觉演示)
3.元模式以改进返回条件策略(例如发现振荡行为以稳定CartPole)

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
680#
发表于 2023-7-12 05:27 | 只看该作者
本帖最后由 Machinery 于 2023-7-12 05:29 编辑

Semantic-SAM

以任何粒度(Granularity)分割和识别任何事物

github项目代码库:https://github.com/UX-Decoder/Semantic-SAM

Demo演示:http://semantic-sam.xyzou.net:6080/

Demo演示2:http://semantic-sam.xyzou.net:6081/

Semantic-SAM是一种通用图像分割模型,可以以任何所需的粒度分割和识别任何内容

本文的模型提供了两个关键优势:语义意识和粒度丰富,为了实现语义感知,研究组跨越三个不同的粒度整合多个数据集,并引入对象和部分的解耦分类,这使Semantic-SAM能够捕获丰富的语义信息

对于多粒度能力,在训练期间提出了一种多选择学习方案,使每次点击都能生成与多个真实掩码相对应的多个级别的掩码,值得注意的是,这项工作代表了在SA-1B、通用和部分分割数据集上联合训练模型的首次尝试

实验结果和可视化表明模型成功实现了语义感知和粒度丰富,此外将SA-1B训练与其他分割任务(例如全景和部分分割)相结合,可以进一步提高性能


Semantic-SAM能够处理各种分割任务,包括开放集和交互式分割,进一步进行实例分割、语义分割、全景分割和部分分割,同时能够输出不同粒度的多级语义,最左边图像上的红点是点击,将模型与修复模型连接起来以执行多级修复,提示分别是“蜘蛛侠”和“宝马汽车”,请注意,只需单击一次即可分别生成b和c中的结果


Semantic-SAM是一个通用分割框架,可以采用多种类型的分割数据,包括通用分割数据、部分分割数据和与类无关的分割数据,视觉编码器用于提取图像特征,掩码解码器可以进行通用分割和具有各种类型提示的提示分割

对于点和框,通过锚定框将它们输入到掩码解码器。 由于点输入的粒度存在模糊性,因此模型将每个点复制6次,并赋予它们不同级别的嵌入,点提示的输出掩码与多个不同粒度的真实掩码相匹配


解耦目标整体与部分

在Semantic-SAM中构建训练目标的loss,四个loss分别是部分分类、对象分类、框loss和掩码loss,最后一列表示匹配中的真实掩码的数量


交互式学习策略比较
A.一对一:专注于对象级别的传统交互式分割模型,即 SEEM
B.多对一:单粒度的多选学习,即SAM
C.多对多:本文模型,强制模型预测一次点击的所有可能的粒度,以实现更可控的细分,因此输出粒度更加丰富,可以生成不同的输出掩码

演示实例:



—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-5-9 06:44 , Processed in 0.048093 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表