字节跳动公开项目OmniHuman-1，互联网或将迎来合成时代

yesicant · 发表于 2025-2-5 01:57

项目主页：https://omnihuman-lab.github.io/

论文：http://arxiv.org/abs/2502.01061

简单来说就是字节跳动找到了一种方法，能够在低数据集的情况下通过联合条件训练拓展模型效果，做到以全模态—多条件输入生成对应的内容，这玩意看起来不怎样，就是效果有点离谱，可以去项目主页看看

OmniHuman：端到端多模态条件驱动人类视频生成框架，该框架能够基于单张人物图像结合多种运动信号（如仅音频、仅视频或音视频组合）生成人物视频，在OmniHuman中，创新性地引入了多模态运动条件混合训练策略，使模型能够受益于混合条件数据的规模扩展，成功克服了传统端到端方法因高质量数据稀缺而面临的局限性，OmniHuman在生成效果上显著超越现有方法，尤其能够基于弱信号输入（特别是纯音频）生成极其逼真的人物视频，该系统支持输入任意宽高比的图像（包括肖像、半身或全身图像），在各种应用场景中呈现出更加逼真和高质量的生成效果

yesicant · 发表于 2025-2-5 02:04

可以这么说，哪怕有cherry pIck，这玩意的效果都可以说是目前的世界第一

fat · 发表于 2025-2-5 08:32

搞数字人直播的估计很高兴，效果更逼真了。

—— 来自鹅球 v3.3.96

		自动登录	找回密码
密码			立即注册

[科技] 字节跳动公开项目OmniHuman-1，互联网或将迎来合成时代

本帖子中包含更多资源