找回密码
 立即注册
搜索
查看: 3197|回复: 2

[科技] 字节跳动公开项目OmniHuman-1,互联网或将迎来合成时代

[复制链接]
     
发表于 2025-2-5 01:57 | 显示全部楼层 |阅读模式
项目主页:https://omnihuman-lab.github.io/


论文:http://arxiv.org/abs/2502.01061

简单来说就是字节跳动找到了一种方法,能够在低数据集的情况下通过联合条件训练拓展模型效果,做到以全模态—多条件输入生成对应的内容,这玩意看起来不怎样,就是效果有点离谱,可以去项目主页看看



OmniHuman:端到端多模态条件驱动人类视频生成框架,该框架能够基于单张人物图像结合多种运动信号(如仅音频、仅视频或音视频组合)生成人物视频,在OmniHuman中,创新性地引入了多模态运动条件混合训练策略,使模型能够受益于混合条件数据的规模扩展,成功克服了传统端到端方法因高质量数据稀缺而面临的局限性,OmniHuman在生成效果上显著超越现有方法,尤其能够基于弱信号输入(特别是纯音频)生成极其逼真的人物视频,该系统支持输入任意宽高比的图像(包括肖像、半身或全身图像),在各种应用场景中呈现出更加逼真和高质量的生成效果

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
 楼主| 发表于 2025-2-5 02:04 | 显示全部楼层
可以这么说,哪怕有cherry pIck,这玩意的效果都可以说是目前的世界第一
回复

使用道具 举报

发表于 2025-2-5 08:32 来自手机 | 显示全部楼层
搞数字人直播的估计很高兴,效果更逼真了。

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-2-11 19:34 , Processed in 0.020538 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表