One Shot, One Talk – 中科大联合香港理工推出的动态图像生成技术

AI工具1个月前发布 杨海雄
0 0


One Shot, One Talk是什么

One Shot, One Talk是先进的图像生成技术,能从单张图片中生成具有个性化细节的全身动态说话头像,支持逼真的动画效果,包括自然的表情变化和生动的身体动作。One Shot, One Talk是中国科学技术大学和香港理工大学的研究者推出的,结合姿势引导的图像到视频扩散模型和3DGS-mesh混合头像表示,实现对新姿势和表情的泛化,凭一张图片能创建出逼真、精确可动且富有表情的全身说话头像。
One Shot, One Talk - 中科大联合香港理工推出的动态图像生成技术

One Shot, One Talk的主要功能

  • 单图像重建:从单张图片中重建出全身动态说话头像。
  • 逼真动画:支持包括身体动作和面部表情在内的逼真动画效果。
  • 个性化细节:捕捉并再现人物的个性化特征和细节。
  • 精确控制:提供对头像姿势和表情的精确控制。
  • 泛化能力:能泛化到新的姿势和表情,即使在训练中未见过。

One Shot, One Talk的技术原理

  • 姿势引导的图像到视频扩散模型:基于模型生成不完美视频帧作为伪标签,实现对新姿势和表情的泛化。
  • 3DGS-mesh混合头像表示:结合3D高斯模型(3DGS)和参数化网格模型(如SMPL-X),增强头像的表达力和真实感。
  • 关键正则化技术:应用正则化技术减轻伪标签引起的不一致性,确保头像的结构和动态建模的准确性。
  • 伪标签生成:用TED Gesture Dataset等数据集驱动预训练模型,生成目标人物执行不同姿势和表情的视频序列。
  • 损失函数和约束:设计多个损失函数和约束项,包括感知损失(如LPIPS)和像素级损失,从输入图像和伪标签中有效提取信息,并稳定头像重建过程。
  • 优化和训练:用Adam优化器进行训练,基于精心设计的损失权重平衡不同损失函数,达到最优的头像重建效果。

One Shot, One Talk的项目地址

One Sho, One Talk的应用场景

  • 增强现实(AR)和虚拟现实(VR):在AR/VR应用中,创建逼真的虚拟角色,提升用户的沉浸感和交互体验。
  • 远程会议和远程呈现:基于生成逼真的全身动态头像,用在远程会议,让远程沟通更加自然和高效。
  • 游戏和娱乐:在游戏和电影制作中,快速生成或自定义角色,减少传统动作捕捉和建模的时间和成本。
  • 社交媒体和内容创作:用户创建个性化的虚拟形象,用在社交媒体平台或作为虚拟主播进行内容创作。
  • 教育和培训:在虚拟教学环境中,教师拥有逼真的虚拟形象,增强远程教学的效果。
© 版权声明

© 版权声明

相关文章

暂无评论

暂无评论...