Large Motion Model – 商汤科技联合南洋理工推出的统一多模态运动生成模型


Large Motion Model是什么

Large Motion Model(LMM)是统一的多模态运动生成模型,是新加坡南洋理工大学S-Lab和商汤科技研究团队共同推出的。LMM能处理包括文本到运动、音乐到舞蹈等多种运动生成任务,在多个基准测试中展现出与专家模型相媲美的性能。模型基于整合不同模态、格式和任务的数据集创建全面的MotionVerse数据集,采用创新的ArtAttention机制和预训练策略,实现对身体部位的精确控制和广泛的知识泛化。LMM在处理未见任务时展现出强大的泛化能力,为未来大型运动模型的研究提供新视角。
Large Motion Model - 商汤科技联合南洋理工推出的统一多模态运动生成模型

Large Motion Model的主要功能

  • 多任务运动生成:能执行多种运动生成任务,如文本到运动、音乐到舞蹈、动作到运动等。
  • 数据集整合:创建MotionVerse数据集,基于整合不同模态、格式和任务的数据集,实现统一的运动表示。
  • 精确控制:采用ArtAttention机制,支持对不同身体部位进行精确控制,提高运动生成的精细度。
  • 泛化能力:展现出强大的泛化能力,在多种未见任务上进行有效的运动生成。
  • 多模态输入处理:同时处理多种模态输入,如文本、音乐、视频等,生成相应的运动输出。

Large Motion Model的技术原理

  • 统一数据集(MotionVerse):基于统一的数据集MotionVerse,数据集包含多种任务和模态的运动数据,基于TOMATO表示法统一不同格式的运动数据。
  • Diffusion Transformer骨干网络:基于Transformer架构的Diffusion模型,用去噪扩散概率模型(DDPM)进行高质量的运动序列生成。
  • ArtAttention机制:设计一种新颖的注意力机制ArtAttention,机制结合身体部位感知建模,支持模型对不同身体部位进行独立的控制和学习。
  • 预训练策略:采用随机帧率和多种掩码技术的预训练策略,增强模型对不同数据源的学习能力和泛化能力。
  • 零样本学习:采用零样本方法生成长序列运动,让模型在没有额外样本的情况下生成运动。

Large Motion Model的项目地址

Large Motion Model的应用场景

  • 动画和游戏制作:生成逼真的角色动画,减少手动动画制作的时间和成本,提高动画制作的效率。
  • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,生成与用户动作相匹配的虚拟角色动作,提升沉浸感。
  • 电影和视频制作:生成电影中的特殊效果,如模拟复杂的打斗场景或舞蹈动作,提高制作效率。
  • 运动分析和训练:分析运动员的动作,提供训练建议,或生成标准动作模板。
  • 机器人技术:教导机器人执行复杂的人类动作,提高机器人在服务、医疗或工业领域的应用能力。
© 版权声明

© 版权声明

相关文章

暂无评论

暂无评论...