万相2.1 – 通义万相最新推出的视频生成模型 | AI工具集


万相2.1是什么

万相2.1是阿里推出的通义万相升级版本。基于自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现中文文字视频生成功能。升级后的通义万相在VBench榜单上荣登第一。万相2.1能稳定展现复杂人物运动,逼真还原现实物理规律,一键生成中英文视频特效,具备强大的影视质感与艺术风格转换能力。万相2.1支持文生组图,采用IC-LoRA图像生成训练方法,增强文本到图像的上下文能力,轻松实现关联图像间的组合生成。
万相2.1 - 通义万相最新推出的视频生成模型 | AI工具集

万相2.1的主要功能

  • 视频生成
    • 复杂动作展现:稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等,及镜头的移动,让视频内容更加生动和真实。
    • 物理规律还原:逼真还原真实世界的物理规律,如碰撞、反弹、切割、挤压等。比如生成雨滴落在伞上溅起水花的场景,让视频更具真实感。
    • 中英文视频特效生成:提供多种视频特效选项,如过渡、粒子效果、模拟等,能一键生成中英文视频特效,增强视频的视觉表现力。
    • 艺术风格转换:具备强大的艺术风格表现力,能一键转换视频的影视质感与艺术风格,如电影色调、印象笔触、抽象表现等,生成各种风格的视频。
  • 图生成
    • 分镜效果还原:还原电影级的分镜效果,确保角色、相貌、动作、环境、灯光等元素连贯,将故事情节、视觉效果和氛围营造完美结合。
    • 四格漫画创作:根据用户描述的漫画剧情与风格,生成四格漫画,快速讲述一个小故事。
    • 创意头像定制:根据用户的喜好、风格、特点,定制专属的情侣头像、个人头像等。提供卡通风格、写实风格、创意风格等多种风格选择,满足用户的不同需求。

万相2.1的技术原理

  • VAE架构:变分自编码器(VAE)是生成模型,用编码器将输入数据映射到一个潜在空间,再用解码器将潜在空间的表示映射回数据空间,实现数据的生成和重建。
  • DiT架构:DiT(Diffusion in Time)架构是基于扩散模型的生成模型,在时间维度上逐步引入噪声,逐步去除噪声生成数据。DiT能有效地捕捉视频的时空结构,支持高效编解码和生成高质量的视频。
  • IC-LoRA:IC-LoRA是一种图像生成训练方法,基于结合图像内容和文本描述,增强文本到图像的上下文能力,让生成的图像更加符合用户的文本描述和期望。
  • 上下文建模:基于增强时空上下文建模能力,更好地理解和生成具有连贯性和一致性的视频内容,让视频中的动作、场景和风格等元素更加自然和协调。

万相2.1的项目地址

万相2.1的应用场景

  • 影视制作:为古装剧生成古代战争特效,如千军万马冲锋、箭雨纷飞等,增强视觉效果。
  • 广告视频制作:为运动饮料制作广告,生成年轻人运动后畅饮的场景,突出产品功能。
  • 教学辅助:教室在历史课上生成赤壁之战视频,帮助学生理解历史事件。
  • 文化创作:制作书法艺术纪录片,生成书法家创作过程视频,展示书法技巧。
  • 新闻报道:报道交通事故,生成事故现场模拟视频,清晰展示事故经过。
© 版权声明

© 版权声明

相关文章

暂无评论

暂无评论...