Loong – 港大和字节联合推出的长视频生成模型 | AI工具集

Loong是什么

Loong是由香港大学和字节跳动联合推出的一种新型长视频生成模型，能生成外观一致、动态丰富、场景过渡自然的分钟级长视频。模型基于自回归大型语言模型（LLM），将文本和视频信息整合为统一序列，用渐进式短到长训练方案与损失重新加权策略，克服长视频训练中的挑战。Loong的设计支持模型在训练时学习从文本提示生成视频，扩展到生成超出训练长度的视频。Loong研究包括视频标记重新编码和采样策略在内的推理策略，减少推理过程中的错误累积。
Loong - 港大和字节联合推出的长视频生成模型 | AI工具集

Loong的主要功能

长视频生成：生成长达一分钟或更长时间的视频内容。
文本到视频的转换：根据给定的文本提示生成与之相符的视频内容。
内容连贯性：确保生成的视频在外观、动态变化和场景过渡上具有高度连贯性。
动态丰富性：捕捉并表现出视频中的复杂动态和动作变化。
场景自然过渡：在视频的不同场景之间实现平滑过渡，保持视觉连贯性。

Loong的技术原理

统一序列建模： Loong将文本标记和视频标记作为统一序列进行建模，让自回归大型语言模型（LLM）基于文本提示预测视频标记。
渐进式短到长训练： 基于分阶段训练策略，逐渐增加训练视频的长度，模型能学习并生成更复杂、更具连贯性的视频内容。
损失重新加权： 为解决长视频训练中的损失不平衡问题，对早期帧的损失进行加权，强化模型对早期帧的学习。
视频标记重新编码： 在视频推理过程中，基于将预测的视频标记解码为像素空间的视频帧，重新编码，保持视频内容的连贯性和一致性。
采样策略：基于Top-k采样策略，从最可能的标记中进行选择，减少潜在错误对后续标记生成的影响，缓解错误累积问题。

Loong的项目地址

Loong的应用场景

娱乐和社交媒体：用户生成个性化的长视频内容，分享在社交媒体平台上，如音乐视频、旅行日志、趣味故事等。
电影和视频制作：在电影预告片、特效制作或者长视频内容的初步创意阶段，Loong快速生成视频草图，帮助导演和制片人探索不同的故事线和视觉效果。
广告和营销：企业生成吸引人的广告视频，更生动的方式展示产品或服务，提高广告的吸引力和记忆度。
教育和培训：在教育领域，L创建教育内容，如历史重现、科学实验模拟，提供更加直观和互动的学习体验。
新闻和报道：新闻机构快速生成新闻故事的视频摘要，提高报道的效率和吸引力。

本站文章版权归 AI工具集所有，未经允许禁止任何形式的转载。

# AI工具

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Loong – 港大和字节联合推出的长视频生成模型 | AI工具集

Loong是什么

Loong的主要功能

Loong的技术原理

Loong的项目地址

Loong的应用场景

ScriptViz - 斯坦福大学推出的剧本可视化AI辅助工具 | AI工具集

摆平AI论文 - AI论文写作助手，专为学生和研究人员打造 | AI工具集

相关文章

暂无评论

热门标签

热门网址

最新文章