VideoPoet

VideoPoet模型能够处理多种输入类型，包括图像、视频、文本和音频，并支持多种视频生成任务，如文本到视频、图像到视频、视频风格化、视频修复、视频扩展以及视频转音频等。

收录时间：

2024-04-14

VideoPoet

VideoPoet 是由谷歌研究团队开发的 AI 视频生成模型，基于多模态大模型架构，能够接收文本、图像、视频和音频等多种输入形式，并据此生成具有不同风格与动作的视频内容。

VideoPoet官网入口网址：https://sites.research.google/videopoet

该模型采用仅解码器的 Transformer 结构，训练过程分为预训练与任务特定适应两个阶段。在预训练阶段，模型融合了多种多模态生成目标，使其具备处理多样化视频生成任务的能力。VideoPoet 可生成最长 10 秒的视频片段，且不依赖特定数据集或扩散模型技术。

其核心功能涵盖文本生成视频、图像转视频、视频风格迁移、视频编辑与扩展、音视频同步生成以及跨模态学习等。用户仅需提供文字描述，即可获得结构完整、视觉连贯的视频输出，无需额外的视觉或音频引导。

VideoPoet 适用于电影制作、动画创作、广告设计、虚拟现实等多个专业领域。例如，谷歌研究团队曾通过一段关于浣熊旅行的文本提示，成功生成时长一分钟的连贯叙事视频。

该工具降低了高质量视频创作的技术门槛，使专业创作者与普通用户均能高效实现创意构想。其灵活的输入方式与强大的多模态处理能力，体现了当前 AI 视频生成技术的重要发展方向。