VideoPoet

VideoPoet模型能够处理多种输入类型,包括图像、视频、文本和音频,并支持多种视频生成任务,如文本到视频、图像到视频、视频风格化、视频修复、视频扩展以及视频转音频等。

收录时间:
2024-04-14
VideoPoetVideoPoet

VideoPoet 是由谷歌研究团队开发的 AI 视频生成模型,基于多模态大模型架构,能够接收文本、图像、视频和音频等多种输入形式,并据此生成具有不同风格与动作的视频内容。

VideoPoet官网入口网址:https://sites.research.google/videopoet

该模型采用仅解码器的 Transformer 结构,训练过程分为预训练与任务特定适应两个阶段。在预训练阶段,模型融合了多种多模态生成目标,使其具备处理多样化视频生成任务的能力。VideoPoet 可生成最长 10 秒的视频片段,且不依赖特定数据集或扩散模型技术。

其核心功能涵盖文本生成视频、图像转视频、视频风格迁移、视频编辑与扩展、音视频同步生成以及跨模态学习等。用户仅需提供文字描述,即可获得结构完整、视觉连贯的视频输出,无需额外的视觉或音频引导。

VideoPoet 适用于电影制作、动画创作、广告设计、虚拟现实等多个专业领域。例如,谷歌研究团队曾通过一段关于浣熊旅行的文本提示,成功生成时长一分钟的连贯叙事视频。

该工具降低了高质量视频创作的技术门槛,使专业创作者与普通用户均能高效实现创意构想。其灵活的输入方式与强大的多模态处理能力,体现了当前 AI 视频生成技术的重要发展方向。

相关导航