CogVideo
CogVideo 是一个由清华大学和北京人工智能研究院(BAAI)联合开发的开源文本到视频生成模型。
VideoPoet 是由谷歌研究团队开发的 AI 视频生成模型,基于多模态大模型架构,能够接收文本、图像、视频和音频等多种输入形式,并据此生成具有不同风格与动作的视频内容。
VideoPoet官网入口网址:https://sites.research.google/videopoet
该模型采用仅解码器的 Transformer 结构,训练过程分为预训练与任务特定适应两个阶段。在预训练阶段,模型融合了多种多模态生成目标,使其具备处理多样化视频生成任务的能力。VideoPoet 可生成最长 10 秒的视频片段,且不依赖特定数据集或扩散模型技术。
其核心功能涵盖文本生成视频、图像转视频、视频风格迁移、视频编辑与扩展、音视频同步生成以及跨模态学习等。用户仅需提供文字描述,即可获得结构完整、视觉连贯的视频输出,无需额外的视觉或音频引导。
VideoPoet 适用于电影制作、动画创作、广告设计、虚拟现实等多个专业领域。例如,谷歌研究团队曾通过一段关于浣熊旅行的文本提示,成功生成时长一分钟的连贯叙事视频。
该工具降低了高质量视频创作的技术门槛,使专业创作者与普通用户均能高效实现创意构想。其灵活的输入方式与强大的多模态处理能力,体现了当前 AI 视频生成技术的重要发展方向。