Goku

Goku视频生成模型是由中国香港大学与字节跳动联合推出的一款AI视频生成工具，能够实现文本到视频、图像到视频以及文本到图像等多种生成方式。

收录时间：

2025-01-18

打开网站手机查看

AI大模型 # Goku # 多模态生成 # 视频生成模型

Goku

Goku

Goku 是由 Saiyan-World 团队开发的开源视频生成模型，基于 Rectified Flow Transformer 架构，支持文本到图像、图像到视频以及文本到视频等多种生成模式。该模型聚焦于高质量视觉内容的自动化生产，在广告、电商、影视预告等场景中展现出较强的应用潜力。

Goku官网入口网址：https://saiyan-world.github.io/goku

Goku插图

在 Goku 的官方网站上，用户可查阅项目的技术说明、使用文档，并通过在线演示入口直接体验其生成能力。同时，项目的 GitHub 仓库开放了完整的源代码与模型权重，便于研究人员和开发者进行本地部署与二次开发。

核心特性

多模态生成能力：支持文本、图像作为输入，输出连贯且细节丰富的视频内容，有效处理复杂的时空动态关系。
高生成质量：在多个测试场景中，Goku 能够输出分辨率较高、动作自然的视频片段，适用于对视觉表现有较高要求的应用。
虚拟数字人合成：可生成具有逼真面部表情与肢体动作的虚拟人物，适用于虚拟主播、智能客服等交互式场景。
成本效率优势：相较于传统视频制作流程，Goku 显著降低了人力与时间投入，使中小规模团队也能高效产出专业级视频内容。
广告场景优化版本 Goku+：针对商业广告需求推出的增强版本，在画面稳定性、品牌元素融合及情感表达方面进行了专项优化。

Goku 适用于需要快速将创意文本或静态素材转化为动态视频的各类场景，包括商品展示、营销短片、互动内容生成等。通过整合先进生成技术与实用功能设计，该项目为内容创作者与技术开发者提供了灵活且高效的工具支持。

相关导航

AI Ping

AI Ping是面向大模型使用者，提供全面、客观、真实的大模型服务评测与信息汇总平台。提供长周期、高频率、多时段评测数据,助力您高效完成大模型服务的选型与供应商评估

flux1.ai

文本到图像生成模型

TryOnDiffusion

谷歌推出的一款基于扩散模型的虚拟试衣技术，旨在为用户提供高质量、逼真的试衣体验

EchoMimic

EchoMimic 是蚂蚁集团开发的一款基于音频驱动的肖像动画生成工具，旨在通过音频和面部标志点生成逼真的动态视频。

达医智影

达医智影是阿里巴巴达摩院医疗AI实验室研发的一款创新性AI医疗工具，专注于CT智能读片和癌症筛查领域。

Z.ai

Z.ai 是智谱 AI 推出的全新模型体验平台，作为智谱面向全球打造的人工智能体验平台，旨在为用户带来高效且强大的 AI 交互感受。

西湖大模型

一款多模态大模型，具备高智商和高情商的特点

可灵大模型

由快手AI团队自研打造的视频生成大模型