MMAudio
MMAudio是一个多模态音频生成模型,旨在通过视频和/或文本输入生成高质量、同步的音频。
CogVideo 是由清华大学与 BAI 唐杰团队联合开发的开源文本到视频生成模型,参数规模达94亿,是当前通用领域中规模最大的预训练文本到视频生成模型。该模型基于 Transformer 架构,融合了预训练文本到图像模型 CogView 的能力,并通过多帧率分层训练策略,实现从自然语言描述到连贯、逼真视频内容的高效生成。
CogVideo官网入口网址:https://models.aminer.cn/cogvideo
CogVideo 在多个实际场景中展现出应用价值:
除基础版本外,CogVideo 还提供 CogVideoX-2B 与 CogVideoX-5B 等轻量化模型,分别具备20亿和50亿参数,并支持量化推理,可在算力受限的设备上部署运行。用户可通过配套的 WebUI 工具 CogStudio 实现文本到视频、图片到视频、视频到视频等多种生成模式的操作。
作为开源项目,CogVideo 推动了多模态生成技术的发展,同时也面临视频-文本对数据稀缺与语义弱关联等挑战。尽管如此,其在简化视频创作流程、拓展视觉叙事边界方面已展现出显著潜力,适用于专业与非专业用户的内容生成需求。