MMAudio

MMAudio是一个多模态音频生成模型，旨在通过视频和/或文本输入生成高质量、同步的音频。

收录时间：

2024-10-20

MMAudio

MMAudio 是由伊利诺伊大学厄巴纳-香槟分校、索尼人工智能研究中心及索尼集团联合开展的一项研究项目，聚焦于多模态联合训练框架下的视频到音频合成技术。该成果已被计算机视觉顶会 CVPR 2025 接收，体现了其在生成式人工智能与多模态学习交叉领域的前沿探索。

MMAudio官网入口网址：https://github.com/hkchengrex/MMAudio

系统可根据输入的视频内容或文本描述，生成时间对齐、语义一致的高质量音频输出。这一能力为影视后期制作、虚拟现实场景构建、数字人语音合成以及多媒体内容自动化生产等应用场景提供了可行的技术路径。例如，在仅有无声视频的情况下，MMAudio 能够推断并生成符合画面动作和上下文逻辑的环境音或语音。

项目开源了完整的训练与推理代码，并同步发布了论文、技术演示视频及多个交互式体验平台，包括 Hugging Face、Google Colab 和 Replicate 上的在线 Demo。这些资源降低了技术复现门槛，便于学术界与工业界研究人员快速验证与拓展相关方法。

MMAudio 不仅展示了多模态生成模型在跨模态对齐与细节还原方面的潜力，也为未来人机交互和智能内容创作工具的发展提供了新的技术参考。