Diffree

Diffree 是一款创新的 AI 工具,可根据文本描述智能地向图像中添加新对象,无需手动绘图或遮罩。体验简单高效的图像编辑。

收录时间:
2025-02-02

Diffree 是一种基于扩散模型文本引导图像编辑技术,专注于在现有图像中根据文字描述自动添加新对象,且无需用户提供形状或位置标注。该技术由厦门大学多媒体可信感知与高效计算教育部重点实验室、上海人工智能实验室 OpenGVLab 与中国香港大学共同研发,展现出在无形状引导条件下实现高质量图像合成的能力。

Diffree官网入口网址:https://diffree.org/zh

其核心能力体现在对背景一致性的高度保持、空间布局的合理推断以及生成结果的视觉真实性。用户仅需输入一段自然语言描述,系统即可自动预测新增对象的合理位置与轮廓,并使其在光照、色彩和透视关系上与原始图像协调统一,显著简化了传统图像编辑中依赖手动遮罩或边界框的操作流程。

技术实现上,Diffree 结合了扩散生成模型与掩码预测模块:前者负责生成符合语义的新内容,后者则精确推断对象应占据的区域。模型训练依托 OABench 数据集,该数据集包含 74,000 组真实场景图像对,有效提升了模型在复杂环境下的泛化能力与细节处理水平。

该工具适用于多种实际场景。室内设计师可快速可视化家具或装饰元素的摆放效果;广告创作者能高效生成具有吸引力的营销素材;普通用户亦可在个人照片中轻松添加创意元素,而无需专业图像处理技能。此外,Diffree 已开源,提供 GitHub 代码库、Hugging Face 模型及在线演示,便于开发者部署本地应用或进行二次开发,兼顾使用便利性与数据隐私。

作为一项前沿的生成式视觉技术,Diffree 降低了高质量图像编辑的技术门槛,为创意工作流提供了灵活高效的解决方案,并在计算机视觉与人机交互领域展现出持续的应用潜力。

相关导航