眸思大模型

一款多模态大模型，旨在通过视觉和语言的深度融合，提升视障人士的生活便利性

收录时间：

2025-06-14

眸思大模型

眸思大模型是由复旦大学自然语言处理实验室（FudanNLP）研发的多模态人工智能系统，专注于通过视觉与语言的协同理解，为视障人士提供环境感知与生活辅助支持。

眸思大模型官网入口网址：http://mousi.org

该模型整合了图文匹配、光学字符识别（OCR）、图像分割等关键技术，能够准确解析图像内容并生成自然语言描述。基于这一能力，“听见世界”应用程序已实现街道行走引导、自由问答交互和物品定位识别等功能，有效提升视障用户在日常生活中的自主性与安全性。

在模型训练过程中，研发团队专门采集并标注了大量面向视障群体的特殊场景数据，并邀请视障人士参与真实环境下的功能测试，以确保系统在复杂情境中的实用性与可靠性。未来，眸思大模型计划引入增强现实（AR）技术以提高空间定位精度，并向视频时序理解方向演进，进一步拓展其应用场景。

除技术突破外，眸思大模型也积极投身公益实践。通过与非营利组织、特殊教育机构及硬件制造商的合作，相关应用有望向视障群体免费开放。在公益短片《听见世界》中，该模型已成功将视觉信息转化为语音提示，帮助用户识别潜在风险，体现了人工智能在社会包容性建设中的实际价值。

作为千流导航收录的重要AI项目，眸思大模型展现了多模态技术在无障碍服务领域的深度应用潜力，也为科技向善提供了切实可行的路径。