腾讯混元大模型
腾讯研发的大语言模型
眸思大模型是由复旦大学自然语言处理实验室(FudanNLP)研发的多模态人工智能系统,专注于通过视觉与语言的协同理解,为视障人士提供环境感知与生活辅助支持。
眸思大模型官网入口网址:http://mousi.org
该模型整合了图文匹配、光学字符识别(OCR)、图像分割等关键技术,能够准确解析图像内容并生成自然语言描述。基于这一能力,“听见世界”应用程序已实现街道行走引导、自由问答交互和物品定位识别等功能,有效提升视障用户在日常生活中的自主性与安全性。
在模型训练过程中,研发团队专门采集并标注了大量面向视障群体的特殊场景数据,并邀请视障人士参与真实环境下的功能测试,以确保系统在复杂情境中的实用性与可靠性。未来,眸思大模型计划引入增强现实(AR)技术以提高空间定位精度,并向视频时序理解方向演进,进一步拓展其应用场景。
除技术突破外,眸思大模型也积极投身公益实践。通过与非营利组织、特殊教育机构及硬件制造商的合作,相关应用有望向视障群体免费开放。在公益短片《听见世界》中,该模型已成功将视觉信息转化为语音提示,帮助用户识别潜在风险,体现了人工智能在社会包容性建设中的实际价值。
作为千流导航收录的重要AI项目,眸思大模型展现了多模态技术在无障碍服务领域的深度应用潜力,也为科技向善提供了切实可行的路径。