MonkeyOCR

206 0 0

MonkeyOCR是一款开源文档解析模型，专注于高效、精准地解析复杂结构化文档。

收录时间：

2024-12-22

打开网站手机查看

MonkeyOCR

打开网站

MonkeyOCR 是一款基于大语言模型的轻量级文档解析工具，专注于将非结构化文档内容转化为结构化的机器可读数据。其核心技术采用“结构-识别-关系”（SRR）三元组范式，通过结构检测、内容识别与关系预测三个阶段，系统性地处理文本、表格、数学公式等复杂元素。

MonkeyOCR官网入口网址：https://github.com/Yuliang-Liu/MonkeyOCR

该模型参数量为3B，在保持较小体积的同时，支持中英文混合文档解析，并兼容十余种常见文档类型，包括学术论文、财务报表、发票等。在英文文档解析任务中，MonkeyOCR 的性能已超越 Gemini 2.5 Pro 和 Qwen2.5-VL-72B 等主流模型。实测处理速度达每秒0.84页，效率优于 MinerU 与 Qwen2.5-VL-7B 等同类方案。

MonkeyOCR 在表格还原与公式识别等高难度任务中表现尤为突出，适用于金融、教育、医疗等行业对文档自动化处理的需求。部署方式灵活，既可在本地运行，也支持云端部署，单张 NVIDIA 3090 GPU 即可满足高效推理需求。

项目提供完整的开源资源，包含 GitHub 代码库、在线演示及技术论文，便于开发者集成或研究人员复现实验。作为当前文档智能领域中兼顾性能与实用性的解决方案，MonkeyOCR 为文档数字化流程提供了可靠的技术支撑。

MonkeyOCR

相关导航

炉米lumi

Stable Diffusion

言犀

Janus-Pro

Vimi

LivePortrait

云雀大模型

千帆大模型平台