OCRmyPDF

170 0 0

OCRmyPDF 是一款用于处理扫描PDF文件的工具，其主要功能是为扫描的PDF文件添加光学字符识别（OCR）文本层，使其能够被搜索和识别。

收录时间：

2025-06-14

打开网站手机查看

OCRmyPDF

打开网站

OCRmyPDF 是一款开源的命令行工具，专用于将扫描生成的 PDF 文件转换为可搜索、可复制的文档。该工具在保留原始图像的基础上，通过叠加 OCR 识别出的文本层，使原本不可编辑的 PDF 具备文字选择与全文检索能力。

OCRmyPDF官网入口网址：https://ocrmypdf.readthedocs.io

OCRmyPDF 基于 Tesseract OCR 引擎开发，支持超过 100 种语言的文字识别，并具备自动校正页面旋转与倾斜的功能。同时，用户可自定义输出文档的元数据，并选择生成符合 PDF/A 标准的归档格式，以保障长期可读性。

核心功能

将图像型 PDF 转换为带文本层的可搜索 PDF
保持原始图像分辨率，确保视觉质量不受影响
支持批量处理与多核并行运算，提升处理效率
提供插件机制，允许用户扩展或定制处理流程

该工具可在 Linux、macOS 和 Windows 系统上运行，支持通过包管理器、Python pip 或 Docker 镜像等多种方式安装。其依赖组件包括 Python、Tesseract OCR 和 Ghostscript。OCRmyPDF 采用 Mozilla Public License 2.0（MPL-2.0）许可证发布，允许在遵守开源条款的前提下集成至其他项目中。

OCRmyPDF 适用于需要高效处理大量扫描文档的个人用户、研究人员及法律从业者。通过千流导航可快速了解该工具的使用方法与技术细节。

OCRmyPDF

核心功能

相关导航

LottieFiles

patch-package

Crawlee

awesome-wechat-weapp

OSCHINA

Element Plus X

Godot Engine

FossFLOW