A python script which employs PaddleOCR to add a hidden text layer to picture pdfs.
利用PaddleOCR对图像PDF进行OCR,相较于OCRmyPDF,不会在中文间乱加空格。
具体参见https://paddlepaddle.github.io/PaddleOCR/latest/quick_start.html,尤其是拥有GPU的用户。
python -m pip install paddlepaddle==3.0.0rc1 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/pip install paddleocrpip install PyMuPDF三个脚本(pocr.py、pocr-pixmap.py 和 pocr-inplace.py)均可为图像型 PDF 添加隐藏但可复制的文本层,以下是通用命令格式:
python <script_name> input.pdf output.pdf将 script_name 替换为具体脚本名,input.pdf 为输入的图像型 PDF 文件,output.pdf 为处理后的输出文件。
-p或--pure:生成只包含文本层的纯文本 PDF 文件,文件名以-pure.pdf结尾。
python script_name.py -p input.pdf output.pdf-c或--cv:处理过程中显示提取的图像。
python script_name.py -c input.pdf output.pdf-n或--no-ocr(仅pocr-pixmap.py和pocr-inplace.py支持):跳过 OCR 处理。
python script_name.py -n input.pdf output.pdf-l或--lang:指定 OCR 识别语言,默认为ch。
python script_name.py -l eng input.pdf output.pdf