首页 > 电脑软件 > 学习办公

PDF Craft—智能转换 PDF 文件，专注于扫描书籍处理

屌屌 3 月 24, 2025 122

PDF Craft 是一个专注于处理扫描书籍的 PDF 文件的项目。它能够将 PDF 文件转换为其他格式，如 Markdown 和 EPUB，并通过先进的 AI 模型提取正文内容，过滤掉页眉、页脚、脚注、页码等元素。该项目刚刚启动，旨在为用户提供高效、智能的 PDF 处理工具。

GitHub：https://github.com/oomol-lab/pdf-craft

PDF Craft—智能转换 PDF 文件，专注于扫描书籍处理插图

功能特点

智能内容提取

逐页读取与处理：PDF Craft 逐页读取 PDF 文件，并使用 DocLayout-YOLO 模型结合自研算法提取书页中的正文内容，同时过滤掉页眉、页脚、脚注、页码等非正文元素。
跨页处理：在处理跨页内容时，PDF Craft 使用算法判断前后文的顺接问题，确保生成的文本语义通顺。
文本识别：使用 OnnxOCR 进行文本识别，确保高精度的文字提取。
阅读顺序优化：通过 layoutreader 确定符合人类阅读习惯的顺序，提升阅读体验。

格式转换

Markdown 格式：PDF Craft 可以将 PDF 文件转换为 Markdown 格式，适用于论文或小书本。转换过程中，所有内容均在本地执行，使用本地显卡设备加速 AI 模型的运行。
EPUB 格式：对于页数较多的书籍（一般超过 100 页），PDF Craft 推荐将其转换为 EPUB 格式。在转换过程中，PDF Craft 会将本地 OCR 识别出的数据传输给 LLM（大型语言模型），并通过特定信息（如目录等）构建书本的结构，最终生成带目录、分章节的 EPUB 文件。

错误矫正与注释处理

OCR 错误矫正：LLM 能够在一定程度上矫正 OCR 的错误，提升文本的准确性和可读性。
注释和引用处理：LLM 会读取每页的注释和引用信息，并在 EPUB 文件中以新的格式呈现，确保信息的完整性和准确性。

插图与表格处理

插图保存：如果原 PDF 中包含插图（或表格、公式），PDF Craft 会在生成的 Markdown 文件同级创建一个 assets 文件夹，用于保存图片。
相对地址引用：Markdown 文件中会以相对地址的形式引用 assets 文件夹中的图片，确保文件的完整性和可移植性。

技术实现

本地执行的 AI 模型

DocLayout-YOLO：用于提取书页中的正文内容。
OnnxOCR：用于进行文本识别。
layoutreader：用于确定符合人类阅读习惯的顺序。

LLM 服务

LLM 服务：在转换为 EPUB 格式时，需要配置 LLM 服务。推荐使用 DeepSeek，PDF Craft 的 Prompt 基于 V3 模型调试。

评论

取消回复