PDF Craft 是一个专注于处理扫描书籍的 PDF 文件的项目。它能够将 PDF 文件转换为其他格式,如 Markdown 和 EPUB,并通过先进的 AI 模型提取正文内容,过滤掉页眉、页脚、脚注、页码等元素。该项目刚刚启动,旨在为用户提供高效、智能的 PDF 处理工具。

功能特点
智能内容提取
- 逐页读取与处理:PDF Craft 逐页读取 PDF 文件,并使用 DocLayout-YOLO 模型结合自研算法提取书页中的正文内容,同时过滤掉页眉、页脚、脚注、页码等非正文元素。
- 跨页处理:在处理跨页内容时,PDF Craft 使用算法判断前后文的顺接问题,确保生成的文本语义通顺。
- 文本识别:使用 OnnxOCR 进行文本识别,确保高精度的文字提取。
- 阅读顺序优化:通过 layoutreader 确定符合人类阅读习惯的顺序,提升阅读体验。
格式转换
- Markdown 格式:PDF Craft 可以将 PDF 文件转换为 Markdown 格式,适用于论文或小书本。转换过程中,所有内容均在本地执行,使用本地显卡设备加速 AI 模型的运行。
- EPUB 格式:对于页数较多的书籍(一般超过 100 页),PDF Craft 推荐将其转换为 EPUB 格式。在转换过程中,PDF Craft 会将本地 OCR 识别出的数据传输给 LLM(大型语言模型),并通过特定信息(如目录等)构建书本的结构,最终生成带目录、分章节的 EPUB 文件。
错误矫正与注释处理
- OCR 错误矫正:LLM 能够在一定程度上矫正 OCR 的错误,提升文本的准确性和可读性。
- 注释和引用处理:LLM 会读取每页的注释和引用信息,并在 EPUB 文件中以新的格式呈现,确保信息的完整性和准确性。
插图与表格处理
- 插图保存:如果原 PDF 中包含插图(或表格、公式),PDF Craft 会在生成的 Markdown 文件同级创建一个
assets
文件夹,用于保存图片。 - 相对地址引用:Markdown 文件中会以相对地址的形式引用
assets
文件夹中的图片,确保文件的完整性和可移植性。
技术实现
本地执行的 AI 模型
- DocLayout-YOLO:用于提取书页中的正文内容。
- OnnxOCR:用于进行文本识别。
- layoutreader:用于确定符合人类阅读习惯的顺序。
LLM 服务
- LLM 服务:在转换为 EPUB 格式时,需要配置 LLM 服务。推荐使用 DeepSeek,PDF Craft 的 Prompt 基于 V3 模型调试。
评论