KittyDoc高速文档解析工具 v0.7.0
收藏
举报
KittyDoc是一款一站式开源高性能数据提取工具,将 PDF 转换为 Markdown 和 JSON 格式,适合生产线级文档解析。
作者:
暂无 演示网站:
暂无 当前版本:
v0.7.0 日期:
2026-02-21 相关链接:
暂无 所属分类:
文档管理系统 、Python 软件评级:
下载人气:
176
源码属性
功能介绍
KittyDoc 是一个轻量级、专注于文档解析的开源框架,支持 OCR、版面分析、公式识别、表格识别和阅读顺序恢复 等多种功能。
框架基于 Mineru 二次开发,移除 VLM,专注于 Pipeline 产线下的高效文档解析,在 CPU 上也能保持不错的解析速度。
本项目所使用的核心模型主要来源于 PaddleOCR 的 PP-StructureV3 系列(OCR、版面分析、公式识别、阅读顺序恢复,以及部分表格识别模型),并已全部转换为 ONNX 格式,支持在 CPU/GPU 上高效推理。
功能特点:
1、OCR 识别
使用 RapidOCR 支持多种推理引擎
CPU 下默认使用 OpenVINO,GPU 下默认使用 torch
2、版面识别
模型使用 PP-DocLayout 系列 ONNX 模型(plus-L、L、M、S)
PP-DocLayout_plus-L:效果最好,速度稍慢
PP-DocLayout-L:速度快,效果也不错,默认使用
PP-DocLayout-S:速度极快,可能存在部分漏检
3、公式识别
使用 PP-FormulaNet_plus 系列 ONNX 模型(L、M、S)
PP-FormulaNet_plus-L:速度慢
PP-FormulaNet_plus-S:速度最快,默认使用
支持配置只识别行间公式
cuda环境默认不使用gpu,公式模型onnx gpu推理会报错,暂时无人解决。
4、表格识别
基于 rapid_table_self 增强,在原有基础上增强为多模型串联方案:
表格分类(区分有线/无线表格)
SLANeXt 系列 表结构识别 + 单元格检测
有线表格识别UNET + SLANET_plus/UNITABLE(作为无线表格识别)
5、阅读顺序恢复
使用 PP-StructureV3 阅读顺序 xycut++ 算法简化
速度快且阅读顺序恢复效果不错
6、推理方式
所有模型通过 ONNXRuntime 推理,OCR可配置其他推理引擎
除了 OCR 和 PP-DocLayout-M/S 模型,OpenVINO推理会报错,暂时难以解决。
KittyDoc高速文档解析工具下载地址 已被下载176次
付费服务
模板/插件