habib-pdf-to-json · COCOLOOP

使用说明

该技能提供了一套完整的建筑工程 PDF 文档结构化提取方案，基于 Data-Driven Construction (DDC) 方法论，专门针对施工领域常见的规格说明书、物料清单(BOM)、进度表和报告等文档类型。

核心用法围绕 ETL（提取-转换-加载）流程展开，主要依托 pdfplumber 库处理原生 PDF，通过 extract_table() 方法精准提取表格数据，同时支持基于坐标区域的定向提取；对于扫描件则整合 pytesseract 与 pdf2image 实现 OCR 文字识别。技能提供了从单文件处理到批量处理的完整代码示例，涵盖文本提取、表格解析、BOM 专项提取、项目进度表解析等建筑专业场景，并支持导出为 Excel、CSV、JSON 等多种格式。

显著优点在于其专业针对性强，所有代码示例均经过建筑行业场景验证，开箱即用；提供了详细的故障排查指南和依赖安装说明，降低了使用门槛；批量处理功能可显著提升工程文档数字化效率。同时，代码结构清晰，包含数据清洗环节，确保提取数据的质量。

潜在缺点包括：OCR 功能依赖 Tesseract 引擎，在 Windows 环境下的安装配置较为复杂，且识别准确率受扫描件质量影响较大；对于复杂布局或非标准表格，自动识别可能存在偏差，需要人工调整坐标参数；处理大型 PDF 文件时内存占用较高，缺乏流式处理机制。

适合的目标群体主要包括：需要数字化历史工程文档的建筑工程师、施工项目经理、建筑数据分析师，以及从事工程文档管理系统开发的技术人员。特别适合需要处理大量遗留 PDF 格式 BOM 表和规格书的企业。

使用风险方面，虽然技能本身为纯文档类型，但示例代码涉及本地文件系统操作，处理来源不明的 PDF 可能存在恶意文档攻击风险；依赖库版本更新可能导致 API 不兼容；批量处理时若缺乏异常捕获机制，可能因单个文件损坏导致整个流程中断。建议在隔离环境中运行，并对提取的敏感工程数据进行妥善保管。

docs data-analytics productivity real-estate automation office

habib-pdf-to-json 内容

手动下载zip · 4.8 kB

SKILL.mdtext/markdown

请选择文件