pdf-text-extractor

📄 零依赖 PDF 文本提取专家

🥥25总安装量 12评分人数 13
100% 的用户推荐

基于 Mozilla PDF.js 的零依赖 PDF 文本提取工具,支持批量处理与多格式输出,适合文档数字化与内容分析场景。

B

存在边界风险,建议在隔离环境中验证

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 无网络请求、无动态代码执行、无命令注入风险
  • ✅ 依赖 pdfjs-dist 为 Mozilla 官方开源库,供应链可信
  • ⚠️ 路径遍历风险:直接读取用户传入的 pdfPath,需调用方自行校验
  • ⚠️ OCR 功能声明与实际代码不符,存在文档/实现不一致
  • ❌ 来源信息冲突:作者标识(Vernox vs michael-laffin)与仓库来源(vernox/skills vs clawdbot/skills)多处矛盾,难以验证真实性

使用说明

核心用法

PDF-Text-Extractor 是一款专注于 PDF 文本提取的实用工具,提供单文件提取(extractText)和批量处理(extractBatch)两种核心模式。用户可通过 options 参数灵活控制输出格式(text/json/markdown/html)、是否启用 OCR、语言设置及格式保留等选项。工具还内置字数统计(countWords)和语言检测(detectLanguage)辅助功能,满足文档分析的基础需求。

显著优点

零依赖架构是最大亮点——仅依赖 Node.js 内置模块和 Mozilla 官方 PDF.js 库,无需额外安装系统级工具,部署极为轻量。文本提取速度优异(10 页 PDF 约 100ms),且对文本型 PDF 可达 100% 准确率。批量处理支持并发控制和进度追踪,配合完善的错误处理机制,适合自动化文档工作流。多语言 OCR 支持(英/西/法/德)和多种输出格式,覆盖从简单文本获取到结构化数据处理的多元场景。

潜在缺点与局限性

功能声明与实现存在落差:文档宣称的 OCR 功能(基于 Tesseract.js)在实际代码中并未找到对应实现,用户若依赖此功能将遭遇预期落空。路径遍历防护缺失,直接透传用户输入的 pdfPathfs.readFileSync,安全风险需由调用方兜底。OCR 性能开销显著(单页 1-3 秒),且准确率受扫描质量制约(85-95%)。此外,表格提取、手写识别、PDF 表单字段提取等进阶功能尚处 Roadmap 阶段,当前版本能力边界较为基础。

适合的目标群体

  • 文档数字化团队:需将纸质档案、发票、合同批量转为可检索文本
  • 内容运营与分析师:从 PDF 报告中提取数据供 LLM 处理或 BI 分析
  • 开发者与自动化工程师:构建文档处理流水线,集成至现有工作流
  • 小型企业/个人用户:轻量级、免配置的 PDF 文本获取方案

使用风险

1. 路径遍历风险:若调用方未对 pdfPath 做白名单校验,可能导致越权文件读取
2. OCR 功能缺失:依赖 OCR 的场景需先行验证实际可用性

3. 大文件内存压力:OCR 处理时峰值内存可达 50-100MB,批量任务需控制并发

4. 来源可信度存疑:作者与仓库信息不一致,建议从可信渠道获取并校验代码完整性

pdf-text-extractor 内容

手动下载zip · 17.2 kB
config.jsonapplication/json
请选择文件