核心用法
该技能采用本地优先架构,为单个审计或调查案例构建可搜索的证据索引。用户需按规范命名案例文件夹(格式:项目问题编号__标题),并在内部使用标准化阶段子文件夹(01_policy_basis 至 09_rectification)组织 50-200 份混合文档(PDF、Office 格式)。通过 Python 脚本建立本地向量索引(基于 fastembed 和 scikit-learn),支持混合检索(embedding + TF-IDF)。查询时可通过命令行指定案例 ID 和阶段过滤,获取带页级引用(file://...#page=N)的证据片段,直接用于审计底稿或整改闭环。
显著优点
1. 隐私零泄露:完全本地化运行,无需调用云端 API,敏感审计数据绝不上传,满足金融行业合规要求。
2. 结构化检索:强制阶段文件夹命名规范,支持 case_id + stage 双重过滤,精准定位招采、合同、付款等特定环节证据。
3. 页级精确引用:生成可点击的文件链接和 PDF 页码标注,满足审计工作底稿对证据出处的严格要求。
4. 混合检索机制:结合语义嵌入与 TF-IDF 重排序,平衡概念匹配与关键词精确度,提升多格式文档检索效果。
潜在缺点
1. T3 来源风险:由个人开发者维护,虽通过安全审查,但长期维护稳定性和社区支持弱于企业级产品。
2. 依赖本地环境:需安装 Python 虚拟环境及 LibreOffice 才能处理 Office 文档,配置门槛较高。
3. 无 OCR 能力:无法处理扫描版 PDF 的文字识别,对纸质档案数字化场景支持有限。
4. 单用户局限:设计为单案例本地索引,缺乏多用户协作和云端同步功能。
适合目标群体
- 商业地产内部审计部门
- 合规调查与风控团队
- 会计师事务所现场审计人员
- 需处理敏感证据的法律调查团队
- 注重数据主权、拒绝 SaaS 化审计工具的企业
使用风险
1. 磁盘空间占用:索引文件(joblib 格式)和转换后的 PDF 可能占用大量磁盘空间,需定期清理。
2. 依赖供应链:fastembed、scikit-learn 等依赖需从 PyPI 下载,存在供应链攻击理论风险(虽版本已锁定)。
3. LibreOffice 兼容性:Office 文档转换依赖本地 soffice,版本差异可能导致格式错乱或转换失败。
4. 索引一致性:如源文档修改后未重建索引,可能导致检索结果过时,需建立索引更新机制。