audit-case-rag · COCOLOOP

使用说明

核心用法

该技能采用本地优先架构，为单个审计或调查案例构建可搜索的证据索引。用户需按规范命名案例文件夹（格式：项目问题编号__标题），并在内部使用标准化阶段子文件夹（01_policy_basis 至 09_rectification）组织 50-200 份混合文档（PDF、Office 格式）。通过 Python 脚本建立本地向量索引（基于 fastembed 和 scikit-learn），支持混合检索（embedding + TF-IDF）。查询时可通过命令行指定案例 ID 和阶段过滤，获取带页级引用（file://...#page=N）的证据片段，直接用于审计底稿或整改闭环。

显著优点

1. 隐私零泄露：完全本地化运行，无需调用云端 API，敏感审计数据绝不上传，满足金融行业合规要求。
2. 结构化检索：强制阶段文件夹命名规范，支持 case_id + stage 双重过滤，精准定位招采、合同、付款等特定环节证据。
3. 页级精确引用：生成可点击的文件链接和 PDF 页码标注，满足审计工作底稿对证据出处的严格要求。
4. 混合检索机制：结合语义嵌入与 TF-IDF 重排序，平衡概念匹配与关键词精确度，提升多格式文档检索效果。

潜在缺点

1. T3 来源风险：由个人开发者维护，虽通过安全审查，但长期维护稳定性和社区支持弱于企业级产品。
2. 依赖本地环境：需安装 Python 虚拟环境及 LibreOffice 才能处理 Office 文档，配置门槛较高。
3. 无 OCR 能力：无法处理扫描版 PDF 的文字识别，对纸质档案数字化场景支持有限。
4. 单用户局限：设计为单案例本地索引，缺乏多用户协作和云端同步功能。

适合目标群体

商业地产内部审计部门
合规调查与风控团队
会计师事务所现场审计人员
需处理敏感证据的法律调查团队
注重数据主权、拒绝 SaaS 化审计工具的企业

使用风险

1. 磁盘空间占用：索引文件（joblib 格式）和转换后的 PDF 可能占用大量磁盘空间，需定期清理。
2. 依赖供应链：fastembed、scikit-learn 等依赖需从 PyPI 下载，存在供应链攻击理论风险（虽版本已锁定）。
3. LibreOffice 兼容性：Office 文档转换依赖本地 soffice，版本差异可能导致格式错乱或转换失败。
4. 索引一致性：如源文档修改后未重建索引，可能导致检索结果过时，需建立索引更新机制。

real-estate finance-accounting legal data-analytics docs automation

audit-case-rag 内容

references文件夹

scripts文件夹

手动下载zip · 6.8 kB

case-folder-template.mdtext/markdown

请选择文件