audit-case-rag

🗂️ 商业地产审计证据本地 RAG 专家

🥥61总安装量 13评分人数 12
100% 的用户推荐

基于本地嵌入模型的审计案例 RAG 系统,支持阶段过滤与页级引用,确保敏感证据零上云,满足商业地产合规调查需求。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 完全本地运行,无云端 API 调用,敏感证据零上传
  • ✅ 代码无 eval/exec/system 危险函数,依赖版本锁定无已知 CVE
  • ✅ 输入验证完善,文件类型白名单与路径遍历防护到位
  • ⚠️ 来源为 T3 级个人开发者,建议首次使用前审查代码
  • ⚠️ 需本地安装 LibreOffice,且不支持扫描件 OCR 识别

使用说明

核心用法

该技能采用本地优先架构,为单个审计或调查案例构建可搜索的证据索引。用户需按规范命名案例文件夹(格式:项目问题编号__标题),并在内部使用标准化阶段子文件夹(01_policy_basis 至 09_rectification)组织 50-200 份混合文档(PDF、Office 格式)。通过 Python 脚本建立本地向量索引(基于 fastembed 和 scikit-learn),支持混合检索(embedding + TF-IDF)。查询时可通过命令行指定案例 ID 和阶段过滤,获取带页级引用(file://...#page=N)的证据片段,直接用于审计底稿或整改闭环。

显著优点

1. 隐私零泄露:完全本地化运行,无需调用云端 API,敏感审计数据绝不上传,满足金融行业合规要求。
2. 结构化检索:强制阶段文件夹命名规范,支持 case_id + stage 双重过滤,精准定位招采、合同、付款等特定环节证据。

3. 页级精确引用:生成可点击的文件链接和 PDF 页码标注,满足审计工作底稿对证据出处的严格要求。

4. 混合检索机制:结合语义嵌入与 TF-IDF 重排序,平衡概念匹配与关键词精确度,提升多格式文档检索效果。

潜在缺点

1. T3 来源风险:由个人开发者维护,虽通过安全审查,但长期维护稳定性和社区支持弱于企业级产品。
2. 依赖本地环境:需安装 Python 虚拟环境及 LibreOffice 才能处理 Office 文档,配置门槛较高。

3. 无 OCR 能力:无法处理扫描版 PDF 的文字识别,对纸质档案数字化场景支持有限。

4. 单用户局限:设计为单案例本地索引,缺乏多用户协作和云端同步功能。

适合目标群体

  • 商业地产内部审计部门
  • 合规调查与风控团队
  • 会计师事务所现场审计人员
  • 需处理敏感证据的法律调查团队
  • 注重数据主权、拒绝 SaaS 化审计工具的企业

使用风险

1. 磁盘空间占用:索引文件(joblib 格式)和转换后的 PDF 可能占用大量磁盘空间,需定期清理。
2. 依赖供应链:fastembed、scikit-learn 等依赖需从 PyPI 下载,存在供应链攻击理论风险(虽版本已锁定)。

3. LibreOffice 兼容性:Office 文档转换依赖本地 soffice,版本差异可能导致格式错乱或转换失败。

4. 索引一致性:如源文档修改后未重建索引,可能导致检索结果过时,需建立索引更新机制。

audit-case-rag 内容

文件夹图标references文件夹
文件夹图标scripts文件夹
手动下载zip · 6.8 kB
case-folder-template.mdtext/markdown
请选择文件