data-anomaly-detector

🔍 施工成本进度风险预警系统

🥥63总安装量 20评分人数 13
100% 的用户推荐

基于IQR、Z-Score等统计方法的专业建筑数据异常检测工具,自动识别成本超支、进度偏差与数据质量问题,防范项目风险。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码无危险函数(eval/exec/system/subprocess),无动态代码执行或网络下载行为
  • ✅ 依赖库安全可靠,使用pandas/numpy/scipy等知名开源库,无已知严重CVE漏洞
  • ✅ 无数据上传与隐私泄露风险,所有数据处理均在本地完成,无静默收集行为
  • ⚠️ 来源为T3级社区/个人项目,虽经审计达到A级安全标准,但建议敏感环境使用前再次审查代码
  • ⚠️ 包含文件读取操作示例(pd.read_excel),需确保输入的建筑数据文件来源可信,防范恶意文件注入

使用说明

Data Anomaly Detector是一款专为建筑行业设计的专业数据质量检测工具,通过统计学方法与建筑行业基准相结合,帮助项目团队自动识别成本、进度、生产率等关键业务数据中的异常与离群值,预防因数据错误导致的项目延期和成本失控。

核心用法上,该工具提供开箱即用的异常检测能力,支持六种检测类型:基于IQR和Z-Score的成本异常检测(包括负值检查与分组统计)、进度逻辑验证(识别负持续时间、超长任务、零持续时间非里程碑)、基于改进Z-Score(Modified Z-Score)的生产率异常分析(适用于偏态分布)、时间序列趋势偏差检测(滚动窗口Z-Score)、重复记录识别以及发票/采购单序列号缺口追踪。用户通过配置字典指定数据源、检测列和业务规则,即可运行全面的异常扫描,生成包含严重级别分类(Critical/High/Medium/Low)的结构化Markdown报告。

显著优点体现在其专业性与工程化设计上。首先,内置建筑行业特定阈值(如混凝土单价200-800美元/立方码、管理费5-25%等),避免通用工具的行业适配难题。其次,采用多种统计方法组合(IQR适用于稳健 outliers 检测、标准Z-Score、改进Z-Score针对偏态数据),显著提升检测准确性。再者,详细的异常分级与可操作建议(如"更正数据录入错误"或"调查高生产率原因")让业务人员能快速响应。最后,纯Python实现,依赖仅pandas/numpy/scipy,易于集成到现有数据管道或Jupyter Notebook工作流。

潜在缺点包括:对数据质量有一定依赖,缺乏历史基准的新项目可能产生较多误报;统计方法假设数据分布特性,对极端非正态分布数据效果可能受限;当前实现主要针对结构化表格数据,对非结构化文档或图像数据无能为力;且异常检测规则相对固定,复杂业务场景需手动调整阈值,无法自动学习项目特定的正常模式。

适合目标群体主要为建筑行业的数据分析师、成本控制经理、项目进度管理人员、审计合规专员,以及负责ERP数据质量的企业IT团队。特别适合处理历史项目数据审查、月度成本报告验证、进度基线比对、供应商发票审核等场景,对大型EPC总包商和地产开发商的数据治理尤为实用。

使用风险方面,虽经安全审计确认无恶意代码,但用户需注意:输入文件安全性(避免处理来源不明的Excel/CSV文件可能包含的恶意宏或注入内容);统计误报风险(算法标记的异常需人工业务复核确认,避免误删正确数据);阈值配置风险(默认建筑行业阈值基于北美市场,需根据具体地区、项目类型调整,否则可能漏检或过度报警);以及性能考量(超大型数据集上的滚动窗口计算和分组统计可能占用较多内存,建议对百万级以上记录进行预处理采样)。

data-anomaly-detector 内容

手动下载zip · 5.2 kB
SKILL.mdtext/markdown
请选择文件