data-anomaly-detector

使用说明

Data Anomaly Detector是一款专为建筑行业设计的专业数据质量检测工具，通过统计学方法与建筑行业基准相结合，帮助项目团队自动识别成本、进度、生产率等关键业务数据中的异常与离群值，预防因数据错误导致的项目延期和成本失控。

核心用法上，该工具提供开箱即用的异常检测能力，支持六种检测类型：基于IQR和Z-Score的成本异常检测（包括负值检查与分组统计）、进度逻辑验证（识别负持续时间、超长任务、零持续时间非里程碑）、基于改进Z-Score（Modified Z-Score）的生产率异常分析（适用于偏态分布）、时间序列趋势偏差检测（滚动窗口Z-Score）、重复记录识别以及发票/采购单序列号缺口追踪。用户通过配置字典指定数据源、检测列和业务规则，即可运行全面的异常扫描，生成包含严重级别分类（Critical/High/Medium/Low）的结构化Markdown报告。

显著优点体现在其专业性与工程化设计上。首先，内置建筑行业特定阈值（如混凝土单价200-800美元/立方码、管理费5-25%等），避免通用工具的行业适配难题。其次，采用多种统计方法组合（IQR适用于稳健 outliers 检测、标准Z-Score、改进Z-Score针对偏态数据），显著提升检测准确性。再者，详细的异常分级与可操作建议（如"更正数据录入错误"或"调查高生产率原因"）让业务人员能快速响应。最后，纯Python实现，依赖仅pandas/numpy/scipy，易于集成到现有数据管道或Jupyter Notebook工作流。

潜在缺点包括：对数据质量有一定依赖，缺乏历史基准的新项目可能产生较多误报；统计方法假设数据分布特性，对极端非正态分布数据效果可能受限；当前实现主要针对结构化表格数据，对非结构化文档或图像数据无能为力；且异常检测规则相对固定，复杂业务场景需手动调整阈值，无法自动学习项目特定的正常模式。

适合目标群体主要为建筑行业的数据分析师、成本控制经理、项目进度管理人员、审计合规专员，以及负责ERP数据质量的企业IT团队。特别适合处理历史项目数据审查、月度成本报告验证、进度基线比对、供应商发票审核等场景，对大型EPC总包商和地产开发商的数据治理尤为实用。

使用风险方面，虽经安全审计确认无恶意代码，但用户需注意：输入文件安全性（避免处理来源不明的Excel/CSV文件可能包含的恶意宏或注入内容）；统计误报风险（算法标记的异常需人工业务复核确认，避免误删正确数据）；阈值配置风险（默认建筑行业阈值基于北美市场，需根据具体地区、项目类型调整，否则可能漏检或过度报警）；以及性能考量（超大型数据集上的滚动窗口计算和分组统计可能占用较多内存，建议对百万级以上记录进行预处理采样）。

data-analytics real-estate finance-accounting project-program-management backend

data-anomaly-detector 内容

手动下载zip · 5.2 kB

SKILL.mdtext/markdown

请选择文件