data-quality-check

使用说明

核心用法

Data Quality Check 是一款面向建筑工程领域的专业数据质量评估工具，基于 Data-Driven Construction（DDC）方法论设计。该技能通过 Python 类库形式提供五大核心检测维度：完整性（Completeness）检测缺失值比例、准确性（Accuracy）验证数值范围合理性、一致性（Consistency）确保主键唯一及字段逻辑关系、时效性（Timeliness）监控数据更新频率、有效性（Validity）利用正则表达式校验格式规范。用户可通过 DataQualityChecker 类快速执行全量检测，或使用 ValidationRulesBuilder 自定义验证规则，最终生成结构化质量报告并导出 Excel 多维度分析文档。

显著优点

该技能的最大优势在于方法论权威性——直接引用 DDC 专著第 2.6 章的数据质量框架，将学术理论转化为可落地的工程实践。其次，代码设计高度模块化，五大检测维度独立封装，支持灵活组合与阈值自定义，适应不同项目的合规要求。内置建筑行业专用正则模式（如 ElementId、IFC GUID、楼层编码等）大幅降低配置成本。DataQualityPipeline 自动化流水线支持历史追踪与趋势分析，便于持续监控数据健康度。报告输出功能完善，可直接生成管理层可读的质量评分与问题清单。

潜在缺点与局限性

作为纯文档型技能，其实际运行依赖用户自行搭建 Python 环境并安装 pandas/numpy 等依赖，对非技术背景的建筑工程师存在使用门槛。代码块均为示例性质，缺乏生产级的异常熔断、日志审计、分布式处理等能力，难以直接支撑大型项目的海量 BIM 数据实时质检。时效性检测仅支持单日期列简单判断，无法处理复杂的多版本数据血缘追踪。此外，正则规则虽覆盖常见场景，但面对企业私有编码规范时需大量自定义开发。

适合的目标群体

主要面向三类用户：一是建筑数据分析师与 BIM 工程师，需要系统性评估从 Revit、IFC 等源导出的数据质量；二是施工企业的信息化团队，负责搭建内部数据治理流程；三是高校与研究机构从事智能建造、数字孪生相关课题的师生，需要可复现的数据质量基准方法。对于已具备 Python 基础、熟悉 pandas 数据处理的技术人员尤为友好。

使用风险

性能方面，全量检测采用逐列遍历实现，百万级记录场景下可能出现明显延迟，建议抽样或分块处理。依赖项方面，pandas 版本差异可能导致日期解析行为不一致，需锁定依赖版本。数据安全方面，示例代码未内置敏感字段脱敏逻辑，处理含造价、供应商信息的工程数据时需自行加固。此外，T3 来源属性意味着缺乏官方维护承诺，关键业务场景建议 fork 后自主维护或寻求商业替代方案。

data-analytics construction data-quality bim validation engineering docs

data-quality-check 内容

手动下载zip · 5.7 kB

SKILL.mdtext/markdown

请选择文件