data-quality-check

🏗️ 建筑工程五维数据质检专家

🥥61总安装量 17评分人数 11
100% 的用户推荐

基于DDC方法论的建筑数据质量评估技能,提供完整性、准确性、一致性、时效性、有效性五维检测,帮助工程团队提前发现数据问题,避免决策失误。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 纯文档型资产,无独立可执行脚本,无代码注入风险
  • ✅ 无网络通信、无数据外发,所有处理逻辑本地透明可查
  • ✅ 无 eval/exec/system/subprocess 等危险函数调用
  • ⚠️ 代码块为示例性质,生产环境需自行评估安全性与性能
  • ⚠️ T3 社区来源,缺乏官方维护背书,关键业务建议自主审计

使用说明

核心用法

Data Quality Check 是一款面向建筑工程领域的专业数据质量评估工具,基于 Data-Driven Construction(DDC)方法论设计。该技能通过 Python 类库形式提供五大核心检测维度:完整性(Completeness)检测缺失值比例、准确性(Accuracy)验证数值范围合理性、一致性(Consistency)确保主键唯一及字段逻辑关系、时效性(Timeliness)监控数据更新频率、有效性(Validity)利用正则表达式校验格式规范。用户可通过 DataQualityChecker 类快速执行全量检测,或使用 ValidationRulesBuilder 自定义验证规则,最终生成结构化质量报告并导出 Excel 多维度分析文档。

显著优点

该技能的最大优势在于方法论权威性——直接引用 DDC 专著第 2.6 章的数据质量框架,将学术理论转化为可落地的工程实践。其次,代码设计高度模块化,五大检测维度独立封装,支持灵活组合与阈值自定义,适应不同项目的合规要求。内置建筑行业专用正则模式(如 ElementId、IFC GUID、楼层编码等)大幅降低配置成本。DataQualityPipeline 自动化流水线支持历史追踪与趋势分析,便于持续监控数据健康度。报告输出功能完善,可直接生成管理层可读的质量评分与问题清单。

潜在缺点与局限性

作为纯文档型技能,其实际运行依赖用户自行搭建 Python 环境并安装 pandas/numpy 等依赖,对非技术背景的建筑工程师存在使用门槛。代码块均为示例性质,缺乏生产级的异常熔断、日志审计、分布式处理等能力,难以直接支撑大型项目的海量 BIM 数据实时质检。时效性检测仅支持单日期列简单判断,无法处理复杂的多版本数据血缘追踪。此外,正则规则虽覆盖常见场景,但面对企业私有编码规范时需大量自定义开发。

适合的目标群体

主要面向三类用户:一是建筑数据分析师与 BIM 工程师,需要系统性评估从 Revit、IFC 等源导出的数据质量;二是施工企业的信息化团队,负责搭建内部数据治理流程;三是高校与研究机构从事智能建造、数字孪生相关课题的师生,需要可复现的数据质量基准方法。对于已具备 Python 基础、熟悉 pandas 数据处理的技术人员尤为友好。

使用风险

性能方面,全量检测采用逐列遍历实现,百万级记录场景下可能出现明显延迟,建议抽样或分块处理。依赖项方面,pandas 版本差异可能导致日期解析行为不一致,需锁定依赖版本。数据安全方面,示例代码未内置敏感字段脱敏逻辑,处理含造价、供应商信息的工程数据时需自行加固。此外,T3 来源属性意味着缺乏官方维护承诺,关键业务场景建议 fork 后自主维护或寻求商业替代方案。

data-quality-check 内容

手动下载zip · 5.7 kB
SKILL.mdtext/markdown
请选择文件