data-profiler

🏗️ 建筑数据质量智能诊断与ETL规划助手

🥥48总安装量 19评分人数 15
100% 的用户推荐

基于 pandas 的专业建筑数据剖析工具,智能识别数据质量问题和异常模式,为 ETL 规划提供可靠的数据特征分析报告。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 无危险代码执行:未检出 eval/exec/system/subprocess 等高危函数,无动态代码加载风险
  • ✅ 数据隐私安全:纯本地运行,无网络通信和远程数据上传,敏感建筑数据不会外泄
  • ✅ 依赖透明可控:仅依赖 pandas/numpy 标准数据分析库,无恶意包或远程脚本获取
  • ⚠️ 来源可信度限制:T3 级社区/个人来源(datadrivenconstruction),代码仅为演示示例,生产使用需自行审计
  • ⚠️ 边界处理注意:大数据集剖析可能占用较高内存,需确保运行环境资源充足

使用说明

Data Profiler for Construction 是一款专为建筑行业设计的数据剖析工具,旨在帮助用户在 ETL 流程前全面了解数据特征、质量分布和潜在问题。该工具基于 Python 的 pandas 和 numpy 库构建,通过 ConstructionDataProfiler 类提供系统化的数据画像能力,能够自动识别 CSI 代码、项目 ID、成本字段等建筑行业特定数据模式,并生成包含质量评分的详细报告。

核心用法上,用户只需将 pandas DataFrame 传入 profile_dataframe 方法,即可获得包含列级统计、缺失值分析、异常值检测和模式识别的完整画像。工具支持自动推断建筑专业数据类型(如 MasterFormat 编码、日期格式、货币金额),并能检测重复行、负成本值等数据质量问题。通过 generate_profile_report 方法可导出 Markdown 格式的可读报告,便于团队共享;compare_profiles 功能则支持跨时间数据版本对比,有效监控数据漂移。

显著优点体现在其行业适配性上:内置正则表达式模式库可识别 CSI 编码(如 "03 30 00")、项目编号(如 "PRJ-001")等建筑领域专用格式;质量评分算法综合考虑空值率、异常值和模式一致性,提供 0-100 的量化评估;针对成本字段的特殊检测(如负值识别)直接契合工程造价管理需求。此外,工具完全本地化运行,无需网络连接,保障敏感项目数据隐私。

潜在局限性包括:作为 T3 级社区来源的纯文档型资产,代码仅作演示示例,生产环境需自行完善测试;当前实现基于 pandas 内存计算,处理超大规模数据集(GB 级以上)可能面临性能瓶颈;建筑模式库虽涵盖常见场景,但面对非标准编码体系(如企业自定义 WBS)时需手动扩展正则规则。

该技能适合建筑数据工程师、ETL 开发者和工程造价分析师使用,特别适用于施工项目成本数据清洗、BIM 属性表验证、历史项目数据迁移前的质量评估等场景。对于需要构建企业级数据管道的中大型建筑企业,可作为概念验证(POC)参考实现。

使用风险主要涉及依赖管理:需确保 pandas 和 numpy 版本兼容性,避免数据类型推断差异导致误判;处理敏感工程数据时,虽无网络上传风险,但建议在脱敏环境中运行;代码中文件 I/O 操作(如 Excel 读取、JSON 导出)需注意路径权限和磁盘空间;大数据集剖析可能消耗大量内存,建议分块处理或增加硬件资源。

data-profiler 内容

手动下载zip · 5.2 kB
SKILL.mdtext/markdown
请选择文件