csv-handler

🏗️ 建筑数据智能清洗专家

🥥4总安装量 2评分人数 1
100% 的用户推荐

基于 pandas 和 chardet 的建筑行业 CSV 数据处理工具,自动检测编码与分隔符,解决工程软件导出文件的格式混乱问题,提升数据清洗效率。

A

基本安全,请在特定环境下使用

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 无危险代码执行:未使用 eval/exec/subprocess/os.system 等危险函数
  • ✅ 无网络通信能力:代码中无任何 HTTP/Socket 请求,数据不会外传
  • ⚠️ 受限文件访问:仅读取/写入用户显式指定的文件路径,但需注意避免覆盖重要文件
  • ✅ 依赖库安全:仅使用 pandas、chardet 等知名开源库,无供应链风险
  • ✅ 来源可验证:代码开源托管于 GitHub,提交历史可追溯审计

使用说明

核心用法

CSV Handler 是一款专为建筑行业设计的 CSV 数据处理技能,主要解决工程软件(如 Primavera P6、AutoCAD、各类造价软件)导出 CSV 文件时常见的编码混乱、分隔符不一致、列名不规范等问题。核心功能包括:

1. 智能文件分析:通过 profile_csv()() 方法自动检测文件编码(使用 chardet 库)、分隔符类型、行列结构,生成完整的 CSV 文件档案
2. 自动读取与清洗read_csv()() 方法支持全自动检测或手动指定参数,内置数据清理流程(标准化列名、去除空行空列、字符串去空格)

3. 批量合并与拆分merge_csvs()() 支持多文件按列合并或纵向拼接;split_csv()() 可按指定列值将数据拆分为多个独立文件

4. 专业场景适配:提供 ScheduleCSVHandler(进度计划处理,自动识别日期列)和 CostCSVHandler(成本数据处理,自动识别金额列并去除货币符号)两个专用子类

显著优点

  • 零配置上手:无需预先了解文件编码或分隔符类型,自动检测准确率覆盖 UTF-8、Latin-1、CP1252 等建筑软件常用编码
  • 健壮的错误处理on_bad_lines='skip'' 机制确保损坏行不会导致读取失败,适合处理大型工程导出文件
  • 建筑场景深度优化:针对进度计划(WBS、任务日期)和造价数据(工程量、单价、合价)的列名识别与类型转换做了专门设计
  • 纯本地处理:无网络依赖,敏感工程数据不会离开本地环境

潜在缺点与局限性

  • 内存限制:依赖 pandas 的 low_memory=False 模式处理大文件,超大型 CSV(GB 级)可能导致内存不足
  • 编码检测非 100% 准确:chardet 对短文件或特殊编码的检测存在误判可能,极端情况下需手动指定
  • 日期格式识别有限:自动日期转换依赖 pandas 的 to_datetime,对非标准日期格式(如 "2024年3月15日")识别能力有限
  • 无可视化界面:纯代码 API,需要一定的 Python 基础

适合的目标群体

  • 建筑/工程公司的数据分析师、BIM 工程师
  • 需要处理造价软件、进度管理软件导出数据的成本工程师、计划工程师
  • 从事建筑数据治理、数据仓库建设的开发团队
  • 学术研究中的建筑信息化(AEC IT)研究人员

使用风险

  • 性能风险:处理百万行级 CSV 时内存占用较高,建议在服务器环境使用
  • 依赖版本:依赖 pandas 和 chardet,需确保环境兼容性
  • 数据覆盖风险export_csvsplit_csv 会直接写入指定路径,需注意避免覆盖重要文件

csv-handler 内容

手动下载zip · 3.1 kB
SKILL.mdtext/markdown
请选择文件