file-deduplicator · COCOLOOP

使用说明

核心用法

File-Deduplicator 是一款专注于文件去重的实用工具，提供三大核心功能：：findDuplicates 用于扫描并识别重复文件，，removeDuplicates 执行删除或归档操作，，analyzeDirectory 生成目录重复文件统计报告。工具支持三种检测模式——基于内容的 MD5 哈希（推荐）、基于文件大小、以及基于文件名相似度，用户可根据场景灵活选择。执行删除前，强烈建议先启用 dryRun: true 预览变更，确认无误后再执行实际操作。

显著优点

该工具的安全设计尤为突出：支持归档模式替代直接删除、可配置大小阈值防止误删大文件、提供白名单机制保护关键目录、完整记录操作日志便于审计与恢复。性能方面，扫描速度优异（千级文件秒级完成），内存占用可控（百万文件约 200MB），且零第三方依赖，彻底规避供应链攻击风险。配置系统灵活，支持 JSON 配置文件持久化常用设置。

潜在缺点与局限性

默认配置中 defaultAction 为 delete，新用户若未仔细阅读文档可能直接执行删除操作；autoConfirm: false 虽提供保护，但缺乏交互式逐文件确认机制。同步文件 API 在处理海量文件时可能阻塞主线程。此外，当前版本不支持图像相似度检测、近重复内容识别及云存储集成，对多媒体去重场景覆盖有限。

适合的目标群体

数字囤积者：照片、视频、下载文件堆积的用户，需要快速释放存储空间
文档管理者：企业用户整理报告、合同、版本文件，防止备份膨胀
开发者/DevOps：清理项目中的重复源码、构建产物、node_modules 冗余
系统管理员：优化服务器存储，定期执行自动化去重任务

使用风险

1. 误删风险：尽管有多重保护，文件删除操作本身不可逆，务必先 dry-run
2. 路径遍历：需确保传入的目录路径可信，避免扫描敏感系统目录
3. 性能瓶颈：递归扫描超大型目录（如百万级文件）时可能耗时较长
4. 权限问题：对系统目录操作时可能因权限不足导致部分文件跳过处理

productivity automation docs devops file-management storage

file-deduplicator 内容

手动下载zip · 13.4 kB

config.jsonapplication/json

请选择文件