file-deduplicator

🗂️ 智能去重释放存储空间

🥥27总安装量 6评分人数 6
100% 的用户推荐

Vernox 开源的文件去重工具,基于 MD5 哈希精准识别重复文件,支持安全删除与归档,帮助用户高效回收存储空间。

A

基本安全,请在特定环境下使用

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 具备完善的安全机制:dry-run 预览、归档模式、大小阈值、白名单保护、操作日志全支持
  • ✅ 零第三方依赖,仅使用 Node.js 内置模块(fs/path/crypto),无供应链攻击风险
  • ⚠️ 默认配置 `defaultAction` 为 `delete`,建议用户首次使用务必改为 `dryRun` 或 `archive`
  • ⚠️ 使用同步文件 API(`fs.unlinkSync` 等),大量文件处理时可能阻塞主线程
  • ✅ 所有删除/移动操作均记录日志,支持审计与有限恢复能力

使用说明

核心用法

File-Deduplicator 是一款专注于文件去重的实用工具,提供三大核心功能::findDuplicates 用于扫描并识别重复文件,,removeDuplicates 执行删除或归档操作,,analyzeDirectory 生成目录重复文件统计报告。工具支持三种检测模式——基于内容的 MD5 哈希(推荐)、基于文件大小、以及基于文件名相似度,用户可根据场景灵活选择。执行删除前,强烈建议先启用 dryRun: true 预览变更,确认无误后再执行实际操作。

显著优点

该工具的安全设计尤为突出:支持归档模式替代直接删除、可配置大小阈值防止误删大文件、提供白名单机制保护关键目录、完整记录操作日志便于审计与恢复。性能方面,扫描速度优异(千级文件秒级完成),内存占用可控(百万文件约 200MB),且零第三方依赖,彻底规避供应链攻击风险。配置系统灵活,支持 JSON 配置文件持久化常用设置。

潜在缺点与局限性

默认配置中 defaultActiondelete,新用户若未仔细阅读文档可能直接执行删除操作;autoConfirm: false 虽提供保护,但缺乏交互式逐文件确认机制。同步文件 API 在处理海量文件时可能阻塞主线程。此外,当前版本不支持图像相似度检测、近重复内容识别及云存储集成,对多媒体去重场景覆盖有限。

适合的目标群体

  • 数字囤积者:照片、视频、下载文件堆积的用户,需要快速释放存储空间
  • 文档管理者:企业用户整理报告、合同、版本文件,防止备份膨胀
  • 开发者/DevOps:清理项目中的重复源码、构建产物、node_modules 冗余
  • 系统管理员:优化服务器存储,定期执行自动化去重任务

使用风险

1. 误删风险:尽管有多重保护,文件删除操作本身不可逆,务必先 dry-run
2. 路径遍历:需确保传入的目录路径可信,避免扫描敏感系统目录

3. 性能瓶颈:递归扫描超大型目录(如百万级文件)时可能耗时较长

4. 权限问题:对系统目录操作时可能因权限不足导致部分文件跳过处理

file-deduplicator 内容

手动下载zip · 13.4 kB
config.jsonapplication/json
请选择文件