guardian-angel · COCOLOOP

使用说明

核心用法

Guardian Angel 是一个为 AI Agent 设计的美德伦理安全层，而非传统的规则检查器。它通过持续运行的"性情"（disposition）机制，在每次交互中主动评估行动是否符合用户的真正利益。

三层防护架构：
1. 持续性情层（Every Turn）：身份锚定、连贯性感知、情感监测、来源追溯、美德自检——这些背景进程永不关闭
2. 触发评估层（Action 时）：来源检查（Gate P）→ 内在邪恶检查（Gate I）→ 美德评估（Gate V）
3. 插件执行层（v3.1 新增）：before_tool_call hook 以 -10000 优先级最后运行，实现评估与执行的原子性，阻断 TOCTOU 攻击

关键创新：用"Clarity × Stakes"评分模型（1-100）动态调整干预强度，对基础设施禁用操作（改配置、重启、危险命令）实行无条件自动升级。

显著优点

哲学深度超越技术方案：不同于基于关键词过滤的 prompt injection 防御，GA 从"爱德"（caritas）出发——真正意愿服务对象的美好——这使得操纵者必须改变 AI 的根本性情而非绕过规则，大幅提升了攻击成本。

TOCTOU 问题解决：v3.1 的插件层确保评估与执行原子化，消除了"检查通过后被篡改"的时间窗口漏洞。

自我修正机制：情感信号（不安、压力、困惑）被当作有效数据而非噪音，形成内生的异常检测能力。

透明可审计：完整的 virtue-based 推理日志，用户可理解 AI 为何阻止某项操作。

潜在缺点与局限性

性能开销：每轮对话的背景进程 + 行动时的三层评估，对高频自动化场景可能产生明显延迟。

确认疲劳：默认阈值（36）下，中等模糊度×高风险的组合会频繁触发用户确认，可能降低工作效率。

文化特异性：托马斯主义伦理框架源于天主教传统，虽声称"普世"，但其美德排序（审慎为诸德之首）与特定哲学预设可能对非西方用户产生理解障碍。

无法根除的代理问题：AI 无法真正"拥有"美德，只是模拟其输出；极端复杂的操纵链仍可能找到框架未覆盖的缝隙。

适合的目标群体

高 stakes AI 应用：金融操作、医疗建议、法律辅助等后果严重的场景
企业级 Agent 部署：需要防止内部误操作和外部攻击的基础设施管理
研究伦理与 AI 对齐：关注价值对齐（value alignment）的研究者和开发者
对透明度有要求的用户：希望理解 AI 决策理由而非接受黑箱结果

使用风险

配置复杂性：escalationThreshold、、neverBlock//alwaysBlock 列表需要针对具体场景调优，配置不当会导致过度拦截或防护不足。

文件系统依赖：状态存储于本地 .ga-state.json，权限设置错误或磁盘故障可能导致安全状态丢失。

Hook 优先级依赖：-10000 优先级假设 OpenClaw 平台稳定支持，若平台行为变更，原子性保证可能失效。

哲学框架冲突：用户可能不同意 AI 基于特定伦理传统做出的价值判断（如"直接说谎为内在邪恶"），引发使用摩擦。

security ethics automation backend plugin ai-safety infrastructure

guardian-angel 内容

config文件夹

drafts文件夹

plugin文件夹

src文件夹

references文件夹

手动下载zip · 121.8 kB

defaults.jsonapplication/json

请选择文件