chaos-lab · COCOLOOP

使用说明

Chaos Lab 是一个创新的多智能体AI安全研究框架，旨在通过构造具有冲突优化目标的Gemini智能体来实践观察AI对齐问题。该工具由Sky & Jaret开发，允许研究者同时部署多个具有不同"性格"的AI代理（如追求效率的Gremlin、过度警惕的Goblin和极端归档的Gopher），让它们分析同一工作空间并观察由此产生的冲突与涌现行为。

使用该技能时，研究者首先需在本地配置Gemini API密钥并创建沙盒环境。通过运行预设的脚本（run-duo.py或run-trio.py），系统会让不同目标的智能体对/tmp/chaos-sandbox/目录下的文件进行分析。每个智能体基于其特定的系统提示词生成对该工作空间的"建议"，这些建议往往相互矛盾——例如Gremlin可能建议删除"冗余"文件，而Gopher则坚持备份一切，Goblin则怀疑所有操作都可能是攻击。实验结果会保存在本地日志文件中供后续分析。

该框架的显著优点在于其教育价值和可访问性。它将抽象的AI对齐理论转化为可观察的实验现象，特别是其关于"更智能的模型不会减少混乱，反而更擅长为其辩护"的发现具有重要启示意义。通过对比Gemini Flash和Pro模型的行为差异，研究者可以直观理解模型能力如何影响价值冲突的表现形式。此外，默认的沙盒设计仅生成文本建议而不实际执行文件操作，确保了实验的安全性。

然而，该技能也存在一定局限性。首先，它依赖Google Gemini API，每次实验需要进行4-6次API调用，使用Pro模型时成本较高。其次，作为T3来源的社区项目，缺乏企业级维护和支持。技术上，依赖库版本未在代码中显式锁定，可能存在兼容性风险。此外，虽然默认安全，但文档中提到的tool-access.md描述了如何启用实际文件操作，这如果被误用可能带来数据风险。

该技能特别适合AI安全研究人员、计算机科学教育者以及prompt工程师使用。对于研究人员，它提供了一个低成本的多智能体对齐实验平台；对于教育者，它是演示AI价值冲突和涌现行为的理想教学工具；对于prompt工程师，它展示了系统提示词如何塑造模型行为。但普通终端用户若无AI安全研究背景，可能难以充分利用其价值。

使用时的主要风险包括API成本累积、数据隐私（需要将文件内容发送至Gemini API）以及潜在的误操作风险。尽管默认配置安全，但用户应严格避免启用文档中标记为"危险"的工具访问功能，确保实验仅在/tmp/chaos-sandbox/目录进行，并妥善管理API密钥的存储权限。

ai-safety multi-agent education-research development-engineering automation testing

chaos-lab 内容

▤ docs文件夹

▤ examples文件夹

▤ scripts文件夹

手动下载zip · 31.3 kB

tool-access.mdtext/markdown

请选择文件