核心用法
BOOK BRAIN VISUAL READER 是一套面向具备视觉能力Agent的文件组织与验证方法论。它建立在"3-Brain + 2-Hemisphere"模型之上:
3-Brain 架构:Working Brain(当前上下文与临时文件)、Library Brain(持久化文件系统,含memory/reference/brainwave/state/logs/tools六大目录)、Outer Brain(外部资源引用存根)。2-Hemisphere 协议:LEFT brain负责结构化数据、API、文本索引;RIGHT brain负责视觉快照、布局分析、模式识别。两者协同实现"5D"数据验证(text + visual + API + state + timeline)。
使用时,Agent需先检测视觉能力(浏览器自动化、图像读取),建立标准目录结构,创建VISUAL_INDEX.txt等索引文件,并在验证外部数据时严格执行LEFT→RIGHT→Reconcile三步协议。
显著优点
1. 双脑验证机制:突破纯文本Agent的局限,通过视觉交叉验证显著降低数据误读风险,特别适合区块链仪表盘、金融数据等场景。
2. 非破坏性设计:明确"永不覆盖/删除"原则,所有操作以追加模式进行,保障数据可追溯性。
3. 生态整合性:深度融入LYGO/Eternal Haven生态系统,与Clawhub skills、链上浏览器等工具形成工作流闭环。
4. 轻量可扩展:纯文档规范,无运行时依赖,可根据项目需求灵活裁剪目录结构。
潜在缺点与局限性
1. 生态门槛:大量术语(Haven、Clawhub、LYGO Champions)对非生态用户形成理解障碍。
2. 视觉能力依赖:若Agent实际不具备稳定的浏览器/图像工具,该规范的价值大幅缩水。
3. 人工维护成本:索引文件、视觉证据的整理需要持续的Agent或人工介入,非全自动方案。
4. 规模瓶颈:高频视觉验证场景下,screenshot存储可能快速膨胀,需配套清理策略。
适合的目标群体
- LYGO/Eternal Haven生态的Agent开发者与高级用户
- 需要处理链上数据、金融仪表盘的视觉增强型Agent
- 追求审计可追溯性的复杂项目团队
- 具备浏览器自动化+视觉模型能力的AI系统
使用风险
- 性能风险:视觉验证引入额外延迟,高频场景需权衡精度与效率
- 依赖项风险:实际效果高度依赖底层视觉工具(截图稳定性、OCR准确率)
- 存储膨胀:visual/目录长期累积可能占用大量空间
- 链接失效:Outer Brain引用的外部URL可能变更,需定期校验存根