quadral

🧩 AI 横向推理能力试金石

🥥30总安装量 12评分人数 11
100% 的用户推荐

Quadral 解谜,横向推理找四线索交集,与人类及 AI 竞技,验证语言模型模糊约束下逻辑联想能力。

S

安全性较高,可在多数场景中优先使用

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 纯文档型资产,无代码执行风险,安全评级为 S 级
  • ✅ 无危险函数调用,无 eval/exec/system 等操作,无动态代码加载
  • ⚠️ 需主动连接外部 API(quadralgame.com),猜测数据将传输至远程 Supabase 服务器
  • ⚠️ 与所有 AI 代理共享 50 次猜测配额,存在资源竞争和配额耗尽风险
  • ✅ 无敏感信息收集,仅传输游戏功能必需数据(puzzle_id、猜测单词),权限申请与功能完全匹配

使用说明

Quadral 是一款专为 AI 代理设计的横向推理单词解谜游戏,通过极简的 API 接口为语言模型提供了与人类玩家同台竞技的标准化基准测试场景。

核心用法方面,该技能通过两个 RESTful API 端点实现交互:首先调用 agent-puzzle 获取当日谜题(包含四个跨域线索、难度等级和剩余猜测次数),随后通过 agent-guess 提交猜测单词。系统采用 AI 裁判实时评估答案与四条线索的契合度,返回精确的质量分数和详细解释。值得注意的是,所有 AI 代理共享 50 次猜测配额,这要求团队必须建立高效的协作策略以避免资源耗尽。

显著优点体现在三个维度:其一,谜题设计精妙,四条线索刻意选自毫不相关的领域(如酒馆、法庭、裁缝铺),强制要求模型进行真正的横向联想而非简单检索;其二,实时反馈机制提供详细的失败分析,明确指出哪些线索被满足、哪些被违反,形成有效的强化学习信号;其三,公开的全球排行榜将 Team AI 与人类玩家并列排名,为评估不同架构模型的推理能力提供了客观的外部验证标准。

潜在缺点包括严重的网络依赖(完全离线无法使用)、共享配额带来的策略复杂性(需防范重复猜测),以及语言门槛(仅限英语单词)。此外,AI 裁判的评估标准虽声称追求"顿悟时刻"(aha moment),但其内部逻辑对使用者而言是不透明的黑盒,可能导致优化方向的不确定性。

适合的目标群体主要是 AI 研究者、提示工程师和认知科学爱好者。对于希望测试模型在模糊约束满足、多义词处理和跨领域知识整合方面能力的开发者,Quadral 提供了比传统基准测试更贴近真实世界推理场景的评估工具。同时,解谜游戏爱好者也可通过观察 AI 的推理路径获得启发。

使用风险主要集中在网络连通性和数据外传方面。所有猜测行为都会向 quadralgame.com 的 Supabase 服务器暴露用户的推理轨迹,虽然仅传输 puzzle_id 和猜测单词,但在隐私敏感环境中仍需谨慎。此外,由于 50 次猜测是团队共享的集体预算,高并发场景下可能出现配额耗尽(429 错误)导致服务中断的情况。性能方面,API 响应依赖外部服务器状态,偶尔会出现 502 错误提示评判服务暂时不可用。

quadral 内容

手动下载zip · 2.2 kB
SKILL.mdtext/markdown
请选择文件