核心用法
Captions 技能通过调用 TranscriptAPI.com 提供的 REST API,实现从 YouTube 视频提取隐藏式字幕(Closed Captions)的功能。用户需提供有效的 API Key(注册可获得 100 次免费额度),通过构造 HTTP GET 请求到 /api/v2/youtube/transcript 端点,传入视频 URL 或 ID 即可获取字幕数据。
该技能支持两种输出格式:json 格式提供结构化数据,包含每条字幕的文本内容、开始时间(秒)和持续时长,适用于需要精确时间同步的场景;text 格式则生成易读的时间戳文本,适合直接阅读或复制。参数 include_timestamp 可控制是否显示时间信息,send_metadata 可获取视频标题、作者等元数据。
显著优点
首先,该技能具有出色的无障碍支持(Accessibility),能够为听障/重听人士(deaf/HoH)提供视频内容的文字转录,支持多语言字幕提取,包括自动生成的字幕和人工校对的高质量字幕。
其次,使用门槛较低,新用户注册即可获得 100 次免费调用额度,无需绑定信用卡。配置文件在修改前会自动备份到 ~/.openclaw/openclaw.json.bak,有效防止配置丢失。
此外,API 设计简洁,响应速度快(300 次/分钟限速),支持通过视频 ID 或完整 URL 灵活调用,且提供详细的错误代码说明(402 余额不足、404 无字幕、408 超时),便于开发者调试。
潜在缺点与局限性
作为 T3 来源(个人开发者维护)的第三方服务,其长期维护稳定性和服务持续性存在一定不确定性。技能运行依赖外部 API 服务 transcriptapi.com,若该服务宕机或变更接口,本地功能将失效。
功能上,无法提取非公开或私享 YouTube 视频的字幕,且受限于 YouTube 本身的字幕可用性(部分视频可能未开启 CC 功能)。免费额度仅 100 次,对于需要批量处理大量视频的用户成本较高。
此外,技能需要 Node.js 运行环境,且必须在本地存储 API Key,虽然文件有备份机制,但仍需注意本地文件权限安全。
适合的目标群体
内容创作者和视频编辑者可利用此技能快速提取视频文案进行再创作;翻译工作者可获取原始字幕文本进行多语言本地化;学术研究人员可用于视频内容分析、语料库构建;听障人士及无障碍支持工作者可借此访问视频音频内容;产品经理和客服团队可通过转录分析用户反馈视频。
使用风险
主要风险包括:第三方 API 服务的隐私政策合规性(视频 URL 和字幕内容需上传至 transcriptapi.com);API Key 本地存储的安全风险(需确保 ~/.openclaw/ 目录权限正确);网络依赖性强,离线无法使用;以及个人开发者项目的维护风险,建议关注项目更新状态。