speech-to-text

🎙️ 企业级音频转录与字幕生成工具

下载技能Zip包

62 次

🥥62

总安装量 17

评分人数 13

100% 的用户推荐

基于 inference.sh Whisper 模型，提供高精度语音转文字服务，支持多语言翻译与时间戳，快速生成会议记录与字幕。

基本安全，请在特定环境下使用

来自社区或个人来源，建议先隔离验证
✅ 纯文档型资产，无实际可执行代码，无 eval/exec 等危险函数，无动态代码加载风险
✅ 无静默数据收集逻辑，所有数据处理均在用户主动调用的外部 CLI 中完成，内容透明可审计
✅ 权限申请 `Bash(infsh *)` 与功能描述完全匹配，无非必要权限申请
⚠️ 来源为个人开发者账号(T3)，虽经检查无安全问题，但长期维护与更新稳定性需关注
⚠️ 功能依赖外部 CLI 工具(infsh)，音频数据需上传至 inference.sh 第三方服务，处理敏感内容时需谨慎评估隐私风险

了解 BSS 安全性认证标准 >zip · 1.8 kB

使用说明

该技能通过封装 inference.sh CLI 工具，为用户提供基于 OpenAI Whisper 模型的企业级语音转文字解决方案。核心用法极其简洁：用户只需通过 infsh app run 命令传入音频 URL，即可调用 Fast Whisper Large V3（快速版）或 Whisper V3 Large（高精度版）模型完成转录。支持基础转录、带时间戳分段、99种语言自动识别以及非英语音频到英语的翻译功能，并可与视频音频提取、字幕生成等工具链集成，实现从视频到字幕的完整工作流。

显著优点包括：首先，背靠 inference.sh 成熟的 AI 推理平台，模型性能稳定可靠；其次，提供双模型策略，用户可在速度与精度间灵活选择；再者，原生支持时间戳输出与翻译功能，满足字幕制作与跨国会议需求；最后，与视频处理技能无缝衔接，支持从视频提取音频到生成字幕的自动化流程。

潜在缺点与局限性不容忽视：该技能本质上为文档型封装，完全依赖外部 infsh CLI 工具，若 inference.sh 服务中断或 CLI 工具变更，功能将失效；所有音频数据需上传至第三方云端处理，对敏感内容存在隐私风险；作为纯文档实现，缺乏本地缓存或离线能力；且当前由个人开发者维护（T3来源），长期维护稳定性存疑。

适合目标群体包括：需要快速生成会议纪要的企业行政人员、制作播客与视频字幕的内容创作者、处理采访录音的记者与研究人员，以及需要音频内容无障碍化的 accessibility 从业者。

使用风险主要涉及：数据隐私方面，音频文件需上传至 inference.sh 服务器，敏感商业或私人内容存在泄露风险；性能依赖网络连接质量与第三方服务稳定性；此外，示例代码中包含 curl 下载脚本，用户需自行验证 https://cli.inference.sh 的可信度，避免供应链攻击。

content-media productivity docs automation

speech-to-text 内容

手动下载zip · 1.8 kB

SKILL.mdtext/markdown

请选择文件