voice-note-to-midi

使用说明

voice-note-to-midi 是一款面向音乐创作者的开源音频转换工具，能够将语音备忘录、哼唱或任意旋律录音智能转换为标准MIDI文件。该技能基于Spotify开源的Basic Pitch深度学习模型，结合HPSS谐波-打击乐分离技术与音乐理论分析，为音乐人提供从灵感捕捉到工程落地的完整解决方案。无论是街头突发的旋律灵感，还是手机录制的即兴哼唱，都能通过本地AI处理转化为可在Logic、Ableton等DAW中直接编辑的量化音符。

核心用法与技术流程
该技能的 pipeline 架构清晰分为四个阶段：首先通过HPSS（谐波-打击乐源分离）技术隔离鼓点与背景噪音，提取纯净旋律；随后调用Spotify Basic Pitch模型进行多音高检测与起止点估算；接着利用Krumhansl-Kessler调性轮廓算法自动识别音乐调式；最终执行智能量化，支持1/4至1/32拍精度网格对齐，并提供调性感知的音高修正。用户可通过命令行灵活控制量化精度、最小音符时长等参数，甚至可直接处理现有MIDI文件进行重新量化。

显著优势
作为基于工业级开源方案的工具，其最大优势在于完全本地运行，确保音频隐私零泄露。Basic Pitch模型在音高检测准确性上表现优异，配合八度修剪、重叠音符清理、连音合并等后处理算法，输出结果比原始AI检测更为干净。调性感知模式可自动将音符修正至检测到的音阶内，大幅降低后期编辑工作量。此外，支持MP3、M4A、WAV等主流格式输入，且对硬件要求适中，普通笔记本即可流畅运行。

局限与注意事项
该工具当前版本固定输出120BPM，虽保留相对时间位置，但仍需在DAW中手动匹配原速。处理效果高度依赖录音质量，背景噪音、混响或复音乐和声会导致检测结果混乱。极短音符（<50ms）可能被过滤，快速音阶跑动可能出现音符合并。此外，极端音域可能引发八度误判，需人工校验。技术门槛方面，需要用户自行配置Python 3.11+环境及FFmpeg，对非技术背景的音乐人存在使用门槛。

适用人群
本产品最适合需要快速记录音乐灵感的独立音乐人、作曲家及制作人，特别是习惯用手机录制哼唱创意的用户。对于需要将现有音频素材（如人声采样）转换为可编辑MIDI的REMIX工作者，或是学习音乐理论需要分析旋律的学生也具有实用价值。由于完全开源免费，也适合预算有限的卧室音乐制作人作为创作辅助工具。

潜在风险提示
尽管代码本身通过安全审计，但作为T3来源的个人项目，长期维护更新存在不确定性。依赖包未锁定版本号，未来可能出现API变更导致的兼容性问题。性能方面，ML模型推理需要一定计算资源，超长音频处理可能耗时较长。建议用户定期备份生成的MIDI文件，避免项目依赖单一工具链。同时，复杂复音场景下仍需大量人工修正，不宜期待完全自动化的专业级输出质量。

content-media automation music audio-processing productivity

voice-note-to-midi 内容

手动下载zip · 8.2 kB

QUICKSTART.mdtext/markdown

请选择文件