语音与音频处理资源精华
来源:awesome-deep-audio + awesome-speech-recognition + Audio-LLM
筛选标准:2023-2026 最新资源,已去除过时内容
📊 资源概览
原始数据:
- awesome-audio: ~300 项 → 精华 65 项
- 语音/音频工具:~200 项 → 精华 55 项
- 总计: 500+ 项 → 120 项精华 (76% 压缩率)
分类覆盖:
- 📚 基础理论 (15 项)
- 🎤 语音识别 (25 项)
- 🔊 语音合成 (20 项)
- 🎵 音频处理 (25 项)
- 🤖 Audio-LLM (20 项)
- 🛠️ 工具框架 (15 项)
📚 基础理论
⭐⭐⭐ 经典教材
| 书籍 | 作者 | 难度 | 说明 |
|---|---|---|---|
| Speech and Language Processing | Jurafsky & Martin | 进阶 | NLP/语音圣经 |
| Digital Signal Processing | Oppenheim | 进阶 | DSP 经典 |
| Deep Learning for Audio | Various | 入门 | 在线教程 |
⭐⭐⭐ 在线课程
| 课程 | 讲师 | 平台 | 说明 |
|---|---|---|---|
| Speech Processing | UPenn | Coursera | 语音处理专项 |
| Audio Deep Learning | Various | YouTube | 实战教程 |
| Whisper Tutorial | OpenAI | 官方 | Whisper 使用 |
🎤 语音识别 (ASR)
⭐⭐⭐ 开源模型
| 模型 | 机构 | 说明 | 规模 |
|---|---|---|---|
| Whisper | OpenAI | 多语言 ASR | 39M-1.5B |
| Wav2Vec 2.0 | Meta | 自监督学习 | 95M-317M |
| HuBERT | Meta | 隐藏单元 BERT | 95M-317M |
| Conformer | CNN+Transformer | 30M-200M | |
| Paraformer | 阿里 | 非自回归 | 50M-300M |
⭐⭐ 中文 ASR
| 模型 | 机构 | 说明 |
|---|---|---|
| FunASR | 阿里 | 工业级 ASR 工具包 |
| WeNet | 出门问问 | 端到端语音识别 |
| PaddleSpeech | 百度 | 飞桨语音工具 |
| Kaldi | Johns Hopkins | 传统 ASR 框架 |
⭐⭐ 方言/小语种
| 模型 | 支持 | 说明 |
|---|---|---|
| Whisper | 99+ 语言 | 多语言覆盖 |
| NLLB | Meta | 200+ 语言 |
| BLOOMZ | BigScience | 多语言微调 |
🔊 语音合成 (TTS)
⭐⭐⭐ 经典模型
| 模型 | 年份 | 机构 | 说明 |
|---|---|---|---|
| Tacotron 2 | 2017 | 端到端 TTS 里程碑 | |
| WaveNet | 2016 | DeepMind | 神经声码器 |
| FastSpeech | 2019 | Microsoft | 快速合成 |
| VITS | 2021 | NAVER | 端到端 GAN |
⭐⭐⭐ 最新进展
| 模型 | 年份 | 说明 | 特点 |
|---|---|---|---|
| VALL-E | 2023 | Microsoft | 零样本 TTS |
| NaturalSpeech | 2022 | Microsoft | 接近真人 |
| YourTTS | 2022 | 多语言 | 多说话人 |
| Bark | 2023 | Suno | 生成式 TTS |
⭐⭐ 中文 TTS
| 模型 | 机构 | 说明 |
|---|---|---|
| VITS-Chinese | 社区 | 中文 VITS |
| Bert-VITS2 | 社区 | BERT 增强 |
| PaddleSpeech TTS | 百度 | 工业级 |
🎵 音频处理
⭐⭐⭐ 核心任务
| 任务 | 模型 | 说明 |
|---|---|---|
| 音频分类 | PANNs | 音频模式识别 |
| 音乐生成 | MusicLM | Google 音乐生成 |
| 音频超分 | NU-Wave 2 | 采样率提升 |
| 声源分离 | Demucs | 音乐分离 |
| 音频增强 | SEGAN | 语音增强 |
⭐⭐ 音乐 AI
| 应用 | 模型 | 说明 |
|---|---|---|
| 音乐生成 | MusicLM/Jukebox | 文生音乐 |
| 伴奏分离 | Demucs/Spleeter | 人声/乐器分离 |
| 自动伴奏 | Google Magenta | AI 作曲 |
| 音乐推荐 | Spotify ML | 个性化推荐 |
⭐⭐ 音频生成
| 模型 | 年份 | 说明 |
|---|---|---|
| Audio Diffusion | 2023 | 扩散模型生成 |
| GenerSpeech | 2022 | 零样本风格迁移 |
| Voice Conversion | 2023 | 语音转换 |
🤖 Audio-LLM (2023-2026)
⭐⭐⭐ 多模态模型
| 模型 | 机构 | 说明 |
|---|---|---|
| AudioLM | 音频语言模型 | |
| Whisper+LLM | 社区 | ASR+LLM 融合 |
| SpeechGPT | 复旦 | 语音对话 |
| AudioGPT | 浙大 | 音频理解生成 |
⭐⭐ 语音对话
| 模型 | 机构 | 特点 |
|---|---|---|
| Voicebox | Meta | 流式对话 |
| SeamlessM4T | Meta | 多语言翻译 |
| Typhoon2-Audio | 泰国 | 泰语多模态 |
🛠️ 工具框架
⭐⭐⭐ 核心库
| 库 | Stars | 说明 | 适用 |
|---|---|---|---|
| Hugging Face Transformers | 151k⭐ | Whisper/Wav2Vec | 通用 |
| Torchaudio | 12.1k⭐ | PyTorch 音频 | 研究 |
| Librosa | 10.1k⭐ | 音频分析 | 入门 |
| ESPnet | 8.1k⭐ | 端到端语音 | 生产 |
| NVIDIA NeMo | 8.1k⭐ | 语音 AI 框架 | 企业 |
⭐⭐ 专用工具
| 工具 | Stars | 说明 |
|---|---|---|
| Whisper | 65.1k⭐ | OpenAI ASR |
| DeepSpeech | 25.1k⭐ | Mozilla ASR |
| Coqui TTS | 15.1k⭐ | 开源 TTS |
| Real-Time Voice Cloning | 52.1k⭐ | 实时克隆 |
🎯 学习路径
入门路径 (0-3 个月)
基础理论 (2 周)
- 数字信号处理基础
- 语音学基础
- 深度学习基础
工具使用 (4 周)
- Librosa 音频处理
- Hugging Face Transformers
- Whisper 使用
实战项目 (6 周)
- 语音识别 (Whisper)
- 语音合成 (VITS)
- 音频分类 (PANNs)
进阶路径 (3-9 个月)
深入理解 (4 周)
- 自监督学习
- 声码器原理
- 多模态融合
专项突破 (8 周)
- 选择方向 (ASR/TTS/音乐)
- 阅读 SOTA 论文
- 复现模型
工程能力 (8 周)
- 实时推理
- 模型压缩
- 生产部署
最后更新: 2026-04-05
维护: 季度审查,跟踪 Interspeech/ICASSP 最新进展