Skip to content

语音与音频处理资源精华

来源:awesome-deep-audio + awesome-speech-recognition + Audio-LLM
筛选标准:2023-2026 最新资源,已去除过时内容


📊 资源概览

原始数据:

  • awesome-audio: ~300 项 → 精华 65 项
  • 语音/音频工具:~200 项 → 精华 55 项
  • 总计: 500+ 项 → 120 项精华 (76% 压缩率)

分类覆盖:

  • 📚 基础理论 (15 项)
  • 🎤 语音识别 (25 项)
  • 🔊 语音合成 (20 项)
  • 🎵 音频处理 (25 项)
  • 🤖 Audio-LLM (20 项)
  • 🛠️ 工具框架 (15 项)

📚 基础理论

⭐⭐⭐ 经典教材

书籍作者难度说明
Speech and Language ProcessingJurafsky & Martin进阶NLP/语音圣经
Digital Signal ProcessingOppenheim进阶DSP 经典
Deep Learning for AudioVarious入门在线教程

⭐⭐⭐ 在线课程

课程讲师平台说明
Speech ProcessingUPennCoursera语音处理专项
Audio Deep LearningVariousYouTube实战教程
Whisper TutorialOpenAI官方Whisper 使用

🎤 语音识别 (ASR)

⭐⭐⭐ 开源模型

模型机构说明规模
WhisperOpenAI多语言 ASR39M-1.5B
Wav2Vec 2.0Meta自监督学习95M-317M
HuBERTMeta隐藏单元 BERT95M-317M
ConformerGoogleCNN+Transformer30M-200M
Paraformer阿里非自回归50M-300M

⭐⭐ 中文 ASR

模型机构说明
FunASR阿里工业级 ASR 工具包
WeNet出门问问端到端语音识别
PaddleSpeech百度飞桨语音工具
KaldiJohns Hopkins传统 ASR 框架

⭐⭐ 方言/小语种

模型支持说明
Whisper99+ 语言多语言覆盖
NLLBMeta200+ 语言
BLOOMZBigScience多语言微调

🔊 语音合成 (TTS)

⭐⭐⭐ 经典模型

模型年份机构说明
Tacotron 22017Google端到端 TTS 里程碑
WaveNet2016DeepMind神经声码器
FastSpeech2019Microsoft快速合成
VITS2021NAVER端到端 GAN

⭐⭐⭐ 最新进展

模型年份说明特点
VALL-E2023Microsoft零样本 TTS
NaturalSpeech2022Microsoft接近真人
YourTTS2022多语言多说话人
Bark2023Suno生成式 TTS

⭐⭐ 中文 TTS

模型机构说明
VITS-Chinese社区中文 VITS
Bert-VITS2社区BERT 增强
PaddleSpeech TTS百度工业级

🎵 音频处理

⭐⭐⭐ 核心任务

任务模型说明
音频分类PANNs音频模式识别
音乐生成MusicLMGoogle 音乐生成
音频超分NU-Wave 2采样率提升
声源分离Demucs音乐分离
音频增强SEGAN语音增强

⭐⭐ 音乐 AI

应用模型说明
音乐生成MusicLM/Jukebox文生音乐
伴奏分离Demucs/Spleeter人声/乐器分离
自动伴奏Google MagentaAI 作曲
音乐推荐Spotify ML个性化推荐

⭐⭐ 音频生成

模型年份说明
Audio Diffusion2023扩散模型生成
GenerSpeech2022零样本风格迁移
Voice Conversion2023语音转换

🤖 Audio-LLM (2023-2026)

⭐⭐⭐ 多模态模型

模型机构说明
AudioLMGoogle音频语言模型
Whisper+LLM社区ASR+LLM 融合
SpeechGPT复旦语音对话
AudioGPT浙大音频理解生成

⭐⭐ 语音对话

模型机构特点
VoiceboxMeta流式对话
SeamlessM4TMeta多语言翻译
Typhoon2-Audio泰国泰语多模态

🛠️ 工具框架

⭐⭐⭐ 核心库

Stars说明适用
Hugging Face Transformers151k⭐Whisper/Wav2Vec通用
Torchaudio12.1k⭐PyTorch 音频研究
Librosa10.1k⭐音频分析入门
ESPnet8.1k⭐端到端语音生产
NVIDIA NeMo8.1k⭐语音 AI 框架企业

⭐⭐ 专用工具

工具Stars说明
Whisper65.1k⭐OpenAI ASR
DeepSpeech25.1k⭐Mozilla ASR
Coqui TTS15.1k⭐开源 TTS
Real-Time Voice Cloning52.1k⭐实时克隆

🎯 学习路径

入门路径 (0-3 个月)

  1. 基础理论 (2 周)

    • 数字信号处理基础
    • 语音学基础
    • 深度学习基础
  2. 工具使用 (4 周)

    • Librosa 音频处理
    • Hugging Face Transformers
    • Whisper 使用
  3. 实战项目 (6 周)

    • 语音识别 (Whisper)
    • 语音合成 (VITS)
    • 音频分类 (PANNs)

进阶路径 (3-9 个月)

  1. 深入理解 (4 周)

    • 自监督学习
    • 声码器原理
    • 多模态融合
  2. 专项突破 (8 周)

    • 选择方向 (ASR/TTS/音乐)
    • 阅读 SOTA 论文
    • 复现模型
  3. 工程能力 (8 周)

    • 实时推理
    • 模型压缩
    • 生产部署

最后更新: 2026-04-05
维护: 季度审查,跟踪 Interspeech/ICASSP 最新进展

受控自动化架构 V2.0 | 仅限授权访问