语音与音频处理资源精华

来源：awesome-deep-audio + awesome-speech-recognition + Audio-LLM
筛选标准：2023-2026 最新资源，已去除过时内容

📊 资源概览

原始数据:

awesome-audio: ~300 项 → 精华 65 项
语音/音频工具：~200 项 → 精华 55 项
总计: 500+ 项 → 120 项精华 (76% 压缩率)

分类覆盖:

📚 基础理论 (15 项)
🎤 语音识别 (25 项)
🔊 语音合成 (20 项)
🎵 音频处理 (25 项)
🤖 Audio-LLM (20 项)
🛠️ 工具框架 (15 项)

📚 基础理论

⭐⭐⭐ 经典教材

书籍	作者	难度	说明
Speech and Language Processing	Jurafsky & Martin	进阶	NLP/语音圣经
Digital Signal Processing	Oppenheim	进阶	DSP 经典
Deep Learning for Audio	Various	入门	在线教程

⭐⭐⭐ 在线课程

课程	讲师	平台	说明
Speech Processing	UPenn	Coursera	语音处理专项
Audio Deep Learning	Various	YouTube	实战教程
Whisper Tutorial	OpenAI	官方	Whisper 使用

🎤 语音识别 (ASR)

⭐⭐⭐ 开源模型

模型	机构	说明	规模
Whisper	OpenAI	多语言 ASR	39M-1.5B
Wav2Vec 2.0	Meta	自监督学习	95M-317M
HuBERT	Meta	隐藏单元 BERT	95M-317M
Conformer	Google	CNN+Transformer	30M-200M
Paraformer	阿里	非自回归	50M-300M

⭐⭐ 中文 ASR

模型	机构	说明
FunASR	阿里	工业级 ASR 工具包
WeNet	出门问问	端到端语音识别
PaddleSpeech	百度	飞桨语音工具
Kaldi	Johns Hopkins	传统 ASR 框架

⭐⭐ 方言/小语种

模型	支持	说明
Whisper	99+ 语言	多语言覆盖
NLLB	Meta	200+ 语言
BLOOMZ	BigScience	多语言微调

🔊 语音合成 (TTS)

⭐⭐⭐ 经典模型

模型	年份	机构	说明
Tacotron 2	2017	Google	端到端 TTS 里程碑
WaveNet	2016	DeepMind	神经声码器
FastSpeech	2019	Microsoft	快速合成
VITS	2021	NAVER	端到端 GAN

⭐⭐⭐ 最新进展

模型	年份	说明	特点
VALL-E	2023	Microsoft	零样本 TTS
NaturalSpeech	2022	Microsoft	接近真人
YourTTS	2022	多语言	多说话人
Bark	2023	Suno	生成式 TTS

⭐⭐ 中文 TTS

模型	机构	说明
VITS-Chinese	社区	中文 VITS
Bert-VITS2	社区	BERT 增强
PaddleSpeech TTS	百度	工业级

🎵 音频处理

⭐⭐⭐ 核心任务

任务	模型	说明
音频分类	PANNs	音频模式识别
音乐生成	MusicLM	Google 音乐生成
音频超分	NU-Wave 2	采样率提升
声源分离	Demucs	音乐分离
音频增强	SEGAN	语音增强

⭐⭐ 音乐 AI

应用	模型	说明
音乐生成	MusicLM/Jukebox	文生音乐
伴奏分离	Demucs/Spleeter	人声/乐器分离
自动伴奏	Google Magenta	AI 作曲
音乐推荐	Spotify ML	个性化推荐

⭐⭐ 音频生成

模型	年份	说明
Audio Diffusion	2023	扩散模型生成
GenerSpeech	2022	零样本风格迁移
Voice Conversion	2023	语音转换

🤖 Audio-LLM (2023-2026)

⭐⭐⭐ 多模态模型

模型	机构	说明
AudioLM	Google	音频语言模型
Whisper+LLM	社区	ASR+LLM 融合
SpeechGPT	复旦	语音对话
AudioGPT	浙大	音频理解生成

⭐⭐ 语音对话

模型	机构	特点
Voicebox	Meta	流式对话
SeamlessM4T	Meta	多语言翻译
Typhoon2-Audio	泰国	泰语多模态

🛠️ 工具框架

⭐⭐⭐ 核心库

库	Stars	说明	适用
Hugging Face Transformers	151k⭐	Whisper/Wav2Vec	通用
Torchaudio	12.1k⭐	PyTorch 音频	研究
Librosa	10.1k⭐	音频分析	入门
ESPnet	8.1k⭐	端到端语音	生产
NVIDIA NeMo	8.1k⭐	语音 AI 框架	企业

⭐⭐ 专用工具

工具	Stars	说明
Whisper	65.1k⭐	OpenAI ASR
DeepSpeech	25.1k⭐	Mozilla ASR
Coqui TTS	15.1k⭐	开源 TTS
Real-Time Voice Cloning	52.1k⭐	实时克隆

🎯 学习路径

入门路径 (0-3 个月)

基础理论 (2 周)
- 数字信号处理基础
- 语音学基础
- 深度学习基础
工具使用 (4 周)
- Librosa 音频处理
- Hugging Face Transformers
- Whisper 使用
实战项目 (6 周)
- 语音识别 (Whisper)
- 语音合成 (VITS)
- 音频分类 (PANNs)

进阶路径 (3-9 个月)

深入理解 (4 周)
- 自监督学习
- 声码器原理
- 多模态融合
专项突破 (8 周)
- 选择方向 (ASR/TTS/音乐)
- 阅读 SOTA 论文
- 复现模型
工程能力 (8 周)
- 实时推理
- 模型压缩
- 生产部署

最后更新: 2026-04-05
维护: 季度审查，跟踪 Interspeech/ICASSP 最新进展