大语言模型 (LLM) 资源精华

来源：hannibal046/awesome-llm + cedrickchee/awesome-transformer-nlp
筛选标准：2023-2026 最新资源，已去除过时/低质内容

📊 资源概览

原始数据:

awesome-llm: ~500 项 → 精华 120 项
awesome-transformer-nlp: ~800 项 → 精华 150 项
总计: 1,300+ 项 → 270 项精华 (79% 压缩率)

分类覆盖:

📚 基础理论 (30 项)
🏗️ 模型架构 (40 项)
🛠️ 应用开发 (80 项)
📝 数据集 (40 项)
📊 评估基准 (30 项)
🔧 工具库 (50 项)

📚 基础理论

⭐⭐⭐ 必读论文

论文	年份	引用	说明
Attention Is All You Need	2017	100k+	Transformer 开山之作
BERT: Pre-training of Deep Bidirectional Transformers	2018	70k+	预训练语言模型里程碑
Language Models are Few-Shot Learners (GPT-3)	2020	50k+	大模型涌现能力
Training Compute-Optimal Large Language Models (Chinchilla)	2022	5k+	最优训练策略
LLaMA: Open and Efficient Foundation Language Models	2023	10k+	开源大模型里程碑

⭐⭐ 综述论文

论文	年份	说明
A Survey of Large Language Models	2023	LLM 全面综述 (100+ 页)
Efficient Training of Language Models	2023	高效训练技术综述
Parameter-Efficient Fine-Tuning Survey	2023	PEFT 技术综述
Retrieval-Augmented Generation Survey	2023	RAG 技术综述
Large Language Models in NLP Survey	2024	NLP 领域应用综述

⭐⭐ 教程课程

课程	讲师	平台	说明
LLM Course	Hugging Face	GitHub/Colab	LLM 入门实战
Full Stack LLM Bootcamp	UC Berkeley	网站	全栈 LLM 开发
LLM Engineering Master's	DataTalksClub	YouTube	LLM 工程硕士课
Prompt Engineering for Developers	DeepLearning.AI	Coursera	提示工程专项
Building Systems with LLMs	DeepLearning.AI	Coursera	LLM 系统构建

🏗️ 模型架构

⭐⭐⭐ 开源基础模型

模型	机构	参数量	说明
Llama 3	Meta	8B/70B	最强开源模型 (2024)
Mistral/Mixtral	Mistral AI	7B/8x7B	高效 MoE 架构
Qwen2	阿里	0.5B-72B	中文能力优秀
ChatGLM3	清华	6B	中英双语优化
Falcon	TII	7B/40B/180B	开源可商用
Gemma	Google	2B/7B	轻量级开源

⭐⭐ 专用模型

模型	领域	参数量	说明
CodeLlama	代码	7B-34B	代码生成专用
StarCoder2	代码	3B/7B/15B	多语言代码
Med-PaLM 2	医疗	-	医疗问答
BloombergGPT	金融	50B	金融领域
Legal-BERT	法律	-	法律文本

⭐⭐ 多模态模型

模型	机构	说明
LLaVA	UW-Madison	开源 VLM 标杆
Qwen-VL	阿里	中文多模态
CogVLM	清华	视觉理解
InternVL	商汤	高性能 VLM
Florence-2	微软	统一视觉任务

🛠️ 应用开发

⭐⭐⭐ 开发框架

框架	Stars	说明	适用场景
LangChain	121k⭐	LLM 应用开发框架	快速原型/生产
LlamaIndex	38.7k⭐	数据索引/检索	RAG 系统
Haystack	13.8k⭐	问答系统框架	生产级 QA
Semantic Kernel	22.1k⭐	微软 LLM SDK	.NET/Python
DSPy	18.2k⭐	编程式 Prompt	系统化优化

⭐⭐ Agent 框架

框架	Stars	说明
AutoGen	45.1k⭐	多智能体对话
CrewAI	28.1k⭐	角色协作 Agent
LangGraph	12.1k⭐	状态图 Agent
OpenAgents	8.1k⭐	开源 Agent 平台
MetaGPT	38.1k⭐	软件公司模拟

⭐⭐ RAG 工具

工具	Stars	说明
RAGAS	9.1k⭐	RAG 评估框架
TruLens	3.1k⭐	LLM 可观测性
Vectara	-	RAG 即服务
LlamaPack	-	RAG 组件库

📝 数据集

⭐⭐⭐ 预训练语料

数据集	规模	说明
Common Crawl	PB 级	网页爬取语料
The Pile	825GB	高质量多源语料
C4	750GB	Colossal Clean Crawled Corpus
RedPajama	1.2T	开源预训练语料
FineWeb	15T	2024 最新高质量语料

⭐⭐ 指令微调数据

数据集	规模	说明
Alpaca	52k	Stanford 指令数据
Dolly	15k	Databricks 指令
OpenOrca	1M+	大规模指令数据
UltraChat	1.5M	多轮对话数据
ShareGPT	100k+	真实对话数据

⭐⭐ 评估基准

基准	任务	说明
MMLU	多任务	57 个学科知识
GSM8K	数学	小学数学题
HumanEval	代码	代码生成评估
BIG-Bench	多任务	200+ 任务
HELM	综合	全面评估框架
C-Eval	中文	中文知识评估
CMMLU	中文	中文多任务

🔧 工具库

⭐⭐⭐ 训练工具

工具	Stars	说明
Hugging Face Transformers	151k⭐	预训练模型库
Hugging Face Accelerate	9.1k⭐	分布式训练
DeepSpeed	36.7k⭐	微软训练优化
Megatron-LM	25.1k⭐	NVIDIA 大规模训练
ColossalAI	15.1k⭐	国产训练框架

⭐⭐⭐ 推理优化

工具	Stars	说明
vLLM	28.4k⭐	高性能推理
TGI	8.1k⭐	HF 推理服务
TensorRT-LLM	8.1k⭐	NVIDIA 推理优化
llama.cpp	65.1k⭐	CPU 推理
ExLlamaV2	8.1k⭐	量化推理

⭐⭐ 微调工具

工具	Stars	说明
PEFT	12.1k⭐	HF 参数高效微调
LoRA	9.1k⭐	微软低秩适配
QLoRA	8.1k⭐	量化 LoRA
Axolotl	8.1k⭐	微调工具链
LLaMA-Factory	18.1k⭐	一站式微调

⭐⭐ 量化工具

工具	Stars	说明
bitsandbytes	8.1k⭐	8 比特量化
AutoGPTQ	5.1k⭐	GPTQ 量化
AWQ	4.1k⭐	激活感知量化
GGUF	-	llama.cpp 格式

📊 评估与监控

⭐⭐⭐ 评估框架

工具	Stars	说明
LM Evaluation Harness	12.1k⭐	EleutherAI 评估
RAGAS	9.1k⭐	RAG 专项评估
DeepEval	5.1k⭐	LLM 测试框架
Promptfoo	8.1k⭐	Prompt 评估

⭐⭐ 监控工具

工具	Stars	说明
LangSmith	-	LangChain 监控
Arize Phoenix	5.1k⭐	LLM 可观测性
Helicone	3.1k⭐	开源监控
OpenLLMetry	2.1k⭐	LLM 追踪

🚀 部署方案

⭐⭐⭐ 云服务

服务	厂商	说明
Hugging Face Inference Endpoints	HF	一键部署
Replicate	Replicate	模型即服务
Modal	Modal	无服务器 GPU
RunPod	RunPod	GPU 云托管
Lambda Labs	Lambda	GPU 实例

⭐⭐ 自部署

方案	说明	规模
TGI + Kubernetes	HF 推理服务 + K8s	生产级
vLLM + FastAPI	高性能推理 API	中小规模
llama.cpp + Docker	CPU 推理容器化	边缘部署
Ray Serve	分布式推理	大规模

💻 硬件要求

训练硬件

模型规模	显存需求	GPU 推荐	成本估算
7B 全量	80GB+	A100/H100	$10k+
7B LoRA	24GB	RTX 4090	$2k
70B 全量	640GB+	8×A100	$80k+
70B QLoRA	48GB	2×A6000	$10k

推理硬件

模型	精度	显存	消费级 GPU
Llama-3-8B	FP16	16GB	RTX 4080
Llama-3-8B	INT4	6GB	RTX 3060
Llama-3-70B	FP16	140GB	多卡
Llama-3-70B	INT4	42GB	2×RTX 3090

🎯 学习路径

入门路径 (0-3 个月)

基础理论 (2 周)
- Transformer 原理
- Attention 机制
- Pre-training + Fine-tuning 范式
工具使用 (4 周)
- Hugging Face Transformers
- LangChain 基础
- Prompt Engineering
实战项目 (6 周)
- 构建 RAG 问答系统
- 微调开源模型
- 部署简单应用

进阶路径 (3-9 个月)

深入理解 (4 周)
- 模型架构细节
- 训练技术 (ZeRO/FSDP)
- 量化原理
工程能力 (8 周)
- 分布式训练
- 推理优化
- 监控评估
专项突破 (8 周)
- Agent 系统
- 多模态应用
- 垂直领域微调

高级路径 (9-18 个月)

前沿研究 (持续)
- 阅读最新论文
- 复现 SOTA 模型
- 参与开源项目
生产实践 (持续)
- 大规模部署
- 性能优化
- 成本控制

📈 技术趋势 (2024-2026)

模型趋势

✅ 更大上下文: 128K → 1M+ tokens
✅ 多模态融合: 文本 + 图像 + 音频 + 视频
✅ MoE 架构: 稀疏激活，高效扩展
✅ 长窗口推理: 复杂任务规划

技术趋势

✅ 推理优化: 量化/蒸馏/剪枝
✅ Agent 系统: 自主规划 + 工具使用
✅ RAG 增强: 检索 + 生成深度融合
✅ 端侧部署: 手机/PC 本地运行

应用趋势

✅ 垂直领域: 医疗/法律/金融专用
✅ 企业私有化: 数据安全 + 定制
✅ 低代码开发: 非程序员也能用
✅ 合规监管: AI 治理 + 伦理

🎓 社区资源

⭐⭐⭐ 核心社区

社区	平台	说明
Hugging Face	网站/Discord	最大 ML 社区
LangChain	Discord	LLM 开发社区
r/LocalLLaMA	Reddit	本地部署社区
LlamaIndex	Discord	RAG 开发社区

⭐⭐ 资讯渠道

渠道	平台	说明
The Batch	Newsletter	deeplearning.ai 周报
Import AI	Newsletter	Jack Clark 周报
Hugging Face Blog	博客	技术文章
Sebastian Raschka	Blog/Substack	LLM 技术深度文

💡 最佳实践

模型选择

1. 明确需求 → 2. 评估预算 → 3. 选择精度 → 4. 测试性能

决策树:

需要中文？→ Qwen2/ChatGLM3
预算有限？→ 7B 量化版本
需要代码？→ CodeLlama/StarCoder2
生产部署？→ 有商业许可的模型

微调策略

数据量	方法	成本
<1k	Prompt Engineering	$
1k-10k	LoRA	$$
10k-100k	QLoRA	$$$
>100k	全量微调	$$$$

评估流程

1. 定义指标 → 2. 构建测试集 → 3. 基线评估 → 4. 迭代优化 → 5. A/B 测试

最后更新: 2026-04-05
维护: 月度审查，跟踪最新进展
贡献: 欢迎提交 PR 补充新资源

大语言模型 (LLM) 资源精华 ​

📊 资源概览 ​

📚 基础理论 ​

⭐⭐⭐ 必读论文 ​

⭐⭐ 综述论文 ​

⭐⭐ 教程课程 ​

🏗️ 模型架构 ​

⭐⭐⭐ 开源基础模型 ​

⭐⭐ 专用模型 ​

⭐⭐ 多模态模型 ​

🛠️ 应用开发 ​

⭐⭐⭐ 开发框架 ​

⭐⭐ Agent 框架 ​

⭐⭐ RAG 工具 ​

📝 数据集 ​

⭐⭐⭐ 预训练语料 ​

⭐⭐ 指令微调数据 ​

⭐⭐ 评估基准 ​

🔧 工具库 ​

⭐⭐⭐ 训练工具 ​

⭐⭐⭐ 推理优化 ​

⭐⭐ 微调工具 ​

⭐⭐ 量化工具 ​

📊 评估与监控 ​

⭐⭐⭐ 评估框架 ​

⭐⭐ 监控工具 ​

🚀 部署方案 ​

⭐⭐⭐ 云服务 ​

⭐⭐ 自部署 ​

💻 硬件要求 ​

训练硬件 ​

推理硬件 ​

🎯 学习路径 ​

入门路径 (0-3 个月) ​

进阶路径 (3-9 个月) ​

高级路径 (9-18 个月) ​

📈 技术趋势 (2024-2026) ​

模型趋势 ​

技术趋势 ​

应用趋势 ​

🎓 社区资源 ​

⭐⭐⭐ 核心社区 ​

⭐⭐ 资讯渠道 ​

💡 最佳实践 ​

模型选择 ​

微调策略 ​

评估流程 ​

大语言模型 (LLM) 资源精华

📊 资源概览

📚 基础理论

⭐⭐⭐ 必读论文

⭐⭐ 综述论文

⭐⭐ 教程课程

🏗️ 模型架构

⭐⭐⭐ 开源基础模型

⭐⭐ 专用模型

⭐⭐ 多模态模型

🛠️ 应用开发

⭐⭐⭐ 开发框架

⭐⭐ Agent 框架

⭐⭐ RAG 工具

📝 数据集

⭐⭐⭐ 预训练语料

⭐⭐ 指令微调数据

⭐⭐ 评估基准

🔧 工具库

⭐⭐⭐ 训练工具

⭐⭐⭐ 推理优化

⭐⭐ 微调工具

⭐⭐ 量化工具

📊 评估与监控

⭐⭐⭐ 评估框架

⭐⭐ 监控工具

🚀 部署方案

⭐⭐⭐ 云服务

⭐⭐ 自部署

💻 硬件要求

训练硬件

推理硬件

🎯 学习路径

入门路径 (0-3 个月)

进阶路径 (3-9 个月)

高级路径 (9-18 个月)

📈 技术趋势 (2024-2026)

模型趋势

技术趋势

应用趋势

🎓 社区资源

⭐⭐⭐ 核心社区

⭐⭐ 资讯渠道

💡 最佳实践

模型选择

微调策略

评估流程