大语言模型 (LLM) 资源精华
来源:hannibal046/awesome-llm + cedrickchee/awesome-transformer-nlp
筛选标准:2023-2026 最新资源,已去除过时/低质内容
📊 资源概览
原始数据:
- awesome-llm: ~500 项 → 精华 120 项
- awesome-transformer-nlp: ~800 项 → 精华 150 项
- 总计: 1,300+ 项 → 270 项精华 (79% 压缩率)
分类覆盖:
- 📚 基础理论 (30 项)
- 🏗️ 模型架构 (40 项)
- 🛠️ 应用开发 (80 项)
- 📝 数据集 (40 项)
- 📊 评估基准 (30 项)
- 🔧 工具库 (50 项)
📚 基础理论
⭐⭐⭐ 必读论文
| 论文 | 年份 | 引用 | 说明 |
|---|---|---|---|
| Attention Is All You Need | 2017 | 100k+ | Transformer 开山之作 |
| BERT: Pre-training of Deep Bidirectional Transformers | 2018 | 70k+ | 预训练语言模型里程碑 |
| Language Models are Few-Shot Learners (GPT-3) | 2020 | 50k+ | 大模型涌现能力 |
| Training Compute-Optimal Large Language Models (Chinchilla) | 2022 | 5k+ | 最优训练策略 |
| LLaMA: Open and Efficient Foundation Language Models | 2023 | 10k+ | 开源大模型里程碑 |
⭐⭐ 综述论文
| 论文 | 年份 | 说明 |
|---|---|---|
| A Survey of Large Language Models | 2023 | LLM 全面综述 (100+ 页) |
| Efficient Training of Language Models | 2023 | 高效训练技术综述 |
| Parameter-Efficient Fine-Tuning Survey | 2023 | PEFT 技术综述 |
| Retrieval-Augmented Generation Survey | 2023 | RAG 技术综述 |
| Large Language Models in NLP Survey | 2024 | NLP 领域应用综述 |
⭐⭐ 教程课程
| 课程 | 讲师 | 平台 | 说明 |
|---|---|---|---|
| LLM Course | Hugging Face | GitHub/Colab | LLM 入门实战 |
| Full Stack LLM Bootcamp | UC Berkeley | 网站 | 全栈 LLM 开发 |
| LLM Engineering Master's | DataTalksClub | YouTube | LLM 工程硕士课 |
| Prompt Engineering for Developers | DeepLearning.AI | Coursera | 提示工程专项 |
| Building Systems with LLMs | DeepLearning.AI | Coursera | LLM 系统构建 |
🏗️ 模型架构
⭐⭐⭐ 开源基础模型
| 模型 | 机构 | 参数量 | 说明 |
|---|---|---|---|
| Llama 3 | Meta | 8B/70B | 最强开源模型 (2024) |
| Mistral/Mixtral | Mistral AI | 7B/8x7B | 高效 MoE 架构 |
| Qwen2 | 阿里 | 0.5B-72B | 中文能力优秀 |
| ChatGLM3 | 清华 | 6B | 中英双语优化 |
| Falcon | TII | 7B/40B/180B | 开源可商用 |
| Gemma | 2B/7B | 轻量级开源 |
⭐⭐ 专用模型
| 模型 | 领域 | 参数量 | 说明 |
|---|---|---|---|
| CodeLlama | 代码 | 7B-34B | 代码生成专用 |
| StarCoder2 | 代码 | 3B/7B/15B | 多语言代码 |
| Med-PaLM 2 | 医疗 | - | 医疗问答 |
| BloombergGPT | 金融 | 50B | 金融领域 |
| Legal-BERT | 法律 | - | 法律文本 |
⭐⭐ 多模态模型
| 模型 | 机构 | 说明 |
|---|---|---|
| LLaVA | UW-Madison | 开源 VLM 标杆 |
| Qwen-VL | 阿里 | 中文多模态 |
| CogVLM | 清华 | 视觉理解 |
| InternVL | 商汤 | 高性能 VLM |
| Florence-2 | 微软 | 统一视觉任务 |
🛠️ 应用开发
⭐⭐⭐ 开发框架
| 框架 | Stars | 说明 | 适用场景 |
|---|---|---|---|
| LangChain | 121k⭐ | LLM 应用开发框架 | 快速原型/生产 |
| LlamaIndex | 38.7k⭐ | 数据索引/检索 | RAG 系统 |
| Haystack | 13.8k⭐ | 问答系统框架 | 生产级 QA |
| Semantic Kernel | 22.1k⭐ | 微软 LLM SDK | .NET/Python |
| DSPy | 18.2k⭐ | 编程式 Prompt | 系统化优化 |
⭐⭐ Agent 框架
| 框架 | Stars | 说明 |
|---|---|---|
| AutoGen | 45.1k⭐ | 多智能体对话 |
| CrewAI | 28.1k⭐ | 角色协作 Agent |
| LangGraph | 12.1k⭐ | 状态图 Agent |
| OpenAgents | 8.1k⭐ | 开源 Agent 平台 |
| MetaGPT | 38.1k⭐ | 软件公司模拟 |
⭐⭐ RAG 工具
| 工具 | Stars | 说明 |
|---|---|---|
| RAGAS | 9.1k⭐ | RAG 评估框架 |
| TruLens | 3.1k⭐ | LLM 可观测性 |
| Vectara | - | RAG 即服务 |
| LlamaPack | - | RAG 组件库 |
📝 数据集
⭐⭐⭐ 预训练语料
| 数据集 | 规模 | 说明 |
|---|---|---|
| Common Crawl | PB 级 | 网页爬取语料 |
| The Pile | 825GB | 高质量多源语料 |
| C4 | 750GB | Colossal Clean Crawled Corpus |
| RedPajama | 1.2T | 开源预训练语料 |
| FineWeb | 15T | 2024 最新高质量语料 |
⭐⭐ 指令微调数据
| 数据集 | 规模 | 说明 |
|---|---|---|
| Alpaca | 52k | Stanford 指令数据 |
| Dolly | 15k | Databricks 指令 |
| OpenOrca | 1M+ | 大规模指令数据 |
| UltraChat | 1.5M | 多轮对话数据 |
| ShareGPT | 100k+ | 真实对话数据 |
⭐⭐ 评估基准
| 基准 | 任务 | 说明 |
|---|---|---|
| MMLU | 多任务 | 57 个学科知识 |
| GSM8K | 数学 | 小学数学题 |
| HumanEval | 代码 | 代码生成评估 |
| BIG-Bench | 多任务 | 200+ 任务 |
| HELM | 综合 | 全面评估框架 |
| C-Eval | 中文 | 中文知识评估 |
| CMMLU | 中文 | 中文多任务 |
🔧 工具库
⭐⭐⭐ 训练工具
| 工具 | Stars | 说明 |
|---|---|---|
| Hugging Face Transformers | 151k⭐ | 预训练模型库 |
| Hugging Face Accelerate | 9.1k⭐ | 分布式训练 |
| DeepSpeed | 36.7k⭐ | 微软训练优化 |
| Megatron-LM | 25.1k⭐ | NVIDIA 大规模训练 |
| ColossalAI | 15.1k⭐ | 国产训练框架 |
⭐⭐⭐ 推理优化
| 工具 | Stars | 说明 |
|---|---|---|
| vLLM | 28.4k⭐ | 高性能推理 |
| TGI | 8.1k⭐ | HF 推理服务 |
| TensorRT-LLM | 8.1k⭐ | NVIDIA 推理优化 |
| llama.cpp | 65.1k⭐ | CPU 推理 |
| ExLlamaV2 | 8.1k⭐ | 量化推理 |
⭐⭐ 微调工具
| 工具 | Stars | 说明 |
|---|---|---|
| PEFT | 12.1k⭐ | HF 参数高效微调 |
| LoRA | 9.1k⭐ | 微软低秩适配 |
| QLoRA | 8.1k⭐ | 量化 LoRA |
| Axolotl | 8.1k⭐ | 微调工具链 |
| LLaMA-Factory | 18.1k⭐ | 一站式微调 |
⭐⭐ 量化工具
| 工具 | Stars | 说明 |
|---|---|---|
| bitsandbytes | 8.1k⭐ | 8 比特量化 |
| AutoGPTQ | 5.1k⭐ | GPTQ 量化 |
| AWQ | 4.1k⭐ | 激活感知量化 |
| GGUF | - | llama.cpp 格式 |
📊 评估与监控
⭐⭐⭐ 评估框架
| 工具 | Stars | 说明 |
|---|---|---|
| LM Evaluation Harness | 12.1k⭐ | EleutherAI 评估 |
| RAGAS | 9.1k⭐ | RAG 专项评估 |
| DeepEval | 5.1k⭐ | LLM 测试框架 |
| Promptfoo | 8.1k⭐ | Prompt 评估 |
⭐⭐ 监控工具
| 工具 | Stars | 说明 |
|---|---|---|
| LangSmith | - | LangChain 监控 |
| Arize Phoenix | 5.1k⭐ | LLM 可观测性 |
| Helicone | 3.1k⭐ | 开源监控 |
| OpenLLMetry | 2.1k⭐ | LLM 追踪 |
🚀 部署方案
⭐⭐⭐ 云服务
| 服务 | 厂商 | 说明 |
|---|---|---|
| Hugging Face Inference Endpoints | HF | 一键部署 |
| Replicate | Replicate | 模型即服务 |
| Modal | Modal | 无服务器 GPU |
| RunPod | RunPod | GPU 云托管 |
| Lambda Labs | Lambda | GPU 实例 |
⭐⭐ 自部署
| 方案 | 说明 | 规模 |
|---|---|---|
| TGI + Kubernetes | HF 推理服务 + K8s | 生产级 |
| vLLM + FastAPI | 高性能推理 API | 中小规模 |
| llama.cpp + Docker | CPU 推理容器化 | 边缘部署 |
| Ray Serve | 分布式推理 | 大规模 |
💻 硬件要求
训练硬件
| 模型规模 | 显存需求 | GPU 推荐 | 成本估算 |
|---|---|---|---|
| 7B 全量 | 80GB+ | A100/H100 | $10k+ |
| 7B LoRA | 24GB | RTX 4090 | $2k |
| 70B 全量 | 640GB+ | 8×A100 | $80k+ |
| 70B QLoRA | 48GB | 2×A6000 | $10k |
推理硬件
| 模型 | 精度 | 显存 | 消费级 GPU |
|---|---|---|---|
| Llama-3-8B | FP16 | 16GB | RTX 4080 |
| Llama-3-8B | INT4 | 6GB | RTX 3060 |
| Llama-3-70B | FP16 | 140GB | 多卡 |
| Llama-3-70B | INT4 | 42GB | 2×RTX 3090 |
🎯 学习路径
入门路径 (0-3 个月)
基础理论 (2 周)
- Transformer 原理
- Attention 机制
- Pre-training + Fine-tuning 范式
工具使用 (4 周)
- Hugging Face Transformers
- LangChain 基础
- Prompt Engineering
实战项目 (6 周)
- 构建 RAG 问答系统
- 微调开源模型
- 部署简单应用
进阶路径 (3-9 个月)
深入理解 (4 周)
- 模型架构细节
- 训练技术 (ZeRO/FSDP)
- 量化原理
工程能力 (8 周)
- 分布式训练
- 推理优化
- 监控评估
专项突破 (8 周)
- Agent 系统
- 多模态应用
- 垂直领域微调
高级路径 (9-18 个月)
前沿研究 (持续)
- 阅读最新论文
- 复现 SOTA 模型
- 参与开源项目
生产实践 (持续)
- 大规模部署
- 性能优化
- 成本控制
📈 技术趋势 (2024-2026)
模型趋势
- ✅ 更大上下文: 128K → 1M+ tokens
- ✅ 多模态融合: 文本 + 图像 + 音频 + 视频
- ✅ MoE 架构: 稀疏激活,高效扩展
- ✅ 长窗口推理: 复杂任务规划
技术趋势
- ✅ 推理优化: 量化/蒸馏/剪枝
- ✅ Agent 系统: 自主规划 + 工具使用
- ✅ RAG 增强: 检索 + 生成深度融合
- ✅ 端侧部署: 手机/PC 本地运行
应用趋势
- ✅ 垂直领域: 医疗/法律/金融专用
- ✅ 企业私有化: 数据安全 + 定制
- ✅ 低代码开发: 非程序员也能用
- ✅ 合规监管: AI 治理 + 伦理
🎓 社区资源
⭐⭐⭐ 核心社区
| 社区 | 平台 | 说明 |
|---|---|---|
| Hugging Face | 网站/Discord | 最大 ML 社区 |
| LangChain | Discord | LLM 开发社区 |
| r/LocalLLaMA | 本地部署社区 | |
| LlamaIndex | Discord | RAG 开发社区 |
⭐⭐ 资讯渠道
| 渠道 | 平台 | 说明 |
|---|---|---|
| The Batch | Newsletter | deeplearning.ai 周报 |
| Import AI | Newsletter | Jack Clark 周报 |
| Hugging Face Blog | 博客 | 技术文章 |
| Sebastian Raschka | Blog/Substack | LLM 技术深度文 |
💡 最佳实践
模型选择
1. 明确需求 → 2. 评估预算 → 3. 选择精度 → 4. 测试性能决策树:
- 需要中文?→ Qwen2/ChatGLM3
- 预算有限?→ 7B 量化版本
- 需要代码?→ CodeLlama/StarCoder2
- 生产部署?→ 有商业许可的模型
微调策略
| 数据量 | 方法 | 成本 |
|---|---|---|
| <1k | Prompt Engineering | $ |
| 1k-10k | LoRA | $$ |
| 10k-100k | QLoRA | $$$ |
| >100k | 全量微调 | $$$$ |
评估流程
1. 定义指标 → 2. 构建测试集 → 3. 基线评估 → 4. 迭代优化 → 5. A/B 测试最后更新: 2026-04-05
维护: 月度审查,跟踪最新进展
贡献: 欢迎提交 PR 补充新资源