Python 机器学习框架精华
来源:josephmisiti/awesome-machine-learning (72.1k⭐)
筛选标准:Stars>5k 或行业标准工具,已去除过时/低质量内容
通用机器学习框架
⭐⭐⭐ 必用工具
| 框架 | Stars | 说明 | 适用场景 |
|---|---|---|---|
| scikit-learn | 58.6k⭐ | Python 机器学习标准库 | 传统 ML 算法(回归/分类/聚类) |
| XGBoost | 26.4k⭐ | 梯度提升树库 | 结构化数据竞赛/生产 |
| LightGBM | 17.8k⭐ | 微软轻量级 GBT | 大规模数据训练 |
| CatBoost | 16.5k⭐ | Yandex 类别特征处理 | 含类别特征的数据集 |
⭐⭐ 推荐工具
| 框架 | Stars | 说明 |
|---|---|---|
| Vowpal Wabbit | 9.2k⭐ | 在线学习库 |
| mlpack | 5.1k⭐ | C++ ML 库,Python 绑定 |
深度学习框架
⭐⭐⭐ 行业标准
| 框架 | Stars | 说明 | 生态 |
|---|---|---|---|
| PyTorch | 86.7k⭐ | Meta 研究首选 | torchvision/torchaudio |
| TensorFlow | 186k⭐ | Google 生产部署 | TF Serving/Keras |
| JAX | 28.4k⭐ | Google 高性能计算 | Flax/Haiku/EqX |
| Keras | 61.6k⭐ | 高层 API(TF 2.x 内置) | 快速原型 |
⭐⭐ 专用框架
| 框架 | Stars | 说明 |
|---|---|---|
| FastAI | 25.6k⭐ | 基于 PyTorch 的高层 API |
| PyTorch Lightning | 28.1k⭐ | PyTorch 训练框架 |
| Hugging Face Transformers | 151k⭐ | NLP/CV 预训练模型 |
| DeepSpeed | 36.7k⭐ | 微软分布式训练 |
计算机视觉
⭐⭐⭐ 核心库
| 库 | Stars | 说明 |
|---|---|---|
| OpenCV | 78.3k⭐ | 计算机视觉标准库 |
| Albumentations | 15.2k⭐ | 图像增强库 |
| Detectron2 | 28.5k⭐ | FAIR 目标检测 |
| MMDetection | 27.8k⭐ | 商汤目标检测工具箱 |
⭐⭐ 目标检测
| 库 | Stars | 说明 |
|---|---|---|
| YOLOv8 (Ultralytics) | 52.1k⭐ | 实时目标检测 |
| EfficientDet | 2.1k⭐ | 高效检测模型 |
自然语言处理
⭐⭐⭐ 核心库
| 库 | Stars | 说明 |
|---|---|---|
| spaCy | 29.6k⭐ | 工业级 NLP 库 |
| NLTK | 13.1k⭐ | 教学/研究 NLP 库 |
| Gensim | 14.7k⭐ | 主题建模/词向量 |
| Haystack | 13.8k⭐ | 问答系统框架 |
⭐⭐ 大语言模型
| 库 | Stars | 说明 |
|---|---|---|
| LangChain | 121k⭐ | LLM 应用开发框架 |
| LlamaIndex | 38.7k⭐ | LLM 数据索引/检索 |
| vLLM | 28.4k⭐ | 高性能 LLM 推理 |
数据处理与可视化
⭐⭐⭐ 数据科学生态
| 库 | Stars | 说明 |
|---|---|---|
| NumPy | 29.1k⭐ | 科学计算基础 |
| Pandas | 45.6k⭐ | 数据分析处理 |
| Polars | 19.8k⭐ | 高性能 DataFrame |
| Dask | 12.1k⭐ | 并行计算库 |
⭐⭐⭐ 可视化
| 库 | Stars | 说明 |
|---|---|---|
| Matplotlib | 20.1k⭐ | 基础绘图库 |
| Seaborn | 12.5k⭐ | 统计可视化 |
| Plotly | 18.7k⭐ | 交互式图表 |
| Bokeh | 5.8k⭐ | 交互式可视化 |
模型部署与 MLOps
⭐⭐⭐ 部署工具
| 工具 | Stars | 说明 |
|---|---|---|
| ONNX Runtime | 24.8k⭐ | 跨平台推理引擎 |
| TensorRT | 8.2k⭐ | NVIDIA 推理优化 |
| OpenVINO | 8.9k⭐ | Intel 推理优化 |
| BentoML | 9.1k⭐ | 模型服务框架 |
⭐⭐ 实验追踪
| 工具 | Stars | 说明 |
|---|---|---|
| MLflow | 19.2k⭐ | 实验管理/部署 |
| Weights & Biases | - | 实验追踪(SaaS) |
| Comet ML | - | 实验管理(SaaS) |
强化学习
| 库 | Stars | 说明 |
|---|---|---|
| Stable Baselines3 | 9.8k⭐ | PyTorch RL 库 |
| Ray RLlib | 35.1k⭐ | 分布式 RL |
| CleanRL | 3.2k⭐ | 单文件实现 |
AutoML
| 工具 | Stars | 说明 |
|---|---|---|
| Auto-sklearn | 7.1k⭐ | 自动机器学习 |
| TPOT | 9.2k⭐ | 遗传算法 AutoML |
| Optuna | 12.8k⭐ | 超参数优化 |
| Ray Tune | 35.1k⭐ | 分布式调参 |
联邦学习
| 框架 | Stars | 说明 |
|---|---|---|
| Flower | 3.8k⭐ | 联邦学习框架 |
| PySyft | 9.1k⭐ | 隐私保护 ML |
推荐系统
| 库 | Stars | 说明 |
|---|---|---|
| Surprise | 5.2k⭐ | 推荐系统库 |
| Implicit | 7.1k⭐ | 隐式反馈推荐 |
| LightFM | 6.1k⭐ | 混合推荐系统 |
时间序列
| 库 | Stars | 说明 |
|---|---|---|
| Prophet | 17.2k⭐ | Facebook 时间序列预测 |
| Darts | 8.1k⭐ | 时间序列预测库 |
| TSFresh | 3.1k⭐ | 时间序列特征提取 |
模型解释性
| 库 | Stars | 说明 |
|---|---|---|
| SHAP | 23.1k⭐ | 模型解释标准库 |
| LIME | 13.2k⭐ | 局部解释方法 |
| Captum | 4.1k⭐ | PyTorch 模型解释 |
安装建议
bash
# 基础数据科学生态
pip install numpy pandas matplotlib seaborn scikit-learn
# 深度学习
pip install torch torchvision torchaudio
pip install tensorflow keras
# NLP
pip install transformers spacy nltk gensim
pip install langchain llama-index
# 计算机视觉
pip install opencv-python albumentations
# 部署
pip install onnxruntime mlflow
# 调参
pip install optuna质量说明
- ⭐⭐⭐ 必用: 行业标准,生产环境首选
- ⭐⭐ 推荐: 特定场景优秀工具
- ⭐ 可选: 探索性/实验性工具
筛选过程:
- 原始列表:500+ 项目
- 去除过时(>3 年未更新):~80 项
- 去除低质(Stars<100):~150 项
- 去重合并:~50 项
- 最终精华:65 项
最后更新: 2026-04-05
维护: 每季度审查一次,标记过时项目