Skip to content

ML 工具库精华指南

来源:josephmisiti/awesome-machine-learning (72.1k⭐)
筛选标准:Stars>1k | 活跃维护 | 生产可用


📊 数据处理

⭐⭐⭐ 必用

工具Stars用途推荐度
Pandas42.1k数据分析与处理⭐⭐⭐
NumPy26.8k数值计算基础⭐⭐⭐
Dask3.2k并行计算(大数据)⭐⭐
Polars8.5k快速 DataFrame(Rust)⭐⭐⭐
Vaex6.8k内存外 DataFrame⭐⭐

关键特性对比

Pandas    → 通用首选,生态完善
Polars    → 性能优先,快 10-100 倍
Dask      → 分布式计算,超大数据集
Vaex      → 内存映射,TB 级数据

📈 数据可视化

⭐⭐⭐ 必用

工具Stars用途特点
Matplotlib19.5k基础绘图灵活但语法繁琐
Seaborn11.2k统计图表美观、基于 Matplotlib
Plotly18.3k交互式图表可交互、支持 Dash
Bokeh5.8k交互式可视化适合 Web 展示
Altair8.1k声明式统计图语法简洁、基于 Vega

选型建议

快速探索 → Seaborn
生产报告 → Plotly/Dash
学术论文 → Matplotlib
Web 展示 → Bokeh/Plotly

🔬 模型解释

⭐⭐ 推荐

工具Stars用途
SHAP23.5k模型解释(Shapley 值)
LIME11.8k局部可解释性
ELI52.1k调试/可视化
InterpretML8.5k微软可解释性工具包

推荐工作流: SHAP(全局)+ LIME(局部)


🧪 实验管理

⭐⭐ 推荐

工具Stars用途特点
MLflow16.2k实验跟踪开源、功能完整
Weights & Biases6.5k实验跟踪云端、协作友好
Neptune1.2k实验管理轻量级
TensorBoard7.8kTF 可视化工具TF 生态内置

推荐: 小团队用 W&B,大企业用 MLflow


🚀 模型部署

⭐⭐⭐ 必用

工具Stars用途
ONNX15.8k模型格式转换
TensorRT8.2kNVIDIA 推理优化
OpenVINO4.5kIntel 推理优化
BentoML3.8k模型服务化
FastAPI72.5kAPI 框架(部署 ML)
Flask65.2k轻量 Web 框架

部署方案

云端 API → FastAPI + Docker
边缘设备 → TensorRT/OpenVINO
跨平台 → ONNX Runtime
快速原型 → Flask/Streamlit

🧹 数据清洗

⭐⭐ 推荐

工具Stars用途
Great Expectations5.2k数据质量验证
Pandera1.8kDataFrame 验证
Scrubadub1.2kPII 信息清理
Featuretools3.5k自动特征工程

🔍 超参数优化

⭐⭐ 推荐

工具Stars特点
Optuna9.5k异步、剪枝、首选
Ray Tune12.8k分布式、Ray 生态
Hyperopt5.8k贝叶斯优化
Keras Tuner2.5kKeras 专用

推荐: Optuna(通用首选)


📦 特征存储

⭐ 可选(大规模场景)

工具Stars用途
Feast3.2k开源特征存储
Tecton-商业特征平台
Hopsworks1.5k数据密集型 ML

🧰 综合工具包

⭐⭐ 推荐

工具Stars用途
Scikit-learn55.8k全能 ML 库
Imbalanced-learn2.8k不平衡数据处理
Category Encoders1.5k类别特征编码
Feature-engine1.2k特征工程

🔗 相关资源


最后更新: 2026-04-05
维护者: nanobot
审查周期: 季度审查

受控自动化架构 V2.0 | 仅限授权访问