ML 数据集精华指南
来源:josephmisiti/awesome-machine-learning (72.1k⭐)
筛选标准:经典数据集 | 免费开放 | 文档完善
📊 入门经典(⭐⭐⭐)
1. Iris (鸢尾花)
- 用途: 分类任务入门
- 样本: 150 条
- 特征: 4 个(花萼/花瓣尺寸)
- 类别: 3 类
- 获取:
sklearn.datasets.load_iris() - 适合: Hello World 级分类
2. MNIST (手写数字)
- 用途: 图像分类入门
- 样本: 70,000 张 (28x28 灰度)
- 类别: 10 类 (0-9)
- 获取:
tf.keras.datasets.mnist/torchvision.datasets.MNIST - 适合: CNN 入门、模型对比
3. Titanic (泰坦尼克)
- 用途: 二分类/特征工程
- 样本: 891 条(训练)
- 特征: 12 个(年龄/性别/舱位等)
- 平台: Kaggle
- 链接: https://kaggle.com/c/titanic
- 适合: Kaggle 入门、特征工程练习
4. Boston Housing (波士顿房价)
- 用途: 回归任务
- 样本: 506 条
- 特征: 13 个
- 获取:
sklearn.datasets.load_boston()⚠️ 已弃用 - 替代:
sklearn.datasets.fetch_california_housing() - 适合: 线性回归、决策树
5. Wine (葡萄酒)
- 用途: 多分类/聚类
- 样本: 178 条
- 特征: 13 个(化学成分)
- 类别: 3 类
- 获取:
sklearn.datasets.load_wine() - 适合: PCA 降维、聚类分析
🖼️ 计算机视觉(⭐⭐)
图像分类
| 数据集 | 样本数 | 图像尺寸 | 类别 | 用途 |
|---|---|---|---|---|
| CIFAR-10 | 60k | 32x32 彩色 | 10 | 入门 CNN |
| CIFAR-100 | 60k | 32x32 彩色 | 100 | 细粒度分类 |
| ImageNet | 14M | 可变 | 1000 | 预训练/基准 |
| Fashion-MNIST | 70k | 28x28 灰度 | 10 | MNIST 替代 |
目标检测
| 数据集 | 图像数 | 类别 | 用途 |
|---|---|---|---|
| PASCAL VOC | 11k | 20 | 经典基准 |
| COCO | 330k | 80 | 主流基准 |
| Open Images | 9M | 500+ | 大规模检测 |
链接
- ImageNet: https://image-net.org
- COCO: https://cocodataset.org
- PASCAL VOC: http://host.robots.ox.ac.uk/pascal/VOC
📝 自然语言处理(⭐⭐)
文本分类
| 数据集 | 样本数 | 类别 | 用途 |
|---|---|---|---|
| IMDB Reviews | 50k | 2 | 情感分析 |
| AG News | 120k | 4 | 新闻分类 |
| DBpedia | 560k | 14 | 多分类 |
| Yelp Reviews | 500k | 2/5 | 情感/评分 |
机器翻译
| 数据集 | 语言对 | 句对 | 用途 |
|---|---|---|---|
| WMT | 多语言 | 百万级 | 主流基准 |
| IWSLT | 多语言 | 十万级 | 小语种 |
| TED Talks | 多语言 | 200k | 演讲翻译 |
问答系统
| 数据集 | 问题数 | 类型 | 用途 |
|---|---|---|---|
| SQuAD | 100k+ | 阅读理解 | 主流基准 |
| HotpotQA | 113k | 多跳推理 | 复杂推理 |
| Natural Questions | 300k | 开放域 | Google 出品 |
链接
- SQuAD: https://rajpurkar.github.io/SQuAD-explorer
- WMT: http://statmt.org/wmt20
- HuggingFace Datasets: https://huggingface.co/datasets
📈 表格数据(⭐⭐)
Kaggle 经典
| 数据集 | 样本数 | 任务 | 特点 |
|---|---|---|---|
| House Prices | 1460 | 回归 | 特征工程练习 |
| Credit Card Fraud | 284k | 二分类 | 不平衡数据 |
| Store Sales | 3M+ | 时序预测 | 零售销量 |
| Tabular Playground | 100k+ | 多任务 | 月度挑战 |
UCI 机器学习库
- 链接: https://archive.ics.uci.edu
- 数据集: 500+ 个
- 特点: 经典、干净、文档完善
- 推荐: Adult/Covertype/Heart Disease
🔊 音频数据(⭐)
| 数据集 | 时长 | 用途 | 特点 |
|---|---|---|---|
| LibriSpeech | 1000h | 语音识别 | 英文有声书 |
| Common Voice | 30000h+ | 语音识别 | 多语言、众包 |
| GTZAN | 300 首 | 音乐分类 | 流派分类 |
| AudioSet | 5800h | 音频事件 | Google 出品 |
链接
- Common Voice: https://commonvoice.mozilla.org
- LibriSpeech: https://www.openslr.org/12
🎬 视频数据(⭐)
| 数据集 | 视频数 | 用途 | 特点 |
|---|---|---|---|
| UCF101 | 13k | 动作识别 | 101 类动作 |
| HMDB51 | 7k | 动作识别 | 51 类动作 |
| Kinetics | 500k | 动作识别 | YouTube 视频 |
| ActivityNet | 20k | 活动检测 | 长视频 |
🏥 医疗数据(⭐)
| 数据集 | 类型 | 用途 | 获取方式 |
|---|---|---|---|
| MIMIC-III | ICU 数据 | 临床预测 | 申请访问 |
| CheXpert | X 光片 | 胸片诊断 | 公开 |
| ISIC | 皮肤镜 | 皮肤癌检测 | 公开 |
| BraTS | MRI | 脑肿瘤分割 | 公开 |
链接
📦 数据获取工具
Python 库
python
# scikit-learn
from sklearn import datasets
datasets.load_iris()
# HuggingFace
from datasets import load_dataset
dataset = load_dataset('imdb')
# torchvision
from torchvision import datasets
datasets.MNIST(root='./data', download=True)
# tensorflow
import tensorflow as tf
tf.keras.datasets.fashion_mnist.load_data()数据平台
| 平台 | 特点 | 链接 |
|---|---|---|
| Kaggle | 竞赛 + 数据集 | kaggle.com/datasets |
| HuggingFace | NLP 为主 | huggingface.co/datasets |
| UCI | 经典干净 | archive.ics.uci.edu |
| Google Dataset Search | 搜索引擎 | datasetsearch.research.google.com |
| AWS Open Data | 大规模 | registry.opendata.aws |
🔗 相关资源
最后更新: 2026-04-05
维护者: nanobot
审查周期: 季度审查(检查链接有效性/新数据集)