Skip to content

ML 数据集精华指南

来源:josephmisiti/awesome-machine-learning (72.1k⭐)
筛选标准:经典数据集 | 免费开放 | 文档完善


📊 入门经典(⭐⭐⭐)

1. Iris (鸢尾花)

  • 用途: 分类任务入门
  • 样本: 150 条
  • 特征: 4 个(花萼/花瓣尺寸)
  • 类别: 3 类
  • 获取: sklearn.datasets.load_iris()
  • 适合: Hello World 级分类

2. MNIST (手写数字)

  • 用途: 图像分类入门
  • 样本: 70,000 张 (28x28 灰度)
  • 类别: 10 类 (0-9)
  • 获取: tf.keras.datasets.mnist / torchvision.datasets.MNIST
  • 适合: CNN 入门、模型对比

3. Titanic (泰坦尼克)

  • 用途: 二分类/特征工程
  • 样本: 891 条(训练)
  • 特征: 12 个(年龄/性别/舱位等)
  • 平台: Kaggle
  • 链接: https://kaggle.com/c/titanic
  • 适合: Kaggle 入门、特征工程练习

4. Boston Housing (波士顿房价)

  • 用途: 回归任务
  • 样本: 506 条
  • 特征: 13 个
  • 获取: sklearn.datasets.load_boston() ⚠️ 已弃用
  • 替代: sklearn.datasets.fetch_california_housing()
  • 适合: 线性回归、决策树

5. Wine (葡萄酒)

  • 用途: 多分类/聚类
  • 样本: 178 条
  • 特征: 13 个(化学成分)
  • 类别: 3 类
  • 获取: sklearn.datasets.load_wine()
  • 适合: PCA 降维、聚类分析

🖼️ 计算机视觉(⭐⭐)

图像分类

数据集样本数图像尺寸类别用途
CIFAR-1060k32x32 彩色10入门 CNN
CIFAR-10060k32x32 彩色100细粒度分类
ImageNet14M可变1000预训练/基准
Fashion-MNIST70k28x28 灰度10MNIST 替代

目标检测

数据集图像数类别用途
PASCAL VOC11k20经典基准
COCO330k80主流基准
Open Images9M500+大规模检测

链接


📝 自然语言处理(⭐⭐)

文本分类

数据集样本数类别用途
IMDB Reviews50k2情感分析
AG News120k4新闻分类
DBpedia560k14多分类
Yelp Reviews500k2/5情感/评分

机器翻译

数据集语言对句对用途
WMT多语言百万级主流基准
IWSLT多语言十万级小语种
TED Talks多语言200k演讲翻译

问答系统

数据集问题数类型用途
SQuAD100k+阅读理解主流基准
HotpotQA113k多跳推理复杂推理
Natural Questions300k开放域Google 出品

链接


📈 表格数据(⭐⭐)

Kaggle 经典

数据集样本数任务特点
House Prices1460回归特征工程练习
Credit Card Fraud284k二分类不平衡数据
Store Sales3M+时序预测零售销量
Tabular Playground100k+多任务月度挑战

UCI 机器学习库


🔊 音频数据(⭐)

数据集时长用途特点
LibriSpeech1000h语音识别英文有声书
Common Voice30000h+语音识别多语言、众包
GTZAN300 首音乐分类流派分类
AudioSet5800h音频事件Google 出品

链接


🎬 视频数据(⭐)

数据集视频数用途特点
UCF10113k动作识别101 类动作
HMDB517k动作识别51 类动作
Kinetics500k动作识别YouTube 视频
ActivityNet20k活动检测长视频

🏥 医疗数据(⭐)

数据集类型用途获取方式
MIMIC-IIIICU 数据临床预测申请访问
CheXpertX 光片胸片诊断公开
ISIC皮肤镜皮肤癌检测公开
BraTSMRI脑肿瘤分割公开

链接


📦 数据获取工具

Python 库

python
# scikit-learn
from sklearn import datasets
datasets.load_iris()

# HuggingFace
from datasets import load_dataset
dataset = load_dataset('imdb')

# torchvision
from torchvision import datasets
datasets.MNIST(root='./data', download=True)

# tensorflow
import tensorflow as tf
tf.keras.datasets.fashion_mnist.load_data()

数据平台

平台特点链接
Kaggle竞赛 + 数据集kaggle.com/datasets
HuggingFaceNLP 为主huggingface.co/datasets
UCI经典干净archive.ics.uci.edu
Google Dataset Search搜索引擎datasetsearch.research.google.com
AWS Open Data大规模registry.opendata.aws

🔗 相关资源


最后更新: 2026-04-05
维护者: nanobot
审查周期: 季度审查(检查链接有效性/新数据集)

受控自动化架构 V2.0 | 仅限授权访问