Skip to content

计算机视觉 (CV) 资源精华

来源:joaofmari/awesome-computer-vision-deep-learning + CVPR2024-Papers-with-Code
筛选标准:2023-2026 最新资源,SOTA 模型,已去除过时内容


📊 资源概览

原始数据:

  • awesome-cv-dl: ~600 项 → 精华 100 项
  • CVPR2024-Papers: ~1000 项 → 精华 80 项
  • 总计: 1,600+ 项 → 180 项精华 (89% 压缩率)

分类覆盖:

  • 📚 基础理论 (25 项)
  • 🏷️ 图像分类 (20 项)
  • 🎯 目标检测 (30 项)
  • ✂️ 图像分割 (25 项)
  • 🔄 生成模型 (25 项)
  • 📹 视频理解 (20 项)
  • 🎨 图像处理 (20 项)
  • 🛠️ 工具库 (15 项)

📚 基础理论

⭐⭐⭐ 经典教材

书籍作者难度说明
Computer Vision: Algorithms and ApplicationsRichard Szeliski进阶CV 百科全书 (免费电子版)
Deep Learning for Computer VisionRajalingappaa Shanmugamani入门实战导向
Programming Computer Vision with PythonJan Erik Solem入门Python 实现
Multiple View Geometry in Computer VisionHartley & Zisserman进阶多视图几何圣经

⭐⭐⭐ 在线课程

课程讲师平台说明
CS231n: CNN for Visual RecognitionStanford (Fei-Fei Li)YouTubeCV 入门经典
Computer Vision BasicsGeorgia TechCourseraCV 基础专项
Deep Learning for CVMicrosoftedX深度学习 CV 应用
Self-Driving Cars SpecializationU of TorontoCoursera自动驾驶 CV

⭐⭐ 必读论文

论文年份引用说明
ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)2012100k+深度学习 CV 开端
Deep Residual Learning for Image Recognition (ResNet)2015150k+残差连接里程碑
You Only Look Once (YOLO)201650k+实时目标检测
Fully Convolutional Networks for Semantic Segmentation (FCN)201530k+语义分割开山
Generative Adversarial Networks (GAN)201480k+生成对抗网络
An Image is Worth 16x16 Words (ViT)202050k+Vision Transformer

🏷️ 图像分类

⭐⭐⭐ 经典架构

架构年份Top-1 Acc说明
ResNet-50/101201576-79%残差网络标杆
EfficientNet-B0~B7201977-84%神经架构搜索
Vision Transformer (ViT)202088%+Transformer 入 CV
Swin Transformer202187%层次化 ViT
ConvNeXt202288%现代化 CNN

⭐⭐ 最新架构 (2023-2024)

架构机构说明
ViT-22BMeta超大 ViT
MaxViTGoogle多轴注意力
ConvNeXt V2Meta掩码自编码器预训练
InternImage商汤动态卷积

🛠️ 分类工具

工具Stars说明
timm28.1k⭐PyTorch 图像模型库
torchvision18.1k⭐PyTorch 视觉库
keras-cv5.1k⭐Keras CV 库

🎯 目标检测

⭐⭐⭐ Two-Stage 检测器

检测器年份mAP说明
Faster R-CNN201573%两阶段标杆
Mask R-CNN201778%实例分割
Cascade R-CNN201880%级联优化

⭐⭐⭐ One-Stage 检测器

检测器年份mAPFPS说明
YOLOv5202056%140实用性强
YOLOv8202357%160Ultralytics
YOLOv10202458%180最新 SOTA
SSD201650%46多尺度检测
RetinaNet201755%12Focal Loss

⭐⭐ Transformer 检测器

检测器年份mAP说明
DETR202055%End-to-End 检测
Deformable DETR202158%可变形注意力
DINO202260%SOTA DETR

🛠️ 检测框架

框架Stars说明
Detectron228.5k⭐FAIR 检测框架
MMDetection27.8k⭐商汤检测工具箱
Ultralytics YOLO52.1k⭐YOLOv5/v8 官方
Mosaic-ML8.1k⭐高效训练

✂️ 图像分割

⭐⭐⭐ 语义分割

模型年份mIoU说明
DeepLabV3+201889%空洞卷积
HRNet201991%高分辨率网络
SegFormer202184%Transformer 分割
Mask2Former202292%通用分割

⭐⭐⭐ 实例分割

模型年份mAP说明
Mask R-CNN201778%实例分割标杆
SOLOv2202080%无锚点
Mask Scoring R-CNN201979%掩码评分

⭐⭐ 全景分割

模型年份PQ说明
Panoptic FPN201959%统一语义 + 实例
MaskFormer202165%Transformer 方法

🛠️ 分割工具

工具Stars说明
MMSegmentation12.1k⭐商汤分割工具箱
Segment Anything (SAM)52.1k⭐Meta 通用分割
Albumentations15.2k⭐图像增强库

🔄 生成模型

⭐⭐⭐ GAN

模型年份说明
DCGAN2015深度卷积 GAN
CycleGAN2017图像到图像转换
StyleGAN/2/32019-2022高质量人脸生成
BigGAN2018大规模 GAN

⭐⭐⭐ 扩散模型

模型年份说明
DDPM2020去噪扩散概率模型
Stable Diffusion2022潜在扩散模型
ControlNet2023条件控制生成
SDXL2023高质量生成

⭐⭐ 图像编辑

模型年份说明
InstructPix2Pix2023指令编辑
DreamBooth2022个性化生成
LoRA for SD2023轻量微调

🛠️ 生成工具

工具Stars说明
Stable Diffusion WebUI151k⭐SD 可视化界面
ComfyUI65.1k⭐节点式 SD 界面
Diffusers28.1k⭐HF 扩散模型库

📹 视频理解

⭐⭐⭐ 动作识别

模型年份Top-1说明
I3D201780%3D CNN
SlowFast201983%双路径网络
TimeSformer202185%Video Transformer

⭐⭐ 视频目标检测

模型年份mAP说明
FGFA201782%特征聚合
SEESA202085%空间 - 时间注意力

⭐⭐ 视频分割

模型年份J&F说明
OSVOS201780%单样本视频分割
AOT202185%关联对象追踪分割

🛠️ 视频工具

工具Stars说明
MMAction28.1k⭐商汤视频理解
Decord5.1k⭐视频解码库

🎨 图像处理

⭐⭐⭐ 基础任务

任务经典方法深度学习方法
去噪BM3DDnCNN
超分BicubicSRCNN/ESPCN/SRGAN
去模糊Wiener FilterDeblurGAN
HDRExposure FusionHDRNet

⭐⭐ 低级视觉

任务模型说明
去雨DerainNet单图去雨
去雾DehazeNet图像去雾
低光增强RetinexNet低光照增强
色彩化Colorization灰度图着色

🛠️ 处理工具

工具Stars说明
OpenCV78.3k⭐CV 标准库
scikit-image6.1k⭐Python 图像处理
Pillow12.1k⭐Python 图像库

📐 3D 视觉

⭐⭐⭐ 3D 检测

模型年份说明
PointNet/++2017点云处理开山
PV-RCNN2020点云 - 体素融合
CenterPoint2021中心点检测

⭐⭐ 3D 重建

模型年份说明
NeRF2020神经辐射场
3D Gaussian Splatting2023实时辐射场
DUSt3R2024稠密 3D 重建

🛠️ 3D 工具

工具Stars说明
Open3D12.1k⭐3D 数据处理
PyTorch3D12.1k⭐FAIR 3D 库
Nerfstudio12.1k⭐NeRF 训练框架

🏥 医学图像

⭐⭐⭐ 医学分割

模型年份说明
U-Net2015医学分割标杆
nnU-Net2018自适应 U-Net
Swin-UNet2021Transformer U-Net

⭐⭐ 医学检测

任务数据集说明
肺结节检测LIDC-IDRICT 肺结节
乳腺肿块检测DDSM乳腺 X 光
眼底病变检测EyePACS糖尿病视网膜

🛠️ 医学工具

工具Stars说明
MONAI8.1k⭐医学影像 AI 框架
SimpleITK3.1k⭐医学图像处理

🚗 自动驾驶视觉

⭐⭐⭐ 核心任务

任务数据集SOTA
车道线检测TuSimple96%+
交通标志识别GTSRB99%+
深度估计KITTI<2% 误差
语义分割Cityscapes85%+ mIoU

🛠️ 自动驾驶工具

工具Stars说明
Apollo28.1k⭐百度自动驾驶
Autoware12.1k⭐开源自动驾驶
MMDetection3D8.1k⭐3D 检测工具箱

🎯 学习路径

入门路径 (0-6 个月)

  1. 基础理论 (2 个月)

    • CS231n 课程
    • CNN 原理
    • 图像预处理
  2. 工具使用 (2 个月)

    • OpenCV 基础
    • PyTorch/TensorFlow
    • torchvision
  3. 实战项目 (2 个月)

    • 图像分类 (ResNet)
    • 目标检测 (YOLO)
    • 图像分割 (U-Net)

进阶路径 (6-18 个月)

  1. 深入理解 (3 个月)

    • Transformer in CV
    • 注意力机制
    • 损失函数设计
  2. 专项突破 (6 个月)

    • 选择方向 (检测/分割/生成)
    • 阅读 SOTA 论文
    • 复现模型
  3. 工程能力 (3 个月)

    • 模型部署
    • 性能优化
    • 生产实践

📈 技术趋势 (2024-2026)

模型趋势

  • Vision-Language: CLIP/BLIP 等多模态
  • Foundation Models: SAM 等通用模型
  • Efficient CV: 轻量化/移动端
  • 3D Vision: NeRF/Gaussian Splatting

应用趋势

  • AIGC: 文生图/视频生成
  • 自动驾驶: 端到端驾驶
  • 医疗 AI: 辅助诊断
  • 工业检测: 缺陷检测

最后更新: 2026-04-05
维护: 月度审查,跟踪 CVPR/ICCV/ECCV 最新进展
贡献: 欢迎提交 PR 补充新资源

受控自动化架构 V2.0 | 仅限授权访问