代码示例 / 计算机视觉

计算机视觉

图像分类

V3
从零开始的图像分类
V3
简单的 MNIST 卷积神经网络
V3
使用 EfficientNet 进行微调的图像分类
V3
使用视觉 Transformer 进行图像分类
V3
使用基于注意力的深度多实例学习进行分类
V3
使用现代 MLP 模型进行图像分类
V3
一种面向移动设备的基于 Transformer 的图像分类模型
V3
在 TPU 上进行肺炎分类
V3
紧凑型卷积 Transformer
V3
使用 ConvMixer 进行图像分类
V3
使用 EANet(外部注意力 Transformer)进行图像分类
V3
卷积神经网络
V3
使用 Perceiver 进行图像分类
V3
使用 Reptile 进行少样本学习
V3
使用 SimCLR 进行对比预训练的半监督图像分类
V3
使用 Swin Transformer 进行图像分类
V2
在小型数据集上训练视觉 Transformer
V2
一种没有注意力的视觉 Transformer
V3
使用全局上下文视觉 Transformer 进行图像分类
V3
使用 BigTransfer (BiT) 进行图像分类

图像分割

V3
使用 U-Net 类架构进行图像分割
V3
使用 DeepLabV3+ 进行多类语义分割
V2
使用 BASNet 进行高精度边界分割
V3
使用可组合的全卷积网络进行图像分割

目标检测

V2
使用 RetinaNet 进行目标检测
V3
使用迁移学习进行关键点检测
V3
使用视觉 Transformer 进行目标检测

3D

V3
来自 CT 扫描的 3D 图像分类
V2
单目深度估计
V3
使用 NeRF 的 3D 体积渲染
V3
使用 PointNet 的点云分割
V3
点云分类

OCR

V3
用于读取验证码的 OCR 模型
V2
手写识别

图像增强

V3
用于图像降噪的卷积自编码器
V3
使用 MIRNet 的弱光图像增强
V3
使用高效子像素 CNN 的图像超分辨率
V2
用于单图像超分辨率的增强深度残差网络
V3
用于弱光图像增强的 Zero-DCE

数据增强

V3
用于图像分类的 CutMix 数据增强
V3
用于图像分类的 MixUp 增强
V3
用于图像分类以提高鲁棒性的 RandAugment

图像 & 文本

V3
图像字幕
V2
使用双编码器的自然语言图像搜索

视觉模型的可解释性

V3
可视化卷积神经网络学习的内容
V3
使用集成梯度进行模型可解释性
V3
研究 Vision Transformer 表示
V3
Grad-CAM 类激活可视化

图像相似性搜索

V2
近似重复图像搜索
V3
语义图像聚类
V3
使用具有对比损失的孪生网络进行图像相似性估计
V3
使用具有三重损失的孪生网络进行图像相似性估计
V3
用于图像相似性搜索的度量学习
V2
使用 TensorFlow Similarity 的图像相似性搜索的度量学习
V3
使用 NNCLR 的自监督对比学习

视频

V3
使用 CNN-RNN 架构的视频分类
V3
使用卷积 LSTM 的下一帧视频预测
V3
使用 Transformer 的视频分类
V3
视频视觉 Transformer

性能配方

V3
用于改善训练性能的梯度集中
V3
在 Vision Transformer 中学习标记化
V3
知识蒸馏
V3
FixRes:修复训练-测试分辨率差异
V3
具有 LayerScale 的类注意图像 Transformer
V3
使用聚合注意增强卷积神经网络
V3
学习调整大小

其他

V2
使用 AdaMatch 的半监督和域适应
V2
用于对比 SSL 的 Barlow Twins
V2
具有监督的一致性训练
V2
蒸馏 Vision Transformer
V2
焦点调制:自注意力的替代品
V2
使用前馈算法进行图像分类
V2
使用自编码器的掩蔽图像建模
V2
具有 🤗Transformers 的 Segment Anything Model
V2
使用 SegFormer 和 Hugging Face Transformers 的语义分割
V2
使用 SimSiam 的自监督对比学习
V2
监督对比学习
V2
当递归遇到 Transformer
V2
使用 YOLOV8 和 KerasCV 的高效目标检测