计算机视觉 - Keras 机器学习库

► 代码示例 / 计算机视觉

计算机视觉

图像分类

从零开始实现图像分类

简单的 MNIST 卷积网络

通过 EfficientNet 微调实现图像分类

使用 Vision Transformer 进行图像分类

使用基于注意力的深度多示例学习进行分类

使用现代 MLP 模型进行图像分类

一个适用于移动设备的基于 Transformer 的图像分类模型

在 TPU 上进行肺炎分类

紧凑型卷积 Transformer

使用 ConvMixer 进行图像分类

使用 EANet（外部注意力 Transformer）进行图像分类

对合神经网络

使用 Perceiver 进行图像分类

使用 Reptile 进行小样本学习

使用 SimCLR 对比预训练实现半监督图像分类

使用 Swin Transformer 进行图像分类

在小数据集上训练 Vision Transformer

一个没有注意力的 Vision Transformer

使用全局上下文 Vision Transformer 进行图像分类

当循环网络遇上 Transformer

使用 BigTransfer (BiT) 进行图像分类

图像分割

使用类 U-Net 架构进行图像分割

使用 DeepLabV3+ 进行多类别语义分割

使用 BASNet 进行高精度边界分割

使用可组合的全卷积网络进行图像分割

目标检测

使用 RetinaNet 进行目标检测

使用迁移学习进行关键点检测

使用 Vision Transformer 进行目标检测

3D

基于 CT 扫描的 3D 图像分类

单目深度估计

使用 NeRF 进行 3D 体积渲染

使用 PointNet 进行点云分割

OCR

用于读取验证码的 OCR 模型

手写体识别

图像增强

用于图像去噪的卷积自动编码器

使用 MIRNet 进行低光图像增强

使用高效亚像素 CNN 实现图像超分辨率

用于单图像超分辨率的增强型深度残差网络

用于低光图像增强的 Zero-DCE

数据增强

用于图像分类的 CutMix 数据增强

用于图像分类的 MixUp 数据增强

用于图像分类以提高鲁棒性的 RandAugment

图像 & 文本

图像字幕生成

使用双编码器的自然语言图像搜索

视觉模型可解释性

可视化卷积网络的学习内容

使用积分梯度实现模型可解释性

探究 Vision Transformer 的表示

Grad-CAM 类激活可视化

图像相似度搜索

近似重复图像搜索

语义图像聚类

使用带对比损失的孪生网络进行图像相似度估计

使用带三元组损失的孪生网络进行图像相似度估计

用于图像相似度搜索的度量学习

使用 TensorFlow Similarity 进行图像相似度搜索的度量学习

使用 NNCLR 进行自监督对比学习

视频

使用 CNN-RNN 架构进行视频分类

使用卷积 LSTM 进行下一帧视频预测

使用 Transformer 进行视频分类

视频 Vision Transformer

性能实践

用于提升训练性能的梯度中心化

在 Vision Transformer 中学习如何分词

FixRes：修正训练-测试分辨率差异

带 LayerScale 的类注意力图像 Transformer

使用聚合注意力增强卷积网络

学习调整尺寸

其他

使用 AdaMatch 进行半监督学习和领域自适应

用于对比自监督学习的 Barlow Twins

带监督的一致性训练

蒸馏 Vision Transformer

焦点调制：自注意力的替代方案

使用前向-前向算法进行图像分类

使用自编码器进行掩码图像建模

使用 SimSiam 进行自监督对比学习

监督对比学习

使用 YOLOV8 和 KerasCV 进行高效目标检测