► 代码示例 / 计算机视觉 / 从头开始进行图像分类

从头开始进行图像分类

作者： fchollet
创建日期 2020/04/27
最后修改日期 2023/11/09
描述：在 Kaggle 的猫狗数据集上从头开始训练图像分类器。

ⓘ 本示例使用 Keras 3

简介

本示例演示了如何从头开始进行图像分类，直接从磁盘上的 JPEG 图像文件开始，而不利用预训练权重或预制的 Keras Application 模型。我们在 Kaggle 的猫狗二元分类数据集上演示了这个工作流程。

我们使用 image_dataset_from_directory 工具来生成数据集，并使用 Keras 图像预处理层进行图像标准化和数据增强。

设置

import os
import numpy as np
import keras
from keras import layers
from tensorflow import data as tf_data
import matplotlib.pyplot as plt

加载数据：猫狗数据集

原始数据下载

首先，让我们下载原始数据的 786M ZIP 存档

!curl -O https://download.microsoft.com/download/3/E/1/3E1C3F21-ECDB-4869-8368-6DEBA77B919F/kagglecatsanddogs_5340.zip

!unzip -q kagglecatsanddogs_5340.zip
!ls

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  786M  100  786M    0     0  11.1M      0  0:01:10  0:01:10 --:--:-- 11.8M

 CDLA-Permissive-2.0.pdf           kagglecatsanddogs_5340.zip
 PetImages                'readme[1].txt'
 image_classification_from_scratch.ipynb

现在我们有了一个 PetImages 文件夹，其中包含两个子文件夹：Cat 和 Dog。每个子文件夹都包含每个类别的图像文件。

!ls PetImages

Cat  Dog

过滤掉损坏的图像

在使用大量真实世界图像数据时，损坏的图像是常见的。让我们过滤掉那些在文件头中没有“JFIF”字符串的编码错误的图像。

num_skipped = 0
for folder_name in ("Cat", "Dog"):
    folder_path = os.path.join("PetImages", folder_name)
    for fname in os.listdir(folder_path):
        fpath = os.path.join(folder_path, fname)
        try:
            fobj = open(fpath, "rb")
            is_jfif = b"JFIF" in fobj.peek(10)
        finally:
            fobj.close()

        if not is_jfif:
            num_skipped += 1
            # Delete corrupted image
            os.remove(fpath)

print(f"Deleted {num_skipped} images.")

Deleted 1590 images.

生成 `Dataset`

image_size = (180, 180)
batch_size = 128

train_ds, val_ds = keras.utils.image_dataset_from_directory(
    "PetImages",
    validation_split=0.2,
    subset="both",
    seed=1337,
    image_size=image_size,
    batch_size=batch_size,
)

Found 23410 files belonging to 2 classes.
Using 18728 files for training.
Using 4682 files for validation.

可视化数据

以下是训练数据集中的前 9 张图像。

plt.figure(figsize=(10, 10))
for images, labels in train_ds.take(1):
    for i in range(9):
        ax = plt.subplot(3, 3, i + 1)
        plt.imshow(np.array(images[i]).astype("uint8"))
        plt.title(int(labels[i]))
        plt.axis("off")

png

使用图像数据增强

当您没有大型图像数据集时，通过对训练图像应用随机但真实的转换（例如随机水平翻转或小的随机旋转）来人为地引入样本多样性是一种好习惯。这有助于模型接触到训练数据的不同方面，同时减缓过拟合。

data_augmentation_layers = [
    layers.RandomFlip("horizontal"),
    layers.RandomRotation(0.1),
]


def data_augmentation(images):
    for layer in data_augmentation_layers:
        images = layer(images)
    return images

让我们通过将 data_augmentation 重复应用于数据集中的前几张图像来可视化增强后的样本。

plt.figure(figsize=(10, 10))
for images, _ in train_ds.take(1):
    for i in range(9):
        augmented_images = data_augmentation(images)
        ax = plt.subplot(3, 3, i + 1)
        plt.imshow(np.array(augmented_images[0]).astype("uint8"))
        plt.axis("off")

png

标准化数据

我们的图像已经具有标准的尺寸（180x180），因为它们是以连续的 float32 批次形式由我们的数据集生成的。然而，它们的 RGB 通道值在 [0, 255] 范围内。这对神经网络来说不是理想的；通常您应该尝试使输入值变小。在这里，我们将使用模型开头的 Rescaling 层将值标准化到 [0, 1]。

预处理数据的两种方法

您可以通过两种方式使用 data_augmentation 预处理器

选项 1：将其作为模型的一部分，如下所示

inputs = keras.Input(shape=input_shape)
x = data_augmentation(inputs)
x = layers.Rescaling(1./255)(x)
...  # Rest of the model

使用此选项，您的数据增强将在设备上执行，与模型的其余部分同步，这意味着它将受益于 GPU 加速。

请注意，数据增强在测试时处于非活动状态，因此输入样本仅在 fit() 期间增强，在调用 evaluate() 或 predict() 时不增强。

如果您在 GPU 上训练，这可能是一个不错的选择。

选项 2：将其应用于数据集，从而得到一个生成增强图像批次的 Dataset，如下所示

augmented_train_ds = train_ds.map(lambda x, y: (data_augmentation(x), y))

使用此选项，您的数据增强将在 CPU 上异步执行，并在进入模型之前进行缓冲。

如果您在 CPU 上训练，这是更好的选择，因为它使数据增强异步且非阻塞。

在我们的例子中，我们将采用第二种选择。如果您不确定选择哪种，第二种选择（异步预处理）总是一个可靠的选择。

配置数据集以获得高性能

让我们对训练数据集应用数据增强，并确保使用缓冲的预取，以便我们可以从磁盘加载数据而不会出现 I/O 阻塞。

# Apply `data_augmentation` to the training images.
train_ds = train_ds.map(
    lambda img, label: (data_augmentation(img), label),
    num_parallel_calls=tf_data.AUTOTUNE,
)
# Prefetching samples in GPU memory helps maximize GPU utilization.
train_ds = train_ds.prefetch(tf_data.AUTOTUNE)
val_ds = val_ds.prefetch(tf_data.AUTOTUNE)

构建一个模型

我们将构建一个小型版本的 Xception 网络。我们并未特别尝试优化架构；如果您想系统地搜索最佳模型配置，请考虑使用 KerasTuner。

请注意：

我们用 data_augmentation 预处理器启动模型，然后是一个 Rescaling 层。
我们在最后的分类层之前包含一个 Dropout 层。

def make_model(input_shape, num_classes):
    inputs = keras.Input(shape=input_shape)

    # Entry block
    x = layers.Rescaling(1.0 / 255)(inputs)
    x = layers.Conv2D(128, 3, strides=2, padding="same")(x)
    x = layers.BatchNormalization()(x)
    x = layers.Activation("relu")(x)

    previous_block_activation = x  # Set aside residual

    for size in [256, 512, 728]:
        x = layers.Activation("relu")(x)
        x = layers.SeparableConv2D(size, 3, padding="same")(x)
        x = layers.BatchNormalization()(x)

        x = layers.Activation("relu")(x)
        x = layers.SeparableConv2D(size, 3, padding="same")(x)
        x = layers.BatchNormalization()(x)

        x = layers.MaxPooling2D(3, strides=2, padding="same")(x)

        # Project residual
        residual = layers.Conv2D(size, 1, strides=2, padding="same")(
            previous_block_activation
        )
        x = layers.add([x, residual])  # Add back residual
        previous_block_activation = x  # Set aside next residual

    x = layers.SeparableConv2D(1024, 3, padding="same")(x)
    x = layers.BatchNormalization()(x)
    x = layers.Activation("relu")(x)

    x = layers.GlobalAveragePooling2D()(x)
    if num_classes == 2:
        units = 1
    else:
        units = num_classes

    x = layers.Dropout(0.25)(x)
    # We specify activation=None so as to return logits
    outputs = layers.Dense(units, activation=None)(x)
    return keras.Model(inputs, outputs)


model = make_model(input_shape=image_size + (3,), num_classes=2)
keras.utils.plot_model(model, show_shapes=True)

png

训练模型

epochs = 25

callbacks = [
    keras.callbacks.ModelCheckpoint("save_at_{epoch}.keras"),
]
model.compile(
    optimizer=keras.optimizers.Adam(3e-4),
    loss=keras.losses.BinaryCrossentropy(from_logits=True),
    metrics=[keras.metrics.BinaryAccuracy(name="acc")],
)
model.fit(
    train_ds,
    epochs=epochs,
    callbacks=callbacks,
    validation_data=val_ds,
)

Epoch 1/25
...
Epoch 25/25
 147/147 ━━━━━━━━━━━━━━━━━━━━ 53s 354ms/step - acc: 0.9638 - loss: 0.0903 - val_acc: 0.9382 - val_loss: 0.1542

<keras.src.callbacks.history.History at 0x7f41003c24a0>

在完整数据集上训练 25 个 epoch 后，我们的验证准确率超过 90%（实际上，您可以在验证性能开始下降之前训练 50 个或更多 epoch）。

在新数据上运行推理

请注意，数据增强和 dropout 在推理时处于非活动状态。

img = keras.utils.load_img("PetImages/Cat/6779.jpg", target_size=image_size)
plt.imshow(img)

img_array = keras.utils.img_to_array(img)
img_array = keras.ops.expand_dims(img_array, 0)  # Create batch axis

predictions = model.predict(img_array)
score = float(keras.ops.sigmoid(predictions[0][0]))
print(f"This image is {100 * (1 - score):.2f}% cat and {100 * score:.2f}% dog.")

 1/1 ━━━━━━━━━━━━━━━━━━━━ 2s 2s/step
This image is 94.30% cat and 5.70% dog.

png

从头开始进行图像分类

简介

设置

加载数据：猫狗数据集

原始数据下载

过滤掉损坏的图像

生成 Dataset

可视化数据

使用图像数据增强

标准化数据

预处理数据的两种方法

配置数据集以获得高性能

构建一个模型

训练模型

在新数据上运行推理

从头开始进行图像分类

简介

设置

加载数据：猫狗数据集

原始数据下载

过滤掉损坏的图像

生成 Dataset

可视化数据

使用图像数据增强

标准化数据

预处理数据的两种方法

配置数据集以获得高性能

构建一个模型

训练模型

在新数据上运行推理

生成 `Dataset`