作者: Sayak Paul
创建日期 2023/01/25
最后修改日期 2023/01/29
描述: 微调 SegFormer 模型变体以进行语义分割。
在本示例中,我们展示如何微调 SegFormer 模型变体以在自定义数据集上进行语义分割。语义分割是将类别分配给图像的每个像素的任务。SegFormer 在 SegFormer:使用 Transformer 进行语义分割的简单高效设计 中提出。SegFormer 使用分层 Transformer 架构(称为“Mix Transformer”)作为其编码器,并使用轻量级解码器进行分割。因此,它在语义分割方面产生最先进的性能,同时比现有模型更有效。有关更多详细信息,请查看原始论文。
我们利用 Hugging Face Transformers 来加载预训练的 SegFormer 检查点,并在自定义数据集上对其进行微调。
注意: 此示例重用了以下来源的代码
要运行此示例,我们需要安装 transformers
!!pip install transformers -q
在此示例中,我们使用 Oxford-IIIT Pets 数据集。我们利用 tensorflow_datasets
import tensorflow_datasets as tfds
dataset, info = tfds.load("oxford_iiit_pet:3.*.*", with_info=True)
格式。这是为了使它们与 Hugging Face Transformers 中的 SegFormer 模型兼容。import tensorflow as tf
from tensorflow.keras import backend
image_size = 512
mean = tf.constant([0.485, 0.456, 0.406])
std = tf.constant([0.229, 0.224, 0.225])
def normalize(input_image, input_mask):
input_image = tf.image.convert_image_dtype(input_image, tf.float32)
input_image = (input_image - mean) / tf.maximum(std, backend.epsilon())
input_mask -= 1
return input_image, input_mask
def load_image(datapoint):
input_image = tf.image.resize(datapoint["image"], (image_size, image_size))
input_mask = tf.image.resize(
(image_size, image_size),
input_image, input_mask = normalize(input_image, input_mask)
input_image = tf.transpose(input_image, (2, 0, 1))
return {"pixel_values": input_image, "labels": tf.squeeze(input_mask)}
我们现在使用上述实用程序来准备 tf.data.Dataset
对象,包括用于提高性能的 prefetch()
。更改 batch_size
以匹配您用于训练的 GPU 上的 GPU 内存大小。
auto = tf.data.AUTOTUNE
batch_size = 4
train_ds = (
.shuffle(batch_size * 10)
.map(load_image, num_parallel_calls=auto)
test_ds = (
.map(load_image, num_parallel_calls=auto)
{'pixel_values': TensorSpec(shape=(None, 3, 512, 512), dtype=tf.float32, name=None), 'labels': TensorSpec(shape=(None, 512, 512), dtype=tf.float32, name=None)}
import matplotlib.pyplot as plt
def display(display_list):
plt.figure(figsize=(15, 15))
title = ["Input Image", "True Mask", "Predicted Mask"]
for i in range(len(display_list)):
plt.subplot(1, len(display_list), i + 1)
for samples in train_ds.take(2):
sample_image, sample_mask = samples["pixel_values"][0], samples["labels"][0]
sample_image = tf.transpose(sample_image, (1, 2, 0))
sample_mask = tf.expand_dims(sample_mask, -1)
display([sample_image, sample_mask])
我们现在从 Hugging Face Transformers 加载预训练的 SegFormer 模型变体。SegFormer 模型有不同的变体,分别称为 MiT-B0 到 MiT-B5。您可以在 此处 找到这些检查点。我们加载最小的变体 Mix-B0,它在推理效率和预测性能之间取得了很好的折衷。
from transformers import TFSegformerForSemanticSegmentation
model_checkpoint = "nvidia/mit-b0"
id2label = {0: "outer", 1: "inner", 2: "border"}
label2id = {label: id for id, label in id2label.items()}
num_labels = len(id2label)
model = TFSegformerForSemanticSegmentation.from_pretrained(
lr = 0.00006
optimizer = tf.keras.optimizers.Adam(learning_rate=lr)
请注意,我们没有使用任何损失函数来编译模型。这是因为当我们提供标签以及输入图像时,模型的正向传递 实现了损失计算部分。计算损失后,模型返回一个结构化的 dataclass
有了编译后的模型,我们可以继续调用 fit()
它可以帮助我们可视化模型正在微调时的一些样本预测,从而帮助我们监控模型的进度。此回调的灵感来自 本教程。
from IPython.display import clear_output
def create_mask(pred_mask):
pred_mask = tf.math.argmax(pred_mask, axis=1)
pred_mask = tf.expand_dims(pred_mask, -1)
return pred_mask[0]
def show_predictions(dataset=None, num=1):
if dataset:
for sample in dataset.take(num):
images, masks = sample["pixel_values"], sample["labels"]
masks = tf.expand_dims(masks, -1)
pred_masks = model.predict(images).logits
images = tf.transpose(images, (0, 2, 3, 1))
display([images[0], masks[0], create_mask(pred_masks)])
create_mask(model.predict(tf.expand_dims(sample_image, 0))),
class DisplayCallback(tf.keras.callbacks.Callback):
def __init__(self, dataset, **kwargs):
self.dataset = dataset
def on_epoch_end(self, epoch, logs=None):
print("\nSample Prediction after epoch {}\n".format(epoch + 1))
# Increase the number of epochs if the results are not of expected quality.
epochs = 5
history = model.fit(
Sample Prediction after epoch 5
show_predictions(test_ds, 5)
在本示例中,我们学习了如何在自定义数据集上微调 SegFormer 模型变体以进行语义分割。为了简洁起见,该示例保持简短。但是,还有一些事情,您可以进一步尝试
即可。然后,您可以通过执行 TFSegformerForSemanticSegmentation.from_pretrained("your-username/your-awesome-model"
) 来加载模型。如果您需要参考,这里有一个端到端的示例。PushToHubCallback
Keras 回调函数。这里有一个示例。这里有一个使用此回调创建的模型仓库示例。