► 代码示例 / 自然语言处理 / 使用 KerasHub 和 tf.distribute 进行数据并行训练

使用 KerasHub 和 tf.distribute 进行数据并行训练

作者： Anshuman Mishra
创建日期 2023/07/07
最后修改日期 2023/07/07
描述： 使用 KerasHub 和 tf.distribute 进行数据并行训练。

ⓘ 本示例使用 Keras 3

简介

分布式训练是一种在多个设备或机器上同时训练深度学习模型的技术。它有助于减少训练时间，并允许使用更多数据训练更大的模型。KerasHub 是一个提供自然语言处理任务工具和实用程序的库，包括分布式训练。

在本教程中，我们将使用 KerasHub 在 wikitext-2 数据集（一个包含 200 万个维基百科文章单词的数据集）上训练一个基于 BERT 的掩码语言模型 (MLM)。MLM 任务涉及预测句子中的掩码词，这有助于模型学习单词的上下文表示。

本指南重点介绍数据并行性，特别是同步数据并行性，其中每个加速器（GPU 或 TPU）都拥有模型的完整副本，并查看输入数据的不同部分批次。在每个设备上计算部分梯度，然后进行聚合，并用于计算全局梯度更新。

具体来说，本指南教你如何使用 tf.distribute API 在多个 GPU 上训练 Keras 模型，只需对代码进行最少的更改，在以下两种设置中：

在单个机器上安装的多个 GPU（通常 2 到 8 个）（单主机、多设备训练）。这是研究人员和小型工业工作流最常见的设置。
在由多台机器组成的集群上，每台机器托管一个或多个 GPU（多 worker 分布式训练）。这是大型工业工作流的良好设置，例如在 20-100 个 GPU 上训练十亿词数据集上的高分辨率文本摘要模型。

!pip install -q --upgrade keras-hub
!pip install -q --upgrade keras  # Upgrade to Keras 3.

导入

import os

os.environ["KERAS_BACKEND"] = "tensorflow"

import tensorflow as tf
import keras
import keras_hub

在开始任何训练之前，让我们配置我们的单个 GPU，使其显示为两个逻辑设备。

当您使用两个或更多物理 GPU 进行训练时，这是完全不必要的。这只是在默认的 Colab GPU 运行时上演示真实分布式训练的一种技巧，该运行时只有一个 GPU 可用。

!nvidia-smi --query-gpu=memory.total --format=csv,noheader

physical_devices = tf.config.list_physical_devices("GPU")
tf.config.set_logical_device_configuration(
    physical_devices[0],
    [
        tf.config.LogicalDeviceConfiguration(memory_limit=15360 // 2),
        tf.config.LogicalDeviceConfiguration(memory_limit=15360 // 2),
    ],
)

logical_devices = tf.config.list_logical_devices("GPU")
logical_devices

EPOCHS = 3

24576 MiB

要使用 Keras 模型进行单主机、多设备同步训练，您可以使用 tf.distribute.MirroredStrategy API。其工作原理如下：

实例化一个 MirroredStrategy，可以选择配置要使用的特定设备（默认情况下，策略将使用所有可用的 GPU）。
使用策略对象打开一个作用域，并在此作用域内创建所有需要包含变量的 Keras 对象。通常，这意味着在分布式作用域内创建和编译模型。
像往常一样通过 fit() 训练模型。

strategy = tf.distribute.MirroredStrategy()
print(f"Number of devices: {strategy.num_replicas_in_sync}")

INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0', '/job:localhost/replica:0/task:0/device:GPU:1')
Number of devices: 2

基本批次大小和学习率

base_batch_size = 32
base_learning_rate = 1e-4

计算缩放后的批次大小和学习率

scaled_batch_size = base_batch_size * strategy.num_replicas_in_sync
scaled_learning_rate = base_learning_rate * strategy.num_replicas_in_sync

现在，我们需要下载并预处理 wikitext-2 数据集。该数据集将用于 BERT 模型的预训练。我们将过滤掉短行，以确保数据有足够的上下文用于训练。

keras.utils.get_file(
    origin="https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-v1.zip",
    extract=True,
)
wiki_dir = os.path.expanduser("~/.keras/datasets/wikitext-2/")

# Load wikitext-103 and filter out short lines.
wiki_train_ds = (
    tf.data.TextLineDataset(
        wiki_dir + "wiki.train.tokens",
    )
    .filter(lambda x: tf.strings.length(x) > 100)
    .shuffle(buffer_size=500)
    .batch(scaled_batch_size)
    .cache()
    .prefetch(tf.data.AUTOTUNE)
)
wiki_val_ds = (
    tf.data.TextLineDataset(wiki_dir + "wiki.valid.tokens")
    .filter(lambda x: tf.strings.length(x) > 100)
    .shuffle(buffer_size=500)
    .batch(scaled_batch_size)
    .cache()
    .prefetch(tf.data.AUTOTUNE)
)
wiki_test_ds = (
    tf.data.TextLineDataset(wiki_dir + "wiki.test.tokens")
    .filter(lambda x: tf.strings.length(x) > 100)
    .shuffle(buffer_size=500)
    .batch(scaled_batch_size)
    .cache()
    .prefetch(tf.data.AUTOTUNE)
)

在上面的代码中，我们下载并解压了 wikitext-2 数据集。然后，我们定义了三个数据集：wiki_train_ds、wiki_val_ds 和 wiki_test_ds。这些数据集经过过滤以删除短行，并进行批处理以实现高效训练。

在 NLP 训练/调优中，使用衰减学习率是一种常见做法。我们将在这里使用 PolynomialDecay 调度器。

total_training_steps = sum(1 for _ in wiki_train_ds.as_numpy_iterator()) * EPOCHS
lr_schedule = tf.keras.optimizers.schedules.PolynomialDecay(
    initial_learning_rate=scaled_learning_rate,
    decay_steps=total_training_steps,
    end_learning_rate=0.0,
)


class PrintLR(tf.keras.callbacks.Callback):
    def on_epoch_end(self, epoch, logs=None):
        print(
            f"\nLearning rate for epoch {epoch + 1} is {model_dist.optimizer.learning_rate.numpy()}"
        )

我们还可以创建一个 TensorBoard 回调，这将使我们能够在教程的后续部分训练模型时可视化不同的指标。我们将所有回调放在一起，如下所示：

callbacks = [
    tf.keras.callbacks.TensorBoard(log_dir="./logs"),
    PrintLR(),
]


print(tf.config.list_physical_devices("GPU"))

[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]

数据集准备好后，我们现在在 strategy.scope() 中初始化并编译模型和优化器。

with strategy.scope():
    # Everything that creates variables should be under the strategy scope.
    # In general this is only model construction & `compile()`.
    model_dist = keras_hub.models.BertMaskedLM.from_preset("bert_tiny_en_uncased")

    # This line just sets pooled_dense layer as non-trainiable, we do this to avoid
    # warnings of this layer being unused
    model_dist.get_layer("bert_backbone").get_layer("pooled_dense").trainable = False

    model_dist.compile(
        loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
        optimizer=tf.keras.optimizers.AdamW(learning_rate=scaled_learning_rate),
        weighted_metrics=[keras.metrics.SparseCategoricalAccuracy()],
        jit_compile=False,
    )

    model_dist.fit(
        wiki_train_ds, validation_data=wiki_val_ds, epochs=EPOCHS, callbacks=callbacks
    )

Epoch 1/3
Learning rate for epoch 1 is 0.00019999999494757503
 239/239 ━━━━━━━━━━━━━━━━━━━━ 43s 136ms/step - loss: 3.7009 - sparse_categorical_accuracy: 0.1499 - val_loss: 1.1509 - val_sparse_categorical_accuracy: 0.3485
Epoch 2/3
 239/239 ━━━━━━━━━━━━━━━━━━━━ 0s 122ms/step - loss: 2.6094 - sparse_categorical_accuracy: 0.5284
Learning rate for epoch 2 is 0.00019999999494757503
 239/239 ━━━━━━━━━━━━━━━━━━━━ 32s 133ms/step - loss: 2.6038 - sparse_categorical_accuracy: 0.5274 - val_loss: 0.9812 - val_sparse_categorical_accuracy: 0.4006
Epoch 3/3
 239/239 ━━━━━━━━━━━━━━━━━━━━ 0s 123ms/step - loss: 2.3564 - sparse_categorical_accuracy: 0.6053
Learning rate for epoch 3 is 0.00019999999494757503
 239/239 ━━━━━━━━━━━━━━━━━━━━ 32s 134ms/step - loss: 2.3514 - sparse_categorical_accuracy: 0.6040 - val_loss: 0.9213 - val_sparse_categorical_accuracy: 0.4230

在作用域内拟合模型后，我们正常评估它！

model_dist.evaluate(wiki_test_ds)

 29/29 ━━━━━━━━━━━━━━━━━━━━ 3s 60ms/step - loss: 1.9197 - sparse_categorical_accuracy: 0.8527

[0.9470901489257812, 0.4373602867126465]

对于跨多台机器的分布式训练（与仅利用单台机器上多个设备的训练相对），您可以使用两种分布式策略：MultiWorkerMirroredStrategy 和 ParameterServerStrategy

tf.distribute.MultiWorkerMirroredStrategy 实现了一个同步 CPU/GPU 多 worker 解决方案，可与 Keras 风格的模型构建和训练循环一起使用，使用副本之间梯度的同步归约。
tf.distribute.experimental.ParameterServerStrategy 实现了一个异步 CPU/GPU 多 worker 解决方案，其中参数存储在参数服务器上，worker 异步更新参数服务器上的梯度。

进一步阅读

使用 KerasHub 和 tf.distribute 进行数据并行训练

简介

导入

进一步阅读