► Keras 3 API 文档 / 优化器 / 学习率调度 API / CosineDecay

余弦衰减

`CosineDecay` 类

keras.optimizers.schedules.CosineDecay(
    initial_learning_rate,
    decay_steps,
    alpha=0.0,
    name="CosineDecay",
    warmup_target=None,
    warmup_steps=0,
)

一个使用余弦衰减并可选择热身阶段的 LearningRateSchedule。

参见 Loshchilov & Hutter, ICLR2016, SGDR: 带有热重启的随机梯度下降。

关于学习率线性热身的概念，请参见 Goyal 等。

当我们开始训练模型时，我们通常希望学习率先有一个初始的增加，然后是衰减。如果 warmup_target 是一个整数，此调度会在线性增加学习率，每个优化器步骤从 initial_learning_rate 增加到 warmup_target，持续 warmup_steps。之后，它会应用一个余弦衰减函数，将学习率从 warmup_target 衰减到 alpha，持续 decay_steps。如果 warmup_target 为 None，我们将跳过热身阶段，衰减将使学习率从 initial_learning_rate 衰减到 alpha。它需要一个 step 值来计算学习率。您可以直接传入一个后端变量，并在每个训练步骤中递增它。

该调度是一个接受一个参数的可调用对象，当传入当前优化器步骤时，它会生成一个热身阶段，然后是一个衰减的学习率。这对于在优化器函数的不同调用中改变学习率值很有用。

我们的热身阶段计算方式如下：

def warmup_learning_rate(step):
    completed_fraction = step / warmup_steps
    total_delta = target_warmup - initial_learning_rate
    return completed_fraction * total_delta

我们的衰减阶段计算方式如下：

if warmup_target is None:
    initial_decay_lr = initial_learning_rate
else:
    initial_decay_lr = warmup_target

def decayed_learning_rate(step):
    step = min(step, decay_steps)
    cosine_decay = 0.5 * (1 + cos(pi * step / decay_steps))
    decayed = (1 - alpha) * cosine_decay + alpha
    return initial_decay_lr * decayed

不带热身阶段的示例用法：

decay_steps = 1000
initial_learning_rate = 0.1
lr_decayed_fn = keras.optimizers.schedules.CosineDecay(
    initial_learning_rate, decay_steps)

带热身阶段的示例用法：

decay_steps = 1000
initial_learning_rate = 0
warmup_steps = 1000
target_learning_rate = 0.1
lr_warmup_decayed_fn = keras.optimizers.schedules.CosineDecay(
    initial_learning_rate, decay_steps, warmup_target=target_learning_rate,
    warmup_steps=warmup_steps
)

您可以直接将此调度作为学习率传入 keras.optimizers.Optimizer。学习率调度也可以使用 keras.optimizers.schedules.serialize 和 keras.optimizers.schedules.deserialize 进行序列化和反序列化。

参数

initial_learning_rate: Python 浮点数。初始学习率。
decay_steps: Python 整数。衰减的步数。
alpha: Python 浮点数。衰减的最小学习率值，作为 initial_learning_rate 的一部分。
name: 字符串。操作的可选名称。默认为 "CosineDecay"。
warmup_target: Python 浮点数。热身阶段的目标学习率。将转换为 initial_learning_rate 的数据类型。设置为 None 将跳过热身阶段，并从 initial_learning_rate 开始衰减阶段。否则调度器将从 initial_learning_rate 热身到 warmup_target。
warmup_steps: Python 整数。热身阶段的步数。

一个接受一个参数的可调用学习率调度，该参数为当前的优化器步数，并输出衰减后的学习率，一个与 initial_learning_rate 类型相同的标量张量。

余弦衰减

CosineDecay 类

余弦衰减

CosineDecay 类

`CosineDecay` 类