Muon

`Muon` 类

keras.optimizers.Muon(
    learning_rate=0.001,
    adam_beta_1=0.9,
    adam_beta_2=0.999,
    epsilon=1e-07,
    weight_decay=0.1,
    clipnorm=None,
    clipvalue=None,
    global_clipnorm=None,
    use_ema=False,
    ema_momentum=0.99,
    ema_overwrite_frequency=None,
    loss_scale_factor=None,
    gradient_accumulation_steps=None,
    name="muon",
    exclude_layers=None,
    exclude_embeddings=True,
    muon_a=3.4445,
    muon_b=-4.775,
    muon_c=2.0315,
    adam_lr_ratio=0.1,
    momentum=0.95,
    ns_steps=6,
    nesterov=True,
    **kwargs
)

实现了 Muon 算法的优化器。

请注意，此优化器不应用于以下层

嵌入层
最终输出的全连接层
任何 {0,1}-D 变量

这些都应使用 AdamW 进行优化。

Muon 优化器可以根据以下条件使用 Muon 更新步骤或 AdamW 更新步骤

对于任何不是 2D、3D 或 4D 的变量，将使用 AdamW 步骤。此设置不可配置。
如果参数 exclude_embeddings（默认为 True）设置为 True，则将使用 AdamW 步骤。
对于名称与参数 exclude_layers（列表）中列出的表达式匹配的任何变量，将使用 AdamW 步骤。
任何其他变量都使用 Muon 步骤。

通常，您只需要将密集连接的输出层的名称传递给 exclude_layers，例如 exclude_layers=["output_dense"]。

参考文献

原始实现 - Liu 等人，2025

参数

learning_rate: 一个浮点数、keras.optimizers.schedules.LearningRateSchedule 实例，或者一个不带参数且返回实际值的可调用对象。学习率。默认为 0.001。
adam_beta_1: 一个浮点数值或一个常量浮点张量，或者一个不带参数且返回实际值的可调用对象。一阶矩估计的指数衰减率。默认为 0.9。
adam_beta_2: 一个浮点数值或一个常量浮点张量，或者一个不带参数且返回实际值的可调用对象。二阶矩估计的指数衰减率。默认为 0.999。
epsilon: 一个用于数值稳定的微小常数。这是 Kingma 和 Ba 论文中的“epsilon hat”（在第 2.1 节之前），而不是论文算法 1 中的 epsilon。它将用于 Adamw。默认为 1e-7。
exclude_layers: 字符串列表，层的名称关键字，用于排除。路径中包含关键字的所有层都将使用 adamw。
exclude_embeddings: 布尔值。如果为 True，则嵌入层将使用 adamw。
muon_a: 浮点数，muon 算法的参数 a。建议使用默认值。
muon_b: 浮点数，muon 算法的参数 b。建议使用默认值。
muon_c: 浮点数，muon 算法的参数 c。建议使用默认值。
adam_lr_ratio: 浮点数，使用 Adam 时的学习率与主学习率的比例。建议设置为 0.1。
momentum: 浮点数，内部 SGD 使用的动量。
ns_steps: 整数，要运行的牛顿-施尔茨迭代次数。
nesterov: 布尔值，是否使用 Nesterov 风格的动量 {{base_optimizer_keyword_args}}

Muon

Muon 类

Muon

Muon 类

`Muon` 类