► Keras 3 API 文档 / 层 API / 注意力层 / MultiHeadAttention 层

MultiHeadAttention 层

`MultiHeadAttention` 类

keras.layers.MultiHeadAttention(
    num_heads,
    key_dim,
    value_dim=None,
    dropout=0.0,
    use_bias=True,
    output_shape=None,
    attention_axes=None,
    flash_attention=None,
    kernel_initializer="glorot_uniform",
    bias_initializer="zeros",
    kernel_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    bias_constraint=None,
    seed=None,
    **kwargs
)

MultiHeadAttention 层。

这是论文“Attention is all you Need” Vaswani 等人，2017 中描述的多头注意力机制的实现。如果 query、key、value 相同，则这是自注意力。query 中的每个时间步都会关注 key 中的相应序列，并返回一个固定宽度的向量。

此层首先对 query、key 和 value 进行投影。这些（实际上）是一个长度为 num_attention_heads 的张量列表，其中对应的形状为 (batch_size, , key_dim)、(batch_size, , key_dim)、(batch_size, , value_dim)。

然后，查询和键张量进行点积和缩放。对它们进行 softmax 以获得注意力概率。然后，值张量通过这些概率进行插值，然后拼接回单个张量。

最后，结果张量的最后一个维度为 value_dim，可以进行线性投影并返回。

参数

num_heads：注意力头数。
key_dim：查询和键的每个注意力头的大小。
value_dim：值的每个注意力头的大小。
dropout：Dropout 概率。
use_bias：布尔值，表示密集层是否使用偏置向量/矩阵。
output_shape：输出张量的预期形状，除了批次和序列维度。如果未指定，则投影回查询特征维度（查询输入的最后一个维度）。
attention_axes：应用注意力的轴。None 表示在所有轴上应用注意力，但批次、头和特征除外。
flash_attention：如果为 None，则该层在可能的情况下尝试使用 Flash Attention 以实现更快、更节省内存的注意力计算。此行为可以使用 keras.config.enable_flash_attention() 或 keras.config.disable_flash_attention() 进行配置。
kernel_initializer：密集层核的初始化器。
bias_initializer：密集层偏置的初始化器。
kernel_regularizer：密集层核的正则化器。
bias_regularizer：密集层偏置的正则化器。
activity_regularizer：密集层活动的正则化器。
kernel_constraint：密集层核的约束。
bias_constraint：密集层核的约束。
seed：用于为 dropout 层设置种子的可选整数。

调用参数

query：形状为 (B, T, dim) 的查询张量，其中 B 是批次大小，T 是目标序列长度，dim 是特征维度。
value：形状为 (B, S, dim) 的值张量，其中 B 是批次大小，S 是源序列长度，dim 是特征维度。
key：形状为 (B, S, dim) 的可选键张量。如果未给出，将同时使用 value 作为 key 和 value，这是最常见的情况。
attention_mask：形状为 (B, T, S) 的布尔掩码，用于防止注意力关注某些位置。布尔掩码指定哪些查询元素可以关注哪些键元素，1 表示关注，0 表示不关注。对于缺失的批次维度和头维度可以进行广播。
return_attention_scores：一个布尔值，指示如果为 True，输出应为 (attention_output, attention_scores)，如果为 False，则为 attention_output。默认为 False。
training：Python 布尔值，指示该层是应在训练模式（添加 dropout）还是在推断模式（无 dropout）下运行。如果存在父层/模型，则将使用其训练模式，否则为 False（推断）。
use_causal_mask：一个布尔值，指示是否应用因果掩码以防止 token 关注未来的 token（例如，在解码器 Transformer 中使用）。

attention_output：计算结果，形状为 (B, T, E)，其中 T 用于目标序列形状，如果 output_shape 为 None，则 E 是查询输入的最后一个维度。否则，多头输出将投影到 output_shape 指定的形状。
attention_scores：（可选）注意力轴上的多头注意力系数。

MultiHeadAttention 层

MultiHeadAttention 类

MultiHeadAttention 层

MultiHeadAttention 类

`MultiHeadAttention` 类