► KerasHub: 预训练模型 / API 文档 / 建模层 / CachedMultiHeadAttention 层

CachedMultiHeadAttention 层

`CachedMultiHeadAttention` 类

keras_hub.layers.CachedMultiHeadAttention(
    num_heads,
    key_dim,
    value_dim=None,
    dropout=0.0,
    use_bias=True,
    output_shape=None,
    attention_axes=None,
    flash_attention=None,
    kernel_initializer="glorot_uniform",
    bias_initializer="zeros",
    kernel_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    bias_constraint=None,
    seed=None,
    **kwargs
)

支持缓存的多头注意力层。

此层适用于自回归解码。它可用于缓存解码器自注意力和交叉注意力。前向传播可以以下列三种模式之一进行

无缓存，与普通多头注意力相同。
静态缓存 (cache_update_index 为 None)。在这种情况下，将使用缓存的键/值投影，并忽略输入值。
更新缓存 (cache_update_index 不为 None)。在这种情况下，使用输入计算新的键/值投影，并将其拼接回缓存中指定的索引处。

请注意，缓存仅在推理期间有用，不应在训练期间使用。

我们使用下面的 B、T、S 符号，其中 B 是批次维度，T 是目标序列长度，S 是源序列长度。请注意，在生成式解码期间，T 通常为 1 (您正在生成长度为 1 的目标序列以预测下一个标记)。

调用参数

query：形状为 (B, T, dim) 的查询 Tensor。
value：形状为 (B, S*, dim) 的值 Tensor。如果 cache 为 None，S* 必须等于 S 并与 attention_mask 的形状匹配。如果 cache 不为 None，S* 可以是小于 S 的任意长度，计算出的值将拼接回 cache 中 cache_update_index 处。
key：可选的键 Tensor，形状为 (B, S*, dim)。如果 cache 为 None，S* 必须等于 S 并与 attention_mask 的形状匹配。如果 cache 不为 None，S* 可以是小于 S 的任意长度，计算出的值将拼接回 cache 中 cache_update_index 处。
attention_mask：形状为 (B, T, S) 的布尔掩码。attention_mask 阻止对某些位置的注意力。布尔掩码指定了哪些查询元素可以关注哪些键元素，1 表示关注，0 表示不关注。可以对缺少的批次维度和头部维度进行广播。
cache：一个密集的浮点 Tensor。键/值缓存，形状为 [B, 2, S, num_heads, key_dims]，其中 S 必须与 attention_mask 形状一致。此参数旨在用于生成期间，以避免重新计算中间状态。
cache_update_index：一个整数或整数 Tensor，用于更新 cache 的索引（通常是运行生成时正在处理的当前标记的索引）。如果设置了 cache 但 cache_update_index=None，则不会更新缓存。
training: 一个布尔值，指示该层是应在训练模式还是推理模式下运行。

一个 (attention_output, cache) 元组。attention_output 是计算结果，形状为 (B, T, dim)，其中 T 表示目标序列形状，dim 是查询输入最后一个维度（如果 output_shape 为 None）。否则，多头输出将投影到 output_shape 指定的形状。cache 是更新后的缓存。

CachedMultiHeadAttention 层

CachedMultiHeadAttention 类

CachedMultiHeadAttention 层

CachedMultiHeadAttention 类

`CachedMultiHeadAttention` 类