► Keras 3 API 文档 / KerasHub / 建模层 / TransformerDecoder 层

TransformerDecoder 层

`TransformerDecoder` 类

keras_hub.layers.TransformerDecoder(
    intermediate_dim,
    num_heads,
    dropout=0,
    activation="relu",
    layer_norm_epsilon=1e-05,
    kernel_initializer="glorot_uniform",
    bias_initializer="zeros",
    normalize_first=False,
    **kwargs
)

Transformer 解码器。

该类遵循论文 Attention is All You Need 中 Transformer 解码器层的架构。用户可以实例化该类的多个实例来堆叠解码器。

默认情况下，该层将对解码器注意力层应用因果掩码。您也可以在调用期间直接将填充或注意力掩码传递给该层，例如使用 decoder_padding_mask 或 decoder_attention_mask。

该层可以用一个或两个输入调用。所有调用中的输入数量必须一致。选项如下：layer(decoder_sequence)：解码器块中不会构建交叉注意力。这在构建 GPT-2 等“仅解码器”Transformer 时很有用。layer(decoder_sequence, encoder_sequence)：交叉注意力将被构建到解码器块中。这在构建原始 Transformer 模型（如 Attention is All You Need 中所述）等“编码器-解码器”Transformer 时很有用。

参数

intermediate_dim: int，前馈网络的隐藏大小。
num_heads: int，多头注意力中的头数。
dropout: float。dropout 值，由多头注意力和前馈网络共享。默认值为 0.。
activation: string 或 keras.activations。前馈网络的激活函数。默认值为 "relu"。
layer_norm_epsilon: float。层归一化组件中的 eps 值。默认值为 1e-5。
kernel_initializer: string 或 keras.initializers 初始化器。密集层和多头注意力层的内核初始化器。默认值为 "glorot_uniform"。
bias_initializer: string 或 keras.initializers 初始化器。密集层和多头注意力层的偏差初始化器。默认值为 "zeros"。
normalize_first: bool。如果为 True，则对注意力层(s) 和中间密集层的输入进行归一化（类似于 GPT-2）。如果设置为 False，则对注意力层和中间密集层的输出进行归一化（类似于 BERT）。默认值为 False。
**kwargs: 传递给 keras.layers.Layer 的其他关键字参数，包括 name、trainable、dtype 等。

示例

# Create a single transformer decoder layer.
decoder = keras_hub.layers.TransformerDecoder(
    intermediate_dim=64, num_heads=8)

# Create a simple model containing the decoder.
decoder_input = keras.Input(shape=(10, 64))
encoder_input = keras.Input(shape=(10, 64))
output = decoder(decoder_input, encoder_input)
model = keras.Model(
    inputs=(decoder_input, encoder_input),
    outputs=output,
)

# Call decoder on the inputs.
decoder_input_data = np.random.uniform(size=(2, 10, 64))
encoder_input_data = np.random.uniform(size=(2, 10, 64))
decoder_output = model((decoder_input_data, encoder_input_data))

参考文献

Vaswani 等人，2017

[来源]

`call` 方法

TransformerDecoder.call(
    decoder_sequence,
    encoder_sequence=None,
    decoder_padding_mask=None,
    decoder_attention_mask=None,
    encoder_padding_mask=None,
    encoder_attention_mask=None,
    self_attention_cache=None,
    self_attention_cache_update_index=None,
    cross_attention_cache=None,
    cross_attention_cache_update_index=None,
    use_causal_mask=True,
    training=None,
)

TransformerDecoder 的前向传递。

参数

decoder_sequence: Tensor。解码器输入序列。
encoder_sequence: Tensor。编码器输入序列。对于仅解码器模型（如 GPT2），这应保留为 None。一旦模型在没有 encoder_sequence 的情况下被调用一次，您就不能再用 encoder_sequence 调用它。
decoder_padding_mask: 布尔 Tensor，解码器序列的填充掩码，必须形状为 [batch_size, decoder_sequence_length]。
decoder_attention_mask: 布尔 Tensor。自定义的解码器序列掩码，必须形状为 [batch_size, decoder_sequence_length, decoder_sequence_length]。
encoder_padding_mask: 布尔 Tensor，编码器序列的填充掩码，必须形状为 [batch_size, encoder_sequence_length]。
encoder_attention_mask: 布尔 Tensor。自定义的编码器序列掩码，必须形状为 [batch_size, encoder_sequence_length, encoder_sequence_length]。
self_attention_cache: 密集浮点 Tensor。自注意力层中键/值对的缓存。形状为 [batch_size, 2, max_seq_len, num_heads, key_dims]。
self_attention_cache_update_index: int 或 int Tensor，更新 self_attention_cache 的索引。通常，这是解码过程中正在处理的当前标记的索引。
cross_attention_cache: 密集浮点 Tensor。交叉注意力层中键/值对的缓存。形状为 [batch_size, 2, S, num_heads, key_dims]。
cross_attention_cache_update_index: int 或 int Tensor，更新 cross_attention_cache 的索引。通常，这要么是 0（计算整个 cross_attention_cache），要么是 None（重新使用先前计算的 cross_attention_cache）。
use_causal_mask: bool，默认为 True。如果为 true，则在 `解码器序列上应用因果掩码（掩盖未来的输入）。
training: 布尔值，指示该层应该以训练模式还是推理模式运行。

取决于调用参数的三种情况之一:
outputs，如果 self_attention_cache 为 `None。
(outputs, self_attention_cache)，如果 self_attention_cache 已设置并且该层没有交叉注意力。
(outputs, self_attention_cache, cross_attention_cache)，如果 self_attention_cache 和 cross_attention_cache 已设置并且该层有交叉注意力。

TransformerDecoder 层

TransformerDecoder 类

call 方法

TransformerDecoder 层

TransformerDecoder 类

call 方法

`TransformerDecoder` 类

`call` 方法