KerasHub:预训练模型 / API 文档 / 建模层 / TransformerEncoder 层

TransformerEncoder 层

[源代码]

TransformerEncoder

keras_hub.layers.TransformerEncoder(
    intermediate_dim,
    num_heads,
    dropout=0,
    activation="relu",
    layer_norm_epsilon=1e-05,
    kernel_initializer="glorot_uniform",
    bias_initializer="zeros",
    normalize_first=False,
    **kwargs
)

Transformer 编码器。

此类遵循论文 Attention is All You Need 中 Transformer 编码器层的架构。用户可以实例化此类的多个实例来堆叠编码器。

此层将根据隐式的 Keras 填充掩码(例如,通过将mask_zero=True传递给keras.layers.Embedding层)正确计算注意力掩码。有关更多详细信息,请参阅掩码和填充指南

参数

  • intermediate_dim:int,前馈网络的隐藏大小。
  • num_heads:int,keras.layers.MultiHeadAttention层中的头部数量。
  • dropout:float。dropout 值,由keras.layers.MultiHeadAttention和前馈网络共享。默认为0.
  • activation:字符串或keras.activations。前馈网络的激活函数。默认为"relu"
  • layer_norm_epsilon:float。层归一化组件中的 epsilon 值。默认为1e-5
  • kernel_initializer:字符串或keras.initializers初始化器。密集层和多头注意力层的内核初始化器。默认为"glorot_uniform"
  • bias_initializer:字符串或keras.initializers初始化器。密集层和多头注意力层的偏置初始化器。默认为"zeros"
  • normalize_first:bool。如果为 True,则注意力层和中间密集层的输入将被归一化(类似于 GPT-2)。如果设置为 False,则注意力层和中间密集层的输出将被归一化(类似于 BERT)。默认为False
  • **kwargs:传递给keras.layers.Layer的其他关键字参数,包括nametrainabledtype等。

示例

# Create a single transformer encoder layer.
encoder = keras_hub.layers.TransformerEncoder(
    intermediate_dim=64, num_heads=8)

# Create a simple model containing the encoder.
input = keras.Input(shape=(10, 64))
output = encoder(input)
model = keras.Model(inputs=input, outputs=output)

# Call encoder on the inputs.
input_data = np.random.uniform(size=(2, 10, 64))
output = model(input_data)

参考文献


[源代码]

call 方法

TransformerEncoder.call(
    inputs,
    padding_mask=None,
    attention_mask=None,
    training=None,
    return_attention_scores=False,
)

TransformerEncoder 的前向传递。

参数

  • inputs:张量。TransformerEncoder 的输入数据,应为形状 [batch_size, sequence_length, hidden_dim]。
  • padding_mask:布尔张量。它指示是否应屏蔽该标记,因为该标记是由于填充而引入的。padding_mask的形状应为 [batch_size, sequence_length]。
  • attention_mask:布尔张量。用于屏蔽某些标记的自定义掩码。attention_mask的形状应为 [batch_size, sequence_length, sequence_length]。
  • training:布尔值,指示层应处于训练模式还是推理模式。
  • return_attention_scores:布尔值,指示输出是否应为(attention_output, attention_scores)(如果为True)或attention_output(如果为False)。默认为False

返回值

inputs形状相同的张量。