AlibiBias 层

[源代码]

AlibiBias

keras_hub.layers.AlibiBias(alibi_bias_max=8, **kwargs)

一个向注意力分数添加 alibi 偏置的层。

此层向注意力分数添加 alibi 偏置。Alibi 偏置是一种线性的、非学习的偏置。其定义和形式化来自 Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation

此层以注意力分数为输入,并在添加 alibi 偏置后返回注意力分数。输出将与输入具有相同的形状。

参数

  • alibi_bias_max: int。此值用于计算每个注意力头的斜率。头的斜率是一个几何序列,起始值为 2**(-alibi_bias_max/num_heads),并使用该值作为公比。默认为 8。
  • **kwargs: 传递给 keras.layers.Layer 的其他关键字参数,包括 nametrainabledtype 等。

调用参数

  • attention_scores: 变压器(transformer)多头注意力层中查询(query)和键(key)相乘的结果,用于向其添加 alibi 偏置。形状为 (batch_size, num_heads, query_length, key_length)

示例

query_length = 10
key_length = 10
num_heads = 4
batch_size = 2
hidden_dim = 8

# Create new alibi layer.
alibi_layer = keras_hub.layers.AlibiBias()

query = np.zeros((batch_size, num_heads, query_length, hidden_dim))
key = np.zeros((batch_size, num_heads, hidden_dim, key_length))

attention_scores = keras.ops.matmul(query, key)

# Add alibi bias to attention scores.
attention_scores = alibi_layer(attention_scores)

参考文献