KerasHub: 预训练模型 / API 文档 / 预处理层 / MaskedLMMaskGenerator 层

MaskedLMMaskGenerator layer

[源代码]

MaskedLMMaskGenerator

keras_hub.layers.MaskedLMMaskGenerator(
    vocabulary_size,
    mask_selection_rate,
    mask_token_id,
    mask_selection_length=None,
    unselectable_token_ids=[0],
    mask_token_rate=0.8,
    random_token_rate=0.1,
    **kwargs
)

应用语言模型掩码的层。

此层对于准备用于掩码语言建模 (MaskedLM) 任务的输入非常有用。它遵循原始 BERT 论文中描述的掩码策略。给定分词后的文本,它会随机选择一定数量的 token 进行掩码。然后,对于每个选定的 token,它有机会(可配置)被替换为“掩码 token”或随机 token,或者保持不变。

输入数据应作为张量、tf.RaggedTensor 或列表进行传递。对于批处理输入,输入应为列表的列表或秩为二的张量。对于未批处理的输入,每个元素都应为列表或秩为一的张量。

此层可与 tf.data 一起使用,在训练期间动态地生成掩码。

参数

  • vocabulary_size: int,词汇表的大小。
  • mask_selection_rate: float,被选定进行掩码的 token 的概率。
  • mask_token_id: int。掩码 token 的 ID。
  • mask_selection_length: int。每个序列中被选定进行掩码的 token 的最大数量。如果设置了此参数,则输出的 mask_positionsmask_idsmask_weights 将被填充为长度为 mask_selection_length 的密集张量,否则输出将是 RaggedTensor。默认为 None
  • unselectable_token_ids: 一组不应被视为可掩码的 token ID。默认情况下,我们假设 0 代表 padding token 并忽略它。默认为 [0]
  • mask_token_rate:float。mask_token_rate 必须在 0 到 1 之间,表示掩码词元替代被选中用于掩码的词元的频率。默认为 0.8
  • random_token_rate: float。random_token_rate 必须在 0 和 1 之间,它表示在所选的掩码标记中,有多少比例被随机标记替换。注意:mask_token_rate + random_token_rate <= 1,对于 (1 - mask_token_rate - random_token_rate) 的比例,标记将不会被更改。默认为 0.1

返回

  • 一个包含 4 个键的字典:token_ids: Tensor 或 RaggedTensor,具有与输入相同的类型和形状。掩码后的序列。mask_positions: Tensor,或 RaggedTensor(如果 mask_selection_length 为 None)。被掩码的 token_ids 的位置。mask_ids: Tensor,或 RaggedTensor(如果 mask_selection_length 为 None)。在被掩码位置的原始 token ID。mask_weights: Tensor,或 RaggedTensor(如果 mask_selection_length 为 None)。mask_weights 的形状与 mask_positionsmask_ids 相同。mask_weights 中的每个元素应为 0 或 1,1 表示 mask_positions 中的相应位置是一个实际的掩码,0 表示它是 padding。

示例

基本用法。

masker = keras_hub.layers.MaskedLMMaskGenerator(
    vocabulary_size=10,
    mask_selection_rate=0.2,
    mask_token_id=0,
    mask_selection_length=5
)
# Dense input.
masker([1, 2, 3, 4, 5])

# Ragged input.
masker([[1, 2], [1, 2, 3, 4]])

掩码包含特殊 token 的批次。

pad_id, cls_id, sep_id, mask_id = 0, 1, 2, 3
batch = [
    [cls_id,   4,    5,      6, sep_id,    7,    8, sep_id, pad_id, pad_id],
    [cls_id,   4,    5, sep_id,      6,    7,    8,      9, sep_id, pad_id],
]

masker = keras_hub.layers.MaskedLMMaskGenerator(
    vocabulary_size = 10,
    mask_selection_rate = 0.2,
    mask_selection_length = 5,
    mask_token_id = mask_id,
    unselectable_token_ids = [
        cls_id,
        sep_id,
        pad_id,
    ]
)
masker(batch)