► KerasHub: 预训练模型 / API 文档 / 预处理层 / MaskedLMMaskGenerator 层

MaskedLMMaskGenerator 层

`MaskedLMMaskGenerator` 类

keras_hub.layers.MaskedLMMaskGenerator(
    vocabulary_size,
    mask_selection_rate,
    mask_token_id,
    mask_selection_length=None,
    unselectable_token_ids=[0],
    mask_token_rate=0.8,
    random_token_rate=0.1,
    **kwargs
)

应用语言模型掩码的层。

此层用于为掩码语言建模（MaskedLM）任务准备输入。它遵循原始 BERT 论文中描述的掩码策略。给定分词文本，它随机选择一定数量的词元进行掩码。然后对于每个选定的词元，它有机会（可配置）被替换为“掩码词元”或随机词元，或保持不变。

输入数据应作为张量、tf.RaggedTensors 或列表传递。对于批处理输入，输入应为列表的列表或二维张量。对于未批处理输入，每个元素应为列表或一维张量。

此层可与 tf.data 一起使用，以便在训练期间动态生成掩码。

参数

vocabulary_size：int，词汇表的大小。
mask_selection_rate：float，词元被选中进行掩码的概率。
mask_token_id：int。掩码词元的 ID。
mask_selection_length：int。每个序列中选定用于掩码的词元的最大数量。如果设置，输出 mask_positions、mask_ids 和 mask_weights 将填充为长度为 mask_selection_length 的密集张量，否则输出将是 RaggedTensor。默认为 None。
unselectable_token_ids：不应被视为符合掩码条件的词元 ID 列表。默认情况下，我们假定 0 对应于填充词元并忽略它。默认为 [0]。
mask_token_rate：float。mask_token_rate 必须在 0 到 1 之间，表示掩码词元替代被选中用于掩码的词元的频率。默认为 0.8。
random_token_rate：float。random_token_rate 必须在 0 到 1 之间，表示随机词元替代被选中用于掩码的词元的频率。注意：mask_token_rate + random_token_rate <= 1，并且对于 (1 - mask_token_rate - random_token_rate)，词元将保持不变。默认为 0.1。

一个包含 4 个键的字典：token_ids：Tensor 或 RaggedTensor，与输入具有相同的类型和形状。掩码后的序列。mask_positions：Tensor，如果 mask_selection_length 为 None 则为 RaggedTensor。被掩码的 token_ids 的位置。mask_ids：Tensor，如果 mask_selection_length 为 None 则为 RaggedTensor。掩码位置的原始词元 ID。mask_weights：Tensor，如果 mask_selection_length 为 None 则为 RaggedTensor。mask_weights 与 mask_positions 和 mask_ids 具有相同的形状。mask_weights 中的每个元素应为 0 或 1，1 表示 mask_positions 中的相应位置是实际掩码，0 表示它是填充。

示例

基本用法。

masker = keras_hub.layers.MaskedLMMaskGenerator(
    vocabulary_size=10,
    mask_selection_rate=0.2,
    mask_token_id=0,
    mask_selection_length=5
)
# Dense input.
masker([1, 2, 3, 4, 5])

# Ragged input.
masker([[1, 2], [1, 2, 3, 4]])

掩码包含特殊词元的批次。

pad_id, cls_id, sep_id, mask_id = 0, 1, 2, 3
batch = [
    [cls_id,   4,    5,      6, sep_id,    7,    8, sep_id, pad_id, pad_id],
    [cls_id,   4,    5, sep_id,      6,    7,    8,      9, sep_id, pad_id],
]

masker = keras_hub.layers.MaskedLMMaskGenerator(
    vocabulary_size = 10,
    mask_selection_rate = 0.2,
    mask_selection_length = 5,
    mask_token_id = mask_id,
    unselectable_token_ids = [
        cls_id,
        sep_id,
        pad_id,
    ]
)
masker(batch)

MaskedLMMaskGenerator 层

MaskedLMMaskGenerator 类

MaskedLMMaskGenerator 层

MaskedLMMaskGenerator 类

`MaskedLMMaskGenerator` 类