KerasHub:预训练模型 / API 文档 / 预处理层 / MultiSegmentPacker 层

MultiSegmentPacker 层

[源代码]

MultiSegmentPacker

keras_hub.layers.MultiSegmentPacker(
    sequence_length,
    start_value,
    end_value,
    sep_value=None,
    pad_value=None,
    truncate="round_robin",
    **kwargs
)

将多个序列打包成单个固定宽度的模型输入。

此层将多个输入序列打包成一个包含起始和结束分隔符的固定宽度序列,形成适用于 BERT 和类 BERT 模型的分类任务的密集输入。

接受 token 段元组作为输入。每个元组元素应包含一个段的 token,以张量、tf.RaggedTensor 或列表的形式传递。对于批量输入,段元组中的每个元素应为列表的列表或秩为 2 的张量。对于非批量输入,每个元素应为列表或秩为 1 的张量。

该层将按如下方式处理输入: - 根据 truncate 策略,截断所有输入段以适应 sequence_length。 - 连接所有输入段,在整个序列的开头添加单个 start_value,并在每个段的末尾添加多个 end_value。 - 使用 pad_tokens 将结果序列填充到 sequence_length。 - 计算一个单独的“段 ID”张量,其类型为整数,形状与打包的 token 输出相同,其中每个整数索引表示 token 的来源段。start_value 的段 ID 始终为 0,每个 end_value 的段 ID 是其前面的段。

参数

  • sequence_length: int。期望的输出长度。
  • start_value: int/str/list/tuple。将放置在每个序列开头的 ID 或 token(在 BERT 中称为 “[CLS]”)。dtype 必须与层输入张量的 dtype 匹配。
  • end_value: int/str/list/tuple。将放置在最后一个输入段末尾的 ID 或 token(在 BERT 中称为 “[SEP]”)。dtype 必须与层输入张量的 dtype 匹配。
  • sep_value: int/str/list/tuple。将放置在除最后一个段之外的每个段末尾的 ID 或 token(在 BERT 中称为 “[SEP]”)。如果为 None,则使用 end_value。dtype 必须与层输入张量的 dtype 匹配。
  • pad_value: int/str。将放置在序列中最后一个段之后未使用的位置中的 ID 或 token(在 BERT 中称为 “[PAD]”)。
  • truncate: str。用于截断批量段列表以适应每个示例长度限制的算法。值可以是 "round_robin""waterfall"
    • "round_robin":可用空间以轮询方式一次分配一个 token 给仍然需要 token 的输入,直到达到限制。
    • "waterfall":预算的分配使用“瀑布”算法完成,该算法以从左到右的方式分配配额并填充存储桶,直到我们用完预算。它支持任意数量的段。

返回

一个包含两个元素的元组。第一个是密集的、打包的 token 序列。第二个是形状相同的整数张量,包含段 ID。

示例

为分类打包单个输入。

>>> seq1 = [1, 2, 3, 4]
>>> packer = keras_hub.layers.MultiSegmentPacker(
...     sequence_length=8, start_value=101, end_value=102
... )
>>> token_ids, segment_ids = packer((seq1,))
>>> np.array(token_ids)
array([101, 1, 2, 3, 4, 102, 0, 0], dtype=int32)
>>> np.array(segment_ids)
array([0, 0, 0, 0, 0, 0, 0, 0], dtype=int32)

为分类打包多个输入。

>>> seq1 = [1, 2, 3, 4]
>>> seq2 = [11, 12, 13, 14]
>>> packer = keras_hub.layers.MultiSegmentPacker(
...     sequence_length=8, start_value=101, end_value=102
... )
>>> token_ids, segment_ids = packer((seq1, seq2))
>>> np.array(token_ids)
array([101, 1, 2, 3, 102,  11,  12, 102], dtype=int32)
>>> np.array(segment_ids)
array([0, 0, 0, 0, 0, 1, 1, 1], dtype=int32)

为分类打包具有不同 sep token 的多个输入。

>>> seq1 = [1, 2, 3, 4]
>>> seq2 = [11, 12, 13, 14]
>>> packer = keras_hub.layers.MultiSegmentPacker(
...     sequence_length=8,
...     start_value=101,
...     end_value=102,
...     sep_value=[102, 102],
... )
>>> token_ids, segment_ids = packer((seq1, seq2))
>>> np.array(token_ids)
array([101,   1,   2, 102, 102,  11,  12, 102], dtype=int32)
>>> np.array(segment_ids)
array([0, 0, 0, 0, 0, 1, 1, 1], dtype=int32)

参考

Devlin 等人,2018.