StringLookup 层

[源代码]

StringLookup

keras.layers.StringLookup(
    max_tokens=None,
    num_oov_indices=1,
    mask_token=None,
    oov_token="[UNK]",
    vocabulary=None,
    idf_weights=None,
    invert=False,
    output_mode="int",
    pad_to_max_tokens=False,
    sparse=False,
    encoding="utf-8",
    name=None,
    **kwargs
)

一个将字符串映射到(可能编码的)索引的预处理层。

该层通过基于表的词汇表查找,将一组任意字符串转换为整数输出。该层不会对输入字符串执行任何分割或转换。对于可以分割和分词自然语言的层,请参见 keras.layers.TextVectorization 层。

该层的词汇表必须在构建时提供或通过 adapt() 方法学习。在 adapt() 期间,该层将分析数据集,确定各个字符串标记的频率,并从中创建词汇表。如果词汇表的大小有限制,则将使用最常用的标记来创建词汇表,所有其他标记将被视为词汇表外 (OOV) 标记。

该层有两种可能的输出模式。当 output_mode"int" 时,输入字符串被转换为其在词汇表中的索引(一个整数)。当 output_mode"multi_hot""count""tf_idf" 时,输入字符串被编码为一个数组,其中每个维度对应于词汇表中的一个元素。

词汇表可以选择包含一个掩码标记以及一个 OOV 标记(可以根据 num_oov_indices 设置选择占用词汇表中的多个索引)。这些标记在词汇表中的位置是固定的。当 output_mode"int" 时,词汇表将以掩码标记(如果设置)开始,后跟 OOV 索引,再后跟词汇表的其余部分。当 output_mode"multi_hot""count""tf_idf" 时,词汇表将以 OOV 索引开始,并且输入中的掩码标记实例将被丢弃。

注意:该层内部使用 TensorFlow。除了 TensorFlow 之外,它不能作为任何后端模型编译计算图的一部分使用。但是,在 Eager 执行模式下,它可以与任何后端一起使用。它也可以始终作为输入预处理管道的一部分与任何后端一起使用(在模型本身之外),这也是我们推荐使用此层的方式。

注意:该层可以安全地在 tf.data 管道内部使用(无论您使用哪种后端)。

参数

  • max_tokens: 该层词汇表的最大大小。此参数仅在调整词汇表或设置 pad_to_max_tokens=True 时指定。如果为 None,则词汇表大小没有上限。请注意,此大小包含 OOV 和掩码标记。默认为 None
  • num_oov_indices: 要使用的词汇表外标记 (OOV) 的数量。如果此值大于 1,则 OOV 输入将被调整以确定其 OOV 值。如果此值为 0,则 OOV 输入在调用该层时将导致错误。默认为 1
  • mask_token: 代表掩码输入的标记。当 output_mode"int" 时,该标记包含在词汇表中并映射到索引 0。在其他输出模式下,该标记不会出现在词汇表中,并且输入中的掩码标记实例将被丢弃。如果设置为 None,则不会添加掩码项。默认为 None
  • oov_token: 仅当 invert 为 True 时使用。用于返回 OOV 索引的标记。默认为 "[UNK]"
  • vocabulary: 可选参数。可以是整数数组或文本文件路径。如果传递数组,可以传递包含整数词汇表项的元组、列表、一维 NumPy 数组或一维张量。如果传递文件路径,文件应包含词汇表中每项的一行。如果设置了此参数,则无需对该层进行 adapt()
  • vocabulary_dtype: 词汇表项的数据类型,例如 "int64""int32"。默认为 "int64"
  • idf_weights: 仅当 output_mode"tf_idf" 时有效。一个元组、列表、一维 NumPy 数组或一维张量,其长度与词汇表相同,包含浮点数的逆文档频率 (IDF) 权重,这些权重将与每个样本的词项计数相乘,得到最终的 TF-IDF 权重。如果设置了 vocabulary 参数,并且 output_mode"tf_idf",则必须提供此参数。
  • invert: 仅当 output_mode"int" 时有效。如果为 True,则该层将把索引映射到词汇表项,而不是将词汇表项映射到索引。默认为 False
  • output_mode: 该层输出的规范。值可以是 "int""one_hot""multi_hot""count""tf_idf",按如下方式配置该层
    • "int": 返回输入标记的词汇表索引。
    • "one_hot": 将输入中的每个独立元素编码为一个与词汇表大小相同的数组,并在元素索引处包含一个 1。如果最后一个维度的大小为 1,将在该维度上进行编码。如果最后一个维度的大小不为 1,将为编码输出附加一个新的维度。
    • "multi_hot": 将输入中的每个样本编码为一个与词汇表大小相同的单个数组,对样本中存在的每个词汇表项包含一个 1。将最后一个维度视为样本维度,如果输入形状为 (..., sample_length),输出形状将为 (..., num_tokens)
    • "count": 与 "multi_hot" 类似,但整数数组包含该索引处标记在样本中出现的次数计数。
    • "tf_idf": 与 "multi_hot" 类似,但应用 TF-IDF 算法来查找每个标记槽中的值。对于 "int" 输出,支持任何形状的输入和输出。对于所有其他输出模式,目前仅支持秩高达 2 的输出。默认为 "int"
  • pad_to_max_tokens: 仅当 output_mode"multi_hot""count""tf_idf" 时适用。如果为 True,即使词汇表中唯一标记的数量少于 max_tokens,输出的特征轴也将填充到 max_tokens,从而无论词汇表大小如何,都会得到形状为 (batch_size, max_tokens) 的张量。默认为 False
  • sparse: 布尔值。仅适用于 "multi_hot""count""tf_idf" 输出模式。仅支持 TensorFlow 后端。如果为 True,则返回 SparseTensor 而不是密集 Tensor。默认为 False
  • encoding: 可选参数。用于解释输入字符串的文本编码。默认为 "utf-8"

示例

使用已知词汇表创建查找层

此示例使用预先存在的词汇表创建查找层。

>>> vocab = ["a", "b", "c", "d"]
>>> data = [["a", "c", "d"], ["d", "z", "b"]]
>>> layer = StringLookup(vocabulary=vocab)
>>> layer(data)
array([[1, 3, 4],
       [4, 0, 2]])

使用自适应词汇表创建查找层

此示例创建查找层并通过分析数据集生成词汇表。

>>> data = [["a", "c", "d"], ["d", "z", "b"]]
>>> layer = StringLookup()
>>> layer.adapt(data)
>>> layer.get_vocabulary()
['[UNK]', 'd', 'z', 'c', 'b', 'a']

请注意,OOV 标记 "[UNK]" 已添加到词汇表中。其余标记按频率排序("d" 出现 2 次,排在第一位),然后按逆序排序。

>>> data = [["a", "c", "d"], ["d", "z", "b"]]
>>> layer = StringLookup()
>>> layer.adapt(data)
>>> layer(data)
array([[5, 3, 1],
       [1, 2, 4]])

使用多个 OOV 索引进行查找

此示例演示如何使用具有多个 OOV 索引的查找层。当创建的层具有一个以上的 OOV 索引时,任何 OOV 值都将被哈希到 OOV 桶的数量中,从而以确定性方式在集合中分布 OOV 值。

>>> vocab = ["a", "b", "c", "d"]
>>> data = [["a", "c", "d"], ["m", "z", "b"]]
>>> layer = StringLookup(vocabulary=vocab, num_oov_indices=2)
>>> layer(data)
array([[2, 4, 5],
       [0, 1, 3]])

请注意,OOV 值 'm' 的输出为 0,而 OOV 值 "z" 的输出为 1。词汇表中的词项的输出索引比前面的示例增加了 1('a' 映射到 2 等),以便为额外的 OOV 值腾出空间。

One-hot 输出

使用 output_mode='one_hot' 配置该层。请注意,one-hot 编码中的前 num_oov_indices 个维度代表 OOV 值。

>>> vocab = ["a", "b", "c", "d"]
>>> data = ["a", "b", "c", "d", "z"]
>>> layer = StringLookup(vocabulary=vocab, output_mode='one_hot')
>>> layer(data)
array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [1., 0., 0., 0., 0.]], dtype=int64)

Multi-hot 输出

使用 output_mode='multi_hot' 配置该层。请注意,multi-hot 编码中的前 num_oov_indices 个维度代表 OOV 值。

>>> vocab = ["a", "b", "c", "d"]
>>> data = [["a", "c", "d", "d"], ["d", "z", "b", "z"]]
>>> layer = StringLookup(vocabulary=vocab, output_mode='multi_hot')
>>> layer(data)
array([[0., 1., 0., 1., 1.],
       [1., 0., 1., 0., 1.]], dtype=int64)

标记计数输出

使用 output_mode='count' 配置该层。与 multi-hot 输出一样,输出中的前 num_oov_indices 个维度代表 OOV 值。

>>> vocab = ["a", "b", "c", "d"]
>>> data = [["a", "c", "d", "d"], ["d", "z", "b", "z"]]
>>> layer = StringLookup(vocabulary=vocab, output_mode='count')
>>> layer(data)
array([[0., 1., 0., 1., 2.],
       [2., 0., 1., 0., 1.]], dtype=int64)

TF-IDF 输出

使用 output_mode="tf_idf" 配置该层。与 multi-hot 输出一样,输出中的前 num_oov_indices 个维度代表 OOV 值。

每个标记桶将输出 token_count * idf_weight,其中 idf 权重是每个标记的逆文档频率权重。这些应与词汇表一起提供。请注意,OOV 值的 idf_weight 默认将为传入的所有 idf 权重的平均值。

>>> vocab = ["a", "b", "c", "d"]
>>> idf_weights = [0.25, 0.75, 0.6, 0.4]
>>> data = [["a", "c", "d", "d"], ["d", "z", "b", "z"]]
>>> layer = StringLookup(output_mode="tf_idf")
>>> layer.set_vocabulary(vocab, idf_weights=idf_weights)
>>> layer(data)
array([[0.  , 0.25, 0.  , 0.6 , 0.8 ],
       [1.0 , 0.  , 0.75, 0.  , 0.4 ]], dtype=float32)

要指定 OOV 值的 idf 权重,需要传递整个词汇表,包括开头的 OOV 标记。

>>> vocab = ["[UNK]", "a", "b", "c", "d"]
>>> idf_weights = [0.9, 0.25, 0.75, 0.6, 0.4]
>>> data = [["a", "c", "d", "d"], ["d", "z", "b", "z"]]
>>> layer = StringLookup(output_mode="tf_idf")
>>> layer.set_vocabulary(vocab, idf_weights=idf_weights)
>>> layer(data)
array([[0.  , 0.25, 0.  , 0.6 , 0.8 ],
       [1.8 , 0.  , 0.75, 0.  , 0.4 ]], dtype=float32)

"tf_idf" 模式下自适应该层时,每个输入样本将被视为一个文档,每个标记的 IDF 权重将计算为 log(1 + num_documents / (1 + token_document_count))

逆向查找

此示例演示如何使用该层将索引映射到字符串。(您也可以使用 inverse=Trueadapt() 方法,但为了简单起见,在此示例中我们将直接传递词汇表。)

>>> vocab = ["a", "b", "c", "d"]
>>> data = [[1, 3, 4], [4, 0, 2]]
>>> layer = StringLookup(vocabulary=vocab, invert=True)
>>> layer(data)
array([[b'a', b'c', b'd'],
       [b'd', b'[UNK]', b'b']], dtype=object)

请注意,第一个索引默认对应于 OOV 标记。

正向和逆向查找对

此示例演示如何使用标准查找层的词汇表来创建逆向查找层。

>>> vocab = ["a", "b", "c", "d"]
>>> data = [["a", "c", "d"], ["d", "z", "b"]]
>>> layer = StringLookup(vocabulary=vocab)
>>> i_layer = StringLookup(vocabulary=vocab, invert=True)
>>> int_data = layer(data)
>>> i_layer(int_data)
array([[b'a', b'c', b'd'],
       [b'd', b'[UNK]', b'b']], dtype=object)

在此示例中,输入值 "z" 导致输出为 "[UNK]",因为 1000 不在词汇表中 - 它被表示为 OOV,并且所有 OOV 值在逆向层中都返回为 "[UNK]"。另请注意,为了使逆向查找起作用,您必须在调用 get_vocabulary() 之前通过直接设置或通过 adapt() 方法已经设置了正向层的词汇表。