无
入门 开发者指南 代码示例 Keras 3 API 文档 Keras 2 API 文档 KerasTuner: 超参数调优 KerasHub: 预训练模型 入门 开发者指南 API 文档 建模 API 模型架构 分词器 预处理层 建模层 采样器 评估指标 预训练模型列表 KerasRS
keras.io logo
  • 入门
  • 指南
  • API
  • 示例
  • Keras Tuner
  • Keras RS
  • Keras Hub
KerasHub: 预训练模型
入门 开发者指南 API 文档 建模 API 模型架构 分词器 预处理层 建模层 采样器 评估指标 预训练模型列表
► KerasHub: 预训练模型 / API 文档 / KerasHub 分词器

KerasHub 分词器

分词器将原始字符串输入转换为适合 Keras Embedding 层的整数输入。它们也可以将预测的整数序列转换回原始字符串输出。

所有分词器都是 keras_hub.tokenizers.Tokenizer 的子类,后者又是 keras.layers.Layer 的子类。分词器通常应该在训练时应用于 tf.data.Dataset.map 中,并在推理时包含在 keras.Model 中。

Tokenizer

  • Tokenizer 类
  • from_preset 方法
  • save_to_preset 方法

WordPieceTokenizer

  • WordPieceTokenizer 类
  • tokenize 方法
  • detokenize 方法
  • get_vocabulary 方法
  • vocabulary_size 方法
  • token_to_id 方法
  • id_to_token 方法

SentencePieceTokenizer

  • SentencePieceTokenizer 类
  • tokenize 方法
  • detokenize 方法
  • get_vocabulary 方法
  • vocabulary_size 方法
  • token_to_id 方法
  • id_to_token 方法

BytePairTokenizer

  • BytePairTokenizer 类
  • tokenize 方法
  • detokenize 方法
  • get_vocabulary 方法
  • vocabulary_size 方法
  • token_to_id 方法
  • id_to_token 方法

ByteTokenizer

  • ByteTokenizer 类
  • tokenize 方法
  • detokenize 方法
  • get_vocabulary 方法
  • vocabulary_size 方法
  • token_to_id 方法
  • id_to_token 方法

UnicodeCodepointTokenizer

  • UnicodeCodepointTokenizer 类
  • tokenize 方法
  • detokenize 方法
  • get_vocabulary 方法
  • vocabulary_size 方法
  • token_to_id 方法
  • id_to_token 方法

compute_word_piece_vocabulary 函数

  • compute_word_piece_vocabulary 函数

compute_sentence_piece_proto 函数

  • compute_sentence_piece_proto 函数
KerasHub 分词器
Tokenizer
WordPieceTokenizer
SentencePieceTokenizer
BytePairTokenizer
ByteTokenizer
UnicodeCodepointTokenizer
compute_word_piece_vocabulary 函数
compute_sentence_piece_proto 函数
条款
|
隐私