load_data 函数keras.datasets.imdb.load_data(
path="imdb.npz",
num_words=None,
skip_top=0,
maxlen=None,
seed=113,
start_char=1,
oov_char=2,
index_from=3,
**kwargs
)
加载 IMDB 数据集。
这是一个包含 25,000 条 IMDB 电影评论的数据集,并带有情感(正面/负面)标签。评论已预处理,每条评论都编码为单词索引(整数)列表。为方便起见,单词按其在数据集中出现的频率排序,例如整数 "3" 编码了数据集中出现频率排名前 3 的单词。这使得可以快速进行过滤操作,例如:“仅考虑出现频率最高的前 10,000 个单词,但排除出现频率最高的前 20 个单词”。
惯例上,"0" 不代表特定的单词,而是用于编码填充(pad)标记。
参数
~/.keras/dataset)。num_words 个最常见的单词。任何不常见的单词将在序列数据中显示为 oov_char 值。如果为 None,则保留所有单词。默认为 None。oov_char 值。当为 0 时,不跳过任何单词。默认为 0。None。1。num_words 或 skip_top 限制而被切除的词语将替换为此字符。返回
(x_train, y_train), (x_test, y_test)。x_train, x_test:序列列表,其中每个序列是索引(整数)列表。如果指定了 num_words 参数,则可能的最大索引值为 num_words - 1。如果指定了 maxlen 参数,则可能的最大序列长度为 maxlen。
y_train, y_test:整数标签列表(1 或 0)。
注意:"词汇外"(out of vocabulary)字符仅用于训练集中存在但在 num_words 限制内未包含的单词。在训练集中未出现但在测试集中出现的单词已被简单地跳过。
get_word_index 函数keras.datasets.imdb.get_word_index(path="imdb_word_index.json")
检索一个将单词映射到其在 IMDB 数据集中索引的字典。
参数
~/.keras/dataset)。返回
词语索引字典。键是词语字符串,值是其索引。
示例
# Use the default parameters to keras.datasets.imdb.load_data
start_char = 1
oov_char = 2
index_from = 3
# Retrieve the training sequences.
(x_train, _), _ = keras.datasets.imdb.load_data(
start_char=start_char, oov_char=oov_char, index_from=index_from
)
# Retrieve the word index file mapping words to indices
word_index = keras.datasets.imdb.get_word_index()
# Reverse the word index to obtain a dict mapping indices to words
# And add `index_from` to indices to sync with `x_train`
inverted_word_index = dict(
(i + index_from, word) for (word, i) in word_index.items()
)
# Update `inverted_word_index` to include `start_char` and `oov_char`
inverted_word_index[start_char] = "[START]"
inverted_word_index[oov_char] = "[OOV]"
# Decode the first sequence in the dataset
decoded_sequence = " ".join(inverted_word_index[i] for i in x_train[0])