load_data 函数keras.datasets.reuters.load_data(
path="reuters.npz",
num_words=None,
skip_top=0,
maxlen=None,
test_split=0.2,
seed=113,
start_char=1,
oov_char=2,
index_from=3,
)
加载路透社新闻分类数据集。
这是一个包含 11,228 篇路透社新闻的 dataset,分为 46 个主题。
最初是通过解析和预处理经典的 Reuters-21578 数据集生成的,但预处理代码不再随 Keras 一起打包。有关更多信息,请参阅此 GitHub 讨论。
每篇新闻都编码为一个单词索引(整数)列表。为了方便起见,单词按数据集中出现的频率排序,例如,整数“3”编码了数据中第 3 个最常见的单词。这允许进行快速过滤操作,例如:“仅考虑前 10,000 个最常见的单词,但排除前 20 个最常见的单词”。
按照惯例,“0”不代表特定单词,而是用于编码任何未知单词。
参数
~/.keras/dataset)。num_words 个最常见的单词。任何不常见的单词将在序列数据中显示为 oov_char 值。如果为 None,则保留所有单词。默认为 None。oov_char 值。0 表示不跳过任何单词。默认为 0。None。0. 和 1. 之间的浮点数。用作测试数据的数据集的比例。0.2 表示 20% 的数据集用作测试数据。默认为 0.2。1。num_words 或 skip_top 限制而被切除的词语将替换为此字符。返回
(x_train, y_train), (x_test, y_test)。x_train, x_test:序列列表,即索引(整数)列表。如果指定了 num_words 参数,则可能的最大索引值为 num_words - 1。如果指定了 maxlen 参数,则可能的最大序列长度为 maxlen。
y_train, y_test:整数标签列表(1 或 0)。
注意:“词汇外”字符仅用于在训练集中出现但由于未达到 num_words 的限制而被排除的单词。在训练集中未见过但在测试集中出现的单词已被完全跳过。
get_word_index 函数keras.datasets.reuters.get_word_index(path="reuters_word_index.json")
检索一个将单词映射到其在路透社数据集中的索引的字典。
实际的单词索引从 3 开始,其中 3 个索引保留给:0(填充)、1(开始)、2(词汇外)。
例如,'the' 的单词索引是 1,但在实际的训练数据中,'the' 的索引将是 1 + 3 = 4。反之,要使用此映射将训练数据中的单词索引转换回单词,需要将索引减去 3。
参数
~/.keras/dataset)。返回
词语索引字典。键是词语字符串,值是其索引。