► Keras 2 API 文档 / 数据加载 / 时间序列数据加载

时间序列数据加载

`timeseries_dataset_from_array` 函数

tf_keras.utils.timeseries_dataset_from_array(
    data,
    targets,
    sequence_length,
    sequence_stride=1,
    sampling_rate=1,
    batch_size=128,
    shuffle=False,
    seed=None,
    start_index=None,
    end_index=None,
)

创建一个基于数组提供的时间序列的滑动窗口数据集。

此函数接收以相等间隔收集的数据点序列，以及时间序列参数（例如序列/窗口的长度、两个序列/窗口之间的间距等），以生成时间序列输入和目标的批次。

参数

data：包含连续数据点（时间步长）的 NumPy 数组或 Eager 张量。预期轴 0 为时间维度。
targets：对应于 data 中时间步长的目标。targets[i] 应该是对应于从索引 i 开始的窗口的目标（请参见下面的示例 2）。如果您没有目标数据，则传递 None（在这种情况下，数据集将仅产生输入数据）。
sequence_length：输出序列的长度（以时间步长数表示）。
sequence_stride：连续输出序列之间的周期。对于步长 s，输出样本将从索引 data[i]、data[i + s]、data[i + 2 * s] 等开始。
sampling_rate：序列内连续单个时间步长之间的周期。对于速率 r，时间步长 data[i], data[i + r], ... data[i + sequence_length] 用于创建样本序列。
batch_size：每个批次中的时间序列样本数（最后一个批次可能除外）。如果为 None，则数据不会被批处理（数据集将产生单个样本）。
shuffle：是否随机打乱输出样本，或者按时间顺序提取样本。
seed：可选 int；随机打乱的种子。
start_index：可选 int；早于 start_index（不包含）的数据点将不会用于输出序列。这对于保留部分数据用于测试或验证很有用。
end_index：可选 int；晚于 end_index（不包含）的数据点将不会用于输出序列。这对于保留部分数据用于测试或验证很有用。

返回值

一个 tf.data.Dataset 实例。如果传递了 targets，则数据集将产生元组 (batch_of_sequences, batch_of_targets)。否则，数据集仅产生 batch_of_sequences。

示例 1

考虑索引 [0, 1, ... 98]。使用 sequence_length=10, sampling_rate=2, sequence_stride=3、shuffle=False，数据集将产生由以下索引组成的序列批次

First sequence:  [0  2  4  6  8 10 12 14 16 18]
Second sequence: [3  5  7  9 11 13 15 17 19 21]
Third sequence:  [6  8 10 12 14 16 18 20 22 24]
...
Last sequence:   [78 80 82 84 86 88 90 92 94 96]

在这种情况下，最后 2 个数据点被丢弃，因为无法生成包含它们的完整序列（下一个序列将从索引 81 开始，因此其最后一个步骤将超过 98）。

示例 2：时间回归。

考虑一个形状为 (steps,) 的标量值的数组 data。要生成一个使用过去 10 个时间步长预测下一个时间步长的数据集，可以使用

data = tf.range(15)
sequence_length = 10
input_data = data[:]
targets = data[sequence_length:]
dataset = tf.keras.utils.timeseries_dataset_from_array(
    input_data, targets, sequence_length=sequence_length
)
for batch in dataset:
  inputs, targets = batch
  # First sequence: steps [0-9]
  assert np.array_equal(inputs[0], data[:sequence_length])
  # Corresponding target: step 10
  assert np.array_equal(targets[0], data[sequence_length])
  break
# To view the generated dataset
for batch in dataset.as_numpy_iterator():
  input, label = batch
  print(f"Input:{input}, target:{label}")

示例 3：多对多架构的时间回归。

考虑两个标量值数组 X 和 Y，它们都具有形状 (100,)。生成的数据集应包含每个包含 20 个时间戳的样本。样本不应重叠。要生成一个使用当前时间戳预测对应目标时间戳的数据集，可以使用

X = np.arange(100)
Y = X*2

sample_length = 20
input_dataset = tf.keras.utils.timeseries_dataset_from_array(
    X, None, sequence_length=sample_length, sequence_stride=sample_length)
target_dataset = tf.keras.utils.timeseries_dataset_from_array(
    Y, None, sequence_length=sample_length, sequence_stride=sample_length)

for batch in zip(input_dataset, target_dataset):
    inputs, targets = batch
    assert np.array_equal(inputs[0], X[:sample_length])

    # second sample equals output timestamps 20-40
    assert np.array_equal(targets[1], Y[sample_length:2*sample_length])
    break

时间序列数据加载

timeseries_dataset_from_array 函数

时间序列数据加载

timeseries_dataset_from_array 函数

`timeseries_dataset_from_array` 函数