► Keras 3 API 文档 / 工具 / Python 和 NumPy 工具

Python 和 NumPy 工具

`set_random_seed` 函数

keras.utils.set_random_seed(seed)

设置所有随机种子（Python、NumPy 和后端框架，例如 TF）。

你可以使用此工具使几乎所有 Keras 程序完全确定。在涉及网络通信（例如参数服务器分布式）创建额外的随机源或涉及某些非确定性 cuDNN 操作的情况下存在一些限制。

调用此工具等效于以下操作：

import random
random.seed(seed)

import numpy as np
np.random.seed(seed)

import tensorflow as tf  # Only if TF is installed
tf.random.set_seed(seed)

import torch  # Only if the backend is 'torch'
torch.manual_seed(seed)

请注意，即使你未使用 TensorFlow 作为后端框架，也会设置 TensorFlow 种子，因为许多工作流程利用了 tf.data 管道（包含随机混洗）。同样，许多工作流程可能利用 NumPy API。

参数

seed：整数，要使用的随机种子。

[源代码]

`split_dataset` 函数

keras.utils.split_dataset(
    dataset, left_size=None, right_size=None, shuffle=False, seed=None
)

将数据集分割成左半部分和右半部分（例如，训练 / 测试）。

参数

dataset：一个 tf.data.Dataset，一个 torch.utils.data.Dataset 对象，或一个长度相同的数组列表/元组。
left_size：如果为浮点数（范围 [0, 1] 内），表示左数据集中的数据比例。如果为整数，表示左数据集中的样本数量。如果为 None，则默认为 right_size 的补数。默认为 None。
right_size：如果为浮点数（范围 [0, 1] 内），表示右数据集中的数据比例。如果为整数，表示右数据集中的样本数量。如果为 None，则默认为 left_size 的补数。默认为 None。
shuffle：布尔值，是否在分割数据之前混洗数据。
seed：用于混洗的随机种子。

返回值

一个包含两个 tf.data.Dataset 对象的元组：左分割和右分割。

示例

>>> data = np.random.random(size=(1000, 4))
>>> left_ds, right_ds = keras.utils.split_dataset(data, left_size=0.8)
>>> int(left_ds.cardinality())
800
>>> int(right_ds.cardinality())
200

[源代码]

`pack_x_y_sample_weight` 函数

keras.utils.pack_x_y_sample_weight(x, y=None, sample_weight=None)

将用户提供的数据打包成一个元组。

这是一个用于将数据打包成 Model.fit() 所使用的元组格式的便捷工具。

示例

>>> x = ops.ones((10, 1))
>>> data = pack_x_y_sample_weight(x)
>>> isinstance(data, ops.Tensor)
True
>>> y = ops.ones((10, 1))
>>> data = pack_x_y_sample_weight(x, y)
>>> isinstance(data, tuple)
True
>>> x, y = data

参数

x：要传递给 Model 的特征。
y：要传递给 Model 的真实目标。
sample_weight：每个元素的样本权重。

返回值

以 Model.fit() 中使用的格式表示的元组。

[源代码]

`get_file` 函数

keras.utils.get_file(
    fname=None,
    origin=None,
    untar=False,
    md5_hash=None,
    file_hash=None,
    cache_subdir="datasets",
    hash_algorithm="auto",
    extract=False,
    archive_format="auto",
    cache_dir=None,
    force_download=False,
)

如果文件尚未在缓存中，则从 URL 下载文件。

默认情况下，url origin 处的文件会下载到 cache_dir ~/.keras，放置在 cache_subdir datasets 中，并命名为 fname。因此，文件 example.txt 的最终位置将是 ~/.keras/datasets/example.txt。还可以提取 .tar、.tar.gz、.tar.bz 和 .zip 格式的文件。

传递哈希值将在下载后验证文件。命令行程序 shasum 和 sha256sum 可以计算哈希值。

示例

path_to_downloaded_file = get_file(
    origin="https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz",
    extract=True,
)

参数

fname：如果目标是单个文件，这是你希望的该文件的本地名称。如果为 None，则将使用 origin 处的文件名。如果下载并提取目录存档，提供的 fname 将用作提取目录名称（仅当它没有扩展名时）。
origin：文件的原始 URL。
untar：已弃用，请改用 extract 参数。布尔值，指示文件是否是 tar 存档并应被提取。
md5_hash：已弃用，请改用 file_hash 参数。用于文件完整性验证的文件的 md5 哈希值。
file_hash：下载后文件的预期哈希字符串。支持 sha256 和 md5 哈希算法。
cache_subdir：Keras 缓存目录下的子目录，文件保存在其中。如果指定了绝对路径，例如 "/path/to/folder"，则文件将保存在该位置。
hash_algorithm：选择用于验证文件的哈希算法。选项包括 "md5"、"sha256" 和 "auto"。默认的 'auto' 会检测正在使用的哈希算法。
extract：如果为 True，则提取存档。仅适用于压缩存档文件，如 tar 或 zip。
archive_format：尝试提取文件的存档格式。选项包括 "auto"、"tar"、"zip" 和 None。"tar" 包括 tar、tar.gz 和 tar.bz 文件。默认的 "auto" 对应于 ["tar", "zip"]。None 或空列表将返回未找到匹配项。
cache_dir：存储缓存文件的位置，如果为 None，则默认为 $KERAS_HOME（如果设置了 KERAS_HOME 环境变量）或 ~/.keras/。
force_download：如果为 True，则无论缓存状态如何，文件都将始终重新下载。

返回值

下载文件的路径。

⚠️ 关于恶意下载的警告 ⚠️

从互联网下载任何内容都存在风险。如果文件/存档的来源不可信，切勿下载。我们建议你指定 file_hash 参数（如果已知源文件的哈希值），以确保你获取的文件是你期望的文件。

[源代码]

`Progbar` 类

keras.utils.Progbar(
    target, width=20, verbose=1, interval=0.05, stateful_metrics=None, unit_name="step"
)

显示进度条。

参数

target：预期的总步数，未知时为 None。
width：屏幕上进度条的宽度。
verbose：详细模式，0（静默）、1（详细）、2（半详细）
stateful_metrics：字符串列表，其中包含那些不应随时间平均的评估指标的名称。此列表中的评估指标将按原样显示。所有其他评估指标将在显示之前由进度条平均。
interval：最小视觉进度更新间隔（以秒为单位）。
unit_name：步数计数的显示名称（通常是“step”或“sample”）。

[源代码]

`PyDataset` 类

keras.utils.PyDataset(workers=1, use_multiprocessing=False, max_queue_size=10)

用于使用 Python 代码定义并行数据集的基类。

每个 PyDataset 都必须实现 __getitem__() 和 __len__() 方法。如果你想在 epoch 之间修改数据集，还可以实现 on_epoch_end() 或 on_epoch_begin，它们将在每个 epoch 开始时调用。__getitem__() 方法应返回一个完整的批次（而不是单个样本），而 __len__ 方法应返回数据集中的批次数量（而不是样本数量）。

参数

workers：在多线程或多进程中使用的 worker 数量。
use_multiprocessing：是否使用 Python 多进程进行并行处理。将其设置为 True 意味着你的数据集将在多个分叉进程中复制。这对于从并行处理中获得计算级别（而非 I/O 级别）的好处是必要的。但是，只有当你的数据集可以安全地被 pickle 序列化时，才能将其设置为 True。
max_queue_size：在多线程或多进程设置下迭代数据集时，队列中要保留的最大批次数量。减小此值可减少数据集的 CPU 内存消耗。默认为 10。

注意

PyDataset 是一种更安全的执行多进程的方式。此结构保证模型每个 epoch 只在每个样本上训练一次，这与 Python 生成器不同。
参数 workers、use_multiprocessing 和 max_queue_size 用于配置 fit() 如何使用并行处理来迭代数据集。它们并非由 PyDataset 类直接使用。当你手动迭代 PyDataset 时，不会应用并行处理。

示例

from skimage.io import imread
from skimage.transform import resize
import numpy as np
import math

# Here, `x_set` is list of path to the images
# and `y_set` are the associated classes.

class CIFAR10PyDataset(keras.utils.PyDataset):

    def __init__(self, x_set, y_set, batch_size, **kwargs):
        super().__init__(**kwargs)
        self.x, self.y = x_set, y_set
        self.batch_size = batch_size

    def __len__(self):
        # Return number of batches.
        return math.ceil(len(self.x) / self.batch_size)

    def __getitem__(self, idx):
        # Return x, y for batch idx.
        low = idx * self.batch_size
        # Cap upper bound at array length; the last batch may be smaller
        # if the total number of items is not a multiple of batch size.
        high = min(low + self.batch_size, len(self.x))
        batch_x = self.x[low:high]
        batch_y = self.y[low:high]

        return np.array([
            resize(imread(file_name), (200, 200))
               for file_name in batch_x]), np.array(batch_y)

[源代码]

`to_categorical` 函数

keras.utils.to_categorical(x, num_classes=None)

将类别向量（整数）转换为二元类别矩阵。

例如，与 categorical_crossentropy 一起使用。

参数

x：类数组，其中包含要转换为矩阵的类别值（从 0 到 num_classes - 1 的整数）。
num_classes：总类别数。如果为 None，将推断为 max(x) + 1。默认为 None。

返回值

输入的二元矩阵表示形式，作为 NumPy 数组。类别轴放在最后。

示例

>>> a = keras.utils.to_categorical([0, 1, 2, 3], num_classes=4)
>>> print(a)
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

>>> b = np.array([.9, .04, .03, .03,
...               .3, .45, .15, .13,
...               .04, .01, .94, .05,
...               .12, .21, .5, .17]).reshape(4,4)
>>> loss = keras.ops.categorical_crossentropy(a, b)
>>> print(np.around(loss, 5))
[0.10536 0.82807 0.1011  1.77196]

>>> loss = keras.ops.categorical_crossentropy(a, a)
>>> print(np.around(loss, 5))
[0. 0. 0. 0.]

[源代码]

`normalize` 函数

keras.utils.normalize(x, axis=-1, order=2)

归一化数组。

如果输入是 NumPy 数组，将返回 NumPy 数组。如果它是后端张量，将返回后端张量。

参数

x：要归一化的数组。
axis：进行归一化的轴。
order：归一化阶数（例如，order=2 表示 L2 范数）。

返回值

数组的归一化副本。

Python 和 NumPy 工具

set_random_seed 函数

split_dataset 函数

pack_x_y_sample_weight 函数

get_file 函数

Progbar 类

PyDataset 类

to_categorical 函数

normalize 函数

Python 和 NumPy 工具

set_random_seed 函数

split_dataset 函数

pack_x_y_sample_weight 函数

get_file 函数

Progbar 类

PyDataset 类

to_categorical 函数

normalize 函数

`set_random_seed` 函数

`split_dataset` 函数

`pack_x_y_sample_weight` 函数

`get_file` 函数

`Progbar` 类

`PyDataset` 类

`to_categorical` 函数

`normalize` 函数