Keras 3 API 文档 / 工具函数 / Python & NumPy 工具函数

Python 和 NumPy 实用工具

[源代码]

set_random_seed 函数

keras.utils.set_random_seed(seed)

设置所有随机种子(Python、NumPy 和后端框架,例如 TF)。

您可以使用此实用程序使几乎所有 Keras 程序完全确定化。在涉及网络通信(例如参数服务器分布式)的情况下,这会产生额外的随机源,或者在涉及某些非确定性 cuDNN 操作时,存在一些限制。

调用此实用程序等同于以下操作

import random
random.seed(seed)

import numpy as np
np.random.seed(seed)

import tensorflow as tf  # Only if TF is installed
tf.random.set_seed(seed)

import torch  # Only if the backend is 'torch'
torch.manual_seed(seed)

即使您不使用 TensorFlow 作为后端框架,也会设置 TensorFlow 种子,因为许多工作流程利用 tf.data 流水线(具有随机混洗功能)。同样,许多工作流程也可能利用 NumPy API。

参数

  • seed:整数,要使用的随机种子。

[源代码]

split_dataset 函数

keras.utils.split_dataset(
    dataset,
    left_size=None,
    right_size=None,
    shuffle=False,
    seed=None,
    preferred_backend=None,
)

将数据集拆分为左半部分和右半部分(例如,训练/测试)。

参数

  • datasettf.data.Datasettorch.utils.data.Dataset 对象或长度相同的数组列表/元组。
  • left_size:如果为浮点数(范围为 [0, 1]),则表示左数据集中的数据比例。如果为整数,则表示左数据集中要包含的样本数。如果为 None,则默认为 right_size 的补集。默认为 None
  • right_size:如果为浮点数(范围为 [0, 1]),则表示右数据集中的数据比例。如果为整数,则表示右数据集中要包含的样本数。如果为 None,则默认为 left_size 的补集。默认为 None
  • shuffle:布尔值,是否在分割数据之前进行混洗。
  • seed:混洗的随机种子。
  • preferred_backend:字符串,指定要使用的后端(例如,“tensorflow”、“torch”)。如果为 None,则从 dataset 的类型推断后端 - 如果 datasettf.data.Dataset,则使用“tensorflow”后端;如果 datasettorch.utils.data.Dataset,则使用“torch”后端;如果 dataset 是列表/元组/np.array,则使用当前的 Keras 后端。默认为 None

返回

包含两个数据集对象的元组,分别为左拆分和右拆分。返回对象的确切类型取决于 preferred_backend。例如,对于“tensorflow”后端,将返回 tf.data.Dataset 对象。对于“torch”后端,将返回 torch.utils.data.Dataset 对象。

示例

>>> data = np.random.random(size=(1000, 4))
>>> left_ds, right_ds = keras.utils.split_dataset(data, left_size=0.8)
>>> # For a tf.data.Dataset, you can use .cardinality()
>>> # >>> int(left_ds.cardinality())
>>> # 800
>>> # For a torch.utils.data.Dataset, you can use len()
>>> # >>> len(left_ds)
>>> # 800

[源代码]

pack_x_y_sample_weight 函数

keras.utils.pack_x_y_sample_weight(x, y=None, sample_weight=None)

将用户提供的数据打包到元组中。

这是一个方便的实用程序,用于将数据打包到 Model.fit() 使用的元组格式中。

示例

>>> x = ops.ones((10, 1))
>>> data = pack_x_y_sample_weight(x)
>>> isinstance(data, ops.Tensor)
True
>>> y = ops.ones((10, 1))
>>> data = pack_x_y_sample_weight(x, y)
>>> isinstance(data, tuple)
True
>>> x, y = data

参数

  • x:要传递给 Model 的特征。
  • y:要传递给 Model 的真实目标。
  • sample_weight:每个元素的样本权重。

返回

Model.fit() 中使用的格式的元组。


[源代码]

get_file 函数

keras.utils.get_file(
    fname=None,
    origin=None,
    untar=False,
    md5_hash=None,
    file_hash=None,
    cache_subdir="datasets",
    hash_algorithm="auto",
    extract=False,
    archive_format="auto",
    cache_dir=None,
    force_download=False,
)

如果文件不在缓存中,则从 URL 下载文件。

默认情况下,URL origin 处的文件的缓存目录为 ~/.keras,子目录为 datasets,文件名设置为 fname。因此,文件 example.txt 的最终位置将是 ~/.keras/datasets/example.txt.tar.tar.gz.tar.bz.zip 格式的文件也可以解压。

提供哈希值将验证下载后的文件。可以使用命令行程序 shasumsha256sum 计算哈希值。

示例

path_to_downloaded_file = get_file(
    origin="https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz",
    extract=True
)

参数

  • fname:如果目标是单个文件,则这是您希望为文件指定的本地名称。如果为 None,将使用 origin 处的文件名。如果下载并解压一个目录存档,提供的 fname 将用作解压目录名(仅当其没有扩展名时)。
  • origin:文件的原始 URL。
  • untar:已弃用,改用 extract 参数。布尔值,表示文件是否为应解压的 tar 存档。
  • md5_hash:已弃用,改用 file_hash 参数。文件的 md5 哈希值,用于文件完整性验证。
  • file_hash:下载后文件的预期哈希字符串。支持 sha256 和 md5 哈希算法。
  • cache_subdir:Keras 缓存目录下的子目录,文件将保存在该目录中。如果指定了绝对路径,例如 "/path/to/folder",则文件将保存在该位置。
  • hash_algorithm:选择用于验证文件的哈希算法。选项为 "md5'"sha256'"auto'。默认的 "auto" 会检测正在使用的哈希算法。
  • extract:如果为 True,则解压存档。仅适用于压缩存档文件,如 tar 或 zip。
  • archive_format:用于尝试解压文件的存档格式。选项为 "auto'"tar'"zip'None"tar" 包括 tar、tar.gz 和 tar.bz 文件。默认的 "auto" 对应于 ["tar", "zip"]。None 或空列表将表示未找到匹配项。
  • cache_dir:用于存储缓存文件的位置。如果为 None,则默认为 $KERAS_HOME(如果设置了 KERAS_HOME 环境变量)或 ~/.keras/
  • force_download:如果为 True,则无论缓存状态如何,文件都将始终重新下载。

返回

下载文件的路径。

⚠️ 关于恶意下载的警告 ⚠️

从互联网下载内容存在风险。切勿下载您不信任来源的文件/存档。我们建议您指定 file_hash 参数(如果源文件的哈希值已知),以确保您获得的文件是您期望的文件。


[源代码]

Progbar

keras.utils.Progbar(
    target, width=20, verbose=1, interval=0.05, stateful_metrics=None, unit_name="step"
)

显示进度条。

参数

  • target:预期的总步数,如果未知则为 None。
  • width:屏幕上的进度条宽度。
  • verbose:详细程度模式,0(静默)、1(详细)、2(半详细)
  • stateful_metrics:应随时间平均的指标的字符串名称的可迭代对象。此列表中的指标将按原样显示。所有其他指标将在显示前由 progbar 平均。
  • interval:最小的视觉进度更新间隔(秒)。
  • unit_name:步数计数(通常是“step”或“sample”)的显示名称。

[源代码]

PyDataset

keras.utils.PyDataset(workers=1, use_multiprocessing=False, max_queue_size=10)

使用 Python 代码定义并行数据集的基类。

每个 PyDataset 都必须实现 __getitem__()__len__() 方法。如果您想在每个 epoch 之间修改数据集,可以另外实现 on_epoch_end(),或者在每个 epoch 开始时调用 on_epoch_begin__getitem__() 方法应返回一个完整的批次(而不是单个样本),而 __len__ 方法应返回数据集中批次的数量(而不是样本的数量)。

参数

  • workers:在多线程或多进程中使用的 worker 数量。
  • use_multiprocessing:是否使用 Python 多进程进行并行处理。将其设置为 True 意味着您的数据集将在多个派生的进程中复制。只有当您的数据集可以安全地进行 pickling 时,才能将其设置为 True。但是,它只能设置为 True,前提是您的数据集可以安全地进行 pickling。
  • max_queue_size:在多线程或多进程环境中迭代数据集时,要在队列中保留的最大批次数。减少此值可减少数据集的 CPU 内存消耗。默认为 10。

注意事项

  • PyDataset 是进行多进程处理的一种更安全的方式。这种结构保证了模型在每个 epoch 中只对每个样本训练一次,而 Python 生成器则不是这种情况。
  • 参数 workersuse_multiprocessingmax_queue_size 用于配置 fit() 如何使用并行处理来迭代数据集。它们不被 PyDataset 类直接使用。当您手动迭代 PyDataset 时,不会应用并行处理。

示例

from skimage.io import imread
from skimage.transform import resize
import numpy as np
import math

# Here, `x_set` is list of path to the images
# and `y_set` are the associated classes.

class CIFAR10PyDataset(keras.utils.PyDataset):

    def __init__(self, x_set, y_set, batch_size, **kwargs):
        super().__init__(**kwargs)
        self.x, self.y = x_set, y_set
        self.batch_size = batch_size

    def __len__(self):
        # Return number of batches.
        return math.ceil(len(self.x) / self.batch_size)

    def __getitem__(self, idx):
        # Return x, y for batch idx.
        low = idx * self.batch_size
        # Cap upper bound at array length; the last batch may be smaller
        # if the total number of items is not a multiple of batch size.
        high = min(low + self.batch_size, len(self.x))
        batch_x = self.x[low:high]
        batch_y = self.y[low:high]

        return np.array([
            resize(imread(file_name), (200, 200))
               for file_name in batch_x]), np.array(batch_y)

[源代码]

to_categorical 函数

keras.utils.to_categorical(x, num_classes=None)

将类向量(整数)转换为二进制类矩阵。

例如,用于 categorical_crossentropy

参数

  • x:类值的类数组,将被转换为矩阵(整数从 0 到 num_classes - 1)。
  • num_classes:总类数。如果为 None,则推断为 max(x) + 1。默认为 None

返回

输入作为 NumPy 数组的二进制矩阵表示。类轴放在最后。

示例

>>> a = keras.utils.to_categorical([0, 1, 2, 3], num_classes=4)
>>> print(a)
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
>>> b = np.array([.9, .04, .03, .03,
...               .3, .45, .15, .13,
...               .04, .01, .94, .05,
...               .12, .21, .5, .17]).reshape(4,4)
>>> loss = keras.ops.categorical_crossentropy(a, b)
>>> print(np.around(loss, 5))
[0.10536 0.82807 0.1011  1.77196]
>>> loss = keras.ops.categorical_crossentropy(a, a)
>>> print(np.around(loss, 5))
[0. 0. 0. 0.]

[源代码]

normalize 函数

keras.utils.normalize(x, axis=-1, order=2)

对数组进行归一化。

如果输入是 NumPy 数组,则返回 NumPy 数组。如果它是后端张量,则返回后端张量。

参数

  • x:要归一化的数组。
  • axis:归一化的轴。
  • order:归一化阶数(例如,order=2 表示 L2 范数)。

返回

归一化后的数组副本。