Keras 3 API 文档 / 层 API / 卷积层 / Conv2D 层

Conv2D 层

[源]

Conv2D

keras.layers.Conv2D(
    filters,
    kernel_size,
    strides=(1, 1),
    padding="valid",
    data_format=None,
    dilation_rate=(1, 1),
    groups=1,
    activation=None,
    use_bias=True,
    kernel_initializer="glorot_uniform",
    bias_initializer="zeros",
    kernel_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    bias_constraint=None,
    **kwargs
)

2D 卷积层。

这一层创建一个卷积核,该卷积核在 2D 空间(或时间)维度(高度和宽度)上与层输入进行卷积,生成一个输出张量。如果 use_bias 为 True,则会创建一个偏置向量并将其添加到输出中。最后,如果 activation 不是 None,则也会将其应用于输出。

关于数值精度的注意事项:通常情况下,Keras 操作在不同后端上的执行结果在 float32 精度下可达到 1e-7 的一致性,但 Conv2D 操作可能会显示出更大的差异。由于卷积操作中存在大量的元素乘法和加法,尤其是在输入或卷积核尺寸较大时,累积的浮点差异可能会超出 1e-7 的阈值。当使用不同的后端(例如 TensorFlow 与 JAX)或不同的硬件时,这些差异尤其明显。

参数

  • filters: int,输出空间的维度(即卷积核的数量)。
  • kernel_size: int 或包含 2 个整数的元组/列表,指定卷积窗口的大小。
  • strides: int 或包含 2 个整数的元组/列表,指定卷积的步长。当 strides > 1 时,与 dilation_rate > 1 不兼容。
  • padding: 字符串,可以是 "valid""same"(不区分大小写)。"valid" 表示无填充。"same" 表示在输入的左/右或上/下均匀填充。当 padding="same"strides=1 时,输出尺寸与输入相同。
  • data_format: 字符串,可以是 "channels_last""channels_first"。输入的维度顺序。"channels_last" 对应于形状为 (batch_size, height, width, channels) 的输入,而 "channels_first" 对应于形状为 (batch_size, channels, height, width) 的输入。它默认为你的 Keras 配置文件 ~/.keras/keras.jsonimage_data_format 的值。如果你从未设置过,则默认为 "channels_last"
  • dilation_rate: int 或包含 2 个整数的元组/列表,指定用于扩张卷积的扩张率。
  • groups: 正整数,指定沿通道轴将输入分成多少组。每组独立地与 filters // groups 个卷积核进行卷积。输出是所有 groups 结果沿通道轴的拼接。输入通道数和 filters 都必须能被 groups 整除。
  • activation: 激活函数。如果为 None,则不应用激活函数。
  • use_bias: bool,如果为 True,则会向输出中添加偏置向量。
  • kernel_initializer: 卷积核的初始化器。如果为 None,将使用默认的初始化器("glorot_uniform")。
  • bias_initializer: 偏置向量的初始化器。如果为 None,将使用默认的初始化器("zeros")。
  • kernel_regularizer: 卷积核的可选正则化器。
  • bias_regularizer: 偏置向量的可选正则化器。
  • activity_regularizer: 输出的可选正则化函数。
  • kernel_constraint: 可选的投影函数,在卷积核被 Optimizer 更新后应用(例如,用于实现层权重的范数约束或值约束)。该函数必须将未投影的变量作为输入,并返回投影后的变量(其形状必须相同)。在执行异步分布式训练时,使用约束函数是不安全的。
  • bias_constraint: 可选的投影函数,在偏置向量被 Optimizer 更新后应用。

输入形状

  • 如果 data_format="channels_last":形状为 (batch_size, height, width, channels) 的 4D 张量。
  • 如果 data_format="channels_first":形状为 (batch_size, channels, height, width) 的 4D 张量。

输出形状

  • 如果 data_format="channels_last":形状为 (batch_size, new_height, new_width, filters) 的 4D 张量。
  • 如果 data_format="channels_first":形状为 (batch_size, filters, new_height, new_width) 的 4D 张量。

返回值

表示 activation(conv2d(inputs, kernel) + bias) 的 4D 张量。

异常

  • ValueError: 当 strides > 1dilation_rate > 1 同时成立时。

示例

>>> x = np.random.rand(4, 10, 10, 128)
>>> y = keras.layers.Conv2D(32, 3, activation='relu')(x)
>>> print(y.shape)
(4, 8, 8, 32)