Keras 3 API 文档 / 层 API / 卷积层 / 深度可分离卷积 2D 层

深度可分离卷积 2D 层

[源代码]

DepthwiseConv2D

keras.layers.DepthwiseConv2D(
    kernel_size,
    strides=(1, 1),
    padding="valid",
    depth_multiplier=1,
    data_format=None,
    dilation_rate=(1, 1),
    activation=None,
    use_bias=True,
    depthwise_initializer="glorot_uniform",
    bias_initializer="zeros",
    depthwise_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    depthwise_constraint=None,
    bias_constraint=None,
    **kwargs
)

2D 深度可分离卷积层。

深度可分离卷积是一种卷积类型,其中每个输入通道都使用不同的核(称为深度核)进行卷积。你可以将深度可分离卷积理解为深度可分离卷积中的第一步。

其实现方式如下

  • 将输入拆分为单个通道。
  • 使用每个输入通道对应的深度核进行卷积,每个深度核产生 depth_multiplier 个输出通道。
  • 沿通道轴拼接卷积后的输出。

与常规 2D 卷积不同,深度可分离卷积不会混合来自不同输入通道的信息。

depth_multiplier 参数决定了应用于一个输入通道的滤波器数量。因此,它控制了深度可分离步骤中每个输入通道生成的输出通道数量。

参数

  • kernel_size:整数或包含 2 个整数的元组/列表,指定深度可分离卷积窗口的大小(即核大小)。
  • strides:整数或包含 2 个整数的元组/列表,指定深度可分离卷积的步长。strides > 1dilation_rate > 1 不兼容。
  • padding:字符串,可以是 "valid""same"(不区分大小写)。"valid" 表示无填充。"same" 表示在输入的左/右或上/下均匀填充。当 padding="same"strides=1 时,输出与输入具有相同的大小。
  • depth_multiplier:每个输入通道的深度倍增器。深度可分离卷积的总输出通道数量将等于 input_channel * depth_multiplier
  • data_format:字符串,可以是 "channels_last""channels_first"。输入中维度的顺序。"channels_last" 对应于形状为 (batch, height, width, channels) 的输入,即通道在最后;而 "channels_first" 对应于形状为 (batch, channels, height, width) 的输入,即通道在最前。它默认为 Keras 配置文件 ~/.keras/keras.json 中的 image_data_format 值。如果你从未设置过,则默认为 "channels_last"
  • dilation_rate:整数或包含 2 个整数的元组/列表,指定空洞卷积使用的空洞率。
  • activation:激活函数。如果为 None,则不应用激活函数。
  • use_bias:布尔值,如果为 True,则将偏置项添加到输出中。
  • depthwise_initializer:卷积核的初始化器。如果为 None,则使用默认初始化器 ("glorot_uniform")。
  • bias_initializer:偏置向量的初始化器。如果为 None,则使用默认初始化器 ("zeros")。
  • depthwise_regularizer:卷积核的可选正则化器。
  • bias_regularizer:偏置向量的可选正则化器。
  • activity_regularizer:输出的可选正则化函数。
  • depthwise_constraint:应用于卷积核的可选投影函数,在通过 Optimizer 更新后应用(例如,用于实现层权重的范数约束或值约束)。该函数必须将未投影的变量作为输入,并且必须返回投影后的变量(形状必须相同)。在异步分布式训练时,约束是不安全的。
  • bias_constraint:应用于偏置项的可选投影函数,在通过 Optimizer 更新后应用。

输入形状

  • 如果 data_format="channels_last"(通道在最后):形状为 4D 张量:(batch_size, height, width, channels)
  • 如果 data_format="channels_first"(通道在最前):形状为 4D 张量:(batch_size, channels, height, width)

输出形状

  • 如果 data_format="channels_last"(通道在最后):形状为 4D 张量:(batch_size, new_height, new_width, channels * depth_multiplier)
  • 如果 data_format="channels_first"(通道在最前):形状为 4D 张量:(batch_size, channels * depth_multiplier, new_height, new_width)

返回值

表示 activation(depthwise_conv2d(inputs, kernel) + bias) 的 4D 张量。

抛出异常

  • ValueError:当 strides > 1dilation_rate > 1 同时出现时。

示例

>>> x = np.random.rand(4, 10, 10, 12)
>>> y = keras.layers.DepthwiseConv2D(kernel_size=3, activation='relu')(x)
>>> print(y.shape)
(4, 8, 8, 12)