层激活函数

激活函数的使用

激活函数可以通过 Activation 层使用，也可以通过所有前向层都支持的 activation 参数使用

model.add(layers.Dense(64, activation=activations.relu))

这等同于

from keras import layers
from keras import activations

model.add(layers.Dense(64))
model.add(layers.Activation(activations.relu))

所有内置激活函数也可以通过其字符串标识符传递

model.add(layers.Dense(64, activation='relu'))

可用激活函数

[源代码]

`celu` 函数

keras.activations.celu(x, alpha=1.0)

连续可微分指数线性单元。

CeLU 激活函数定义为

celu(x) = alpha * (exp(x / alpha) - 1) for x < 0,celu(x) = x for x >= 0。

其中 alpha 是一个缩放参数，控制激活函数的形状。

参数

x：输入张量。
alpha：CeLU 公式中的 α 值。默认为 1.0。

参考

Barron, J. T., 2017

[源代码]

`elu` 函数

keras.activations.elu(x, alpha=1.0)

指数线性单元。

当 alpha > 0 时，指数线性单元 (ELU) 定义为

如果 x > 0 则为 x
如果 x < 0 则为 alpha * exp(x) - 1

ELU 具有负值，这使得激活函数的平均值更接近零。

接近零的平均激活函数可以通过使梯度更接近自然梯度来加速学习。当参数变小时，ELU 会饱和到负值。饱和意味着导数很小，这会减少变异性和传播到下一层的信息。

参数

x：输入张量。
alpha：一个标量，正区间的斜率。默认为 1.0。

参考

Clevert et al., 2016

[源代码]

`exponential` 函数

keras.activations.exponential(x)

指数激活函数。

参数

x：输入张量。

[源代码]

`gelu` 函数

keras.activations.gelu(x, approximate=False)

高斯误差线性单元 (GELU) 激活函数。

高斯误差线性单元 (GELU) 定义为

gelu(x) = x * P(X <= x) 其中 P(X) ~ N(0, 1)，即 gelu(x) = 0.5 * x * (1 + erf(x / sqrt(2)))。

GELU 根据输入值对输入进行加权，而不是像 ReLU 那样根据输入的符号进行门控。

参数

x：输入张量。
approximate：一个 bool 值，是否启用近似。

参考

Hendrycks et al., 2016

[源代码]

`glu` 函数

keras.activations.glu(x, axis=-1)

门控线性单元 (GLU) 激活函数。

GLU 激活函数定义为

glu(x) = a * sigmoid(b),

其中 x 沿给定轴分成两个相等的部分 a 和 b。

参数

x：输入张量。
axis：沿其分割输入张量的轴。默认为 -1。

参考

Dauphin et al., 2017

[源代码]

`hard_shrink` 函数

keras.activations.hard_shrink(x, threshold=0.5)

硬收缩激活函数。

它定义为

如果 |x| > threshold 则为 hard_shrink(x) = x，否则为 hard_shrink(x) = 0。

参数

x：输入张量。
threshold：阈值。默认为 0.5。

[源代码]

`hard_sigmoid` 函数

keras.activations.hard_sigmoid(x)

硬 sigmoid 激活函数。

硬 sigmoid 激活函数定义为

如果 x <= -3 则为 0
如果 x >= 3 则为 1
如果 -3 < x < 3 则为 (x/6) + 0.5

它是 sigmoid 激活函数的一个更快、分段线性的近似。

参数

x：输入张量。

参考

维基百科 “硬 sigmoid”

[源代码]

`hard_silu` 函数

keras.activations.hard_silu(x)

硬 SiLU 激活函数，也称为硬 Swish。

它定义为

如果 x < -3 则为 0
如果 x > 3 则为 x
如果 -3 <= x <= 3 则为 x * (x + 3) / 6

它是 silu 激活函数的一个更快、分段线性的近似。

参数

x：输入张量。

参考

A Howard, 2019

[源代码]

`hard_tanh` 函数

keras.activations.hard_tanh(x)

HardTanh 激活函数。

它定义为：如果 x < -1 则为 hard_tanh(x) = -1，如果 -1 <= x <= 1 则为 hard_tanh(x) = x，如果 x > 1 则为 hard_tanh(x) = 1。

参数

x：输入张量。

[源代码]

`leaky_relu` 函数

keras.activations.leaky_relu(x, negative_slope=0.2)

Leaky ReLU 激活函数。

参数

x：输入张量。
negative_slope：一个 float 值，控制低于阈值的值的斜率。

[源代码]

`linear` 函数

keras.activations.linear(x)

线性激活函数（直通）。

“线性”激活函数是一个恒等函数：它返回未修改的输入。

参数

x：输入张量。

[源代码]

`log_sigmoid` 函数

keras.activations.log_sigmoid(x)

sigmoid 激活函数的对数。

它定义为 f(x) = log(1 / (1 + exp(-x)))。

参数

x：输入张量。

[源代码]

`log_softmax` 函数

keras.activations.log_softmax(x, axis=-1)

Log-Softmax 激活函数。

每个输入向量独立处理。axis 参数设置函数沿输入哪个轴应用。

参数

x：输入张量。
axis：整数，应用 softmax 的轴。

[源代码]

`mish` 函数

keras.activations.mish(x)

Mish 激活函数。

它定义为

mish(x) = x * tanh(softplus(x))

其中 softplus 定义为

softplus(x) = log(exp(x) + 1)

参数

x：输入张量。

参考

Misra, 2019

[源代码]

`relu` 函数

keras.activations.relu(x, negative_slope=0.0, max_value=None, threshold=0.0)

应用整流线性单元激活函数。

使用默认值，这将返回标准 ReLU 激活：max(x, 0)，即 0 和输入张量的逐元素最大值。

修改默认参数允许您使用非零阈值，更改激活函数的最大值，以及对低于阈值的值使用非零倍数的输入。

示例

>>> x = [-10, -5, 0.0, 5, 10]
>>> keras.activations.relu(x)
[ 0.,  0.,  0.,  5., 10.]
>>> keras.activations.relu(x, negative_slope=0.5)
[-5. , -2.5,  0. ,  5. , 10. ]
>>> keras.activations.relu(x, max_value=5.)
[0., 0., 0., 5., 5.]
>>> keras.activations.relu(x, threshold=5.)
[-0., -0.,  0.,  0., 10.]

参数

x：输入张量。
negative_slope：一个 float 值，控制低于阈值的值的斜率。
max_value：一个 float 值，设置饱和阈值（函数将返回的最大值）。
threshold：一个 float 值，给出激活函数的阈值，低于该阈值的值将被抑制或设置为零。

一个与输入 x 具有相同形状和数据类型的张量。

[源代码]

`relu6` 函数

keras.activations.relu6(x)

Relu6 激活函数。

它是 ReLU 函数，但截断到最大值 6。

参数

x：输入张量。

[源代码]

`selu` 函数

keras.activations.selu(x)

缩放指数线性单元 (SELU)。

缩放指数线性单元 (SELU) 激活函数定义为

如果 x > 0 则为 scale * x
如果 x < 0 则为 scale * alpha * (exp(x) - 1)

其中 alpha 和 scale 是预定义的常数（alpha=1.67326324 和 scale=1.05070098）。

基本上，SELU 激活函数将 scale（> 1）乘以 keras.activations.elu 函数的输出，以确保正输入的斜率大于 1。

选择 alpha 和 scale 的值是为了确保只要权重正确初始化（参见 keras.initializers.LecunNormal 初始化器）并且输入单元数“足够大”（更多信息请参见参考论文），输入在两个连续层之间保持平均值和方差。

参数

x：输入张量。

注意事项

与 keras.initializers.LecunNormal 初始化器一起使用。
与 dropout 变体 keras.layers.AlphaDropout（而不是常规 dropout）一起使用。

参考

Klambauer 等人，2017 年

[源代码]

`sigmoid` 函数

keras.activations.sigmoid(x)

Sigmoid 激活函数。

它定义为：sigmoid(x) = 1 / (1 + exp(-x))。

对于小值（<-5），sigmoid 返回接近零的值，对于大值（>5），函数结果接近 1。

Sigmoid 等同于一个 2 元素的 softmax，其中第二个元素假定为零。sigmoid 函数总是返回介于 0 和 1 之间的值。

参数

x：输入张量。

[源代码]

`silu` 函数

keras.activations.silu(x)

Swish (或 Silu) 激活函数。

它定义为：swish(x) = x * sigmoid(x)。

Swish (或 Silu) 激活函数是一个平滑、非单调的函数，上方无界，下方有界。

参数

x：输入张量。

参考

Ramachandran et al., 2017

[源代码]

`softmax` 函数

keras.activations.softmax(x, axis=-1)

Softmax 将值向量转换为概率分布。

输出向量的元素范围在 [0, 1] 之间，并且总和为 1。

每个输入向量独立处理。axis 参数设置函数沿输入哪个轴应用。

Softmax 通常用作分类网络最后一层的激活函数，因为结果可以解释为概率分布。

每个向量 x 的 softmax 计算为 exp(x) / sum(exp(x))。

输入值是结果概率的对数几率。

参数

x：输入张量。
axis：整数，应用 softmax 的轴。

[源代码]

`soft_shrink` 函数

keras.activations.soft_shrink(x, threshold=0.5)

软收缩激活函数。

它定义为

如果 x > threshold 则为 soft_shrink(x) = x - threshold，如果 x < -threshold 则为 soft_shrink(x) = x + threshold，否则为 soft_shrink(x) = 0。

参数

x：输入张量。
threshold：阈值。默认为 0.5。

[源代码]

`softplus` 函数

keras.activations.softplus(x)

Softplus 激活函数。

它定义为：softplus(x) = log(exp(x) + 1)。

参数

x：输入张量。

[源代码]

`softsign` 函数

keras.activations.softsign(x)

Softsign 激活函数。

Softsign 定义为：softsign(x) = x / (abs(x) + 1)。

参数

x：输入张量。

[源代码]

`sparse_plus` 函数

keras.activations.sparse_plus(x)

SparsePlus 激活函数。

SparsePlus 定义为

如果 x <= -1 则为 sparse_plus(x) = 0。如果 -1 < x < 1 则为 sparse_plus(x) = (1/4) * (x + 1)^2。如果 x >= 1 则为 sparse_plus(x) = x。

参数

x：输入张量。

[源代码]

`sparsemax` 函数

keras.activations.sparsemax(x, axis=-1)

Sparsemax 激活函数。

对于每个批次 i 和类别 j，sparsemax 激活函数定义为

sparsemax(x)[i, j] = max(x[i, j] - τ(x[i, :]), 0)。

参数

x：输入张量。
axis：int，沿其应用 sparsemax 操作的轴。

一个张量，sparsemax 转换的输出。与 x 具有相同的类型和形状。

参考

Martins et.al., 2016

[源代码]

`squareplus` 函数

keras.activations.squareplus(x, b=4)

Squareplus 激活函数。

Squareplus 激活函数定义为

f(x) = (x + sqrt(x^2 + b)) / 2

其中 b 是平滑参数。

参数

x：输入张量。
b：平滑参数。默认为 4。

参考

Ramachandran et al., 2021

[源代码]

`tanh` 函数

keras.activations.tanh(x)

双曲正切激活函数。

它定义为：tanh(x) = sinh(x) / cosh(x)，即 tanh(x) = ((exp(x) - exp(-x)) / (exp(x) + exp(-x)))。

参数

x：输入张量。

[源代码]

`tanh_shrink` 函数

keras.activations.tanh_shrink(x)

Tanh shrink 激活函数。

它定义为

f(x) = x - tanh(x).

参数

x：输入张量。

[源代码]

`threshold` 函数

keras.activations.threshold(x, threshold, default_value)

阈值激活函数。

它定义为

如果 x > threshold 则为 threshold(x) = x，否则为 threshold(x) = default_value。

参数

x：输入张量。
threshold：决定何时保留或替换 x 的值。
default_value：当 x <= threshold 时分配的值。

创建自定义激活函数

您还可以使用可调用对象作为激活函数（在这种情况下，它应该接受一个张量并返回相同形状和数据类型的张量）

model.add(layers.Dense(64, activation=keras.ops.tanh))

关于“高级激活”层

比简单函数更复杂的激活函数（例如，可学习的激活函数，它们保持状态）可以作为高级激活层使用。

层激活函数

激活函数的使用

可用激活函数

celu 函数

elu 函数

exponential 函数

gelu 函数

glu 函数

hard_shrink 函数

hard_sigmoid 函数

hard_silu 函数

hard_tanh 函数

leaky_relu 函数

linear 函数

log_sigmoid 函数

log_softmax 函数

mish 函数

relu 函数

relu6 函数

selu 函数

sigmoid 函数

silu 函数

softmax 函数

soft_shrink 函数

softplus 函数

softsign 函数

sparse_plus 函数

sparsemax 函数

squareplus 函数

tanh 函数

tanh_shrink 函数

threshold 函数

创建自定义激活函数

关于“高级激活”层

层激活函数

激活函数的使用

可用激活函数

celu 函数

elu 函数

exponential 函数

gelu 函数

glu 函数

hard_shrink 函数

hard_sigmoid 函数

hard_silu 函数

hard_tanh 函数

leaky_relu 函数

linear 函数

log_sigmoid 函数

log_softmax 函数

mish 函数

relu 函数

relu6 函数

selu 函数

sigmoid 函数

silu 函数

softmax 函数

soft_shrink 函数

softplus 函数

softsign 函数

sparse_plus 函数

sparsemax 函数

squareplus 函数

tanh 函数

tanh_shrink 函数

threshold 函数

创建自定义激活函数

关于“高级激活”层

`celu` 函数

`elu` 函数

`exponential` 函数

`gelu` 函数

`glu` 函数

`hard_shrink` 函数

`hard_sigmoid` 函数

`hard_silu` 函数

`hard_tanh` 函数

`leaky_relu` 函数

`linear` 函数

`log_sigmoid` 函数

`log_softmax` 函数

`mish` 函数

`relu` 函数

`relu6` 函数

`selu` 函数

`sigmoid` 函数

`silu` 函数

`softmax` 函数

`soft_shrink` 函数

`softplus` 函数

`softsign` 函数

`sparse_plus` 函数

`sparsemax` 函数

`squareplus` 函数

`tanh` 函数

`tanh_shrink` 函数

`threshold` 函数