► Keras 3 API 文档 / Layers API / Preprocessing layers / Audio preprocessing layers / MelSpectrogram layer

MelSpectrogram 层

`MelSpectrogram` 类

keras.layers.MelSpectrogram(
    fft_length=2048,
    sequence_stride=512,
    sequence_length=None,
    window="hann",
    sampling_rate=16000,
    num_mel_bins=128,
    min_freq=20.0,
    max_freq=None,
    power_to_db=True,
    top_db=80.0,
    mag_exp=2.0,
    min_power=1e-10,
    ref_power=1.0,
    **kwargs
)

将原始音频信号转换为 Mel 频谱图的预处理层。

此层以 float32/float64 的单通道或批处理音频信号作为输入，并使用短时傅里叶变换 (STFT) 和 Mel 缩放来计算 Mel 频谱图。输入应为表示音频信号的一维（未批处理）或二维（批处理）张量。输出将是一个表示 Mel 频谱图的二维或三维张量。

频谱图是一种类似图像的表示，用于显示信号随时间变化的频率频谱。它使用 x 轴表示时间，y 轴表示频率，每个像素表示强度。Mel 频谱图是一种特殊的频谱图，它使用 Mel 刻度，该刻度近似人类对声音的感知方式。它们常用于语音和音乐处理任务，如语音识别、说话人识别和音乐流派分类。

注意：该层可以在 tf.data 或 grain 管道中使用（无论您使用的是哪个后端），且是安全的。

参考文献

频谱图,
Mel 刻度.

参数

fft_length: 整数，FFT 窗口的大小。
sequence_stride: 整数，连续 STFT 列之间的采样数。
sequence_length: 整数，用于将 window 应用于每个音频帧的窗口大小。如果为 None，则默认为 fft_length。
window: 字符串，要使用的窗口函数的名称。可用值为 "hann" 和 "hamming"。如果 window 是一个张量，它将被直接用作窗口，并且其长度必须为 sequence_length。如果 window 为 None，则不使用加窗。默认为 "hann"。
sampling_rate: 整数，输入信号的采样率。
num_mel_bins: 整数，要生成的 Mel 频带的数量。
min_freq: 浮点数，Mel 频带的最小频率。
max_freq: 浮点数，Mel 频带的最大频率。如果为 None，则默认为 sampling_rate / 2。
power_to_db: 如果为 True，则将功率谱转换为分贝。
top_db: 浮点数，最小负截止值 max(10 * log10(S)) - top_db。
mag_exp: 浮点数，幅度谱的指数。1 表示幅度，2 表示功率，依此类推。默认为 2。
ref_power: 浮点数，功率相对于 10 * log10(S / ref_power) 进行缩放。
min_power: 浮点数，功率和 ref_power 的最小值。

示例

未批处理的音频信号

>>> layer = keras.layers.MelSpectrogram(num_mel_bins=64,
...                                     sampling_rate=8000,
...                                     sequence_stride=256,
...                                     fft_length=2048)
>>> layer(keras.random.uniform(shape=(16000,))).shape
(64, 63)

批处理的音频信号

>>> layer = keras.layers.MelSpectrogram(num_mel_bins=80,
...                                     sampling_rate=8000,
...                                     sequence_stride=128,
...                                     fft_length=2048)
>>> layer(keras.random.uniform(shape=(2, 16000))).shape
(2, 80, 125)

输入形状

形状为 (..., samples) 的一维（未批处理）或二维（批处理）张量。

输出形状

形状为 (..., num_mel_bins, time) 的二维（未批处理）或三维（批处理）张量。

MelSpectrogram 层

MelSpectrogram 类

MelSpectrogram 层

MelSpectrogram 类

`MelSpectrogram` 类