编程语言
首页 > 编程语言> > 特征模块python中speechpy模块函数翻译 其中排列是array类型

特征模块python中speechpy模块函数翻译 其中排列是array类型

作者:互联网

功能

功能模块。

该模块提供用于计算包旨在提取的主要语音特征以及所需元素的功能。

功能:

filterbanks:计算Mel-filterbanks

必须创建滤波器组以提取诸如MFCC之类的语音特征。

mfcc:提取梅尔频率倒谱系数特征。

mfe:提取Mel Energy功能。

lmfe:提取Log Mel Energy功能。

extract_derivative_feature:提取一阶和二阶导数

特征。这个功能,直接使用模块中的derivative_extraction 功能processing

MFCC 

speechpy.feature.mfccsignalsampling_frequencyframe_length = 0.02frame_stride = 0.01num_cepstral = 13num_filters = 40fft_length = 512low_frequency = 0high_frequency = Nonedc_elimination = True [来源]

从音频信号计算MFCC功能。

参数:
  • signalarray) - 用于计算特征的音频信号。应该是N x 1阵列
  • sampling_frequencyint) - 我们正在使用的信号的采样频率。
  • frame_lengthfloat) - 每帧的长度,以秒为单位。默认值为0.020秒
  • frame_stridefloat) - 连续帧之间的步(以秒为单位)。默认值为0.02s(表示没有重叠)
  • num_filtersint) - filterbank中的过滤器数量,默认为40。
  • fft_lengthint) - FFT点数。默认值为512。
  • low_frequencyfloat) - mel滤波器的最低频带边缘。以Hz为单位,默认值为0。
  • high_frequencyfloat) - mel滤波器的最高频带边缘。以Hz为单位,默认为samplerate / 2
  • num_cepstralint) - 倒谱系数的数量。
  • dc_eliminationbool) - 如果应该消除第一个直流分量。
返回:

包含mfcc特征的numpy数组(num_frames x num_cepstral)。

返回类型:

排列

梅尔频率能量

speechpy.feature.mfesignalsampling_frequencyframe_length = 0.02frame_stride = 0.01num_filters = 40fft_length = 512low_frequency = 0high_frequency = None [来源]

从音频信号计算Mel-filterbank能量特征。

参数:
  • signalarray) - 用于计算特征的音频信号。应该是N x 1阵列
  • sampling_frequencyint) - 我们正在使用的信号的采样频率。
  • frame_lengthfloat) - 每帧的长度,以秒为单位。默认值为0.020秒
  • frame_stridefloat) - 连续帧之间的步(以秒为单位)。默认值为0.02s(表示没有重叠)
  • num_filtersint) - filterbank中的过滤器数量,默认为40。
  • fft_lengthint) - FFT点数。默认值为512。
  • low_frequencyfloat) - mel滤波器的最低频带边缘。以Hz为单位,默认值为0。
  • high_frequencyfloat) - mel滤波器的最高频带边缘。以Hz为单位,默认为samplerate / 2
返回:

特征 - 大小为num_frames x num_filters的fiterbank的能量。每帧的能量:num_frames x 1

返回类型:

排列

Log Mel频率能量

speechpy.feature.lmfesignalsampling_frequencyframe_length = 0.02frame_stride = 0.01num_filters = 40fft_length = 512low_frequency = 0high_frequency = None [来源]

从音频信号计算日志Mel-filterbank能量特征。

参数:
  • signalarray) - 用于计算特征的音频信号。应该是N x 1阵列
  • sampling_frequencyint) - 我们正在使用的信号的采样频率。
  • frame_lengthfloat) - 每帧的长度,以秒为单位。默认值为0.020秒
  • frame_stridefloat) - 连续帧之间的步(以秒为单位)。默认值为0.02s(表示没有重叠)
  • num_filtersint) - filterbank中的过滤器数量,默认为40。
  • fft_lengthint) - FFT点数。默认值为512。
  • low_frequencyfloat) - mel滤波器的最低频带边缘。以Hz为单位,默认值为0。
  • high_frequencyfloat) - mel滤波器的最高频带边缘。以Hz为单位,默认为samplerate / 2
返回:

特征 - 大小为num_frames x num_filters frame_log_energies的fiterbank的对数能量。每帧的对数能量num_frames x 1

返回类型:

排列

提取微分特征

speechpy.feature.extract_derivative_feature特写[来源]

该函数提取时间导数特征

一阶和二阶导数。

参数: featurearray) - 特征向量,其大小为:N x M.
返回: 特征立方体矢量,包含大小为N x M x 3的静态,一阶和二阶导数特征
返回类型: 排列

标签:speechpy,python,frame,float,length,num,frequency,模块,默认值
来源: https://blog.csdn.net/weixin_38858860/article/details/89494698