音声データを使う際は特徴量に変換する。よく使われているのは「MFCC」だが、深層学習では「log-mel spectrogram」を使う実装例も出ている。特徴量実装例 STFT Looking to Listen at the Cocktail Party log-mel spectrrogram Deep Learning for Audio Signal Processing MFCC HTK, Julius, Kaldi 今回は「STFT」（短時…

ichou1のブログ

音声ファイル特徴量変換（その1）STFT