-
Speaker Recognition -SincNetMachine Learning 논문 리뷰 2019. 6. 28. 00:45
https://arxiv.org/abs/1808.00158
1. Introduction
본 논문은 CNN architecture 에 sinc function을 추가하여 Speaker recognition에 특화시킨 NeuralNet에 대하여 다룬다.
기존에 사용하던 FBANK나 MFCC 상수(많은 튜닝이 필요)를 사용하는 대신, Raw Waveform을 직접 feed로 사용하여 학습시킨다.
노이즈 등을 제거하고 CNN을 효율적으로 학습시키기 위해 convolve 연산에 sinc function을 사용한다.
2. Architecture
-
1st layer
기존 CNN은 Finite Impulse Response (FIR) 필터와 input waveform 을 time-domain convolution 한다.
- SincNet은 FIR 필터 대신 사전에 정의한 Sinc 함수로 구성된 필터를 사용한다.
- $ y[n] = x[n] * g[n, \theta] $
- $ g[n, f1, f2] = 2f_2sinc(2πf2n) − 2f1sinc(2πf1n) $
- cut-off frequency ($ f_1, f_2 $) 는 $ [0, f_s/2] $ 범위에서 랜덤으로 선정 (단, $ f_2 >= f_1 >= 0 $)
-
Model properties
- Fast Convergence
- Few Parameters
- Computational Efficiency
- Interpretability
3. Experimental setup
-
Input Data
- TIMIT and Librispeech corpora
- 각 speaker 별로 5개의 문장을 학습, Calibration (TIMIT) 문장은 제거
-
SincNet Setup
- 각 문장은 200ms 길이의 청크로 분할 (10ms의 overlap)
- 1st layer 에서는 L=251 인 80개의 필터를 사용
- 1st layer 에서는 L=251 인 80개의 필터를 사용
- 길이 5인 60개의 필터를 사용하는 covolution layer 를 두 개 배치
- 2048개 뉴런으로 구성된 세 개의 fully-connected layer를 배치
- Optimizer - RMSprop ($lr=0.001, \alpha=0.95, \epsilon=10^-7$)
- 128 minibatch size
4. Results
-
Filter analysis
- SincNet 의 Filter Sum이 CNN에 비해 Pitch 와 Formant 주파수에 높은 비중을 두고 있음을 확인할 수 있다.
-
Speaker Identification
- SincNet 이 MFCC, FBANK, Raw 데이터를 이용한 Neural Net 보다 전체적으로 더 좋은 성능을 보였다.
- 마지막 layer의 결과값의 cos 거리를 이용하는 d-vector 방법이 일반적인 classification에 사용되는 DNN-class 방법보다 높은 ERR을 보였다.
-