음성 화자 분류 시작하기

<사전 학습 및 환경 세팅>

0. 아나콘다 세팅, Cuda cuDNN, Pytorch

1. 음성 관련 개념 학습

소리, 파동의 구성

Feature 엔지니어링을 위한 도메인 학습.

2. 음성 데이터 전처리

샘플링

양자화

특징 추출

- MFCC

- Mel Spectrogram

- Zero-Crossing Rate

- Chroma Features

3. 모델

Random Forest, XGBoost, LightGBM

4. 화자 분류 전용 모델

- Pyannote

- Simple-Diarizer

- Diart

5. 평가 방식

- 정확도 (Accuracy)
- 정밀도 (Precision)
- 재현율 (Recall)
- F1-score

- AB Test

--------------------------------------------------------------------------

<개발>

5. Train, Valid Dataset 만들기

6. 품질 평가 진행

7. 고도화 방안 수립

- 소음 저항성 향상

- 모델 경량화

- 화자 분류 전용 모델 사용과 비교

- 추가적인 개발

(학습 -> 개발 -> 반영 -> 평가) 수행

COPS-KMeans (Constrained Over-Partitioning Spectral K-Means) (0)	2025.03.20
MFCC (Mel-Frequency Cepstral Coefficients) (1)	2025.03.20
신호 대 잡음비(SNR, Signal-to-Noise Ratio) (0)	2025.03.20

티스토리툴바