AI/(PJT)음성 화자 분류

음성 화자 분류 시작하기

코코도롱 2025. 2. 28. 11:13
반응형

<사전 학습 및 환경 세팅>

 

0. 아나콘다 세팅, Cuda cuDNN, Pytorch

 

1. 음성 관련 개념 학습

소리, 파동의 구성

Feature 엔지니어링을 위한 도메인 학습.

 

2. 음성 데이터 전처리

샘플링

양자화

FT

특징 추출

- MFCC

- Mel Spectrogram

- Zero-Crossing Rate

- Chroma Features

 

3. 모델

Random Forest, XGBoost, LightGBM

 

4. 화자 분류 전용 모델

- Pyannote

- Simple-Diarizer

- Diart

 

5. 평가 방식

- 정확도 (Accuracy)
- 정밀도 (Precision)
- 재현율 (Recall)
- F1-score

- AB Test

 

--------------------------------------------------------------------------

<개발>

 

5. Train, Valid Dataset 만들기

 

6. 품질 평가 진행

 

7. 고도화 방안 수립

- 소음 저항성 향상

- 모델 경량화

- 화자 분류 전용 모델 사용과 비교

- 추가적인 개발

(학습 -> 개발 -> 반영 -> 평가) 수행

 

 

반응형