반응형
<사전 학습 및 환경 세팅>
0. 아나콘다 세팅, Cuda cuDNN, Pytorch
1. 음성 관련 개념 학습
소리, 파동의 구성
Feature 엔지니어링을 위한 도메인 학습.
2. 음성 데이터 전처리
샘플링
양자화
FT
특징 추출
- MFCC
- Mel Spectrogram
- Zero-Crossing Rate
- Chroma Features
3. 모델
Random Forest, XGBoost, LightGBM
4. 화자 분류 전용 모델
- Pyannote
- Simple-Diarizer
- Diart
5. 평가 방식
- 정확도 (Accuracy)
- 정밀도 (Precision)
- 재현율 (Recall)
- F1-score
- AB Test
--------------------------------------------------------------------------
<개발>
5. Train, Valid Dataset 만들기
6. 품질 평가 진행
7. 고도화 방안 수립
- 소음 저항성 향상
- 모델 경량화
- 화자 분류 전용 모델 사용과 비교
- 추가적인 개발
(학습 -> 개발 -> 반영 -> 평가) 수행
반응형
'AI > (PJT)음성 화자 분류' 카테고리의 다른 글
COPS-KMeans (Constrained Over-Partitioning Spectral K-Means) (0) | 2025.03.20 |
---|---|
MFCC (Mel-Frequency Cepstral Coefficients) (1) | 2025.03.20 |
신호 대 잡음비(SNR, Signal-to-Noise Ratio) (0) | 2025.03.20 |