COPS-KMeans (Constrained Over-Partitioning Spectral K-Means)
·
AI/(PJT)음성 화자 분류
기본 개념COPS-KMeans는 기존의 KMeans 클러스터링 알고리즘이 가지는 문제점들을 보완하기 위해 개발된 방법입니다.이 알고리즘은 다음 세 가지 개념을 결합하여 클러스터링 성능을 크게 개선합니다.오버 파티셔닝(Over-Partitioning): 초기에 클러스터 개수를 과도하게 설정하여 세밀한 데이터 구조 반영스펙트럴 클러스터링(Spectral Clustering): 복잡한 데이터의 비선형 구조를 효과적으로 처리제약 조건 클러스터링(Constrained Clustering): 사전 지식을 반영하여 클러스터링 품질 향상이러한 접근을 통해 복잡한 구조의 데이터 또는 도메인 지식이 필요한 문제에서 기존 KMeans보다 높은 성능을 보여줍니다. 기존 KMeans의 문제점기본 KMeans 알고리즘은 단순하고..
MFCC (Mel-Frequency Cepstral Coefficients)
·
AI/(PJT)음성 화자 분류
기본개념MFCC(Mel-Frequency Cepstral Coefficients)은 음성 신호의 특성을 분석하고 특징을 추출하는 데 가장 널리 사용되는 기법 중 하나입니다​. MFCC는 인간 청각 시스템을 모방한 멜 스케일(Mel scale)을 기반으로 하여, 음성 신호의 주파수 분포를 효율적으로 표현합니다​. 이러한 장점 덕분에 MFCC는 음성 인식, 화자 식별, 감정 인식, 음악 신호 처리 등 다양한 분야의 시스템에서 핵심 음향 특징으로 활용되고 있습니다​ MFCC 개념 및 계산 방법MFCC 특징 벡터는 일반적으로 다음과 같은 단계들을 거쳐 계산됩니다​.프레임 분할: 연속된 음성 신호를 짧은 프레임(예: 25ms) 단위로 분할합니다.윈도잉(Windowing): 각 프레임에 해밍(Hamming) 윈도우..
신호 대 잡음비(SNR, Signal-to-Noise Ratio)
·
AI/(PJT)음성 화자 분류
기본 개념신호 대 잡음비(Signal-to-Noise Ratio, SNR)는 통신 신호의 품질을 나타내는 핵심 지표로, 신호 세기와 잡음 세기의 비율을 의미합니다. 값이 높을수록 신호가 더 명확하고 잡음의 영향이 적어 통신 신뢰성이 향상됩니다. 반대로 값이 낮으면 신호가 잡음에 묻혀 데이터 오류나 손실이 발생하고 성능 저하로 이어질 수 있습니다. 이번 글에서는 SNR의 계산 방법과 그 의미, 활용 사례를 살펴보겠습니다. SNR 계산 방법 (Signal-to-Noise Ratio)SNR은 '신호 전력과 노이즈 전력의 비'로 정의됩니다. 일반적으로 다음과 같은 공식으로 표현합니다​비율 공식: SNR = P_signal / P_noise (신호 전력 P_signal을 노이즈 전력 P_noise로 나눈 값)데시..
음성 화자 분류 시작하기
·
AI/(PJT)음성 화자 분류
0. 아나콘다 세팅, Cuda cuDNN, Pytorch 1. 음성 관련 개념 학습소리, 파동의 구성Feature 엔지니어링을 위한 도메인 학습. 2. 음성 데이터 전처리샘플링양자화FT특징 추출- MFCC- Mel Spectrogram- Zero-Crossing Rate- Chroma Features 3. 모델Random Forest, XGBoost, LightGBM 4. 화자 분류 전용 모델- Pyannote- Simple-Diarizer- Diart 5. 평가 방식- 정확도 (Accuracy) - 정밀도 (Precision) - 재현율 (Recall) - F1-score- AB Test ----------------------------------------------------------------..