모델 평가 지표
·
AI/모델별 정리
좋은 모델을 만들기 위한 첫걸음은 올바른 평가 지표를 선택하는 것이다. 모델이 얼마나 잘 작동하는지를 판단하려면, 단순히 하나의 숫자에만 의존해서는 안 됩니다. 예를 들어, 가장 흔히 떠올리는 평가 지표인 ‘정확도(Accuracy)’는 예측이 얼마나 맞았는지를 직관적으로 보여주는 장점이 있지만, 모든 상황에 적합하지는 않습니다. 특히 한쪽 클래스가 월등히 많은 불균형 데이터셋에서는 정확도가 오히려 모델의 문제점을 가릴 수 있습니다. 실제로 전체 인구의 0.1%만이 특정 질병을 앓고 있는 상황에서, 모든 사람이 건강하다고 예측해도 99.9%의 정확도를 얻을 수 있습니다. 하지만 그 모델이 실제로 질병을 찾아내는 데 거의 무용하다는 건 명백하죠. 이렇듯 모델의 종류, 사용 목적, 데이터의 특성에 따..
KNN : K-Nearest Neighbors (k-최근접 이웃)
·
AI/모델별 정리
1. 개념클래스가 알려지 데이터 셋 안에서, 새로운 데이터가 가장 유사한 k개의 샘플을 선정하여가장 많이 나온 클래스를 새로운 데이터의 클래스로 결정. 학습이 이뤄지지 않고, 예측 과정에서 연산이 이뤄짐. (게으른 모델)! 그만큼 Feature 엔지니어링과 설계가 매우 중요Q0. '유사하다'의 의미가 무엇인가?A0. 수치형 데이터의 경우 직관적으로 좌표 평면 위에 나타냈을때, 가깝다를 기준으로 한다. Q1-1. 좌표 평면에 어떻게 나타낼 것인가?A1-1. 가깝다, 즉 거리를 기준으로 하기 때문에 데이터 특성(Feature) 사이 차원의 영향을 제거하기 위해 표준화 혹은 정규화를 진행해서 사용. Q1-2. 가깝다의 정의는 어떻게 할 것인가?A1-2. 일반적으로 유클리드 거리 혹은 멘해튼 거리를 사용한다...
ROC Curve와 AUC
·
AI/데이터 분석과 모델 학습
ROC Curve는 이진 분류 모델의 임계값(threshold)을 변화시켜가며 모델의 민감도/재현율(TPR : True Positive Rate)와 오탐률(FPR : False Positive Rate)를 시각화한 그래프. AUC는 ROC 곡선 아래 영역의 넓이를 의미 ROC : Receiver Operating CharacteristicAUC : Area Under the Curve AUC가 1에 가까울수록 좋은 모델.
Logistic Regression (로지스틱 회귀)
·
AI/모델별 정리
1. 개념 이진 분류(binary classification)를 위한 선형 모델로 회귀라는 이름이 붙었지만, 실제로는 분류(classification) 모델 선형 회귀처럼 입력 x에 대해 z를 구하는 w, b를 결정. 그 결과를 시그모이드 함수로 통과시켜 0~1 사이 확률로 변환. 사용자가 임계값을 사용하여, 결과를 최적화함 (ROC Curve 등을 사용) 모델에 따라 임계값 조정이 달라질 수 있음. 상황 최적 임계값 양성 클래스 놓치면 안 됨 (e.g., 질병 진단)낮춰서 민감도(Recall) ↑위양성 줄이는 게 중요 (e.g., 스팸 필터)높여서 정밀도(Precision) ↑2. 장점 빠르고 단순하며, 이해/해석이 쉬움출력이 확률이므로 불확실성 표현 가능고차원 희소 데이터에도 잘 작동 (ex. 텍..
Linear Regression(선형 회귀)
·
AI/모델별 정리
1. 개념"입력 변수(독립 변수, x)와 출력 변수(종속 변수, y) 사이의 선형 관계를 모델링하는 가장 기본적인 회귀 기법" x, y 데이터를 학습시켜 "가중치(w), 절편(b)"을 결정. 실제 데이터 y와 예측값 y​ 사이의 오차를 최소화하는 것. 대표적으로 MES(Mean Squared Error : 평균 제곱 오차)를 손실 함수로 사용.2. 장점결과 해석이 용이함 (계수가 크면 영향이 큼)구현이 간단하고 계산 효율 높음특성 중요도 분석 가능 (가중치 크기로 해석)3. 단점데이터가 선형 관계를 만족하지 않으면 성능 저하다중공선성(입력변수 간 상관관계)이 높을 경우 불안정이상치(outlier)에 민감4. 과적합 방지 모델 설명 Ridge RegressionL2 정규화 추가 (과적합 방지)Lasso ..