AI/모델별 정리

Logistic Regression (로지스틱 회귀)

코코도롱 2025. 5. 18. 23:44
반응형

1. 개념

이진 분류(binary classification)를 위한 선형 모델로 회귀라는 이름이 붙었지만, 실제로는 분류(classification) 모델

 

선형 회귀처럼 입력 x에 대해 z를 구하는 w, b를 결정.

 

그 결과를 시그모이드 함수로 통과시켜 0~1 사이 확률로 변환.

사용자가 임계값을 사용하여, 결과를 최적화함 (ROC Curve 등을 사용)

 

모델에 따라 임계값 조정이 달라질 수 있음.

상황 최적 임계값
양성 클래스 놓치면 안 됨 (e.g., 질병 진단) 낮춰서 민감도(Recall)
위양성 줄이는 게 중요 (e.g., 스팸 필터) 높여서 정밀도(Precision)

2. 장점

 

  • 빠르고 단순하며, 이해/해석이 쉬움
  • 출력이 확률이므로 불확실성 표현 가능
  • 고차원 희소 데이터에도 잘 작동 (ex. 텍스트)
  • L1/L2 정규화와 쉽게 결합 가능

 

3. 단점

 

  • 선형 결정 경계만 학습 가능 → 비선형 문제에선 성능 낮음
  • 이상치(outlier)에 민감할 수 있음
  • 다중 클래스 문제는 softmax (다항 로지스틱 회귀)로 확장해야 함

 

4. 과적합 방지

4-1. L2 정규화 (Ridge-style)

 

  • 모든 가중치를 부드럽게 줄임
  • 과적합 방지 + 수치 안정성

 

4-2. L1 정규화 (Lasso-style)

 

  • 불필요한 특성 제거 (가중치를 0으로)
  • 희소 모델 → 해석 가능성 증가

5. 다중 클래스용 Softmax 처리

입력 𝑥 클래스 수 K일 때,

 

Softmax 함수로 확률로 변환

 

5-1. 손실 함수: Categorical Cross Entropy

반응형