AI/모델별 정리

Linear Regression(선형 회귀)

코코도롱 2025. 5. 18. 19:44
반응형

1. 개념

"입력 변수(독립 변수, x)와 출력 변수(종속 변수, y) 사이의 선형 관계를 모델링하는 가장 기본적인 회귀 기법"

 

x, y 데이터를 학습시켜 "가중치(w), 절편(b)"을 결정. 실제 데이터 y와 예측값 y 사이의 오차를 최소화하는 것.

대표적으로 MES(Mean Squared Error : 평균 제곱 오차)를 손실 함수로 사용.

MES : Mean Squared Error

2. 장점

  • 결과 해석이 용이함 (계수가 크면 영향이 큼)
  • 구현이 간단하고 계산 효율 높음
  • 특성 중요도 분석 가능 (가중치 크기로 해석)

3. 단점

  • 데이터가 선형 관계를 만족하지 않으면 성능 저하
  • 다중공선성(입력변수 간 상관관계)이 높을 경우 불안정
  • 이상치(outlier)에 민감

4. 과적합 방지

모델 설명
Ridge Regression L2 정규화 추가 (과적합 방지)
Lasso Regression L1 정규화 추가 (특성 선택 가능)
Elastic Net L1 + L2 혼합

4-1. Ridge Regression (릿지 회귀)

L2 정규화(L2 norm penalty)를 추가한 모델

 

 

  • 모든 가중치를 조금씩 축소(shrink)시켜 과적합 방지
  • 하지만 가중치를 완전히 0으로 만들지는 않음
  • 다중공선성(변수 간 중복성)에 강하고 수학적으로 안정적인 해 존재

 

4-2. Lasso Regression (랏쏘 회귀)

L1 정규화(L1 norm penalty)를 추가한 모델

가중치의 절댓값 합에 벌점을 주어 일부 가중치를 0으로 만듦

→ Feature 선택 효과

 

 

 

  • 일부 가중치를 정확히 0으로 만들어서 변수 제거 (Sparsity)
  • 해석이 쉬움 (어떤 변수가 중요한지 명확)
  • 최적화는 서브그래디언트 또는 좌표하강법으로 수행
  • 다중공성선에 매우 약함

4-3. ElasticNet Regression (엘라스틱넷 회귀)

L1 정규화(Lasso)와 L2 정규화(Ridge)를 동시에 사용하는 회귀 모델

 

  • L1, L2의 모든 장점을 가질 수 있지만, 반대로 2가지 모두의 단점만 가질 수도 있다
  • 기본적으로 항이 늘어난 만큼 연산 복잡도 증가
  • Lasso 계열에서 나타나는 현상인, 강한 상관관계를 가진 변수 중 하나만 선택하는 경향이 나타날 수 있음
  • 데이터셋의 특성과 맞지 않으면, 성능 저하가 크게 나타남
반응형