반응형
1. 개념
"입력 변수(독립 변수, x)와 출력 변수(종속 변수, y) 사이의 선형 관계를 모델링하는 가장 기본적인 회귀 기법"
x, y 데이터를 학습시켜 "가중치(w), 절편(b)"을 결정. 실제 데이터 y와 예측값 y 사이의 오차를 최소화하는 것.
대표적으로 MES(Mean Squared Error : 평균 제곱 오차)를 손실 함수로 사용.
2. 장점
- 결과 해석이 용이함 (계수가 크면 영향이 큼)
- 구현이 간단하고 계산 효율 높음
- 특성 중요도 분석 가능 (가중치 크기로 해석)
3. 단점
- 데이터가 선형 관계를 만족하지 않으면 성능 저하
- 다중공선성(입력변수 간 상관관계)이 높을 경우 불안정
- 이상치(outlier)에 민감
4. 과적합 방지
모델 | 설명 |
Ridge Regression | L2 정규화 추가 (과적합 방지) |
Lasso Regression | L1 정규화 추가 (특성 선택 가능) |
Elastic Net | L1 + L2 혼합 |
4-1. Ridge Regression (릿지 회귀)
L2 정규화(L2 norm penalty)를 추가한 모델
- 모든 가중치를 조금씩 축소(shrink)시켜 과적합 방지
- 하지만 가중치를 완전히 0으로 만들지는 않음
- 다중공선성(변수 간 중복성)에 강하고 수학적으로 안정적인 해 존재
4-2. Lasso Regression (랏쏘 회귀)
L1 정규화(L1 norm penalty)를 추가한 모델
→ 가중치의 절댓값 합에 벌점을 주어 일부 가중치를 0으로 만듦
→ Feature 선택 효과
- 일부 가중치를 정확히 0으로 만들어서 변수 제거 (Sparsity)
- 해석이 쉬움 (어떤 변수가 중요한지 명확)
- 최적화는 서브그래디언트 또는 좌표하강법으로 수행
- 다중공성선에 매우 약함
4-3. ElasticNet Regression (엘라스틱넷 회귀)
L1 정규화(Lasso)와 L2 정규화(Ridge)를 동시에 사용하는 회귀 모델
- L1, L2의 모든 장점을 가질 수 있지만, 반대로 2가지 모두의 단점만 가질 수도 있다
- 기본적으로 항이 늘어난 만큼 연산 복잡도 증가
- Lasso 계열에서 나타나는 현상인, 강한 상관관계를 가진 변수 중 하나만 선택하는 경향이 나타날 수 있음
- 데이터셋의 특성과 맞지 않으면, 성능 저하가 크게 나타남
반응형
'AI > 모델별 정리' 카테고리의 다른 글
KNN : K-Nearest Neighbors (k-최근접 이웃) (0) | 2025.05.19 |
---|---|
Logistic Regression (로지스틱 회귀) (0) | 2025.05.18 |
목차. 기초 머신러닝(딥러닝 포함) 모델 종류 (0) | 2025.05.18 |
PCA : 주성분 분석 (0) | 2025.05.08 |
사이킷런(Scikit-learn) 머신러닝 주요 모델 정리 (0) | 2024.04.23 |