파인튜닝 및 모델 서빙: LoRA, QLoRA 실전 활용

2024. 4. 17. 21:43·AI/모델별 정리
반응형

1. 파인튜닝의 필요성과 경량화 전략

대규모 언어 모델(LLM)이나 비전 모델을 활용하려면, 단순 API 호출을 넘어서 특정 도메인에 맞게 모델을 최적화.

전통적으로는 전체 파라미터를 업데이트하는 Full Fine-Tuning을 사용했으나, 비용과 시간이 많이 소요.

!경량화 파인튜닝 기법으로 LoRA와 QLoRA가 많이 사용.

2. LoRA (Low-Rank Adaptation)

  • 기존 모델의 가중치는 동결, 특정 층에 저랭크 행렬(보통 rank=8 이하)을 삽입, 적은 파라미터만 학습하는 방식
  • 연산량과 메모리 소모가 작아 1~2개의 GPU만으로도 파인튜닝 가능

장점

  • 전체 모델을 학습하지 않아도 높은 성능 확보 가능
  • 학습 속도 빠름, 저장 용량 절약
  • 여러 task에 대해 LoRA adapter만 따로 관리 가능

3. QLoRA (Quantized LoRA)

  • LoRA에 더해 모델 가중치를 4bit로 양자화(Quantization)하여 메모리 사용량을 더욱 줄인 방식
  • 13B~65B 모델도 24GB 미만의 GPU에서 학습 가능

주요 기술

  • bitsandbytes의 4bit quantization
  • bnb.Norm, Double Quant, NF4 등 다양한 양자화 전략 사용
  • Hugging Face PEFT와 함께 활용 가능

4. 모델 서빙 도구

FastAPI

  • Python 기반 경량 웹 프레임워크
  • 학습한 모델을 API 형태로 외부에 제공할 때 사용
  • 단일 서버 환경, 실험적 프로토타입에 적합

TorchServe

  • PyTorch 전용 서빙 플랫폼
  • 모델 추론, 버전 관리, 로깅, REST API 지원
  • .mar 파일로 패키징 후 서비스 가능

Triton Inference Server

  • NVIDIA에서 개발한 고성능 모델 서빙 서버
  • ONNX, TensorFlow, PyTorch 등 다양한 프레임워크 지원
  • 배치 추론, 동시 처리 최적화 기능 포함
반응형
저작자표시 비영리 변경금지 (새창열림)

'AI > 모델별 정리' 카테고리의 다른 글

Logistic Regression (로지스틱 회귀)  (0) 2025.05.18
Linear Regression(선형 회귀)  (0) 2025.05.18
목차. 기초 머신러닝(딥러닝 포함) 모델 종류  (0) 2025.05.18
PCA : 주성분 분석  (0) 2025.05.08
사이킷런(Scikit-learn) 머신러닝 주요 모델 정리  (0) 2024.04.23
'AI/모델별 정리' 카테고리의 다른 글
  • Linear Regression(선형 회귀)
  • 목차. 기초 머신러닝(딥러닝 포함) 모델 종류
  • PCA : 주성분 분석
  • 사이킷런(Scikit-learn) 머신러닝 주요 모델 정리
코코도롱
코코도롱
    반응형
  • 코코도롱
    도롱이의 전자공학소
    코코도롱
  • 전체
    오늘
    어제
    • 분류 전체보기 (60)
      • AI (16)
        • 데이터 분석과 모델 학습 (4)
        • 모델별 정리 (7)
        • (PJT)음성 화자 분류 (4)
      • SW개발 (38)
        • C++ (9)
        • 면접을 위한 CS 전공지식 노트 (24)
        • Django+Vue.js (0)
        • 이런저런 개발이야기 (1)
        • 갑자기 C코테를 봐야할때 (2)
        • RPI5 프로젝트 (1)
        • 트러블슈팅 (1)
      • ESG (2)
        • 내가 쓰는 Assay (1)
        • 뉴스 스크랩 (1)
      • 반도체 (4)
        • 반도체 (3)
        • 슬기로운 학부생활 (1)
        • 회로 (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    입출력관리
    데이터분석 #머신러닝 #딥러닝 #데이터사이언스 #알고리즘 #데이터전처리
    os구조
    LAN
    c언어 입출력
    c io
    ios7계층
    CS지식
    페이징 기법
    보고서 수식
    홉바이홉통신
    홉바이홉
    메시지큐
    정리본
    전공 지식
    반도체 소자 공학
    운영체제
    데이터분석 #데이터전처리 #결측치 #머신러닝 #딥러닝 #Pandas #DataFrame
    ESG
    반도체 물성
    MySQL
    면접을 위한 cs전공지식 노트
    멀티프로세스
    공백포함입력받기
    word 수식
    반도체 공학
    면접을 위한 CS 전공지식 노트
    요약본
    파일입출력 #DataFrame불러오기
    데이터전처리 #데이터분석 #딥러닝 #머신러닝 #Pandas #Numpy #Python
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
코코도롱
파인튜닝 및 모델 서빙: LoRA, QLoRA 실전 활용
상단으로

티스토리툴바