C5

LLM 거대언어모델 파라미터

수업 교안(슬라이드) 열기새 창

핵심 비유

파라미터는 인간 뇌의 시냅스(신경 연결)와 같다. 사람이 자전거 타는 법을 배울 때 넘어지고 균형을 잡으면서 뇌 속 시냅스 연결이 강해지듯이, AI도 틀린 예측을 수정할 때마다 파라미터 숫자가 조금씩 바뀐다. 인간 뇌의 시냅스는 약 100조 개, GPT-3는 1,750억 개 — AI가 아직 사람 뇌보다 훨씬 적지만 이미 웬만한 언어 과제를 해낼 수 있다는 점이 놀라운 것이다.

핵심 포인트

  • 파라미터(매개변수)는 AI 모델 안에 저장된 수십억~수조 개의 숫자값으로, 모델이 다음 단어를 예측할 때 사용하는 '조절 다이얼'이다. GPT-3는 1,750억 개, 최신 모델은 수조 개에 달한다.
  • 파라미터는 훈련 데이터(인터넷 텍스트, 책 등)를 읽으면서 자동으로 정해진다. 정답과 오답을 비교해 숫자를 조금씩 수정하는 과정을 수백억 번 반복하는 것이 '학습'이다.
  • 파라미터 수가 많을수록 더 복잡한 언어 패턴을 담을 수 있지만, 더 많은 컴퓨터 자원과 전력이 필요하다. 크다고 무조건 좋은 것은 아니며, 효율적인 소형 모델 연구도 활발하다.
  • GPT(OpenAI), Claude(Anthropic), Gemini(Google)는 각각 수천억~수조 개의 파라미터를 가진 LLM이다. 회사마다 정확한 파라미터 수를 공개하지 않는 경우가 많아 추정치로 비교한다.
  • 파라미터는 '외운 사실'이 아니라 언어의 패턴과 관계를 인코딩한 것이다. 그래서 LLM은 학습 때 본 문장을 그대로 반환하는 것이 아니라, 새로운 문장을 조합해 생성할 수 있다.

관련 개념

교사 팁

수업 도입에서 학생들에게 "ChatGPT는 몇 학년까지 공부했을까?"라고 질문한다. 학년 대신 '파라미터 수'가 학습량의 척도임을 설명한 뒤, 칠판에 1억 / 10억 / 1,750억을 적고 각각 동전 쌓기 높이(1억 개 동전을 쌓으면 약 1,500km — 서울~부산 3왕복)로 환산해 시각화한다. 이후 "그럼 파라미터가 10배 많으면 10배 똑똑할까?"를 모둠 토론 주제로 던져 '크기 vs 효율' 개념으로 확장한다.

참고 자료