C4

토큰 AI가 말을 쪼개 보는 법

수업 교안(슬라이드) 열기새 창

핵심 비유

토큰은 AI의 레고 블록이다. 우리가 레고로 집·자동차·우주선을 만들 때 같은 블록 조각을 다르게 조합하듯, AI도 정해진 토큰(블록) 조각들을 조합해 모든 문장을 이해하고 만들어낸다. 레고 블록이 너무 크면 세밀한 표현이 어렵고, 너무 작으면 조합이 복잡해지는 것처럼 — AI도 토큰 크기를 조절해 효율과 표현력의 균형을 맞춘다.

핵심 포인트

  • AI는 문장을 통째로 읽지 않고 '토큰'이라는 작은 조각으로 쪼개서 처리한다. 영어에서는 단어 단위, 한국어에서는 형태소(글자 묶음) 단위로 나뉘는 경우가 많다.
  • 같은 글자라도 언어·모델·문맥에 따라 토큰 경계가 달라진다. '안녕하세요'가 1개의 토큰이 될 수도, 여러 토큰으로 쪼개질 수도 있어 AI마다 '읽는 방식'이 다르다.
  • 토큰은 숫자(ID)로 변환된다. AI는 결국 언어가 아니라 숫자의 연속을 처리한다. 'hello'→15339처럼 각 토큰에 고유 번호가 붙는다.
  • 토큰 수가 곧 AI의 '작업량'이다. 문장이 길수록 토큰이 많아지고 처리 비용과 시간이 늘어난다. ChatGPT 등 AI 서비스의 사용 요금이 토큰 수로 계산되는 이유가 여기에 있다.
  • AI가 긴 글을 '기억'할 수 있는 한계도 토큰 수(컨텍스트 윈도우)로 정해진다. 창문 크기만큼만 볼 수 있는 것처럼, AI도 한 번에 처리 가능한 토큰 수에 제한이 있다.

관련 개념

교사 팁

수업 도입으로 OpenAI Tokenizer(platform.openai.com/tokenizer)를 빔 프로젝터에 띄우고, 학생들이 자기 이름·오늘 점심 메뉴·좋아하는 노래 제목을 직접 입력해 색깔로 구분된 토큰을 눈으로 확인하게 한다. "내 이름은 몇 토큰일까?" 퀴즈로 시작하면 자연스럽게 흥미를 유발하고, 한국어와 영어의 토큰 수가 왜 다른지 비교 토론으로 연결할 수 있다.

참고 자료