C4
토큰 AI가 말을 쪼개 보는 법
수업 교안(슬라이드) 열기새 창핵심 비유
토큰은 AI의 레고 블록이다. 우리가 레고로 집·자동차·우주선을 만들 때 같은 블록 조각을 다르게 조합하듯, AI도 정해진 토큰(블록) 조각들을 조합해 모든 문장을 이해하고 만들어낸다. 레고 블록이 너무 크면 세밀한 표현이 어렵고, 너무 작으면 조합이 복잡해지는 것처럼 — AI도 토큰 크기를 조절해 효율과 표현력의 균형을 맞춘다.
핵심 포인트
- AI는 문장을 통째로 읽지 않고 '토큰'이라는 작은 조각으로 쪼개서 처리한다. 영어에서는 단어 단위, 한국어에서는 형태소(글자 묶음) 단위로 나뉘는 경우가 많다.
- 같은 글자라도 언어·모델·문맥에 따라 토큰 경계가 달라진다. '안녕하세요'가 1개의 토큰이 될 수도, 여러 토큰으로 쪼개질 수도 있어 AI마다 '읽는 방식'이 다르다.
- 토큰은 숫자(ID)로 변환된다. AI는 결국 언어가 아니라 숫자의 연속을 처리한다. 'hello'→15339처럼 각 토큰에 고유 번호가 붙는다.
- 토큰 수가 곧 AI의 '작업량'이다. 문장이 길수록 토큰이 많아지고 처리 비용과 시간이 늘어난다. ChatGPT 등 AI 서비스의 사용 요금이 토큰 수로 계산되는 이유가 여기에 있다.
- AI가 긴 글을 '기억'할 수 있는 한계도 토큰 수(컨텍스트 윈도우)로 정해진다. 창문 크기만큼만 볼 수 있는 것처럼, AI도 한 번에 처리 가능한 토큰 수에 제한이 있다.
관련 개념
교사 팁
수업 도입으로 OpenAI Tokenizer(platform.openai.com/tokenizer)를 빔 프로젝터에 띄우고, 학생들이 자기 이름·오늘 점심 메뉴·좋아하는 노래 제목을 직접 입력해 색깔로 구분된 토큰을 눈으로 확인하게 한다. "내 이름은 몇 토큰일까?" 퀴즈로 시작하면 자연스럽게 흥미를 유발하고, 한국어와 영어의 토큰 수가 왜 다른지 비교 토론으로 연결할 수 있다.
참고 자료
- 토큰이란? AI의 언어이자 통화 단위 — NVIDIA Blog Koreako / article
NVIDIA 공식 한국어 블로그. AI 토큰의 개념·역할·처리 방식을 그림과 함께 쉽게 설명. 레고 블록 비유 포함. 중학생 눈높이에 맞는 입문용 아티클.
- 토큰(Token): AI의 언어 레고 블럭 — Brunchko / article
브런치 한국어 기고글. '토큰 = 레고 블록' 비유로 토큰화 개념을 직관적으로 풀어낸 글. 한국어 단어 분절 예시(예: '안녕하세요' → 토큰 단위)가 포함되어 수업 예시로 바로 활용 가능.
- OpenAI 공식 Tokenizer 플레이그라운드en / interactive
문장을 입력하면 실시간으로 토큰 단위로 색깔 구분해 보여주는 인터랙티브 도구. 수업 시간에 학생이 직접 한국어·영어 문장을 입력해 토큰을 눈으로 확인할 수 있어 체험 활동에 적합.
- Chapter 2 — Tokenization: Breaking Language Into Lego Bricks (Medium)en / article
영어 입문 아티클. 레고 블록 비유를 중심으로 단어·서브워드·문자 단위 토큰화의 차이를 그림과 함께 설명. 교사가 수업 자료를 구성할 때 예시·도식 참고용으로 활용 가능.
- Tokenization in Large Language Models, Explained — Sean Trott Substacken / article
언어학자가 쓴 영어 해설글. BPE(Byte-Pair Encoding) 등 토크나이징 알고리즘을 수식 없이 글과 예시만으로 설명. 교사가 개념 심화 배경 지식을 얻는 데 적합.