토큰 AI가 말을 쪼개 보는 법

핵심 비유

토큰은 AI의 레고 블록이다. 우리가 레고로 집·자동차·우주선을 만들 때 같은 블록 조각을 다르게 조합하듯, AI도 정해진 토큰(블록) 조각들을 조합해 모든 문장을 이해하고 만들어낸다. 레고 블록이 너무 크면 세밀한 표현이 어렵고, 너무 작으면 조합이 복잡해지는 것처럼 — AI도 토큰 크기를 조절해 효율과 표현력의 균형을 맞춘다.

핵심 포인트

AI는 문장을 통째로 읽지 않고 '토큰'이라는 작은 조각으로 쪼개서 처리한다. 영어에서는 단어 단위, 한국어에서는 형태소(글자 묶음) 단위로 나뉘는 경우가 많다.
같은 글자라도 언어·모델·문맥에 따라 토큰 경계가 달라진다. '안녕하세요'가 1개의 토큰이 될 수도, 여러 토큰으로 쪼개질 수도 있어 AI마다 '읽는 방식'이 다르다.
토큰은 숫자(ID)로 변환된다. AI는 결국 언어가 아니라 숫자의 연속을 처리한다. 'hello'→15339처럼 각 토큰에 고유 번호가 붙는다.
토큰 수가 곧 AI의 '작업량'이다. 문장이 길수록 토큰이 많아지고 처리 비용과 시간이 늘어난다. ChatGPT 등 AI 서비스의 사용 요금이 토큰 수로 계산되는 이유가 여기에 있다.
AI가 긴 글을 '기억'할 수 있는 한계도 토큰 수(컨텍스트 윈도우)로 정해진다. 창문 크기만큼만 볼 수 있는 것처럼, AI도 한 번에 처리 가능한 토큰 수에 제한이 있다.

교사 팁

수업 도입으로 OpenAI Tokenizer(platform.openai.com/tokenizer)를 빔 프로젝터에 띄우고, 학생들이 자기 이름·오늘 점심 메뉴·좋아하는 노래 제목을 직접 입력해 색깔로 구분된 토큰을 눈으로 확인하게 한다. "내 이름은 몇 토큰일까?" 퀴즈로 시작하면 자연스럽게 흥미를 유발하고, 한국어와 영어의 토큰 수가 왜 다른지 비교 토론으로 연결할 수 있다.

참고 자료

토큰이란? AI의 언어이자 통화 단위 — NVIDIA Blog Koreako / article
NVIDIA 공식 한국어 블로그. AI 토큰의 개념·역할·처리 방식을 그림과 함께 쉽게 설명. 레고 블록 비유 포함. 중학생 눈높이에 맞는 입문용 아티클.
토큰(Token): AI의 언어 레고 블럭 — Brunchko / article
브런치 한국어 기고글. '토큰 = 레고 블록' 비유로 토큰화 개념을 직관적으로 풀어낸 글. 한국어 단어 분절 예시(예: '안녕하세요' → 토큰 단위)가 포함되어 수업 예시로 바로 활용 가능.
OpenAI 공식 Tokenizer 플레이그라운드en / interactive
문장을 입력하면 실시간으로 토큰 단위로 색깔 구분해 보여주는 인터랙티브 도구. 수업 시간에 학생이 직접 한국어·영어 문장을 입력해 토큰을 눈으로 확인할 수 있어 체험 활동에 적합.
Chapter 2 — Tokenization: Breaking Language Into Lego Bricks (Medium)en / article
영어 입문 아티클. 레고 블록 비유를 중심으로 단어·서브워드·문자 단위 토큰화의 차이를 그림과 함께 설명. 교사가 수업 자료를 구성할 때 예시·도식 참고용으로 활용 가능.
Tokenization in Large Language Models, Explained — Sean Trott Substacken / article
언어학자가 쓴 영어 해설글. BPE(Byte-Pair Encoding) 등 토크나이징 알고리즘을 수식 없이 글과 예시만으로 설명. 교사가 개념 심화 배경 지식을 얻는 데 적합.

토큰 AI가 말을 쪼개 보는 법

핵심 비유

핵심 포인트

관련 개념

교사 팁

참고 자료