C14

게임 AI NPC부터 강화학습까지

핵심 비유

강화학습은 '자전거 배우기'와 같다 — 처음엔 수없이 넘어지지만(페널티), 균형을 잡을 때마다 몸이 기억하고(보상), 수천 번 반복하면 아무도 가르쳐주지 않아도 스스로 달릴 수 있게 된다. 알파고도 마찬가지로 수천만 판의 '넘어짐과 성공'을 반복하며 바둑의 달인이 됐다.

핵심 포인트

게임 NPC는 '경로탐색 알고리즘(A*)'을 써서 장애물을 피해 최단 경로를 찾는다 — 지도 앱이 길 안내를 하는 원리와 동일하다.
강화학습은 '시행착오 학습'이다: AI가 행동을 하면 환경이 보상(+) 또는 페널티(-)를 주고, AI는 보상을 더 많이 받는 방향으로 행동을 바꾸는 과정을 수백만 번 반복한다.
알파고는 인간 기보(棋譜) 16만 판을 먼저 학습하고, 이후 자기 자신과 수천만 판을 두는 '자가 대국 강화학습'으로 인간 최고수를 넘어섰다.
알파스타는 바둑보다 훨씬 복잡한 실시간 전략 게임 스타크래프트 II에서 프로게이머를 이겼다 — 상대 기지가 안 보이는 '불완전 정보' 환경에서도 강화학습이 통한다는 것을 증명했다.
강화학습의 역사적 흐름: 1990년대 체스 AI(규칙 기반) → 2013년 DQN(Atari 게임, 딥러닝+강화학습 결합) → 2016년 알파고 → 2019년 알파스타 — 게임이 AI 연구의 '테스트베드' 역할을 해왔다.

교사 팁

수업 도입에서 학생들에게 "마인크래프트나 롤에서 몬스터가 나를 따라오는 건 어떻게 가능할까?"라고 묻고 손을 들게 한다. 이후 Red Blob Games 인터랙티브 사이트를 빔프로젝터로 띄워 교사가 실시간으로 장애물을 클릭하면서 NPC 경로가 바뀌는 것을 보여주면 A* 알고리즘 개념을 2분 안에 직관적으로 전달할 수 있다. 강화학습 파트에서는 "틀릴 때마다 -1점, 맞을 때마다 +1점을 주면서 수백만 번 반복하면 어떻게 될까?"라는 질문으로 자연스럽게 알파고 이야기로 연결한다.

참고 자료

게임 속 인공지능 — 내 삶 속 AI (WikiDocs)ko / article
게임 NPC의 행동 방식, 경로 탐색, 게임 AI의 역사를 한국어로 쉽게 설명한 온라인 교재. 중학생 수준에서 읽기 적합하며 무료 접근 가능.
강화 학습(Reinforcement Learning) 알고리즘 — 내 삶 속 AI (WikiDocs)ko / article
보상·페널티 개념부터 강화학습의 기본 원리를 한국어로 설명. 게임 AI와 연결해 설명하는 구성이라 수업 도입부 읽기 자료로 적합.
Red Blob Games — A* 알고리즘 인터랙티브 입문en / interactive
게임 NPC 경로탐색에 쓰이는 A* 알고리즘을 시각적·인터랙티브하게 체험할 수 있는 사이트. 직접 장애물을 그리며 경로가 바뀌는 것을 눈으로 확인 가능. 코딩 없이 개념 이해 최적.
알파고 — 위키백과ko / wiki
알파고의 탄생 배경, 이세돌과의 대국, 강화학습 원리를 한국어 백과사전 형태로 정리. 수업 배경지식 제공 및 학생 자율 탐구 자료로 활용 가능.
AlphaStar: Grandmaster level in StarCraft II — DeepMind 공식 블로그en / article
알파스타가 인간 프로게이머를 상대로 그랜드마스터 등급을 달성한 과정을 DeepMind가 직접 설명한 공식 글. 영상·그래프 포함. 알파고(바둑)에서 알파스타(실시간 전략 게임)로 이어지는 발전상을 보여줌.

게임 AI NPC부터 강화학습까지

핵심 비유

핵심 포인트

관련 개념

교사 팁

참고 자료