C14
게임 AI NPC부터 강화학습까지
수업 교안(슬라이드) 열기새 창핵심 비유
강화학습은 '자전거 배우기'와 같다 — 처음엔 수없이 넘어지지만(페널티), 균형을 잡을 때마다 몸이 기억하고(보상), 수천 번 반복하면 아무도 가르쳐주지 않아도 스스로 달릴 수 있게 된다. 알파고도 마찬가지로 수천만 판의 '넘어짐과 성공'을 반복하며 바둑의 달인이 됐다.
핵심 포인트
- 게임 NPC는 '경로탐색 알고리즘(A*)'을 써서 장애물을 피해 최단 경로를 찾는다 — 지도 앱이 길 안내를 하는 원리와 동일하다.
- 강화학습은 '시행착오 학습'이다: AI가 행동을 하면 환경이 보상(+) 또는 페널티(-)를 주고, AI는 보상을 더 많이 받는 방향으로 행동을 바꾸는 과정을 수백만 번 반복한다.
- 알파고는 인간 기보(棋譜) 16만 판을 먼저 학습하고, 이후 자기 자신과 수천만 판을 두는 '자가 대국 강화학습'으로 인간 최고수를 넘어섰다.
- 알파스타는 바둑보다 훨씬 복잡한 실시간 전략 게임 스타크래프트 II에서 프로게이머를 이겼다 — 상대 기지가 안 보이는 '불완전 정보' 환경에서도 강화학습이 통한다는 것을 증명했다.
- 강화학습의 역사적 흐름: 1990년대 체스 AI(규칙 기반) → 2013년 DQN(Atari 게임, 딥러닝+강화학습 결합) → 2016년 알파고 → 2019년 알파스타 — 게임이 AI 연구의 '테스트베드' 역할을 해왔다.
관련 개념
교사 팁
수업 도입에서 학생들에게 "마인크래프트나 롤에서 몬스터가 나를 따라오는 건 어떻게 가능할까?"라고 묻고 손을 들게 한다. 이후 Red Blob Games 인터랙티브 사이트를 빔프로젝터로 띄워 교사가 실시간으로 장애물을 클릭하면서 NPC 경로가 바뀌는 것을 보여주면 A* 알고리즘 개념을 2분 안에 직관적으로 전달할 수 있다. 강화학습 파트에서는 "틀릴 때마다 -1점, 맞을 때마다 +1점을 주면서 수백만 번 반복하면 어떻게 될까?"라는 질문으로 자연스럽게 알파고 이야기로 연결한다.
참고 자료
- 게임 속 인공지능 — 내 삶 속 AI (WikiDocs)ko / article
게임 NPC의 행동 방식, 경로 탐색, 게임 AI의 역사를 한국어로 쉽게 설명한 온라인 교재. 중학생 수준에서 읽기 적합하며 무료 접근 가능.
- 강화 학습(Reinforcement Learning) 알고리즘 — 내 삶 속 AI (WikiDocs)ko / article
보상·페널티 개념부터 강화학습의 기본 원리를 한국어로 설명. 게임 AI와 연결해 설명하는 구성이라 수업 도입부 읽기 자료로 적합.
- Red Blob Games — A* 알고리즘 인터랙티브 입문en / interactive
게임 NPC 경로탐색에 쓰이는 A* 알고리즘을 시각적·인터랙티브하게 체험할 수 있는 사이트. 직접 장애물을 그리며 경로가 바뀌는 것을 눈으로 확인 가능. 코딩 없이 개념 이해 최적.
- 알파고 — 위키백과ko / wiki
알파고의 탄생 배경, 이세돌과의 대국, 강화학습 원리를 한국어 백과사전 형태로 정리. 수업 배경지식 제공 및 학생 자율 탐구 자료로 활용 가능.
- AlphaStar: Grandmaster level in StarCraft II — DeepMind 공식 블로그en / article
알파스타가 인간 프로게이머를 상대로 그랜드마스터 등급을 달성한 과정을 DeepMind가 직접 설명한 공식 글. 영상·그래프 포함. 알파고(바둑)에서 알파스타(실시간 전략 게임)로 이어지는 발전상을 보여줌.