C14

게임 AI NPC부터 강화학습까지

수업 교안(슬라이드) 열기새 창

핵심 비유

강화학습은 '자전거 배우기'와 같다 — 처음엔 수없이 넘어지지만(페널티), 균형을 잡을 때마다 몸이 기억하고(보상), 수천 번 반복하면 아무도 가르쳐주지 않아도 스스로 달릴 수 있게 된다. 알파고도 마찬가지로 수천만 판의 '넘어짐과 성공'을 반복하며 바둑의 달인이 됐다.

핵심 포인트

  • 게임 NPC는 '경로탐색 알고리즘(A*)'을 써서 장애물을 피해 최단 경로를 찾는다 — 지도 앱이 길 안내를 하는 원리와 동일하다.
  • 강화학습은 '시행착오 학습'이다: AI가 행동을 하면 환경이 보상(+) 또는 페널티(-)를 주고, AI는 보상을 더 많이 받는 방향으로 행동을 바꾸는 과정을 수백만 번 반복한다.
  • 알파고는 인간 기보(棋譜) 16만 판을 먼저 학습하고, 이후 자기 자신과 수천만 판을 두는 '자가 대국 강화학습'으로 인간 최고수를 넘어섰다.
  • 알파스타는 바둑보다 훨씬 복잡한 실시간 전략 게임 스타크래프트 II에서 프로게이머를 이겼다 — 상대 기지가 안 보이는 '불완전 정보' 환경에서도 강화학습이 통한다는 것을 증명했다.
  • 강화학습의 역사적 흐름: 1990년대 체스 AI(규칙 기반) → 2013년 DQN(Atari 게임, 딥러닝+강화학습 결합) → 2016년 알파고 → 2019년 알파스타 — 게임이 AI 연구의 '테스트베드' 역할을 해왔다.

관련 개념

교사 팁

수업 도입에서 학생들에게 "마인크래프트나 롤에서 몬스터가 나를 따라오는 건 어떻게 가능할까?"라고 묻고 손을 들게 한다. 이후 Red Blob Games 인터랙티브 사이트를 빔프로젝터로 띄워 교사가 실시간으로 장애물을 클릭하면서 NPC 경로가 바뀌는 것을 보여주면 A* 알고리즘 개념을 2분 안에 직관적으로 전달할 수 있다. 강화학습 파트에서는 "틀릴 때마다 -1점, 맞을 때마다 +1점을 주면서 수백만 번 반복하면 어떻게 될까?"라는 질문으로 자연스럽게 알파고 이야기로 연결한다.

참고 자료