개념
강화학습
C2
C14
행동의 보상과 벌점을 통해 더 나은 선택을 배우는 학습 방식.
에이전트가 행동하고 환경이 보상으로 답하며 더 나은 선택을 배우는 강화학습 순환
에이전트
환경
행동
보상 · 상태
강화학습 개념도
핵심 포인트
행동의 보상과 벌점을 통해 더 나은 선택을 배우는 학습 방식.
관련 개념
머신러닝
역링크
C2. 학습 3종 지도 비지도 강화학습
C14. 게임 AI NPC부터 강화학습까지
닫기