개념

강화학습

행동의 보상과 벌점을 통해 더 나은 선택을 배우는 학습 방식.

에이전트가 행동하고 환경이 보상으로 답하며 더 나은 선택을 배우는 강화학습 순환 에이전트 환경 행동 보상 · 상태
강화학습 개념도

핵심 포인트

행동의 보상과 벌점을 통해 더 나은 선택을 배우는 학습 방식.

관련 개념

역링크