강화학습

상과 벌이라는 보상을 주며 상을 최대화하고 벌을 최소화하도록 학습하는 방식이며, 알파고가 이 방법으로 학습되었으며 주로 게임에서 최적의 동작을 찾는데 사용하는 학습 방식, 아이가 시행착오를 거쳐 걷는 것을 배우는 것과 같은 학습 방법이라 할 수 있음¹