Q러닝

강화학습 기법의 하나로, 인공지능 에이전트가 현재 상태에서 선택한 행동을 수행하는 것의 기대 효용을 예측하는 함수인 Q-함수(상태에 따라 가치를 테이블로 나타낸 함수)를 학습함으로써 최적의 정책을 수행하는 방법¹