Overview

강화학습은 사전에 Transition function $T$와 보상 함수 $R$을 알지 못한 상태에서 MDP 문제를 최적의 정책 $π^∗$를 해결한다.

강화학습을 통해 Online 강화학습은 에이전트는 환경과의 상호작용을 통해 구한 샘플을 바탕으로 최적의 정책을 찾아간다. 이때 강화학습의 방법론에는 다음과 같은 것들이 존재한다.

Recap: Value Iteration

$$ V^(s) = \max_a \Sigma_{s'} P(s'|s,a)(R(s,a,s') + \gamma V^(s')) $$

Value Iteration을 구할 때 우리는 $R$ 와 $P$(혹은 $T$) 정보를 알고 있다는 가정을 한다. 그래야 $\max$를 구할 수 있기 때문.

다시 말해 $T$와 $R$을 알고 있을때 우리는 Value Iteration이나 Policy Iteration과 같은 offline planning(dp) 알고리즘으로 MDP를 풀 수 있다.

Reinforcement Learning

RL vs DP

반면 RL은 이와 다르다. RL에서는 agent가 $T$와 $R$에 대해 모른다고 가정한다. 따라서 에이전트는 직접 탐험(exploration)하면서 $T$(모델)와 $R$(보상 함수)가 무엇인지 배워가야 한다. 환경과의 상호작용을 통해 샘플을 구하고 그 샘플을 바탕으로 학습을 하면서(model free / model based) 더 큰 보상으로 이어지는 행동을 선택할 수 있게 학습을 하는 것이다. 그래서 RL 을 Unknown MDP problem 이라고도 부른다.

즉 dp 랑 같은 점은 여전히 MDP라고 가정하기 때문에 state, action, transition function, reward function 이 존재하고 최적의 policy를 찾는 것이 목적이지만 모델($T$와 $R$)을 모른다는 것이 차이점이다.

Reinforcement Learning에서 Agent는

  1. 경험을 통해 Value Function을 예측해야 하고
  2. Exploration 과 Exploitation의 균형을 맞춰 최적의 Policy를 찾아야 한다.