강화학습은 사전에 Transition function $T$와 보상 함수 $R$을 알지 못한 상태에서 MDP 문제를 최적의 정책 $π^∗$를 해결한다.
강화학습을 통해 Online 강화학습은 에이전트는 환경과의 상호작용을 통해 구한 샘플을 바탕으로 최적의 정책을 찾아간다. 이때 강화학습의 방법론에는 다음과 같은 것들이 존재한다.
Model-based learning: 환경과의 상호작용으로 얻은 샘플을 이용해 transition function $T$와 reward model $R$을 근사하는 모델을 명시적으로 학습. 이후 학습한 (간이) 모델을 바탕으로 VI, PI 같은 MDP 방법으로 optimal Value function과 optimal policy을 구한다.
Model-free learning: $T$와 $R$을 명시적으로 학습하지 않고 샘플을 활용해 value 또는 Q-value를 직접 업데이트함. 이때 모델이 없으므로 기대값이 필요한 VI/PI 방법은 사용할 수 없고 샘플 기반의 방법으로 학습.
Model-free Learning에는 다음과 같은 방법들이 존재한다:
$$ V^(s) = \max_a \Sigma_{s'} P(s'|s,a)(R(s,a,s') + \gamma V^(s')) $$
Value Iteration을 구할 때 우리는 $R$ 와 $P$(혹은 $T$) 정보를 알고 있다는 가정을 한다. 그래야 $\max$를 구할 수 있기 때문.
다시 말해 $T$와 $R$을 알고 있을때 우리는 Value Iteration이나 Policy Iteration과 같은 offline planning(dp) 알고리즘으로 MDP를 풀 수 있다.
반면 RL은 이와 다르다. RL에서는 agent가 $T$와 $R$에 대해 모른다고 가정한다. 따라서 에이전트는 직접 탐험(exploration)하면서 $T$(모델)와 $R$(보상 함수)가 무엇인지 배워가야 한다. 환경과의 상호작용을 통해 샘플을 구하고 그 샘플을 바탕으로 학습을 하면서(model free / model based) 더 큰 보상으로 이어지는 행동을 선택할 수 있게 학습을 하는 것이다. 그래서 RL 을 Unknown MDP problem 이라고도 부른다.
즉 dp 랑 같은 점은 여전히 MDP라고 가정하기 때문에 state, action, transition function, reward function 이 존재하고 최적의 policy를 찾는 것이 목적이지만 모델($T$와 $R$)을 모른다는 것이 차이점이다.
Reinforcement Learning에서 Agent는