Montezuma’s Revenge

Problem.

무작위 행동에 인센티브를 부여하는 $\epsilon$-greedy 만으로는 보상이 희소한 복잡한 환경을 해결할 수 없음.

어떻게 하면 새롭고 유용한 상태를 의도적으로 찾아가게 할 것인가?

Uncertainty as Reward

기본 전제: 모르는/불확실한 영역에 높은 가치가 있을 것이라고 긍정적으로 assume

→ 기존 보상 함수에 Exploration Bonus를 더해줌

$$ r^+(s, a) = r(s, a) + \mathcal{B}(N(s)) $$

$N(s)$: 상태 $s$를 방문한 횟수 (적게 방문했을수록 $\mathcal{B}(N(s))$는 커짐)

Solutions

1. Optimistic Exploration

A. Count-based

가장 직관적인 방법은 방문 횟수 ($N(s)$)를 세는 것임. 하지만 Deep RL이 다루는 고차원적이고 연속적인 상태 공간에서는 같은 상태가 두 번 다시 등장하지 않기 때문에(sparse) 단순 카운팅이 불가능함

이를 해결하기 위해 pseudo-count라는 개념을 도입

Density Modeling: 정확한 값 대신 상태들의 확률 분포 $p(s)$를 학습, $p(s)$가 낮으면( = 희귀하면) count가 낮은 것으로 간주해 높은 보상을 줌