**http://www.yes24.com/Product/Goods/92337949**
**https://dana-study-log.tistory.com/18**
※본 내용은 위의 자료들을 참고하여 작성하였습니다.
벨만 방정식은 시점 t에서의 밸류와 시점 t+1에서의 밸류 사이의 관계를 다루며, 가치 함수와 정책 함수 사이의 관계도 다루고 있습니다. 여러 강화학습 알고리즘의 근간이 되는 만큼 중요한 개념입니다. 먼저 벨만 기대 방정식과 벨만 최적 방정식을 0단계부터 2단계까지 한눈에 볼 수 있게 표기해보겠습니다.


벨만 기대 방정식(좌), 벨만 최적 방정식(우)
실제로 벨만 방정식이 0단계, 1단계, 2단계 이렇게 명시적으로 나뉘지는 않습니다. 다만, 0단계에만 기댓값이 있으며, 이와 다르게 1, 2단계는 𝜋(𝑎|𝑠)와 전이 확률이라는 확률 변수가 포함되어 있다는 점입니다. MDP를 안다고 가정할 때 2단계 수식을 사용하는 것이 정확하겠지만 실제로 대부분 환경에서는 MDP를 알 수 있는 경우가 없기 때문에 0단계 수식이 주로 사용됩니다.
벨만 기대 방정식은 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계를 식으로 나타낸 것입니다. 벨만 기대 방정식은 가치함수식에서 유도된 것인데 과정은 다음과 같습니다.

상태 가치 함수의 정의는 리턴의 기댓값입니다. Gt를 전개 한 다음, 먼저 한 스텝만큼 진행하여 보상을 받고, 그 다음 상태인 st+1부터 미래에 받을 보상을 더해줘도 똑같지 않겠냐는 것입니다.
우선, 가치함수의 정의에서 반환값 Gt를 풀어서 표기한 것이 두 번째 줄의 수식입니다.
두 번째 수식에서 반환값 부분의 두 번째 항부터 감가율(γ)로 묶어준 것이 세 번째 수식입니다.
세 번째 수식에서 묶어준 부분이 다음 상태의 반환값을 의미하므로 Gt+1라고 표기할 수 있습니다.
네 번째 수식에서 Gt+1 또한 확률 변수로 정해져 있는 특정값이 아니기 때문에 기댓값 개념을 추가할 수 있습니다.