RL의 최근 인기는 딥러닝의 렌즈에서 이해해야 함.

어쩌면 알고리즘의 중요도보다도 compute/data/infrastructure의 발전이 그 이상으로 중요할 수도 있음.

DQN도 좋지만 Policy Gradient는 end-to-end training이 가능하다는 점에서 더 선호됨. 그리고 Q Learning 보다 더 잘 work 하는 경우들이 있음

credit assignment problem: 무엇에 보상을 줄 것인가