결국 이전에 보았던 task들은 전부 2D image 상의 task들이었음.

Video의 경우 time(시간)이라는 새로운 축이 생기고 이 시간을 어떻게 처리해야 할지가 관건.

Video와 관련한 task는 매우 많지만 해당 수업에서 다룬 것의 9할은 특정 시점에 어떤 행동(verb)을 하는지 classify하는 task 였음. (↔ 주로 물체가 무엇(noun)인지 classify하는 Image 와는 구분됨)

Large-scale Video Classification with Convolutional Neural Networks (Karpathy et al.) 에서는 pretrained 2D convnet을 이용해 연속 frame의 시간 정보를 어떤 식으로 녹일지 여러 가지 방법들을 탐색했음:

1. Single Frame

2.1. Late Fusion (w/ FC Layers)

2.2. Late Fusion (w/ Pooling)

3. Early Fusion