SPPNet

참고 : 라온피플 블로그

1. 개요

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

이미지 왜곡
- AlexNet사용위해 입력크기를 224x224 변화위해 warping이나 crop을 사용
- 이로 인한 이미지 변형이나 crop으로 인한 손실로 인해, 성능 저하가 일어날 수 있는 요인이 존재.

연산비용 큼
- 2000여개에 이르는 region proposal에 대해 순차적으로 CNN을 수행해야 하기 때문에 학습이나 실제 run time이 긴 문제.

대부분의 넷이 입력크기의 영향을 받는 이유는 fully-connected layer가 입력 영상의 크기에 제한을 받기 때문이다.

여러 단계의 피라미드 레벨에서 오는 자잘한 feature들을 fully-connected layer의 입력으로 사용(BoW 개념 활용)

BoW(Bag-of-Words) : 특정 개체를 분류하는데 굵고 강한 특징에 의존하는 대신에서 작은 여러 개의 특징을 사용하면 개체를 잘 구별할 수 있다

R-CNN : 각각의 후보 window에 대해 crop/warp를 한 후 CNN 과정을 전부 거치지만
SPPNet : SPPNet에서는 영상 크기에 영향을 받지 않기 때문에 전체 영상에 대해 딱 1번 convolutional layer를 거친 후 해당 window에 대하여 SPP를 수행 (24 ~ 102 배 정도 빠르다)

AlexNet의 5번째 convolutional layer 다음에 SPP layer가 위치를 하며, 이후에 fully connected layer가 오는 구조를 취한다.