SPP Net 이란?
R-CNN에서 CNN의 입력으로 이미지가 들어가기전 Warping/Crop 작업을 수행해줘야 했습니다. (R-CNN의 CNN의 구조인 AlexNet에서는 224x224로 입력 이미지의 크기가 고정)
Warping 작업을 하면 이미지 왜곡이 일어나서 원본 이미지의 특성이 손상됩니다.
사실 CNN의 필터들은 입력 이미지가 고정될 필요가 없습니다. 필터들은 Sliding window 방식으로 작동되기 때문에, 입력 이미지의 크기나 비율에 관계없이 작동합니다. 입력 이미지의 크기가 고정이 필요한 이유는 CNN에 바로 뒤에 이어진 FCL(Fully Connected Layer)가 고정된 크기로 입력을 받기 때문입니다. SPP Net은 SPP(Spatial Pyramid Pooling)을 사용하여 이러한 단점을 개선시킨 모델입니다.
SPP Net의 또다른 특징으로는 CNN 연산을 한번만 수행한다는 점입니다.
R-CNN에서는 Selective search로 부터 추출된 RoI의 이미지를 각각 2000번씩 CNN연산을 수행해서 매우 비효율적입니다. 그에 비하여 SPP-Net은 Selective search로 Region proposal을 획득하고 입력 이미지 그대로(1개) CNN에 입력 시켜 Feature extracting합니다.
이러한 방식의 장점은 CNN연사을 한번만 수행해서 속도가 매우 빠르다는 장점이 있습니다. (2000번의 CNN연산 -> 1번의 CNN연산)Spatial Pyramid Pooling
SPP-Net은 Warping으로 인한 이미지 왜곡을 없애주기 우해 Spatial Pyramid Pooling 이라는 개념을 사용합니다. R-CNN과의 차이는 Warping하는 부분이 사라지고 SPP(Spatial Pyramid Pooling) Layer가 추가된 것을 확인할 수 있습니다.
- R-CNN : Image -> Crop/Warp -> CNN layers -> FC layers -> Output
- SPP-Net: Image -> CNN layers -> Spatial Pyramid Pooling -> FC layers -> Output
CNN을 통해서 추출된 Feature map을 입력으로 받습니다. 그리고 이를 미리 정해져 있는 영역으로 분할 합니다. Spatial bin이라는 1x1, 2x2, 4x4 등의 필터들로 Feature map을 max pooling합니다. max pooling한 결과를 쭉 이어 붙입니다. Feature map의 local 정보를 취합하여 RoI탐색을 합니다.
FC(Fully Connected) layer는 항상 고정된 크기의 입력을 요구합니다. 이것을 맞춰주기 위해 R-CNN에서는 CNN을 그대로 두고 입력 이미지의 크기를 Crop/Warping했던 것이고 SPP Net은 입력 이미지를 그대로 두고 CNN의 출력인 Feature Map을 SPP Layer를 이용하여 크기를 제어했다고 볼 수 있습니다.
SPP Net의 장점
- R-CNN과 비교하여 CNN연산을 1번만 수행하기 때문에 속도가 빠릅니다.
- 이미지 왜곡을 일으키는 Crop/Warping 단계를 제거 했습니다.
SPP Net의 단점
- SPP, SVM training, Bounding box regression의 구조로 Multi-stage pipelines구조 이기 때문에 end-to-end 방식으로 학습 시킬 수 없습니다.
- Selective search로 Region Proposal을 획득하여 속도가 느립니다. (CPU 사용)
- R-CNN과 마찬가지로 Classifier는 SVM을 사용합니다.
- 4x4, 2x2, 1x1의 spatial bin 특성으로 인하여 특정 Scale에 집중적으로 학습해 Overfitting이 발생합니다.
'딥러닝 > Object Detection' 카테고리의 다른 글
YOLO v5 - 자동차 번호판(License Plate) 인식 - 1. 환경 준비 (0) | 2021.11.15 |
---|---|
YOLO v5를 이용한 자동차 번호판(License Plate) 인식 - Introduction (0) | 2021.11.14 |
YOLO (You Only Look Once) (0) | 2021.11.04 |
Faster R-CNN (0) | 2021.11.04 |
Fast R-CNN (0) | 2021.11.04 |