728x90
반응형

SPPNet : Spatial Pyramid pooling

RCNN의 문제점, 

Spatial Pyramid Matching

 

sppnet은 fast rcnn에서 개념을 차용해감

 

# RCNN의 주요 문제점

1) 너무 느린 Detection 시간

=> region을 너무 많이 proposal 하고 cnn입력됨. // region 영역 이미지가 crop과 warp까지 적용함

 

# RCNN 개선 방안

1) 원본이미지를 Selective search 하고, 다시 원본이미지를 feature extractor에 넣고 feature map을 생성함

=> 1개의 이미지만 extracted 하는 것이라 훨씬 간편함 vs 2000여개 region를 extracting

=> crop, warp의 이미지 훼손도 방지

 

=> 당시엔 feature map 이 3차원이라 dense layer, softmax,FC로 만들수가 없어서 1차원으로 만들게 됨

1D flattened fc input이 static해서 일정한 scale로 feature 고정이 안되면 안받아줌 -> 어쩔 수 없이 svm을 쓰게 되었다.

2) SPPNet

feature map 내의 중구난방 scale의 region을 별도로 mapping 할 수 있는 spp layer을 만듬

SPM을 적용해서 균일한 scale로 적용시킴

 

# spp(Spatial pyramid pooling)

CNN image classification에서 서로 다른 이미지의 크기를 고정된 크기로 변환하는 기법으로 소개

=> input image size를 고정하지 말자는 개념

대신 conv layer와 fc layer를 유연하게 연결시킬수있는 layer를 두면 classification layer를 적용하는데 문제없다.

기존 : image -> corp/warp -> conv layers -> fc layers -> output

spp : image -> conv layers -> spatial pyramid pooling -> fc layers -> output

# spatial pyramid pooling 

Bag of visual words => spatial pyramid matching

- 하나의 object를 조각조각 쪼개서(bag of visual words) histogram으로 확인하면 특징적인 부분이 드러난다.

- 원본의 정보를 새로운 mapping 정보로 변환함, 기준은 histogram

=> 비정형의 원본을 기준에 의한 정형적인 histogram화 시킨 것

 

단점은 언어면 문맥이 없고, visual object면 형상, 배치적 맥락이 없음, 그저 빈도수만 고려

=> spatial 위치 개념을 분면 상으로 넣어줌

 

# spatial pyramid matching 

image를 분면으로 쪼개면 좌표당 hitogram을 정보표현을 할 수 있다

이것으로 classification을 할 수 있다.

 

level 0는 전형 고려하지 않은 상태 => level2는 16분면으로 쪼개서 spatial 당 정보 생성 후 그 안에서 분류

 

- 분면 분할을 했기 때문에 histogram이 균일해진다.

- pooling => 원본 feature에서 일부분을 뽑아냄 => classify한 부분을 뽑아냄

나누는 분면에 따라서 feature vector가 달라짐

- 아니, 근데 원본 pooling을 했는데 또 spp를 해도 되는건가? 데이터 손실이 발생하지 않을까?

=> img size가 warp이 되면서 손실이 생각보다 적고, 성능이 높아졌다.

왜냐하면 feature map 분면분할 하면서 분면개수로 fixed length representation로 layer를 만들고 scale size가 어떻든 상관이 없어진다.

 

이상태에서 dense layer를 하면 된다.

 

# RCNN 과 SPP NET 비교

                    1개 image가 2000여번 CNN 통과                            1개 image가 1번만 CNN 통과

 

 

반응형

+ Recent posts