728x90
반응형

RCNN Training - classification

 

stage 1

annotation file에 groundTruth 좌표가 입력된 원본이미지에 selective search를 적용한다.

 

stage 2

1. imageNet으로 Feature Extractor pre-train시킴

 

2. Ground Truth와 ss predicted된 영역IOU가 0.5 이상인 경우만 해당 클래스로, 나머지는 Background로 fine-tuning함

 

3. gound Truth로만 학습하되, 0.3 IOU이하는 background로 설정, 0.3이상이지만 GT가 아닌 경우는 무시함

그 후 SVM으로 학습

 

# Bounding box Regression

모델의 목표는

1. SS proposal box의 중심점 좌표 (Px, Py)를 Ground Truth의 중심점의 거리 PwDx(p), PhDy(p)가 최소가 되게

2. width height의 값도 일치하도록

 

그걸 위해 모델은 Dx(p), Dy(p) 수정 예측값을 찾아야 한다.

 

Target 값은

G - P 좌표 간 거리 차이를 box Pw로 나눠준다,

 

# RCNN이 등장할 당시엔 기존 모델들에 비해 성능이 굉장히 높게 나왔다.

그러나 알고리즘이 매우 복잡함. 너무 detection시간이 느림, 학습시간도 오래 걸림

본질적으로 개별이미지 별로 2000여개씩 생성된 region 이미지를 CNN feature map 생성한다.

각기 따로노는 구성요소들 : selective search, CNN Feature Extractor, SVM, bounding box regressor로 구성된 복잡한 프로세스를 거침

 

향후 영향

- deep learning based object detection 성능 입증

- region proposal 기반 성능 입증

- detection 수행시간 줄이고 복잡하게 분리된 개별 아키텍처를 통합할 수 있는 방안 연구 매진

 

 

반응형

+ Recent posts