728x90
반응형

yolo v2 이후에 2017. 08. retinaNet이 one-stage detector 중에서 매우 높은 예측 성능을 보이는데 FPN을 차용했기 때문임.

그래서 YOLO V3도 FPN을 차용하면서 성능을 높임. Real time detector로서 자리매김을 한다.

- 원본정도 fm - 절반 fm - 또 절반 fm 으로 구성

- 가장 최상위 '또 절반 fm'은 추상적이지만 학습에 완숙도가 높은, 그래서 object detection을 일반적으로 수행하는 fm이다. 그런데 일반적으로 최상위에서 od를 수행하니 큰 object만 수행을 하게 되더라. 그래서 ssd는 하위 fm에서도 뽑아낸 것임.

- 이런 상태에서 fpn은 conv 연산을 한 상태에서 크기가 다르니깐 2배 upsampling하고나서 하위 fm을 합치고 그 합쳐진 fm에서 predict 수행

- 그러면 추상적 + 상세함의 특징을 반영한상태로 예측가능함.

 

YOLO Vers 비교

항목 v1 v2 v3
원본 이미지 크기 446x446 416x416 416x416
Feature Extractor Inception 변형 DarkNet19 DarkNet53
(resNet의영향
Grid당 Anchor Box 수 2개 => 셀 별 prediction 2개
(Anchor box는 고정크기)
5개 Output Feature Map 당 3개
서로다른 크기와 스케일로 총 9개
Anchor Box 결정 방법 - Kmeans Clustering Kmeans Clustering
Output Feature Map 크기
(Depth 제외)
7 x 7 13 x 13 13 x 13, 26 x 26, 52 x 52
3개의 Feature Map 사용
Feature Map Scaling
기법
- - FPN
(Feature Pyramid Network)

- FPN

- backbone 성능 향상 : darknet 53 ( weight 가능한 layer

- 13x13에 매번 2배를 한 fm

- anchor box 9개

- multi labels 예측 : softmax 가 아닌 sigmoid 기반 logistic classifier로 개별 object의 multi labels 예측

 

 

Model Architect

upsampling feature map + feature map => predict

 

 

Yolo v3 Network 구조

- output : 13x13, 26x26, 52x52

- 연두색 : upsampling feature map

Output Feature map

25+25+25 => depth가 75

13x13x 75

26x26x 75

52x52x 75

 

Darknet 53 특성 ( 53개의 layer

Training

- Data Augmentation

- batch normalization

 

반응형

'Computer_Science > Computer Vision Guide' 카테고리의 다른 글

7-8. OpenCV DNN based yolo v3 inference  (0) 2021.10.27
7-7. opencv dnn yolo object detection  (0) 2021.10.27
7-4~5. YOLO V2  (0) 2021.10.25
7-2~3. yolo v1  (0) 2021.10.24
7-1. YOLO - You Only Look Once  (0) 2021.10.24

+ Recent posts