7-6~7. YOLO V3

2021. 10. 25. 23:03

728x90

yolo v2 이후에 2017. 08. retinaNet이 one-stage detector 중에서 매우 높은 예측 성능을 보이는데 FPN을 차용했기 때문임.

그래서 YOLO V3도 FPN을 차용하면서 성능을 높임. Real time detector로서 자리매김을 한다.

- 원본정도 fm - 절반 fm - 또 절반 fm 으로 구성

- 가장 최상위 '또 절반 fm'은 추상적이지만 학습에 완숙도가 높은, 그래서 object detection을 일반적으로 수행하는 fm이다. 그런데 일반적으로 최상위에서 od를 수행하니 큰 object만 수행을 하게 되더라. 그래서 ssd는 하위 fm에서도 뽑아낸 것임.

- 이런 상태에서 fpn은 conv 연산을 한 상태에서 크기가 다르니깐 2배 upsampling하고나서 하위 fm을 합치고 그 합쳐진 fm에서 predict 수행

- 그러면 추상적 + 상세함의 특징을 반영한상태로 예측가능함.

YOLO Vers 비교

항목	v1	v2	v3
원본 이미지 크기	446x446	416x416	416x416
Feature Extractor	Inception 변형	DarkNet19	DarkNet53 (resNet의영향
Grid당 Anchor Box 수	2개 => 셀 별 prediction 2개 (Anchor box는 고정크기)	5개	Output Feature Map 당 3개 서로다른 크기와 스케일로 총 9개
Anchor Box 결정 방법	-	Kmeans Clustering	Kmeans Clustering
Output Feature Map 크기 (Depth 제외)	7 x 7	13 x 13	13 x 13, 26 x 26, 52 x 52 3개의 Feature Map 사용
Feature Map Scaling 기법	-	-	FPN (Feature Pyramid Network)

- FPN

- backbone 성능 향상 : darknet 53 ( weight 가능한 layer

- 13x13에 매번 2배를 한 fm

- anchor box 9개

- multi labels 예측 : softmax 가 아닌 sigmoid 기반 logistic classifier로 개별 object의 multi labels 예측

Model Architect

upsampling feature map + feature map => predict

Yolo v3 Network 구조

- output : 13x13, 26x26, 52x52

- 연두색 : upsampling feature map

Output Feature map

25+25+25 => depth가 75

13x13x 75

26x26x 75

52x52x 75

Darknet 53 특성 ( 53개의 layer

Training

- Data Augmentation

- batch normalization

저작자표시 비영리 (새창열림)

'Computer_Science > Computer Vision Guide' 카테고리의 다른 글

7-8. OpenCV DNN based yolo v3 inference (0)	2021.10.27
7-7. opencv dnn yolo object detection (0)	2021.10.27
7-4~5. YOLO V2 (0)	2021.10.25
7-2~3. yolo v1 (0)	2021.10.24
7-1. YOLO - You Only Look Once (0)	2021.10.24

My_Flow