yolo v2 이후에 2017. 08. retinaNet이 one-stage detector 중에서 매우 높은 예측 성능을 보이는데 FPN을 차용했기 때문임.
그래서 YOLO V3도 FPN을 차용하면서 성능을 높임. Real time detector로서 자리매김을 한다.
- 원본정도 fm - 절반 fm - 또 절반 fm 으로 구성
- 가장 최상위 '또 절반 fm'은 추상적이지만 학습에 완숙도가 높은, 그래서 object detection을 일반적으로 수행하는 fm이다. 그런데 일반적으로 최상위에서 od를 수행하니 큰 object만 수행을 하게 되더라. 그래서 ssd는 하위 fm에서도 뽑아낸 것임.
- 이런 상태에서 fpn은 conv 연산을 한 상태에서 크기가 다르니깐 2배 upsampling하고나서 하위 fm을 합치고 그 합쳐진 fm에서 predict 수행
- 그러면 추상적 + 상세함의 특징을 반영한상태로 예측가능함.
YOLO Vers 비교
항목 | v1 | v2 | v3 |
원본 이미지 크기 | 446x446 | 416x416 | 416x416 |
Feature Extractor | Inception 변형 | DarkNet19 | DarkNet53 (resNet의영향 |
Grid당 Anchor Box 수 | 2개 => 셀 별 prediction 2개 (Anchor box는 고정크기) |
5개 | Output Feature Map 당 3개 서로다른 크기와 스케일로 총 9개 |
Anchor Box 결정 방법 | - | Kmeans Clustering | Kmeans Clustering |
Output Feature Map 크기 (Depth 제외) |
7 x 7 | 13 x 13 | 13 x 13, 26 x 26, 52 x 52 3개의 Feature Map 사용 |
Feature Map Scaling 기법 |
- | - | FPN (Feature Pyramid Network) |
- FPN
- backbone 성능 향상 : darknet 53 ( weight 가능한 layer
- 13x13에 매번 2배를 한 fm
- anchor box 9개
- multi labels 예측 : softmax 가 아닌 sigmoid 기반 logistic classifier로 개별 object의 multi labels 예측
Model Architect
upsampling feature map + feature map => predict
Yolo v3 Network 구조
- output : 13x13, 26x26, 52x52
- 연두색 : upsampling feature map
Output Feature map
25+25+25 => depth가 75
13x13x 75
26x26x 75
52x52x 75
Darknet 53 특성 ( 53개의 layer
Training
- Data Augmentation
- batch normalization
'Computer_Science > Computer Vision Guide' 카테고리의 다른 글
7-8. OpenCV DNN based yolo v3 inference (0) | 2021.10.27 |
---|---|
7-7. opencv dnn yolo object detection (0) | 2021.10.27 |
7-4~5. YOLO V2 (0) | 2021.10.25 |
7-2~3. yolo v1 (0) | 2021.10.24 |
7-1. YOLO - You Only Look Once (0) | 2021.10.24 |