최신논문
YOLOv12: 주의 집중 실시간 물체 감지기
작성자
작성일
2025-02-19 19:56
조회
291
https://arxiv.org/abs/2502.12524
YOLO 프레임워크의 네트워크 아키텍처를 개선하는 것은 오랫동안 중요했지만, 모델링 기능에서 어텐션 메커니즘의 우수성이 입증되었음에도 불구하고 CNN 기반 개선에 중점을 두었습니다. 어텐션 기반 모델은 CNN 기반 모델의 속도를 따라갈 수 없기 때문입니다. 이 논문에서는 어텐션 메커니즘의 성능 이점을 활용하면서 이전 CNN 기반 프레임워크의 속도와 일치하는 어텐션 중심의 YOLO 프레임워크, 즉 YOLOv12를 제안합니다. YOLOv12는 경쟁력 있는 속도로 정확도 면에서 널리 사용되는 모든 실시간 물체 감지기를 능가합니다. 예를 들어, YOLOv12-N은 T4 GPU에서 1.64ms의 추론 대기 시간으로 40.6% mAP를 달성하여 비슷한 속도로 고급 YOLOv10-N/YOLOv11-N보다 2.1%/1.2% mAP(mAP) 성능을 발휘합니다. 이 이점은 다른 모델 스케일로 확장됩니다. YOLOv12는 또한 RT-DETR / RT-DETRv2와 같은 DETR을 개선하는 종단 간 실시간 감지기를 능가합니다: YOLOv12-S는 RT-DETR-R18 / RT-DETRv2-R18을 능가하는 동시에 계산의 36%와 매개변수의 45%만 사용하여 42% 더 빠르게 실행됩니다. 그림 1에는 더 많은 비교가 나와 있습니다.
YOLO 프레임워크의 네트워크 아키텍처를 개선하는 것은 오랫동안 중요했지만, 모델링 기능에서 어텐션 메커니즘의 우수성이 입증되었음에도 불구하고 CNN 기반 개선에 중점을 두었습니다. 어텐션 기반 모델은 CNN 기반 모델의 속도를 따라갈 수 없기 때문입니다. 이 논문에서는 어텐션 메커니즘의 성능 이점을 활용하면서 이전 CNN 기반 프레임워크의 속도와 일치하는 어텐션 중심의 YOLO 프레임워크, 즉 YOLOv12를 제안합니다. YOLOv12는 경쟁력 있는 속도로 정확도 면에서 널리 사용되는 모든 실시간 물체 감지기를 능가합니다. 예를 들어, YOLOv12-N은 T4 GPU에서 1.64ms의 추론 대기 시간으로 40.6% mAP를 달성하여 비슷한 속도로 고급 YOLOv10-N/YOLOv11-N보다 2.1%/1.2% mAP(mAP) 성능을 발휘합니다. 이 이점은 다른 모델 스케일로 확장됩니다. YOLOv12는 또한 RT-DETR / RT-DETRv2와 같은 DETR을 개선하는 종단 간 실시간 감지기를 능가합니다: YOLOv12-S는 RT-DETR-R18 / RT-DETRv2-R18을 능가하는 동시에 계산의 36%와 매개변수의 45%만 사용하여 42% 더 빠르게 실행됩니다. 그림 1에는 더 많은 비교가 나와 있습니다.
전체 0