Visual reasoning
-
Visual Programming: Compositional visual reasoning without trainingVisual reasoning 2024. 2. 1. 00:23
핵심 아이디어 본 논문은 CVPR2023 Best paper로 선정된 논문입니다. 별도의 학습과정 없이 여러가지 Vison Task를 손쉽게 추론할 수 있는 방법을 제안했습니다. GPT-3와 같은 LLM을 활용하여 복잡한 비전 테스트를 학습 없이 수행하는 것이 핵심아이디어입니다. Introduction 저자의 문제의식은 다양한 Vision 태스크를 수행할 수 있는 시스템에 대한 니즈에서 시작합니다. 기존에 Supervised multitask training 모델이 있긴 했으나, 태스크가 다양해진 만큼 요구되는 데이터 규모는 커지고 퀄리티도 점점 까다로워졌습니다. 잘 레이블링된 데이터를 무한하게 얻을 수 없고, 이를 학습하는 것도 어렵기 때문에 결국 학습 기반 모델은 태스크 확장(long tail of ..