'ViT 논문' 태그의 글 목록

ViT: An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale - 논문리뷰분석

2023.02.07·AI/논문분석

들어가기 앞서 기존 상태 트랜스포머 구조가 자연어 처리 task들에서 표준이 되는 동안, vision에 이를 적용한 사례는 한정되어 왔습니다. 비전 분야에서 attention은 Convolution network과 함께 적용되거나, Convolutional network의 특정 요소를 대체하기 위해 사용되었기 때문입니다. 해당 논문에선 이러한 CNN에 대한 의존이 필요하지 않고 순수 트랜스포머가 곧바로 이미지 패치들에 사용되고 이미지 분류에 잘 작동함을 보여줍니다. Introduction NLP에서의 트랜스포머 스케일링이 성공한 것에 영감을 받아, 이 논문에서는 standard transformer를 최소한의 수정으로 직접 이미지에 적용하는 것에 대해 실험을 했습니다. 이를 위해, 이미지를 패치별로 쪼개..

티스토리툴바