AI/논문분석

·AI/논문분석
들어가기 앞서 Attention is All your need 라는 Transformer라는 논문이 나온 후 대부분의 논문들이 Transformer를 기반으로 하여 작성이 됐음 Decoder만 사용하는 GPT계열, Encoder를 사용하는 BERT계열, 그리고 Encoder와 Decoder를 함께 사용하는 seq to seq 계열인 BART와 T5가 나옴. 이처럼 transfer learning framework 안에서도 다양한 모델이 존재함. 우리가 모델이라고 부르는 것 안에는 학습 방식 외에도 학습에 사용한 데이터셋, optimizer, 모델의 크기 등 많은 내용이 함축되어있음. 그래서 각 모델의 아이디어중 과연 “어떤 특징이 좋은 모델 성능을 내는데에 도움이 되었을까?”에 대한 질문의 답을 찾기위해..
·AI/논문분석
들어가기 앞서 기존 상태 트랜스포머 구조가 자연어 처리 task들에서 표준이 되는 동안, vision에 이를 적용한 사례는 한정되어 왔습니다. 비전 분야에서 attention은 Convolution network과 함께 적용되거나, Convolutional network의 특정 요소를 대체하기 위해 사용되었기 때문입니다. 해당 논문에선 이러한 CNN에 대한 의존이 필요하지 않고 순수 트랜스포머가 곧바로 이미지 패치들에 사용되고 이미지 분류에 잘 작동함을 보여줍니다. Introduction NLP에서의 트랜스포머 스케일링이 성공한 것에 영감을 받아, 이 논문에서는 standard transformer를 최소한의 수정으로 직접 이미지에 적용하는 것에 대해 실험을 했습니다. 이를 위해, 이미지를 패치별로 쪼개..
·AI/논문분석
Noisy student training -논문리뷰 분석 논문이 나오기 전 기존 SOTA 비전 모델들이 지도학습을 위주로 많이 나왔으며 labeled Data를 바탕으로 한 모델들이 많이 나왔습니다. 따라서 모델의 성능을 높이기 위해선 더 많은 Labeled Dataset이 필요했고 모델의 성능이 한정이 있었습니다. 또한 Unlabeled Dataset을 잘 사용하지 못하였습니다. 무엇을 이뤘는가? 방대한 양의 Unlabeled Dataset을 효율적으로 사용하여 모델 성능을 높였습니다. teacher network와 동등하거나 보다 큰 student network를 만들고 student network에 noise를 주입함으로써 모델을 보다 견고하게 만들었습니다. 준지도학습 접근법으로 다음과 같은 단계를..
·AI/논문분석
Attention Is All You Need -논문리뷰 분석 RNN과 LSTM이란? RNN: 학습했던 데이터를 그 다음 순서에 정답데이터로 사용해 (누적 학습의 개념) 학습을 이어간다. 그래서 시계열 + 동적인 특성을 갖는 데이터에게 적합하다. 즉, 다시 역전파(Backpropagation) 과정을 통해 순환적으로 학습을 진행합니다. LSTM은 본격적인 연산 전에 장기 / 단기 정보를 담은 메모리를 분류하고, 이 메모리와 이벤트를 기반으로 각각 Long term memory, Short term memory에 적합한 내용을 따로따로 학습시킵니다. 아래의 그림에서 더욱 쉽게 이해할 수 있습니다. 들어가기 앞서 내용 설명 NLP의 기반이 되는 RNN과 LSTM이 나온 이후에 Seq2Seq가 나온 후 현대 ..
Shine_sunho
'AI/논문분석' 카테고리의 글 목록