Batch란? 기본적으로 딥러닝에서 batch란, 전체 데이터에서 일부분을 칭하는 단어입니다. 이에 따라 학습의 효율성을 위해 전체 큰 데이터를 분할하여 학습을 하게 되는데 이를 batch단위로 쪼개 학습을 한다고 말합니다. 이때, Neural network의 depth가 깊어질수록, 즉 Layer가 많아질수록 "internal covariate shift" 현상이 발생합니다. internal convariate shift 현상이란, 모델 학습 과정에서 Layer를 통과할 때마다 출력값의 데이터 분포는 Layer마다 다르게 나타나는 현상입니다. 왜 데이터의 분포가 달라지냐 묻는다면, 학습이 진행될수록 정규화를 하지 않으면 x,y의 학습폭이 다르게 나타날 수 있기 때문입니다. 위 사진처럼 gradient를..