CNN-based GAN이 아닌 ViT를 GAN에 처음 적용한 논문이라 흥미로워서 읽어보았다. 또한, ViT를 GAN에 적용하며 생긴 불안정성을 해결하는 방법들도 알 수 있었다. 1. Introduction CNN은 Conv의 weight-sharing, local-connectivity, Pooling의 translation equivariance(input value의 위치가 변함에 따라 output value도 변한다) 성질이 있어 powerful한 capability를 갖는 덕분에 현재까지 Computer Vision 분야에서 주로 사용되고 있다. 최근에는 Transformer 구조도 image and video recongnition task에서 좋은 성능을 보이며 CNN과 견주고 있다. 그 중..