Deep Learning 3

[GAN] ViTGAN: Training GANs with Vision Transformers

CNN-based GAN이 아닌 ViT를 GAN에 처음 적용한 논문이라 흥미로워서 읽어보았다. 또한, ViT를 GAN에 적용하며 생긴 불안정성을 해결하는 방법들도 알 수 있었다. 1. Introduction CNN은 Conv의 weight-sharing, local-connectivity, Pooling의 translation equivariance(input value의 위치가 변함에 따라 output value도 변한다) 성질이 있어 powerful한 capability를 갖는 덕분에 현재까지 Computer Vision 분야에서 주로 사용되고 있다. 최근에는 Transformer 구조도 image and video recongnition task에서 좋은 성능을 보이며 CNN과 견주고 있다. 그 중..

[Vision/Transformer] MetaFormer is Actually What You Need for Vision

CVPR 2022 Oral 발표 논문으로, 그동안 중요하게 여겨진 Transformer에서 Attention의 역할에 대해 새로운 관점을 제안하는 논문이라 읽어보았다. 1. Introduction & Related work Transformer는 computer vision의 다양한 task에서 좋은 성능을 보이고 있고, 더 좋은 성능을 위해 개선된 모델들이 계속 연구되고 있다. Transformer Encoder는 두 개의 컴포넌트로 구성되어 있다. (1) attention 모듈: token mixer로 토큰 간의 정보를 mixing (2) channel MLPs, residual connection 같은 나머지 모듈 이 구조에서 attention module을 정해지지 않은 token mixer로 일..

[Super Resolution] SwinIR / SwinFIR

Image Restoration은 low-quality 이미지로부터 high-quality 이미지를 복원하는 문제이다. 그 예로 super-resolution, denoising, JPEG compression artifact reduction 등이 있다. 이번에 참가하는 super-resolution 대회에 아이디어를 얻고자 SwinIR / SwinFIR 논문을 읽어보았다. SwinIR 1. Introduction 1.1 CNN Image Restoration 분야에서 오랫동안 사용되고 있는 CNN-based 방법들은 residual learning, dense connection 등을 사용해 더 좋은 구조를 만들고 있지만, 몇 가지 단점이 존재한다. 1) images와 convolutional ker..