computer vision paper review
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR 2021 : Open review)
- NLP๋ถ์ผ์์ ํซํ ๋ชจ๋ธ์ธ Transformer๋ฅผ vision task์ ์ ์ฉํ ๋ ผ๋ฌธ
- Transformer์ ๊ฑฐ์ ๊ทธ๋๋ก image classification task์ ์ด์ฉํ ๊ฒ์ผ๋ก, ImangeNet/ImageNet-ReaL/CIFAR-100/VTAB SoTA๋ชจ๋ธ๊ณผ ๊ฑฐ์ ๋น์ทํ ์ ๋ ํน์ ๊ทธ ์ด์์ ์ฑ๋ฅ์ ๋ฌ์ฑ
https://arxiv.org/pdf/2010.11929.pdf
- ์ผ๋ฐ์ ์ธ CNN(Convolutional Neural Network)๋ GAP(Gloval Average Pooling)์ ์ด์ด ์ถ๋ ฅ ๋ก์ง์ Fully Connected layer ์ฌ์ฉํ๋ค.
- ์ด ๋ ผ๋ฌธ์์ ์๋กญ๊ฒ ์ ์๋๋ spatial aggregation procedure ๋ ์ถ๋ ฅ ๊ณ์ธต์์ ์์น๋ณ ์ ๋ณด์ ํ์ฉ์ ์ ํํ๋ค.
- ์ด ๋ ผ๋ฌธ์ ์์น๋ณ ์ถ๋ ฅ ์ ๋ณด๋ฅผ ๋ช ์์ ์ผ๋ก ํ์ฉํ๊ธฐ ์ํด ๊ธฐ์กด ์ปจ๋ณผ๋ฃจ์ ํผ์ณ๋งต ์์ ์๋ก์ด spatial output layer ๋ฅผ ์ ์ํ๋ค.
https://arxiv.org/pdf/2004.07570.pdf
U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation(ICLR 2020)
- Unsupervised Image-to-Image Translation
- ๋ ๋๋ฉ์ธ๊ฐ์ ๋ณํ์ ํ ๋,ย ๊ฐ์ฅ ์ฐจ์ด๊ฐ ๋๋ ์์ญ์ ์ง์คํด์ ๋ณํ์ ํ๋๋กย Attention moduleย ๊ฒฐํฉ
- ๋ณํ์ ํ ๋, ๋ฐ์ดํฐ์ ์ ๋ฐ๋ผ์ย ์ผ๋งํผ ๋ณํํ ์ง ๋คํธ์ํฌ๊ฐ ์ค์ค๋ก ํ์ตํ๋ย AdaLIN(Adaptive Layer-Instance Normalization)์ด๋ผ๋ normalization ๊ธฐ๋ฒ ์ ์
https://arxiv.org/pdf/1907.10830.pdf
- ๊ธฐ์กด StarGAN ๋ชจ๋ธ์ ํ๋์ ๋ชจ๋ธ๋ก ๋ค์์ ๋๋ฉ์ธ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ ๋ชจ๋ธ
- ์ด๋คย ๋๋ฉ์ธ์ย ํ๋์ย ์ด๋ฏธ์ง๋ฅผย ํ๊ฒย ๋๋ฉ์ธ์ย ์ฌ๋ฌย ๋ค์ํย ์ด๋ฏธ์ง๋ค๋กย ๋ณ๊ฒฝํ๋ค๋ย ์ ๊ณผ ๋์์ย ์ฌ๋ฌย ํ๊ฒย ๋๋ฉ์ธ์ย ๋ชฉํ๋กย ํ ย ์ย ์๊ฒย ๋์๋ค๋ย ์ ์ด v2.์์ ์ ๋ฐ์ดํธ ๋จ
https://arxiv.org/abs/1912.01865
์ด๋ฏธ์ง๋ฅผ ์์ฑ ํ ๋ ๊ฐ์ฒด์ ํน์ ๋ถ๋ถ(Localizaed smentic part)์ ์์ ํ ์ ์๋๋ก ํจ.
- paper : https://arxiv.org/abs/2004.14367
https://openaccess.thecvf.com/content_CVPR_2020/papers/Collins_Editing_in_Style_Uncovering_the_Local_Semantics_of_GANs_CVPR_2020_paper.pdf - video :ย https://www.youtube.com/watch?v=l2RATZjpzwI
https://arxiv.org/abs/2005.12872
- Object Detection์ direct set prediction์ ๋ฌธ์ ๋ก ๋ฐ๋ผ๋ณด๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์
- NMS๋ ์ต์ปค ์์ฑํ๋ ๊ณผ์ ์ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ์ฌ End-to-end ๊ธฐ๋ฐ์ Object Detection ๋ฐฉ๋ฒ ์ ์(Transformer ์ฌ์ฉ)
https://arxiv.org/abs/1911.09070v4
- ๊ธฐ์กด EfficientNet์ ์ ์๋ค์ด ์ํ Google Brainํ์์ ์ด ๋ ผ๋ฌธ์ผ๋ก EfficientNet์ Image Classification๋ฌธ์ ๋ฅผ ํ๊ฒ์ผ๋ก ๋ ผ๋ฌธ์ ์์ฑํ์๋ค๋ฉด, Efficient Det์ - - Object Detection ๋ฌธ์ ๋ฅผ ํ๊ฒ์ผ๋ก ๋ ผ๋ฌธ์ ์์ฑํ์์ต๋๋ค.
- BiFPN๊ณผ Model Scaling์ ์ ์ฉํ์ฌ COCO dataset์์ ๊ฐ์ฅ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์๊ณ , ๊ธฐ์กด ์ฐ๊ตฌ๋ค ๋๋น ๋งค์ฐ ์ ์ ์ฐ์ฐ๋(FLOPS)์ผ๋ก ๋น์ทํ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์๋ค.
- ๊ธฐ์กด NLP์์ ์ฑ๋ฅ์ด ์ข์๋ GPT๋ฅผ pixel prediction์ ๋์
- ์์ฐ์ด์ฒ๋ฆฌ์์ ๋ฌธ์ฅ์ ํ๋์ sequenxe๋ก input์ ์ฃผ๋ฏ ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง๋ฅผ ํฝ์ ์ flattenํ์ฌ ํ๋์ sequence๋ก ๋ง๋ ํ transformer์ input์ผ๋ก ๋ฃ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉ
- SoTA๊น์ง ์๋
- Attention์ ์ฒ์์ผ๋ก ์ ์ํ ๋ ผ๋ฌธ
- ์ด๋ค word์ ์ง์คํ ์ง ์๋ ค์ฃผ๋ ๊ฒ์ด alignment(=attention) ์
- ๋ ์ ์ด๋ฏธ์ง์์ ํ ์ฅ์ source, ๋๋จธ์ง ํ ์ฅ์ target์ผ๋ก ํ์ฌ source ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด๋ค์ ๋ถ๋ถ์งํฉ์ ์ ํํด target ์ด๋ฏธ์ง์ ๋ถ์ฌ ๋ฃ์์ผ๋ก์จ ์ด๋ ต๊ณ , ์๋กญ๊ณ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋ง๋ค ์ ์์
- ์ฝ๋ ์ด์์ฑ์ด ์ข์์ ์ฝ๊ฒ ๋ค๋ฅธ ๋ชจ๋ธ์ ์ฌ์ฉํ ๋ data augmentation ์ ์ฉํ ์ ์์ผ๋ฉฐ ์ฌ๋ฌ ์คํ์ ์งํํด ๋ณธ ๊ฒฐ๊ณผ object detection, instance segmentation, semantic segmentation, self-supervised learning ์ฑ๋ฅ์ ์ฐ์
- SMPL: A Skinned Multi-Person Linear Model, ACM Trans. Graphics (Proc. SIGGRAPH Asia), 2015
- Keep it {SMPL}: Automatic Estimation of {3D} Human Pose and Shape from a Single Image, ECCV 2016
- End-to-end Recovery of Human Shape and Pose, CVPR 2018
- VIBE: Video Inference for Human Body Pose and Shape Estimation, CVPR 2020
- End-to-End Human Pose and Mesh Reconstruction with Transformers, CVPR 2021
- Mask R-CNN, ICCV 2017
- Focal Loss for Dense Object Detection, ICCV 2017 (RetinaNet)
- YOLACT: Real-time Instance Segmentation, ICCV2019
- MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, arXiv 2017
- CONVOLUTIONAL NEURAL NETWORKS WITH LOWRANK REGULARIZATION, ICLR2016
- Generative adversarial network, NIPS 2014
- Auto-Encoding Variational Bayes, arXiv 2014
- Density estimation using Real NVP, ICLR 2017
- Neural Ordinary Differential Equations, NeurIPS 2018 (continuous normalizing flow, CNF)
- Large Scale GAN Training for High Fidelity Natural Image Synthesis, ICLR 2019
- Denoising diffusion probabilistic models, NeurIPS 2020
- (Optional) Glow: Generative Flow with Invertible 1x1 Convolutions, NeurIPS 2018
- (Optional) Score-based Generative Modeling by Diffusion Process, ICLR 2021
- (Optional) How to Train Your Energy-Based Models, arXiv 2021
- (Optional) Wasserstein Generative Adversarial Networks, ICML 2017
- (Optional) f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization, NIPS 2016
- (Optional) Triple Generative Adversarial Nets, NIPS 2017
- Image-to-Image Translation with Conditional Adversarial Nets, CVPR
- Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks, ICCV 2017
- Semantic Image Synthesis with Spatially-Adaptive Normalization, CVPR 2019
- Few-Shot Adversarial Learning of Realistic Neural Talking Head Models, ICCV 2019
- (Optional) Vid2Game: Controllable Characters Extracted from Real-World Videos, ICLR 2020
- On Buggy Resizing Libraries and Surprising Subtleties in FID Calculation, arXiv 2021