Visual Question Answering with ViLT

ViLT = Vision-and-Language Pre-training

The ViLT model was proposed in ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision by Wonjae Kim, Bokyung Son, Ildoo Kim. ViLT incorporates text embeddings into a Vision Transformer (ViT), allowing it to have a minimal design for Vision-and-Language Pre-training (VLP).

https://huggingface.co/docs/transformers/model_doc/vilt

Notebook

Python notebook demo

Demo

20-Jan-2023 Serge Retkowsky | serge.retkowsky@microsoft.com | https://www.linkedin.com/in/serger/

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
Gump.jpg		Gump.jpg
README.md		README.md
ViLT.gif		ViLT.gif
ViLT.mp4		ViLT.mp4
Visual Question Answering with ViLT.ipynb		Visual Question Answering with ViLT.ipynb
car.jpg		car.jpg
face.jpg		face.jpg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Gump.jpg

Gump.jpg

README.md

README.md

ViLT.gif

ViLT.gif

ViLT.mp4

ViLT.mp4

Visual Question Answering with ViLT.ipynb

Visual Question Answering with ViLT.ipynb

car.jpg

car.jpg

face.jpg

face.jpg

Repository files navigation

Visual Question Answering with ViLT

Notebook

Demo

About

Releases

Packages

Languages

retkowsky/ViLT

Folders and files

Latest commit

History

Repository files navigation

Visual Question Answering with ViLT

Notebook

Demo

About

Topics

Resources

Stars

Watchers

Forks

Languages