cross-modal-retrieval

Here are 72 public repositories matching this topic...

jina-ai / clip-as-service

🏄 Scalable embedding, reasoning, ranking for images and sentences with CLIP

deep-learning pytorch openai bert sentence2vec onnx cross-modality multi-modality image2vec sentence-encoding bert-as-service cross-modal-retrieval neural-search clip-model clip-as-service

Updated Jan 23, 2024
Python

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense reasoning, and cross-modal retrieval).

image-captioning video-captioning visual-question-answering vision-and-language cross-modal-retrieval pretraining tden

Updated Feb 27, 2023
Python

layumi / Image-Text-Embedding

Star

TOMM2020 Dual-Path Convolutional Image-Text Embedding 🐾 https://arxiv.org/abs/1711.05535

matlab image-search matconvnet image-retrieval person-reidentification visual-semantic bidirectional-retrieval language-retrieval cross-modality cross-modal-retrieval

Updated Jun 16, 2023
MATLAB

Paranioar / Awesome_Matching_Pretraining_Transfering

Star

The Paper List of Large Multi-Modality Model, Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

tutorial awesome-list vision-and-language video-text-recognition cross-modal-retrieval visual-semantic-embedding image-text-matching video-text-retrieval image-text-retrieval multimodal-pretraining large-language-models large-vision-language-models memory-efficient-tuning parameter-efficient-fine-tuning large-vision-models

Updated Mar 9, 2024

Paranioar / SGRAF

Star

[AAAI2021] The code of “Similarity Reasoning and Filtration for Image-Text Matching”

image-retrieval aaai text-matching similarity-metric cross-modal-retrieval image-text-matching image-text-retrieval

Updated Apr 11, 2024
Python

howard-hou / BagFormer

Star

PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

vision-language cross-modal-retrieval image-text-retrieval

Updated Jan 14, 2023
Python

penghu-cs / DSCMR

Star

Deep Supervised Cross-modal Retrieval (CVPR 2019, PyTorch Code)

cross-modal-retrieval

Updated Sep 19, 2019
Python

yalesong / pvse

Star

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval (CVPR 2019)

metric-learning mscoco-dataset cross-modal-retrieval mrw-dataset tgif-dataset

Updated Mar 15, 2024
Python

woodfrog / vse_infty

Star

Code for "Learning the Best Pooling Strategy for Visual Semantic Embedding", CVPR 2021

pytorch vse visual-semantic vision-language cross-modal-retrieval image-text-matching

Updated Feb 20, 2023
Python

naver-ai / pcme

Star

Official Pytorch implementation of "Probabilistic Cross-Modal Embedding" (CVPR 2021)

cross-modal-retrieval probabilistic-machine-learning cvpr2021 probabilistic-embeddings

Updated Mar 1, 2024
Python

AyanKumarBhunia / on-the-fly-FGSBIR

Star

[CVPR 2020, Oral] "Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image Retrieval”, IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2020. .

reinforcement-learning sketch continuous-rl policy-gradient image-retrieval cvpr re-identification sbir cross-modal-retrieval cvpr2020 fg-sbir continuous-reinforcement-learning pytorch-policy-gradient cvpr-oral

Updated Mar 19, 2021
Python

penghu-cs / SDML

Star

Scalable deep multimodal learning for cross-modal retrieval (SIGIR 2019, PyTorch Code)

cross-modal-retrieval deep-multimodal-learning

Updated Jul 24, 2020
Python

zjukg / KG-MM-Survey

Star

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

information-extraction survey knowledge-graph awsome image-classification image-generation surveys entity-linking knowledge-graph-embeddings visual-question-answering entity-alignment paper-list awsome-list cross-modal-retrieval multi-modal-learning multi-modal-fusion large-language-models multi-modal-knowledge-graph

Updated May 16, 2024

slavabarkov / tidy

Star

Offline semantic Text-to-Image and Image-to-Image search on Android powered by quantized state-of-the-art vision-language pretrained CLIP model and ONNX Runtime inference engine