OpenCodePapers

zero-shot-transfer-image-classification-on-5

Zero-Shot Transfer Image Classification

Results over time

Click legend items to toggle metrics. Hover points for model names.

Leaderboard

Paper	Code	Accuracy (Private)	Accuracy (Public)	ModelName	ReleaseDate
CoCa: Contrastive Captioners are Image-Text Foundation Models	✓ Link	90.2		CoCa	2022-05-04
Scaling Vision Transformers to 22 Billion Parameters	✓ Link	90.1		LiT-22B	2023-02-10
PaLI: A Jointly-Scaled Multilingual Language-Image Model	✓ Link	88.0		LiT ViT-e	2022-09-14
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters	✓ Link	87.3		EVA-CLIP-18B	2024-02-06
[]()		86.4		BASIC (Lion)
Combined Scaling for Zero-shot Transfer Learning		85.6		BASIC	2021-11-19
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	✓ Link	83.8		InternVL-C	2023-12-21
EVA-CLIP: Improved Training Techniques for CLIP at Scale	✓ Link	82.1		EVA-CLIP-E/14+	2023-03-27
LiT: Zero-Shot Transfer with Locked-image text Tuning	✓ Link	79.4	37.8	LiT-tuning	2021-11-15
Learning Transferable Visual Models From Natural Language Supervision	✓ Link	77.2	-	CLIP	2021-02-26
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision	✓ Link	75.8	-	ALIGN	2021-02-11
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities	✓ Link	69.5		AltCLIP	2022-11-12
PaLI: A Jointly-Scaled Multilingual Language-Image Model	✓ Link	44.7		PaLI	2022-09-14