OpenCodePapers

scene-text-recognition-on-iiit5k

Scene Text Recognition

Results over time

Click legend items to toggle metrics. Hover points for model names.

Leaderboard

Paper	Code	Accuracy	ModelName	ReleaseDate
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	✓ Link	99.6	CLIP4STR-L (DataComp-1B)	2023-05-23
DTrOCR: Decoder-only Transformer for Optical Character Recognition	✓ Link	99.6	DTrOCR 105M	2023-08-30
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	✓ Link	99.5	CLIP4STR-L	2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	✓ Link	99.5	CLIP4STR-B (DataComp-1B)	2023-05-23
Context Perception Parallel Decoder for Scene Text Recognition	✓ Link	99.3	CPPD	2023-07-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	✓ Link	99.2	CLIP4STR-B	2023-05-23
Scene Text Recognition with Permuted Autoregressive Sequence Models	✓ Link	99.1±0.1	PARSeq	2022-07-14
Multi-Granularity Prediction for Scene Text Recognition	✓ Link	98.8	MGP-STR	2022-09-08
Self-supervised Character-to-Character Distillation for Text Recognition	✓ Link	98.0	CCD-ViT-Small(ARD_2.8M)	2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition	✓ Link	98.0	CCD-ViT-Base(ARD_2.8M)	2022-11-01
Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition	✓ Link	97.5	S-GTR	2021-12-24
DiffusionSTR: Diffusion Model for Scene Text Recognition		97.3	DiffusionSTR	2023-06-29
Self-supervised Character-to-Character Distillation for Text Recognition	✓ Link	97.1	CCD-ViT-Tiny(ARD_2.8M)	2022-11-01
Self-supervised Implicit Glyph Attention for Text Recognition	✓ Link	96.9	SIGA_S	2022-03-07
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features	✓ Link	96.6	MATRN	2021-11-30
CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition	✓ Link	96.57	CDistNet (Ours)	2021-11-22
Look Back Again: Dual Parallel Attention Network for Accurate and Robust Scene Text Recognition	✓ Link	96.2	DPAN	2021-08-01