OpenCodePapers

visual-question-answering-on-coco-visual-1

Visual Question Answering (VQA)

Results over time

Click legend items to toggle metrics. Hover points for model names.

Leaderboard

Paper	Code	Percentage correct	ModelName	ReleaseDate
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding	✓ Link	70.1	MCB 7 att.	2016-06-06
Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering	✓ Link	70.04	Dual-MFA	2017-11-18
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering	✓ Link	69.60	RelAtt	2018-05-24
High-Order Attention Models for Visual Question Answering	✓ Link	69.3	3-Modalities: Unary + Pairwise + Ternary (ResNet)	2017-11-12
Training Recurrent Answering Units with Joint Loss Minimization for VQA		67.3	joint-loss	2016-06-12
Multimodal Residual Learning for Visual QA	✓ Link	66.3	MRN	2016-06-05
Hierarchical Question-Image Co-Attention for Visual Question Answering	✓ Link	66.1	HQI+ResNet	2016-05-31
A Focused Dynamic Attention Model for Visual Question Answering		64.2	FDA	2016-04-06
VQA: Visual Question Answering	✓ Link	63.1	LSTM Q+I	2015-05-03
Simple Baseline for Visual Question Answering	✓ Link	62.0	iBOWIMG baseline	2015-12-07