OpenCodePapers

question-answering-on-drop-test

Question Answering

Results over time

Click legend items to toggle metrics. Hover points for model names.

Leaderboard

Paper	Code	F1	ModelName	ReleaseDate
Question Directed Graph Attention Network for Numerical Reasoning over Text		88.38	QDGAT (ensemble)	2020-09-16
Reasoning Like Program Executors	✓ Link	87.6	POET	2022-01-27
PaLM 2 Technical Report	✓ Link	85.0	PaLM 2 (few-shot)	2023-05-17
Giving BERT a Calculator: Finding Operations and Arguments with Reading Comprehension		81.78	BERT+Calculator (ensemble)	2019-08-31
Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension		81.71	NeRd	2020-05-01
GPT-4 Technical Report	✓ Link	80.9	GPT-4 (few-shot, k=3)	2023-03-15
A Simple and Effective Model for Answering Multi-span Questions	✓ Link	80.7	TASE-BERT	2019-09-29
A Multi-Type Multi-Span Network for Reading Comprehension that Requires Discrete Reasoning	✓ Link	79.88	MTMSN Large	2019-08-15
Injecting Numerical Reasoning Skills into Language Models	✓ Link	72.4	GenBERT (+ND+TD)	2020-04-09
NumNet: Machine Reading Comprehension with Numerical Reasoning	✓ Link	67.97	NumNet	2019-10-15
GPT-4 Technical Report	✓ Link	64.1	GPT 3.5 (few-shot, k=3)	2023-03-15
Orca 2: Teaching Small Language Models How to Reason		60.26	Orca 2-7B	2023-11-18
Orca 2: Teaching Small Language Models How to Reason		57.97	Orca 2-13B	2023-11-18
DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs	✓ Link	47.01	NAQA Net	2019-03-01
Language Models are Few-Shot Learners	✓ Link	36.5	GPT-3 175B (few-shot, k=32)	2020-05-28
DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs	✓ Link	32.7	BERT	2019-03-01