question-answering-on-medqa-usmle

Question Answering

Results over time

Click legend items to toggle metrics. Hover points for model names.

Leaderboard

Paper	Code	Accuracy	ModelName	ReleaseDate
Capabilities of Gemini Models in Medicine		91.1	Med-Gemini	2024-04-29
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine	✓ Link	90.2	GPT-4	2023-11-28
Towards Expert-Level Medical Question Answering with Large Language Models	✓ Link	85.4	Med-PaLM 2	2023-05-16
Towards Expert-Level Medical Question Answering with Large Language Models	✓ Link	83.7	Med-PaLM 2 (CoT + SC)	2023-05-16
Towards Expert-Level Medical Question Answering with Large Language Models	✓ Link	79.7	Med-PaLM 2 (5-shot)	2023-05-16
MedMobile: A mobile-sized language model with expert-level clinical capabilities	✓ Link	75.7	MedMobile (3.8B)	2024-10-11
Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks		74.3	Meerkat-7B	2024-03-30
Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks		70.6	Meerkat-7B (Single)	2024-03-30
MEDITRON-70B: Scaling Medical Pretraining for Large Language Models	✓ Link	70.2	Meditron-70B (CoT + SC)	2023-11-27
Large Language Models Encode Clinical Knowledge	✓ Link	67.6	Flan-PaLM (540 B)	2022-12-26
MEDITRON-70B: Scaling Medical Pretraining for Large Language Models	✓ Link	61.5	LLAMA-2 (70B SC CoT)	2023-11-27
SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments		60.3	Shakti-LLM (2.5B)	2024-10-15
Can large language models reason about medical questions?	✓ Link	60.2	Codex 5-shot CoT	2022-07-17
MEDITRON-70B: Scaling Medical Pretraining for Large Language Models	✓ Link	59.2	LLAMA-2 (70B)	2023-11-27
Variational Open-Domain Question Answering	✓ Link	55.0	VOD (BioLinkBERT)	2022-09-23
BioMedGPT: Open Multimodal Generative Pre-trained Transformer for BioMedicine	✓ Link	50.4	BioMedGPT-10B	2023-08-18
Large Language Models Encode Clinical Knowledge	✓ Link	50.3	PubMedGPT (2.7 B)	2022-12-26
Deep Bidirectional Language-Knowledge Graph Pretraining	✓ Link	47.5	DRAGON + BioLinkBERT	2022-10-17
Large Language Models Encode Clinical Knowledge	✓ Link	45.1	BioLinkBERT (340 M)	2022-12-26
Galactica: A Large Language Model for Science	✓ Link	44.4	GAL 120B (zero-shot)	2022-11-16
LinkBERT: Pretraining Language Models with Document Links	✓ Link	40.0	BioLinkBERT (base)	2022-03-29
GrapeQA: GRaph Augmentation and Pruning to Enhance Question-Answering		39.51	GrapeQA: PEGA	2023-03-22
BioBERT: a pre-trained biomedical language representation model for biomedical text mining	✓ Link	36.7	BioBERT (large)	2019-01-25
BioBERT: a pre-trained biomedical language representation model for biomedical text mining	✓ Link	34.1	BioBERT (base)	2019-01-25
Large Language Models Encode Clinical Knowledge	✓ Link	33.3	GPT-Neo (2.7 B)	2022-12-26
Galactica: A Large Language Model for Science	✓ Link	23.3	BLOOM (few-shot, k=5)	2022-11-16
Galactica: A Large Language Model for Science	✓ Link	22.8	OPT (few-shot, k=5)	2022-11-16

OpenCodePapers

question-answering-on-medqa-usmle