gsm8k-on-gsm8k

GSM8K

Results over time

Click legend items to toggle metrics. Hover points for model names.

Leaderboard

Paper	Code	Accuracy	0-shot MRR	ModelName	ReleaseDate
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing	✓ Link	92		AlphaLLM (with MCTS)	2024-04-18
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team	✓ Link	98.1		Xolver	2025-06-17
MyGO Multiplex CoT: A Method for Self-Reflection in Large Language Models via Double Chain of Thought Thinking	✓ Link		98	Orange-mini	2025-01-20

OpenCodePapers