Runs

Most recent first. Click a status badge to drill into a run.

#	Suite	Model	Pass rate	Cost	Latency	Branch	Started	Status
12	code-review	googlegemini-1.5-flash	43% 22/51	$0.5100	306ms	—	May 2, 2026, 10:46 PM	complete
11	code-review	openaigpt-4o-mini	43% 22/51	$1.0200	306ms	—	May 2, 2026, 10:46 PM	complete
10	code-review	googlegemini-2.5-pro	71% 36/51	$2.0200	497ms	—	May 2, 2026, 10:46 PM	complete
9	code-review	anthropicclaude-haiku-4-5	71% 36/51	$2.5200	497ms	—	May 2, 2026, 10:46 PM	complete
8	code-review	openaigpt-5	65% 33/51	$7.0200	708ms	—	May 2, 2026, 10:46 PM	complete
7	code-review	anthropicclaude-opus-4-7	65% 33/51	$15.9900	708ms	—	May 2, 2026, 10:46 PM	complete
6	toy	googlegemini-1.5-flash	20% 1/5	$0.0500	401ms	—	May 2, 2026, 10:46 PM	complete
5	toy	openaigpt-4o-mini	20% 1/5	$0.1000	401ms	—	May 2, 2026, 10:46 PM	complete
4	toy	googlegemini-2.5-pro	20% 1/5	$0.2200	584ms	—	May 2, 2026, 10:46 PM	complete
3	toy	anthropicclaude-haiku-4-5	20% 1/5	$0.2500	584ms	—	May 2, 2026, 10:46 PM	complete
2	toy	openaigpt-5	80% 4/5	$0.7400	837ms	—	May 2, 2026, 10:46 PM	complete
1	toy	anthropicclaude-opus-4-7	80% 4/5	$1.4500	837ms	—	May 2, 2026, 10:46 PM	complete