Selbst die leistungsfähigsten Modelle schaffen nur 10 Prozent der Aufgaben eines neuen KI-Benchmarks: Humanity’s Last Exam.