Mit seinem Bullshit-Benchmark testet Peter Gostev, ob Chatbots auf Unsinns-Fragen hereinfallen. Im Interview spricht er über sinnvolle Tests für Sprachmodelle.