Sprachmodelle neigen dazu, den Menschen nach dem Mund zu reden. Ein neuer Benchmark soll helfen, diese Schmeichelei zu messen und einzudämmen.