Die Transformer-Architektur findet sich heute in allen Large Language Models. Aber wie genau funktioniert sie? Der Artikel klärt die mathematischen Hintergründe