LLM-Makroprognosen: In-sample-Genauigkeit oft verzerrt
CBR Paper Read in English

LLM-Makroprognosen: In-sample-Genauigkeit oft verzerrt

Eine neue Studie der Bank von Russland (CBR) untersucht die Zuverlässigkeit von Large Language Models (LLMs) in makroökonomischen Prognosen. Die entwickelten 'Fake Date Tests' zeigen, dass moderne LLMs oft Lookahead- und Kontext-Bias aufweisen.

LLMs im Prognose-Einsatz: Die Tücken der Vergangenheit

Large Language Models (LLMs) werden zunehmend für makroökonomische Prognosen eingesetzt.

Im Gegensatz zu klassischen Modellen, die in Pseudo-Echtzeit trainiert werden, sind LLMs statisch auf große Datensätze vorab trainiert.

Dies führt zu zwei zentralen Herausforderungen bei der retrospektiven Genauigkeitsbewertung: dem Lookahead-Bias, bei dem das Modell unbeabsichtigt zukünftige Daten 'sieht', und dem Kontext-Bias, bei dem das Modell im Trainingszeitraum über zusätzlichen Kontext verfügt, der später nicht mehr verfügbar ist.

Um diese Verzerrungen zu erkennen, entwickeln die Autoren eine Familie von Prompt-Sensitivitätstests, darunter die sogenannten 'Fake Date Tests'.

Diese Tests sollen die Validität der Methodik zur Bewertung der retrospektiven Genauigkeit von LLMs in Frage stellen, falls sie nicht bestanden werden.

Zwei Tests entlarven den Bias

Der 'Fake Date Test I' identifiziert den Lookahead-Bias, indem er zwei Prognosen mit identischen Informationen, aber unterschiedlichen Prognosedaten vergleicht.

Eine Prognose wird für ein weit zurückliegendes Datum erstellt, die andere für ein Datum weit in der Zukunft, jenseits des Modell-Veröffentlichungsdatums.

Eine Diskrepanz signalisiert, dass das LLM Informationen nach dem Stichtag nutzt.

Der 'Fake Date Test II' prüft den Kontext-Bias, indem der Stichtag mit dem ersten Prognosezeitraum zusammenfällt.

Die empirischen Ergebnisse zeigen, dass keines der getesteten modernen LLMs diese Tests besteht, was auf Verzerrungen in ihren In-sample-Prognosen hindeutet.

Vorsicht vor trügerischer Genauigkeit

Diese Studie deckt eine fundamentale Schwäche in der aktuellen Anwendung von LLMs für makroökonomische Prognosen auf.

Sie mahnt Forscher zur äußersten Vorsicht bei der Interpretation von In-sample-Genauigkeitsergebnissen, da diese durch unerkannte Biases stark verzerrt sein können.

Eine zuverlässige Nutzung von LLMs in diesem Bereich erfordert entweder deutlich robustere Testmethoden oder kostspieligere dynamische Trainingsansätze.