KI in Bankenprüfung: Retrieval oder Reasoning entscheidend
Eine Studie der BDE untersucht die Leistung von Retrieval-Augmented Generation (RAG) Systemen in der externen Bankenprüfung. Sie vergleicht verschiedene Retrieval-Strategien und Sprachmodelle, um die Beiträge von Informationsbeschaffung und logischem Denken zu zerlegen.
KI-Leistung: Retrieval vor Reasoning?
Die Studie evaluiert RAG-Pipelines für die Überprüfung externer Auditberichte, eine Aufgabe, die strukturierte Evidenzextraktion und Urteilsbildung unter strengen Vertraulichkeitsauflagen erfordert.
Verglichen werden lexikalisches, semantisches, hybrides und Oracle-Retrieval über On-Premise-Modelle (Llama 3B, Mistral 7B, Llama 70B) und proprietäre Cloud-Modelle (Kimi, Claude Sonnet 4.6).
Anhand von 20 Bankenprüfberichten und einem standardisierten Zentralbank-Fragebogen mit 30 Fragen wird die operationelle Korrektheit bewertet.
Die Ergebnisse zeigen, dass semantisches Retrieval einen erheblichen und statistisch robusten Leistungsanstieg innerhalb fester Modelle bewirkt.
Unter symmetrisch starkem Retrieval wird Llama 70B statistisch ununterscheidbar vom besten Cloud-Benchmark, während kleinere On-Premise-Modelle bei komplexeren Urteilsfragen weiterhin eingeschränkt sind.
Dies deutet auf einen Kapazitätsschwellenwert für die praktische Substitution hin.
KI-Risiken in der Wirtschaftsprüfung
Textdaten spielen seit langem eine zentrale Rolle in Rechnungslegung, Wirtschaft und Finanzen.
Jüngste Fortschritte in der generativen KI, insbesondere bei großen Sprachmodellen (LLMs), erweitern dieses Paradigma, indem sie natürliche Sprachinteraktion mit Dokumenten und Workflows ermöglichen.
Produktivitätsgewinne sind jedoch nur dann wirtschaftlich sinnvoll, wenn die LLM-Outputs zuverlässig und für den professionellen Einsatz geeignet sind.
Die Forschung hebt Risiken wie halluzinierte Inhalte, mangelnde Transparenz und die Gefahr der Überbewertung automatisierter Ergebnisse hervor.
RAG-Frameworks begegnen diesen Bedenken, indem sie Outputs in institutionseigenen Dokumenten verankern, was die faktische Genauigkeit verbessert und Halluzinationen reduziert, während Vertraulichkeit und Nachvollziehbarkeit gewahrt bleiben.
Praktische Substitution in Sicht
Diese Studie liefert entscheidende empirische Belege für den Einsatz von LLMs in regulierten Finanzumfeldern.
Sie demonstriert, dass leistungsstarke Open-Source-Modelle mit starkem Retrieval proprietäre Cloud-Lösungen erreichen können, was einen gangbaren Weg für Institutionen aufzeigt.
Die Ergebnisse sind wegweisend für die Entwicklung von SupTech-Anwendungen und die Abwägung von Kosten und Governance in der Finanzaufsicht.