Säule 2 · Architektur

RAG-Pipeline auf Azure OpenAI — in der EU, im Banknetzwerk

Retrieval-Augmented Generation: die Antwort entsteht aus eigenen Dokumenten, nicht aus dem Modellgedächtnis. Das macht Aussagen nachprüfbar und Quellen zitierbar.

Die RAG-Pipeline auf einen Blick

Wie aus einer Frage eine begründete Antwort wird — in fünf Schritten.

Frage Mitarbeiter:in stellt Fachfrage

Embedding Frage als Vektor (Azure OpenAI)

Vektorsuche Top-K passende Dokumente aus eigenem Index

LLM Antwort auf Basis der Treffer formulieren

Antwort + Quelle Mit Zitat des Original-Dokuments

Warum RAG — und nicht das Modell selbst trainieren? Wir geben dem Modell pro Anfrage genau die relevanten Stellen unserer Dokumente mit. Es lernt nichts dazu, speichert keine Inhalte, halluziniert kaum — und jede Aussage ist auf eine konkrete Stelle zurückführbar.

Compliance-Anker

Die wichtigsten regulatorischen Punkte — jeweils in einem Satz.

DSGVO & EU-Residenz

Azure OpenAI in Deutschland / Westeuropa. EU-Datenrecht greift. DPA / AVV mit Microsoft ist Teil der Subscription.

Zero-Data-Retention

Im Enterprise-Tarif werden Anfragen nicht zum Modell-Training verwendet und nicht über das gesetzlich Notwendige hinaus protokolliert.

DORA Art. 30

Vertragsspiegel mit dem ICT-Drittparteidienst, klare Konditionen für Verfügbarkeit, Sicherheit, Audit-Recht.

EU-AI-Act Art. 4

Schulungspflicht: KI-Verständnis aller Anwender:innen — Rolle der Bank, technische Funktionsweise, ethische Pflicht. Wird über digitalen Führerschein abgedeckt.

BAIT & MaRisk

Need-to-know, Least-Privilege, Rezertifizierung — werden über Berechtigungs-Layer und Dokument-Klassifizierung abgebildet.

DSFA bei Sz. 3

Datenschutz-Folgen-Abschätzung verpflichtend, sobald User Eigenes hochladen. Mit DSB abgestimmt — ein Folgetermin steht (11./12.05.).

Kosten-Indikation

Pay-as-you-go bei Azure — wir zahlen nur, was wir nutzen. Indikativ aus Provider-Preisseite, Stand April 2026.

Variante	Input je 1 Mio Token	Output je 1 Mio Token	Anmerkung
Azure OpenAI — GPT 5.3	~ 1,52 $	~ 12,16 $	EU-Region, ZDR im Enterprise-Tarif, DPA inklusive
OpenAI direkt — GPT 5.4	~ 2,50 $	~ 15,00 $	30-Tage-Trial mit 200 $ Guthaben verfügbar

Was bedeutet „1 Million Token"? — Ein Token ist ein Wortbruchstück. Faustregel: 1 Token ≈ 1 kurzes Wort oder eine Silbe. 1 Million Token entsprechen also etwa 700.000–750.000 Wörtern — das ist die Größenordnung von 10 dicken Romanen oder etwa 1.500 DIN-A4-Seiten Text.

Input vs. Output: Der Input ist alles, was wir an das Modell schicken — also die Frage plus die mitgeschickten Dokumenten-Ausschnitte (Top-K-Treffer der RAG-Suche). Der Output ist die Antwort, die das Modell formuliert. Output ist deutlich teurer als Input, ist aber meist viel kürzer — eine typische Antwort hat 200–600 Token, eine Frage mit Kontext oft 1.000–3.000 Token.

Was kostet eine einzelne Anfrage? Bei Azure OpenAI mit GPT 5.3 zahlt man für eine durchschnittliche Anfrage (Frage + Kontext + Antwort) nur einen Bruchteil eines Cents. Selbst bei intensiver Nutzung durch alle Mitarbeitenden bleibt das Tagesbudget übersichtlich — Pay-as-you-go heißt: nichts genutzt, nichts bezahlt.