Banken liefern heterogene Formate und Bezeichner. Deshalb werden Beträge vereinheitlicht, Währungen konvertiert, Datumsangaben harmonisiert und Felder wie Verwendungszweck in strukturierte Token zerlegt. Stopwörter, Shoppräfixe und Buchungscodes werden entfernt, während relevante Muster markiert werden. Dieser Prozess reduziert Rauschen, macht Felder vergleichbar und legt die Grundlage für klare Heuristiken, die später mit maschinellem Lernen kombiniert werden können, um wiederkehrende Händler, Abonnements und saisonale Effekte zuverlässig erkennbar zu machen.
Pragmatische Regeln liefern frühe Erfolge: Wenn MCC vorhanden, dann direkte Kategorie; wenn Name Muster „DB Fernverkehr“, dann Reisen; bei IBAN‑Whitelist ordne Vermieter der Miete zu. Solche Heuristiken sind erklärbar, schnell und leicht anpassbar. Wichtig ist Versionierung, Priorisierung und Konfliktlösung, damit keine widersprüchlichen Ergebnisse entstehen. Regeln bilden das Rückgrat für nachvollziehbare Entscheidungen, während sie zugleich wertvolle Trainingssignale für spätere Modelle bereitstellen und Qualitätsmetriken stabilisieren.
Sobald Regeln die Basis gelegt haben, verfeinern Modelle die Zuordnung: Embeddings aus Buchungstexten, Gradient‑Boosting über strukturierten Feldern, oder leichte Transformer, die Händlernamen robust erfassen. Semi‑supervised Ansätze nutzen Korrekturen der Nutzer. Wichtig sind Erklärbarkeit, Bias‑Kontrolle und Drift‑Monitoring, damit Präzision auch bei neuen Händlern, geänderten Bezeichnungen und saisonalen Mustern hoch bleibt. Modelle ergänzen Regeln, ersetzen sie nicht, und sorgen für spürbar weniger manuelle Nacharbeit im Alltag.





