|Ben @ Grepture

Best Practices für PII-Erkennung in KI-Pipelines

Ein praktischer Leitfaden zur Identifizierung und Handhabung personenbezogener Daten in LLM-Anfragen und -Antworten.

Das PII-Problem in der KI

Wenn Anwendungen Prompts an große Sprachmodelle senden, enthalten diese fast immer nutzergenerierte Inhalte — Support-Tickets, Formulareingaben, Chat-Nachrichten. Diese Inhalte enthalten regelmäßig personenbezogene Daten, die niemals eine Drittanbieter-API erreichen sollten.

Das Risiko ist nicht hypothetisch. Kundennamen landen in Modell-Trainingsdaten. E-Mail-Adressen werden in Anbieter-Logs zwischengespeichert. Medizinische Details aus Support-Gesprächen fließen durch APIs ohne Aufbewahrungsgarantien. Unter der DSGVO und CCPA ist das Senden ungeschützter PII an einen Drittanbieter-Verarbeiter ohne angemessene Kontrollen ein Compliance-Verstoß — unabhängig davon, ob der Anbieter verspricht, nicht damit zu trainieren.

Was zählt als PII?

PII umfasst alle Daten, die eine Person direkt oder indirekt identifizieren können:

  • Direkte Identifikatoren: Namen, E-Mail-Adressen, Telefonnummern, Sozialversicherungsnummern, Passnummern, Führerscheinnummern
  • Quasi-Identifikatoren: Geburtsdaten, Postleitzahlen, Berufsbezeichnungen, IP-Adressen (können in Kombination identifizieren)
  • Sensible Daten: Medizinische Unterlagen, Finanzinformationen, biometrische Daten, rassische oder ethnische Herkunft, religiöse Überzeugungen

Das EU-KI-Gesetz und die DSGVO behandeln diese Kategorien unterschiedlich, aber der sicherste Ansatz ist, alle zu erkennen und zu behandeln, bevor Daten Ihre Infrastruktur verlassen.

Erkennungsstrategien

Mustererkennung (die Grundlage)

Reguläre Ausdrücke erfassen strukturierte PII wie E-Mail-Adressen, Telefonnummern und Kreditkartennummern. Sie sind schnell, vorhersagbar und laufen mit Proxy-Geschwindigkeit ohne externe Abhängigkeiten. Eine gut gepflegte Regex-Bibliothek deckt die Mehrheit der strukturierten PII-Muster ab.

Zum Beispiel ist die E-Mail-Erkennung unkompliziert:

[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

Kreditkartennummern, Telefonnummern (mit Ländercode-Variationen), SSN-Formate und IP-Adressen folgen alle vorhersagbaren Mustern, die Regex gut verarbeitet. Grepture wird standardmäßig mit über 50 Regex-Mustern ausgeliefert (80+ bei Pro-Plänen) und deckt die gängigsten strukturierten PII-, Geheimnis-Formate und Code-Fingerabdrücke ab.

Der große Vorteil von Regeln: Jede Erkennung lässt sich auf ein bestimmtes Muster zurückführen. Wenn Ihr Compliance-Team fragt "Wie stellen Sie sicher, dass PII nicht an Drittanbieter-KI gesendet wird?", können Sie auf ein auditierbares, deterministisches Regelwerk verweisen — nicht auf einen Wahrscheinlichkeitswert eines Modells.

KI-gestützte Erkennung (für das, was Regex nicht kann)

Regex ist großartig bei strukturierten Daten, aber manche PII folgen keinem Muster. Namen in Fließtext. Adressen, die in einen Absatz eingebettet sind. Firmennamen, die alles sein könnten. Hier füllt KI-gestützte Erkennung die Lücke.

Grepture betreibt lokale KI-Modelle auf unserer Infrastruktur und erkennt:

  • Personennamen — Vornamen, Nachnamen, vollständige Namen in natürlicher Sprache
  • Orte — Städte, Länder, Adressen in unstrukturiertem Text
  • Organisationen — Firmennamen, Institutionen

Das wichtige Detail: Diese Modelle laufen auf Greptures Servern, nicht bei einer externen API. Ihre Daten werden nicht an einen weiteren Dienst weitergeleitet, während sie geschützt werden. Das würde den Zweck irgendwie verfehlen.

Über PII hinaus: weitere Bedrohungen, die es zu erkennen gilt

Wenn Sie ohnehin Traffic scannen, gibt es ein paar weitere Dinge, auf die es sich lohnt zu achten:

  • Prompt Injection — Manipulierte Eingaben, die das Modellverhalten kapern sollen. Grepture bewertet Anfragen auf Injektionsrisiko und kann sie blockieren oder protokollieren. Einen ausführlichen Einblick bietet unser Prompt-Injection-Präventionsleitfaden.
  • Toxizität — Toxische, bedrohliche oder hasserfüllte Inhalte. Nützlich, wenn Ihre Nutzer direkt mit KI-Features interagieren.
  • Data Loss Prevention (DLP) — Quellcode, Zugangsdaten, interne Dokumente und Finanzdaten, die Ihr Netzwerk nicht verlassen sollten.
  • Compliance-Domain-Flagging — Gesundheitsdaten (HIPAA), Finanzdaten (KYC/AML), rechtliche Daten (privilegierte Kommunikation) und Versicherungsdaten, die regulatorische Anforderungen auslösen können.

Regeln und KI: komplementär, nicht konkurrierend

Uns wird manchmal gefragt: Regeln oder ML? Die ehrliche Antwort ist beides, und sie sind bei unterschiedlichen Dingen gut.

Regeln bieten:

  • Transparenz — jede Erkennung lässt sich auf ein bestimmtes Muster zurückführen
  • Auditierbarkeit — Sie können genau auflisten, welche Muster abgedeckt sind
  • Determinismus — gleiche Eingabe, gleiches Ergebnis, jedes Mal
  • Geschwindigkeit — unter einer Millisekunde pro Regel, kein Aufwärmen, kein Modell-Hosting

KI bietet:

  • Fließtext-Erkennung — erkennt Namen, Orte und Entitäten, die keinem Muster folgen
  • Semantisches Verständnis — erkennt PII anhand der Bedeutung, nicht nur am Format
  • Bedrohungserkennung — Prompt Injection und Toxizität sind keine Musterprobleme

Verwenden Sie Regeln als Baseline — sie sind schnell, günstig und decken die meiste strukturierte PII ab. Legen Sie KI darüber für die Dinge, die Regex übersieht. So ist Grepture designed, und so würden wir es für jede Erkennungs-Pipeline empfehlen.

Umgang mit erkannten PII

Nach der Erkennung haben Sie mehrere Optionen:

  • Schwärzen: Durch Platzhalter-Token ersetzen ([GESCHWÄRZT]). Das LLM verarbeitet den Prompt ohne echte PII. Sauber und einfach.
  • Maskieren: Teilweise verdecken (j***@example.com). Nützlich, wenn das LLM den Datentyp verstehen muss, aber nicht den tatsächlichen Wert.
  • Maskieren und Wiederherstellen: Durch sichere Token ersetzen, Originale in einem Vault mit TTL speichern und in der Antwort wieder einsetzen. Das LLM sieht nie die echten Werte, aber Ihre Anwendung bekommt vollständige Daten zurück. Das Beste aus beiden Welten. Mehr dazu in unserem Maskieren-und-Wiederherstellen-Leitfaden.
  • Blockieren: Die gesamte Anfrage ablehnen. Am besten für hochsensible Szenarien, in denen jede PII-Exposition inakzeptabel ist.
  • Protokollieren: Durchlassen, aber für Audits aufzeichnen. Nützlich während des initialen Rollouts, um zu verstehen, welche PII durch Ihr System fließt, bevor strenge Richtlinien durchgesetzt werden.

Die richtige Wahl hängt von Ihrem Anwendungsfall ab. Die meisten Teams beginnen mit Protokollierung, um Transparenz zu gewinnen, und verschärfen dann schrittweise die Richtlinien. Wenn Sie nicht sicher sind, wo Sie anfangen sollen — protokollieren Sie eine Woche lang alles und schauen Sie, was Sie finden. Es ist fast immer mehr, als man erwartet.

Aufbau einer Erkennungs-Pipeline

Ein praktisches PII-Erkennungs-Setup für KI-Pipelines sollte dieser Reihenfolge folgen:

  1. Datenquellen inventarisieren — Identifizieren Sie jede Eingabe, die in LLM-Prompts einfließt. Benutzernachrichten, Datenbankeinträge, Dateiinhalte, interne Dokumente.
  2. Sensibilitätsstufen klassifizieren — Nicht alle PII erfordern die gleiche Behandlung. Ein Name in einer öffentlichen Bio ist anders als eine Sozialversicherungsnummer in einer Finanzbuchhaltung.
  3. Erkennung auf Proxy-Ebene einsetzen — PII auf Netzwerkebene zu erkennen bedeutet, dass jeder KI-Aufruf geschützt ist, unabhängig davon, welches Team oder welcher Dienst ihn durchgeführt hat. Keine Integration pro Service nötig.
  4. Mit Protokollierung beginnen, dann durchsetzen — Zuerst im Beobachtungsmodus laufen. Verstehen Sie Ihre Baseline, bevor Sie Anfragen blockieren. Der Playground im Grepture-Dashboard eignet sich hervorragend, um Regeln gegen realistischen Traffic zu testen, bevor Sie sie aktivieren.
  5. KI-Erkennung hinzufügen — Sobald Ihre Regex-Regeln solide sind, aktivieren Sie KI-gestützte Erkennung für Namen, Orte und Entitäten, die durch Mustererkennung rutschen.
  6. Überwachen und anpassen — Überprüfen Sie regelmäßig die Erkennungs-Logs. Fügen Sie eigene Regeln für Muster hinzu, die spezifisch für Ihre Daten sind. Prüfen Sie auf False Positives und passen Sie Schwellenwerte an.

Compliance-Überlegungen

DSGVO, CCPA und der EU AI Act stellen Anforderungen an den Fluss personenbezogener Daten durch KI-Systeme. Automatisierte PII-Erkennung wird schnell zur Grundvoraussetzung. Einen entwicklerorientierten Überblick über die August-2026-Frist des EU AI Act finden Sie in unserem EU-AI-Act-Compliance-Leitfaden.

Wichtige Anforderungen:

  • DSGVO Artikel 5 — Personenbezogene Daten müssen rechtmäßig verarbeitet werden, mit Zweckbindung und Datenminimierung
  • DSGVO Artikel 28 — Auftragsverarbeiter (einschließlich KI-Anbieter) müssen hinreichende Garantien für angemessene technische Maßnahmen bieten
  • EU-KI-Gesetz Artikel 10 — Trainings- und Validierungsdatensätze müssen einer angemessenen Daten-Governance unterliegen
  • CCPA Abschnitt 1798.100 — Verbraucher haben das Recht zu erfahren, welche personenbezogenen Daten gesammelt und geteilt werden

Bauen Sie die Erkennung von Anfang an in Ihre Pipeline ein — nachträgliches Einbauen ist immer schwieriger. Grepture macht dies einfach mit Drop-in-SDK-Integration, über 50 integrierten Regex-Mustern (80+ bei Pro) und KI-gestützter Erkennung für die Dinge, die Muster nicht erfassen können.