Beste Open-Source-Modelle für PII-Redaktion
Vergleich der besten Open-Source-Modelle zur PII-Erkennung und -Redaktion in KI-Pipelines — GLiNER, DeBERTa, Piiranha, StarPII und mehr.
Regex allein reicht nicht
Wer KI-Features baut, braucht PII-Erkennung in der Pipeline. Regex erledigt strukturierte PII zuverlässig — E-Mails, Kreditkartennummern, Telefonnummern, Sozialversicherungsnummern. Aber was ist mit einem Kundennamen in einem Support-Ticket? Einer Adresse mitten im Fließtext? Einem Firmennamen, der alles sein könnte?
Für unstrukturierte PII braucht man ML-Modelle. Und 2026 sind die Open-Source-Optionen wirklich gut. Dieser Beitrag stellt die besten Open-Source-Modelle für PII-Redaktion vor — Stärken, Schwächen und welches Modell für welchen Anwendungsfall passt.
Wie PII-Erkennungsmodelle funktionieren
Die meisten PII-Erkennungsmodelle sind Named Entity Recognition (NER)-Systeme. Sie verarbeiten Text Token für Token und klassifizieren jedes Token mit Labels wie B-PERSON (Beginn eines Personennamens), I-EMAIL (innerhalb einer E-Mail) oder O (kein PII).
Zwei Hauptansätze:
- Feinabgestimmte Modelle — Auf PII-gelabelten Datensätzen trainiert, mit festen Entity-Typen. Schnell und genau für bekannte Kategorien, aber neue Entity-Typen erfordern erneutes Training.
- Zero-Shot-Modelle — Entity-Labels werden zur Inferenzzeit angegeben. Flexibler, auf Benchmarks etwas weniger genau, aber ohne Training an neue PII-Typen anpassbar.
Die Transformer-Revolution (BERT, DeBERTa und deren Nachfolger) hat beide Ansätze dramatisch verbessert gegenüber den früheren spaCy/Regex-Stacks. Schauen wir uns an, was verfügbar ist.
Presidio + spaCy: die Baseline
Microsoft Presidio ist kein Modell — es ist ein Framework. Es kombiniert Regex-Mustererkennung, regelbasierte Logik und NER (standardmäßig spaCy) in einer konfigurierbaren Erkennungspipeline. Es ist die am weitesten verbreitete Open-Source-PII-Lösung.
Funktionsweise: Presidio liefert eingebaute „Recognizer" für gängige PII-Typen. Die Standard-NER-Engine ist spaCys en_core_web_lg-Modell. Man kann eigene Recognizer hinzufügen oder ein anderes NER-Backend einsetzen.
Stärken:
- Produktionsreifes Framework mit jahrelanger Community-Härtung
- Verarbeitet Text, Bilder und strukturierte Daten (JSON, CSV)
- Modulare Architektur — spaCy durch GLiNER, Flair oder ein eigenes Modell austauschbar
- Gute Dokumentation, aktive Wartung
Schwächen:
- Standard-spaCy-NER hat Probleme mit nicht-westlichen Namen (indische, ostasiatische, arabische Namen)
- Regex-Recognizer übersehen implizite oder kontextabhängige PII
- Framework-Komplexität — man verwaltet eine Pipeline, nicht nur ein Modell
- spaCys NER-Genauigkeit liegt auf allgemeinen PII-Benchmarks hinter Transformer-Alternativen
Ideal für: Teams, die ein vollständiges Framework mit Batterien im Lieferumfang wollen und bereit sind, das NER-Backend anzupassen.
Fazit: Guter Startpunkt als Produktions-Framework, aber das Standard-spaCy-NER sollte durch GLiNER oder einen DeBERTa-Fine-Tune ersetzt werden.
GLiNER: die Zero-Shot-Option
GLiNER (Generalist and Lightweight model for Named Entity Recognition) ist ein Transformer-basiertes NER-Modell mit einer Schlüsselinnovation: Zero-Shot-Entity-Erkennung. Entity-Labels werden zur Inferenzzeit definiert — kein Nachtraining nötig.
Für PII-Erkennung gibt es spezialisierte Varianten:
- Knowledgator GLiNER-PII — Über 60 PII-Entity-Kategorien, in Small/Base/Large/Edge verfügbar. Die umfassendste PII-spezifische GLiNER-Variante.
- NVIDIA GLiNER-PII — Basiert auf GLiNER large-v2.1, deckt über 55 Entity-Typen ab, inklusive PHI (geschützte Gesundheitsinformationen).
- Gretel GLiNER — Auf synthetischen Gretel-Datensätzen feinabgestimmt, in Small/Base/Large verfügbar.
- urchade/gliner_multi_pii-v1 — Multi-PII-Variante vom GLiNER-Originalautor.
Funktionsweise: Text und eine Liste von Entity-Labels übergeben (z.B. ["person", "email", "credit_card", "address"]). GLiNER gibt Spans mit Confidence-Scores zurück.
from gliner import GLiNER
model = GLiNER.from_pretrained("knowledgator/gliner-pii-base-v1.0")
text = "Kontaktieren Sie Max Müller unter max@firma.de oder 0151-12345678"
labels = ["person", "email", "phone_number"]
entities = model.predict_entities(text, labels, threshold=0.5)
for entity in entities:
print(f"{entity['text']} -> {entity['label']} ({entity['score']:.2f})")
Stärken:
- Zero-Shot-Flexibilität — neue Entity-Typen ohne Nachtraining
- Gute Genauigkeit (F1 ~0.81 auf Multi-Domain-PII-Benchmarks)
- Mehrere Größenoptionen von Edge (winzig) bis Large
- Direkte Integration mit Presidio als Custom Recognizer
- Besser bei nicht-westlichen Namen als spaCy
Schwächen:
- F1 sinkt auf ~0.41 bei klinischen/medizinischen Daten (Domain-Gap)
- Etwas langsamer als feste Fine-Tuned-Modelle (Zero-Shot-Overhead)
- GPU für akzeptablen Durchsatz im Produktionsbetrieb nötig
Ideal für: Teams, die Flexibilität bei Entity-Typen brauchen, diverse Texteingaben verarbeiten oder ein Modell wollen, das sich an verschiedene PII-Anforderungen anpasst.
DeBERTa Fine-Tunes: höchste Genauigkeit
Wer die höchste Rohgenauigkeit bei einem festen Satz von PII-Typen braucht, ist mit DeBERTa-Fine-Tunes am besten bedient. Diese Token-Klassifikationsmodelle sind speziell auf PII-gelabelten Datensätzen trainiert.
Die herausragenden Modelle:
- DeBERTa v3 + ai4privacy — Feinabgestimmt auf dem ai4privacy-300K-Datensatz. F1: 0,9757, Accuracy: 0,9915. Deckt 54 PII-Klassen in mehreren Sprachen ab. Das ist der Genauigkeits-Benchmark.
- lakshyakh93/deberta_finetuned_pii — Multi-Kategorie-Erkennung: Kontonamen, Kreditkarten, E-Mails, Telefonnummern, Adressen.
- JasperLS/deberta-v3-base-pii-identifier-v2 — Allgemeine PII-Identifikation.
Funktionsweise: Standard-Transformer-Token-Klassifikation. Text eingeben, Pro-Token-PII-Labels erhalten. Feste Entity-Sets aus dem Training.
from transformers import pipeline
classifier = pipeline(
"token-classification",
model="Isotonic/deberta-v3-base_finetuned_ai4privacy_v2",
aggregation_strategy="simple"
)
text = "Mein Name ist Maria García und ich wohne in der Eichenstraße 42, Berlin"
results = classifier(text)
for r in results:
print(f"{r['word']} -> {r['entity_group']} ({r['score']:.2f})")
Stärken:
- Höchste Benchmark-Scores (F1 > 0,97)
- Schnelle Inferenz — kein Zero-Shot-Overhead
- Bewährte Transformer-Architektur
- Mehrere Varianten für verschiedene Anwendungsfälle
Schwächen:
- Feste Entity-Sets — neue PII-Typen erfordern Nachtraining
- Qualität der Trainingsdaten bestimmt die reale Performance (einige auf synthetischen Daten trainiert)
- Größere Modelle brauchen GPU für Produktionsdurchsatz
Ideal für: Produktionssysteme, bei denen die zu erkennenden PII-Typen feststehen und Genauigkeit oberste Priorität hat.
Piiranha: am besten für Mehrsprachigkeit
Piiranha ist ein feinabgestimmtes microsoft/mdeberta-v3-base-Modell, speziell für mehrsprachige PII-Erkennung. Es erkennt 17 PII-Typen in 6 Sprachen.
Performance: 98,27% PII-Token-Erkennungsrate, 99,44% Gesamtklassifikationsgenauigkeit. Starke Werte, besonders über mehrere Sprachen hinweg.
Stärken:
- Beste mehrsprachige Abdeckung unter PII-spezifischen Modellen
- Hohe Genauigkeit über Sprachen hinweg (nicht nur Englisch)
- Basiert auf der bewährten mDeBERTa-Architektur
Schwächen:
- Kleineres Entity-Set (17 Typen) im Vergleich zu GLiNER-PII (60+) oder ai4privacy DeBERTa (54)
- Auf 6 Sprachen begrenzt — nicht universell
Ideal für: Anwendungen, die Text in mehreren europäischen Sprachen verarbeiten und konsistente sprachübergreifende Genauigkeit wichtiger ist als Entity-Typ-Breite.
StarPII: für Code gemacht
StarPII geht einen anderen Weg — es ist für die Erkennung von PII in Quellcode und code-nahem Text konzipiert. Teil des BigCode-Projekts, erkennt es 6 Kategorien:
- Namen
- E-Mails
- API-Schlüssel
- Passwörter
- IP-Adressen
- Benutzernamen
Warum wichtig: Wer KI-Coding-Assistenten baut oder Code-Repositories verarbeitet, übersieht mit allgemeinen PII-Modellen code-spezifische Muster. StarPII versteht, dass password = "hunter2" ein Credential ist, nicht nur ein String-Literal.
Ideal für: Code-Analyse, Repository-Scanning, Coding-Assistant-Pipelines. Mit einem allgemeinen PII-Modell für Nicht-Code-Text kombinieren.
Kleine LLMs als PII-Detektoren
Einige Teams setzen kleine Sprachmodelle (Phi-3 Mini, Qwen2-0.5B) ein, die für PII-Erkennung feinabgestimmt wurden. Modelle wie ab-ai/PII-Model-Phi3-Mini und betterdataai/PII_DETECTION_MODEL (Qwen2-0.5B, 29 Klassen, 7 Sprachen) nutzen diesen Ansatz.
Stärken:
- Können komplexe, kontextuelle PII erkennen, die NER-Modellen entgeht
- Natural-Language-Output macht Ergebnisse interpretierbar
- Teilweise Instruction-Following für benutzerdefinierte Erkennungsregeln
Schwächen:
- Deutlich langsamer als NER-Modelle (10-100x)
- Höhere Ressourcenanforderungen (auch „kleine" LLMs brauchen mehr Speicher)
- Weniger vorhersagbar — generative Modelle können Entities halluzinieren
- Schwieriger im großen Maßstab mit konsistenter Latenz zu betreiben
Ideal für: Offline-Batch-Verarbeitung, bei der Latenz keine Rolle spielt und maximales kontextuelles Verständnis nötig ist. Nicht empfohlen für Echtzeit-API-Traffic.
Vergleichstabelle
| Modell | Ansatz | Entity-Typen | F1-Score | Sprachen | Geschwindigkeit | Ideal für |
|---|---|---|---|---|---|---|
| Presidio + spaCy | Framework + NER | Konfigurierbar | Variiert je Backend | EN (Standard) | Schnell | Vollständiges Pipeline-Framework |
| GLiNER-PII (Knowledgator) | Zero-Shot NER | 60+ | ~0,81 | EN (primär) | Mittel | Flexible Entity-Erkennung |
| NVIDIA GLiNER-PII | Zero-Shot NER | 55+ | ~0,81 | EN (primär) | Mittel | PII + PHI-Erkennung |
| DeBERTa + ai4privacy | Token-Klassifikation | 54 | 0,9757 | Multi | Schnell | Höchste Genauigkeit |
| Piiranha | Token-Klassifikation | 17 | ~0,98 (Token) | 6 Sprachen | Schnell | Mehrsprachig |
| StarPII | Token-Klassifikation | 6 | N/A | EN | Schnell | Code/Repos |
| Phi3-Mini PII | Generativ | Flexibel | ~0,96 (selbst berichtet) | EN | Langsam | Batch-Verarbeitung |
Das richtige Modell wählen
Es gibt kein einzelnes bestes Modell — es hängt von den Randbedingungen ab:
- Allgemeiner Text, bekannte PII-Typen → DeBERTa + ai4privacy Fine-Tune. Höchste Genauigkeit, schnelle Inferenz, 54 Entity-Klassen decken die meisten Fälle ab.
- Allgemeiner Text, sich ändernde PII-Typen → GLiNER-PII (Knowledgator oder NVIDIA). Zero-Shot-Flexibilität erlaubt neue Entity-Typen ohne Nachtraining.
- Mehrsprachig → Piiranha. Konsistente Genauigkeit über 6 Sprachen schlägt separate Modelle pro Sprache.
- Code und Repositories → StarPII. Allgemeine PII-Modelle verstehen code-spezifische Muster nicht.
- Produktions-Framework → Presidio mit GLiNER als NER-Backend. Presidios Pipeline-Management mit GLiNERs Erkennungsgenauigkeit. Microsoft dokumentiert diese Integration.
- Gesundheitswesen / PHI → NVIDIA GLiNER-PII oder domänenspezifische Fine-Tunes. Allgemeine Modelle verlieren bei klinischem Text deutlich an Genauigkeit.
Der hybride Ansatz gewinnt
In der Produktion setzen die besten PII-Erkennungssysteme nicht auf ein einzelnes Modell. Sie kombinieren Ansätze:
-
Regex-Muster für strukturierte PII — E-Mails, Kreditkarten, Sozialversicherungsnummern, Telefonnummern. Schnell (Sub-Millisekunde), deterministisch und auditierbar.
-
ML-Modelle für unstrukturierte PII — Namen, Adressen, Organisationen, Freitext-Entities. Hier verdienen sich die oben genannten Modelle ihren Platz.
-
Secret-Scanning für Credentials — API-Schlüssel, Tokens, Verbindungsstrings. Diese sind von PII verschieden, aber in KI-Pipelines ebenso wichtig.
Regex zuerst filtert die einfachen Fälle bei nahezu null Kosten heraus. Das ML-Modell verarbeitet nur, was Regex nicht abfängt. Das ist der Ansatz, den wir in unserem Leitfaden für PII-Erkennung empfehlen — und so funktionieren die meisten Produktionssysteme.
Wie Grepture hilft
PII-Erkennungsmodelle zu hosten, zu tunen und zu warten ist echte operative Arbeit. Man braucht GPU-Infrastruktur, Modell-Versionierung, Latenz-Monitoring und Fallback-Strategien.
Grepture übernimmt das auf der Proxy-Ebene. Jeder API-Aufruf an OpenAI, Anthropic oder einen anderen LLM-Anbieter fließt durch Grepture, wo er mit Regex-Mustern und KI-Modellen gescannt wird. Erkannte PII kann redaktiert, maskiert und wiederhergestellt oder für Audits protokolliert werden.
Der Vorteil: Keine Integration pro Service, kein Modell-Hosting, und reversible Redaktion sorgt dafür, dass KI-Antworten personalisiert bleiben.
Für einen detaillierten Vergleich von Presidio vs. Greptures Ansatz siehe unseren Direktvergleich.
Wichtigste Erkenntnisse
- GLiNER-PII-Varianten (Knowledgator, NVIDIA) sind die vielseitigste Wahl — Zero-Shot-Flexibilität mit guter Genauigkeit und 55-60+ Entity-Typen.
- DeBERTa, feinabgestimmt auf ai4privacy, hat den höchsten Benchmark-Score (F1: 0,9757) für maximale Genauigkeit bei festem Entity-Set.
- Piiranha ist die beste mehrsprachige Option mit 98%+ Erkennungsraten über 6 Sprachen.
- Produktionssysteme sollten Regex + ML-Modelle kombinieren — Regex für strukturierte PII (schnell und auditierbar), Modelle für Freitext-Entities.
- Kein Modell behandelt alle Domänen gleich — Klinischer/medizinischer Text verursacht signifikante Genauigkeitseinbußen bei Allzweckmodellen. Auf echten Daten testen, bevor man deployed.