POST /v1/embeddings ist jetzt ein First-Class-Endpunkt, getrennt vom Catchall-Proxy und parallel zum Traffic-Log im Dashboard.
Was er tut — OpenAI-kompatibler Passthrough, der PII im input-Feld erkennt, Matches mit stabilen Platzhaltern (Default) ersetzt und den geschwaerzten String an OpenAI weiterleitet. Der zurueckkommende Vektor, den Sie in Pinecone oder pgvector ablegen, wird aus sauberem Text abgeleitet. PII erreicht den Vektorspeicher nie.
Warum wir ihn getrennt gebaut haben — Embeddings haben andere Physik als Chat-Completions: sie persistieren, sind abfragbar, sind tragend fuer RAG. Sie in traffic_logs zu mischen haette die Chat-Debugging-Ansicht geflutet und Speicherform-Kompromisse erzwungen (kein Sinn, 50KB-Float-Arrays oder den Eingabetext zu speichern, den wir gerade aus dem Vektorspeicher herausgehalten haben).
Zwei Modi — redact (Default) ersetzt PII mit Platzhaltern, sodass k-NN-Clustering weiterhin funktioniert; block (via x-grepture-on-pii: block) liefert 422 bei jeglicher PII-Erkennung, fuer regulierte Workloads.
Free Tier — Regex-Erkennung (E-Mail, Telefon, SSN, Kreditkarte, IP, Adresse, Geburtsdatum) ist kostenlos dabei. NER-Erkennung fuer Namen, Orte und Organisationen wird ab Pro darueber gelegt.
Wo es lebt — Dashboard unter Embeddings (parallel zum Traffic-Log). Docs unter /docs/embeddings. Use-Case-Beschreibung unter /use-cases#pii-redaction-for-embeddings.
Hintergrund dazu, warum Vektorspeicher ein dauerhaftes PII-Leck sind — und warum Embedding-Zeit-Schwaerzung mit stabilen Platzhaltern die richtige Form ist — gibt es in Ihr Vektorspeicher ist ein dauerhaftes PII-Leck.