Kurzfassung
Langfuse ist eine Open-Source-LLM-Engineering-Plattform fuer Tracing, Evals, Prompt-Management und Datasets. Sie beobachtet Ihre KI-Aufrufe ueber SDK-Instrumentierung — sie sieht alles, aber beruehrt nicht die Daten, die an Anbieter fliessen.
Grepture ist ein Open-Source-KI-Gateway, das auf dem Hot Path zwischen Ihrer App und LLM-Anbietern sitzt. Es kann aktiv Anfragen abfangen, PII schwaerzen, Bedrohungen blockieren und jede Anfrage protokollieren — und bietet gleichzeitig einen reinen Trace-Modus fuer leichtgewichtige Observability.
Der Kernunterschied: Langfuse beobachtet. Grepture beobachtet und handelt.
Auf einen Blick
| Grepture | Langfuse | |
|---|---|---|
| Architektur | API-Gateway (Proxy) + Trace-Modus | SDK-basiertes Tracing (nur Observability) |
| Auf dem Hot Path | Ja — faengt Anfragen ab und modifiziert sie | Nein — protokolliert asynchron im Nachhinein |
| PII-Schwaerzung | Inline, bevor Daten das LLM erreichen | Nachtraegliches Masking nur in Traces |
| Reversible Schwaerzung | Natives Mask-and-Restore | Nicht verfuegbar |
| Prompt-Injection-Erkennung | Ja (Business-Plan) | Nicht verfuegbar |
| Secret-Scanning | Integriert | Nicht verfuegbar |
| Observability & Tracing | Ja (Proxy-Modus + Trace-Modus) | Ja (Kernprodukt) |
| Prompt-Management | Ja | Ja |
| LLM-Evals | LLM-as-a-Judge | LLM-as-a-Judge + menschliche Annotation |
| Datasets & Experimente | Ja (regelbasierte Auto-Erstellung) | Ja (manuell + CSV + Traces) |
| Framework-Integrationen | SDK + jeder HTTP-Client | 50+ Framework-Integrationen |
| Self-Hosting | Einfach (einzelne Binary) | Komplex (PostgreSQL + ClickHouse + Redis + S3) |
| Preise | Kostenloser Tarif, dann ab €49/Monat | Kostenloser Tarif, dann ab $29/Monat |
| Open Source | Ja | Ja (MIT) |
Architektur: Gateway vs. Tracing-SDK
Das ist der grundlegende Unterschied — und er praegt alles Weitere.
Langfuse ist eine Tracing-Plattform. Sie instrumentieren Ihren Code mit deren SDK (oder einer von 50+ Framework-Integrationen), und es sendet Trace-Daten asynchron an Langfuses Backend. Ihre LLM-Aufrufe fliessen direkt von Ihrer App zum Anbieter. Langfuse beruehrt niemals die eigentliche Anfrage oder Antwort — es erhaelt eine Kopie zur Analyse.
import { Langfuse } from "langfuse";
import OpenAI from "openai";
const langfuse = new Langfuse();
const openai = new OpenAI();
const trace = langfuse.trace({ name: "chat" });
const generation = trace.generation({ name: "completion", input: messages });
const result = await openai.chat.completions.create({ model: "gpt-4o", messages });
// Daten fliessen direkt zu OpenAI — Langfuse erhaelt eine Kopie
generation.end({ output: result });
Grepture ist ein Gateway. Im Proxy-Modus fliesst jede Anfrage durch Grepture auf dem Weg zum LLM-Anbieter. Das bedeutet, Grepture kann Anfragen scannen, schwaerzen, blockieren und transformieren, bevor sie das Modell erreichen — und geschwaerzte Werte in der Antwort auf dem Rueckweg wiederherstellen.
import OpenAI from "openai";
import { clientOptions } from "@grepture/sdk";
const openai = new OpenAI(clientOptions());
// Jede Anfrage fliesst jetzt durch Grepture — gescannt, geschwaerzt, protokolliert
const result = await openai.chat.completions.create({ model: "gpt-4o", messages });
Was das in der Praxis bedeutet: Langfuse kann Ihnen sagen, dass ein Nutzer letzten Dienstag seine Sozialversicherungsnummer an GPT-4 gesendet hat. Grepture haette diese Nummer abgefangen und durch einen Token ersetzt, bevor sie jemals OpenAI erreicht haette — und sie in der Antwort wiederhergestellt, damit Ihre App weiterhin funktioniert.
Trace-Modus: Observability ohne Proxy-Hop
Nicht jedes Team braucht von Anfang an Inline-Datenschutz. Manche wollen zuerst Observability.
Greptures Trace-Modus funktioniert aehnlich wie Langfuse — er erfasst Anfrage- und Antwortdaten fuer das Dashboard, ohne den Traffic durch den Proxy zu leiten. Null zusaetzliche Latenz, dieselben Tracing- und Cost-Tracking-Features.
Der Unterschied ist, dass Trace-Modus und Proxy-Modus dasselbe Dashboard, dieselbe Eval-Pipeline und dasselbe Prompt-Management-System teilen. Wenn Sie bereit sind, PII-Schwaerzung oder Prompt-Injection-Erkennung hinzuzufuegen, wechseln Sie den Modus — keine Migration, kein neues Tool, kein zweites Dashboard.
Mit Langfuse bedeutet das Hinzufuegen einer Proxy-Schicht, ein separates Tool einzufuehren (typischerweise LiteLLM), ein zweites System zu verwalten und die Daten zusammenzufuehren.
Observability und Tracing
Beide Tools bieten Observability, aber mit unterschiedlicher Tiefe und Fokus.
Langfuse hat das reifere Tracing-Produkt. Verschachtelte Observation-Baeume zeigen den vollstaendigen Request-Flow — inklusive Tool-Aufrufe, Retrieval-Schritte und Agent-Ketten. Session-Tracking gruppiert Multi-Turn-Konversationen. User-Tracking verbindet Traces mit bestimmten Nutzern. Ihr Dashboard zeigt Latenz-, Kosten- und Qualitaetsmetriken. Die Breite der Framework-Integrationen (LangChain, LlamaIndex, Vercel AI SDK und Dutzende mehr) bedeutet, dass Sie fast jeden Stack mit minimalem Aufwand instrumentieren koennen.
Grepture bietet Volltextsuche ueber alle Prompts und Antworten, Wasserfall-Timelines fuer mehrstufige Agent-Traces, Request-Replay und Vorher/Nachher-Diff-Ansichten, die genau zeigen, was geschwaerzt wurde. Das Tracing ist eng mit der Sicherheitsschicht integriert — Sie sehen nicht nur, was gesendet wurde, sondern was dabei abgefangen, blockiert oder geschwaerzt wurde.
Fazit: Wenn Ihr primaerer Bedarf tiefes Tracing ueber komplexe Agent-Workflows mit vielen Framework-Integrationen ist, hat Langfuse den Vorteil. Wenn Sie Observability wollen, die mit aktivem Datenschutz verbunden ist, bietet Grepture beides in einer Ansicht.
PII-Schwaerzung und Datenschutz
Hier divergieren die Architekturen am staerksten.
Grepture schwaerzt PII inline — bevor Daten den LLM-Anbieter erreichen. Der kostenlose Tarif umfasst 50+ Regex-Muster fuer strukturierte PII (E-Mails, Telefonnummern, Kreditkarten, Sozialversicherungsnummern). Der Pro-Plan fuegt KI-gestuetzte Erkennung fuer Namen, Organisationen und Adressen hinzu. Der Business-Plan beinhaltet Prompt-Injection-Erkennung, Toxizitaets-Scanning und Data-Loss-Prevention.
Mask-and-Restore ist ein Kernfeature: Sarah Chen wird auf dem Weg hinaus zu [PERSON_a3f2], das Modell verarbeitet bereinigten Text, und Grepture stellt das Original auf dem Rueckweg wieder her. Ihre App erhaelt vollstaendige, personalisierte Antworten. Das Modell sieht niemals echte PII.
Langfuse bietet Data-Masking — Client-seitig (Felder vor dem Senden an Langfuse entfernen) und Server-seitig (Enterprise-Tarif, Daten in gespeicherten Traces maskieren). Das dient dem Schutz von Daten in Ihrer Observability-Plattform, nicht der Verhinderung, dass Daten das LLM erreichen. Zum Zeitpunkt, an dem Langfuse den Trace sieht, wurde die PII bereits an OpenAI, Anthropic oder den jeweiligen Anbieter gesendet.
Fazit: Das sind keine konkurrierenden Features. Langfuse maskiert Daten in Traces. Grepture verhindert, dass PII das Modell ueberhaupt erst erreicht. Wenn regulatorische Compliance oder Datenschutz Prioritaet hat, loest ein Tracing-Tool allein das Problem nicht.
Prompt-Management
Beide Tools bieten Prompt-Management mit aehnlichen Kernfaehigkeiten und einigen Unterschieden im Workflow.
Langfuse hat ein ausgereiftes Prompt-Management-System. Text- und Chat-Prompt-Typen, {{variable}}-Templates, Versionshistorie und Label-basiertes Deployment ("production", "staging"). Sie koennen Performance-Metriken ueber Versionen vergleichen und Prompt-Experimente gegen Datasets ohne Code ausfuehren. Der LLM-Playground erlaubt interaktives Testen von Prompts.
Grepture verfolgt einen API-first-Ansatz. Stabile Slugs, automatische Versionierung mit vollstaendiger Historie, {{variable}}-Templates mit Typ-Validierung und Standardwerten, und Runtime-Abruf ueber SDK oder REST. A/B-Experimente mit gewichteter Variantenverteilung ermoeglichen schrittweises Ausrollen von Prompt-Aenderungen. Sie koennen Experimente mit Evaluatoren ausfuehren, um Prompt-Versionen nebeneinander zu vergleichen — und sehen, wie eine Aenderung die Qualitaets-Scores beeinflusst, bevor Sie voll umstellen. Das Dashboard bietet eine Diff-Ansicht zwischen Versionen. Prompt-Updates erfordern keine Redeployments.
Fazit: Beide beherrschen den Kern-Workflow gut. Langfuse hat einen Playground fuer interaktives Testen. Greptures Evaluator-gestuetzte Experimente und gewichtetes A/B-Testing machen es einfach, die Auswirkung von Prompt-Aenderungen vor dem vollstaendigen Rollout zu messen.
Evals
Beide Tools unterstuetzen LLM-as-a-Judge-Evaluation, aber Langfuse geht bei der Evaluationsflexibilitaet weiter.
Langfuse bietet LLM-as-a-Judge, menschliche Annotation mit konfigurierbaren Queues, benutzerdefinierte Evaluations-Scores (numerisch, boolesch, kategorisch) und externe Evaluations-Pipelines ueber die API. Sie koennen auf Trace-Ebene oder auf einzelnen Observations evaluieren. Der Annotation-Queue-Workflow ist gut gestaltet fuer Teams, die menschliche Ueberpruefung neben automatisierter Bewertung benoetigen.
Grepture bietet LLM-as-a-Judge mit sechs vorgefertigten Templates (Relevanz, Hilfreichkeit, Toxizitaet, Praegnanz, Instruction-Following, Halluzination), benutzerdefinierten Judge-Prompts, konfigurierbarem Sampling und Qualitaets-Badges auf Traffic-Logs. Evals laufen im Hintergrund ohne Auswirkung auf die Proxy-Latenz. A/B-Testing-Integrationen erstellen automatisch Evaluatoren fuer Prompt-Experimente.
Fazit: Wenn Sie menschliche Annotations-Workflows oder komplexe Evaluations-Pipelines benoetigen, ist Langfuse die staerkere Wahl. Wenn Sie automatisiertes Quality-Scoring auf Live-Traffic mit minimalem Setup wollen, ist Greptures Ansatz einfacher zu starten.
Datasets und Experimente
Langfuse hat ein deutlich weiter entwickeltes Datasets-Feature. Sie koennen Datasets aus Produktions-Traces, CSV-Uploads oder manueller Eingabe erstellen, mit JSON Schema validieren, in Ordnern organisieren, versionieren und Experimente ausfuehren, die Model- oder Prompt-Performance ueber Dataset-Versionen vergleichen. Der Prompt-Experiment-Runner funktioniert ohne eigenen Code.
Grepture unterstuetzt Datasets mit einem einzigartigen Ansatz: regelbasierte automatische Dataset-Erstellung. Sie definieren Regeln (z. B. "alle Anfragen, die eine PII-Erkennung ausgeloest haben" oder "alle Anfragen mit einem Toxizitaets-Score ueber 0,8"), und passender Traffic wird automatisch einem Dataset hinzugefuegt. Sie koennen Datasets auch manuell erstellen. Datasets integrieren sich in den Eval- und Prompt-Experiment-Workflow — fuehren Sie Evaluatoren gegen ein Dataset aus, um Prompt-Versionen oder Modellaenderungen zu vergleichen.
Fazit: Unterschiedliche Staerken. Langfuse bietet mehr Flexibilitaet fuer manuelle Dataset-Kuratierung (CSV-Uploads, JSON-Schema-Validierung, Ordnerorganisation). Greptures automatische regelbasierte Erstellung ist leistungsstark fuer Teams, die Datasets aus Live-Traffic-Mustern ohne manuellen Aufwand erstellen wollen.
Cost-Tracking
Beide Tools tracken Token-Nutzung und schaetzen Kosten.
Grepture bietet Token-Aufschluesselung pro Anfrage, Kostenschaetzung pro Modell, Kostenzuordnung nach Endpoint und Modell, Ausgabentrends und exportierbare Kostenberichte. Dies funktioniert sowohl im Proxy- als auch im Trace-Modus.
Langfuse berechnet Kosten automatisch aus der Token-Nutzung mit Unterstuetzung fuer benutzerdefinierte Modellpreise. Dashboard-Metriken zeigen Kostentrends ueber die Zeit. Cost-Tracking ist in ihr Tracing-System integriert.
Fazit: Vergleichbar. Beide bieten die noetige Transparenz. Greptures Export-Funktion ist nuetzlich fuer Finance-Reporting.
Integration und Setup
Langfuse hat das breitere Integrations-Oekosystem. Python- und JavaScript-SDKs, OpenTelemetry-Unterstuetzung fuer andere Sprachen und 50+ Framework-spezifische Integrationen (LangChain, LlamaIndex, Vercel AI SDK, CrewAI, Haystack und viele mehr). Wenn Sie ein populaeres LLM-Framework nutzen, gibt es wahrscheinlich eine Langfuse-Integration.
Grepture verfolgt einen anderen Ansatz. Im Proxy-Modus funktioniert es mit jeder Sprache und jedem Framework, das HTTP-Aufrufe macht — kein SDK noetig, keine Framework-spezifische Instrumentierung. Das @grepture/sdk bietet TypeScript-first-Komfort, und clientOptions() funktioniert als Drop-in mit OpenAI- und Anthropic-SDKs. Spezielle Integrationen existieren fuer Claude Code und Cursor.
Fazit: Wenn Sie tiefes Tracing in einem bestimmten Framework (LangChain, LlamaIndex) benoetigen, sind Langfuses native Integrationen wertvoll. Wenn Sie eine sprachunabhaengige Loesung wollen, die auf HTTP-Ebene funktioniert, erfordert Greptures Proxy-Ansatz weniger Framework-spezifisches Setup.
Self-Hosting
Beide Tools sind Open Source und self-hostbar, aber die operative Komplexitaet ist sehr unterschiedlich.
Langfuse erfordert PostgreSQL, ClickHouse (OLAP-Analytik), Redis/Valkey (Caching und Queues) und S3-kompatiblen Blob-Storage. Das empfohlene Produktions-Setup nutzt Kubernetes mit Helm-Charts. Enterprise-Features (RBAC, Audit-Logs, Server-seitiges Masking) erfordern einen kostenpflichtigen Lizenzschluessel.
Grepture ist ein einzelner Bun-Server mit einem Supabase-(Postgres-)Backend. Einfacher zu deployen, weniger bewegliche Teile.
Fazit: Grepture ist einfacher selbst zu hosten. Langfuses ClickHouse-basierte Architektur skaliert besser fuer sehr hohe Trace-Volumina, bringt aber mehr operativen Overhead mit.
Preise
Beide Tools bieten kostenlose Tarife und nutzungsbasierte Bezahlplaene. Langfuse startet bei $29/Monat (Core) und skaliert bis $199/Monat (Pro) und $2.499/Monat (Enterprise). Grepture startet bei €49/Monat (Pro) und skaliert bis €299/Monat (Business).
Der entscheidende Unterschied ist nicht der Preis — sondern was enthalten ist. Langfuses Preise decken Observability, Prompt-Management und Evals ab. Greptures Preise decken all das ab plus die Gateway-Schicht, PII-Schwaerzung, Secret-Scanning und Sicherheits-Features. Mit Langfuse bedeutet das Hinzufuegen eines Proxys und Datenschutzes, fuer zusaetzliche Tools obendrauf zu bezahlen.
Fuer wen Langfuse am besten geeignet ist
- Teams, die tiefes Tracing ueber komplexe Agent-Workflows mit verschachtelten Observation-Baeumen benoetigen
- Teams, die intensiv spezifische LLM-Frameworks (LangChain, LlamaIndex) nutzen und von nativen Integrationen profitieren
- Teams, die menschliche Annotations-Workflows fuer Evaluation benoetigen
- Teams, die Offline-Dataset-Management und Experiment-Runner brauchen
- Teams, die bereits LiteLLM als Proxy nutzen und ein dediziertes Tracing-Backend wollen
- Organisationen, die eine grosse Open-Source-Community (25K+ GitHub-Stars) und ein breites Oekosystem schaetzen
Fuer wen Grepture am besten geeignet ist
- Teams, die aktiven Datenschutz brauchen — PII-Schwaerzung, Secret-Scanning, Prompt-Injection-Blocking — nicht nur Beobachtung
- Teams, die Observability und Sicherheit in einem Tool wollen, statt Langfuse + LiteLLM + ein PII-Tool zusammenzustueckeln
- Teams, die die Flexibilitaet wollen, mit dem Trace-Modus zu starten und auf den Proxy-Modus aufzuruesten, ohne das Tool zu wechseln
- Organisationen mit Compliance-Anforderungen (DSGVO, EU AI Act), die PII schwaerzen muessen, bevor sie das LLM erreicht
- Teams, die einfacheres Self-Hosting wollen, ohne ClickHouse, Redis und Blob-Storage zu verwalten
- Teams, die mehrere KI-Anbieter nutzen und ein einzelnes Gateway mit eingebauter Observability wollen
FAQ
Ist Langfuse kostenlos?
Langfuse ist Open Source unter der MIT-Lizenz. Der Cloud-Hobby-Tarif ist kostenlos mit 50.000 Events pro Monat und 30-Tagen-Aufbewahrung. Bezahlte Plaene starten bei $29/Monat. Self-Hosting ist kostenlos, erfordert aber PostgreSQL, ClickHouse, Redis und Blob-Storage.
Unterstuetzt Grepture Tracing ohne Proxy?
Ja. Greptures Trace-Modus erfasst Observability-Daten, ohne den Traffic durch den Proxy zu leiten — null zusaetzliche Latenz. Sie erhalten dasselbe Dashboard, Cost-Tracking und Eval-Features, mit der Option, bei Bedarf in den Proxy-Modus zu wechseln.
Kann Langfuse PII aus Prompts schwaerzen?
Langfuse bietet Client-seitiges und Server-seitiges Data-Masking (Server-seitig erfordert Enterprise). Diese maskieren Felder in Ihren Traces — sie verhindern nicht, dass PII den LLM-Anbieter erreicht. Fuer Inline-Schwaerzung benoetigen Sie eine Proxy-Schicht.
Hat Langfuse einen Proxy oder ein Gateway?
Nein. Langfuse ist eine Tracing- und Observability-Plattform. Fuer Proxy-Funktionalitaet empfehlen sie die Integration mit LiteLLM. Grepture kombiniert sowohl das Gateway als auch die Observability-Schicht in einem Tool.
Kann ich Grepture und Langfuse zusammen verwenden?
Sie koennen, aber die meisten Teams werden es nicht brauchen. Grepture deckt Tracing, Evals, Prompt-Management und Cost-Tracking neben seinen Gateway-Features ab. Ein Tool zu nutzen ist einfacher als zwei zu betreiben.