Docs›Evals

Evals

Bewerten Sie Ihre KI-Ausgaben automatisch mit LLM-as-a-Judge-Evaluatoren. Vorgefertigte Vorlagen, benutzerdefinierte Prompts und kontinuierliche Auswertung Ihrer Traffic-Logs.

Uebersicht

Mit Grepture Evals koennen Sie die Qualitaet Ihrer KI-Ausgaben automatisch mit LLM-as-a-Judge-Bewertung scoren. Da Grepture bereits jeden Request und jede Response Ihrer App protokolliert, laufen Evaluierungen auf Ihrem bestehenden Traffic — ohne zusaetzliche Instrumentierung.

Evals ist in den Pro- und Business-Plaenen verfuegbar.

So funktioniert es

Evaluator erstellen — waehlen Sie eine vorgefertigte Vorlage oder schreiben Sie einen eigenen Judge-Prompt
Filter konfigurieren — begrenzen Sie den Evaluator optional auf bestimmte Modelle, Anbieter oder Prompts
Sampling-Rate festlegen — bewerten Sie 100% des Traffics oder samplen Sie einen Prozentsatz fuer ein repraesentatives Signal
Scores erscheinen automatisch — Grepture bewertet Ihre Traffic-Logs und speichert Scores kontinuierlich

Jeder Score beinhaltet:

Einen numerischen Score von 0 bis 1
Eine Begruendung, die den Score erklaert

Vorgefertigte Vorlagen

Grepture liefert sechs verwaltete Evaluator-Vorlagen:

Vorlage	Was sie misst
Relevance	Wie gut die Antwort die Frage des Nutzers adressiert
Helpfulness	Wie praktisch und umsetzbar die Antwort ist
Toxicity	Sicherheits-Score — 1 = sicher, 0 = toxisch/schaedlich
Conciseness	Wie praegnant die Antwort ist, ohne Informationen zu verlieren
Instruction Following	Wie gut die Antwort den System-Instruktionen folgt
Hallucination	Fundiertheit — 1 = fundiert, 0 = erfundene Behauptungen

Jede Vorlage enthaelt einen vollstaendigen Judge-Prompt. Sie koennen sie direkt verwenden oder den Prompt an Ihren Anwendungsfall anpassen.

Benutzerdefinierte Evaluatoren

Fuer domainspezifische Qualitaetskriterien erstellen Sie einen benutzerdefinierten Evaluator mit eigenem Judge-Prompt. Ihr Prompt kann drei Template-Variablen verwenden:

{{input}} — die Nachricht des Nutzers (letzte User-Nachricht aus dem Request)
{{output}} — die Antwort der KI (Assistant-Nachricht aus der Response)
{{system}} — der System-Prompt (falls im Request vorhanden)

Der Judge-Prompt muss das Modell anweisen, JSON in diesem Format zurueckzugeben:

{"score": 0.85, "reasoning": "Die Antwort adressiert direkt..."}

Filter

Jeder Evaluator kann mit Filtern auf bestimmten Traffic eingeschraenkt werden:

Modell — nur Logs eines bestimmten Modells bewerten (z.B. gpt-4o)
Anbieter — nur Logs eines bestimmten Anbieters bewerten (z.B. openai)
Prompt-ID — nur Logs eines bestimmten verwalteten Prompts bewerten
Statuscode-Bereich — nur erfolgreiche Responses bewerten (z.B. 200-299)

Lassen Sie alle Filter leer, um den gesamten Traffic zu bewerten.

Sampling-Rate

Stellen Sie die Sampling-Rate von 1% bis 100% ein, um zu steuern, wie viele Logs bewertet werden. Bei 100% wird jeder passende Log gescored. Bei 10% wird ungefaehr 1 von 10 passenden Logs gescored. Niedrigere Sampling-Raten sind nuetzlich, wenn Sie nur ein repraesentatives Qualitaetssignal statt vollstaendiger Abdeckung benoetigen.

Scores anzeigen

Scores sind an drei Stellen sichtbar:

Evals-Seite → Scores-Tab — chronologische Liste aller Scores mit Evaluator-Name, Score-Badge und Begruendung
Traffic-Log-Detailansicht — jeder Log zeigt seine Bewertungs-Scores im rechten Panel
Evals-Seite → Analytics-Tab — aggregierte Statistiken und Score-Trends ueber die Zeit

Score-Badges sind farbcodiert:

Gruen (> 0.7) — gute Qualitaet
Gelb (0.4–0.7) — Aufmerksamkeit noetig
Rot (< 0.4) — schlechte Qualitaet

Analytics

Der Evals-Analytics-Tab zeigt:

Durchschnittlicher Score ueber alle Evaluatoren
Gesamte Evaluierungen verarbeitet
Aufschluesselung pro Evaluator mit Durchschnitts-Scores und Eval-Anzahlen
Score-Trend-Diagramm — taeglicher Durchschnitts-Score pro Evaluator ueber die Zeit

Nutzen Sie die Analytics, um Qualitaetstrends zu verfolgen, Regressionen zu erkennen und Evaluatoren zu vergleichen.

A/B-Testing-Integration

Evals treiben den Qualitaetsvergleich in Prompt-A/B-Experimenten an. Wenn Sie ein Experiment fuer einen Prompt starten, erstellt Grepture automatisch einen Relevance-Evaluator, der auf diesen Prompt gefiltert ist, mit 100% Sampling. Waehrend der Traffic zwischen Prompt-Versionen aufgeteilt wird, sammelt jede Version ihre eigenen Eval-Scores.

Das Experiment-Ergebnis-Panel zeigt Eval-Scores pro Version, damit Sie die Version waehlen koennen, die die besten Ausgaben liefert — nicht nur die schnellste oder guenstigste.

Sie koennen auch zusaetzliche Evaluatoren (Helpfulness, Toxicity, benutzerdefiniert) hinzufuegen, die auf denselben Prompt gefiltert sind, fuer einen mehrdimensionalen Qualitaetsvergleich. Siehe die Prompt-Management-Dokumentation fuer alle Details zu Experimenten.