Docs›Evals
Evals
Bewerten Sie Ihre KI-Ausgaben automatisch mit LLM-as-a-Judge-Evaluatoren. Vorgefertigte Vorlagen, benutzerdefinierte Prompts und kontinuierliche Auswertung Ihrer Traffic-Logs.
Uebersicht
Mit Grepture Evals koennen Sie die Qualitaet Ihrer KI-Ausgaben automatisch mit LLM-as-a-Judge-Bewertung scoren. Da Grepture bereits jeden Request und jede Response Ihrer App protokolliert, laufen Evaluierungen auf Ihrem bestehenden Traffic — ohne zusaetzliche Instrumentierung.
Evals ist in den Pro- und Business-Plaenen verfuegbar.
So funktioniert es
- Evaluator erstellen — waehlen Sie eine vorgefertigte Vorlage oder schreiben Sie einen eigenen Judge-Prompt
- Filter konfigurieren — begrenzen Sie den Evaluator optional auf bestimmte Modelle, Anbieter oder Prompts
- Sampling-Rate festlegen — bewerten Sie 100% des Traffics oder samplen Sie einen Prozentsatz fuer ein repraesentatives Signal
- Scores erscheinen automatisch — Grepture bewertet Ihre Traffic-Logs und speichert Scores kontinuierlich
Jeder Score beinhaltet:
- Einen numerischen Score von 0 bis 1
- Eine Begruendung, die den Score erklaert
Vorgefertigte Vorlagen
Grepture liefert sechs verwaltete Evaluator-Vorlagen:
| Vorlage | Was sie misst |
|---|---|
| Relevance | Wie gut die Antwort die Frage des Nutzers adressiert |
| Helpfulness | Wie praktisch und umsetzbar die Antwort ist |
| Toxicity | Sicherheits-Score — 1 = sicher, 0 = toxisch/schaedlich |
| Conciseness | Wie praegnant die Antwort ist, ohne Informationen zu verlieren |
| Instruction Following | Wie gut die Antwort den System-Instruktionen folgt |
| Hallucination | Fundiertheit — 1 = fundiert, 0 = erfundene Behauptungen |
Jede Vorlage enthaelt einen vollstaendigen Judge-Prompt. Sie koennen sie direkt verwenden oder den Prompt an Ihren Anwendungsfall anpassen.
Benutzerdefinierte Evaluatoren
Fuer domainspezifische Qualitaetskriterien erstellen Sie einen benutzerdefinierten Evaluator mit eigenem Judge-Prompt. Ihr Prompt kann drei Template-Variablen verwenden:
{{input}}— die Nachricht des Nutzers (letzte User-Nachricht aus dem Request){{output}}— die Antwort der KI (Assistant-Nachricht aus der Response){{system}}— der System-Prompt (falls im Request vorhanden)
Der Judge-Prompt muss das Modell anweisen, JSON in diesem Format zurueckzugeben:
{"score": 0.85, "reasoning": "Die Antwort adressiert direkt..."}
Filter
Jeder Evaluator kann mit Filtern auf bestimmten Traffic eingeschraenkt werden:
- Modell — nur Logs eines bestimmten Modells bewerten (z.B.
gpt-4o) - Anbieter — nur Logs eines bestimmten Anbieters bewerten (z.B.
openai) - Prompt-ID — nur Logs eines bestimmten verwalteten Prompts bewerten
- Statuscode-Bereich — nur erfolgreiche Responses bewerten (z.B. 200-299)
Lassen Sie alle Filter leer, um den gesamten Traffic zu bewerten.
Sampling-Rate
Stellen Sie die Sampling-Rate von 1% bis 100% ein, um zu steuern, wie viele Logs bewertet werden. Bei 100% wird jeder passende Log gescored. Bei 10% wird ungefaehr 1 von 10 passenden Logs gescored. Niedrigere Sampling-Raten sind nuetzlich, wenn Sie nur ein repraesentatives Qualitaetssignal statt vollstaendiger Abdeckung benoetigen.
Scores anzeigen
Scores sind an drei Stellen sichtbar:
- Evals-Seite → Scores-Tab — chronologische Liste aller Scores mit Evaluator-Name, Score-Badge und Begruendung
- Traffic-Log-Detailansicht — jeder Log zeigt seine Bewertungs-Scores im rechten Panel
- Evals-Seite → Analytics-Tab — aggregierte Statistiken und Score-Trends ueber die Zeit
Score-Badges sind farbcodiert:
- Gruen (> 0.7) — gute Qualitaet
- Gelb (0.4–0.7) — Aufmerksamkeit noetig
- Rot (< 0.4) — schlechte Qualitaet
Analytics
Der Evals-Analytics-Tab zeigt:
- Durchschnittlicher Score ueber alle Evaluatoren
- Gesamte Evaluierungen verarbeitet
- Aufschluesselung pro Evaluator mit Durchschnitts-Scores und Eval-Anzahlen
- Score-Trend-Diagramm — taeglicher Durchschnitts-Score pro Evaluator ueber die Zeit
Nutzen Sie die Analytics, um Qualitaetstrends zu verfolgen, Regressionen zu erkennen und Evaluatoren zu vergleichen.
A/B-Testing-Integration
Evals treiben den Qualitaetsvergleich in Prompt-A/B-Experimenten an. Wenn Sie ein Experiment fuer einen Prompt starten, erstellt Grepture automatisch einen Relevance-Evaluator, der auf diesen Prompt gefiltert ist, mit 100% Sampling. Waehrend der Traffic zwischen Prompt-Versionen aufgeteilt wird, sammelt jede Version ihre eigenen Eval-Scores.
Das Experiment-Ergebnis-Panel zeigt Eval-Scores pro Version, damit Sie die Version waehlen koennen, die die besten Ausgaben liefert — nicht nur die schnellste oder guenstigste.
Sie koennen auch zusaetzliche Evaluatoren (Helpfulness, Toxicity, benutzerdefiniert) hinzufuegen, die auf denselben Prompt gefiltert sind, fuer einen mehrdimensionalen Qualitaetsvergleich. Siehe die Prompt-Management-Dokumentation fuer alle Details zu Experimenten.