DocsEvals

Evals

Bewerten Sie Ihre KI-Ausgaben automatisch mit LLM-as-a-Judge-Evaluatoren. Vorgefertigte Vorlagen, benutzerdefinierte Prompts und kontinuierliche Auswertung Ihrer Traffic-Logs.

Uebersicht

Mit Grepture Evals koennen Sie die Qualitaet Ihrer KI-Ausgaben automatisch mit LLM-as-a-Judge-Bewertung scoren. Da Grepture bereits jeden Request und jede Response Ihrer App protokolliert, laufen Evaluierungen auf Ihrem bestehenden Traffic — ohne zusaetzliche Instrumentierung.

Evals ist in den Pro- und Business-Plaenen verfuegbar.

So funktioniert es

  1. Evaluator erstellen — waehlen Sie eine vorgefertigte Vorlage oder schreiben Sie einen eigenen Judge-Prompt
  2. Filter konfigurieren — begrenzen Sie den Evaluator optional auf bestimmte Modelle, Anbieter oder Prompts
  3. Sampling-Rate festlegen — bewerten Sie 100% des Traffics oder samplen Sie einen Prozentsatz fuer ein repraesentatives Signal
  4. Scores erscheinen automatisch — Grepture bewertet Ihre Traffic-Logs und speichert Scores kontinuierlich

Jeder Score beinhaltet:

  • Einen numerischen Score von 0 bis 1
  • Eine Begruendung, die den Score erklaert

Vorgefertigte Vorlagen

Grepture liefert sechs verwaltete Evaluator-Vorlagen:

VorlageWas sie misst
RelevanceWie gut die Antwort die Frage des Nutzers adressiert
HelpfulnessWie praktisch und umsetzbar die Antwort ist
ToxicitySicherheits-Score — 1 = sicher, 0 = toxisch/schaedlich
ConcisenessWie praegnant die Antwort ist, ohne Informationen zu verlieren
Instruction FollowingWie gut die Antwort den System-Instruktionen folgt
HallucinationFundiertheit — 1 = fundiert, 0 = erfundene Behauptungen

Jede Vorlage enthaelt einen vollstaendigen Judge-Prompt. Sie koennen sie direkt verwenden oder den Prompt an Ihren Anwendungsfall anpassen.

Benutzerdefinierte Evaluatoren

Fuer domainspezifische Qualitaetskriterien erstellen Sie einen benutzerdefinierten Evaluator mit eigenem Judge-Prompt. Ihr Prompt kann drei Template-Variablen verwenden:

  • {{input}} — die Nachricht des Nutzers (letzte User-Nachricht aus dem Request)
  • {{output}} — die Antwort der KI (Assistant-Nachricht aus der Response)
  • {{system}} — der System-Prompt (falls im Request vorhanden)

Der Judge-Prompt muss das Modell anweisen, JSON in diesem Format zurueckzugeben:

{"score": 0.85, "reasoning": "Die Antwort adressiert direkt..."}

Filter

Jeder Evaluator kann mit Filtern auf bestimmten Traffic eingeschraenkt werden:

  • Modell — nur Logs eines bestimmten Modells bewerten (z.B. gpt-4o)
  • Anbieter — nur Logs eines bestimmten Anbieters bewerten (z.B. openai)
  • Prompt-ID — nur Logs eines bestimmten verwalteten Prompts bewerten
  • Statuscode-Bereich — nur erfolgreiche Responses bewerten (z.B. 200-299)

Lassen Sie alle Filter leer, um den gesamten Traffic zu bewerten.

Sampling-Rate

Stellen Sie die Sampling-Rate von 1% bis 100% ein, um zu steuern, wie viele Logs bewertet werden. Bei 100% wird jeder passende Log gescored. Bei 10% wird ungefaehr 1 von 10 passenden Logs gescored. Niedrigere Sampling-Raten sind nuetzlich, wenn Sie nur ein repraesentatives Qualitaetssignal statt vollstaendiger Abdeckung benoetigen.

Scores anzeigen

Scores sind an drei Stellen sichtbar:

  1. Evals-Seite → Scores-Tab — chronologische Liste aller Scores mit Evaluator-Name, Score-Badge und Begruendung
  2. Traffic-Log-Detailansicht — jeder Log zeigt seine Bewertungs-Scores im rechten Panel
  3. Evals-Seite → Analytics-Tab — aggregierte Statistiken und Score-Trends ueber die Zeit

Score-Badges sind farbcodiert:

  • Gruen (> 0.7) — gute Qualitaet
  • Gelb (0.4–0.7) — Aufmerksamkeit noetig
  • Rot (< 0.4) — schlechte Qualitaet

Analytics

Der Evals-Analytics-Tab zeigt:

  • Durchschnittlicher Score ueber alle Evaluatoren
  • Gesamte Evaluierungen verarbeitet
  • Aufschluesselung pro Evaluator mit Durchschnitts-Scores und Eval-Anzahlen
  • Score-Trend-Diagramm — taeglicher Durchschnitts-Score pro Evaluator ueber die Zeit

Nutzen Sie die Analytics, um Qualitaetstrends zu verfolgen, Regressionen zu erkennen und Evaluatoren zu vergleichen.

A/B-Testing-Integration

Evals treiben den Qualitaetsvergleich in Prompt-A/B-Experimenten an. Wenn Sie ein Experiment fuer einen Prompt starten, erstellt Grepture automatisch einen Relevance-Evaluator, der auf diesen Prompt gefiltert ist, mit 100% Sampling. Waehrend der Traffic zwischen Prompt-Versionen aufgeteilt wird, sammelt jede Version ihre eigenen Eval-Scores.

Das Experiment-Ergebnis-Panel zeigt Eval-Scores pro Version, damit Sie die Version waehlen koennen, die die besten Ausgaben liefert — nicht nur die schnellste oder guenstigste.

Sie koennen auch zusaetzliche Evaluatoren (Helpfulness, Toxicity, benutzerdefiniert) hinzufuegen, die auf denselben Prompt gefiltert sind, fuer einen mehrdimensionalen Qualitaetsvergleich. Siehe die Prompt-Management-Dokumentation fuer alle Details zu Experimenten.