Mit Datasets koennen Sie echte Produktions-Interaktionen erfassen und als Evaluierungs-Test-Suites verwenden. Datasets lassen sich auf drei Arten erstellen: manuell kuratieren, direkt aus Traffic-Logs importieren oder Auto-Collection-Rules einrichten, die passende Requests nach Modell, Provider, Evaluator-Score oder Inhaltsmuster automatisch erfassen.
Sobald ein Dataset vorliegt, koennen Sie Experiments darauf ausfuehren. Waehlen Sie eine Prompt-Version, ein Modell und Ihre Evaluatoren — Grepture fuehrt jedes Item aus und bewertet die Ausgaben mit LLM-Judges. Vergleichen Sie Experiments nebeneinander, um genau zu sehen, welche Items sich verbessert oder verschlechtert haben, wenn Sie einen Prompt aendern.
Der komplette Workflow: Edge Cases aus der Produktion erfassen, Dataset aufbauen, Aenderungen testen, mit Zuversicht deployen.