Das Problem: AI-Ausgaben sind unsichtbar
Sie rufen OpenAI fuer Chat auf, Anthropic fuer Code-Generierung und Google fuer Embeddings. Jeder Anbieter hat sein eigenes Abrechnungs-Dashboard, seine eigene Token-Zaehlung und sein eigenes Preismodell. Wenn die monatliche Rechnung eintrifft, haben Sie keine Ahnung, welches Feature, welcher Endpoint oder welches Modell fuer die Kosten verantwortlich ist.
// Three providers, three billing dashboards, zero unified view
await openai.chat.completions.create({ model: "gpt-4o", messages });
await anthropic.messages.create({ model: "claude-sonnet-4-5-20250514", messages });
await google.generateContent({ model: "gemini-2.0-flash", contents });
Anbieter-Dashboards zeigen aggregierte Ausgaben, nicht Kosten pro Anfrage. Sie koennen grundlegende Fragen nicht beantworten: Wie viel kostet das Zusammenfassungs-Feature pro Aufruf? Welches Modell ist fuer diese Aufgabe am guenstigsten? Wie viel hat uns AI diese Woche gekostet?
Die Loesung: Kostenverfolgung pro Anfrage mit Grepture
Grepture ist ein AI-Gateway, das zwischen Ihrer Anwendung und jedem LLM-Anbieter sitzt. Jede Anfrage, die durch den Proxy fliesst, erhaelt automatische Token-Zaehlung und Kostenattribution — pro Anfrage, pro Modell, pro Endpoint.
Kein Billing-API-Polling. Kein eigener Logging-Code. Leiten Sie Ihren Traffic durch den Proxy und die Kostenverfolgung ist sofort aktiv.
Einrichtung in 3 Minuten
1. SDK installieren
npm install @grepture/sdk
2. API Key erhalten
Registrieren Sie sich unter grepture.com/en/pricing — der kostenlose Plan umfasst 1.000 Anfragen/Monat. Kopieren Sie Ihren API Key aus dem Dashboard.
3. AI-Traffic durch den Proxy leiten
OpenAI
import OpenAI from "openai";
import { Grepture } from "@grepture/sdk";
const grepture = new Grepture({
apiKey: process.env.GREPTURE_API_KEY!,
proxyUrl: "https://proxy.grepture.com",
});
const openai = new OpenAI({
...grepture.clientOptions({
apiKey: process.env.OPENAI_API_KEY!,
baseURL: "https://api.openai.com/v1",
}),
});
// Every request now has cost tracking
const response = await openai.chat.completions.create({
model: "gpt-4o",
messages: [{ role: "user", content: "Summarize this document..." }],
});
Anthropic
Das SDK von Anthropic ist OpenAI-kompatibel, wenn Sie die Messages-API ueber den Proxy nutzen:
const anthropic = new OpenAI({
...grepture.clientOptions({
apiKey: process.env.ANTHROPIC_API_KEY!,
baseURL: "https://api.anthropic.com/v1",
}),
});
Google Gemini
const gemini = new OpenAI({
...grepture.clientOptions({
apiKey: process.env.GEMINI_API_KEY!,
baseURL: "https://generativelanguage.googleapis.com/v1beta/openai",
}),
});
Azure OpenAI
const azure = new OpenAI({
...grepture.clientOptions({
apiKey: process.env.AZURE_OPENAI_API_KEY!,
baseURL: "https://your-resource.openai.azure.com/openai/deployments/your-deployment",
}),
});
Beliebige HTTP-API
Fuer Anbieter ohne OpenAI-kompatibles SDK verwenden Sie grepture.fetch():
const response = await grepture.fetch("https://api.example.com/v1/generate", {
method: "POST",
headers: {
"Content-Type": "application/json",
Authorization: `Bearer ${process.env.PROVIDER_API_KEY}`,
},
body: JSON.stringify({ prompt: "..." }),
});
Was Sie erhalten
Sobald der Traffic durch den Proxy fliesst, zeigt das Dashboard:
- Token-Zaehlung pro Anfrage — Input-Tokens, Output-Tokens und Gesamtzahl fuer jeden Aufruf
- Kosten pro Anfrage — berechnet anhand der modellspezifischen Preise jedes Anbieters
- Kosten nach Modell — sehen Sie, welche Modelle das meiste Budget verbrauchen
- Kosten nach Endpoint — ordnen Sie Ausgaben bestimmten Features oder Diensten zu
- Ausgabentrends im Zeitverlauf — taegliche, woechentliche und monatliche Ansichten
- Filterbares Traffic-Log — Suche nach Modell, Kostenbereich, Status oder Zeitfenster
Kosten mehrstufiger Workflows verfolgen
AI-Agenten und RAG-Pipelines fuehren mehrere LLM-Aufrufe pro Benutzeranfrage durch. Verwenden Sie Conversation-Tracing, um zusammengehoerige Aufrufe zu gruppieren und die Gesamtkosten eines Workflows zu sehen:
const grepture = new Grepture({
apiKey: process.env.GREPTURE_API_KEY!,
proxyUrl: "https://proxy.grepture.com",
traceId: `workflow-${crypto.randomUUID().slice(0, 12)}`,
});
// All calls under this trace are grouped in the dashboard
const plan = await openai.chat.completions.create({
model: "gpt-4o",
messages: [{ role: "user", content: "Plan the steps to..." }],
});
const result = await openai.chat.completions.create({
model: "gpt-4o-mini",
messages: [{ role: "user", content: `Execute step 1: ${plan.choices[0].message.content}` }],
});
Im Traces-Tab des Dashboards sehen Sie beide Anfragen gruppiert mit kombinierten Kosten, Token-Zaehlung und schrittweiser Zeitleiste. So erfahren Sie genau, wie viel ein einzelner Benutzer-Workflow von Anfang bis Ende kostet.
Tipps zur Kostenoptimierung
Sobald Sie Transparenz haben, koennen Sie handeln:
- Modelle richtig dimensionieren — wenn
gpt-4oundgpt-4o-minifuer eine Aufgabe aehnliche Qualitaet liefern, wechseln Sie zu Mini. Das Dashboard zeigt Ihnen, wo dieser Kompromiss sinnvoll ist. - Ausreisser-Endpoints erkennen — ein Feature, das 10x mehr Aufrufe als erwartet macht, faellt sofort in den Kosten-pro-Endpoint-Ansichten auf.
- Kosten pro Benutzeraktion verfolgen — verwenden Sie Trace-IDs, um Kosten benutzerbezogenen Features zuzuordnen, nicht nur API-Aufrufen.
- Anbieter vergleichen — leiten Sie dieselbe Aufgabe ueber verschiedene Anbieter und vergleichen Sie Kosten und Qualitaet im Traffic-Log.
Naechste Schritte
- Preise ansehen — kostenlos fuer bis zu 1.000 Anfragen/Monat
- SDK-Dokumentation lesen — vollstaendige Referenz fuer
clientOptions()undgrepture.fetch() - Observability einrichten — jeden AI-Request zusammen mit Kostendaten loggen und inspizieren