So verfolgen und kontrollieren Sie AI-API-Kosten ueber alle Anbieter hinweg
Erhalten Sie Kostenattribution pro Anfrage fuer OpenAI, Anthropic, Google und Azure. Sehen Sie, wohin Ihre Tokens fliessen, welche Modelle am meisten kosten und wo Sie optimieren koennen — mit einem einzigen Proxy.
Das Problem: AI-Ausgaben sind unsichtbar
Sie rufen OpenAI fuer Chat auf, Anthropic fuer Code-Generierung und Google fuer Embeddings. Jeder Anbieter hat sein eigenes Abrechnungs-Dashboard, seine eigene Token-Zaehlung und sein eigenes Preismodell. Wenn die monatliche Rechnung eintrifft, haben Sie keine Ahnung, welches Feature, welcher Endpoint oder welches Modell fuer die Kosten verantwortlich ist.
// Three providers, three billing dashboards, zero unified view
await openai.chat.completions.create({ model: "gpt-4o", messages });
await anthropic.messages.create({ model: "claude-sonnet-4-5-20250514", messages });
await google.generateContent({ model: "gemini-2.0-flash", contents });
Anbieter-Dashboards zeigen aggregierte Ausgaben, nicht Kosten pro Anfrage. Sie koennen grundlegende Fragen nicht beantworten: Wie viel kostet das Zusammenfassungs-Feature pro Aufruf? Welches Modell ist fuer diese Aufgabe am guenstigsten? Wie viel hat uns AI diese Woche gekostet?
Die Loesung: Kostenverfolgung pro Anfrage mit Grepture
Grepture ist ein AI-Gateway, das zwischen Ihrer Anwendung und jedem LLM-Anbieter sitzt. Jede Anfrage, die durch den Proxy fliesst, erhaelt automatische Token-Zaehlung und Kostenattribution — pro Anfrage, pro Modell, pro Endpoint.
Kein Billing-API-Polling. Kein eigener Logging-Code. Leiten Sie Ihren Traffic durch den Proxy und die Kostenverfolgung ist sofort aktiv.
Einrichtung in 3 Minuten
1. SDK installieren
npm install @grepture/sdk
2. API Key erhalten
Registrieren Sie sich unter grepture.com/en/pricing — der kostenlose Plan umfasst 1.000 Anfragen/Monat. Kopieren Sie Ihren API Key aus dem Dashboard.
3. AI-Traffic durch den Proxy leiten
OpenAI
import OpenAI from "openai";
import { Grepture } from "@grepture/sdk";
const grepture = new Grepture({
apiKey: process.env.GREPTURE_API_KEY!,
proxyUrl: "https://proxy.grepture.com",
});
const openai = new OpenAI({
...grepture.clientOptions({
apiKey: process.env.OPENAI_API_KEY!,
baseURL: "https://api.openai.com/v1",
}),
});
// Every request now has cost tracking
const response = await openai.chat.completions.create({
model: "gpt-4o",
messages: [{ role: "user", content: "Summarize this document..." }],
});
Anthropic
Das SDK von Anthropic ist OpenAI-kompatibel, wenn Sie die Messages-API ueber den Proxy nutzen:
const anthropic = new OpenAI({
...grepture.clientOptions({
apiKey: process.env.ANTHROPIC_API_KEY!,
baseURL: "https://api.anthropic.com/v1",
}),
});
Google Gemini
const gemini = new OpenAI({
...grepture.clientOptions({
apiKey: process.env.GEMINI_API_KEY!,
baseURL: "https://generativelanguage.googleapis.com/v1beta/openai",
}),
});
Azure OpenAI
const azure = new OpenAI({
...grepture.clientOptions({
apiKey: process.env.AZURE_OPENAI_API_KEY!,
baseURL: "https://your-resource.openai.azure.com/openai/deployments/your-deployment",
}),
});
Beliebige HTTP-API
Fuer Anbieter ohne OpenAI-kompatibles SDK verwenden Sie grepture.fetch():
const response = await grepture.fetch("https://api.example.com/v1/generate", {
method: "POST",
headers: {
"Content-Type": "application/json",
Authorization: `Bearer ${process.env.PROVIDER_API_KEY}`,
},
body: JSON.stringify({ prompt: "..." }),
});
Was Sie erhalten
Sobald der Traffic durch den Proxy fliesst, zeigt das Dashboard:
- Token-Zaehlung pro Anfrage — Input-Tokens, Output-Tokens und Gesamtzahl fuer jeden Aufruf
- Kosten pro Anfrage — berechnet anhand der modellspezifischen Preise jedes Anbieters
- Kosten nach Modell — sehen Sie, welche Modelle das meiste Budget verbrauchen
- Kosten nach Endpoint — ordnen Sie Ausgaben bestimmten Features oder Diensten zu
- Ausgabentrends im Zeitverlauf — taegliche, woechentliche und monatliche Ansichten
- Filterbares Traffic-Log — Suche nach Modell, Kostenbereich, Status oder Zeitfenster
Kosten mehrstufiger Workflows verfolgen
AI-Agenten und RAG-Pipelines fuehren mehrere LLM-Aufrufe pro Benutzeranfrage durch. Verwenden Sie Conversation-Tracing, um zusammengehoerige Aufrufe zu gruppieren und die Gesamtkosten eines Workflows zu sehen:
const grepture = new Grepture({
apiKey: process.env.GREPTURE_API_KEY!,
proxyUrl: "https://proxy.grepture.com",
traceId: `workflow-${crypto.randomUUID().slice(0, 12)}`,
});
// All calls under this trace are grouped in the dashboard
const plan = await openai.chat.completions.create({
model: "gpt-4o",
messages: [{ role: "user", content: "Plan the steps to..." }],
});
const result = await openai.chat.completions.create({
model: "gpt-4o-mini",
messages: [{ role: "user", content: `Execute step 1: ${plan.choices[0].message.content}` }],
});
Im Traces-Tab des Dashboards sehen Sie beide Anfragen gruppiert mit kombinierten Kosten, Token-Zaehlung und schrittweiser Zeitleiste. So erfahren Sie genau, wie viel ein einzelner Benutzer-Workflow von Anfang bis Ende kostet.
Tipps zur Kostenoptimierung
Sobald Sie Transparenz haben, koennen Sie handeln:
- Modelle richtig dimensionieren — wenn
gpt-4oundgpt-4o-minifuer eine Aufgabe aehnliche Qualitaet liefern, wechseln Sie zu Mini. Das Dashboard zeigt Ihnen, wo dieser Kompromiss sinnvoll ist. - Ausreisser-Endpoints erkennen — ein Feature, das 10x mehr Aufrufe als erwartet macht, faellt sofort in den Kosten-pro-Endpoint-Ansichten auf.
- Kosten pro Benutzeraktion verfolgen — verwenden Sie Trace-IDs, um Kosten benutzerbezogenen Features zuzuordnen, nicht nur API-Aufrufen.
- Anbieter vergleichen — leiten Sie dieselbe Aufgabe ueber verschiedene Anbieter und vergleichen Sie Kosten und Qualitaet im Traffic-Log.
Naechste Schritte
- Preise ansehen — kostenlos fuer bis zu 1.000 Anfragen/Monat
- SDK-Dokumentation lesen — vollstaendige Referenz fuer
clientOptions()undgrepture.fetch() - Observability einrichten — jeden AI-Request zusammen mit Kostendaten loggen und inspizieren