So verfolgen und kontrollieren Sie AI-API-Kosten ueber alle Anbieter hinweg

Das Problem: AI-Ausgaben sind unsichtbar

Sie rufen OpenAI fuer Chat auf, Anthropic fuer Code-Generierung und Google fuer Embeddings. Jeder Anbieter hat sein eigenes Abrechnungs-Dashboard, seine eigene Token-Zaehlung und sein eigenes Preismodell. Wenn die monatliche Rechnung eintrifft, haben Sie keine Ahnung, welches Feature, welcher Endpoint oder welches Modell fuer die Kosten verantwortlich ist.

// Three providers, three billing dashboards, zero unified view
await openai.chat.completions.create({ model: "gpt-4o", messages });
await anthropic.messages.create({ model: "claude-sonnet-4-5-20250514", messages });
await google.generateContent({ model: "gemini-2.0-flash", contents });

Anbieter-Dashboards zeigen aggregierte Ausgaben, nicht Kosten pro Anfrage. Sie koennen grundlegende Fragen nicht beantworten: Wie viel kostet das Zusammenfassungs-Feature pro Aufruf? Welches Modell ist fuer diese Aufgabe am guenstigsten? Wie viel hat uns AI diese Woche gekostet?

Die Loesung: Kostenverfolgung pro Anfrage mit Grepture

Grepture ist ein AI-Gateway, das zwischen Ihrer Anwendung und jedem LLM-Anbieter sitzt. Jede Anfrage, die durch den Proxy fliesst, erhaelt automatische Token-Zaehlung und Kostenattribution — pro Anfrage, pro Modell, pro Endpoint.

Kein Billing-API-Polling. Kein eigener Logging-Code. Leiten Sie Ihren Traffic durch den Proxy und die Kostenverfolgung ist sofort aktiv.

Einrichtung in 3 Minuten

1. SDK installieren

npm install @grepture/sdk

2. API Key erhalten

Registrieren Sie sich unter grepture.com/en/pricing — der kostenlose Plan umfasst 1.000 Anfragen/Monat. Kopieren Sie Ihren API Key aus dem Dashboard.

3. AI-Traffic durch den Proxy leiten

OpenAI

import OpenAI from "openai";
import { Grepture } from "@grepture/sdk";

const grepture = new Grepture({
  apiKey: process.env.GREPTURE_API_KEY!,
  proxyUrl: "https://proxy.grepture.com",
});

const openai = new OpenAI({
  ...grepture.clientOptions({
    apiKey: process.env.OPENAI_API_KEY!,
    baseURL: "https://api.openai.com/v1",
  }),
});

// Every request now has cost tracking
const response = await openai.chat.completions.create({
  model: "gpt-4o",
  messages: [{ role: "user", content: "Summarize this document..." }],
});

Anthropic

Das SDK von Anthropic ist OpenAI-kompatibel, wenn Sie die Messages-API ueber den Proxy nutzen:

const anthropic = new OpenAI({
  ...grepture.clientOptions({
    apiKey: process.env.ANTHROPIC_API_KEY!,
    baseURL: "https://api.anthropic.com/v1",
  }),
});

Google Gemini

const gemini = new OpenAI({
  ...grepture.clientOptions({
    apiKey: process.env.GEMINI_API_KEY!,
    baseURL: "https://generativelanguage.googleapis.com/v1beta/openai",
  }),
});

Azure OpenAI

const azure = new OpenAI({
  ...grepture.clientOptions({
    apiKey: process.env.AZURE_OPENAI_API_KEY!,
    baseURL: "https://your-resource.openai.azure.com/openai/deployments/your-deployment",
  }),
});

Beliebige HTTP-API

Fuer Anbieter ohne OpenAI-kompatibles SDK verwenden Sie grepture.fetch():

const response = await grepture.fetch("https://api.example.com/v1/generate", {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: `Bearer ${process.env.PROVIDER_API_KEY}`,
  },
  body: JSON.stringify({ prompt: "..." }),
});

Was Sie erhalten

Sobald der Traffic durch den Proxy fliesst, zeigt das Dashboard:

Token-Zaehlung pro Anfrage — Input-Tokens, Output-Tokens und Gesamtzahl fuer jeden Aufruf
Kosten pro Anfrage — berechnet anhand der modellspezifischen Preise jedes Anbieters
Kosten nach Modell — sehen Sie, welche Modelle das meiste Budget verbrauchen
Kosten nach Endpoint — ordnen Sie Ausgaben bestimmten Features oder Diensten zu
Ausgabentrends im Zeitverlauf — taegliche, woechentliche und monatliche Ansichten
Filterbares Traffic-Log — Suche nach Modell, Kostenbereich, Status oder Zeitfenster

Kosten mehrstufiger Workflows verfolgen

AI-Agenten und RAG-Pipelines fuehren mehrere LLM-Aufrufe pro Benutzeranfrage durch. Verwenden Sie Conversation-Tracing, um zusammengehoerige Aufrufe zu gruppieren und die Gesamtkosten eines Workflows zu sehen:

const grepture = new Grepture({
  apiKey: process.env.GREPTURE_API_KEY!,
  proxyUrl: "https://proxy.grepture.com",
  traceId: `workflow-${crypto.randomUUID().slice(0, 12)}`,
});

// All calls under this trace are grouped in the dashboard
const plan = await openai.chat.completions.create({
  model: "gpt-4o",
  messages: [{ role: "user", content: "Plan the steps to..." }],
});

const result = await openai.chat.completions.create({
  model: "gpt-4o-mini",
  messages: [{ role: "user", content: `Execute step 1: ${plan.choices[0].message.content}` }],
});

Im Traces-Tab des Dashboards sehen Sie beide Anfragen gruppiert mit kombinierten Kosten, Token-Zaehlung und schrittweiser Zeitleiste. So erfahren Sie genau, wie viel ein einzelner Benutzer-Workflow von Anfang bis Ende kostet.

Tipps zur Kostenoptimierung

Sobald Sie Transparenz haben, koennen Sie handeln:

Modelle richtig dimensionieren — wenn gpt-4o und gpt-4o-mini fuer eine Aufgabe aehnliche Qualitaet liefern, wechseln Sie zu Mini. Das Dashboard zeigt Ihnen, wo dieser Kompromiss sinnvoll ist.
Ausreisser-Endpoints erkennen — ein Feature, das 10x mehr Aufrufe als erwartet macht, faellt sofort in den Kosten-pro-Endpoint-Ansichten auf.
Kosten pro Benutzeraktion verfolgen — verwenden Sie Trace-IDs, um Kosten benutzerbezogenen Features zuzuordnen, nicht nur API-Aufrufen.
Anbieter vergleichen — leiten Sie dieselbe Aufgabe ueber verschiedene Anbieter und vergleichen Sie Kosten und Qualitaet im Traffic-Log.

Naechste Schritte

Preise ansehen — kostenlos fuer bis zu 1.000 Anfragen/Monat
SDK-Dokumentation lesen — vollstaendige Referenz fuer clientOptions() und grepture.fetch()
Observability einrichten — jeden AI-Request zusammen mit Kostendaten loggen und inspizieren