Por qué la factura de tu gateway de IA es impredecible — y cómo arreglarlo
Multiplicadores, tarifas por grupo y pools de cuentas compartidas hacen que la factura de la mayoría de los gateways sea imposible de cuadrar. Qué mirar, y por qué la facturación por token auditable es la solución de verdad.
Un gateway de IA barato es fácil de encontrar. Un gateway cuya factura puedas cuadrar de verdad, no — y en la distancia entre ambos vive la mayoría de los costos sorpresa.
De dónde viene la imprevisibilidad
La mayoría de los gateways de facturación opaca se apoyan en el mismo puñado de trucos:
- Multiplicadores y tarifas por grupo. El número anunciado es una tarifa base, luego multiplicada por un factor por modelo, luego por un factor por grupo. Apila dos o tres coeficientes y el costo real de una llamada es algo que solo averiguas después.
- Degradación silenciosa de modelo. Pides Claude Opus; bajo carga te enrutan en silencio a un "equivalente" más barato. La factura se ve bien — la salida empeoró, y no puedes saber por qué.
- Pools de cuentas compartidas. Los planes baratos suelen correr sobre cuentas upstream compartidas: rápido hasta que un límite de tasa o un bloqueo antifraude cae en el pico y tu agente se atasca a mitad de camino.
- Sin desglose. Un único número de saldo va bajando. Qué modelo, cuántos tokens de entrada vs salida, si hubo cache hit, si se cobró una llamada fallida — nada de eso se ve.
La señal es aritmética simple: si un gateway es "la mitad del precio oficial" e "ilimitado", las cuentas no cuadran. Un relay paga la tarifa real del upstream y añade una capa de servicio encima, así que no puede ser estructuralmente mucho más barato que la fuente. Diferencias de un dígito hasta un ~30% son normales; "mitad de precio, ilimitado" suele significar un pool, una degradación o un coeficiente escondiendo el costo. Barato no es el problema; barato que no puedes contabilizar, sí.
Qué revisar antes de confiar en un gateway
- ¿Puedes sacar una factura detallada? Por llamada: qué modelo, tokens de entrada/salida, cache hits, si se cobraron los fallos. Vivir con una sola cifra de saldo a largo plazo es doloroso.
- ¿El modelo es real y estable? No pruebes con "escribe una página de login". Apúntalo a un repositorio real — leer código, editar archivos, correr tests, arreglar errores — y luego córrelo de nuevo en el pico, atento a degradaciones.
- ¿Hay alguien de verdad tratándolo como producto? Un dominio de API dedicado, documentación, un dashboard, soporte real — no una clave pegada en un chat de grupo.
Cómo factura OmniaKey
OmniaKey está construida en torno al único eje que importa aquí — la transparencia:
- Sin multiplicadores, sin grupos. El precio es el precio; no tienes que reconstruirlo con una calculadora.
- Por token, prepago. Pagas por lo que usas desde un saldo prepago, sin plan mensual.
- Cada llamada viene detallada. Modelo, tokens de entrada/salida, caché, latencia, costo — visible por petición en el dashboard.
- El modelo que pides es el que se ejecuta. Sin sustitución silenciosa, sin suplente cuantizado.
Una clave alcanza Claude, GPT y Gemini — todo en el mismo medidor transparente. La guía de agentes de programación muestra cómo conectar tus herramientas.