Por que a conta do seu gateway de IA é imprevisível — e como resolver
Multiplicadores, tarifas por grupo e pools de contas compartilhadas tornam a conta da maioria dos gateways impossível de conciliar. O que observar, e por que cobrança por token auditável é a solução de verdade.
Um gateway de IA barato é fácil de achar. Um gateway cuja conta você consegue de fato conciliar, não — e é na distância entre os dois que mora a maioria dos custos surpresa.
De onde vem a imprevisibilidade
A maioria dos gateways de cobrança opaca se apoia no mesmo punhado de truques:
- Multiplicadores e tarifas por grupo. O número anunciado é uma taxa base, depois multiplicada por um fator por modelo, depois por um fator por grupo. Empilhe dois ou três coeficientes e o custo real de uma chamada é algo que você só descobre depois.
- Downgrade silencioso de modelo. Você pede Claude Opus; sob carga, é roteado silenciosamente para um "equivalente" mais barato. A conta parece ok — a saída piorou, e você não consegue saber por quê.
- Pools de contas compartilhadas. Os planos baratos costumam rodar em contas upstream compartilhadas: rápido até que um limite de taxa ou um bloqueio antifraude caia no pico e seu agente trave no meio do caminho.
- Sem itens na conta. Um único número de saldo vai caindo. Qual modelo, quantos tokens de entrada vs saída, se houve cache hit, se uma chamada com falha foi cobrada — nada disso fica visível.
O sinal é aritmética simples: se um gateway é "metade do preço oficial" e "ilimitado", a conta não fecha. Um relay paga a taxa real do upstream e adiciona uma camada de serviço por cima, então não dá para ser estruturalmente muito mais barato que a fonte. Diferenças de um dígito até uns 30% são normais; "metade do preço, ilimitado" costuma significar um pool, um downgrade ou um coeficiente escondendo o custo. Barato não é o problema; barato que você não consegue contabilizar é.
O que checar antes de confiar num gateway
- Dá para puxar uma conta detalhada? Por chamada: qual modelo, tokens de entrada/saída, cache hits, se as falhas foram cobradas. Conviver com um único número de saldo a longo prazo é doloroso.
- O modelo é real e estável? Não teste com "escreva uma tela de login". Aponte para um repositório real — ler código, editar arquivos, rodar testes, corrigir erros — e depois rode de novo no pico, de olho em downgrades.
- Tem alguém de fato tocando isso como produto? Um domínio de API dedicado, documentação, um dashboard, suporte de verdade — não uma chave colada num grupo de chat.
Como a OmniaKey cobra
A OmniaKey foi construída em torno do único eixo que importa aqui — transparência:
- Sem multiplicadores, sem grupos. O preço é o preço; você não precisa fazer engenharia reversa com calculadora.
- Por token, pré-pago. Você paga pelo que usa de um saldo pré-pago, sem plano mensal.
- Cada chamada vem detalhada. Modelo, tokens de entrada/saída, cache, latência, custo — visível por requisição no dashboard.
- O modelo que você pede é o que roda. Sem substituição silenciosa, sem dublê quantizado.
Uma chave alcança Claude, GPT e Gemini — tudo no mesmo medidor transparente. O guia de agentes de código mostra como conectar suas ferramentas.