Você já sentiu aquela pontada de frustração ao ter sua aplição gerando tokens muuuuuuuuuito devagar? Ou talvez a conta no final do mês gere um mini infarto?
E se eu te dissesse que um modelo como o Llama 3 70B, que normalmente associamos a hardware pesado e respostas lentas, consegue rodar a quase 300 tokens por segundo — uma velocidade que parece ficção científica?
Isso não é um truque. É a utilização de hardware especializado em inferência de LLMs, e essa pode ser a chave para tornar as cargas de LLM mais escaláveis e sustentáveis.
A Guerra da Inferência e Por Que Você Deveria se Importar
Por anos, o jogo da IA foi dominado pelas GPUs, especialmente as da Nvidia. Elas são fantásticas para treinar modelos, mas quando se trata de executar esses modelos em produção, o custo e a latência podem se tornar um gargalo.
Uma nova batalha está se desenrolando, e os resultados são impressionantes:
Nvidia com suas novas GPUs Blackwell continua quebrando recordes, atingindo mais de 1.000 tokens/segundo por usuário. Uma performance impressionante, mas seu poder vem com alta demanda e custo.
As TPUs do Google não estão para brincadeira, mostrando um desempenho muito próximo ao da Nvidia, criando um ecossistema poderoso para quem já está na GCP.
A Amazon também tem seus próprios chips, os AWS Inferentia. Assim como os TPUs, eles são projetados para oferecer inferência de alto desempenho a um custo menor que as GPUs tradicionais dentro do ecossistema AWS. O foco de ambos é a eficiência em escala. Enquanto oferecem uma performance robusta, especialmente para processamento em lote (batch processing), a arquitetura se difere dos LPUs da Groq, que são mestres em baixa latência para solicitações individuais — um fator crucial para aplicações interativas;
Mas, tem um player que vai além, a Groq com suas LPUs. A Groq criou uma nova arquitetura, o LPU (Language Processing Unit), projetada especificamente para inferência de LLMs. O resultado? Velocidades alucinantes. Modelos gigantes rodando com a sensação de interatividade em tempo real, superando provedores de nuvem em até 18 vezes em alguns benchmarks.
A grande ideia é esta: A escolha do hardware de inferência não é mais um detalhe técnico. É uma decisão estratégica.
As LPUs da Groq, por terem sido criadas com o objetivo de suportar essa carga de trabalho, pode fazer com que se tire o maior proveito da combinação hardware/software e ainda torne o processo menos custoso.
Uma pequena comparação de custos

Instância da AWS p5.4xlarge com 1xH100 (80Gb)

Instância inferentia 2 com 6 chips inferentia e 192Gb

Custo das máquinas com TPUs no Google
Como faço para usar as soluções da Groq?
A Groq é uma empresa de hardware para LLM, ela não tem (pelo menos não ainda) um modelo propietário. Dito isso, eles trabalham com modelos open source. Ou seja, através da API deles, é possível acessar modelos open source com uma ótima performance. Além dos preços serem bem competitivos. Vale a pena conferir.
O melhor de tudo, se você utiliza a API da OpenAI, a API da Groq é compatível. Ou seja, migrar de um para o outro é tão simples quanto configurar uma variável de ambiente.
import os
from openai import OpenAI
# Configuração padrão que você talvez use hoje (com OpenAI/Azure/etc.)
client_openai = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))
# O que você quer para o seu Chatbot
prompt_do_usuario = "Explique a importância da velocidade de inferência para a experiência do usuário em 3 parágrafos."
print("--- Resposta via OpenAI (GPU)... ---")
chat_completion_openai = client_openai.chat.completions.create(
messages=[{"role": "user", "content": prompt_do_usuario}],
model="gpt-4o",
)
print(chat_completion_openai.choices[0].message.content)
# Agora, vamos testar a velocidade da Groq!
client_groq = OpenAI(
api_key=os.environ.get("GROQ_API_KEY"),
base_url="https://api.groq.com/openai/v1", # <-- A mágica acontece aqui
)
print("\n--- Resposta via Groq (LPU)... ---")
chat_completion_groq = client_groq.chat.completions.create(
messages=[{"role": "user", "content": prompt_do_usuario}],
# Note que o nome do modelo muda para o que está disponível na Groq
model="llama3-70b",
)
print(chat_completion_groq.choices[0].message.content)Ferramenta da semana: LiteLLM
O LiteLLM é ótimo para os engenheiros de plataforma que tem que prover conexão com multiplos providers de LLM, mas precisam de uma forma de centralizar tudo em um lugar só para não virar várzea.
O LiteLLM funciona como um LLM Gateway onde é possível é feito o meio de campo retendo informações importantes como:
Custo que cada chave de API está gerando;
Realizar controle de acesso com autenticação e autorização;
Logging, guard rails e cache por projeto;
Acompanhamento de custos; e
Uma UI bonitinha para fazer todo esse acompanhamento
LiteLLM é uma biblioteca Python que unifica as chamadas para inúmeras APIs de LLM, incluindo OpenAI, Azure, Cohere, Anthropic e, claro, Groq.
Sua ação para esta semana: Pegue um projeto seu que usa um LLM. Instale o LiteLLM, consiga uma chave de API gratuita da Groq e teste. Veja com seus próprios olhos a diferença que o hardware de inferência pode fazer.







