GPUs são as únicas alternativas para LLMs?

Você já sentiu aquela pontada de frustração ao ter sua aplição gerando tokens muuuuuuuuuito devagar? Ou talvez a conta no final do mês gere um mini infarto?

E se eu te dissesse que um modelo como o Llama 3 70B, que normalmente associamos a hardware pesado e respostas lentas, consegue rodar a quase 300 tokens por segundo — uma velocidade que parece ficção científica?

Isso não é um truque. É a utilização de hardware especializado em inferência de LLMs, e essa pode ser a chave para tornar as cargas de LLM mais escaláveis e sustentáveis.

A Guerra da Inferência e Por Que Você Deveria se Importar

Por anos, o jogo da IA foi dominado pelas GPUs, especialmente as da Nvidia. Elas são fantásticas para treinar modelos, mas quando se trata de executar esses modelos em produção, o custo e a latência podem se tornar um gargalo.

Uma nova batalha está se desenrolando, e os resultados são impressionantes:

Nvidia com suas novas GPUs Blackwell continua quebrando recordes, atingindo mais de 1.000 tokens/segundo por usuário. Uma performance impressionante, mas seu poder vem com alta demanda e custo.
As TPUs do Google não estão para brincadeira, mostrando um desempenho muito próximo ao da Nvidia, criando um ecossistema poderoso para quem já está na GCP.
A Amazon também tem seus próprios chips, os AWS Inferentia. Assim como os TPUs, eles são projetados para oferecer inferência de alto desempenho a um custo menor que as GPUs tradicionais dentro do ecossistema AWS. O foco de ambos é a eficiência em escala. Enquanto oferecem uma performance robusta, especialmente para processamento em lote (batch processing), a arquitetura se difere dos LPUs da Groq, que são mestres em baixa latência para solicitações individuais — um fator crucial para aplicações interativas;
Mas, tem um player que vai além, a Groq com suas LPUs. A Groq criou uma nova arquitetura, o LPU (Language Processing Unit), projetada especificamente para inferência de LLMs. O resultado? Velocidades alucinantes. Modelos gigantes rodando com a sensação de interatividade em tempo real, superando provedores de nuvem em até 18 vezes em alguns benchmarks.

A grande ideia é esta: A escolha do hardware de inferência não é mais um detalhe técnico. É uma decisão estratégica.

As LPUs da Groq, por terem sido criadas com o objetivo de suportar essa carga de trabalho, pode fazer com que se tire o maior proveito da combinação hardware/software e ainda torne o processo menos custoso.

Uma pequena comparação de custos

Instância da AWS p5.4xlarge com 1xH100 (80Gb)

Instância inferentia 2 com 6 chips inferentia e 192Gb

Custo das máquinas com TPUs no Google

Como faço para usar as soluções da Groq?

A Groq é uma empresa de hardware para LLM, ela não tem (pelo menos não ainda) um modelo propietário. Dito isso, eles trabalham com modelos open source. Ou seja, através da API deles, é possível acessar modelos open source com uma ótima performance. Além dos preços serem bem competitivos. Vale a pena conferir.

O melhor de tudo, se você utiliza a API da OpenAI, a API da Groq é compatível. Ou seja, migrar de um para o outro é tão simples quanto configurar uma variável de ambiente.

import os
from openai import OpenAI

# Configuração padrão que você talvez use hoje (com OpenAI/Azure/etc.)
client_openai = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))

# O que você quer para o seu Chatbot
prompt_do_usuario = "Explique a importância da velocidade de inferência para a experiência do usuário em 3 parágrafos."

print("--- Resposta via OpenAI (GPU)... ---")
chat_completion_openai = client_openai.chat.completions.create(
    messages=[{"role": "user", "content": prompt_do_usuario}],
    model="gpt-4o",
)
print(chat_completion_openai.choices[0].message.content)


# Agora, vamos testar a velocidade da Groq!
client_groq = OpenAI(
    api_key=os.environ.get("GROQ_API_KEY"),
    base_url="https://api.groq.com/openai/v1", # <-- A mágica acontece aqui
)

print("\n--- Resposta via Groq (LPU)... ---")
chat_completion_groq = client_groq.chat.completions.create(
    messages=[{"role": "user", "content": prompt_do_usuario}],
    # Note que o nome do modelo muda para o que está disponível na Groq
    model="llama3-70b",
)
print(chat_completion_groq.choices[0].message.content)

Ferramenta da semana: LiteLLM

O LiteLLM é ótimo para os engenheiros de plataforma que tem que prover conexão com multiplos providers de LLM, mas precisam de uma forma de centralizar tudo em um lugar só para não virar várzea.

O LiteLLM funciona como um LLM Gateway onde é possível é feito o meio de campo retendo informações importantes como:

Custo que cada chave de API está gerando;
Realizar controle de acesso com autenticação e autorização;
Logging, guard rails e cache por projeto;
Acompanhamento de custos; e
Uma UI bonitinha para fazer todo esse acompanhamento

LiteLLM é uma biblioteca Python que unifica as chamadas para inúmeras APIs de LLM, incluindo OpenAI, Azure, Cohere, Anthropic e, claro, Groq.

Sua ação para esta semana: Pegue um projeto seu que usa um LLM. Instale o LiteLLM, consiga uma chave de API gratuita da Groq e teste. Veja com seus próprios olhos a diferença que o hardware de inferência pode fazer.

Links

DGX B200 Blackwell node sets world record, breaking over 1,000 TPS/user

Nvidia breaks another world record in the AI space

www.tomshardware.com/tech-industry/artificial-intelligence/dgx-b200-blackwell-node-sets-world-record-breaking-over-1-000-tps-user?utm_source=openai

NVIDIA Hopper Leaps Ahead in Generative AI at MLPerf

Industry-standard tests show NVIDIA Hopper-based systems running TensorRT-LLM software provide the world’s most powerful platform for generative AI.

blogs.nvidia.com/blog/tensorrt-llm-inference-mlperf

Accelerating AI Inference with Google Cloud TPUs and GPUs | Google Cloud Blog

The latest advances for Google Cloud AI inference: JetStream and MaxDiffusion for high-performance LLM and diffusion model inference on Cloud TPUs.

cloud.google.com/blog/products/compute/accelerating-ai-inference-with-google-cloud-tpus-and-gpus

Arquitetura da TPU | Google Cloud Documentation

docs.cloud.google.com/tpu/docs/system-architecture-tpu-vm?hl=pt-br

LLM Inference Hardware: An Enterprise Guide to Key Players | IntuitionLabs

An educational guide to enterprise LLM inference hardware. Compare NVIDIA & AMD GPUs with specialized AI accelerators for running powerful LLMs on-premises.

intuitionlabs.ai/articles/llm-inference-hardware-enterprise-guide

AI Inference Costs 2025: Why Google TPUs Beat Nvidia GPUs by 4x

Nvidia's AI empire is crumbling.

www.ainewshub.org/post/ai-inference-costs-tpu-vs-gpu-2025

Nvidia sales are 'off the charts,' but Google, Amazon and others now make their own custom AI chips

Nvidia is king in AI chips, but custom ASICs are gaining ground with Google, Amazon, Meta, Microsoft and OpenAI now making their own.

www.cnbc.com/2025/11/21/nvidia-gpus-google-tpus-aws-trainium-comparing-the-top-ai-chips.html

GPUs são as únicas alternativas para LLMs?

A Guerra da Inferência e Por Que Você Deveria se Importar

Como faço para usar as soluções da Groq?

Ferramenta da semana: LiteLLM

Links

Reply

Keep Reading

Victor Macedo