Introdução

Acredito que não é surpresa pra ninguém que atualmente existe uma nova corrida do ouro por poder computacional por parte das empresas de tecnologia e IA como Google, Meta, OpenAI, Anthropic, dentre outras. Essas empresas estão investindo bilhões de dólares para poder aumentar ou ter acesso a infraestrutura de GPUs, TPUs e, principalmente energética para alimentar esses servidores.

Essa fome por poder computacional é justificada pela máxima Bigger is Better, ou maior é melhor. Ou seja, quanto maior o modelo, com mais parâmetros, em tese, mais inteligente ele é. Por outro lado, mais poder computacional é necessário para treinar e operar esse modelo.

Nome do Modelo

Ano de lançamento

Número de parâmetros

GPT-3

2020

Estimado em 175 bilhões

ChatGPT-4

2023

Estimado em ~1.8 trilhões

ChatGPT-4o Mini

2024

Estimado em ~8 bilhões

GPT-5

2025

Estimado em ~2-5 trilhões

Comparação de performance entre LLaMa 8b vs 70B

Porém a oferta por GPUs de ponta, como a Nvidia H100, sofre uma grande escassez. De um lado, temos as big techs, startups, governos e centros de pesquisa competindo por esses chips. Do outro lado, a oferta é limitada por conta da complexa cadeia de suprimento de GPUs.

Bom, até o momento, realmente parece que quanto maior e com mais dados para treinamento tivermos, mais inteligente ficará o modelo. Mas, será que esse é um caminho sustável? Quando falamos de aplicações cada vez mais nichadas, utilizar um modelo menor e mais especializado não traria melhores resultados?

O especialista vs o generalista

Inscreva-se para continuar lendo

Este conteúdo é gratuito, mas você deve estar inscrito em Victor Macedo para continuar lendo.

Already a subscriber?Sign in.Not now

Reply

or to participate

Keep Reading

No posts found