Os diferentes tipos de IA

Antes de mais nada. Você sabe o que é Inteligência Artificial (IA)?

A Inteligência Artificial (IA) é um campo amplo da ciência da computação que busca criar sistemas capazes de realizar tarefas que normalmente exigem inteligência humana (https://cloud.google.com/learn/what-is-artificial-intelligence?hl=pt-BR). Isso inclui atividades como reconhecimento de padrões, compreensão de linguagem, tomada de decisões, resolução de problemas e aprendizado com base em experiências anteriores. A IA não é uma tecnologia única, mas um guarda-chuva que engloba múltiplas abordagens e técnicas para simular comportamentos inteligentes.

Dentro do guarda chuva da IA temos machine learning (ML), subcategoria que foca especificamente em criar algoritmos que aprendem com exemplos automaticamente. Pode parecer brincadeira, mas no ensino médio quando aprendemos regressão linear (o famoso: y = ax + b), estamos aprendendo um algoritmo de ML. Porém, também existem algoritmos de classificação, como random forest e Support Vector Machine (SVM) e de clusterização, como o k-means.

Os algoritmos de ML funcionam identificando padrões explícitos nos dados e criando regras baseadas nesses padrões. Esses algoritmos são interpretáveis (ou seja, é factível ter seu raciocínio compreendido)  e frequentemente requerem que os engenheiros extraiam manualmente as características mais relevantes dos dados em um processo chamado feature engineering.

Nas últimas décadas, o Deep Learning — um subconjunto de ML que utiliza redes neurais artificiais com múltiplas camadas — revolucionou o campo. Redes neurais profundas conseguem extrair características automaticamente dos dados brutos, aprendendo representações cada vez mais abstratas em camadas sucessivas (figura abaixo). Isso as tornou extraordinariamente poderosas para tarefas complexas como visão computacional e processamento de linguagem natural.

Camadas dentro da área de ciência de dados e IA

Talvez você esteja se perguntando onde está o ChatGPT na jogada. IAs como o ChatGPT são chamadas de IAs generativas. Ou seja, são sistemas que não tem como objetivo classificar ou prever um número, mas sim gerar algo novo, no caso, texto. Através de redes neurais profundas - muito profundas - o ChatGPT é um modelo capaz de interpretar texto e gerar uma resposta, dado o texto inputado.

Um pouco de história sobre os LLMs

Um dos primeiros modelos de linguagem foi o ELIZA. O ELIZA simulava conversas usando uma metodologia de reconhecimento e substituição de padrões que dava aos usuários a ilusão de compreensão por parte do programa, mas não apresentava nenhuma representação que pudesse ser considerada como compreensão real do que estava sendo dito por qualquer uma das partes.

Depois do ELIZA existiram modelos baseados exclusivamente em regras gramaticais, que eram inseridas no programa de forma manual. Por exemplo, em um review de filmes, se um comentário contivesse as palavras: ótimo ou excelente o review era positivo. Em contrapartida, se contivesse as palavras ruim ou horrível, o review era considerado negativo. Dessa forma, conseguiamos fazer uma análise de sentimento em cima de textos.

Durante a década de 1980-90 houve uma mudança de paradigma marcada pela introdução de modelos estatísticos para processamento de linguagem. Essa abordagem permitia que os modelos aprendessem por meio da própria linguagem ao invés de depender somente de regras pré-programadas. 

Nos anos 2000 foram introduzidos algoritmos como o SVM e as Cadeias de Markov Escondidas. Na década seguinte, surgiram as redes neurais LSTM e o Word2Vec, sendo o primeiro uma arquitetura de rede neural e o segundo uma técnica baseada em redes neurais, projetada especificamente para derivar representações vetoriais de palavras.

Por fim chegamos na arquitetura Transformer, encontrada no artigo Attention is all you need!, no qual os mecanismos de atenção foram introduzidos. O artigo propõe uma nova forma de arquitetura, substituindo as convoluções e recorrências (utilizadas pelos modelos de linguagem anteriores)  por mecanismos de atenção paralelizáveis. O resultado foi um ganho substancial do nível do entendimento que o modelo tem sobre a linguagem e de capacidade e velocidade de treinamento.

A arquitetura transformer é baseada em dois componentes principais: um encoder (que processa e compreende a entrada) e um decoder (que gera a saída token por token). Porém, é possível utilizar somente o decoder ou somente o encoder. O LLaMa, por exemplo, é um modelo decoder-only, o que significa que ele apenas gera respostas sem usar um encoder para processar a entrada de forma independente.

Nos dias de hoje, praticamente todos os modelos de linguagem são transformers. Essa arquitetura se tornou o padrão porque oferece eficiência, escalabilidade e a capacidade de capturar relações complexas entre palavras distantes no texto.

Como IAs generativas funcionam (de forma superficial)

Inscreva-se para continuar lendo

Este conteúdo é gratuito, mas você deve estar inscrito em Victor Macedo para continuar lendo.

Already a subscriber?Sign in.Not now

Reply

or to participate

Keep Reading

No posts found