Capítulo 10 — Multimodal: para além do texto
Décimo post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. Texto para de ser a única entrada — imagem e áudio entram no mesmo modelo.
O que "o mesmo modelo também vê imagem" quer dizer
Diante de um modelo multimodal, uma pergunta brota natural: como pode o mesmo modelo lidar com texto, imagem e áudio ao mesmo tempo? A resposta, depois de tudo o que já vimos, é mais simples do que parece. Porque tudo, no fim das contas, vira sequência de tokens — e os tokens, embeddings.
Voltamos à imagem do capítulo 3. Dentro do modelo, os tokens são embeddings de algumas centenas de dimensões. De onde esses embeddings vieram — texto, imagem, áudio — deixa de ser determinante depois que entram no fluxo. O transformer trata os três do mesmo jeito, dentro do seu mesmo padrão de atenção.
Como uma imagem é "tokenizada"
Como transformar imagem em sequência de tokens? O caminho consagrado — vision transformer (ViT) — corta a imagem em quadradinhos (patches), e trata cada patch como um token. Uma imagem vira um punhado de patch-tokens. Esses tokens, então, se olham via atenção, como qualquer outro token, e o modelo absorve a forma geral da imagem dessa interação.
O interessante é que tokens de texto e tokens de imagem podem caminhar lado a lado, no mesmo contexto. Quando você manda uma frase junto com uma imagem, a atenção pode traçar linhas entre uma e outra, livremente.
Áudio
Áudio segue um caminho parecido. Pequenos segmentos de tempo são convertidos em embeddings que entram no contexto. A forma macro continua a mesma: convergência para o mesmo espaço de embedding.
Com isso, um único modelo passa a responder "leia a placa que aparece nesta foto", "qual é o tom desta gravação", "resuma o fluxo deste vídeo em uma linha" — tudo dentro de uma mesma interação.
Forças e limites do multimodal
A força é a fluidez. Você mostra a imagem, faz a pergunta em texto, e o modelo costura os dois. Aquilo que, montado à mão, seria pipeline complicado, vira uma chamada só.
O limite, honestamente: texto continua sendo a base, e a competência em texto é a mais profunda. Imagem dá conta do quadro geral, mas escorrega em detalhe fino — letras pequenas, posicionamento exato, números com precisão. Áudio capta tom e estrutura geral, mas ainda tem um caminho para captar nuances finas.
O fio do Capítulo 10
O que fica do capítulo, em uma linha: o coração do multimodal é a convergência para um único espaço de embedding. Com isso na cabeça, novos modelos — de vídeo, de áudio, de qualquer modalidade — encaixam sem traumatismo no mesmo quadro mental.
Amanhã — Capítulo 11: Modelos menores, modelos mais espertos. Vamos ao terreno da eficiência. Destilação, quantização, MoE — e o §11.6 novo, dedicado inteiramente a modelos de raciocínio.