Capítulo 10 — Multimodal: para além do texto

Décimo post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. Texto para de ser a única entrada — imagem e áudio entram no mesmo modelo.

O que "o mesmo modelo também vê imagem" quer dizer

Diante de um modelo multimodal, uma pergunta brota natural: como pode o mesmo modelo lidar com texto, imagem e áudio ao mesmo tempo? A resposta, depois de tudo o que já vimos, é mais simples do que parece. Porque tudo, no fim das contas, vira sequência de tokens — e os tokens, embeddings.

Voltamos à imagem do capítulo 3. Dentro do modelo, os tokens são embeddings de algumas centenas de dimensões. De onde esses embeddings vieram — texto, imagem, áudio — deixa de ser determinante depois que entram no fluxo. O transformer trata os três do mesmo jeito, dentro do seu mesmo padrão de atenção.

Em uma frase: multimodal não é "vários modelos lado a lado". É vários tipos de entrada convergindo para o mesmo espaço de embedding. É nessa convergência que um modelo só passa a ver tudo.

Como uma imagem é "tokenizada"

Como transformar imagem em sequência de tokens? O caminho consagrado — vision transformer (ViT) — corta a imagem em quadradinhos (patches), e trata cada patch como um token. Uma imagem vira um punhado de patch-tokens. Esses tokens, então, se olham via atenção, como qualquer outro token, e o modelo absorve a forma geral da imagem dessa interação.

O interessante é que tokens de texto e tokens de imagem podem caminhar lado a lado, no mesmo contexto. Quando você manda uma frase junto com uma imagem, a atenção pode traçar linhas entre uma e outra, livremente.

Áudio

Áudio segue um caminho parecido. Pequenos segmentos de tempo são convertidos em embeddings que entram no contexto. A forma macro continua a mesma: convergência para o mesmo espaço de embedding.

Com isso, um único modelo passa a responder "leia a placa que aparece nesta foto", "qual é o tom desta gravação", "resuma o fluxo deste vídeo em uma linha" — tudo dentro de uma mesma interação.

Forças e limites do multimodal

A força é a fluidez. Você mostra a imagem, faz a pergunta em texto, e o modelo costura os dois. Aquilo que, montado à mão, seria pipeline complicado, vira uma chamada só.

O limite, honestamente: texto continua sendo a base, e a competência em texto é a mais profunda. Imagem dá conta do quadro geral, mas escorrega em detalhe fino — letras pequenas, posicionamento exato, números com precisão. Áudio capta tom e estrutura geral, mas ainda tem um caminho para captar nuances finas.

Importante: "multimodal = vê tudo" é frase de manchete. Operar multimodal bem significa aceitar com franqueza onde cada modalidade ainda escorrega — e usar o modelo onde ele de fato é forte.

O fio do Capítulo 10

O que fica do capítulo, em uma linha: o coração do multimodal é a convergência para um único espaço de embedding. Com isso na cabeça, novos modelos — de vídeo, de áudio, de qualquer modalidade — encaixam sem traumatismo no mesmo quadro mental.

Amanhã — Capítulo 11: Modelos menores, modelos mais espertos. Vamos ao terreno da eficiência. Destilação, quantização, MoE — e o §11.6 novo, dedicado inteiramente a modelos de raciocínio.

Quer o quadro inteiro? O livro detalha a mecânica do vision transformer e da tokenização de áudio, com diagramas. Ver 『LLM Primer I』 na Amazon →