“Truque” do Google faz IA rodar 3x mais rápido no celular; veja como

O Google anunciou recentemente o Gemma 4 como seu modelo aberto de inteligência artificial (IA) com raciocínio mais avançado e voltado ao uso em bots inteligentes. No entanto, toda essa potência pode resultar em maior consumo de recursos e respostas mais lentas — e a empresa agora apresenta uma solução para essas limitações.

A companhia revelou um novo “truque” técnico que permite fazer com que o Gemma 4 rode até três vezes mais rápido, inclusive em celulares. A saída encontrada foi combinar o modelo principal com modelos auxiliares menores, que trabalham em conjunto.

Esses auxiliares fazem parte da técnica chamada Multi-Token Prediction (MTP). Na prática, eles antecipam partes da resposta que será gerada, enquanto o modelo principal valida essas previsões em paralelo durante o processamento.


Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.

“Ao usar uma arquitetura de decodificação especulativa, esses modelos de rascunho oferecem até 3x mais velocidade sem qualquer perda na qualidade da saída ou na lógica de raciocínio”, destaca o Google em comunicado.

Gemma 4 MTP
Modelos “auxiliares” do Gemma 4 aumentam a velocidade de geração de tokens em até 3 vezes (Imagem: Divulgação/Google)

Como essa combinação acontece na prática?

O ganho de desempenho descrito pela gigante das buscas vem de uma mudança na forma como o texto é gerado pelos modelos de linguagem. Em vez de produzir uma palavra por vez, como acontece tradicionalmente, o sistema desenvolvido pelo Google consegue antecipar múltiplos trechos de uma resposta de uma só vez.

Essa abordagem usa uma técnica chamada decodificação especulativa, que acelera a geração de texto ao dividir o trabalho entre o modelo principal e seus auxiliares.

Fica a cargo do modelo auxiliar antecipar partes da resposta, funcionando como um rascunho que sugere possíveis continuações para o texto. Enquanto isso, o modelo principal valida essas sugestões em paralelo antes de entregar a resposta final ao usuário.

“Se o modelo principal concordar com o rascunho, ele aceita toda a sequência em uma única passagem — e ainda gera um token adicional nesse processo. Isso significa que sua aplicação pode produzir toda a sequência prevista mais um token no mesmo tempo que normalmente levaria para gerar apenas um”, explica a empresa.

Com essa combinação de modelos, o Google destaca que algumas melhorias observadas por quem utiliza o Gemma 4 devem ser:

  • Respostas mais rápidas em chats quase em tempo real, apps de voz e ferramentas com IA que executam tarefas automaticamente;
  • Possibilidade de rodar modelos avançados em PCs comuns e até offline, facilitando o desenvolvimento e o uso no dia a dia;
  • Melhor desempenho em celulares e outros dispositivos, com respostas mais ágeis e menor consumo de bateria;
  • Mesma qualidade nas respostas, já que o modelo principal continua revisando tudo antes de entregar o resultado.

Os modelos de rascunho com MTP do Gemma 4 já estão disponíveis sob a mesma licença Apache 2.0 do modelo principal. Eles podem ser baixados em plataformas como Hugging Face, Kaggle e Ollama, e tem compatibilidade com as ferramentas Transformers, vLLM, llama.cpp, LM Studio e Keras.

Se você pretende mergulhar cada vez mais no universo da inteligência artificial, é cada vez mais importante entender qual a diferença entre IA generativa e agentes de IA.

Leia a matéria no Canaltech.

Scroll to Top