Em meio a processos judiciais e um escrutínio regulatório crescente, fragmentos de informações altamente confidenciais sobre o funcionamento interno do motor de busca do Google vieram à tona. Transcrições e resumos de chamadas com engenheiros sêniores do Google, como Pandu Nayak e Hyung-Jin Kim (HJ Kim), realizadas em janeiro e fevereiro de 2025 no âmbito de litígios com o Departamento de Justiça dos EUA (DOJ), oferecem um vislumbre raro – embora muitas vezes censurado (“redacted”) – da complexa arquitetura de sinais que define o que vemos na Página de Resultados do Motor de Busca (SERP).
Esses documentos, alguns destacados por figuras como Brett Tabke (WebmasterWorld/Pubcon), estão gerando discussões intensas na comunidade de SEO. Eles não apenas confirmam teorias existentes, mas também introduzem novas nuances e destacam a constante evolução da busca.
A arquitetura dos sinais do Google: uma visão geral
Os documentos reiteram que o Google utiliza muitos signals para compor a SERP. Esses signals são categorizados da seguinte forma:
- Raw Signals (Sinais Brutos): O Google utiliza mais de 100 raw signals. Estes são os blocos de construção fundamentais.
- Top-Level Signals (Sinais de Nível Superior): São agregados de múltiplos raw signals. A relação entre eles é descrita como uma combinação linear do logaritmo dos raw signals individuais, e seu impacto no ranking é formulado para ser monotônico em relação ao signal (quanto maior o signal, teoricamente melhor o ranking).
- Origem dos Signals: Alguns são desenvolvidos usando modelos de machine learning (ML), enquanto outros são considerados “tradicionais”.
O “hand crafting” de sinais: por que o Google valoriza o controle manual?
Uma das revelações mais impactantes dos documentos é a filosofia por trás da criação e manutenção da vasta maioria dos sinais de classificação do Google. Com exceção de sistemas mais recentes baseados em LLM, como RankBrain e DeepRank, uma parcela significativa dos sinais é “hand-crafted” – ou seja, meticulosamente criada e ajustada manualmente por engenheiros.
A razão para essa abordagem, conforme explicitado nos documentos, é fundamental para a operação e evolução da busca:
A razão pela qual a vasta maioria dos sinais é criada manualmente é que, se algo quebrar, o Google sabe o que consertar. O Google quer que seus sinais sejam totalmente transparentes para que possam solucionar problemas e melhorá-los.
Isso contrasta com a visão que o Google passou há poucos dias no Creator Summit. Na ocasião, a empresa disse que, embora soubesse que os pequenos editores não tivessem o peso que queriam, era difícil simplesmente resolver a questão facilmente.
Em tese, esse “toque humano” envolve a análise de dados, a aplicação de funções matemáticas específicas (como sigmoides) e a definição cuidadosa de limiares (thresholds) para cada sinal. Os sinais ABC (Anchors, Body, Clicks), que formam a base da “topicality” (relevância tópica), são exemplos clássicos desse processo de “hand-crafting”.

Outros sinais de classificação em destaque: expandindo o arsenal do Google
Além dos já mencionados, as discussões com os engenheiros do Google detalharam (ou nomearam) outros componentes e conceitos importantes no seu vasto arsenal de classificação:
- Navboost – A “Grande Tabela” de Interação Usuário-Consulta-Documento:
- Reiterado como um signal tradicional crucial, o Navboost funciona como uma extensa tabela de consulta (QD table) que registra a frequência com que usuários (segmentados por localização e tipo de dispositivo) clicam em um document específico para uma query particular, utilizando dados dos últimos 13 meses.
- A afirmação do Dr. Eric Lehman de que “Navboost is not a machine-learning system. It’s just a big table” é significativa, sugerindo que, em sua essência, trata-se de uma contagem agregada de interações, embora possa haver “um pouco de dados extras” envolvidos. Isso não diminui sua importância, mas esclarece sua natureza mais direta e menos baseada em inferências complexas de ML para este signal específico.
- Q* (pronunciado “Q star”) – A Medida Fundamental de Qualidade do Document:
- Consistentemente destacado como a métrica do Google para a qualidade de um document (página web ou sua representação no banco de dados do Google). A noção de trustworthiness (confiabilidade) é central para o Q*.
- HJ Kim, com sua longa experiência na equipe de page quality, reforçou que o Q* é “incrivelmente importante” e largamente estático (mais ligado ao site do que à query), embora possa ser influenciado pela query em casos específicos para direcionar a buscas técnicas para sites mais técnicos, mesmo que de qualidade geral similar a outros.
- A persistência de reclamações sobre a qualidade dos resultados e o novo desafio imposto pela IA generativa tornam o refinamento contínuo do Q* uma prioridade.
- RankEmbed – A Vanguarda Semântica dos LLMs:
- Posicionado como um dos principais signals do Google treinados por LLM, o RankEmbed é um modelo de codificador duplo. Ele transforma tanto a query quanto o document em “embeddings” (representações vetoriais) dentro de um mesmo espaço dimensional.
- Esse “embedding space” captura propriedades semânticas, permitindo uma avaliação mais nuanceada da relevância para além da correspondência de palavras-chave. O ranking final entre query e document é então determinado por um “dot product” (produto escalar), que mede a similaridade ou distância entre esses vetores.
- Apesar de sua velocidade e eficácia para queries comuns, sua performance pode decair em tail queries (consultas de cauda longa, menos frequentes).
- A tecnologia do RankEmbed não se limita à busca principal; ela é a base de mecanismos de RAG (Retrieval-Augmented Generation) em produtos como o Vertex AI (plataforma de IA do Google Cloud) e o aplicativo Gemini, onde ajuda a “aterrar” as respostas da IA em informações factuais.
- Twiddlers – Os Reajustes Finos da SERP:
- São descritos como mecanismos que realizam um re-ranking de um conjunto de resultados já selecionados. Isso implica uma fase de pós-processamento ou ajuste fino, onde a ordem inicial dos documents pode ser alterada com base em critérios adicionais ou para otimizar a apresentação final na SERP.
- PageRank – O Fundamento da Autoridade de Links:
- Apesar de ser um dos signals mais antigos, o PageRank mantém sua relevância como um dos fatores que contribuem para os signals de qualidade da página. Sua lógica de avaliar a importância de uma página com base na quantidade e qualidade dos links que apontam para ela continua sendo um pilar.
- eDeepRank – Buscando Transparência nos Sinais de LLM:
- Mencionado por HJ Kim, o eDeepRank é um sistema LLM que utiliza tecnologias como BERT e transformers. Seu objetivo é pegar signals baseados em LLM (que podem ser mais “caixa-preta”) e decompor seus componentes para torná-los mais transparentes e compreensíveis para os engenheiros.
- Sinal de Popularidade [CENSURADO] Baseado em Dados do Chrome:
- Um signal (cujo nome específico foi censurado) foi mencionado como sendo um signal de popularidade que utiliza dados do navegador Chrome. Isso confirma o que muitos suspeitavam: dados agregados e anonimizados do Chrome podem influenciar a percepção de popularidade ou uso de sites e páginas.
- Sistema de Pontuação Final de IR [CENSURADO]:
- Há um sistema (nome também censurado) que representa um uso inicial de machine learning no algoritmo de busca do Google. Ele combina os diversos top-level signals em uma única pontuação final (“Final IR” score), que então determina o rankingdos documents na lista dos 10 links azuis.
Dados do Chrome?
Como principal destaque aqui, temos um sistema que utilizada o Chrome como parâmetro. Embora não seja nenhuma novidade, mais uma vez, temos grandes indícios de que a empresa não só usa dados da busca, mas também do navegador para entender aspectos de qualidade da página.
A interface de depuração interna do Google: um vislumbre do processo
Os documentos também revelaram a existência e o uso de uma interface de depuração interna. Em um exemplo, o engenheiro Pandu Nayak digitou “james allan umass” na busca e, em seguida, acessou essa ferramenta. A interface mostrou:
- Processo de Expansão e Decomposição da Query: Como o sistema interno do Google interpreta e refina a consulta. No exemplo, “umass” foi expandido para “University of Massachusetts”, “James” foi identificado como um nome próprio, e o sistema considerou variações ortográficas como “Allan” podendo ser “Allen”.
- Tabela Detalhada de Resultados e Sinais: A interface exibia uma tabela com a lista dos 10 links azuis (documents) retornados para a consulta. Para cada link, eram mostradas as pontuações individuais para cada top-level signal considerado, além da pontuação agregada final, o “Final IR” score.
Essa visão da ferramenta de depuração é fascinante, pois ilustra de forma mais concreta como os diferentes signals são ponderados e combinados para chegar ao ranking final que o usuário vê.
Implicações e o que reforçamos para a estratégia de SEO
A análise aprofundada dessas revelações, mesmo com as censuras, traz implicações significativas e reforça certos pilares para uma estratégia de SEO eficaz e adaptada à realidade da busca do Google:
- O Ecossistema híbrido de sinais persiste: Fica claro que o Google não opera apenas com algoritmos de machine learning “mágicos” e autônomos. Uma vasta quantidade de signals ainda é “hand-crafted”, ou seja, desenvolvida, ajustada e mantida por engenheiros humanos. A principal razão para isso é a necessidade de transparência interna, controle e a capacidade de diagnosticar e corrigir problemas rapidamente (“if anything breaks Google knows what to fix”). Isso significa que, embora a IA avance, a lógica de engenharia e a intervenção humana qualificada ainda são centrais para a estabilidade e melhoria da busca.
- Qualidade (Q*) e Autoridade (PageRank) como fundamentos: A forte ência no Q* (qualidade do document) e a contínua relevância do PageRank como um input para os signals de qualidade sublinham que conteúdo excepcional, confiabilidade e um perfil de backlinks forte e natural continuam sendo absolutamente cruciais. Não há atalho para construir essa base.
- Sinais comportamentais são observados (Navboost, Clicks): A importância do Navboost (baseado em 13 meses de dados de cliques) e a menção aos “Clicks” (C) – incluindo o tempo na página antes de voltar à SERP, que remete ao “pogosticking” – como raw signals, indicam que o Google observa e valoriza como os usuários interagem com os resultados. Criar conteúdo que engaje e satisfaça a intenção do usuário a ponto de evitar um retorno rápido à SERP é, portanto, benéfico.
- A Revolução semântica dos LLMs (RankEmbed, eDeepRank): A proeminência de signals como o RankEmbed mostra que a compreensão semântica profunda da intenção da query e do conteúdo do document é o futuro (e o presente). Otimizar para entidades, tópicos e a intenção real do usuário, em vez de apenas para strings de palavras-chave, é mais importante do que nunca. A tentativa de “decompor” signals de LLM com ferramentas como o eDeepRank também mostra um esforço para trazer mais interpretabilidade a esses sistemas complexos.
- Dados do usuário e contexto (Chrome Data, Navboost): A menção a signals de popularidade usando dados do Chrome e a segmentação do Navboost por localização e dispositivo reforçam que o contexto do usuário e os dados agregados de comportamento influenciam o que é considerado relevante.
- Transparência (interna) vs. risco de engenharia reversa: O Google claramente se preocupa com a possibilidade de seus métodos serem replicados se muitos dados internos forem expostos. Isso explica, em parte, o segredo em torno de muitos signals.
- Foco contínuo no usuário (apesar de tudo): A declaração de que o Google evita “prever cliques” por serem facilmente manipuláveis e um mau proxy para a experiência do usuário, juntamente com os esforços históricos para combater “content farms” e desinformação, sugere que, em sua essência, a missão de fornecer resultados úteis e de alta qualidade para o usuário final ainda é um motor principal.
Para os profissionais de SEO, a mensagem é de complexidade crescente, mas também de confirmação dos fundamentos.
Uma estratégia de SEO robusta deve ser holística: priorizar a criação de conteúdo de qualidade excepcional que demonstre E-E-A-T (Experiência, Expertise, Autoridade, Confiança); construir um perfil de backlinks natural e autoritativo; garantir uma experiência de usuário impecável que promova engajamento; e, cada vez mais, pensar semanticamente sobre a intenção e o contexto do usuário. Não há uma única “bala de prata”, mas sim uma orquestração cuidadosa de múltiplos fatores que o Google pondera e refina continuamente.
Publisher do "Não é Agência!" e Especialista de SEO, Willian Porto tem mais de 21 anos de experiência em projetos de aquisição orgânica. Especializado em Portais de Noticia, também participou de projetos em e-commerces, como Americanas, Shoptime, Bosch e Trocafone.