17.3 C
São Paulo
domingo, junho 15, 2025
HomeSEOPesquisaGoogle usa dados do Chrome para classificação? Documentos do DOJ trazem mais...

Google usa dados do Chrome para classificação? Documentos do DOJ trazem mais revelações

Data:

spot_img

Sumário

Em meio a processos judiciais e um escrutínio regulatório crescente, fragmentos de informações altamente confidenciais sobre o funcionamento interno do motor de busca do Google vieram à tona. Transcrições e resumos de chamadas com engenheiros sêniores do Google, como Pandu Nayak e Hyung-Jin Kim (HJ Kim), realizadas em janeiro e fevereiro de 2025 no âmbito de litígios com o Departamento de Justiça dos EUA (DOJ), oferecem um vislumbre raro – embora muitas vezes censurado (“redacted”) – da complexa arquitetura de sinais que define o que vemos na Página de Resultados do Motor de Busca (SERP).

Esses documentos, alguns destacados por figuras como Brett Tabke (WebmasterWorld/Pubcon), estão gerando discussões intensas na comunidade de SEO. Eles não apenas confirmam teorias existentes, mas também introduzem novas nuances e destacam a constante evolução da busca.

A arquitetura dos sinais do Google: uma visão geral

Os documentos reiteram que o Google utiliza muitos signals para compor a SERP. Esses signals são categorizados da seguinte forma:

  • Raw Signals (Sinais Brutos): O Google utiliza mais de 100 raw signals. Estes são os blocos de construção fundamentais.
  • Top-Level Signals (Sinais de Nível Superior): São agregados de múltiplos raw signals. A relação entre eles é descrita como uma combinação linear do logaritmo dos raw signals individuais, e seu impacto no ranking é formulado para ser monotônico em relação ao signal (quanto maior o signal, teoricamente melhor o ranking).
  • Origem dos Signals: Alguns são desenvolvidos usando modelos de machine learning (ML), enquanto outros são considerados “tradicionais”.

O “hand crafting” de sinais: por que o Google valoriza o controle manual?

Uma das revelações mais impactantes dos documentos é a filosofia por trás da criação e manutenção da vasta maioria dos sinais de classificação do Google. Com exceção de sistemas mais recentes baseados em LLM, como RankBrain e DeepRank, uma parcela significativa dos sinais é “hand-crafted” – ou seja, meticulosamente criada e ajustada manualmente por engenheiros.

A razão para essa abordagem, conforme explicitado nos documentos, é fundamental para a operação e evolução da busca:

A razão pela qual a vasta maioria dos sinais é criada manualmente é que, se algo quebrar, o Google sabe o que consertar. O Google quer que seus sinais sejam totalmente transparentes para que possam solucionar problemas e melhorá-los.

Isso contrasta com a visão que o Google passou há poucos dias no Creator Summit. Na ocasião, a empresa disse que, embora soubesse que os pequenos editores não tivessem o peso que queriam, era difícil simplesmente resolver a questão facilmente.

Em tese, esse “toque humano” envolve a análise de dados, a aplicação de funções matemáticas específicas (como sigmoides) e a definição cuidadosa de limiares (thresholds) para cada sinal. Os sinais ABC (Anchors, Body, Clicks), que formam a base da “topicality” (relevância tópica), são exemplos clássicos desse processo de “hand-crafting”.

Documentos do Departamento de Justiça dos EUA

Outros sinais de classificação em destaque: expandindo o arsenal do Google

Além dos já mencionados, as discussões com os engenheiros do Google detalharam (ou nomearam) outros componentes e conceitos importantes no seu vasto arsenal de classificação:

  1. Navboost – A “Grande Tabela” de Interação Usuário-Consulta-Documento:
    • Reiterado como um signal tradicional crucial, o Navboost funciona como uma extensa tabela de consulta (QD table) que registra a frequência com que usuários (segmentados por localização e tipo de dispositivo) clicam em um document específico para uma query particular, utilizando dados dos últimos 13 meses.
    • A afirmação do Dr. Eric Lehman de que “Navboost is not a machine-learning system. It’s just a big table” é significativa, sugerindo que, em sua essência, trata-se de uma contagem agregada de interações, embora possa haver “um pouco de dados extras” envolvidos. Isso não diminui sua importância, mas esclarece sua natureza mais direta e menos baseada em inferências complexas de ML para este signal específico.
  2. Q* (pronunciado “Q star”) – A Medida Fundamental de Qualidade do Document:
    • Consistentemente destacado como a métrica do Google para a qualidade de um document (página web ou sua representação no banco de dados do Google). A noção de trustworthiness (confiabilidade) é central para o Q*.
    • HJ Kim, com sua longa experiência na equipe de page quality, reforçou que o Q* é “incrivelmente importante” e largamente estático (mais ligado ao site do que à query), embora possa ser influenciado pela query em casos específicos para direcionar a buscas técnicas para sites mais técnicos, mesmo que de qualidade geral similar a outros.
    • A persistência de reclamações sobre a qualidade dos resultados e o novo desafio imposto pela IA generativa tornam o refinamento contínuo do Q* uma prioridade.
  3. RankEmbed – A Vanguarda Semântica dos LLMs:
    • Posicionado como um dos principais signals do Google treinados por LLM, o RankEmbed é um modelo de codificador duplo. Ele transforma tanto a query quanto o document em “embeddings” (representações vetoriais) dentro de um mesmo espaço dimensional.
    • Esse “embedding space” captura propriedades semânticas, permitindo uma avaliação mais nuanceada da relevância para além da correspondência de palavras-chave. O ranking final entre query e document é então determinado por um “dot product” (produto escalar), que mede a similaridade ou distância entre esses vetores.
    • Apesar de sua velocidade e eficácia para queries comuns, sua performance pode decair em tail queries (consultas de cauda longa, menos frequentes).
    • A tecnologia do RankEmbed não se limita à busca principal; ela é a base de mecanismos de RAG (Retrieval-Augmented Generation) em produtos como o Vertex AI (plataforma de IA do Google Cloud) e o aplicativo Gemini, onde ajuda a “aterrar” as respostas da IA em informações factuais.
  4. Twiddlers – Os Reajustes Finos da SERP:
    • São descritos como mecanismos que realizam um re-ranking de um conjunto de resultados já selecionados. Isso implica uma fase de pós-processamento ou ajuste fino, onde a ordem inicial dos documents pode ser alterada com base em critérios adicionais ou para otimizar a apresentação final na SERP.
  5. PageRank – O Fundamento da Autoridade de Links:
    • Apesar de ser um dos signals mais antigos, o PageRank mantém sua relevância como um dos fatores que contribuem para os signals de qualidade da página. Sua lógica de avaliar a importância de uma página com base na quantidade e qualidade dos links que apontam para ela continua sendo um pilar.
  6. eDeepRank – Buscando Transparência nos Sinais de LLM:
    • Mencionado por HJ Kim, o eDeepRank é um sistema LLM que utiliza tecnologias como BERT e transformers. Seu objetivo é pegar signals baseados em LLM (que podem ser mais “caixa-preta”) e decompor seus componentes para torná-los mais transparentes e compreensíveis para os engenheiros.
  7. Sinal de Popularidade [CENSURADO] Baseado em Dados do Chrome:
    • Um signal (cujo nome específico foi censurado) foi mencionado como sendo um signal de popularidade que utiliza dados do navegador Chrome. Isso confirma o que muitos suspeitavam: dados agregados e anonimizados do Chrome podem influenciar a percepção de popularidade ou uso de sites e páginas.
  8. Sistema de Pontuação Final de IR [CENSURADO]:
    • Há um sistema (nome também censurado) que representa um uso inicial de machine learning no algoritmo de busca do Google. Ele combina os diversos top-level signals em uma única pontuação final (“Final IR” score), que então determina o rankingdos documents na lista dos 10 links azuis.

Dados do Chrome?

Como principal destaque aqui, temos um sistema que utilizada o Chrome como parâmetro. Embora não seja nenhuma novidade, mais uma vez, temos grandes indícios de que a empresa não só usa dados da busca, mas também do navegador para entender aspectos de qualidade da página.

A interface de depuração interna do Google: um vislumbre do processo

Os documentos também revelaram a existência e o uso de uma interface de depuração interna. Em um exemplo, o engenheiro Pandu Nayak digitou “james allan umass” na busca e, em seguida, acessou essa ferramenta. A interface mostrou:

  • Processo de Expansão e Decomposição da Query: Como o sistema interno do Google interpreta e refina a consulta. No exemplo, “umass” foi expandido para “University of Massachusetts”, “James” foi identificado como um nome próprio, e o sistema considerou variações ortográficas como “Allan” podendo ser “Allen”.
  • Tabela Detalhada de Resultados e Sinais: A interface exibia uma tabela com a lista dos 10 links azuis (documents) retornados para a consulta. Para cada link, eram mostradas as pontuações individuais para cada top-level signal considerado, além da pontuação agregada final, o “Final IR” score.

Essa visão da ferramenta de depuração é fascinante, pois ilustra de forma mais concreta como os diferentes signals são ponderados e combinados para chegar ao ranking final que o usuário vê.

Implicações e o que reforçamos para a estratégia de SEO

A análise aprofundada dessas revelações, mesmo com as censuras, traz implicações significativas e reforça certos pilares para uma estratégia de SEO eficaz e adaptada à realidade da busca do Google:

  1. O Ecossistema híbrido de sinais persiste: Fica claro que o Google não opera apenas com algoritmos de machine learning “mágicos” e autônomos. Uma vasta quantidade de signals ainda é “hand-crafted”, ou seja, desenvolvida, ajustada e mantida por engenheiros humanos. A principal razão para isso é a necessidade de transparência interna, controle e a capacidade de diagnosticar e corrigir problemas rapidamente (“if anything breaks Google knows what to fix”). Isso significa que, embora a IA avance, a lógica de engenharia e a intervenção humana qualificada ainda são centrais para a estabilidade e melhoria da busca.
  2. Qualidade (Q*) e Autoridade (PageRank) como fundamentos: A forte ência no Q* (qualidade do document) e a contínua relevância do PageRank como um input para os signals de qualidade sublinham que conteúdo excepcional, confiabilidade e um perfil de backlinks forte e natural continuam sendo absolutamente cruciais. Não há atalho para construir essa base.
  3. Sinais comportamentais são observados (Navboost, Clicks): A importância do Navboost (baseado em 13 meses de dados de cliques) e a menção aos “Clicks” (C) – incluindo o tempo na página antes de voltar à SERP, que remete ao “pogosticking” – como raw signals, indicam que o Google observa e valoriza como os usuários interagem com os resultados. Criar conteúdo que engaje e satisfaça a intenção do usuário a ponto de evitar um retorno rápido à SERP é, portanto, benéfico.
  4. A Revolução semântica dos LLMs (RankEmbed, eDeepRank): A proeminência de signals como o RankEmbed mostra que a compreensão semântica profunda da intenção da query e do conteúdo do document é o futuro (e o presente). Otimizar para entidades, tópicos e a intenção real do usuário, em vez de apenas para strings de palavras-chave, é mais importante do que nunca. A tentativa de “decompor” signals de LLM com ferramentas como o eDeepRank também mostra um esforço para trazer mais interpretabilidade a esses sistemas complexos.
  5. Dados do usuário e contexto (Chrome Data, Navboost): A menção a signals de popularidade usando dados do Chrome e a segmentação do Navboost por localização e dispositivo reforçam que o contexto do usuário e os dados agregados de comportamento influenciam o que é considerado relevante.
  6. Transparência (interna) vs. risco de engenharia reversa: O Google claramente se preocupa com a possibilidade de seus métodos serem replicados se muitos dados internos forem expostos. Isso explica, em parte, o segredo em torno de muitos signals.
  7. Foco contínuo no usuário (apesar de tudo): A declaração de que o Google evita “prever cliques” por serem facilmente manipuláveis e um mau proxy para a experiência do usuário, juntamente com os esforços históricos para combater “content farms” e desinformação, sugere que, em sua essência, a missão de fornecer resultados úteis e de alta qualidade para o usuário final ainda é um motor principal.

Para os profissionais de SEO, a mensagem é de complexidade crescente, mas também de confirmação dos fundamentos.

Uma estratégia de SEO robusta deve ser holística: priorizar a criação de conteúdo de qualidade excepcional que demonstre E-E-A-T (Experiência, Expertise, Autoridade, Confiança); construir um perfil de backlinks natural e autoritativo; garantir uma experiência de usuário impecável que promova engajamento; e, cada vez mais, pensar semanticamente sobre a intenção e o contexto do usuário. Não há uma única “bala de prata”, mas sim uma orquestração cuidadosa de múltiplos fatores que o Google pondera e refina continuamente.

Publisher e Especialista em SEO | Web |  + posts

Publisher do "Não é Agência!" e Especialista de SEO, Willian Porto tem mais de 21 anos de experiência em projetos de aquisição orgânica. Especializado em Portais de Noticia, também participou de projetos em e-commerces, como Americanas, Shoptime, Bosch e Trocafone.

Últimos Conteúdos

Reddit cresce 12 vezes em 2 anos; você o usa na sua estratégia?

O Reddit, autoproclamado "primeira página da internet", tem sido...

Problemas no Discover relatados ontem foram corrigidos; indexação também foi afetada

Ontem, 13, o Google relatou problemas, principalmente, com o...

Google relata problemas no serviço de Discover; resultados podem ser afetados

Google divulgou problemas relacionados com Google Lens, Discover e...