Testemunho revela prática do Google
O Google pode treinar seus produtos de IA específicos para busca, como o AI Overviews, com conteúdo da web mesmo quando os editores escolheram proibir o treinamento dos produtos gerais de IA do Google. A confirmação veio através do testemunho de Eli Collins, vice-presidente de produto da Google DeepMind, em tribunal na sexta-feira.
- Testemunho revela prática do Google
- Distinção entre treinamento geral e para busca
- Tentar bloquear treinamento de IA já é prática no Brasil
- Preocupações dos editores de sites
- A única forma de realmente proibir: robots.txt
- Contexto: julgamento antitruste
- Volume de dados e fontes adicionais
- Potencial de uso de dados de busca
- Podemos confiar no Google?
Distinção entre treinamento geral e para busca
A razão para isso, segundo Collins, é que os controles do Google para que editores proíbam o treinamento de IA cobrem principalmente o trabalho realizado pelo Google DeepMind, o laboratório de IA da empresa. No entanto, outras divisões dentro da companhia, como a de busca, podem treinar adicionalmente os modelos para seus produtos específicos.
Durante o testemunho, Diana Aguilar, advogada do Departamento de Justiça (DOJ), perguntou: “Uma vez que você pega o modelo de IA Gemini e o coloca dentro da organização de busca, a organização de busca tem a capacidade de treinar com os dados que os editores optaram por proibir para treinamento, correto?”.
Collins respondeu: “Correto — para uso na busca”.
Tentar bloquear treinamento de IA já é prática no Brasil
Embora pareça não ter tantos benefícios claros, vários portais de notícias já tentam bloquear bots de IA. Como é o caso do O Globo:

Preocupações dos editores de sites
O Google utiliza sua IA para resumir respostas a consultas de busca no topo dos resultados. Editores de sites afirmam que isso pode levar os usuários a não clicarem nos links de sites independentes para obter respostas, uma tendência que está prejudicando suas receitas. Ironicamente, o Google está usando dados desses mesmos sites para gerar a informação que alimenta as respostas da IA.
A única forma de realmente proibir: robots.txt
O Google clarificou que a única maneira de os editores impedirem que seus dados sejam usados na IA de busca é optando por não serem indexados pela busca por completo. “O Google tem uma forma separada para os editores gerenciarem seu conteúdo na Busca através do bem estabelecido padrão web robots.txt”, disse um porta-voz do Google em comunicado. O robots.txt é o arquivo incorporado em sites que informa aos bots (de empresas de IA e indexadores da web) se eles podem ou não rastrear um site.
Contexto: julgamento antitruste
O testemunho de Collins ocorreu durante um julgamento de três semanas em Washington, que visa determinar como o Google deve restaurar a competição na busca online. No ano passado, o juiz distrital Amit Mehta decidiu que a gigante da tecnologia monopolizou ilegalmente o mercado de busca e agora está avaliando um conjunto de mudanças propostas pelos órgãos antitruste para lidar com seu controle.
O Departamento de Justiça está pedindo ao tribunal que force o Google a vender seu navegador Chrome e a compartilhar dados-chave usados para gerar resultados de busca. A agência também pede que o Google seja proibido de pagar para ser o motor de busca padrão em outros aplicativos e dispositivos, uma restrição que se estenderia às suas ofertas de IA, incluindo o Gemini.
Volume de dados e fontes adicionais
A advogada do DOJ, Aguilar, apresentou um documento datado de 26 de agosto de 2024, intitulado “Search GenAI <> Gemini v3”. De acordo com esse documento, o Google removeu 80 bilhões de 160 bilhões de “tokens” (fragmentos de conteúdo) após filtrar o material que os editores proibiram para treinamento de IA. Isso levou o juiz Mehta a perguntar a Collins para clarificação: “Os 80 bilhões de 160 bilhões de tokens, 50%, são removidos por editores que optaram por sair?”. Collins respondeu: “Isso está correto”.
O documento também listava “dados de sessões” de busca (coletados durante a interação de um usuário com a Busca do Google) e vídeos do YouTube como dados que poderiam aumentar os modelos de IA do Google.
Potencial de uso de dados de busca
O testemunho também mostrou que o Google explorou como seus modelos de IA poderiam ser muito melhorados pelos dados que já coletou através de anos operando o motor de busca mais popular do mundo. Aguilar mostrou a Collins um documento informativo destinado a Demis Hassabis, CEO do Google DeepMind.
Em um comentário, Hassabis havia considerado treinar um modelo de IA não identificado do Google com uma riqueza de dados de busca — incluindo rankings de busca — para ver o quanto o modelo de IA seria melhorado por esses dados, em comparação com um que não fosse treinado com eles.
“O Google acabou construindo um modelo usando dados de busca?”, perguntou Aguilar a Collins.
“Não que eu saiba”, ele respondeu.
“Mas pelo menos o Sr. Hassabis pensou que seria interessante analisar?”, ela insistiu.
“Sim”, disse Collins.
Podemos confiar no Google?
A pergunta mais importante é se podemos confiar no Google. A empresa, de fato, se mostra preocupada com as opções dos editores em querer ou não fornecer dados para treinamentos de IA? A empresa se preocupa de fato em levar tráfego para os editores?
Em última analise, torna-se cada vez mais difícil acreditar em qualquer informação publica vinda da empresa.
Publisher do "Não é Agência!" e Especialista de SEO, Willian Porto tem mais de 21 anos de experiência em projetos de aquisição orgânica. Especializado em Portais de Notícias, também participou de projetos em e-commerces, como Americanas, Shoptime, Bosch e Trocafone.
- Willian Portohttps://naoeagencia.com.br/author/naoeagencia/
- Willian Portohttps://naoeagencia.com.br/author/naoeagencia/
- Willian Portohttps://naoeagencia.com.br/author/naoeagencia/
- Willian Portohttps://naoeagencia.com.br/author/naoeagencia/

