O rápido avanço da inteligência artificial (IA) e a prática de empresas de tecnologia de raspar conteúdo de sites de notícias e outras publicações para treinar seus modelos estão no centro de uma batalha cada vez mais intensa. A ausência de consentimento e remuneração para os criadores de conteúdo está levando a indústria de mídia a se unir para encontrar uma solução.
Recentemente, mais de 80 executivos de mídia se reuniram em Nova York, sob a liderança do IAB Tech Lab, para discutir a ameaça existencial que a IA representa. O objetivo principal do encontro foi claro: como bloquear a raspagem de conteúdo e, ao mesmo tempo, forçar as empresas de IA a se sentarem à mesa de negociação.
A parede tecnológica e a força da coalizão
De acordo com o portal DIGDAY, a esperança do grupo é construir uma “parede” que torne a raspagem de conteúdo inviável. Essa parede está tomando forma no LLM Content Ingest API, uma estrutura técnica que permitirá às publicações controlar quem acessa seu conteúdo e sob quais termos. A ideia é que, em vez de um sistema aberto, haja uma estrutura que permita a permissão e o pagamento desde o início.
A coalizão de veículos de mídia acredita que, ao bloquear o acesso de forma coordenada, a “fonte” de conteúdo gratuito que alimenta os modelos de IA será reduzida, forçando as empresas de IA a negociar. Conforme Anthony Katsur, CEO do IAB Tech Lab, a aposta é que “se bloquearmos os crawlers em geral e começarmos a subalimentá-los, isso forçará alguns deles a voltarem à mesa“.
Os desafios e as frentes de luta
Apesar do otimismo, os desafios são enormes. A realidade é que muitas empresas de IA já demonstraram a intenção de ignorar as orientações de editores, tratando ferramentas como o robots.txt como meras sugestões. Algumas raspam conteúdo de forma disfarçada ou utilizando “crawlers” camuflados. Segundo Katsur, “nem todos os LLMs estão obedecendo às ordens de bloqueio”, e “encontrarão outras formas de continuar a rastrear sub-repticiamente”.
Por isso, a iniciativa do IAB não busca uma solução 100% à prova de falhas, mas sim criar uma pressão econômica e técnica que torne a violação de direitos insustentável.
O sucesso da iniciativa depende de alguns pontos cruciais que foram acordados na reunião:
- Padronização: A linha de defesa só será eficaz se todos usarem a mesma estrutura. Um sistema padronizado permitirá rastreamento, controle e aplicação consistentes em toda a infraestrutura da web.
- Atribuição: A atribuição de crédito não é opcional, é fundamental. Sem ela, o conteúdo original é resumido ou parafraseado sem reconhecimento, visibilidade ou relação com a fonte, minando a credibilidade e a relevância dos produtores de conteúdo.
- Monetização Híbrida: A expectativa é que surja um modelo de pagamento híbrido. Isso pode incluir uma taxa por cada vez que um bot ingere conteúdo (pay-per-crawl) e um modelo de pagamento pela utilização desse conteúdo em uma resposta gerada pela IA.
Em essência, o esforço da coalizão de publicações se resume em quatro palavras-chave que podem definir o futuro da relação entre mídia e IA: controle, consentimento, crédito e compensação.
Como disse Paul Bannister, diretor de estratégia da Raptive, que vende anúncios para sites independentes, é “importante que a indústria esteja se unindo para pensar em maneiras de colocar atrito no sistema para dificultar o roubo do conteúdo de todos pelos sistemas de IA“. Ele também observou que a indústria “está se unindo para realmente pensar em como seria uma estrutura de pagamento contínuo entre editores e empresas de IA“.
Recompensa por fontes ou por rastreamento?
Entretanto, sistemas que baseados apenas no rastreamento podem se mostrar ineficientes. Como mostramos, é relativamente fácil para os sistemas de IA conseguirem informações suficientes sobre conteúdos sem mesmo acessar o site.
Dessa maneira, pode fazer mais sentido que a recompensa se dê para a fonte que gere determinadas respostas, independentemente do site que, no fundo, gerou o conteúdo. Por exemplo: Folha de São Paulo, Portal A, publicou uma entrevista exclusiva com determinado ministro.
O Portal B cita, com aspas, a entrevista, e publica o conteúdo no Youtube. Observe que gerou-se uma cadeia com três sites distintos para repercutir um trabalho original de apenas um veículo.
Nesse sentido, uma IA generativa qualquer poderia ter acesso a partes relevantes da entrevista sem precisar rastrear nenhum dos sites ou ter acordo com eles. Bastava utilizar o conteúdo existente no Youtube.
Um sistema que recompense as fontes é útil para premiar as origens das informações e recompensar quem criou o conteúdo original.
Pode-se dividir os valores entre as fontes originárias e secundárias. Nesse caso, parte do valor seria cedido para a Folha, portal A, e parte para o Portal B (ou Youtube).
Esperança
Apesar da ausência de gigantes da IA como OpenAI, Anthropic e Perplexity, a presença de Google e Meta na reunião enviou um sinal importante. Essas empresas entendem que um ecossistema se quebra quando um lado leva tudo e não oferece nada em troca.
A luta não se restringirá apenas a aspectos técnicos. Ela se desdobrará em tribunais, salas de regulamentação e conselhos de administração de empresas. No entanto, a reunião do IAB Tech Lab ofereceu à indústria de mídia algo raro: esperança.
A esperança de que, ao se unirem, as publicações consigam garantir que a razão e o bom senso alcancem a disrupção tecnológica. Conforme um executivo de publicações que participou da reunião disse à DIGIDAY sob a condição de anonimato, “se fizermos isso direito, todos que criam informação podem ter uma parte em um mercado em crescimento“.
A importância da participação do Google
Apesar de empresas como OpenAI e Perplexity não terem participado da reunião do IAB Tech Lab, a presença de Google e Meta enviou um sinal crucial para o mercado. Essas empresas, com sua vasta experiência e influência, entendem que um ecossistema digital saudável exige um equilíbrio entre todos os seus participantes.
A presença na mesa de discussões sugeriu a alguns que, ao contrário de algumas startups de IA que veem o conteúdo das publicações como um recurso gratuito e ilimitado, gigantes como Google e Meta estão interessadas no que os editores e demais participantes têm a dizer.
Embora a participação do Google, em particular, seja vista por alguns como um indicativo de que a empresa reconhece a necessidade de um diálogo para estabelecer regras claras e um modelo de remuneração viável para os produtores de conteúdo, talvez, um pouco de ceticismo seja prudente.
Ainda que melhor do que não contar com a participação da empresa, o Google não tem dado mostras suficientes e claras sobre formas relevantes de manter todo ecossistema de jornalismo e conteúdo aprofundado em funcionamento. Caso contrário, já estaria liderando discussões e implementando testes em todo mundo.
Publisher do "Não é Agência!" e Especialista de SEO, Willian Porto tem mais de 21 anos de experiência em projetos de aquisição orgânica. Especializado em Portais de Notícias, também participou de projetos em e-commerces, como Americanas, Shoptime, Bosch e Trocafone.
- Willian Portohttps://naoeagencia.com.br/author/naoeagencia/
- Willian Portohttps://naoeagencia.com.br/author/naoeagencia/
- Willian Portohttps://naoeagencia.com.br/author/naoeagencia/
- Willian Portohttps://naoeagencia.com.br/author/naoeagencia/

