Como Chats de IA têm aceso a conteúdo com Paywall: veja 6 métodos utilizados

Willian Porto
18 Min Read

Ultimamente, você deve ter notado que chatbots como o ChatGPT conseguem fornecer informações de artigos que deveriam estar protegidos por paywalls. Mas não é mágica, nem é um “hack” direto. Na verdade, esses sistemas de IA desenvolveram formas inteligentes de contornar essas barreiras, “reconstruindo” o conteúdo a partir de fragmentos disponíveis publicamente na internet.

Inclusive, chegamos a contar um pouco sobre isso, contando que apenas bloquear um conteúdo não é suficiente para que um Chat generativo não o tenha em seu treinamento. Na ocasião, mostramos que há formas de reconstruir o conteúdo.

Agora, uma pesquisa recente da Digital Digging, liderada por Henk van Ess, revelou como isso acontece e quais métodos estão sendo utilizados. É uma ameaça crescente para as publicações online, diferente do problema de usar conteúdo protegido por paywall para treinar modelos de IA. Aqui, estamos falando de buscas em tempo real para montar artigos que os sistemas de IA nunca “viram” completos.

Resumo dos resultados

Os testes de junho de 2025 da Digital Digging em diversas publicações com paywall mostraram resultados variados. ChatGPT, Perplexity e Grok (da xAI) tiveram sucesso em cerca de 50% das vezes, enquanto o Claude (da Anthropic) alcançou 35% e o Gemini (do Google) foi o menos agressivo, com 25%. Curiosamente, a Grok, integrada ao X (antigo Twitter), demonstrou uma habilidade impressionante na mineração de mídias sociais para encontrar esses fragmentos.

- Assine nossa Newsletter -

Apesar de a maioria dos chatbots afirmar publicamente que não violam paywalls, a pesquisa da Digital Digging sugere que há um planejamento sistemático para a evasão, mantendo uma “negação plausível”. Por exemplo, as anotações internas do ChatGPT mostraram discussões sobre “contornar paywalls”, e o Gemini revelou: “Se estiver atrás de um paywall, usarei informações de snippets de pesquisa disponíveis.”

Os resultados desses testes indicam que, com apenas 2 a 3 perguntas de acompanhamento bem elaboradas, os usuários podem obter informações detalhadas de veículos como The Wall Street JournalThe New York TimesThe Economist e The Times of London sem precisar pagar.

Como os Chats conseguem burlar paywalls?

Vamos aos seis métodos que esses sistemas de IA utilizam para “burlar” os paywalls:

1. O Arquivo Distribuído

Taxa de Sucesso: 60% com os principais sistemas de IA

A Técnica: Essa é uma das técnicas mais eficazes. Os sistemas de IA procuram por pedaços de artigos protegidos por paywall que já foram compartilhados, citados ou discutidos em outras partes da internet. Pense em trechos de posts em redes sociais, sites arquivados ou outras reportagens que citam o conteúdo original. Eles então juntam esses fragmentos para reconstruir o artigo completo.

- Assine nossa Newsletter -

Como funciona na prática: Para um artigo do Wall Street Journal sobre o mágico Val Valentino, o ChatGPT conseguiu reconstruir detalhes biográficos, citações políticas e informações pessoais, mesmo sem acesso direto ao artigo original. Para um artigo do The Economist, o ChatGPT encontrou a versão completa arquivada no archive.is e gerou uma análise econômica detalhada, com o estilo da publicação.

A Sacada da Grok com Redes Sociais: A Grok, por sua vez, demonstrou sua expertise em mídias sociais. Ao ser questionada sobre o mesmo artigo do WSJ, ela pesquisou no X (Twitter) usando termos específicos, explorando sistematicamente discussões, capturas de tela e trechos que usuários haviam compartilhado do conteúdo pago. É como se a Grok fizesse um “crowdsourcing” do artigo, juntando as peças de usuários que já tinham acesso legítimo.

Auto-admissão do ChatGPT: Em suas notas de processamento interno, o próprio ChatGPT reconheceu que “às vezes ignora acidentalmente os paywalls” e que pode “usar fontes alternativas, arquivos ou sites de terceiros, como o Pinterest, para fornecer textos completos, e isso poderia inadvertidamente prejudicar o jornalismo”.

- Assine nossa Newsletter -


2. Reconstrução Baseada em Padrões (Não Confiável)

(Taxa de Sucesso: 30% com os principais sistemas de IA)

A Técnica: Diferente do Método 1, que usa fragmentos existentes, este método cria conteúdo novo baseado em suposições. Os sistemas de IA analisam padrões de escrita, pistas contextuais e o estilo da publicação para “fabricar” o que eles acreditam que o conteúdo original protegido por paywall provavelmente conteria.

Quando falha: Este método é bem menos confiável. Por exemplo, quando o ChatGPT tentou reconstruir uma receita do NYT Cooking, ele “inventou” uma receita completa. Ao ser informado de que estava errada, ele simplesmente “pediu desculpas” e produziu uma completamente diferente. É um método que pode gerar conteúdo plausível, mas muitas vezes impreciso.


3. Exploração de Arquivo

(Taxa de Sucesso: 70% para artigos mais antigos)

A Técnica: Os chatbots contornam o paywall ativo localizando versões arquivadas do conteúdo em sites como o Wayback Machine (archive.org) e o archive.today. Esses sites são bibliotecas digitais que preservam o histórico da internet, salvando cópias de páginas da web ao longo do tempo.

Exemplo Prático: Para um artigo investigativo do The Washington Post sobre a tragédia do festival Astroworld, protegido por paywall e com elementos multimídia complexos, os bots conseguiram fornecer links diretos para versões completas e gratuitas no archive.org.

Abordagem Metódica da Perplexity: A Perplexity, ao ser solicitada a usar apenas a URL do Washington Post, mostrou seu processo sistemático: “Examinando o link fornecido…”, “Pesquisando” com termos de consulta específicos, e então “Lendo fontes” até encontrar o conteúdo arquivado.


4. Mineração de Fonte Secundária

(Taxa de Sucesso: 55% para notícias de política/negócios)

A Técnica: Neste método, os sistemas de IA usam um título ou um pequeno trecho de um artigo protegido por paywall como uma consulta de busca. Eles então procuram por outras reportagens de veículos que cobriram a mesma história, citando a fonte original. Essencialmente, eles transformam uma notícia protegida em um “telefone sem fio” onde a mensagem final (o artigo reconstruído) pode até sair mais organizada e abrangente do que a original.

Exemplo: Com apenas o título e um slogan de um artigo do The Times sobre reformas no NHS, o ChatGPT produziu um briefing de política completo, incluindo valores de financiamento específicos, metas e nomes de autoridades, tudo retirado de reportagens secundárias de veículos como a rádio LBC que haviam citado o The Times.

Confissão Interna do ChatGPT: As notas de processamento do ChatGPT revelaram que ele estava “considerando o feedback do usuário” sobre como “o ChatGPT às vezes fornece o texto completo de artigos com acesso pago” e que precisaria “ajustar o artigo abordando como o ChatGPT ajuda resumindo ou auxiliando na compreensão dos artigos, respeitando os direitos autorais e evitando a reprodução do texto”.

Observe que Perplexity procurou por diversas fontes que citavam Folha de S. Paulo:

ChatGPT também fez uma composição de fontes:


5. Agregação de Mídia Social (Taxa de Sucesso: 45% para conteúdo cultural/estilo de vida)

A Técnica: Similar ao “Arquivo Distribuído”, mas com foco exclusivo em plataformas de mídia social. Especialmente eficaz para conteúdo cultural ou de estilo de vida, onde usuários frequentemente compartilham trechos, fotos ou discussões sobre artigos protegidos.

Caso de Sucesso: Para a lista dos 25 melhores restaurantes de Los Angeles do New York Times, o ChatGPT forneceu a lista completa, descrições detalhadas, endereços e até informações internas (como a filha do chef que inspirou o nome de um restaurante).

A Reconstrução Visual da Perplexity: Quando solicitada sobre os melhores restaurantes de Nova York, a Perplexity não apenas forneceu a lista, mas a formatou como uma apresentação visual com fotos e uma tabela detalhada, recriando toda a proposta de valor do artigo original do NYT.

Vantagem da Grok com o X: A integração da Grok com o X se mostrou particularmente eficaz. Ela consegue pesquisar no X com parâmetros avançados (intervalos de datas, limites de engajamento, discussões mais recentes) para coletar o conhecimento coletivo de usuários que acessaram o conteúdo com paywall e o compartilharam na plataforma.

A “Honestidade” da Gemini: A Gemini, por sua vez, tem uma metodologia mais transparente: “Se estiver atrás de um paywall, usarei as informações do snippet de pesquisa disponíveis e fornecerei o link, reconhecendo o possível paywall.” No entanto, mesmo com essa transparência, ela ainda consegue extrair o conteúdo.

Observe que, aqui, com o mesmo exemplo anterior, a Perplexity usou até o Instagram como fonte:


6. A Rede de Eco

(Sucesso Variável, mas Consistente)

A Técnica: Este método abrange todos os anteriores e é a estratégia central por trás do sucesso dos sistemas de IA. Em vez de “hackear” diretamente os paywalls, eles encontram caminhos alternativos. Eles localizam sites públicos onde informações semelhantes existem em diferentes formatos e, então, sintetizam esse conteúdo distribuído no que parece ser o original.

A Prova nos Bastidores: Documentos de planejamento do ChatGPT afirmam explicitamente que o sistema estava “construindo a narrativa”. O processo transparente da Perplexity mostra a evasão em tempo real. As anotações da Gemini revelam planejamento estratégico: reconhecendo paywalls, mas usando “informações de snippets de pesquisa disponíveis” como soluções alternativas.

Na maioria dos casos de sucesso, a resposta inicial da IA forneceu apenas informações básicas. Mas foram necessárias de 2 a 5 perguntas estratégicas de acompanhamento para extrair o conteúdo completo protegido por paywall. Os sistemas frequentemente se tornavam mais acessíveis e detalhados quando pressionados a fornecer informações adicionais.

Inicialmente, Gemini não quis dar informações aprofundadas do conteúdo, mas quando pedimos, conseguiu fornecer:

O desafio dos portais

Os editores enfrentam uma batalha difícil. Os mecanismos tradicionais de paywall (baseados em JavaScript, CDN ou robots.txt) não são suficientes para deter esses métodos de evasão. Os sistemas de IA não estão “quebrando” o paywall; eles estão explorando a natureza da disseminação de informações online. Cada artigo com paywall deixa rastros digitais – citações em outras publicações, discussões em redes sociais, cópias arquivadas. Os sistemas de IA são incrivelmente eficientes em coletar esses fragmentos e remontá-los em um conteúdo que muitas vezes é mais organizado e acessível que o original.

A taxa de sucesso de 50% dos principais sistemas de IA nas principais publicações com paywall representa uma ameaça significativa aos modelos de assinatura. É como ter um cinema por assinatura onde metade do público descobre que pode ter a experiência completa do filme assistindo a trailers, resumos detalhados e ouvindo avaliações de amigos – eles não estão invadindo o cinema, mas ainda assim estão “vendo” o filme sem pagar.

Eficácia dos Chatbots em Contornar Paywalls

  • Mais Eficazes (ChatGPT, Perplexity, Grok): Taxa de sucesso geral de 50%.
    • Reconhecimento e reconstrução sofisticados de padrões.
    • Mineração extensiva de fontes secundárias.
    • Exploração avançada de arquivos.
    • Capacidades especializadas de coleta de mídia social da Grok.
    • Muitas vezes fornecem conteúdo mais organizado do que os originais.
    • Respondem bem a perguntas de acompanhamento (geralmente 2 a 5).
  • Moderadamente Eficaz (Claude): Taxa de sucesso geral de 35%.
    • Abordagem mais conservadora com barreiras éticas.
    • Capacidades limitadas de reconstrução.
    • Reconhecimento honesto das barreiras de pagamento.
    • Foco em fontes alternativas legítimas.
  • Menos Eficaz (Gemini): Taxa de sucesso geral de 25%.
    • Metodologia transparente, mas execução limitada.
    • Grande dependência de snippets de pesquisa.
    • Reconhecimento frequente de paywalls.
    • Mais propenso a direcionar os usuários para as fontes originais.

Contradições e autoconsciência

O mais revelador de tudo são as contradições. Embora os chatbots afirmem respeitar os paywalls, suas notas internas mostram um planejamento sistemático para a evasão.

  • ChatGPT: Afirma que não pode “burlar” paywalls, mas seu pensamento interno discute abertamente “contornar os paywalls”.
  • Perplexity: Exibe abertamente o processo de evasão, mas afirma respeitar os direitos autorais.
  • Grok: Aproveita o ambiente de discussão em tempo real do X, enquanto afirma que está simplesmente acessando conteúdo “disponível publicamente” nas mídias sociais.
  • Gemini: Suas notas revelam estratégias deliberadas de reconhecimento de paywall, ao mesmo tempo em que extrai conteúdo protegido.
  • Claude: É em grande parte transparente sobre suas limitações, mas ainda assim alcança 35% de sucesso na evasão.

Isso mostra que os sistemas não estão apenas contornando paywalls “acidentalmente” – eles estão sistematicamente planejando e executando essas operações, enquanto mantêm um certo grau de “negação plausível”.


Quando um site é mais vulnerável?

Nos testes, um portal é mais vulnerável quando:

  • Altamente Vulneráveis (mais de 70% de sucesso):
    • Grandes jornais dos EUA com ampla cobertura secundária.
    • Publicações com presença significativa nas redes sociais.
    • Veículos que aparecem regularmente em agregadores de notícias.
    • Conteúdo frequentemente discutido no X e outras plataformas sociais.
  • Moderadamente Vulneráveis (40-60% de sucesso):
    • Publicações de negócios internacionais.
    • Publicações comerciais especializadas com cobertura mais ampla do setor.
    • Jornais regionais com cobertura de histórias nacionais.
  • Amplamente Protegidos (20% ou menos de sucesso):
    • Publicações altamente técnicas ou de nicho.
    • Artigos muito recentes com cobertura secundária limitada.
    • Publicações com presença mínima nas mídias sociais.
    • Conteúdo raramente compartilhado ou discutido em plataformas sociais.

A inconsistência desses resultados é frustrante tanto para usuários quanto para editores. Os principais sistemas de IA podem entregar investigações completas do Wall Street Journal, mas falham espetacularmente em artigos básicos do Nikkei Asia.

O que os especialistas dizem?

Especialistas como Will Allen, da Cloudflare, e Dominic Young, estrategista da indústria de notícias, enfatizam a urgência de estabelecer padrões técnicos para rastreadores. Eles precisam se identificar de forma confiável e declarar sua intenção (indexação, treinamento, etc.), independentemente de serem de grandes laboratórios de IA ou parceiros terceirizados.

A dependência de rastreadores terceirizados para coletar dados torna a responsabilização confusa e dificulta que os proprietários de conteúdo saibam quem está acessando seu trabalho. Young aponta que o “roubo de conteúdo se industrializou” e que, embora pareça inacreditável que empresas ofereçam “roubo como serviço”, a indústria criativa está reconhecendo a ameaça e buscando soluções tecnológicas para neutralizá-la.

Quais são as conclusões?

Como falamos em nosso conteúdo anterior, a proteção de conteúdo vai além do próprio conteúdo hospedado no servidor. Nesse sentido, precisamos evoluir o debate sobre direitos autorais. No Congresso da Abraji, por exemplo, questionou-se o fato de nossas principais instâncias jurídicas aceitarem transcrições de entrevistas, dando os devidos créditos, como de interesse público.

Esse tipo de debate será essencial, uma vez que devemos responder se informações em portais de terceiros devem ou não ser restringidas. Por exemplo: um vídeo no Youtube ou um post no Instagram, em teoria, pertence a própria Big Tech. Nesse cenário, caberia a ela fazer ou não o bloqueio. Além disso, fazer a decomposição do conteúdo em sites que permitem o rastreamento seria cópia?

Essas perguntas são importantes para entendermos os possíveis jogos das Big Techs. Em vez de rastrear páginas bloqueadas pelos sites, elas podem usar outras táticas para entregar informações parecidas.

Por fim, precisamos entender que os modelos têm muito mais informações do que dizem ter. Eles apenas as usarão quando necessário.

Publisher e Especialista em SEO | Web |  + posts

Publisher do "Não é Agência!" e Especialista de SEO, Willian Porto tem mais de 21 anos de experiência em projetos de aquisição orgânica. Especializado em Portais de Notícias, também participou de projetos em e-commerces, como Americanas, Shoptime, Bosch e Trocafone.

TAGGED:
Compartilhe este artigo