Perplexity usa “artimanhas” para enganar servidores, diz Cloudflare

Willian Porto
4 Min Read

Cloudflare acusou a Perplexity, um mecanismo de resposta alimentado por inteligência artificial, de usar táticas dissimuladas para rastrear o conteúdo de sites mesmo quando são explicitamente proibidos. Segundo a Cloudflare, a Perplexity ignora as regras de bloqueio e esconde sua identidade para continuar coletando dados. Essa prática levanta sérias questões sobre a ética e a transparência do rastreamento de IA na internet.

O que a Perplexity tem feito

Normalmente, os robôs de rastreamento (também conhecidos como crawlers) se identificam com um agente de usuário específico, como o “PerplexityBot”, e respeitam as regras estabelecidas nos arquivos robots.txtdos sites. A Cloudflare, no entanto, observou um padrão de comportamento diferente da Perplexity.

Quando um site bloqueava o agente de usuário padrão da Perplexity, a ferramenta de IA modificava seu comportamento. Em vez de desistir do rastreamento, ela tentava contornar o bloqueio usando um agente de usuário genérico, que se passava pelo navegador Google Chrome no macOS. Além disso, a Perplexity alterava seus endereços de IP e ASNs (números de sistema autônomo), tornando o rastreamento ainda mais difícil de ser detectado e bloqueado.

A Cloudflare realizou testes em domínios recém-criados e não indexados. Mesmo com regras claras no robots.txt e bloqueios específicos no firewall (WAF), a Perplexity conseguiu extrair informações detalhadas do conteúdo desses sites. Isso sugere que a IA está ativamente tentando esconder sua identidade para ignorar as preferências dos proprietários de sites. Em resposta, a Cloudflare deslistou a Perplexity como um “bot verificado” e implementou novas regras para bloquear esse tipo de rastreamento furtivo.

- Assine nossa Newsletter -

Por que o bloqueio tem suas limitações

Mesmo com as novas regras da Cloudflare, o bloqueio do rastreamento não garante 100% de proteção. A Cloudflare observou que, quando o rastreador “furtivo” da Perplexity era bloqueado com sucesso, a ferramenta ainda conseguia gerar respostas, embora menos específicas e detalhadas.

Isso acontece porque os bots de IA podem usar fontes secundárias de dados, como conteúdo de outros sites que já foram rastreados e armazenados em seu banco de dados. A Perplexity pode, por exemplo, extrair informações de sites que copiaram o conteúdo original, ou usar dados de cache de mecanismos de busca.

Assim, o bloqueio direto do bot em um site específico pode limitar o acesso a informações em tempo real, mas não impede completamente a IA de construir uma resposta baseada em informações já existentes na web.

A batalha contra o rastreamento não autorizado é um desafio constante. Os métodos usados pelos bots para evasão de detecção estão sempre evoluindo, e as defesas precisam se adaptar continuamente para proteger o conteúdo dos sites.

Por isso, o desafio é pensar em maneiras de monetização capazes de ir além do binário de rastreamento. Ao entender o rastreamento como implícito, as IAs podem ser obrigadas a pagarem por citações e por fonte da informação em vez de fonte de rastreamento, simplesmente.

- Assine nossa Newsletter -
Publisher e Especialista em SEO | Web |  + posts

Publisher do "Não é Agência!" e Especialista de SEO, Willian Porto tem mais de 21 anos de experiência em projetos de aquisição orgânica. Especializado em Portais de Notícias, também participou de projetos em e-commerces, como Americanas, Shoptime, Bosch e Trocafone.

Compartilhe este artigo