Como encontrar páginas ocultas em sites

Em 2016, o Google lidou com mais de 3200 bilhões de consultas de pesquisa. No entanto, os resultados fornecidos pelo mecanismo de pesquisa representaram apenas uma fração do conteúdo disponível on-line. Muitas das informações disponíveis on-line não são acessíveis por meio de mecanismos de pesquisa; portanto, é necessário usar ferramentas especiais ou sites de pesquisa para encontrar essas páginas ocultas. Conhecida como a deep web, essa informação oculta representa até 5.000 vezes mais do que o que está disponível usando técnicas típicas de pesquisa.

Tipos de conteúdo oculto

As páginas ocultas dos sites são divididas em categorias que descrevem por que elas permanecem invisíveis para os mecanismos de pesquisa.

Alguns constituem conteúdo dinâmico, que é apresentado apenas quando um visitante emite uma solicitação específica em um site que usa um código baseado em um banco de dados para apresentar resultados específicos. Por exemplo, essas páginas podem incluir resultados de compra com base em combinações específicas de critérios do produto. Os mecanismos de pesquisa não são projetados para rastrear e armazenar informações nesses bancos de dados. Para encontrar essas páginas, você deve ir até o site e procurar as informações específicas que está procurando ou usar um serviço de busca orientado a banco de dados, como o Bright Planet .

Algumas páginas não possuem links que as conectem a fontes de pesquisa. Recursos temporários, como múltiplas versões de sites de subdesenvolvimento, podem ser incluídos nesta categoria, assim como sites mal projetados. Por exemplo, se alguém criou uma página da Web e a transferiu para o servidor do site, mas não adicionou um link a ela nas páginas atuais do site, ninguém saberá que ela está lá, incluindo os mecanismos de pesquisa.

Ainda mais páginas exigem credenciais de login para exibição ou acesso, como sites de inscrição. Web designers designam as páginas e seções dos sites como estando fora dos limites dos mecanismos de busca, efetivamente eliminando sua localização por meios convencionais. Para acessar essas páginas, você geralmente precisa criar uma conta antes de receber permissão para acessá-las.

Usando arquivos robots.txt

Os mecanismos de pesquisa rastreiam as páginas de um site e indexam seu conteúdo para que ele possa aparecer em resposta a consultas. Quando o proprietário de um site deseja excluir algumas partes de seu domínio desses procedimentos de indexação, ele adiciona os endereços desses diretórios ou páginas a um arquivo de texto especial chamado robots.txt, armazenado na raiz do site. Como a maioria dos sites inclui um arquivo robótico, independentemente de adicionar ou não exclusões, você pode usar o nome previsível do documento para exibir seu conteúdo.

Se você digitar "[nome do domínio] /robots.txt" sem as aspas na barra de endereços do seu navegador substituindo "[nome do domínio]" pelo endereço do site, o conteúdo do arquivo do robô geralmente aparecerá a janela do navegador depois de pressionar a tecla "Enter". As entradas precedidas por "não permitir" ou "nofollow" representam partes do site que permanecem inacessíveis por meio de um mecanismo de pesquisa.

Faça você mesmo: hackeando sites

Além dos arquivos robot.txt, muitas vezes você pode encontrar conteúdo oculto digitando endereços da Web para páginas e pastas específicas no navegador da Web. Por exemplo, se você estava vendo um site de um artista e percebeu que cada página usava a mesma convenção de nomenclatura - como gallery1.html, gallery2.html, gallery4.html -, é possível encontrar uma galeria oculta digitando a página "gallery3.html" "no seu navegador da web.

Da mesma forma, se você vir que o site usa pastas para organizar páginas, como example.com/content/page1.html, com "/ content" como sua pasta, poderá ver a própria pasta digitando no site e na pasta pasta, sem uma página, como "example.com/content/" no seu navegador da web. Se o acesso à pasta não tiver sido desativado, você poderá navegar pelas páginas que ele contém, bem como pelas páginas de qualquer subpasta, para encontrar conteúdo oculto.

Este artigo foi feito com a ajuda do itstillworks.com