Cada página da internet é publicada em um "endereço", que chamamos de URL (Uniform Resourse Locator). A devida compreensão dos endereços será muito importante para vocês porque a nossa capacidade de extrair dados da internet vem, em grande medida, de os sites adotarem sistemas bem definidos de endereçamento dos dados.
Para construir extratores, como os que vocês farão no Módulo 10, o primeiro passo e analisar cuidadosamente o site em que os dados a serem "raspados" estão disponíveis, para entender o sistema de ordenação dos dados utilizados pelo site. Por isso, vamos aproveitar essa oportunidade e já desenvolver um pouco esse conhecimento, que vai ser amadurecido até lá, pois você desenvolverá até lá mais atenção para as informações que aparecem nas barras de endereços do seu navegador.
Tomemos, por exemplo um endereço de um processo catalogado na página do STF:
http://portal.stf.jus.br/processos/detalhe.asp?incidente=5536310
Para entender esse endereço, primeiro é necessário segmentá-lo nas partes que os constituem.
Protocolo: http:
Esquema de troca de informações, correspondente ao código que será utilizado na comunicação entre o seu computador e o servidor. HTTP (Hypertext Transfer Protocol) é o protocolo típico de páginas sem criptografia.
Domínio: //stf.jus.br
O domíno indica o endereço do servidor no qual estão as informações. Servidor é o computador onde estão rodando os programas que oferecem publicamente as páginas da internet. São computadores ligados 24h por dia e conectados sempre à rede, para que os conteúdos hospedados neles sejam sempre visíveis.
Subdomínio: portal.
Essa parte antes do domínio indica um subdomínio, que é uma subdivisão do endereço do servidor.
Caminho (Path): /processos/detalhe.asp
O caminho indica o local do servidor em que estão as informações buscadas.
Consulta (Querry): ?incidente=5536310
Consulta: conjunto de parâmetros que possibilitam ao servidor identificar a página solicitada, entre as várias páginas alojadas naquele caminho.
A soma de todos esses elementos constitui um endereço que leva à página da ADI 6000 no STF.
Se você olhar o endereço desta página, verá uma conformação semelhante:
https://dsd.arcos.org.br/as-urls/
O protocolo muda de HTTP para HTTPS, que é um protocolo idêntico ao HTTP, mas com uma camada a mais de informação, permitindo a circulação de informações criptografadas. Por esse motivo, as páginas HTTPS aparecem com uma imagem de cadeado fechado ao lado.
O domíno é "arcos.org.br", sendo que o subdomínio "dsd" completa o endereço deste site, em que foi designado um subdomínio diferente para cada curso alojado nele.
Para chegar a este post, não se usa uma querry, pois basta indicar o seu caminho exato, sendo que esse caminho é chamando no Ghost de slug. É ele que definimos quando customizamos o endereço do post na aba de Post setting.
Utilizamos essa customização para realizar essa transformação do "blog" em "site", pois definimos que os itens que aparecem na página inicial são apenas os posts classificados como "modulos" e que eles devem ser apresentados em ordem alfabética dos endereços, e não na ordem cronológica que caracteriza os blogs. Essa adaptação exigiu, então, que atribuíssemos a cada módulo um endereço adequado para que a ordenação alfabética pudesse deixar os módulos na ordem adequada.