1. Gravação

A gravação em Python é um procedimento que exige a realização de 4 etapas:

  1. definir o nome do arquivo a ser gravado;
  2. abrir o arquivo a ser gravado;
  3. escrever os dados no arquivo aberto;
  4. fechar o arquivo.
import requests 

# Módulo básico de extração
url = 'Insira o URL que você escolheu'
html = requests.get(url).text

# Módulo básico de gravação
nomedoarquivo = 'ADI.html'
arquivoaberto = open(nomedoarquivo, 'w', encoding='utf-8')
arquivoaberto.write(html)
arquivoaberto.close()

O módulo de gravação realiza exatamente as 4 operações acima descritas:

  1. atribui à variável nomedoarquivo um valor que servirá como nome do arquivo a ser criado, o qual deve ser encerrado pela extensão ".html", para indicar que se trata de um arquivo de html. Você também pode gravá-lo como ".txt", o que fará com que você o abra mais facilmente com o bloco de notas. Porém, ao gravar como .html, você poderá abri-lo no Spyder ou no Pycharm, que vão mostrar as formatações em cores diferentes, seguindo o modelo de exibição dos códigos HTML;
  2. abre o arquivo no modo de escrever ('w' de write), utilizando a codificação  utf-8 (que reconhece acentos e cedilhas);
  3. escreve a string correspondente ao código fonte no arquivo aberto. Como foi escolhido o modo 'w', essa operação  sobrescreve qualquer conteúdo anteriormente gravado nesse arquivo. Se fosse utilizada a opção 'a', de add, o novo conteúdo seria acrescentado ao final.
  4. fecha o arquivo, o que é importante porque arquivos abertos consomem memória e estão sujeitos a serem sobrescritos.

2. Leitura

O módulo de leitura segue o mesmo padrão do módulo de gravação, com apenas 3 diferenças:

  1. No lugar da opção 'w' (de write), você deve usar a opção 'r' (de read).
  2. No lugar do comando arquivo.write(html) (que escreve a string html no arquivo aberto pela função open), você deve usar o comando arquivo.read(), para ler todo o arquivo que você abriu.
  3. Você deve atribuir o conteúdo do arquivo lido a uma variável, para poder trabalhar com esses dados depois de  fechar o arquivo. Por se tratar de  dados em HTML, usaremos a variável html para esse fim.

É importante você saber esses elementos, caso você precise desenvolver uma função de leitura adaptada especificamente ao seu projeto. Porém, você pode usar a função dsd.carregar_arquivo(nomedoarquivo), para atribuir o conteúdo de um arquivo a uma variável, sendo que esta função tem a seguinte estrutura.

def carregar_arquivo (nomedoarquivo):
    arquivo = open(nomedoarquivo, 'r', encoding='utf-8')
    html = arquivo.read()
    arquivo.close()
    return html