1. Introdução

Uma das formas mais eficiente de fazer pesquisas de dados é buscar bancos de dados já construídos e trabalhar a partir deles (Costa 2020). Algumas bases de dados decorrentes de outras pesquisas no campo são:

Canello, Julio (2016). "Ações Diretas no Supremo Tribunal Federal do Brasil (1988-2015)", https://doi.org/10.7910/DVN/8WV3A4, Harvard Dataverse.
Costa, Alexandre e Grupo de Pesquisa Política e Direito. Banco de Dados Simplificado sobre Controle Concentrado (ADI e ADPF). Arcos, 2019.
Costa, Alexandre. Banco ADIs. Arcos, 2020. [Diferentemente da base anterior, esta decorre apenas de extração de dados da página, sem tratamento humano posterior]
Costa, Alexandre; Costa, Henrique. Base de dados utilizada na produção do artigo Evolução do perfil dos demandantes no controle concentrado de constitucionalidade realizado pelo STF por meio de ADIs e ADPFs. Revista de Ciências Sociais, v. 49, n. 2, 2018. [Na página da publicação há um link para a base de dados e para os gráficos]
Mariano Silva, Jefferson. Jurisdição constitucional no Brasil (1966-2017). Banco de dados. Harvard Dataverse, 2018.STF. Acervo do STF em 2020.

Com exceção do primeiro banco de dados, que está em formato CSV (.csv), os demais estão em formato Excel (.xlsx) e podem ser explorados por meio desse programa, que é um dos mais comuns para gerenciar planilhas.

A vantagem do Excel é que se trata de um programa com muitos recursos e de uso bastante difundido, o que faz com que os seus bancos de dados construídos nesse formato tenham amplas possibilidades de circulação. Embora existam outros formatos mais universais (especialmente o .csv), eles são menos conhecidos das pessoas em geral e utilizá-los no Excel exige conhecimentos que serão tratados neste texto.

Ao final, deste módulo, você deve ser capaz de:

  1. importar dados de arquivos .csv para o Excel;
  2. adaptar as planilhas para serem analisadas;
  3. realizar análises preliminares por meio de filtros e tabelas dinâmicas;
  4. conhecer algumas funções do Excel que são úteis para a exploração de dados.

2. Tabelas

Tanto o .csv quanto o .xlsx são arquivos que contém tabelas: arranjos bidimensionais, em que os valores são gravados em função do cruzamento de uma linha (que tipicamente contém um objeto da unidade de análise) e uma coluna (que tipicamente indica uma variável). A simplicidade desse arranjo permite uma compreensão rápida e um tratamento bastante eficaz dos dados, o que é uma grande vantagem.

A desvantagem é que esse arranjo torna muito difícil lidar com dados que fujam a esse sistema. Um exemplo claro dessa dificuldade é a tentativa de trabalhar mediante tabelas com os andamentos processuais. Se você pesquisa um processo no STF, o sistema direcional para uma página em que há uma lista sequencial de andamentos, cada um com uma data e um conteúdo. Se há 20 andamentos diferentes para um processo, como inserir essa informação em uma tabela?

Você pode encontrar dados desse tipo no banco ADIs, pois eu extraí os dados dos andamentos das ADIs e os lancei todos dentro da mesma célula. Na coluna CI está uma lista, entre colchetes, de todos os andamentos lançados no processo. Na coluna CH, está o número de andamentos, e existe um processo (ADI2797) com 187 andamentos. Esse é um modo de organizar os dados que dificulta muito a extração de informações relevantes de cada processo, visto que os andamentos estão todos misturados na mesma célula.

Para que as tabelas sejam legíveis, é importante que cada "célula" contenha um valor, e não uma lista de valores. Quando escolhemos os processos como unidades de análise, não faz muito sentido uma variável "lista de andamentos", o que nos força a fazer análises dos andamentos para reduzir essa complexidade a algumas variáveis que nos interessam e que estão nos andamentos. No banco ADIs, eu extraí algumas informações do banco de andamentos e alimentei colunas epecíficas:

  • G: data do trânsito em julgado;
  • H: adoção do rito do art. 12;
  • L: processo ao qual os autos estão apensados, se for o caso;
  • Q: origem do ato impugnado;
  • W: entrada no tribunal;
  • BR: resultado final.

Algumas células têm listas de valores, em vez de valores individuais, como é o caso de:

  • AM: Atores, abrangendo requerentes, interessados e seus advogados;
  • AO: Requerentes;
  • CL: Decisões.

Essas listas contém dados que precisam ser analisados para que possam ser traduzidos em informações relevantes. Trata-se de um trabalho ainda em curso, de gerar filtros capazes de identificar, nas listas de andamentos, as decisões, os incidentes, os pedidos de ingresso como amicus curiae, reduzindo as múltiplas informações de cada uma dessas células a uma multiplicidade de variáveis, cada uma com um valor determinado. Esse tipo de processamento das informações, gerando tabelas, é um dos principais elementos envolvidos nas pesquisas de dados.

Existem limitações nesse tipo de organização de dados e, dependendo do trabalho que você queira fazer, pode valer a pena utilizar modelos mais complexos de organização dos dados, como bancos de dados relacionais e bancos de dados não relacionais.

3. Planilhas

Um documento do Excel pode ser composto por uma ou mais planilhas, ou seja, por uma ou mais tabelas, gravadas dentro do mesmo documento. As planilhas que compõem um documento .xlsx ficam visíveis na parte inferior do documento.

A base do Jefferson Mariano, por exemplo, contém 7 planilhas diferentes: uma que apresenta o trabalho, outra que indica os códigos usados e 5 planilhas de dados propriamente, cada uma sobre um tipo de ação (RP, ADI, ADPF, ADO e ADC). A planilha ADIns tem 119 colunas, cada uma delas indicando alguma das variáveis que foram medidas acerca de cada processo. Tal extensão e complexidade mostra que é possível trabalhar com tabelas que contém muitos dados relevantes, mas convém iniciar a exploração com arquivos mais simples.

Para realizar uma coleta real, entre na página de estatística do STF e procure, abaixo da janela de busca, as várias janelas que remetem para as páginas específicas com as informações.

Clique sobre o "VER MAIS" da janela Acervo, o que te levará para uma página com vários gráficos sobre o Acervo do STF em 2020. Esses gráficos são interativos, o que possibilita que você inicie a exploração dos dados pela inserção de filtros.

Se você estiver conduzindo um trabalho sobre ADIs, você pode se interessar por identificar todas as ADIs que estão em tramitação atualmente. Você verá que não há um filtro por classe, mas um filtro por Grupo de Classe, com 4 classificações: Controle Concentrado, Criminais, Recursal e Demais Originárias.

Entretanto, é possível filtrar as ADIs interagindo diretamente com os gráficos. No Gráfico Classe de Processos, clique sobre a barra das ADIs.

Essa escolha vai abrir um painel de seleção, no qual você pode escolher quais são os dados que serão mostrados no gráfico. Se você selecionar apenas as ADIs e clicar sobre o botão verde à direita, você terá filtrado apenas os dados referentes a essa classe processual.

Você pode selecionar outras classe processuais para obter dados agregados sobre um conjunto que envolva outras ações. Nossas pesquisas (Costa e Costa, 2018) sugerem que você deve tratar sempre as ADIs em conjunto com as ADPFs, visto que as ADPFs atuam como uma forma de extensão da ADI, que aplica o mesmo processo a alguns temas que foram excluídos de sua incidência pelo texto legal (que limita a ADI à impugnação de atos normativos federas e estaduais, excluindo so municipais) e pela jurisprudência (que entendeu ser inadmissível ADI sobre atos anteriores à CF-88).

Este é um artigo cuja publicação incorpora um elemento que é típico das revistas científicas, mas que nem sempre está presente nos artigos da área jurídica: a publicação é acompanhada por arquivos com os gráficos (que podem ser visualizados em sua integridade, visto que a publicação usa imagens que não tornam visíveis todos os dados) e, principalmente, com a base de dados utilizada para a construção do artigo, e que vocês podem utilizar para buscar replicar o trabalho, para contestar as conclusões ou para fazer novas pesquisas.

Mas voltemos à página do Acervo do STF, para explorar algumas de seus elementos interessantes. "Acervo" é uma palavra com múltiplas possibilidades de interpretação, o que faz com que seja necessário explicar exatamente o sentido em que ela é utilizada, assim como o significado das variáveis que são utilizadas nesses gráficos, o que está devidamente esclarecido no documento "Relatório em PDF", localizado no rodapé, à direita. Embora o nome do arquivo não indique isso de forma muito clara, o seu conteúdo traz as explicações necessárias à devida compreensão dos dados.

Porém, o que nos interessa de fato é que os dados subjacentes estão disponíveis no cabeçalho do documento, em dois formatos: .xlsx e .csv. Para abrir no Excel, é mais fácil baixar o primeiro artigo, que já está no formato usado pelo programa. Porém, você também deve ser capaz de abrir arquivos .csv, visto que alguns bancos de dados são compartilhados apenas nesse formato (como o banco do Julio Canello), que é de uso unviersal.

4. Lendo arquivos CSV no Excel

O .csv pode ser aberto no Excel, mas não é adequado usar o comando "Abrir", pois isso leva a uma leitura incorreta dos dados. Quando o Excel abre um csv, ele entende cada linha como uma célula, o que gera um resultado como esse:

Se os dados de origem não tiverem caracteres especiais (como acentos ou cedilhas), você pode ajustar isso no menu Dados, com o comando Texto para Colunas, indicando que cada vírgula delimita uma coluna diferente, como indicado no vídeo abaixo.

Porém, essa saída mais simples não funciona se os seus dados estiverem gravados com o encoding UTF-8, que é o padrão da internet, mas não do Excel. Nesse caso, você precisa redefinir o encoding, o que não é possível quando você usa abre o arquivo com o comando Abrir.

Para inserir no Excel informações contidas em arquivos .csv codificados em UTF-8, você criar uma planilha em branco e importar para ela os dados do arquivo .csv. Isso é feito entrando no menu "Dados" e clicando no botão "Obter Dados de texto/csv".

Essa ação abre uma janela em que você identifica o arquivo a ser aberto e, uma vez selecionado, abre-se uma outra janela, na qual você define o formato como os caracteres são codificados (o que em algumas versões aparece estranhamente como Origem do Arquivo, em vez de indicar qual é o encoding).

O meu Excel sugere abrir os dados do STF como se fossem "1252: Europeu Ocidental (Windows)", mas essa opção faz com que os acentos e cedilhas não sejam lidos corretamente. Nesse caso, escolha a opção "65001:Unicode (UTF-8)", que é capaz de diferenciar os caracteres especiais que usamos no português. Entender essa questão dos modelos de encoding é importante para a programação em Python, visto que você terá de definir esse encoding toda vez que determinar a gravação (e a leitura) de um arquivo, para garantir que todos os caracteres serão devidamente reconhecidos pelos seus programas.

O UTF-8 é um tipo de codificação que se tornou comum na internet porque é capaz de lidar adequadamente a maior parte dos caracteres utilizados pelos usuários. Se você fizer uma busca na barra de endereços do Google Chrome, por exemplo, veja que o endereço que vai aparecer na barra depois que a pesquisa for feita termina justamente com o indicador "ie=UTF-8", mostrando que esse é o encoding utilizado. Porém, esse não é o encoding padrão de muitos programas (inclusive do Python), que usam encodings mais limitados que o UTF-8, mas que são suficientes para codificar os caracteres do inglês.

Esses encodings mais limitados são também mais eficientes, pois a mesma quantidade de caracteres usará menos espaço em disco e na memória. Porém, eles são incompatíveis com a variedade de caracteres que usamos na língua portuguesa, e usá-los leva a textos truncados, repletos de caracteres estranhos nos lugares dos acentos.

Uma vez que você faz essa importação dos dados, o Excel não trata a sua tabela apenas como um conjunto de informações, mas como uma extração vinculada aos dados do documento .csv. Para desfazer essa conexão, você deve entrar no menu Design e escolher a opção Converter em Intervalo, como mostra o video abaixo.

Uma vez que você faça isso, terá no Excel os dados prontos para serem filtrados e transformados por meio do uso de fórmulas (o que não é possível fazer adequadamente sem a conversão da extração em intervalo).

Uma alternativa é fazer com que os seus programas em Python gravem arquivos com extensão .txt, e não .csv. Nesse caso, cada vez que você abre o arquivo, o Excel oferece uma janela para você indicar como deseja importar os dados, inclusive com uma possibilidade de definir qual é o encoding. Caso você já tenha um arquivo .csv, você pode renomeá-lo para .txt, e essa estratégia funcionará.

Por fim, existe também uma outra estratégia: abra o .csv inicialmente com o Bloco de Notas (Notepad), que lê corretamente o UTF-8, e grave o arquivo, o que gera um .csv com  um encoding que o Excel consegue ler adequadamente.

5. Filtrar os dados no Excel

Uma vez que você consiga abrir a planilha, é preciso fazer alguns ajustes para que ela possa ser devidamente explorada. No caso dos arquivos fornecidos pelo STF, pode ser necessário excluir linhas que contenham um cabeçalho com informações que são estranhas à tabela, como o título do arquivo ou a seção do tribunal que o produziu, que estavam presentes nos arquivos do modelo anterior da página de estatística (e que ainda podem ser consultados).

No arquivo que baixamos, não há um cabeçalho desse tipo, mas há dois problemas a ser resolvidos: a primeira linha tem os números das colunas, enquanto o nome das variáveis está na segunda coluna, e a terceira linha está em branco.

Para corrigir isso, selecione primeiramente a Linha 3, clicando diretamente sobre o 1 para o qual aponta a seta de baixo. Com isso, você pode situar o cursor sobre a seleção e clicar sobre o botão direito do mouse, o que vai abrir um menu no qual você pode escolher "Excluir", o que excluirá a linha 3 da tabela.

Agora, você pode fazer os ajustes gerais, que exigem a seleção de toda a tabela. Para selecionar todas as células ao mesmo tempo, clique no triângulo que fica no canto superior esquerdo. No vídeo abaixo, mostramos como selecionar a tabela toda e, em seguida, limpar todos os formatos, providência útil para tornar a tabela mais leve e, com isso, aumentar a velocidade de processamento.

‌Feito esse passo, você pode voltar para o menu Página Inicial e introduzir os filtros, clicando no *Classificar e Filtrar : *Filtro**, como indicado ao final do vídeo acima. Se você observou com cuidado, viu que no final do primeiro vídeo foi introduzido o filtro, mas essa providência se mostraria inócua porque, ao limpar os formatos, os filtros também são todos excluídos. Por isso, é preciso inserir os filtros depois da limpeza dos formatos.

A inserção dos filtros permite um primeiro movimento de exploração, pois você tem a possibilidade de classificar os dados (ordenando as linhas pela ordem crescente ou decrescente dos valores de cada coluna) ou filtrar os dados (escolhendo que dados mostrar ou ocultar). Esse tipo de exploração é segura porque, quando todos os dados estão filtrados (o que se descobre pela presença do triângulo no canto direito de cada coluna), toda reorganização que é feita por meio deles se aplica a toda a coluna.

Se você não aplicar os filtros, correrá o risco de classificar isoladamente uma das colunas, o que desorganizará seus dados de forma irreversível (desorganização essa que representa um dos fantasmas que ronda todo processo de utilização dos dados em Excel, pois esse é o tipo de erro que pode colocar a perder todo o seu trabalho). Portanto, nunca tente modificar as tabelas usando diretamente as ferramentas de classificação, especialmente se você selecionar isoladamente uma coluna. Além disso, tome sempre o cuidado de observar se todas as suas colunas estão sendo devidamente filtradas, para não fazer filtros parciais nos dados (que também geram desorganização dos dados).

Exercício 1. Usando os filtros, descubra quais são os processos mais antigos do acervo.

Primeiro tente fazer o exercício e somente depois siga adiante.

Uma saída intuitiva seria classificar os processos, em ordem decrescente, pela data de autuação. Essa seria uma forma eficiente de resolver o problema, mas é possível que ela te leve à classificação abaixo, que não é cronológica, mas alfabética.

Esse tipo de ordenação equivocada decorre do fato de que o padrão é considerar que toda variável é uma string (sequência de caracteres), exceto se houver uma definição diversa. Portanto, é preciso primeiramente transformar os dados contidos na coluna C em datas, sem o que não é possível organizá-las de modo cronológico.

Uma saída para fazer isso é selecionar a coluna C e alterar a formatação dos dados, trocando de "Geral" para "Data", o que pode ser feito segundo o vídeo abaixo.

Embedded iFrame

‌O problema é que, se você fez isso, viu que não funcionou. Por que não funcionou? De fato, acho que o Excel devia ser capaz de realizar essa transformação por esses comandos, mas esse problema nos dá uma oportunidade para vocês entenderem melhor como ele grava datas.

6. Datas em Excel

Datas são números, mas são números cujas operações exigem que quando fazemos uma subtração de duas datas, tenhamos um intervalo de tempo. O Excel faz isso de uma maneira engenhosa: atribui um número para cada dia de cada ano, sendo que foi arbitrariamente definido que o dia 0 é 1/1/1900. Isso faz com que essa curiosa data apareça em nossas tabelas quando colocamos 0 em uma célula formatada como data.

Esse é um formato que faz com que a subtração de duas datas gere facilmente um número (o número de dias entre elas), mas que a soma de duas datas gere um número sem qualquer significado (a soma das diferenças entre a data e o dia 1/1/1900). Isso não é um problema porque a única operação que nos interessa entre datas é, de fato, a subtração, para encontrar o intervalo entre elas.

Essa mecânica um pouco tortuosa nem sempre aparece, pois quando você digita em uma coluna de Excel um texto parece uma data (como 20/12/2020), o programa o converte imediatamente para o número 44185, mas continua aparecendo 20/12/2020 porque a célula fica configurada como data. Como saber isso? Basta você configurar a célula como "Número" ou como "Geral", que o Excel passará a exibir 44185.

Agora você pode entender porque não funciona simplesmente formatar como "Data" as células da coluna C: o Excel só reconhece como data, de fato, esse número que funciona como o seu código para cada dia. Portanto, a transformação efetiva das strings contidas na coluna C em datas exige que o programa as converta na chave numérica correspondente. Você pode fazer isso clicando em cada uma das células, pois quando você abre a célula, o Excel converte em datas os dados que tem o formato ##/##/## ou ##/##/##.

Porém, há uma forma curiosa de fazer essa transformação em lote: se você multiplicar todas as células por 1, os valores permanecem idênticos, mas você dá a chance de que o Excel faça as transformações necessárias em cada uma das células. Para fazer isso, insira um número 1 em uma célula vazia qualquer e copie essa célula. Depois, você seleciona a coluna C e escolhe (com o botão direito) a opção Colar Especial (Ctrl-Alt-V) Multiplicação, o que faz com que você multiplique toda a seleção por 1, gerando assim as chaves numéricas desejadas, que depois podem ser convertidas para o formato "data".

No final, não se esqueça de apagar o 1 que você inseriu.

7. Classificar os dados

A esta altura você já entendeu que a Microsoft não oferece muita facilidade para você utilizar arquivos .csv e outros, talvez porque o interesse da empresa seja o de que você utilize os formatos nativos do Excel (o .xlsx, em especial).

Você pode manipular esses arquivos dentro do Excel, mas precisa aprender alguns atalhos e fazer algumas operações para poder inserir certos tipos de dados no Excel e aproveitar as boas funcionalidades que ele tem.

Com os conhecimentos que desenvolvemos até aqui, você já deve saber incorporar dados de tipo "data" oriundos de arquivos .csv e pode descobrir, classificando a tabela por Data de Autuação na ordem Do mais antigo para o mais novo, que o processo mais antigo em tramitação é a ACO 158, autuada em 1969, seguida pela ACO 304, autuada em 1981. Além disso, podem aparecer algumas entradas mais antigas, marcadas como  1/1/1900, mas você já sabe que isso indica uma data vazia ou 0.

Ainda nos filtros de data, você pode excluir os dados de um ano específico (anulando a seleção desses anos) ou pode exibir os dados apenas de um certo ano (anulando a seleção do Selecionar Tudo e depois escolhendo os anos cujos dados você quer exibir). Usando essa mesma lógica, você deve ser capaz de escolher só os processos da Ministra Rosa Weber, ou só os processos dos Ministros homens, ou só os processos dos ministros nomeados pelo presidente Lula. Essa plasticidade dos filtros permite uma observação preliminar útil para pensar em quais são as informações que os dados podem nos fornecer.

Porém, a ferramenta mais interessante do Excel para trabalhar sobre os dados é a Tabela Dinâmica.

8. Tabela Dinâmica (Pivot Table)

Tabela dinâmica é o nome dado a uma ferramenta que consolida as informações presentes em uma tabela de dados em uma nova tabela, na qual você pode consolidar dados numéricos (por meio de médias ou somas, por exemplo) e também inserir medidas (como a contagem do número de ADIs sob relatoria de Rosa Weber ou a contagem do número de ADIs que foram autuadas em um determinado ano).

As tabelas dinâmicas nos fornecem uma forma de resumo dos dados, permitindo que milhares de linhas de informações sejam apresentadas de uma forma resumida, a partir do uso das categorias usadas em cada uma das colunas. O modo mais simples de inserir as tabelas dinâmicas (e o único modo de inseri-las no Excel 365...) é primeiramente selecionar os dados que serão resumidos pela tabela, e não motivo para você deixar de colocar todos os dados da planilha obtida no site do STF. Então, selecione todas as colunas de dados e depois vá ao menu Inserir e escolha Tabela Dinâmica, como indicado no vídeo abaixo.

O vídeo também mostra que essa inserção conduz a uma janela em que você indica os dados que serão organizados (que são os dados selecionados inicialmente) e escolhe se a tabela será inserida em uma planilha nova criada para esse fim (o que é normalmente a solução adequada) ou na mesma planilha (o que raramente é uma boa escolha).

Criada a tabela dinâmica, quando você clica sobre ela, abre-se uma janela na direita da tela com os Campos da Tabela Dinâmica (ou seja, com os títulos das colunas do conjunto de dados que você definiu, e que o Excel chama de Fonte de dados). Por esse motivo, você não pode criar tabelas dinâmicas se a sua fonte de dados tiver colunas sem nome ou se tiver mais de uma coluna com nome idêntico. Essa janela de campos tem o seguinte formato:

A Tabela Dinâmica será construída na medida em que você arrasta alguns dos campos para alocá-los em uma das 4 funções disponíveis no canto inferior direito:

  1. Linha: define os campos que servirão como linha na tabela dinâmica. Comece experimentando com um campo por vez. Observe que é importante que você tenha um número restrito de linhas, para que a tabela dinâmica seja efetivamente uma consolidação de dados. Se você colocar o campo processos nas linhas, vai obter o mesmo formato da fonte de dados, que é o de uma linha por processo, o que tira o significado de usar essa forma de agregação. Já se você utilizar nas linhas um campo com até 20 ou 30 valores, você terá uma tabela com uma organização de dados que facilita a interpretação. Por esse motivo, sugerimos que você comece com o campo Relator Atual, que tem 22 valores diferentes (no acerco existente em 9/10/2020).
  2. Valor: define os campos que serão transformados em medidas, ou seja, como valores numéricos. Isso é importante porque a condensação dos dados em uma tabela menor é feita basicamente porque conseguimos buscar na tabela o número de ocorrências de certos valores, dentro de uma coluna. A tabela que propusemos no exemplo acima adota como unidade de análise (linha) a variável relator atual e realiza uma contagem do número de linhas da tabela original (fonte de dados) em que há a presença de um valor para Processos (que são todas as linhas da fonte de dados).
  3. Coluna: as colunas geram uma segmentação dos dados acrescentando variáveis em novas colunas. Vale aqui a mesma regra das linhas, mas com ainda mais rigor: multiplicar as colunas normalmente não gera tabelas muito compreensíveis, e portanto é bom utilizar nas colunas campos com poucos valores possíveis, como é o caso do Sem decisão final, que é binário.
  4. Filtro: o filtro serve como uma forma de você excluir alguns itens (por exemplo, sugerimos excluir as entradas com datas de autuação vazias) ou para excluir quase todos os itens, mantendo apenas algum conjunto de informações que te interesse (por exemplo, manter apenas os processos originários do próprio STF). Inserir um filtro acrescenta uma linha antes da tabela, onde você deve marcar a opção "Selecionar vários Itens" pode escolher os itens que serão incluídos e excluídos da exibição.

Se você alocou os mesmos campos nos mesmos locais da tabela, você deve ter chegado a um resultado como esse:

Note que você também pode filtrar os dados na própria tabela, tanto nos Rótulos de Linha (onde você pode, por exemplo, retirar os processos sem relator, já que a linha corresponde ao Relator Atual) quanto nos Rótulos de Coluna (em que você poderia excluir os processos que já tiveram decisão final, mantendo apenas os que não foram decididos).

Se você teve alguma dificuldade até aqui, sugerimos que assistam ao Tutorial da professora Karine Lago sobre Tabelas Dinâmicas, pois a habilidade para lidar com essa ferramenta é uma capacidade muito importante para a análise inicial dos dados e, de fato, ela é muitas vezes suficiente para você responder a certas perguntas de pesquisa (tipicamente quando seu problema de pesquisa lida com campos (variáveis) que tem um range limitado, ou seja, que adotam um número restrito de valores e que, por isso, podem entrar adequadamente como linhas ou colunas de uma tabela dinâmica.

O uso adequado das tabelas dinâmicas propicia uma reorganização dos dados, permitindo responder a várias das perguntas que formulamos e também permite identificar os limites dos dados que temos, indicando a necessidade de ampliar os dados, seja por meio de novas coletas ou de um trabalho de reorganização dos dados.

9. Criando um novo campo: Classe Processual

Após algum tempo analisando a tabela dinâmica, podemos ver que há alguns dados que estão nos gráficos disponibilizados na Página do STF que não estão na base de dados fornecida: ela tem um nome do processo, que liga classe e número, mas não tem esses dois dados de forma segmentada, o que é um problema para algumas análises. Por exemplo, não temos a possibilidade, na tabela que realizamos, de segmentar os dados por classe processual.

Para fazer isso, precisamos voltar à primeira tabela (Fonte de Dados) e extrair essa informação do campo Processo. Antes de seguir adiante, tente fazer essa operação de forma independente:

Exercício 2: Crie duas novas colunas na fonte de dados, uma para a Classe e outra para o Número.

Quando você fizer isso, vai conferir que a tabela é realmente dinâmica: as alterações nas fontes de dados são dinamicamente incorporadas à tabela que consolida as informações, desde que você clique em Atualizar Fonte de Dados (uma opção que está no menu Analisar das Ferramentas de Tabela Dinâmica e que pode ser aberta se você clicar com o botão direito do mouse sobre própria tabela dinâmica). Também é possível configurar a sua tabela dinâmica para fazer uma atualização automática dos dados.

Voltando ao Exercício 2, veja que a forma mais rápida de realizá-lo é utilizando algumas funções. Primeiramente, crie duas novas colunas, de preferência do lado direito da coluna Processo, porque assim elas vão ficar dentro do intervalo que você definiu como Fonte de Dados.

Feito isso, é preciso criar uma Fórmula que consiga extrair Classe e Número do valor da célula Processo. Existem formas simples de fazer isso em outros programas, mas o Excel não tem um caractere curinga que permite apenas substituir dígitos (ou letras) por valores vazios, o que seria uma forma simples de gerar esses dados.

A forma mais simples que encontrei de fazer (e deve haver uma forma mais elegante) foi identificar que seria possível usar a função ESQUERDA para extrair as primeiras letras do Processo, que indicam a classe processual. O problema é que algumas classes têm 2 letras e outras 3, o que dificulta essa solução.

Por isso, precisei identificar qual era exatamente a terceira letra, usando a função EXT.TEXTO, que permite extrair um caractere de uma célula, desde que você dê o número exato dele na string. Para realizar isso, tive de criar uma terceira coluna (provisória) e colocar na célula B2 a função =EXT.TEXTO(A2;3;1)*0, que extraía um único caractere da posição 3 da célula A2 e multiplicava esse resultado por 0. Como multiplicar letras por 0 gera uma mensagem de erro, temos um critério para filtrar nessa coluna B as classes com 3 dígitos (as que dão erro) e as classes com 2 dígitos (as que retornam 0 como resultado).

Feito isso, podemos filtrar apenas as células com valor 0 e acrescentar na coluna C a fórmula =ESQUERDA(A2;2), que extrai os primeiros dois dígitos, e estender essa fórmula para toda a seleção. Depois, podemos selecionar todas as colunas e excluir as de valor 0, e inserir na coluna C a fórmula =ESQUERDA(A2;3), que extrai os 3 primeiros caracteres, e estendê-los também.

Se você observou com cuidado, essa operação quase deve ter conseguido organizar a sua base, já que existem 2 classes processuais com 4 caracteres (ADPF, Almp) e inclusive uma com 5 (SIRDR). Se você estiver na dúvida, pode usar a função =EXT.TEXTO na coluna A, mas focando no quarto caractere (em vez de focar no terceiro, como fizemos antes). Porém, como são poucas as operações a realizar, é mais eficiente usar o comando substituir (Ctrl-U) do que criar uma função específica para isso. Assim, basta selecionar a coluna Classe e substituir "ADP" por "ADPF", "AIm" por "AImp" e "SIR" por "SIRDR".

Feitos esses ajustes, torna-se fácil encontrar o número, limpando o filtro (ou apagando a coluna provisória B, para exibir todos os registros) e inserindo na célula D2 a fórmula =SUBSTITUIR(A2;C2;""), que insere o texto da célula A2, trocando a classe (C2) por nada (""). Por fim, convém copiar as colunas inseridas e colá-las no mesmo lugar, como valores, para transformar as fórmulas (que são dinâmicas) em valores (que são estáticos). Essa operação toda é indicada no vídeo abaixo.

Com esse tipo de operação e de domínio das funções, você poderá segmentar os dados da tabela dinâmica em classes, o que é um elemento relevante de análise.

10. Unir dados de duas tabelas diferentes

O último ponto em que o Excel nos é útil é na possibilidade que ele nos oferece de agregar a uma tabela dados que estão em outras planilhas.

Essa operação é realizada por meio da função PROCV. Essa é uma variação da função PROCURAR, que busca um texto em uma string. Ela funciona como a função find(), do Python, que retorna a posição do texto buscado em uma cadeia de caracteres.

Diferentemente da função PROCURAR, a PROCV não faz procuras dentro de uma string, mas dentro de uma coluna (por isso o V, de Vertical). Isso é mais fácil de perceber com um exemplo construído a partir do arquivo seguinte, que contém duas planilhas: uma com dados da Pauta do STF  e outra com dados do Acervo processual, ambas referentes a março de 2021.

Arquivo para dowload: Acervo e Pauta STF março/2021

Se você observar a planilha da Pauta do STF, você verá que ela tem dados interessantes: data de autuação, Plenário Presencial ou Virtual, Data em que foi colocado em pauta.

Porém, não existem várias outras informações sobre os processos, como os dados de origem do processo, que constam de outras tabelas, como a planilha Acervo.

Como é possível fazer para inserir na tabela da Pauta uma informação contida na tabela de Acervo?

O primeiro ponto é encontrar um campo comum, que possa servir como conexão entre as duas tabelas, e esse campo é justamente a coluna Processo.

Com a função PROCV, podemos procurar o texto da célula A3 da tabela de Pauta ('ACO3396') na primeira coluna da tabela de Andamentos. Uma vez que haja uma correspondência exata (o que vai ocorrer na linha 560 da coluna de andamentos, como você pode ver pela figura acima), basta definir que o resultado a ser retornado corresponde ao conteúdo da coluna de posição 5 (que é o número da coluna de Procedência, que fica na coluna D).

Para realizar essa operação, precisamos criar uma nova linha na planilha Pauta, à qual daremos o nome de Origem.

Criada a nova coluna, basta inserir em sua primeira linha a função PROCV, com o assistente de funções e inserir os 4 parâmetros necessários, como indicado no vídeo abaixo.

Os argumentos são os seguintes:

O valor procurado é o valor que será buscado na Matriz_Tabela, ou seja, no conjunto de dados que serão pesquisados. O mais simples é selecionar todas as colunas da tabela Acervo, como mostrado no video. O PROCV busca o Valor_procurado na primeira coluna da tabela selecionada no segundo argumento.

Depois disso, basta você definir qual é o número da coluna que tem os dados que você quer recuperar. Note que o índice da coluna começa em 1 (e não em 0, como no Python). Se você mudar esse índice da coluna, obterá outros dados da planilha.

Por fim, indique no último argumento FALSO, pois isso faz com que somente sejam buscadas correspondências exatas. Se você deixar VERDADEIRO, serão buscados valores aproximados à sua busca, o que não é de seu interesse neste caso.

Com isso, você vai inserir na planilha Pauta, dados que constavam apenas na planilha Acervo. Essa é uma função de dificuldade intermediária, mas que uma vez dominada, permite que você faça no Excel a consolidação de suas bases de dados.

A partir desse ponto, a análise dos dados passa a ser mais adequada na forma de gráficos, e não de tabelas dinâmicas, e o Excel não é a melhor ferramenta para essa finalidade, o que nos levará a programas de BI, como o PowerBI e o Tableau.