1. Introdução

A análise quantitativa de dados judiciais é uma abordagem que utiliza elementos de estatística para construir modelos descritivos e explicativos acerca das várias dimensões ligadas aos processos judiciais.

Nos textos em inglês, é comum usar o termos jurimetrics, que é uma construção similar à da econometrics, que são estudos concentrados na medição de certos elementos jurídicos e no tratamento estatístico das informações. Em português, esse termo tem sido utilizado em alguns círculos, havendo inclusive uma Associação Brasileira de Jurimetria, fundada em 2011, bem como por pesquisadores como a economista Luciana Yeung. Todavia, esse termo não se tornou de uso corrente entre os pesquisadores, que normalmente utilizam o rótulo pesquisa empírica, expressão que tem um significado mais amplo (pois várias pesquisas empíricas não adotam um viés quantitativo), mas que tem sido usada para designar abordagens que dialogam com as metodologias quantitativas.

2. Dados e Informações processuais

A pesquisa empírica sempre leva à produção de dados, ou seja, de conjuntos de informações resultantes da observação de fatos ou de documentos.

Mas o que são dados?

Chamaremos de dados as informações acerca de objetos particulares: de um determinado ministro, da ADPF 54, dos Embargos de Declaração em um determinado RE, de um certo tribunal. Quando fazemos uma coleta de dados, nós podemos identificar várias informações, sendo que o nosso objetivo não é apenas o de conhecê-las, mas o de utilizá-las como ponto de partida para uma análise voltada à identificação de padrões.

Esses dados judiciais, tipicamente disponíveis nos sistemas de informação processual dos diversos tribunais, são relevantes para os vários atores envolvidos na prestação jurisdicional, mas cada um deses agentes se apropria dos dados processuais a partir de seus próprios interesses.

Tomemos, por exemplo, a ADPF 54 foi o processo em que o STF decidiu acerca do aborto de fetos anencefálicos, tendo julgado "procedente a ação para declarar a inconstitucionalidade da interpretação segundo a qual a interrupção da gravidez de feto anencéfalo é conduta tipificada nos artigos 124, 126, 128, incisos I e II, todos do Código Penal". Este é um precedente judicial relevante, que envolveu várias controvérsias e que cujos argumentos foram analisados por diversos trabalhos acadêmicos.

As informações acerca desse processo estão disponíveis no endereço: http://portal.stf.jus.br/processos/detalhe.asp?incidente=2226954. Nessa página foram sendo disponibilizados dados acerca da ação (partes, assuntos, números, etc.) e das várias ocorrências envolvidas no seu processamento (por exemplo, informações acerca da autuação, da distribuição, das petições que solicitaram admissão de amici curiae e dos despachos do relator).

Ao longo do processamento da causa, as partes e seus advogados precisavam conhecer esses dados para desenvolver suas estratégias: saber se suas petições foram acolhidas, se existe prazo para recursos, se os processos foram julgados. Os julgadores e seus assessores precisam desses dados para elaborar as decisões. Tais atores processuais têm um especial interesse em acessar o inteiro teor de cada peça processual, pois o seu trabalho envolve o conhecimento aprofundado de toda a riqueza envolvida nas atividades judiciais.

A peculiaridade desses atores é que eles têm um interesse maior nos dados (ou seja, no modo como os processos registram os documentos produzidos por cada um dos atores: petições, despachos, decisões, andamentos, etc.) do que em metadados, que são classificações realizadas a partir de uma análise dos dados (processos relacionados, tipo de decisão da liminar, tipo de decisão de mérito, tipo de processamento).

Os atores processuais se interessam pelos dados porque é seu papel conhecer a fundo cada detalhe do processo, cada peça, cada argumento. Eles não precisam de um mapa simplificado, mediado por classificações feitas por outras pessoas. Interessa mais ao advogado saber quais foram exatamente as palavras proferidas pelo julgador, pois são elas que possibilitarão a redação de um recurso ou um pedido de execução.

Esses dados processuais também interessam a pessoas que não estão envolvidas diretamente no processo, mas que podem se apropriar dessas informações para:

  1. fazer pesquisas de jurisprudência, no sentido de saber se determinada decisão serve ou não como precedente para um outro caso;
  2. fazer pesquisas empíricas, voltadas a compreender os padrões de atuação dos atores processuais (partes, advogados, juízes, etc.).

Os sistemas de informática dos tribunais normalmente são focados nessa primeira ordem de problemas, pois o maior consumidor de dados judiciais é o próprio órgão judicial, que precisa de informações claras sobre as suas próprias decisões, para identificar suas próprias linhas jurisprudenciais. Os advogados públicos e privados também têm interesse de se apropriar de tais informações, pois a atuação prática dos juristas é cada vez mais pautada por argumentos jurisprudenciais.

Esse é um tipo de sistema que não se baseia apenas nos dados, mas envolve também uma série de metadados, ou seja, de informações acerca dos dados. Boa parte das pesquisas de jurisprudência não é feita sobre o texto das próprias decisões (os dados), mas sobre elementos que se referem a elas, embora não sejam parte integrante das decisões: resumos (como as ementas), palavras-chave e várias classificações (tipo de decisão, processos relacionados, legislação referida, precedentes citados, etc.).

A produção de metadados é uma das principais funções dos serviços de jurisprudência, que não são voltados apenas a armazenar as decisões individuais, mas a permitir que elas sejam organizadas, comparadas e acessadas. Esse é um trabalho que envolve várias classificações:

  1. Tipos de decisão (final, interlucutória, liminar, etc.)
  2. Tipos de decisão final (procecência, improcedência, prejudicialidade, etc.)
  3. Tipos de relação entre os processos (principal, apenso, conexo, etc.)

A necessidade de organizar as decisões e torná-las comparáveis faz com que o interesse na jurisprudência envolva classificações padronizadas, que não se identificam com as formulações dos próprios julgadores. Uma ADI que pede a anulação de uma lei federal que é posteriormente revogada pode ter decisões bastante distintas:

  1. um ministro pode determinar a "extinção do processo, em virtude da prejudicalidade"
  2. outro pode decidir por "negar seguimento à ação, em função da perda de objeto",
  3. outro pode "julgar prejudicado o pedido".

São três decisões diferentes, que articulam textos diferentes, mas que podem ser classificadas como decisões do mesmo teor. Alguns pesquisadores podem articular todas essas decisões como sendo de "prejudicialidade", independentemente da forma como essa prejudicialidade seja enunciada. Outros podem tratá-las pela categoria mais genérica de "extinção processual", rótulo que pode envolver várias outras formas de extinção da ação sem julgamento do mérito. Outros podem entender que há três tipos de provimento: "extinção do processo",  "negativa de seguimento" e "prejudicialidade".

Qual é a forma correta? Não há uma forma correta. São formas alternativas de classificar as decisões, que respondem a diferentes critérios. Neste ponto, o que nos interessa é chamar atenção para a diferença entre o dado (o texto da decisão) e o metadado (a classificação acerca da decisão). E também chamar atenção para que os sistemas de andamento processual se concentram na acumulação de dados (embora tenham alguns metadados), enquanto os sistemas de jurisprudência se concentram em criar metadados que viabilizem a percepção de padrões.

Ocorre que as classificações utilizadas pelos serviços de jurisprudência têm uma função clara: tratar as decisões como potenciais precedentes. Não se trata de compreender o modo como as decisões foram tomadas, não se trata de descrever o comportamento da corte, mas o de servir como apoio para uma apropriação "dogmática" das decisões.

Isso faz com que, muitas vezes, as classificações contidas nos sistemas processuais e nos sistemas de jurisprudência (que são os dois sistemas típicos fornecidos pelos órgãos judiciais) não sejam suficientes para o interesse dos pesquisadores.

Um pesquisador raramente estará interessado em toda a complexidade de dados envolvida em uma decisão. Isso ocorrerá apenas quando se trata de uma abordagem qualitativa focada nas complexidades particulares de um processo, como um estudo de caso ou uma análise retórica das decisões. Isso ocorre porque as pesquisas de dados tendem a descrever populações de processos, e não processos particulares.

Por isso, um pesquisador com viés quantitativo raramente terá interesse na ADPF 54 isoladamente (ou na ADI 540 ou na 5400). A função de sua pesquisa não é realizar uma descrição exaustiva de um processo. Mesmo quando faz um estudo de caso sobre essa ação específica, o interesse do pesquisador sempre é descobrir elementos que nos oferecerão pistas para uma melhor compreensão de fenômenos mais amplos: do controle concentrado de constitucionalidade, do comportamento do STF, do modo como os comportamentos dos ministros se relacionam. Por isso, mesmo o estudo de caso precisa se concentrar em elementos que tornem uma situação comparável com outras.

O objetivo último das pesquisas é encontrar padrões. A existência de padrões definidos permite que o conhecimento acerca de determinados objetos que conhecemos (como a ADPF 54) possa nos ajudar a compreender fenômenos mais complexos, que não conhecemos bem (como o padrão decisório do STF no controle concentrado de constitucionalidade ou as formas legítimas de argumentar com base em direitos fundamentais).

Temos interesses nos dados, mas apenas na medida em que essas informações particulares possam ser conectadas com outras informações particulares, para podermos falar de algo que não vemos. Não podemos observar diretamente um padrão decisório. O que podemos fazer é observar decisões particulares, para podemos com base nelas construir um mapa que nos permita falar da população de decisões.

Não procuramos padrões em dados, mas em conjuntos de dados. Quando fazemos uma análise, chamamos de dados as informações unitárias que combinamos para gerar conjuntos mais amplos, em pode ser possível identificar a ocorrência de padrões de variação nos dados. Se nosso objetivo é compreender como opera o controle concentrado, podemos levantar dados acerca dos processos, e combinar esses dados para construir uma visão geral do que ocorre com o grupo dos processos. Nesse caso, adotamos o processo como unidade de análise (pois coletaremos dados acerca dos processos unitários) para compreender o nosso objeto de pesquisa (o controle concentrado de constitucionalidade no Brasil).

Já se o nosso objetivo é compreender como opera o controle de constitucionalidade no mundo, podemos adotar como unidade de análise o modelo de cada país (ou o modelo de cada grupo de países, ou certos modelos anteriormente identificados). O objeto de pesquisa nunca está no mesmo nível da unidade de análise, pois o fenômeno pesquisado tem como componentes os objetos acerca dos quais coletamos os dados. Construímos informações sobre o nosso objeto de pesquisa a partir de uma concatenação dos dados acerca de nossas unidades de análise.

3. Análise estatística dos dados

Essas análises podem adotar uma abordagem censitária ou amostral, mas de todo modo utilizam estratégias de explicação que dialogam com o instrumental da estatística. Em boa parte dos casos, trata-se apenas de estatística descritiva, que faz uma descrição quantitativa do campo (contabilizando números de processos, tempos de tramitação ou prevalência de certos tipos de decisão), utilizando algumas medidas estatísticas simples (como médias, medianas e percentuais), que são interpretadas a partir de uma análise qualitativa, focada na compreensão do sentido das grandezas numéricas. Esse tipo de abordagem é capaz de traçar correlações, observando padrões de variação coordenada nas variáveis estudadas, mas não pode afirmar a existência de relações causais.

Em certos casos, as pesquisas podem passar para o campo da estatística inferencial, que tem metodologias voltadas para analisar as correlações evidenciadas pelas pesquisas e identificar nelas a existência (ou não) de relações de causalidade. Nesse caso, utiliza-se um ferramental estatístico mais sofisticado, ligado à regressão logística, nome dado ao campo que estuda os padrões de correlação de variáveis e estabelece a possibilidade de identificar, com razoável segurança, a existência de relações de causalidade.

Acontece, porém, que os modelos de regressão tipicamente exigem amostras bastante grandes (chamadas de pesquisa de N-grande, visto que n designa tipicamente o número de elementos que compõem uma amostra), que muitas vezes são incompatíveis com os fenômenos jurídicos estudados. Uma pesquisa de intenção de voto entrevista várias centenas de pessoas, para alcançar uma amostra significativa para milhões de eleitores. Ocorre que os processos efetivamente debatidos em um tribunal (qualquer que seja ele) precisam caber no tempo anual de sessões, e raramente são maiores do que poucas centenas (exceto no caso de julgamentos "expressos", padronizados, que não envolvem um debate efetivo nos órgãos colegiados).

Essa relativa limitação do número de processos julgados faz com os pesquisadores se vejam frente à necessidade de ampliar o seu objeto, viabilizando a acumulação de universos e amostras suficientemente grandes para que haja sentido utilizar as estruturas da estatística inferencial. O problema é que, para fazer essa ampliação, muitas vezes é necessário utilizar processos de muitos anos, de muitas origens e de muitos ritos, o que compromete a viabilidade de retirar conclusões válidas, visto que a amostra pode ser pouco representativa de um universo definido. A estatística inferencial é um instrumento poderoso, mas que precisa ser utilizado com muito cuidado para evitar conclusões equivocadas.

A estatística descritiva é um instrumento que leva a conclusões menos sólidas, mas que pode ser utilizada em um número maior de casos e que permite a combinação de análises quantitativas (pois a descrição é feita em termo de quantidades) e de análises qualitativas, visto que a interpretação dos "números" é realizada por meio de uma análise crítica, que constrói narrativas que buscam dar sentido ao panorama descritivo traçado. Essa é uma plasticidade que torna essa abordagem adaptada à interpretação dos dados heterogêneos e relativamente pequenos que podemos obter no caso dos processos judiciais que tramitam nos tribunais brasileiros.

4. O desenho da pesquisa de dados

Se você pretende fazer uma pesquisa com análise de dados, é muito importante fazer um desenho adequado. Para isso, indicamos a leitura cuidadosa do livro An Introduction to Empirical Legal Research, publicado por Lee Epstein e Andrew Martin em 2014, que trata minuciosamente do planejamento e da execução desse tipo de trabalho. É interessante também o livro de 2002, de Lee Epstein e Gary King, chamado Pesquisa Empírica em Direito: Regras de Inferência, que tem a vantagem de estar em português, mas trata-se de uma versão anterior do texto, que não traz de forma detalhada as orientações para realizar o desenho e a execução da pesquisa empírica.

Na análise de dados, é importante que você faça um desenho da pesquisa muito cuidadoso, esclarecendo:

  1. Quais dados serão coletados e como isso será feito. Esse é um ponto importante, pois em várias situações a obtenção dos dados é um desafio considerável. Se os dados estão pouco sistematizados e dependem de um esforço considerável para a sua identificação, é preciso esclarecer bem as formas como os dados serão acessados. Embora exista no Brasil uma lei que determina a transparência dos dados, essa transparência ainda é muito relativa (para dizer o mínimo). Muitas informações não são disponibilizadas, ou o são de forma fragmentária, criando desafios de sistematização. Outras informações existem apenas em formato de imagem (e não de texto), o que exige estratégias de conversão. As estratégias de coleta de dado devem ser esclarecidas, até porque os orientadores e examinadores podem ter uma experiência que os capacite a avaliar se as expectativas do pesquisador são razoáveis quanto à disponibilidade das informações e da viabilidade das estratégias voltadas a sua obtenção.
  2. Uma vez coletados os dados, é preciso organizá-los, e essa pode ser uma tarefa muito desafiadora, especialmente quando o esforço de organização depender da formulação de novas classificações. A classificação é o ponto de maior contato entre a pesquisa empírica e as abordagens teóricas, pois os critérios de segmentação utilizados em qualquer classificação devem ter densidade teórica suficiente, sem o que as conclusões se tornam frágeis. Essa organização gera as bases de dados que são passíveis de análise
  3. Análise dos dados. Uma vez que foram coletados, organizados e classificados, o pesquisador conta com uma base de dados que deve lhe permitir formular interpretações, seja com base em abordagens quantitativas propriamente ditas (como os modelos de regressão), seja por análise qualitativas, que buscam conferir um sentido narrativo às grandezas numéricas evidenciadas pela aplicação de estratégias de estatística descritiva.

No caso de pesquisas voltadas à análise de dados, uma metodologia sólida deveria ser capaz de explicar adequadamente os critérios que serão aplicados nessas três atividades.