Ciência de dados?

Ciência é uma palavra equívoca, que nos conduz a uma série de debates complexos. O fato de tratar-se da forma de conhecimento mais confiável que dispomos faz com que as pessoas que detêm um determinado saber (como o saber jurídico) muitas vezes desejem que ele seja reconhecido como científico. Isso faz com que as fronteiras entre as ciências, as filosofias e as variadas dogmáticas estejam em constante tensão, uma tensão que não é muito produtivo enfrentar neste momento.

A expressão data science parece decorrer dessa tentativa de qualificar como científicas abordagens que tipicamente não são consideradas como saberes científicos. O que se chama de data science não é uma ciência, mas um conjunto de habilidades que nos capacita a realizar determinadas atividades. Nesse sentido, data science é mais uma competência do que uma ciência. O cientista de dados é uma pessoa capaz de lidar com dados, e não uma pessoa que conhece os dados e suas formas de interação.

Devemos reconhecer que toda ciência sempre foi uma ciência de dados. Todo pesquisador coleta uma série de dados e busca construir padrões que possibilitem o desenvolvimento de modelos descritivos (explicando como as coisas ocorrem) e/ou modelos explicativos (explicando os motivos pelos quais as coisas ocorrem). O fato de que isso façam os físicos, os biólogos e os sociólogos faz parecer estranho que um grupo de pessoas que não realiza atividades tipicamente reconhecida como científicas decida chamar sua própria ocupação de ciência de dados.

Mas o que eles querem dizer com isso? Se falamos hoje em uma ciência de dados é porque esse conjunto de habilidades se afirmou como importante para lidar com um fenômeno extremamente novo: a existência de uma quantidade imensa de dados disponíveis, que não foram processados. Até recentemente, nós éramos capazes de processar todos os dados que produzíamos.

Os cientistas desenvolvem modelos explicativos, mas para isso eles precisam de dados, ou seja, de registros que ofereçam informações sobre o mundo. Os fenômenos ocorrem no mundo e não conseguimos observá-los todos ao mesmo tempo. Nossa memória é finita e , nossa capacidade de processamento cerebral é muito limitada para lidar com medidas e nosso cérebro opera por meio de vieses que lhe permitem atuar de forma competente mesmo quando dispõe de poucos dados. Nossa espécie sobreviveu milênios com base nessa nossa capacidade observar padrões de forma intuitiva, gerando conhecimentos que generalizam poucas experiências.

Quando desenvolvemos a habilidade de registrar informações, especialmente de registrar medidas, nós nos encontramos frente à possibilidade de lidar simultaneamente com uma multiplicidade de registros que seria impossível processarmos de outra forma. O cérebro continuava sendo uma máquina pobre para lidar com números, mas a existência de uma multidão de registros possibilitava que nós nos esforçássemos para encontrar nos registros padrões que não conseguíamos captar na observação direta dos fatos.

Para que Kepler pudesse formular sua teoria acerca da órbita eliptica dos planetas, ele precisou contar com muitos, mas muitos registros de observações particulares, feitas de forma precisa e cuidadosa. A meticulosidade de Tycho Brahe

Pesquisa e Dogmática

Já os juristas tipicamente não fazem isso porque sua atividade normalmente não é a de pesquisa, mas é uma atividade técnica na qual produzem discursos retóricos. O discurso jurídico é dogmático e não científico, e por isso o mais importante para os juristas não é saber como os fenômenos ocorrem, mas dominar certas estruturas argumentativas que são percebidas como adequadas pela comunidade dos juristas.

Os juristas tendem a orientar suas ações por esses repertórios de orientações de conduta, que dizem quais são os conceitos adequados, as formas corretas de interpretar a lei e de decidir os casos. Os juristas do século XXI são um pouco como os médicos do séx. XVIII: dominam bem o repertório de conhecimentos compartilhados e sabem prever os diagnósticos que os outros médicos farão, o que lhes permite fazer diagnósticos que sejam bem recebidos pela comunidade dos médicos. Não importa muito se os diagnósticos são corretos ou equivocados, mas apenas se eles são aceitos.

No caso da medicina, o saber tradicional de médicos experientes foi sendo aos poucos substituído pelo saber científico, decorrente de pesquisas controladas, de observações que seguem métodos claros. No caso do direito, o conhecimento científico não teve grande impacto porque o resultado de um processo judicial é (ou deveria ser) definido por decisões tomadas por pessoas que operam o mesmo discurso dogmático.

No caso dos médicos, conhecer bem as teorias vigentes e as concepções dominantes entre os pares não é uma garantia de sucesso, pois a doença segue seu curso independentemente do consenso dos médicos. Saber aplicar as teorias médicas dominantes é importante porque esse tipo de conhecimento permite a cada médico apropriar-se de um repertório de conhecimentos tradicionais, cuja manutenção no senso comum está normalmente está ligada a uma razoável eficácia de seus diagnósticos e terapêuticas.

No caso dos juristas, a aplicação dos saberes tradicionais é normalmente a estratégia mais eficiente, pelo fato peculiar de que o objetivo não é conhecer os fatos, mas influenciar na decisão de processos que deveriam ser decididos com base na dogmática hegemônica. A capacidade de atuar com eficiência na prática jurídica não é desenvolvida por meio de um estudo acerca de como operam os juristas, mas pela reprodução do discurso interno da própria comunidade dos juristas.

Todos sabemos que a prática efetiva dos juristas não pode ser compreendida como um exercício desses discursos dogmáticos. Existe, inclusive, uma tendência de perceber como técnicas as decisões que aparentemente seguem as orientações da dogmática dominante e como políticas as decisões que rompem esses critérios. Entretanto, a filosofia da linguagem do século XX nos tornou (ou ao menos deveria ter tornado) atentos para o fato de que não existem decisões jurídicas técnicas.

Já não causa mais tanto estranhamento a tese de Kelsen de que toda decisão judicial aplica uma determinada interpretação do texto legal, deixando de lado outras interpretações verossímeis. Para Kelsen, essa escolha entre interpretações possíveis deve ser descrita como o exercício de uma opção ideológica, e não como uma aplicação racional de critérios técnicos. A admissão dessa tese deveria ter conduzido os juristas a realizar pesquisas empíricas, voltadas a compreender como os juízes (e demais juristas) atuam, quais são as suas respostas a certos argumentos, quais são as formas pelas quais eles efetivamente formulam as suas teses e sentenças. Mas não foi isso o que ocorreu.

Reconhecer que a atividade jurídica é política não alterou substancialmente a prática dessa atividade. Como Kelsen diagnosticou, os juristas vivem dentro de uma ficção: a ficção de que as normas são válidas e que o discurso dogmático efetivamente guia a prática dos juristas. Como os juristas vivem essa ficção como realidade, terminamos em uma situação peculiar: quem confunde a ficção com a realidade tem uma capacidade peculiar de interferir no comportamento das pessoas que compartilham a mesma ficção. O discurso dogmático não é operativo e eficiente apesar da sua ficcionalidade. Ele é operativo e eficiente justamente por causa dessa ficcionalidade: ele opera independentemente de sua relação com os fatos.

Na cultura jurídica contemporânea, o conhecimento dos fatos não desempenha um papel central, tanto que o ensino jurídico se concentra em garantir que o repertório cultural dos estudantes deve ser equacionado ao repertório cultural dos profissionais, o que permite que o jurista em formação aprenda a julgar adequadamente como um certo argumento deverá ser recebido pela comunidade dos juristas. Por mais que não haja garantias no sentido de que os processos serão julgados pelos mesmos critérios de aceitabilidade, essa geração de um discurso padrão é uma forma socialmente eficaz de dar certa organização ao direito.

Essa é a estrutura da dogmática e ela garante que o conhecimento tradicional (com seus erros e acertos, com seus limites e possibilidades) seja reproduzido pelas gerações seguintes. Existe, claro, uma certa variação, pois os sentidos dominantes vão sendo transformados. Mas essa variação segue a lógica consuetudinária dos discursos dominantes: pequenas variações se somam ao longo do tempo, gerando trânsitos maiores, como ocorre na língua falada e escrita. Esse é um processo que produz heterodoxias discretas, das quais algumas são normalizadas pela prática: o princípio da proporcionalidade, a ponderação de princípios, a interpretação teleológica, o uso da jurisprudência como argumento central.

Essa já foi a estrutura dos conhecimentos da medicina tradicional e da alquimia, e continua sendo a estrutura da astrologia, da acupuntura, da teologia e do direito: existe um repertório de saberes compartilhados e a adequação de um diagnóstico e de uma prescrição são medidos em termos dedutivos: as teses defendidas são deduções adequadas dos princípios aceitos ou não?

Não existe uma pesquisa astrológica, uma pesquisa tarológica, uma pesquisa teológica. Existem textos fundantes, existem interpretações ortodoxas, existem livros que noticiam as discussões dos sábios. Temos a intuição de que esses conhecimentos decorrem de uma longa decantação de estratégias hermenêuticas, da criação de categorias que têm oferecido respostas interessantes e têm contribuído para que as pessoas desenvolvam um "autoconhecimento", no sentido de terem narrativas sobre a própria subjetividade.

Em contrapartida, existem pesquisas biológicas, sociológicas e psicológicas, feitas por pessoas que coletam dados acerca de certos fenômenos, em busca de compreender como eles ocorrem no mundo. Essa abertura para os dados é a marca da ciência: a busca de construir um discurso baseado em evidências, em informações obtidas da observação direta do mundo.

Entre dados e informações

Para os juristas, a programação pode ter muitas funções, mas para a atividade acadêmica em direito, a principal delas é a de possibilitar o exercício da pesquisa empírica em direito. A pesquisa empírica sempre leva à produção de dados, ou seja, de conjuntos de informações resultantes da observação de fatos ou de documentos.

Chamaremos aqui de dados as informações acerca de objetos particulares: de um determinado ministro, da ADPF 254, dos Embargos de Declaração em um determinado RE, de um certo tribunal. Quando fazemos uma coleta de dados, nós podemos levantar informações variadas, sendo que o nosso objetivo não é apenas o de conhecê-las, mas o de utilizá-las como ponto de partida para a identificação de padrões.

O advogado da ADPF 254 tinham interesse em conhecer esses dados para saber se o processo foi julgado, para saber se existe prazo para recursos, para definir suas estratégias processuais. O pesquisador raramente terá interesse na ADI 6000 isoladamente, porque a pesquisa não tem por objetivo final a descrição exaustiva de um objeto. Mesmo quando faz um estudo de caso sobre essa ação específica, o interesse do pesquisador sempre é descobrir elementos que nos oferecerão pistas para uma melhor compreensão de fenômenos mais amplos: do controle concentrado de constitucionalidade, do comportamento do STF, do modo como os comportamentos dos ministros se relacionam.

O objetivo último das pesquisas é encontrar padrões. A existência de padrões definidos permite que o conhecimento acerca de determinados objetos que conhecemos (como a ADPF 254) possa nos ajudar a compreender fenômenos mais complexos, que não conhecemos bem (como o padrão decisório do STF no controle concentrado de constitucionalidade ou as formas legítimas de argumentar com base em direitos fundamentais).

Temos interesses nos dados, mas apenas na medida em que essas informações particulares possam ser conectadas com outras informações particulares, para podermos falar de algo que não vemos. Não podemos observar diretamente um padrão decisório. O que podemos fazer é observar decisões particulares, para podemos com base nelas construir um mapa que nos permita falar da população de decisões.

Não procuramos padrões em dados, mas em conjuntos de dados. Quando fazemos uma análise, chamamos de dados as informações unitárias que combinamos para gerar conjuntos mais amplos, em pode ser possível identificar a ocorrência de padrões de variação nos dados. Se nosso objetivo é compreender como opera o controle concentrado, podemos levantar dados acerca dos processos, e combinar esses dados para construir uma visão geral do que ocorre com o grupo dos processos. Nesse caso, adotamos o processo como unidade de análise (pois coletaremos dados acerca dos processos unitários) para compreender o nosso objeto de pesquisa (o controle concentrado de constitucionalidade no Brasil).

Já se o nosso objetivo é compreender como opera o controle de constitucionalidade no mundo, podemos adotar como unidade de análise o modelo de cada país (ou o modelo de cada grupo de países, ou certos modelos anteriormente identificados). O objeto de pesquisa nunca está no mesmo nível da unidade de análise, pois o fenômeno pesquisado tem como componentes os objetos acerca dos quais coletamos os dados. Construímos informações sobre o nosso objeto de pesquisa a partir de uma concatenação dos dados acerca de nossas unidades de análise.

A ciência e a arte

A religião não é um saber científico, como não é científico o senso comum que nos dá a maior parte de nossas percepções de como o mundo é, de como as coisas operam. A moralidade pode ser um saber sobre o que é certo e errado, mas não é uma ciência. As artes não são saberes, mas são competências que articulam saberes e habilidades.

Os juristas atuais estão mais próximos dos artistas do que dos cientistas. Eles conhecem o seu público e por isso sabem que certas intervenções são capazes de mobilizar sentimentos, de estimular ações, de desencadear apreciações positivas e negativas. E normalmente eles se identificam com o seu público: advogados compartilham a visão de mundo dos juízes, e por fazerem parte do mesmo campo, conseguem construir discursos que mobilizam uns aos outros.

Pode chegar um momento em que o artista venha a ser substituído pelo cientista. É possível que cheguemos a um momento em que a análise psicológica nos mostre tanto sobre o modo como a música desencadeia reações orgânicas, e sobre quais são as músicas que as pessoas preferem, que um algoritmo que operacionalize esses conhecimentos seja mais eficiente, enquanto músico, do que um artista com uma intuição bem cultivada. Há algumas décadas, imaginava-se que nenhuma máquina seria capaz de ganhar dos homens em jogos complexos, como o xadrez. Assim como hoje muitos imaginam que uma petição inicial nunca poderá ser feita (ou apreciada) com a mesma qualidade por humanos e computadores.

Essa é uma conclusão que não leva em conta o fato de que os computadores (por enquanto) reproduzem algoritmos criados por humanos. Os algoritmos dos computadores não são algo esotérico, mas são execuções dos comandos que nós programamos. Esses programas são especialmente eficientes no tratamento de grandes quantidades de dados, o que ofereceu aos juristas atuais uma oportunidade.

Para que o trabalho metódico do cientista ofereça bases mais seguras para a ação do que a intuição de um artista (ou jurista) experiente, ele precisa de muitos dados. A grande vantagem da dogmática é que uma pessoa pode executar uma prática competente a partir de dados muito lacunares, pois ela trabalha com estereótipos, simplificações e generalizações. A dogmática jurídica nos permite escrever uma petição inicial em uma ação de indenização por responsabilidade civil, usando o mínimo necessário de dados para promover uma decisão favorável. O que importa não é a riqueza das informações, mas a capacidade de reduzir as informações úteis às categorias da dogmática, que serão as únicas (espera-se...) utilizadas no processamento humano do caso.

Mas chegará um ponto em que teremos dados suficientemente amplos sobre as decisões judiciais, sobre os juízes e sobre os casos. Nesse momento, pode ser que um algoritmo bem montado seja capaz de nos dizer mais sobre as perspectivas de sucesso de uma ação (e sobre as estratégias jurídicas adequadas) do que os saberes de um jurista experiente. Esse é um trânsito que não ocorre do dia para a noite. Precisamos de dados, e as pesquisas são máquinas de produzir dados, seja pela observação da realidade ou pela produção artificial de experimentos.

A peculiaridade da pesquisa é que ela produz dados que se encaixem em metodologias que permitem produzir informações a partir deles: que nos permite falar de entidades mais abstratas, a partir de informações coletadas acerca de unidades mais concretas. Sem dados, não há ciência. Mas os dados não geram a ciência imediatamente: eles precisam ser classificados segundo taxonomias definidas, as quais são desenvolvidas por abordagens teóricas. Somente esse tipo de classificação permite que os dados brutos sejam interpretados, que eles sejam usados como  evidências para sustentar determinadas descrições ou explicações da realidade.

No direito, obter dados era uma atividade muito penosa, até que o processo de informatização dos tribunais converteu dados que eram muito difíceis de acessar em dados potencialmente acessíveis. Esse processo de informatização produziu uma multiplicidade de dados que não foram suficientemente analisados, o que deslocou o desafio de compreender o direito: não tempos mais uma carência de dados, mas uma carência de interpretações sobre eles.

Essa carência é determinada pelo fato de que os juristas não foram treinados para lidar com os fatos do mundo, mas apenas para produzir discursos dogmáticos sólidos. Há pessoas suficientes para analisar os dados, eles são suficientemente disponíveis, existem recursos computacionais capazes de nos permitir a realização de várias formas de processamento desses dados. Continua sendo relevante produzir dados (especialmente dados que não foram bem mapeados), mas tem ganhado relevância o fato de que temos uma quantidade imensa de dados que não foram tratados, classificados e analisados.

E nem falamos aqui de big data, mas apenas de dados comuns: decisões judiciais, dados processuais, tempos de julgamento, argumentos típicos e atípicos. Para que desenvolvamos modelos descritivos e explicativos suficientemente robustos para compreender os padrões pelos quais a atividade jurídica se desenvolve, existe um longo caminho a seguir, especialmente no plano teórico: não temos classificações adequadas para essa função. As taxonomias jurídicas são voltadas para a dogmática, para a reprodução dos saberes tradicionais, e não para o desenvolvimento da pesquisa.

Pesquisa de Dados

Ciência de Dados é um rótulo um pouco vago, que apesar das suas limitações, "is perhaps the best label we have for the cross-disciplinary set of skills that are becoming increasingly important in many applications across industry and academia" (VanderPlas, 2017). Uma das descrições mais interessantes deste campo é o seguinte diagrama, elaborado por Drew Conway (2015):

Do ponto de vista da pesquisa acadêmica, que Conway coloca na interseção entre o conhecimento material (incluindo o metodológico) e o conhecimento estatístico, a principal inovação é a utilização de habilidades computacionais que servem como mecanismos de coleta, organização e análise dos dados. Essa abordagem nos permite falar em pesquisa de dados: não nos interessa definir se existe propriamente uma ciência de dados, mas interessa-nos a capacidade de incorporar como insumos de nossas pesquisas os dados que se tornaram acessíveis a quem tem as habilidades computacionais para acessá-los e organizá-los de forma a que possam ser analisados segundo os parâmetros da pesquisa científica.

Abordar o direito a partir da data science envolve enfrentar o desafio de como as práticas jurídicas podem ser explicadas a partir de interpretações realizadas a partir de bases de dados. Essas interpretações consistem na busca de padrões, de algum tipo de regularidade que nos permita utilizar um conjunto informações particulares (sobre processos, sobre decisões, sobre ministros), para fazer afirmações gerais sobre o conjunto de dados.

Para enfrentar esse desafio, o primeiro passo é aprender como é possível fazer pesquisa a partir de bases de dados já existentes, desenhando pesquisas capazes de construir novos conhecimentos, a partir de informações previamente organizadas.

Porém, nem sempre as bases disponíveis são suficientes para enfrentar os nossos problemas de pesquisa, o que pode exigir a construção de novas bases ou, no mínimo, a complementação de bases existentes. Essa complementação normalmente se dá por meio da criação e implementação de novas classificações, que permitam segmentar os dados segundo parâmetros diversos dos que vinham sendo utilizados.

O desafio geral é encontrar padrões, mas os padrões somente são formados quando classificamos os dados de uma maneira determinada. A classificação é o grande desafio teórico e filosófico envolvido na pesquisa, pois ela envolve o desenvolvimento de modelos conceituais capazes de captar as complexidades dos objetos que pretendemos descrever. Sem uma teoria adequada, é impossível fazer pesquisa empírica com resultados sólidos e é muito fácil chegar a conclusões equivocadas, ainda mais quando se utiliza modelos de machine learning.

Os modelos de machine learning são algoritmos desenvolvidos para buscar padrões e eles encontram padrões em quase qualquer conjunto de informações. Ferramentas de clusterização, por exemplo, vão subdividir um conjunto em subconjuntos, a partir de critérios de semelhança. Ocorre que esses modelos encontram padrões nas informações, não encontram padrões nos fatos. Para que eles possam ser úteis, é preciso converter os fenômenos observados empiricamente em informações com sentido, o que exige conhecimento material profundo dos objetos analisados. Sem um modelo descritivo adequado, não é possível aplicar as ferramentas computacionais disponíveis.

Portanto, a observação de padrões significativos em um conjunto de dados exige a combinação de conhecimento material (que garanta classificações adequadas) com habilidades computacionais (que viabilize o desenvolvimento de algoritmos adequados de análise).

Para completar o tripé da data science, precisamos de um terceiro conjunto de habilidades, que capacite o pesquisador a fazer inferências sólidas a partir do conjunto de dados. O estudo de como é possível fazer afirmações confiáveis sobre os padrões existentes em um conjunto de dados recebe tipicamente o nome de metodologia. Que estratégias metodológicas são viáveis para que seja possível compreender o modo como alguns fenômenos observáveis se relacionam?

O curso de Pesquisa de Dados em Direito tem por objetivo servir como uma introdução para juristas, com relação às potencialidades da ciência de dados para a compreensão de fenômenos jurídicos. Essa finalidade faz com que o curso seja modelado para pessoas que tenham um conhecimento material relativamente amplo sobre o direito, mas que precisam desenvolver habilidades metodológicas e estatísticas (relativas ao desenho da pesquisa) e  computacionais (que viabilizem a sua execução).