Abordar o direito a partir da data science envolve enfrentar o desafio de como as práticas jurídicas podem ser explicadas a partir de interpretações realizadas a partir de bases de dados. Essas interpretações consistem na busca de padrões, de algum tipo de regularidade que nos permita utilizar um conjunto informações particulares (sobre processos, sobre decisões, sobre ministros), para fazer afirmações gerais sobre o conjunto de dados.
Para enfrentar esse desafio, o primeiro passo é aprender como é possível fazer pesquisa a partir de bases de dados já existentes, desenhando pesquisas capazes de construir novos conhecimentos, a partir de informações previamente organizadas.
Porém, nem sempre as bases disponíveis são suficientes para enfrentar os nossos problemas de pesquisa, o que pode exigir a construção de novas bases ou, no mínimo, a complementação de bases existentes. Essa complementação normalmente se dá por meio da criação e implementação de novas classificações, que permitam segmentar os dados segundo parâmetros diversos dos que vinham sendo utilizados.
O desafio geral é encontrar padrões, mas os padrões somente são formados quando classificamos os dados de uma maneira determinada. A classificação é o grande desafio teórico e filosófico envolvido na pesquisa, pois ela envolve o desenvolvimento de modelos conceituais capazes de captar as complexidades dos objetos que pretendemos descrever. Sem uma teoria adequada, é impossível fazer pesquisa empírica com resultados sólidos e é muito fácil chegar a conclusões equivocadas, ainda mais quando se utiliza modelos de machine learning.
Os modelos de machine learning são algoritmos desenvolvidos para buscar padrões e eles encontram padrões em quase qualquer conjunto de informações. Ferramentas de clusterização, por exemplo, vão subdividir um conjunto em subconjuntos, a partir de critérios de semelhança. Ocorre que esses modelos encontram padrões nas informações, não encontram padrões nos fatos. Para que eles possam ser úteis, é preciso converter os fenômenos observados empiricamente em informações com sentido, o que exige conhecimento material profundo dos objetos analisados. Sem um modelo descritivo adequado, não é possível aplicar as ferramentas computacionais disponíveis.
Portanto, a observação de padrões significativos em um conjunto de dados exige a combinação de conhecimento material (que garanta classificações adequadas) com habilidades computacionais (que viabilize o desenvolvimento de algoritmos adequados de análise).
Para completar o tripé da data science, precisamos de um terceiro conjunto de habilidades, que capacite o pesquisador a fazer inferências sólidas a partir do conjunto de dados. O estudo de como é possível fazer afirmações confiáveis sobre os padrões existentes em um conjunto de dados recebe tipicamente o nome de metodologia. Que estratégias metodológicas são viáveis para que seja possível compreender o modo como alguns fenômenos observáveis se relacionam?
O curso de Data Science e Direito tem por objetivo servir como uma introdução para juristas, com relação às potencialidades da ciência de dados para a compreensão de fenômenos jurídicos. Essa finalidade faz com que o curso seja modelado para pessoas que tenham um conhecimento material relativamente amplo sobre o direito, mas que precisam desenvolver habilidades metodológicas (relativas ao desenho da pesquisa) e computacionais (que viabilizem a sua execução).