1. Informações gerais

Este curso tem sido ministrado na Universidade de Brasília, desde 2019. Inicialmente, ele tinha mais foco na pesquisa empírica, tendo sido gradualmente ampliada a parcela dedicada às ferramentas de informática. Aos poucos, foi sendo  sedimentada a distinção entre o curso de Metodologia de Pesquisa (que se concentra na produção de um projeto de investigação empírica) e o presente curso de Ciência de dados.

A disciplina capacita os estudantes a utilizar ferramentas de análise de dados, com o objetivo de viabilizar a realização de pesquisas empíricas em direito. São desenvolvidas habilidades de coleta de dados, organização de informações, classificação de dados e elaboração de gráficos adequados a sua visualização. Além disso, o curso envolve uma introdução à programação em Python, voltada a capacitar os estudantes a desenvolver extratores (crawlers) capazes de gerar bancos de dados hábeis a serem explorados pelas ferramentas citadas.

Embora seja possível cursar esta disciplina independentemente do curso de Metodologia, é desejável que os estudantes tenham conhecimento metodológico, para poderem incorporar adequadamente as ferramentas da ciência de dados a suas pesquisas. Os cursos de metodologia podem ser encontrados na página Metodologia da Pesquisa em Direito.

Em 2023, ele deve ser oferecido em três turmas:

  1. Na graduação, ela será lançada como Atualização e Prática do Direito 2 , e será oferecida em dupla entrada, juntamente com a disciplina do PPGD.
  2. No PPGD, ele será ofertado na disciplina Inovações Metodológicas na Pesquisa em Direito.
  3. No PMPD, ele deve ser lançado em 2023.2 como Ciência de dados aplicada ao direito regulatório e políticas públicas.

O material do curso é livremente disponibilizado na internet, mas a participação nos encontros síncronos é destinada aos estudantes matriculados nestes cursos, seja como alunos efetivos ou especiais.

2. Objetivos

Abordar o direito a partir da data science envolve enfrentar o desafio de como as práticas jurídicas podem ser explicadas a partir de interpretações realizadas a partir de bases de dados. Essas interpretações consistem na busca de padrões, de algum tipo de regularidade que nos permita utilizar um conjunto informações particulares (sobre processos, sobre decisões, sobre ministros), para fazer afirmações gerais sobre o conjunto de dados.

Para enfrentar esse desafio, o primeiro passo é aprender como é possível fazer pesquisa a partir de bases de dados já existentes, desenhando pesquisas capazes de construir novos conhecimentos, a partir de informações previamente organizadas.

Porém, nem sempre as bases disponíveis são suficientes para enfrentar os nossos problemas de pesquisa, o que pode exigir a construção de novas bases ou, no mínimo, a complementação de bases existentes. Essa complementação normalmente se dá por meio da criação e implementação de novas classificações, que permitam segmentar os dados segundo parâmetros diversos dos que vinham sendo utilizados.

O desafio geral é encontrar padrões, mas os padrões somente são formados quando classificamos os dados de uma maneira determinada. A classificação é o grande desafio teórico e filosófico envolvido na pesquisa, pois ela envolve o desenvolvimento de modelos conceituais capazes de captar as complexidades dos objetos que pretendemos descrever. Sem uma teoria adequada, é impossível fazer pesquisa empírica com resultados sólidos e é muito fácil chegar a conclusões equivocadas, ainda mais quando se utiliza modelos de machine learning.

Os modelos de machine learning são algoritmos desenvolvidos para buscar padrões e eles encontram padrões em quase qualquer conjunto de informações. Ferramentas de clusterização, por exemplo, vão subdividir um conjunto em subconjuntos, a partir de critérios de semelhança. Ocorre que esses modelos encontram padrões nas informações, não encontram padrões nos fatos. Para que eles possam ser úteis, é preciso converter os fenômenos observados empiricamente em informações com sentido, o que exige conhecimento material profundo dos objetos analisados. Sem um modelo descritivo adequado, não é possível aplicar as ferramentas computacionais disponíveis.

Portanto, a observação de padrões significativos em um conjunto de dados exige a combinação de conhecimento material (que garanta classificações adequadas) com habilidades computacionais (que viabilize o desenvolvimento de algoritmos adequados de análise).

Para completar o tripé da data science, precisamos de um terceiro conjunto de habilidades, que capacite o pesquisador a fazer inferências sólidas a partir do conjunto de dados. O estudo de como é possível fazer afirmações confiáveis sobre os padrões existentes em um conjunto de dados recebe tipicamente o nome de metodologia. Que estratégias metodológicas são viáveis para que seja possível compreender o modo como alguns fenômenos observáveis se relacionam?

O curso de Data Science e Direito tem por objetivo servir como uma introdução para juristas, com relação às potencialidades da ciência de dados para a compreensão de fenômenos jurídicos. Essa finalidade faz com que o curso seja modelado para pessoas que tenham um conhecimento material relativamente amplo sobre o direito, mas que precisam desenvolver habilidades metodológicas (relativas ao desenho da pesquisa) e computacionais (que viabilizem a sua execução).

3. Estrutura do curso

3.1 Módulos semanais

A disciplina é dividida em 17 módulos, sendo 2 deles voltados à realização de atividades individuais assíncronas (os módulos-atividade) e dois módulos complementares (referentes ao nivelamento do conhecimento sobre metodologia).

3.2  Leituras

Um dos pontos fundamentais do curso são as leituras previstas em cada módulo, que serão de 3 tipos:

  1. Leitura obrigatória: é o mínimo para o acompanhamento das aulas.
  2. Leitura sugerida: leitura indicada para chegar a um resultado superior de aprendizagem. Para obter um MS, é preciso que o estudante (especialmente de pós-graduação) leia parte substancial da literatura sugerida.
  3. Leitura complementar: leitura de tópicos específicos. Para pretender um SS, os estudantes devem ultrapassar as leituras mínima e sugerida e explorar (parcialmente, claro) a literatura complementar e as atividades complementares (observando que o trabalho final é considerado uma atividade complementar).

3.2 Relatório final

Ao final da disciplina, cada estudante deverá entregar um relatório final, descrevendo a sua participação, avaliando o seu rendimento e apresentando uma autoavaliação que atribua ao seu desempenho a menção que for adequada, nos termos da descrição de cada menção (no ponto 5, abaixo).

3.3 Trabalho final técnico ou acadêmico

Como atividade complementar, cada estudante deverá apresentar um trabalho final, que pode ser feito individualmente ou em grupo. O tipo do trabalho final e os grupos que o realizarão devem ser definidos até o final do Módulo 8 (embora seja desejável que essa definição ocorra em meados do curso)

Este trabalho pode ser:

  1. Um projeto de pesquisa de dados em direito. Também é possível fazer um artigo, mas dificilmente haverá tempo hábil para planejar e executar uma pesquisa.
  2. Um programa capaz de extrair dados e gerar um banco, acerca de dados que não foram ainda colhidos e organizados.
  3. Um banco de dados desenvolvido, construído ao longo da disciplina, que possa ser disponibilizado de forma pública.
  4. Uma análise de um banco de dados, produzido autonomamente ou não.
  5. Outro trabalho técnico ou acadêmico, desde que seja aprovado pelo(s) docente(s). Nesse caso, o estudante ou grupo deve apresentar uma proposta de trabalho alternativo até o final do prazo de definição do trabalho final.

4. Sistema de Menções

As menções do curso terão o seguinte significado:

  1. SR - Abandono do curso.
  2. II ou MI - Resultado insuficiente. Leituras incompletas dos textos obrigatórios, muitas faltas nos encontros síncronos e pouca realização das atividades.
  3. MM - Resultado mínimo: esse é o resultado esperado dos estudantes que focarem no comparecimento das aulas e na realização das atividades obrigatórias. Esse rendimento correspondente à realização da maior parte das leituras obrigatórias e atividades semanais, mas sem uma realização constante das leituras sugeridas e sem uma participação ativa nos encontros síncronos. Em termos de tempo, o MM corresponde a cerca de 1h de estudo semanal, para além dos encontros semanais (o que permite dedicar-se aos encontros gerais e a parte substancial da leitura obrigatória).
  4. MS - Resultado bom: esse é o resultado esperado para os estudantes que têm uma presença constante nos encontros síncronos (gerais e em grupo), realizam quase todas as leituras obrigatórias, fazem uma leitura esporádica da leitura sugerida e participam das atividades individuais e em grupo. Esse é o resultado esperado para quem dedicar uma média de 2 horas semanais fora da sala de aula (o que permite fazer todas as leituras obrigatórias e incorporar também parte das leituras sugeridas).
  5. SS - Resultado excelente: envolve, além das leituras e atividades obrigatórias, uma exploração da literatura sugerida e complementar e, principalmente, a realização do trabalho final. Além disso, essa nota reflete uma participação constante e ativa nos encontros síncronos. Trata-se de um resultado que exige 3 a 4 horas de estudo semanal (o que permite incorporar as atividades complementares, especialmente a realização do trabalho final).