Pular para o conteúdo principal

Atividade 01

Curadoria de Datasets e Inferência Básica com LLMs

Domínio Jurídico: Equipe 3

Tópicos Avançados em Engenharia de Software e Sistemas de Informação I Mestrado em Ciências da Computação — Procc/UFS


MembroQuestões abertasMúltipla escolha
Fernanda Mirely141 a 1521477 a 1599
Éricles153 a 1641600 a 1722
Júlia165 a 1761723 a 1845
Reinan Gabriel177 a 1881846 a 1968
Mikaela189 a 2001969 a 2091
Victor Leonardo201 a 2102092 a 2210

DatasetIdentificadorTipoTotal
OAB Benchmaritaca-ai/oab-benchQuestões Abertas210 questões
OAB Examseduagarcia/oab_examsMúltipla Escolha2.210 questões
  • OAB Bench: Questões dissertativas da 2ª fase da OAB, com enunciado, subitens e guidelines de correção (benchmark da Maritaca AI)
  • OAB Exams: Questões objetivas da 1ª fase da OAB (provas de 2010 a 2018), com 4 alternativas e gabarito oficial (dataset de Eduardo Garcia)

O trabalho foi dividido em 4 etapas executadas individualmente:

  1. Curadoria e classificação criativa

    • Nível de dificuldade (3 níveis cognitivos)
    • Área de especialidade jurídica
    • Legislação base de referência
  2. Inferência com LLMs

    • Cada membro selecionou 3 modelos de linguagem
    • Submissão das questões abertas e objetivas aos modelos
  3. Avaliação automática

    • Métricas automáticas para comparar as respostas geradas

A classificação foi baseada no tipo de operação cognitiva exigida pela questão, não no tamanho do enunciado.

NívelNome técnicoCritérios
1Recuperação factual diretaMemorização de artigo de lei ou conceito exato
2Raciocínio lógico-dedutivoCaso concreto + aplicação de regra clara
3Hermenêutica jurídica complexaInterpretação profunda, cruzamento de leis

Legislação base

Identifica a principal referência normativa associada à questão:

  • Ex: Constituição Federal, Art. 5º, Código Penal, Art. 121, Lei nº 14.133/2021

Área de expertise

Identifica a área do direito relacionada à questão:

  • Ex: Direito Constitucional, Direito Administrativo, Direito Penal

Exemplo de saída da curadoria

{
"difficulty_question": 2,
"basic_legislation": "Constituição Federal, Art. 71, III",
"area_expertise": "Direito Administrativo"
}

A curadoria foi realizada de forma automatizada e reprodutível:

  • Prompts estruturados definem o formato de saída esperado (JSON)
  • Mesma configuração aplicada a todos os integrantes
#OperaçãoSaída
1Resposta à questãoTexto discursivo ou letra (A–D)
2Classificação de dificuldadeValor 1, 2 ou 3
3Identificação de legislaçãoReferência normativa principal
4Identificação da áreaÁrea de expertise jurídica

Cada integrante selecionou 3 modelos compactos.


OAB Bench: sem gabarito oficial → avaliação cruzada entre modelos

Duas estratégias complementares:

  1. Modelo vs Modelo: compara respostas entre cada par de modelos
  2. Modelo vs Guideline: compara respostas contra as guidelines do dataset
MétricaO que medeEscala
BLEUSobreposição de n-gramas (precisão lexical)0 a 1
ROUGE-1Sobreposição de unigramas (cobertura vocabular)0 a 1
ROUGE-2Sobreposição de bigramas (estrutura local)0 a 1
ROUGE-LMaior subsequência comum (estrutura global)0 a 1
BERTScore F1Similaridade semântica via embeddings contextuais0 a 1

OAB Exams: com gabarito oficial → avaliação exata

MétricaO que mede
AcuráciaProporção de respostas corretas sobre o total
PrecisãoQuantas vezes o modelo acertou ao escolher uma alternativa
RecallQuantas questões da classe correta foram identificadas
F1-ScoreMédia harmônica entre precisão e recall
  • As letras (A, B, C, D) são convertidas para inteiros antes do cálculo
  • Estratégia macro: calcula a métrica por classe e tira a média simples