Atividade 01

Curadoria de Datasets e Inferência Básica com LLMs

Domínio Jurídico: Equipe 3

Tópicos Avançados em Engenharia de Software e Sistemas de Informação I Mestrado em Ciências da Computação — Procc/UFS

Dataset	Identificador	Tipo	Total
OAB Bench	`maritaca-ai/oab-bench`	Questões Abertas	210 questões
OAB Exams	`eduagarcia/oab_exams`	Múltipla Escolha	2.210 questões

OAB Bench: Questões dissertativas da 2ª fase da OAB, com enunciado, subitens e guidelines de correção (benchmark da Maritaca AI)
OAB Exams: Questões objetivas da 1ª fase da OAB (provas de 2010 a 2018), com 4 alternativas e gabarito oficial (dataset de Eduardo Garcia)

O trabalho foi dividido em 4 etapas executadas individualmente:

Curadoria e classificação criativa
- Nível de dificuldade (3 níveis cognitivos)
- Área de especialidade jurídica
- Legislação base de referência
Inferência com LLMs
- Cada membro selecionou 3 modelos de linguagem
- Submissão das questões abertas e objetivas aos modelos
Avaliação automática
- Métricas automáticas para comparar as respostas geradas

A classificação foi baseada no tipo de operação cognitiva exigida pela questão, não no tamanho do enunciado.

Nível	Nome técnico	Critérios
1	Recuperação factual direta	Memorização de artigo de lei ou conceito exato
2	Raciocínio lógico-dedutivo	Caso concreto + aplicação de regra clara
3	Hermenêutica jurídica complexa	Interpretação profunda, cruzamento de leis

Identifica a principal referência normativa associada à questão:

Ex: Constituição Federal, Art. 5º, Código Penal, Art. 121, Lei nº 14.133/2021

Identifica a área do direito relacionada à questão:

{
  "difficulty_question": 2,
  "basic_legislation": "Constituição Federal, Art. 71, III",
  "area_expertise": "Direito Administrativo"
}

A curadoria foi realizada de forma automatizada e reprodutível:

#	Operação	Saída
1	Resposta à questão	Texto discursivo ou letra (A–D)
2	Classificação de dificuldade	Valor 1, 2 ou 3
3	Identificação de legislação	Referência normativa principal
4	Identificação da área	Área de expertise jurídica

Cada integrante selecionou 3 modelos compactos.

OAB Bench: sem gabarito oficial → avaliação cruzada entre modelos

Duas estratégias complementares:

Métrica	O que mede	Escala
BLEU	Sobreposição de n-gramas (precisão lexical)	0 a 1
ROUGE-1	Sobreposição de unigramas (cobertura vocabular)	0 a 1
ROUGE-2	Sobreposição de bigramas (estrutura local)	0 a 1
ROUGE-L	Maior subsequência comum (estrutura global)	0 a 1
BERTScore F1	Similaridade semântica via embeddings contextuais	0 a 1

OAB Exams: com gabarito oficial → avaliação exata

Métrica	O que mede
Acurácia	Proporção de respostas corretas sobre o total
Precisão	Quantas vezes o modelo acertou ao escolher uma alternativa
Recall	Quantas questões da classe correta foram identificadas
F1-Score	Média harmônica entre precisão e recall