Pular para o conteúdo principal

Visão geral da avaliação

A avaliação mede o desempenho dos modelos nas tarefas propostas, utilizando duas estratégias distintas conforme o tipo de dataset. Cada estratégia foi escolhida de acordo com a natureza das respostas geradas: respostas discursivas (texto livre) ou respostas objetivas (múltipla escolha).

Estratégias de avaliação

Avaliação cruzada (Pairwise Metrics)

O dataset oab_bench contém questões discursivas da segunda fase da OAB, cujas respostas são textos livres. Como não existe um gabarito exato para esse tipo de questão, a avaliação é feita de duas formas complementares:

  1. Modelo vs Modelo: compara as respostas geradas por cada par de modelos entre si, utilizando todas as combinações possíveis.
  2. Modelo vs Guideline: compara as respostas de cada modelo contra as guidelines de referência fornecidas pelo próprio dataset.

As métricas utilizadas nessa estratégia são:

MétricaO que mede
BLEUSobreposição de n-gramas entre a predição e a referência
ROUGE-1Sobreposição de unigramas
ROUGE-2Sobreposição de bigramas
ROUGE-LMaior subsequência comum entre os textos
BERTScoreSimilaridade semântica baseada em embeddings contextuais (F1)

A avaliação é feita por turno (cada subitem da questão é avaliado separadamente) e ao final é calculada uma média agregada de todos os turnos.

Para mais detalhes sobre cada métrica, consulte a seção Métricas.

Avaliação exata (Exact Match)

O dataset oab_exams contém questões objetivas de múltipla escolha da primeira fase da OAB, onde cada questão possui uma única alternativa correta. A avaliação compara diretamente a letra escolhida pelo modelo com o gabarito oficial.

As métricas utilizadas nessa estratégia são:

MétricaO que mede
AcuráciaProporção de respostas corretas sobre o total
PrecisãoCapacidade do modelo de acertar quando escolhe uma alternativa (macro)
RecallCapacidade do modelo de identificar a alternativa correta (macro)
F1-ScoreMédia harmônica entre precisão e recall (macro)

As letras das alternativas (A, B, C, D) são convertidas para valores inteiros antes do cálculo, e todas as métricas utilizam a estratégia macro para o cálculo agregado.

Resumo comparativo

Aspectooab_bench (Cruzada)oab_exams (Exata)
Tipo de respostaDiscursiva (texto livre)Objetiva (múltipla escolha)
ReferênciaOutros modelos + guidelinesGabarito oficial
MétricasBLEU, ROUGE, BERTScoreAcurácia, Precisão, Recall, F1
GranularidadePor turno + médiaPor modelo
Mínimo de modelos21

Onde os resultados são salvos

Os resultados da avaliação são salvos no diretório .reinan_cache/results/<dataset>/model_metric/ no formato JSON, com um arquivo por modelo.