Pular para o conteúdo principal

ROUGE

O que é

O ROUGE (Recall-Oriented Understudy for Gisting Evaluation) é um conjunto de métricas usado para avaliar textos gerados com base na cobertura do conteúdo de uma referência.

Diferentemente do BLEU, o ROUGE enfatiza recall, ou seja, mede quanto do conteúdo presente no texto de referência também aparece no texto gerado.

Variantes utilizadas

VarianteO que mede
ROUGE-1Sobreposição de unigramas
ROUGE-2Sobreposição de bigramas
ROUGE-LMaior subsequência comum entre os textos

ROUGE-1

O ROUGE-1 mede quantas palavras da referência aparecem no texto gerado.

Essa variante é útil para avaliar a cobertura geral do vocabulário.

ROUGE-2

O ROUGE-2 mede quantos pares de palavras consecutivas da referência aparecem no texto gerado.

Essa variante ajuda a avaliar similaridade local de estrutura e formulação.

ROUGE-L

O ROUGE-L mede a maior subsequência comum entre o texto gerado e a referência.

Essa variante é útil para capturar similaridade estrutural mais ampla entre os textos.

Interpretação da escala

O ROUGE varia de 0 a 1:

  • 0 indica ausência de cobertura relevante do conteúdo da referência.
  • 1 indica cobertura completa.

Diferença em relação ao BLEU

AspectoBLEUROUGE
FocoPrecisãoRecall
Pergunta principalO texto gerado aparece na referência?O conteúdo da referência aparece no texto gerado?
Uso comumTradução automáticaSumarização e geração de texto

Assim como o BLEU, o ROUGE é baseado em sobreposição de palavras e não captura similaridade semântica. Para esse tipo de análise, utilize o BERTScore.