Hardware

Configuração utilizada

Os experimentos de inferência foram executados em uma máquina local com a seguinte configuração:

Os modelos selecionados são compatíveis com os 4 GB de VRAM dedicada disponíveis na GPU.

Durante a inferência:

Apenas um modelo é carregado por vez
A execução ocorre diretamente na GPU
Não é necessário offloading para a RAM
O Ollama gerencia automaticamente o carregamento e o descarregamento dos modelos