DeepSeek R1 Distill Llama 70b
DeepSeek-R1-Distill-Llama-70B é um modelo destilado com 70 bilhões de parâmetros, baseado em Llama-3.3-70B-Instruct. Otimizado para raciocínio matemático e lógico, apresenta alto desempenho em benchmarks (AIME, MATH-500, CodeForces). Com janela de contexto de 128 K tokens e geração a 275 tps, é indicado para ensino, programação e análise estratégica, usando temperatura 0,6.