


DeepSeek-R1-Distill-Llama-70B é uma versão destilada do modelo R1 da DeepSeek, ajustada a partir do modelo base Llama-3.3-70B-Instruct. Este modelo utiliza técnicas de destilação de conhecimento para preservar capacidades robustas de raciocínio e oferecer desempenho excepcional em tarefas matemáticas e de lógica, com a velocidade líder de mercado da Groq.
Especificações Técnicas Principais
Arquitetura do Modelo
Construído sobre a estrutura Llama-3.3-70B-Instruct, o modelo possui 70 bilhões de parâmetros. O processo de destilação ajusta finamente o modelo base com base nas saídas do DeepSeek-R1, transferindo efetivamente padrões de raciocínio.
Métricas de Desempenho
O modelo demonstra desempenho sólido em diversos benchmarks:
- AIME 2024: Pass@1 de 70,0
- MATH-500: Pass@1 de 94,5
- CodeForces Rating: Alcançou uma pontuação de 1.633
Detalhes Técnicos
Recurso | Valor |
---|---|
Janela de Contexto | 128.000 tokens |
Tokens Máximos por Saída | – |
Tamanho Máx. de Arquivo | – |
Velocidade de Geração | 275 tokens/segundo |
Preço por Token de Entrada | $0,75 por 1M tokens |
Preço por Token de Saída | $0,99 por 1M tokens |
Uso de Ferramentas | Suportado |
Modo JSON | Suportado |
Suporte a Imagens | Não suportado |
Casos de Uso
Resolução de Problemas Matemáticos
Resolve eficazmente consultas matemáticas complexas, sendo útil em ferramentas educacionais e aplicações de pesquisa.
Assistência em Programação
Auxilia na geração de código e na depuração, sendo vantajoso para o desenvolvimento de software.
Raciocínio Lógico
Executa tarefas que exigem pensamento estruturado e dedutivo, aplicável em análise de dados e planejamento estratégico.
Boas Práticas
- Engenharia de Prompts: Ajuste o parâmetro temperature entre 0,5 e 0,7 (idealmente 0,6) para evitar saídas repetitivas ou incoerentes.
- Prompt do Sistema: Evite adicionar um prompt de sistema separado; inclua todas as instruções no prompt do usuário.