A DeepSeek lançou o modelo Prover-V2, com um total de 6710 bilhões de parâmetros.

robot
Geração de resumo em curso

[DeepSeek lança modelo Prover-V2 com 671 bilhões de parâmetros] A DeepSeek lançou hoje um novo modelo chamado DeepSeek-Prover-V2-671B no Hugging Face, uma comunidade de IA de código aberto. É relatado que o DeepSeek-Prover-V2-671B usa um formato de arquivo safetensors mais eficiente e suporta uma variedade de precisões de cálculo, o que é conveniente para treinamento e implantação de modelos mais rápidos e com economia de recursos, com 671 bilhões de parâmetros, ou uma versão atualizada do modelo matemático Prover-V1.5 lançado no ano passado. Em termos de arquitetura de modelo, o modelo usa a arquitetura DeepSeek-V3, adota o modo MoE (Hybrid Expert) e tem 61 camadas de Transformer e 7168 camadas ocultas dimensionais. Ao mesmo tempo, suporta contextos ultralongos, com uma incorporação de posição máxima de até 163.800, o que lhe permite processar provas matemáticas complexas, e a quantização FP8 é adotada, o que pode reduzir o tamanho do modelo e melhorar a eficiência de inferência através da tecnologia de quantização. ( ouro dez )

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate.io
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)