[DeepSeek lança modelo Prover-V2 com 671 bilhões de parâmetros] A DeepSeek lançou hoje um novo modelo chamado DeepSeek-Prover-V2-671B no Hugging Face, uma comunidade de IA de código aberto. É relatado que o DeepSeek-Prover-V2-671B usa um formato de arquivo safetensors mais eficiente e suporta uma variedade de precisões de cálculo, o que é conveniente para treinamento e implantação de modelos mais rápidos e com economia de recursos, com 671 bilhões de parâmetros, ou uma versão atualizada do modelo matemático Prover-V1.5 lançado no ano passado. Em termos de arquitetura de modelo, o modelo usa a arquitetura DeepSeek-V3, adota o modo MoE (Hybrid Expert) e tem 61 camadas de Transformer e 7168 camadas ocultas dimensionais. Ao mesmo tempo, suporta contextos ultralongos, com uma incorporação de posição máxima de até 163.800, o que lhe permite processar provas matemáticas complexas, e a quantização FP8 é adotada, o que pode reduzir o tamanho do modelo e melhorar a eficiência de inferência através da tecnologia de quantização. ( ouro dez )
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
A DeepSeek lançou o modelo Prover-V2, com um total de 6710 bilhões de parâmetros.
[DeepSeek lança modelo Prover-V2 com 671 bilhões de parâmetros] A DeepSeek lançou hoje um novo modelo chamado DeepSeek-Prover-V2-671B no Hugging Face, uma comunidade de IA de código aberto. É relatado que o DeepSeek-Prover-V2-671B usa um formato de arquivo safetensors mais eficiente e suporta uma variedade de precisões de cálculo, o que é conveniente para treinamento e implantação de modelos mais rápidos e com economia de recursos, com 671 bilhões de parâmetros, ou uma versão atualizada do modelo matemático Prover-V1.5 lançado no ano passado. Em termos de arquitetura de modelo, o modelo usa a arquitetura DeepSeek-V3, adota o modo MoE (Hybrid Expert) e tem 61 camadas de Transformer e 7168 camadas ocultas dimensionais. Ao mesmo tempo, suporta contextos ultralongos, com uma incorporação de posição máxima de até 163.800, o que lhe permite processar provas matemáticas complexas, e a quantização FP8 é adotada, o que pode reduzir o tamanho do modelo e melhorar a eficiência de inferência através da tecnologia de quantização. ( ouro dez )