A DeepSeek lançou o modelo Prover-V2, com um total de 6710 bilhões de parâmetros.

2025-04-30 12:36:26

Geração de resumo em curso

[DeepSeek lança modelo Prover-V2 com 671 bilhões de parâmetros] A DeepSeek lançou hoje um novo modelo chamado DeepSeek-Prover-V2-671B no Hugging Face, uma comunidade de IA de código aberto. É relatado que o DeepSeek-Prover-V2-671B usa um formato de arquivo safetensors mais eficiente e suporta uma variedade de precisões de cálculo, o que é conveniente para treinamento e implantação de modelos mais rápidos e com economia de recursos, com 671 bilhões de parâmetros, ou uma versão atualizada do modelo matemático Prover-V1.5 lançado no ano passado. Em termos de arquitetura de modelo, o modelo usa a arquitetura DeepSeek-V3, adota o modo MoE (Hybrid Expert) e tem 61 camadas de Transformer e 7168 camadas ocultas dimensionais. Ao mesmo tempo, suporta contextos ultralongos, com uma incorporação de posição máxima de até 163.800, o que lhe permite processar provas matemáticas complexas, e a quantização FP8 é adotada, o que pode reduzir o tamanho do modelo e melhorar a eficiência de inferência através da tecnologia de quantização. ( ouro dez )

DEEPSEEK0.4%

Ver original

O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#BTC#
228k publicações
#PI#
194k publicações
#ETH#
144k publicações
4#GateioInto11#
79k publicações
5#ContentStar#
66k publicações
6#GT#
63k publicações
7#BOME#
60k publicações
8#DOGE#
57k publicações
9#MAGA#
52k publicações
10#SLERF#
51k publicações

Pino