[DeepSeek phát hành mô hình Prover-V2 với 671 tỷ thông số] DeepSeek hôm nay đã phát hành một mô hình mới có tên DeepSeek-Prover-V2-671B trên Hugging Face, một cộng đồng AI mã nguồn mở. Có thông tin cho rằng DeepSeek-Prover-V2-671B sử dụng định dạng tệp safetensors hiệu quả hơn và hỗ trợ nhiều độ chính xác tính toán khác nhau, thuận tiện cho việc đào tạo và triển khai mô hình nhanh hơn và tiết kiệm tài nguyên hơn, với 671 tỷ tham số hoặc phiên bản nâng cấp của mô hình toán học Prover-V1.5 được phát hành vào năm ngoái. Về kiến trúc mô hình, mô hình sử dụng kiến trúc DeepSeek-V3, áp dụng chế độ MoE (Hybrid Expert) và có 61 lớp Transformer và 7168 lớp ẩn chiều. Đồng thời, nó hỗ trợ các ngữ cảnh cực dài, với vị trí nhúng tối đa lên đến 163.800, cho phép nó xử lý các bằng chứng toán học phức tạp và lượng tử hóa FP8 được áp dụng, có thể giảm kích thước mô hình và cải thiện hiệu quả suy luận thông qua công nghệ lượng tử hóa. ( vàng mười )
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
DeepSeek phát hành mô hình Prover-V2, với số lượng tham số đạt 6710 tỷ
[DeepSeek phát hành mô hình Prover-V2 với 671 tỷ thông số] DeepSeek hôm nay đã phát hành một mô hình mới có tên DeepSeek-Prover-V2-671B trên Hugging Face, một cộng đồng AI mã nguồn mở. Có thông tin cho rằng DeepSeek-Prover-V2-671B sử dụng định dạng tệp safetensors hiệu quả hơn và hỗ trợ nhiều độ chính xác tính toán khác nhau, thuận tiện cho việc đào tạo và triển khai mô hình nhanh hơn và tiết kiệm tài nguyên hơn, với 671 tỷ tham số hoặc phiên bản nâng cấp của mô hình toán học Prover-V1.5 được phát hành vào năm ngoái. Về kiến trúc mô hình, mô hình sử dụng kiến trúc DeepSeek-V3, áp dụng chế độ MoE (Hybrid Expert) và có 61 lớp Transformer và 7168 lớp ẩn chiều. Đồng thời, nó hỗ trợ các ngữ cảnh cực dài, với vị trí nhúng tối đa lên đến 163.800, cho phép nó xử lý các bằng chứng toán học phức tạp và lượng tử hóa FP8 được áp dụng, có thể giảm kích thước mô hình và cải thiện hiệu quả suy luận thông qua công nghệ lượng tử hóa. ( vàng mười )