r1 github - 搜索 News

57 分钟

DeepSeek V3为DeepSeek自研MoE模型，参数量达到671B，激活参数量37B，在14.8T token上进行了预训练，该模型在多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等开源模型，并在性能上和闭源模型GPT-4o以及Claude-3.5-Sonnet比肩。

1 小时

历史时刻：DeepSeek GitHub星数超越OpenAI，仅用时两个月

据技术报告介绍，DeepSeek-V3 的预训练过程只花费 266.4 万 H800 GPU Hours，再加上上下文扩展与后训练的训练共为 278.8 H800 GPU Hours（训练成本 557.6 万美元）。相较之下，Llama 3 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点