deepseek github r1 - 搜索 News

44 分钟

在去年12月关于V3的技术报告中，DeepSeek表示该模型使用了大约2000块英伟达H800进行训练，成本约为600万美元。这个成本远低于规模更大的竞争对手，后者动辄就是几十亿、上万亿美元的投入，OpenAI甚至在DeepSeek的R1模型走红前， ...

3 小时

今天，Anthropic同时推出了Claude Code，其联合创始人兼首席科学官贾里德·卡普兰 (Jared Kaplan) 也对外表示，新模型“在编码方面更加强大，特别是在接管和执行真正复杂的编码任务方面”，势必要夺回，AI ...

5 小时

据介绍，DualPipe是一种用于V3和R1训练中计算与通信重叠的双向流水线并行算法。DeepSeek-V3就首次使用了该方法。与传统的1F1B（交替执行前向和后向传播）和ZB1P（零气泡单向流水线）方法相比，DualPipe大幅减少了流水线气泡，同 ...

8 小时

这三项优化并行策略其中包括DualPipe，这是一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法，这种算法能够完全重叠前向和后向计算通信阶段，与传统方法相比减少了“流水线气泡”。

深度探索创始人梁文锋本硕就读于信息与电子工程学院；云深处科技创始人朱秋国是浙大校友，也是控制科学与工程学院副教授；研发出全球最快四足机器狗“黑豹2.0”的团队，带队人王宏涛教授则来自航空航天学院…… ...

14 小时

2025年2月27日，人工智能领域再次迎来了激动人心的时刻。DeepSeek公司在GitHub上正式开源了两个全新的工具和一个数据集，这一举措标志着其在AI模型的训练和推理领域的重要进展。这三个新发布的项目包括DualPipe、EPLB（专家并行负载 ...

【TechWeb】2月27日消息，DeepSeek开源周第四日，DeepSeek开源了并行优化策略（Optimized Parallelism ...

15 小时on MSN

DeepSeek开源周系列活动近日迎来了第四波高潮，此次发布的焦点集中在三项针对并行计算的优化策略上。这些策略通过GitHub平台向公众详细揭示了DeepSeek-V3和R1模型背后的技术细节，展示了团队如何通过精细的计算和通信优化，最大化利用GPU ...

16 小时on MSN

【DeepSeek 开源周第四弹，2 月 27 日公布三项优化并行策略】2 月 27 日，DeepSeek 在 X 上宣布此次开源的是三项优化并行策略。DeepSeek 在 Github 上详细展开了 DeepSeek-V3 和 R1 ...

来自MSN16 小时

近期，人工智能领域迎来了一系列重要进展，其中DeepSeek公司的动作尤为引人注目。该公司宣布了一项重大决定——将其优化并行策略（Optimized Parallelism Strategies）进行开源，这一策略旨在提升计算效率，减少资源浪费，并最大化系统性能。

Anthropic launched Claude 3.7 Sonnet, the first hybrid AI model that combines quick responses with extended "thinking" for ...

红板报 on MSN18 小时

这一周，杭州城里，DeepSeek 连续五天公布代码，阿里通义接连放出三个开源模型“王炸”。

一些您可能无法访问的结果已被隐去。