AGI - 搜索 News

9 小时

为什么说DeepSeek的R1-Zero比R1更值得关注？

他认为，R1-Zero 之所以比 R1 更值得分析，是因为它完全依赖强化学习（RL），而不使用人类专家标注的监督微调（SFT），这表明在某些任务中，人类标注并非必要，且未来可能通过纯 RL 方法实现更广泛的推理能力。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果