r1 github - 搜索 News

1 小时

DeepSeek V3为DeepSeek自研MoE模型，参数量达到671B，激活参数量37B，在14.8T token上进行了预训练，该模型在多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等开源模型，并在性能上和闭源模型GPT-4o以及Claude-3.5-Sonnet比肩。

1 小时

北大学霸，花了363元，做出媲美DeepSeek的AI模型

李飞飞等斯坦福大学和华盛顿大学的研究人员，站在开源模型Qwen2.5的肩膀上，训练成本仅花了不到50美元，就成功训练出了s1的AI推理模型，性能媲美OpenAI！在现有的阿里巴巴Qwen2.5-32B-Instruct的基础开始，然后使用谷歌最新的Gemini 2.0 Flash Experimental进行微调。

ZAKER科技 on MSN1 小时

历史时刻：DeepSeek GitHub星数超越OpenAI，仅用时两个月

DeepSeek-V3 已有 7.8 万 Star 量。开源 AI 世界的里程碑事件！我们正在见证历史：DeepSeek 项目在全球最大代码托管平台 GitHub 上的 Star 量超过了 OpenAI。

腾讯网1 小时

DeepSeek-R1｜集智百科

导语DeepSeek-R1是DeepSeek团队推出的第一代推理模型，通过强化学习（RL）和蒸馏技术显著提升了语言模型的推理能力。DeepSeek-R1-Zero模型在没有监督微调（SFT）的情况下，通过大规模强化学习训练展现出强大的推理能力，但存在 ...

3 小时on MSN

AI日报：DeepSeek紧急说明仿冒问题；Github重磅推出Agent模式；OpenAI公开 ...

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、DeepSeek紧急说明回应 ...

6 小时

DeepSeek，引爆AI手机？

DeepSeek-R1 采用了 MIT 开源许可证，允许用户通过蒸馏技术借助 R1 训练其他模型。换言之，开发者和厂商能够根据自身需求，对模型进行定制和优化，加速 AI 功能在个人终端设备上的落地。

7 小时

DeepSeek开源Janus-Pro-7B：多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注，位居应用商店排行榜首位并改变了股市。随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B，该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 ...

腾讯网8 小时

GMI Cloud上架基于英伟达H200 的 DeepSeek系列模型

36氪获悉，DeepSeek在GitHub开源后，代码库快速吸引大量开发者关注，star 数短期内突破十万，且众多基于DeepSeek的二次开发项目如代码自动补全、智能文档摘要等，已在金融、医疗、科研等多领域实现高效部署，有力推动了AI应用的创新与落地。在这个过程中，GMI Cloud 技术团队第一时间在北美完成了对DeepSeek ...

8 小时

钉钉AI助理接入DeepSeek 支持深度思考

钉钉AI助理接入DeepSeek 支持深度思考,钉钉,deepseek,工作流 ...

9 小时

817样本激发7倍推理性能：上交大「少即是多」定律挑战RL Scaling范式

在追求人工智能极限的道路上，"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域，业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而，来自上海交通大学的最新研究却给出了一个令人震惊的答案：仅需 817 ...

12 小时

DeepSeek获三大国产GPU力挺，给全世界上了重要一课

DeepSeek给整个AI产业带来的影响是全方位、多层次的，除了自身模型的优秀，DeepSeek对于产业的带动效应更值得关注，从芯片产业到上层云服务产业，几乎所有头部玩家和创企都在积极涌入DeepSeek“生态圈”。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果