资讯

更严重的是,这样的局面也在向Qualcomm、Intel、AMD和NVIDIA等公司传递一个信号:Apple Silicon团队可能很快就会被「挖空」。如果苹果坚持让核心工程师和科学家的薪资不得高于副总裁,留不住人也就不足为奇了。
本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生,主要研究方向为基础模型的优化、泛化和可扩展性理论,导师为李崇轩副教授,论文为其在字节跳动Seed实习期间完成。第二作者张新雨是字节跳动研究员,主要研究方向为视觉生成模型。李崇 ...
为此,来自加州大学伯克利分校和MIT的研究者们联合提出了Sparse VideoGen(SVG)框架。这是一种完全无需重新训练模型的视频生成加速方法。该框架通过挖掘并利用3D Full ...
大利 SISSA Medialab 与瑞士 EPFL(洛桑联邦理工学院)联合研究,首次从理论角度验证:「Transformers」神经网路在训练过程中会出现如同物理相变的转折点,初期阶段以「位置」为依据理解语句,当训练资料量足够後,模型会突然切换到以 ...
“一个小猫做饭视频,用AI不到2小时就能做出来,播放量最高能到一千多万。”AI制作短视频博主李可告诉《中国企业家》。在李可制作的视频中,橘黄色的小猫身穿围裙,如同人类般直立着站在灶台前,翻炒着锅里的辣椒炒肉。这些曾只出现在动画片里的情节,如今却真实地呈现在短视频平台上。 近期,诸如“小猫做饭”这类AI小视频在抖音等短视频平台“刷屏”,动物版奥运会、沉浸式ASMR、小人国等AI版短视频频频出圈,不少 ...
2025 年 BilibiliWorld(下称 BW)展会近日在上海国家会展中心落幕。这场覆盖 24 万平方米的年度盛会吸引了 700 余家展商参与,形成科技硬件、内容创作、二次元文化、智能生活四大核心展区的多元布局。
大型语言模型已展现出卓越的能力,但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别,训练和推理的成本变得高昂,阻碍了其在许多实际应用中的推广与落地。
该比赛为14个类别的新闻文本分类比赛,本次比赛数据集分为线下的有标签训练数据以及A榜以及B榜的测试数据,选手们需要用线下的有标签训练数据来进行监督学习,最后用对应的模型在B榜上对应的成绩作为最终排名。 项目 ...
2025年6月30日,华为正式宣布开源盘古7B参数的稠密模型、盘古Pro MoE 72B混合专家模型和基于昇腾的模型推理技术。随后一项由@HonestAGI 发布于GitHub的针对盘古大模型的研究引发业界热议,该研究的作者认为,华为推 ...
Investing.com -- 英特尔公司实验室和魏茨曼科学研究所开发出一种新方法,可使大型语言模型 (LLMs)运行速度提高至2.8倍,且不影响输出质量,该公司宣布。 这项"推测性解码"的突破在加拿大温哥华举行的国际机器学习会议上发布。这项技术允许任何小型"草稿"模型加速任何大型语言模型,即使它们使用不同的词汇表。
潜空间推理是一个新兴领域,其思想最早可以追溯到ICLR 2019上阿姆斯特丹大学学者 Mostafa Dehghani 与谷歌大脑和DeepMind (后两者当时处于独立状态) 共同发表的 《Universal Transformers》 。