transformers - 搜索 News

资讯

4 小时

奥特曼之后，库克也哭晕在厕所？Meta疯狂砸钱，苹果AI核心要被 ...

更严重的是，这样的局面也在向Qualcomm、Intel、AMD和NVIDIA等公司传递一个信号：Apple Silicon团队可能很快就会被「挖空」。如果苹果坚持让核心工程师和科学家的薪资不得高于副总裁，留不住人也就不足为奇了。

3 天

停止RL研究，前OpenAI研究员：互联网才是唯一重要的技术

2020 年，OpenAI 研究员 Alec Radford ...

腾讯网22 天

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生，主要研究方向为基础模型的优化、泛化和可扩展性理论，导师为李崇轩副教授，论文为其在字节跳动Seed实习期间完成。第二作者张新雨是字节跳动研究员，主要研究方向为视觉生成模型。李崇 ...

腾讯网1 天

视频生成DiT无损加速两倍！伯克利联合MIT韩松团队提出Sparse VideoGen ...

为此，来自加州大学伯克利分校和MIT的研究者们联合提出了Sparse VideoGen（SVG）框架。这是一种完全无需重新训练模型的视频生成加速方法。该框架通过挖掘并利用3D Full ...

CTIMES10 天

AI「相变」新证据 Transformers从词序推理突变为语意理解

大利 SISSA Medialab 与瑞士 EPFL（洛桑联邦理工学院）联合研究，首次从理论角度验证：「Transformers」神经网路在训练过程中会出现如同物理相变的转折点，初期阶段以「位置」为依据理解语句，当训练资料量足够後，模型会突然切换到以 ...

13 小时

我靠AI当上了网红

“一个小猫做饭视频，用AI不到2小时就能做出来，播放量最高能到一千多万。”AI制作短视频博主李可告诉《中国企业家》。在李可制作的视频中，橘黄色的小猫身穿围裙，如同人类般直立着站在灶台前，翻炒着锅里的辣椒炒肉。这些曾只出现在动画片里的情节，如今却真实地呈现在短视频平台上。近期，诸如“小猫做饭”这类AI小视频在抖音等短视频平台“刷屏”，动物版奥运会、沉浸式ASMR、小人国等AI版短视频频频出圈，不少 ...

11 小时

BW2025 次元影像盛宴：SmallRig 斯莫格携变形金刚大黄蜂联名套件解锁 ...

2025 年 BilibiliWorld（下称 BW）展会近日在上海国家会展中心落幕。这场覆盖 24 万平方米的年度盛会吸引了 700 余家展商参与，形成科技硬件、内容创作、二次元文化、智能生活四大核心展区的多元布局。

1 天

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

大型语言模型已展现出卓越的能力，但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别，训练和推理的成本变得高昂，阻碍了其在许多实际应用中的推广与落地。

GitHub1 天

MM-IR/rank4_NLP_textclassification - GitHub

该比赛为14个类别的新闻文本分类比赛，本次比赛数据集分为线下的有标签训练数据以及A榜以及B榜的测试数据，选手们需要用线下的有标签训练数据来进行监督学习，最后用对应的模型在B榜上对应的成绩作为最终排名。项目 ...

芯智讯 on MSN12 天

华为盘古大模型“抄袭”阿里Qwen？官方回应

2025年6月30日，华为正式宣布开源盘古7B参数的稠密模型、盘古Pro MoE 72B混合专家模型和基于昇腾的模型推理技术。随后一项由@HonestAGI 发布于GitHub的针对盘古大模型的研究引发业界热议，该研究的作者认为，华为推 ...

1 天

英特尔和魏茨曼研究所突破加速人工智能模型运行

Investing.com -- 英特尔公司实验室和魏茨曼科学研究所开发出一种新方法，可使大型语言模型 (LLMs)运行速度提高至2.8倍，且不影响输出质量，该公司宣布。这项"推测性解码"的突破在加拿大温哥华举行的国际机器学习会议上发布。这项技术允许任何小型"草稿"模型加速任何大型语言模型，即使它们使用不同的词汇表。

2 天

首篇潜空间推理综述！模型思考不必依赖Token，带宽暴增2700+倍

潜空间推理是一个新兴领域，其思想最早可以追溯到ICLR 2019上阿姆斯特丹大学学者 Mostafa Dehghani 与谷歌大脑和DeepMind （后两者当时处于独立状态）共同发表的《Universal Transformers》。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果