近日,微软研究团队发布了一个令人振奋的突破性成果——Magma。这一多模态AI基础模型的问世,不仅为未来的智能机器人与虚拟助手铺设了新道路,也让我们看到了数字世界与物理世界深度融合的曙光。今天,就让我们一起深入了解这个能跨越不同任务和环境的智能系统, ...
当地时间2月25日,微软在其官方网站上宣布开源多模态AI Agent基础模型Magma,此举在人工智能领域引起了广泛关注。Magma的推出标志着AI技术的发展迈出了重要一步,尤其是在跨越数字与物理世界的多模态能力方面。
视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。
据介绍,Magma使用大规模异构视觉语言(VL)数据集预训练,包含3900多万条样本,覆盖图像、视频以及机器人动作轨迹等多种形式,并采用ConvNeXt-XXL作为视觉骨干网络和Llama-3-8B作为语言模型。
在人工智能领域,微软推出的Magma多模态AI基础模型正引领着一场数字与物理世界交互的革命。日前,微软在其官方渠道正式宣布,Magma模型的发布标志着多模态AI技术的进一步成熟,它具备前所未有的能力,能够跨越数字与物理的界限,极大地提升用户体验。
近日,微软在其官方网站上宣布开源了一款名为Magma的多模态AI基础模型。这一模型的推出标志着在自然语言处理和计算机视觉领域中,AI技术在跨数字和物理世界数据处理方面取得了重要的进展,受到了科技界的广泛关注。
微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”,并进行了开源。这一新兴技术相较于传统的智能助手,展现出了更为强大的多模态能力,能够处理图像、视频、文本等多种数据形式,打破了数字与物理世界之间的壁垒。
Microsoft 刚刚推出了 Magma,这是一款新型人工智能模型,旨在帮助机器人更智能地观察、理解和行动。与传统的 AI 模型不同,Magma 可以同时处理不同类型的数据——Microsoft 称这是朝着"主动式 AI"(即能够代表用户规划和执行任务的系统)迈出的重要一步。 这个结合了视觉和语言处理的模型,通过视频、图像、机器人数据和界面交互进行训练,使其比以往的模型更加多功能。 在其 Git ...
微软在科技领域再度迈出重要一步,近日在其官方网站上宣布开源了一款名为Magma的多模态AI Agent基础模型。这款模型的问世,标志着AI技术在处理跨数字与物理世界数据方面取得了显著进展。 Magma不同于传统的Agent模型,其最大的亮点在于其强大的多模态能力。它能够自如地处理图像、视频、文本等多种类型的数据,实现了对不同信息源的综合利用。这一特性使得Magma在应对复杂任务时,能够展现出更加灵 ...
品玩2月27日讯,据界面新闻报道,微软在官网开源多模态AI Agent基础模型Magma。 据介绍,与传统Agent相比,Magma具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据。 此外,Magma还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。
捷尼赛思(Genesis)品牌的最新力作——GV60 Magma原型车,近期在冬季测试过程中曝光,预示着这款极具竞争力的高性能SUV将在今年年底前震撼登场。
微软在科技界再次投下震撼弹,于近日凌晨三点,于其官方网站上宣布了一项重大决定:将多模态AI Agent基础模型Magma面向全球开源。这一举措不仅标志着AI技术在跨数字与物理世界融合方面的重大突破,更预示着未来智能交互的新篇章。 Magma,这一创新的多模态AI ...