在多模态AI的领域里,微软宣布开源Magma基础模型,展现出强大的环境理解能力。Magma能够处理多模态输入,结合网页导航及机器人操作等多重功能,极大增强了其实用性。这一模型已经被CVPR接收,标志着其技术可靠性得到了认可。
3月6日,初创公司Butterfly Effect(蝴蝶效应)发布AI Agent(智能体)Manus的早期预览版,将其称为“全球首款通用智能体产品”。据团队介绍,Manus在GAIA基准测试中取得了SOTA(State-of-the-Art)的成绩 ...
据介绍,Magma使用大规模异构视觉语言(VL)数据集预训练,包含3900多万条样本,覆盖图像、视频以及机器人动作轨迹等多种形式,并采用ConvNeXt-XXL作为视觉骨干网络和Llama-3-8B作为语言模型。
视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果