根据OS-WorldE2E基准测试官方公布的最新数据(截至2025年10月),明略科技自主研发的GUI智能体大模型Mano在任务成功率方面取得突破性进展。该模型以54.0%的端到端任务成功率在OSWorld评测中创下新纪录,位列专用模型类别首位,同时在模型总榜排名第二,仅次于Anthropic公司最新发布的Claude 4.5模型。
技术参数显示,Mano模型规模已从今年9月的7B参数扩展至72B参数(约720亿),任务完成率相应从40.1%提升至54.0%,显示出明显的性能进步。这一成果标志着专用智能体模型在真实环境操作任务中的执行能力达到新的水平。
OSWorld作为当前全球公认的操作智能评测体系,涵盖10类应用场景和369项跨应用任务,要求模型在真实桌面和浏览器环境中完成连续操作任务。此类任务相比传统问答任务更为复杂,需要模型同时具备内容理解、界面结构识别和多步骤逻辑连贯执行能力。
根据明略科技发布的技术报告《Mano Technical Report》(论文编号:arXiv:2509.17336),该模型采用区别于传统语言模型的技术路径。其训练基于高保真模拟计算机环境,通过监督微调、离线强化学习和在线强化学习三个阶段,使模型在虚拟操作系统中学习界面操作技能。研究团队引入的“推理-执行-验证”执行闭环机制,使模型具备操作过程中的自我修正能力。
数据显示,通过引入在线强化学习训练,Mano模型平均任务完成率提升约14个百分点,在多步骤任务中表现尤为稳定。这一技术突破体现了专用智能体在特定任务领域的执行深度与稳定性优势,为人工智能从语言理解向操作执行的能力迁移提供了实证。
新时空声明: 本内容为新时空原创内容,复制、转载或以其他任何方式使用本内容,须注明来源“新时空”或“NewTimeSpace”。新时空及授权的第三方信息提供者竭力确保数据准确可靠,但不保证数据绝对正确。本內容仅供参考,不构成任何投资建议,交易风险自担。