猫眼电影
猫眼电影记者 亨利·猫 报道Q8X2R7L1T4J5M9B6W3
GELab-Zero团队 投稿量子位 | 公众号 QbitAI
首次将GUI Agent模型与完整配套基建同步开放,支持手搓党一键部署!
这就是阶跃星辰刚刚开源的GELab-Zero。
其中4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录,取得SOTA成绩。
随着AI在手机等消费终端的普及,Mobile Agent正从“能不能用”迈向“能否规模化落地”。
GUI Agent是执行能力最强的形态之一。它基于视觉理解即可适配几乎所有App,无需厂商额外改造,接入成本极低。
此外,阶跃还同步开源了基于真实业务场景的自建评测标准AndroidDaily,以期推动GUI领域模型评测向消费级、规模化应用发展。
同尺寸性能 SOTA,端到端、轻量化、速度快
要知道,让GUI Agent在不同品牌与系统版本的设备上顺畅运行并不轻松。
移动生态的高度碎片化让开发者需处理多设备ADB连接、依赖安装、权限配置、推理服务部署、任务编排与回放等繁琐流程,工程成本高昂,精力难以聚焦在策略创新与体验设计上。
要推动移动端Agent真正规模化,必须首先降低开发与使用门槛,让开发者专注于创造价值,而非重复搭建底层设施。
基于此,阶跃开源了GELab-Zero。
它主要包含三部分:
一个能在本地运行的GUI Agent模型GELab-Zero-4B-preview即插即用的完整推理工程基建,解决所有脏活累活基于真实业务场景的自建评测标准AndroidDaily
研究团队在ScreenSpot、OSWorld、MMBench、Android World多个开源基准测试上对GELab-Zero-4B-preview模型进行了全面评估。
这些基准测试涵盖了GUI理解、定位、交互等多个维度。
从测试结果可以看出,GELab-Zero-4B-preview在多项开源基准测试中超越其他主流模型,拿下同尺寸SOTA。
值得一提的是,GELab-Zero-4B-preview的表现还超越了参数量更大的GUI-Owl-32B等模型,性能更优,也更易部署。
来看一下研究团队给出的示例场景。
复杂任务
场景1:在外卖平台同时采购跨品类、不同规格和数量的商品。
Prompt:去饿了么离我最近的盒马鲜生购买:红颜草莓300g、秘鲁比安卡蓝莓125g(果径18mm)、当季新鲜黄心土豆500g、粉糯贝贝南瓜750g、盒马大颗粒虾滑、2瓶盒马纯黑豆豆浆300ml、小王子夏威夷果可可脆120g、盒马菠菜面、盒马五香牛肉、5袋好欢螺柳州螺狮粉(加辣加臭)400g、m&m’s牛奶巧克力豆100g
可以看到,模型精准识别了物品信息,并顺畅地完成了多步骤、重复性的购买操作。
场景2:在企业福利APP中领取餐券。
Prompt:打开给到App,在我的,下滑寻找,员工权益-奋斗食代,帮我领劵。
上述示例展示了GELab-Zero-4B-preview执行的能力和范围具有很强的泛化性,无论在国民级APP还是小众产品平台,都可以顺利完成任务。
模糊指令
场景1:在某个视频平台上播放指定演员的经典作品。
Prompt:在腾讯视频上找一部成龙的经典动作片播放。
接到指令后,GELab-Zero-4B-preview自主拆解“经典”这一需求,确定执行标准。
过程中,模型先打开腾讯视频,识别并关闭了弹窗,搜索“成龙”后在电影类目中选择了页面上成龙评分最高的代表作播放。
场景2:找一个周末能带孩子玩的地方。
Prompt:帮我找个周末能带孩子去玩的地方。
接到指令后,模型首先在内容平台搜索“北京周末带娃”,然后自主判断衡量标准后为用户推荐北京园博园“顽酷奇遇”,并为用户提炼出该地点的亮点——“有巨型装置卡通,亲子活动丰富”。
可以看到,GELab-Zero-4B-preview模型能够很好地执行复杂任务和模糊指令,不仅可以准确、流畅地执行涉及到多步骤、多主体、重复操作的任务,也能对“好看”“适合玩的”“经典”等偏笼统和主观性的指令进行自主拆解,确定执行路径和标准。
GUI+基建=GUI Agent MCP,一键拉起部署
针对GUI智能体,研究人员构建了一整套完整的技术架构体系,可以一键拉起获得类似开源GUI Agent MCP的体验。
具体能力如下:
轻量级本地推理支持4B模型在消费级硬件上运行,兼顾低延迟与隐私。一键任务启动提供统一部署流水线,自动处理环境依赖和设备管理。多设备任务分发可以分发到多台手机并记录交互轨迹,实现可观测、可复现。多种Agent模式涵盖ReAct闭环、多智能体协作以及定时任务等多种工作模式。
这些能力让GELab-Zero能够灵活应对真实场景的复杂任务流,并为后续扩展提供扎实底座。
Agent开发者可基于这套基建快速测试新想法、验证交互策略;企业级用户则能直接复用这套基建,将MCP能力快速植入到产品业务中。
自建并开源贴合真实业务场景的评测基准
此外,研究团队基于手机、IoT、汽车等行业头部公司的真实合作案例,建立了高度贴合业务场景的评测基准。
当前的主流基准测试,大部分聚焦于生产力类应用(如邮件与文档处理)。
然而在日常真实场景中,用户高频依赖的却是生活服务类应用,如外卖、打车、社交、支付等,而这部分场景不仅覆盖面更广,也更能体现当下GUI Agent 的实用价值。
为此研究者提出 AndroidDaily,一个面向真实世界、动态演进的多维基准体系。
它聚焦在现代生活六大核心维度:饮食、出行、购物、居住、信息消费、娱乐,并优先选择在这些类别中具有代表性(高频使用、应用商店日活排名靠前)的主流应用进行测试,高度还原真实任务执行流程(包括询问用户新万博体育:信息补充输入、高危操作请求用户接管)。
评测结果显示,GELab-Zero-4B-preview在AndroidDaily测试中准确率达到73.4% ,在移动端复杂任务中表现优秀。
为了平衡评估的全面性和执行效率,AndroidDaily采用了静态评测和端到端评测双轨评估体系。
静态评测考察模型的grounding(界面理解、元素识别)和action规划能力,用于检验其在推理与执行一致性等基础层面的表现。
端到端测试重点衡量GUI Agent在真实环境中处理复杂任务时的执行效果与稳定性。
其中,静态测试包含3146个actions,提供任务描述和逐步的屏幕截图,要求Agent预测每一步的动作类型和动作值(如点击坐标、输入文本),主要评估数值准确率。
这种方法无需复杂的工程基础设施,可以快速、低成本地进行大规模模型迭代和测试。
而端到端测试包含235个任务,典型任务场景包括出行交通(打车、导航、公共交通等)、购物消费(电商购物、支付、订单管理等)、社交通讯(消息发送、社交互动等)、内容消费(新闻阅读、视频观看、内容收藏等)、本地服务(外卖、到店服务)等。
在完全功能化的测试环境(如真实设备或模拟器)中进行,Agent需要从头到尾自主执行任务,最终以整体任务成功率作为评价指标,能真实反映智能体在复杂环境中的综合能力。
团队表示,希望通过GELab-Zero的开源,进一步降低移动端Agent的开发门槛,让新万博体育:开发者能够快速构建和验证自己的想法。
未来,研究团队将始终坚持开放、可控、隐私优先的原则,持续优化模型性能、扩展跨平台支持、丰富生态工具链。
GitHub:https://github.com/stepfun-ai/gelab-zero抱抱脸:https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
??时事1:凯时AG
??11月27日,河南国企开放合作“提速” 加快海外布局,
第二,开好党代会是进一步推进基层党建工作科学化,提升基层党组织工作水平的需要。学校第十次党代会召开以来,在上级党组织的指导帮助下,学校党委全面加强党的建设工作,通过开展20xx年全校保持共产先进性教育活动、20xx年党建评估工作以及20xx年全校学习实践科学发展观活动,我校基层党建工作得到了全面加强,党的基层组织工作进一步规范,党的基层组织也比过去更有活力,涌现出一批先进党组织和优秀共产。我校的主题党日活动、基层党支部书记培训工作、网上党校、党内民主建设、党务公开、高校党建理论研究、党风廉政建设及作风建设、大学生思想教育、大学生就业工作、工会教代会工作、统战工作等等,先后都受到了上级党组织的表扬。但是,我们的工作仍然存在着很大的差距。党的xx届四中全会作出的《中共中央新万博体育:新形势下加强和改进党的建设等若干重大问题的决定》提出,要使党建工作进一步科学化。教育部党组20xx年12月召开全国第十八次党建工作会议对高校党建工作提出了要求,明确高校党组织围绕着学科建设、人才培养服务,提高党建工作水平;在新的历史时期,特别是高等教育从大国向强国迈进的新的历史起点,高等院校对于面临的一些新情况、新问题,要以改革创新的精神,从党的思想建设、制度建设、组织建设、作风建设、党风廉政建设等方面,全面加强党建工作,努力提高高校党建工作的科学化水平。通过筹备召开第十一次党代会,我们要认真总结学校这些年来党建工作的一些经验和做法,特别是要总结我校党建工作围绕着学科建设和人才培养改革创新的一些好的做法,分析现有的一些问题,特别是分析围绕着推进学科建设调动全校师生积极性、提高人才培养质量、提高办学水平等方面党建工作中存在的不足,明确改进措施,全面提升党建工作的科学化水平。
,哪些正规的平台可以买球。??11月27日,“卖粉蒸肉被判赔5万元”案撤诉,两大问题待解,
最后,他被两个忠心的老仆人抬走了。
,世界杯买球录v98典tv,神医药方,天博体育登陆不了。??时事2:888真人足球
??11月27日,云南鲜切花出口值连续5年位居中国首位,
首先要实施“换脑工程”。重点要认真学习邓小平理论、“三个代表”重要思想和xx大精神,学习党在农村的路线方针政策,不断提高政治素质和思维能力,在重大原则问题上明辨是非的能力,加强党对农村工作的领导。要坚定地同上级党委保持一致,坚定地执行党在农村的各项政策,把上级党委政府的决策转化为基层群众的自觉行动,使农民群众增强对改革发展的信心,提高党和政府在人民群众中的威信,把握好农村工作的正确方向。
,uc体育app下载安装,天博网投平台,ag真人世界杯比分。??11月27日,“争”当选2024海峡两岸年度汉字,
这是怎样强大的一头祭灵?!
,杏耀登入官网,必威手机登陆版下载,葡京线上开户。??时事3:新利体育官方网站
??11月27日,两岸及香港师生成都同台竞技 搭建青春驿站,
“君子动口不动手。”鼻涕娃擦了一把鼻涕,赶紧倒退。
,赌神牛报,九州平台娱乐网站,MG真人网页登陆。??11月27日,北京市政协十四届二次会议举行第二次全体会议,
保护环境我们在行动国旗下讲话 篇23
,新濠天地之前登录网址,大圣棋牌游戏,凤凰彩票平台网站。??时事4:诺贝尔娱乐城
??11月27日,台湾2024年第一季度外销订单金额同比减少2.1%, 此前想去大凉山支教的杭州大学生陈立也告诉记者,他此前看到过一个7天6晚的大凉山支教研学团,售价高达10980元。而一般作为费用所占比例大头的食宿,在上述支教研学团费用中却仅需两三千元。并且,10980元的团费中还不包含往返大凉山的交通费,“去掉路程时间,实际只支教5天。并且食宿标准与项目价格相比对的话,性价比明显较低。”,皇冠滚球app,必赢亚洲登陆注册页面,火狐体育下载官网。
??11月27日,欧亚水獭重现广东珠海淇澳-担杆岛保护区,
小红雀头上一簇赤羽霞光闪烁,根根倒立,显然很愤怒,但片刻后它竟又平静了下去,目光奇异地盯着小不点看个没完。
,直营赌博游艺平台,博狗官网网站,大赢家足球比分即时90。责编:阿孜古丽·吾布力卡斯木
审核:杨兆勤
责编:尤小刚












