
这项由南加州大学、华盛顿大学、阿卜杜拉国王科技大学以及亚马逊AGI集结开展的扣问发表于2026年3月,扣问编号为arXiv:2603.10178v1。对于想要深入了解技能细节的读者,可以通过该编号在学术数据库中查询好意思满论文。
当你大开电脑,让AI助手帮你完成一项任务时,比如整理桌面文献或者发送一封邮件,你怎么知说念这个智能助手是果真完成了任务,已经只是作念了一堆看似正确的操作?这听起来像个简便问题,但对于贪图机科学家来说,这其实是一个很是毒手的挑战。
如今的AI助手越来越智谋,它们简略像东说念主类一样操作电脑界面——点击按钮、填写表单、浏览网页。但问题在于,当这些助手引申完一系列操作后,咱们很难判断它们是否果真达到了预期主义。这就好比你托福一又友帮你作念饭,但你不在厨房里,只可通过监控摄像来判断他是否果真作念出了一顿好吃的晚餐。
传统的不时措施就像只看临了一张相片来判断通盘烹调过程——要么检查最终的屏幕景况,要么依坏事前设定的规则来考据驱散。但这种措施有很大局限性,因为它忽略了通盘操作过程中的细节变化。就像仅凭一张饭桌的相片,你很难知说念这顿饭是否按照食谱正确制作,已经只是恰巧看起来可以。
扣问团队意志到,简直的不时决接应该是"不雅看"通盘引申过程,就像看一部好意思满的摄像,而不是只是稽察发轫和收尾。他们开发了一个立异性的系统,简略通过分析通盘操作视频来判断AI助手是否简直完成了任务。这个系统被称为"引申视频奖励模子"(ExeVRM),它就像一个教授丰富的监督员,简略通过不雅察通盘责任过程来评判驱散。
为了考验这个"数字监督员",扣问团队蚁合了越过5.3万个高质地的视频-任务-驱散组合,创建了名为ExeVR-53k的数据集。这些视频涵盖了Windows、macOS、Ubuntu和Android等不同操作系统,包含了办公软件使用、网页浏览、系统不时、开发用具使用以及平淡愚弄等各式场景。
但是蚁合这样多数据靠近一个本色问题:大部分公开可用的贪图机操作数据都是得手案例,失败的例子相对较少。这就像想要考验一个裁判,但只可提供得手者的比赛摄像,朦拢失败案例来匡助裁判学会识别瑕玷。为了不时这个问题,扣问团队想出了一个巧妙的措施——"挣扎性提示翻译"。
这个措施的责任道理是这样的:给定一个得手的操作视频,扣问东说念主员会条件AI生成一个在通常界面环境下看起来合理,但本色上与视频中展示的操作不符的任务提示。这就像拿着一段作念蛋糕的视频,然后臆造一个"制作面包"的提示,这样就创造了一个"看起来在作念面包,本色在作念蛋糕"的负面样本。通过这种步地,他们取得了遍及高质地的反面课本,匡助模子学会识别任务完成的简直模范。
但是,处理这些高赫然度的永劫候操作视频靠近着纷乱的贪图挑战。每个视频包含遍及的图像帧,每一帧又包含数以万计的像素信息。若是径直处理这些数据,就像试图同期记着一部两小时电影中每个场景的每个细节,贪图机的内存会很快破费。
扣问团队开发了一种被称为"时空标识修剪"的智谋不时决策。这个技能分为两个部分:空间修剪和时候修剪。空间修剪就像一个智能的图片裁剪器,简略识别出图像中的大片空缺区域、访佛的布景元素或者不变的界面粉饰,然后将它们删除,只保留包含有用信息的部分。比如,在一个电子表格操作的视频中,用具栏和边框不时保持不变,简直要紧的是表格内容的变化。
时候修剪则专注于识别在相接帧之间莫得变化的部分。若是某个界面元素在多个相接的视频帧中都保持皆备疏通,系统就会将这些访佛的信息压缩掉。这就像制作一个动画的要津帧版块,只保留发生要紧变化的时刻,而跳过中间不关要紧的过渡画面。
通过这种双重修剪战略,扣问团队得手地将视频数据的大小减少了约莫60-70%,同期保留了所估量键的界面变化信息。这使得他们简略在现存的贪图资源下处理720p高清视频,而不消裁减画质来简易内存。
基于这些创新,ExeVRM模子展现出了令东说念主印象深切的性能推崇。在他们构建的测试基准ExeVR-Bench上,8B参数版块的ExeVRM达到了84.7%的准确率和87.7%的调回率。更要紧的是,这个推崇超越了许多遒劲的营业化模子,包括GPT-5.2和Gemini-3 Pro等有名系统。
这种上风不仅体面前举座判断的准确性上,还表面前模子简略精湛则位问题出现的时候点。当一个AI助手的操作出现瑕玷时,ExeVRM不单是简便地说"这个任务莫得完成",而是简略指出"在第12秒的时候,助手点击了瑕玷的按钮"。这种时候定位才气对于改造AI助手的性能极其要紧,就像一个正式的瑕玷论说简略匡助法式员快速定位和开导bug。
扣问团队还发现了一个意旨道理意旨道理的沉静:使用好意思满的视频序列进行评估,比只是依赖少数几张要津截图的成果要好得多。这证据了"过程比驱散更要紧"这一不雅点在AI评估中的灵验性。当模子简略不雅察到好意思满的操作经由时,米兰体育它可以更准确地清醒用户意图是否被正确引申,即使最终的屏幕景况看起来相似。
另一个要紧发现是对于视频鉴别率的影响。扣问标明,使用720p高清视频比360p低清视频简略取得更好的评估成果,很是是在调回率方面有显赫普及。这是因为在贪图机界面操作中,好多要津信息都体面前微弱的视觉变化上——比如文本框中的微小裁剪、按钮景况的渺小更正,或者鼠标焦点的出动。这些细节在低鉴别率视频中可能会丢失,但对于判断任务完成景况却至关要紧。
在处理服从方面,扣问团队对比了不同修剪战略的成果。他们发当前候修剪比空间修剪带来的性能普及更为显赫,这可能是因为在GUI操作中,跨时候的冗余比空间内的冗余更为遍及。不外,将两种修剪技能勾通使用简略达到最好的服从均衡,既保持了模子性能,又大大裁减了贪图资本。
这项扣问的本色愚弄远景相当浩繁。在软件测试限制,ExeVRM可以自动评估用户界面的可用性和功能正确性。在AI助手的开发过程中,它可以提供精准的性能反馈,匡助开发者快速识别和开导问题。在自动化办公经由中,它可以四肢质地检查用具,确保批量处理的任务都得到了正确引申。
更进一步,这种视频基础的评估措施具有很好的通用性。它不依赖于特定AI助手的里面责任机制,而是通过不雅察外皮推崇来判断驱散。这意味着不管底层的AI技能如何发展变化,这套评估体系都简略保持灵验性。这就像一个通用的历练系统,不管学生使用什么学习措施,都能平允地评估他们的最终掌捏进度。
天然,这项扣问也存在一些局限性。对于那些包含遍及试错过程的永恒任务,模子只怕可能会误判。比如,当一个AI助手在完成任务过程中进行了屡次尝试,固然最终得手了,但中间的"失败"尝试可能会被瑕玷地解读为举座失败的信号。这反馈了outcome-level(驱散级)评估和process-level(过程级)评估之间的内在张力。
另外,尽管时空修剪技能大大提高了处理服从,但处理高鉴别率永劫候视频仍然需要很是大的贪图资源。这在一定进度上驱散了该技能在资源受限环境中的愚弄。扣问团队指出,将来的责任标的可能会探索更高效的视频压缩算法,或者开发分散式处理架构来进一步裁减贪图门槛。
从技能竣事的角度来看,ExeVRM竖立在Qwen3-VL基础模子之上,通过在ExeVR-53k数据集上进行微调来取得特意的评估才气。考验过程接收了模范的监督学习措施,使用交叉熵亏空函数来优化模子的分类性能。扣问团队使用了8张NVIDIA A100 GPU进行考验,通盘考验过程约莫需要几天时候。
在数据处理方面,他们将原始的操作纪录调遣为模范化的视频神气,每秒1帧的采样率既保证了要津信息的保留,又限定了数据量的大小。每个视频序列最多包含100帧,对于更长的操作序列会进行均匀采样来妥当这个驱散。
评估基准ExeVR-Bench的构建也经过了尽心遐想。它包含789个测试实例,涵盖了Ubuntu代理任务、东说念主工操作任务、Mac/Windows操作以及Android出动设备操作等多个场景。为了确保评估的平允性,正负样本比例被精准限定在接近50:50。每个测试实例都经过了东说念主工考据,确保标注的准确性。
扣问团队还进行了正式的对比执行,将ExeVRM与多种现存的评估措施进行了相比。这些措施包括只看最终截图的AER措施、勾通运转和最终景况的Simplified Judge措施,以及使用好意思满截图序列但不进行智能修剪的SE-WSM和ZeroGUI措施。驱散暴露,ExeVRM在简直所有评估主义上都取得了最好性能,很是是在调回率方面的普及尤为显赫。
在瑕玷分析方面,扣问团队发现ExeVRM的主要装假不时出面前以下几种情况:任务包含复杂的多设施依赖关系、界面变化极其精巧难以察觉、或者存在时候蔓延导致的景况变化。这些不雅察为将来的改造标的提供了有价值的劝诱。
说到底,这项扣问代表了AI评估限制的一个要紧越过。它不仅提供了一个实用的技能不时决策,更要紧的是展示了一种全新的想路——通过不雅察好意思满的引申过程而非只是暖和最终驱散来评判AI系统的性能。这种措施论的转换可能会影响通盘AI开发和测试的范式。
跟着AI助手在咱们平淡生存中饰演越来越要紧的变装,确保它们简略可靠地完成咱们托福的任务变得至关要紧。ExeVRM这样的技能为咱们提供了一对"智能的眼睛",简略持续监督和考据这些数字助手的责任质地。这不仅有助于普及用户体验,也为AI技能的进一步发展奠定了坚实的基础。
对于平庸用户来说,这项技能的纯熟意味着将来的AI助手将变得愈加可靠和值得相信。当你让AI帮你处理要紧的责任任务时,你可以更有信心它会正确完成,而不需要牵挂因为微小的误操作而导致严重后果。这种技能越过将加快AI助手在更多要津场景中的愚弄,从而简直竣事东说念主工智能为东说念主类生存带来便利的愿景。
Q&A
Q1:ExeVRM是什么?
A:ExeVRM是一个引申视频奖励模子,由南加州大学等机构集结开发。它能通过不雅看AI助手完成任务的通盘操作视频来判断任务是否简直完成,就像一个教授丰富的监督员能通过不雅察责任过程来评判驱散质地。
Q2:为什么需要不雅看好意思满视频而不是只看最终驱散?
A:因为仅看最终屏幕景况容易产生误判。就像仅凭饭桌相片无法知说念这顿饭是否按食谱正确制作一样,好多任务的完成质地需要通过不雅察通盘引申过程中的微弱变化来判断,比如按钮点击法例、文本输入过程等要津细节。
Q3:时空标识修剪技能是如何责任的?
A:这项技能分为空间修剪和时候修剪两部分。空间修剪删除画面中的访佛布景和空缺区域,时候修剪则压缩相接帧之间不变的部分。通过这种步地,可以将视频数据减少60-70%米兰milan(中国)体育官方网站,同期保留所估量键的界面变化信息。
天博体育(TBSports)官方网站