AI智能助手终于学会像人类一样操作电脑软件:上海AI实验室团队打造大脑分工新模式

Kommentarer · 0 Visninger

当你打开一个复杂的科学软件,比如天文观测软件Celestia或者分子建模软件ChimeraX时,是否曾经被满屏的按钮、菜单和选项搞得头晕眼花?更别说让一个AI助手来帮你完成这些复杂的操作了。但是现在,这个看似不可能的

  当你打开一个复杂的科学软件,比如天文观测软件Celestia或者分子建模软件ChimeraX时,是否曾经被满屏的按钮、菜单和选项搞得头晕眼花?更别说让一个AI助手来帮你完成这些复杂的操作了。但是现在,这个看似不可能的任务有了突破性进展。

  这项由上海交通大学、上海AI实验室、香港中文大学和香港大学联合完成的研究,发表在2025年8月的arXiv预印本平台上,论文编号为arXiv:2508.20096v1。有兴趣深入了解的读者可以通过https://github.com/OpenIXCLab/CODA访问完整的代码和模型。研究团队的成员包括孙泽逸、曹宇航、梁健泽等多位学者,他们共同开发了一个名为CODA的AI系统。

  这个系统最有趣的地方在于,它模仿了人类大脑的工作方式——就像我们大脑中的大脑皮层负责高级思考,而小脑负责精确的动作控制一样。CODA也分为两个部分:一个"大脑皮层"负责制定计划,另一个"小脑"负责执行具体的鼠标点击和键盘操作。这种分工合作的方式让AI在操作复杂软件时变得更加聪明和可靠。

  传统的AI助手在面对专业软件时往往会遇到两难境地:要么擅长制定宏观策略但在具体操作时手忙脚乱,要么能精确执行单个动作但缺乏全局规划能力。就像一个人要么只会画建筑蓝图却不会砌墙,要么只会砌墙却不知道房子应该建成什么样子。CODA的创新之处就是让这两种能力完美结合,通过专门的训练方法让AI的"规划大脑"变得越来越聪明,同时保持"执行小脑"的稳定可靠。

  更令人惊喜的是,这个系统还能通过经验自主学习和改进。它会自动生成新的任务来挑战自己,就像一个勤奋的学生不断给自己出练习题一样。当它在某个软件上犯错时,系统会分析错误原因,然后生成更多相关的练习来弥补短板。这种自我完善的能力让CODA在四个不同的科学软件上都取得了显著的性能提升,成为目前开源模型中的佼佼者。

  一、从手忙脚乱到游刃有余:AI操作软件的新思路

  当我们第一次使用Photoshop或者Excel这样的复杂软件时,往往会感到无从下手。即使知道要完成什么任务,也不知道该点哪个按钮,该从哪个菜单开始。对于AI来说,这个挑战更加艰巨,因为它不仅要理解任务目标,还要准确识别屏幕上密密麻麻的界面元素,并且精确地进行鼠标点击和键盘输入。

  以往的AI助手通常采用"一人包揽"的方式来解决这个问题,就像让一个人既当总指挥又当具体执行者。这种方式的问题很明显:当AI忙着思考大策略时,手上的动作就容易出错;当它专注于精确操作时,又容易丢掉大局观。结果就是要么计划很完美但执行一塌糊涂,要么动作很精准但不知道在干什么。

  研究团队敏锐地观察到,人类大脑其实有着精妙的分工机制。我们的大脑皮层负责高级认知功能,比如理解任务目标、制定行动计划、分析当前情况等;而小脑则专门负责运动控制,比如精确的手眼协调、肌肉记忆等。更重要的是,这两个部分有着不同的学习特点:大脑皮层需要不断学习新知识和适应新情况,而小脑一旦掌握了基本技能就相对稳定,不需要频繁更新。

  基于这个观察,CODA采用了全新的设计思路。它的"大脑皮层"部分使用的是Qwen2.5-VL模型,这是一个擅长理解图像和文字的大型AI模型,负责观察屏幕截图、理解任务要求、分析当前情况并制定下一步计划。它会生成类似"现在需要点击文件菜单打开设置对话框"这样的高层次思考。

  而"小脑"部分则使用UI-TARS-1.5模型,这是一个专门训练用来执行GUI操作的模型。它接收来自"大脑皮层"的指令,然后将其转换为具体的操作代码,比如"pyautogui.click(x=758, y=427)"这样的精确鼠标点击命令。这个"小脑"就像一个经验丰富的操作员,知道如何准确地在屏幕上找到目标并执行动作。

  这种分工带来了显著的好处。首先,每个组件都能专注于自己最擅长的任务,避免了"样样通样样松"的问题。其次,当需要适应新软件时,只需要训练"大脑皮层"学习新的规划策略,而"小脑"的基础操作技能可以保持不变,大大提高了训练效率。最后,这种架构更容易进行针对性的改进和调试。

  实验结果证明了这种设计的有效性。在四个不同的科学软件测试中,CODA的表现都远超传统的单一模型方法。更重要的是,它的成功率随着经验的积累而不断提升,展现出了真正的学习能力。

  二、从新手到专家:AI如何通过实战磨练技能

  就像人类学习使用新软件一样,CODA也需要经历从生疏到熟练的过程。但是,传统的AI训练方法需要大量的人工标注数据,这在专业软件领域是非常困难和昂贵的。科学软件通常很复杂,需要专业知识才能正确操作,普通人很难提供高质量的训练样本。

  研究团队设计了一个巧妙的两阶段训练策略,就像培养一个全能的软件工程师一样。第一阶段叫做"专业化",让AI分别在不同的软件上进行深度训练,成为各个领域的专家。第二阶段叫做"通用化",将各个专家的经验整合起来,培养出一个具有广泛适应能力的通用助手。

  在专业化阶段,CODA采用了一种叫做"解耦强化学习"的训练方法。这个名字听起来很复杂,但原理其实很直观。传统的强化学习就像让一个人同时学习开车和修车,往往会相互干扰。解耦强化学习则像让一个人专门学习驾驶技术,而把修车技能交给另一个已经很熟练的师傅。

  具体来说,CODA在训练时保持"小脑"部分完全不变,只让"大脑皮层"通过试错来学习。每当"大脑皮层"产生一个计划时,"小脑"就会忠实地执行,然后系统会评估最终结果的好坏。如果结果不理想,"大脑皮层"就会调整策略;如果结果很好,就会强化这种思维模式。

  这个过程中最关键的是如何评估结果的好坏。研究团队开发了一个智能评判系统,就像一个经验丰富的软件教师一样。这个评判系统会仔细观察整个操作过程的屏幕截图序列,然后判断是否正确完成了任务、是否有多余的操作、在哪一步开始出错等等。

  评判系统的工作原理很有趣。它不仅会看最终结果,还会分析整个操作过程。比如,如果任务是"在Celestia软件中将Julian日期设置为2400000",评判系统会检查AI是否成功打开了时间菜单、是否找到了正确的设置选项、是否输入了正确的数值等等。如果某一步出现错误,系统会准确指出问题所在,并给出改进建议。

  为了提高评判的准确性,研究团队还使用了多种策略。首先是"投票机制",让评判系统多次独立评估同一个操作序列,只有当所有评估都一致认为成功时才算真正成功。其次是"多分辨率输入",同时使用高分辨率和低分辨率的屏幕截图进行分析,高分辨率图像帮助检查细节准确性,低分辨率图像帮助把握整体流程。最后是"模型集成",结合多个不同的评判模型来提高判断的可靠性。

  在专业化阶段完成后,CODA会在每个软件上都产生一个专门的专家模型。比如会有一个Celestia专家、一个ChimeraX专家、一个QGIS专家等等。每个专家都对自己负责的软件非常熟悉,知道各种操作的技巧和注意事项。

  然后进入通用化阶段。这个阶段的目标是培养一个能够处理所有软件的通用助手。研究团队让各个专家在自己熟悉的软件上生成大量高质量的操作示例,就像让各行业的资深专家写操作手册一样。然后使用这些高质量的示例来训练一个全新的通用模型。

  有趣的是,这个通用模型的表现往往超过了单个专家的平均水平。这说明不同软件之间确实存在共同的操作模式和思维方式,当AI掌握了这些通用规律后,就能更好地理解和操作各种软件。这就像一个熟练的软件用户在学习新软件时总是比新手更快上手,因为他们掌握了通用的界面设计原理和操作逻辑。

  三、自主学习的秘密武器:AI如何给自己出题练习

  CODA最令人印象深刻的能力之一是它能够自主生成新的学习任务。这就像一个勤奋的学生不仅能完成老师布置的作业,还会主动给自己出练习题来巩固知识。这种能力对于AI在专业软件领域的应用特别重要,因为专业软件的使用场景千变万化,不可能通过预先准备的训练数据覆盖所有情况。

  这个自主学习系统的核心是一个任务生成器,使用的是Qwen2.5-72B模型作为"出题老师"。这个出题老师会根据AI当前的学习状态和表现情况,自动设计新的练习任务。它就像一个了解学生水平的私人教师,知道应该在什么时候出什么样的题目。

  任务生成的过程很有趣。出题老师首先会分析AI在之前任务中的表现,找出薄弱环节和需要加强的地方。比如,如果发现AI在处理ChimeraX软件的分子碰撞检测功能时经常出错,出题老师就会专门设计更多相关的练习题。这些题目不会是简单的重复,而是会从不同角度考察同一个知识点,比如"检测VDW重叠大于0.3A的所有碰撞"、"找出蛋白质结构中的潜在冲突区域"等等。

  出题老师在设计任务时遵循几个重要原则。首先,任务必须是高层次的目标描述,而不是详细的操作步骤。比如会说"在QGIS中创建一个显示人口密度的专题地图",而不会说"点击图层菜单,然后选择添加图层选项"。这样可以锻炼AI的规划能力而不是死记硬背。

  其次,每个任务都应该包含多个操作步骤,通常需要5到20个步骤才能完成。这样的任务更接近真实的软件使用场景,可以测试AI的长期规划和执行能力。同时,任务之间应该相互独立,避免产生依赖关系。

  第三,新任务应该针对AI之前的错误进行有针对性的练习。如果AI在某个操作上反复出错,出题老师就会设计专门的矫正练习。这就像数学老师发现学生总是在分数运算上出错,就会专门出更多分数题目来加强练习。

  为了确保任务的可执行性,出题老师还会考虑当前软件的状态。比如,如果当前QGIS中没有加载任何地图数据,就不会出"计算两个图层的交集"这样的题目。这种上下文感知能力让生成的任务更加合理和有效。

  整个自主学习过程是在一个分布式的虚拟机系统中进行的。研究团队搭建了一个由15台服务器组成的集群,其中13台配备AMD处理器,2台配备高性能的Intel i9和RTX 4090显卡来处理图形密集的软件如ChimeraX。每台服务器可以同时运行4到8个独立的虚拟环境,这样可以并行执行大量的练习任务,大大加快了学习速度。

  这个分布式系统采用了主从架构设计。主控节点负责任务分发和结果收集,就像一个总调度员;而客户端节点则在独立的虚拟机环境中执行具体的任务,就像一个个独立的实验室。这种设计不仅提高了效率,还增强了系统的稳定性和可扩展性。

  在实际运行过程中,系统会持续监控AI的学习进度。当发现某个类型的任务成功率提高到一定水平时,就会逐渐增加任务难度或者转向其他薄弱环节。当发现某个特定操作的成功率下降时,就会增加相关的练习频次。这种动态调整机制确保了学习过程的高效性和针对性。

  通过这种自主学习方法,CODA在四个测试软件上的表现都得到了显著提升。更重要的是,它展现出了真正的适应能力——当面对新的软件或新的任务类型时,能够快速调整策略并找到有效的解决方案。这种能力让CODA从一个只能执行预定操作的工具,变成了一个能够自主学习和改进的智能助手。

  四、实战检验:CODA在复杂软件中的精彩表现

  理论再完美,也需要实践来检验。研究团队选择了四个具有代表性的科学软件来测试CODA的实际能力:天文软件Celestia、分子建模软件ChimeraX、地理信息系统QGIS,以及数学计算软件用于代数运算。这些软件不仅界面复杂,而且需要专业知识才能正确操作,是检验AI软件操作能力的绝佳试验场。

  测试结果令人印象深刻。在综合评估中,CODA的第一阶段专家模型平均成功率达到了14.39%,而基准模型只有7.57%。这个提升看起来数字不大,但要知道这些都是非常复杂的多步骤任务,每个任务通常需要10多个准确的操作才能完成。能够将成功率几乎翻倍,已经是一个巨大的进步。

  更令人惊喜的是第二阶段通用化模型的表现。这个通过整合所有专家知识训练出来的通用助手,平均成功率达到了21.04%,不仅远超基准模型,甚至超过了单个专家的表现。这证明了不同软件之间确实存在可以相互借鉴的通用规律和技能。

  在具体的软件表现上,CODA在不同领域都展现出了强大的适应能力。在天文软件Celestia中,从最初的10.48%成功率提升到最终的20.16%。这个软件涉及复杂的时间设置、视角控制和天体导航等操作,需要精确的参数输入和良好的空间想象能力。

  分子建模软件ChimeraX的提升更加显著,从13.79%跃升到32.23%。这个软件用于生物分子的三维可视化和分析,操作包括加载分子结构、调整显示样式、计算分子间作用力等高度专业化的功能。CODA能在这个领域取得如此进步,说明它真正掌握了分子建模的基本原理和操作逻辑。

  地理信息系统QGIS的进步最为突出,从仅有1.47%的成功率大幅提升到14.71%。QGIS是处理地理空间数据的专业软件,涉及地图制作、空间分析、数据可视化等复杂功能。这个领域的显著进步表明CODA不仅能处理界面操作,还能理解地理空间的概念和逻辑关系。

  代数运算软件的表现同样令人满意,从4.55%提升到17.05%。数学计算软件需要精确的公式输入和符号操作,对AI的理解能力和精确性都提出了很高要求。CODA在这个领域的成功说明它不仅能进行界面操作,还能理解抽象的数学概念。

  为了更全面地评估性能,研究团队还测试了"Pass@8"指标,即给AI八次尝试机会看能否成功完成任务。在这个更宽松的评估标准下,CODA的整体成功率达到了39.96%,相比基准模型的19.49%有了显著提升。这表明即使AI在第一次尝试时失败,它也有很高的概率在后续尝试中找到正确的解决方案。

  有趣的是,研究团队还对比了CODA与其他先进AI模型的表现。包括GPT-4o、Claude-3.7-Sonnet、Gemini-2.0-Flash等商业模型,以及多个开源的专业GUI操作模型。结果显示,虽然某些商业模型在个别软件上表现出色,但没有任何一个模型能在所有软件上都保持稳定的高性能。而CODA作为开源模型,不仅在平均性能上取得了最佳成绩,更重要的是展现出了良好的跨领域适应能力。

  通过具体的操作案例分析,可以更直观地看到CODA的进步。在Celestia软件的Julian日期设置任务中,早期的CODA经常会点错菜单或者输入错误的数值。但经过训练后,它学会了准确识别时间菜单的位置,正确处理弹出对话框,甚至能够应对界面上出现的干扰因素如软件更新提醒等。

  在ChimeraX的分子碰撞检测任务中,CODA不仅学会了基本的操作流程,还掌握了参数设置的技巧。它知道如何调整VDW重叠阈值,如何解读结果显示,甚至能够在检测到问题时采取相应的纠正措施。

  这些实战表现证明了CODA不仅仅是一个能够机械执行操作的工具,而是一个真正理解软件功能和操作逻辑的智能助手。它的成功为AI在专业软件领域的应用开辟了新的可能性,也为人机协作提供了更好的技术基础。

  五、精益求精的评判系统:让AI学会自我反省

  在整个CODA系统中,评判系统扮演着至关重要的角色,就像一位严格而公正的老师,负责评估AI的每一次操作尝试。这个系统的质量直接决定了AI能否从错误中学到正确的经验,因此研究团队在这方面投入了大量精力。

  传统的AI训练往往依赖简单的成功失败判断,但这在复杂软件操作中是远远不够的。一个看似失败的操作可能包含很多正确的步骤,而一个最终成功的操作也可能存在效率问题或隐藏错误。CODA的评判系统就像一个经验丰富的软件测试专家,不仅要看结果,还要仔细分析整个过程。

  这个评判系统基于Qwen2.5-VL-72B模型构建,经过专门的微调训练来提高判断准确性。训练数据包含了4700多个精心标注的操作轨迹样本,这些样本来自多个不同的软件环境和任务场景,确保了评判系统的广泛适用性。

  评判过程就像一个详细的操作审计。系统会接收完整的屏幕截图序列,就像观看一部操作录像一样,然后分析每一个步骤的合理性。它需要回答几个关键问题:操作是否正确完成了预定目标?是否存在多余或重复的步骤?如果出现错误,第一个错误步骤是什么?应该如何改正?

  为了提高评判的准确性和可靠性,研究团队开发了多种策略。首先是投票机制。系统不会仅凭一次判断就下结论,而是会进行多次独立评估,每次都使用不同的随机参数设置。只有当多次评估都得出一致结论时,才认为判断是可信的。这就像法庭上需要多位陪审员一致同意才能做出判决一样。

  其次是多分辨率输入策略。复杂软件的操作轨迹往往包含很多高分辨率的屏幕截图,直接处理这些图像不仅计算量大,而且容易忽略整体流程。因此,系统会同时使用高分辨率和低分辨率的图像进行分析。高分辨率图像用于检查细节的准确性,比如鼠标是否点击在正确的按钮上;低分辨率图像则用于把握整体的操作流程,比如是否按照合理的顺序打开了各个界面。

  第三个策略是模型集成。除了主要的判断模型外,系统还会结合其他模型的意见来提高决策质量。这就像在重要决策时会咨询多位专家的意见一样,通过综合不同模型的判断来减少单一模型可能存在的偏见或错误。

  在实际评估中,这些策略的效果非常明显。在AgentRewardBench基准测试中,单一模型的精确度为64.5%,而采用投票机制后提升到76.1%,加入多分辨率输入后进一步提升到78.9%,最终的集成模型达到了81.2%的精确度。在更接近实际应用的ScienceBoard测试中,改进更加显著,从最初的41.5%精确度大幅提升到最终的69.5%。

  评判系统的工作细节很有意思。当分析一个操作序列时,它会生成详细的分步骤说明,就像一份操作报告。比如在分析Celestia软件的时间设置任务时,系统会注意到"第一步:用户点击了导航菜单而不是时间菜单,这是一个错误","第二步:用户意识到错误并点击了正确的时间菜单,这是一个合理的纠正","第三步:弹出的软件更新提醒干扰了操作,用户正确地关闭了这个干扰窗口"等等。

  这种详细的分析不仅帮助AI理解错误的具体原因,还能学习如何处理各种意外情况。比如学会在操作过程中如何应对弹出窗口的干扰,如何从错误中快速恢复,如何识别和跳过无关的界面元素等等。

  评判系统还具有一定的容错能力。它理解软件操作中的多样性和灵活性,不会因为操作方式与标准答案略有不同就判定为错误。比如,在完成同一个任务时,有些用户喜欢使用快捷键,有些用户喜欢使用菜单,评判系统会认识到这些只是风格差异而不是对错问题。

  通过这个精密的评判系统,CODA能够获得高质量的反馈信号,从而在训练过程中不断改进自己的操作策略。这种自我反省和持续改进的能力,让CODA从一个简单的操作工具进化成了一个真正智能的软件助手。

  说到底,CODA这项研究为我们展示了AI发展的一个新方向。与其让AI样样都学、样样通但样样松,不如让它像人类大脑一样进行专业分工,让擅长规划的部分负责思考,让擅长执行的部分负责动作。这种"术业有专攻"的设计理念不仅提高了效率,更重要的是让AI具备了真正的学习和适应能力。

  现在的CODA虽然还不完美,在某些复杂任务上的成功率仍有待提高,但它已经证明了这个方向的可行性。更令人期待的是,这种分工协作的框架具有很好的可扩展性。未来我们可以想象,不同的AI模块负责不同的专业领域,比如一个专门负责图像处理软件的"视觉专家",一个专门负责数据分析软件的"统计专家",还有一个负责协调所有专家工作的"总指挥"。

  这项研究的意义远不止于让AI学会操作软件。它为人机协作开辟了新的可能性。我们可以想象,在不久的将来,当你面对一个复杂的专业软件时,不再需要花费大量时间学习各种功能和操作技巧,而是可以直接告诉AI助手你想要达成的目标,然后它会像一个经验丰富的同事一样帮你完成所有繁琐的操作步骤。

  对于科研工作者来说,这意味着可以把更多精力集中在创意和分析上,而不是纠结于软件操作的细节。对于普通用户来说,这意味着复杂的专业软件将变得更加易用和亲民。对于软件开发者来说,这也提供了一个全新的思路——也许未来的软件界面设计不仅要考虑人类用户,也要考虑AI助手的需求。

  当然,这个领域还有很多挑战需要解决。比如如何让AI更好地理解人类的意图,如何处理更加动态和不可预测的软件环境,如何确保AI操作的安全性和可控性等等。但CODA的成功已经为这些挑战的解决提供了一个坚实的起点。

  归根结底,CODA不仅仅是一个技术创新,更是对人工智能发展道路的深入思考。它告诉我们,真正的智能不是要做一个万能的超人,而是要学会像人类一样进行合理的分工协作,充分发挥每个组件的专长,并且具备持续学习和自我改进的能力。这个理念不仅适用于软件操作,也为AI在其他领域的应用提供了有价值的启发。

  Q&A

  Q1:CODA是什么?它和普通的AI助手有什么不同?

  A:CODA是由上海AI实验室等机构开发的AI系统,专门用来操作复杂的专业软件。它最大的特点是模仿人类大脑的分工方式,分为负责规划的"大脑皮层"和负责执行的"小脑"两个部分。不像普通AI助手只能处理简单对话,CODA能够理解屏幕界面,制定操作计划,并精确执行鼠标点击等复杂操作。

  Q2:CODA能操作哪些软件?普通人能使用吗?

  A:目前CODA主要在四个科学软件上进行了测试:天文软件Celestia、分子建模软件ChimeraX、地理信息系统QGIS和数学计算软件。研究团队已经开源了代码和模型,技术人员可以通过GitHub获取。不过现在还处于研究阶段,普通用户暂时无法直接使用,需要等待进一步的产品化开发。

  Q3:CODA的成功率有多高?能完全替代人工操作吗?

  A:CODA在复杂的多步骤任务中平均成功率约为21%,虽然听起来不高,但要知道这些任务通常需要10多个精确操作才能完成。目前还不能完全替代人工,更适合作为辅助工具使用。不过它具备学习能力,随着训练数据的增加和算法的改进,成功率会继续提升。

Kommentarer