
这项由微软研究院主导的研究以技术报告形式发布于2026年4月30日配资怎么玩的,编号为arXiv:2604.28181v1,研究成果已开源并托管于微软的HuggingFace数据集仓库(microsoft/synthetic-computers-at-scale)。感兴趣的读者可以通过上述编号查询完整报告。
每个人的工作方式都有自己的"味道"。财务顾问的电脑里塞满了客户报告、Excel模型和行业白皮书;软件工程师的机器上则是代码仓库、测试日志和技术文档。这些文件不只是数据,它们是这个人工作记忆的物理延伸,承载着数年积累的上下文信息。当你请一位顾问帮你分析投资方案时,他首先会打开自己之前做的模板,翻出过往客户的类似案例,然后再开始工作——而不是凭空创造一切。
这个细节,恰恰是当前AI助手训练中最被忽视的一环。微软研究院的研究团队注意到:现实中的专业工作,永远是在一个特定的个人环境中进行的,而这个环境里充满了历史、文件和关系。要让AI真正学会做"生产力工作",仅仅给它一个任务描述是远远不够的,必须给它一台"真实的电脑"。
于是,他们开始了一个颇为大胆的实验:为AI量身定制一千台虚拟电脑,然后让AI在上面工作整整一个月。
一、为什么AI需要一台"属于自己的电脑"
现有的AI训练方法面临一个根本性的困境。要训练AI完成真实的办公室工作,最好的素材当然是真实用户的工作轨迹——他们如何搜索文件、如何修改报告、如何与同事沟通。但这些数据几乎不可能获得,因为它们深藏在私人电脑里,包含着敏感的个人信息和商业机密。
另一条路是合成数据,也就是让AI自己生成训练用的例子。但传统的合成数据有一个致命缺陷:它生成的任务往往是"悬空的",就像出一道数学题,题目本身包含了所有需要的信息,解题者不需要去翻箱倒柜找旧资料。真实的工作不是这样的。真实的工作是:你需要打开三年前做的预算表,参考上周收到的客户邮件,再结合今天下载的行业报告,综合这些来自不同地方的信息才能完成今天的任务。
研究团队将这个核心洞察归纳为三条原则:专业工作在本质上是重度依赖上下文的,成功完成工作的关键不在于解决孤立任务,而在于跨越较长时间段有效利用文件、历史和不断演化的工作状态,因此合成数据必须同时合成"环境"本身,而不仅仅是任务。
正因为此,他们提出了"合成电脑"这一概念——不只是生成一个任务,而是生成一整台虚拟电脑,包括文件夹结构、各类文档、表格、演示文稿,以及这些文件之间错综复杂的依赖关系。
二、如何从一个陌生人的描述出发,建造一台完整的虚拟电脑
建造一台虚拟电脑的起点,是一段人物简介。
研究团队使用了他们此前开发的大规模人物简介生成方法(曾生成十亿级别的角色描述),从中抽取一千个不同职业的角色,作为每台虚拟电脑的"主人"。这些简介类似于:一位专注于资产配置和投资组合分析的财务顾问,熟悉先锋集团的资本市场模型,致力于将预测数据转化为具体的投资建议。
仅凭这段描述,无法确定这台电脑上应该有什么文件。因此,第一步是把这段简介扩展成一份详尽的用户档案。这份档案会补全几乎所有现实细节:这个人叫什么名字(比如玛格丽特·福赛斯),在哪家公司工作(比如梅里迪安财富合伙人),有多少年工作经验,负责哪些项目,与谁协作,惯用哪些软件工具,如何命名文件,文件整理风格是整洁还是凌乱,喜不喜欢保留多个版本的草稿。
档案建立之后,第二步是为这台虚拟电脑规划文件系统。就像建房子先画图纸一样,这一步会确定驱动器布局(比如C盘存系统,D盘存工作数据),决定哪些文件夹放什么类型的内容,确立命名规则(比如这位财务顾问倾向于用"IPS草稿v1.docx"这类描述性且带版本号的文件名),并且规划各文件夹之间的关联方式。
规划完成后,第三步是列出所有需要存在的具体文件,并建立一张"依赖关系图"。这张图至关重要:它记录了哪个文件是从哪个文件派生出来的。比如,先锋集团的回报预测摘要PDF(从网上下载的原始资料)派生出了一份结构化的Excel工作簿(手动整理的数据),这个工作簿又进一步派生出了多个投资组合的分配模型,最终汇总成一份2026年资本市场展望报告。这个派生链模拟了真实工作中文件逐步演化的过程,避免了每个文件都是"独立生成"的孤岛感。
第四步才是真正创建这些文件的内容。文件按照依赖关系图的拓扑顺序生成:没有前置依赖的文件先生成,然后依次生成依赖它们的文件,后期文件生成时可以参考并引用它们"派生自"的早期文件。如果某个文件被标记为可以从真实互联网获取的公开资料(比如真实的行业报告PDF),系统会先尝试直接下载,下载失败时才用AI生成替代内容。
经过这四步流程,一台虚拟电脑就诞生了。平均来看,每台虚拟电脑在模拟开始前包含约112个文件,目录层级约五层深,文件类型以Word文档(34.8%)、Excel表格(15.8%)、PDF(13.9%)和Python代码(8.5%)为主,还有少量演示文稿和图片。这些数字不是随机填充,而是每个文件都有实际内容、合理的文件大小和与人物档案相符的命名风格。
三、给AI布置"一个月的工作任务"
电脑建好了,接下来要让AI在上面真正工作。
研究团队设计了一个由两个"智能体"(也就是两个各司其职的AI模块)组成的模拟系统。第一个叫做"设置智能体",它的职责是根据这台电脑的具体内容和用户档案,生成一套切实可行的工作目标。这些目标必须与电脑主人的实际情况高度吻合,而不是凭空捏造的通用任务。
以那位财务顾问玛格丽特为例,设置智能体为她设定了五项跨越20个工作日的主要交付物。第一项是根据先锋集团最新发布的资本市场模型数据,刷新公司三种投资组合(保守型、平衡型、成长型)的配置方案,并撰写2026年资本市场展望报告,提交投资委员会审议。第二项是完成一位名叫罗伯特·卡斯特利亚诺的高净值新客户的入职工作包,该客户有720万美元的可投资资产,正处于退休规划阶段。第三项是在同事桑德拉完成同行评审后,最终确定一套量化再平衡触发框架。第四项是将一份替代性投资研究报告升级为可以提交投资委员会表决的最终建议。第五项是完成一份ESG股票覆盖层的合规建议,并获得合规官员的签署认可。
这五项任务相互关联,比如客户的配置方案需要引用刷新后的投资组合模型数据,这个依赖关系反映了真实工作中项目之间的串联逻辑。
设置智能体还会为玛格丽特创造一批"虚拟同事"。每位同事都有具体的背景、沟通风格,以及在工作中的特定作用。她的直属上司大卫·哈特利是一位数字优先的风格、对冗长叙述没有耐心的董事总经理,会发邮件标题为"VCMM刷新——3件事"这样简短的信息,要求下属在48小时内回复,且偏爱用要点列出问题。同事桑德拉是固定收益专家,审查态度严格,不会在没有亲自复核数据之前签字确认,而且偏好有实际公式而非仅显示结果的Excel附件。客户卡斯特利亚诺是退休的科技高管,会仔细阅读投资政策说明书的每一行并提出技术性问题。合规官员詹姆斯·惠特菲尔德是前证监会审查员,要求一切记录在案。更有趣的是,初级助理凯文会故意在数据中埋入错误——比如将费率从百分比误写成基点,或者缺少数据截止日期——测试玛格丽特能否发现并纠正这些问题。
每位虚拟同事还持有"私密参考文件",只有在协作互动中才会分享给工作智能体。比如大卫·哈特利持有一份投资委员会评审清单,桑德拉持有她2025年同行评审的具体问题记录,客户卡斯特利亚诺持有含有1.7%数据差异的年末账户报表——这些都是玛格丽特必须通过主动沟通才能获取的关键信息。
四、AI如何每天"上班":周计划与日常执行的细节
第二个智能体叫做"工作智能体",它将扮演玛格丽特的角色,在这台虚拟电脑上实际工作整整一个月。
每周初,工作智能体会根据整体目标、剩余工作量、当前电脑状态和预期的协作需求,制定一份本周工作计划。这份计划会把一周拆分成具体的每日活动,明确每天要创建或修改哪些文件、需要参考哪些已有资料、要联系哪些同事。比如第一周的计划会安排周一发邮件给先锋顾问服务部门的帕特里夏·黄,请她提供2026年的资本市场模型数据;安排周二阅读客户卡斯特利亚诺的参考文件,为周三的深度发现电话做准备;安排周三举行投资委员会简短协调会,确认1月28日议程;安排周四构建一份对比2026年与2025年预测数据差异的五标签Excel分析工作簿;安排周五起草一份向大卫·哈特利汇报的备忘录,附上第一周的主要发现,并附带三个需要他做方向性决策的问题。
然后,每个工作日作为一个独立的智能体会话来执行。每天开始时,工作智能体会重新读取活动日志,检查当前电脑状态,以及查阅虚拟同事在过去几天里回复的任何新消息或共享的文件。接着按照计划推进当天的工作:阅读相关现有文件,创建或修改所需的输出文件,向虚拟同事发送消息或共享文件。每天结束时,系统记录新增文件、修改的内容、协作往来和活动历史,以便下一个日常会话从更新后的电脑状态继续推进。
模拟日志中有一段对1月7日(周三)的记录,展示了工作智能体当天完成的主要事项:上午11点召开了一次45分钟的投资委员会协调会,确认了1月28日的议程,明确了再平衡框架第三版的开发范围(包含四个需要解决的技术问题),讨论了客户卡斯特利亚诺的时间表,以及ESG合规框架的参与安排。下午2点进行了与卡斯特利亚诺的60分钟深度发现电话,核实了他在施瓦布、先锋等四个账户的总资产结构,发现并记录了施瓦布账户中的国际配置差异(账户汇总显示18%,但逐项核算只有16.3%),确认了他在亚斯本购置第二套房产的流动性需求,讨论了思科股票的集中持仓处置方案和罗斯转换的税务时机,记录了他妻子伊莲的风险偏好(更保守,拒绝非流动性投资)。下午5点则是整理桑德拉发来的第四版同行评审文件,针对四个待解决问题逐一制定解决方案,并规划第二周的原型交付时间表。
这个周计划与日常执行的循环持续四周,直到模拟期结束。整个过程中,虚拟电脑被工作智能体的工作不断改变:新文件被添加,已有文件被修订,协作往来被记录,文件依赖图随着新产出而更新。
五、实验跑完之后,数字说明了什么
一千次模拟完成之后,研究团队统计了大量数字,这些数字共同描绘出这套方法的规模和深度。
从工作量来看,每次模拟平均需要工作智能体执行2272次操作步骤,耗费约8.59小时实际运行时间,其中绝大部分时间消耗在日常执行环节,而非周计划制定。每台虚拟电脑在模拟结束后平均包含约197个文件,比模拟开始前增加了约85个,而目录层级基本保持稳定——这说明工作智能体主要是在已有框架内创建和修改文件,而不是随意建立新目录。
从协作来看,每次模拟平均涉及5.5位虚拟同事,整个模拟期间共交换约31次通讯往来。这些数字说明模拟的确不是孤立完成任务,而是需要持续的规划、执行和反复的协调。
从产出文件的质量来看,生成的文件并不是敷衍了事的占位符。演示文稿的平均文件大小超过500KB,PDF平均超过80KB。这些文件尺寸说明它们有真实的内容,而非空壳。
研究团队还对100台虚拟电脑的最终交付成果进行了评分。评分方法是:针对每台电脑运行同一套模拟五次,每次由评审模块根据实际产出内容起草一份评分细则,再将五份草稿合并成一份更全面的最终评分细则。这样做是为了避免评分标准只反映某一次运行的特定解题路径,而是尽可能覆盖这类任务的全部合理要求。评分细则涵盖规范符合度、与虚拟同事互动中提出的要求、领域专业性和工作质量四个维度,每个方面都有具体的评分点和分值。
最终得分分布大致集中在60%到80%之间。以那位财务顾问的案例为例,总分846分中得到了605分,折合71.5%,其中客户入职工作包得了88.2%的高分,而ESG覆盖层建议只得了54.8%。
六、从模拟经历中提炼"工作经验",然后用经验帮助AI进步
得到模拟轨迹之后,研究团队进行了一个关键步骤:从轨迹中提炼可复用的"经验"。
他们将900台虚拟电脑的模拟分析报告拆解成一条条"经验条目",包括有用的工作模式、常见教训和典型失败原因。然后,这些条目按照电脑主人的职业类型分组,同一职业群体内的条目会被合并归类,并统计每类问题出现的频次。频次越高,说明这是这类职业工作中越普遍的问题。
接着,按频次排序的经验条目被交给一个"技能创建器",它会为每个职业群体写出一份结构化的工作技能文档。以金融与投资分析师这个职业群体为例,生成的技能文档包含四个主要模块。第一个模块关于数据完整性与单一真相来源,核心规则包括:所有文件共享的数字必须来自同一个权威来源(Excel模型或数据注册表),备忘录、演示文稿和PDF只是"只读消费者",在起草任何引用某个数字的段落前都应重新打开源模型,因为"我知道加权平均资本成本是9.2%"和"粘贴了实际链接值"之间的差距,正是过时数据得以存活的地方。此外,对于同一指标的季度数字和年度数字不可互换,即使数值接近也不行。还需要注意:如果某位合作方提供的预测数字是收入还是EBITDA必须明确确认,并展示完整推导链,把两者混淆会导致估值相差5到10倍。
第二个模块关于模型构建和验证,强调要在敏感性分析表中核实逻辑方向(更不利的情景应产生更差的结果),要明确区分毛回报率和净回报率并同时呈现,要构建数学上封闭的估值体系(所有输入值应能机械地复现输出结果,审查者无需任何未披露的桥接调整)。
第三个模块关于文档层级和工作流程把关,规定版本号一旦分享出去就成为该审阅周期的正式记录,修订应产生新版本号而非重用旧版本号,并要求在起草过程中使用可搜索的标记(如"[待核实]")而非用貌似合理但实际有误的数字占位。
第四个模块关于监管、合规和认证标准,指出展示毛业绩的文件必须同等突出展示费后净业绩——这是证监会相关规则的强制要求,不是风格选择,适用范围涵盖募资材料、季度报告和投资者信函。
这些技能文档随后被加载给工作智能体,测试它在面对100台此前未见过的全新虚拟电脑时,能否比没有这些技能的基准版本表现更好。结果相当明确:平均评分从61.6%提升到了68.6%,提升了7个百分点。在逐台比较中,带技能的版本在100台电脑中赢了83台。
研究团队还测试了训练规模的影响:用10台电脑的经验生成技能时,带技能的版本和基准版本几乎打平(48%对52%,带技能版本略输);用100台电脑的经验时,胜率升至64%;用500台时达到75%;用900台时达到83%。这个趋势说明,训练样本越多,技能覆盖的职业越广,频次统计也越可靠,提炼出的经验质量自然越高。
七、超出"自家考场"的测试:用外部基准验证
一项研究方法好不好,光在自己设计的情境里跑高分是不够的,还需要放到完全不同的场景中验证。
研究团队选取了一个公开的生产力任务基准测试集,包含220个真实的办公工作任务。这个基准测试集与研究团队的虚拟电脑模拟有着非常显著的区别:基准测试任务平均只有1.18个参考文件,没有任何额外的"电脑背景文件"可以浏览,平均只需要31步操作和17分钟就能完成;而团队的虚拟电脑模拟平均有13.8个参考文件加上112个背景文件,需要2272步操作和8.59小时。两者之间的规模差距,大约相当于骑自行车走社区和开长途卡车跨省运货的区别。
测试方式是:对每个基准任务,同时运行带技能版本和不带技能的基准版本,然后让一个评审模块(使用更强的Claude Opus模型)根据任务自带的评分标准选出哪个版本的输出更好。
结果是:在以Claude Sonnet为底层模型的主要测试中,带技能版本赢了105个任务,输了67个,打平48个,单侧检验的p值为0.002,双侧检验为0.005——按学术惯例,p值小于0.01就意味着这个差异极不可能是随机偶然造成的。也就是说,从处理数千步长工作中提炼出的经验,对仅需几十步的短任务也有明显帮助。
在使用较弱的Claude Haiku模型时,同样的技能带来了104胜80负的成绩,达到显著性边界;在使用更强的Claude Opus模型时,得到99胜71负的结果,也具有统计显著性。Opus本身已经很强,许多在Sonnet上出现的错误它能自行避免,所以技能带来的边际增益相对小一些;而Haiku指令遵循能力较弱,技能文档对它的帮助稍打折扣。
八、这套方法指向一个怎样的未来
把以上所有环节串联起来,研究团队描绘了一个令人感兴趣的自我迭代循环。
第一步,从大规模人物简介出发,生成多样化的虚拟电脑,覆盖不同职业、不同工作风格、不同文件组织习惯。第二步,在每台虚拟电脑上运行长周期模拟,让工作智能体在真实感更强的环境中积累大量操作轨迹。第三步,从这些轨迹中提炼经验,识别成功模式和失败原因。第四步,把提炼出的经验转化为职业专属技能文档,让工作智能体携带这些技能去处理新的任务,表现更好。第五步,当技能文档积累到一定规模,可以将其中的知识蒸馏进模型权重,让有益的行为模式真正内化,而不需要每次都靠外挂技能文档提示。第六步,技能库清空,用能力更强的新模型开启下一轮模拟,生成质量更高的轨迹,提炼更精准的经验。如此循环。
这个循环在三个维度上都具有向上的扩展动力。模拟数量增加意味着环境更丰富:同一台虚拟电脑在一次模拟结束后,更新后的状态可以作为下一次模拟的起点,随着反复模拟,每台电脑的工作历史越来越具体,越来越有"个人特色"。模型能力增强意味着模拟质量提升:更强的AI能创作出内容更充实的文件,规划更连贯的工作流程,与虚拟同事协作时的表达也更自然。更强的分析模型还能从轨迹中挖掘出更细腻的经验:发现更隐蔽的失败模式,把有用的工作习惯总结得更精确。
研究团队指出,由于人物简介可以在极大规模上生成和采样,这套方法在原则上可以扩展到数百万乃至数十亿台虚拟电脑,覆盖几乎所有可以想象的职业类型、工作场景和生产力需求,只要有足够的计算资源。
研究团队也坦率地指出了当前方法的不足之处。目前生成的文件内容已经能根据用户职业做到相当程度的定制,但视觉风格和排版格式在不同电脑之间仍然过于统一,未能反映不同组织或个人的设计偏好差异。真实的电脑还会有很多"生活痕迹":临时下载的文件、多次修改却没有统一归档的草稿、截图、已经过期的旧资料,以及和主要项目完全无关的杂文件。当前的虚拟电脑比真实电脑整洁太多,这可能导致模拟与现实之间存在差距。另外,当前的虚拟同事大多处于被动响应状态,而现实中的同事有自己的工作节奏、私人议程、临时变化和情绪起伏,让协作更接近真实的多智能体组织环境,是下一阶段需要解决的挑战。
归根结底,这项研究做的事情可以用一句话概括:与其让AI在空白纸上学做作业,不如给它一间真实的办公室,让它在里面真实地工作,然后从这段经历中学习。这个思路看起来朴素,但它所要求的工程复杂度和计算投入都相当可观,而研究团队的实验证明这个方向是有效的。至于这套方法最终能把AI的专业工作能力带到什么高度,还需要时间和更多实验来回答。有兴趣深入了解的读者可以通过arXiv编号2604.28181查阅完整技术报告,也可以访问研究团队在HuggingFace上发布的开源数据集,直接查看100台公开虚拟电脑及500份模拟分析报告。
Q&A
Q1:合成电脑方法与传统AI训练数据有什么本质区别?
A:传统合成数据通常直接生成"任务描述+参考答案",就像给AI出一道含所有已知条件的数学题。合成电脑方法则先构建完整的用户工作环境,包括文件夹结构、历史文档和跨文件依赖关系,再在这个环境中生成任务。这意味着AI必须像真实用户一样主动翻阅文件、整合历史信息,而不是在一个信息已经"备好"的情境中解题,训练出的能力更接近真实办公场景中所需的工作方式。
Q2:合成电脑模拟产生的技能文档如何帮助AI提升表现?
A:模拟结束后,系统分析AI在执行任务时的失败模式和成功经验,按职业类型归类并统计频次,再把最常见的教训写成结构化的职业专属技能文档。这些文档会明确告知AI哪些错误最容易犯、哪些工作步骤最关键,比如"在任何多文档交付物打包前,必须创建一张数字一致性核对矩阵"。AI携带这些文档处理新任务时,相当于有了一份针对该职业的"经验提示卡",实测可将评分从61.6%提升至68.6%。
Q3:为什么用900台电脑训练出的技能比用10台的效果好那么多?
A:用10台电脑生成技能时,覆盖的职业类型太少,很多测试场景找不到对口的技能,AI只能使用相关性较弱的技能,有时反而帮倒忙。随着训练规模增加,一方面职业覆盖更广(每个测试场景都能找到适配技能),另一方面频次统计更可靠(出现次数越多的问题越能被正确识别为普遍性而非偶发性)配资怎么玩的,技能内容的针对性因此大幅提升。10台、100台、500台和900台对应的胜率分别约为48%、64%、75%和83%,显示出清晰的规模效应。
常盈配资提示:文章来自网络,不代表本站观点。