Anthropic-AI辅助编程对技能培养有负面影响

本文通过随机对照实验研究了AI辅助对软件工程技能形成的影响。研究发现，在学习新Python异步编程库（Trio）的过程中，使用AI辅助完成任务的开发者在概念理解、代码阅读和调试能力测试中得分显著下降（达17%），而任务完成效率并未获得显著提升。通过对52名参与者的屏幕录像进行质性分析，作者识别出六种AI交互模式，其中三种涉及认知参与的模式能够在使用AI的同时保留学习成果。研究表明，AI增强的生产力并非通往专业能力的捷径，尤其在安全关键领域，应当审慎地将AI辅助融入工作流程以保护技能形成。

标题: How AI Impacts Skill Formation

发布平台: arXiv

Judy Hanwen Shen：斯坦福大学计算机科学系博士生，她的研究方向涵盖人机协作、先进AI系统的社会影响、算法公平性以及AI对齐等前沿领域。
Alex Tamkin：Anthropic研究科学家，研究兴趣包括理解和改善AI系统的现实世界影响，尤其关注AI安全、人机协作以及AI的经济和社会效应。他在Anthropic主导或参与了多个具有广泛影响力的项目，包括CLIO、Anthropic Economic Index以及Claude Artifacts。

上线时间： 28 January 2026

引言

自工业革命以来，劳动力市场中的技能需求随着新技术的引入而持续演变。工人的角色往往从直接执行任务转变为监督任务的完成。例如，工厂机器人的自动化使人类从体力劳动转向监督工作，会计软件则使专业人员从原始计算转向制定更优的记账和税务策略。在这两种情境中，人类仍需对最终产品的质量负责，并对任何错误承担责任。即使自动化改变了完成任务的过程，识别和修复错误的技术知识依然至关重要。

随着AI在软件工程、创业、咨询等广泛应用场景中展现出显著的生产力提升潜力，AI对劳动力的深层影响尚未被充分理解。虽然越来越多的工作者依赖AI来提高生产力，但在工作场所使用AI辅助是否会阻碍核心概念的理解，或妨碍监督自动化任务所需技能的发展，仍是一个悬而未决的问题。大多数研究聚焦于AI辅助的最终产品（如代码行数、创意质量），而一个同等重要甚至更关键的问题是：接受AI辅助的过程如何影响工作者本身？

软件工程被认为是AI工具可以直接应用且AI辅助能显著提高日常任务生产力的专业领域。初级或新手工作者在编写代码时从AI辅助中获益最多。然而，在高风险应用中，AI编写的代码在部署前可能需要人类进行调试和测试。这种增强安全性的额外验证只有在人类工程师自身具备理解代码和识别错误的技能时才可能实现。随着AI发展，如果人类理解代码的能力减弱，监督越来越强大的AI系统将变得更加困难。

基于这一背景，本文聚焦于在职学习 （on-the-job learning）场景，即工作者必须获取新技能以完成任务的情境，旨在理解AI对生产力和技能形成的双重影响。核心研究问题是：

AI辅助是否能提高开发者在学习和完成一项需要新技能的编程任务时的生产力？
使用AI辅助会如何影响这些新技能的形成与掌握？

理论背景与相关研究

生产力提升

自2022年底ChatGPT、Copilot、Claude等先进对话助手广泛可用以来，AI工具已在软件开发、教育、设计和科学等专业领域得到广泛应用。多项研究发现，使用AI助手能够提高生产力。Brynjolfsson et al.发现，基于AI的对话助手使客服中心工作者平均解决的问题数量增加了15%。Dell'Acqua et al.发现，咨询顾问在AI帮助下平均完成的任务比没有AI时多12.2%。

在技能差异效应方面，一个一致的模式是：在客服工作、咨询、法律问答和写作领域，经验较少和技能较低的工作者往往获益最多。一个例外是，当GPT-4被提供给肯尼亚小企业主时，AI商业建议帮助高绩效者（按收入计算）改善了业务结果，而低绩效者的结果则恶化了。

对于软件工程，Peng et al. (2023)发现，使用Copilot的众包软件开发者完成任务的速度比对照组快55.5%，新手程序员从AI编码辅助中获益更多。Cui et al. (2024)对主要软件公司开发者的后续研究发现，AI生成的代码补全以拉取请求、提交和软件产品构建衡量，可提高26.8%的生产力，且经验较少的编码者获得了更大的生产力提升。然而，这些最能从AI中获益的初级或经验较少的开发者，正是应该在工作场所快速发展新技能的群体。AI对这一亚群体技能形成的影响仍然未知。

认知卸载与技能保留

近期研究强调了AI辅助与技能退化之间的关联。Macnamara et al. (2024)指出，使用AI辅助训练的医学专业人员可能无法发展出识别某些病症的敏锐视觉技能。Gerlich (2025)对知识工作者的调查显示，频繁使用AI与较差的批判性思维能力和增加的认知卸载（cognitive offloading）相关。Lee et al. (2025)发现，知识工作者报告在使用生成式AI工具时认知努力和信心降低。

在技能保留方面，Wu et al. (2025)发现，即使生成式AI提高了内容创作任务（如撰写Facebook帖子、绩效评估、欢迎邮件）的即时表现，这种提升在人类随后独立完成的任务中并未持续。对于数据科学任务，Wiles et al. (2024)将AI对非技术顾问的影响描述为一种外骨骼，即AI赋予的增强技术能力在工作者不再使用AI时并未持续存在。

过度依赖问题

虽然经济学文献中关于AI增强生产力的研究隐含地假设AI是值得信赖的，但现实是生成式AI可能产生错误或幻觉内容。当模型存在缺陷但仍被部署用于辅助人类时，人类跟随错误模型决策做出的决定被称为过度依赖（overreliance）。虽然已有方法被提出以减少过度依赖，但这些方法主要关注决策时信息，如解释或辩论。

理论框架

本文的理论框架基于干中学（learning-by-doing）的教育哲学，特别是Kolb (2014) 的体验式学习理论。该理论认为，有效的学习是一个循环过程，涉及四个阶段：具体体验（Concrete Experience）、反思性观察（Reflective Observation）、抽象概念化（Abstract Conceptualization）和主动实验（Active Experimentation）。学习者通过在这四个阶段之间不断循环，将具体经验转化为抽象知识，并将抽象知识应用于新的情境。

此外，问题导向学习（Problem-Based Learning, PBL）的理念也为本文提供了理论支撑。Schmidt (1994) 指出，学习者通过解决真实世界的问题，能够更有效地建构和整合知识。在编程学习的语境下，这意味着独立面对和解决编程错误是技能形成的关键环节。

基于这些理论，作者提出了核心假设：直接使用AI生成代码，可能使用户跳过了学习循环中的关键环节，尤其是通过解决错误和独立思考来进行反思和概念化的过程，从而阻碍了深层次的技能形成。换言之，AI可能提供了一条捷径，让用户绕过了那些虽然困难但对学习至关重要的认知过程。

研究设计

实验任务选择

研究团队为初级软件工程师可能在工作中遇到的多种技能设计了原型任务。最终选择围绕Python Trio库设计实验，该库用于异步并发和输入输出处理（I/O）。与asyncio相比，这个库知名度较低（根据StackOverflow问题数量判断），并涉及超越Python熟练度的新概念（如结构化并发）。该库的设计明确以易于使用为目标，特别适合学习实验。

研究团队设计并测试了五个使用Trio库进行异步编程的任务。经过多次预试研究后，在主要研究中使用了前两个任务，每个任务在初始测试中大约需要10-20分钟。第一个任务是编写一个计时器，在其他函数运行时打印每过去的一秒。这个任务介绍了Trio中nurseries、启动任务和并发运行函数的核心概念。第二个任务涉及实现一个记录检索函数，能够处理Trio库中的缺失记录错误，介绍了错误处理和内存通道等概念。

实验使用了一个带有AI助手聊天界面的在线面试平台。AI组的参与者被提示使用AI助手来帮助完成任务。该助手使用的基础模型是GPT-4o （说！为什么不用Claude！），并被设定为智能编码助手。AI助手可以访问参与者当前版本的代码，并在提示时直接为两个任务生成完整、正确的代码。

评估

测验的设计借鉴了Cheng et al.(2022) 关于计算机科学教育评估的元分析研究，重点评估了三种对AI时代程序员至关重要的监督技能：

调试：识别和诊断代码错误的能力。这项技能对于检测AI生成代码中的错误并理解其失败原因至关重要;
代码阅读：阅读和理解代码功能的能力。这项技能使人类能够在部署前理解和验证AI编写的代码;
概念理解：理解工具和库背后核心原理的能力。概念理解对于评估AI生成的代码是否使用了符合库设计意图的适当软件设计模式至关重要。

研究团队有意排除了对代码编写能力的评估，因为他们认为低级别的代码编写（如记住函数语法）在AI编程工具进一步整合后将变得不那么重要，而高级别的系统设计能力更为关键。

测验覆盖了Trio库的七个核心概念：async和await关键字的使用、启动Trio函数、Trio中的错误处理、协程、使用Trio的内存通道、打开和关闭Trio nursery、以及顺序与并发执行的区别。最终评估包含14个问题，总分27分。研究团队在正式实验前进行了五个版本的测验测试，以确保问题的有效性和难度适中。

实验设计

实验采用被试间设计（between-subjects design），将参与者随机分配到两个组：处理组（可以使用AI编程助手）和控制组（无AI辅助，只能使用网络搜索和官方文档）。整个实验流程包括三个阶段：

热身任务（10分钟）：一个不涉及异步概念的简单编程任务，所有参与者都不能使用AI。这个阶段旨在让参与者熟悉实验平台，并作为控制变量来评估参与者的基础编程能力。
核心Trio任务（35分钟）：参与者完成前述的两个Trio编程任务。处理组可以使用AI助手，控制组则不能。
任务后测验（25分钟）：所有参与者在没有AI辅助的情况下完成一个关于Trio库的测验，旨在评估他们对Trio库的真实掌握程度。

参与者通过第三方众包平台招募，报酬为150美元。招募标准包括：一年以上Python编程经验、每周至少编程一次、使用过AI编程辅助工具、从未使用过Trio库。最终，52名参与者完成了全部实验流程，处理组和控制组各26人。参与者的人口统计特征显示，大多数年龄在25-35岁之间，持有学士学位，职业为自由职业者或专业软件开发者。平均任务时长为58.5分钟。

预试研究结果

在正式实验之前，研究团队进行了四次预试研究（Pilot Studies），以完善实验设计和解决潜在问题。

预试A（n=39）发现了一个严重的问题：35%的控制组参与者违规使用了AI。这表明，在没有严格监控的情况下，让参与者自觉遵守不使用AI的规则是困难的；

预试B（n=107）尝试通过更严格的警告来解决这个问题，但仍有25%的控制组参与者使用了AI。这促使研究团队在后续实验中采用了屏幕录像来监控参与者的行为；

预试C（n=20）发现了本地项目依赖的问题，并进行了相应的调整；

预试D（n=20）的结果预示了主研究的发现：在35分钟时限内，控制组的任务完成率仅为60%，而处理组为90%；处理组完成任务更快（Cohen's d = 1.11, p = 0.03），但处理组的测验分数显著更差（Cohen's d = 1.7, p = 0.003）。

主要结果

对生产力影响有限

与许多人的直觉相反，研究并未发现AI辅助能显著缩短任务完成时间。处理组的平均完成时间仅比控制组快约2分钟，这一差异在统计上并不显著（p = 0.391）。这一结果与Peng等人（2023）和Cui等人（2024）的发现形成了对比，后者报告了AI带来的显著生产力提升。

定性分析为这一看似矛盾的结果提供了解释。许多参与者花费了大量时间（最多占总时长的30%，即约11分钟）来构建和迭代他们的AI查询。考虑到任务的中位完成时间仅为19分钟，6分钟的AI交互时间占比相当显著。这部分时间成本抵消了AI生成代码所带来的速度优势。

作者推测，在更具重复性或参与者已经熟悉的任务中，AI更有可能显著提高生产力。而在学习新技能的场景下，与AI交互本身就需要投入大量的认知资源和时间。

AI辅助对技能掌握有负面影响

引人注目的发现体现在任务后的测验分数上。使用AI辅助的参与者在测验中的平均得分（50%）显著低于控制组的平均分（67%）。这个差距高达17个百分点，相当于两个字母等级（例如从B+降到D+）。效应量（Cohen's d）为0.738，属于中等偏大的效应，具有很强的统计显著性（p = 0.010）。即使在控制了热身任务时间（作为基础编程能力的代理变量）之后，这一效应仍然显著（Cohen's d = 0.725, p = 0.016）。

这一结果表明，尽管AI帮助部分参与者完成了任务，但这个过程并没有有效地转化为他们自己的知识和技能。换言之，AI辅助带来的是一种表面成功，任务完成了，但学习并未发生。

异质性分析

进一步的分解分析揭示了AI辅助对不同类型技能的影响存在差异。分数差距最大的部分出现在调试问题上，而代码阅读问题的分数差距最小。研究者对此的解释是，处理组和控制组对代码阅读的暴露程度相似（都需要阅读任务描述和起始代码），但控制组在任务过程中遇到了更多的错误，因此他们的调试能力得到了更多的锻炼。

调试能力差距的发现尤其值得警惕，因为它意味着过度依赖AI的开发者可能恰恰缺乏在AI犯错时发现和修复问题的能力。这直接关系到AI在关键系统中应用的安全性和可靠性。随着公司越来越多地转向AI编写代码、人类进行监督的模式，如果人类不具备验证和调试AI编写代码的必要技能，那么系统性风险将会增加。

跨经验水平的影响

研究还分析了AI辅助的影响是否因参与者的编程经验年限而异。结果显示，控制组（无AI）在所有经验水平上的测验分数都高于处理组（有AI）。这表明，AI对技能形成的负面影响并非仅限于新手，而是跨越了不同经验水平。即使是有多年经验的开发者，在学习新技能时，过度依赖AI同样会阻碍他们的学习。

机制分析

六种不同的AI交互模式

分析发现，并非所有AI使用方式都会导致负面后果。作者识别出了六种截然不同的AI交互模式，这些模式与最终的学习效果高度相关。这六种模式可以被归为两大类：

导致学习效果差的低分模式（平均测验分数低于40%）。这些模式的共同点是高度依赖AI，认知参与度低：

AI委托（n=4）：这类用户几乎完全将编码任务外包给AI，简单地复制粘贴AI生成的解决方案。他们完成任务的速度最快（平均19.5分钟），但学到的东西也最少，测验分数平均仅为39%；
渐进式AI依赖（n=4）：用户一开始尝试自己解决，在任务一中只问1-2个问题，但遇到困难后便在任务二中完全依赖AI。他们的完成时间约为22分钟，测验分数平均为35%。他们的低分主要是因为没有掌握第二个任务中的任何概念。
迭代式AI调试（n=4）：这类用户反复将遇到的错误信息粘贴给AI，寻求直接的解决方案，而不是试图自己理解问题根源。他们问了最多的问题（5-15个查询），但这些问题主要是为了让AI解决问题，而不是为了澄清自己的理解。这种模式耗时最长（平均31分钟），学习效果也最差，测验分数平均仅为24%。

促进学习效果的高分模式（平均测验分数高于65%）。这些模式的共同特征是，用户在使用AI的同时保持了高度的认知参与。

生成后理解（n=2）：用户先让AI生成代码，但在复制代码后，会主动向AI提出问题以理解代码的工作原理。这种模式的用户完成时间约为24分钟，测验分数最高，平均达到了86%。有趣的是，这种模式在表面上与AI委托模式非常相似，唯一的区别在于他们额外花时间去理解AI生成的代码；
混合代码解释（n=3）：用户在请求AI生成代码的同时，也要求AI提供对代码的解释。他们花时间阅读和理解这些解释，从而促进了学习。完成时间约为24分钟，测验分数平均为68%；
概念探究（n=7）：这类用户主要向AI询问关于Trio库的概念性问题，然后基于自己对概念的理解来独立编写和调试代码。他们虽然遇到了很多错误，但也独立解决了这些错误。他们是高分模式中完成任务最快的群体（平均22分钟），仅次于AI委托模式，测验分数平均为65%。

这一发现是本文的核心贡献之一。它表明，AI对技能形成的影响并非铁板一块，而是高度依赖于用户与AI的交互方式。当用户将AI作为探索和理解的工具时，学习效果得以保全甚至增强；而当用户将AI纯粹作为任务完成的快捷方式时，技能形成便会受到抑制。高分模式的共同特征是用户展示了高度的认知参与，无论是通过追问解释、请求概念澄清，还是独立解决错误。

AI查询类型

研究将用户向AI助手的输入（查询）分为5大类：解释（q=79）、生成（q=51）、调试（q=9）、能力询问（q=4）和感谢（q=4）。

最常见的查询类型是解释；用户请求有关trio库、异步操作细节和高级概念介绍的更多信息。25名处理组参与者中有21名提出了解释问题，这反映了参与者的高参与度。第二常见的是要求生成代码的查询；一些参与者要求完成整个任务，而其他参与者要求实现特定函数。25名参与者中只有16名使用AI生成代码，其中4名参与者只要求代码生成而没有其他类型的问题。事实上，8名得分最低的参与者中有3名在没有要求解释的情况下要求AI生成代码，这表明如果AI组的所有参与者都仅使用AI生成代码，与对照组相比的技能形成差异会更大。

代码采用方式的影响

研究者还分析了参与者如何采用AI生成的代码建议：直接粘贴还是手动输入。结果显示：

直接粘贴 AI代码的参与者（n=9）完成任务最快。手动复制AI代码的参与者（n=9）完成速度与控制组相似。采用混合方法的参与者（n=4）也与控制组相似。自己编写代码的参与者（n=4）相对较快且展示了高熟练度。

然而，在技能形成（测验分数）方面，粘贴与手动输入之间并无显著差异。这一发现表明，手动输入代码所花费的时间并不一定带来更好的概念理解。真正重要的是用户是否在认知上参与了对代码的理解，而不是机械地复制代码的方式。

犯错是学习之母

定性分析还揭示了另一个深刻的机制：遇到并解决错误在技能形成中扮演着至关重要的角色。

数据显示，没有AI辅助的控制组参与者在任务中遇到的错误数量显著多于AI组。AI组的中位错误数为整个任务1个（范围0.0-3.0），而控制组的中位错误数为3个（范围2.0-5.0）。AI组的大多数参与者首次运行代码即完成任务，而控制组的大多数参与者在完成任务过程中遇到了多个错误。在12名无错误完成两个任务的参与者中，只有2人在控制组。

并非所有错误对技能发展的贡献都相同。最常见的错误（NameError和AttributeError）与Trio无直接关系，通常是变量名或函数名的拼写错误，可以快速纠正。然而，与Trio直接相关的错误——如RuntimeWarning（协程从未被等待）和TypeError（trio函数获得协程对象而非async函数）——迫使参与者理解trio库如何处理协程以及await关键字的正确使用方式。这些正是测验中测试的关键概念。

控制组遇到了更多与Trio相关的错误。每一次独立解决这些错误的过程，都迫使他们更深入地思考代码的逻辑和库的原理，从而加深了理解和记忆。相比之下，AI组的参与者由于能够轻易地绕过或直接修复错误，反而失去了这些宝贵的在挣扎中学习的机会。这为干中学的理论提供了有力的实证支持，即有益的困难（desirable difficulties）是深度学习的关键组成部分。

主动编码时间的转变

研究者还分析了参与者花在主动编码上的时间。主动编码时间是指实际花在编写代码上的时间，通常只占总任务时间的一小部分。

结果显示，无AI组的参与者花费了更多的主动编码时间，并且获得了更高的测验分数。这表明，从编码到阅读和理解的转变可能是AI辅助阻碍学习的一个机制。AI组的参与者花费了更多时间阅读AI生成的代码和回复，而不是自己动手编写和调试代码。

有趣的是，在每个条件内部，更高的主动编码时间与更低的测验分数相关。研究者解释说，这是因为经验更丰富的程序员花费更少的时间主动编码，但他们有更好的基础知识。

参与者反馈

实验结束后，约四分之一的参与者留下了反馈。控制组（无AI）的参与者普遍认为任务有趣，任务说明有助于他们理解Trio。处理组（AI辅助）的参与者则表示，他们希望在任务期间更关注Trio库的细节，无论是通过阅读生成的代码还是要求更深入的解释。一些参与者的反馈颇具洞察力，他们报告感觉懒洋洋的（lazy），并承认理解上仍有很多差距。

尽管任务说明和测验问题完全相同，控制组参与者的情绪普遍更为积极。这可能是因为他们在独立解决问题的过程中获得了更多的成就感和自我效能感。

结论与讨论

发现与讨论

本研究的主要发现是，使用AI完成需要新技能（即新Python库知识）的任务会减少技能形成。在随机对照试验中，参与者被分配到处理条件（使用AI助手、网络搜索和指示）或对照条件（仅使用网络搜索和指示完成任务）。在使用AI辅助的参与者中测量到的概念理解、代码阅读和调试技能的侵蚀表明，获取新技能的工作者应该注意他们在学习过程中对AI的依赖。

在使用AI的参与者中，技能形成结果在高分交互模式（65%-86%测验分数）与低分交互模式（24%-39%测验分数）之间存在明显分化。高分者只向AI提出概念性问题而不是代码生成，或者要求解释伴随生成的代码；这些使用模式展示了高水平的认知参与。

与最初假设相反，研究未观察到任务完成的显著性能提升。虽然使用AI改善了任务的平均完成时间，但尽管AI助手在提示时能够生成完整的代码解决方案，效率改善在本研究中并不显著。质性分析揭示，这一发现主要由于参与者决定如何在任务期间使用AI的异质性。有一组参与者依赖AI生成所有代码且从不提出概念性问题或要求解释。这一组完成速度比对照组快得多（19.5分钟vs 23分钟），但这一组仅占处理组参与者的约20%。AI组中其他提出大量查询、花费长时间构思查询或要求后续解释的参与者提高了平均任务完成时间。这些对比性的AI使用模式表明，使用新知识或技能完成任务不一定会带来与仅需要现有知识的任务相同的生产力收益。

综合来看，研究结果表明，如果工作者不保持认知参与，将AI积极纳入工作场所可能对专业发展产生负面影响。鉴于时间限制和组织压力，初级开发者或其他专业人员可能依赖AI以尽可能快的速度完成任务，以牺牲真正的技能发展为代价。此外，研究发现调试问题的测验分数差异最大。这表明，随着公司转向更多AI代码编写和人类监督，如果人类的技能形成一开始就被使用AI所抑制，他们可能不具备验证和调试AI编写代码的必要技能。

对新手工作者的建议

对于软件工程或任何其他行业的新手工作者，本研究可以被视为支持有意识技能发展价值的一小部分证据，尽管AI工具无处不在。研究表明，即使在AI辅助下遇到障碍（如错误），在掌握过程中付出认知努力也是有益的。

除了本文描述的模式，主要LLM服务也提供学习模式（如ChatGPT Study Mode、Claude Code Learning / Explanatory mode），旨在促进理解。了解人们在使用AI时如何学习，也可以帮助指导我们如何设计AI；AI辅助应该使人类能够更高效地工作，同时发展新技能。

最终，为适应AI的存在进行技能发展，需要对AI对工作者影响有更广阔的视角。AI经济中的参与者不仅要关心AI带来的生产力提升，还要关心新AI工具激增中专业知识发展的长期可持续性。