PNAS-同行评议的现状与未来

本文是一篇针对科学出版中同行评审制度的综合性展望。作者首先提出了一系列核心问题:当前同行评审系统出了什么问题?它是否可持续,有无用处?是否存在其他可行的模型? 围绕这些问题,作者批判性地讨论了现行评审机制的弊端,并探讨了替代模型和可能的改革思路。论文的研究目的在于梳理同行评审面临的主要争议,提出潜在改进方案,以引发科研利益相关者(包括研究成果的产出者和使用者)之间更深入的对话。作者强调,他们列举的问题和讨论的解决方案并不穷尽一切可能性,但希望通过这篇展望文章促使学界认真重新审视同行评审过程的现状和未来改进方向。总体而言,该论文旨在为同行评审这一科研评估机制提供全局性的分析,明确其存在的核心挑战和改进目标,从而为提高科学研究的公正性和有效性奠定基础。

标题: The present and future of peer review: Ideas, interventions, and evidence

期刊: PNAS

  • Balazs Aczel:Professor and vice-dean for science at ELTE University, Budapest, Hungary. Aczel是本文的一作通讯。本文有许多作者,似乎是按照姓氏首字母排序的。

上线时间: 27 January 2025


主要问题与挑战

作者总结了当前同行评审系统中存在的诸多问题和挑战,这些问题被认为正在削弱同行评审的公正性、有效性和可信度:

评审质量和严谨性不足

同行评审本应保障科学诚信、纠正错误,但现实中其质量受到广泛质疑。许多评审未能充分发现论文中的问题,导致错误结果甚至学术不端行为未被察觉。例如,有研究发现心理学期刊中约18%的统计结果报告有误,而这些错误每八篇论文中就会有一篇影响结论。大量研究也指出,论文中的方法和结果经常报告不充分,数据和结论难以重现。这些评审质量的问题直接导致科研可靠性危机:重要错误在发表前未被发现,论文发表后再被撤回的比例上升。作者指出,随着科学出版物数量激增和研究日益专业化,高质量评审变得更加困难:很难为每篇稿件找到精通各方面内容的审稿人。同时,学界对“高质量评审”的功能尚无共识,缺乏统一标准,使得衡量和提高评审质量变得复杂。总的来看,评审未能有效把关科学严谨性是当前的首要问题。

偏见与不公正

理想的同行评审应当公正客观,但作者列举了个人和系统性偏见如何威胁评审公正。部分评审人可能对某些作者、机构、研究主题或结论抱有偏好或成见,导致审稿结果非基于研究本身质量而有所偏颇。例如,在医学会议摘要评审中,单盲评审相较双盲更偏好来自知名机构和英语国家作者的投稿;计算机领域的研究也发现,知道作者姓名和单位的评审人更倾向接受名校或知名学者的论文。这种“名人效应”或地域、性别偏见会造成某些群体的研究被系统性低估。尽管不同研究对性别等社会身份偏见的结论不一(有的发现女性作者在实名评审中更有利,有的则未发现显著性别偏差),总体而言,同行评审的公正性易受偏见侵蚀。这不仅体现在个别审稿人身上,也可能在体制层面累积——例如审稿人与作者在性别、学术派系或国家上的同质性可能带来有利评价。偏见问题使得评审难以做到真正的客观和公平。

一致性与可靠性低

作者强调,同行评审结果具有相当程度的随机性。不同评审人对同一稿件往往给出截然不同的评价,即评审一致性差。一项涵盖45项研究的元分析发现,两位审稿人对同一稿件评分的相关性平均只有0.34。在科研资助评审中也有类似发现,不同专家对同一资助申请的评价常常不一致。这种可靠性不足意味着稿件的命运带有偶然性,重大成果可能被顶级期刊拒绝却后来证明极有价值,而平庸甚至存在问题的论文有时也能漏网发表。作者进一步指出,评审人之间的分歧并不总是建设性的。如果评审阶段过多纠结于分歧,可能并不能真正促进科学进步,反而令作者为了迎合少数评审意见而过度修改,迎合了小众而非学界整体期望。因此,当前同行评审可靠性低下,质疑了其确保出版质量的能力。

低效率与滞后

现代科研的信息传播速度极快,而传统同行评审流程却显得缓慢冗长。论文从投稿到得到初步评审结果通常需耗费数月,经历多轮退修、重投则可能长达数年。与科研发现速度的加快以及预印本使成果即时面向读者的可能性相比,漫长的评审周期越来越不合时宜。作者指出,在商业、政策或临床决策需要迅速依据科研进展的情形下,过长的发表周期更是显得无法满足需求。除了时间成本,评审过程还被描述为“缓慢、低效、代价高昂、随意且充满偏见”。由此,评审效率低已成为学界普遍诟病的问题,拖延了科学知识的传播和应用。

审稿人行为不当与动机问题

一些审稿人的不端行为进一步损害了评审的公平性和可信度。论文指出,有审稿人会利用匿名权力谋取私利,例如阻挠发表与自己研究相冲突的论文,或借审稿之便窃取未发表稿件的创见用于自身研究。这些行为违背学术道德,破坏了同行评审应有的诚信原则。此外,审稿人普遍面临动力不足的问题:评审工作往往缺乏明确的奖励,与职业晋升关系不大,完全靠学者的学术责任感支撑。随着需要评审的稿件量激增而合格审稿人相对减少,许多审稿人感到负担沉重甚至出现“审稿疲劳”。经验不足的评审人可能无法提出有价值的意见,而真正专家往往没有足够时间投入细致评审。审稿人队伍的短缺和激励缺失导致评审质量下降、拖延加剧,形成恶性循环。

掠夺性期刊的冲击

学术生态中的掠夺性期刊现象使评审问题雪上加霜。这些期刊几乎不经严格同行评审就收取版面费发文,将商业利益置于学术质量之上。据估计,截至2014年约有8,000种掠夺性期刊,共发表近50万篇论文。一些作者由于缺乏对期刊声誉的认识,或出于职称压力,选择在此类期刊发表成果。更有甚者,一些欠发达国家的学者担心西方主流期刊存在地域偏见,反而主动投向这些低门槛期刊。掠夺性期刊的盛行降低了文献总体可信度:由于其利润与发文量直接相关,严肃的同行评审只会降低收益,因此这些期刊毫无动力提高审核质量。它们大量充斥着未经严格把关的论文,极大降低了学术文献的信噪比。这种不良出版物的增加使研究人员更难分辨高质量研究,侵蚀了正规同行评审的价值。

综上,当前同行评审面临的主要挑战包括:评审质量不高、偏见普遍存在、结果可靠性差、效率低下、审稿人动力和能力不足,以及外部不良出版行为的干扰。这些问题相互交织,导致科研共同体对同行评审制度的信心受到严重冲击。正如作者所言,科学界普遍认为评审制度正处于“危机”之中,需要认真反思和改革。解决这些挑战以恢复评审的公平与有效性,成为论文接下来讨论的重点。

提出的解决方案

针对上述问题,作者在文中提出了多方面的改革思路和潜在解决方案,评估了每项措施的优缺点 :

提高评审过程的开放性和透明度

为增强同行评审的公信力,作者主张增加评审过程的透明度。具体而言:

  • 其一是公开评审记录(transparent review),即在论文发表时公布评审过程中的所有材料,如编辑决定信、审稿人评语和作者回复等。一些期刊已开始尝试此举:例如 Meta-Psychology 从投稿起即公开整个评审流程,Collabra: Psychology 则在论文接收后公开评审记录。公开评审可以让读者了解论文修改完善的过程,并使审稿意见成为可引用的出版物,从而赋予审稿人学术贡献的认可
  • 其二是推行署名评审(signed review),即向作者公开审稿人身份。署名可以是期刊强制要求(如 F1000Research 所实行的)或审稿人自愿签名。作者认为,实名制评审可能促使审稿人更加负责地撰写评语、避免不当言论,并有助于发现潜在的利益冲突。当署名评审与评审记录公开结合时,学界还能利用公开数据开展元研究,深入分析评审网络和动态(例如早期学者是否更倾向写挑剔或正面的评语,不同地域或资历的审稿负担如何分布等)。然而,作者也指出署名评审的利弊:公开身份可能令审稿人对知名作者不敢提出尖锐批评,或使其因担心报复而拒绝评审请求,从而降低评审意见的坦率度。尤其是资历较浅或处于弱势地位的审稿人,实名后更可能因顾虑未来的人际影响而不愿直言批评权威。强制署名还可能导致审稿人只愿署名正面评价,以讨好作者。因此,作者对开放评审持审慎乐观态度,认为透明度提升需要权衡审稿诚实性与问责制

增强评审的可靠性与严谨性

为改善评审的一致性和有效性,作者提出了多项措施:

  • 例如,审稿人培训被认为是提高评审质量的途径之一。目前正式的审稿培训资源很少,许多新审稿人主要通过导师的非正式指导学习。虽然相当一部分科学家表示愿意接受培训 ,但有限的研究表明培训对评审质量的提升非常有限。作者提到,有实验发现即使向审稿人明确期刊期待,也仅能略微改善评审质量。因此培训并非灵丹妙药,尤其大规模实施存在挑战(除非针对小范围的专业评审人群体进行集中培训)。
  • 另一项措施是增加每稿审稿人数量以平滑个体差异。如果对一篇稿件邀请更多审稿人并综合其意见,或许可以提高整体可靠性。然而这在实践中代价高昂,因为编辑已经很难找到足够审稿人及时完成评审。而且更多人参与可能意见更加不一致,反而难以形成共识。
  • 第三,引入 reproducibility checklist(可重复性检查清单)等标准化工具也被尝试。一些期刊和人工智能顶会要求作者提交实验设计、统计模型评估等清单,以督促研究的可重复性。初步证据表明清单有助于促进代码和数据开放共享,但对提升评审质量的作用尚无定论。部分计算机科学会议(如IEEE Supercomputing)甚至组织志愿者对论文进行可重复性验证并给予徽章奖励,但这种做法在其他领域未必奏效。医学领域的随机实验就发现,提醒审稿人使用报告指南和清单并未明显提高评审质量。总体而言,提高评审可靠性的举措需要更多实证检验,但作者肯定了审稿人培训、扩大样本和使用检查清单等作为可探索的手段。

利用预印本平台与公众评审

为解决评审缓慢和发表滞后的问题,作者探讨了预印本(peer review)模式的优势。预印本服务器让作者可在正式出版前立即公开研究,物理科学领域的 arXiv 已收录了200多万份论文,社科经济学的SSRN、EconStor等也非常活跃。在生命科学中,COVID-19疫情推动了medRxiv和bioRxiv的发展。预印本的最大优点是快速传播成果,学者无需等待漫长的期刊评审即可获取信息。例如经济学界早已习惯引用尚未正式发表的工作论文,以绕过期刊长周期。预印本还有助于减少发表偏倚(publication bias),因为研究不再因结果不显著或不受欢迎而被埋没,至少都能公开。

然而,作者指出这些好处并非自动实现:许多预印本并未真的收到反馈或广泛关注。因此挑战在于如何引导足够多的合格评审者来审阅预印本并提出有意义的改进建议。作者提出,可以考虑利用AI技术帮助扩大量级:例如开发自动化工具对预印本进行代码检查、统计检验或语法校对,从而辅佐人类专家完成繁重的筛查任务。但他们也警告,AI审稿的准确性和实用性需要慎重验证,离不开人类专家的指导。预印本的兴起也引发一些担忧:由于预印本上线时未经过正式同行评审,它可能缺少必要的质量把关。在极端情况下,错误百出的研究甚至恶意假消息都可能通过预印本传播,对公众产生误导,尤其是在公共健康等敏感领域。有人因此主张预印本平台应加强内容审核,但这又违背了预印本追求快速共享的初衷,也需要投入大量资源。作者认为,目前关于预印本利弊的评判可能都有夸大之处:实证研究显示论文在预印本阶段与正式出版后的内容差异通常很小。这暗示同行评审对论文终稿质量的影响或许有限。为结合预印本优势与评审质量,文章介绍了 Peer Community In (PCI) 等创新举措。PCI由研究共同体在期刊体系外组织对预印本进行评审和推荐,已有130多个期刊认可PCI评审并接受经其推荐的论文且通常无需进一步评审。这种模式体现了由学术共同体自主主导评审的理念,避免了稿件在不同期刊间辗转耗时,有望节省时间并提高效率。

改善审稿人激励与认可

鉴于当前审稿人供给短缺、动力不足,作者建议调整激励机制以吸引更多高质量审稿。

  • 首先,物质奖励是一个选项。有观点认为,大型商业出版商获得了可观利润,却依赖学者免费劳作完成审稿,理应拿出部分收益来支付审稿酬劳。然而,许多学术期刊特别是非盈利或资源有限的期刊并无预算给审稿人支付可观报酬,即便有也是象征性的,难以真正改变审稿人行为。因此,仅靠付费并非普适方案。
  • 其次,更现实且有效的是声誉激励和审稿成果的可视化。越来越多期刊开始公开发表审稿意见,让审稿人的付出转化为可以引用的学术产出。例如 eLifeBMJ 等期刊以及NeurIPS、ICLR等会议都实施了评审意见公开制度。公开评审不仅使读者获益,也令审稿人得到应有的学术认可。此外,像Publons这样的平台可以记录个人审稿历史并生成可供雇主参考的审稿业绩,审稿人因此能将审稿工作计入学术贡献。一些服务(如Reviewer Credits)甚至提供具体回报,如统计咨询或语言润色券,以奖励活跃审稿人。通过这些措施,审稿行为的学术价值被正式承认,从而提高学者参与审稿的意愿。作者指出,公开评审意见还有附带好处:有助于各方比较不同期刊的审稿质量,找出更具建设性的评审实践。当然,公开且非匿名的评审可能让审稿人倾向于更温和,减少尖锐批评,但目前尚无充分实证证据证明这一点。总体来说,建立审稿工作的激励和认可体系被视为缓解审稿人短缺、提升评审质量的重要一步。

拓宽审稿人队伍与招募方式

为解决审稿人资源不足,作者建议从源头扩大和多样化审稿人库。他们指出,目前全球审稿负担分布不均,一些国家(尤其是许多中低收入国家)提交的稿件占比远高于其承担的审稿份额。这暗示着尚有大量合格但未被充分动员的潜在审稿人。需要改进的是如何发现这些候选人并激励他们参与评审。传统的审稿邀请主要通过编辑直接Email联系,但现在出现了更开放的招募模式。例如,“众包”式平台PREreview招募志愿者审阅公开的预印本稿件,将评审需求和潜在评审人进行匹配。再如,前述 Meta-Psychology 期刊在某论文进入评审时,会公开公告并邀请任何有兴趣的研究者对相应预印本发表评论。这些举措目前规模不大,但大多是近十年才兴起的新事物,未来有望继续成长。作者坦承,这类改革能否长期成功尚待观察,但认为其代表了改善系统的重要尝试。除了人力外,还可以借助技术手段辅助挑选审稿人。现在若干稿件管理系统提供自动推荐审稿人功能,运用机器学习等算法从数据库中筛选合适专家。这有望拓展编辑人脉之外的审稿候选者,减少多次邀请的情况。尽管一些模型据称优于传统人工选择 ,但作者提醒算法推荐的有效性和相关性仍需验证。

最后,作者提出一个创新思路:细化审稿分工。随着学科高度专业化,要求每位审稿人评估论文所有方面变得不切实际且负担沉重。不妨让审稿人各尽其长,只针对稿件中与其专长相关的部分进行评价。这在某些有明确报告规范或检查清单的领域尤其适用,可让不同领域的专家分别审核论文不同维度的合规性。通过“多人配合、各评其职”,既可提高审稿响应率,也能提升评审意见的专业深度。

改革编辑决策流程

作者认为,除审稿人外,编辑在评审系统中也扮演关键角色,其决策方式同样需要改进和透明化。他们讨论了编辑过程透明度的问题:例如,编辑在决定取舍时应仅考虑论文的技术可靠性,还是也考虑其重要性和期刊定位?目前大多数期刊的编辑决定过程对外界是黑箱,只有少数采用公开措施(如 Frontiers 期刊提供在线门户,让作者和审稿人在评审过程中直接交流;许多机器学习会议使用OpenReview平台,公开展示投稿的评审意见和最终决定)。即便如此,一般期刊很少公开编辑部的内部通信,大多数稿件被拒绝(特别是“desk reject”)的理由对外人仍不透明。

作者呼吁标准化和公开编辑决策,例如对desk reject制定更明确一致的规则,以保证公平。更深入的改革涉及编辑处理审稿意见的方式。许多编辑目前只是将所有审稿意见原封不动地转给作者,让作者自行面对其中可能的矛盾和繁琐细节。这种做法常导致漫长反复的修改过程,甚至在多轮后以拒稿告终。为此,作者提出一种“层次化的逻辑评审”框架:编辑应对审稿意见进行结构化梳理,区分高、中、低三个层次的重要性:

  • 最高层次关注根本性问题(如研究设计逻辑是否合理),如果此类问题有硬伤应直接作为拒稿理由 ;
  • 中等层次如样本量不足等属于重大但可修改的问题,应在大修中重点解决;
  • 最末层次则是细节完善(如补充讨论相关文献),对结论影响不大,可在修改时酌情处理。

这样的问题优先级有助于避免本末倒置:如果高层次致命问题无法解决,那讨论低层次问题就没有意义。然而现实中,不少审稿人沉迷于挑小问题,反而忽视了研究设计等根本性缺陷。编辑若不加引导地将所有意见交给作者,只会令作者疲于应对细枝末节却忽略关键问题,从而徒增往返修改轮次。作者认为,为编辑提供培训并建立这样的逻辑评审框架可以提高决策客观性。具体地,要求编辑在给作者的决定信中按照严重程度列出主要问题及其优先级。如此一来,多名审稿人意见矛盾时也有章可循:如果某审稿人提及高优先级问题,即使只有他提出,该问题也必须解决;而低优先级的分歧则可由编辑裁定处理或留给作者自行决定。该机制带来多重益处:

    1. 调和审稿意见冲突:高层级的重要问题即使仅一名审稿人指出也不能忽视,而次要问题若意见不一致可由编辑给出处理建议;
    1. 加快评审进程:如果首轮审稿就指出论文存在无法轻易补救的根本缺陷,编辑可据此尽早拒稿,而不必为了等待后续修改浪费时间;
    1. 明确修改方向:当编辑在决定信中已按重要性列出需解决的问题,作者能更清楚地判断修改成功的概率。如果最高层次的问题在修稿后仍未解决,编辑可直言将以此作为拒稿依据,这为作者提供了清晰预期;
    1. 提高决定一致性:这种抽象但统一的评审框架为不同稿件的编辑决策提供了参照,减少不同编辑风格造成的随意性。

当然,作者也坦承该方法有潜在缺点:(i) 编辑需要有足够能力按逻辑层次评估审稿意见,现实中并非每位编辑都具备这套技能;(ii) 这无疑增加了编辑工作量,或许需要通过增加副编辑、合理分工乃至争取出版社提供酬劳来解决(目前许多出版商利润丰厚,理应在改善编辑队伍待遇上投入,以吸引更多优秀编辑参与) ;(iii) 并非所有决定因素都能纳入逻辑层级评估,比如论文的影响力和创新性在不同期刊定位下权重不同,仍需编辑的主观判断。对此作者强调,引入框架并非要束缚编辑自主性,而是提供一个半结构化的参考,以在保证灵活性的同时增加透明度和一致性。

加强同行评审改革的实证研究

作者最后指出,要真正评估和优化上述各种干预措施,需要更多严谨的实证研究和试验。他们提出应像研究科学问题一样来研究同行评审本身:通过比较不同期刊政策的非实验研究、政策更改前后的准实验设计,乃至随机对照试验来测试各种评审手段的效果。其中,随机试验最具说服力但也最具挑战,可能需要期刊同意将稿件随机分配到不同评审流程,或者多个期刊集体参与将整个期刊随机采用不同评审政策。虽然随机化可减少混杂偏差,但执行困难:获取作者和审稿人同意、保证样本具有代表性、以及“参与试验”本身对行为的影响等都是难题。一些科学界对这种审计式试验也持抵触态度。此外,即便某项干预在少数期刊试验中有效,也可能对整个出版生态产生意料之外的间接影响。举例而言,如果某期刊要求数据开放而实施干预试验,可能吸引愿意开放数据的作者投稿,从而提升该刊数据共享率,却未改善整体共享水平,因为其他期刊投稿反而减少了数据开放的论文。

尽管有这些限制,截至目前学界已经进行了相当数量的评审试验:

  • 近期一项系统综述和网络荟萃分析汇总了24项关于同行评审的随机试验。结果显示:针对审稿人的干预(如培训、指导等)总体上略微提升了评审质量,同时(除“双盲”措施外)也延长了评审所需时间,但这些效应幅度不大且可能仅适用于特定环境。面向作者和编辑的干预在统计上效果不显著,或许因为此类试验较少,数据不足。
  • 另一项针对22个试验的综述发现,引入统计审稿人是提高稿件质量(如报告清晰度)的最有效措施;一些干预还影响了拒稿率,例如开放评审显著降低了论文被拒的比例。
  • 第三份综述则表明双盲评审在一定程度上减轻了性别偏见。

综上,现有证据为评审改革提供了一定指引,但远远不够。作者呼吁开展更多大规模、多样化的随机试验,以检验更多类型的改革举措。一个可喜的趋势是,已有期刊联盟和团体表示愿意参与此类“元期刊学”(journalology)研究,包括共同进行多期刊的对照试验。多中心试验能提高结果的普适性,降低单一环境偏差的影响,即使某些改革最后证明“无效”也能给学界提供宝贵指导。通过科学研究科学自身的评审过程,学界将更有依据地决定哪些改革值得推广。

作者观点与争议

在提出以上方案的同时,作者保持了审慎和平衡的立场,对同行评审的价值与前景展现出深入思考。总体来看,作者承认当前系统缺陷严重,但并未否定同行评审在科学共同体中的重要作用。他们的核心观点是:同行评审需要被重新审视和改进,而非简单废弃。这一立场贯穿全文,从问题分析到方案讨论都体现出既敢于质疑现状、又致力于寻找建设性出路的态度。值得注意的是,作者团队内部对某些激进观点也存在分歧,他们在文中坦陈对于是否应彻底废除同行评审,作者群体内部看法不一。这种坦率表明本文并非一家之言,而是融合了多位学者的不同视角,旨在引发更广泛的讨论。

作者详细探讨了围绕同行评审的一些争议观点,既包括支持现有体系的论点,也涵盖了挑战甚至颠覆该体系的声音。在讨论“是否应坚持同行评审”时,他们提出了两个值得深思的反对意见 :

  • 其一是“历史视角的论证”(argument from history)。历史上许多重大科学突破(如1953年沃森和克里克提出DNA双螺旋结构,1905年爱因斯坦的狭义相对论等)发表时并没有经过现代意义上的同行评审。一直到20世纪70年代,科学出版才全面引入严格外部审稿制度。由此有人认为,假如当年已有当前的评审机制,一些划时代的创见可能会被“专家共识”所扼杀。作者以伽利略为例:他在17世纪提出日心说等颠覆性观点,当时既不符合权威见解也缺乏严谨数据,如果有同行评审可能根本无法发表。这种基于同行评审可能抑制创新、造成学术一元化的批评认为,评审倾向于维护既有“正统”而拒绝非共识思想,但许多科学范式的转变恰恰是挑战共识才取得的。文中列举了麦克林托克(植物遗传学突破)、Karikó(mRNA疫苗先驱)、克雷布斯(生化循环发现)等科学史上不被当时共识认可但最终成就卓著的案例。
  • 第二个反对同行评审的观点是“多元论视角”(argument from pluralism)。科学多元论认为科研应当鼓励多种模型和方法并存,哪怕它们彼此矛盾,也可能共同推动进步 。文章用全球定位系统(GPS)的复杂原理作比:GPS同时借助了牛顿力学、量子机械(原子钟)、狭义和广义相对论,以及在地面呈现时近似“平地”的地图投影——这些理论框架从某种纯粹逻辑看相互矛盾,但组合起来却行之有效。这说明看似错误或不兼容的模型也可能有助于逼近真理,科学常常通过失败和谬误来进步。如果评审人过于严格地以统一标准筛选,反而可能阻碍方法论多样性,错失“错中求对”的契机。

面对上述对同行评审的质疑,作者同样呈现了支持保留评审制度的考虑。一大关切是科学的公共可信度和影响。反对废除评审的人担心,如果任何人都可以不经把关发表研究,将有大量误导性或伪劣研究充斥文献,损害科学声誉。毕竟,科学依赖公众和决策者的信任,完全放弃评审可能导致“出版无政府状态”。但作者反驳道,即使有当前的同行评审,也难以杜绝问题研究发表——荒谬或造假的论文依然通过评审见刊的例子并不少见。另一方面,许多科研人员实际上已经在通过预印本获取未经正式评审的最新成果以跟进行业发展,而普通公众往往因为看到“同行评审”标签就对发表论文深信不疑,这反而可能带来虚假的安全感。因此,仅以“避免假论文发表”来捍卫评审制度,其有效性值得商榷。

另一常见担忧是没有评审把关会降低研究质量门槛。对此作者指出,如果没有为迎合高影响力期刊而竞争,研究者反而可能更少动机去从事那些“低风险、高炒作”的投机性研究甚至弄虚作假,因为炫目的发表记录将不再是科研评价的唯一标准。同时,取消评审或许有助于打破地理不平等:目前西方发达地区主导的高门槛评审,使很多低和中等收入国家学者被边缘化于“全球科学”之外。由于发表慢、认可难,这些地区的科学家往往不愿过早公开研究数据,造成恶性循环。如果没有繁琐的评审障碍,研究人员就能更自由地交流想法,反而可能促进全球科研的融合。作者甚至大胆地提出,也许没有同行评审的“无滤镜”科研生态,其潜在危害未必比目前这种高度筛选的单一文化更严重。当然,他们承认这一主张对许多学者而言过于激进。在本文作者群体内部,对这一点也存在尖锐分歧,但正是这种分歧可能催生出不同的方法和理念,从而探索出可行的替代方案。作者并非真的要全盘否定同行评审,而是认为连“废除评审”这样的极端可能性都值得认真考虑,只有这样才能重新想象出理想状态下的评审应是何种模样。这一开放式的探讨有助于打破思维定式,为评审制度的改革注入思想活力。

在文章的结论部分,作者回到建设性的立场,强调无论何种观点交锋,最终目的都是为了让同行评审更好地服务科学。他们指出,同行评审的价值在于提高研究及其表述的质量,如果它未能做到这点,就需要我们正视并解决本文讨论的种种挑战。引人深思的是,作者提出我们必须追问一个更根本的问题:“同行评审究竟是为了什么,服务于谁?”。这表明在技术性改良之外,还有哲学层面的反思。科研界需要明确对同行评审的定位与期望,并让这些愿景指导改革实践。因此,作者一方面呼吁通过实验和数据收集推动证据驱动的改进,另一方面强调改革必须有清晰的目标和理念支撑,将经验研究和概念分析相结合。总之,作者的立场并非简单维护或否定某一现状,而是倡导以开放理性的态度正视争议,在实践和理念两方面同步努力,逐步完善同行评审,使之与现代社会中科学所承载的高标准相契合。这种辩证而前瞻的观点,为读者理解同行评审的复杂性以及可能的演进方向提供了全面视角。

号外

  • Nature系列期刊有许多公开了peer review file,其中可以看到审稿人与作者argue的过程,许多评审非常有意思。有时能看到审稿人对论文的高度评价,也能见到2负1正的文章被编辑支持发表。

  • 蛮有意思的一张图:

原文信息

Aczel, Balazs, Ann-Sophie Barwich, Amanda B. Diekman, Ayelet Fishbach, Robert L. Goldstone, Pablo Gomez, Odd Erik Gundersen et al. "The present and future of peer review: Ideas, interventions, and evidence." Proceedings of the National Academy of Sciences 122, no. 5 (2025): e2401232121. https://doi.org/10.1073/pnas.2401232121


PNAS-同行评议的现状与未来
https://yuzhang.net/2025/03/10/20250310-PNAS-peer review/
作者
Yu Zhang
发布于
2025年3月10日
许可协议