JPubE-中国地方政府的GDP达标造假

本文研究了中国地方政府的GDP操控现象,采用比率形式方法与扎堆估计(Bunching Estimation)量化了目标导向的GDP操控程度。分析发现,2000-2018年间中国地级市约9.59%的观测值存在目标导向的GDP操控,这导致年均GDP增速被高估0.24个百分点。2013年后,由于经济绩效评估权重降低及目标设定软化,GDP操控显著减少。研究建议继续推广软性目标设定改革政绩考核制度,以降低GDP数据操控的动机。

标题: Target-based GDP manipulation: Evidence from China

期刊: Journal of Public Economics

作者:

  • Binlei Gong:龚斌磊,浙江大学求是特聘教授、社科院副院长,教育部长江学者特聘教授,国家社科重大项目与教育部重大专项首席专家。 从事发展经济学、农业经济学和公共管理学研究,聚焦宏观经济、三农问题与资源环境领域的发展与政策议题,重点关注“技术—制度—环境”对工农城乡协调发展的影响。
  • Yuhui Shen:沈宇辉,浙江大学公共管理学院硕士研究生。
  • Shuai Chen:陈帅,北京大学博士,浙江大学长聘教授、博士生导师,教育部青年长江学者,国家社科重大项目首席专家。任教于浙江大学中国农村发展研究院(卡特)、浙江大学公共管理学院农经系,担任浙江大学农业与农村发展研究所副所长、农经系副系主任。讲授中级计量经济学、资源与环境经济学和农业经济学研究方法导论等课程。研究领域是农业经济学、资源与环境经济学和发展经济学,聚焦气候变化与中国农业、空气污染的社会经济影响等议题。

上线时间: 6 March 2025


长摘要

这篇论文关注中国地方政府为实现预定GDP增长目标而对统计数据进行操纵的现象,并将其称为“目标驱动的GDP操纵”。作者以委托代理理论为基础,指出在政府层级体系中,上级(委托人)难以及时准确监督下级(代理人)的行为,导致信息不对称背景下产生隐藏行为,例如数据造假。GDP作为最重要的宏观经济指标之一,一旦被操纵,不仅会误导当前经济形势的判断,还可能影响未来的政策决策,导致资源错配和错误的政策建议。因此,研究GDP数据操纵的动机和程度具有重大意义。

论文的研究动机源于国内外多起数据造假事件。国际上,政府为实现特定目标而篡改统计数据的情况并不鲜见。例如,为满足欧盟入盟或财政标准,土耳其和希腊曾在21世纪初报告异常偏高的GDP增长率。这些案例引发了对政府数据可信度的质疑。在中国,自2010年以来,随着中国经济总量跃居世界第二,国内外对中国官方统计数据的准确性日益关注。有研究指出,中国地方政府之间在经济发展上的竞争往往造成自上而下的目标“逐级加码”——上级政府设定了较高增长目标,下级政府为了不落后又进一步提高目标。这种竞争氛围可能诱使地方官员夸大经济增速以达标。尽管中国中央政府多次表态反对数据造假,但统计失真仍屡有发生。近年就有至少三个省份承认夸大了GDP数据。研究者比较各地区实际GDP增速与目标值时,发现许多地区的增速恰好“卡”在目标线上,由此推测存在人为调整的嫌疑。

鉴于上述背景,本文聚焦“目标驱动”的GDP数据操纵行为,试图检测并量化这种现象在中国的严重程度。作者采用创新性的“比率形式”方法结合扎堆估计法(Bunching Estimation),利用中国地级市层面的GDP统计数据,识别出地方政府将公布的GDP增速调整至预定目标值附近的行为,并估计其总体比例和逐年累积影响。论文的重要发现包括:中国地级市层面确实存在显著的GDP增速造假以达到目标的情况,但这种行为在近年有所减弱。此外,作者发现中央政府在2013年前后实施的政策(如降低GDP在官员考核中的权重、鼓励设定弹性增长目标等)有效遏制了此类操纵的发生。这些结论为理解政府绩效考核机制如何影响数据质量提供了新的证据,并对制定防范统计造假的政策具有直接启示。

背景

GDP操纵的理论基础与国际背景

从理论上看,政府间的统计数据上报关系可以视作一种委托-代理问题。上级政府(委托人)依赖下级政府(代理人)上报的经济数据来评估政绩,但由于监督成本和技术手段限制,上级无法完全核实数据真伪。代理人在这种信息不对称下可能采取隐藏行动,例如篡改数据,以塑造更好的业绩形象(Shaban and Radwan, 1987)。已有大量文献记录了各类数据操纵的例子,如西班牙的人口统计造假、印度的空气污染数据篡改、中国瞒报安全事故、纽约州考试成绩灌水等。这些造假行为往往出于政治或利益动机,不仅扭曲了当期表现评价,也会对后续决策造成误导。其中,GDP数据造假由于牵涉宏观经济决策,危害尤为严重。被夸大的GDP增速可能引发投资和消费的错误预期,逐年累积形成虚假繁荣假象。一旦决策建立在失真的GDP指标上,资源配置和政策方向都可能出现偏差,最终损害经济的真实健康发展。

在政府有明确经济增长目标的情形下,数据造假的动力会进一步增强,这被称为目标驱动的数据操纵。历史上看,为了达到预定经济指标而调整统计的情况在一些国家出现过。比如土耳其和希腊曾为满足欧盟要求,在2000年代初报告了异常偏高的GDP增长。又如阿根廷在2007-2015年期间人为压低通胀统计以满足经济目标。此类事件引起了政策界和公众的警觉。相较而言,中国的GDP数据长期以来也饱受质疑。早在1970年代,Rawski等学者就对中国官方公布的高增长持怀疑态度,之后Holz (2004) 等人继续指出中国GDP统计可能存在系统误差。近年来,Koch-Weser (2013)、Nakamura et al. (2016) 等研究进一步引发关于中国GDP“水分”的讨论。这些质疑推动了替代指标的应用,其中最著名的是时任辽宁省委书记提出的“克强指数”:用电力消耗、铁路货运量和银行贷款等指标来衡量经济冷暖,以此印证官方GDP的可信度。他本人在2007年就坦言过GDP数据有偏差,更信任实物量指标。可见,GDP统计水分问题在中国高层也有所认识。

委托-代理理论还指出,通过改进激励约束可以缓解数据造假行为(Laffont and Tirole, 1993)。在某些领域(如环境监测),技术手段的进步降低了监督成本,例如实时监测空气质量可以防止地方篡改污染数据。但GDP这类综合经济指标由于涉及面广、频度低(按季度或年度)且难以直接观测,其监督更为困难。即使借助卫星夜间灯光等替代数据来推断经济增长(Henderson et al., 2012),也无法精确揭示短期增长与目标的细微差距。因此,当缺乏有效外部监督时,如果上级对下级设定了具体GDP增长目标,而下级实际增速未达目标,地方政府就可能铤而走险进行“数字造假”,尤其是在差距很小、稍作调整不易被察觉时。正如Ghanem and Zhang (2014)等研究指出的,如果考核压力大且监管不严,地方官员会有动机通过修改报告数据来达到绩效指标。

中国GDP统计的制度背景与操纵现象

中国独特的统计管理体制为GDP数据的失真提供了土壤:

  • 一方面,中国统计系统实行分级核算,各级政府的统计局既要服务本级政府,又要向上级统计部门报送数据。具体来说,每个地方统计局往往有“两套人马”:一套为地方政府编制本地统计数据,另一套则直接向国家统计局报告。由于统计口径和核算方法存在差异,各级统计数据经常出现不一致。例如,原则上各省GDP之和应等于全国GDP,但长期以来中国“底层加总”的GDP往往大于中央公布的全国GDP。这种差额被广泛视为地方夸报的证据。数据显示,2016年各省上报的GDP总和比全国GDP高出36000亿元,相当于全国GDP的5%。理应各级一致的指标却存在如此悬殊差距,显然难以用正常误差解释。又如地级市之和本应等于所在省份,但很多地市报的增速普遍高于省级,累积造成省级和国家统计的落差。据统计,2000-2018年间,中国地级市加权平均增速比全国增速平均高出2.74个百分点,差距有统计显著性。这些现象表明,下级政府在上报数据时存在系统性上调的倾向。
  • 地方政府之所以热衷于夸大GDP数据,很大程度上是出于政治激励。在中国官员考核体系中,GDP增长曾长期是最重要的政绩指标。正如Li and Zhou (2005)所发现的,经济表现与官员晋升前景密切相关。因此,各省市领导每年都会在政府工作报告中宣布本地区上一年的GDP增速和下一年的增长目标。为了争取在政绩排名中不落后,下级通常设定比上级更高的目标增速,这被形象地称为层层“加码”。例如,如果中央定全国增长目标为6%,省里可能定7%,地市则可能提出8%。目标定得高,本身就增加了完不成的风险。一旦实际增速低于目标,官员会担心未达标会影响仕途、引来上级问责,甚至损害当地政府公信力。特别是当实际增速离目标只差临门一脚时,地方更有动力通过调整统计口径或直接篡改数据,把增速“抬一抬”至目标值,以对外宣称“完成任务”。相反,如果差距很大(如目标8%,实际只有6%),造假所需幅度过高且难以自圆其说,地方可能就放弃粉饰。因此,操纵多发生在“差一点达标”的情形。

中国地方GDP造假的常见手法有多种:其一是直接夸大增速(整体造假),其二是“凑整数”式造假(将增速的小数部分凑成0或0.5),其三即本研究关注的针对目标的造假(在接近目标线时上调至目标)。举例来说,若某市实际增速6.7%,目标6.8%,为了不“掉链子”,官方可能上报6.8%;而如果实际6.2%,目标6.8%,差距较大,造假意义不大且风险高,则通常不会调整。又如一些地区喜欢将GDP增速四舍五入到整数或0.5,6.9报成7.0%、6.4报成6.5%,造成公布数据的小数多为0或5的现象。这种“四舍五入”操纵也会导致统计分布的异常。在没有造假的情况下,各地区增速的十分位小数(即X.X%中的X)应当均匀分布0-9;但有研究发现,中国公布的地区增速在0和5处频次显著偏高,在其他数字处偏低,显示存在人为“凑整”。

值得注意的是,中国政府对GDP造假问题并非置若罔闻。特别是2013年前后,中央出台了重要政策文件来遏制数据造假之风:

  • 首先,中共十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》(2013年)提出,要改变唯GDP论英雄的考核体系,强化资源环境民生等指标的权重。这实际上降低了GDP增速在官员考核中的绝对支配地位。
  • 其次,中共中央组织部于2013年底下发《关于改进地方党政领导班子和领导干部政绩考核的通知》,明确提出不再以GDP增长率作为唯一考核标准,并禁止单纯以GDP排名。这一系列举措旨在给地方官员减压,避免为了GDP数字不择手段。

政策实施后,一些变化逐渐显现:许多地方开始在政府工作报告中采用弹性措辞设定GDP目标,比如使用“左右”“左右上下”或区间目标,而非过去那种明确的下限“确保增长X%以上”。据统计,2013年后采用软性目标(弹性表述)的城市比例明显上升,到2018年前后约有一半的地级市使用了模糊或区间目标。软目标给予了实际增速一定回旋空间,被认为有助于减少造假动机。与之相对,使用硬性目标(如“确保增长X以上”)的城市,往往目标压力更大,造假可能性更高。正因为中央高度重视并采取了措施,作者推测中国的GDP数据造假行为在2013年后会有所缓和。验证这一点并量化政策效果,也是论文的研究内容之一。

综上所述,中国的GDP数据操纵现象是制度激励、政治压力与统计技术共同作用的产物。地方官员在“上有考核指标、下有实际困难”的情况下,倾向于通过调整数字来粉饰成绩。这种行为会导致各级GDP统计的层层虚高,从国家到省到市“级级加码”,背离真实经济。同时,中央在不同时期也意识到问题的严重性,尝试改革考核机制来缓解。论文在这样的背景下,聚焦“目标驱动的GDP操纵”这一具体类型,通过创新的方法检验其存在性和变化趋势,并探讨政策因素的影响。

【图2】展示了作者通过对地级市GDP增速数据的分布分析所得到的初步证据。其中,Panel (A) 为各地 实际GDP增速 (RGDP)目标增速 (EGDP) 之差的分布直方图。在没有人为操纵的情况下,此差值应当平滑分布;但图中在0附近出现了显著的跳跃: 差值=0 (恰好达到目标)处的频数异常偏高,而略低于0的一侧频数明显偏低。这表明许多城市将原本略低于目标的增长率调整到了恰好达标。Panel (B) 则统计了各地GDP增速公布值的小数点后十分位(即增速尾数)的频率分布。正常情况下,小数点后0~9应大致均衡出现。然而图中可以看到,在 .0.5 处频率显著偏高,而例如0.1-0.4、0.6-0.9处频率相对偏低。尤其.0和0.5出现尖峰,说明存在不少地方将增速“凑整”到整数或半整数。这两个现象佐证:中国地方GDP数据中存在围绕预定目标的小幅上调以及将增长率尾数凑成整半数的操纵行为。相比之下,本文聚焦前一种“针对目标达成的操纵”,因为其动机更强、对政策的可干预性也更高。

方法与数据

研究方法

为了严谨地识别和量化目标驱动的GDP操纵,作者运用了McCrary检验扎堆估计法(Bunching Estimation)等计量方法,并提出了一种关键的改进策略——采用比率形式(ratio form)的指标来避免其它类型操纵的干扰。

(1)McCrary检验:McCrary (2008)方法常用于回归不连续设计(RDD)中检验运行变量是否在断点处有分布不连续,从而判断是否存在人为操纵。简单来说,它通过对断点左右的数据密度进行局部光滑估计,看密度曲线在断点处是否出现跳跃。如果有显著跃升或下降,意味着断点附近的数据频数被人为篡改。在本研究中,断点即为“实际增速 = 目标增速”这一位置。如果地方没有造假,那么各城市实际GDP增速相对于目标的分布应是连续的,不应有特别多的城市恰好达到或刚好未达到目标。任何过度集中的现象都可能意味着造假存在。作者首先对增速差(RGDP–EGDP)应用McCrary检验,结果发现除了在0处有显著不连续外,每隔0.5%、1%处也出现了异常。这些额外的不连续点对应的是将增速凑整到0.5或1.0的现象。因此,如果直接用增速之差作为分析指标,目标造假凑整造假的效果会混杂在一起。

为了解决这个问题,作者提出改用比率形式指标,即令 \(\text{Ratio} = \frac{\text{RGDP}}{\text{EGDP}}\) 。当Ratio=1表示实际增速恰好等于目标,>1表示超额完成,<1表示未达目标。采用比率有两个好处:一是由于各地目标值不同,RGDP/EGDP得到的是一个连续值,而不像增速差那样只能取离散的0、±0.1、±0.5等固定刻度。举例来说,甲市目标10%、实际7.9%、上报8.0%,乙市目标11%、实际8.9%、上报9.0%。用差值表示,两市都是“-2”个百分点(8.0-10和9.0-11),因均凑整上调了0.1%;但用比率表示,甲为0.80,乙为0.818,差异就体现出来了。由此,差值法得到很多重复的离散点,而比率法将这些点拉开成连续分布。二是比率法消除了凑整造成的系统偏差。由于大多数目标值EGDP本身是整数或0.5(据统计95.8%的目标如此),采用差值时,每0.5都会出现一系列可能的造假点(如-0.5, 0, +0.5等);而采用比率,由于不同目标产生的比值不同,凑整操纵所引起的不连续被平滑掉。作者通过比较McCrary检验的结果发现:使用差值形式时,0、±0.5、±1处均有显著跳跃;而使用比率形式,仅在1处(Ratio=1)出现显著不连续,其他位置不再显著。这表明比率指标成功过滤了凑整操纵,只保留了与恰好达标相关的异常。因此,作者选择Ratio=RGDP/EGDP作为后续分析的运行变量,以更准确地检测目标驱动的操纵

(2)扎堆估计法(Bunching Estimation):在确认Ratio=1处存在显著“堆积”后,下一步需要量化这种堆积所代表的造假规模。扎堆估计是一种由Kleven (2016)等人发展的方法,最初用于评估税收制度中纳税人行为对某些临界点(如税率跳跃点)产生的“拥挤”效应,也被用来检测数据在特定阈值附近的异常聚集。其思路是:首先根据阈值远离区域的数据分布,推断出如果没有操纵时阈值附近数据的“反事实分布”。然后将实际分布与反事实分布比较,计算阈值附近“多出的部分”和“缺失的部分”,从而估计有多少观测被人为移到了阈值另一侧。具体来说,作者将Ratio按0.01为宽度分箱(bin),计算各区间的频数,得到经验频率分布\(G(x)\)。在剔除断点附近一段受操纵影响的区间(称为“操纵窗口”)的数据后,用多项式函数对其余频率分布进行拟合,得到平滑的基准分布\(\hat{F}(x)\)。这个\(\hat{F}(x)\)可以近似视为没有造假时的频数分布。在断点\(x=1\)附近,如果存在操纵,我们预期会看到:在\(x<1\)一侧(略低于目标),实际频数\(G(x)\)低于拟合频数\(\hat{F}(x)\),形成“缺口”;而在\(x\ge1\)一侧(达到或超过目标),\(G(x)\)高于\(\hat{F}(x)\),形成“堆积”。扎堆估计要求在选择操纵窗口时,使得“缺失质量”(低于基准分布的部分)和“堆积质量”(高于基准的部分)相等。换言之,被挪动的观测在数量上守恒。由于本研究情境下,造假是将实际偏低的增长率提高至目标,因此观测是从阈值左侧移到右侧。作者借鉴Kleven and Waseem (2013)的数据驱动方法,固定操纵窗口的上界为阈值1,不断调整下界的位置,直到阈值左侧缺失的频数总量等于阈值右侧多出的频数总量。这一窗口确定过程通过迭代算法完成。

确定操纵窗口后,就可以计算操纵比例。作者定义了两个指标:

  • 总体操纵占比 (M):指在所有观测中,有多少比例的观测值因为造假而改变了。本质上是阈值处额外“堆积”的观测数量占总样本的比例。用反事实频率\(\hat{F}(x)\)和实际频率\(G(x)\)之差在操纵窗口内的积分来度量。

  • 窗口内操纵概率 (Inrange-M):指对于那些原本落在目标附近区间内的观测,有多大概率被上调。可近似理解为如果某城市实际增速略低于目标(落在操纵窗口内),它被篡改的可能性。计算上,一般是将堆积数量除以操纵窗口内反事实下观测的数量。为评估统计不确定性,作者对上述估计进行了区块自举(block bootstrap)200次,并计算了95%置信区间。

然而,进行扎堆估计须满足若干前提假设。作者特别讨论了两个关键假设:

  • 假设 (i) 操纵仅局限在阈值附近:即只有接近目标的那些数据会被调整,大幅偏离目标的数据不会被操纵。这在本研究颇为合理,因为如前所述,实际增速若远低于目标,几乎不可能通过小改动就达标;而远高于目标也没有必要隐瞒太多(除非出于平滑未来增速的考虑,但那种情况较少)。并且,操纵过大的增速在地方也是瞒不住公众的,否则统计公报与民众感受会严重背离,引发信任危机。因此,可以认为造假主要发生在“临界点”附近,即Ratio接近1的区域,这正是操纵窗口所涵盖的范围。

  • 假设 (ii) 操纵方向为单向上调:即地方只会把低于目标的数据往上调,不会把高于目标的数据往下调。一般而言,低报GDP增长对官员没有好处,除非真实增速远超目标时为了来年基数考虑略微压低(这种情况很少见)。在中国强调稳增长的环境下,几乎不存在故意瞒报实际高增长的激励。因此假定造假都是把增速提高而非降低是合理的。作者指出,极端高于目标的情况较少,而且各地GDP规模不同,同样的上调幅度对大城市和小城市的影响占比不同,综合起来不会在比率分布上形成系统偏差。因此,上调造假为主的假设成立。

为验证这些假设,作者还考虑了可能的非造假因素。一种担忧是:地方政府可能通过真实行为而非统计手段来实现目标,比如在年底突击花钱或促销,以拉高当年GDP,使之达到目标。这相当于“作弊式”的真实操作,而非篡改数据本身。这种行为如果存在,扎堆估计可能误将其视为统计造假。为排除这种可能,作者将GDP拆分为消费、投资、政府支出、出口四大项,对比那些“勉强达标”和“勉强未达标”地区的各分项增速是否有系统差异。如果真的存在突击花钱等行为达到目标,那么在逼近目标的地区,我们应看到某些GDP分项有异常增长。然而基于回归不连续分析(RDD)的结果显示,各分项在阈值处并无显著差异。也就是说,那些刚刚完成目标的城市与刚刚未完成的城市,在消费、投资等实际经济活动增速上并没有统计上可区分的不同。这表明所谓“提前透支未来投资”等非造假的手段并不明显或普遍。因此,可以较放心地将阈值处的异常当作统计层面的造假来解释。综上,作者认为使用扎堆估计来量化目标驱动的GDP操纵是有效且可靠的。

(3)计量模型与检验:在完成上述分布识别和量化后,作者还进一步做了一系列异质性分析和稳健性检验。这部分将在结果中详细讨论。这里简要提及他们处理内生性问题的方法。例如,GDP目标的制定本身可能考虑了来年实际增长的预期,如果地方领导对次年增长很有信心,可能设定较高目标,从而也影响造假概率。这种目标设置的内生性会不会影响估计?作者通过考察党政一把手更替年份的数据来检验。在领导换届之年,定目标的人(前任)和报成绩的人(新任)不是同一人,新官可能不会为前任设下的不切实际目标买单,因此若目标设定内生性影响造假,应能在这一子样本中看到不同模式。结果发现,换届子样本的造假程度与整体相比并无显著差异,仅是略有上升但统计不显著。这说明目标值和实际增长之间的内生关系对造假行为的影响有限。

数据来源与处理

作者构建了一个涵盖2000-2018年中国地级行政单位的原创数据集,用于本文的实证分析。主要数据来源与处理方式如下:

(1)GDP增速及目标数据:论文所分析的RGDP(报告GDP增长率)和EGDP(预期/目标GDP增长率)均来自各地级市和省级政府每年发布的《政府工作报告》(GWR)。政府工作报告通常在每年年初的人代会上由行政首长发表,总结上一年经济社会发展情况并提出当年目标。作者通过网络爬虫和手工搜集了2000-2019年各地市以及各省的政府工作报告文本。在报告中,一般会有对上一年度GDP增速的陈述和对下一年度增速目标的表述。因此,作者提取了每篇报告中提到的“上年GDP增长率”(作为该城市该年的实际增速)以及“本年GDP预期增长目标”(作为下一年的目标)。数据涵盖全国333个地级行政单位(包括地级市、自治州、盟等),时间跨度为2000-2018年。不过,由于早期年份有些城市的政府工作报告未在网上公开,以及个别年份报告中缺少明确的目标或结果数值,最终数据为一个不平衡面板,存在一定缺失值。总体而言,数据总量仍然较大,基本覆盖改革开放以来主要年份和地区。

需要说明的是,2019年的数据被剔除,原因是中国在2019年开展了第4次全国经济普查,对此前数年的GDP数据进行了修订。这次普查发现某些地区GDP存在夸大并做了校正。为了避免修订影响,作者将2019年排除出样本,确保2000-2018年的数据是一致口径下各地自行报告的数据。

(2)GDP目标措辞分类:除了提取增速和目标值本身,作者还对政府工作报告中文本进行了内容分析,识别目标表述使用的是硬性措辞还是弹性措辞。具体做法是看目标增速附近是否带有词语,比如“以上”“确保”“力争”等(表示硬性要求),或者“左右”“上下”“约”“在…范围内”等(表示弹性)。若出现前者,则标记该城市该年目标为硬约束(Hard restriction),出现后者则标记为软约束(Soft restriction),两类并不互斥(有些报告可能同时出现“力争…左右”之类兼顾力度和弹性的表述)。统计显示,在2000-2018年所有城市-年的观察中,有约23.9%的情况属于软性目标措辞,22.1%属于硬性措辞。需要注意有的报告既用了硬也用了软词语,因此两者不一定相加为100%。通过这一定性分类,作者能够考察目标设定方式对造假的影响。

(3)地方主官履历数据:考虑到文献中有关官员特征对行为的影响(例如Yao and Zhang, 2015; Wang et al., 2020),作者收集了每个地级市党委书记的人事信息。党委书记通常是一市之“一把手”,其仕途激励可能影响其治下的数据真实性。作者利用新华社等权威媒体公开的简历,整理了2000-2018年间各地级市党委书记的人选及履历,包括其年龄、任职年限、级别(是否副省级)、是否后来升迁等。基于Wang et al. (2020)的方法,作者构建了一个“晋升激励指数”(Promotion Incentive)。具体做法是用书记的起始任职年龄、职级等变量,通过Probit回归估计其未来晋升的概率,将估计的升迁概率作为激励强度的度量。样本覆盖了更广的范围(333个城市、1902人次任期)相较原文只包含200城974人的数据。计算所得的晋升激励指数在0~1之间,各书记平均约0.21,即大致21%的升迁可能性。该指数可用于检验官员个人晋升动机是否驱使其造假。

(4)描述性统计:在正式分析前,作者对拼接而成的数据集进行了描述统计。结果显示:样本期内地级市实际GDP增速平均为11.2%,标准差4.1%,最高曾达到48%(可能是西部某小城市高速增长年份),最低为-24.4%(个别资源型城市出现过经济负增长)。目标增速平均也约11.2%,标准差3.2%,大致与实际增速均值相当,但区间更窄(最低1%,最高50%,有的地区在经济腾飞期定下过50%的超高目标)。从目标措辞看,平均来看有近1/4使用软目标,约1/5使用硬目标。书记特征方面,平均任期3.25年,平均履新年龄51.8岁,其中14.3%的书记具有副省级级别(多为大城市书记或由省级机关空降)。这些数据基本符合预期,也为后续回归提供了控制变量。

对于缺失值的处理,少数城市在早期年份没有数据,作者在做总体统计和扎堆估计时将其排除。在作时间趋势分析时,作者也采用分段样本法来观察不同年份段的情况(这会在结果部分提到)。另外,有些政府工作报告采用多年度GDP指标而非单年增速,如南京市2007年的报告提到“GDP比2002年翻一番”,给的是五年累计增速而非当年增速。对于这种情况,作者将其视为缺失,不纳入基准分析。但作为稳健性检验,作者尝试将这些多年度指标按年均增速摊回各年(例如“五年翻番”意味着平均每年约14.87%的增速),再重新计算Ratio分布。结果表明即便将这些数据纳入,估计结果变化不大:整体操纵占比略变为9.38%(原为9.59%),窗口内操纵概率24.77%(原为25.01%),差异不显著。这进一步增强了数据完整性的可信度。

最后,数据选择政府工作报告作为来源而非统计年鉴或公报,是因为报告数据面向公众和上级,最能反映地方政府当时宣称的增速和目标。统计年鉴和公报有时会在事后调整数据(尤其是遇到全国经济普查时),而政府工作报告的数据则是各地在未被更高层校正前主动公布的,能最大程度体现造假的行为。作者还佐证了GWR的影响力:通过百度等搜索引擎指数对比发现,公众对每年2-3月地方两会期间发布的政府工作报告的关注度远高于对统计年鉴数据的关注。这说明政府工作报告上的数字对社会认知影响更大。因此,选取GWR数据进行研究更具实际意义。

结果

基准结果:GDP操纵的存在与规模

首先,作者通过图形和扎堆估计揭示了总体样本中目标驱动GDP操纵的存在及程度。如前述,通过比率形式的McCrary检验,已经发现Ratio=1处存在显著的分布不连续。在此基础上,作者对全样本进行了扎堆估计,自动识别操纵窗口并量化堆积和缺失质量。根据算法,确定的最佳操纵窗口为[ 0.72, 1.04 ],即假定那些实际增速在目标值的72%~100%之间的观察最有可能被上调到目标及以上,而超过目标4%以上的部分不太涉及造假。在该窗口之外的数据用于拟合反事实分布。作者采用6阶多项式进行拟合(经检验高阶多项式拟合较稳健)。图4展示了全样本的扎堆估计结果曲线:竖直的虚线标出了操纵窗口区间边界0.72和1.04;实线为根据窗口外数据拟合的平滑分布\(\hat{F}(x)\);柱状图或散点则表示实际数据的频率分布\(G(x)\)

从图中可以看出,在Ratio逼近1的附近,实际分布明显偏离了平滑基准分布:在Ratio略低于1的区域,实际频数低于基准曲线,形成一个凹陷;而在Ratio=1以及略高于1的区域,实际频数显著高于基准,形成一个峰值。扎堆估计将这部分额外的频数归因于目标造假。计算表明:全样本中有约 9.59% 的城市年份观测可以归因于目标驱动的GDP数据操纵(M=9.59%)。换言之,每100个地级市年的报告数据里,大约有将近10个存在人为上调,以使增速达到目标。这一比例的标准误为2.44%,在统计上高度显著不为零。此外,对于那些实际增速落在目标值72%至100%区间内的情况(也就是相对接近但未达标的情形),有约 25.01% 的概率会被往上调整至达标(Inrange-M=25.01%)。这个比率表明,在“差一点完成任务”的时候,地方政府约有四分之一的概率选择了造假来宣称完成目标。这一概率同样有明确的统计显著性(标准误4.5%左右)。

上述结果证实了中国地方层面GDP数据造假的普遍存在,同时也给出了量化幅度:大约十分之一的数据点被“水分化”,接近目标的情况下更是有高达四分之一的概率弄虚作假。这个规模不可谓不高,说明过去几十年中国GDP增速统计中掺入了一定程度的人为调整。作者强调,由于他们采取了保守的假设(操纵仅限于阈值附近、小幅上调),这一估计可能还是低限,真实存在的造假程度或许更高。例如,如果有些年份地方在经济普查配合下被动修正了数据但未公布,那么我们当前的数据仍可能低估了先前造假的程度。为此,作者对三个全国经济普查年份(2004, 2008, 2014)进行了排除重算,结果表明剔除这些年份后,造假占比略有上升但差异不大,仍在10%左右。因此,9.6%的比例是一个有一定稳健性的估计。

为了验证上述发现的可靠性,作者还进行了多方面的稳健性检验

  • 数据修订的影响:前面提到,2004、2008、2014年进行的全国经济普查可能对部分地区数据进行了调整。将这些年份从样本中剔除后重新估计,得到的M约为8.94%,Inrange-M约24%。与全样本的9.59%和25%相比差别很小,说明普查因素未对估计造成明显偏差。

  • 目标内生性的影响:将仅考察党政主要领导发生更替的年份子样本。结果显示,该子样本的M略升为约11%,Inrange-M约30%,但与全样本相比差异并不显著。这意味着,即便在新旧官员交接的年份,造假行为仍然和平常类似,暗示目标设定的内生性(如新官是否故意设低目标)对造假率影响不大。

  • 多年期目标的处理:将那些报告中提供了多年累计增速的情况,通过等效年均增速填入,再重复估计,得到M≈9.38%,Inrange-M≈24.77%,与基准结果9.59%和25.01%非常接近。可见遗漏这些数据并未显著影响结论。

总体而言,上述基准结果清晰地表明:中国地级市层面的GDP数据确实存在以完成预定目标为目的的人为上调行为,大约每十次年报中就有一次这样的造假发生。这种现象在统计上高度显著,并非偶然波动造成。此外,操纵行为主要集中在离目标不远的情形,印证了“临界点造假”的假设。研究通过多种检验验证了结果的稳健性。

影响因素的异质性分析

在确认了总体上的造假存在后,论文进一步考察了不同情境下GDP操纵程度的差异,以了解哪些因素能加剧或减轻这一行为。作者重点分析了四个维度的异质性:政策环境变化(2013年前后)目标设定方式(硬目标 vs. 软目标)主官晋升激励强度主官任期长短

(1)政策环境(2013年前后):如第二部分背景所述,2013年中央出台了一系列举措弱化GDP考核权重。作者以2013年为分界,将样本分为2000-20122013-2018两段,分别估计扎堆效应。结果显示,2013年之前造假现象更为严重:总体操纵占比M估计为12.55%,而2013年后降为8.80%。前后差值约3.75个百分点,占之前水平的30%,表明总体造假率降低了约三成。更惊人的是窗口内操纵概率的变化:2013年前Inrange-M高达42.12%,而之后骤降至12.61%。降幅近30个百分点,相当于减少了约70%。这个结果强有力地说明,2013年的政策转向显著抑制了地方GDP造假行为。以前大约每二次“临门差一点”的情况就有一次造假(42%),而政策后只有约八分之一的概率造假(12%)。显然,中央降低GDP在政绩考核中的权重后,地方官员造假的动机大为减弱。这一发现也验证了政策的有效性,具有重要的政策含义(在结论部分讨论)。

(2)目标设定方式(硬/软约束):作者将样本按是否采用软性措辞分类(Soft=0为硬目标,Soft=1为软目标),分别进行扎堆估计。结果表明:当目标以硬性方式提出时,造假更为普遍。硬目标的样本M估计为10.66%,而软目标下仅为7.00%。Inrange-M方面,硬目标下为30.55%,软目标下降至13.53%。两者相差一倍有余。这充分说明,采用弹性、宽松表述的GDP目标能够减少造假行为。其机理在于,软目标给了地方留有余地,比如“增长8%左右”意味着7.5%甚至7%都可算基本完成,不需要硬凑到8.0%。而硬目标如“确保8%”则没有回旋,哪怕7.9%都算未达标,官员为免“政绩不达标”的风险就更可能选择篡改数据。这一发现与直觉一致,也呼应了中央鼓励区间目标、淡化增速指标的重要性。

(3)主官晋升激励:根据每个市委书记的晋升概率指数,将样本按该指数的中位数分为高激励组和低激励组,分别估计造假程度。出人意料的是,两组结果几乎没有差别。晋升激励高于中位的组,M约为9.54%,低于中位的组为9.98%,二者差异不显著;Inrange-M一个约33%,一个约23%,差异也不具有统计显著性。这表明,在GDP造假这件事上,官员个人的升迁压力并未体现出显著作用。可能的解释是,GDP指标压力作为一种制度性因素,对所有官员都是普遍存在的,而个人仕途的差异更多影响其他行为(比如投资倾向、基础设施建设等),在是否造假这一点上反而没有区分度。换言之,无论年轻有为的干部还是临近退休的干部,只要考核体系强调GDP,他们都有动力去完成指标,而不取决于升迁概率高低。这一点与Li and Zhou (2005)的经典结论(GDP与晋升关联)形成有趣的对照:GDP增长影响晋升,但在造假方面,高升迁可能性并未进一步加剧数据水分。作者据此推论,体制因素胜过个人因素:GDP造假的驱动更多是制度约束而非官员个体的特征。

(4)主官任期长短:有研究(例如Guo, 2009)指出官员在任期初期可能更积极进取,因为上任伊始希望做出成绩。作者将书记任期 ≤3年定义为“短期”,≥4年定义为“长期”,比较两组的造假水平。结果显示,两组差异仍不明显:短期任职者所在城市M为9.08%,长期任职者为9.85%,差别不到1个百分点且不显著;Inrange-M短期26.8%,长期29.9%,也无显著差异。说明无论主官是履新不久还是任职较久,都同样可能造假,没有显著规律。这再次强调,个人行为模式并非主要决定因素,而制度和政策环境才是在不同情况下影响GDP造假的关键。

通过以上异质性分析,论文得出一个重要结论:GDP造假的程度更多地取决于制度激励约束,而非官员个人特质。宏观层面的制度变革(如考核导向改变、目标设定弹性)能够显著改变数据造假的发生率;而具体官员的年龄、仕途等因素影响甚微。这一发现对于制定政策有直接启迪——与其寄希望于选拔“品德高尚”的官员,不如从体制上减少对造假的激励。

GDP数据夸大幅度的估计与未来趋势

在证实了GDP造假的存在和频度之后,作者进一步探讨了这种造假对GDP增长率本身带来的偏差有多大,以及长远来看对GDP总量的累积影响。简单地说,就是要回答:“这些造假行为让官方GDP增速比真实增速高出了多少个百分点?多年下来累积的GDP虚增了多少?”

直接观测真实增速显然无法做到,但作者设计了一个随机重分配模拟的方法来估计这一幅度。基本步骤如下:

  1. 根据前述估计的M=9.59%,计算出总共约有多少个城市-年份的观察属于“被操纵”的(记为A)。具体即9.59% × N(总观察数)。这些观测对应那些实际增速本应低于目标但被报高的情形。

  2. 随机抽取A个观测,这些观测的Ratio均在[1, 1.04)的操纵窗口内(即实际被上调到接近目标的案例)。然后将这些观测的增速“还原”到它们如果没造假时可能的位置。由于无法确知每个被操纵的数据原本具体是多少,作者假设一个“随机重分布”原则:将这些观测随机分配回操纵窗口左侧的缺失区域[0.72, 1)内。这样做相当于假定每个被上调的增长率,如果没上调,可能是比目标低1%、2%等等的某个值,在[0.72,1)范围内随机分布。

  3. 对于每一个被重新分配的观测,根据其对应的目标增速EGDP,计算一个“修正后的实际增速” = EGDP × 重分配后的Ratio。这代表如果没造假,该地区实际增速应是多少。

  4. 然后计算每个观测的操纵幅度 = (上报的RGDP增速 – 修正后的实际增速)。这个差就是造假人为增加了多少百分点的增速。

  5. 为得到全国层面的影响,作者以各城市当年的名义GDP占全国比重作为权重,计算加权平均的增速夸大幅度。权重校正很重要,因为一个小城市把增速提高1个百分点对全国影响微乎其微,而一个经济大市提高1个百分点对全国都有显著贡献。

  6. 重复以上过程200次取平均,并算出标准误。这种蒙特卡罗模拟能够平滑随机重分配带来的波动。

模拟结果总结在论文的Table 4中。主要发现包括:

  • 年均增速夸大幅度:在2000-2018年间,目标驱动造假使中国地级市报告的GDP增长率平均每年高出约0.24个百分点。标准误约0.09,表明这一估计不同抽样下相当稳健。0.24个百分点听起来不大,但考虑到中国这段时期平均增速约9.14%,这意味着官方增速有约2.6%是“水分”(0.24/9.14)。换言之,如果真实增长是8.9%,官方因造假会报成9.14%。
  • 分时期/分组幅度:作者也对比了2013年前后的造假幅度,以及软目标和硬目标情况下的幅度。结果显示,2013年之前,年均夸大约0.28个百分点,2013年后降至0.13个百分点。无软目标(硬目标的情况)下夸大约0.30个百分点,有软目标时仅0.07个百分点。这些差异与前述频率上的结果一致:政策改革和软目标确实大幅降低了GDP虚报的程度。
  • 对GDP总量的累积影响:别小看每年0.24个百分点,年年累积会带来可观的GDP总量偏差。作者估算,若2000-2018年每年都有0.24个百分点的虚增,那么到2018年时,中国官方公布的GDP规模相比真实规模将夸大约4.1%。计算依据是用年均9.14% vs 8.90%增长19年的差别。4.1%意味着2018年的GDP中约有将近1/25是“注水”的。这与前面省级数据相比对(2016年省级多报5%)量级相当。作者进一步推算,如果假设1978年以来都持续存在类似比例的造假,那么42年下来(1978-2020)GDP累计虚增可能达到8.6%左右。不过需要强调,这是基于将近期规律简单外推的假设,实际上不能确定改革开放初期的数据造假程度(也许那时并不严重)。但至少可以说明,在高速增长时代,造假的相对比例对总量影响有限,而在增速放缓后,相同的造假幅度对增速的占比会变大。例如近几年中国经济增速降到5%以下,如果某些地方仍习惯性多报0.2-0.3个百分点,那么占实际增速的比重就达到5-10%之多。因此,随着经济进入中低速增长阶段,如果不进一步遏制统计造假,“水分”反而可能上升。这一点值得警惕。image-20250307200747460

最后,作者探讨了未来趋势的情景预测。他们在论文结尾描绘了若干可能的情景(如图8所示):一是按照2014-2018年间中央加强考核改革后的造假水平延续,则未来GDP夸大的斜率会较低(图中的三角线);二是设想自2023年起全国全面采用软性目标、不再以GDP论英雄,则造假率可能进一步降低,累计夸大曲线斜率几乎趋于零(图中的菱形线)。相比之下,如果改革力度停滞,某些地方或因经济下行压力又回到过去那种“保增长”的紧箍咒下,造假率也许会反弹,累积夸大程度在未来可能重新走高(图中未明确绘出,但可想象为比三角线陡的曲线)。总的来说,论文的模拟暗示:中国GDP统计水分的问题在2010年代初得到遏制,如果政策坚持下去将维持较低水平;但仍需警惕在增速放缓新常态下造假占比反而变大的风险

结论与讨论

研究结论

论文通过严谨的分析,得出了若干重要结论:

  • 首先,它证实了在中国地方政府层面存在显著的以完成GDP增长目标为动机的数据造假行为。这种“目标驱动的GDP操纵”主要表现为:当实际增速略低于预期目标时,地方政府会上调报告的增速以声称达标。通过统计分布不连续的检测和扎堆估计,作者量化了这一现象的严重程度——约有10%左右的城市年数据被人为上调过,占比较高。
  • 其次,论文发现这种造假现象在最近十年有所缓解:2013年中央强调“不要唯GDP论英雄”之后,各地GDP增速造假的发生率和幅度都大幅下降。特别是目标设置改为弹性区间(软目标)的大量推行,使地方无需再死盯某个刚性数字,从而有效减少了凑指标的动力。
  • 第三,作者通过模拟估计了造假对GDP统计造成的偏差:平均每年约多报0.24个百分点,相当于把真实增速抬高了2.6%。这一微小年差经过多年复利累积,导致2018年GDP总量可能被高估了约4.1%。虽然这个数字不算夸张,但4%的GDP在中国绝对值也相当可观(约当几千亿美元)。作者提醒,若不持续治理,随着经济增速放缓,类似的0.2-0.3个百分点造假所占比重会提高,未来统计失真的比例反倒可能上升。

总的来说,论文的研究揭示了:中国地方GDP统计数据在相当长时期内并非完全可信,而是掺杂了一定程度的“水分”。这种水分并非随机发生,而是紧密围绕着政府设定的增长目标。换句话说,GDP数字有相当部分是各级政府“压出来”或“调出来”的,而不是经济自发增长出来的。

这一结论对学界和政界都有重要意义。学界方面,它解释了为何各省数据总和长期高于全国、为何许多地方GDP增速经常恰好达到目标等怪象。政界方面,它警示政策制定者应谨慎对待GDP指标,因为其中可能包含系统性偏差,需要校正和甄别。当然,作者也指出,对GDP累积操纵幅度的计算涉及一些假设(例如假设被造假的样本随机分布在某区间),这些假设主要是为了量化经济含义,并不影响论文的核心贡献。论文的主要贡献仍在于识别和度量了目标驱动的造假概率,即M和Inrange-M这两个指标。而对总量4.1%夸大的估算,更多是为了给读者直观认识到其经济影响之大小。

政策含义与GDP准确性影响

这一研究具有多方面的政策启示。首先,结果表明中央政府加强宏观统计治理、改革官员考核制度的措施卓有成效。2013年后无论总体造假比还是局部造假概率均大幅下降,说明降低GDP在政绩中的权重的政策发挥了作用。因此,继续坚持这些改革方向非常重要。具体而言,论文建议两个主要措施:

  • 推行软性GDP目标:地方在设定GDP增长预期时,应采用区间或弹性表述,如“增长%左右”或给出上下限范围,而避免使用“确保不低于X%”等刚性词汇。这样做可以承认经济运行的波动性和不确定性(尤其在有疫情、贸易冲突等冲击的时代背景下),使地方政府在遭遇意外情况时有调整空间。论文的实证结果已经证明,软目标能显著降低造假概率。因此,在实际管理中,中央完全可以明确要求地方采用弹性目标管理。这一做法既不会损害合理的增速追求,又能减少为完成死指标而造假的冲动,可谓优化治理的有效手段。

  • 改革GDP导向的考核:将官员绩效评价从过度强调GDP增长,转向更加多元和长远的发展质量指标。当前中国已进入高质量发展阶段,单纯的GDP增速高低不再是唯一追求。论文建议在考核体系中增加诸如全要素生产率(TFP)的提高收入分配的公平(如基尼系数)、以及公共服务改善环境保护等指标。这些指标能反映发展质量和可持续性,引导地方将注意力转向经济发展的内涵,而不仅是速度。这样一来,地方政府也不会为了追求高增速不惜造假甚至寅吃卯粮,避免陷入“数字政绩”歧途。作者指出,中国在2013年后已经朝这个方向迈出步伐,但仍有改进空间。特别是在当前GDP增速放缓的形势下,如果继续用过去的高增速标准要求各地,难免又会给基层增添数据造假的压力。因此,考核改革需与时俱进,将高质量发展理念真正落实到指标体系中。

对GDP数据准确性的影响方面,论文的发现意味着:在理解和使用中国GDP数据时,需要考虑上调偏差的存在。从研究估计看,改革前的数据虚高约0.3个百分点,改革后也还有0.1个百分点左右。这虽然对年度分析影响不大,但对累积水平和地区比较可能有一定影响。例如,如果一个省份多年来每年都高报0.5个百分点,那么十年后其GDP总量可能比实际高出5%以上,会误导中央对其经济规模和增速的判断。另外,这种造假可能在不同地区并不均匀——或许一些竞争激烈、目标定高的地区更严重,一些经济平稳地区较轻。这样,地区间GDP的排序和差距也会受到扭曲。值得注意的是,中央统计局近年来开始直接统一核算地方GDP,也是为了消除地方夸报造成的多报问题。2019年经济普查揭示了若干省的水分并调整了历史数据,就是例证。该论文强调,未来要保持中国GDP统计的国际信誉,必须持续防范和纠正地方数据造假。否则,不仅国内宏观决策可能建立在沙滩上,国际社会对中国经济数据的信任也会下降。这对于一个全球第二大经济体而言,影响深远。

号外

  • 本文为Deep research的解读结果,请谨慎对待。AI将Bunching Estimation翻译成“扎堆估计”,我认为这是比群聚分析、聚束分析更贴切的译法。
  • 去年龚老师在安泰报告过这篇论文的部分内容,提到折腾了很久,恭喜发表!
  • 佩服浙大公管的实力,太强了!老师强,学生猛!
  • 我去年还推过另一篇研究中国GDP造假的文献:JUE-利用夜间灯光识别官员晋升中的GDP造假

原文信息

Gong, Binlei, Yuhui Shen, and Shuai Chen. "Target-Based GDP Manipulation: Evidence from China." Journal of Public Economics (2025). https://doi.org/10.1016/j.jpubeco.2025.105349


JPubE-中国地方政府的GDP达标造假
https://yuzhang.net/2025/03/07/20250307-JPubE-Target-based GDP manipulation/
作者
Yu Zhang
发布于
2025年3月7日
许可协议