马亮：政策实验室、政府创新与新文科建设

文章略有节编。

新文科实验室建设对于服务公共管理的教学、研究和实践，实现官产学研用的打通和融合意义重大。在公共管理实践中涌现出的政策实验室，与新文科实验室在很多方面有异曲同工之妙，二者有进一步融合的潜在空间。本文将从比较政策创新中政策与政策试点的差异切入，进而回顾政策实验室兴起和发展的历程，探讨新文科实验室建设对于政策实验和政府创新的价值，并提出进一步建设新文科实验室的对策建议。

一、政府创新中的政策实验与政策试点

（一）实验何以重要

实验（experiment）往往被视为现代科学研究的黄金标准，不少人认为它是进行因果推断的不二法门。比如，2019年和2021年两届诺贝尔经济学奖都颁发给了在实地实验和因果推断方面作出贡献的经济学家。在实验中，随机对照实验（RCTs）被认为是进行政策评估的金科玉律，因为它满足了一些基本条件，使因果推断更为可靠。实验背后的思想反映在“反事实”逻辑，即我们可以通过实验来回答“假如……怎样”的问题。

实验的主要特征包括随机化（randomization）、干预或处理（treatments）、实验环境的可控性（controllability）、“双盲”（double blind）、实验组与对照组的匹配与比较。为什么要这样设计？原因就在于要确保实验组与对照组的可比性，确保实验效应的一致性，排除环境和条件因素的干扰，避免实验人员的偏见，并确保结果归因的唯一性。

首先，在控制组（即反事实）与实验组的分组方面要确保随机分组，即每个政策干预对象都有同等机会被选入实验或作为对照。其次，对实验组的各个政策干预对象都施加同样的干预或采取同样的处理，这样可以更好地比较其影响。再次，为了避免其他因素干扰，通常在完全受控的实验室中进行实验，而这在现实政策实验中往往难以达到，但是人们要尽可能地模拟实验室环境。复次，为了避免心理作用等带来的影响，需要确保实验对象之间独立且互不干扰，避免信息沟通带来的实验对象污染。最后，通过将实验组和对照组的前测与后测进行比较，就可以获得政策干预带来的净效应。

不少发达国家开展的政策实验（policy experiment），就是基于行为科学与循证决策思想，通过随机对照实验和因果推断来进行政策实验，为政策决策提供有效支撑。在政策评估中，实验设计或准实验设计有助于排除其他干扰因素，评估某项政策的净效应。同时，循证实践的崛起，推动政府决策更加科学，特别是基于科学证据进行决策更加依赖实地实验提供的严谨证据。比如，行为公共管理学的发展使越来越多的公共管理研究使用实验设计，包括实验室实验、调查实验、实地实验等。

（二）政策试点与政策实验的差异

在政策创新中，一直存在政策试点、示范与政策实验的路径选择问题。实验主义更多强调大胆探索，而不限于科学严谨的实验法，包括实验性治理（experimentalist governance）、分级制实验（experimentation under hierarchy）、引导创变（directed improvisation）等概念。从中国改革开放来看，国家治理的优秀经验集中表现在公共政策的试点、试验与示范。

政策试点（policy pilot）是对某项政策方案进行测试和评估，确定其是否可行有效和可以推广。政策试点既可以是试对（预设政策方案是合适的，通过试点来为其提供证据支持），也可以是试错（政策方案的可行性是不确定的，通过排除错误方案来确保正确方案脱颖而出），但其预期结果应是开放的。政策示范（policy model/demonstration）是通过树典型、立榜样、设标杆和遴选最佳实践，通过示范项目来引领其他地区和部门。一些地区被列为“先行先试区”，更多是带有探索色彩的试验；一些地区则被冠以“先行示范区”，意味着其在引领改革方面扮演重要角色。

政策试点、示范和实验之间有何不同？不少学者对此进行了探讨，明确了试点、示范与实验的异同。从方法论角度分析，差别在于分组与抽样、干预、环境三个方面，这使政策试点和示范都是准实验，缺失严格实验的某些关键要素，进而导致对其效果进行评估时面临的方法论挑战（如表1所示）。

1.分组与抽样

实验设计需要设立实验组和控制组，一般采取随机分组方式，确保二者是可比的，避免选择偏差带来的实验结果偏误。实验分组需要遵循随机抽样原则，确保分组的随机性，但在代表性和典型性方面未必合理。相对来说，政策试点强调能够代表各类地区，使试点在未来推广时有更强的普适性。为了使政策试点达到预期效果，往往会采取试点地区差异最大化的原则，有目的地选择基础条件不同的若干个地方或部门，而地域多样性可以尽可能保证试点在环境不同的地区都能够同步检验。

实验是实验人员确定谁进入何组，“被试”是被动接受实验、处理或干预的。但在选择试点单位方面，则是双向选择而非单方面分组。试点单位的选择往往是多轮次开展而非一次性进行的，一般先是上级政府部门公开征集，然后是地方政府部门自愿申报，经过上级评审遴选后公示试点单位名单。这样一来，谁参与试点都是公开的，也就难以避免试点地区之间的相互影响，以及非试点地区的学习和模仿，进而使试点效应评估面临难题。同时，选择试点的地区数量多少、是竞争性还是非竞争性的遴选、是限额还是不限额等，都存在较大差异，也使政策试点有较强的多样性。比如，2019年中央政法委启动的“全国市域社会治理现代化试点合格城市”就属于不限额且非竞争的，只要达标即可入围。

政策示范是由点到面或以点带面地树立典型，选取的都是成功的榜样，因此没有代表性，也无随机性可言。从中央政府部门设立各种示范城市项目的初衷来看，也有较大差异，使政策示范同实验的差异各不相同。值得注意的是，在政策实验中面临的问题是，试点地区为了得到好评，导致试点很少不成功的，示范没有不成功的。在预定结果确定的情况下，地方政府可能为了实现试点成功而使试点偏离初衷，导致试点结果不可信。

2.干预

在实验中，实验人员对同组被试做出相同的干预（实验、操控或处理），确保实验效应是可以精准度量和比较的。但在政策试点中，政策干预的主体和方式都有所不同，因此同实验相去甚远。试点单位不是被动接受政策干预，而是主动开展有创造性的政策创设和检验。试点地区可能同时开展多种不同政策试点，有时候是加挂多块政策试点牌子。试点一个政策选项还是同时试点多个政策选项，显然会影响每项政策试点的效果。

试点的目的是解决不知道怎么做才对的问题，带有探索性和不确定性，所以需要“摸着石头过河”。试点单位不是作为“被试”被动接受实验，而是要强调自主性和主动性。试点单位作为实验的策划者、组织者和参与者，要积极主动地争取、组织和开展实验，而这是有别于实验逻辑的。

试点的核心是为了试验尽可能多的不同政策方案，而不是验证一种政策方案。所以，各地都是“八仙过海各显神通”，试点的方式各不相同，并尽可能突出地方的鲜明特色。实验的干预方式是预先设定的，而试点的政策方案是即兴发挥的，各地在试点过程中也会不断调整和改变。从政策试点来看，政策目标是清晰的，但政策手段是模糊的，无论是中央还是地方都不清楚，所以政策方案往往是在试点启动后才逐渐清晰和确定的。这往往是中央指导，地方创设，互学互鉴，地方成功后即全国复制推广。比如，2013年在上海试点自由贸易试验区，很快在全国其他地区设立，进而推动一大批制度改革成果复制推广。

3.环境

实验要求在同样的环境条件下进行，这样可以确保实验组和控制组的差异归因为实验本身。但是，各地在资源禀赋、领导重视程度、试点单位的自主性和能力等方面都有很大不同，导致政策试点效果的归因困难，一些地区甚至出现刻意栽培的“政策盆景”。因此，试点成败不仅同试点本身有关，也同试点环境有关。比如，上海浦东试点法院员额制改革，其本身效果较好，但在全国推广时却在不少地区出现“水土不服”情况。

实验要求“双盲”，即实验人员不知道谁进入实验组，被试也不知道自己是否属于实验组。这有助于排除传染效应，而设立安慰剂组则可以进一步排除人们接受干预的心理作用。政策试点往往是地方竞争、中央遴选和完全公开，所有地区和部门都知道谁是试点单位，试点单位相互之间也心知肚明。试点单位之间相互竞争，都希望成为中央中意的政策方案，所以往往暗中较劲，甚至“只做不说”。

同时，政策试点可能会在多层级政府中同时或序贯进行，导致政策试点的嵌套性较强。比如，政策试点不仅有国家级试点，还有省级试点和市级试点，而这种地方试点往往是在未入选国家级试点的地区进行。地方政府也会率先培育政策试点，并为申报国家级试点打好基础，由此导致试点先行带来的评估难题。

（三）政策试点还是政策实验？

政策创制可以使用试点、示范或实验等模式，因此，需要关注不同政策创制方式有何异同，以及为什么不同国家采取不同路径。政策创制究竟采取政策试点或示范，还是推行政策实验，取决于政治体制与行政文化，也同决策者的观念和意识有关。当然，也不应刻意将试点与实验视为二元对立的模式，它们可能从属于一个更大的连续统一体或共同谱系，只不过采取了不同的逻辑与评判标准。基于方法论的比较显示，实验可谓演绎法指导的定量研究，而试点是归纳法指导的定性研究。实验是对一个理论假设进行检验，而试点是对多个理论假设进行比较。实验生产普遍知识，而试点生产实用知识。

西方政治体制中，不同政策方案的选择与论证需要强有力的支持，才能避免被政党利益和意识形态干扰。比如，吸烟有害健康在今天来看是确凿无疑的，人类活动毫无疑问是造成气候变化的重要原因，但要想让人接受这些观点，却需要大量坚实的科学证据基础。因此，通过政策实验获得选民支持，对于西方民主体制尤为重要。当然，严格意义上的真实验往往可遇不可求，在很多情况下也无法在实际情形中推行。相对来说，大量政策实验都是准实验（quasi-experiment），在某些方面不满足基本条件，但是可以通过一些补救措施来对实验效应进行评估。

近年来，我国特别强调“顶层设计”，但政策试点依然有很强的生命力。如果是需要突破既有法律法规框架的创新，就需要中央授权；如果是在既定制度框架内的创新，则可以由地方自主开展。政策试点的多样性较强，不能一概而论或“一刀切”。因此，有必要建立政策试点的分类体系，并解释中央政府部门为何设立各种试点和示范项目。比如，在为什么试点方面，试点的目标不同；在谁来试点方面，发起试点的部门不同；在谁被试点方面，选取的点不同；在试点什么方面，试的方案不同；在哪里试点方面，试点的环境不同；在何时试点方面，试点的轮次和批次不同；在如何试点方面，试点的含金量不同。

政策过程复杂而微妙，涉及许多行动者、资源和解决方案，很难通过简单的实验加以评估。政策试点的重点不在于政策试点项目本身成功与否，或者说为了产生规模效应，而是要通过政策试点结果来了解不同行动者对政策的反应。对于中国这样的大国而言，政策创制与推广之间存在很强的张力。为了避免某项政策出台后带来的大规模失败风险，往往需要采取分级制的政策试点。政策试点推广的不同阶段也遵循不同逻辑，导致试点的推广带来不同的影响。比如，中国公立医院改革试点从2010年开始分四批进行，遴选了103个试点城市。通过和106个非试点城市比较，可以识别五种不同试点组态：再接再厉型的挑战“破冰者”、取长补短型的短板“主攻手”、一马当先型的创新“排头兵”、背水一战型的逆势“突围者”、以身作则型的区域“领头羊”。

上述讨论表明，政策试点和标准的实验设计有很多区别，而之所以不少国家和地区的政府选择政策试点而不是开展政策实验，同许多现实考虑有关。但是，鉴于实验设计在科学研究与政策创制方面的双重价值，有必要探讨如何使其融合式发展，从而既产生科学知识也提供政策知识。在某种意义上来说，政策实验室的诞生与发展部分回应了这一诉求。

二、政策实验室的兴起与发展

（一）政策实验室因何而起

近年来，越来越多的国家和城市建设政策实验室（policy lab）、城市实验室、政策创新实验室或公共部门创新实验室，对政策创新进行设计、实验、评估和推广。政策实验室日益兴起，既同行为科学（behavioral science）的崛起有关，也同循证决策（evidencebased policymaking）的流行离不开。同时，政策实验室也推动智库转型，使其从思想库走向证据库，除了促进思想创新和传播，也在开发和积累科学证据。当然，以ChatGPT为代表的新一代生成式人工智能（AIGC）技术也有利于推动循证治理，通过科学证据的加速扩散和利用来提升政府决策科学化。

政策实验室是一种对政策进行实验的组织，主要开展政策实验与政策评估，帮助决策者回答“什么奏效”（what works）和为什么。一方面，政策实验室突出创新思维，聚焦存在突出问题与严峻挑战的政策领域，通过头脑风暴、集思广益来征集政策创意和创造性解决方案。另一方面，政策实验室遵循行为科学，采用严谨的实验设计与政策评估方法，对已有政策和政策方案进行检验、评估和完善，为政府部门修改、使用和推广政策提供专家咨询与决策辅助。

政策实验室的先锋当属英国的行为洞察力团队（Behavioral Insights Team， BIT）。BIT在2010年由英国政府成立，后发展成为社会企业，2021年完全并入创新慈善机构Nesta。BIT最早为英国首相办公室和内阁部门服务，总结了让政策奏效的四大法宝，即EAST法则——通过让公共政策简单易懂（easy）、富有吸引力（attractive）、与己相关（social）和及时速效（timely），为很多政府部门提供了政策决策支持。此外，BIT还总结了MINDSPACE法则，提出一套通过政策干预来改变人们行为的组合拳，包括信使（Messenger）、激励（Incentives）、规范（Norms）、默认（Defaults）、显著（Salience）、启动（Priming）、情感（Affect）、承诺（Commitments）、自我（Ego），每个方面都可以形成富有价值的政策工具。BIT推动的政策创新典型案例是电子烟政策。不少国家将电子烟视为百害而无一利的“毒品”或需要严加监管的新型烟草产品，英国政府却率先将电子烟作为禁烟办法，消费者可以在药店通过医疗保险来购买电子烟。虽然电子烟可能诱导未成年人吸烟，但在前期政策实验的基础上，英国政府审慎地推动了这项政策，使人口吸烟率明显下降。

从政策实验室的崛起与扩散来看，全球迄今已有上百个政策实验室，其中大约有65个在欧盟成员国。就澳大利亚和新西兰的调查来看，也有52家之多。政策实验室是政策创新的未来吗？从政策扩散的驱动机制来看，府际竞争与学习造就的“民主实验室”孵化政策创意并检验政策效果。政策实验室将这些政策扩散机制制度化，使其能够更加有效地推动政策创新的实验和推广，毫无疑问有利于增强政府部门的创新能力。

（二）政策实验室的不同模式

虽然各国政策实验室有不同名称，如创新实验室、政策创新实验室、政策实验室等，但都可以归类概括为几种主要模式。有学者从研究方法和路径的角度划分为设计实验室、开放政府数据实验室、循证实验室、混合实验室。本文从实验方法（行为科学、设计思维）以及与政府的关系（部门民营化、政府主导、政府完全控制）两个方面，对政策实验室进行分类。政策实验室的核心使命是影响政府决策，其与政府的关系会影响政策方案是否得到政府认可、重视和推广。但是，如果政策实验室缺乏独立性，也会影响其对政府的影响力。政策实验室既可以注重设计思维，聚焦政策如何设计；也可以关注行为科学，注重如何对政策进行实验与推广。

对丹麦心智实验室（Danish MindLab）、英国行为洞察力团队（BIT）、新加坡人类体验实验室（THE Lab）这三个政策实验室的比较案例研究显示，政策实验室在实验方法（行为科学、设计思维）及其与政府的关系（部门民营化、政府主导、政府完全控制）方面有明显不同，可以采取不同模式与策略（如表2所示）。

丹麦心智实验室是政府主导，采取设计思维对政策进行创新。设计思维在建筑设计、艺术设计等领域应用广泛，意味着要从设计的角度来重新审视政策过程，并通过设计来不断优化政策。BIT一开始是政府完全控制，但是随着迅速的发展，独立成为咨询公司，主要采取行为科学指导下的政策实验模式。新加坡人类体验实验室是完全由政府控制的机构，基于设计思维来对政策进行实验。

政策实验室的核心职能是知识转移，而知识转移能否成功则取决于许多因素，比如政策实验室同政府部门的相互信任与合作动机，政策实验室的开放性、专家资源与制度建设等。从这些政策实验室的运作来看，它们采取了不同模式与策略。这使政策实验室在如何发现和发明政策以及如何验证和推广政策方面有显著差异，进而可能影响政策实验室的运营和绩效。

值得注意的是，政策实验多种多样，政策实验室的运作模式也各不相同。在设计与管理政策实验室方面，需要结合各地实际情况与资源禀赋，采取符合本地实际的运作模式。比如，中国不少地方政府依托政策研究室、大数据管理局、科技产业园等载体，建立类似于政策实验室的政策研发、创新与推广平台，也是顺应和合乎全球政策实验室发展趋势的。

三、如何建设新文科实验室

（一）新文科实验室的定位与方向

新文科建设需要新文科实验室的支撑，而如何建设新文科实验室就成为值得关注的问题。从新文科实验室的建设定位来看，需要明确其同传统实验室和大学智库的不同，以及其在支持政策实验方面的潜力。传统实验室往往是服务单一学科的，且主要是以科学研究为服务对象，在多学科交叉融合和服务政策创新实践方面的作用较弱。智库也称思想库，更多发挥的是决策支撑，而在科学研究和知识创新方面的能力较弱。新文科实验室建设毫无疑问要有别于传统实验室和智库，并需要探索新的发展道路。新文科实验室与政策实验室服务目的不同，却有很强的融合式发展潜力。新文科实验室建设要加强同政策实验室的对话，借鉴政策实验室的创新模式，推动二者融合式发展。

实验主义的内涵丰富，科学严谨的政策实验不是唯一路径。政策实验室有不同模式，科学实验也同样需要因地制宜。中国政策试点的多样性与特征意味着要坚持实用主义的政策实验理念，坚持“验以致用”，通过打通官产学研用来使政策实验发挥效果。

从政策实验室与政府创新的关系来看，政策实验室可以扮演不同角色。它们既可以服务于科学研究与学术发表，也可以服务于政府决策与政策评估。一个重要问题就是，如何实现二者兼容。从具体分工来看，实验室开展原创性实验研究、证据库汇总和编译科学证据，而试验田则复制推广政策创新。这意味着要打造政策实验平台，通过科普和服务输出政策经验，推动研究证据向政策实践转化。因此，新文科实验室可以借鉴政策实验室的经验做法，更多关注如何对政策实践进行评估，如何开展政策实验，如何创造性设计新政策等。

近年来，行为公共管理学发展迅猛，通过共同设计与合作开展实验研究，揭示公共管理行为的内在逻辑。从新文科实验室建设的需求来看，这意味着要打通试点与实验，加强政策试点与政策实验对话，使决策者和研究人员可以谋求共同语言。因此，加快新文科实验室建设，推动实验知识的翻译与转化，加快实验得到认同与推广，将有助于实现这些目标。

同时，新文科实验室建设也需要朝着数字化与智能化方向发展。在数字时代，借助大数据分析和人工智能技术，政策实验将会加快发展。比如，互联网企业流行AB测试，可以在大规模用户中快速进行不同方案的实验。类似地，敏捷监管强调要建立“监管沙箱”，在金融科技等前沿领域进行政策实验。诸如此类的发展都意味着，要推动新文科实验室与政策实验室的融合式发展，既为发展和检验社会科学理论提供平台，也为推动政策实验和创新实践提供支撑。

（二）研究启示与未来展望

政策实验室和新文科实验室有深化合作乃至合二为一的潜力，因此需要关注二者如何进一步加强合作并推动实验室服务科学、研究和实践。展望未来，可以重点研究如下问题。

首先，当前各地建设的新文科实验室都有很强的本地特色，往往同本地政府、大学和学科等有较强的联系，也在很大程度上塑造了不同实验室的独有特征。有必要对这些新文科实验室进行类型学研究，将其进行分类和比较，推动新文科实验室发展方向规划。从试点、完善到推广，新文科实验室建设也遵循我国一般政策试点的逻辑，有必要对试点实验室进行跟踪监测、考核评估和优化完善，为其他高校和机构建设新文科实验室提供启示。

其次，新文科实验室的发展进行到了一定阶段，但是如何对其评估还缺乏较好的指标和方法。各个新文科实验室都有不同的历史条件、前期基础、学科渊源等，并非在同一起跑线上，也难以用一把尺子“一刀切”。这类似于对政策试点的评估，需要避免试点必成功的陷阱，也要避免偏颇的考核“指挥棒”导致的行为扭曲和弄虚作假。因此，既要明确少数共性和通用指标，又要允许各个新文科实验室特色化发展。

最后，需要对其他国家哲学社会科学实验室的建设与运行进行分析和比较，探讨其对中国新文科实验室建设的启示。与此同时，也要进一步提炼我国新文科实验室的特征，凸显其在自主知识体系建构方面的作用，加强同其他国家哲学社会科学实验室的交流合作，并为其他国家提供可资借鉴的经验，比如推动跨国实验室数据开放、算法共享等。

本文转自《中国社会科学评价》2024年第2期

Post Views: 201

马亮：政策实验室、政府创新与新文科建设

评论

发表回复取消回复

马亮：政策实验室、政府创新与新文科建设

评论

发表回复 取消回复

发表回复取消回复