创新的效果如何测量？善用不确定性

Unitimes 阅读 3004 2020-7-14 17:19

文章来源：斯坦福社会创新评论

作者：汪伟楠

4月里，斯坦福社会创新评论公众号分享了关凯老师的《向死而生：新冠病毒倒逼社会创新》一文。文章以宏大的视野，引导我们从对疫情的观察出发，重新思考我们所处的世界，思考社会创新对于我们的意义。我们原本就身处一个充满不确定性的世界，极端一点说，这个世界原本就是与“不确定”共存的。正如关凯文中指出的，疫情让我们不得不从“确定”的安逸中走出，更加清醒地面对这个世界。

人类是这样的造物：我们无时无刻不身处于“确定”与“不确定”的围绕之中，但“不确定”总是难以让我们满足。因此，我们会去求知、会去实践，会去沉思、会去劳动，会去与这个世界互动，与这个世界的“确定”以及“不确定”互动。

以“确定/不确定”的框架视角来理解社会创新，我们当然可以说，“社会创新”是存在一定不确定性的，但又可以在“确定”与“不确定”之间产生联结。一种创新方式是从已知的、确定的要素出发（这些要素可以包括主体、机制、技术等等），尝试前所未有的“新组合”、“再组合”，以创造性的方法满足社会需求、解决社会问题。另一种创新，则更多地是观念的更新，从原有的一个“确定”的认知框架、理论范式转向另外一种范式，为人们带来全新的认识，寓“创造”于“破坏”。在新范式水落石出、尘埃落定之前，我们其实并不知道哪一部分的“确定”知识会面临被破坏、被重建的命运。

人们不会放弃寻求“确定性”的努力。即便是面向未来、从未来出发思考当下的“社会创新”，人们也希望能够更好地去衡量它、把握它。“测量与评估”，在《斯坦福社会创新评论》中也是一个重要的栏目。

创新的效果如何测量？善用不确定性

思考创新可以采取很多角度。除了从“我们如何认识创新”、“创新何以可能”这些更强调思辨性的角度来思考而外，一种更注重从应用性出发、从实践出发的“创新如何评估”、“创新的效果如何测量”的角度也是极为重要、不可或缺的。

作为“创新”与“评估”碰撞，“创新如何评估”、“创新的效果如何测量”这样的问题处于社会创新理论与评估理论这两条理论脉络的交叉地带，不可避免地既受到两处思想渊源的滋养，也被这两条相交但不同的思考脉络其各自的话题设置、兴趣迁移而影响及塑造。

例如，无论是在社会创新理论还是评估研究领域，2019年诺贝尔经济学奖的颁发都是一个重要的公共事件，一个很难绕过的话题。早在2019年获奖之前，班纳吉（Abhijit Banerjee）等人创建的贫困行动实验室（Jameel Poverty Action Lab,简称J-PAL）就已经世界知名，且已形成了极大的影响力，影响着社会创新及评估方面的实践与思考。2019年班纳吉（Abhijit Banerjee）迪弗洛（Esther Duflo）和克雷默（Michael Kremer）的获奖只是再一次让他们以及他们大力发展的“实验性方法”成为话题暴风眼而已。

创新的效果如何测量？善用不确定性

▲从左至右分别为班纳吉、迪弗洛和克雷默。（图自诺贝尔奖推特）

在评估领域，关于随机对照实验（RCT）方法、准RCT方法、实验性方法早已引发了多次的公开讨论与辩论。较近的一次公开辩论发生在2003年年末。2003年，在美国评估协会（AEA）的年会上，部分评估师指出：美国教育部在评估资助的评审中对采用实验设计或准实验设计的评估方案给予了较大的倾斜。实验方法似乎凌驾于其它方法之上。

随后，美国评估协会（AEA）的核心层发表了一项声明，反对在教育评估资助竞赛中为随机对照实验方法提供特权的做法。这一事件最终引发了一场大规模的公开讨论（Donaldson & Christie, 2005）。

时至今日，类似的辩论也并未平息，反而有热度不减之势。有看法认为，这场辩论背后还有更深的理论背景，不过是社会科学领域反复出现的定量与定性方法之争在特定领域的重复上演（Donaldson, Christie & Mark, 2009; Scriven, 2010）。这场辩论的余绪波及了诸多领域。

尽管，创新的“测量与评估”、“影响评估”这些理念、概念的内涵并不完全等同，而RCT方法也只是创新测量、影响评估在实践中运用的主流方法之一；但不难想象，“测量与评估”这一议题也同样深受相关争论的影响。

创新的效果如何测量？善用不确定性

《斯坦福社会创新评论》中的“测量与评估”栏目中，收录了不少前沿的、但持不同立场的文章。

■ 例如，关于评估方法中的明星——RCT方法，Iqbal Dhaliwal, John Floretta 以及Sam Friedlander的《超越随机对照实验》（Beyond Randomized Controlled Trials）一文介绍了贫困行动实验室（J-PAL）和政策证据（E2P）社区是如何将研究创新以及证据的应用扩大到更广的范围，以影响社会政策与实践的。

■ 关于另一热门议题——影响评估，Gwendolyn Reynolds等人的文章贴心地给出了社会影响力测评手册的设计示范，非常实用。

■ Ivy So和Alina S. Capanyola则在其文章中系统地观察梳理了各种影响力衡量的方法，并探讨了其结合方式。

那么，影响评估是否适用于所有的场景呢？适用与不适用又应该如何鉴别？关于这一话题，“测量与评估”栏目恰好提供了一组可以对照参阅的文章。

■ Mary Kay Gugerty与Dean Karlan的文章旗帜鲜明地在标题中写道“影响评估不适用于所有人”（ Measuring Impact Isn’t for Everyone），并在文章讨论了影响评估的适用场景及操作原则。

■ 在这两位作者的另一篇文章中，则详细阐述了不适用影响评估的十个理由，并为读者提供了非常实用的、“当影响评估不适用时，我们还可以怎么做”的替代性方案。

■ Marc J. Holley, Cheri A. Recchia和 Valerie Bockstette在其文章中指出，要测量那些值得测量的（Measuring What Matters），避开那些不必要的测量陷阱。

不过，有关实验性方法、影响评估的讨论，也只是人们在尝试测量、把握创新过程中产生的、近期最热门的话题而已。除了这方面的讨论，社会创新领域的测量与评估还关心众多其它的内容。

■ Rhonda Evans，Gabriel Kasper和Tony Siesfeld的文章关注了评估对社会部门领导者的工具性意义。其在《迈向“测量”的美好未来》（Moving Toward a Better Future for Measurement）一文中，探讨了“监测、评估、学习”（MEL, monitoring, evaluation, and learning）成为更有力工具的可能性。

■ Kate Sturla以及Marc J.Holley等人的文章分别讨论了测量与评估在“发展影响债券”以及“非营利组织绩效”等不同场景下的应用。

寻求“确定性”，既是评估本身努力的方向，也是人们之所以在社会创新中强调“测量与评估”工具所希望追求的方向。这种追求，在我看来至少演化出了两条最为壮观的发展脉络。

一种脉络或趋势就是上文已提及的热门话题：以随机对照实验为代表的、实验性或准实验性的，以追求研究方法的科学性为导向的路径。围绕着这一路径，形成了一系列持支持或质疑态度的讨论。

而另一条脉络则与“科学”、“实证”大异其趣。确定，是一种判断，是一种主观感受，是对内心安宁、认可的追求。因此，另一条路径更关注人们的感受、认可。

■ 在这一条路径上，Melinda Tuan和Jessica Kiessel的文章探讨了如何使用客户调查来衡量和改进非营利项目。

■ 另一篇来自Tom Adams, Matt Ripley和Ashley Speyer的文章，《影响评估的核心——倾听客户的声音》（At the Heart of Impact Measurement, Listening to Customers）则同样沿着这样一条思考路径，在标题中就给出了他们对影响评估的看法，并在文章中详述了“倾听客户声音”的操作。

如果说“科学”、“实证”可视作第一条发展脉络的关键词，那么第二条发展脉络的关键词则可以是“参与”、“认同”。

当然，上述只是最蔚为大观的两条发展脉络，但未必是仅有的脉络。可能有其它的发展脉络，虽然不如前述两条壮观，但从重要性上看未必逊色。例如，第一条脉络已出现了分化，主流之下的支流容易被忽视但同样重要。支持这一支流的研究者认为，到底什么是方法的科学、有效尚待讨论，“科学”不应被偷换为“实证”，实验也并不一定是“科学”的典范。

另外，如果我们深入思考创新本身，那么我们不难想到，一定还有一些内容未被前述三方面的内容所囊括。因为，至少有一部分创新，例如观念的更新、范式的革命等等，很难说是可测量的。对于这些创新，我们与其以“如何测量”来发问，不如以“如何理解”来发问。

以上，笔者极为有限地介绍了《斯坦福社会创新评论》中“测量与评估”栏目下的一些文章，并粗略地提供了一个阅读、观察这些文献的框架。在了解这一框架之后，读者的困惑可能并没有减少，反而增加了。

但作为话题的引介者，笔者的自我定位类似于一场演出的报幕员，负责介绍舞台和引出剧目，并不负责观众的感受。好的演出，能在一千人脑中留下一千个哈姆雷特；读者只要能从一组文章当中、一系列的讨论当中，获得些许关于创新的灵感或启发，恐怕就已经足够了。

创新的效果如何测量？善用不确定性