从此走进深度人生 Deepoo net, deep life.

丹尼尔•卡尼曼《思考,快与慢》19-24

第三部分 过度自信与决策失误

第19章 “知道”的错觉

纳西姆·塔勒布身兼商人、哲学家、统计学家等多种角色,还被视为心理学家。他在自己的著作《黑天鹅》中,引入了“叙事谬误”的概念,用来描述存有缺憾的往事是如何影响我们的世界观和我们对未来的预期的。我们不断试图去了解这个世界,在这个过程中难免就会产生“叙事谬误”。能够吸引人们眼球的那些说法往往很通俗易懂,那些说法具体而不抽象,它们认为天资、愚蠢和意图的作用都要超过运气的作用,它们关注的是少数几件已经发生的重大事件,而不是无数件并没有发生的事。任何新近发生的有影响的事都可能成为一个存在因果关系的故事的核心情节。塔勒布指出,我们人类常会为过去的憾事编造牵强的解释,并信以为真,以此来蒙蔽自己。

好的故事为人们的行为和意图提供了简单且合乎逻辑的解释。你总是喜欢将行为看成是一般习性和个性特征的外在表现—你可以很轻松地找到这些结果的原因。此前讨论的光环效应是思维连贯性形成的部分原因,因为这一效应使我们更有可能将自己对某人所有品质的看法和对其特别重要特质的判断匹配起来。例如,如果觉得这位棒球投手又帅又强壮,那我们也很容易会认为他投球水平一定很高。光环效应也可能是负面的:如果觉得一位运动员很丑,我们就很可能会低估他的竞技能力。光环效应通过夸大评估的一致性来保持简单和连贯的特点:好人只做好事,坏人全都很坏。“希特勒喜欢狗和小鸡”这种说法,不论你听过多少次,无论如何都不会相信。因为根据光环效应,如此坏的人是不会有任何善意的,而这句话却违背了这一点。一致性使我们的想法有些固执,感觉模糊不定。

引人入胜的故事会使人产生某种必然性错觉。谷歌变身为科技产业巨人的故事就是一例。斯坦福大学计算机科学系有两位极富创造力的研究生,他们想出了一个在互联网上搜寻信息的好方法,于是便筹集资金创建了一家公司,此后又连续做出很多行之有效的决策。几年后,他们创建的公司成为美国股票市场上最有价值的一家,这两位研究生也跻身全球顶级富豪之列。不同寻常的机遇再加上好运气使得这个故事引人入胜。谷歌上市一年后,他们就想以不到100万美元的价格卖掉公司,但买方却说太贵了。

虽然详尽的历史更能详细说明谷歌创始人当时的决定,但我们前面的叙述已足以说明两位创始人当时所作的每一个决定几乎都为他们带来了美好的结局。一个更完整的故事还可以描述谷歌打败的那些公司所采取的行动,这些倒霉的竞争者似乎很盲目,它们行动迟缓,而且没有足够的能力来对抗谷歌的威胁。

尽管我在讲述上述故事时刻意采用了平淡的口吻,但你仍然会有这样的想法:这个故事非常棒。如果加上更多细节,这个故事就会让你觉得自己明白谷歌成功的秘诀。它还会使你感觉自己学到了颇具价值的重要一课,了解了企业成功的秘诀。但不幸的是,我们有足够的理由相信,你对谷歌这个例子的理解和认识大都是错觉。想知道一个解释是否行得通,可以对它作一个最终测试,看它能否使这个事件事先就能被预测到。谷歌成功的故事就符合这样的测试,因为这其中没有哪一个故事会包含无数个可能会导致不同结果的事件。人类的大脑无法妥善处理没有发生的事情。事实上,很多实实在在发生过的重要事件中包含着众多抉择,这些抉择会诱导你夸大技能的作用并低估运气对最终结局的影响。因为每一个重要决策都有好的结果,上述故事堪称一个几乎毫无瑕疵的预言—但坏运气本来极有可能扰乱这些成功的步伐。光环效应还有最后一个阶段,即给该故事的主角戴上不可战胜的光环。

如同看着一位技能娴熟的筏夫沿激流而下时巧妙地躲过一个又一个暗礁险滩一般,阅读谷歌的故事之所以令人振奋也是因为故事中艰难风险接连不断。然而,两者间有着很大的不同。技能熟练的筏夫有过上百次顺激流而下的经验,他能通过观察眼前的激流预测哪里有障碍,他学过如何对姿势进行微调来保持正确的方向。但对于年轻人来说,却没有多少机会去学习如何创建一家大型公司,更极少有机会学习如何避开潜在的风险—比如说他们的竞争公司推出了一款超级棒的新品。当然,谷歌公司的案例也包含了大量的技能,但运气在公司的实际运作中发挥的作用远远超出了故事中所讲述的那个水平。运气的成分越多,从中能学到的就越少。

此处发生作用的就是强大的眼见即为事实原则。你会不由自主地去处理手头有限的信息,好像这些信息就是全部事实了。根据这些可得信息,你构建出最可能的故事,如果这个故事还不错,你就会相信它。然而自相矛盾的是,在自己所知甚少或是谜题的答案只是初露端倪时,我们却更容易构建出一个连贯的故事。我们满心相信这个世界是有意义的,这份信心建立在一个稳妥的基础之上:我们最大限度地忽略自己的无知。

我曾听说太多人“在2008年金融危机发生前就知道这场危机不可避免”。这个句子中含有一个极有可能引发异议的词,在讨论重大事件时,这个词本不该出现在我们的词汇当中。这个词当然就是“知道”。有些人事前清楚地意识到可能会发生危机,但他们却并不“知道”究竟是什么危机。而他们现在却说他们当初就知道这场危机,那是因为危机确实发生了。这是对一个重要概念的误用。在日常生活中,只有在所了解的事情属实且其表现也真实的情况下,我们才会用“知道”这个词。但是那些当初认为会有危机的人(当初本没有那样多的人这样想,而如今却有更多人声称记得自己当时就是这样认为的)在当时并不能十分确定地指出危机是什么。很多聪明且见多识广的人对经济前景怀有浓厚的兴趣,并不相信灾难已经迫近。我从这个事实推论:危机是不可知的。在这个情境中运用“知道”一词很反常,并不是因为有些人因为这种预知能力获得了本不应属于他们的赞赏,而是这个词给人一种暗示,使人觉得这个世界比事实上更可知。这个词使得人们心中存有一种致命的错觉。

这个错觉的核心是我们认为自己了解过去,这也表明未来也应该是可知的,但事实上,我们对过去的了解比我们自认为能够了解的要少。“知道”不是唯一一个会引起错觉的词。“直觉”和“预感”等词一般也可用来形容过去的想法变成了现实。“我预感这段婚姻不会长久,但我错了”这句话听上去有些奇怪,而类似“一种直觉最终被证实是错误的“这样的说法听来也很奇怪。为了想清楚未来,我们需要清除自己过去曾经用来表明信念的语言。

后见之明的社会成本

将从前的事编成叙事故事的大脑区域是构建意义的器官。当一件不可预知的事情发生时,我们会立即调整自己的世界观以适应这种意外。试想自己正在看一场足球赛,比赛双方的输赢记录相同。现在比赛结束了,其中一方击败了另一方。在你修正过的世界观里,赢得比赛的球队比输掉比赛的球队更加强大,你对过去和将来的看法也已经被这种新感觉改变了。从各种意外事件中积累经验的做法值得一试,但这样做也可能会导致一些危险后果。

人类大脑的常规局限使它没有足够的能力重构过去的知识结构或信念。一旦接受了一种新的世界观(或对世界某一方面的看法发生了变化),你就会立即丧失很大一部分回忆能力,无法回想起自己观点改变之前的那些想法了。

很多心理学家曾经研究过人们观念发生改变时究竟发生了什么这一问题。实验人员选了一个尚无定论的话题,比如说死刑,之后他们仔细测试了受试者的态度。接下来,受试者们会看见或听见一则颇具说服力的信息,这则信息对所选话题持或赞同或否定的态度。然后实验人员再次测试受试者的态度,受试者往往倾向于他们看到或听到的那个观点。最后,受试者要说出自己在实验前的观点。这项任务也许很难。受试者被问到之前的观点时,说的往往就是现在的观点,这便体现了替代理论,而且很多人都无法相信他们之前的观点与现在的不同。

你无法重构过去的想法,这种情况会不可避免地导致你低估自己受往事影响的程度。巴鲁克。费斯科霍夫率先揭示了“我早就知道”效应,或者说“后见之明”现象,当时他还在耶路撒冷读书。在尼克松1972年访问中国和苏联之前,费斯科霍夫和鲁斯。贝斯(我们的另一名学生)作了一项调查。受试者需要对尼克松此次外交破冰之行中可能出现的15种结果的可能性作出评估。毛泽东会同意与尼克松会面吗?美国会在外交上承认中国吗?眈眈相向几十年之后,美国还会和苏联就重大问题达成共识吗?

尼克松访问结束后,费斯科霍夫和贝斯让这些人回想他们对15个可能出现的结果的预测。结果很明显。如果一个事件果真发生了,人们就会夸大自己此前作出的预测的可能性;如果可能的事件并未发生,受试者就会错误地回忆说自己当初一直都认为此事发生的可能性不大。接下来的多次实验表明,人们不仅会高估自己最初的预测,还会高估其他人作出的预测。引起公众注意的其他事件中也出现了相似结果,例如辛普森谋杀案和比尔。克林顿总统的弹劾事件。根据发生过的事来改变个人的想法会产生深刻的认知错觉。

后见之明的偏见对决策者的评估行为有着恶劣影响,它导致观察者不是根据判断过程的合理性来评估一个判断的好坏,而是以结果的好坏作为判断标准。假设有一个低风险的外科手术,手术期间发生了一件始料未及的事故,病人因此死亡。事后,陪审团更倾向于相信手术本来就存在风险,而且主刀医生应该比其他人更清楚这一点。即使在制定决策时其想法是合理的,这一结果偏见也会使人们几乎不可能对他的决策作出正确评估。

后见之明对那些决策制定者而言尤其无情,他们的工作就像是为他人做代理人,这些人包括医生、金融顾问、三垒教练、执行总裁、社工、外交家以及政治家等。好的决策如果产生了坏的结果,我们就会责备那些决策制定者;而对那些只是在事后才能明确看出是正确的决策而言,其制定者也不会因此得到什么赞扬。这便是典型的“结果偏见”。若结果很糟糕,客户常会责备代理人没有看清墙上的笔迹—却忘了这笔迹原是用隐形墨水写成的,只有在事后才能变得清晰可辨。事前原本感觉很是谨慎的行动在事后也会被看成是不负责任的过失。曾经有一项以一个真实法律案例为基础的实验,实验人员问加利福尼亚大学的学生,明尼苏达州的德卢斯市是否应该花一大笔钱租用一个全天候大桥监控器来监视桥体,防止出现瓦砾阻塞河流的风险。其中一组学生只是看了该市做决策时的已有材料,其中24%的学生就认为德卢斯市应该承担租用洪水监控器的花销。第二组受试者则被告知瓦砾已经阻塞了河流,并引起了重大洪灾。尽管实验人员已经明确告诉他们不要让后见之明妨碍自己的判断,但这组中仍有56%的学生认为该市应该租用监控器。

结果越糟糕,后见之明的偏见就越严重。遇有重大灾难发生时,比如“9•11”恐怖袭击事件,我们尤其容易相信那些没能预见到这场灾难的官员玩忽职守,置公民安全于不顾。2001年7月10日,中央情报局得到消息:基地组织可能正在谋划一次针对美国的重大袭击。时任中央情报局局长的乔治·特尼特(George Tenet)并没有把这则消息传达给总统乔治·W·布什,而是告知了国家安全顾问康多莉扎·赖斯(Condoleezza Rice)。当事实浮出水面之后,《华盛顿邮报》的传奇编辑本·布莱德里(Ben Bradlee)表示,“如果你对即将主宰历史的事件有所了解的话,也许就有机会直接登上总统宝座了,我认为就是这么简单”。但在7月10日这天,没有人知道—或者说有可能知道—这则消息最终会在历史上留下重重的一笔。

很难在事后评论人们是否严格依照标准运作过程行事,因此那些希望自己的决定能经受住后见之明检测的决策制定者只好采用官僚的做派—极不情愿冒风险。由玩忽职守引起的起诉变得越来越常见,内科医生们以多种方式改变了自己的诊疗程序:要求患者作更多检查,请教专家更多病例,采用保守疗法,即使这些方法未必奏效也要用。这些行为与其说对病人有益,倒不如说是保护了医生,埋下了利益冲突的隐患。不断增强的责任可谓福祸参半。

尽管后见之明和结果偏见总会有滋生风险之嫌,却也会给那些不负责任的冒险者带来不应得的回馈,例如某位将军或企业家一次疯狂的冒险举动竟然成功了。那些一直很幸运的领导者不但从未因冒太大的风险而受到惩罚,相反,人们总会相信他们有很强的鉴别力和先见之明,能够预见成功;而那些曾经怀疑过他们的明智的人事后也会被视为平庸、胆小、懦弱之辈。几次幸运的冒险便会给一个不顾后果的领导人罩上耀眼的光环:极富远见、英勇果敢。

真的存在能让企业基业长青的秘诀吗?

系统1的意义构建体系会让我们认为这个世界比现实中的更整洁、更简单、更可预知,且更富逻辑性。认为人类对过去了然于心这一错觉会带来更深层次的错觉—以为人类可以预知并控制未来。这些错觉会让人感到安适,如果我们允许自己充分接受世间事物的不确定性,这些错觉还会减轻自己将要体验的焦虑。我们都需要一颗定心丸,想知道我们的行动会有恰当的结果,想知道智慧和勇气一定会带来成功。很多商业书籍都是因此而应运而生的。

领导者和管理措施是否会影响上市公司的最终成绩呢?回答是:当然会,而且其影响已被系统研究证实了,这些研究客观评估了众多执行总裁的个性特征及其决策,并将这些评估结果与公司后来的业绩联系在一起。在一项研究中,各位执行总裁的性格特征常常会受到他们之前所在公司的策略的影响,在现公司走马上任后,还会受到公司管理规定和程序的影响。诸位执行总裁的确会影响公司业绩,但这种影响远比商业书籍中所宣称的小得多。

研究人员运用相关系数测量了上述(总裁个性与公司业绩之间)的相关系数,这个值在零到1之间变化。此前定义过了相关系数(和回归平均值的关系),即看共有因素在多大程度上对两种测量方式发生作用。公司成功和执行总裁特性之间的相关系数的最高值可能高达0.30,这就表明两者间有30%的重叠部分。为了充分了解这个数字的意义,请思考下面的问题:

假设你要考虑很多组公司的情况。每组的两个公司情况大致相同,但其中一个公司的执行总裁比另一个优秀,那么你多久才能发现那个执行总裁比较优秀的公司会是这组中较强的?

在一个秩序良好且可预知的世界中,相关系数会很高,而且你会发现每组中能力较强的执行总裁百分之百会领导那个更成功的公司。如果相似企业的相对成功完全是由其执行总裁控制不了的因素决定的(你也可以将这些因素称为运气),你就会发现,更成功的公司有50%的概率是处在较弱的执行总裁的领导之下的。0.30的相关系数表明你会找到那个能力更强的执行总裁来领导所有小组中60%较强的公司,这比随意猜想提高了10个百分点,这个结果充分印证了我们常常见到的对执行总裁英雄崇拜的现象。

如果你曾经希望这个数值更高—我们中的大多数人都这么希望—就应该将这种想法视为自己容易高估现实世界的可评估性的标志。不要犯错:将成功概率从1∶1提高到3∶2是非常重要的,无论是在跑道上还是在商界中,都是如此。然而,在大多数经济书籍的作者看来,一位对公司业绩几乎没有什么控制能力的执行总裁是不会给人留下特别深刻的印象的,即使这家公司运行良好,人们也不会对他有什么印象。很难想象人们会在机场书店排起长队去买一本满怀热情描述商界领袖管理经验的书,因为这些领导的表现一般而言也就比仅凭运气强那么一点。消费者亟须对决定企业成功与失败的因素有个明确的了解,他们需要一些信息帮助自己了解这些因素,哪怕这些信息有多虚假都无妨。

身为瑞士一所商学院教授的菲利普·罗森茨威格(Philip Rosenzweig)曾写过一本书—《光环效应》(The Halo Effect),该著作颇有见地。他在书中表明,有两种类型的商业书籍很受欢迎,能够满足人们对虚幻确定性的需求。这两种类型包括:描写特别的个人和企业(常见的)成功与(偶尔)失败的历史;分析成功与比较成功企业之间的区别。他总结道,成功和失败的故事常会夸大领导风格和管理措施对公司业绩的影响,因此这些故事基本上都没什么用。

为了理解正在发生的事情,我们假设一些商业专家,比如说其他公司的首席执行官,应邀对某家公司的执行官进行声誉评估。这些首席执行官非常清楚该公司最近是在走上坡路还是下坡路。与此前了解的谷歌案例一样,本例中产生了一种光环效应。人们很可能认为一家成功公司的执行总裁必定是头脑灵活、讲究方法、行事果断的人。假使一年过后事情变得很糟糕,人们又会将同一位总裁描述成稀里糊涂、僵化死板、独断专行的人。两种描述当时听上去都是正确的:看起来说一位成功的领导者僵化死板、稀里糊涂是很荒唐的,而说一位苦苦挣扎的领导者头脑灵活、讲究方法似乎也很奇怪。

明明是同一个人和同样的行为,在事情进展顺利时就是讲究方法,而事情进展不顺利时就成了死板,光环效应的影响的确太大了,因此你也许会发现自己对前述想法十分抵触。由于光环效应,我们将因果关系抛到脑后:我们很容易相信公司的失败是因为其执行总裁僵化死板,而真实情况是其执行总裁之所以显得死板是因为这家公司正每况愈下。错觉就是这样产生的。

在对成功企业的系统研究中寻求其经营之道的书籍为什么格外有吸引力?将光环效应和结果偏见结合起来就可以对这个现象作出解释了。这种类型的书中知名度最高的有那么几本,其中一本是吉姆·柯林斯(Jim Collins)和杰里·波勒斯(JerryI. Porras)合著的《基业长青》 (Built to Last)。这本书包含了关于18组相互竞争的公司的全部情况分析,每组中都有一家公司比另一家更为成功。这些对比数据包括对企业文化、经营策略和管理措施等众多方面的评估。两位作者在书中宣称:“我们认为世界上每一位执行总裁、经理和企业家都应该读读这本书,读过之后你就能建造一家梦想的公司。”

《基业长青》和其他类似书籍的基本概念是:良好的管理措施会得到认同,而执行这些措施会带来丰厚的回报。这两点都有些言过其实了。公司是非常成功还是不怎么成功,其间的区别在很大程度上要看这家公司是否幸运。知道了运气的重要性,看到非常成功和不怎么成功的公司在对比过程中体现的高度一致的模式,你就尤其应该持怀疑态度。因为存在不可测性因素,我们根本就不可能建立什么有规律的模式。

因为运气起到很大的作用,所以我们无法通过对成功的预测推断出领导水平高低和管理措施优劣。即使你的预测非常准确,知道总裁有绝佳的洞察力和超群的能力,你还是不能预测这家公司会如何运转,你的预测比抛硬币的结果强不了多少。《基业长青》一书中对卓越的企业和不怎么成功的企业的对比研究显示,总体上讲,在该研究过后的一段时间里,两类企业在企业效益和股票收益等方面的差距几乎趋近于零。在《追求卓越》 (In Search of Excellence)这本著作中提到的各家公司的平均赢利额也在很短的时间内大幅下降。《财富》月刊做了一项关于“最受推崇的公司”的调查,调查发现,在过去20年里,评级最差的公司比最受推崇的公司的股票收益更高。

你可能会试图用因果关系来解释这些观察到的结果:也许成功的公司变得自满了,不怎么成功的公司则更努力。然而,这么想是错的。必须缩小这个平均差距,因为最初的差距大都是因为运气所致,是运气使顶尖公司成功,使其他公司落后。我们已经遭遇过实实在在存在的统计学事实:回归平均值。

通过提供人类大脑所需,企业成败的故事与读者实现了共鸣,这里的所需指的是关于成败的简单信息,其中明确表明了原因,忽略了运气的决定性力量和回归的不可避免性。这些故事引起并维持了关于了解的错觉,同时给读者上了一些没有什么持久价值的课,但这些读者却偏偏愿意相信这些内容。

示例—后见之明“这个错误很明显,但这不过是后见之明,你事前根本无法知道。”“他从这则关于成功的故事中学到了太多,多得有些过头了,他现在已经陷入了叙事谬误的误区。”“她说这家公司经营不善,真是无稽之谈。她并不了解这家公司,只知道其股票在下跌。这是结果偏见,其中一部分是后见之明,一部分是光环效应。”“我们不要带有结果偏见。尽管结果偏见有时也很管用,但这个决定是很愚蠢的。”

第20章 未来是不可预测的

系统1在信息有限的情况下也能得出结论,但我们却无从得知得出这个结论的过程有多复杂。因为有了眼见即为事实原则,所以只有眼前的条件才是最重要的。逻辑上的连贯性能给人信心,而我们在观点中表现出的主观自信也反映出系统1和系统2所构建的情景的连贯性。证据的数量和质量并不那么重要,因为即使证据十分苍白也能构建一个非常连贯的故事。对于一些最重要的信念,我们其实根本就没有什么证据来证明其合理性,我们怀有这些信念仅仅是因为我们所爱的人和所信任的人也持有同样的信念。由于所知甚少,我们对自己信念的信心是毫无缘由的—但这种信念也很重要。

士兵测评的有效性错觉

几十年前,我在以色列军队服兵役。当时我已经拿到了心理学学士学位。做了一年的步兵军官后,我被派到部队的心理科,有时候我需要对士兵进行测评,看其是否完成了军官培训科目。我需要在炎炎烈日下站很长时间,观察几组汗流浃背的士兵是如何解决问题的。我们使用的测评方法是英军在“二战”时开创的方法。

其中一项实验名为“挑战无领导小组”,这项实验是在障碍训练场上进行的。参加实验的有8个士兵,他们之间互不相识,军衔都被摘掉了,身上只贴数字标签以作鉴别,他们的任务是将地上的原木拖过6英尺高的墙。全组所有人都必须翻过墙且原木既不能碰到地也不能碰到墙,而且任何人都不许碰到墙。一旦出现了任何一种违规情况,他们就必须报告并从头再来。

解决这个难题的办法有很多种。其中一个普通的办法就是让几个人像拿钓鱼竿一样按照一个角度把住原木,其他人通过原木攀缘而爬过墙。或者让一些士兵踩着他人的肩膀跳过墙去。到最后一个人时,其他人就要按照一个合适的角度把住原木,此时原木的一端是悬空的。待他跳上原木后,翘起原木,让他滑过去,最后安全地跳到墙的另一面。在这一环节中,失败是常有的事,他们需要不断从头再来。

我和另一位同事看着他们训练,记录下是谁在指挥其他人,是谁想要领导却被断然拒绝,还要关注每位士兵的合作精神对整个小组能力的影响情况。我们发现有人固执,有人顺从,有人自负,有人脾气暴躁,有人执著,而有人其实就是个逃兵。有些人的想法一旦被小组否定了,他们就不再那么努力了。然而,从这些人身上我们有时也能看出些斗志来。我们还观察了这几位士兵面对危机时的反应:有人会斥责那个导致整组沦陷的人,有人在这个精疲力竭的小组还需从头再来时打头阵。在这个测验的压力下,我们感到其中每个人都展现了自己的天性。我们对参加实验的每位士兵性格的印象就如同天空的颜色那样真切、那样深刻。

观察过这些士兵完成的几次测试之后,我们就要对他们的领导能力和决策能力进行总结,而且要用分数表示谁在军官训练中是合格的。我们深入讨论了每一次测试,回顾了我们对他们的印象。这项任务并不难,因为我们感觉自己已经看到了每位士兵的领导能力。有些人像是强势的领导;有些人则比较懦弱,或是自大愚蠢;还有的人虽然平庸但并非无药可救。有几个人看上去非常软弱,只能将他们从军官候选人行列淘汰出去。在将对每位士兵的多角度观察汇集成连贯的情况时,我们对自己的评估很有信心,感觉我们所看到的一定是他们未来的发展。当小组遇到麻烦时,敢于担当并带领团队翻过障碍墙的士兵当时就是整个队伍的领导者。那么,他在训练中或战场上会如何表现呢?显然大家都会猜测他会像在翻墙训练中表现的那样非常高效,其他的推测都不太可能,因为现实情况就摆在我们眼前。

因为对每位士兵表现情况的印象总体来看是清晰且明确的,所以我们在正式预测时也没有任何迟疑,脑海中通常只会出现一个分数,几乎不会有心生疑虑的情况,也极少有自相矛盾的情形。我们很愿意这样断言:“这个士兵根本不行”,“这个比较平庸,但还算可以吧”,或者说“他将来肯定是个人才”。我们觉得没必要质疑自己的预测,也没有必要过低预测或者只说些模棱两可的话。但如果有人对这份测评结果提出质疑,我们也愿意承认,会说“当然了,什么都可能发生”。之所以愿意承认这一点,是因为不管我们对参与测试的每位士兵的印象如何,都十分确信这份预测在很大程度上是无效的。

事实表明,我们根本就无法对参与测试的士兵的表现进行准确的预测。每隔几个月我们就会召开一次反馈会议,会上我们会了解这些新兵在军官训练学校的表现,并将我们(对他们)的评估和管理过他们一段时间的教官的意见进行对比。每次得到的结果几乎总是相同的:我们对这些士兵在军官学校的表现进行预测的能力弱到完全可以被忽略掉。我们的预测也就比凭空猜想强点,但也强不了多少。

得知这个令人气馁的消息后,我们颇沮丧了一段时间。但这里毕竟是军队,无论管不管用,都要按程序办事,都要服从命令。第二天又来了一批士兵。我们把他们带到障碍训练场地,看着他们面对着墙,抬起原木,几分钟后他们的真正本性就暴露无遗,和之前那些士兵一样明显。我们预测的质量虽低,但这个事实对于我们怎样评估士兵完全没有影响,对于我们在判断和预测士兵能力时的信心也影响甚微。

这一切都很令人关注。之前预测失败的主要原因本应动摇我们对士兵进行评判的信心,然而我们的信心并未因此受到影响。这个原因本来也可能使我们适度调低自己的评价,但我们却并未受其影响降低评价。其实我们知道自己的预测只比随意乱猜强一点,一般情况下都是这样,但我们仍然感觉自己所作的每一项预测都是有根据的,而且我们还会按照自己的预测行事。这让我想起了缪勒–莱耶错觉,我们都知道图中的线段是等长的,但一眼看过去仍然觉得它们长度不同。我对这种类推非常感兴趣,所以特意为我们的这种体验创造了一个术语:有效性的错觉。

我曾经发现了自己的第一个认知错觉。

几十年后的今天,我仍能从那个旧时的故事中看到自己思考的许多中心问题,这些问题也是本书的写作主题。我们对这些士兵未来表现的期望是替代问题的一个典型实例,更堪称典型性启发式的经典案例。我们曾经在一个模拟情景下观察一个士兵的行为,一小时后我们感觉自己能判断该士兵在面对军官训练和无领导作战的挑战时会有何表现。我们的预测是完全不能回归的,我们仅仅根据非常薄弱的证据就推测失败或者大获全胜,没给自己留一点余地。这也正是“眼见即为事实”的典型实例。

我们对观察到的行为印象深刻,对最终决定这些人作为军官表现的因素却知之甚少,而且没有什么好办法来体现这种无知。

回顾我们所做的一切,其中最值得注意的就是我们对一般原则的认识,即我们无法作出预测,这种认识对我们对个体案例的信心没有什么影响。现在我明白了,我们的反应与尼斯贝特和博吉达的学生们在得知大多数人不会去帮助疾病发作的陌生人时的反应相似。他们当然会相信自己看到的统计数字,但在判断视频中看到的某人会不会去帮一个陌生人时,基础比率并没有影响他们的判断。就像尼斯贝特和博吉达说的那样,人们通常不愿从一般情况中推断特殊情况。

对某个判断的主观自信并不是对这个判断正确概率的合理评估。自信是一种感觉,它能反映出某条信息和处理该信息时所体现的认知放松的一致性。由衷地承认不确定性乃明智之举,但如果有人声称自信满满,只能说明他在脑海里已经构建了一个连贯的情节,当然这个情节未必是真实的。

投资股票的技能错觉

1984年,我和阿莫斯以及我们的朋友理查德。泰勒访问了华尔街的一家公司。接待我们的是该公司的高级投资经理,他请我们来是要讨论判断偏见在投资中的作用。我对金融了解不多,都不知道要问他什么,但我还记得我们之间的一次交流。“你售出一只股票后谁会买?”他大致朝窗户那边挥了一下手,表示他希望买方会是像自己一样的人。这就奇怪了:是什么东西使得有人买有人卖呢?是什么使得卖方觉得他们知道买方一无所知的事情呢?

自那时起,我对股票市场的问题就越来越迷惑:一个重要产业在很大程度上似乎是建立在“技能错觉”的基础上的。每天都有数十亿笔股票交易,很多人会买同一只股票,而其他人则将这只股票出售给他们。一只股票一天当中有一亿多的股份转手是常有的事。大多数买方和卖方都知道他们享有相同的信息,之所以进行股票交易主要是因为他们有不同的想法。买方觉得股价太低,很有可能会升值;而卖方认为股价过高,极有可能下跌。问题在于为什么买卖双方都觉得当前的股价有问题,为什么他们认为自己比市场更了解股价?对于他们中的大多数人来说,这种想法其实是种错觉。

总的来看,股票市场运行的标准理论是为业内所有人士所接受的。投资行业中的每个人都读过波顿·麦基尔(Burton Malkiel)的著作《漫步华尔街》(A Random Walk Down Wall Street)。麦基尔的核心理念是,一只股票的价格包含了关于公司价值和对股票前景的最佳预测的所有信息。如果有人相信某只股票的价格明天会上涨,他们今天就会买进更多该股票。而这种大量买进该股票的行为也会反过来导致股价上涨。如果市场上所有资产的标价都是正确的,就没有人能通过交易来预测会赚还是赔了。最佳价格使得聪明无处施展,但它们也会保护不聪明的人免受自身愚钝的损害。然而,我们现在知道这个理论并不完全正确。很多投资者在交易过程中一直在赔钱,连会扔飞镖的黑猩猩都能比他们做得更好。这个令人惊讶的结论是由特里·奥登(Terry Odean)首次提出来的,他是加州大学伯克利分校的一名金融学教授,也曾是我的学生。

奥登对一万名投资者的收益账目中体现出来的长达7年间的交易记录进行了研究,他分析这些投资者通过那家公司进行的每一笔交易,总共有接近16.3万笔交易。凭着这组丰富的数据,奥登便能确定为什么一位投资者会卖掉自己所持的某只股票的一些股份,随后很快又买进另外一只股票。通过这些行为,投资者透露了他(大多数投资者都是男性)对两只股票前景的明确想法:他希望自己要买的股票比自己要卖的股票走势更好。

为了确定这些想法是否能站得住脚,奥登对投资者卖掉的股票收益和买进的股票收益进行了对比,这项对比是在交易完成一年后进行的。结果明显很糟糕。平均来说,个体交易者卖掉的股份比他们买进的走势要好,而且赢利空间相当大:每年约有3.2个百分点,远远超过两种交易的执行成本。

当然这只是平均水平,记住这点很重要:有些投资人做得很好,而有些投资者则做得差得多。然而,显然对于个人投资者中的大多数人来说,冲个澡,然后什么事也不做也会比践行脑中出现的想法更好。后来,奥登和他的同事布莱德·巴布尔(BradBarber)在研究中也支持这个结论。在一篇题为“交易有损你的财富”的论文中,他们表示,总体来看,最积极的交易者往往会得到最糟糕的结果,而交易最少的投资者却赢得了最高的收益。在另一篇题为“男儿本色”的论文中,他们提到男性比女性更常按照自己无用的想法行事,而女性在投资中的收益比男性取得的收益更多。

当然,每笔交易总是会涉及第三方的某个人。一般来讲,这第三方就是金融机构和专业投资者,他们善于利用个人投资者在选择卖出哪只股票和买进哪只股票的过程中所犯的错误。巴布尔和奥登的深入研究对这些错误作了解释。个人投资者常会抛售“赢利股”以保持自己的收益,“赢利股”即为买进后增值的股票,是涨是跌要看“亏损股”了。不幸的是,近期的赢利股比近期的亏损股在短期内走势更好,所以这些个人投资者卖错了股票,也买错了股票。可以预见,个人投资者都集中到那些吸引他们注意力的公司那儿去了,因为媒体在宣传那些公司。职业投资者往往会更有选择地接收消息。这些发现让我们晓得,金融专业人员所推崇的“掌握内情下赌注”的说法有一定道理。

尽管专业人员能够从业余人员身上赚到数目可观的一笔财富,但几乎鲜有哪个炒股的人拥有可以年复一年地在股市上始终立于不败之地的能力。专业投资者,包括基金经理,在一项基础能力测试中失败了,这项测试即为持久性成就。对所有技能的研究结果都表明:个体成就的差异具有一致性。其中的逻辑很简单:如果任何一年中的个体差异完全是由于运气,那么关于投资者和基金的排位就会不规律地改变,年与年之间的相关系数就为零。但是,涉及技能因素时,排位就会更稳定一些。个体差异的持久性是一种测量方式,通过这种方式我们就能确定高尔夫球员、汽车推销员、牙齿整形医生或者公路收费员是否拥有这种技能。

对冲基金是由经验丰富且工作努力的专业人士管理的,这些专业人士买卖股票是为了给他们的客户赢得最佳效益。然而,从50多年的研究中得来的证据还是很具决定性的:对于大多数基金管理者来说,选择股票更像是掷骰子,而不像是玩扑克。任何一年中,往往每3只对冲基金中至少有两只的表现要比整个市场的整体表现差。

更重要的是,对冲基金收益的年度相关系数非常小,也就比零稍高那么一点点。每年成功的基金差不多都是靠运气,或者说他们骰子掷得好。众多研究者有一个普遍认同的观点,那就是几乎所有炒股的人,不管他们对股票是否了解(很少人了解股票),都在玩碰运气的游戏。交易者的主观经验只不过是他们在很不确定的情况下作出的看似明智的猜测而已。然而在高效率的市场中,明智的猜测比瞎猜也准不了多少。

几年前,我得到一次非同寻常的机会,可以近距离调查金融技能中的错觉问题。我应邀到一家公司为一组投资顾问作报告,这家公司为非常富有的客户提供金融建议和其他服务。我向他们要了一些数据用于准备报告,还有一个小收获:一张电子表格中有25位匿名的财富顾问连续8年来的投资收益。每位顾问(大多数顾问都是男性)每年所得的分数直接与他的年终奖金挂钩。按照每位顾问每年的表现进行排序,并决定他们中是否一直存在技能差异,以及同一个财富顾问为他的顾客赢得的收益是否一年更比一年多,这些都是非常简单的事。

为了回答这个问题,我以两年为一组计算了排序的相关系数:第一年和第二年,第一年和第三年……一直到第七年和第八年。每两年会有一个相关系数,总共就会有28组相关系数。我知道其中的理论,也希望能找到能够表明技能持久性的些许论据。我仍然惊讶地发现28组关联值的平均值仅为0.01。换句话说,就是零。我们并未能发现技能差异的持久关联性。这样的结果和你在掷骰子比赛时所期待的如出一辙,却与技能比赛大相径庭。

这家公司中似乎没有人注意到这场游戏的本质,即股票玩家在操控一切。顾问们感觉自己在这份严肃的工作中是有能力的专业人士,而且他们的上级也同意这一点。在研讨会召开的前一个晚上,我和理查德。泰勒与该公司的一些主管共进晚餐,这些主管是决定年终红利多少的人。我们让他们猜猜每位顾问不同年份间的排名有什么关联。他们觉得自己似乎知道我们的意图了,笑着回答道“关联不大”或说“表现当然会有波动”。然而我们很快明白了,没有人希望平均相关系数为零。

我们向这些主管传达了这样一个信息,至少在构建证券投资组合时,该公司是凭借运气得到的回报,而不是技能。这一点本应让他们感到吃惊,但却没有。他们完全没有表露出不相信我们的迹象。为什么会这样?毕竟我们已经分析了他们的业绩,虽然措辞谨慎,但他们经验老到,肯定看得出来其中的含义。大家继续安静地吃饭,

我确信我们的发现及其含义都被他们刻意掩盖了,这家公司又回到了以前的运行状态。对技能的错觉不仅是个人的失误,它还深深植入了这个产业的文化中。许多对这一基本假设提出挑战的事实—因此也威胁着人们的生计和自尊心—还远远没有为人们所接受,人类大脑还没有消化这些事实。对绩效的统计研究尤其如此,这种统计研究提供了基础比率信息,当这一信息与自己从经验中得来的印象互相冲突时,人们一般就会忽视它。

第二天早晨,我们把各项发现告知这些顾问,他们的反应都非常冷漠。他们是对复杂问题进行仔细判断的人,这种经验对他们来说比一个陌生的统计结果更深入人心。活动结束后,昨晚一起吃过饭的一位主管把我送到机场。他用一种带着戒备的口吻跟我说:“我在这个公司做得非常好,没人可以否认这一点。”我笑了笑,什么也没说。我想:“我今早已经否认这一点了。如果你的成功主要是靠运气,那你又能将多少成绩归功于自己呢?”

主观自信与专业文化为认知错觉提供了生存的土壤

认知错觉比视觉错觉更顽固。缪勒–莱耶错觉虽然告诉你线段长度是相同的,但这没有改变你看线段的方式,却改变了你的行为。现在你知道不能相信自己对末端有箭头的线段长度的印象,而且你还知道在一般的缪勒–莱耶错觉中不能相信自己的眼睛。如果有人问起线段的长度,你会说出别人告诉你的长度,而不是你将看到的错误长度。与此相反,当我和同事们在以色列军队中得知领导能力评估实验的有效性很低时,我们很理智地接受了这一事实,但这并未影响我们的感觉及此后的行动。我们在金融公司得到的反应结果更是极端。我现在相信泰勒和我传达给那些主管与投资经理的信息立即就被放到记忆中的黑暗角落里去了,因为放到那里就不会对自己产生什么危害了。

不管是业余投资者还是专业投资者,都会固执地认为他们能比市场做得更好,与自己曾经接受的经济理论背道而驰,与自己从他人对自身经历公正客观的评价中学到的东西背道而驰,这是为什么呢?为什么金融界中的技能错觉可以长盛不衰?要解释这个问题,我们需要提及此前几章中的很多主题。

产生错觉最有说服力的心理学原因当然是玩股票的人拥有的都是高水平的技能。他们要查询经济数据和各种预测,查看损益表和资产负债表,评估高层管理的质量,还要对竞争对手进行估量。所有这些都是严肃的工作,需要经过大量训练。当然,从事这项工作的人也有直接(且正当)的机会来运用这些技能。不幸的是,光有评估公司商业前景的技能还不足以确保在股票交易中取得成功,因为股票交易中的关键问题是关于该公司的这些信息是否已经包含在股价里了。交易者显然缺少回答这一关键问题的能力,但他们貌似又对自己的无知一无所知。通过在障碍训练场上观察新兵,我发现交易者的主观自信是一种感觉,不是一种判断。我们对认知放松和联想一致性的理解将这种主观自信深深地植入了系统1。

最后,有效性错觉和技能错觉是由一种强大的专业文化来支撑的。我们知道,在任何情况下,当身边的人都跟自己持同样的想法时,不论这种想法有多么荒唐,人们都能保持一种不可动摇的信念。如果处于金融领域中的专业文化之中,那么该领域中很大一部分人就会相信自己是能做到别人做不到的极少数人之一。这种想法不足为奇。

专家预测的准确度比不上扔飞镖的猴子

人们想当然地从对过去的解读中预测未来,总是忽视“未来是不可预知的”这一观点。正如纳西姆·塔勒布在《黑天鹅》一书中指出的那样,我们更愿意构建和相信对过往的连贯叙述,这种叙述使我们很难接受自己的预测能力的限度。我们都知道后见之明这个道理,金融专家也是在仔细研读每份晚报之后才对当天的大事作出令人信服的解释的。今天的后见之明中有价值的部分,其实昨天就可以预见到,我们不能抑制这种强烈的直觉。我们理解过去所产生的错觉会使我们对自己预测未来的能力过于自信。

人们常用的“历史的征程”这一意象暗含秩序和方向之意。征程与漫步或者走路不同,不是随意的。我们认为自己应该能通过关注声势浩大的社会运动、文化科技发展,或者几位伟人的意向及能力来解释过去。重大历史事件是由运气决定的,尽管这一说法显然是正确的,却依旧令人震惊。提到20世纪的历史—包括其中的重大社会运动—就很难不提到希特勒、斯大林。在孕育希特勒这个生命的卵子受精后,这个受精卵将来发育为女性的概率为50%。将两件“大事”综合来看,20世纪就有1/8的可能性不会出现这两位掌权人,而一旦缺少了这两个人物,整个历史几乎就会被改写。这两个卵子的受精过程有着重大意义,也是对“长期发展是可以预测的”这一观点的巨大讽刺。

然而有效预测的错觉仍然没有受到丝毫影响,做预测生意的人充分利用了这一事实,这里所说的从事预测生意的人,不仅有金融专家,还有商界和政界的权威。电视台、电台和各家报纸都有自己的专家团,他们的工作就是对新近发生的事件进行评论,对未来进行预测,而观者和读者就会感觉自己在接受为自己量身定做的或者至少是极有见地的信息。当然,诸位专家和助推者也发自内心地认为他们提供的就是这样的信息。宾夕法尼亚大学心理学家菲利普·泰特罗克(Philip Tetlock)在一项长达20年的里程碑式的研究中解释了所谓的专家预测现象,这项研究发表在他2005年出版的《专家的政治判断:有多好?我们如何得知?》(Expert Political Judgment:How Good Is It? How Can We Know?)一书中。泰特罗克为此话题的进一步讨论设定了一些术语。

泰特罗克采访了284位以“评论政治和经济走向或提出建议”为职业的人。他让这些人对某些大事在不久的将来的发生概率进行评估,这些事件既涉及他们的专业领域,也涉及他们所知甚少的领域。戈尔巴乔夫在政变中会遭到驱逐吗?美国会参加波斯湾战争吗?哪个国家会成为下一个大型新兴市场?泰特罗克一共搜集了8万份预测。他还问过这些专家是如何得出结论的,若结论是错的,他们会有何种反应,以及他们对不能支持自己立场的论据要如何评估等问题。受试者需要对每件事的3种可能结论的出现概率作出评估:例如在政治自由或经济发展方面,是会维持现状、有所增长还是有所下降。

结果令人震惊。这些专家表现得很糟糕,如果他们简单地将这3种潜在结果出现的概率平均一下的话,可能会做得更好。换句话说,那些花时间以研究某一特别课题为生的人作出的预测还不如扔飞盘的猴子预测得准确,因为猴子能平均对待每种可能。即使在自己最了解的领域中,专家的预测也比非专业人士好不到哪儿去。

那些了解更多的人比了解少的人作出的预测强不了多少。知识最丰富的人反而常常不大可靠,原因是学到更多知识的人对自己的技能产生了一种无限放大的错觉,进而变得不切实际、过于自信。泰特罗克写道:“为了获取知识,我们匆忙而草率地预测出利润回馈缩减的临界点。在这个理论高度专门化的时代,没有理由假设顶级期刊的投稿人—著名的政治科学家、各领域研究专家以及经济学家—比记者或《纽约时报》的细心读者强多少。”泰特罗克发现预言者名气越大,他们的预言就越夸张,他写道“那些受欢迎的专家比他们那些远离聚光灯大肆评论的同事更自信”。

泰特罗克还发现,这些专家不愿承认自己过去错了,非要他们承认错误时,他们就会有一大堆借口,比如我的失误在于时机不好,突发意外之事,或者就说“我错了,但我有正当理由”。专家毕竟也是人,他们被自己的荣耀蒙蔽了,而且还痛恨错误。泰特罗克说,专家犯错误不是因为他们的思考内容,而是因为他们的思考方式。

他引用了赛亚·柏林所写的关于托尔斯泰的文章中的术语,“刺猬与狐狸”。刺猬“知道一件大事”,对这个世界有它们自己的一套理论,它们在一个清晰的框架下说明某些特殊事件,对不按自己的方式看待事情的人往往没有耐心,而且对自己的预测很有信心,它们尤其不愿承认错误。对于刺猬来说,错误的预测常是由于“时机不佳”或“就差一点儿”。它们固执己见,没有罪过,而这一点正是电视制片人喜欢在节目中看到的。两只刺猬对一个问题各执己见,每只都想攻击对方的愚蠢观点,这真是一场好戏。

而狐狸却相反,它们是更复杂的思想者。它们不相信仅凭一件大事就可以推动历史的进程(例如,他们不可能接受罗纳德。里根与苏联强硬对抗,仅凭个人力量结束冷战的观点)。相反,这些狐狸认识到,很多不同因素和作用力的相互作用导致了这一结果,这些因素中也包括纯运气因素,而这一结果往往会导致更大、更不可预知的结果。尽管狐狸的表现仍旧很差劲,但在泰特罗克的研究中,它们的得分却最高。谈及请谁参加电视辩论,可能刺猬被选中的概率会大些。

本章的主要观点并不是说那些企图预测未来的人会犯很多错误,即使不说也是如此。我们应该了解的第一点是,预测错误不可避免,因为这个世界就是不可预知的;我们应该了解的第二点是,我们不应该相信高度主观的自信就是准确性的指示器(低度自信可能更有益处)。

短期内的走向是可以预测的,且人们的行为和成就能从以往的行为和成就中得到较为准确的预测。不过,我们不应该根据士兵在障碍训练场上的行为来推测他们在军官训练和战场上的行为,测试和现实世界中的行为是由特定情况下的很多因素共同决定的。从有8个新兵的小组中调走一个坚定且自信的,其他人的个性特征也会改变。狙击手的子弹会偏移几厘米,军官的行为也会有所改变。我不否认这些测试的正确性,如果一项测试对重要结果的预测的正确性达到0.20或0.30,这项实验就应该得到推广应用。不过,你不应再有更多奢望了。你应该降低对华尔街炒股人的期望,或者干脆就不相信他们,这些玩股票的人就是些希望自己比市场预测未来股价更准确的人。你也不应该对专家们作出的长期预测抱有很高期望,尽管他们关于不远的将来可能会有有价值的见解。目前,还没有划定分开可预测的未来和不可预测的长远未来的界限。

示例—有效性错觉与技能错觉“他知道这份记录表明这种疾病的变化几乎是不可预知的,他怎么会对这个病例表现得这么自信?听起来像是有效性错觉。”“她能通过一个富有逻辑连贯性的情景来解释自己所知道的一切,这种连贯性让她感觉很好。”“是什么让他觉得自己比市场更聪明呢?是技能错觉吗?”“她就像只刺猬,有一个可以解释所有事情的理论,这让她产生一种错觉,那就是她了解这个世界。”“问题不在于这些专家是否训练有素,而在于他们的世界是否是可预测的。”第21章 直觉判断与公式运算,孰优孰劣?

保罗·米尔(Paul Meehl)是个性格奇特而又超凡脱俗的人,是20世纪最有才华的心理学家之一。他曾在明尼苏达大学的心理学系、法学系、精神病学系、神经病学系以及哲学系任教,同时写了宗教、政治科学方面的文章,还曾经研究过老鼠。米尔习惯用统计数字说话,经验丰富,曾对临床心理学的空洞言论大加批评,在精神分析方面有过实践。他写过一些论述心理学研究的哲学基础的文章,这些文章很有思想,我在读研究生时几乎能把它们全部背下来。我从来没见过米尔,但自从我读了他的那本《临床与统计的预测:理论分析与事实回顾》(Clinical vs. Statistical Prediction:A Theoretical Analysis and a Review of the Evidence)后,他便成了我心目中的一位英雄。

在这本他后来称为“让我烦恼的小书”的薄册子里,米尔回顾了20项研究结果,这些结果分析了以经过训练的专业人士主观印象为基础的“临床预测”,是否比按某种规则将一些分数或等级评定结合在一起作出的“统计”预测更准确。在一项典型的研究中,经过训练的辅导员预测了新生在学年末的成绩。他们与每个学生进行了45分钟的谈话,还参考了他们高中时的成绩、几次能力测试加上一份4页长的学生的个人陈述。数据统计的方法则只采用了其中的一小部分信息,即高中成绩和能力测试。然而,应用数据统计方法得出的结果要比14名辅导员中11个的预测都准确。米尔综合其他多种预测结果得出了相似的结论,这些预测包括违反假释程序、飞行员的成功训练以及刑事累犯情况等。

不出所料,米尔的著作在临床心理学家中引起了震惊和质疑,这一争议引发了一股研究大潮,自该书出版至今50余载,这股大潮还在继续。将临床预测和统计预测进行对比的研究报告大约已有200篇,然而两者的对峙依然没有分出胜负。大约60%的研究指出,运算手法更准确。其余的比较研究认为两者准确性相近,但似乎数据统计方法更胜一筹,因为它比人工判断的成本低。至今还没有令人信服的例外情况记录在案。

预测结果的范围已经延伸到了医学的可变因素,比如癌症病人的寿命、住院时间、心脏病的诊断以及婴儿对猝死综合征的敏感性;经济措施,比如新企业的成功前景、银行对信用危机的评估、员工对未来职业的满意度;政府机构所关心的问题,比如收养人的适合条件评估、少年累犯的可能性以及其他暴力行为发生的可能性;还有一些混合结果评估,比如科学报告的评估、橄榄球比赛的胜负预测以及波尔多酒的价格预测。这些领域都有很强的不确定性和不可预见性。我们将其称为“有效性低的环境”。在这些情况下,专家预测的准确性与简单的运算得到的结果相当,甚至还要低于简单运算的结果。

在该书出版30年后,米尔自信而骄傲地说:“在社会科学中,还没有哪一项研究像这项一样,众多研究虽定性不同,结果却都一致地指向同一个方向,这一点是毫无争议的。”

专家预测比不上简单运算准确

奥利·阿申菲尔特(Orley Ashenfelter)是普林斯顿大学的经济学家,爱喝葡萄酒。对于简单的统计学方法的力量可以胜过世界著名学者的观点,阿申菲尔特曾经作过一个引人注目的论证。他想通过波尔多酒生产年所提供的相关信息来预测该酒的未来价值。这个问题之所以重要,是因为优质葡萄酒要想达到质量的顶峰需要很多年。出自同一个酒窖的酒,因其年份不同,在价格上有很大差异。生产时间相差12个月的酒,其价值会相差10倍或更多。预测未来价格的一项因素是它的本质价值,因为投资者买酒就像买艺术品一样,都希望它能够增值。

人们通常认为葡萄酒酿造期之所以能够决定酒的好坏是受生长期间天气多样性的影响,温暖干燥的夏季会酿就最好的葡萄酒,因此全球变暖貌似会惠及葡萄酒产业。湿润的春天也会使这一产业受益,这样的天气会在不影响质量的情况下增产。阿申菲尔特通过天气的三个特征—夏季生长期的平均温度、丰收期的降水量以及上一个冬季的总降水量—来估测出葡萄酒的特质及特定的年份,再将这些常识性知识转化成数据公式来预测葡萄酒的价格。他的公式给出了未来几年甚至几十年后的准确价格预测。事实上,他的公式所预测的葡萄酒期货价格比新酒的市价更准确。这个新的“米尔模式”向那些为前期价格定位提供建议的专家的估价能力发起了挑战。它还对经济理论发起了挑战,根据这些理论,价格应该能够反映出所有有用信息,包括天气因素。阿申菲尔特的公式非常精确,预测价格与真实价格的相关系数超过了0.9。

为什么专家预测不如简单运算准确?米尔猜测其中一个原因是这些专家试图变得聪明,总想跳出思维的框框,在预测时会考虑将不同特征进行复杂的结合。复杂化对稀奇古怪的事情是有影响的,但十有八九会降低其正确性,将这些特征简单地整合在一起反而会更好。有几项研究已经表明,即使人们知道公式给出的建议分数,人类决策制定者在面对预测公式时也会自叹弗如。他们认为自己比公式强大,因为人们拥有关于这一问题的其他信息,但他们往往是错的。在米尔看来,在极少数情况下,我们可以利用主观判断,其他时候用判断替代公式并不是个好主意。在一个著名的思维实验中,他描述了一个能够预测某人今晚会不会去看电影的公式,他指出,如果知道此人今天摔断了腿,不用这个公式也罢。于是就有了“断腿原则”。当然,关键问题是断腿的概率太小了,但一旦腿断了,结论也就很明确了。

专家判断不可取的另一个原因,是人们对复杂信息的最终判断很难达成一致。如果有人要求这些专家对同一信息进行两次评估,他们通常会给出不同的答案。这些不一致之处往往正是真正令人关切的地方。一个经验丰富的放射科医师在两个不同的场合看到同一张片子,这两次检查结果在“正常”与“异常”之间会有20%的偏差。一项让101名审计员独立评价企业内部审计业务可靠性的实验也反映出类似的不一致程度。此前曾有过对不同专业人士判断可靠性的41项研究,研究要求审计员、病理学家、心理学家、组织管理者等专业人士回顾自己原来的判断。尽管他们对每个案例的再次评估在几分钟内就完成了,但实验结果还是说明了判断的不一致性非常典型。不可靠的判断使人们对任何事物都不可能作出有效预测。

这种普遍的不一致性很有可能是由于系统1对极端条件的依赖所致。我们从那个主要实验可以得知,在我们的环境中有一种不被注意的刺激物在本质上影响着我们的思想和行为。这种影响会从这一时刻波及下一时刻。在炎热的天气里,短暂的凉风会使你感到心情舒畅,这个时刻无论评估什么都会相对更积极一些。对于一个将要获得假释的犯人来说,在假释审核期间的每一顿饭之间,他都会有很大的变化。由于我们对我们思想中的东西没有一个清晰的认识,我们永远不会知道在周围环境有微小的变化时,我们会作出不一样的判断。公式却不会有这样的问题,输入不变,输出也不会改变。可预见性很差—这是米尔和他的后继者们在研究中得出的—不一致性会破坏任何预测的有效性。

这项研究得出了一个惊人的结论:要提升预测的准确度,最终的结果应由公式给出,在低效的情况下尤其如此。例如,在医学院的学生录取工作中,最终决定一般由面试候选人的老师来做。这一依据是片面的,但他们的推测也有可靠的证据:如果面试官也参与最终的录取工作,面试的过程很可能会降低选拔过程的准确性。这是因为面试官过于相信自己的直觉,他们会很重视个人的喜好而忽略很多其他信息,从而降低了有效性。同样,专家在评估新酒的价格时会品尝酒,这种信息的反面作用大于正面。当然,即使清楚天气对酒质的影响,专家们也无法保证公式那样的一致性。

继米尔的最初研究之后,促进该领域最重要发展的要数罗宾。道斯所发表的著名论文《决定中非正当线性模型的稳定之美》了。社会科学中常用的数据统计分析是按照某一运算法则评估不同的预测因素,这叫做多次回归,且已经被运用于常用软件中。多次回归中体现的逻辑很有说服力:它找到了将各种预测因素权衡后再整合到一起的最理想公式。然而,道斯发现,这种复杂的数据运算没什么用处,人们也可以通过选取一组对于预测结果以及提升价值都很有效的数据作出类似的判断(使用标准数据或者是等级)。一个公式与这些预测因素以同样的权重结合起来预测新事物才有可能像使用多次回归处理原始样本一样取得理想的预测效果。更新研究则更深入地指出:均衡考虑各项预测因素的公式更有优势,因为它们不受样本突变的影响。

这种基于等权原则的计算方案的成功有着重要的实践意义:它可以在不作任何事前统计研究的基础上就能开发出有用的运算方法。这种基于现有数据或者常识的简单等权公式通常可以预测出意义重大的结果。在一个令人难忘的例子中,道斯指出了婚姻的稳定性可以通过一个公式来预测:

做爱的频率减去争吵的频率
你应该不会希望得到的结果是负数。

这个研究的重要结论是,在信封背面构思的一个运算公式通常可以和理想化的公式媲美,与专家的言论相比肯定更胜一筹了。这种逻辑适用于很多领域,从证券投资组合经理对股票的选择,到医生和病人对治疗方式的选择。

一项拯救了千万婴儿的简单运算法堪称对于这项研究的经典应用。妇产科医生清楚地知道,如果婴儿在出生后的几分钟内无法正常呼吸的话,他/她就会有很大的脑损伤甚至夭折的风险。在1953年麻醉学家弗吉尼亚·阿普加(Virginia Apgar)介入之前,内科医生和接生人员一直在用他们的临床经验来判断婴儿是否处于危险状态,不同人员的依据也不尽相同。一些人侧重于观察孩子的呼吸情况,另一些人则观察婴儿的啼哭频率。由于没有一个标准,人们经常错过危险信号,导致许多新生儿不幸夭折。

一天早饭后,一个住院医生问阿普加医生如何对新生儿作系统评估。她回答道:“这很简单,你可以这样做。”阿普加快速写下了5个变量(心率、呼吸、反应、肌肉强度和颜色)以及3个分数(0、1、2分别代表各个变量的稳健度)。阿普加意识到自己可能会有所突破,而且这一突破还可能被应用到所有的产房中,她便开始用这种方法评估每一个出生一分钟的婴儿。一个得到8分以上的婴儿一般是肤色粉红、蠕动、啼哭、面部扭曲并拥有100次以上的脉搏,这样的婴儿外形很好。低于4分的婴儿一般是浑身青紫、肌肉松弛、不爱动且心跳微弱,这样的婴儿需要立即救治。应用了阿普加的评分原则后,产房的护士们终于在判断婴儿情况是否危险的问题上有了一套标准,人们认为这个公式对减少婴儿的夭折率起到了很重要的作用。现在,阿普加的方法依然应用于每一个产房中。阿图尔·甘德(Atul Gawande)近期的著作《一份清单宣言》(A Checklist Manifesto)也介绍了一些其他案例,以说明列表以及简单原则的优点。

让许多业内人士烦恼的运算法

从一开始,很多临床心理学家就不认同米尔的观点,对此持怀疑态度。他们显然幻想过自己有长远预测的能力。我们在深思熟虑后,不难发现这种幻想是如何产生的,也可以理解临床医生为何反对米尔的研究。

证明临床统计可信度低的统计证据与临床医师对自己判断质量的日常体验相悖。经常接触患者的医生对每一个疗程都有其直觉,他们可以预测病人对干预治疗会有什么反应,并猜测下一步会发生什么。很多推测都得到了证实,这显示出临床医师真实的临床诊断能力。

问题是在整个治疗期间,这些正确的判断涉及的都是短期预测,而且是在当面诊疗后作出的预测,这项技能是治疗师经过长期实践得来的。他们失败的任务往往需要对病人的病情作长远的预测。想要做到这一点尤为困难,因为即使是最好的公式也只能是有个大概,临床医师也不可能完全了解,这需要患者多年的反馈,而不仅仅是当时短暂的治疗反馈。然而,临床医师可以出色完成的任务与他们完全不能做的事情之间没有绝对的界限,当然他们自己也是如此认为。他们知道自己有医术,但却不一定知道医术的终极。当然,认为机械地将几个变量整合到一起就会超过人工判断微妙的复杂性的想法对有经验的临床医师来说显然也是错误的。

这场关于临床预测与数据统计预测孰优孰劣的辩论总会涉及伦理道德的范畴。米尔写道,统计方法被那些临床医师批评为“机械化、自动化、附加物、模式化、人工化、不真实、表面化、武断、不完善、无生机、迂腐、片面、无关紧要、武断、数据化、表面化、死板、无前景、学术化、伪科学且很盲目”。相反,临床方法被它的支持者称赞为“灵活、全球化、有意义、正统、精细、统一、机构完整、有规律可循、系统化、丰富、深邃、真实、科学、成熟、准确、生动、正确、自然、可行,以及可以被理解”。

这种观点我们都可以理解。无论是约翰·亨利(John Henry)在山顶上挥锤,还是国际象棋天才盖瑞·卡斯帕罗夫(Garry Kasparov)与计算机“深蓝”的对决,我们总会同情我们人类自己。对通过数理统计来作决定的厌恶情绪影响着人类,这种厌恶源于我们本身对自然事物的偏好以及对人工合成产物的否定。选苹果时,如果有人问我们喜欢有机的苹果还是商业种植的,大多数人都会倾向于“全天然”的那个。即使被告知两者的口味相同、营养相同而且同样卫生,很多人还是会选择有机水果。商人们甚至发现,标签上印有“全天然”或者“不添加防腐剂”时,销量就会增加。

欧洲葡萄酒协会对阿申菲尔特推测波尔多酒价格这一公式的反应表明,业内人士对揭秘专业知识有着强烈的抵触情绪。阿申菲尔特的公式对公众而言是一种福祉:我们原本以为各地的葡萄酒爱好者都会感谢阿申菲尔特,他提出的公式提高了这些人辨别葡萄酒质量的能力,使他们能够分辨哪些葡萄酒多年后会有上乘的品质。然而事实却并非如此,据《纽约时报》报道,法国葡萄酒界对此的表现是在“愤怒和歇斯底里之间”。阿申菲尔特指出一个品酒专家认为他的发现“荒唐可笑”,还有一个人也嘲笑他“就像没有亲自看过电影却对这部电影评头论足”。

作重要决定时,对运算法的偏见就会被放大。米尔指出:“有些临床医师会因一个‘盲目的、机械化的’公式而耽误了可以治疗的病例,这是很可怕的,但我也没有什么好办法来缓和这种令人恐惧的情形。”相反,米尔和其他的运算法支持者激烈争论,如果说运算法在作出重大决定的时候可以减少错误,那么仍旧凭直觉判断就是不道德的。他们的论述有理有据,但却与一个心理学事实背道而驰:对大多数人来说,错误的原因最重要。由于运算法导致婴儿死亡的案例比人为因素造成的悲剧更让人感到悲痛。这种情感强烈程度已经上升到道德取向的层面了。

值得庆幸的是,随着运算法在生活中适用范围的不断扩大,人们也在慢慢接受它。我们在寻找喜欢的书籍或音乐时,会接受软件推荐的选项;我们理所当然地认为人为因素并没有影响信贷限额的决定;我们也越来越习惯那些以简单的运算法形式出现的指导方针,比如说我们应该努力将有益和有害的胆固醇水平维持在什么比例。公众现在已经意识到,在体育界公式能比人做得更好:一个职业球队该给新队员开多少薪水,或者在第四节的什么时候该踢凌空球。随着运算法使用范围的扩大,大多数人第一次接触米尔在他那本“让我烦恼的小书”中提到的结果模式时,他们的不适应感最终必将会降低。

“闭上眼睛”的直觉判断比主观判断更可取

1955年,作为以色列国防军中一个21岁的陆军中尉,我接受指派为全军建立一套测试系统。你也许会惊讶为什么会将如此重任交给我这么年轻的人,但请记住,以色列当时建国才7年,国内所有的机构都在筹建当中,必须有人去建设。今天听来有些奇怪,我的心理学学士学位竟然能够证明我有能力成为军中最训练有素的心理学家。我的顶头上司是一个才华横溢的研究者,他拥有化学学士学位。

当我接到任务时,例行面试已经准备就绪。每一个入伍的士兵都要完成一系列心理素质测试,对那些有作战任务的士兵要进行个性评估。我们的目标是要给这些新兵对作战适应性打一个分,并在步兵、炮兵、装甲兵等兵种中给他们选择一个最适合他们个性的兵种。面试官们本身也是新兵,之所以被选中做面试官是因为她们智商高,喜欢与人打交道,她们中的大多数人是当时不必参战的女兵。经过几周培训后,她们学会如何安排一个15~20分钟的面试,培训人员还鼓励她们要覆盖多个话题,而且要尽量对被测试者日后在军中的表现情况形成一个整体的印象。

不幸的是,接下来的评估已经显示这种测试过程对预测新兵日后成功与否毫无用处。于是他们要求我设计一个更有用但不会更耗时的测试。他们还要求我设计新的面试方法,并评估这个方法的准确性。从专业角度来讲,这些任务的难度与让我建一座横跨亚马孙河的大桥差不多。

幸运的是,我读过保罗·米尔那本一年前出版发行的“小书”。我很相信书中的论证,认为简单的运算法优于临床的直觉判断。我总结出,当前的面试之所以失败,部分原因是它允许面试者按照个人的喜好作决定,这个决定会因面试者的心理活动而发生一些变动。相反,我们应该用限时的项目来获得受试者在正常环境下更具体的信息。我从米尔那里还学到了我们应该摒弃这种用面试者的整体评估来给新兵打分的方法。米尔的书中指出这种评估不值得相信,而运算法从分散的评价中得出的结果则更有价值。

我决定采用这样的过程,面试者要评估几项相关个性特征,为每项单独打分。最后的作战适应性结果由计算机根据一个特定的公式给出,面试者不干预。我列了一个表格,其中包含与作战表现相关的6个特点,包括责任心、社交能力以及男子气概等。之后我再针对每个特点整理出一系列关于他们入伍之前生活的问题,例如之前做过几份工作、工作和学习时是否准时、和朋友交往的频率,以及他的兴趣爱好和参加过的运动等。这便使我能尽量客观地从每个角度对新兵进行评估。

通过这些标准化的真实问题,我希望能够排除光环效应,排除人们喜好的第一印象对判断结果的影响。为了进一步预防各种光环的影响,我要求面试官依照固定的顺序去测试这6个特点,在测试下一个特点之前要对前一个特点按5分制打分。我告诉他们不要为新兵在部队的未来发展操心。他们唯一的工作就是找出与新兵的过去相关的信息并以此来给每一个特性打分。“你们的作用就是提供可靠的测定值,”我说,“处理预测有效性的工作让我来。”我这句话的意思是我要用公式来整合他们的具体得分。

面试官们齐声抗议这种安排。这些优秀的年轻人对我这个和他们差不多大的中尉的命令有点不情愿,毕竟这样的要求禁止他们运用直觉,将注意力完全放在一些无聊的真实问题上。其中一个人抱怨说:“你在把我们变成机器人吧!”所以我妥协了,“按照要求进行测试吧,”我说,“请完全按照要求来进行测试,测试完后,就像许愿那样闭上眼睛,将新兵想象成一个战士,并给他打分。

我们对几百次面试都采用了这个新方法。数月之后,我们收集了新兵指挥中心对他们表现的评价,这使我们很欣喜。正如米尔的书中提到的那样,新的测试过程比原来的过程有质的飞跃。虽然离完美还有一定差距,但6项指标整合起来作出的预测比之前的整体评估要准确得多。我们已经从“徒劳”进步到了“有效”。

面试官“闭上眼睛”后的直觉判断也很准确,甚至和整合6项指标得到的运算结果一样准确,这是我最为惊喜的地方。我从这一发现中学到了毕生难忘的一课:即使是不那么正规严肃的遴选面试,直觉也会起到积极作用,当然前提是按照规定收集客观信息并对不同特性进行独立评分。我建立了一个给予“闭眼”评估和整合6项指标同等权重的公式。从这件事中我学到一个普遍规律:不要简单地相信直觉判断—无论是你自己的还是他人的—但也不要完全抛开它。

45年后,我获得了诺贝尔经济学奖,在以色列一时间也小有名气。在一次访问中,一些人想带我看看旧时服役的军事基地,那里依然矗立着测试新兵的房子。有人把我介绍给心理组的司令部官员,她向我介绍了目前的测试方法,和我当时设计的没有什么两样。在那里,大量研究显示该测试依然有效。最后在介绍如何引导面试官时,她补充道:“我们告诉他们,‘闭上你们的眼睛’。”

本章的内容已经在部队人力测试以外的项目中也得到了应用。按照米尔和道斯的原则进行的测试过程相对来说不怎么费力,但却相当严格。设想你要为你的公司招聘一名销售人员。如果真的想选择最合适的人选,那么你应该这样做:首先,选择一些这个岗位要求的先决条件(比如技能熟练程度、个性稳重程度、可靠性等)。不要列太多,6个左右即可。这些条件最好相对独立,同时要保证你通过一个问题就能够对这几个条件进行评估。下一步就是为每个条件都列出一些问题,并想好如何对其进行评估,分数为1~5分。你应该清楚什么情况“最弱”,什么情况“最强”。

作这些准备大约需要半个小时,这种很小的投入能保证你招聘到的员工的质量。为了避免光环效应,你必须在一定时间内完成某一个特性的信息采集并对其打分,之后才能测试下一个。不要越过某个特性去测其他项目。评估每个候选者时,要将这6项评分累加起来。由于你要负责作出最终决定,那就不要“闭眼”测试了。即使你认为其他候选人更合适,也一定要雇用那个得分最高的人—请尽量克制自己创造“断腿”机会改变排位的想法。大量的研究可以向你保证:只要按照该过程操作,你就能找到最合适的人选。这比人们通常用的那些没有准备就开始面试,并依靠“我看到了他深邃的眼神,我喜欢自己看到的一切“这类主观判断要好得多。

示例—人工判断和公式运算“不管何时,只要公式能替代人工判断,我们至少应该考虑一下(运算法)。”“他认为自己的判断既缜密又微妙,但实际上把一些分数简单地整合在一起也许会更胜一筹。”“我们应该事先考虑清楚自己有多重视这些候选者以往的表现,否则,对他们的第一印象会对我们产生过多的影响。”第22章 什么时候可以相信专家的直觉?

专业人士的争论暴露了学术界最为糟糕的一面。科学杂志上偶尔会有一些交流文章,开始是某人对他人研究的批判性评论,接着就是被批判专家的回复和反驳。我一直认为写这种文章是在浪费时间。最初的那篇批判若言辞犀利,其回复和反驳便尤其激烈,我将其称为对始作俑者的讽刺和深度讽刺。回复很少会对尖锐的批判作出任何让步,而且也没听说过某个反驳者会承认开始的那篇批判性文章有任何误导性或者错误。只有在少数情况下,在我认为批判具有严重的误导性时,我才会做出回应。这是因为,此时不回复可能会被视为对错误的默认,但我从来没有发现这些不友善的批判有什么指导意义。为了寻求另一种方式来化解分歧,我曾参与了几次“对手合作”活动,在这一活动中,对某项科学研究见解不同的学者需要就他们的不同观点共同撰写一篇论文,有时还要一起进行研究。在争论特别激烈的情况下,这项研究则由裁决者主持。

我与加里·克莱因进行的对手合作是我最为满意也是最有成效的一次。加里·克莱因是某个协会的优秀领导,他所在协会的学者和成员都不看好我做的工作。此协会的人称他们自己为自然主义决策学者,他们中的大多数人都在各类组织里工作,在那里他们经常研究专家们是怎样工作的。他们坚持反对在研究启发式和偏见时关注偏见。他们认为这种研究模式过于关注失败,并且是通过仿真实验进行研究,而不是通过真人真事。他们高度怀疑以严谨的计算来代替人工判断的价值,所以,他们并不推崇保罗·米尔。多年来,加里·克莱因一直保持着明确的立场。

我们的合作几乎没有奠定什么美好友谊的基础,但整个过程中却有很多值得铭记的东西。过去我从不认为直觉总会产生误导。自从读过克莱因于20世纪70年代撰写的一篇论文的草稿之后,我曾一度非常推崇他关于消防员专业技能的研究,他的著作《力量的源泉》也给我留下了深刻的印象。这本书用很大篇幅分析了经验丰富的专家是如何开发出直觉能力的。我邀请克莱因一起参与直觉成败界限的划分工作。他对这个想法很感兴趣,虽然我们并不肯定这项工作会成功,但还是一起开始了这项工作。

我们首先要回答一个具体的问题:什么时候你可以相信那些声称自己有直觉能力的经验丰富的专业人员?很明显,克莱因更容易相信这些专业人员的直觉,而我则更容易对此心存质疑。不过,我们在回答这个一般性问题时是否可以遵从一定的原则呢?在七八年的时间里,我们有过多次讨论,解决了许多分歧,也发生过不止一次的争执。我们写过很多稿件,成了朋友,最终还联合发表了一篇文章,文章的标题见证了我们的经历—“相信专家直觉的条件:达成一致”。的确,我们并没有遇到真正存有分歧的问题,但我们也没有真正达成一致。

直觉就在眨眼之间

当我和克莱因进行上述项目的研究时,马尔科姆·格拉德威尔(Malcolm Gladwell)的畅销书《眨眼之间》(Blink)问世了。这本书使我们更加确信我们对共同研究的问题的观点是一致的。格拉德威尔这本书开篇的故事令人印象深刻:一些艺术名家鉴赏雕像中的杰作—一个阔步行走的男孩雕像。有些专家本能地认为这个雕像是仿冒品,但也说不清楚是什么让自己有这种感觉的。读了这本书的人(有数百万人读过)都认为直觉在其中起了作用。这些专家知道雕塑是仿冒的,却不知道自己为什么知道—这正是对直觉的定义。这个故事好像在暗示,对引导这些专家的线索进行系统调查应该会失败。不过,我和克莱因却并不这样认为,我们觉得,这样的调查很有必要,而且,如果方法得当(克莱因知道该怎么做),是有可能成功的。

读过这个故事的读者会对专家近乎神奇的直觉啧啧称奇,但格拉德威尔本人却并不那样认为。在随后一章中,他讲述了一个因相信直觉而造成的巨大失败:美国总统哈丁之所以当选是因为他符合总统的相貌特征:高个子、宽下巴,是典型的强硬而果断的领导者形象。人们把票投给他没有其他理由,只是因为他的外表看起来强硬和果断,就认为他是这样的人。之所以出现了哈丁作为总统表现会如何的直觉预测是因为选民替换了问题。本书的读者会期待自己也能拥有这种信心满满的直觉。

克莱因形成其直觉观点的早期经历与我的不同。我的观点是通过观察自己的有效性错觉以及阅读保罗。米尔关于临床预测缺点的实证研究而形成的。克莱因的观点是在他对火场指挥官(消防队的领导)的早期研究的基础上形成的。在指挥官对抗火灾时,他进行了跟踪调查并在火灾扑灭后对指挥官当时做决策的想法进行了采访。克莱因在我们合作的文章中写道,他和他的合作者:

调查指挥官们是怎样不加选择就做出正确决策的。最初的假设是指挥官会将其分析限制在两个选项中,但这个假设已被证实是错误的。事实上,指挥官只萌生了一个选项,且这个选项也正是他们所需要的。他们花了超过10年的时间进行真实和虚拟的演练,以识别出合适的选项作为首选,而在有真实需要时,他们就可以利用这个累积了多年的指令库。他们评估某个选项的方法是在脑部模拟这个选项,看它是否适用于当时的情况……如果他们考虑的这个做法大概可行,他们就会这样做;如果这样做不太好,他们就会对其进行调整;如果不易调整,他们就会选择下一个最有可能的选项。然后,重复上面所说的过程,直到找到一个合适的做法。

克莱因将上面的描述定义为一种决策制定理论,他称之为预认知决策模式。预认知决策模式可以用来解释消防员的专业技能,也可用来解释其他领域的专业技能,包括下象棋。系统1和系统2同时参与了这个过程。在第一阶段,暂定计划通过联想记忆(即系统1)的自主功能呈现在大脑中。下一阶段是一个需要深思熟虑的过程,大脑会对这个计划进行模拟以检测其是否有效,这是在系统2的运作下进行的。不久前,赫伯特·西蒙提出将直觉性决策制定模式视为从认知模式中提出想法,而且,赫伯特·西蒙可能是唯一一个被各路决策研究者公认为英雄和创始人的学者。我在本书的序言部分曾引用了赫伯特·西蒙对直觉的定义,现在重复一下会更有意义:“这个棋局已经给了我们提示,根据这个提示我们可以搜寻到大脑存储的信息,而这个信息就能给出答案。直觉只不过是人们的认知而已。”

这个有力的陈述用日常经验的记忆解释了直觉的不可思议。消防员凭借其对危险的直觉(“尽管不知道自己是如何拥有这种直觉的”)能在房屋塌陷前逃脱的故事的确令人称奇,然而,我们也不知道自己为什么立刻就知道一进屋看到的那个人就是我们的朋友彼得。西蒙这番话的寓意是,人们在不知情的情况下就能知道,其中的奥秘并非直觉的显著特征,而是大脑的常规活动。

专家型直觉的习得

构成直觉的信息是怎样“储存在记忆中”的呢?某些类型的直觉能够快速习得。我们从祖先那里继承了一个重要机制,学会何时应该感到恐惧。的确,“一朝被蛇咬,十年怕井绳。”我们中的许多人都有过这样深刻的记忆,记得有家餐厅有一道自己不喜欢的菜,于是我们就一直不愿再进那家餐厅了。在接近曾发生过令人不快的事件的地点时,我们都会感到紧张,即使当时根本不可能再次发生同样的事情也会感到紧张。对我来说,前往旧金山机场的斜坡就是这样的一个地点。多年前,有个怒路症司机从上高速公路之后就一直跟在我后面,他还摇下车窗,骂了我几句脏话。我一直都不明白他为何会发怒,但我每次经过那个斜坡时,总能记起他的声音。

我对于这件事的记忆是有意识的,这也充分解释了我当时的情绪。但在许多情况下,你会在去到某个特别的地方或是听到某个特别的说法时感到不自在,即使这个地方或这个说法并没有触发记忆中的某个事件时也是如此。如若事后真有什么不好的事发生,你的后见之明就会将那种不自在看做是直觉。这种情绪学习的模式与巴甫洛夫著名的条件反射实验密切相关。在那个实验中,狗学会了识别食物到来时的铃声。巴甫洛夫的狗所学到的可以称为习得的希望,而习得的恐惧则更容易被感知。

恐惧可以被感知,事实上也很容易被感知,因为无须亲身经历只需通过语言就能感知。对危险有着“第六感”的消防员肯定有很多机会讨论及思考多种他并没有亲自参与的火灾,并在脑中对会有什么样的线索出现以及该怎样反应进行演练。我还记得,一名没有作战经历的年轻排长在带领部队穿越峡谷时会很紧张,因为他曾经学习过这样的地形很可能会有埋伏。学习需要一定的反复强化。

情感学习可能很快,但学习我们所说的“专业技能”通常需要很长时间。学习专业技能,例如高水平的国际象棋、职业篮球以及消防技能,很复杂也很缓慢,因为某个领域的专业技能涉及的不仅是一项单一的技能,还包含了很多小技巧。象棋就是一个很好的例子。一名专业棋手一眼就能看清一个复杂的棋局,但达到那样的能力水平却需要很多年。对象棋大师的各项研究表明,想要达到高水平需要至少10000个小时的专注练习(大约需要在6年的时间里每天练习5小时)。在注意力高度集中的这若干个小时内,一个谨慎的棋手会熟悉数以千计的棋局,且每个棋局中的棋子都有攻守关系。

学习高水平象棋好比学习阅读。一个一年级的学生需要努力学习单个字母,再将这些字母组合成音节和单词,但一个成年人则可以掌握所有从句。一个精于阅读的人还可以将熟悉的成分组合在一个新的句型中,并能快速“识别”且正确读出一个她从未见过的单词。重复出现且相互关联的棋子如同字母,而棋局则像一个长的单词或是句子。

技能过硬的读者第一次看到刘易斯·卡罗尔(Lewis Carroll)所作的《隐语重重》(Jabberwocky)的开篇诗句,就能够以完美的节奏和音调读出来,且朗朗上口:

是滑菱鲆在缓慢滑动,时而翻转,时而平衡;

所有的扭捏作态展示了,蠢人的早熟、懒人的平庸。

掌握下棋的技巧要比学习朗读更难也更慢,因为象棋的“字母表”含有更多的字母,每个“单词”也包含许多字母。然而,经过上千小时的练习以后,象棋大师能够一眼就“读”出棋局。他想出的那几步棋通常也都很高明,有时还会令对手措手不及。他们可以处理自己从未遇到过的“单词”,还能找到一个新的方法去解释一个熟悉的“单词”。

环境有规律可循,直觉才可相信

我和克莱因很快就发现,我们对直觉技能的本质和习得的观点一致,但还需就我们的关键问题达成共识,即什么时候可以相信一个自信的专业人士的直觉。

最终,我们推断我们之间出现分歧的一部分原因是由于我们的专业不同。克莱恩花了很多时间研究消防指挥官、临床护士以及其他真正具有专业技能的职业。我的大多数时间则用在了对临床医生、股票投资者以及政治学者等人的研究上,这些人普遍都在做毫无依据的长期预测。克莱因则更愿意相信那些称自己有直觉的专家,据他说,这是因为真正的专家知道自己知识的局限。我与他争辩道,也有许多伪专家并不清楚他们其实并不知道自己正在做什么(有效性错觉),总的来说,人们的主观自信普遍过高而且通常毫无根据。

早些时候,我研究过人们自信的来源,认为以下两点与之相关:认知放松和一致性。如果我们能很轻松地想到自己想要的那个故事,且各个情节之间并无矛盾时,我们就会很有自信。但是放松和一致并不能保证我们充满自信的观点就是正确的。联想机制会抑制怀疑并引发与当前情况相符合的想法与信息。遵从眼见即为事实原则的大脑可通过忽略自己所不知道的事而变得过于自信。因此,许多人容易对没有事实根据的直觉怀有高度的自信也就不足为奇了。我和克莱因最终就一个重要的原则达成了共识:人们对直觉的自信心不能作为他们判断的有效性的可靠指标。换句话说,当有人告诉你你应该相信他们的判断时,不要相信他们,也不要相信自己。

如果主观自信不可信的话,我们该怎样评估直觉判断的有效性呢?判断在什么时候才能反映出真实的技能水平呢?什么时候会显现出有效性错觉呢?回答这些问题需考虑到技能习得的两个基本条件:

·一个可预测的、有足够规律可循的环境。

·一次通过长期训练学习这些规律的机会。

当满足以上两个条件时,就可以培养出直觉来了。象棋这个活动就需要在极具规律的环境下进行,桥牌和扑克也提供了有力的、能支撑技能的统计学规律。医生、护士、运动员以及消防员面对的都是复杂但却基本有序的情境。尽管系统2并没有学会如何给它们命名,但事实上专家的系统1学会使用的那些高度有效的线索才是引发加里。克莱因所描述的准确的直觉的原因。相反,作长期预测的股票投资者以及政治学者是在有效性为零的环境中进行的。他们的失败反映了他们尝试预测的事物基本是不可预见的。

有些环境毫无规律可言。罗宾·霍格思(Robin Hogarth)曾描述过一些“恶劣的”环境,在这些环境中,专业人员可能会从自己的经历中得到错误的信息。他借鉴了刘易斯·托马斯(Lewis Thomas)那个关于医生的例子。在20世纪初,某位医生总能凭直觉来预测哪位来就诊的人会染上伤寒。不幸的是,他是通过咽部触诊来证实自己的预测的,但在诊断两名门诊病人的间隙并没有洗手。于是,来看病的人接二连三地病了,医生也开始认为自己的诊断不会有错。他的预测是准确的,但这并不是因为他有专家型直觉。

米尔提到的那些临床医生并不是无能,他们的失败也不是因为能力不够。他们表现不佳是因为其任务没有简单的解决方案。临床医生的窘境并没有在零效度环境下作出的政治方面的长期预测极端,但也是基于低效度的情境,准确性也就不会很高。我们知道事实就是如此,因为虽然最好的运算法的准确率是高于人工判断的,但也不会非常准确。的确,米尔及其追随者的这些研究从未提供过“确凿的证据”,这些证据被临床医生完全忽略了,但能被运算法察觉到。这类情况的极端失败案例不可能出现,因为人类的学习能力通常是高效的。若存在有助于猜测的有力线索,人们一旦得到机会就一定能发掘出来。在毫无章法的环境下,运算法远远优于人工判断有两个原因:运算法比人工判断更可能观察到不怎么有效的线索,还可能通过利用这样的线索将正确性保持在适度水平上。

在这样一个不可预知的世界里,人们出现预测错误也是无可厚非的。但是,若专业人士认为自己可以成功预测不可能的任务,我们就可以对其进行指摘。在一个不可预知的环境下声称自己有正确的直觉至少也会被称做自我妄想,有时则更难听。如果缺乏有效的线索,直觉的“准确性”不是因为巧合就是在撒谎。如果这个结论让你惊讶,那说明你仍然相信直觉是不可思议的。请记住这条规则:在环境缺乏牢靠的规律时,不要相信直觉。

环境中的某些规律会比其他规律更容易察觉并容易加以利用。想想你是如何形成自己的刹车方式的。当你学习转弯时,你渐渐学会了何时放油门以及用多大力气踩刹车。现在,弯道改变了,但多次转弯的经历已使你能在任何弯道上在恰当的时间以恰当的力度踩刹车。学习这项技能的条件是很理想的,因为你在每次遇到弯道时都能收到及时、清楚的反馈:转弯顺畅时你会感到很舒服,但如果刹车没有踩到底,你就会感到车子有些难以控制。港口引航员调动大型船舶的情境也有一定的规律,但只凭借经验是很难学到这项技能的,因为行动之间可能会有长时间的推迟,这样的推迟还会带来显著的后果。专业人员是否有机会培养直觉性专业技能主要取决于反馈的质量和速度,以及是否有足够的时间进行练习。

专业技能不是一项单一的技能,而是由许多技能组成的。同一个专业人员可能在她的领域中是个行家,但在别的领域是个新手。等到象棋新手成为专家的时候,他们就已经“看清所有的棋局(或大部分棋局)”了,就这点而言,象棋是个例外。外科医生在有些手术中表现得比其他人更为专业。另外,专业技能的某些方面可能会比其他方面更容易学。精神治疗医师有很多机会观察患者对他们所说的话的即时反应,回馈使他们培养了相关的直觉性技能,使他们可以使用能平息怒火、增强信心以及使患者集中注意力的语言和音调。另一方面,治疗师没有机会判断对不同的病人应该使用哪一种治疗方法才最有效。他们收到的反馈是病人长期的治疗结果,这种反馈量少且滞后,还有可能根本没有反馈,无论哪种情况都无法运用他们从经验中学到的知识。

在医学专业中,充分的反馈可以使麻醉师受益,因为他们的行为很快就会见效。相反,放射科医生就不怎么了解他们诊断的准确性了,也不知道他们是否有漏诊。因此,麻醉师更能培养出有用的直觉性技能。如果一个麻醉师说:“我感到有些不对劲儿。”手术室的人就应该开始准备应急计划。

像主观自信的那个例子一样,专家可能不知道他们专业技能的局限性。一位有经验的精神治疗师知道自己擅长揣测患者的想法,并对患者接下来要说些什么有一定的直觉。她很容易就能预测出患者明年的康复状况,但这个结论并不十分正确。短期预测和长期预测不同,治疗师有足够的机会去接触其中一个患者,却不能了解其他患者。同样,财务专家对他所在公司多方面的贸易情况都比较熟悉,但对如何选择股票就不那么熟悉了。中东的某位专家知道许多事,但却无法知道未来。临床心理学家、股票投资者以及经济学者都掌握了各自领域的直觉性技能,但他们却不能够鉴别出因直觉导致错误的情境和任务。这些未能识别的专业技能的局限性解释了专家总是过分自信的原因。

直觉的对错评估

在我们的实验快结束时,我和加里·克莱恩就上面提及的那个问题给出了一个一般性答案:什么时候可以相信有经验的专业人士的直觉?我们的结论是,大多数情况下,我们还是可以将可能是有效的直觉与可能是无效的直觉区分开来的。这就好比判断一件艺术作品的真假一样,关注这件作品的出处通常比关注作品本身的判断准确率更高。如果环境有足够的规律性,并且在判断时有机会掌握这些规律,联想机制就会识别这些情境并做出快速且准确的预测与决策。这些条件若得到满足,你就可以相信某个人的直觉。

不幸的是,联想机制同样会产生主观的强迫性直觉,这种直觉是错误的。如果我们观察有天赋的年轻人在象棋方面取得的进步,就会非常清楚完美的技能不是短时间就能练就的。在接近完美的过程中,他会犯错误,而且对这些错误还信心十足。当评估专家的直觉时,你应该时刻考虑到该专家是否有足够的机会挖掘线索,即使是在有规律的环境下。

在一个不够规律或效度较低的环境中,判断启发式就会被激活。系统1通常会用另一个问题快速替换掉难题,创造出并不存在的关联。此时回答的问题并不是预期的那一个,但这个答案会很快出现在人们的脑海中,会通过系统2宽松的审查。你可能想预测某个公司的商业前景,并相信这就是你正在判断的事,但实际上,你对这家公司高管能力的印象主宰了你的评估。因为替代是自动发生的,你通常并不清楚自己(你的系统2)赞同并采纳的判断源自何处。如果这是唯一出现在大脑里的判断,你可能就无法将它与你根据专业直觉得来的有效判断进行主观上的区分。这就是主观自信不能作为直觉准确性指标的原因:即使判断的是错误的问题,在作出这一判断时仍可能有高度的自信。

你可能会问:为什么我和加里。克莱因立即想到了通过评估环境规律和专家学习经历的方法来估测专家的直觉能力,而不是通过专家的自信程度来评判,还会问我们答案可能是什么。其实解决方案一开始就很明显。我们先前就知道火场指挥官和儿科护士的直觉是有效的,而米尔研究的那些专业人士以及股票投资者和经济学者的直觉则不准确。

很难说清是什么使我们的实验经年累月进行这么久,是长时间的讨论、不断交换演示稿、数以百计的商谈邮件,还是不止一次想要放弃的想法,我们真的不清楚。但如果某个项目完成得相当好,就常会有这样的事情发生:一旦你明白了主要结论,这个结论就总是看似很明显。

正如我们那篇文章的标题所示,我和克莱因所持的观点并不像我们预期的那样不同,对于我们提出的实质性问题,我们采用了一些联合方案。然而,我们发觉我们前期的分歧不单单是观念上的不同,还有态度、情感和品位上的不同,而且这些分歧多年来都没有太大变化,这一点在我们认为最有趣和最感兴趣的事情上体现得最明显。当有人提到“偏见”这个词时,克莱恩的脸部仍然会有轻微抽搐,他仍然会嘲笑由于运算或是正式程序导致的明显荒谬的决策;而我则会将这些偶尔由运算导致的错误视为提高的方法。另一方面,看到在零效度的情况下一些自负的专家仍声称自己有很准的直觉时,我比克莱因更喜欢看好戏。然而,从长远来看,尽可能多地发现两个人观念方面的共识肯定比寻找我们在情感方面的分歧更加重要。

示例—专家型直觉“对这个特别任务,她有多少专业技能?做过多少练习?”“他真的相信这些新成立的公司的环境有足够的规律来证明与基础比率背道而驰的直觉吗?”“她对自己的决策非常自信,但主观自信并不是评估准确性的标准。”“他真的有机会学习吗?对他判断的反馈他接受得有多快、多彻底?”第23章 努力养成采纳外部意见的决策习惯

在和阿莫斯合作几年之后,我说服了以色列教育部的一些官员在高中开设有关判断与决策的课程。我组建了一支团队,其中包括几位经验丰富的老师,我教授的心理学专业的一些学生,以及希伯来大学教育学院的院长希莫·福克斯(Seymour Fox)。我们设计了课程内容,还编写了教材。

我们每周五下午都开一次例会,这一惯例维持了约一年,我们制定出内容详细的教学大纲,完成了教材几个章节的编写任务,还在教室里上了几节示范课。大家都感到取得了一定的进展。一天,在讨论估测不确定参量的流程时,我突然想到可以进行一次现场操练。于是,我便请在场的所有人预测我们将完整的教材文稿提交给教育部所需的时间,并将预测结果写下来。我遵循了我们已经计划好要纳入课程体系的流程:从一个团队获取信息的合理方法并不是通过公开讨论,而是通过私下收集大家的观点来完成。这个流程与常规的公开讨论不同,它更加充分地利用了每个成员的相关知识。我收集了大家的预测,并将结果记录在黑板上。在场的各位对完稿时间的预估集中在两年左右,最低估值为一年半,最高估值则为两年半。

随后我又有了一个主意。我问课程编制专家希莫是否能想到还有哪些和我们类似的团队曾经草拟过课程计划。那段时间,有几项类似“新数学”这样的教学革新在以色列得到引介。希莫说他能想到很多这样的团队。我又问他是否知道这些团队更详尽的情况,事实证明他对其中几个团队的情况还是较为熟悉的。我又请他回想这些团队在取得与我们当前进展相当的成绩时的状况。根据这一点,我又问他是否记得这些团队用了多长时间编完教材的。

他陷入了沉默。当他终于张口说话时,我觉得他脸红了,在为自己的回答感到尴尬,他说道:“你知道吗,我过去从未意识到这一点,但事实上,并非所有取得与我们当前进展相当的团队都能完成任务。没完成任务的团队还是占了很大一部分的。”

他的话让人很不安。我们从未考虑过自己可能会失败。我越发不安了,于是想请他估测失败的团队占多大比例。他说:“大约40%。”此时,整个房间仿佛笼罩在一片阴霾之中。我立刻又提了一个问题:“那些完成了任务的团队用了多长时间呢?”他答道:“没有一个团队是少于7年的,最多用了10年时间。”

我如同抓住了救命稻草一般,说:“与其他团队的技能和资源相比,我们的团队怎么样?在这些团队中,我们团队大概处于什么位置呢?”这次,希莫并没太多犹豫,说道:“我们在平均水平以下,但也没差太多。”他的回答让我们感到震惊,甚至包括希莫自己,他先前的估测受到整个团队所持的乐观心态的影响。如果没有我的提示,他就不会将自己对其他团队过去经历的了解与对我们团队未来的预测联系在一起。

听了希莫的话,我们当时的思想状态远非“我们都清楚了”这句话能够描述的。诚然,我们所有人当时都“清楚”与几分钟前我们写在纸上的预测时间相比,最少7年、失败概率为40%才是对项目未来更合理的预测。我们并没有承认自己清楚的事实。这个新的预测似乎仍然不真实,因为我们不能想象为何一个看似操作非常简单的项目会耗时这么久。我们没有水晶球,无法看到未来。我们能看见的,只是一个合理的计划,这个计划会使我们在大约两年的时间里完成一本书,而这与那些显示其他团队不是失败了就是用了很长时间完成任务的统计数据是互相冲突的。我们所听到的是基础比率信息,依据这个信息,能推断出一个因果关系,即如果有这么多的团队失败,或是用了很长时间才取得成功,那么编写一门课程就应该比我们想象中的难得多。但这样的推断又与我们对现阶段取得的重大进展的直接体验相左。我们对希莫提供的数据的处理就像平时对待基础比率一样:注意到其存在,但立刻选择忽略。

我们理应在那一天选择放弃项目的。我们都不愿意为一项失败概率为40%的项目再多投入6年的时间。尽管我们认为坚持做下去并不是理性的选择,但这不足以成为我们放弃的缘由。在几分钟断断续续的争辩之后,我们达成了一种默契,那就是当做什么事都没发生,继续工作。这本书最终在8年以后才编写完成!那时,我早已搬离以色列,离开了团队。也就是说,这本书的编写经历了许多不可预知的变化。教育部对这个想法所持的热情也在等待这本书交稿的漫长时间里消退了,因此这本书从未被使用过。

这个令人尴尬的插曲成了我职业生涯中一段最具启发性的经历。我从中悟出了三点,第一点是显而易见的,我偶然得到了两种截然不同的预测方法。后来,这两种方法被我和阿莫斯称为内部意见和外部意见。第二点是我们最初的预测,即完成项目需要大约两年的时间,体现出一种规划谬误。我花了很长的时间才悟出第三点,我将这一点称为非理性坚持,一如我们那天做的荒唐事:没有终止那个项目。面对选择时,我们因为事业心而丢掉了理性。

比起外部意见,我们更偏向内部意见

在很久以前的那个周五,我们的课程专家对同一个问题作出了两种判断,并得到了截然不同的结果。我们所说的“内部意见”是指包括希莫在内的所有人自发采取的对我们项目的未来进行预测的方法。我们注重具体环境,在各自的经历中寻找证据。我们有一个粗略的计划:知道要写多少章,了解已经完成的两章所用的时间。我们之中有些人会谨慎些,可能会在预测所用时间的基础上多加几个月,以免出现预测误差。

外推法是错误的。我们根据眼前的信息进行预测,但我们写出的前几章有可能比其他章节简单,而且在写那几章时,我们对这个项目的投入程度很可能正处于最高点。然而,最主要的问题在于我们没有考虑到由唐纳德·拉姆斯菲尔德(Donald Rumsfeld)提出的著名观点:“未知的未知数。”那天,我们没能预见到接下来发生的事会导致这个项目拖延这么久。离婚、生病、与官员的协调等事情导致工作一再延迟,这些事情都是意料之外的。这样的事情不仅会减慢教材的编写速度,还会导致任务在长时间内没有任何进展或进展非常缓慢。当然,对希莫知道的那几个团队来说,情况也是一样的。那些团队的成员清楚自己的项目是切实可行的,所以他们也想象不到各种事的发生会使他们历时7年才完成一个他们曾经认为可行性很强的项目,或者最终根本就没能完成任务。他们像我们一样,并不知道自己的胜算有多少。任何计划失败的原因都有很多,尽管大多数原因人们可能无法预见,但一个大项目中“某件事”出差错的概率却是很高的。

我向希莫提出的第二个问题将他的注意力从我们团队转移到了一些类似的团队上。他估测那些团队成功的基础比率是:40%的失败率和7~10年的完成时间。希莫的话虽然没有经过正式调查,也没有科学根据,却为基准预测奠定了合理的基础。如果你对一个事件的了解仅限于其所属类别,其他情况一概不知,此时作出的预测就是基准预测。正如前文所述,基准预测应该是进一步调整的锚定。如果你只知道某位女士住在纽约,却被问到她的身高的话,你的基准预测就是你对纽约女性平均身高的合理猜测。如果得到了与案例相关的特定信息,例如那位女士的儿子是他所在高中篮球队的首发中锋,你就会将预测转向一个合理的方向。希莫将我们团队与其他团队的对比说明,我们所作的预测较基准预测而言更糟糕,而基准预测已经是糟糕透顶了。

在我们的这个问题中,外部意见的预测有着出奇的准确性。然而,这种准确性只是侥幸产生的,并不能作为外部意见有效性的证据。关于外部意见有效性的论证是在一般理由下构建的:如果参考类别选择适当,外部意见就会给出预测的大致范围,我们的那个项目就是如此,这就表明内部预测与事实相去甚远。

对一个心理学家而言,希莫作出的两种判断的差异是令人诧异的。他头脑中有相应的知识,本应该能够估测出适当的数据,但他在最初估测时,却完全没有应用那部分知识。希莫由内部意见得出的预测并不是根据基准预测得到的判断。他并没有进行基准预测,他的预测只是基于我们所营造的特殊的努力氛围。正如汤姆实验中的受试者那样,希莫知道相关的基础比率,但却没想过应用它。

与希莫不同的是,我们其他人并没有外部意见的来源,也就不能作出合理的基准预测。然而值得注意的是,我们并不认为自己需要其他团队的信息作为自己预测的参考。我寻求外部意见的举动让所有人都颇为诧异,甚至包括我自己在内!这是一个常见模式:了解个别案例的人很少会认为他们有必要了解与这个案例同类别的其他案例。

当我们最终了解到这一外部意见时,却集体忽略了它。我们知道到底发生了什么,这与解释“教授心理学是徒劳的”那个实验有相似之处。当他们在掌握很少信息(一个简短乏味的采访)的情况下对个别案例作出预测时,尼斯贝特和博吉达的学生完全忽略了他们刚刚了解到的全局解。当“苍白无力的”统计学信息与某个人对案例的印象相冲突时,这些信息总会被舍弃。在与内部意见的竞争中,外部意见丝毫没有取胜的机会。

偏向内部意见常带有道德的意味。我的堂兄是一位出色的律师。我曾经问过他一个与参考类别相关的问题:“被告赢得与这个案子类似的官司的可能性有多大?”他立马回答:“每一个案例都是独特的。”这位堂兄说这话时的眼神表明他当时肯定认为我的问题既不得体又很浅薄。特别强调案例的独特性在医学领域也很普遍,尽管证据型医学的最新进展指向其他方向,但案例独特性仍不可忽视。医学统计学和基准预测由医患间越来越频繁的交流催生而来。然而,医学界对外部意见依旧抱有矛盾情绪,因为整个医疗过程都由数据和清单主导,缺乏人情味。

规划谬误:过于乐观的计划随处可见

按照外部意见及最终结果来看,我们在当初的那个星期五午后所作的最初预测几乎是一种妄想。对下面这种说法我们也不会感到惊讶:对项目成果过于乐观的预测随处可见。我和阿莫斯创造了“规划谬误”这个新词来描述下列计划和预测:
·不切实际地接近理想状况(的计划和预测)。
·可通过参考类似案例的数据得到提高(的计划和预测)。
关于规划谬误的例子在个人、政府、企业的计划和预测行为中皆不鲜见。骇人的事例也不胜枚举。
· 1997年7月,爱丁堡规划中的新苏格兰议会大楼预计的最高预算是4000万英镑。到了1999年6月,建楼的预算就变成了1.09亿英镑。2000年4月,规划者将“成本上限”修改为1.95亿英镑。到2001年11月,他们又将“最终成本”预估为2.41亿英镑。这个最终成本在2002年年末的时候又上涨了两次,成为2.946亿英镑。到2003年6月,预算又增加了3次,达到3.758亿英镑。这栋大楼最终在2004年建成,最终耗资约为4.31亿英镑。。 
·2005年的一项研究对1969~1998年全球范围内的铁路项目进行了检测。其中,超过90%的项目都高估了新线路的乘客数量。尽管这些乘客的差额曾被广而告之,这30年间对乘客数量预测的准确度却没有什么提高。设计者对新铁路项目的乘客量的平均高估率达106%,平均成本超支45%。尽管收集了越来越多的证据,那些专家却并没有利用这些证据。
· 2002年,针对改造厨房的美国有房者进行的一项调查发现,他们预估的厨房改造费用平均为18658美元,但实际上他们最后的平均花费是38769美元。

规划者与决策者的乐观心态并不是造成超支的唯一原因。厨房改造和武器系统的承包人都承认(尽管不是对他们的客户承认),他们都会通过扩充最初计划而获取最大利益。客户们无法想象他们的意愿会随时间的推移而逐渐增多,而没能预测到这些情况的事实也恰好反映出这一点。如果他们制订一个较为现实的计划并严格按计划进行,最终就不会花掉这么多钱了。

最初预算的误差并不总是无知的。制订计划的人都希望自己的计划能得到上级和顾客的认可。通常也正是这种愿望的驱使,他们才制订出了不切实际的计划。他们这样做还因为仅仅由于超支或超时不太可能会导致项目被中途叫停。在这些例子中,避免规划谬误的最大责任落在了批准计划的决策者身上。如果这些决策者没有意识到外部意见的必要性,他们就会犯下规划谬误的错误。

减少决策错误的有效方法

自多年前那个星期五的下午以来,判断和避免规划谬误的方法并未发生过变化,但这一理念的实施却有了很大进展。现任教于哈佛大学的丹麦籍著名规划专家本特·弗林夫伯格(Bent Flyvbjerg)曾经有过颇有说服力的总结:

看轻或是忽略分布信息的普遍趋势可能是预测产生错误的主要原因。因此,计划者应该尽力划分出预测问题的类别,这样才能充分利用所有能够获取的分布信息。

如何通过改进的方法提高预测的准确性?上面的说法可算做唯一一条最为重要的建议了。在预测时使用相似团队的分布信息被称为采纳“外部意见”,它是避免规划谬误的有效方法。

对规划谬误的修正如今也有了对应的专业术语,叫做“参考类别预测”。弗林夫伯格已将此术语运用到几个国家的交通运输项目中。外部意见通过使用更大的数据库来实施,此数据库提供了全世界范围内数以百计的项目信息,包括其计划与结果的信息,能提供可能发生的超支和超时的统计学信息以及各类不尽如人意的项目信息。

弗林夫伯格使用的预测方法与为克服对基础比率的忽视而采取的建议非常相似:
1.识别对应的参考类别(例如厨房改建和大型铁路项目等)。
2.获取参考类别的统计数据(每英里铁路的造价或是支出超过预算的百分比),利用这些数据作出基准预测。
3.如果有特别的原因说明这个项目多少会比同类项目的乐观偏差更为明显,则可使用此例的具体信息对基准预测进行调整。

弗林夫伯格的分析旨在通过提供类似项目超出预算的统计数据,为委任公共事业工程项目的官员提供指南。决策者在批准某个提议之前,需要先了解其成本和利益的实际评估。他们还希望估测出为超出预算而准备的预备金,即使这样的预防措施通常会成为自我应验的预言。正如一位官员告诉弗林夫伯格的那样,“预备金与承包者的关系就像牛羊肉与狮子的关系,狮子会吞食牛羊肉,承包者也会私吞预备金”。

高管们为了抢占资源很容易会提出过于乐观的计划,因此,各个组织面临着控制高管这种倾向的挑战。运转良好的组织会奖励规划师,因为他们提出的方案精准而又切实可行;当然也会处罚规划师,因为他们没能对遇到的困难作出预测或是没能考虑到他们本可以规避的困难,即未知的未知数。

而今距离那个星期五的下午已经过去了30年,但每一年我都会想起它,在演讲中也会提到它。有些朋友已经对那个故事感到厌倦了,但我还在不断从中吸取经验。大约在我第一次和阿莫斯作关于规划谬误报告的15年后,我又与丹·洛瓦洛(Dan Lovallo)一起提到了这个话题。我们一起草拟了一个关于决策的理论,即乐观偏差是人们愿意承担风险的重要原因。在经济学标准的理性模式下,人们愿意冒险是因为胜算大—他们之所以现在能承受有代价的失败,是因为他们相信最终成功的概率很大。这是替代的一个观点。

在我们预测风险项目的结果时,高管们很容易会掉入规划谬误的陷阱。在规划谬误的支配下,他们根据脱离现实的乐观心态来做决策,而不是根据对利益得失以及概率的理性分析做决策。他们高估了利益,低估了损失。他们设想了成功的场景,却忽略了失败和误算的可能性。因此,他们所追求的行动方案不太可能在预算之内完成,也不大可能按时完成,这个方案可能也无法实现预期的回报—甚至都无法完成。

由此看来,人们之所以经常(但不是总是)承担风险项目是因为他们对成功率过于乐观。我将在本书中反复提到这一点,因为它可能有助于解释为什么人们会对簿公堂、发起战争或者急于创业。

多年来我一直认为关于课程那件事的主要意义就是我从希莫那里学到了一些东西:他对我们项目未来的最佳猜测并没有参考他所知道的相似项目的信息。我原以为自己很会叙述事情,而且在那件事中我还是一个聪明的询问者、机敏的心理学家。但是,直到最近我才意识到,那时的我其实是个笨蛋,是个无能的领导者。

那个项目是由我发起的,因此我的主要责任就是赋予这个项目意义,而其他主要的问题则由团队进行讨论,但我却失职了。当我听到希莫的统计分析后,就改正了那个谬误。如果是在迫不得已的情况下,我会承认我们的项目从一开始就是错的,我们至少应该认真考虑承认失败并打包回家这个选择。但是没有人向我施压,也没有人和我讨论过这个问题,我们默许了这个项目继续下去,根本就不考虑到底需要多长时间。这样做很容易,因为我们在最开始时并没有作出这样的预测。如果在开始做这个项目时就有了合理的基准预测,那么我们就不会再将项目进行下去了,但我们已经投入了大量精力—这是一个沉没成本悖论的例子,我们将在本书后半部分重点关注这个问题。放弃这个项目会令我们很尴尬,尤其是我,而且我也没有直接的理由这样做。在危急时刻转变方向比较容易,但这并不是一个危急时刻,因为我们得到的只是一些不相干的人的实例。与我们在自身努力后得到不好的结果相比,外部意见更容易被忽略。我将我们的状态形象地描述成嗜睡症的一种形式—不愿思考发生的事情。所以我们继续进行项目。在余下这段时间里,作为团队一员的我也没有进一步尝试制订理性规划—这是作为一个致力于宣扬理性的团队尤为大意的疏忽。我希望我现在能更明智一些,自己也形成寻求外部意见的习惯。但是,这种做法永远都不是自然而然发生的。

示例—外部意见与内部意见“他正在采纳内部意见,他应该忽略自己案例的情况,去看看其他案例是什么情况。”“她掉进了规划谬误的陷阱。她设想了一个最为理想的情景,但有多种原因可能导致计划失败,她无法预见所有原因。”“假设你除了知道某个特定的案件是针对一名外科医生的医疗纠纷以外,其他什么也不了解。你的基准预测会是怎样的呢?法庭上成功的案例有多少?有多少案件是已经结案的?这类案件的总量是多少?我们正在谈论的这个案件与其他相似的案件相比是更严重还是较为轻微?”“我们又加大了投资,因为我们不想承认失败。这是一个沉没成本悖论的例子吗?”第24章 乐观主义是一柄双刃剑

规划谬误只是普遍存在的乐观偏见的一种表现形式。我们中的大多数人都认为世界是美好的,但世界却没有想象般美好;我们觉得自己的贡献很大,但事实上并没有那么大;我们认为自己设定的目标很容易实现,但其实实现的可能性也没有那么大。我们还容易夸大自己预测未来的能力,进而导致乐观的过度自信,这可能会影响到决策。乐观偏见也许是认知偏见中最重要的一种。如果你性情乐观,就应该既乐观又谨慎,因为乐观偏见可能有益,也可能带来风险。

乐观主义者过度自信的代价

抱有乐观心态很正常,但一些幸运儿比其他人更为乐观。如果你天生就有乐观偏见,无须别人告知,你就知道自己是个幸运儿,因为你已经感到幸运了。乐观心态大多是遗传下来的,是人类普遍存在的一种性情,偏向于看到事物积极的一面。

如若让你为自己的孩子求个愿望,你应该真心希望他或她有个乐观的心态。乐观主义者通常都是开朗快乐的,也因此颇受欢迎。他们对失败和困难的承受力都比较强,患抑郁症的概率低,免疫系统良好,也更注重身体健康。他们感觉自己比别人健康,事实上他们的确更长寿。有些人会夸大自己的预期寿命,认为自己的寿命会超过保险界的统计数据。而对这些人的研究表明,他们的工作时间较长,对自己未来的收入更有信心,离婚之后更容易再婚(典型的“精神胜利法”),也更容易投资个股。当然,只有那些带有轻微偏见并且能在不脱离实际的前提下“强调积极因素”的人才能享受乐观主义带来的益处。

乐观主义者对塑造生活起到了或大或小的作用。他们的决策产生了一定的影响。这些乐观主义者是发明家、企业家、政治和军事领导人—总之不是普通人。他们寻求挑战,承担风险,最终获得了成功。他们有天赋,也一直很幸运,几乎可以肯定地说他们比自己认为的还要幸运。他们很可能天生就是乐观派。一项对小型企业创始人的调查总结道,企业家对待生活的态度普遍比中层主管乐观。他们成功的经历印证了他们对自己的判断和掌控能力的信心。他们的自信因别人的崇拜而增强。这条推理使我们得出一个假说:对他人生活影响巨大的人可能是乐观和过度自信的,这种人承担的风险远大于自己所能意识到的水平。

这一证据表明,当个人或是机构自愿承担重大风险时,乐观偏见都发生了作用,甚至起到了主导作用。通常冒险家经常会低估胜算,还投入了大量精力去寻求胜算。由于误算了风险,即使他们其实并不谨慎,那些乐观的企业家也会认为自己是谨慎的。他们相信自己将来会成功,因而也保持着积极的心态,这会促使他们广泛搜集资源,鼓舞员工士气,进而增加获胜的机会。当需要采取行动时,即使略带妄想,乐观主义也是件好事。

在美国,小型企业能够生存5年以上的概率是35%,但创立此类企业的人并不认为这些数据适用于自己。调查显示,美国企业家容易相信他们的事业正处于上升期:他们对“任何类似你们企业”的成功概率的平均估值为60%—几乎是正确数值的一倍。当他们评估自己企业的胜算时,偏见就更为明显了。有81%的小型企业创办人认为他们的胜算达到70%甚至更高,有33%的人甚至认为他们失败的概率为零。

有偏见并不奇怪。如果最近某人开了家意大利餐厅,你在采访他时就不要期待她会低估自己成功的概率或说自己缺乏经营餐馆的能力。但你肯定会纳闷儿:如果她通过一些渠道得知了胜算率,还会继续投入金钱和时间吗?或是她在得知胜算率(有60%的新餐厅3年后会歇业)以后,会考虑胜算率吗?答案是,她可能不会考虑采纳外部意见。

性情乐观的一个好处是它使我们在困难面前坚持不懈,但是这种坚持可能需要付出很高昂的代价。托马斯·阿斯特布罗(Thomas Astebro)曾经作过一系列令人印象深刻的研究,阐明了乐观主义者收到坏消息时会发生的事。他从一家加拿大机构—发明家援助计划—中得到了所需数据,这项计划对发明家的点子的商业前景进行客观评估,这一业务收取很少的费用。这些评估按照37种标准对每项发明进行比对排名,其中包括产品用途、生产成本以及预估的需求趋向等。分析师用字母表示排名,D和E表示失败—在分析师分析的各项发明中,70%都是D或E,他们对失败的预测非常准确:411个项目中仅有5项达到了商业化的最低标准,且没有一项算得上非常成功。

在收到自己那份意味着失败的评级结果时,约有一半发明家选择了退出。然而,即使在得知自己的项目毫无希望之后,他们之中仍有47%的人选择继续努力。这些坚持的(或是固执)人的损失平均会是放弃发明所遭受损失的两倍。值得注意的是,在乐观测试中得分较高(普遍比一般人群高)的发明家中,收到这个令人气馁的建议后仍然选择坚持的状况比较常见。总的来说,个人发明的回报很小,要“低于私募基金和高风险证券的回报“。一般说来,个体经营的财务收益属于中等:同等条件下,人们通过向雇主出售自己的技能得到的平均回报要比经营自己的企业更高。这表明乐观主义是普遍、执拗且代价昂贵的。

心理学家已经证实,大部分人都相信自己比别人有着更为理想的特质—他们愿意为这些实验室中的信念下一笔小赌注。当然,觉得自己很优越的想法在市场中具有重大意义。大型企业的领导有时会在投资巨大的并购上下很大赌注,因为他们错误地以为自己可以比该公司现任管理层更好地管理其资产。股市一般也会对此做出反应,兼并公司的价值会降低,因为经验表明,兼并大型企业的努力失败的概率往往大于成功的概率。“自负假说”(Hubris Hypothesis)已经解释了这种被误导的兼并:那些兼并公司的高管们只是没有他们想象中那么有能力罢了。

经济学家乌尔里克·马尔门迪尔(Ulrike Malmendier)和杰弗里·塔特(Geoffrey Tate)通过执行总裁在公司的股份持有量来鉴别他们是否是乐观主义者。他们还观察到,过于乐观的领导者承担了过多的风险。他们猜测更容易导致这些高层“向并购目标支付过高的溢价并承接毫无价值的兼并”的是债务而非股权发行或是其他方面的因素。值得注意的是,按这两位经济学家的观察结果来说,如果兼并公司的高管过于乐观,该公司的股票在公司并购中就会受到更大的影响。股票市场明显能够鉴别出过度自信的高管。观察得出,虽然对管理层的过度自信无可指摘,但他们还有其他的问题,比如:爱下不妥当赌注的企业领导之所以没有过度自信,是因为他们在拿别人的钱下赌注。相反,如果他们个人持有较多股份就会冒更大的风险。当商业媒体将过度自信的执行总裁标榜为名人时,他们造成的损失就会加重。这表明媒体界冠予执行总裁的声誉对于股东来说是代价高昂的。两位作者写道:“我们发现,若公司总裁曾被授予荣誉,则该公司的股票表现就不会很好。与此同时,执行总裁的报酬会增加,他们也会花更多的时间参与公司事务以外的活动,比如写书以及列席董事会等,还极有可能参与盈余管理。”

多年以前,我和妻子曾去温哥华岛度假。我们找到了一家漂亮、舒适的汽车旅馆,但它位于森林中部,这条路少有人走,不免有荒凉之感。旅馆是对年轻而又漂亮的夫妻开的。在我们的鼓励下,这对夫妻讲述了他们的经历。他们曾是亚伯达省的教师,后来决定改变自己的生活现状,遂用所有积蓄买下了这座12年前建成的汽车旅馆。他们说:“在我们之前的六七位老板都没能将这家旅馆妥善经营。”所以他们才能用这么便宜的价格买下这家旅馆。他们说这话完全是无意识的,口气没有任何讥讽之感。他们还说自己有贷款修缮旅馆的计划,在旅馆旁再建个餐厅,如此一来,整个旅馆就更具吸引力了。他们觉得没必要解释为何前几位老板都失败了而自己则成功了。无论是旅馆老板还是公司高管,他们都具备勇气和乐观的精神。

即使大多数风险承担者最终总是收获失望,但那些因乐观而承担的风险企业家毫无疑问都会为激发资本主义社会的经济活力作出贡献。来自伦敦经济学院的马尔塔·科埃略(Marta Coelho)曾经指出,小型企业的创办者要求政府在决策方面支持自己时(这些决策多半会失败),就会带来让人挠头的政策问题。政府会向这些几年后就会破产的企业家提供贷款吗?许多行为经济学家比较赞同“温和的家长式作风”,因为“温和的家长”管理可以提高他们的储蓄率。政府是否应该支持小型企业,如果应该,又该怎样支持小型企业,这些问题至今也没有令人满意的答案。

竞争忽视:为何大片会扎堆上映?

人们倾向于用愿望思维来解释企业家身上的乐观主义,但是情感只是乐观主义产生的一部分原因。认知偏见起了很重要的作用,特别是系统1的其中一个特征,即眼见即为事实。

·我们将注意力集中在目标上,锚定我们的计划,却忽视了相关的基础比率,导致规划谬误。

·我们只关注自己想做的和能做的,却忽视了他人的计划和技能。

·在解读过去和预测未来时,我们强调了技能的因果角色,却忽视了运气的影响。因此,我们产生了“控制错觉”。

·我们只重视自己已知的,却忽视自己未知的,因此我们对自己的信念过度自信。

“90%的司机都相信自己的车技要高于平均水平”这一心理学发现已得到了证实,也已成了文化的一部分,还成了普遍存在的高于均数效应的主要例子。然而,对这个发现的解读在近几年发生了改变,原来认为这是一种自我膨胀,现在则认为这是一种认知偏见。请考虑下面两个问题:

你是一个好司机吗?

你是一个高于平均水平的司机吗?

第一个问题很简单,人们很快就可作答,且多数司机都会答“是”。第二个问题要难很多,大多数受试者几乎都不可能谨慎而又正确地作答,因为这需要对司机的平均水平进行评估。读到这里,对于人们会用简单答案回答难题这一观点你已有所了解。虽然受试者将自己的水平与平均水平进行比较,却从未考虑过平均水平究竟是什么水平。对高于均数效应的认知解释有一项证据,即当人们被要求完成一项困难的任务时(对我们大多数人来说,这个任务可能是“你发起与陌生人交谈的技巧高于平均水平吗”),他们会不假思索地将自己划在平均水平以下。结果,只要表现还说得过去,人们就总是喜欢表现得过于乐观。

我曾经有过几次机会询问新成立的创新型公司的创办者及其合作人一个问题:公司取得的成绩在多大程度上取决于你在公司的作为?这明显是个简单的问题;人们很快就能回答出来,而且在我所抽取的小样本中,认为自己与公司成功的关联度没有低于80%的。即使他们并不肯定此时自己是否成功,这些有胆量的人也都认为自己的命运完全掌握在自己手中。他们肯定错了:新公司的成绩更多取决于其竞争者、市场的变化以及自身的调控。然而,眼见即为事实的原则也起到了一部分作用,企业家会自然而然地将注意力放在他们最为了解的地方—他们的计划、行为、最直接的威胁和机遇等,例如筹资能力。他们对竞争者所知较少,也就自然地认为竞争者与公司未来没多大关系。

科林·卡莫若(Colin Camerer)和丹·洛瓦洛创造了“竞争忽略”这个概念,并用迪士尼制片厂董事长的一段话阐述了这一概念。当有人问为什么有这么多高投资的大制作会同期上映时(例如《世纪大毁灭》和《独立日》),他回答道:

一切都是因为自负。如果只关心自己的生意,你就会想:“我有一个优秀的编辑部,还有个很棒的市场部,我们会做好电影的。”你还认为其他人肯定都不会这样想。但是在一年中的某个周末,你可能就会发现竟然有5部电影同时公映,那么来看你那部电影的人肯定就不会很多。

这个坦率的回答提到了自负,但这种自负不是指傲慢或比其他制片厂更有优越感。人们只是在决策时没有将竞争因素考虑在内,因为困难的问题再次被简单的问题替代了。这里需要解决的问题是:想想别的人会怎么做,有多少人会看我们的电影。诸位制片厂的主管考虑的问题则更为简单,无须多虑:我们的电影怎么样,有强大的部门为其作推广吗?我们熟知的系统1的眼见即为事实原则以及替代原则都引起了竞争忽略和高于均数效应的预测。竞争忽略的结果是产生了许多额外入口:众多竞争者进入市场,导致市场不能保证赢利,所以平均下来,其结果就是亏损。对于新进入市场的公司来说,这样的结果会令其失望,但是这对总体经济的影响却可能是积极的。事实上,一些创新型企业的失败标志着新的市场需要更有能力的竞争者。乔瓦尼·多西(Giovanni Dosi)和丹。洛瓦洛称这些创新型企业为“乐观主义烈士”,对经济有益,对投资者有害。

是你太糟糕,而不是我太笨拙

杜克大学的教授们用了几年的时间作了一项调查,调查内容为大型企业的财务总监对次年的标准普尔指数作出的估测。杜克大学的学者们搜集了11 600份这样的预测并检验了它们的准确性。结论非常明显:大型企业的财务主管对股票市场的短期走向一无所知,他们估测出的值与真实值的相关系数接近零!当他们说股市走低时,股市多半可能会上扬。这些发现并不令人吃惊。真正糟糕的消息是,这些财务总监似乎并不知道他们的预测是没有价值的。

除了对标准普尔指数的估测外,受试者还提供了另外两项估测值:其中一项他们有90%把握的值太高,而另一项他们有90%把握的值又太低。这两个值的范围差被称为“80%的置信区间”,若结果在这个区间之外,我们则称其为“意外”。一个人在多种条件下设置的置信区间预计会有20%的可能出现意外,但通常在多种条件下进行的预测会有67%的意外发生,比预期高出两倍多。这说明财务总监过度相信自己预测市场的能力了。“过度自信”是眼见即为事实的一种表现:在估测质量时,我们会依赖大脑呈现的信息并构建一个使估测合理的、具有逻辑的解释。一个人不可能采用自己没有想到的那些信息,也许是因为他从来就不知道这些信息吧。

两位作者计算了一下,发现置信区间可将意外的发生率降至20%。这样的结果令人惊讶。想要将意外率保持在理想水平,财务总监就应该年复一年地说:“明年标准普尔回报率在–10%和30%之间的可能性有80%。”这个置信区间恰当地反映了财务总监的知识(更确切地说是他们的无知)比他们实际阐述的区间的4倍还要多。

此处涉及社会心理学范畴,因为一个诚实的财务总监提供的答案明显是荒谬的。

如果一个财务总监告诉他的同事“明年标准普尔回报率很可能在–10%和30%之间”,整个办公室的人很可能都会嘲笑他。设置这么大的置信区间无异于承认了自己的无知,社会不会认同一位靠提供资金相关知识拿工资的人的这种做法。虽然这些主管知道自己所知甚少,但承认这一点将会受到处罚。杜鲁门总统就曾发表过著名的言论,说他想找一个立场明确的“独臂经济学家”(one-armed economist),他对那些总是说“另一只手……”的经济学家烦透了。 ①

有些机构相信了过度自信的专家的言论,就要承受代价高昂的后果。关于财务总监的调查说明,对标准普尔指数最为自信和乐观的人也会对他们自己公司的前景过度自信和乐观,也就愿意比别人承担更大的风险。纳西姆。塔勒布说过,对环境的不确定性了解不足必然会导致经济行为人承担本可以避免的风险。然而,无论在社会生活中还是在股票市场中,乐观主义极其重要。个人及企业会奖励那些提供了冒险且有误导性信息的人,而不是说真话的人。我们从造成大萧条的金融危机中学到的是:总有一段时间,专家间和企业间的竞争会造成大家对风险和不确定性视而不见。

青睐过度自信的专家的领域并不仅限于金融预测。其他专业人士必须面对这样一个事实:一位实至名归的专家需要表现出很高的自信程度。菲利普。泰特罗克的观察表明,最为过度自信的专家更有可能代表全体员工出现在新闻节目中。过度自信也会像医学上的传染病那样具有传染性。有项研究,是将在重症加护病房死亡的人的验尸报告和医生在死者生前提供的诊断进行对比。医生也表现了他们的自信,结果是:对病人临死前的诊断“完全确定”的临床医生中有40%的诊断是错误的。同样,过度自信的专家也间接受到了病人的影响:“通常,临床医生显现出的不确定是一种懦弱的表现。自信的人比对事情持不确定态度的人更受人推崇。医生将自己的不确定透露给病人会遭到大家的指责。”完全认识到自己无知的专家可能会被更自信、更能获得病人信任的竞争者取代。对不确定性的无偏见评价是理性的基石,但这并不是个人或机构想要的。在危机中,极度的不确定会造成严重后果,而且在风险高的时候承认自己只是在猜测的做法特别不易被接受。所以,假装知道通常是首选的解决方式。

当支持夸张的乐观主义情感因素、认知因素以及社会因素共同作用时,有时就会导致人们承担一些风险,且这些风险在他们知道胜算的情况下是可以避免的。没有证据表明经济领域的风险承担者对于孤注一掷的赌博有特别大的兴趣,只是他们不像胆小的人那样有风险意识罢了。我和丹。洛瓦洛杜撰了“无谓的预测和胆小的决策”这个短语来描述风险承担的背景。

对决策高度乐观带来的影响是好坏参半的,但乐观对顺利进行的影响肯定是积极的。乐观的主要益处是使人有了从受挫中复原的能力。正像积极心理学创始人马丁·塞利格曼(Martin Seligman)认为的那样,“乐观的解释风格”通过捍卫自我形象使人产生了复原力。从本质上来说,乐观风格包括对成功进行嘉奖和对失败少加责备。至少在某种程度上,这种风格是可以被训练出来的。塞利格曼记录了多个高失败率行业的训练效果,例如上门推销保险(网络时代以前的普遍做法)。当某个人被一个愤怒的主妇当面摔门拒之门外时,这个人肯定会想“她是个糟糕的女人”,而不是“我是个笨拙的销售员”。我一直认为,在科学研究这一领域,乐观对成功而言同样不可或缺:我遇到的成功的科学家都会夸大他或她正在进行的研究的重要性。我还相信,不爱夸大自己重要性的人在反复面对挫折和失败时会一蹶不振,这种情况也是大多数研究人员的结局。

“事前验尸”:部分克服乐观偏见的方法

可以通过训练克服过度自信的乐观偏见吗?对此,我并不乐观。训练人们设定置信区间的多次尝试表明了他们的判断并不精确,只有几个人是相对成功的。利用许多已经知道结果的以往案例进行训练以后,荷兰皇家壳牌公司的地质学家在估测可能的钻井场时,就变得不那么自信了。人们经常会引用这个例子。在其他情况下,在人们判断时鼓励他们考虑相互竞争的假设可降低(但不会消除)他们过度自信的程度。然而,过度自信是系统1特性的直接结果,可被驯服但不能被彻底改变。问题的主要障碍在于,主观自信是由人们构建的连贯的故事决定的,而不是由支持它的信息的质量和数量决定的。

各个组织也许比个人更能抑制乐观主义情绪,而抑制这一情绪的最佳方法是由加里。克莱恩提出的。加里是我的“对抗性合作者”,他推崇直觉型决策,反对偏见的说法,对运算法的反对态度也很明确。他将自己的提议称为“事前验尸”。流程十分简单:当一个机构即将做出一个重要决策但还没有正式下达决议时,克莱恩提议召集对这个决策有所了解的人开一次简短的会议。在会议之前有一个简短的演说:“设想我们在一年后的今天已经实施了现有计划,但结果惨败。请用5~10分钟简短写下这次惨败的缘由。”

加里·克莱恩关于事前验尸的观点立刻引起了巨大反响。当我在某场达沃斯会议上偶然谈到这个观点时,一个坐在我身后的人低语道:“就为这一点,来参加这次达沃斯论坛值了!”(后来,我注意到这个说话的人是一家大型跨国公司的执行总裁。)事前验尸观点有两个主要优点:决策快要制定好时,许多团队成员会受到集体思考的影响,而事前验尸则扼制住了这种影响。另外,它还激发了那些见多识广的个人的想象力,并将他们的想法引导到最需要它们的方向。

当一个团队将注意力集中在决策上,特别是当领导宣布他的意图时,人们对计划好的步骤的可行性的疑虑就会渐渐减弱,到最后,这样的怀疑还会被认为是对团队和领导的不忠诚。如果某个团队中只有支持决策的人才有发言权,那么对怀疑的抑制就会造成这个团队的过度自信。事前验尸的主要优点是它引发了怀疑。另外,它还助长了支持决策的人去探寻他们先前没有考虑到但却可能存在的威胁。事前验尸并不是灵丹妙药,也不能提供完整措施使我们避免恼人的意外,但这一方法在一定程度上可以减少计划的损失。而这些损失一般都是因眼见即为事实的偏差以及盲目的乐观主义导致的。

示例—乐观偏见与过度自信“他们有控制错觉,他们严重低估了障碍。”“他们好像因为竞争忽略而遭了殃。”“这是一个过度自信的例子,他们似乎认为自己知道的比实际的多。”“我们应该开一个事前验尸会议,有人也许能想到一个被我们忽略了的威胁。”

① 此处为双关,在英语中,人们总喜欢说“on the one hand……on the other hand……”,意为“一方面……另一方面……”。杜鲁门总统认为这样讲话表明一个人立场不明,所以他说我不喜欢总说两方面的人,此处“one-armed economist”并不是真正独臂的经济学家,而是只说“一只手”(即一方面)的人,不要再讲“另一只手”(另一方面)了。


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注