从此走进深度人生 Deepoo net, deep life.

丹尼尔•卡尼曼《思考,快与慢》10-18

第二部分 启发法与偏见

第10章 大数法则与小数定律

一项研究对美国3141个县的肾癌发病率进行了调查,调查显示该病的分布模式很值得注意。发病率最低的县差不多都位于中西部、南部和西部人口稀少的乡村,这些区域按照惯例由共和党管辖。对此,你有何看法?

刚刚过去的几秒钟里,你的大脑处于非常活跃的状态,这主要是因为系统2在运行。你谨慎地在记忆中搜寻着并作出假设。在这个过程中你也付出了一定的努力,你的瞳孔会扩张,心跳会适度加快。系统1也没有闲着,因为系统2的运行需要从联想记忆中获取事实和建议。你很可能会否认共和党的政策提供了肾癌防控方法这个想法,却会关注肾癌发病率低的县大多是乡村这个事实。这个例子是我从机智的统计学家霍华德·维纳(Howard Wainer)和哈里斯·泽维林(Harris Zwerling)那儿得到的,他们对这一案例的评论是:“人们很容易作出推断,认为肾癌发病率低主要是由于乡村的生活方式很健康—没有空气污染和水污染,食品没有添加剂,保证新鲜。”这一点完全说得通。

现在,考虑一下肾癌发病率最高的县的情况吧。假设这些易发病的县差不多都位于中西部、南部和西部人口稀少的乡村,这些区域按照惯例由共和党管辖。霍华德·维纳和哈里斯·泽维林半开玩笑地评论道:“人们可以很容易作出推断,导致肾癌高发病率的直接原因是乡村生活的贫困—医疗条件差、高脂肪饮食、酗酒、嗜烟等。”当然这种说法肯定有问题,因为乡村生活方式不可能既是肾癌发病率高的原因又是其发病率低的原因。

问题的关键并不在于这些县处在乡村地区或是由共和党掌管,而在于乡村地区人口少。我们通过这个例子学到的不是流行病学知识,而是我们的大脑和统计数据之间的复杂关系。系统1非常擅长一种思维模式—自动且毫不费力地识别事物之间的因果联系,即使有时这种关系根本就不存在,它也会这样认定。当听到肾癌高发地区的情况时,你立刻会想当然地认为这些县与其他县不同是有原因的,一定有个理由可以解释这种不同。然而,正如我们所见,当系统1面对“纯统计学”的数据时是束手无策的,因为这些数据虽然可以改变结果出现的概率,却不能直接导致结果的发生。

根据定义,一个随机事件是不需要解释的,但一连串的随机事件就有规律可循。想象有一个装有大理石弹球的瓮,其中有一半的弹球是红色的,另一半弹球是白色的。然后,再想象有一个非常有耐心的人(或一个机器人)随意从瓮中取出4个大理石球,记录其中的红球数,再把球放回去,重复这样的做法数次。总结记录结果时,你会发现“2红2白”的结果出现的次数(几乎刚好)是“4个全红”或“4个全白”这种结果的6倍。这一倍数关系是个数学事实。你可以对这种从瓮中反复抽样的结果作出自信的预测,就像你能预测到用锤子砸鸡蛋的结果一样。尽管你无法预见蛋壳破碎的具体细节,但大概结果还是很确定的。两件事的不同之处在于:你想到锤子砸鸡蛋时感受到的那种明确的因果联系,在瓮中取样的设想中是找不到的。

相关的统计学事实与癌症那个例子也有联系。两个耐心的计数者轮流从瓮中取大理石球,杰克每次拿出4个球,吉尔拿出7个。他们都记录了每次拿到相同颜色弹球的次数—要么全白,要么全红。如果他们取球的做法持续的时间足够长,杰克拿到同颜色大理石的次数会是吉尔的8倍(两人的预期概率分别为12.5%和1.56%)。这个结果与锤子无关,也与因果联系无关,这仅仅是一个数学上的事实:一次拿4个弹球与一次拿7个相比,出现极端结果的概率更大。

现在,将美国人口想象成一个巨大的瓮中的弹球。有些球上标有KC(即Kidney Cancer的简称)字样,表示肾癌。你抽取弹球样本,并依次按照所在县摆放,你会发现乡村地区的样本要比其他地区的少。如同杰克和吉尔所做的那个游戏一样,极端的结果(非常高或非常低的癌症发病率)容易出现在人口稀少的县,这个故事告诉我们的就是这些。

我们从一个令人费解的事实说起:肾癌的发病率在各县有所不同,且是有规律的,我用统计学理论对此作了解释:相比于大样本,极端的结果(高发病率和低发病率)更容易出现在小样本中。这样的解释不存在因果联系。某县的人口稀少既不会引发癌症,也不能避免癌症,只会使癌症的发病率比人口稠密地方的发病率更高(或更低)。这就是真相,没什么可解释的。在某个人口稀少的县,癌症发病率并非真的比正常情况更低或更高,只是这个县正好在某个特殊的年份赶上了抽样调查罢了。如果我们在第二年重复这样的分析,也能预测到在小样本中出现极端结果的一般模式,但在前一年癌症发病率高的县,这一年发病率并不一定高。如果是这样的话,则人口稠密或稀少的因素就无法对发病率作出解释了:这些表面因素就是科学家眼中所谓的假象,即观察结果完全依赖于调查方法的某一方面,在这个案例中,则依赖于样本大小。

我刚才说的例子也许会令你惊讶,但这并不是真相初次大白于天下。你早就知道应该更相信大样本,并且即使是对统计学一无所知的人也听说过大数法则。但是“知道”并非是非抉择问题,你可能会发现下列陈述放在自己身上很合适:

·当你阅读这个关于流行病学的例子时,并没有立刻注意到“人口稀少”这一特点与此次调查有何关联。

·对于采用4个样本还是7个样本所产生的不同结果,你至少会感到有一点惊讶。

·即使是现在,想要确定下面两个陈述句所说的完全是一回事,你也要费些脑力:

(1)大样本比小样本更精确。

(2)小样本比大样本产生极端结果的概率大。

第一个表述清晰地陈述了一个事实,但直到感受到第二个表述传达给你的意思,

你才意识到自己并没有真正理解第一个表述的意思。

上述内容概括起来就是:没错,你知道大样本的结果更精确,但你现在可能才意识到你并不清楚为什么它们更精确。不仅你一人如此,阿莫斯与我在一起进行的第一个研究表明,即使是经验丰富的研究人员对样本效应也缺乏直觉,要么就是理解不到位。

小样本的出错风险可能高达50%

没有接受过统计学方面训练的人是出色的“直觉性统计学家”。我与阿莫斯在20世纪70年代早期的合作便始于对这个观点的讨论。他对我(在大学)的研究班及我本人讲过,密歇根大学的一些研究人员对直觉性统计抱有乐观态度。我个人对那个观点有种强烈的感觉:那段时间我发现自己并不是一个出色的直觉性统计学家,但是我也不相信别人会比我好多少。

对于一个研究型心理学家来说,样本变差没有什么特别的。它是个烦人且损失又大的麻烦事,会把每项实验都变成一场赌博。试想你希望证明6岁女孩的平均词汇量比同龄男孩的词汇量更丰富的假设。这个假设从整体来说是成立的,女孩的平均词汇量确实要比男孩的丰富一些。然而,尽管男孩与女孩差别很大,但你很可能会抽取到男女相差不太明显的样本,甚至会抽到一个男孩比女孩词汇测试成绩还要好的样本。如果你是那个研究者,这个结果对于你来说代价就太高了,因为它浪费了你的时间和精力,却无法证实一个实际正确的假设。使用一个足够大的样本是降低这种风险的唯一方法。选择小样本的研究者只能看自己是不是能选对合适的样本了。

想要对样本错误的风险作出评估,只需通过一个相当简单的步骤就可以实现。然而按照惯例来看,心理学家并不是通过计算来选定样本大小的。他们听从自己的判断,但这些判断往往是错的。在与阿莫斯发生意见分歧不久之前,我读过一篇文章,文章通过生动的观察结果展示了研究人员所犯的错误(他们现在仍在犯这种错误)。该文作者指出心理学家选择的样本通常都很小,致使他们有50%的风险不能够证实其正确的假设,而任何研究人员都不会在头脑清醒的情况下接受这种风险。对此有一个貌似正确的解释,即心理学家对于样本大小的决定反映了他们普遍存在的一个直觉性错误观念,即对于样本变差范围的错误看法。

这篇文章令我十分震惊,因为我在自己的研究中碰到了一些问题,却在这篇文章中找到了相关解释。与大多数研究型心理学家一样,我也墨守成规地选择了一些过小的样本,因此得到的实验结果毫无意义。现在,我知道了原因:那些奇怪的结果实际上就是我这种研究方法的典型产物。我的错误特别令人尴尬,因为我教过统计学,也知道该怎样计算样本的大小,以便将风险降至可以接受的程度。但是,我从未通过计算来确定样本大小。和我的同事一样,我被传统所禁锢,相信自己设计实验的直觉,也从未认真考虑过样本选择会带来的那些风险。阿莫斯来参加研讨会时,我已经意识到自己的直觉是错误的。在研讨会中,我们很快达成共识—密歇根的那些乐观派是错误的。

我与阿莫斯开始调查一个问题:只有我自己这么愚蠢还是我只是众多愚蠢的人之一,我们通过一项测试来证实这个问题,测试对象为一些数学家,想看看这些人是否也会犯类似的错误。我们设计了一份调查问卷,其中描述了真实的研究情境,包括一些成功实验的复制。问卷要求研究人员选择样品大小,对其决定可能带来的失败风险进行评估,并为那些正在设计自己实验的研究生提供建议。在“数学心理学协会”的一次会议上,阿莫斯收集了一组资深受试者(包括两本经济学著作的作者)的反应。结果很明显:我并不是唯一一个愚蠢的人。大多数受试者都会犯和我一样的错误。显然,即使是专家,在选择样品大小时也无法充分集中注意力。

我和阿莫斯将我们合写的第一篇文章命名为“对小数定律的盲信”。我们半开玩笑地解释道,“对于随意取样的直觉似乎符合小数定律,由此可以断言大数法则对于小数定律同样适用”。在文章中,我们还收录了一个措辞有力的建议,即研究人员认为他们“对于统计直觉应抱有一些怀疑,只要条件允许,都应采用计算方法来确定样本规模,而不是依靠直觉印象作决定”。

信任多于质疑的普遍性偏见

在一次面向300名老年人的电话民意调查中,有60%的人支持总统。

如果你只能用三个词来总结这句话,该怎么说呢?几乎可以肯定的是,你会说“老年人/支持/总统”。这些词概括了这句话的要点。这次民意调查被省略掉的细节—媒介为电话,样本为300人—本身意义不大,它们提供的背景信息并不怎么引人注意。即使样本数量变了,你的结论也不会发生变化。当然,一个完全荒谬的数字倒可能会引起你的注意。(例如一项对6名或6亿名老年选民的电话民意调查……)除非你是专业人员,否则不管样本是150还是3000,你都不会有什么不同的反应。这就是“人们对样本大小没有足够的敏感性”这一表述的意义。

这项民意调查包含了两方面的信息:新闻本身和新闻的来源。当然,你关注更多的是新闻本身,而不是其结果的可信度。但当可信度明显很低时,新闻所包含的信息也就不足为信了。如果得知“某党派小组操纵一项错误且带有偏见的民意调查,使结果显示老年人支持总统……”你当然会排斥这项调查的结果,不会相信这条新闻,这项由某党派进行的民意调查以及其错误结果不但没有令你信服,反而会成为另一条关于政治骗局的新闻。在这样清晰的案例中,你可以选择不相信其中的信息。但是你能把“我在《纽约时报》读到……”和“我在办公室闲聊中听到……”这两种说法完全区分开来吗?你的系统1能够区分出信息的可信度吗?眼见即为事实的原则表明:不能。

如前所述,系统1并不善于质疑。它抑制了不明确的信息,不由自主地将信息处理得尽可能连贯。除非该信息被立刻否定,不然,它引发的联想就会扩散开,仿佛这条信息就是千真万确的。系统2能够提出质疑,因为它可以同时包含不相容的多种可能性。然而,保持这种质疑会比不知不觉相信其真实性更加困难。小数定律是普遍性偏见的一种表现,即对事物的信任多于质疑。类似这样的偏见在下面的章节中还会出现。

相信小样本能反映调查对象的整体情况,这一强烈偏见也是一个较大问题的一部分。这个问题就是,我们常夸大所见事物的相容性和连贯性。许多研究人员过于相信通过有限的几次观察得出的结果,这一现象与光环效应紧密相连。我们常常会觉得自己对某个人很熟悉也很了解,但事实上,我们对他却知之甚少。系统1在了解事实之前就根据零散的证据拼凑了一个饱满的形象。如果相信小数定律,急于下结论的机制就会运作起来。通常情况下,它会建构一个言之成理的说法使你相信自己的直觉判断。

对随机事件作出因果解释必然是错的

联想机制会搜寻原因。在统计规则方面,我们面对的困难是这些规则要求使用不同的方法处理问题。依据统计学观点,我们不应关注当前事件的成因,而应当关注其未来走向。这件事的发生并没有什么特殊原因,一切只是机缘而已。

因为偏好进行因果思考,我们在估测真实的随机事件的随机性时就会犯严重的错误。以在某家医院依次出生的4个婴儿的性别为例,男女出生次序明显是随机的。每个婴儿的出生是各自独立的。在前几个小时内出生的男婴女婴数量并不会影响到下一个出生婴儿的性别。现在,请考虑一下可能的序列:

男男男女女女

男男男男男男

男女男男女男

出现这些序列的可能性是一样的吗?人们的第一反应都是“肯定不一样啊”。但是,这样的反应是错误的。因为每个婴儿的出生都是独立的事,并且生男生女的概率也几乎相等,6个婴儿任何一种可能的性别顺序都与别的顺序概率相等。即使是现在,你仍然认为这个结论是正确的,但它实际上是反直觉的,因为只有第三种顺序是随机的。如我们所料,“男女男男女男”比其他两种顺序更有可能发生。我们追求模式,相信所处的是一个各方面都相互联系的世界。在这个世界里,规律(例如6个女婴的顺序)并不只是偶然发生的,它还是机械的因果联系或是人的意志的结果。我们并不期待在一个随机的过程中找到规律。但当探寻到一个可能的规则时,我们就会抛开这个过程是真正随机的想法。随机过程会产生许多序列,以使人们相信这个过程完全是不随机的。如此你就可以看出来为什么假设的因果关系有进步发展的优势。它是我们从先辈那里继承的一般警觉性的一部分。我们会习惯性地搜寻环境变化的可能性。狮子可能随时都会出现在平原上,但注意到狮子出现频率的明显增长并采取行动则会安全许多,即使这种增长只是由于随机过程的波动而发生的。

对于随机性的广泛误解有时会带来重大影响。在我和阿莫斯合作的一篇代表性文章中,我们引用了统计学家威廉·费勒(William Feller)的阐述,他说,人们很容易在根本没有模式的情况下创建模式。“二战”期间,火箭弹在伦敦密集地轰炸。人们普遍相信爆炸不可能是随机的,因为地图显示,爆炸点在各地的分布有明显区别。一些人猜测没有被炸的地点住有德国的间谍。一份严谨的统计分析显示,爆炸点的分布是随机程序的一个典型代表,同样也是令人产生它并不是随机的这一强烈印象的典型代表。费勒评论道:“在没受过专业训练的人看来,这一连串轰炸行动就好像具有某种规律或趋势了。

“很快,我得到一次机会可以把我从费勒那儿学到的知识派上用场。1973年爆发的赎罪日战争中,我作出的唯一一项重大贡献就是建议以色列空军的高级官员停止一项调查。一开始,由于埃及地对空导弹表现出色,空战对于以色列来说很不利。以色列方面人员伤亡惨重,其人员分布也不均衡。有人告诉我说,有两支来自同一基地的空军中队,其中一支被击落了两架飞机,而另一支一架也没有被击落。为了弄明白那支不幸的空军中队到底做错了什么,相关人员对此展开了调查。我们没有理由认为其中一支空军中队比另一支更有效率,也并未发现他们在操作上有何不同。当然,飞行员的生活在很多方面会有所不同,据我回忆,其差异包括他们在任务之间回家的次数以及报告任务的执行情况等。我当时给出的建议是,司令部应该明白之所以出现不同结果仅仅只是因为他们运气不同而已,应该停止对飞行员的调查。我推断这次事件很可能是由于运气不佳,对不明显的原因进行随机调查必定是劳而无功的。与此同时,空军中队不断有人员损失,没有必要再给他们增加额外的负担,让他们觉得那些去世的伙伴做错了什么。

几年以后,阿莫斯和他的同学汤姆·季洛维奇(Tom Gilovich)、罗伯特·瓦隆(Robert Vallone)对篮球随机性的错误直觉所作的研究引起了轰动。运动员有时投篮顺手的“事实”普遍被运动员、教练和球迷们所接受。这样的推断是顺理成章的:如果一个运动员连续进了三四个球,你就会不由自主作出判断:这个运动员正处于“投篮顺手”的状态,得分率暂时增加。两队队员都持这种判断—队员也更爱将球传给打得顺手的人,对方球队则会用两位防守球员防卫这位进攻球员。然而,对上千个投篮动作的分析结果却十分令人失望:在职业篮球比赛中,无论球是从球场上投出还是从罚球线投出的,根本没有“投篮顺手”这回事。当然,一些球员会比其他球员投篮更准,但进球与投篮未中都只是随机的。“投篮顺手”完全只是旁人所见,而且他们太快作出评判了,以至于感知不到随机事件中的顺序和因果关系。“投篮顺手”是一个影响深远的认知错觉。

公众对于这项研究的反应也是这项研究的一部分。这个发现令人惊讶,很快就受到了媒体关注,而大家普遍的反应都是不相信。当著名的波士顿凯尔特人队教练瑞德·奥尔巴赫(Red Auerbach)听说了季洛维奇及其发现(研究)时,他回应道:“这人是谁呀?他做了个实验是吧?不过我对他的观点不敢苟同。”在随机性中发现规律的想法往往不可逆转,肯定比某个人作了一项研究更有说服力。

对规律的错觉在方方面面影响着篮球赛场。你要用多少年的观察才能肯定一个投资顾问是有真才实学的?一个执行总裁实现多少次成功的兼并,董事会才能确定他对这项工作有着非凡的才能?简单说来,如果你听从自己的直觉,就常常会因为把随机事件看做是有规律的事件而犯错。我们都非常愿意相信生活中大多数事情并不是随机的。

在本章开头,我引用了一个美国癌症发病率的例子。这个例子本来是有意写给统计学老师看的,我是从前文中提到的两位统计学家霍华德。维纳和哈里斯。泽维林所写的一篇有趣的文章中看到这个例子的。他们写这篇文章得到了盖茨基金会17亿美元的赞助,用以调查那些最成功的院校有哪些特点。许多研究人员在那些名声显赫的院校中作调查,希望发现这些学校的与众不同之处,从而寻求成功教学的秘密。这项研究的结论之一是,这些著名院校规模普遍较小。例如在宾夕法尼亚州对1 662所院校的调查中,排名前50的院校里有6所规模都较小,是(普通院校)的3倍多。这个数据使得盖茨基金会积极投入大量资金建立小规模的院校,有时会采取将大的院校拆分成小的院校的方法。另外,其他著名的机构中至少有一半也采取了同样的做法,例如爱林伯格基金会和皮尤慈善机构也采取了同样的做法,美国教育部还启动了“小型学习社区计划”。

你可能会觉得上述做法很有道理。我们很容易从因果关系角度去解释小规模的院校为什么可以提供优质的教学。我们认为,比起大规模院校,小规模院校可以给予学生更多的关注及鼓励,因此能培养出成就卓越的学者。但不幸的是,这样的因果分析是无意义的,因为得到的结论都是错误的。如果那些向盖茨基金会提交报告的统计学家们调查过最差学校的特点,他们会发现那些较差的学校也比水平一般的学校的规模小一些。事实上,规模小的学校办学水平并一定更高,他们只不过更懂得变通而已。维纳和泽维林说,如果真有什么区别的话,那就是大规模院校可以提供多种多样的课程,所以容易收到好的效果,特别是学生能拿到高分。

多亏了几年来认知心理学的发展,我们现在才能清楚地知道阿莫斯和我所瞥见的不过是冰山一角:小数定律包含在大脑工作的两个重要部分中。

·夸大对小样本的信任只是众多错觉中的一种—比起信息的可靠度,我们会更加注重信息本身的内容,其结果就是我们会将周围的世界变得比数据所能证明的更加简单和统一。在想象的世界中过早下结论比在现实中更有把握。

·统计学家的很多观察研究都可归结到因果关系的解释上,但他们却不承认是这样的。许多事实其实只是巧合,包括事件的采样。对偶发事件作出因果关系的解释必然是错误的。

示例—小数定律“没错,自从这个新执行总裁接手后,电影制片厂已经制作了3部优秀电影。不过,现在说他老练还为时过早。”“统计学家能够估算出这个交易新手表现出来的强劲势头是否是偶然的,所以在咨询统计学家之前,我不会相信他就是个天才。”“观察的样本太小,所以不能作出任何推断。我们不要遵从小数定律。”“在我们有足够大的样本之前,我计划对实验结果暂时保密。否则,我们会有过早下结论的风险。”第11章 锚定效应在生活中随处可见

阿莫斯和我曾临时赶制过一个幸运轮盘,上面刻有零到100的标记,但我们对它进行了改装,使指针只能停在10或65的位置上。我们从俄勒冈大学招募了一些学生做这项实验。我们两人中有一个会站在一个小组前面,转动这个幸运轮盘,并让小组成员记下转盘停下时指向的数字,当然了,这些数字只可能是10或65之后,我们问了他们两个问题:

你刚才写下的关于非洲国家占联合国(所有成员国)的百分比的数字大还是小?

你认为联合国中非洲国家所占的比例最有可能是多少?

幸运轮盘的转动根本不可能为任何事情提供有用信息,即使没有经过改装的轮盘也不可能,实验的受试者应该忽略它的影响,但他们没有做到这一点。那些看到10和65的人的平均估值分别为25%和45%。

我们研究的现象在日常生活中很普遍也很重要,因此你应该记住它的名字:锚定效应。人们在对某一未知量的特殊价值进行评估之前,总会事先对这个量进行一番考量,此时锚定效应就会发生。这一效应是实验心理学中最可靠也最稳健的结果,即估测结果和人们思考的结果很相近,就好比沉入海底的锚一样。如果有人问你甘地死时年龄是否大于114岁,你在估测他的死亡年龄时会比锚定问题是35岁(死亡)时更高。你在考量买房要花多少钱时,也会受到要价的影响。同样的房子,如果市场价格高,它就显得比市场价格低时更有价值,即使你决心抵制价格的影响也没有用。此类事例不一而足,锚定效应的事例不胜枚举。一旦你要考虑某个数字是否会成为一个估测问题的可能答案,这个数字就会产生锚定效应。

我们不是最先观测锚定效应的人,但我们的实验是第一个揭示其荒谬性的实证研究:人们的判断明显受到没有任何信息价值的数字的影响。若想解释轮盘的锚定效应是合理的,这似乎不太可能。阿莫斯和我在《科学》杂志上发表的论文中提到了我们的实验,我们在这份杂志上发表的所有研究成果中,这是最著名的一个。

但唯一的问题是:阿莫斯和我对锚定效应体系中的心理学现象的认识并不完全一致。他支持一种解释,我则偏向另外一种,而且我们从来没有找到解决这个分歧的方法。几十年后,无数研究者通过努力终于解决了这个问题。现在问题明确了:阿莫斯和我都是正确的,是两个不同的机制共同作用产生了锚定效应,即一个系统对应一个机制。锚定有一种形式,即它是在进行刻意调整时发生的,这也是系统2的一种运行模式。还有一种是由启发效应产生的锚定,是系统1的一种自主显示模式。

对锚定值的调整常常是不足的

阿莫斯喜欢将调整—锚定的启发式想法作为估测不确定值的策略:从锚定的数字开始,然后估测它是过高还是过低,接着让大脑从锚定数值上“转移”并逐渐调整你的估值。调整通常会过早结束,因为当人们不再确定他们是否应该继续移动时就会停止移动。在我和阿莫斯意见出现分歧的几十年后,也就是阿莫斯去世的几年后,两位心理学家分别提出了有关这个(调整—锚定)过程令人信服的证据,这两位心理学家在其职业生涯早期曾和阿莫斯一起共事过,他们就是埃尔德·沙菲尔(Eldar Shafir)和汤姆。季洛维奇,参加研究的还包括他们的学生—阿莫斯的“徒孙”们!

为了验证这个想法,请拿出一张纸,从纸的底端由下而上画一条2.5英寸长的线,徒手画,不用尺子。现在请拿出另一张纸,从纸的顶端开始由上而下画一条线,在距顶端2.5英寸处停笔。比较这两条线。你很可能会估测第一条2.5英寸长的线比第二条短,因为你并不确切地知道这样的一条线究竟该是什么样的。这种估测有很多不确定的因素。你若从纸的下端开始画起,就会停在下面的不确定区域;如果你从纸的上端开始画起,就会停在上面的不确定区域。罗宾·勒伯夫(Robyn LeBoeuf)和沙菲尔在日常经历中发现很多关于这种机制的例子。为什么你在开车下了高速公路驶入城市街道时还会开那么快—如果是边聊天边开车,速度尤其容易快。调整不足就是对这一现象的最好解释。孩子在房间里喜欢把音乐开得很大声,父母却很恼火,两代人关系紧张,其原因也是调整不足。勒伯夫和沙菲尔注意到“家长要求孩子应将音乐调到‘适当’的音量,但听着特别大声音乐的孩子即使想这样做也难,还会认为家长忽视了他们真心作出的让步,这是因为他们无法从充分的高锚定值中调整过来”。这里提到的司机和孩子都有意地(将数值)向下调整,但两者都没有(将这个值)调整到位。

请看下面的问题:

乔治·华盛顿是何时当选总统的?

珠穆朗玛峰峰顶上的沸点是多少?

在思考这些问题时,最先发生的事就是你的脑海中出现了锚定数字,你知道这样是不对的,而且还知道正确答案的大致方向。你马上就知道乔治·华盛顿是1776年后成为总统的,你也知道珠穆朗玛峰峰顶上的沸水温度比100摄氏度低。你不得不去寻找从这个锚定值上移开的论据,将其调整到合适的数值。就像前文提到的那个线段的例子那样,在那个不确定区域的边缘,你不确定是否应该继续进行时就会停止。

尼克·艾普雷(Nick Epley)和汤姆·季洛维奇发现,调整就是刻意去寻找离开锚定数字的理由:按照要求一听到锚定值就摇头的人仿佛对此有些排斥,他们会离锚定值更远。而点头则会增强他们对锚定值的概念。艾普雷和季洛维奇也证实说调整是一项需要付出努力的活动。人们在自己的大脑资源耗尽时调整较少(离锚定较近),因为他们的记忆中存储着一些数字或是因为他们有些醉了。调整不足是软弱或懒惰的系统2的一种失误。

我们现在知道阿莫斯至少对一些锚定效应的例子的理解是正确的,这些例子中包含了系统2为离开锚定值进行的具体调整。

暗示就是一种锚定效应

当阿莫斯和我就锚定效应进行争论时,我同意(他说的)有时会出现调整现象,但其实心里很不服气。调整是一个审慎且有意识的行为,但锚定效应的大多数例子中并没有相应的主观经验。请看下面两个问题:

甘地去世时比144岁大还是小?

甘地去世时多少岁?

你是否会把144岁向下调整来得出自己的评估?也许不会,但这个大得离奇的数字仍然会影响你的估测。我的直觉告诉我,锚定就是一种暗示。如果有人只是提起某件事,而他的话却促使我们去看、去听或是去感受这件事,此时的情形就可以用锚定来形容。例如,“你的左腿现在是否微微麻木了”这个问题常会使相当多的人回答说他们的左腿确实感到有些异样。

阿莫斯对直觉的研究比我更谨慎,他一针见血地指出,关注暗示对我们理解锚定效应没有什么帮助,因为我们不知道如何解释暗示作用。我不得不同意他是对的,但我不同意调整不足是锚定效应的唯一原因。我们为理解锚定效应做过很多实验,但是都以失败告终,最终我们放弃了进一步研究这一课题的想法。

现在,那个打败我们的难题得到解决了,因为暗示的概念已经明确了:暗示即一种启动效应,它会有选择地找出相应的证据。你完全不会相信甘地活到了144岁,但你的联想机制却会对一位逝去的老人产生印象。系统1理解句子的方式就是尽量相信其内容的真实性,它对相应想法的选择性激活会产生一系列的系统性误差,这些误差会使我们更容易受骗,更加坚定地相信自己的想法。我们现在明白为什么阿莫斯和我从前没有意识到锚定效应有两种类型:研究手法和理论观念,我们研究这个问题时很需要这两种类型但它们却没有出现。后来,其他人极大地发展了这两种类型。

在很多情况下,我们都需要一个类似暗示的过程发生作用:系统1试图建立一个将锚定数字视为真实数值的世界。这是我在本书第一部分描述的联想一致性的一种表现。

德国心理学家托马斯·穆斯魏勒(Tomas Mussweiler)和弗里茨·斯特拉克(Fritz Strack)对锚定效应中联想一致性的作用所作的实证研究最令人信服。在一项实验中,他们问了一个关于温度的锚定问题,“德国每年的平均温度是高于20摄氏度还是低于20摄氏度”,或者“德国每年的平均温度是高于还是低于5摄氏度”?

研究人员让所有受试者快速扫过一些单词,然后让他们去识别这些词。研究人员发现,受试者看到20摄氏度后更容易识别和夏天相关的词(比如“太阳”和“沙滩”),看到5摄氏度后则能更加轻松地识别出关于冬天的词汇(比如“冰冻”和“滑雪”)。对相应记忆的选择性激发解释了锚定效应:大小不同的数字能激发起记忆中不同的观念体系,而这些带有偏见的观念则成为(受试者)估测年度平均温度的依据,据此作出的估测值也因此带有一定偏见。在另一个基于同一目的的简单实验中,研究人员让受试者估测德国汽车的平均价格。高锚定值的受试者会选择性地让奢华品牌(比如奔驰、奥迪)的汽车最先出现在脑海中,而低锚定值则会使人最先想到一些销售量大的汽车品牌(比如大众)。此前我们就知道任何启发都会唤起与之相应的信息。暗示和锚定效应都通过相同的系统1的自主运行得到了解释。尽管当时并不知道如何证实这一观点,但我对锚定效应和暗示之间存在联系这一直觉最终被证实是正确的。

作为这幢房子的主人,你能接受的最低售价是多少?

很多心理学现象可以通过实验得到证实,但事实上这些现象中几乎没有哪种是可以测量的。锚定的影响是一个特例,锚定效应可以测量,测量结果证实这一效应影响超大。有人曾经问过那些参观“旧金山探索馆”的游客下面两个问题:

最高的那棵红杉树是高于1200英尺还是低于1200英尺?

你认为那棵最高的红杉树有多高?

这个实验中的“高锚定值”是1200英尺。而另外一组受试者看到的第一个问题则用了一个180英尺的“低锚定值”。两个锚定值相差1020英尺。

不出所料,(关于那棵最高的红杉树有多高)两个组给出了完全不同的平均评估:844英尺和282英尺。两者的差距有562英尺。锚定指数就是两个不同答案的比率55%(562/1020)。对于那些在评估过程中过度运用锚定的人而言,锚定效应的测量结果将是100%,对于那些能够忽略锚定的人而言,锚定效应的测量结果则是零。这项实验中观察到的55%的锚定指数非常典型,在其他许多问题中也观察到了相似的锚定指数。

锚定效应在实验室中司空见惯,在现实世界中其影响同样毫不逊色。几年前的一个实验中,实验人员让一些房地产经纪人对一幢待售房子的价值进行评估。这些经纪人亲自去看了这所房子,还仔细研究了一本小册子,里面包括这幢房子的全面信息和售价。其中一半经纪人评估的售价比标价高很多,另一半评估的售价则比标价低很多。每位经纪人都给出了自己认为合理的售价,同时(假定自己是这幢房子的房主)她们还给出了自己能够接受的最低售价。实验人员随后问这些经纪人哪些因素影响了她们的决策。出乎意料的是,售价并非影响因素之一。这些经纪人十分得意,因为她们没有被这个因素所左右。她们坚称标价没有影响到她们对这一问题的回应,但实际上她们错了:锚定指数是41%。事实上,专业人士和对房地产一无所知的商学院学生一样,都受到了锚定效应的影响。后者的锚定指数是48%。两者的唯一区别是,学生承认他们受到了锚定效应的影响,而专业人士则否认这一点。

在人们对钱的问题所作的决定中同样体现出了强大的锚定效应,人们选择对一项事业投入多少时就会受锚定效应的影响。为了证实这一影响,我们告诉探索馆研究中的受试者,太平洋中的油管引起了环境污染,问他们是否愿意每年都捐钱“使5万只近太平洋海岸的海鸟不致受小面积海上溢油的影响,直到找到防止泄漏的方法或要求油罐所有者支付运行费用为止”。这个问题需要强度相匹配:实际上,我们是在要求调查对象预估应该捐献多少钱才能与自己对海鸟困境的感受程度相匹配。对其中一些游客,实验人员并没有直截了当地问她们愿意捐多少钱,而是先问了一个锚定问题,比如“你是否愿意花5美元来……”

若没有提到锚定问题,这些对环境都很敏感的探索馆参观者会说他们愿意拿出的钱平均为64美元。当锚定金额只有5美元时,平均捐款则是20美元。当锚定金额达到400美元时,人们的捐款平均数就达到了143美元。

高锚定金额和低锚定金额之间相差123美元。锚定指数高于30%,表明增长100美元的初始要价就能带来平均值为30美元的回报。

许多估测和捐款意愿的研究都曾体现出相似甚至更大的锚定效应。例如,有人曾问过那些在法国马赛重度污染地区居住的居民,如果能住在一个污染程度较低的地方,他们能接受生活开销提高多少。锚定指数在该研究中超过了50%。在网上购物过程中也很容易观察到锚定效应,网上相同的产品经常标出不同的“立购”价。“估测”在艺术品拍卖行业中是影响第一次竞拍的锚定价格。

锚定效应在某些情形下看起来也是合理的。毕竟,那些被问到难题的人肯定会去抓住这根救命稻草的,况且这个锚定值也是根貌似合理的稻草。如果你对加利福尼亚的树所知无几,却又被问到红杉树是否高于1200英尺,此时你可能就会认为这个数字与真实数字相差不远。因为是那些知道这种树真实高度的人想出的这个问题,所以这个锚定值也许是个有价值的提示。但是,锚定效应研究有一个重要发现,即锚定值显然是任意的,它也许和可能有信息价值的锚定值一样有效。当我们用轮盘来估测联合国中非洲国家所占的比例时,锚定指数是44%,还算是处在看似正确且能作为提示的锚定效应的影响范围内。有些实验已观察到大小相似的锚定效应,在这些实验中,受试者社保号的最后几个数字被用做锚定值(比如为估测他们城市中医生的数量)。结果很明确:锚定值没有影响,因为人们认为这些数字没有什么信息价值。

随机锚定的影响以一些令人不安的方式出现在生活中。一些任职经历平均为15年的德国法官先是读了一份案例,讲到一个妇女在商店顺手牵羊被捉住的案例,然后他们开始掷一副骰子,这副骰子被人提前做过手脚。因此,每次掷骰子的结果不是3就是9。骰子一停,实验人员就问这些法官是否会将那位妇女送进监狱,且其服刑的时间应该比骰子上的数大还是小。最后,实验人员问这些法官,他们给这个行窃的妇女判定的服刑期具体是多少。平均来看,那些掷了9的法官说他们会关她8个月,而掷了3的法官说他们会关她5个月,锚定指数是50%。

锚定效应何时适用,何时不适用?

到现在为止,你已经相信锚定效应无处不在,有时是由于启发效应,有时则是因为调整不足。产生锚定效应的心理机制使我们比自己预想的更容易受影响。当然,有些人愿意且能够利用我们的轻信。

例如,锚定效应解释了为什么限量购买是一种有效的营销策略。几年前,在艾奥瓦州的苏城的超市里,购物者遇到了坎贝尔汤罐头在作促销的情形,降价10%。有那么几天货架上写着“每人限购12罐”,而在其他几天里则写着“不限量”。购物者在限购时平均会购买7罐,是不限购时购买量的2倍。锚定效应不是唯一的解释,配给也显示货物很快就下架了,购物者应该对货物储存量感到有些紧张。但我们也知道12罐的可购买量会成为一种锚定,即使这一数字是通过轮盘产生的也不例外。

同样的策略在商讨购房价上也适用。在许多其他的活动中也是这样,在协商中率先出击的一方往往会占有优势,例如,当价钱是买方和卖方唯一要协商的事时就会出现锚定效应。第一次在集市上讨价还价也是这样,先发锚定有着重大的影响。我在教学生谈判时,给他们的建议是如果你认为是对方作出了无礼的提议,你就不应该提出同样无礼的提议,因为两者之间有距离的话会使此后的商谈难以进行。你应该大吵大闹,夺门而出,或者威胁对方说自己也会这样做,要让对方明白以这个数字为基准的话,谈判将难以继续。

心理学家亚当·加林斯基(Adam Galinsky)和托马斯。穆斯魏勒提出了更好的方法来抵制商谈中锚定效应的影响。他们告诉谈判者,在商谈中要集中注意力搜寻大脑记忆来抵制锚定效应。激活系统2的做法会很奏效。例如,在第二个提议人将其注意力集中在对方能接受的最低值或对方无法接受的费用上时,锚定效应就会削弱或消除。大体来讲,有意地“为对方着想”的策略也许是抵制锚定效应的好方法,因为它否定了能产生这些效应的带有偏见的想法。

最后,试试看你能不能弄清楚锚定效应对公共政策问题的影响,即人身伤害案件的损害程度的裁定。这类案件的判决有时是很严厉的。类似医院和化工企业等单位常常是这类诉讼案件的被告,这些单位曾经游说各方为此类判决设置了一个上限。

读本章之前你可能想过,给这些判决设置上限绝对是有利于潜在被告的,但现在你就不会这么确信了,如果上限是100万美元,其结果会怎样?这条规则会消除所有的严厉判决,但锚定也会阻止法官将许多较轻罪行的量刑判得更轻。这对违法者和大公司都有好处,比给小公司带来的好处多。

随机锚定效应还会使我们更加了解系统1和系统2之间的关系。人们一直利用判断与选择的案例来研究锚定效应,而判断与选择最终总是由系统2完成的。但是,系统2对从记忆中提取的数据进行加工,并由系统1进行自主的、无意识的运行,因此很容易受锚定效应的影响,而这种影响会使某些信息更容易让人回想起来。此外,系统2对这种影响一无所知,也无法控制。看到随机或荒谬的锚定值(比如甘地死时144岁)的那些受试者会自信地说,这个明显无用的信息并没有对他们的估测行为产生影响。事实上,他们错了。

在讨论小数定律时我们发现,如果一则消息没有马上被视为谎言,那么不管其可靠性如何,它都会对联想系统产生同样的影响。这个消息的重点是故事,随便根据什么信息编造的都无所谓,即使这则消息的信息量很少,质量很差劲也无所谓,因为眼见即为事实。当你读到一个拯救受伤登山客的人的英勇故事时,这个故事对你的联想记忆产生的影响和一篇新闻报道或电影简介大体差不多。锚定效应是由这个联想激发引起的。这个故事是否真实、是否可信一点都不重要。随机锚定的强大影响是锚定效应的极端例子,因为随机锚定显然没有提供什么信息。

我在前文中讨论了启发效应纷繁复杂的表现类型,在启发效应下,你的思想和行为也许会被完全不曾留意的刺激所影响,甚至会被你完全没有意识到的刺激所影响。启发实验的主要寓意是我们的思想和行为会受当时的环境影响,且这种影响比我们了解或想象的要大。很多人发现启发效应的结果令人难以置信,因为它们和主观经验相去甚远。另外很多人则发现其结果令人不安,因为它们威胁着我们对中介和自主性的主观感受。如果不相关的大脑屏保能在你意识不到的情况下影响你对陌生人的帮助,那你到底有多自由呢?锚定效应也以相似的方式威胁着你。你总能意识到锚定,甚至会对它格外关注,但你不知道它是如何引导和限制你的思考的,因为你不能想象如果锚定改变(或不存在)你会如何思考。但是,你应该假设任何一个公开谈判时的数字都对你有锚定效应,如果概率大,你应该抵制(你的系统2)该效应。

示例—锚定“我们想要收购的公司给我们看了他们的商业计划,其中包括他们希望得到的收益。我们不应该让那个数字影响到我们的思路。将其放置一边。”“计划是为最佳情况设计的方案。当我们预计实际结果时,要避开计划的锚定效应。想想计划出现失误的各种方式也不失为执行计划的一个方式。”“我们商谈的目标是让他们锚定在这个数字上。”“我们要清楚一点,如果那就是他们的提案,那么商谈就此结束吧,我们不想那样开展工作。”“被告律师提出一个微不足道的证明,证明中提到了一个荒谬的小损失,这些律师就是想让法官们拿这个损失做锚定。”第12章 科学地利用可得性启发法

1971~1972年,阿莫斯和我在俄勒冈州的尤金度过了我们最为高产的研究时期。我们在俄勒冈研究院做客,在我们研究的领域—判断、决策制定和直觉性预测—中该研究院后来诞生了很多未来之星。主要负责接待我们的是保罗。斯洛维克,他曾是阿莫斯在安阿伯市时的同学,也是他一辈子的朋友。保罗当时即将成为风险心理学领域中的领军人物,他独领风骚几十年,也获得了很多荣誉。保罗和他的妻子洛兹带我们感受尤金的生活,很快我们也开始效仿尤金人,常去跑步、烧烤,带孩子去看篮球赛等。我们非常努力地工作,做了很多关于启发法的实验,也写了很多文章。晚上的时候,我就写那本《注意与努力》,那段时间我非常忙。

我们的项目中有一项是对“可得性启发法”进行研究。我们问自己,人们在想要估计某类事件的出现频率时到底是怎么做的,这些事件包括“人在60岁之后的离婚概率”或“(是否是)危险的植物”等。我们认为这种自问就是启发法。这些问题的答案很简单:从记忆中搜寻这类问题的实例,如果搜寻过程既轻松又顺畅,这些事的发生概率就会被判断为很大。我们将可得性启发法定义为通过“实例呈现在脑中的轻松程度”来判断概率的过程。我们的系统阐述似乎已经给出了这一方法的明确定义,但可得性这一概念此后仍在不断得以精炼。我们在研究可得性的时候还没有阐发两个系统的方法,而且我们并没有费尽心思去确定启发法是可以解决问题的主观策略,还是一个自主运行的无意识行为。现在我们知道启发法其实涉及两个系统。

我们之前思考的问题是,到底需要在大脑中搜寻多少实例才算是轻松回忆,以获得某一印象。我们现在知道了答案:一个也不用。例如,请考虑下面两组字母可以组成多少个单词。

XUZONLCJM 

TAPCERHOB

你几乎不必去想什么实例,一打眼就知道其中一组字母比另一组组成单词的可能性更大,可能会多10个或者更多。同样,想要清楚地了解不同国家去年出现在新闻中的相关频率(比利时、中国、法国、刚果、尼加拉瓜、罗马尼亚等)你也无须回想具体的新闻报道。

意识到自己的偏见有利于团队关系融洽

与其他判断启发法一样,可得性启发法就是用一个问题替代另一个问题:你希望估测某一范畴的大小或某一事件的(发生)频率,但你却会提到自己想到相关实例的轻松程度。问题的替代必然会产生系统性错误。你会发现启发法是如何通过一个简单的过程导致偏见的,不直接说出(事件发生的)频率,而是列举那些使你轻松想起相关实例的因素,其中的每个因素都会成为偏见的潜在来源。试举几例:

·你可以很轻松地回想起引起自己注意的突出事件。好莱坞明星的离婚事件和政客的性丑闻事件格外引人注目,想到这些实例并不难。因此,你很容易夸大好莱坞离婚事件和政客性丑闻事件的频率。

·一个大事件会暂时提高此类事件的可得性。飞机失事事件会有媒体来报道,这也会暂时改变你对飞行安全的看法,接着你又看到路旁有辆汽车着火了,于是这些事故会暂时盘踞在你的脑海中,你会觉得这个世界此时充满更多难以预料的事。

·亲身经历、生动的图片和鲜活的例子比发生在别人身上的事、单纯的文字或是统计数据更容易让人回想起来。一个与你相关的判决错误会逐渐削弱你对司法体系的信任度,其影响程度比你在报纸上读到类似事件的影响更深。

你可以尽可能地抵制如此之多的潜在的可得性偏见,但那样做会令你身心俱疲。你必须通过自问一些问题努力重新审视自己的印象和直觉,比如“我们是否会因为小区内最近发生了几起偷盗事件就认为青少年盗窃是个严重问题”或者“我认识的人去年没有得感冒的,我是不是就没必要打免疫针了呢”。时刻对偏见保持警惕是件累人的事—但由此便可避免一个代价高昂的错误,因此付出努力也是值得的。

有个很著名的可得性实验表明,意识到自己的偏见可以使夫妻和睦相处,而且很可能在其他的合作计划中与他人的关系也很融洽。在一项广为人知的研究中,研究人员问夫妻双方的问题是:你为保持此地整洁作了多大贡献?用百分比来表示。此外,夫妻俩还回答了如“倒垃圾”、“发起社交互动”等类似问题。那么这两位自我估测的贡献率合计能达到100%吗,是更多或者更少?不出所料,他们自我估测的贡献率合计超过了100%。一个简单的可得性偏见就可以对此作出解释:夫妻二人记自己的努力和贡献比记对方的清楚得多,而且可得性的不同导致了对频率判断的不同。偏见不一定是自私的:这对夫妻还过多地将两人的争执归因于自己,尽管这一比例比两人在那些积极正面的事件中的自评比例小得多,但也是难能可贵了。同样的偏见对常见的观察同样适用,很多合作团队成员感觉他们做的事超出了自己的分内工作,还感到其他人并不感激自己作出的贡献。

我通常对人们控制偏见的潜能不是很乐观,但这次例外。成功去除偏见的案例还是存在的,即我们可以很轻松地识别出功劳分配问题是何时出现的,尤其当几个人同时感到他们的努力没有得到足够的认同时更是如此。自己周围的那些人通常也会付出超出100%的努力工作,只要你看到这一点有时就足以缓和这种(心理失衡)情形。任何情况下,每个人都该牢记这一点。你做的事情偶尔会超出自己的分内事,但你应该知道,当你有可能有这种感觉的时候,你的团队里的每个成员也都可能有同感。

可得性偏见会影响我们对自己或他人的看法

20世纪90年代早期,人们对可得性启发法的理解有了重大进展。那时,由诺伯特·施瓦茨(Norbert Schwarz)领导的一组德国心理学家提出了一个有趣的问题:人们对某件事发生频率的印象是如何受到列举实例的具体数目这一要求的影响的?

设想你自己就是那个实验的受试者:

首先,列出6个你果断行事的例子。

接下来评判一下你有多果断。

假如有人要求你列12件自己表现得果断的事(大多数人都会觉得很难列出这么多件事)。你对自己果断程度的判定会有所不同吗?

施瓦茨和他的同事观察到列举事件的任务可能会通过两种不同方式加强对特点的判断:

·能回想起的事例数量。

·事件在脑中呈现的轻松程度。

列举12个例子的要求使得两个决定因素相互排斥。一方面,你刚想起了几件自己做得很果断的事;另一方面,你想起前三四件果断的事可能很轻松,可说出12件就要挖空心思了,回忆起来也没有那么顺畅。哪个更重要呢,提取的数量还是提取的轻松感和顺畅性?

两个因素间的较量谁是赢家一目了然:那些列举了12件事的人认为和只列举了6件事的人相比,自己不够果断。而且,列举出自己表现不够果断的12件事的那些受试者最终却认为自己非常果断!如果无法轻松地想起懦弱的事例,你可能就会说自己一点也不懦弱。自我评估是由事件呈现在脑海中的轻松度来衡量的。轻松地想起某件事的体验比想起事情的数量更重要。

同一个小组的另外一些心理学家对顺畅性的作用作了一个更为直接的实证研究,实验中所有的受试者都按要求列出了6件果断(或不果断)行事的例子,同时还保持着特定的面部表情。“微笑者”要收缩颧肌,露出浅浅的微笑:“皱眉者”要皱着眉头。如你所知,皱眉通常伴有认知紧张,且其影响是对称的:执行任务时被要求皱眉的人付出的努力更多,体验到的认知紧张也更强烈。研究者预计皱眉者在提取果断行为时会有难度,因此会估计自己缺少果断性。结果也的确如此。

心理学家喜欢产生悖论的实验,他们怀着极大的兴趣运用了施瓦茨的发现。例如,人们:

·在回忆起自己多次骑自行车的经历后,依然相信他们自己不经常骑自行车。

·在被要求用更多的论据支撑自己的选择时自信心下降。

·在列出多个避免某种问题的方法后,却对避免此问题显得更加不自信。

·在列出某辆车的优点后,对该车变得没那么感兴趣了。

加州大学洛杉矶分校的一位教授发现了一个利用可得性偏见的巧妙方法。他让不同组的学生列出改进课程的方法,要求不同组列出不同数量的方法。正如他所预料,列出较多改进方法的学生对这一课程的评价也更高。

也许这个有悖论的实验中最有趣的发现就是悖论不一定会被发现:人们有时依照提取到的内容而非提取的轻松程度来作出判定。你真正了解行为模式的证据就是你知道如何让其发生逆转。施瓦茨和他的同事们接受了这一挑战,去探索在何种情况下会发生这种逆转。

受试者想到那些行事果断的例子的轻松程度在任务实施过程中是不断变化的。前几件事情提取时很容易,但很快就变得越来越难。当然,受试者的思考顺畅性也会慢慢下降,但在列举6~12件事中顺畅性的下降速度显然要超出受试者的预料。结果表明受试者作出了推理:如果我在回想能体现自己果断行事的例子时遇到了超乎想象的困难,那说明我根本就不是个果断行事的人。请注意,这个推理建立在受试者未曾料到的情况之上—顺畅性比预期的更糟糕。此例中受试者运用的可得性启发法被叫做“无法解释的不可得性”启发法才更合适吧。

施瓦茨和他的同事们论证道,他们为受试者解释其在回想相关经历的流畅性(发生变化的问题),由此可以干扰启发法。他们告诉受试者在回想事件时他们会听到背景音乐,而且音乐会对他们完成记忆任务产生影响。实验人员告诉一些受试者音乐能帮助他们回想起相关例子,却告知其他受试者听音乐其回忆会不那么顺畅。不出所料,那些对顺畅性有所认识的受试者没有将音乐看成是一种启发法;而那些得知音乐会使回忆更困难的受试者无论完成提取6件还是12件的任务,对自己果断程度的估测没什么两样。其他的主要实验也得到了同样的结论:若通过展示曲线或直线的文本框,或屏幕的背景颜色,又或其他与实验预期不相关的因素对体验到的顺畅性作出虚假解释的话,判断便不再受提取轻松程度的影响。

诚如我所述,用可得性来判断的过程包括了一个复杂的推理链。受试者会体验到,他们在提取事件时,顺畅性会逐渐降低。他们显然对顺畅性的下降率事先有过预计,但那些预计是不准确的:想起新事例的困难增速远远超出了他们的预计。正是这种超出预期的低顺畅性使那些被要求列举12个事例的人将自己描述成优柔寡断之人。了解个中缘由,低顺畅性也就不会再影响判断了。这个过程看似由一套复杂的推理组成。自主的系统1能胜任这项任务吗?

回答时其实根本就不需要复杂的推理。在系统1的基本特征中,其中一点就是这一系统具有设定预期的能力,当现实与预期相悖时它就会感到惊讶。该系统还会提取造成惊讶情绪的可能原因—通常是在近期所经历的各种惊讶体验中找到一个可能的原因。此外,系统2在运行中会重塑系统1的预期,因此一件本该令人惊讶的事就变得正常了。假设有人事先告诉过你那个住在隔壁的3岁大的小男孩经常戴着一顶礼帽坐在小推车里,那么当你真的看到他戴着礼帽时就不会像事先并不知道(这件事)那么惊讶了。在施瓦茨的实验中,受试者事先知道背景音乐可能是影响他们回想具体事例的一个原因,因此他们对提取12件事的难度也就不再那么吃惊了,这种难度也就不大可能影响他们对自己果断行事程度的判断。

施瓦茨及其同事发现,判断涉及自身情况的人往往更有可能关注他们从记忆中提取的事件数量,对顺畅度则不大关注。他们请两组同学参加对心脏健康风险的研究,其中一半学生有心脏病家族史,他们应该比其他没有这种家族病史的人更注重这个研究。所有的学生都要回想自己日常生活中可能会影响心脏健康的3种或8种行为(按照要求,有些学生需要回想的是危险行为,其他学生需要回想的是保护性行为)。没有心脏病家族史的学生对这项任务较随意,遵循的是可得性启发法。觉得想起8件危险行为很难的学生觉得他们相对安全,而那些努力回想安全做法的学生却感觉自己处于危险中。有心脏病家族史的学生则表现出相反的模式—他们在想起很多安全做法时觉得很安全,在想起很多危险行为时感到很危险。他们还更有可能觉得自己将来的行为会受到自己对危险做法评估的影响。

由此可见,事件在脑海中呈现的轻松程度体现出系统1的启发作用,然而当系统2越来越多地参与其中时,受试者关注的就不再是提取记忆的轻松度,而是回忆起来的若干事例的内容了。各种各样的证据都指向统一结论,即那些跟着系统1走的人更容易受可得性偏见的影响,比那些警惕性更高的人受影响的程度更大。在下面这些情况中,人们都在“跟着感觉走”,提取轻松度对他们的影响要大于其回想事例内容带给他们的影响:

·当他们同时忙于另一件需要付出努力的任务时。

·因他们刚刚想起生命中的一个快乐片段而心情大好时。

·如果他们在抑郁量表中得分很低的话。

·尽管对这项任务所给话题的了解达不到专家级水准,但他们也算是对此领域了解颇多的新手了。

·他们跟着感觉走却拿了高分时。

·如果他们(或别人令他们感到)很强大时。

我认为最后一个发现尤其有趣。几位作者引用一句名言来介绍自己的文章:“我没有满世界做民意调查来告诉自己怎样做才对,知道自己的感受就够了。”他们进一步表明,对直觉的依赖只是个人品行特征的一部分。他们只想提醒人们,能力可以提升我们对自己直觉的信任。

示例—可得性“因为上个月发生了两架飞机相撞事件,她现在更愿意坐火车。这真是愚蠢,风险其实并没有真正降低,这就是可得性偏见。”“他低估了室内污染的风险,因为媒体对此报道极少。这是可得性的影响。他应该看些统计数据。““她最近看的间谍电影太多了,因此她看什么都觉得有阴谋。”“这位执行总裁连续多次成功,因此失败不会轻易在她的脑海中出现。可得性偏见使得她过于自信。”第13章 焦虑情绪与风险政策的设计

有风险意识的学生可以迅速发现可得性效应与自己的担忧不无关联。在我们的作品发表前,经济学家霍华德·昆路德(Howard Kunreuther)就已经注意到,可得性效应能够对买保险的行为模式和灾后的保护性行为模式作出解释。当时,昆路德对风险和保险的研究正处于起步阶段。受害者和近似受害者在灾后往往心存焦虑。

每次影响巨大的地震发生之后,加利福尼亚的居民都会去买保险,采取充分的自我保护和减少损失的措施。他们固定好暖壶以防止其在地震中破碎,将地下室的门封死以抵抗洪水,还要确保紧急备用电源能正常工作。但是,随着时间的推移,对灾难的记忆就会变得模糊,担忧和防备的努力程度也会减弱。记忆的动态变化为灾难、担忧和越来越松懈的心理这一循环作出了解释。昆路德还观察到,不论是个人的还是政府的保护性行为,都能应对最糟糕的灾难。早在法老时代的埃及,人们就为周期泛滥的河水的最高水位作出标记,找出相应的治水对策,当时的人们显然认为河水不会比标记的最高水位更高,因此他们很难想到还会有更大的洪灾。

被闪电击中与食物中毒,哪种意外致死率更高?

对可得性偏见最具影响力的几项研究,是由我们那些身在尤金的朋友完成的,保罗·斯洛维克和他的长期合作者萨拉·利希滕斯坦(Sarah Lichtenstein)以及我们以前的学生巴鲁克·费斯科霍夫(Baruch Fischhoff)等人共同完成了这些研究。他们关于公众对风险看法的研究具有奠基意义,包括一项如今已成为可得性偏见的标准案例的调查。他们让受试者思考两组死亡原因:糖尿病和哮喘,中风和意外事故。

每组原因中,受试者要指出更常出现的原因并估测两种可能性的比率,然后将作出的判断与当时的健康统计数据进行比较。以下是他们发现的一个样例:

·中风致死的数量几乎是所有意外事故致死总数的2倍,但80%的受试者却判断意外事故致死的可能性更大。

·人们认为龙卷风比哮喘更容易致死,尽管后者的致死率是前者的20倍。

·人们认为被闪电击中致死的概率比食物中毒要小,不过,前者致死率却是后者的52倍。

·得病致死是意外死亡的18倍,但两者却被认为概率相等。

·意外死亡被认为是糖尿病致死率的300倍,但真正的比率却是1∶4.

这其中的道理很明显:对死亡原因的估测因媒体报道而有所改变。报道往往偏向新鲜和尖锐的事。媒体不仅影响了公众的兴趣,也受到公众兴趣的影响。编辑不可能忽略公众的需求,就对某些话题和观点进行大量报道。不同寻常的事件(比如腐肉中毒)会格外引人注意,人们常会低估此类事件的发生概率。我们脑海中的世界并不是真实世界的准确反映;我们对事件发生频率的估测也会受到自己接触这些信息和频率与个人情感强烈程度等因素的影响。

对致死原因的估测几乎是联想记忆中观点激发的直接反应,也是替代效应的极佳例子。但斯洛维克和他的同事们有了更深层次的发现。他们发现,人们想到不同风险的轻松程度与其对这些风险的情感反应是紧密相连的。我们总是特别容易想起那些骇人的想法和画面,而那些流畅生动的骇人印象又会加深我们的恐惧。

如前所述,斯洛维克最后对情绪启发式的概念作了详细探究,认为人们在作判断和决策时会受情绪的影响:我喜欢它吗?我恨它吗?我对它的感觉有多强烈?斯洛维克说,在生活的很多领域中,人们形成的观点和作出的选择直接表达出其情感和取舍的基本倾向,而这些行为完全是在毫无意识的情况下作出的。情绪启发是替代的一种,即将简单问题(我对它感觉如何)的答案当做较难问题(我对它评价如何)的答案。斯洛维克及其同事将他们的观点与神经学家安东尼奥·达马西奥(Antonio Damasio)的研究成果联系起来。达马西奥曾指出人们对结果的情感反应、身体状态,以及与之对应的取舍抉择在决策制定中都发挥了重要作用。达马西奥和他的几位同事发现,在做决策前没有表现出适当情感的人可能是因为他的大脑有损伤,也可能是因为他对做出较好决策存有障碍。无法接受糟糕结果的“健康畏惧”导向是个灾难性缺陷。

关于情绪启发式的运作问题有一项十分令人信服的实证研究,斯洛维克的研究小组对人们对各种技术的看法进行了调查,其领域涉及饮用水氟化、化工厂、食品防腐剂和汽车等,要求受试者列举每项技术的优缺点。他们发现受试者对该技术的优势和风险的估测值存在非常大的负相关性。当人们更青睐于某项技术时,他们就会认为此项技术更有优势、风险更小;如果他们不喜欢某项技术,则只会想到其缺点和寥寥几个优点。因为几项技术刚好是从好到次排列起来的,因此无须作艰难的权衡。当研究人员要求受试者在规定时间内对风险和优点作出估测时,这两项估值会更接近。值得注意的是,英国毒物学会几位会员的反应是相似的:他们在自认为危险的物质和技术中发现的优点很少,反之亦如此。一致影响是我所提到的联想一致性的一项基本要素。

接下来是该实验最精彩的部分。完成最初的调查后,受试者读了几篇支持不同技术的小短文。有些短文关注的是某项技术的众多优点,其他短文则强调其风险低。这些短文有效地改变了受试者对这些技术的感性认识。实验结果令人关注,那些读到对某项技术多有褒奖的短文的人,对此项技术存在的风险也有了不同认识。尽管没有佐证,但他们现在却认为自己更喜欢这项技术了,感觉其风险没那么大。同样,那些只知道某项技术风险较小的受试者也会对其优点越发青睐。其中的道理很明显:正如心理学家乔纳森·海特(Jonathan Haidt)在另一篇文章中所说的那样:“感性细节掌控理性大局。”情绪启发式通过创造一个比现实更明了的世界来简化我们的生活。好的技术在我们的虚拟世界中成本较小,不好的技术没有利益,所有的决策在这里都变得很简单。当然,在现实世界中我们常要在利益和成本中作出权衡。

如何避免小概率的风险事件演变成公共危机?

保罗·斯洛维克可能比其他人更加了解人类作出风险判断的特性。他的著作描述了不卑不亢的普通人形象:感性而非理性,易被琐碎细节左右,并且对较小的可能性和极微小的可能性之间差别的感知力不够敏锐。斯洛维克还对专家进行了研究,显然专家在处理数字和数量的问题时更权威。专家同普通人一样,也以衰减的形式表现出同样的偏见,但他们对风险的判断和偏见往往与普通人有所不同。

非专业性判断中存在的偏见可以对专家和公众之间的不同之处作出一定的解释,但斯洛维克提请人们注意能反映不同价值间真实矛盾的情况。他指出专家经常通过判断死亡人数(或寿命)来测定风险,而公众的区分则更加细致,例如,“善终”和“非善终”,是意外死亡还是在类似滑雪这样的自愿活动中死亡等。这些合理的区别经常被只计数事件的统计学所忽略。斯洛维克通过这些观察报告得出结论:公众对风险的认识比专家更深刻。因此,他强烈反对专家或权威的观点,若专家与其他公民的观点和希冀相矛盾时,人们就不应该完全接受专家的观点。他说,当专家和公众对各自的优先权意见分歧时,“双方必须尊重对方的见解和智慧”。

斯洛维克想摆脱专家对风险判断的绝对控制,因此他对专家的理论根据—风险是客观的—发起了挑战。

“风险”并不是脱离我们的思想和文化而独立存在的,不会老老实实等着我们去测量。人类发明“风险”这个概念是为了帮助自己理解和应对生活中的危险和不确定情况。尽管这些危险是真实存在的,但却没有“真正风险”或“客观风险”这回事。

为了阐述自己的观点,斯洛维克列举了9种界定死亡风险的方式,从“每100万人的死亡”到“每生产价值100万美元的产品造成的死亡”,这种死亡风险与向空气中释放有毒物质的做法相关联。他的观点是:风险评估依赖测试方法的选择—这种选择极有可能是在人们心中期望得到这样或那样结果的情况下作出的。他进一步总结道,“因此,风险界定是一种权利运作”。也许你从未想过竟然会有人将判断心理的实验研究与棘手的政策问题联系起来!但是,政策最终还是与人相关的,它关乎人们想要什么和什么对他们是最有利的问题。每个政策问题都包括对人性的假设,尤其是人们可能作出的抉择和他们为自己和社会作出抉择所带来的后果。

我特别敬仰的另外一位学者兼好友卡斯·桑斯坦(Cass Sunstein)对专家和公众的看法与斯洛维克截然不同,他认为专家就是抵制“平民”越轨的壁垒。桑斯坦是美国最知名的法学家之一,与同领域的其他领军人物一样,他身上具有一种大无畏的精神。他知道自己能快速且完整地掌握任何知识体系,而且他已经掌握了很多知识体系,包括判断和决策心理学、管理问题、风险政策等。他认为美国现行的监管体系暴露出优先处理事件不明确的糟糕状况,这一体系更多的是对公众施压做出反应,而不是谨慎客观地分析具体情况。桑斯坦认为,为降低风险而采取的风险监管和政府干预手段,应该以成本和利益间的理性权衡为指导。对具体情况的谨慎而客观的分析,其自然单位是拯救生命的数量(或者是寿命,用寿命做自然单位可能会更注重对年轻人的拯救)和钱财的数量。监管不力会造成生命和金钱的浪费,两者都可以进行客观测量。斯洛维克认为风险及其测量都是主观的,桑斯坦对此并不信服。风险评估的许多方面都还有待商榷,但他对风险的客观性抱有信心,也许通过科学、专业知识和审慎的思考可以拥有这样的信心吧。

桑斯坦越来越相信,对风险带有偏见的反应是导致公共政策中优先处理权不稳定和错位的重要原因。立法者和监管人员对民众的无理要求可能会反应过度,因为他们有着很强的政治敏感性,也因为他们和其他民众一样容易抱有同样的认知偏见。

桑斯坦和一位合作者—法学家蒂默尔·库兰(Timur Kuran)为偏见植入政策这一机制起了个名字“效用层叠”(availability cascade) ① 。他们评论道,在社会大背景下:“所有的启发式都是平等的,但可得性相比而言更平等。”他们了解广义的启发式概念,在这个概念中,可得性为判断(而不是概率)提供了启发,尤其是我们通过想到某个概念的轻松程度(和情感的释放)来判断其重要性时,这种启发的作用就体现出来了。

效用层叠是一连串自持事件,它可能开始于对相对次要的事件的媒体报道,然后会引起公众恐慌和大规模的政府行动。有些情况下,关于某一风险的媒体报道能抓住部分公众的注意力,这部分注意力进而会变成激愤和焦虑。这种情感反应本身就是一种宣扬,会推动媒体跟进报道,继而会令人产生更大的焦虑,波及面也更大。通过“可得性倡导者”,这个循环有时候会因为那些“可得性专业户”—专门负责连续不断地散布扰乱民心消息的个人或组织—的刻意操纵而加速运行。媒体竞相制造吸引人眼球的头条新闻,危险也随之升级。一些科学家和其他领域的人士试图抑制这种日益增长的恐惧和厌恶情绪,然而收效甚微,非但没有达成初衷,反而激起了不少敌意:所有宣称危险有些夸大其词的人都有“欲盖弥彰”的嫌疑。这是一个重要的政治问题,因为每个人对此都很上心,政治体系的回应也会受公众情感强烈程度的影响。此时效用层叠就要重新设定优先考虑的事件。其他风险和关乎公众利益的资源利用方式也都显得不那么重要了。

库兰和桑斯坦曾经关注过两个案例,这两个案例直至今日仍备受争议:(纽约州)拉夫运河事件和所谓的艾拉恐慌(Alar scare)。拉夫运河中掩埋的有毒垃圾在1979年的雨季中显露出来,引起了水井污染超标,还散发出恶臭。当地居民当时既气愤又害怕,他们中的洛伊丝·吉布斯(Lois Gibbs)对这个问题的反应尤为活跃,一心想要维护自身利益。官方消息触发了效用层叠。在这一事件最受关注的时候,每天都会有很多拉夫运河的相关报道,当时一些科学家试图告诉公众他们夸大了危险的程度,但是这一论调不是被人们忽略就是被相反的声音淹没了。当时美国广播公司新闻档播出了一个名为“杀戮场”的节目,视频中的人们抬着婴儿用的空棺材行经立法机关门前。众多居民由政府出资迁往外地。对有毒垃圾的治理成了当地20世纪80年代的重大环境问题,当地政府出台了《环境保护赔偿责任法》,要求清理有毒地点,设立超级基金,这项立法被视为环境立法史上的重大成就。这些措施花费自然不菲,有人还说同样数额的钱如果用在其他重要的事情上可以拯救更多的生命。拉夫运河事件的真相究竟是怎样的,直至今日人们仍旧各执一词,没有人能拿出实实在在的证据证实这一事件对健康造成了实质性的损害。库兰和桑斯坦对拉夫运河事件的报道像是条假新闻,不过环保人士今天仍旧会一再提到“拉夫运河灾难”。

关于库兰和桑斯坦用来说明效用层叠概念的第二个例子,人们的观点至今仍然存有分歧。这个例子就是1989年的艾拉事件,也就是环境问题批评者口中的“艾拉恐慌”。艾拉是种化学品,喷洒到苹果上用以调节苹果的生长周期并改善其外观。有报道称该化学品用量大,可导致大老鼠和家鼠得癌症,恐慌便由此引发。报道自然可以吓到众人,而且这些恐慌情绪也促使媒体争相报道,这就是效用层叠的基本机制。这一主题对新闻形成引导作用,进而引发了重大的媒体事件,例如梅丽尔·斯特里普(Meryl Streep)在国会前的证词。由于苹果和苹果产品引起人们的恐慌,苹果产业损失巨大。库兰和桑斯坦引用了一位打来电话的居民的话,此人问道:“是把苹果汁倒进下水道更安全,还是扔到有毒废物垃圾场更安全?”生产商回收了苹果杀虫剂产品,美国食品药品管理局也对此产品颁布禁令。此后的研究证实这种物质致癌的可能性很小,艾拉事件显然是对一个小问题做出的过激反应。这件事对公众健康的最终影响可能是致命的,因为人们吃到的好苹果越来越少了。

艾拉事件说明,我们的大脑解决小风险的能力有一个基本限度:我们要么完全忽视风险,要么过于重视风险,没有中间地带。每位等待晚归女儿的家长都能体验到这种感觉。你也许知道真的是(几乎是)没有什么可担心的,但你的大脑会不自觉地闪现危险的景象。正如斯洛维克所言,焦虑对伤害的可能性还不够敏感。你想到了分子(即你在新闻中看到的悲惨新闻),却没有想到分母。桑斯坦发明了“概率忽视”这一短语来描述这一模式。概率忽视和效用层叠两种社会机制的组合必然会导致对小威胁的夸大,有时还会引发严重后果。

当今世界,将效用层叠发挥到极致的人最有可能是那些恐怖分子。除了几次可怕的事件,比如“9·11”事件,恐怖袭击导致的死亡人数与其他死亡原因相比是非常小的。即使在恐怖活动猖獗的国家,比如以色列,每周的死亡人数也远不及交通事故死亡的人数多。概率忽视和效用层叠间的不同在于两种发现的可得性和呈现到脑中的轻松度和概率。媒体不断重复的可怕画面可使每个人都处于崩溃的边缘。我们都有这样的体验:想要劝自己完全冷静下来是非常难的。恐怖主义是直接和系统1对话的。

在和朋友辩论的过程中,我是从何时开始处于下风的呢?效用层叠是真实的,它无疑扰乱了公共资源分配的重点。卡斯。桑斯坦会探索将决策制定者从公众压力中隔离开来的机制,让资源的分配由公正的专家来决定,这些人对所有风险都了如指掌,还知道可利用哪些资源来降低风险。公众比桑斯坦更相信专家,但保罗。斯洛维克却不怎么相信这些专家,他指出,将专家从公众情感中隔离出来会产生公众排斥的政策,这种情形不可能发生在民主制的国家中。两人的观点都非常有见地,他们的说法我都赞同。

我同桑斯坦一样,对非理性的恐惧和应对风险的公共政策的效用层叠都感到不适。不过,我也认同斯洛维克的观点,即政策制定者不应该忽略普遍存在的恐惧情绪,即使这些情绪是毫无缘由的也不该忽略。不管理性与否,恐惧都是令人痛苦且身心俱疲的。政策制定者必须努力保护公众不受恐惧情绪的影响,而不是只保护其不受真实存在的危险的伤害。

斯洛维克强调公众对那些不代表民意的不靠谱专家做出的决策心存抵制情绪,这一点的确不错。此外,效用层叠也会通过呼吁人们关注风险和增加降低风险预算总额的措施来创造长期效益。拉夫运河事件可能会使过剩资源分配到有毒垃圾的治理上,但这一事件在提升公众对环境问题的关注程度方面发挥了更大作用。民主难免无秩序,其中部分原因是引导民众信仰和态度的可得性及情绪启发式难免有失偏颇,即使这些因素都指向正确的方向也难以达成完美结局。心理学应该助风险政策的设计一臂之力,使之集专家知识、公众情感及直觉于一身。

示例—效用层叠“她对一项创意大为赞赏,说它收益大,无成本。我认为这就是种情绪启发式。”“这是一个效用层叠的例子:被媒体和公众大肆宣扬的事还没发生,电视上就满是关于此事的报道,每个人都在谈论这件事。”

① 效用层叠,即集体信念形成的自我增强过程。经由该过程表示的认知触发一连串的反应。它通过在公共话语中增强影响效用而增强此感知的合理性,这一过程的驱动机制包含信息的、名声的动机:个人通过部分了解他人的外在想法,为了保持社会认可的利益而通过部分扭曲自己的公开反应而支持上述认知。效用野心家—操纵公共话语内容的行动主义分子—总是力图触发效用层叠以推进其计划。 —译者注

第14章 猜一下,汤姆的专业是什么?

请看下面这个简单的问题:

汤姆是你们国家一所著名院校的研究生。请预测汤姆就读于以下9个专业的概率,并对专业进行排序。用1表示最有可能就读的专业,9表示最无可能的。

工商管理

计算机科学

工程学

人文与教育

法学

医学

图书馆学

自然科学与生命科学

社会科学和社会工作

这个问题很简单,你马上就知道不同专业的招生规模是解决问题的关键。就你所知,汤姆是从这所大学里随机挑选出来的一名研究生,好比从罐子里随意拿出来的一个弹球一样。想要知道这个弹球是红色的还是绿色的,你必须清楚罐子里两种颜色的弹球各有多少。某一特定种类的弹球所占比率被称为基础比率。同样,在这个问题中,人文与教育专业的基础比率指的就是这个专业的学生人数占全体学生总数的比率。在缺乏与汤姆相关的具体资料的情况下,你可能会根据基础比率进行猜测,相比计算机科学和图书馆学,汤姆更有可能被人文与教育专业录取,因为人文与教育专业的招生规模比另外两个专业的招生规模大。在没有其他信息可供参考时,采取基础比率的方法最容易。

接下来的这个任务与基础比率并无关联。

一位心理学家在汤姆高三时对他进行了一系列不定效果的心理测试,大体推断出他的个性,其描述如下:

尽管缺乏创造力,但汤姆智商很高。他喜欢按部就班的简单生活,喜欢干净整洁的环境,屋子里的物件要摆放得规规矩矩。他写的文章枯燥,偶尔会写一些老掉牙的双关语,或者迸发出类似科幻小说的火花,文章还显得有那么点生动。他颇具竞争意识。此外,汤姆待人冷淡,缺乏同情心,也不愿与他人接触。尽管他总是以自我为中心,但却有强烈的道德观念。

现在,请拿出一张纸来,按照上文对汤姆的性格描述,预测他与某个专业典型学生的相似度并进行排序。用1表示最相像的专业,9表示最不像的。

如果能够很快完成这个任务的话,你就会从本章学到更多东西。很有必要读读汤姆的相关报告,这会帮助你对不同专业的研究生特质作出判断。

下面这个问题同样很直接。它需要你重新获得或构建一个不同专业领域的研究生的典型形象。在20世纪70年代早期,实验刚开始进行时,平均结果所呈现的专业顺序如下所示。这与你的排序可能并没有多大不同:

1.计算机科学

2.工程学

3.工商管理

4.自然科学与生命科学

5.图书馆学

6.法学

7.医学

8.人文与教育

9.社会科学和社会工作

由于会想到书呆子(因为描述中有“老掉牙的双关语”这一条),你有可能将计算机科学排在首位。实际上,汤姆的性格特征就是按照计算机科学专业学生的典型形象来描述的。另一个大多数人都排在前面的专业是工程学(描述中有“规规矩矩”这一条)。你可能认为汤姆并不适合社会科学和社会工作专业(因为他“待人冷淡,缺乏同情心”)。但该专业人员的典型形象似乎在我设计描述汤姆实验后的40年内发生了少许变化。

给这9个专业排序是一项复杂的任务,肯定需要系统2有规则、有秩序地组织,只有这一系统才能完成这项任务。然而,描述所给的提示(老掉牙的双关语及其他一些提示)很容易激活关于典型形象的联想,这是系统1控制下的自主活动。

这项寻找相似点的任务要求我们对汤姆的描述和不同专业学生的典型形象进行比较。描述的准确性—无论这是不是对汤姆的真实写照—与任务的目的没有关系。另外,你对每个专业基础比率的了解也与任务无关,因为某个个体与某个组织典型人员的相似性并不受这个组织大小的影响,甚至在大学里根本没有图书馆系的情况下,你都可能会将汤姆的性格描述与图书馆学专业的研究生形象进行比较。

如果你再次审视汤姆,会发现他很适合人数少的专业(计算机科学、图书馆学、工程学),并不适合人数多的专业(人文与教育、社会科学与社会工作)。的确,受试者也几乎都将人数多的两大专业排在了最后。汤姆被刻意设计成了“反基础比率”的角色,适合于人数少的专业,不适合人数多的专业。

依据典型性作出预测是下意识的行为

第三个排序的任务是由心理学专业的研究生完成的。这项任务尤其重要,同样是根据汤姆就读专业的概率对9个专业进行排序。不过进行这次预测的人了解相关的统计学事实:他们对不同领域的基础比率都很熟悉,也知道对汤姆的性格描述并不十分可信。然而,我们希望他们只关注描述与典型特征的相似性(我们将其称为典型性),而忽略掉基础比率以及对描述的准确性的怀疑。他们将人数少的计算机科学专业排在了最前面,因为这个专业最典型。

在尤金工作的那一年,我与阿莫斯十分卖力,我有时还会在办公室里通宵达旦地工作。彻夜工作的任务之一就是将典型性和基础比率之间的冲突描述出来。汤姆的形象就是我努力的结果,我是在清晨时分完成了对他的描述。那天早晨第一个来上班的是我的同事兼好友罗宾·道斯(Robyn Dawes)。他是一个富有经验的统计学家,也是直觉判断有效性的怀疑者。如果说有人能意识到基础比率的话,这个人一定是罗宾。我将罗宾叫过来,给他看了我刚打出来的问题,并让他猜测汤姆的专业。我至今仍然记得他试着回答时露出的狡黠笑容,他说道:“计算机科学吗?”那是一个令人开心不已的时刻,我心想:你也有失算的时候啊。当然,我一提到“基础比率”,罗宾很快就更正了他的错误,但他开始并没有自主地想到这一点。尽管他比任何人都清楚基础比率在预测中的作用,但当他看到某个人的性格描述时,就会忽略掉这些比率。不出所料,他用对典型性的判断替代了对概率的评估。

随后,我和阿莫斯搜集了3所重点院校里114名心理学研究生对这个问题的答案。这些学生都上过几门统计学课程。结果确实没让我们失望。他们对9个专业概率的排序与和典型形象相似程度的排序并无太大差别。在这个实例中,替换起了很大作用:并无迹象表明除了判断典型性以外,受试者还用了别的方法。因为关于概率的问题较难回答,而关于相似性的问题就比较简单,所以在回答时受试者就置换了问题。这是一个严重的错误,因为对相似性和概率的判断所遵守的并不是同一个逻辑规律。我们对相似性的判断可以完全不受基础比率的影响,不受可能会出现的不当描述的影响,但是在判断概率时,如果忽略基础比率和证据的可靠性的话,就注定会犯错误。

“汤姆是学计算机科学的概率”并不是一个简单的概念,逻辑学家和统计学家对它的意义各执己见,还有一些人认为它根本就没有意义。对于很多专家而言,概率是信念主观程度的评估手段。有些事你确信无疑,例如今天早晨出太阳了;而另外一些事是你认为根本不可能的,例如太平洋突然结冰了。还有许多事会令你半信半疑,例如你隔壁的邻居是一个计算机科学家—这便是此事在你眼中的概率。

逻辑学家和统计学家相互争论,提出了多个关于概率的定义,全都非常精确。然而,对于外行人来说,概率(在日常生活中和“可能性”是同义词)是一个相对含糊的概念,与不确定性、倾向性、貌似正确以及出乎意料等词紧密相关。模糊性和令人不爽的感觉不都是这个概念所特有的特性。当我们使用“民主”或“美丽”这样的词时,我们或多或少明白自己究竟要表达什么意思,我们的谈话对象也或多或少能明白我们究竟想要说什么。在我潜心研究事件的概率问题的这些年来,从来没有人举手问过我:“先生,请问概率指的是什么?”如果我问他们的是一个奇怪的概念,例如适应全球化的能力,他们肯定就会举手问问题了。尽管每一个人都表现出他们知道该怎样回答我的问题,但我们都明白要求他们去解释这个词的含义有些难。

被要求作概率评估的人并不会感到很困惑,因为他们对概率的判断与统计学家或是哲学家的判断不同。关于概率或可能性的问题引起了思维的发散性,让人想起比较简单的问题的答案。其中一个简单的答案就是对典型(代表性)的自动评估—在我们理解语言时这种现象很常见。“猫王埃尔维斯·普雷斯利(Elvis Presley)的父母曾希望他成为一名牙医”,这一(错误的)陈述听起来有些好笑,因为我们会自动把猫王的形象与牙医联系在一起,然而这两者的形象实在相差太大。系统1能使人产生相似的印象,虽然它并没有刻意这样做。“她会赢得竞选,你明白她肯定会赢”,“他学习成绩好不了,看那一身文身吧”,听到有人这样说时,他们一定是受到了典型性启发式的影响。如果我们通过某个下巴的轮廓或铿锵有力的演讲来判断这个职位候选人是否具有领导才能,此时我们依赖的就是典型性。

尽管通过典型性作出预测的做法很普遍,但是在统计学上这一做法并不是最优选择。迈克尔·刘易斯(Michael Lewis)的畅销作品《魔球》(Moneyball)说的就是这种预测方式的低效性。职业棒球球探在预测某个选手是否会成功时,他们大体上看的是球员的体格和相貌。这本书的主角是奥克兰“运动家棒球队”的经理比利·比恩(Billy Beane)。他作出了一个大家都不愿接受的决定:否决球探们的建议,通过选手过去表现的统计数据来挑选球员。“运动家棒球队”挑选出来的选手都以低会费入队,因为其他球队都因为没有想到用数据来判断,因而拒绝了这些选手。“运动家棒球队”很快就以低成本达成了最佳结果。

典型性启发的两宗罪

用典型性来判断概率有一些重要的优点,它所带来的初始印象通常比乱猜一气更为精确。

·在大多数情况下,表现得很友好的人实际上也很友好。

·又高又瘦的职业运动员很有可能是打篮球的而不是踢足球的。

·获得哲学博士学位的人比只读完高中的人更有可能订阅《纽约时报》。

·年轻的男性会比年老的女性更不要命地踩油门。

在这些例子及其他更多例子中,典型的形象特征左右着我们对典型性的判断,受这种典型性启发得到的预测有可能是对的,这样的说法在某种程度上就是事实。然而在其他情况下这种典型形象却是错误的,因而典型性的启发也会造成误导,尤其会使人们忽略基础比率信息、找错预测方向。即使启发性具有一定的真实性,但绝对依赖启发效应就是违背统计学逻辑,是有严重“罪过”的。

典型性的第一宗罪就是,它过于喜爱预测不可能发生的(低基础比率的)事件。

下面就是一个例子:如果你看见一个人在纽约地铁里阅读《纽约时报》,下面哪种情况与读报者更吻合?

她有博士学位。

她没有大学文凭。

典型性会告诉你应该选有博士学位那位,但这样做并不一定是明智的。你应该充分考虑第二个选项,因为纽约地铁里更多的是没有大学文凭的人,而不是有博士学位的人。如果猜测一个被描述为“羞涩的诗歌爱好者”的女士学的是中国文学还是工商管理,你也应该选择第二个答案。因为虽然学习中国文学的女学生都害羞且爱好诗歌,但几乎可以肯定的是有更多工商管理专业的学生同样也是害羞的诗歌爱好者。

在某些情况下,没有受过统计学训练的人也会使用基础比率来进行预测。在本章开头关于汤姆的第一个问题中,我们没有提供关于他的细节,对于每一个人来说,汤姆读某个专业的概率就是那个专业招生规模的基础比率。然而,得知汤姆的个性特征后,人们再也不会将基础比率纳入考虑范围了。

在前期证据的基础上,我和阿莫斯原本以为在了解了具体信息后,基础比率的信息“总会”被忽略,但是这样的结论太过绝对了。心理学家做过许多实验,在这些实验中,所给问题都明确地提供了基础比率信息,尽管关于个人特征的信息比单纯的数据分量更重,许多受试者还是受到了这些特征信息的影响。诺伯特。施瓦茨和他的同事表示,引导人们“像统计学家那样思考”就能够促使他们使用基础比率信息,引导人们“像临床医生”那样思考则会起到相反的效果。

几年前,我和哈佛大学的学生做了一项实验,让我有了一个令我十分惊讶的发现:增强系统2的激活状态能有效提高回答汤姆问题的准确率。这项实验将旧问题与认知顺畅性的现有形式结合了起来。在实验过程中,我们要求一半学生鼓腮帮,另一半学生皱眉头。前文中已经提过,皱眉通常可以增强系统2的警觉性,降低对直觉的过分相信和依赖。鼓起腮帮(与感情无关的表情)的学生的预测结果与原实验结果一样:他们只依赖于典型性,而忽略了基础比率。然而不出作者所料,那些皱眉头的同学的确对基础比率表现得很敏感。这是一个具有启发性的发现。

一旦人们作出一个错误的直觉判断,系统1和系统2都脱不了干系。系统1引起了错误的直觉,系统2采纳了这个直觉,并将其运用在判断当中。然而,造成系统2犯下此类错误的原因有两个——忽视与懒惰。许多人忽视了基础比率,因为在有个人信息的情况下他们认为基础比率与问题并无关联。另一些人犯下同样的错误则是因为他们没有将注意力集中在任务上。如果皱眉能带来不同结果的话,这说明懒惰也许是人们忽视基础比率的合理解释,至少对于哈佛大学的学生来说是这样。当具体信息缺失时,他们的系统2“知道”基础比率与问题相关,但是只有在任务中付出特别努力时,才能将基础比率的知识应用于其中。

典型性的第二宗罪是它对证据质量不够敏感。请回想系统1的眼见即为事实的原则。在汤姆的问题中,激活你联想机制的是对汤姆的描述,且这个描述不一定是真实的。对汤姆“对人冷淡,缺乏同情心”的表述也许能让你(以及许多其他读者)相信他不太可能是社会科学与社会工作专业的学生。然而,彼时你已经清楚地知道这样的描述是不可信的。

原则上讲,你当然知道不值得信任的信息就相当于没有信息,但是眼见即为事实使你难以遵循那条原则。除非你决定立刻否定证据(例如,你坚信的信息是从一个骗子口中得来的),否则你的系统1会自动将这一信息视为真实的。当你怀疑信息的可靠性时,可以做一件事:作概率判断时,往基础比率那方面想。别期望遵循这条原则会很容易—它需要在付出很多努力的情况下,才能实现自我监督和自我控制。

想要得出汤姆问题的正确答案,你应该遵从最先出现在自己脑海中的想法,若认为某招生人数多的专业(人文与教育、社会科学与社会工作)被选中的概率高,则稍微降低其概率;若认为某招生人数少的专业(图书馆学、计算机科学)被选中的概率低,则稍微提高其概率。如果你对汤姆一无所知,你作出的抉择就不是你的初衷了,你手头上的那点信息也不能相信了。所以,你应该让基础比率在预测时起主导作用。

用贝叶斯定理来约束直觉

你认为明天会下雨的概率只不过是你的臆测,你不应该相信头脑里出现的所有想法。你的信念必须受限于概率逻辑。所以,如果你相信明天某个时候会下雨的概率是40%,就该相信不会下雨的概率是60%,那么明天早晨下雨的概率就一定不会是50%。如果你相信某个候选人当选总统的概率是30%,并且相信他在首次竞选成功后再次当选的概率是80%,你就必须相信他连任的概率是24%。

贝式统计学(Bayesian statistics)提供了类似汤姆等相关问题的“定理”。这个研究统计学的定理影响深远,是以18世纪英国一位名为瑞福伦德。托马斯。贝叶斯神甫的名字命名的,因为人们认为他是为一个重大问题作出重要贡献的第一人,这个问题就是:如何推断人们是怎样根据证据改变自己的想法的。贝叶斯定理详细说明了最强烈的信念(在本章的实例中指的是基础比率)应该与证据分析相结合,这样才能更接近假设而不是偏离到其他方向上。例如,如果你相信有3%的研究生是被计算机科学专业录取的(基础比率),你还相信汤姆是该领域研究生的可能性是其他领域的4倍,贝叶斯定理就会认为,你必须相信汤姆是计算机科学家的概率是11%。此外,如果基础比率是80%,那你眼中的新概率就应该是94.1%,以此类推。

数学问题与本书并无关联。关于贝叶斯定理,有两点我们要铭记在心,要知道我们总是喜欢把事情搞得一团糟。第一,基础比率十分重要,即便是在手头的案例已有证据的情况下依然如此;第二,通过分析证据得到的直观印象通常都会被夸大。

眼见即为事实与联想一致性的结合易使我们相信自己编纂的故事。以下是对贝叶斯定理关键点的总结:

·以相对合理的基础比率对结果的可能性作出判断。

·质疑你对证据的分析。

这两个理念都是直接明了的。当我意识到自己从未学习过怎样运用它们时,我感到非常震惊,即使是现在,我仍旧觉得自己在践行这两个理念时总有些不自然。

示例—典型性与基础比率“草坪修整得很好,接待员看起来很能干,家具也十分抢眼,但这并不意味着这是一家经营状况良好的公司。我希望董事会不要依照典型性启示作出判断。”“这家新成立的企业看起来好像不会倒闭,但是这个行业的成功基础比率非常之低。我们又怎么能知道这家企业就是个特例(一定能成功)呢?”“他们一直在重复犯同样的错误:用并不充分的证据来预测罕见的事件。当证据不充分时,我们应该以基础比率作为判断依据。““我知道这份报告绝对是具有毁灭性意义的,也许它的证据十分确凿,但我们凭什么相信呢?我们必须在做计划时保持一定的怀疑态度才行。”第15章 琳达问题的社会效应

我们的实验中最著名也最受争议的地方是设计了一位虚拟的女士,名叫琳达·阿莫斯和我拟造了琳达问题,用以说明启发式在判断中的作用以及它与逻辑相悖的地方。以下是我们对琳达的描述:

琳达,31岁,单身,一位直率又聪明的女士,主修哲学。在学生时代,她就对歧视问题和社会公正问题较为关心,还参加了反核示威游行。

20世纪80年代听到这个描述的人常常会笑出声来,因为他们马上就知道琳达曾在加州大学伯克利分校上过学,因为这个学校以有一批热衷政治的激进学生而著称。

在一项实验中,我们给受试者看了一张单子,上面列有琳达可能会出现的8种情况。

在汤姆问题中,有些人通过典型性对汤姆的专业进行排序,而其他人则通过概率做出排序。琳达问题也是如此,但有些新的变化。

琳达是小学老师。

琳达在书店工作,她还在学瑜伽。

琳达积极参与女权运动。

琳达是妇女选民联盟成员。

琳达是银行出纳。

琳达是保险推销员。

琳达是银行出纳,还积极参与女权运动。

这个问题从几个方面透露出年代的信息。“妇女选民联盟”如今的地位已经不再像从前那样突出了,“女权运动”虽说见证了过去30年里女性地位的变化,但这种说法今天听来也已经很陌生了。然而即使在当今这个“脸谱”时代,我们仍然很容易猜到人们会对这位女士作出高度一致的判断:琳达非常适合当一个激进的女权主义者,也相当符合在书店工作且学习瑜伽的身份特征,不过却不怎么适合做银行出纳或是保险推销员。

琳达不可能只是一名普通的银行出纳吧?

现在请注意这张单子上有一点很重要:琳达更像一名(普通的)银行出纳,还是更像一名积极参与女权运动的银行出纳?所有人都认为琳达更像是“主张女权主义的银行出纳”,而不是普通的银行出纳。普通的银行出纳不会热衷女权主义,加上这个细节,整个描述便更像是一个有条理的故事了。

但是在判断概率的过程中会让人有些纠结,因为上述两种情况之间存在一种逻辑关联。按照维恩图解来说,积极参与女权主义的银行出纳的集合包含在银行出纳的集合之中,因为每个持女权主义理念的银行出纳本身还是银行出纳。因此,琳达是位积极参与女权主义的银行出纳的概率,就一定比她只是个(普通的)银行出纳的概率低。当你想更加详尽地说明某个可能的事件时,只能降低其概率。因此这个问题使典型性直觉和概率逻辑两者对立起来。

我们的首次实验是一次受试者组间实验(between-subjects)。每位受试者都看到一组列有7个结果的单子,其中只包括几个重要结果中的一个(“银行出纳”或“积极参与女权主义的银行出纳”)。有些人通过相似度来排序,而其他人则通过概率排序。就像汤姆问题出现的结果那样,通过相似度和概率得出的平均排序结果是相同的。在两种情况下,“积极参与女权主义的银行出纳”都比“银行出纳”的排序要靠前。

然后我们运用受试者组内设计(within-subject)对此项实验作了更深入的研究。我们设计了你此前看到的那份调查问卷,其中“银行出纳”排在第六位,“女权主义银行出纳”位于最末。我们相信受试者会注意到两个结果之间的关系,而且他们的排列也应该会符合逻辑。事实上,我们对此非常有把握,不必再专门做个实验来证实这个想法。我的助手当时正在实验室里做另一项实验,她让受试者一边在报酬表上签名(临走前要领报酬),一边完成这项关于琳达的问卷。

后来我随意一瞥,看到助手书桌上的文件盒里已经放了10份调查问卷了,而且所有的受试者都认为(琳达是)“积极参与女权主义的银行出纳”比“银行出纳”的可能性更大。当时我太惊讶了,因为自己有了一个重大发现,因此我至今对那张灰色金属质地的书桌以及当时每张表的位置仍记忆犹新。当时我兴奋极了,赶紧给阿莫斯打电话,告诉他我们有了重大发现:我们让逻辑与典型性互相竞争,结果典型性赢了!

我们还观察到系统2的一个缺点:既然两种结果都包含在同一列表中,受试者就有很大机会发现逻辑规则中的关联性,但他们却没有把握好这次机会。当我们把实验的规模扩大时,发现样本中89%的研究生都违背了概率的逻辑。我们相信,从统计学角度作出复杂应答的受试者表现会更好些,因此我们给斯坦福大学商学院决策科学项目的博士生发了同样的调查问卷,所有的博士生都学过概率论、统计学和决策论等学科的高级课程。我们又一次惊奇地发现:85%的博士生也认为(琳达是)“积极参与女权主义的银行出纳”比“银行出纳”的可能性更大。

为了消除这个错误—后来我们认为“这个希望越来越渺茫”—我们让很多人了解琳达,并且问了他们下面这个简单的问题:

下面两种情况哪种可能性更大?

琳达是银行出纳。

琳达是银行出纳,同时她还积极参与女权运动。

这个直截了当的问题使琳达这个人物在某些领域中小有名气,也引起了数年的争议。几所重点大学中85%~90%的大学生选择了第二个选项,这一选择有悖逻辑,但却没有人因此感到羞耻。我曾经有些愤怒地问自己教的那些大学本科生:“难道你们没有注意到自己违背了基本的逻辑原则吗?”当时后排有些学生大喊:“那又怎样?”还有个犯了同样错误的毕业生解释道:“我还以为你只不过是问问我的看法罢了。”

通常,当人们没能运用明显相关的逻辑原则时,就会出现“谬误”。阿莫斯和我引入了“合取谬误”(conjunction fallaly)这个想法,通过直接比较,人们总会认为两个事件(在此即为银行出纳和女权主义者)的联合出现比只出现其中一件事(银行出纳)的可能性要大,此时就出现了合取谬误。

正如缪勒·里亚的错觉图所示,即使你对谬误有了真切的了解,也仍然难以避免这种错误。生物学家斯蒂芬·杰·古尔德(Stephen Jay Gould)曾描述他自己在琳达问题上的纠结反应。他当然知道这个问题的正确答案,然而他还是写道:“我脑中有个小人,跳上跳下的,还对着我喊:”她不可能只是个银行出纳,看看那描述就知道了。‘“这个喋喋不休的小人当然就是古尔德的系统1了。(在他写这些文字时还没有引入两个系统的说法。)

琳达问题简短版本的正确答案只是对我们众多研究中的一项的多数回应:斯坦福大学和伯克利大学的社会科学专业大学生组中有64%的学生正确地判断出(琳达是)“女权主义的银行出纳”比“银行出纳”的可能性更小。起初列有8个结果的版本中,相似的大学生组中只有15%的人作出了正确选择,其区别颇具启发性。问题的较长版本通过在不同结果中穿插其他结果(保险推销员)来区别开两个重要结果,读者要分别判断每个结果,因此不会对所有结果进行比较。相反,(琳达)问题的较短版需要有能启动系统2的明确对比,允许多数有统计学知识的学生避免谬误。不过遗憾的是,我们没有对这组知识渊博的受试者中选择错误的少数人(36%)的推论进行探究。

我们的受试者在汤姆问题和琳达问题中提供的概率判断与典型性判断(与原型判断类似)正相吻合。典型性属于一连串可能同时发生且联系紧密的基本评估,最具典型性的结果与特性描述结合在一起就会生成最有条理的信息。而这些最具条理的信息却不一定就是可能性最大的,但它们“貌似正确”,稍有疏忽,我们就很容易混淆有条理、貌似正确和概率这三者的概念。

如果我们将具体描述用做预测的工具,那么不加批判地用貌似合理的判断来替代概率就会严重影响我们的判断结果。请思考下列一组问题中的两个描述,并对其可能性作出评估。

明年北美某地将有一次洪灾,1000多人将被淹死。

明年加利福尼亚某时将有一次地震,此次地震将导致洪水,1000多人将被淹死。

加利福尼亚地震的情节要比北美洪灾的情节更合乎情理,尽管加利福尼亚地震的概率非常小。不出所料,人们对更详细、更丰富的描述作出的概率判断更高,这一点有违逻辑。预言家总会给其客户设下陷阱:对情节加以详述会使其更可信,却更不可能成为现实。

为了体会“貌似合理”的作用,请看下面的问题:

下面两个论述哪个可能性更大?

马克长有头发。

马克长有金色的头发。

以及

下面两个论述哪个可能性更大?

简是位老师。

简是位老师,她走路去上班。

这两个问题与琳达问题一样,有相同的逻辑结构,但它们却没有引起谬误,因为更详细的结果只是更详细而已,不会更让人信服,或更有连贯性,或更讲得通。对貌似合理和连贯性的评估不会产生概率问题的答案。在与之相矛盾的直觉缺位时,逻辑就会起作用。

少即是多的逻辑悖论

芝加哥大学的奚恺元(Christopher Hsee)让人们在当地一家商店清仓大甩卖时为几套餐具标价,当地餐具的价位一般在30~60美元。他将受试者分成三个小组,其中一个组看了下面的标价,奚恺元将这组标价标注为“综合评估”,因为受试者可以对两套餐具进行对比。另外两组只看了其中一组的标价,此谓“单一评估”。综合评估是组内实验,而单个评估则是组间评估。

 [image file=Image00011.jpg]

假设A、B两套餐具质量相当,那么哪套更值钱呢?这个问题很简单。你可以看到A套包括B套所有的餐具,另外还多出7件完好无损的餐具,所以A套“必然”更值钱。的确,综合评估组的受试者宁愿多花点钱买A套餐具也不愿买B套,A套标价为32美元,B家标价为30美元。

在单一评估组中则出现了完全相反的结果,其中B套标价(33美元)比A套(23美元)高很多,我们都知道为何会出现这一结果。用具组合(包括餐具)通过标准和原型展示出来,因为没有人想买破损的餐具,于是你立即感觉到A套组合的平均价值比B套组合的平均价值低。如果以平均价值引导估测,人们认为B套更值钱也就不足为奇了。奚恺元将这样的结果模式称为“少即是多”。从A套中拿走16件餐具(有7件是完好无损的),它的价值就会提升了。

实验经济学家约翰·李斯特(John List)对奚恺元的发现进行了复制,他在真正的市场上拍卖两套相同的高价值棒球卡片,每套各为10张,但其中一套附赠3张普通价值的卡片。就像餐具的例子一样,在综合评估中,数量多的组合会比少的更有价值,但在单一评估中则正好相反。从经济理论的角度来看,一套餐具或一套棒球卡片的经济价值是一种总体变量,给任何一套加上一个有价值的物件只能提升它的价值。如果是这样,这个结果就有些令人烦恼了。

琳达问题和餐具问题的结构完全相同。概率就像是经济价值,是一种总体变量,我可以通过以下这个例子加以说明:

概率(琳达是个出纳)=概率(琳达是个女权主义出纳)+概率(琳达是个非女权主义出纳)

这就是为什么琳达问题的单一评估产生了一种“少即是多”的模式,这一点与奚恺元的餐具实验一样。系统1会取价值的平均值而不是累加值,因此,当我们将非女权主义的银行出纳从银行出纳的大集合中移除后,主观(判定)的概率就会加大。然而,变量的总体性对概率判断的影响要小于其对金钱的影响。因此,综合评估只是消除了奚恺元的实验中出现的错误,却无法消除琳达实验中出现的错误。

琳达不是唯一一个在综合评估中得以存在的合取谬误,我们在其他许多判断中也发现了有悖逻辑的类似情况,其中一项研究的受试者被要求从高到低排列下一届温布尔登网球赛的4个可能结果,比约•伯格(Björn Borg)是研究进行当日的主要网球比赛运动员。以下即为结果:

A.伯格会赢得比赛。

B.伯格会输掉首局。

C.伯格会输掉首局,但会赢得比赛。

D.伯格会赢得首局,但会输掉比赛。

上述结果中B和C两项比较重要。B囊括的内容更多,其概率“一定”比自身所包含的一个事件发生的概率大。受试者给出的答案与逻辑相悖,却顺应了典型性和貌似合理性,72%的人认为B选项比C选项的可能性更小—又一个通过直接比较得出“少即是多”的例子。这一次受试者选出的可能性最大的描述无疑貌似更合理,更符合当今世界一流网球运动员身上所具有的所有公认的特质。

合取谬误是因为对概率的误解,为阻止可能会出现的异议,我们设计了一个需要作出概率判断的问题,但在这个问题中,事件不是用文字来描述的,而且“概率”这个词一次也没有出现过。我们告诉受试者有一个标准的六面骰子,其中四面是绿色的,两面是红色的,此骰子可被投掷20次。我们给他们看了三组预设的结果,都是绿色(G)和红色(R)的任意排列,并让他们选一组。如果他们选择的那组正好出现,他们会(假想)得到25美元。这三组是:

1. RGRRR

2. GRGRRR 

3. GRRRRR

因为这个骰子绿色面的数量是红色的2倍,第一组就很不具代表性—就像琳达是个银行出纳这一选项一样。第二组包括6次投掷结果,与预期投骰子结果更为符合,因为它有两个G。但是这个结果在设计时只是在第一种序列的开头加了个G,所以它比第一组更不可能,只是相当于“琳达是个积极参与女权主义的银行出纳”的非言语表达。与琳达的研究一样,典型性主导着上例的结果。几乎2/3的受试者更愿意在第二组上下注,而不愿赌第一组。然而,当人们看到支持两种选择的理由时,大多数人发现正确的理由(偏向第一组的)更可信。

下一个问题是个突破,因为我们终于找到了可以降低合取谬误的条件。两组受试者看到同一个问题,但其变量稍显不同:

不列颠的哥伦比亚省针对成年男子样本作了一个健康调查,这些男子年龄不同,职业也不同。请对以下价值给出最佳评估:在被调查的男子中,有几成人有过一次甚至多次心脏病发作的经历?在被调查的男子中,有几成人既超过了55岁又有过一次甚至多次心脏病发作的经历?不列颠的哥伦比亚省对一个由100名成年男性构成的样本进行了调查,这些男性年龄不同,职业也不同。请对以下价值给出最佳评估:100名受试者中有多少位有过一次甚至多次心脏病发作的经历?100名受试者中有多少超过55岁又有过一次甚至多次心脏病发作的经历?看左栏问题的小组的错误率为65%,而看右栏的小组的错误率仅为25%。

为什么“在100名受试者中有多少……”的问题比“有几成人……”更容易回答?有一个可能的解释是“100名”这个参考值给大脑一种空间上的暗示。假使有很多人按照指示把自己归到一间屋子里的不同小组中去:“名字首字母是A到L之间的人到房间的左前方角落去。”然后这个小组中的人再按照指示进一步分组。这种包含的关系现在已经很明显了,你会看到名字以C字母开头的人是左前方角落中那群人的一分子。在这个医学调查问题中,心脏病患者最终会走到屋子的某个角落,他们中有些人不足55岁。不是每个人都能想象出这一场景的,但很多后续实验显示,人们所熟知的典型频率会使人们更容易理解一个组完全被另一个组包含的概念。上述问题中的“多少”使你想到了个体,但“几成”就不会使你有这种联想,从这点来看,这个难题的答案就不难理解了。

关于系统2的工作机制,我们从这些研究中能窥见多少?有一个已经不算新鲜的说法是,系统2并非时刻处于警惕状态。参与我们那些合取谬误实验的大学生和研究生当然都“知道”维恩图解中的逻辑,但即使所有的相关信息都摆在面前,他们也没有对此加以运用。“少即是多”模式的荒谬在奚恺元的餐具实验中表现得淋漓尽致,在“多少”的事例中也非常容易识别出来,但对那些在最初的琳达问题以及其他相似问题中也犯了合取谬误的数千人来说,这一模式还不够明显。在所有这些例子中,合取谬误显得貌似合理,而且也获得了系统2的认可。

系统2的惰性也是导致判断失误的部分原因。如果这些受试者的下一次休假要根据此次调查结果来决定,而他们又有足够的时间,被告知要遵循逻辑,直到确定答案正确才能说出来,我相信大多数受试者都是可以避开合取谬误的。然而,(事实是)他们的休假并不取决于一个正确的答案,他们几乎没费什么时间就得出了答案,而且他们也愿意用随意的方式来回答这个问题。系统2的惰性是生活中存在的一个重要事实,而对典型性会阻碍明显的逻辑原则运用的相关观察也至关重要。

琳达问题值得注意的一个方面是:它与餐具实验的结果形成了对比。这两个问题有着相同的构造,但却产生了不同的结果。那些看到成套餐具中有破损餐具的人会给这套餐具标低价,他们的行为是直觉反应。其他能看到两套餐具并进行对比的人则能运用逻辑原则,得出多出来的餐具只是为了增加价值的结论。在组间研究情况下作判断时,直觉就会起作用,逻辑原则则在综合评估中起作用。而在琳达问题中却不是这样,直觉常会推翻逻辑,即使在综合评估中也会如此,虽然我们确定有些场合下逻辑会占主导地位,但大胆的直觉也会将其推翻。

我们在一些明确的问题中观察到了概率公然违背逻辑的现象,阿莫斯和我都认为这种有悖逻辑的现象非常有意思,值得和同事们分享。我们还相信这些结果能进一步加强我们关于判断启发式强大作用的论证,这会让怀疑者哑口无言。然而在这一点上,我们是大错特错了,琳达问题竟然成了争论规范的研究案例。

琳达问题引起了广泛的关注,它也引发了众人对我和阿莫斯关于判断的研究方法的批评。一些研究人员发现将指示和提示结合起来可以减少谬误的发生,这跟我们已有的发现没什么两样。有些人争论道,在琳达问题中,受试者将“概率”理解为“貌似合理”完全是合情合理的。这些争论有时波及我们的整个研究,说我们的所有结论都在误导公众:如果一种显著的认知错觉能被削弱或解释清楚,其他的系统功能也会如此。这个理论忽视了合取谬误是直觉和逻辑间的矛盾冲突这一特殊性。我们通过设计组间实验对启发式进行论证的论据没有受到质疑,简单地说就是没有被讨论过,而且因为过于重视合取谬误,这个证据的突出性也被掩盖了。琳达问题的净效应是我们的工作对于普通民众来说更透明了,而在此领域的学者中,我们的研究方法的可信度有了一点欠缺。当然我们绝不会料到事情会这样。

如果你去法庭就会看到律师们往往采用两种批评风格:要想推翻某个案件,他们往往会去质疑支持此案的最有力证据,他们会找准证词中最薄弱的地方,让目击证人变得不值得相信。关注弱点在政治辩论中也很常见。我认为在科学争论中这是不恰当的,但我越来越相信一个事实,那就是社会科学中的辩论规则无法阻止政治辩论的风格,尤其在紧要关头的重大问题的讨论上—人类判断中普遍存在的偏见就是个重大问题。

几年前,我和拉尔夫·赫特维格(Ralph Hertwig)有过一次友好的交流。他对琳达问题一直都持批评态度,而我想通过琳达问题解决我们之间的分歧,不过结果证明这只是徒劳之举。我问他为什么和其他人只关注合取谬误,而不关注其他可支持我们立场的更强有力的发现。他笑着说:“这个问题更有意思啊。”他说琳达问题引来了众多关注,我们没有理由抱怨什么。

示例—少即是多“他们构建了一个非常复杂的情节,还坚持说这个情节出现的可能性很大。这不是真的,这只是个貌似合理的故事而已。”“对于贵重的产品他们还附赠一个便宜的小礼物,这样的话,整套产品就不那么吸引人了。少即是多就是这个意思。”“很多情况下,直接的比较使得人们更谨慎也更有逻辑性。不过,也不常是这样。有时即使正确的答案就在眼前,直觉也会打败逻辑。”第16章 因果关系比统计学信息更具说服力

请考虑下列情境,凭直觉写出答案。

一辆出租车在夜晚肇事后逃逸。

这座城市有两家出租车公司,其中一家公司的出租车是绿色的,另一家是蓝色的。

你知道以下数据:

·这座城市85%的出租车是绿色的,15%是蓝色的。

·一位目击证人辨认出那辆肇事出租车是蓝色的。当晚,警察在出事地点对证人的证词进行了测试,得出的结论是:目击者在当时能够正确辨认出这两种颜色的概率是80%,错误的概率是20%。

这场事故的出租车是蓝色而不是绿色的概率是多少?

这是“贝叶斯定理”的一个标准问题。我们可以从中得到两条信息:一个基础比率以及不完全可靠的目击者证词。若没有目击者,肇事出租车是蓝色的概率(即蓝色出租车的基础比率)为15%。若两家出租车公司规模一样大的话,基础比率就会变成无用信息,你就只需考虑目击者的证词,因而这个问题的概率就是80%。我们可以用贝叶斯定理将这两个信息源结合起来,得出正确答案是41%。然而,你可能会想到当人们面对这个问题时是怎样做的:他们会忽略基础比率,只考虑目击者的因素。因此,最普遍的答案是80%。

因果关系基础比率与思维定式

现在,请考虑一下上述问题的另一种表述方式,在这个表述中,只有基础比率发生了变化。

你得到的数据如下:

·两家公司拥有数量相同的出租车,但是在出租车造成的事故中,绿色出租车占85%。

·关于目击证人的信息与上例相同。

同一问题的两种表述从数学角度来看并没有区别,但从心理学角度来看则有很大不同。看了第一种表述的人并不知道怎样运用基础比率,通常会忽略它。相反,看到第二种表述的人会对基础比率给予一定重视,他们的平均判断与运用贝叶斯定理解决该问题得出的答案相差不多。这是为什么呢?

在第一个表述中,蓝色出租车的基础比率是关于这座城市出租车的统计学事实。大脑极其渴望找到其中的因果关系,但却一筹莫展:这座城市绿色和蓝色出租车的数量与出租车司机肇事后逃逸到底有什么因果关系呢?

而在第二个表述中,开绿色出租车的司机比开蓝色出租车的司机肇事率高5倍。于是你会马上得出结论:开绿色出租车的司机是一群莽撞的疯子!现在,你认为绿色出租车司机是莽撞的,并对这家公司所有你并不认识的司机都抱有这种印象,我们称之为思维定式。我们很容易将这样的思维定式设定在因果关系里,因为莽撞是使出租车司机与肇事逃逸产生因果联系的相关事实。在这个表述中,有两个因果关系需要放在一起考虑。第一个是肇事后逃逸,这件事使人很自然地认为莽撞的绿色出租车司机难脱干系;第二个是目击者的证词,证词特别强调肇事出租车是蓝色的。根据这两个因果事件对出租车颜色作出的推断是相互矛盾的,因此如果其中一个成立就相当于另一个被推翻。这两种颜色的概率大致相同(用贝叶斯定理估计出的概率是41%,这说明与目击者确信出租车为蓝色的概率相比,绿色出租车的基础比率略为极端了些)。

这个出租车的实例阐明了两种基础比率。“统计学基础比率”(statistical base rates)是指某一事件所属类别的事实总量,与单独事件无关;而“因果关系基础比率”(causal base rates)则会改变你对单独事件的看法。对两种基础比率,人们往往会区别对待:

·统计学基础比率普遍受到轻视,当人们手头有与该事件相关的具体信息时,有时还会完全忽略这一比率。

·因果关系基础比率被视为个别事件的信息,人们很容易将这一比率与其他具体事件的信息结合起来考虑问题。

与因果关系相关的那个出租车问题存在一种思维定式:绿色出租车的司机是危险的。思维定式是指人们会(至少暂时会)将自己对某个团体的看法延伸到这个团体中每一个成员的身上(团体存在某些问题,其中的成员无一例外也都会有这些问题)。下面有两个例子:

这所位于市中心的学校的绝大多数毕业生都能考上大学。

自行车风靡整个法国。

这些陈述很容易被理解为某个团体中每个个体都具有某种倾向,符合因果关系。这所位于市中心的学校的许多毕业生都想要上大学,他们也有这个能力,原因可能是这所学校的校园生活有利于学生身心发展的特点。法国文化及社会生活中蕴涵着使法国人对骑自行车感兴趣的推动力。当你想到某学校毕业生进入大学的可能性或考虑是否与一个刚认识的法国人谈论环法自行车比赛时,你就会联想到这些事实。

思维定式在我们的文化中是个贬义词,但我把它当成一个中性词来用。系统1的基本特征之一就是它代表了范畴规范和原型范例。这样的规范和范例决定了我们怎样看待马、冰箱及纽约市的警察,因为我们会在记忆里存储与所有这些范畴的事物或人相关的一个或多个“规范的”典型形象。当这些范畴具有社会性时,这些典型形象就被称为思维定式。有些思维定式的错误是致命的,负面的思维定式可能会产生可怕的后果,但这样的心理学事实无法避免:不管是对是错,思维定式都是我们对不同范畴事物的看法。

你可能发现了其中的讽刺之处。在出租车问题的情境中,忽略基础比率信息是一个认知错误,是贝叶斯定理的失败;依赖因果关系基础比率才能获得令人满意的答案,形成对绿色出租车司机的思维定式便会提高判断的准确度。然而,在其他情境中,例如涉及雇佣问题或整体概述时,社会规则与思维定式会发生强烈冲突,在法律当中同样有所体现。事实就是如此,无须大惊小怪。在敏感的社会情境中,我们不想根据某个团体的相关统计数据对个人做出可能是错误的结论。我们认为应该将基础比率视为与整体相关的统计学事实,而不是与个人相关的假设性事实。换句话说,我们反对利用因果关系基础比率。

社会规范往往反对思维定式,包括对整体概述这一做法的否定,这对于建立一个更加文明平等的社会大有益处。然而,我们也应该知道,忽略有根据的思维定式会不可避免地妨碍我们的判断。打破思维定式是值得称道的道德主张,但是如果简单地认为打破这种印象不用付出任何代价,那就错了。为了建立一个更美好的社会,付出这些代价都是值得的;然而如果只顾满心欢喜和正确的政治立场,却否认代价的存在,这种态度是经不起科学推敲的。在政治分歧中依赖情绪启发是很常见的,我们赞同的某些立场无须成本,我们反对的某些立场也没有益处。我们应该有能力可以做得更好。

我和阿莫斯设计了许多出租车问题的衍生实验,但并没有发明因果关系基础比率这一强大概念,我们是从心理学家埃塞克·阿杰恩(Icek Ajzen)那里借用了这一概念。阿杰恩在他的实验中给受试者简单描述了一些学生在耶鲁大学参加考试这件事,然后要求受试者判断其中每个学生通过考试的概率。因果关系基础比率的影响是非常明显的:阿杰恩告诉一组受试者,那些考生中有75%的人通过了考试;而告诉另一组受试者,考生考试的通过率是25%。这项测试的困难自然在于,受试者需要用众多因果关系中的一个来判断每一个学生的考试结果。不出所料,阿杰恩的受试者都对因果关系基础比率非常敏感,在高成功率的情境中,受试者估测出的每个学生通过考试的概率都要高于在高失败率的情境中那些受试者的估测值。

阿杰恩运用一个颇具独创性的方法指出了一个非因果关系的基础比率。他告诉受试者,那群学生是从一个样本中抽取的,而且这个样本是从已得到考试结果的学生中抽取的。例如,处于高失败率情境的那一组所看到的信息如下所示:

研究者主要是对考试失败的原因很感兴趣,所以选取的样本中有75%的学生是没通过考试的。

请注意其中的不同。这个基础比率是一个关于选取示例整体的纯统计学事实。这与所问的问题(即个别学生是否通过考试)并无关联。正如人们所料,这个阐述明确的基础比率对判断产生了一定影响,但相对于统计学上的因果关系基础比率而言,其影响则要小很多。系统1处理的事件中各项因素是有因果关系的,但是在统计推理中这样的关系很薄弱。当然,对于一个以贝叶斯定理为模式进行思考的人来说,所有这些表述方式都是相同的。我们很容易认为自己已经得到了一个令人满意的结论:因为我们使用了因果关系基础比率;我们只不过(或多或少)忽略了统计学上的事实而已。下面这个研究是我一直以来最中意的一项,它表明了情境是非常复杂的。

我们并没有自己想的那样乐于助人

莽撞的出租车司机以及高难度的考试阐明了两个从因果关系基础比率中得出的推论:一是我们容易赋予个人以典型特征,二是情境的一个重要特点就是能影响个人的思考结果。实验的受试者做出了正确的推论,他们的判断力也有所提高。可事情并不总是那么顺利。我即将要描述的典型实验表明,人们不会从基础比率信息中得到与他们的观点相冲突的推论。这个实验还证实了一个让人苦恼的结论:教授心理学纯粹是在浪费时间。

社会心理学家理查德·尼斯贝特(Richard Nisbett)和他的学生尤金·博吉达(Eugene Borgida)很早之前就在密歇根大学做了这个实验。他们向学生描述了前几年在纽约大学进行的那个著名的“帮助实验”。他们将实验受试者分别带入房间,并要求他们对着麦克风谈论自己的生活和烦恼。他们轮流叙述两分钟,每个房间的麦克风只有在受试者讲述时才会出声。每一组有6位受试者,其中一位是我们派去扮演受试者的工作人员。这位工作人员是第一个叙述的人,他是按照研究人员准备的稿子说的。他说他很难适应纽约的生活,并十分尴尬地承认自己很容易抽搐,在紧张的时候尤其如此。接着,所有受试者都依次叙述。当那位工作人员再次对着麦克风讲述时,他变得焦虑和不连贯,他说他感到一阵抽搐,希望有人能帮助他。他最后几句说的是“有没有人……能……救救我……(喘气声)我……我要……死了,我要……死了(气哽声,然后安静了下来)”。此时,下一位受试者的麦克风被自动打开,人们再也听不到那位有可能濒临死亡的人的动静了。

你认为这个实验的其他受试者会做些什么呢?到现在为止,受试者知道他们中的一员癫痫发作并希望得到帮助,然而他们觉得可能已经有几个人冲出去并提供了帮助,所以自己可以安然地待在隔间中。实验结果是:15个受试者中,只有3个人立刻对请求做出了反应。6个人没有踏出过房间,另外5个人在“癫痫患者”明显气哽时才冲出房间。这项实验说明当某人知道其他人也听到了同样的求救信息时,就会感到自己肩上的责任变小了。

这样的结果令你惊讶吗?很有可能。我们大多数人都认为自己十分正直,在那样的情况下,都会义无反顾地提供帮助。当然,这项实验的意义就是去证实那样的期望是错误的。即使是普通、正直的人也不会冲过去提供帮助,因为他们希望别人能够处理这种令人不快的癫痫发作情况。这是不是意味着你也会这样做呢?

你赞同下面的说法吗?“当我阅读帮助实验的流程时,我想我会立刻对那个陌生人施予援手,就如同当时只有我和这个癫痫病患者一样。然而,我有可能错了,如果发觉自己所处的环境中还有许多人有可能去提供帮助,我可能就不会走出去了。别人的存在会削弱我最初的责任感。“这是一个心理学老师希望你学到的。你自己也做过相同的推理吗?

描述这项帮助实验的心理学教授希望学生能将基础比率看做是有因果关系的,就如前面提到的那个虚拟的耶鲁大学测试一样。他希望学生可由这两个例子得到推论,即高失败率意味着测试很难。学生应该懂得这个情境的显著特点,例如责任感的淡化。这个特征会引起包括这些学生在内的普通人和高尚的人意外地没有向他人伸出援手。

改变一个人对人性的看法很难,改变一个人对自身阴暗面的看法就更难了。尼斯贝特和博吉达怀疑学生很有可能会对这项任务和不快的感觉产生抵触情绪。当然,学生能够也愿意在实验中叙述“帮助实验”中的细节,甚至会重复实验方对责任传播的“正面”解释。他们对人性的看法真的发生改变了吗?为了弄清这一点,尼斯贝特和博吉达给受试者播放了一些简短访谈的视频,被访者是在纽约所作的那项研究中的受试者。访问简短而平淡,受访者看上去都是友好而正直的普通人。他们描述了各自的爱好、课余活动以及对未来的计划,这一切完全是老生常谈了。在看过其中一个采访视频后,学生们需要猜测那个受试者会在多长时间后为陌生的发病者提供帮助。

要想将贝叶斯推论应用到这项指派给学生的任务中,你应该先问问自己如果你并没有看过那两人的视频,你会作出怎样的猜测。这个问题可以运用基础比率得以解决。我们知道,在患病者发出第一次请求后,15个受试者中只有4个冲出去提供了帮助。所以某个受试者立刻伸出援手的概率是27%。因此,当被问到某个特定的受试者是否会立刻提供帮助时,你的第一反应是不会。接着,贝叶斯逻辑要求你通过该受试者的相关信息对自己的判断进行调整。然而,视频是经过精心设计的,不会提供什么信息。他们并没有提供任何理由以便让你推测出某个受试者的热心程度。因此,这样推测出来的结果并不比乱猜的准确率高多少。在缺乏有用新信息的时候,可同时运用贝叶斯定理与基础比率来解决问题。

尼斯贝特和博吉达叫两组学生看了这些视频并要求他们判断两名受试者的反应。第一组学生只了解到“帮助实验”的流程,并不知道实验的结果。这组受试者的预测结果反映了他们对于人性的看法以及对情境的理解。正如你可能猜到的那样,他们作出的预测是两位受试者立刻都冲出去帮忙了。第二组学生对实验的流程和结果都有所了解。对两组受试者作出的预测进行比较,可以回答一个非常重要的问题:这组学生是否从“帮助实验”的结果中得到了一些信息,从而显著地改变了自己的思考方式?答案很明显:他们其实什么信息也没得到。第二组学生对这两位受试者所作的预测与并没有见过实验统计结果的第一组学生所作的预测没什么区别。尽管知道视频中被抽到的这个受试者所属小组的基础比率,他们还是相信自己在视频中看到的人会很快为陌生的患病者提供帮助。

对心理学老师来说,这项研究的隐含信息无疑是令人沮丧的。在为学生讲授“帮助实验”中受试者行为的相关知识时,我们希望他们能够有新的收获;希望改变他们在某个特定情境中对于人的行为的看法。这个目标并没有在尼斯贝特和博吉达的实验中得到实现,而我们也没有理由相信假如他们选择的是另一个令人惊奇的心理实验,实验结果就会有所不同。的确,尼斯贝特和博吉达在给学生呈现另一项研究结果时,汇报了类似的发现,此发现表明轻微的社会压力会增强人们对令人痛苦的电击的承受力,且这样的承受力超出了我们大多数人的想象。如果学生没有对社会环境的影响力形成一个新的认识,他们就没有从实验中学到任何有价值的东西。他们对陌生人或是自己的行为作出的推测说明,他们并没有改变原本的想法。以尼斯贝特和博吉达的话来说,学生“默默地将自己(以及他们的朋友和熟人)排除在外”,认为实验的结果并没有令他们惊讶。然而,各位心理学老师不应感到绝望,因为尼斯贝特和博吉达想出了一个能让学生充分理解“帮助实验”内涵的方法。他们找了一组新的学生,向他们描述了“帮助实验”的流程,但没有告诉他们实验的结果。他们播放了那两个视频,然后只是简单地告诉学生视频中的两个人没有帮助那个陌生患者,然后,他们要求学生对所有受试者的行为进行猜测。实验结果是出乎意料的:学生们的猜测十分精确。

在教授学生全新的心理学知识时,你必须得令他们感到惊讶,但什么样的惊讶才会有效果呢?尼斯贝特和博吉达发现,当他们向学生展示令人惊讶的统计学事实时,学生什么也学不到;但当学生惊讶于个体案例时,例如知道两个友好的人对求救的人袖手旁观时,他们会立刻归纳并推断出帮助他人似乎比自己想象的要困难。尼斯贝特和博吉达将结论总结为耐人寻味的一句话:

这些受试者不愿从普遍现象中推导出特殊性,这一点与他们愿意从特殊现象中归纳出普遍性如出一辙。

这是一个影响深远的重要结论。有些人的行为令人惊讶,了解这些行为的统计学事实的人也会将这些事实告诉别人,就在这种转述的过程中,他们的印象得以加深,但这并不意味着他们的世界观也会随之改变。学习心理学面临的考验是,你对所处环境的理解是否发生了改变,而不是你是否了解到一个新的事实。我们对于数据的想法以及我们对于个体案例的想法存在很大的差距。相较于非因果关系的信息来说,用因果关系进行解释的统计学结果对我们的想法影响更大。但即使是具有说服力的因果关系统计数据也不会改变我们在个人经历中形成的长期坚守或是根深蒂固的信念。此外,令人惊讶的个体案例影响甚大,是教授心理学更为有效的手段,因为个案与统计数据的分歧需要调解,并被嵌入一种因果关系里,正因如此,本书才包含种种直接向各位读者提问的问题。与从别人那儿听到令人惊奇的事实相比,你更有可能因为从自己的行为中发现惊人的事实而学到知识。

示例—原因和数据“我们不能假设仅仅通过统计数据他们就能真正学到知识,需要再给他们一两个有代表性的个体案例来影响他们的系统1(作出判断)。”“不需要担心这个统计学信息会被忽略掉。相反,它会立刻被应用到形成陈规的过程中。”第17章 所有表现都会回归平均值

我曾经为以色列空军的飞行教练们讲授过关于高效训练的心理学课程,那次经历为我带来了职业生涯中最引以为豪的发现。当时我告诉他们关于技能训练的一条重要原则:对良好表现的嘉奖比对错误的惩罚更有效。不管是对鸽子、老鼠、人类,还是其他什么动物的研究,都给这个说法提供了证据。

就在我结束了激情洋溢的演说之后,经验最为丰富的一位教练举手示意,发表了一番自己的意见。他先是承认奖励对鸟确实管用,但他认为这不是训练飞行学员的最佳选择。他说道:“在很多情况下,我会赞许那些完美的特技飞行动作。不过,下一次这些飞行员尝试同样飞行动作的时候,通常都会表现得差一些。相反,对那些没执行好动作的学员我会大声怒吼,但他们基本上都会在下一次表现得更好。所以说,别告诉我们嘉奖有用而惩罚没用,因为事实恰恰相反。”

这条统计学原则我已经讲授了很多年,而这一次我从一个新的角度重新认识了它,这的确是一个顿悟的时刻。那个飞行教练是正确的,但同时他也彻彻底底地错了。他的观察是精明且到位的:被他表扬之后,很多学员很有可能会表现得很糟糕;惩罚反而会促使他们进步。但是就他的推断而言,奖励和惩罚之间是毫无关系的。他所观察到的就是众所周知的“回归平均值”现象,这种现象与表现质量的随机波动相关。一般来说,只有学员的表现远远超出平均值时才能得到这位教练的表扬。但也许学员只是恰巧在那一次表现得很好,而后又变差,这与是否受到表扬毫无关系。同样,或许学员某一次非同寻常的糟糕表现招来了教练的怒吼,因此接下来的进步也和教练没什么关系。这个教练把不可避免的随机波动与因果解释联系起来了。

这个提议确实引起了反响,不过这些教练对概率预测的代数方法没什么兴趣。所以,我用粉笔在地上画了一个靶子。我请房间里的每一位教练都转过身去,背对着靶子向里面接连扔两枚硬币。接着我们分别测量了靶子到两枚硬币的距离,并写在黑板上。然后,我们又将这些数据按第一次投掷的距离远近排列。很明显,第一次投掷得比较好的人第二次大都做得不好,而第一次没有投掷好的人第二次大都有了进步。我告诉这些教练,他们在黑板上看到的数据其实和飞行员的表现是一致的:糟糕的表现常常会有提高,而好的表现则会变得糟糕,这跟表扬与惩罚都没有关系。

那天,我的发现是,那些飞行教练陷入了一个偶然性困局之中:因为当飞行学员表现差时,他们就会受到惩罚,而接下来的进步则很可能为他们带来嘉奖,事实上惩罚根本就没有发挥什么作用。而且,处于这种窘境之中的不仅仅是那些教练。我曾无意中发现了人类环境中一个意义重大的事实:生活给予我们的反馈常常违背常理。因为当别人取悦我们时,我们也会对他好;当别人对我们不好时,我们也会对他产生厌恶之情。然而从统计学角度来看,我们却是因为对人友好而受到惩罚,因为举止无礼而得到嘉奖。

第二次的表现与第一次并无因果联系

几年之前,在线杂志《边缘》(Edge)的编辑约翰·布鲁克曼(John Brockman)请一些科学家讲述他们“最喜爱的公式”。以下是我提供的信息:

成功=天赋+运气巨大的成功=更多的天赋+更多的运气

运气常常会促成成功,然而当我们把这个并不令人吃惊的想法用到高水平高尔夫锦标赛前两天的比赛中时,却出现了令人惊讶的结果。为了简单说明这个问题,我们假设这两天中参加比赛的选手平均绩点为72标准杆。我们关注了一位在第一天表现非常不错的选手,他在当天比赛结束时得分为66杆。我们从这个得分中能推断出什么?最直接的推断就是这个球员要比锦标赛中其他选手有更高的天赋。成功公式告诉我们另一个推断同样成立:第一天表现很好的高尔夫选手很可能在那一天有着非比寻常的运气。如果你能接受天赋和运气都能带来成功这种想法,那么“这个成功的高尔夫球手很幸运”这个结论肯定和“他很有天赋”这个结论一样可信了。

同样,如果你关注一个当天的成绩超过标准杆5杆的球员,就可以推测他技术很糟,而且那天运气也不好。当然,你也清楚这些推测不一定都成立。某个打了77杆的运动员很可能非常具有天赋但却遭遇了极其不走运的一天。下面的推测是根据第一天的得分作出的,尽管不确定,但这种推测通常是正确的。

第一天高于一般水平的成绩=高于一般水平的天赋+第一天的好运气

第一天低于一般水平的成绩=低于一般水平的天赋+第一天的坏运气

现在,假设你已经知道某个高尔夫球手第一天的得分,并且要对其第二天的得分进行预测。你希望这个选手第二天仍旧能够延续前一天的优异表现,所以你给出的最佳猜测就是第一个选手得分“高于平均水平”,而第二个选手得分则“低于平均水平”。当然,运气就很难说了。我们没办法预测出一名选手在第二天(或是任意一天)的运气如何,因此我们能作的最佳推测就是采用其平均值—既不好也不坏。也就是说,在没有其他任何相关信息的情况下,对于某选手在第二天的得分情况,我们能作出的最好推测就是:第一天的表现不会重演。你很有可能会这样说:

·在第一天表现很好的高尔夫选手在第二天也会表现得不错,但还是会比第一天稍差一点,因为他在第一天碰到的好运气不一定能在第二天再次碰到。

·在第一天表现不佳的高尔夫选手在第二天也许得分还会低于平均水平,但是会有些提升,因为他第一天的霉运不一定会持续。

尽管我们会猜测第一名选手在第二天的表现还是会优于第二名选手,但是他们之间的差距会缩小。

事实上,对选手第二天的表现最准确的预测通常是最保守、最接近平均值的,而不是基于第一天分数的预测。我的学生每次听到这样的结论都很惊讶。正因为如此,这种模式被称为“回归平均值”。原始数据越极端,我们所期待的回归就越明显,因为极好的分数常常表明这一天的运气很不错。这种回归式的预测是很合理的,但是准确度却得不到保证。有些高尔夫选手在第一天得了66杆的高分,如果第二天运气更佳的话,得分甚至更高。当然大部分人的表现都会变差,因为他们的运气不再处于平均值之上了。

现在我们将时间轴反过来,将选手按第二天的得分情况排序,来看看他们第一天的表现。我们仍旧会发现同样的模式—回归平均值。第二天表现出色的选手很可能是因为当天运气好,而最好的猜测就是他们第一天的运气不佳。当你根据后期的表现来推测早期表现时,也会发现回归平均值的现象,此时你便会相信这种回归并非巧合。

回归效应无处不在,很多可以说明这一效应的误导性因果事件同样司空见惯。有一个经典的例子,那就是“体育画报的诅咒”—凡是登上《体育画报》(Sports Illustrated)这本杂志封面的运动员都会在接下来的赛季中表现欠佳。一般来说,人们会认为过度自信以及人们对其期望过高的压力造成了这些人表现不佳。不过,这个诅咒可以用更简单的方式来解释:能够成为《体育画报》封面人物的运动员在前一赛季一定表现极为出色,也许这种出色的表现在很大程度上源于运气—运气是善变的,接下来他就没那么走运了。

当年和阿莫斯正在撰写一篇关于直觉预测法的文章时,我碰巧看了冬奥会的男子高空滑雪比赛。在这项比赛中,每个运动员都有两次机会,最终结果由两次得分决定。每当一名选手进行第二轮时,解说员常常会说“挪威选手第一轮表现很好,现在他一定很紧张,因为想要保持领先地位,估计他在第二轮会表现欠佳”,或者“瑞典选手第一轮表现很糟糕,他明白自己已别无选择,因此也没有什么压力,大概第二轮就会做得更好”。所有这些评论都令我感到很吃惊。很明显,这个评论员已经觉察到了回归平均值的概念,而且还在没有任何依据的情况下编出了一个有理有据的故事。也许他的解释是正确的,如果我们测一下运动员的心跳,可能会发现不佳的表现之后确实会放松,当然也可能不会。有一点我们要记住,运动员第一跳和第二跳的表现之间不存在因果关系。这只是一个数学问题,其中运气起了很大的作用。这个说法不太令人满意—我们都想得到一个有因果关系的解释—但事实的确如此。

回归现象的意义不亚于发现万有引力

无论是没有察觉还是解读错误,这种回归现象对人类而言总是很陌生的,因此直到万有引力和微积分理论出现两百年后,这种现象才为人们所理解。而且,是19世纪英国最伟大的科学家之一经过艰苦卓绝的努力才探索出这一重要规律的。

弗朗西斯·高尔顿(Francis Galton)爵士是19世纪英国著名的学者,也是达尔文的表兄。他发现并命名了回归平均值的现象。1886年,他发表了《在遗传的身长中向中等身长的回归》,其中涉及对连续子代的种子大小的测量以及对子代株高和母本株高的比较。在对种子的研究中,他写下了如下的话:

实验结果看上去十分值得关注,在1877年2月9日的一次演讲中,我就先于皇家科学院将这些结果用做一次演讲的基本内容了。从这些实验可以看出,子代的高度和母本高度似乎并不相关,但似乎前者比后者更趋于平均。如果母本较高,那么子代就会变矮;如果母本较矮,则子代就会变高。实验显示,子代向平均值的回归与母本高矮的差异是成比例的。

皇家科学院是世界上最古老的独立研究机构,高尔顿很期待该机构中博学的院士们也会对他那“值得关注的实验观察”感到惊讶。但真正值得关注的是,他为之惊讶的统计规律不过是像我们呼吸的空气一样稀松平常。回归效应随处可见,但是我们却无法识别它们的真面目。高尔顿以子代高度的回归现象为起点,逐渐发现当两个测量值之间的关联不是那么完美时,此时也会出现这种回归。他借助了当时最杰出的几位统计学家的帮助,且历时多年才得出这一结论。

当按不同的标准衡量两个变量时—例如体重和钢琴技艺—如何测量这两个变量之间的回归是高尔顿要攻克的重大难题之一。要解决这一问题需要以人口作为参照标准。假设我们对某小学所有年级的100名儿童的体重和钢琴技艺进行测量,然后将两者按从高到低的顺序分别进行排列。比如说,简在钢琴技艺中排第三名,但按体重则排第27名,那么我们就可以说她弹钢琴的水平比她的体重排名靠前。我们来作些假设,这样就可以使这一现象更容易理解。

不管年龄几何,

·钢琴技艺高低仅仅取决于每周练习的时长。

·体重多少仅仅取决于冰激凌的摄入量。

·冰激凌摄入量和每周练习钢琴的时长并不相关。

现在通过排行(按统计学家的说法是“标准分”),我们可以得出更多的等式:

体重=年龄+冰激凌消耗量

钢琴技艺=年龄+每周练习时长

你会发现,当我们通过体重预测钢琴技艺或通过钢琴技艺预测体重时,就会出现回归平均值的现象。如果知道汤姆在体重中排第12位(远高于平均值),我们就可以(从统计学上)推测他比平均年龄要大,而且可能比其他孩子吃更多的冰激凌。如果知道芭芭拉的钢琴技艺排第85位(远低于平均值),我们就可以推测她应当比大多数孩子年龄小,而且每周练习的时间也少。

两个值之间的“相关系数”指的是两个值共有因素的相对比重。这个值在零和1之间浮动。我们拥有父母各一半的基因,对于像身高这种受环境因素影响很小的特征来讲,父母和子女的相关系数在0.5左右。下面的例子能帮助我们更好地了解相关系数:

·一个物体的型号用英制单位精确测量的结果与用公制单位精确测量的结果之间的相关系数为1。任何影响其中一个值的因素都会影响另一个。两者享有同样的决定性因素。

·美国成年男性自报的身高和体重之间的相关系数为0.41。如果将女性和儿童也包括进去,那么相关度就会更高,因为性别和年龄都会影响身高和体重,这便使得共有因素所占比例增加。

·学术能力评估考试成绩(SAT)和平均绩点(GPA)之间的相关系数大约是0.6。然而,研究生的潜能测试与成功之间的相关性则小得多,这在很大程度上是因为这一群体的潜能差异比较小。如果每个人都有相似的潜能,那么在衡量成功时,潜能的因素就不会占太大的比重。

·美国人收入和教育程度的相关系数约为0.4。

·家庭收入和他们电话号码后4位之间的相关系数为零。

弗朗西斯·高尔顿用了好几年的时间才确定相关性和回归性并非两个概念—它们只是从不同视角对同一个概念作出的阐释。这个概念的原则很简单,但是影响却很深远:只要两个数值之间的相关度不高,就会出现回归平均值的情况。为了阐释高尔顿的卓见,我们来看一个例子,很多人都认为这个例子很有趣:

聪明的女人常常会嫁给不如她们聪明的男人。

如果你在朋友聚会时挑起这个话题,一定会引起热烈讨论,大家肯定都愿意分享自己的看法。即使有些对统计学有所了解的人也会很自然地用因果关系去解释这个现象。一些人认为高智商的女人为了避免和同样高智商的男人竞争才这么做;或者是在择偶之时不得不妥协,因为同等智商的男人不愿意与这些女人竞争……也许还会有其他更牵强的解释。现在我们来看看下面的表述:

夫妻二人智商之间的相关性并不是绝对的。

这个观点显然是正确的,而且很无聊。谁会期待这样一种相关性是绝对的呢?那就没有什么好解释的了。不过,你认为有趣的观点和你认为毫无意义的观点又是等值的。如果夫妻二人智商之间的相关性并不是绝对的(如果男人和女人在平均智商上没有差异),那么从数学上来讲,高智商女人嫁给那些不如她们智商高的男人是顺理成章的(反之也成立)。对于这一现象,用回归平均值效应来解释要比用并不绝对的相关性来解释更通俗,也更有说服力。

你也许很同情高尔顿这样绞尽脑汁地解释回归的概念。统计学家戴维·弗里德曼(David freedman)曾说过,如果把回归的概念用在民事或刑事审判中,那么试图对陪审团解释“回归”的一方一定会输掉官司。为什么会这样呢?其中主要的原因也是本书中反复出现的主题:我们的思维常会对因果关系的解释带有很强的偏见,而且不善于处理统计数据。当我们把注意力集中在某一事件上时,相关的记忆就开始探寻其原因—更确切地说,我们会对所有早已存在于记忆中的原因进行自动搜索。当发现有回归效应时,因果关系解释就会被激活,但事实上这些解释都是不对的,因为回归平均值虽然可以用来解释现象,却无法找出其中原因。在高尔夫锦标赛中,那些第一天成功的选手通常在第二天发挥都很糟糕,而这场比赛总会吸引我们的注意力。对于这种现象最好的解释就是,那些选手第一天出奇地走运,不过这种解释缺乏我们的大脑所认可的因果关系因素。事实上,那些能够为回归效应提供巧妙解释的人往往赚得盆满钵满。如果一个商业评论员声称“今年的生意比去年要好,因为去年太糟了”,尽管他说得没错,但也很有可能很快就被电台噤声。

我们理解“回归”概念存在很多困难,这些困难皆源自两个系统—系统1和系统2。在相当数量的案例中,即便提供了一些统计数据,若无特殊说明,“相关”与“回归”的关系还是相当模糊的。因此,系统2认为理解这种关系很难。因为从某种程度上讲,这是由于我们总是要求对事物进行因果关系解释,这也是系统1的一个特征。

抑郁儿童喝了某种功能饮料,他们的情况在3个月内得到很大改善。

这个新闻标题是我杜撰的,但这则新闻所报道的内容却是真实的:如果给一群抑郁儿童喝了某种功能饮料的话,一段时间后,他们的病情会有很大的好转。如果抑郁儿童每天都花一段时间倒立,或是把一只猫抱在怀里20分钟,这些举动也可以使病情好转。多数读者读了这则新闻之后会不由自主地认为:喝功能饮料和抱猫的行为的确使抑郁儿童的病情得到了改善,但这个结论却无法得到证实。抑郁儿童是一个极端群体,他们比大多数其他儿童要压抑得多—这些极端群体在一段时间之后会回归平均水平。一连串的测试反映出来的不同压抑程度之间并无绝对的相关性,因此回归平均值(或者更确切地说是回归平均水平)这种现象又会出现:即使他们不抱猫,也不喝功能饮料,一段时间之后这些抑郁儿童的病情同样会有所缓解。为了证明喝功能饮料或是其他治疗方法是有效的,我们必须要对两组患病儿童进行比较—实验组接受了治疗(比如喝过功能饮料),对照组没接受过治疗(或只是服用过安慰剂)。我们期望的是对照组仅通过回归就能改善病情,而该实验的目的在于判定接受治疗的病人是否恢复得更快。

对回归效应作出错误因果解释的不仅仅是大众读者。统计学家霍华德。维纳曾经列出一长串杰出研究者的名字,他们也犯过同样的错误—将相关性和因果性混淆在一起。回归平均值是科学研究中的常见问题,有经验的科学家都会小心提防这种毫无缘由的因果推论所形成的陷阱。

在我最喜欢的那些关于直觉产生预测错误的例子中,有一个是根据马克斯·巴泽曼(Max Bazerman)的《管理决策中的判断》(Judgment in Managerial Decision Making)一书中的内容改编而来的:

假设你为一家连锁百货公司作销售预测。所有连锁店的规模和商品种类都非常相似,但是其地理位置、竞争状况以及其他随机因素使这些商品的销量有所不同。下列数据为2011年的营业额,请你对2012年的营业额进行预测。你已经知道自己可以接受经济学家所作的总体预测—销售额总体会增长10%。那么你将如何完成下列表格?

 [image file=Image00012.jpg]

读过本章,你就知道将每家店的销售额增加10%显然是不对的。你应当使自己的预测具有回归性:对于业绩不好的店,预测增长率应高于10%;对于业绩较好的店,预测值应低于这个值(甚至是负值)。不过如果你咨询其他人的话,很有可能会碰钉子:这么显而易见的问题还有什么好问的?正如高尔顿历经艰难才发现的那样,回归的概念从来就不是显而易见的。

示例—回归平均值“她说经验教会她一个道理,批评比赞扬更有用。不过她不明白这是回归平均值在发挥效用。”“也许由于惧怕让众人失望,所以他的第二次面试没有第一次那样令人印象深刻,他第一次的表现太优秀了。”“我们的筛选过程并不是很完美,所以我们会考虑回归性。有些极其优秀的候选人也会让我们失望,对此我们并不感到惊讶。”第18章 如何让直觉性预测更恰当有效?

生活中,许多场合都会用到预测。经济学家预测通货膨胀和失业率,财务分析师预测收益,军事专家预测伤亡人数,风险资本家预测利润率,出版商和生产商预测读者和消费人群,承包商预测项目完成所需的时间,工程师预测建造某建筑需要的水泥量,火场指挥员预测扑灭大火所需的消防车数量。一些私人问题同样需要用到预测,我们预测恋人在自己求婚时的反应,预测在新工作中需要作的自我调节。

有些预测判断,比如那些工程师所作的预测,主要就是通过查找表格、精确计算以及对类似项目的结果进行仔细分析得来的。还有一些预测则需要直觉和系统1的共同参与,主要有两种类型。有些直觉主要依靠反复训练得来的技能和经验。加里·克莱因在《力量的源泉》(Source of Power)一书中及其他场合曾提到过象棋高手、火场指挥员和内科医生所作的快速自动判断及选择,用以阐释这种经验性直觉,即由于识别出熟悉的线索,大脑中快速呈现出当前问题的解决方案。

还有些直觉有时从一开始就难以从主观上进行区分。这种直觉受启发法的影响,通常会用简单的问题来替代难以回答的问题。即使证据很不充分,决定亦不可更改,人们依此作出直觉性判断时往往也会信心十足。当然,许多判断,特别是专业领域的判断,受到了分析与直觉的共同影响。

偏离预测方向的直觉

让我们再来看看下面这个老问题:

朱莉现在是一名州立大学4年级的学生。她4岁就能流畅地进行阅读。她的平均绩点(GPA)是多少?

熟悉美国教育体制的人很快就能得出一个数字,且这个数字通常在3.7或3.8左右。为什么呢?原因在于,系统1的几个机制共同参与了预测。

·人们会探寻证据(朱莉的阅读能力)与预测目标(她的平均绩点)之间是否存在因果关系。这种关系可能不是直接的。在这个例子中,很小就能阅读与较好的平均绩点都是学术天分的表现,必然会存在某种联系。你(你的系统2)可能会否定朱莉在高中曾经赢得钓鱼比赛或是在举重比赛中表现良好的说法。这个过程被有效地一分为二。系统1能够摒弃那些无关或是错误的信息,但却无法弥补证据中相对较小的瑕疵。因此,直觉性预测对证据的实际预测结果几乎毫无感觉。一旦发现某种关联,例如朱莉很小时就能阅读,眼见即为事实原则就会发挥作用:你的联想记忆会快速自动地运用可利用信息编出最恰当的故事。

·另外,证据的评估与相关规范联系紧密。4岁时阅读能力就很强的孩子早熟吗?什么样的名次或者说百分制下得多少分才能与这样的能力相符?与这个孩子作比较的人群(我们称之为参照人群)也没能明确说明这一点,但与我们平时说话所遵循的规则相同。如果即将毕业于这所大学的某个人被赞为“相当聪明”,你几乎不必问:“当你说他‘相当聪明’时,脑子里想到的是哪些参照人群呢?”

·下一部分包括替代和快速配对。对于儿童时期认知能力这个并不周密的证据进行评估的问题被替换成关于她大学平均绩点问题的答案。朱莉的平均绩点和她小时候就能阅读这项能力的百分比值是相同的。

·这个问题明确规定答案必须在平均绩点的范围内,这也就要求另一个强度匹配的运作,即将你对朱莉的学术成就的总体印象与能证明她本人天赋的平均绩点这一证据匹配起来。最后的步骤是转化,将你对朱莉学术水准的印象转化为相应的平均绩点。

通过强度匹配得到的预测结果与支持这个预测的证据一样极端,会导致人们面对两个不同的问题却给出相同的答案:

朱莉的早期阅读能力成绩是多少(百分制)?

朱莉的平均绩点是多少(百分制)?

到目前为止,你应该很容易就能看出所有这些运作都是系统1的特点,我按照不同步骤依次将它们列在这里,当然联想记忆的大量激活并不遵循这一顺序。你应该将这种记忆大量激活的过程想象为以下几步:由信息和问题激发起联想记忆,然后自我反馈,最后选定最具连贯性的合理性方案。

我与阿莫斯曾经在一个实验中要求受试者对8位大学新生的相关描述作出判断,这个描述是由一名辅导老师根据对新班级的访谈而写成的。每个描述由5个形容词组成,如下例所示:

聪明、自信、笃学、勤奋、好问

我们问了受试者下面两个问题:

这个描述对你关于学术能力的想法有多大影响?

你认为这些关于新生的描述令你印象深刻的可能性有多大(百分制)?

这两个问题要求你根据自己的标准对新生进行描述,将自己的描述与辅导老师的描述进行对比,进而评估上述描述。你自身的评判标准存在着重大影响。虽然你根本不知道自己如何形成这一评判标准的,但你对这条描述承载的热情程度非常清楚:辅导老师认为这个学生是优秀的,但还算不上是最棒的,因为我们还有很多比“聪明”程度更深的形容词(杰出、有创造力),也有很多比“笃学”程度更深的词(博学的、渊博的),更有许多程度超过“勤奋”的形容词(积极的、力求完美的)。由此可以推测,(该生)成绩很有可能在前15%,但不太可能在前3%。人们在类似的判断中得到的结果出奇地一致,至少在相同文化背景的人群中是这样。

我们问了实验中另一组受试者不同的问题:

你估计这个学生的平均绩点是多少?

新生中取得较高平均绩点的学生占多大比例?

你需要再三思考才能看出这两组问题的微小差别。这种不同本该很明显,但事实却并非如此。第一组问题只要求你作出评估,第二组问题则与第一组不同,包含了很大的不确定性。这个问题指的是在大学一年级期末的真实表现。自访谈后,这一年发生了什么呢?你怎样才能以5个形容词来预测这个学生在大学第一年的真实表现呢?如果这只是辅导老师本人通过与该生的访谈而作出的平均绩点预测,那么她的预测会准确无误吗?

这项研究旨在比较两个判断结果(百分比成绩):受试者通过评估一个案例中的描述做出的判断结果(百分比成绩)和另一个案例中的最终预测结果。结论很明显:两个判断结果完全相同。尽管两组问题不同(一组关于该生的描述,另一组关于该生未来的学术表现),但受试者将这两个问题看成了一个。与朱莉的例子相同,受试者并没有将对未来的预测和对当前信息的估测区别开来—预测与估测相匹配。这也许是我们得到的能证明替换存在的最佳证据。当人们按要求预测时,他们总会将预测替换为对所描述问题的估测,而且没有意识到他们回答的问题并不是那个被问到的问题。这个过程证明预测时会存在系统偏见;他们完全忽略了一点,即应该回归到平均值上来。

在以色列国防军队服役期间,很长时间我都待在一支部队里,这支部队通过一系列面试及实战测试来挑选后备实训军官。成功预测的特定标准为这些人在军官学校的最终成绩。这些等级评定的效度非常低(我会在后面的章节详细说明)。若干年后,这支部队仍旧存在,而彼时我已成为一名教授,并且正与阿莫斯合作研究直觉性判断问题。我一直与这支部队的工作人员保持着密切联系,于是便请他们帮个忙。除了他们通常使用的评估候选人的评分系统以外,我还让他们猜测每个学员将来在军官学校中可能得到的分数。他们搜集了几百份这样的预测。所有作出这些预测的军官都知道学校给学员评分时用的是字母评分系统,也知道所有学员得到的A、B、C各等级的近似比例。实验结果令人惊讶:预测出来的A和B的频率几乎与学校的结业成绩中的A、B等级的频率等同。

这些发现提供了一个引人注目的例子,这个例子涉及替代和强度匹配两个方面。作出预测的军官完全将这两个任务混淆在一起了:

·他们平时的任务是对候选人在该部队的表现作出评价。

·我让他们执行的任务是对候选人的未来成绩作出切实预测。

他们运用强度匹配将自己的评级简单地转换为军官学校的评分结果。由于无法解决预测中存在(相当大)的不确定性,他们的预测又一次完全无法回归(平均值)。

对直觉性预测的偏见进行修正

我们回过头再来看朱莉,那个儿时阅读能力就很强的阅读者。前一章已经介绍过预测她平均绩点的正确方法。我在前一章中还为连续两天打高尔夫球的例子以及体重和弹钢琴的例子分别写了一个原理公式,在这里我也要为阅读年龄和大学成绩的决定因素写一个公式:

阅读年龄=共同因素+决定阅读年龄的特殊因素=100%

平均绩点=共同因素+决定平均绩点的特殊因素=100%

共同因素包括由遗传决定的潜能、家庭支持学业的程度,以及能够造成人们在孩童时期成为出色的阅读者、青年时期又在学术上有所建树的所有其他因素。当然,许多因素只会影响到其中的某个结果,却不会对其他结果产生影响。朱莉可能是因为父母对她期望过高强迫女儿读书才这么早学会阅读的,也有可能因为一段不愉快的感情经历,她的大学成绩才那么糟糕,还可能在少年时滑雪出了事故导致脑部轻微受损等。

回想一下上面两个测量公式的关联,即当前阅读年龄和平均绩点这两个公式,你会发现两者所考虑的共同因素在决定因素中所占的比例是一样的。你对这个比例能作出的最贴近的估测是多少?我给出的答案是最多30%。有了这个估测,我们就完全有条件作出不带偏见的预测了。按照以下4个简单步骤来做,我们就可以进行无偏见预测:

1.先估测出平均绩点的平均值。

2.根据你对证据的印象算出与之相匹配的平均绩点。

3.对你的证据和平均绩点的关联作出估计。

4.如果关联度是0.3,则从估算出的平均绩点的平均值中抽出30%,放到与之匹配的平均绩点里。

步骤1为你提供了基准线,即在你除了知道朱莉是个快毕业的大学生之外什么也不知道的情况下,预测她的平均绩点。在没有信息的情况下,你很有可能预测其为一般水平。(这一点与你对汤姆的预测相似,在对他一无所知的情况下,你便将企业管理专业毕业生的基础比率放在了他的身上。)步骤2是你的直觉性预测,这个预测将你的估计和证据进行了匹配。步骤3使你离开基准线靠向自己的直觉,但你能离开的距离取决于你对关联性的估测。在步骤4中,尽管你最终作出的预测还是受到了直觉的影响,但是这个影响力已经小很多了。

这种预测方法很常见。在你需要预测一个定量数值时,就可以运用这个方法,例如在预测平均绩点、投资效益、公司发展的业绩时,这个方法就可以派上用场。这个方法以你的直觉为基础,但是削弱了直觉的影响,使它回归到平均值上了。当你有充分的理由对自己的直觉性预测的准确性充满信心时,即证据和预测之间联系非常紧密,进行调整的余地就会很小。

直觉性预测需要校正是由于它并不具有回归性,因此是带有偏见的。假设我预测每一位高尔夫球员在一场锦标赛上第二天的得分与第一天的得分相同,那么这个预测并没有考虑到回归平均值的问题:第一天发挥得好的高尔夫球员第二天比赛时水平都会有所下降,而那些头天状态不佳的球员则大多会在第二天有所提高。当我们最后将预测值与实际结果进行比较时,我们会发现,缺失回归性的直觉确实带有偏见。

这些预测普遍对第一天发挥得好的人过于乐观,对开始就发挥得不怎么样的人则过于悲观。预测与证据一样极端。同样,如果不使预测回归到平均值上来,而是根据儿童时期的成就来预测其大学时期的分数,那么你多半会对孩提时代阅读能力强的人在大学时代取得的学术成绩颇感失望,而那些较晚开始阅读的孩子的大学成绩反而会给你带来惊喜。修正过的直觉性预测消除了这些偏见,所以预测(过高或过低)高估真实值或低估真实值的可能性大致是相等的。当你不带偏见地预测时仍然会犯错,但这时的错误较小,也不会导致过高或过低的估值。

两位教授候选人,应该选择哪一位?

前文中,我向大家介绍了汤姆的情况,用以说明不连续结果的预测问题,比如对其所属的专业领域或者一次考试的成功概率进行的预测,这些预测是通过评估某一特定事件的可能性(或者按照结果出现的可能性大小排序)来表达的。我还曾描述过抵制不连续预测中的常见偏见的步骤,比如忽略基础比率,对信息的优劣不敏感。

有些预测偏见是通过一个数值范围来表达的,例如某学生的平均绩点或某公司的收益,这些偏见与我们在判断结果的可能性的过程中所持偏见相似,而两种偏见的修正过程也十分相似:

·都包含一种基准线预测,如果你对手头这个案例的情况一无所知,便会作出这种预测。在绝对的情况下,这个基准线是基础比率;在有数字的情况下,这个基准线就是相关结果的平均值。

·都包含一种直觉预测,无论是可能性或是平均绩点,这种预测会将呈现在大脑中的数值通通表达出来。

·在上述两种情况中,你的目的都是要作出一种预测,这种预测可在基础比率和直觉性反应之间充当媒介。

·在没有什么有价值的信息的情况下,你会坚守基准线。

·在其他极端情况下,你还会坚守自己最初的预测。当然,只有在对支持自己最初预测的证据进行过严格验证之后,你才会信心十足地坚持那个预测。

·在大多数情况下,你会发现自己有理由怀疑自己的直觉判断和真理之间的关联其实并不完美,而你最终会给出介于两者之间的判断。

这个过程很接近一个恰当的统计分析可能会出现的结果。如果成功的话,这个过程就会使你作出的预测偏见越来越少,作出的可能性评估越来越合理,对各种数值作出的预测也越来越适度。前述两个过程意在解决同一种偏见,即直觉性预测总是过于自信或过于极端。

修正你的直觉性预测的偏见是系统2的任务。要想找到相关的参照物、对基准预测作出估测或者对证据的质量进行评估,往往需要付出很大的努力。只有在风险很高而你又特别渴望避免犯错误时,这种努力才显得合乎情理。此外,你应该知道纠正你的直觉也许会使你的生活变得复杂。无偏见预测的一个特征就是,只有在信息非常有效时才允许人们对罕见或极端的事件作出预测。如果你期待自己作出恰当有效的预测,那么你的预测结果就永远不会太离谱或者偏离平均值太多。而如果你的预测不存在偏见,你也就永远不会有极端事件的“愉快体验”了。当你在法学院最得意的学生成为最高法院的法官时,或者当你曾经很看好的那家新成立的公司成为商界新秀时,你永远不会说“我早就知道会这样”。如果信息量有限,你也无法预测到一个出色的高中生会成为普林斯顿大学的优等生;同理,一个风险资本家永远不会认为新创立的公司在起步阶段时成功的概率会“很高”。

一定要严肃对待那些反对适度的直觉性预测原则的意见,因为摆脱偏见并非总是头等大事。如果不问具体情况,对所有预测的错误都同样对待,那么对无偏见预测的偏爱就是合理的了。然而总有那么一些时候,一种错误比另一种错误更糟糕。若一位风险投资家只为寻找“下一件大事”,那么他错过下一个谷歌或脸谱网的风险就会远远大于对刚刚创立的公司(最终破产)进行适度投资带来的风险。风险投资家的目标是正确判断极端情况,甚至以高估其他许多风险为代价也在所不惜。对于借出大笔贷款的保守银行家来说,某一位借款人破产带来的风险会比拒绝几位可能会履行债务的潜在客户带来的风险更大。在这种情况下,即使作出这些判断所依据的信息效度只是适中,使用极端的语言(“前景非常好”,“违约的严峻风险”)也可能会为其带来舒适感。

对于一个理性的人来说,无偏见且适度的预测不应该引发问题。毕竟一个理性的风险投资家知道,即便是最有前景的新建公司,其成功概率也只是中等水平而已。她将自己的工作视为从所有赌注中找到的前景最好的赌注,而且关于要投资的那家新建公司的发展前景问题,她觉得没有必要欺骗自己。同样,预测某家公司收益的理性个体不会受到某个数字的束缚—他们应该考虑到最有可能出现的那个结果的不确定性。如果成功的回报足够大,一个理性的人就会考虑向一家极有可能倒闭的企业投资一大笔钱,而不会自欺欺人地抬高其成功概率。然而,我们并不都是理性的,我们中的一些人也许还需要歪曲判断作为保护来掩盖自己的无能为力。如果选择接受极端的预测来蒙蔽自己,你就会清楚地意识到自己对自己的纵容。

也许我提出来的那几个修正步骤最难能可贵的贡献就是这些步骤会要求你思考自己对事情到底了解多少。接下来我会运用一个学术界尽人皆知的例子,其他生活领域中的例子亦可依此类推。一个部门要雇用一位年轻的教授,他们希望这位教授未来的学术能力能够达到最高水平。该部门的调查委员会最后将候选人圈定为两个:

金最近完成了毕业设计。她的推荐信中都是对她的溢美之词,而且面试时她说得也很好,给在场的每个人都留下了深刻的印象。不过她没有什么实质性的科研成果。

简经过过去3年的学习取得了博士后头衔,学术成果颇丰,研究也做得非常出色,但她在面试时表现得不如金出色。

我们直觉会选择金,因为她给人的印象更深刻,而且眼见即为事实。但与简的信息相比,金的相关信息则少很多。我们可以回想一下小数原则。事实上,你从关于金的描述中得到的信息样本比简的要小,而且在小样本中更容易发现极端的结果。小样本的结果往往有更多的运气成分,因此在判断金将来的表现时,更应该回归平均值。若觉得金更有可能退步,最终你就会选择简,尽管你对她的印象并不深刻。如果按照学术能力来选人,我会投给简一票,但我得先努力克服自己对金的直觉印象—金更有希望。跟着我们的直觉走比违背直觉感觉更自然、更亲切。

你很容易就能想象出不同情境下的相似问题,例如某位风险投资家要在位于不同市场中的两家新建公司之中选出一家进行投资,他可以相当精确地预估其中一家公司的产品需求量,而另一家是一派欣欣向荣的景象,让人觉得更有希望,但其发展前景却并不是很确定。如果把这种不确定因素考虑在内的话,你对第二家公司前景的最佳猜测是否还会优于第一家公司呢?这个问题值得认真思考。信息不足时,极端预测和预测罕见事情的愿意都源于系统1。联想机制会很自然地将极端预测和作出这些极端预测所依据的可察觉的信息极端性匹配在一起—这也正是替代的运行机制。而且系统1形成过于自信的判断也是正常的,因为自信是由你根据可得信息提炼出来的最合理故事的连贯程度决定的,这一点我们都明白。但要注意:你的直觉会产生极端预测,而你也很容易对这种极端信心满满。

回归性也是系统2的一个问题。回归平均值这一概念很新奇,沟通和理解皆非易事。高尔顿在弄懂这一概念之前也颇费了一番心思。很多统计学老师在讲到这一问题时,心中也很没底,学生们最后对这个重要概念也是似懂非懂,只有个很模糊的概念。这个例子说明系统2需要经过特殊训练。将预测和信息匹配起来不仅是我们的直觉行为,这样做似乎也是很合理的。我们无法根据经验理解回归性。即使我们对回归性已经有了明确认识—就像我们在飞行教练员的故事中看到的那样—也只会用因果关系来解释这一特性,而这个解释往往又是错的。

示例—直觉性预测“那家新成立的公司已经深入人心了,但我们不能指望他们将来也能做得这么好。他们的营销之路很长,回归的空间也很大。”“我们的直觉性预测的确令人鼓舞,但这个预测可能离现实太远了,还是让我们再看看手中的信息资料,让预测回归到平均状态吧。”“即使这次投资极有可能失败,我们还是觉得这项投资可能是个不错的想法。咱们还是别说什么这就是下一个谷歌这样的话吧。”“我读过关于那个品牌的一篇评论,评价极高,然而这很可能只是侥幸成功。我们应该这样想:对这个品牌的评论很多,而我们看到的这个正巧是评价最高的。”


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注