从此走进深度人生 Deep net, deep life.

分类: 自然科学

  • 钱立卿:从现象学的角度看逻辑推理的基础——论卡罗尔疑难与分离规则的合法性根源

    一般而言,逻辑学中的“推理”或“推演”(inference)是指命题之间合法的联结与过渡,亦即命题联结符合逻辑系统的推理规则。一个遵循规则的推演被称为“有效的”(valid)。不同的逻辑系统可能有不同的推理规则,但通常都至少要承诺“分离规则”(modus ponens,以下简称MP),亦即在条件命题“如果A,那么B”中,一旦前件被确认,后件也必然被确认。不过MP在逻辑学史上的地位并非一成不变。一方面,某些基于本体论考量的传统逻辑学理论认为MP不是最基本的,不像同一律或矛盾律那样是思维和存在的根本原理。另一方面,自斯多亚时期以来,诸如否定后件式(modus tollens)之类的规则亦与MP并举,致使后者至少在形式上并不是唯一的演绎规则。而在诸如狭谓词演算和模态逻辑等常见的现代逻辑工具中,推理规则也不只有MP一条。但上述两点实际上无法真正撼动MP在逻辑推理中的根本性,而从演绎系统的建立和扩展过程来看,也很容易发现MP规则始终处于推理的最基础层次。

    此外,正如某些逻辑学家指出的那样,传统的逻辑观念在逻辑学的发展中产生了很大变化,然而这不仅是个扩展与修正的过程,许多基本特征和原初意义也得到了保留。(cf. Irvine, p.32ff.)诸如数理逻辑、模态逻辑甚至其他一些非形式逻辑都以某种方式保留了古典逻辑中最基本的东西,不仅古希腊的词项逻辑和命题逻辑中有这些内容,而且20世纪的各种逻辑学也离不开它们。MP规则就是其中的典范。不过从逻辑学及其发展史的角度来解释MP的地位,并未触及一个更根本的疑问,它在某种程度上既是逻辑学的可能性前提,又超出了一般逻辑学理论的范围。这个疑问涉及推理规则本身的合法性来源。简而言之,我们都承认遵循MP规则的推理是正当的,因为这个正当性是由MP保证的,并且我们直觉上认为MP本身明显是“正确的”,但是这种更深层次的正确性或合法性又由什么保证呢?

    一、“卡罗尔疑难”概述

    英国数学家刘易斯·卡罗尔在1895年发表了一篇仅有两页半篇幅的论文,名叫《乌龟对阿基里斯说了什么》。(cf.Carroll, pp.278-280)论文中提出了一个关于逻辑推理本身的疑难,史称“卡罗尔疑难”(Lewis Carroll’s Puzzle,以下简称LCP)。LCP在结构上类似于阿基里斯追龟的悖论,只是把无限长的链条从时间过程转变成了逻辑过程。这里我们先简述一下LCP的主要内容。

    卡罗尔首先以《几何原本》的第一个命题为例,给出了传统逻辑中一个最简单的三段论形式:A)p是q;B)q是r;Z)p是r。在这个经典的肯定三段论中,p、q、r都是词项或短语,不过考虑到结构上的相似性,把这里的词项三段论换成命题逻辑的假言三段论也不影响后续论证。显然,我们可以从命题A和B推出Z。但卡罗尔认为,从另一方面看事情会有些奇怪。

    所谓的“推出”是指对后续命题的断言是逻辑性而非心理性的,在命题逻辑中它必须基于一种客观和确定的推理规则。卡罗尔指出,为了在形式上从A和B两个命题推出另一个命题,就需要先与那个命题建立一个蕴涵关系,然后使用MP规则。也就是说,必须先断言“A∧B”与“(A∧B)→Z”两个命题,才能用MP规则得到Z。而如果不考虑这些符号的具体意思,那么单从形式上看完全可能只断言前一个命题但不断言后一个命题。可是这样就会导致无法使用MP,也无法推出Z。

    所以为了使MP规则可行,似乎需要再额外补充一个对蕴涵式本身的断定,即断定命题C:“如果A和B为真,那么Z为真。”这样就能联合A、B、C推出Z。可是,一旦断定了命题C,那么出于和前面同样的理由,我们在运用MP规则前还要再额外断言一个蕴涵式D:“如果A、B、C为真,那么Z为真。”这就意味着一种无穷倒退的情形,即在推出命题Z之前需要完成无限多的独立设定步骤,而这显然是荒谬的。

    二、传统解决方案及其不足

    表面上看,LCP似乎容易解决,因为它忽略了大小前提中的具体内容而直接诉诸一个符号化的命题形式。所以,我们似乎只要考虑到两个前提中的信息就会发现推理的前提已经足够充分,也就可以使用MP直接得出结论了。但这并不是卡罗尔困惑的地方。他把命题进行符号化,只是为了把MP规则背后的问题呈现得更清楚,而不是认为LCP真的威胁到了逻辑推理的有效性。卡罗尔虽然在文中没有给出明确结论,令许多后世学者不满(cf. Wieland, p.984),但这个开放结局本身就展示了疑难的起源:它来自对MP规则的无条件运用,而LCP就是在展示这个“无条件性”中隐含的困难。换言之,卡罗尔提出的问题事关MP本身的成立条件,亦即推理活动本身的根据:既然MP规则总是表达为从一个蕴涵式中分离后件的操作,那我们又为什么可以在肯定前件之后作出这种分离?

    20世纪有不少逻辑哲学家对LCP提出过正面解决的尝试,与本文直接相关的方案大致可以分为两类。第一类是以罗素和赖尔等人为代表的经典进路,主张“蕴涵式”在卡罗尔的推理模式中并没有起到实质作用(cf.Russell, p.35),因此对此类条件命题的要求本身就是错误的(cf. Ryle, p.248)。类似的看法也为汤姆逊(cf. Thomson, p.95)和斯特劳德(cf. Stroud, p.180)所持有,在他们看来卡罗尔最多只是试图指出有效推论中潜藏的困难,但这个尝试不成功,也没有构成实质性挑战。第二类是里斯(cf. Rees, pp.241-246)和布朗(cf. Brown, pp.170-179)等学者率先提出的“分阶”思路,即把MP视为特殊层级的命题,与推理中的前提和结论不同阶。下面我们对这两种方案进行简述和解析。

    第一类的解决尝试之所以被称为“经典”,是因为它从区分两个基本的逻辑学概念入手,即“蕴涵”(implication)和“衍推”(entailment)。通常来讲,前者是一个公式内部的“逻辑常项”,它仅仅表达了公式内部的子命题之间的联结关系。通过蕴涵联结,多个子命题被综合为一个复合命题。而所谓的“衍推”,则是某个“外部”公式对于多个公式组成的公式集Γ的后承关系。当然,我们可以在证明论的意义上把最终的后承公式也纳入Γ,此时衍推亦可被视为一个公式集内部的联结符号。

    罗素认为,“p推出q”为真的含义是对p的断定带来了对q的断定。而“p蕴涵q”为真则并不表示我们对p或q中的任何一方进行断定,我们断定的是p与q之间的联结关系本身。(cf. Russell, p.35)因此,卡罗尔从“断定A和B两个命题”到“断定Z”的过程是一个衍推,但断定“(A∧B)→Z”仅仅是在断定一个蕴涵关系,两者不是一回事。(参见钱立卿)在三段论推理中关键的东西只是衍推,但蕴涵式在衍推中并没有实质作用,所以推理过程不需要把这个蕴涵式作为条件之一,也就不会开启一个条件命题的无穷序列。斯迈利也有同样看法,他认为整个悖论来自卡罗尔对蕴涵式C的引入,这导致我们似乎必须接受C或反对C,但事实上整个推理从一开始就不需要引入C。(cf. Smiley, p.726)

    不过,卡罗尔并非不清楚蕴涵与衍推的差异。LCP的核心困难不是由使用某种特定表述方式导致的,况且命题逻辑中的演绎定理也保证了“p├q”和“├p→q”的等价关系。一言以蔽之,断言“p蕴涵q”和断言“p能推出q”实质上是一回事。所以卡罗尔用蕴涵式来表达LCP只是一种简便的选择,以此把无穷悖论浓缩到一个条件命题形式中。另外,LCP中的困惑也并非像汤姆逊所批评的那样,似乎卡罗尔忘了我们在接受A和B之后一定会由于逻辑必然性而接受Z。(cf. Thomson, p.96)造成困惑的真正原因仍然在于这个逻辑强制力本身的起源。

    第二类的“分阶”思路也是从一个区分开始的,它要区分的是推理活动的前提性命题和表述为推理规则的某个语句。一方面,在里斯等人看来,推理的前提在最简单的情况下形如“p”和“p→q”,更复杂的情况也无非是确立起一组命题,即语句组{p1, p2, p3,… pn}。这些语句或命题可被理解为对某些事态的一阶陈述。另一方面,推理规则不管是以MP形式还是其他形式呈现,都可以具有和一般语句相同的形式。但这些规则性语句是关于“如何从某些一阶语句得到其他一阶语句”的规范性陈述,因此相比p和q来说,它们是“二阶”的语句,里斯称之为“二阶条件句”(Rees, p.243)。

    根据这个区分,一方面任何一个推理或证明都可以表述为一个有限长度的有序语句组Γ={p1,p2,p3,…pn,q},另一方面判定性语句T“如此这般的联结是有效的”是关于Γ的一个陈述,它本身并不在Γ中。显然,这个T是推理规则的命题化,这意味着推理规则本身也不可能出现在Γ中。里斯指出,一个完整意义上的推理过程并不是仅仅由一阶语句的序列构成的,而是必须把MP作为另一个核心要素凸显出来。(cf. Rees, p.244)换言之,一方面我们既不能把MP规则视为卡罗尔论文中的条件命题(cf. Railton, p.76),也不能在任何意义上把它变成一阶命题(cf. Fumerton, p.216);另一方面,MP作为推理过程中不可或缺的二阶要素,只有在不处于一阶的层面时才能发挥效力。

    鉴于此,我们似乎可以认为LCP的实质是混淆了MP语句与推理前提中的一阶语句,由此造成的困惑可以通过单独分离出MP并表明其二阶性质即可解决。可是我们已经说过,卡罗尔并不对MP本身是否具有独特地位而感到困惑,他困惑的是MP效力的起源,或者说推理规则本身的合法性根源。仅仅靠直接宣布MP的二阶地位或直接设定其合法性,并不等于在理论层面解决了卡罗尔问题。

    三、现象学视角中的定位

    如果说LCP最终指向了MP本身的效力来源,那么无论我们采取何种解释策略,都必须注意避开循环论证的陷阱,即在对MP合法性来源的解释过程中不能使用“MP已经起效”这个事实。当然,这并不是说研究者在自己的表述中不能用MP规则来联系前后语句的论证关系,而是说当这个论证是关于逻辑推理有效性的论题时,论证对象的有效性成立条件不能在语义上以明显或隐含的方式预先包含MP规则。

    如果我们对逻辑学的本质采取某种朴素实在论立场,即认为逻辑与物理对象和数学对象一样,其客观性与真理性完全独立于一切认知因素而自动成立(cf. Tieszen, p.97),那么MP的合法性来源似乎很难解释。原因在于,无论我们支持哪种逻辑本体论观点,所谓的“逻辑性质”必然要出现在逻辑关联的展现中。但在朴素实在论的视角下,逻辑性质总是已经在命题之间现成存在了,因而所谓的“展现”就是与形成过程无关的、已经确定的一种固有形态,作为联结规则的MP也总是已经以“起作用”的方式预先包含在整个推论结构中了。基于这些前提,我们原则上就无法回答MP“为什么合法”的问题,因为我们永远只能看到MP始终具有“已经起作用”的样式。在此意义下,LCP从一开始就无解。

    朴素实在论不适合用来解决LCP的根本原因是它侧重于追问逻辑自身的本质特征是什么,但LCP的核心在于追问逻辑的这种性质如何形成(forming)。从形成角度考察逻辑真理的方案绝不是否认逻辑的客观性,它只是主张这种客观性本身需要得到进一步解释。如果我们认为这种客观性应当来自某种更深层的“自在”,那么这仍然是与“形成”无关的本体论预设,无论正确与否都不适合处理LCP。

    更合适的进路或许是采取认识论视角,从对象“如何被认知”与如何呈现来界定它所呈现的性质“是什么”。这种思路在20世纪的代表之一是胡塞尔的现象学。众所周知,现象学认为物理实在和观念对象都是客观的,但并不是“自在的”,因为脱开事物的给予性谈论事物“是什么”是一种认识论悖谬。以物理对象为例,它们固然有不向我们显现的部分,但关于那部分的谈论仍然基于一个事先给出的语境,这是我们谈论其物理意义的前提。因此在认识论上真正具有绝对地位的并非某种自在的实在性,而是超出(transcend)一切具体认知的某种前提性情境。以先验(transcendental)态度考察这个情境中的意义形成问题就是对作为意义的对象进行构造分析。(cf. Husserl, 1991, S.17)

    在现象学中,事物的意义和意义本身的构造是两个紧密关联但不能混为一谈的环节。事物的诸多性质里是否包含了“客观性”这个成分,完全取决于它的呈现方式和被理解的方式,理解它的过程就是构造其意义的过程。如果事物最终被我们判断为“客观的”,那这种客观性本身也不是和意义构造过程的性质处于同一个层级,后者是更为原初与根本的。意义构造的层次无法用通常的主客观性来标示,因此当胡塞尔把构造活动视为一种“先验主观性”领域内的过程时,并非意指某种具有生物化学属性的心智活动。现象学家在先验语境中使用“意识”与“主观性”等概念仅仅为了表明对象的呈现和被觉知状态;此时分析者尚未承诺任何一种关于构造过程的本体论性质的解释,而只是处于对意义整体进行单纯描述与解析的层次。(cf. Husserl, 1976, S.156)在这个层次上,现象及其意义仅作为“被意识到如此”“被认知为如此”的内容出现,至于被意识到的这个东西是否就是某种物理对象或心理过程,这取决于下一阶段的赋义与解释工作。

    就当前论题而言,先验语境下的逻辑客观性仅仅意味着逻辑的效力不依赖于个体性和偶然性的认知,但不等于说它可以在彻底和绝对的意义上脱离一切认知语境而自动成立。我们之所以能断定逻辑关系的客观性和确定性,正是基于这个先行存在的先验语境,后者是谈论一切对象之存在意义(onto-logy)的必要条件。由此观之,尽管朴素实在论以及其他某些逻辑“客观主义”要求我们在阐明逻辑对象的意义时排除掉“主观性”的影响(参见弗雷格,第8页),但这种排除并非针对先验的认知语境,而是指向经验性的认知成分。同理,先验主观性视角也不可能反对“客观主义”立场,因为这是逻辑对象实际显现出来的性质。在先验语境中考察对象意义的构造过程不会影响逻辑对象自身的客观性,这种解释进路仅仅揭示了“客观性”的意义如何随着事物的显现而逐步呈现。

    胡塞尔认为“所有客观性都在现象学的观念性中有其来源”(胡塞尔,2022年a,第411页),这自然也包括客观的有效性。先验视角下的“有效性”概念是指意义构造过程中产生的支撑性关联,就比如在命题系统中一个推理的“有效性”意义是由MP支撑或赋予的。在胡塞尔看来,关于有效性问题的先验探究方向是有效性的构造方式和作用范围(cf. Husserl, 1968, S.265),而阐明MP自身效力的来源问题也就是在探究一个“高阶的”有效性问题,因此需要在先验主观性领域中描述MP各部分要素的意义生成及其客观化的过程。先验主观性领域是由意向关联性结构组成的总体区域,其中每个具体“事件”,即意向行为或意向体验,都在指向性关系中形成其结构。“意向性”首先是每个意向体验自身的内在特性,即在关联性的层面上理解同一个意识的构造活动方面与被构造的对象性意义方面。在此基础上,我们一方面可以发现意向体验的两极中都存在复杂但有序的结构层次,另一方面由于这种关联呈现出的对应特征,使得意向活动自身的每个结构层都对应于被意向和被构造对象本身的意义层次。由此,只要MP的意义被视为一种构造结果,那么考察其意义的来源和形成模式就是理解MP合法性来源以及解决LCP的途径。简言之,当前任务就是追问MP规则的含义在先验现象学中如何得到诠释,它又是如何随着原初直观内容的呈现与理解而逐步构造起来的。

    四、现象学还原:MP意义的解析与回溯

    首先需要明确的是现象学视角下的“推理规则”应该如何得到解释。如前所述,一个证明P可以写作P(Γ,R)的形式,其中语句集Γ={p1,p2,p3,…pn,q},R是Γ中的推理关系(最基本的形式就是MP),它是Γ的一个性质而非其中的成员。归根到底,MP表征的是一种关联性质,亦即一个公式或语句序列以确定的方式单向地关联到另一个公式。更具体地说,它表明q首先是从属于这个带有关联性质的公式(语句)整体Γ的成员,然后从这个关联中被分离出来并单独地被意指。这里重要的不仅是从属性和分离性,还有两者在意义形成过程中的先后顺序。因此,我们可以用现象学的语言来翻译MP的基本形式:在MP中,q首先属于关联性整体Γ=(p,p→q,q),是在被(p,p→q)所“意向地”指涉的意义上被共同意向的,随后q从整体中分离出来并被单独意向。

    根据这个描述,现象学首先就要探究这个关联整体Γ如何在先验的意识领域中形成,其次就是回答命题q在共同意向和单独意向中分别有何种意义以及如何构造这种意义。当然,意义的构造分析必须以现象学还原的方法为前提,对LCP的研究也不例外。从根本上讲,现象学还原就是对完整但不够明见(evident)的现实经验整体的意义进行“拆解”,并回溯到绝然明见的意义起源层次。这样的回溯显然是从探究奠基性要素的角度逐步深入意义结构的各个层面,因此必然需要先对整个探究的逐层分析思路进行概述。当前的还原可分为以下几个步骤:

    1)从推理的客观形式向推理行为的回溯。推理形式也就是MP的结构,可以表述为“如果p→q且p,那么q”。而所谓的推理行为是指从p得到q的全过程,它一方面包括了客观的意义本身的过渡与形成过程,另一方面也包括主观侧的意义领会过程。在先验的意义上,这就是对“从p得到q”的意义解析活动。

    2)从推理行为回溯到蕴涵式“p→q”的意义。考虑MP规则的表述形态可以发现,理解“从p得到q”的关键就在于理解蕴涵式“p→q”的意义。LCP的困难根本上是由MP规则的语句化形态导致的。只要从条件命题中分离出后件所需要的MP规则本身也以条件命题的形式出现,那么同样的需求就可以对MP再次提出,从而导致无穷倒退。但从语义上看,MP规则尽管可被表述为一个假言三段论,但整个三段论实质上无非只是对第一个蕴涵式意义的阐明而已,所以实质性问题就是揭示“p→q”的意义为何。

    3)从蕴涵式表达的意义回溯到赋义的意向活动。蕴涵式的意义取决于意向行为中的赋义过程,倘若离开赋义,无论是命题p和q还是蕴涵关系本身,都只是一些毫无意义的符号串。这个显而易见的事实并不表明意义形成因此就只是主观的心理活动的产物,而是表明意义的具体内容与它的客观性质全都奠基在意向关系及其结构中,并由此形成了“p→q”的一般观念。

    4)从赋义行为回溯到对相关现象的观念的原初形成。在现象学还原中,观念的原初形成总是奠基于最高的明见性中,只有绝对自身给予的对象才能成为真理性与客观性的最终源泉。当然,绝对自身给予性就是本质的呈现方式,但这种本质并非柏拉图主义实体,而是经过特殊的直观活动而构造的结果。这种观念化直观又进一步地奠基在具体和感性的直观活动中,所有属于概念性、普遍性、关系性等范畴的认知意义都是从特定对象的具体呈现中进行观念化操作的结果。

    上述四点是当前论题的现象学还原路标,也是后续的构造分析要解释的东西。我们在此首先可以确定的是MP规则中每个语义要素的现象学特征。命题p和q尽管在形式逻辑的意义上只是命题形式,但它们实际上表征的是关于一般事态或一般对象的观念。正是由于它们关涉的是对象的一般性,才能进一步被抽象为某种纯形式。同理,蕴涵关系“→”表征的是两个一般对象之间的一种有序关联形式。当然,并非所有的序关系都是蕴涵式,因此我们既需要从一般的序关系的意向性构造入手,也要考察蕴涵式独有的特征,即蕴涵与衍推之间的等价关联:后件是可以从关联形式中被分离出来并单独意指的。

    五、构造分析:命题形式与蕴涵关系在时间意识中的起源

    现象学的构造分析有两个主要环节,其一关于命题p和q的构造,其二关于逻辑关系“→”的构造。构造分析基于本质直观理论,后者是胡塞尔在后期的一些课程、著作和手稿中都出现过的核心论题。考虑到当前任务,重点不是讨论本质直观的概念,而是借助相关思想来具体分析这些逻辑概念的构造。

    从《逻辑研究》时期开始,胡塞尔就对传统逻辑中的词项和命题概念作了详细的讨论。当我们把逻辑概念视为奠基于直观活动的意义构造成就时,原初的感性直观可被视为构造分析的零点。(参见胡塞尔,1999年,第83页)粗略来讲,从感性觉知到最终的形式命题要经历一系列意义构造层次:首先是对个别物体x的觉知;其次是感知到和x处于同一时空场域中(在同一视觉场内)但不同于x的其他物体;再次是形成关于这些物体之间的整体性联结的意识,并形成整体与部分、相同或相异等关系性意识;最后再通过范畴直观得到一种观念性的对象,即种属、普遍性等。这种观念性对象既包括不可感的概念性对象,也包括事态,后者又可以被命题化为陈述或判断,在形式化中达到最高的普遍性。

    举例来讲,命题“一只红色的苹果在桌子上”的意义在经典现象学理论中可分析为如下层次,每一层次都奠基在前面所有层次的构造成就之上:A)对时间中持续存在但不断变化的苹果形象进行观察。在观察中,随着身体位置和观看位置的变化,延续着的感知内容也在变化,但由于变化中始终保持着某些相同的部分,因此我可以把新的现象内容与整个现象流进行融合(Verschmelzung),也就是把新现象(苹果的新侧面)的意义综合进先前已得到立义的苹果形象整体中。从对象方面来看,这个苹果形象带有“侧显”(Abschattung)的性质,亦即它永远只能显示出某些部分而同时隐藏了其他部分作为潜在内容;从感知活动方面来看,我对苹果形象的整体感知总是在当下显现面的直接觉知和未显现面的连带把握的综合统一中实现的。这个层次上的意义构造的最终产物是苹果的“实在性”。B)对桌子的感知与此类似,只不过在以苹果为焦点的感知中桌子是背景性的,而对桌子进行主题化感知的时候苹果是背景性的,但无论如何两者总是可以被共同感知的。这个事实指向了一种整体化的新感知方式,即把苹果和桌子都作为一个整体性感知的两个部分,这两部分既可以被单独立义,也存在一种感知范式上的固定结构。C)这个固定的感知结构在最基础的层次上是时间性意识的产物,而其空间性质(苹果和桌子的位置关系)是在视觉和动觉场中构造起来的。这些可感的时空性质奠定了对象之间的关系性范畴,而通过想象性变异和对变更中保持不变的关联性本身的直观,关系范畴被提升到了和外部实在类似的对象地位。苹果相对于桌子的“在……上”关系本身不再仅仅被看作一个附属性的介词,而是成为一个新的关注焦点,虽然其意义也是被构造的,但同样具有真实性与客观性。D)当这个关系和具体的物体(Ding)结合起来呈现为“事物”(Sache)整体的时候,关于整体的意识就对应着一个事态(Sachverhalt)及其表述,即命题化或如胡塞尔所谓的“谓词化”。(参见胡塞尔,1999年,第240页)此时被命题化的事态中,关系本身是普遍的和范畴性的,而物体最多只在部分意义上具有普遍性,比如意识到这个苹果也是“苹果”或“食物”这个类概念下的个体。E)形式化的命题,是奠基在具体事态上的高阶范畴直观的结果。但这种直观并非针对具体事态的内容,而是关于事态的存在性质。只要理解了事态的意义,并理解这种意义的真理性维度,就可以不依赖于特定事物的自身给予而直观性地意向某种“事态一般”并对此进行符号化。在符号化的层次上,事态之间的区分和关联都可以通过一组相应的符号建立起来,这就是一般形式系统中最先定义的“符号集”。

    上述概论尽管只是一种简要的静态描述,亦即不考虑原现象的触发力以及引起的再回忆(Wiedererinnerung)与原联想等被动综合过程,但它仍然为蕴涵关系的发生性解释提供了基础。如果形式命题p最终奠基在对具体事物的感知上,那么蕴涵关系的赋义也要回溯到具体的事态与其中的关系性。因此我们首先要确定这种关系如何向我们呈现,现象学应以何种方式来阐述,然后根据意义形成的奠基顺序考察条件命题内涵的构造问题。

    1)蕴涵关系与现象显现。显然,蕴涵关系和形式命题是同一个表述层次上的东西,如果命题要回溯到具体事物的显现与认知,那么蕴涵关系也必然如此。既然命题p和q对应的现象学奠基性条件是事态P和Q的“立义”或表征(参见胡塞尔,2017年,第1085页),那么蕴涵关系的基础就是作为时间性现象的P和Q在显现中的关联样式与立义方式。“如果p,那么q”的意义起源是对事态P和Q的相继体验,当这个相继关系呈现出某种必然性特征时,我们会说“事态Q在时间中(必然)跟随着P”。

    但这里有两个基本问题。第一,所谓的“时间”是什么意思?第二,所谓的“跟随”应该如何在现象学上解释?前面说过,对基本概念的意义构造问题进行现象学分析的前提是进行还原,亦即研究者应当保留关于概念的全部现实经验但不在分析中把它们作为合法性基础来引证。对时间的经验也是如此,无论是日常的、传统的还是科学的时间观念都是各种经验与习性的综合产物,现象学分析不能把这些现成的东西作为意义起源。

    2)时间性与现象流。时间经验在还原后失去了一切物理性的内涵,而仅仅作为直观中的现象持存与流逝过程。在这个架构下,事态P和Q无非是在意识流中显现的现象P和Q,两者在意识进程的不同阶段被感知到,从而被立义为不同的现象。

    对于物体的感知不可能瞬间完成,感知行为必须经历一个持续的过程。这并非由于对象的显现原则上不可以在瞬间完成,而是由于对象意义的确立必须在差异化和同一化中进行,是现象内容在时间中自我区分和自我统合的结果。最原初的关系性是在时间中发生的纯粹的延续体验的结果。现象的延续导致了两类不同的意识经验,也就是现时性(Aktualit?t)和非现时性(Inaktualit?t)经验,而这个原初的差异化被意识把握为两部分,即当下直接拥有的内容和当下不拥有但能够意识到的内容。每个关于当下拥有的内容的意识总是会在意向体验的持续进行中转向对某个并非当下拥有的内容的意识,而且后者会被赋予和前者在所意向的对象方面同一的意义。

    由此,在先验的意识领域中建立起了两个东西:第一,体验本身被构造为一个原则上不可间断的持续进行的统一体,即意识和现象的“流”。第二,在意向体验中不在此刻直接拥有但同时又能被意识到的、“刚刚拥有”的内容,被确立为某个原初印象(Urimpression)的滞留(Retention),因此那个不在当前拥有的意识内容被赋予了“过去”或“曾经”的意义,并通过这个时间特征成为意识流整体的一部分,它的存在也获得了“时间位置标记”。(cf. Murata,pp.17-28)

    当一切现象都被理解为同一个持续的意识场域中发生的流动与变化时,每个现象凭借其出现和消失而具有一种“时间性”的特征。现象的原初显现和后续的滞留占据了时间意识的不同相位(Phase)。对任意一个现象P来说,带有P的原印象特征的这个相位必然与一连串滞留相位一同出现在时间性意识中,它们呈现了一种原初的连续性,亦即P的原印象与后续的滞留构成一个相位连续统。

    3)跟随性与纵横意向性。在现象流和时间性基础上我们继续考虑在P“之后”或“跟随”着P的Q。由于意识在现象学时间上有连续性,涉及P与Q的显现内容原则上可以视为一个时间延展片段或连续统。考虑到简便和明见性,我们只讨论一个充分小的意识流延展片段即“P-连续统”,并且假定Q是这个P-连续统中的一个原印象相位上的内容。当我们说“Q在P之后出现”,原则上意味着我们具有两个不同层次的时间性意识。

    在第一个层次上,我们有两个维度上的意识:A)整个体验连续统中,除了P的原印象相位以外,其他相位(包括“Q-显现”相位)上关于P的意识都是滞留性的。每个时间相位的滞留都关联到最邻近的刚刚过去的一些相位,这个结构随着对P及其滞留意识越来越“多重”的保留而呈现出了一种序结构的特征,这就是关于时间流动方向的“纵意向性”结构。(参见胡塞尔,2009年,第432页)B)在时间的流动中,Q-显现的相位上同样也有关于P-滞留的意识。但每个相位之所以能在意识中确立起来,是因为对当下的原印象内容的意识总是伴随着先前相位的滞留,在两者“融合”到同一个瞬间意识的时候,此意识凭借原印象和滞留的明见差异而区别于先前的相位,成为了关于新相位的意识。这种原初的“共时化”意向性是单个相位内容的综合条件,使得我们能够在“横意向性”上确立起Q-原印象和某个P-滞留意识的“同时性”。(同上,第433页)

    第二个层次基于前述的纵意向性维度,它是对P和Q之间的意识过程的立义。既然整个P-连续统包含了P和Q两种现象的原初显现,并且在意识内容的持续流变中始终保留着关于原初显现模态本身的意识,那么P和Q就以明见的方式原初地联结到了一个时间性意识整体中。进一步的立义把这种联结标示为“在Q出现的同时还保留着关于P刚刚过去的意识”,也就是“在P之后出现了Q”。

    4)P-连续统中的前摄和预期。胡塞尔指出,意识流的固有结构要素不仅仅是原印象和滞留,还包括和滞留呈现出对称关系的“前摄”(Protention)。在感知体验中的前摄不是主动的预期,也不带有明确的感觉素材,而只是一种时间性意识在其延展中内禀的空乏意向性。但在回忆体验中的前摄有所不同,它虽然也是朝向未来的意向,但由于回忆本身是对事先经历过的东西的“当下化”,因此必定会让回忆进程中的前摄意向受到先前原印象因素的触发作用。(参见胡塞尔,2022年b,第237-241页)如果我们之前体验过了P-连续统,现在进行一次回忆,就会明见地觉知到正在进行的P及其后续滞留的当下化体验不仅是过去真实发生过的P-连续统的再现,而且会在回忆行为中触发对后续的某个Q的意向:尽管Q此时尚未进入明确的当下化体验,但它不可避免会成为P-连续统中的预期内容。

    基于回忆中的前摄意向,整个回忆行为就具有两个本质特征:第一,它的整个内容是我们主动“预测”的,因为我们经历过,知道前面和后面都“想必”如此。第二,回忆进程中的前摄内容不是一个主动操作的结果,而是由当下化带来的触发影响所被动产生的。也就是说,回忆不仅包含了一个主动的经历,而且经历过程中也存在某些被动的因素,唤起我们对“将来”的意识,并且把将来与过去进行联结(Assoziation)。

    一旦我们注意到这种被动激发起的“将来意识”本身,就能够获得一种新的本质洞见,亦即无论是当下发生还是回忆再现的经验都不会影响到这种“将来意识”的出现,它是每一个相位中与滞留一起出现的另一种视域性要素。就此而言,前摄和滞留都是意识流自身固有的指向性关联结构:当下显现总是被动地“预期着”尚未显现的内容并“保留着”过去显现的内容。

    5)基于前摄结构解释“Q在时间中必然跟随着P”的事态。这里的问题不是“必然性”的模态逻辑意义,而是“必然跟随”的观念如何形成。这当然也必须奠基在直观经验上。最基本的经验有两类:第一类是具有本原地位的事件,即对P-Q事态的回忆体验。在回忆中我们发现只要对P-连续统进行当下化,就总是会发现对Q的联想和预期。第二类是现实中最切身的同一性经验,比如看到苹果在桌子上,通过眼睛和身体的移动我们确信会反复看到桌子和苹果,而且是同一张桌子和同一个苹果。

    不管是哪一类基本经验,其中每个特定相位上的Pi显现都能让我们在这个现象流进行中意识到相应的Qi。而在某个新出现的Pk-连续统中,根据以往的经验我具有两个新的主题性意识内容:首先,我意识到了在过往的同类经历中,Pi与Qi的相继出现没有例外。其次,这些P与Q构成的连续统经验总体自动引发了我预期一个尚未出现的Qk的动机:这个Qk不但是整个连续统中的存在,通过联想意识与Pk配对(Paarung),而且还可以从与Pk的关联中分离出去被单独地意向。继而通过主动综合,作为一切Qi的同一化结果的Q也被单独意向了。

    需要注意的是,在先前所说的时间经验中意识到的现象Q和最后被单独意向的Q具有不同的意义。在前一种情形里,Q仅仅作为P-连续统中出现的一个原印象而呈现,通过其现时性特征与滞留的P区分开,此时Q的意义完全是时间性的。在后一种情形里,Q不只是跟随性的现象,因为它作为非现时性的对象被单独预期和意向的时候,已经摆脱了对具体的P-连续统的依附性而作为一个单独的对象性凸显出来,由此奠基了进一步观念化的可能性。

    6)对时间序关系的意识及其形式化。关于“Q在时间中必然跟随P”或者“P显现之后Q也会显现”的时间性意识本质上是关于“序”(order)的意识——虽然此时还没有上升到“序”的概念——它也蕴涵着序关系中的两个要素之间存在联想与动机引发(Motivation)上的关联。动机关联在观念化操作下转为表述形式就是一种条件关系,关于事态的经验P和Q可以在条件关系中联结为一个整体,也可以从整体中分离出去被单独地意向。从序关系出发构造出形式化的分离规则主要有两个层次。

    其一,在序关系的显现层次上,重复性事态P与Q总是呈现为一个有序对(P,Q)的形态。其中P-显现以确定和强制的方式引发了对Q-显现的预期,使得我们不仅必然会把P与Q置于同一个连续统内来经验,也必然可以在动机引发的意义上单独意向并充实Q-显现。这就是说,我们一方面拥有蕴涵性质的意识“一旦P被给予,就会有Q被给予”,另一方面又在确认P已经被给予的情况下,会受到先前经验的触发而“被迫”预期Q的“将会被给予”——这种被动性意义就是推理关系中“必然性”的先验主观性起源。

    其二,在序关系的形式化层次上,我们通过范畴性和本质性的直观把事态P和Q提升为一般的命题形式p与q,并将这种时间性的序关系形式化为蕴涵符号“→”。从P和Q按照时间意识连续统进行有序结合的具体事态出发,相应的本质直观操作把它提升到一个观念化的普遍形式,即“p→q”。由于动机引发的存在,对“P被给予,就有Q被给予”的综合性意识奠基了对已经给予的P和必然会被给予的Q的分析性意识。在形式化层面,这就是分别对p和q进行断言——p是已经被断言的前件,q则是从蕴涵关系中被分离出去得到单独断言的后件。

    六、结 语

    在胡塞尔看来,现象学是关于起源的科学。(参见胡塞尔,2022年a,第453页)从现象学视角对MP规则起源的考察也在一定程度上反映出了现象学与逻辑学的关系。在考察逻辑的哲学基础时,现象学会追溯到先验主观性领域以及直观内容的呈现方式上,以意义的构造分析来阐明逻辑哲学问题;而就现象学工作本身而言,时间性意识的维度是任何具体研究都不可忽略的前提。鉴于此,本文所采用的分析思路是把蕴涵关系中的一切要素在先验的层面解释为时间性综合的成就,以此来阐明MP的实质并完成对LCP的解决。概而言之,整个解决分为三个层次。

    第一层次是解释形式命题符号p和q的意义。我们需要从原初给予的直观之物出发,通过对视域内出现的多个物体的感知而确定一种范畴关联;这种范畴关联在表述中呈现为命题的样式,再由更高阶的范畴化凸显命题的表达形式本身,从而把各种命题语法形式本身作为观念性对象确立起来;最后转入符号表征,对不同的命题形式以单纯符号上的差别作出区分。

    第二层次是解释蕴涵符号“→”的意义。这是一种逻辑推理意义上的序关系,而从现象学还原的角度看,一切逻辑上的序结构和序关系最终都奠基在意识流的方向性上,后者是通过现象从原印象相位向滞留相位的过渡(纵意向性)以及滞留与前摄的交织而构造起来的。(参见胡塞尔,2016年,第45-55页)在这个最一般的层次上,无论是数学还是集合论中的序关系(比如“线序”),都与命题逻辑中的序关系有着相同的现象学起源与构造方式。而蕴涵关系的特殊之处在于,它指明了同时被意识到的两个事态之间存在着意向焦点的过渡情形,亦即从事态P的意识“指向”对事态Q的意识。既然这种指向性是基于反复确认的同一类时间性经验,那么由此导致的联想和动机引发意识就是蕴涵关系特有的构造性起源。

    第三层次是解释MP作为“推出”规则的意义。时间性意识是自带“序关系”的意识,一切逻辑上的序关系表征方式都是它的形式化。就蕴涵关系而言,它起源于动机引发所奠基的两个事态的统一性。但正是这个统一的P-Q体验综合体本身总是包含着对Q的单独预期和充实,因此Q必然能够与P-Q统一体同样地成为独特的意向焦点,亦即从蕴涵关系中被分离出来。

    综上所述,通过现象学还原与构造分析,我们揭示了蕴涵命题的综合性来自何处,它为何能够导出MP中的分析性,并在形式化中直接表达出这种性质。同时,现象学解释将MP的合法性问题追溯到时间客体的显现和立义,在不同的层次上阐明了逻辑的对象是如何基于直观性与明见性从原初给予的内容中逐步构造起来的。从这个角度澄清了MP规则的合理性与合法性源自何处,也就解决了LCP带来的困惑。

    参考文献

    [1]弗雷格,2001年:《算术基础》,王路译,北京:商务印书馆。

    [2]胡塞尔,1999年:《经验与判断》,邓晓芒、张廷国译,北京:生活·读书·新知三联书店。

    2009年:《内时间意识现象学》,倪梁康译,北京:商务印书馆。

    2016年:《关于时间意识的贝尔瑙手稿(1917-1918)》,肖德生译,北京:商务印书馆。

    2017年:《逻辑研究第二卷·第二部分》,倪梁康译,北京:商务印书馆。

    2022年a:《逻辑学与认识论导论(1906-1907年讲座)》,郑辟瑞译,北京:商务印书馆。

    2022年b:《被动综合分析》,李云飞译,北京:商务印书馆。

    [3]贾国恒、郭婧,2021年:《卡罗尔疑难辨析》,载《自然辩证法研究》第12期。

    [4]钱立卿,2023年:《我们凭什么进行逻辑推理》,载《社会科学报》9月21日第5版。

    [5]维特根斯坦,2021年:《逻辑哲学论》,黄敏译,北京:中国华侨出版社。

    [6]Blackburn, S., 1995, “Practical Tortoise Raising”, in Mind 104.

    [7]Brown, D. G., 1954, “What the Tortoise Taught Us”, in Mind 63.

    [8]Brunero, J., 2005, “Instrumental Rationality and Carroll’s Tortoise”, in Ethical Theory Moral Practice 8.

    [9]Carroll, L., 1895, “What the Tortoise Said to Achilles”, in Mind 4.

    [10]Fumerton, R., 2015, “What the Internalist Should Say to the Tortoise”, in Episteme 12.

    [11]Husserl, E., 1968, Ph?nomenologische Psychologie: Vorlesungen Sommersemester 1925, W. Biemel (hrsg.), Den Haag: Martinus Nijhoff.

    1976, Ideen zu einer reinen Ph?nomenologie und ph?nomenologische Philosophie. Erstes Buch, K. Schuhmann (hrsg.), Den Haag: Martinus Nijhoff.

    1991, Ideen zu einer reinen Ph?nomenologie und ph?nomenologische Philosophie. Zweites Buch, M. Biemel (hrsg.), Dordrecht: Kluwer Academic Publishers.

    [12]Irvine, A. D., 1996, “Philosophy of Logic”, in S. G. Shanker(ed.),Routledge History of Philosophy, Volume IX, Philosophy of Science Logic and Mathematics in the Twentieth Century, London: Routledge.

    [13]Murata, N., 2019, “How is Time Constituted in Consciousness? Theories of Apprehension in Husserl’s Phenomenology of Time”, in N. de Warren and S. Taguchi (eds.), New Phenomenological Studies in Japan, Cham: Springer.

    [14]Railton, P., 1997, “On the Hypothetical and Non-hypothetical in Reasoning about Belief and Action”, in G. Cullity and B. Gaut (eds.), Ethics and Practical Reason, Oxford: Clarendon Press.

    [15]Rees, W. J., 1951, “What Achilles Said to the Tortoise”, in Mind 60.

    [16]Russell, B., 1903, The Principles of Mathematics, Cambridge: Cambridge University Press.

    [17]Ryle, G., 2009, “If, So, and Because”, in Collected Papers Volume 2: Collected Essays 1929-1968, London: Routledge.

    [18]Schueler, G. F., 1995, “Why ‘Oughts’ are not Facts”, in Mind 104.

    [19]Smiley, T., 1995, “A Tale of Two Tortoises”, in Mind 104.

    [20]Stroud, B., 1979, “Inference, Belief, and Understanding”, in Mind 88.

    [21]Tieszen, R., 2011, After G?del, New York: Oxford University Press.

    [22]Thomson, J. F., 1960, “What Achilles Should Have Said to the Tortoise”, in Ratio 3.

    [23]Wieland, J. W., 2013, “What Carroll’s Tortoise Actually Proves”, in Ethical Theory Moral Practice 16.

    转自《哲学研究》2025年第9期

  • 周振忠:何谓实质性的真理论?

    1 引言

    一般认为,真理论研究分为两条主线或两大对立的阵营,即实质论(substantivism)和收缩论(deflationism)。前者以传统的符合论、融贯论、实用论、证实论为代表,此外还包括稍微小众的原始论以及近年来兴起的多元论;后者则包括兰姆赛的冗余论、斯特劳森的履行论、蒯因的去引号论、布兰顿的代句论、霍里奇(P.Horwich)的最小论(minimalism)等等。①

    除了个别有争议的例子——譬如塔尔斯基的语义真理论究竟是符合论还是收缩论——在外延上将真理论分为上述两组是公认的做法。因而在构建真理论的时候首先面临站队问题,正如布高西昂(P.Boghossian)所说,“真(truth)是坚实的(robust)还是收缩的(deflationary)是真理论者要做出的最大决定”。[3],第165页,脚注17然而,尽管外延上的划分相对来说没有太大问题,如何在内涵上做出区分却是一件困难的和有争议的事情。这就正如在外延上容易划分哪些哲学家是分析哲学家,在内涵上界定分析哲学,即回答什么是分析哲学,却是一件困难的和有争议的事情。[15]鉴于站队问题的重要性,以及实质论与收缩论之争是当前真理论的核心争论,似乎亟需回答何谓实质论,何谓收缩论,划界的标准是什么(或者是否存在)这样的问题。

    直觉上可能认为,实质论和收缩论都存在各自的定义特征,否则就不会出现这样的术语,并且根据这些定义特征可以截然分明地将真理论划分为这两派。但正如维特根斯坦告诫我们,很多现象(如游戏、语言)并不存在本质特征,而只有家族相似而已。实际上,真理论中的所谓实质性有多个维度,如不透明性(opacity)、构成性(constitution)、规范性、解释性、稀少性(sparseness),并没有哪一个特征可以作为所有实质性真理论共有的定义特征,从而实质性的真理论只是一组家族相似的理论。此外,实质性有不同的程度(将以符合论为例加以说明),这使得实质论/收缩论的界限变得模糊。从而,寻找实质论/收缩论的划界标准是徒劳的。在构建实质性真理论的时候,应避免过度实质化。过度实质化(例如基于因果指称的符合论)将使得适真性(truth-aptness)范围变窄。多元论是当代实质论的代表,也是过度实质化的典型,它违背了本体论的经济性,丧失了理论的简单性。

    2 实质论与收缩论

    首先看看术语。“收缩论”和“膨胀论”是一对反义词。②根据昆尼(W.Künne),这对术语可能最早是由柏林(I.Berlin)所使用的,用以描述本体论的吝啬和挥霍:收缩论者的本体论承认过少的实体,而膨胀论者的本体论承认过多的实体。[20],第19页,脚注45不过,这对术语的流行还是要归功于真理论。根据戴维森,“收缩的真理论”一语来自霍里奇。[7],第283页霍里奇早期将“收缩论”描述为“真概念被塔尔斯基完全捕捉到了”。[16],第192页当然,关于塔尔斯基的真理论是不是收缩论,这是存在争议的。但霍里奇本人的最小论无疑是收缩论。

    “膨胀论”一语则出现得较晚,它是作为“收缩论”的反面而出现的,例如赖特提出了著名的膨胀论证(inflationary argument)以反对收缩论。[31]菲尔德(H.Field)也使用过这一术语。[13]在术语的选用上,谢尔(G.Sher)倾向于使用“实质论”而不是“膨胀论”。她认为,尽管两者的含义接近,但前者更能反映日常的、常识性的考虑。[26],第6页本文也使用“实质论”,理由是这一术语出现的频率高于“膨胀论”;此外,“膨胀论”除了作为“收缩论”的反面,似乎没有独立的含义,而“实质论”则可以有独立的含义。不过无论如何,“实质论/收缩论”和“膨胀论/收缩论”这两对术语都经常出现,被用来描述分析哲学中真理论两大阵营的对立。

    尽管“收缩论”已是被广泛使用的术语,但是对于其确切含义是什么,并没有形成一致意见,不同的真理论研究者给出不同的描述。除了上面霍里奇的描述,早期菲尔德说:“对符合真建立理论是没有意义的。任何坚持这一立场而同时……为语词‘真’保留用途的观点就被称作收缩的真概念”。[12],第59页这一描述把收缩论当作符合论的对立面,但是拒绝符合论并不等于就是收缩论,因为还有其他实质论,如融贯论、实用论。后来菲尔德说:“‘收缩论’是这样一种观点,真归根结底是去引号”。[14],第405页这种描述固然适用于菲尔德本人以及蒯因的去引号论,却不适用于其他收缩论,如代句论和履行论(这两种理论都没有主张真谓词的语义功能是去掉语句引号名称的引号)。赖特认为收缩论最根本和独特的看法是:“真”仅仅是认可断定的手段。[31],第33页这一描述适用于斯特劳森的履行论(“真”用于表达赞同),或许还有艾耶儿的真理论(“真”是断定的标记),却不适用于那些认为真谓词具有指称功能和概括功能的收缩论,如霍里奇的最小论。柯克汉姆(R.Kirkham)认为收缩论的主张是不存在真性质,并据此认为霍里奇不是收缩论者,因为霍里奇明确承认真性质的存在。[19],第307,339页然而霍里奇却是公认的收缩论的代表性人物。

    由上可见,“收缩论”一词有多种理解,并不存在统一的定义特征,根据这些特征,可以恰好把所有公认的收缩性真理论归在“收缩论”的名下。为此,昆尼甚至弃用“收缩论”一词。[20],第19页赖特也认为,收缩论不是一种明确的哲学立场,而只是一种倾向。[32],第39页

    作为一种哲学倾向,“deflate”一词的物理隐喻(给气球放气)是非常恰当的。可以说,收缩论是对哲学概念的一种操作,它致力于清除形而上学和认识论的要素、消除神秘性、降低哲学上的重要性、削减定义的概念资源等等。这反映了分析哲学中一种重要的方法论倾向,即通过逻辑与语言分析消解哲学问题。例如关于存在问题,弗雷格、罗素和蒯因等人的二阶谓词理论认为,“存在”是量词而不是谓词,它没有表达任何性质,所以对存在进行形而上学研究是没有意义的。类似地,用威廉姆斯(M.Williams)的话来说:“收缩论者认为,当我们指向真谓词的某些形式特征(尤其是它的‘去引号’特征)并解释了为何这样一个谓词是有用的(例如作为断定无穷合取的手段),我们就说了所有一切关于真所要说的东西”。[30],第424页正是由于沿袭了这种极有影响力的分析哲学方法论传统,这解释了为何收缩论思潮在真理论领域中流行,并影响到形而上学、认识论、伦理学等学科。

    但也有人对这种哲学倾向表示不满。谢尔就援引达米特的话:“外行人……期望哲学家们回答有重大意义的深刻的问题以理解这个世界……然而他发现分析学派的哲学家们的大多数著作令人困惑地远离了这些关注……分析哲学……经历了一个破坏性的时期……在那一时期,似乎哲学的主要的合法的任务就是破坏。现在,我们大多数人再次相信哲学具有建设性的任务;可是由于破坏完成得如此彻底,重建必然是缓慢的”。[26],第5页;[9],第1页这样,尽管收缩论自二十世纪后半叶以来占据了真理论的主导地位,也还是有不少哲学家致力于构建实质性的真理论,如戴维森、达米特、赖特、林奇(M.Lynch)以及谢尔本人。

    值得一提,作为收缩论的代表性人物,霍里奇认为真谓词是真正的谓词(这不同于代句论),能够代表(stand for)性质(这不同于冗余论、履行论)。换言之,霍里奇承认真性质的存在,但强调它不是一种实质性的性质。达姆尼亚诺维克(N.Damnjanovic)称之为“新浪潮收缩论”。[5]

    这样一来,实质论和收缩论的区别就在于:前者承认而后者否认实质性的真性质。这也是当前大多数人的理解。但关键问题是:何谓实质性的真性质?

    3 实质性的维度

    “实质论”和“收缩论”是一对反义词。可以预料,正如收缩论缺乏统一的定义特征,实质论也缺乏统一的定义特征。实际上,真理论中的所谓实质性有多个维度。本节列举五个常被提及的维度(不透明性、构成性、规范性、解释性、稀少性),并论证没有一个可以用来作为实质论/收缩论的划界标准。③最后指出所谓实质性的真理论只是一组家族相似的理论。

    3.1 不透明性

    根据兰姆赛的冗余论,说“〈凯撒被谋杀〉为真”就等于说“凯撒被谋杀”。④这两种说法在内容上是等价的,只是说话的方式不一样。因此真谓词是透明的(transparent),意思是它没有把任何性质归之于所要谓述的对象(在这个例子中是命题)。不过,这个意义上的“透明性”并不适用于新浪潮收缩论,因为新浪潮收缩论承认真性质的存在。由于霍里奇认为真性质没有深层的本质(underlying nature),林奇引入了“形而上学透明”这一概念:只要把握了相关的概念(真概念)就能知道该性质(真性质)的全部或真正的本质。[22],第116页这样,实质论和收缩论的区别就在于:前者认为真性质是形而上学不透明的,后者认为真性质是形而上学透明的。以下将“形而上学透明/不透明”简称为“透明/不透明”。

    这涉及对概念和性质的区分。[1]以“水”这一概念为例。按照日常的理解,水是无色无味、可饮用、可灌溉、存在于江河湖泊里的液体。而科学研究揭示,水的本质是H2O。因此把握“水”的(日常)概念并不就能把握水的本质,水的本质是不透明的。

    根据霍里奇,把握真概念(真谓词的意义)就在于倾向于接受等价图式“〈p〉是真的当且仅当p”的所有(非悖论的)实例,如“〈雪是白的〉是真的当且仅当雪是白的”“〈草是绿的〉是真的当且仅当草是绿的”等等。[17],第128页可以说,真概念的内容就体现在这些实例之中。同样,关于真性质的理论也是基于这些实例。[17],第126页容易看到,最小论的真性质是透明的,因为它并没有包含超出真概念内容的特征。而符合论的真性质(符合于事实)是不透明的,因为它包含了超出真概念内容的特征(事实、符合关系)。其他实质论(如融贯论、实用论)的情况也与此类似。于是不透明性似乎就是实质论的定义特征,并且可以用来对实质论/收缩论进行划界。

    这一看法面临几方面的问题。第一,不透明性取决于概念和性质的差异,即相关概念未能反映性质的全部或本质的特征。上面使用的是收缩论(最小论)的真概念。收缩论的真概念固然不能反映实质论的真性质,但实质论的真概念却能反映实质论的真性质,譬如符合论的真概念(“符合于事实”)反映了符合论的真性质(符合于事实)。这样一来,实质论的真性质也可以是透明的(相对于实质论的真概念来说)。因此,第二,双方必须首先锚定一个共同接受的真概念,譬如日常的真概念,谈论真性质的透明/不透明才有意义。但这个前提是难以成立的,因为实质论/收缩论的争论也发生在真概念的层面。收缩论者可能认为日常的真概念就体现在等价图式的实例之中,实质论者却可能否认这一点,甚至拒绝所谓日常的真概念,专注于哲学的真概念。第三,透明/不透明的区分针对的是真性质的层面,从而缺失了真概念层面上的区分。实质论者认为真概念是实质性的,收缩论者认为真概念是非实质性的。如何在真概念的层面上区分实质性/非实质性?透明/不透明的标准显然不适用。阿赛(J.Asay)自认为是真概念层面上的实质论者(他主张原始论),是真性质层面上的收缩论者(他否认真性质的存在)。[2]透明/不透明的标准无法用来说明阿赛的真理论立场。

    3.2 构成性

    根据霍里奇,所谓实质性的真性质就是能够对之提供形如“x是真的=x是F”的构成性理论的性质。[17],第143页尽管这里使用了等同符“=”,霍里奇心目中所要拒绝的除了等同分析,还包括还原分析——例如他提到,不存在形如“x之为真就在于x具有性质F”的实质性的发现[17],第121页——以及充分必要条件分析。这样,收缩论的主张就是,即便承认真性质的存在,也拒绝将之等同于或还原为某个性质F,或对之提供形如“x是真的当且仅当x是F”的分析。霍里奇的最小论真性质无疑符合这个描述。如前所述,关于真性质的理论就在于等价图式的实例,而这些实例并没有提及任何性质F。反之,实质论则主张把真性质等同于或还原为某个性质F,或对之提供形如“x是真的当且仅当x是F”的分析。下面是几种传统的实质论:

    (符合论)x是真的当且仅当x符合于事实。

    (融贯论)x是真的当且仅当x是一个融贯的信念集的成员。

    (实用论)x是真的当且仅当x在长远来看是有用的。

    (证实论)x是真的当且仅当x在理想的认知条件下可证实。

    上述构成性理论针对的是真性质,但不妨将之拓展到真概念。这样,在概念层面,收缩论的主张就是:拒绝根据某个更基础的概念F来定义真概念,拒绝对真概念进行还原分析或提供形如“x是真的当且仅当x是F”的充分必要条件分析。

    那么构成性能否作为实质论的定义特征,并据以区分实质论/收缩论呢?

    有两个明显的反例。其一是原始论。原始论源于弗雷格、早期摩尔和罗素,较为近期的支持者是戴维森和阿赛。原始论认为,“真”是不可定义的;真概念是最基本的概念,不能根据其他概念如意义、证实、符合、融贯、有用性等进行分析;真性质(如果存在的话)是实质性的,但却不能分解,也不能揭示其内在特征。显然,原始论不具备构成性特征,但原始论却是公认的实质论。其二是赖特的分析的真理论。赖特主张通过一系列基本原理来刻画真概念(详见第3节)。换言之,他主张对真概念进行网络分析(network analysis),即通过描述真概念与其他概念的联系来确定真概念的内容或捕捉其概念本质。这种分析方法不同于等同分析、还原分析或充分必要条件分析。故由此而得出的真概念并不具备构成性特征。但是赖特自称是实质论者,并以反收缩论作为自己的理论目标。

    3.3 规范性

    赖特提出了著名的膨胀论证以反对收缩论,其要点是表明“真”是断定的规范。这种规范不同于认识的辩护(epistemic justification)作为断定的规范(NEJ),而是独特的、自成一格的断定的规范(NT)。

    (NEJ)如果〈p〉得到认识的辩护,那么断定p就是正确的。

    (NT)如果〈p〉是真的,那么断定p就是正确的。这两种规范之所以不同,是由于“认识的辩护”和“真”存在概念差异:〈p〉得到认识的辩护却不一定为真,〈p〉为真却不一定得到认识的辩护。赖特认为,既然“真”标记了独特的断定规范,那么它就表达了真实的性质,而不是像收缩论者所说的那样,“真”仅仅是语义上升或表达赞同的手段。

    除了赖特之外,林奇和谢尔这些实质论者都将规范性视为真概念的构成要素之一。那么规范性能否作为实质论的定义特征,并据以区分实质论/收缩论?

    实际上,作为收缩论者,霍里奇并没有否认真之规范(truth norm)⑤,只不过他认为,真谓词是作为一种表达的手段来表述这一规范的。通过等价图式“〈p〉是真的当且仅当p”,可将(NT)转换为:

    (N)如果p,那么断定p就是正确的。

    所谓独特的断定规范其实就是(N)。(NT)是(N)的另一种表述,是通过真谓词的语义上升而得到。

    因此,规范性本身并不足以区分实质论/收缩论,收缩论者也可以承认真之规范。克里夫(J.Cleve)指出,收缩论与承认真之规范相冲突的条件是:性质内嵌于规范之中,即一个规范就是一个规范性质(normative property)。但若如此,赖特反对收缩论的论证就不是与规范性有关,而是与性质有关。[4],第874页为此,若要把规范性作为实质论的定义特征,就需要说明这种规范性质确实是实质性的性质。但这样一来,又回到何谓实质性的真性质这个问题上来。

    3.4 解释性

    实质论者通常声称,真概念是一个丰富的、解释性的概念,而不是像收缩论者所说的那样,是一个贫乏的、表达性的概念。真概念的解释性作用体现在它被用于解释其他概念或现象,其中最典型的是解释实践上的成功和解释意义。

    一般认为,持有真信念比起持有假信念更能促进实践上的成功。譬如,我相信冰箱里边有啤酒并且我想要喝啤酒,如果我的信念为真,则我的愿望更有可能得到满足(喝上啤酒)。实质论者认为,为了解释实践上的成功,需要假设一个实质性的真概念或真性质。譬如根据符合论,我的信念〈冰箱里边有啤酒〉为真就在于它符合于事实,即冰箱里边确实有啤酒。这解释了我为何能够成功地喝上啤酒。

    对此,收缩论者如霍里奇的标准回应是,可以运用等价式“〈冰箱里边有啤酒〉是真的当且仅当冰箱里边有啤酒”予以解释。这样,如果我的信念〈冰箱里边有啤酒〉为真,那么冰箱里边有啤酒。这同样解释了我为何能够成功地喝上啤酒。而在这里,真概念只是起着语义上升的表达性作用。

    为此,实质论者需要提供进一步的论证以表明真概念确实是解释性的而不仅仅是表达性的。在这里不去深究这个问题。姑且假设其论证是成功的,即便这样,“解释实践上的成功”这个特征似乎更适合于符合论,而未必适合于其他实质论,如融贯论、实用论。根据融贯论,一个信念为真就在于它属于一个融贯的信念集。融贯论最为人诟病之处就是它切断了真与实在的联系,难以看到它如何能够解释实践上的成功。根据实用论,一个信念为真就在于其有用性。而实践上的成功作为有用性之一已经包含在真概念的定义特征当中,这令“解释实践上的成功”变成一种空洞的解释。

    另一种有影响力的看法是根据真概念来解释意义。戴维森和达米特都对收缩论表示不满,理由之一是收缩论的真概念不能用于解释意义,因为它假设了一个在先的意义概念。为此,霍里奇支持的是意义使用论而不是真值条件意义理论。著名的戴维森意义方案是使用塔尔斯基的真定义架构去描述自然语言的意义。由于塔尔斯基的架构不被视为定义“真”——戴维森写道:“我认为塔尔斯基不是要试图定义真概念……而是使用真概念去描述特定语言的语义结构”[8],第269页——尚缺失一个可用于解释意义的真概念。最终戴维森选择了原始论。

    这样,尽管戴维森(以及近期的阿赛)的原始论不具备构成性特征,但由于其具备解释性(解释意义)特征,故被归类为(他们也自认为是)实质论而不是收缩论。不过,由于并不是所有实质论者都支持真值条件意义理论,所以解释性(解释意义)充其量只是某些实质论的特征(除了戴维森和阿赛的原始论,达米特的认识论的真概念也被用来解释意义),而不是所有实质论共有的特征。

    3.5 稀少性

    爱德华兹提出根据稀少性/丰富性(abundance)来区分实质性的/非实质性的真性质,从而在形而上学的层面区分实质论/收缩论。[10]“稀少的性质/丰富的性质”这对概念来自于刘易斯(D.Lewis),如今被广泛地用于性质的形而上学研究。刘易斯将性质视为类(class)。在他看来,数量稀少的性质是自然的性质(自然类),例如金属这样的物理性质(物理类);数量丰富的性质是非自然的性质(非自然类),例如“红或圆”这样的析取性质(析取类)。而稀少/丰富(自然/非自然)的区别是程度上的区别,并非截然二分。[21],第344-347页

    将“稀少性/丰富性”这对概念用于真性质,那么可以说,所谓实质性的真性质就是稀少的真性质,所谓非实质性的真性质就是丰富的真性质。实质论主张前者,收缩论主张后者。爱德华兹认为,这就从形而上学(性质)的层面将实质论/收缩论区别开来。

    然而,收缩论的真性质固然不是一种自然的性质,实质论的真性质(如符合、融贯、有用性等)也并非如物理性质(如金属)那样是一种自然的性质。故刘易斯的稀少性概念并不适用。为此,爱德华兹对稀少性做了进一步的解释:稀少的性质是(具有该性质的事物的)真正的相似性的基础,并且能够起到因果解释的作用。[10],第290页例如,金属之所以是稀少的性质,是因为它使得所有金属物件具有真正的相似性,并且金属这种性质能够起到因果解释的作用。

    那么爱德华兹所理解的稀少性能否成为实质论的定义特征呢?首先,关于相似性的基础。若被问及为何所有真命题都具有真正的相似性?符合论、融贯论、实用论这几种实质论的回答将分别是:它们具有符合、融贯、有用性这样的性质。这几种实质论之所以能够解释真命题的相似性,是因为它们的真性质具备构成性特征。原始论无法回答这个问题,因为原始论的真性质不具备构成性特征。但原始论却是公认的实质论。其次,关于因果解释的作用。或许某些实质论(如表征的符合论)能够因果地解释实践上的成功,但是显然,并非所有其他实质论都能够起到因果解释的作用(如融贯论)。

    爱德华兹反复提及这两个特征,但是并没有对之提供进一步的说明。不难看出,这两个特征对应于前面所说的构成性和解释性(限于因果解释)。因此正如构成性和解释性不能成为实质论的定义特征,稀少性也不能成为实质论的定义特征。

    3.6 家族相似

    以上考察了五个常被视为是实质论的特征,但发现没有一个可以作为实质论的定义特征,并据以将实质论/收缩论区别开来。因此很有可能无法对实质论给出严格的、精确的定义。正如维特根斯坦所认为的那样,很多概念(如游戏、语言)并不存在被其外延(各种游戏、各种语言)所共有的本质特征,因此无法对这些概念给出严格的定义,而只能采取家族相似的方法加以描述。

    类似的困境出现在如何定义分析哲学的问题上。为了回答这个问题,格洛克(H.Glock)贡献了一部专著《什么是分析哲学》。[15]他考察了一系列被视为分析哲学的特征,却发现没有一个可以作为分析哲学的定义特征,并据以将分析哲学家/非分析哲学家区别开来。鉴于无法对分析哲学给出严格的、精确的定义,他最终采取“枚举外延(陈述历史传统)+家族相似”的方法描述分析哲学。

    分析哲学的外延(哲学家、学派、著作)是较少争议的。或者说,我们有一些公认的范例,如弗雷格、罗素、维也纳学派、蒯因、牛津学派、前后期维特根斯坦(《逻辑哲学论》和《哲学研究》)。此外,我们有若干被视为分析哲学的特征,如语言转向、拒绝形而上学、重视逻辑、科学精神、应用分析方法(还原分析、关联分析等)、注重清晰性和论证的严格性等等。但是没有一个特征可用于定义分析哲学,使之恰好符合其外延。譬如,达米特关于分析哲学的语言转向定义将埃文斯(G.Evans)排除在分析哲学家之外,但达米特本人也承认,埃文斯无疑是分析哲学家;蒯因和斯特劳森不但没有拒绝形而上学,反而复兴了形而上学;日常语言哲学不太关心逻辑和科学;很多非分析哲学家也使用分析方法;维特根斯坦的著作缺少清晰性,很多时没有论证。尽管如此,分析哲学的成员还是或多或少具有其中的一些特征,从而具有一定的相似性。分析哲学的成员并非由于共享单一特征而是由于具有重叠交错的相似性而组成一个大家族。

    同样,实质论的外延(各种实质性的真理论)是较少争议的。或者说,我们有一些公认的范例,如符合论、融贯论、实用论、证实论、原始论、多元论。此外,我们有若干被视为实质论的特征,如不透明性、构成性、规范性、解释性、稀少性。但如前所述,没有一个特征可用于定义实质论,使之恰好符合其外延。尽管如此,公认的实质性真理论还是或多或少具有其中的一些特征,从而具有一定的相似性。譬如,符合论具有构成性、解释性、稀少性特征,融贯论和实用论具有构成性特征,原始论具有解释性特征,多元论具有不透明性、构成性、规范性特征。因此,实质性的真理论也并非由于共享单一特征而是由于具有重叠交错的相似性而组成一个大家族。

    家族相似的分析方法并非完美,相反,其弱点是明显的:它不能约束外延,不能排除反例。譬如,很多非分析哲学家也具有一些分析哲学的特征,例如使用分析的方法。再如,有些收缩论也具有一些实质论的特征,例如霍里奇的最小论承认真之规范。然而,在无法给出严格的、精确的定义的情况下,家族相似也不失为解释概念的一种方法。毕竟,我们确实有游戏、语言、分析哲学、实质论这些概念,而单纯枚举外延让人缺失对这些概念的理解。

    4 实质性的程度

    符合论历来被视为实质论的代表,蒯因的去引号论和霍里奇的最小论也被视为收缩论的代表。后两者的理论来源是塔尔斯基的真理论。有趣的是,对于塔尔斯基的真理论究竟是符合论还是收缩论,一直存在较大的争议。要回答这一问题,取决于如何定义符合论和收缩论。但是由于无法给出一致公认的定义,这个争议还将持续下去。前面提到,赖特认为收缩论不是一种明确的哲学立场,而只是一种哲学倾向。上一节的分析表明,实质论缺乏统一的定义特征,因此可以说,实质论也不是一种明确的哲学立场,而只是一种哲学倾向。这样理解的话,实质论和收缩论的界限将变得模糊,而实质性是一个程度问题。下面以符合论为例加以说明,并探讨过度实质化所存在的问题。

    亚里士多德的真概念经常被提及和讨论,并被视为符合论的直觉来源。塔尔斯基就引述亚里士多德的话,“说是者为非,或者说非者为是,即为假,而说是者为是,或者说非者为非,即为真”,并将他自己的真定义视为捕捉了这一直觉的真概念。[29],第342-343页于是这一直觉真概念就体现在塔尔斯基的T-图式中。现在一般使用去引号图式:

    (DS)“p”是真的当且仅当p。

    (DS)的实例是:

    (T)“雪是白的”是真的当且仅当雪是白的。

    根据塔尔斯基,每一个这样的实例都可被视为部分的真定义,所有这些部分的真定义的合取就是一个普遍的真定义。

    蒯因直接采纳塔尔斯基的真定义,并认为真谓词的功能就是去引号,即起着从提及语句到使用语句的转换的作用。霍里奇的最小论实际上也是由类似(T)这样的实例所构成,区别在于使用命题而不是语句作为真值载体。按照蒯因和霍里奇的理解,塔尔斯基的真理论无疑是一个收缩论。戴维森尽管没有认同这一点,但却明确否认塔尔斯基和亚里士多德是符合论者,理由是在他们的真定义或真概念中缺失了符合论所需要的事实或事态概念。[8],第268页与之相反,谢尔则认为塔尔斯基和亚里士多德的真概念都是符合论的概念,理由在于其背后的根本观点是:一个语句为真不但跟该语句所说的东西有关,也跟世界中的事物是如何的(how things are)有关。[25],第135页

    这显示出对符合论有不同的理解。帕特森(D.Patterson)区分了弱符合论和强符合论。[23]弱符合论仅仅要求语句之为真取决于世界中的事物是如何的。强符合论则要求语句与世界中的事态具有某种实质性的关系,如同构、表征、因果关系等。在弱的意义上,蒯因的去引号论也是一种符合论。蒯因明确指出,真谓词的作用是透过语句指向实在,它提醒我们,尽管语句被提及,实在仍然是要点所在。[24],第11页应当指出,认为收缩论否认语句之为真取决于实在,这是对收缩论的误解。真概念是语义概念,实在论是形而上学立场。收缩论的真概念中立于实在论/反实在论的形而上学之争,它并不排斥实在论的形而上学立场。收缩论的要点在于,它本身并未对(T)这样的双条件句右边的语句(“雪是白的”)的使用作出限定——“雪是白的”可以描述实在(如蒯因所认为的那样),可以表达本体论的事实(蒯因拒绝这样做),也可以描述感觉材料——无论一个语句被如何使用,真谓词的作用都是语义上升。

    就(T)这样的双条件句(T-语句)而言,它本身是形而上学中立的。如果附加上对右边的语句的使用的说明,例如描述实在,确实可以产生弱意义的符合论。这时真语句(如“雪是白的”)与它所描述的实在(雪的颜色是白)存在对应关系。毕竟,被提及的语句与被使用的语句是同一个语句。但是由于并未明确陈述符合关系,也缺失非语言的关系项(如事实),弱符合论并不是传统强意义上的符合论。

    由于在弱的意义上,收缩论(去引号论)也可以被视为符合论(帕特森称之为“收缩的符合论”),又或者,可以被视为是一种隐蔽的符合论(假若将T-语句右边的语句解读为表达了本体论的事实),这使得符合论和收缩论的界限变得模糊。

    关于符合论,昆尼区分了两种形态的符合论:基于事实的符合论和基于对象的符合论。[20],第三章前者以摩尔、罗素、维特根斯坦的剑桥符合论为代表。摩尔对事实的理解比较宽泛,容许复合命题符合于复合事实。罗素和维特根斯坦仅承认原子事实(早期罗素承认否定的事实和普遍的事实)。摩尔的符合论更具统一性:所有真命题皆符合于事实。罗素和维特根斯坦的符合论则缺少统一性(只有原子命题能够符合于事实),但实质化程度更高(引入命题和事实的同构关系),这是强意义上的符合论。

    根据昆尼,基于对象的符合论具有更悠久的历史,直到弗雷格对符合论的批判,所针对的也是基于对象的符合论。随着剑桥符合论的兴起,基于对象的符合论被遗忘,甚至一度把符合论只当作基于事实的符合论。由于塔尔斯基的工作,基于对象的符合论又重新被重视起来。

    对于简单的命题语言来说,一个塔尔斯基式的真定义就是所有T-语句的枚举或合取。但是对于像自然语言这样具有复杂结构的语言来说,并不能通过简单枚举T-语句来定义“真”,而是要首先定义指称和满足(菲尔德称之为“基本指称”),然后根据指称和满足定义“真”。简单来说,对于形如“a是F”的原子句,一个塔尔斯基式的真定义可表述为:

    (TR)“a是F”是真的当且仅当“a”指称a并且a满足“F”。

    如果将(TR)理解为还原分析(将真概念还原为基本指称概念),则真概念已具备构成性特征,从而就构成性维度而言,可以算是一种实质论。或者说,其实质化程度比基于T-语句所定义的真概念更高。但是由于塔尔斯基仅仅通过枚举的方式(枚举名称及其所指的对象)定义指称,指称概念是收缩论的,从而(TR)所定义的真概念仍具备收缩论的特征。这是一种弱意义上的基于对象的符合论。菲尔德不满足于这种枚举式的、非解释性的指称定义,他主张通过补充因果指称理论使塔尔斯基的真理论实质化。[11]由于引入了因果指称关系,这是一种强意义上的基于对象的符合论。

    以上分析表明,实质论(符合论)和收缩论的界限是模糊的,而实质性是一个程度问题。这引出是否存在过度实质化的问题。林奇指出,传统的实质一元论面临范围问题(scope problem)。所谓范围问题是指,对任何足够坚实地(sufficiently robustly)描述的真性质F而言,似乎存在某类缺乏F的命题K,在直觉上却是真的(或能够为真)。[22],第4页这里“足够坚实”显然是一个程度概念。以基于事实的符合论为例,假设真性质F=符合独立于心灵的客观事实,则这种符合论仅适用于物理领域,而不适用于数学和道德领域,因为这两个领域不存在独立于心灵的客观事实(假设反实在论立场),但直觉上(按照日常的、民间的真概念),数学命题(如〈1+1=2〉)和道德命题(如〈杀人是错的〉)是能够为真的(有真假可言的)。基于对象的符合论,如果实质化程度足够高,例如涉及的不是收缩论的指称概念而是因果指称概念,则同样会面临范围问题。物理名称与物理对象或许存在因果指称关系,数学名称和数学对象、道德谓词和道德性质却难以产生这种关系。因此基于因果指称的符合论的适用范围也是有限的,为此菲尔德最终放弃了这种符合论,转向了收缩论。再以认识论的真理论为例,假设真性质F=在理想的认知条件下可证实,则〈现时宇宙中恒星的数目是偶数〉这样的命题不可能具有这样的真性质(因为原则上超出了人类的认知能力),也就是说不能为真,但直觉上这个命题是能够为真的(有真假可言的)。

    所谓范围问题其实是适真性的宽窄问题。上述实质论由于包含了形而上学要素(本体论的事实概念、因果指称关系)或认识论的要素(证实概念),从而具有较窄的适真性。收缩论不包含形而上学和认识论要素,从而具有较宽的适真性:只要是能够代入(DS)右边的“p”的有意义的陈述句都有真假可言,无论其来自哪个领域。也正因为如此,收缩论能够容纳实在论/反实在论的形而上学立场。

    为了能够容纳实在论/反实在论,同时为了避免收缩论过于单薄的真概念,赖特提出了极小论。在赖特看来,极小论是一种反收缩论。[31],第13页此外,它跟收缩论一样具有较宽的适真性。因此可以说,极小论是一种浅度的实质论。与霍里奇的最小论真概念(它仅仅由等价图式的所有实例给出)不同,赖特的极小论真概念是由一组平凡之理(platitudes)或基本原理给出,例如:

    断定就是表示为真;

    任何适真的内容都有一个有意义的否定,这个否定同样是适真的;

    为真就是符合于事实;⑥

    一个陈述可以得到辩护而不真,反之亦然。[31],第34页

    显然,在真概念的内容上,赖特的极小论比霍里奇的最小论更为丰富。但是赖特并不满足于极小论,而是认为不同的领域有不同的真性质,这些真性质都能满足上述平凡之理所刻画的真概念。譬如,物理领域的真性质是符合,数学领域的真性质是融贯,道德领域的真性质是超可断定(一个命题是超可断定的,是指在现有信息下可以断定该命题,而且无论后续获得多少相关的信息,都仍然能够断定该命题)。这样,赖特的真理论具有如下结构特征:在概念层面是真之一元论,在性质层面是真之多元论(truth pluralism)。实际上,赖特是真之多元论的首倡者。真之多元论的另一位代表性人物林奇的真理论(功能主义多元论)也具有类似的结构特征,即基于平凡之理的真概念一元论+真性质多元论。[22,34]

    真之多元论的核心主张是不同的领域有不同的真性质。其最大的问题是真性质本体论的膨胀,这违背了本体论的经济性原则。由此也面临混合难题,其中最为突出的是混合合取难题。[28,35]考虑合取命题〈电子是带负电的粒子并且虐猫是错的〉,这是一个混合合取命题,其合取支分别来自物理领域和道德领域。根据真之多元论,这两个合取支分别具有(譬如)符合和超可断定这两个真性质。那么整个合取命题具有何种真性质呢?显然既不是符合也不是超可断定。如果混合合取命题是由于具有某种普遍的不分领域的真性质而为真,那么这种普遍的真性质为何不就是我们唯一需要的真性质,为何还要假设多个真性质?

    当代实质论的代表性理论,除了赖特和林奇的真之多元论,还有谢尔的符合多元论(correspondence pluralism)。[25-27]与真之多元论假设多个真性质不同,谢尔认为,无论什么领域,真就是符合,只不过不同的领域有不同的符合形式(或符合原则)。谢尔的“符合-真”有三条原则(可合并为一条基础原则):内在性(immanence)、超越性(transcendence)和规范性。内在性是指把我们的认知目光指向世界,并且说世界是如此这般。超越性是指超越内在性的角度来看世界和关于世界的内在性思想(陈述、理论),并检查它们是否正确。规范性是指真概念是一个规范性概念,并且要求规范性的思维模式,即批判性地评估一个语句是否成功地告诉我们世界事实上是如何。从基础原则出发,可给出统一的“符合-真”,但是具体到不同的领域则有不同的符合形式。

    符合多元论的最大问题在于,为了套用符合框架,需要对不同的领域(逻辑、数学、道德)做出特殊的处理,或给出特殊的解释。例如数学领域的“符合-真”被理解为跟世界的形式特征相符合,并且为了避免柏拉图主义(认为数学个体真实存在),只能采取间接的符合形式。再如,道德领域的“符合-真”被理解为跟客观的道德价值相符合。而对于最为关键的物理领域(传统符合论的焦点所在),谢尔却所言不多,到目前为止尚未系统地给出物理领域的“符合-真”。

    这也导致真理论变得异常复杂。事实上,谢尔认为她的真理论是一个理论家族,家族中的每个理论研究某个“真”的领域、方面或因子,然后这些理论加起来产生对“真”的综合解释。在她看来,我们的真概念具有广泛性、复杂性、多样性和多维性。这样的话,普通人(非哲学家)根本无法对真概念产生真正的理解。相比之下,赖特和林奇基于平凡之理的真概念更接近日常的、民间的真概念。

    5 结语

    实质论和收缩论作为分析哲学中真理论研究的两种对立的倾向,都各自形成庞大的理论家族,这极大地丰富了真理论的研究成果。面对收缩论的主导地位,当代实质论(如基于因果指称的符合论、原始论、多元论)更是以反收缩论作为自己的理论目标,把真理论看作建设性的而不是破坏性的事业。由于实质性有不同的维度和程度,实质性真理论的构建者需明确实质化的方向(不限于本文所提及的维度),以及考虑是否存在过度实质化的问题。适真性的宽窄、是否偏离日常的真概念、本体论的膨胀性和经济性、理论的复杂性和简单性,都需要综合考虑并加以权衡和取舍。

    注释:

    ①霍里奇和赖特(C.Wright)都不约而同地使用“minimalism”这个标签来命名自己的学说。但二者的含义不一样:前者是一种收缩论,后者却是一种反收缩论。[31],第13页,脚注13由于前者比后者所使用的定义资源更少,笔者将霍里奇的“minimalism”译为“最小论”,将赖特的“minimalism”译为“极小论”。

    ②“Deflation/inflation”的物理意义是“放气、缩小/充气、膨胀”,经济学意义是“通货紧缩/通货膨胀”。真理论中的“deflate/inflate”是借用物理上的隐喻,例如“deflate the overinflated balloons offered by substantivists”。[6],第4页故相应地,笔者将“deflationism/inflationism”译为“收缩论/膨胀论”。

    ③关于实质论/收缩论的区分,散见于各文献,专门的研究文献不多。(可参见[10,33])爱德华兹(D.Edwards)从不透明性、逻辑性、构成性、稀少性这四个维度进行探讨,并主张用稀少性来界定实质性。[10]怀亚特(J.Wyatt)则从透明性、构成性、解释性、稀少性、逻辑性这五个维度进行探讨,并主张用非构成性和非解释性来界定收缩论。[33]

    ④现在普遍采用霍里奇的记法,用“〈〉”构造命题的名称,“〈p〉”表示“命题p”。

    ⑤尽管他认为真概念本身并不是一个规范性概念。[18]

    ⑥这里“符合于事实”只是一条平凡之理,而不是传统的实质性符合论。“‘p’符合于事实”的意思仅仅是:事情就如“p”所说的那样。

    上一页1下一页跳转分页阅读

    原文参考文献

    [1]W.Alston,2002,”Truth:Concept and property”,in R.Schantz(ed.),What is Truth,pp.11-26,New York:de Gruyter.

    [2]J.Asay,2013,The Primitivist Theory of Truth,Cambridge:Cambridge University Press.

    [3]P.Boghossian,1990,”The status of content”,Philosophical Review,99(2):157-184.

    [4]J.Cleve,1996,”Minimal truth is realist truth”,Philosophy and Phenomenological Research,56(4):869-875.

    [5]N.Damnjanovic,2010,”New wave deflationism”,in C.D.Wright and N.J.L.L.Pedersen(eds.),New Waves in Truth,pp.45-58,New York:Palgrave Macmillan.

    [6]M.David,1994,Correspondence and Disquotation:An Essay on the Nature of Truth,Oxford:Oxford University Press.

    [7]D.Davidson,1990,”The structure and content of truth”,Journal of Philosophy,87(6):279-328.

    [8]D.Davidson,1996,”The folly of trying to define truth”,Journal of Philosophy,93(6):263-278.

    [9]M.Dummett,1991,The Logical Basis of Metaphysics,Cambridge MA:Harvard University Press.

    [10]D.Edwards,2013,”Truth as a substantive property”,Australasian Journal of Philosophy,91(2):279-294.

    [11]H.Field,1972,”Tarski’s theory of truth”,Journal of Philosophy,69(13):347-375.

    [12]H.Field,1986,”The deflationary conception of truth”,in G.Macdonald and C.Wright(eds.),Fact,Science and Morality:Essays on A.J Ayer s Language,Truth and Logic,pp.55-117,Oxford:Blackwell.

    [13]H.Field,1994,”Deflationist views of meaning and content”,Mind,103(411):249-285.

    [14]H.Field,1994,”Disquotational truth and factually defective discourse”,Philosophical Review,103(3):405-452.

    [15]H.Glock,2008,What is Analytic Philosophy?,Cambridge:Cambridge University Press.

    [16]P.Horwich,1982,”Three forms of realism”,Synthese,51(2):181-201.

    [17]P.Horwich,1998,Truth(2nd edition),Oxford:Oxford University Press.

    [18]P.Horwich,2018,”Is truth a normative concept?”,Synthese,195(3):1127-1138.

    [19]R.Kirkham,1992,Theories of Truth:A Critical Introduction,Cambridge MA:MIT Press.

    [20]W.Künne,2003,Conceptions of Truth,Oxford:Oxford University Press.

    [21]D.Lewis,1983,”New work for a theory of universals”,Australasian Journal of Philosophy,61(4):343-377.

    [22]M.Lynch,2009,Truth as One and Many,Oxford:Oxford University Press.

    [23]D.Patterson,2003,”What is a correspondence theory of truth?”,Synthese,137(3):421-444.

    [24]W.V.Quine,1970,Philosophy of Logic,Englewood Cliffs:Prentice-Hall.

    [25]G.Sher,1998,”On the possibility of a substantive theory of truth”,Synthese,117(1):133-172.

    [26]G.Sher,2004,”In search of a substantive theory of truth”,Journal of Philosophy,101(1):5-36.

    [27]G.Sher,2023,”Correspondence pluralism”,Synthese,202(169):1-24.

    [28]C.Tappolet,2000,”Truth pluralism and many-valued logics:A reply to beall”,Philosophical Quarterly,50(200):382-385.

    [29]A.Tarski,1944,”The semantic conception of truth and the foundation of semantics”,Philosophy and Phenomenological Research,4(3):341-376.

    [30]M.Williams,1988,”Epistemological realism and the basis of scepticism”,Mind,97(387):415-439.

    [31]C.Wright,1992,Truth and Objectivity,Cambridge MA:Harvard University Press.

    [32]C.Wright,1998,”Truth:A traditional debate reviewed”,Canadian Journal of Philosophy,28(supp.1):31-74.

    [33]J.Wyatt,2016,”The many(yet few)faces of deflationism”,Philosophical Quarterly,66(263):362-382.

    [34]周振忠,“功能主义多元论”,中山大学学报(社会科学版),2020年第4期,第134-140页。

    [35]周振忠,“真之多元论的混合合取难题”,逻辑学研究,2021年第1期,第71-81页。

    《逻辑学研究》2025年第1期

  • 魏偏偏 赵嘉婕:人类学视角的疾病研究史述评

    一、引言

    古代人类遗骸的疾病研究作为生物人类学的核心分支,兼具揭示人类健康演化历程与解码社会文化变迁的双重价值。长期以来,传统研究多局限于对骨骼病理特征的描述,未能充分阐释疾病如何作为隐形参与者,深度嵌入古代社会结构、人群迁徙与文明演进的进程之中。而体质特征分析、古分子生物学技术与多学科研究范式的递进与融合,正从根本上打破这一局限,推动古代疾病研究重塑我们对人类历史与健康互动关系的理解。

    学界将人类古代疾病研究的发展历程归纳为四个时期,第一时期以动物遗骸研究为主,后三时期则是体现了人类对疾病与历史关联认知不断深化的过程,具体来说:(1)起源时期(19世纪中叶至一战)对个体古病理的初步观察,虽尚未形成系统方法,却已开启从骨骼痕迹窥探古代健康的思路,为后续将疾病与人群生存状态关联奠定基础;(2)整合时期(一战至二战)放射学、统计学等生物医学方法的引入,使古病理学成为独立学科,此时的研究不再满足于识别疾病,而是开始通过病理特征的群体差异,试探性关联古代人群的生计模式与生存环境,例如通过骨骼感染率推测聚居地卫生条件,迈出了疾病链接社会的第一步;(3)新发展时期(二战结束至今)则迎来认知的两次关键突破,一是基于体质特征的科学诊断标准形成,使研究者能通过代谢性疾病的分布、创伤的类型差异,精准解读古代社会分工(如农牧人群的骨骼病变差异反映生业模式分化)与暴力程度(如颅骨创伤频率关联群体冲突);二是古分子方法的引入,彻底打破病原体演化与传播的时空壁垒,通过古DNA测序、蛋白质组学等技术,研究者得以追溯鼠疫耶尔森氏菌的遗传谱系与贸易网络的绑定关系,还原疟疾寄生虫随人群迁徙的扩散路径,首次从分子层面证实疾病是塑造人群迁徙与文明格局的重要力量。

    传统研究以骨骼、牙齿病理观察为核心,其价值远不止于初步诊断疾病。通过对体质特征的量化分析,研究者能将个体病变转化为群体认知,例如对比贾湖遗址与西坡墓地的骨质疏松症发病率,发现农业转型可能导致人群营养结构变化,进而影响健康水平;结合稳定同位素分析与考古背景,更能揭示疾病易感性与饮食结构、生计模式的深层关联,如青铜时代单一农业人群的龋齿率高于农牧混合人群,印证了生业模式通过饮食塑造群体健康的认知,使疾病研究成为解析古代社会经济形态的重要依据。而分子生物学技术向考古学领域的渗透,则实现了从形态描述到机制阐释的认知跨越,填补了传统研究无法触及的疾病与历史互动空白。依托古分子技术,研究者不仅能重建古代病原体的基因组信息、精准还原鼠疫、疟疾等传染病的流行趋势,更能通过病原体分布与贸易路线、迁徙轨迹的叠加分析,重构疾病传播的社会文化语境,例如新石器时代末期鼠疫耶尔森氏菌通过欧亚早期贸易网络扩散的分子证据,印证了疾病传播与人类物质交流同步发生的历史逻辑,使我们对古代人群互动的理解不再局限于器物、技术的传播,更纳入了隐形病原体这一关键变量。此外,古分子研究还揭示了人类与病原体的基因共演化关系,如欧洲人群中与结核病易感性相关的TYK2 P1104基因变异的频率波动,反映了疾病对人类基因组的长期选择,为健康与演化的互动研究提供了分子层面的实证。

    基于上述研究背景,本文将古代疾病发展历程的“新发展时期”细分为体质特征分析、古分子研究与多学科范式三个认知阶段(不涉及仅依据历史文献的古代疾病研究)。在体质特征分析阶段,聚焦代谢性疾病、骨骼感染、创伤等病症的病理规律,阐释如何通过骨骼痕迹还原古代人群的社会分工(如殷墟男性上肢骨关节炎高发反映体力劳动差异)、生存压力(如骨膜炎与上呼吸道感染关联揭示手工业污染影响);在古分子研究阶段,以鼠疫、疟疾、病毒性疾病为核心,解析病原体基因组如何解锁疾病、迁徙与贸易的关联(如跨大西洋奴隶贸易与恶性疟原虫传播的分子证据);在多学科范式阶段,通过代谢性疾病、骨骼特异性感染与肿瘤的研究案例,展现体质人类学、古分子生物学、稳定同位素分析的融合如何搭建疾病、社会与文化的完整认知链条(如软骨发育不全的基因检测与考古背景结合,推测古代社群对身体缺陷的接纳程度)。

    通过对古代疾病类型、致病机制、古病原体传播与演化路径等核心议题的深度探讨,本文旨在清晰呈现疾病与职业分工、社会分化、人口流动的关联,为深入挖掘古代人类健康状况与社会文化发展的内在关联提供生物学证据。同时,通过追溯病原体演化与文明互动的轨迹,探索疾病对社会结构、经济活动和文化观念的塑造作用,还可为现代公共卫生策略的科学制定与医学研究的创新突破提供历史维度的参考,充分彰显古代疾病研究在当下的学术价值与现实意义。当前国内研究仍以体质人类学的描述性分析为主,古分子等技术的潜力尚未充分释放,导致对疾病、社会与文明互动机制的探讨仍显薄弱,而未来多学科交叉路径将成为古代疾病研究领域发展的关键方向。

    二、体质特征视角下的古代疾病

    通过对古代遗骸体质特征的观测与分析,可以初步判断疾病类型,了解古代人类健康状况。目前传统体质研究确定的疾病类型主要有代谢性疾病、骨骼感染、退行性疾病、神经血管疾病、口腔疾病等。此外,创伤也是传统古病理学的重要研究对象。

    (一)代谢性疾病

    代谢性疾病作为一类由机体代谢紊乱引起的疾病,其中代谢性骨病(Metabolic bone disease)是古代人类遗骸中较为常见的一种类型,具体指导致正常骨形成、吸收或矿化发生系统性改变的疾病或疾病组合,多与营养不良和激素失调有关。根据现代医学研究成果,代谢性骨病早期发病特征不典型,中后期临床表现复杂,常见生长障碍、骨关节病、骨骼畸形。中后期代谢性骨病在骨骼上具有显著的体质特征表现,易于在考古材料中观察识别,因此,这类疾病在古代人类遗骸中观察到的比率较大,主要涉及骨质疏松症、氟骨症、佝偻病和坏血病等类型,目前针对代谢性骨病的多学科研究也在持续开展。

    1. 骨质疏松症。

    骨质疏松症(Osteoporosis,OP)是一种以骨矿盐密度减低、骨的微结构破坏,进而导致脆性骨折发生的疾病。早在距今9000至7800年前的贾湖遗址,OP病例就已发现,在距今5000至4000年前,OP已普遍出现于欧洲、美洲、亚洲地区,并在历史时期常见于各阶段各地区古代人类遗骸中。

    骨质疏松症的致病因素较为复杂,通常认为与年龄、性别、饮食及营养状况有关,特定生活方式也可能诱发OP,可以此为线索探究古代人群社会分工和生活方式差异。例如,M. E. Zaki等学者对公元前2687年至前2191年古埃及人骨骼遗骸进行骨矿物质密度(Bone Mineral Density,BMD)检测,这些骨骼来自两个不同社会阶层:高级官员和工人群体。结果显示BMD值与年龄、性别和社会身份存在关联,有关年龄和社会身份的差异具体表现为老年群体的BMD值较年轻群体明显下降,且男性工人的骨质疏松症发病率高于男性高级官员,而女性高级官员的发病率则高于女性工人。研究者认为不同群体的致病原因存在差异,推测男性工人骨质疏松症发病率较高可能与营养不足和过重的工作量有关,而女性高级官员的久坐生活方式则是潜在致病因素之一。此外,女性骨质疏松症的平均发病时间早于男性且发病频率更高,这种现象可能与女性更年期的荷尔蒙变化有关。国内相关学者针对古代人类遗骸的骨质疏松症开展过诸多方面的研究,如郑晓瑛对甘肃酒泉干骨崖墓地出土的青铜时代人骨进行了X-光病理鉴定,不仅确认了氟骨症的发病证据以及骨包虫病和骨肿瘤病的可能性,还发现样本骨质疏松症发病年龄呈现出低于现代人发病年龄的倾向,古代特殊的生存环境与生活状况可能导致了发病年龄的差异。王明辉比较了贾湖遗址和西坡墓地出土人骨骨质疏松症的发病率,指出西坡农业人群的高发病率除了可能存在的流失钙质的疾病外,应与人群间饮食和营养状况的差距有关,早期生业模式的转变可能提升了骨质疏松发病率。

    2. 氟骨症。

    氟骨症(Skeletal fluorosis)是氟中毒在骨骼上的表现,其骨骼的典型病理特征包括:骨组织的增长、骨小梁增粗增厚、骨密度增加,这些病理特征导致X光下出现“毛玻璃”样骨组织,全身所有骨骼都有累及。患者牙齿的微观病理表现为:牙齿表面有一层局限或弥散的云雾状不透明层,其下层为不同程度的矿化不全区,显示有多孔性。氟是人体必需微量元素,而如寒食散中紫石英(CaF2)等过量的氟摄入可能导致氟中毒。现代病例多由工业污染和深井作业等因素导致,而古代氟骨症根据病因可分为饮水型氟中毒、燃煤污染型氟中毒、药物性氟中毒等。

    骨骼证据表明氟骨症约公元元年就已经出现于亚洲、欧洲和美洲地区,随后该病症零散发现于不同考古遗址的人类遗骸中。比如,Judith Littleton对巴林岛公元前250年至公元250年的墓葬中出土的人骨开展了形态观察,根据牙齿染色、表面不透明度和孔洞的表现特征初步鉴定为氟骨症,进一步的氟元素检测结果确定了牙齿的氟含量偏高。氟中毒在牙齿上的病变特征较为明确,而除牙齿外其他骨骼的高度病变情况尚不足与氟骨病直接关联,推测巴林岛墓葬人骨应属于饮水型氟中毒。而山西榆次明清氟中毒人群除土壤与水体中氟含量较高这一地方性因素外,也存在燃煤污染型氟中毒的可能性,且氟骨症可能直接或间接地造成了关节炎、骨质疏松、创伤等。

    3. 佝偻病。

    佝偻病(Rickets)是儿童青少年时期钙磷代谢障碍相关性骨病的主要临床表现之一,在古代人类骨骼遗骸上留下肋弓外翻、长骨弯曲等病理特征,严重影响儿童的骨骼发育与健康。其中,维生素D缺乏性佝偻病的发病机制与日照不足和日常饮食中维生素D的缺乏紧密相关,软骨细胞的正常排列被破坏。维生素D依赖性佝偻病和低血磷抗维生素D佝偻病则属于遗传病。

    唐人《种树郭橐驼传》一文中记载“病偻,隆然伏行,有类橐驼者”,但目前古代文献与医书中“偻”字含义的考证仍存在争议,早在唐朝时期古人可能就已经模糊地认识到佝偻病或与其病理表现相似疾病的存在。伴随社会贫富分化进一步加剧,维生素D缺乏性佝偻病长期对人类群体健康产生影响。工业化进程初期,这类疾病更为常见,例如Rachel Ives在一组19世纪中叶的青少年骨骼样本中,观察到额隆上的不规则矿化沉积和尖刺状的新骨形成证据,且样本长骨皮质骨多孔,其生长板边缘出现垂直条纹和细缝等病变,确诊了138例维生素D缺乏性佝偻病。从时代背景的角度分析,这一时期的恶劣天气与工业迅猛发展带来的空气污染大幅减少了紫外线照射时长,致使儿童普遍缺乏维生素D。同时,这一时期社会不平等现象突出,不同社会阶层的日常饮食存在较大差异,贫民儿童长期处于营养不良状态,这对骨骼发育产生进一步的负面影响。

    4. 坏血病。

    坏血病(Scurvy)是一种由缺乏维生素C引发的疾病,主要病理表现是出血和骨量减少,古人骨骼遗骸上的典型病理特征为蝶骨大翼双侧异常多孔。受基因限制,不同于大多数哺乳动物,人无法生成维生素C合成中的关键酶,每日需要摄入一定量的维生素C,因此坏血病发与资源短缺和饮食结构单一等因素有关,是评估古代青少年健康状况和营养级的关键指标。研究表明不同时期坏血病的流行程度很可能与农耕方式、粮食生产及储存理念等社会文化行为密切相关。由于坏血病的病征在部分种类的骨骼上缺乏特异性,尤其在成年个体中,其古病理诊断相对困难,不易与佝偻病、骨软化症等病变区分,还需要结合对饮食结构、食物资源等生活状况进行分析与推测。

    目前古代人类遗骸样本中坏血病证据跨越了数千年,几乎遍布全世界,较早的病例来自公元前3000年左右的德国、希腊和约旦地区。早期报告的坏血病病例主要集中在成年人群体,随着诊断方法的完善,如今绝大多数病例都发现于青少年群体。通过对不同地区古代人群的研究,相关学者对古代坏血病的病理特征与致病因素有了更深入的认识。Haagen D. Klaus在南美洲出土的青少年骨骼表面发现颅外血管压痕,这表明古代青少年患者可能会出现积血症状,对古代坏血病的体质特征做出了补充。Anne Marie E. Snoddy等人观察到来自智利阿塔卡马沙漠的距今约3400年的四具新生儿遗骸呈现出非特异性的骨骼畸变,其中一个新生儿与同一地区出土一位罹患坏血病的成年女性存在血缘关系,这显示出沙漠地区农业转型时期的资源短缺可能对产妇与胎儿的健康都造成了负面影响,但受限于诊断技术,将目前的坏血病诊断标准应用于新生儿遗骸仍面临诸多挑战。Chryssi Bourbou通过研究11—12世纪希腊的青少年遗骸,成功发现青少年坏血病的证据,不仅丰富了该地区这一疾病的历史病例,还提出青少年坏血病的发生可能与断奶后摄入固体食物的种类与品质有关。综合多项研究可见,坏血病患病概率很可能与生活方式、资源获取及文化因素有关。

    代谢性疾病长期与人类共存。通过骨骼遗骸的体质特征观察可以做出初步诊断,基本确定疾病类型,进而评估古代人群的健康状况,同时结合具体考古学背景和其他体质特征证据,可进一步推测此类疾病与饮食结构、生活方式、环境因素的内在联系。因此,根据古代人类遗骸研究代谢性骨病,有助于探讨古代人类疾病、饮食、文化习俗、社会经济地位等问题,进而为复原古代人类社会奠定基础。部分与遗传性相关的代谢性疾病可进一步通过古分子研究得到更为准确的鉴定,体现了多学科研究的重要性。

    (二)骨骼的非特异性感染及退行性疾病

    非特异性感染是指由非特定病原体引发的骨骼炎症性病变,可由多种细菌、物理或化学因素引起。古代人类遗骸可见的骨骼非特异性感染包括上颌窦炎、骨髓炎、强直性脊柱炎等,退行性疾病包括弥漫性特发性骨肥厚等,而骨关节疾病和骨膜炎等疾病既属于非特异性感染也属于退行性疾病。

    1. 骨关节疾病。

    骨关节疾病,又称骨关节病(Osteoarthrosis)或退行性关节病(Degenerative Joint Disease,DJD),对古代人类遗骸的诊断标准为:出现骨化灶或出现边缘骨赘、软骨下骨多孔、关节面新骨形成及关节轮廓改变中的至少两种病变。尽管“退行性”之名显示这种疾病是因年龄增长使组织和器官衰老而造成的,现代医学研究指出,骨关节病的发病机制较为复杂,除年龄和炎症因素外,运动方式、机械负荷、创伤、遗传、系统性疾病、体重和性别等因素均有可能作用于骨关节疾病的发病。在古代疾病研究领域,骨关节疾病可以反映关节的功能负荷。由于不同职业和社会劳动分工会对骨关节产生特定的影响,该疾病与古代社会结构和经济模式存在紧密联系,成为生物考古学的重点研究对象。此外,Ingemar等学者还提出了骨关节疾病和牙齿疾病之间存在潜在联系,提示研究者在分析骨骼病变时,可从关联性角度出发,综合考量多种疾病。

    作为古代人群中最普遍的骨骼疾病之一,骨关节疾病在世界各地的新石器时代人群、历史时期农业社会、近代城市社区居民等诸多人群中均有出现。在中国古代人类遗骸上诊断出骨关节疾病的相关研究报道也较多,如内蒙古兴隆沟遗址新石器时代人群中男性颈椎患DJD较多而女性腰椎患病较多,由此推测兴隆沟人群的行为方式应对其椎体造成了较显著的压力,男性与女性存在行为模式的差异。然而,由于样本数量和背景信息的局限性,目前研究尚且无法从骨关节疾病患病情况解析人群具体的行为模式,椎体患病情况也并不一定与生业模式存在直接关联。得益于殷墟的丰硕考古成果,张桦等对商晚期都城殷墟居民骨关节炎的疾病调查得以开展性别和职业角度的分析与讨论。通过评估来自孝民屯和新安庄两处遗址的167具骨骼遗存的骨关节炎状况,研究人员发现殷墟人群骨关节炎发病率较高,其中男性在上肢部位骨关节炎患病率显著高于女性,这种性别差异在孝民屯样本中尤为明显。较高的上肢骨关节炎发病率可能源于重复性承重和搬运行为,使上肢长期承受更大压力。此类负重行为可能源于与职业关联的体力活动,而男性较高的患病率表明可能存在性别分工现象。此外,孝民屯男性与女性居民的骨关节炎发病率均显著高于新安庄样本,暗示了两地居民存在职业差异。不同于新安庄未表现出专业作坊特征,孝民屯为一处铸铜遗址,由该地女性较高发病率推测女性有一定概率也参与了铸铜生产,当地青铜铸造活动很可能以“家族产业”的形式开展。

    2. 骨膜炎。

    骨膜炎(Periostitis)作为另一类重要的骨骼非特异性感染,初期表现为细小的点蚀状凹陷,而后沿着骨的长轴形成条纹状瘢痕,晚期在原始骨皮质表面生成片状的新骨。胫骨是最常见的发病部位,或因胫骨距表皮较近,容易发生周期性的轻微感染。骨膜炎在人骨考古研究中具有关键意义,被视为衡量古代人群健康状况的重要指标。尽管研究中存在骨学悖论和病变程度量化困难的问题,古病理学研究已经将其纳入生存压力评估体系,与牙釉质发育不全和缺铁性贫血等现象共同作为评估指标。以古代人群骨膜炎患病情况为线索,不仅可以揭示古代经济发展水平对人群健康的影响,更展现了环境、疾病、社会三者之间复杂的互动关系。

    骨膜炎几乎贯穿整个中国历史时期,不同历史阶段均有发现骨骼证据。前人对古代人群的骨膜炎开展了大量研究工作,例如陕西大原村制陶遗址人骨开展的古病理学研究发现,该遗址西周时期居民罹患肋骨骨膜炎与上颌窦炎的比例较高。由于骨膜炎多与上呼吸道感染和牙齿根尖感染有关,研究者推测,手工业快速发展导致的环境污染可能诱发呼吸道疾病,进一步引发该遗址人群罹患骨膜炎等疾病。对高青县胥家村南遗址北朝至隋唐时期人群和山东广饶地区元代人群的生存压力研究,均选取了骨膜炎等多个病理现象作为健康状况及生存压力水平的观察项,结合稳定同位素分析,系统探讨古代人群的生活状况。

    3. 上颌窦炎。

    上颌窦炎(Maxillary sinusitis)就是一种与骨膜炎存在关联的呼吸道疾病,对古代样本的诊断主要根据其内壁骨形态的变化来确定,上颌窦内骨形态的变化可分为穗状骨片(spicules)、点状孔(pitting)、斑块(plaque)、囊肿(cyst)、小叶(lobules)和大孔(hole)。根据上颌窦炎的发病情况,可以推测古代人类生存环境,并为探讨生产方式与职业分工提供间接证据。

    上颌窦较易受到感染产生炎症反应,因此上颌窦炎是现代社会最常见的炎症性疾病之一。然而,由于能够识别呼吸系统疾病的骨骼变化较少,其在考古样本中的报道与研究并不多见,目前发现的古代人类骨骼证据在时间与空间上的分布都较为分散,最早的病例来自公元前5500年左右的欧洲地区,伴随工业化与城市化进程,上颌窦炎发病率明显升高。诱发上颌窦炎的因素较为复杂,比如,甘肃黑水国遗址汉代人群患上颌窦炎情况与性别和年龄均无关,推测寒冷干燥的气候条件、风沙天气、室内和室外的空气污染、病原微生物及牙齿根尖疾病等多种因素均可能导致黑水国古代居民患上严重的上颌窦炎。相关学者对欧洲、美洲、非洲的古代人类遗骸的研究发现,在不同时期、不同地区、不同生活方式的人群中,上颌窦炎发病率存在差异,研究者认为空气质量欠佳是上颌窦炎的主要病因,如花粉、工业排放、雾霾等,与制陶、金属加工等相关的职业由于长期接触空气中的颗粒物具有较高的患病概率,而狩猎采集者、农业生产者和社会地位较高的人群对上颌窦炎易感性较低。

    4. 弥漫性特发性骨肥厚症。

    弥漫性特发性骨肥厚症(Diffuse idiopathic skeletal hyperostosis,DISH)是一种以韧带、肌腱等软组织及其附着部位的钙化和骨化为主要表现的全身性非炎症疾病,被纳入特殊表现的脊柱退行性疾病的范畴。在古代疾病研究中,应注意DISH与椎骨关节退行性改变、椎间盘疾病及强直性脊柱炎等骨骼疾病的鉴别,早期研究中DISH的命名也并不统一。DISH的发病机制尚不明晰,目前研究发现其与地区、性别、饮食、遗传、脊柱创伤等因素存在关联,往往伴随糖尿病、高脂血症、高血压、高尿酸血症和心血管疾病等复杂的并发症,患病率随着年龄的增长而显著增加,组织学研究已经表明肥胖症与DISH之间存在显著的正向因果关系。

    目前报道的古代DISH病例时间跨度大,分布范围广,距今约5万年前的近东尼安德特人骨骼遗存上已经出现相关痕迹,公元前13世纪在位的埃及法老拉美西斯二世可能也罹患该疾病,东亚地区最早的病例则相对较晚,发现于东周人群中。鉴于DISH与古代人群生活方式、社会分工和社会地位的相关性,学界对其致病机制有了一定的认识。DISH被认为与一些代谢性疾病如佩吉特骨病、糖尿病、血脂异常、高尿酸血症、维生素A代谢紊乱和生长激素水平升高等存在关联,可能是由生活方式等因素引发的多系统激素紊乱,如Rogers等人发现欧洲中世纪主教等社会地位较高的群体由于高热量饮食更易患此病。部分研究者认为,DISH可能是特发性甲状旁腺功能减退、血管疾病或反复微创伤的结果。如东周东赵遗址人群的DISH被认为由脊柱长期机械负荷导致,支持DISH由反复微创伤引发的观点,该人群DISH发病率与行为模式和职业存在关联,而与饮食结构的关系有待进一步探讨。

    骨骼非特异性感染与退行性疾病种类繁多、病因复杂、历史悠久,目前研究结果表明两类疾病与性别、职业分工、饮食结构、社会分化等重要话题紧密关联,是受自然环境与社会环境影响下的产物,为研究古代社会文化提供了一定线索。然而,仅凭骨骼遗骸中非特异性病变的肉眼观察,无法准确判断其具体病因,以发病机制为基础的考古推理仍然存在较大空白。

    (三)神经血管疾病

    古病理学不仅可以诊断发生于骨骼的原发性疾病,亦可诊断起源于软组织并在骨骼上留下痕迹的疾病。凭借这一特性,在特定条件下,神经血管类疾病亦可通过骨骼呈现的体质特征进行诊断分析。然而,这类疾病在古代样本中较为罕见,古病理学领域的诊断标准尚未完全统一,病因溯源仍存在诸多争议,其与古代人类社会环境、生活方式及健康状况之间的潜在关联,仍有待多学科研究予以揭示与阐释。

    古代神经血管疾病的报道主要为脑膜中动脉(Middle meningeal artery,MMA)动脉瘤。MMA动脉瘤极为罕见,可分为真动脉瘤和假动脉瘤两种类型,其中真动脉瘤的形成常与血流压力增加或病理状况相关,如硬脑膜动静脉畸形、佩吉特病、高血压和脑膜瘤等。神经血管疾病恶化、动脉瘤破裂带来的出血可能导致古代儿童死亡。早在公元前9世纪意大利地区的伊特鲁里亚文明墓葬,研究人员在儿童骨骼上就发现了MMA动脉瘤痕迹。随后,在公元前7至前6世纪的意大利地区相同文明墓葬中又发现一具8至9岁儿童骨骼遗骸,在其颅内可观察到大片凹陷的病变。经研究推测,该病变很可能由罕见且早发的脑膜中动脉囊状动脉瘤长期压迫引起,但此病变也存在由硬脑膜动静脉瘘(Dural arteriovenous fistulas,DAVFs,即硬脑膜动脉与皮质静脉或静脉窦之间缺乏血管床的异常连接)引发的可能性,MMA动脉瘤与DAVFs可能有一定概率共存。由于研究材料的有限性,目前基于古代人类遗骸的神经血管疾病报道和研究均较少,有待未来更多的考古发现。

    (四)口腔疾病

    在古病理学研究体系中,口腔疾病研究占据重要地位,这是由于牙齿样本保存状况较好,样本量较大,且该类疾病病理特征易于鉴别。作为口腔疾病的重要类型之一,龋齿(Caries)自智人分化以来就与人类相伴,早期研究在更古老的南方古猿、爪哇直立人和尼安德特人化石上都发现了可能的龋齿病例,自从农业起源,伴随农业化程度的加深,龋齿率明显增高,与植物性食物的摄入和农业经济的发展密切相关。牙齿生前脱落(Antemortem Tooth Loss,AMTL)、牙髓炎(Pulpitis)、根尖脓肿(Apical abscess)、釉质发育不全(Amelogenesis imperfecta)、牙结石(Dental calculus)和牙周病(Periodontal disease)等也均属于常见的口腔疾病类型,其中牙周病是指包括牙槽骨、牙周韧带、牙骨质、牙龈及黏膜在内的牙齿周围组织炎症,主要由牙结石的长期沉积引起,而牙齿生前脱落可能由多种原因导致,如牙槽骨外伤、牙周病导致的严重骨质流失及人为拔牙等。这些口腔疾病或病症间存在复杂关联,常被综合运用于古代人群口腔健康状况的评估。古人口腔健康状况与其日常饮食紧密关联,据研究者总结,高蛋白饮食会增强口腔碱性,形成易于形成牙结石的口腔环境,高龋齿频率则指向碳水化合物为主的饮食结构。对牙齿病理状况的观察,为探究古代社会分化与复杂程度提供了新视角。

    由于古代人群牙齿的研究资料非常丰富,国内外相关学者针对口腔疾病开展了大量研究工作,发现口腔健康与饮食结构、生业模式、性别分工以及社会阶层等相关。例如,通过比较青铜时代晚期中国北方不同生业模式人群的口腔健康差异,发现相较于农牧混合模式及游牧模式,以单一农业为生的人群口腔健康状况最差,这一结论与全球范围内诸多地区的研究结果相契合,进一步证实了高碳饮食对口腔健康的潜在损害。除饮食习惯外,牙齿病变也与年龄和性别等因素有关,具体表现为牙齿病变程度随着年龄的增长显著增加,且女性的牙齿病变普遍比男性更严重。内蒙古中南部地区出土的先秦至汉代古人类龋齿患病情况的研究也观察到了类似的现象,印证了上述结论。国外学者Vu Tran将龋齿、牙齿生前脱落(AMTL)和牙结石作为口腔健康指标,通过口腔健康状况分析,Vu Tran研究了秘鲁库拉普遗址查查波亚人群的阶层分化程度与性别差异。该人群的龋齿与AMTL发病年龄较早,女性龋齿患病率更高而男性高牙结石的概率相对突出。咀嚼古柯叶的特殊文化习俗可能也对该人群的口腔健康产生了影响。除年龄与性别造成的口腔疾病差异外,该人群的口腔健康与丧葬规模整体较为一致,暗示尚未形成等级社会,同性个体饮食应具有一定的同质性。

    口腔健康的性别差异在世界范围内尤其是农业社会中较为常见,但不同地区之间古代人群的性别差异可能遵循不同模式。研究发现,春秋战国时期中原地区的城市居民与北方边疆以农业为生的人群龋齿患病率的性别差异呈现不同模式。内蒙古土城子遗址中,女性的龋齿率远高于男性,与世界范围内多数考古遗存观察结果一致。而河南省新红遗址男性的龋齿率高于女性,这一特殊现象暗示着城市居民与新红遗址的边疆居民可能因城市化进程和农业化程度的差异,在性别分工或食物资源分配上存在不同机制,从而造成了口腔疾病的患病情况差异。

    口腔疾病在数十万年前的化石材料上就已经发现,伴随着人类生业模式和饮食结构的变化,口腔疾病在患病率和病理表现等方面也发生了相应的改变。丰富的古代牙齿遗存为通过口腔疾病探究饮食话题奠定了基础,目前的口腔疾病研究能够探讨古代人群的资源分配、生活方式以及区域差异。由于涉及饮食话题,口腔疾病研究与稳定同位素分析等研究手段具有开展多学科研究的巨大前景。相关学者也在尝试构建口腔疾病指数来量化不同风险因素对古代人群口腔健康的影响,以进一步完善口腔疾病诊断及病因评估体系。

    (五)创伤

    创伤,即人骨上显示出的所有外部物理损伤或变化,可系统划分为四大类型:骨骼的部分至完全骨折、关节错位或脱位、神经断裂或血液供应中断、人为导致的骨骼形态或轮廓异常这四种类型。创伤与运动行为、生活方式及暴力冲突有较密切的关系,最早在古人类化石上出现,一直伴随着人类演化进程,在古代人群中的体质特征研究中占有重要地位,为深入了解古代社会文化进程拓宽了研究视野。

    创伤在人类进化早期(如南方古猿)就已经出现,在后续的直立人、尼安德特人和智人等中均有发现,如广东马坝人头骨化石表面发现一处面积约30mm2、深度约1.5mm的半圆形凹陷,该区域表面粗糙并伴有波纹状隆起,颅骨内侧凸起,周围有明显的愈合痕迹。通过CT扫描进一步证实,该区域存在颅骨外板和板障增厚等愈合证据。经过与世界各地中、晚更新世的人头骨外伤标本进行对比研究,研究者推断马坝人头骨上的痕迹是头骨局部受到钝器打击造成外伤的愈合痕迹,很可能是当时人类之间暴力行为的结果。此项研究不仅为东亚地区最早的人类之间暴力行为提供了确凿的骨骼证据,同时还展示了当时人类在受到严重暴力伤害后的自愈及长时间生存能力。

    除了古人类化石研究,历史时期的考古遗址中常见人骨创伤痕迹,例如公元前5世纪内蒙古井沟子人群死亡年龄呈现年轻化的特征,骨骼上多见创伤,其中女性创伤率更高且颅骨创伤在女性群体中更常见。研究者分别在两个个体的右髂骨和第一腰椎上发现了嵌入的铜箭矢及其造成的损伤,通过扫描重建,获取了关于箭矢样式和损伤机制的详细信息。创口缺乏骨愈合的迹象表明个体在受伤后短时间内死亡,但箭矢对骨骼造成的创伤应均不足以致死,可能是伤及内脏器官导致了死亡,确切死因尚不明晰。根据箭矢样式并结合历史背景进行推断,伤者可能是游牧民族入侵者,在与当地居民作战中受伤。在青铜时代晚期的亚洲北部,气候变化和人口压力导致的移民可能引发了地区性的社会冲突,进而加速了中国北部农牧交错文化带的形成。这项研究丰富了研究者对中国北方农业民族与游牧民族交融过程的认识,为欧亚大陆东部历史的重建提供了有价值的证据。

    人群内部或人群之间的暴力冲突是导致古人骨骼创伤的重要因素,除群体间暴力冲突导致的创伤外,特殊情境下的创伤案例也为研究古代社会提供了独特视角。明代晚期御龙湾建筑遗址出土的大部分具有死前创伤的人骨在出土位置、骨骼部位出现情况、伤痕位置与类型及灼烧痕迹等方面,都符合同类相食的基本标准,例如,部分人骨发现于容器中,在骨骼上存在肉眼可鉴别的暴力砍砸和肢解痕迹,以及扫描电子显微镜检测出低温加热痕迹。此遗址出土的具有死前创伤的一批人骨,是我国目前最有可能属于同类相食事件的人类骨骼标本,为深入了解古代人相食现象及社会生存压力等问题提供了具有重要意义的考古学资料。

    根据前述分类,骨骼变形也属于创伤的一种,常见的骨骼变形包括跪距面、缠足、人工颅骨变形和骑马人小平面等。跪距面(Kneeling facets),即足部跖趾关节由于频繁的超背屈姿势而在跖骨远端上侧留下的小平面,鉴于这种骨骼变形与个体生活方式和社会文化习俗(如商代跪坐)密切相关,受到学界的广泛关注。在山东北阡遗址人骨跪距面的研究中,跪距面作为职业应力标志,被用来指示个体生前所经常从事的活动。由于该人群中跪距面高比例出现,并结合稳定同位素等研究结果,研究者推测该贝丘遗址大汶口文化时期人骨的跪距面有可能与加工食物和打鱼相关。历史时期考古材料中跪踞现象更加多见,但与史前跪踞面的形成原因不尽相同。赵永生等人对商代人骨上跪踞面开展了观察与分析,认为跪踞面与性别、社会等级无关,随年龄增长跪踞面相对更为明显,且部分个体右侧略重于左侧,可能是个人习惯所致。跪踞面的研究为殷商甲骨文与文物中出现的人物跪坐形象提供了事实证据,证实了跪坐这一坐姿在商代社会中的普及。此外,缠足导致的足部形态异常、象征身份认同的人工颅骨变形(Artificial Cranial Deformation,ACD)和长期骑马形成的骑马人小平面(Horse-riding)等现象都展现了骨骼变形与文化习俗、日常生活习惯的紧密关联。

    创伤作为持续性动作或暴力行为在骨骼上留下的痕迹,长期与人类共存,为探究古代人群的生存环境和生活状态提供考古证据。各类创伤现象,如骨折、关节脱位、刺伤、箭矢射中、截肢和颅骨穿孔等,不仅直观反映出个体正常生活与生存所面临的挑战,更反映了古代社会不同历史时期和文化背景下的暴力程度(如凶杀、战争等)、医疗技术发展水平以及资源分配情况等重要信息。目前基于古代人类遗骸对创伤的研究在国内外均开展较多,成果较为丰富。

    在具体研究的实践中,体质特征观察并不局限于传统肉眼观察,引入了医学中的影像学、定量超声测量等作为技术支持,使得病理观察和病情诊断更为细致和科学。然而,考虑到古代人类遗骸的特殊保存状况和古今人群健康状况及医疗水平差异,古代疾病的体质特征诊断标准并不能直接套用现代医学病理特征,需要系统整理并不断细化古代疾病的诊断标准。

    三、古分子视角下的古代疾病

    在古代疾病研究领域,传统方法是对古代骨骼遗存进行古病理学观察和描述。然而,由于大多数急性感染不会在骨骼上留下明显的病理痕迹,这种依托体质特征的方法存在局限性。因此,仅依赖传统的体质特征评估,难以准确、全面地了解古代人类疾病的病因和传播路径等真实情况。在此背景下,古分子研究作为新兴的跨学科研究方法,为古代疾病研究开辟了全新路径。古分子包括古DNA、古脂肪酸、古蛋白质以及非生命物质中的化学分子等。其中,古DNA研究是目前分子考古学研究的热门方向,是探讨人群迁徙、社会结构、疾病发展史等重要话题的科学手段。随着古DNA提取技术和测序方法(尤其是高通量测序)的发展,古DNA研究对象不仅仅局限在人类、动植物的遗骸上,还可以提取古代病原体基因组。通过古微生物DNA信息追溯古代疫病,能够为了解古代疾病的病因提供直接证据。目前通过古分子研究,确定了鼠疫、疟疾、流感、乙肝等多种传染病,构建了更加完整的古代人类疾病图谱,充分体现了古分子研究对于揭示古代病毒传播模式和适应性进化等信息的重要性。

    (一)鼠疫

    鼠疫(Pestis)是由鼠疫耶尔森氏菌(Yersinia pestis,YP)引起的传染病,鼠疫耶尔森氏菌是伪结核耶尔森氏菌(Yersinia pseudotuberculosis)进化出的变种,主要差异在于获得了两个毒性质粒——pMT1质粒和高拷贝pPCP1质粒。鼠疫具有高度传染性,在人口密集、流动频繁、卫生条件落后的环境下易引发大规模疫情,造成人口大量伤亡,严重破坏社会生产力,引发社会恐慌甚至信仰危机,也可能影响战争结局,引发王朝更迭或加速国家衰亡,同时促使人类重视公共卫生事业,客观上加速医学及其他相关科学的发展。

    研究鼠疫的起源和扩散最关键的是要明确鼠疫耶尔森氏菌(YP)在古代人群中的存在以及在不同历史时期的传播模式,而古分子研究在揭示鼠疫病史和理解其对人类社会影响等方面发挥了重要作用。古分子研究结果表明,鼠疫在距今五千年前就已经出现于欧亚大陆,可能起源于亚洲并随贸易扩散,人类历史上两次世界性鼠疫大流行分别是爆发于公元542年的“查士丁尼瘟疫”和14世纪在欧洲迅速蔓延的“黑死病”。具体来说,Nicola’s Raskovic等学者在斯堪的纳维亚农业人群遗骸中检测到已知最早的YP,重建并分析了瑞典新石器时代和青铜时代人类遗骸中的YP基因组。存在于提取自人类牙齿的古DNA中的鼠疫杆菌显示个体血液中曾存在高滴度的病原体,且欧亚大陆新石器时代和青铜时代的人类遗骸频繁检测出鼠疫,表明YP早在距今约5000年前就已经开始影响欧亚大陆人类健康,逐渐发展出多个谱系并扩散。新石器时代末期,YP于欧亚大陆的广泛传播很可能是依靠早期贸易网络而非通过大规模人类迁徙,这种传播方式使病原体得以快速、大规模、持续扩散,并且加速了欧洲人口衰减,有利于后来草原民族向欧洲的迁徙。此外,其他古DNA研究细化了YP的传播轨迹,越来越多的证据支持YP起源于亚洲地区,并随着古代贸易路线的拓展以及人类长距离迁移活动,逐步扩散至欧洲及世界其他地区。这些研究从分子层面揭示了YP的演化传播轨迹及其与人类活动之间的紧密联系。YP曾多次引发历史上的大规模流行病,其中最为著名的是6世纪爆发于地中海世界的查士丁尼瘟疫(Plague of Justinian)和14世纪爆发于欧洲的黑死病(Black Death)。查士丁尼瘟疫曾被质疑并非由鼠疫耶尔森氏菌引发,Michaela Harbeck等学者通过古分子研究确认德国中世纪早期墓葬出土的人类遗骸样本感染鼠疫,并精准定位于全球范围的进化树主枝0的N03至N05节点间,确认了查士丁尼瘟疫为鼠疫。进化树显示,YP的基因组在不同历史时期发生了变化,可能与其应对多样化环境和宿主的适应能力有关,导致每次瘟疫的流行病学特征与致病性存在差异。引发黑死病的病原体就是一种现已灭绝的YP变体,具有极强的传播力。Marcel Keller等研究者聚焦于中世纪流行于欧洲不同国家的YP基因组的微多样性,通过系统的基因测序与分析,检测到在中世纪鼠疫的第一次和第二次大流行期间,YP基因组呈现出相似的退化,其中包括两种同样的毒性元素,暗示鼠疫杆菌在大规模流行期间可能经历了趋同的进化。其进化带来的数次大规模瘟疫事件不仅造成了巨大的人口损失,还对当时的经济体系、社会结构以及文化发展产生了深远影响。

    学界普遍认为古代乱葬坑可能指向传染病大流行导致的集中死亡,Michaela Harbeck等学者对这一传统观点做出了补充,2—3人等少数个体的集中埋葬现象也可能是鼠疫等传染病传播导致的。国内鼠疫研究资料相对较少,内蒙古哈民忙哈遗址房内的埋人现象引发了学界广泛讨论,其中“鼠疫说”曾是解释该现象的主流观点之一。但是房内所埋人骨遗骸的古病理学研究并未观察到明显的疾病导致的骨骼异常,无法从人骨上找到这一人群死亡原因的直接证据,且分子生物学的研究也未获得有效的古DNA数据,疾病研究结果尚不支持“鼠疫说”的论断。

    鼠疫深刻影响了人类历史进程。古分子研究证实了鼠疫的多次大流行,将鼠疫的历史向前推进了千年,逐渐构建出病原体演化路径与可能的传播轨迹,同时补充了与鼠疫相关的考古学信息,提升了由考古背景初步推断鼠疫存在的可行性。目前,古代鼠疫的传播方式与路径仍存在争议,数次大流行的细节信息留有较多空白,有待未来更多古代样本的出土和研究。古代人类遗骸是否罹患鼠疫的科学诊断和对古代鼠疫的探究基本依赖于古分子研究,相较于在骨骼上留下痕迹可直接通过体质特征观察的疾病而言,在诊断程序上更为复杂,对骨骼遗存保存条件的要求也更为严苛,因而开展古分子分析研究古代鼠疫客观上存在一定难度。由于古分子学研究资料的匮乏,国内鼠疫的考古学报道数量相对较少,从考古背景初步推断鼠疫的标准也尚未形成。

    (二)疟疾

    疟疾(Malaria)是一种在全球范围内对人类健康构成重大威胁的寄生虫病,由疟原虫(Plasmodium species)引起,其中恶性疟原虫(P. falciparum)和间日疟原虫(P. vivax)是两种最致命的疟疾寄生虫。疟疾的传播与农业发展、人口增长和迁移模式等因素有关。

    系统发育分析表明,现存所有恶性疟原虫均源自黑猩猩寄生虫瑞氏疟原虫,可能在距今300万年前至1万年前通过单宿主传播;间日疟原虫可能在约4.5万年前智人进入欧洲时已广泛存在,此后长期对各地区人群产生影响。在历史时期,疟疾的空间分布较广,不仅频发于欧洲和美洲,也存在于高海拔地区。例如,Stephanie Marciniak等人对意大利南部1至2世纪古代人类遗骸进行的研究表明,疟疾可能在罗马时期就已经在地中海地区流行。其他研究者还在位于尼泊尔喜马拉雅高海拔地区的Chokhopani遗址发现了公元前800年的恶性疟原虫疟疾病例,提升了人类对于古代疟疾分布范围的认识。

    除历史流行情况外,古DNA研究在揭示疟疾传播模式也发挥了重要作用。欧洲殖民者将间日疟原虫带至美洲,而跨大西洋奴隶贸易可能将恶性疟原虫引入美洲。Megan Michel等人发现,现已灭绝的欧洲间日疟原虫与拉丁美洲古代及现代的寄生虫种群相似,很可能是在欧洲殖民美洲期间,欧洲殖民者将疟疾传播给美洲土著人民。此外,美国恶性疟原虫与现代非洲寄生虫基因表现出很强的相似性,由此推断,很可能是跨大西洋的奴隶贸易导致了这种寄生虫在大西洋区域的传播。Pere Gelabert等人通过重建疟原虫线粒体基因组序列,对欧洲间日疟原虫线粒体DNA基因组进行系统发育分析,发现该欧洲分支与当今南美洲最常见的单倍型密切相关,支持疟疾可能在后哥伦布时代人群互动过程中由欧洲传入美洲这一假说。欧洲恶性疟原虫线粒体DNA还与当今的印度菌株存在关联,显示出疟疾在人类历史上复杂的分化发展与传播互动。重建古代疟原虫基因组的能力,也为今后研究人类历史上疟疾寄生虫的起源、传播、进化和文化影响奠定了基础。

    古DNA研究还探讨了疟疾对人类遗传基因的影响。许多抗疟等位基因早在农业出现前就已存在,由于部分基因还与其他免疫应激反应相关,无法确定疟疾是否为致病因子。与镰状细胞性贫血相关的血红蛋白S变异和葡萄糖-6-磷酸脱氢酶(Glucose-6-phosphate dehydrogenase,G6PD)缺乏症等变异被认为有助于人类对抗疟疾,在疟疾大流行地区,自然选择可能促进了这些遗传变异的频率增加。这些遗传适应性的研究不仅帮助现代人理解疟疾如何在历史上的长期互动中塑造了人类基因组,还为现代疟疾防控策略提供了重要的遗传学信息。

    古分子研究已经证实了通过人类骨骼遗骸可以重构疟原虫的线粒体与核基因组,获悉全基因组数据,为今后研究人类历史上疟疾寄生虫的起源、传播、进化和文化影响奠定了基础。相关研究讨论了疟疾的起源与流行、传播途径及疟原虫演化与人类基因突变的复杂关系等重要问题。然而,在研究材料上,地中海地区作为历史上疟疾最猖獗的区域,由于温暖的环境条件不利于DNA保存,其古代基因组数据较为匮乏,一定程度上限制了古代疟疾研究的开展。目前,疟原虫自身的演化及其与人类的互动关系等话题中仍有多种假说共存,各种类疟原虫之间的复杂关系尚不明晰,还有待进一步研究提供更多证据支持。

    (三)病毒性疾病

    古DNA技术在病毒性疾病研究中的应用,特别是在古代流感病毒和乙型肝炎病毒的演化历史方面,取得了显著进展。这些研究不仅为现代人提供了关于古代病毒流行病学的重要数据,还增进了现代人对历史进程中病毒与人类宿主之间相互作用的理解。

    1. 流感。

    流感即流行性感冒,是由流感病毒(Influenza virus)引起的一种具有高度传染性的急性呼吸道疾病。其中,甲型流感的宿主范围广,包含猪、禽类等长期融入人类生活的动物,可在人与动物间传播,且具有高变异性,对人类健康的影响较大。临床观察表明重症甲型流感患者具有较高的病死率,且肺炎是流感患者最常见的继发症,发展至重症时致死率较高。流感病毒作为全球大流行病的病原体,其历史传播和影响一直是研究的热点。

    根据中医文献记载推断,早在春秋战国时期,古人可能已经对流感有一定的认识,外国历史文献中最早的证据来自公元前412年的希腊。学界公认首次流感大流行发生于1580年,遵循亚洲—非洲—欧洲—美洲的传播路径,而自公元1590年以来可能发生了10至13次流感大流行。

    通过应用古DNA技术,研究人员能够从保存下来的样本中重建流感病毒的遗传史。Taubenberger等人通过对1918年流感大流行期间的病毒样本进行全基因组测序与系统发育分析,检测到了与现代高致病性禽流感毒株H5N1相似的聚合酶蛋白氨基酸变化。另一研究团队的实验结果显示,当PB2、PA和NP蛋白来自人源病毒时,禽源PB1蛋白仍表现出最强的体外转录活性。由此,研究者提出1918年大流感并非像1957年和1968年大流行那样由重配毒株引起,而是禽流感病毒经过适应性进化感染人类,重配获得或是直接来自禽流感病毒的禽源PB1蛋白可能赋予了三次大流行的流感病毒复制优势,进一步提升了流感病毒的致病性。这些研究结果不仅帮助我们理解了流感病毒的历史传播和病毒对宿主的适应过程,还为现代流感病毒的防控提供了重要的历史参考。

    尽管流感应该在人类历史上长期存在,并发生多次大流行,目前流感仅能追溯至百年前,更早时期的资料较为模糊,主要依赖文献记载,缺乏科学实证。当下古分子研究关注的流感严格意义上发生于近代。

    2. 乙型肝炎。

    肝炎同样是一个全球性的健康问题,其中乙型肝炎是肝细胞癌的第二大致癌因素,由乙型肝炎病毒(Hepatitis B virus,HBV)引起,这也是导致人类肝炎的主要病原体,可由母婴传播或经血液和生殖器分泌液传播。

    HBV的历史分布和演化一直是古代疾病研究的重点,其起源很可能与远古时期频繁的跨物种传播有关。通过对古代HBV患者的DNA进行测序,研究人员能够追溯该病毒的遗传变异和演化路径。关于HBV在人类中的起源这一话题,学界提出非洲和美洲两种起源假说。

    几乎所有HBV基因型都有悠久历史,共同祖先可追溯至约12000年前,目前在俄罗斯和匈牙利发现了距今4300年的A基因型,D基因型古代样本均来自中亚,HBV的传播可能主要通过欧亚大陆人类大迁徙实现。具体来说,研究人员从亚欧大陆和美洲人类骨骼遗骸中提取到了长时段的HBV基因数据,将所有基因型最晚近的共同祖先追溯至距今约20000年至12000年前。Mühlemann等人分析了青铜时代至中世纪的HBV患者基因组,发现在非洲和亚洲常见的基因型以及一个印度亚基因型在欧亚大陆早已存在,从古代和现代HBV基因型中观察到的时空分布与这一时期人类大迁徙的历史记载吻合,一定程度上揭示了HBV在古代欧亚大陆的遗传多样性和演化历史以及欧亚大陆间人口的流动。此外,HBV的某些基因型可能与特定的地理区域或人群有关,构建完整传播网络还有待未来更多古DNA研究结果的支持。

    经过数十年的古分子研究,HBV多种基因型的古老性已被考古发现与古分子研究证实,长期跟随人类大迁徙的传播网络初步构建。然而,HBV的起源与进化规律等诸多重要问题都存在矛盾的证据或不同的假说,亟需寻求更多确凿证据进行验证。

    古分子研究突破了传统考古学研究和体质特征观察对少量个体的初步研究,研究对象也不局限于人类,能够揭示疾病致病原理,揭示仅凭现代序列难以体现的病原体进化复杂性,追溯病原体的传播,探寻其与人类的复杂互动。

    随着提取和分析技术的不断提升,10万年内的人类和病原体的遗传研究在未来将会越来越普遍。国内古分子研究在探究古代疾病进而解析古代社会发展与人类演化进程方面仍有巨大潜力。

    四、多学科研究范式下的古代疾病

    古代疾病研究始终面临证据碎片化、疾病表现复杂性等诸多挑战,单一学科的研究方法往往难以全面且准确地揭示疾病的本质特征与演变规律。在此背景下,多学科研究范式逐渐成为古代疾病研究的核心路径。该范式整合传统体质人类学、古分子生物学、考古学、历史学等多学科的理论与技术手段,通过学科交叉融合,不仅能够从骨骼病变等体质特征中获取直观信息,还能借助古 DNA 分析、蛋白质检测等前沿技术深入探究疾病在分子层面的发作机制、演化轨迹以及传播路径。无论解析代谢性疾病的致病原理,还是诊断骨骼特异性感染并构建疾病时空框架,多学科研究范式均展现出显著优势,有助于系统理解古代疾病的出现、发展及其对人类健康和社会文化的影响。

    (一)代谢性疾病

    在古代文明演进历程中,代谢性疾病始终是影响人类健康的重要因素。部分代谢性疾病会产生明显的骨骼病变,同时也和个体基因表达密切相关,如佩吉特骨病和软骨发育不全性侏儒症两大代谢性骨病。在这种特殊的情况下,传统体质特征和古分子相结合的多学科研究范式可以更准确地揭示该类代谢性疾病的致病原理。

    1. 佩吉特骨病。

    佩吉特骨病(Paget disease of bone,PDB)又称变形性骨炎,是一种慢性骨代谢疾病,其病理机制在细胞层面表现为破骨细胞增大、增多,同时伴随成骨细胞增加且矿化不良,致使骨形成加快6至7倍。这种代谢异常会导致新骨混乱,表现为骨骼外观增大、外表坚硬、但骨质量较差的病症,多累及盆骨、颅骨、长骨等骨骼,并且极易引发骨折、骨肉瘤或关节炎等并发症。PDB的病因尚不明晰,早期认为佩吉特骨病或与人畜共患的传染病有关,现代遗传学研究表明PDB有家族遗传倾向,患者的CSF1、OPTN和TNFRSF11A三种基因更易出现缺陷。

    较早的PDB可追溯至公元前3500年至前2000年的法国与意大利,欧洲地区不断有历史时期人骨证据出土,而亚洲地区的古代与现代病例的发现与报道均较少。在欧洲地区,英国诺顿修道院遗址出土的多具中世纪成人骨骼与现代PDB具有相似的骨骼病理特征,且古DNA分析显示miR-16表达水平与现代病例一致,由此判断古代样本应罹患PDB。与现代PDB相比,中世纪PDB患者骨骼呈现的病理变化更多样,平均发病年龄更低,且发生病变的骨骼比例较高,可能由特殊生活环境或遗传因素所导致。蛋白质检测结果显示p62蛋白可能在C末端泛素结合结构域发生修饰,导致成骨细胞异常活跃,进而影响骨骼发育,这一发现为PDB这一疾病的历史提供了新的见解。

    目前,有关古代PDB的多学科研究能够通过体质特征与核酸双重证据实现PDB的精确诊断,初步构建PDB的历史分布,比较PDB在古代特定时期与现代发展的差异,发现古代PDB在分子层面的发病机制。针对PDB等人畜共患或与动物存在一定关联的疾病,若能综合考量各类证据类型,对人类与动物骨骼遗存开展古病理学与古分子研究,将有助于深化对复杂病症的认知。若能在目前病例较少的亚洲地区发现更多病例,也将丰富人类对PDB的认知。

    2. 软骨发育不全。

    侏儒症是生长激素缺乏导致的一种代谢性疾病,软骨发育不全(Achondroplasia,ACH)是侏儒症的一种类型,是一种罕见的常染色体显性遗传病。现代医学观察显示约80%患儿由新发变异引起,约20%是由家族遗传所致。成纤维细胞生长因子受体3(Fibroblast growth factor receptor 3,FGFR3)基因(OMIM#134934)是其主要致病基因,c.1138G>A(p. Gly380Arg)和c.1138G>C(p. Gly380Arg)是最常见的2种致病性变异。软骨发育不全患者在外观上具有显著的体质特征,与人骨遗骸相关的典型临床表现为非匀称性身材矮小,身材明显缩短,且四肢较短,活体中也伴随有前额突出和面中部后缩,呈现特殊的面部形态,同时存在罹患多系统并发症的风险,患者平均寿命缩短10年。

    软骨发育不全已经存在了数千年,根据历史记载和艺术作品的相关描绘,古代埃及应有不少相关病例,目前较早的骨骼证据来自新石器时代中期的法国。分子生物学研究进一步提升了对软骨发育不全的认识,Lucas L. Boer等学者在一例180年前软骨发育不全骨骼样本中检测到了FGFR3基因编码的杂合子G1138A变异,以历史证据有力证实了该病症是由基因FGFR3的致病性错义突变引起。对于体质特征不典型或不明确的古代人类骨骼遗存,通过古分子研究证实其携带FGFR3基因特定的致病性变异可以辅助诊断。

    多学科方法在古代ACH研究中具有巨大运用潜力。体质人类学与古分子研究可以实现ACH的精确诊断,并进一步从分子层面探究致病原理。而ACH作为考古环境中最常见的发育不良类型之一,根据考古背景如墓葬位置体现出的患病个体与群体的关系,研究者可以推测特定时期身体缺陷对社群融入的影响,从疾病探究社会文化因素。

    传统体质鉴定、古分子检测与考古学的结合能够较为准确地鉴定古代人类的代谢性疾病类型及其患病情况,尤其是遗传类代谢性疾病,补充对疾病历史的认识,探究疾病背后的文化因素,同时也为致病机制的探索提供古分子学方面的证据,深化现代医学与生物学对于特定疾病的了解。

    (二)骨骼的特异性感染

    特异性感染是指由于已知确切致病菌所引起的传染性疾病,骨骼的特异性感染主要包括麻风、梅毒、雅司病和结核病等。当前,针对骨骼特异性感染的研究多采用体质人类学与分子生物学相结合的多学科研究方法。

    1. 麻风。

    麻风(Leprosy)是一种由麻风分枝杆菌(Mycobacterium leprae)引起的传染性疾病,可能会导致鼻腭综合征、肢骨远端溶解等独特的骨变异。在古病理学研究中,发生骨质改变的瘤型麻风病最为常见,此类患者抵抗力低,通过与环境中的病原体的长期接触,人类自身的免疫力得以增强,发展为传染性更弱的结核样型麻风。历史证据表明,麻风患者由于面部和四肢形态异常,生理与心理健康都受较大影响,但这种在历史上引发空前大恐慌与偏见的疾病也在一定程度上反向推动了人类免疫力的提高。

    目前,较早的麻风病骨骼证据是来自埃及三角洲地区公元前250年(托勒密时期)的四具头骨,据学者推断此时麻风病已存在多年,可能起源于非洲。目前,麻风病最初如何感染人类及其传播过程都尚无定论,根据出土骨骼信息和历史文献,有说法认为麻风病是由亚历山大东征从印度恒河流域带入地中海地区,有研究者提出麻风病可能是在殖民时期传入新大陆,也有证据表明麻风病是从亚洲传入北美。

    对古代麻风的研究开始较早,早在20世纪50年代,Møller-Christensen就运用来自丹麦中世纪麻风病医院墓地的骨骼材料,揭示了当时临床医学尚未察觉的麻风病典型骨病变特征,使人们首次识别麻风病患者的骨骼变化,古病理学研究直接对现代医学作出了巨大贡献。过去古代麻风病的研究主要依赖出土人骨的形态学分析,国内外如西安幸福林带唐代遗址、山西省朔州市平鲁县汉代墓葬、意大利公元前4—前3世纪墓地等出土的人骨遗骸中均发现麻风病例。通过这些报道发现麻风病存在的时间跨度较大,分布范围较广。近年来,古分子研究为麻风病的诊断提供了重要依据,有助于在未来进一步探讨麻风病的传播路径、影响麻风分枝杆菌毒力的基因变化与麻风病在中世纪衰落之间的关联,及其与结核病“此消彼长”的科学解释。

    2. 密螺旋体疾病。

    梅毒(Syphilis)和雅司病(Yaws)分别由梅毒螺旋体和雅司螺旋体引起,均属于密螺旋体疾病(Treponemiasis),会使骨骼发生特异性感染,但传播方式存在差异。晚期梅毒最显著的特征是骨膜反应和胫骨重塑,同时伴有骨质破坏,在古病理研究中具有易于辨认的人体骨骼改变。

    密螺旋体疾病主要存在四种起源与传播理论,其中哥伦布假说认为该疾病由美洲传至欧洲,而前哥伦布假说持相反观点;一元论认为密螺旋体疾病由一种单一的有机体引起的,受气候、社会和人口因素影响产生不同表现;菌株进化论认为约公元前15000年时密螺旋体疾病从非洲向全球传播,约公元前10000年菌株第一次发生突变,将品他病转变为雅司病,约公元前7000年左右转变为地方性梅毒,适应温暖干旱气候,从非洲一直延伸到西亚至中亚地区,于公元前3000年左右在西南亚地区的城市化进程中演变为性病梅毒。中国目前发现最早的密螺旋体病案例来自公元前1000年至前500年青海地区的卡约文化,可能伴随游牧民族从地中海或中东地区与欧亚草原传播而来,正处菌株进化论支持的流行区最东北部。而性病梅毒在唐代就已存在于中国。

    雅司病、性病梅毒和地方性梅毒三类疾病对骨骼造成的损伤范围和特点较为相似,在部分情况下仅针对病变的骨骼标本很难区分到底是由哪类疾病所造成,而多学科研究能够实现精细诊断。Kerttu Majander等学者从15世纪欧洲人类遗骸中提取到四个古代梅毒螺旋体基因组,其中两个属于梅毒螺旋体的变异范围内,另两个为近似雅司螺旋体的菌株,这显示古代欧洲梅毒螺旋体基因组中存在高度多样性,并证实了欧洲存在地方性梅毒。多学科研究方法的普及还能够构建疾病发展的时空框架。根据分子钟推算,密螺旋体家族最晚近的共同祖先TMRCA可以追溯到公元前2000年。世界大部分地区均发现了不同时期密螺旋体疾病古病理的实证案例,其传播可能与各地人群迁徙存在密切关系。根据测年结果,梅毒存在于接触新大陆前的欧洲,因此可能起源于旧大陆地区,近年来的古分子研究结果逐渐推翻了梅毒是由哥伦布从美洲带到欧洲的传播路径假设。

    多种起源假说均支持密螺旋体疾病应非我国起源,国内对古代密螺旋体疾病的发现和报道较少,史前、汉晋、南北朝、唐宋均存在可能的个例,部分无法细分具体类型。研究方向主要为通过体质特征诊断密螺旋体疾病,并根据时代背景和地区特征的考古学或历史学讨论,认为其随外来移民和商业活动等传播,少量多学科研究依托体质人类学、考古学、历史学和古环境学方法,未见融合古分子视角的相关研究。

    在古籍中可见类似密螺旋体疾病的相关记载,且骨骼遗存表明密螺旋体疾病在青铜时代已经进入中国,因而我国作为重要的被传播地,研究国内古代密螺旋体疾病对了解该疾病的演化与传播具有一定意义。包含古分子研究的多学科研究范式可以确诊具体类型,讨论个体所属人种与来源,在全球视角下的密螺旋体疾病研究中对体质人类学与考古学分析结果作出重要补充,验证疾病起源假说。

    3. 结核病。

    结核病(Tuberculosis,TB),是一种由结核分枝杆菌(Mycobacterium tuberculosis)引发的慢性传染病,是人属疾病中最古老的疾病之一,至今仍是全球范围内导致死亡的主要传染病。人体感染结核主要是由人型结核分枝杆菌(Mycobacterium tuberculosis)和牛型结核分枝杆菌(Mycobacterium bovis)所致。受限于考古材料中软组织遗存的稀缺性,古代疾病研究在体质特征方面主要通过骨骼病变探究骨结核的患病情况。骨结核一般是继发病灶或是局部表现,较为罕见,仅约3%至5%的结核病病例会发生骨骼病变。脊柱病变占骨骼病变的半数左右,典型体质特征为椎体破坏,形成孔洞,导致受累椎体塌陷、相邻椎体粘连的骨骼形态变化。此外,关节干酪样变性、肋骨病变、胸膜钙化、颅内新骨形成等病变也可能与骨结核存在关联。

    早期对结核病的研究主要是基于形态观察,结合放射学和组织学方法进行,总结出结核病的诊断标准,奠定了结核病古病理研究的基础。随着古分子研究的进步与古代病原体DNA的发现,对结核病的古病理研究取得了进一步发展,结核分枝杆菌进化理论等得到突破,在揭示结核病史方面取得了重要进展。多学科研究表明,与结核病相关的基因变异可追溯到30000年前,而最早的病例来自公元前8000年左右的以色列新石器遗址,欧洲、亚洲、非洲等地区都有大量古代结核病的报道和研究,其在亚欧大陆的传播或与人群迁徙存在关联。具体而言,通过对1013个古代欧洲人群基因组的大型数据集进行分析,Gaspard Kerner等人发现了一个与TB易感性相关的基因变异——TYK2 P1104A。研究表明,TYK2 P1104A变异体可以追溯到约30,000年前的西欧亚人群的共同祖先。随着安纳托利亚新石器时代农民和亚欧大陆牧民大规模迁入欧洲,变异体出现频率显著波动,其中在青铜时代P1104A变异体的频率显著增加,但在铁器时代之后,其频率急剧下降,这表明在过去2000年中,这一变异体受到了强烈的负向选择,导致纯合子的相对适应度降低了20%,证实了这一时期结核病给欧洲人群健康带来的巨大负担。这一研究不仅提供了TB在历史上流行的直接证据,还揭示了人类对TB的遗传易感性。

    目前,结核病的古分子研究在国内开展较少,国内古代结核病的诊断仍主要依靠传统体质特征分析。例如,在中国新疆吐鲁番加依墓地出土了青铜至铁器时代的2例罕见脊椎病理性损伤个体,出现较为严重的溶解性病变。根据CT和X光影像学分析及临床医学资料参考,高国帅等人推测两例个体应患脊柱结核病,认为该病感染可能与动物的驯化和农业的发展、定居生活、城市化发展、人口过度拥挤等多种因素有关,但是缺乏古分子学证据。

    由于骨骼的特异性感染不仅可以通过体质特征和DNA检测两种方法进行精确诊断,还能对传染病具体病因、病菌的传播与自身演化进行更深入的分析,因此,多学科分析方法具有巨大运用前景。纵观人类文明史,人口流动始终是传染病扩散的主要途径,微生物与人类的文化习俗、生活方式及行为模式同步传播、改变。对骨骼特异性感染的深入研究不仅具有了解病菌演化的生物学意义,也是探究古代社会文化重要手段。

    麻风、密螺旋体疾病、结核病等骨骼特异性感染的多学科研究已取得显著成果,但疾病的起源、传播与演化以及人类与病原体的互动等话题仍然留有巨大的讨论空间,国内学者需进一步拓展多学科尤其是古分子方面的研究。

    (三)肿瘤

    肿瘤可分为良性和恶性两大类。良性肿瘤往往在原发病灶独自生长,仅在局部扩散;恶性肿瘤是指原发生长物向身体其他器官无限制地局部扩散,在肿瘤发生部位可能还伴有自发性骨折。国内外古代样本中可由体质特征判断的的良性肿瘤包括骨瘤、骨样骨瘤、骨血管瘤等。骨血管瘤(Hemangiomas)为原发于骨血管的良性肿瘤,是一种掺杂于骨小梁之间的呈瘤样增生的血管组织,好发于扁骨,如脊柱、颅骨、颌骨,长骨少见,分为海绵型和毛细血管型。在考古样本中可辨别血管瘤的皮质破坏属于疾病晚期特征,多发生于老年个体,因此考古样本中呈现的骨血管瘤患病率远低于现代临床样本,如Joseph E. Molto等研究者在一具埃及地区出土的罗马时期老年女性骨骼上诊断出晚期脊柱血管瘤(Vertebral hemangiomas,VHs)。恶性肿瘤包括骨肉瘤、多发性骨髓瘤、骨转移癌等。骨转移癌(Metastatic Carcinoma)是指原发于某些器官的恶性肿瘤通过血液循环、淋巴系统或脑脊液转移到骨骼的继发性恶性肿瘤,通过再转移或直接浸润到骨骼造成骨破坏。例如张群等对宁夏石砚子墓地出土的东汉时期颅骨缺损个体开展体质观察,血管压迹的增粗和加深显示出滋养肿瘤的异常血管形态,推测个体颅骨所见的大面积骨质破坏应由颅骨转移癌所导致。

    根据文字记载,肿瘤在中国可追溯至公元前16至前11世纪的殷商时期,汉墓出土的《五十二病方》中已有骨睢(疽)及其治疗方案的记载。错构瘤在距今约5300年的仰韶文化人群中已经出现,错构瘤是一种类瘤样畸形,不是一种真性肿瘤,可归入肿瘤性疾病,表现为古代人类颅骨上常见的圆形致密骨质凸起。在真性肿瘤中,中国甘肃地区发现了距今4000年前的脑肿瘤病例。在世界范围内,北欧和北非地区的古代癌症病例最多,具有生物考古证据的人类癌症病例最早可追溯至公元前4000年,研究人员还在南非斯瓦特颗兰斯洞穴距今160万至180万年前的人科骨骼化石上发现了癌症痕迹,显示出人类长期的癌症史。

    目前,古代肿瘤主要基于骨骼上的缺陷或肿块进行诊断。人类遗体在腐烂分解过程中会对骨骼产生不同的影响,可能出现类似癌症破坏造成的结果,抑或掩盖原发肿瘤的踪迹。此外,股骨良性增生等病症也可能会被错误诊断为肿瘤。古代人群患癌率显著低于现代人群,除诊断误差外,这种现象一方面与其死亡年龄普遍低于现代人群癌症高发年龄段有关,另一方面也可能受到饮食和环境因素影响,与现代社会致癌物质的普遍性存在关联。

    对肿瘤的初步诊断主要依赖骨骼遗存的体质特征观察,而组织学的应用则能够实现对木乃伊样本的肿瘤诊断,拓展了对古代肿瘤类型的了解。研究者已经成功诊断出了多种良性肿瘤,包括皮肤纤维瘤、脂肪瘤、寻常疣、尖锐湿疣等。其中,尖锐湿疣是由特定类型人乳头瘤病毒(HPV)引发的外生殖器及肛周区域皮肤乳头状瘤。意大利那不勒斯圣多美尼克教堂中的一具16世纪女性木乃伊是来自阿拉贡王国的贵族玛丽。其外阴区的宏观体质和组织学特征显示可能存在肛门生殖器疣,结合古DNA研究,确诊感染高危型HPV 18和基因为JC9813的低致癌性HPV。阿拉贡国王费兰特一世木乃伊的组织学分析显示其患结直肠癌,DNA研究检测到结直肠癌中K-ras基因最常见的突变,可能遵循K-ras突变驱动结直肠癌的典型病理机制。稳定同位素分析表明费兰特一世摄入大量肉食,高肉食摄入可能导致体内烷基化物质的增加进而刺激K-ras基因突变。恶性肿瘤的显微诊断结果以上皮性癌为主,尚未发现现代人群中常见的肺癌、肝癌、胃癌等内脏器官癌症,有待进一步研究。对古代恶性肿瘤的研究也有助于理解现代恶性肿瘤所致的癌症的发病机制,以更好地应对这一全球性健康危机。

    对古代肿瘤的研究综合了体质人类学、古分子生物学、组织学、稳定同位素分析、考古学、医学、历史文献与艺术作品研究等多种学科,在少数较为全面的研究案例中能够进行精确诊断和病因推测。尽管近年来已开发出多种癌症生化检测方法,但由于假阳性结果的发生率较高,这些检测手段在现代医学中的应用也较为局限,不能作为干尸材料的诊断依据。组织学的运用对古代人类遗骸的保存环境提出了较高的要求,目前此类报道主要集中于埃及,智利和意大利可见少量。尽管适用样本较为有限,但组织学为研究古代人类疾病提供了全新思路,古代肿瘤的研究案例也是目前综合性最强的多学科研究范式。

    当前,古代疾病研究已初步形成多学科交叉融合的研究路径,可综合运用体质人类学、古分子生物学、组织学、稳定同位素分析、考古学、医学及历史文献与艺术作品研究等多领域的理论与方法。这种文理结合的多学科研究范式的应用潜力与学术价值已经在古代代谢性疾病、骨骼特异性感染和肿瘤的研究中得到了初步验证,是未来古代疾病研究的重要方向。

    五、结语

    古代疾病研究作为生物人类学、考古学与分子生物学深度交叉的前沿领域,其学科价值早已超越技术方法迭代的表层范畴,迈入以认知重塑为核心的新阶段。体质特征分析、古分子研究与多学科范式的递进融合,不仅为识别古代疾病类型、追溯病原体演化提供了更精准的工具,更从根本上打破了疾病史与人类文明史的割裂壁垒,使我们得以重新审视疾病作为隐形变量在人类历史进程中的深层作用,彻底革新了对健康、疾病与文明互动关系的传统认知。

    体质特征分析的价值重构,在于其从疾病诊断工具转变为解读古代社会的生物学密码。通过代谢性疾病(如骨质疏松症、氟骨症)的群体分布差异,我们得以关联农业转型对饮食结构的改变、社会阶层对营养资源的分配(如古埃及不同阶层人群的骨密度差异);通过骨骼感染(如骨关节病、骨膜炎)与创伤的类型分析,我们能还原古代人群的职业分工(如殷墟铸铜人群的上肢骨关节炎高发)、暴力冲突模式(如青铜时代农牧交错带的箭矢创伤),甚至生计模式的区域分化(如贝丘遗址人群的跪距面与渔猎活动的关联)。这种从骨骼痕迹到社会图景的认知跃迁,使古代健康史不再是孤立的病理记录,而是嵌入古代社会经济、文化结构的关键组成部分,为历史人类学提供了可量化、可验证的生物学实证。

    古分子研究的突破性贡献,则在于其打破了病原体演化与人类历史的时空壁垒,首次从分子层面证实疾病是塑造人群迁徙与文明格局的核心力量。对鼠疫耶尔森氏菌基因组的重建,揭示了新石器时代末期该病原体通过欧亚贸易网络扩散的轨迹,印证了物质交流与疾病传播同步发生的历史逻辑,填补了史前流行病如何影响人口结构与文化更替的认知空白;对疟疾、乙型肝炎病毒的古 DNA 分析,不仅追溯了跨大西洋奴隶贸易、欧亚人群迁徙中的病原体传播路径,更发现了人类与病原体的基因共演化证据(如抗疟基因的自然选择),使我们意识到健康适应本身就是人类演化的重要驱动力—这种认知突破,让疾病史从边缘学科话题跃升为理解人类历史进程的核心维度之一。而多学科研究范式的成熟,则标志着古代疾病研究进入系统阐释文明互动的新阶段。通过整合体质人类学的病理观察、古分子生物学的基因证据、稳定同位素的饮食分析与考古学的文化背景等,我们得以搭建疾病、社会与文明的完整认知链条,例如对软骨发育不全的研究,不仅通过FGFR3基因变异确诊疾病,更结合墓葬位置、社群布局推测古代社会对身体缺陷的接纳程度;对肿瘤的多学科分析,通过组织学、古DNA与同位素结合,揭示了饮食结构(如高肉食摄入)与基因变异(如 K-ras 突变)的关联,为理解古代生活方式如何影响疾病发生提供了立体视角。这种跨学科融合,彻底超越了单一学科的局限,使疾病如何参与文明演进的深层探讨成为可能。

    当前国内外研究的核心差距,并非技术应用的数量差异,而是认知层面的深度落差。国内研究仍以体质人类学的描述性分析为主,古分子等新兴技术的应用多停留在个案层面,尚未充分依托技术优势开展疾病、社会与文明互动的系统性研究。未来的研究需从三方面着力突破:其一,进一步细化体质特征分析标准,完善古代疾病的诊断体系,提升传统研究范式的科学性与准确性;其二,加强骨骼材料的古分子研究,以获得对古代疾病、病因和病史等更全面的了解,为研究古代人类健康状况和致病机制提供科学依据;其三,在上述两方面的基础上,探索古代疾病的多学科研究范式,以体质特征为主、古分子为辅诊断疾病类型,依托古分子研究探索发病机制及疾病与人类在分子层面的互动关系,融合稳定同位素分析等科技考古手段和考古背景及文献材料等传统考古信息,探讨疾病背后的社会文化因素。目前古代疾病研究起步较晚的亚洲地区也在逐步建立区域数据库,未来通过完善与整合不同时空框架下的古代疾病数据,结合多学科研究范式,不仅有望进一步识别疾病感染与传播的共性规律及区域差异,构建全球尺度的疾病发展史,为历史人类学研究开辟新道路,同时深化对现代疾病的了解程度,为现代社会应对各类疾病提供具有针对性的历史经验与科学启示。

    转自《学术月刊》2025年第11期

  • 钱立卿:从现象学的角度看逻辑推理的基础——论卡罗尔疑难与分离规则的合法性根源

    一般而言,逻辑学中的“推理”或“推演”(inference)是指命题之间合法的联结与过渡,亦即命题联结符合逻辑系统的推理规则。一个遵循规则的推演被称为“有效的”(valid)。不同的逻辑系统可能有不同的推理规则,但通常都至少要承诺“分离规则”(modus ponens,以下简称MP),亦即在条件命题“如果A,那么B”中,一旦前件被确认,后件也必然被确认。不过MP在逻辑学史上的地位并非一成不变。一方面,某些基于本体论考量的传统逻辑学理论认为MP不是最基本的,不像同一律或矛盾律那样是思维和存在的根本原理。另一方面,自斯多亚时期以来,诸如否定后件式(modus tollens)之类的规则亦与MP并举,致使后者至少在形式上并不是唯一的演绎规则。而在诸如狭谓词演算和模态逻辑等常见的现代逻辑工具中,推理规则也不只有MP一条。但上述两点实际上无法真正撼动MP在逻辑推理中的根本性,而从演绎系统的建立和扩展过程来看,也很容易发现MP规则始终处于推理的最基础层次。

    此外,正如某些逻辑学家指出的那样,传统的逻辑观念在逻辑学的发展中产生了很大变化,然而这不仅是个扩展与修正的过程,许多基本特征和原初意义也得到了保留。(cf. Irvine, p.32ff.)诸如数理逻辑、模态逻辑甚至其他一些非形式逻辑都以某种方式保留了古典逻辑中最基本的东西,不仅古希腊的词项逻辑和命题逻辑中有这些内容,而且20世纪的各种逻辑学也离不开它们。MP规则就是其中的典范。不过从逻辑学及其发展史的角度来解释MP的地位,并未触及一个更根本的疑问,它在某种程度上既是逻辑学的可能性前提,又超出了一般逻辑学理论的范围。这个疑问涉及推理规则本身的合法性来源。简而言之,我们都承认遵循MP规则的推理是正当的,因为这个正当性是由MP保证的,并且我们直觉上认为MP本身明显是“正确的”,但是这种更深层次的正确性或合法性又由什么保证呢?

    一、“卡罗尔疑难”概述

    英国数学家刘易斯·卡罗尔在1895年发表了一篇仅有两页半篇幅的论文,名叫《乌龟对阿基里斯说了什么》。(cf.Carroll, pp.278-280)论文中提出了一个关于逻辑推理本身的疑难,史称“卡罗尔疑难”(Lewis Carroll’s Puzzle,以下简称LCP)。LCP在结构上类似于阿基里斯追龟的悖论,只是把无限长的链条从时间过程转变成了逻辑过程。这里我们先简述一下LCP的主要内容。

    卡罗尔首先以《几何原本》的第一个命题为例,给出了传统逻辑中一个最简单的三段论形式:A)p是q;B)q是r;Z)p是r。在这个经典的肯定三段论中,p、q、r都是词项或短语,不过考虑到结构上的相似性,把这里的词项三段论换成命题逻辑的假言三段论也不影响后续论证。显然,我们可以从命题A和B推出Z。但卡罗尔认为,从另一方面看事情会有些奇怪。

    所谓的“推出”是指对后续命题的断言是逻辑性而非心理性的,在命题逻辑中它必须基于一种客观和确定的推理规则。卡罗尔指出,为了在形式上从A和B两个命题推出另一个命题,就需要先与那个命题建立一个蕴涵关系,然后使用MP规则。也就是说,必须先断言“A∧B”与“(A∧B)→Z”两个命题,才能用MP规则得到Z。而如果不考虑这些符号的具体意思,那么单从形式上看完全可能只断言前一个命题但不断言后一个命题。可是这样就会导致无法使用MP,也无法推出Z。

    所以为了使MP规则可行,似乎需要再额外补充一个对蕴涵式本身的断定,即断定命题C:“如果A和B为真,那么Z为真。”这样就能联合A、B、C推出Z。可是,一旦断定了命题C,那么出于和前面同样的理由,我们在运用MP规则前还要再额外断言一个蕴涵式D:“如果A、B、C为真,那么Z为真。”这就意味着一种无穷倒退的情形,即在推出命题Z之前需要完成无限多的独立设定步骤,而这显然是荒谬的。

    二、传统解决方案及其不足

    表面上看,LCP似乎容易解决,因为它忽略了大小前提中的具体内容而直接诉诸一个符号化的命题形式。所以,我们似乎只要考虑到两个前提中的信息就会发现推理的前提已经足够充分,也就可以使用MP直接得出结论了。但这并不是卡罗尔困惑的地方。他把命题进行符号化,只是为了把MP规则背后的问题呈现得更清楚,而不是认为LCP真的威胁到了逻辑推理的有效性。卡罗尔虽然在文中没有给出明确结论,令许多后世学者不满(cf. Wieland, p.984),但这个开放结局本身就展示了疑难的起源:它来自对MP规则的无条件运用,而LCP就是在展示这个“无条件性”中隐含的困难。换言之,卡罗尔提出的问题事关MP本身的成立条件,亦即推理活动本身的根据:既然MP规则总是表达为从一个蕴涵式中分离后件的操作,那我们又为什么可以在肯定前件之后作出这种分离?

    20世纪有不少逻辑哲学家对LCP提出过正面解决的尝试,与本文直接相关的方案大致可以分为两类。第一类是以罗素和赖尔等人为代表的经典进路,主张“蕴涵式”在卡罗尔的推理模式中并没有起到实质作用(cf.Russell, p.35),因此对此类条件命题的要求本身就是错误的(cf. Ryle, p.248)。类似的看法也为汤姆逊(cf. Thomson, p.95)和斯特劳德(cf. Stroud, p.180)所持有,在他们看来卡罗尔最多只是试图指出有效推论中潜藏的困难,但这个尝试不成功,也没有构成实质性挑战。第二类是里斯(cf. Rees, pp.241-246)和布朗(cf. Brown, pp.170-179)等学者率先提出的“分阶”思路,即把MP视为特殊层级的命题,与推理中的前提和结论不同阶。下面我们对这两种方案进行简述和解析。

    第一类的解决尝试之所以被称为“经典”,是因为它从区分两个基本的逻辑学概念入手,即“蕴涵”(implication)和“衍推”(entailment)。通常来讲,前者是一个公式内部的“逻辑常项”,它仅仅表达了公式内部的子命题之间的联结关系。通过蕴涵联结,多个子命题被综合为一个复合命题。而所谓的“衍推”,则是某个“外部”公式对于多个公式组成的公式集Γ的后承关系。当然,我们可以在证明论的意义上把最终的后承公式也纳入Γ,此时衍推亦可被视为一个公式集内部的联结符号。

    罗素认为,“p推出q”为真的含义是对p的断定带来了对q的断定。而“p蕴涵q”为真则并不表示我们对p或q中的任何一方进行断定,我们断定的是p与q之间的联结关系本身。(cf. Russell, p.35)因此,卡罗尔从“断定A和B两个命题”到“断定Z”的过程是一个衍推,但断定“(A∧B)→Z”仅仅是在断定一个蕴涵关系,两者不是一回事。(参见钱立卿)在三段论推理中关键的东西只是衍推,但蕴涵式在衍推中并没有实质作用,所以推理过程不需要把这个蕴涵式作为条件之一,也就不会开启一个条件命题的无穷序列。斯迈利也有同样看法,他认为整个悖论来自卡罗尔对蕴涵式C的引入,这导致我们似乎必须接受C或反对C,但事实上整个推理从一开始就不需要引入C。(cf. Smiley, p.726)

    不过,卡罗尔并非不清楚蕴涵与衍推的差异。LCP的核心困难不是由使用某种特定表述方式导致的,况且命题逻辑中的演绎定理也保证了“p├q”和“├p→q”的等价关系。一言以蔽之,断言“p蕴涵q”和断言“p能推出q”实质上是一回事。所以卡罗尔用蕴涵式来表达LCP只是一种简便的选择,以此把无穷悖论浓缩到一个条件命题形式中。另外,LCP中的困惑也并非像汤姆逊所批评的那样,似乎卡罗尔忘了我们在接受A和B之后一定会由于逻辑必然性而接受Z。(cf. Thomson, p.96)造成困惑的真正原因仍然在于这个逻辑强制力本身的起源。

    第二类的“分阶”思路也是从一个区分开始的,它要区分的是推理活动的前提性命题和表述为推理规则的某个语句。一方面,在里斯等人看来,推理的前提在最简单的情况下形如“p”和“p→q”,更复杂的情况也无非是确立起一组命题,即语句组{p1, p2, p3,… pn}。这些语句或命题可被理解为对某些事态的一阶陈述。另一方面,推理规则不管是以MP形式还是其他形式呈现,都可以具有和一般语句相同的形式。但这些规则性语句是关于“如何从某些一阶语句得到其他一阶语句”的规范性陈述,因此相比p和q来说,它们是“二阶”的语句,里斯称之为“二阶条件句”(Rees, p.243)。

    根据这个区分,一方面任何一个推理或证明都可以表述为一个有限长度的有序语句组Γ={p1,p2,p3,…pn,q},另一方面判定性语句T“如此这般的联结是有效的”是关于Γ的一个陈述,它本身并不在Γ中。显然,这个T是推理规则的命题化,这意味着推理规则本身也不可能出现在Γ中。里斯指出,一个完整意义上的推理过程并不是仅仅由一阶语句的序列构成的,而是必须把MP作为另一个核心要素凸显出来。(cf. Rees, p.244)换言之,一方面我们既不能把MP规则视为卡罗尔论文中的条件命题(cf. Railton, p.76),也不能在任何意义上把它变成一阶命题(cf. Fumerton, p.216);另一方面,MP作为推理过程中不可或缺的二阶要素,只有在不处于一阶的层面时才能发挥效力。

    鉴于此,我们似乎可以认为LCP的实质是混淆了MP语句与推理前提中的一阶语句,由此造成的困惑可以通过单独分离出MP并表明其二阶性质即可解决。可是我们已经说过,卡罗尔并不对MP本身是否具有独特地位而感到困惑,他困惑的是MP效力的起源,或者说推理规则本身的合法性根源。仅仅靠直接宣布MP的二阶地位或直接设定其合法性,并不等于在理论层面解决了卡罗尔问题。

    三、现象学视角中的定位

    如果说LCP最终指向了MP本身的效力来源,那么无论我们采取何种解释策略,都必须注意避开循环论证的陷阱,即在对MP合法性来源的解释过程中不能使用“MP已经起效”这个事实。当然,这并不是说研究者在自己的表述中不能用MP规则来联系前后语句的论证关系,而是说当这个论证是关于逻辑推理有效性的论题时,论证对象的有效性成立条件不能在语义上以明显或隐含的方式预先包含MP规则。

    如果我们对逻辑学的本质采取某种朴素实在论立场,即认为逻辑与物理对象和数学对象一样,其客观性与真理性完全独立于一切认知因素而自动成立(cf. Tieszen, p.97),那么MP的合法性来源似乎很难解释。原因在于,无论我们支持哪种逻辑本体论观点,所谓的“逻辑性质”必然要出现在逻辑关联的展现中。但在朴素实在论的视角下,逻辑性质总是已经在命题之间现成存在了,因而所谓的“展现”就是与形成过程无关的、已经确定的一种固有形态,作为联结规则的MP也总是已经以“起作用”的方式预先包含在整个推论结构中了。基于这些前提,我们原则上就无法回答MP“为什么合法”的问题,因为我们永远只能看到MP始终具有“已经起作用”的样式。在此意义下,LCP从一开始就无解。

    朴素实在论不适合用来解决LCP的根本原因是它侧重于追问逻辑自身的本质特征是什么,但LCP的核心在于追问逻辑的这种性质如何形成(forming)。从形成角度考察逻辑真理的方案绝不是否认逻辑的客观性,它只是主张这种客观性本身需要得到进一步解释。如果我们认为这种客观性应当来自某种更深层的“自在”,那么这仍然是与“形成”无关的本体论预设,无论正确与否都不适合处理LCP。

    更合适的进路或许是采取认识论视角,从对象“如何被认知”与如何呈现来界定它所呈现的性质“是什么”。这种思路在20世纪的代表之一是胡塞尔的现象学。众所周知,现象学认为物理实在和观念对象都是客观的,但并不是“自在的”,因为脱开事物的给予性谈论事物“是什么”是一种认识论悖谬。以物理对象为例,它们固然有不向我们显现的部分,但关于那部分的谈论仍然基于一个事先给出的语境,这是我们谈论其物理意义的前提。因此在认识论上真正具有绝对地位的并非某种自在的实在性,而是超出(transcend)一切具体认知的某种前提性情境。以先验(transcendental)态度考察这个情境中的意义形成问题就是对作为意义的对象进行构造分析。(cf. Husserl, 1991, S.17)

    在现象学中,事物的意义和意义本身的构造是两个紧密关联但不能混为一谈的环节。事物的诸多性质里是否包含了“客观性”这个成分,完全取决于它的呈现方式和被理解的方式,理解它的过程就是构造其意义的过程。如果事物最终被我们判断为“客观的”,那这种客观性本身也不是和意义构造过程的性质处于同一个层级,后者是更为原初与根本的。意义构造的层次无法用通常的主客观性来标示,因此当胡塞尔把构造活动视为一种“先验主观性”领域内的过程时,并非意指某种具有生物化学属性的心智活动。现象学家在先验语境中使用“意识”与“主观性”等概念仅仅为了表明对象的呈现和被觉知状态;此时分析者尚未承诺任何一种关于构造过程的本体论性质的解释,而只是处于对意义整体进行单纯描述与解析的层次。(cf. Husserl, 1976, S.156)在这个层次上,现象及其意义仅作为“被意识到如此”“被认知为如此”的内容出现,至于被意识到的这个东西是否就是某种物理对象或心理过程,这取决于下一阶段的赋义与解释工作。

    就当前论题而言,先验语境下的逻辑客观性仅仅意味着逻辑的效力不依赖于个体性和偶然性的认知,但不等于说它可以在彻底和绝对的意义上脱离一切认知语境而自动成立。我们之所以能断定逻辑关系的客观性和确定性,正是基于这个先行存在的先验语境,后者是谈论一切对象之存在意义(onto-logy)的必要条件。由此观之,尽管朴素实在论以及其他某些逻辑“客观主义”要求我们在阐明逻辑对象的意义时排除掉“主观性”的影响(参见弗雷格,第8页),但这种排除并非针对先验的认知语境,而是指向经验性的认知成分。同理,先验主观性视角也不可能反对“客观主义”立场,因为这是逻辑对象实际显现出来的性质。在先验语境中考察对象意义的构造过程不会影响逻辑对象自身的客观性,这种解释进路仅仅揭示了“客观性”的意义如何随着事物的显现而逐步呈现。

    胡塞尔认为“所有客观性都在现象学的观念性中有其来源”(胡塞尔,2022年a,第411页),这自然也包括客观的有效性。先验视角下的“有效性”概念是指意义构造过程中产生的支撑性关联,就比如在命题系统中一个推理的“有效性”意义是由MP支撑或赋予的。在胡塞尔看来,关于有效性问题的先验探究方向是有效性的构造方式和作用范围(cf. Husserl, 1968, S.265),而阐明MP自身效力的来源问题也就是在探究一个“高阶的”有效性问题,因此需要在先验主观性领域中描述MP各部分要素的意义生成及其客观化的过程。先验主观性领域是由意向关联性结构组成的总体区域,其中每个具体“事件”,即意向行为或意向体验,都在指向性关系中形成其结构。“意向性”首先是每个意向体验自身的内在特性,即在关联性的层面上理解同一个意识的构造活动方面与被构造的对象性意义方面。在此基础上,我们一方面可以发现意向体验的两极中都存在复杂但有序的结构层次,另一方面由于这种关联呈现出的对应特征,使得意向活动自身的每个结构层都对应于被意向和被构造对象本身的意义层次。由此,只要MP的意义被视为一种构造结果,那么考察其意义的来源和形成模式就是理解MP合法性来源以及解决LCP的途径。简言之,当前任务就是追问MP规则的含义在先验现象学中如何得到诠释,它又是如何随着原初直观内容的呈现与理解而逐步构造起来的。

    四、现象学还原:MP意义的解析与回溯

    首先需要明确的是现象学视角下的“推理规则”应该如何得到解释。如前所述,一个证明P可以写作P(Γ,R)的形式,其中语句集Γ={p1,p2,p3,…pn,q},R是Γ中的推理关系(最基本的形式就是MP),它是Γ的一个性质而非其中的成员。归根到底,MP表征的是一种关联性质,亦即一个公式或语句序列以确定的方式单向地关联到另一个公式。更具体地说,它表明q首先是从属于这个带有关联性质的公式(语句)整体Γ的成员,然后从这个关联中被分离出来并单独地被意指。这里重要的不仅是从属性和分离性,还有两者在意义形成过程中的先后顺序。因此,我们可以用现象学的语言来翻译MP的基本形式:在MP中,q首先属于关联性整体Γ=(p,p→q,q),是在被(p,p→q)所“意向地”指涉的意义上被共同意向的,随后q从整体中分离出来并被单独意向。

    根据这个描述,现象学首先就要探究这个关联整体Γ如何在先验的意识领域中形成,其次就是回答命题q在共同意向和单独意向中分别有何种意义以及如何构造这种意义。当然,意义的构造分析必须以现象学还原的方法为前提,对LCP的研究也不例外。从根本上讲,现象学还原就是对完整但不够明见(evident)的现实经验整体的意义进行“拆解”,并回溯到绝然明见的意义起源层次。这样的回溯显然是从探究奠基性要素的角度逐步深入意义结构的各个层面,因此必然需要先对整个探究的逐层分析思路进行概述。当前的还原可分为以下几个步骤:

    1)从推理的客观形式向推理行为的回溯。推理形式也就是MP的结构,可以表述为“如果p→q且p,那么q”。而所谓的推理行为是指从p得到q的全过程,它一方面包括了客观的意义本身的过渡与形成过程,另一方面也包括主观侧的意义领会过程。在先验的意义上,这就是对“从p得到q”的意义解析活动。

    2)从推理行为回溯到蕴涵式“p→q”的意义。考虑MP规则的表述形态可以发现,理解“从p得到q”的关键就在于理解蕴涵式“p→q”的意义。LCP的困难根本上是由MP规则的语句化形态导致的。只要从条件命题中分离出后件所需要的MP规则本身也以条件命题的形式出现,那么同样的需求就可以对MP再次提出,从而导致无穷倒退。但从语义上看,MP规则尽管可被表述为一个假言三段论,但整个三段论实质上无非只是对第一个蕴涵式意义的阐明而已,所以实质性问题就是揭示“p→q”的意义为何。

    3)从蕴涵式表达的意义回溯到赋义的意向活动。蕴涵式的意义取决于意向行为中的赋义过程,倘若离开赋义,无论是命题p和q还是蕴涵关系本身,都只是一些毫无意义的符号串。这个显而易见的事实并不表明意义形成因此就只是主观的心理活动的产物,而是表明意义的具体内容与它的客观性质全都奠基在意向关系及其结构中,并由此形成了“p→q”的一般观念。

    4)从赋义行为回溯到对相关现象的观念的原初形成。在现象学还原中,观念的原初形成总是奠基于最高的明见性中,只有绝对自身给予的对象才能成为真理性与客观性的最终源泉。当然,绝对自身给予性就是本质的呈现方式,但这种本质并非柏拉图主义实体,而是经过特殊的直观活动而构造的结果。这种观念化直观又进一步地奠基在具体和感性的直观活动中,所有属于概念性、普遍性、关系性等范畴的认知意义都是从特定对象的具体呈现中进行观念化操作的结果。

    上述四点是当前论题的现象学还原路标,也是后续的构造分析要解释的东西。我们在此首先可以确定的是MP规则中每个语义要素的现象学特征。命题p和q尽管在形式逻辑的意义上只是命题形式,但它们实际上表征的是关于一般事态或一般对象的观念。正是由于它们关涉的是对象的一般性,才能进一步被抽象为某种纯形式。同理,蕴涵关系“→”表征的是两个一般对象之间的一种有序关联形式。当然,并非所有的序关系都是蕴涵式,因此我们既需要从一般的序关系的意向性构造入手,也要考察蕴涵式独有的特征,即蕴涵与衍推之间的等价关联:后件是可以从关联形式中被分离出来并单独意指的。

    五、构造分析:命题形式与蕴涵关系在时间意识中的起源

    现象学的构造分析有两个主要环节,其一关于命题p和q的构造,其二关于逻辑关系“→”的构造。构造分析基于本质直观理论,后者是胡塞尔在后期的一些课程、著作和手稿中都出现过的核心论题。考虑到当前任务,重点不是讨论本质直观的概念,而是借助相关思想来具体分析这些逻辑概念的构造。

    从《逻辑研究》时期开始,胡塞尔就对传统逻辑中的词项和命题概念作了详细的讨论。当我们把逻辑概念视为奠基于直观活动的意义构造成就时,原初的感性直观可被视为构造分析的零点。(参见胡塞尔,1999年,第83页)粗略来讲,从感性觉知到最终的形式命题要经历一系列意义构造层次:首先是对个别物体x的觉知;其次是感知到和x处于同一时空场域中(在同一视觉场内)但不同于x的其他物体;再次是形成关于这些物体之间的整体性联结的意识,并形成整体与部分、相同或相异等关系性意识;最后再通过范畴直观得到一种观念性的对象,即种属、普遍性等。这种观念性对象既包括不可感的概念性对象,也包括事态,后者又可以被命题化为陈述或判断,在形式化中达到最高的普遍性。

    举例来讲,命题“一只红色的苹果在桌子上”的意义在经典现象学理论中可分析为如下层次,每一层次都奠基在前面所有层次的构造成就之上:A)对时间中持续存在但不断变化的苹果形象进行观察。在观察中,随着身体位置和观看位置的变化,延续着的感知内容也在变化,但由于变化中始终保持着某些相同的部分,因此我可以把新的现象内容与整个现象流进行融合(Verschmelzung),也就是把新现象(苹果的新侧面)的意义综合进先前已得到立义的苹果形象整体中。从对象方面来看,这个苹果形象带有“侧显”(Abschattung)的性质,亦即它永远只能显示出某些部分而同时隐藏了其他部分作为潜在内容;从感知活动方面来看,我对苹果形象的整体感知总是在当下显现面的直接觉知和未显现面的连带把握的综合统一中实现的。这个层次上的意义构造的最终产物是苹果的“实在性”。B)对桌子的感知与此类似,只不过在以苹果为焦点的感知中桌子是背景性的,而对桌子进行主题化感知的时候苹果是背景性的,但无论如何两者总是可以被共同感知的。这个事实指向了一种整体化的新感知方式,即把苹果和桌子都作为一个整体性感知的两个部分,这两部分既可以被单独立义,也存在一种感知范式上的固定结构。C)这个固定的感知结构在最基础的层次上是时间性意识的产物,而其空间性质(苹果和桌子的位置关系)是在视觉和动觉场中构造起来的。这些可感的时空性质奠定了对象之间的关系性范畴,而通过想象性变异和对变更中保持不变的关联性本身的直观,关系范畴被提升到了和外部实在类似的对象地位。苹果相对于桌子的“在……上”关系本身不再仅仅被看作一个附属性的介词,而是成为一个新的关注焦点,虽然其意义也是被构造的,但同样具有真实性与客观性。D)当这个关系和具体的物体(Ding)结合起来呈现为“事物”(Sache)整体的时候,关于整体的意识就对应着一个事态(Sachverhalt)及其表述,即命题化或如胡塞尔所谓的“谓词化”。(参见胡塞尔,1999年,第240页)此时被命题化的事态中,关系本身是普遍的和范畴性的,而物体最多只在部分意义上具有普遍性,比如意识到这个苹果也是“苹果”或“食物”这个类概念下的个体。E)形式化的命题,是奠基在具体事态上的高阶范畴直观的结果。但这种直观并非针对具体事态的内容,而是关于事态的存在性质。只要理解了事态的意义,并理解这种意义的真理性维度,就可以不依赖于特定事物的自身给予而直观性地意向某种“事态一般”并对此进行符号化。在符号化的层次上,事态之间的区分和关联都可以通过一组相应的符号建立起来,这就是一般形式系统中最先定义的“符号集”。

    上述概论尽管只是一种简要的静态描述,亦即不考虑原现象的触发力以及引起的再回忆(Wiedererinnerung)与原联想等被动综合过程,但它仍然为蕴涵关系的发生性解释提供了基础。如果形式命题p最终奠基在对具体事物的感知上,那么蕴涵关系的赋义也要回溯到具体的事态与其中的关系性。因此我们首先要确定这种关系如何向我们呈现,现象学应以何种方式来阐述,然后根据意义形成的奠基顺序考察条件命题内涵的构造问题。

    1)蕴涵关系与现象显现。显然,蕴涵关系和形式命题是同一个表述层次上的东西,如果命题要回溯到具体事物的显现与认知,那么蕴涵关系也必然如此。既然命题p和q对应的现象学奠基性条件是事态P和Q的“立义”或表征(参见胡塞尔,2017年,第1085页),那么蕴涵关系的基础就是作为时间性现象的P和Q在显现中的关联样式与立义方式。“如果p,那么q”的意义起源是对事态P和Q的相继体验,当这个相继关系呈现出某种必然性特征时,我们会说“事态Q在时间中(必然)跟随着P”。

    但这里有两个基本问题。第一,所谓的“时间”是什么意思?第二,所谓的“跟随”应该如何在现象学上解释?前面说过,对基本概念的意义构造问题进行现象学分析的前提是进行还原,亦即研究者应当保留关于概念的全部现实经验但不在分析中把它们作为合法性基础来引证。对时间的经验也是如此,无论是日常的、传统的还是科学的时间观念都是各种经验与习性的综合产物,现象学分析不能把这些现成的东西作为意义起源。

    2)时间性与现象流。时间经验在还原后失去了一切物理性的内涵,而仅仅作为直观中的现象持存与流逝过程。在这个架构下,事态P和Q无非是在意识流中显现的现象P和Q,两者在意识进程的不同阶段被感知到,从而被立义为不同的现象。

    对于物体的感知不可能瞬间完成,感知行为必须经历一个持续的过程。这并非由于对象的显现原则上不可以在瞬间完成,而是由于对象意义的确立必须在差异化和同一化中进行,是现象内容在时间中自我区分和自我统合的结果。最原初的关系性是在时间中发生的纯粹的延续体验的结果。现象的延续导致了两类不同的意识经验,也就是现时性(Aktualit?t)和非现时性(Inaktualit?t)经验,而这个原初的差异化被意识把握为两部分,即当下直接拥有的内容和当下不拥有但能够意识到的内容。每个关于当下拥有的内容的意识总是会在意向体验的持续进行中转向对某个并非当下拥有的内容的意识,而且后者会被赋予和前者在所意向的对象方面同一的意义。

    由此,在先验的意识领域中建立起了两个东西:第一,体验本身被构造为一个原则上不可间断的持续进行的统一体,即意识和现象的“流”。第二,在意向体验中不在此刻直接拥有但同时又能被意识到的、“刚刚拥有”的内容,被确立为某个原初印象(Urimpression)的滞留(Retention),因此那个不在当前拥有的意识内容被赋予了“过去”或“曾经”的意义,并通过这个时间特征成为意识流整体的一部分,它的存在也获得了“时间位置标记”。(cf. Murata,pp.17-28)

    当一切现象都被理解为同一个持续的意识场域中发生的流动与变化时,每个现象凭借其出现和消失而具有一种“时间性”的特征。现象的原初显现和后续的滞留占据了时间意识的不同相位(Phase)。对任意一个现象P来说,带有P的原印象特征的这个相位必然与一连串滞留相位一同出现在时间性意识中,它们呈现了一种原初的连续性,亦即P的原印象与后续的滞留构成一个相位连续统。

    3)跟随性与纵横意向性。在现象流和时间性基础上我们继续考虑在P“之后”或“跟随”着P的Q。由于意识在现象学时间上有连续性,涉及P与Q的显现内容原则上可以视为一个时间延展片段或连续统。考虑到简便和明见性,我们只讨论一个充分小的意识流延展片段即“P-连续统”,并且假定Q是这个P-连续统中的一个原印象相位上的内容。当我们说“Q在P之后出现”,原则上意味着我们具有两个不同层次的时间性意识。

    在第一个层次上,我们有两个维度上的意识:A)整个体验连续统中,除了P的原印象相位以外,其他相位(包括“Q-显现”相位)上关于P的意识都是滞留性的。每个时间相位的滞留都关联到最邻近的刚刚过去的一些相位,这个结构随着对P及其滞留意识越来越“多重”的保留而呈现出了一种序结构的特征,这就是关于时间流动方向的“纵意向性”结构。(参见胡塞尔,2009年,第432页)B)在时间的流动中,Q-显现的相位上同样也有关于P-滞留的意识。但每个相位之所以能在意识中确立起来,是因为对当下的原印象内容的意识总是伴随着先前相位的滞留,在两者“融合”到同一个瞬间意识的时候,此意识凭借原印象和滞留的明见差异而区别于先前的相位,成为了关于新相位的意识。这种原初的“共时化”意向性是单个相位内容的综合条件,使得我们能够在“横意向性”上确立起Q-原印象和某个P-滞留意识的“同时性”。(同上,第433页)

    第二个层次基于前述的纵意向性维度,它是对P和Q之间的意识过程的立义。既然整个P-连续统包含了P和Q两种现象的原初显现,并且在意识内容的持续流变中始终保留着关于原初显现模态本身的意识,那么P和Q就以明见的方式原初地联结到了一个时间性意识整体中。进一步的立义把这种联结标示为“在Q出现的同时还保留着关于P刚刚过去的意识”,也就是“在P之后出现了Q”。

    4)P-连续统中的前摄和预期。胡塞尔指出,意识流的固有结构要素不仅仅是原印象和滞留,还包括和滞留呈现出对称关系的“前摄”(Protention)。在感知体验中的前摄不是主动的预期,也不带有明确的感觉素材,而只是一种时间性意识在其延展中内禀的空乏意向性。但在回忆体验中的前摄有所不同,它虽然也是朝向未来的意向,但由于回忆本身是对事先经历过的东西的“当下化”,因此必定会让回忆进程中的前摄意向受到先前原印象因素的触发作用。(参见胡塞尔,2022年b,第237-241页)如果我们之前体验过了P-连续统,现在进行一次回忆,就会明见地觉知到正在进行的P及其后续滞留的当下化体验不仅是过去真实发生过的P-连续统的再现,而且会在回忆行为中触发对后续的某个Q的意向:尽管Q此时尚未进入明确的当下化体验,但它不可避免会成为P-连续统中的预期内容。

    基于回忆中的前摄意向,整个回忆行为就具有两个本质特征:第一,它的整个内容是我们主动“预测”的,因为我们经历过,知道前面和后面都“想必”如此。第二,回忆进程中的前摄内容不是一个主动操作的结果,而是由当下化带来的触发影响所被动产生的。也就是说,回忆不仅包含了一个主动的经历,而且经历过程中也存在某些被动的因素,唤起我们对“将来”的意识,并且把将来与过去进行联结(Assoziation)。

    一旦我们注意到这种被动激发起的“将来意识”本身,就能够获得一种新的本质洞见,亦即无论是当下发生还是回忆再现的经验都不会影响到这种“将来意识”的出现,它是每一个相位中与滞留一起出现的另一种视域性要素。就此而言,前摄和滞留都是意识流自身固有的指向性关联结构:当下显现总是被动地“预期着”尚未显现的内容并“保留着”过去显现的内容。

    5)基于前摄结构解释“Q在时间中必然跟随着P”的事态。这里的问题不是“必然性”的模态逻辑意义,而是“必然跟随”的观念如何形成。这当然也必须奠基在直观经验上。最基本的经验有两类:第一类是具有本原地位的事件,即对P-Q事态的回忆体验。在回忆中我们发现只要对P-连续统进行当下化,就总是会发现对Q的联想和预期。第二类是现实中最切身的同一性经验,比如看到苹果在桌子上,通过眼睛和身体的移动我们确信会反复看到桌子和苹果,而且是同一张桌子和同一个苹果。

    不管是哪一类基本经验,其中每个特定相位上的Pi显现都能让我们在这个现象流进行中意识到相应的Qi。而在某个新出现的Pk-连续统中,根据以往的经验我具有两个新的主题性意识内容:首先,我意识到了在过往的同类经历中,Pi与Qi的相继出现没有例外。其次,这些P与Q构成的连续统经验总体自动引发了我预期一个尚未出现的Qk的动机:这个Qk不但是整个连续统中的存在,通过联想意识与Pk配对(Paarung),而且还可以从与Pk的关联中分离出去被单独地意向。继而通过主动综合,作为一切Qi的同一化结果的Q也被单独意向了。

    需要注意的是,在先前所说的时间经验中意识到的现象Q和最后被单独意向的Q具有不同的意义。在前一种情形里,Q仅仅作为P-连续统中出现的一个原印象而呈现,通过其现时性特征与滞留的P区分开,此时Q的意义完全是时间性的。在后一种情形里,Q不只是跟随性的现象,因为它作为非现时性的对象被单独预期和意向的时候,已经摆脱了对具体的P-连续统的依附性而作为一个单独的对象性凸显出来,由此奠基了进一步观念化的可能性。

    6)对时间序关系的意识及其形式化。关于“Q在时间中必然跟随P”或者“P显现之后Q也会显现”的时间性意识本质上是关于“序”(order)的意识——虽然此时还没有上升到“序”的概念——它也蕴涵着序关系中的两个要素之间存在联想与动机引发(Motivation)上的关联。动机关联在观念化操作下转为表述形式就是一种条件关系,关于事态的经验P和Q可以在条件关系中联结为一个整体,也可以从整体中分离出去被单独地意向。从序关系出发构造出形式化的分离规则主要有两个层次。

    其一,在序关系的显现层次上,重复性事态P与Q总是呈现为一个有序对(P,Q)的形态。其中P-显现以确定和强制的方式引发了对Q-显现的预期,使得我们不仅必然会把P与Q置于同一个连续统内来经验,也必然可以在动机引发的意义上单独意向并充实Q-显现。这就是说,我们一方面拥有蕴涵性质的意识“一旦P被给予,就会有Q被给予”,另一方面又在确认P已经被给予的情况下,会受到先前经验的触发而“被迫”预期Q的“将会被给予”——这种被动性意义就是推理关系中“必然性”的先验主观性起源。

    其二,在序关系的形式化层次上,我们通过范畴性和本质性的直观把事态P和Q提升为一般的命题形式p与q,并将这种时间性的序关系形式化为蕴涵符号“→”。从P和Q按照时间意识连续统进行有序结合的具体事态出发,相应的本质直观操作把它提升到一个观念化的普遍形式,即“p→q”。由于动机引发的存在,对“P被给予,就有Q被给予”的综合性意识奠基了对已经给予的P和必然会被给予的Q的分析性意识。在形式化层面,这就是分别对p和q进行断言——p是已经被断言的前件,q则是从蕴涵关系中被分离出去得到单独断言的后件。

    六、结 语

    在胡塞尔看来,现象学是关于起源的科学。(参见胡塞尔,2022年a,第453页)从现象学视角对MP规则起源的考察也在一定程度上反映出了现象学与逻辑学的关系。在考察逻辑的哲学基础时,现象学会追溯到先验主观性领域以及直观内容的呈现方式上,以意义的构造分析来阐明逻辑哲学问题;而就现象学工作本身而言,时间性意识的维度是任何具体研究都不可忽略的前提。鉴于此,本文所采用的分析思路是把蕴涵关系中的一切要素在先验的层面解释为时间性综合的成就,以此来阐明MP的实质并完成对LCP的解决。概而言之,整个解决分为三个层次。

    第一层次是解释形式命题符号p和q的意义。我们需要从原初给予的直观之物出发,通过对视域内出现的多个物体的感知而确定一种范畴关联;这种范畴关联在表述中呈现为命题的样式,再由更高阶的范畴化凸显命题的表达形式本身,从而把各种命题语法形式本身作为观念性对象确立起来;最后转入符号表征,对不同的命题形式以单纯符号上的差别作出区分。

    第二层次是解释蕴涵符号“→”的意义。这是一种逻辑推理意义上的序关系,而从现象学还原的角度看,一切逻辑上的序结构和序关系最终都奠基在意识流的方向性上,后者是通过现象从原印象相位向滞留相位的过渡(纵意向性)以及滞留与前摄的交织而构造起来的。(参见胡塞尔,2016年,第45-55页)在这个最一般的层次上,无论是数学还是集合论中的序关系(比如“线序”),都与命题逻辑中的序关系有着相同的现象学起源与构造方式。而蕴涵关系的特殊之处在于,它指明了同时被意识到的两个事态之间存在着意向焦点的过渡情形,亦即从事态P的意识“指向”对事态Q的意识。既然这种指向性是基于反复确认的同一类时间性经验,那么由此导致的联想和动机引发意识就是蕴涵关系特有的构造性起源。

    第三层次是解释MP作为“推出”规则的意义。时间性意识是自带“序关系”的意识,一切逻辑上的序关系表征方式都是它的形式化。就蕴涵关系而言,它起源于动机引发所奠基的两个事态的统一性。但正是这个统一的P-Q体验综合体本身总是包含着对Q的单独预期和充实,因此Q必然能够与P-Q统一体同样地成为独特的意向焦点,亦即从蕴涵关系中被分离出来。

    综上所述,通过现象学还原与构造分析,我们揭示了蕴涵命题的综合性来自何处,它为何能够导出MP中的分析性,并在形式化中直接表达出这种性质。同时,现象学解释将MP的合法性问题追溯到时间客体的显现和立义,在不同的层次上阐明了逻辑的对象是如何基于直观性与明见性从原初给予的内容中逐步构造起来的。从这个角度澄清了MP规则的合理性与合法性源自何处,也就解决了LCP带来的困惑。

    参考文献

    [1]弗雷格,2001年:《算术基础》,王路译,北京:商务印书馆。

    [2]胡塞尔,1999年:《经验与判断》,邓晓芒、张廷国译,北京:生活·读书·新知三联书店。

    2009年:《内时间意识现象学》,倪梁康译,北京:商务印书馆。

    2016年:《关于时间意识的贝尔瑙手稿(1917-1918)》,肖德生译,北京:商务印书馆。

    2017年:《逻辑研究第二卷·第二部分》,倪梁康译,北京:商务印书馆。

    2022年a:《逻辑学与认识论导论(1906-1907年讲座)》,郑辟瑞译,北京:商务印书馆。

    2022年b:《被动综合分析》,李云飞译,北京:商务印书馆。

    [3]贾国恒、郭婧,2021年:《卡罗尔疑难辨析》,载《自然辩证法研究》第12期。

    [4]钱立卿,2023年:《我们凭什么进行逻辑推理》,载《社会科学报》9月21日第5版。

    [5]维特根斯坦,2021年:《逻辑哲学论》,黄敏译,北京:中国华侨出版社。

    [6]Blackburn, S., 1995, “Practical Tortoise Raising”, in Mind 104.

    [7]Brown, D. G., 1954, “What the Tortoise Taught Us”, in Mind 63.

    [8]Brunero, J., 2005, “Instrumental Rationality and Carroll’s Tortoise”, in Ethical Theory Moral Practice 8.

    [9]Carroll, L., 1895, “What the Tortoise Said to Achilles”, in Mind 4.

    [10]Fumerton, R., 2015, “What the Internalist Should Say to the Tortoise”, in Episteme 12.

    [11]Husserl, E., 1968, Ph?nomenologische Psychologie: Vorlesungen Sommersemester 1925, W. Biemel (hrsg.), Den Haag: Martinus Nijhoff.

    1976, Ideen zu einer reinen Ph?nomenologie und ph?nomenologische Philosophie. Erstes Buch, K. Schuhmann (hrsg.), Den Haag: Martinus Nijhoff.

    1991, Ideen zu einer reinen Ph?nomenologie und ph?nomenologische Philosophie. Zweites Buch, M. Biemel (hrsg.), Dordrecht: Kluwer Academic Publishers.

    [12]Irvine, A. D., 1996, “Philosophy of Logic”, in S. G. Shanker(ed.),Routledge History of Philosophy, Volume IX, Philosophy of Science Logic and Mathematics in the Twentieth Century, London: Routledge.

    [13]Murata, N., 2019, “How is Time Constituted in Consciousness? Theories of Apprehension in Husserl’s Phenomenology of Time”, in N. de Warren and S. Taguchi (eds.), New Phenomenological Studies in Japan, Cham: Springer.

    [14]Railton, P., 1997, “On the Hypothetical and Non-hypothetical in Reasoning about Belief and Action”, in G. Cullity and B. Gaut (eds.), Ethics and Practical Reason, Oxford: Clarendon Press.

    [15]Rees, W. J., 1951, “What Achilles Said to the Tortoise”, in Mind 60.

    [16]Russell, B., 1903, The Principles of Mathematics, Cambridge: Cambridge University Press.

    [17]Ryle, G., 2009, “If, So, and Because”, in Collected Papers Volume 2: Collected Essays 1929-1968, London: Routledge.

    [18]Schueler, G. F., 1995, “Why ‘Oughts’ are not Facts”, in Mind 104.

    [19]Smiley, T., 1995, “A Tale of Two Tortoises”, in Mind 104.

    [20]Stroud, B., 1979, “Inference, Belief, and Understanding”, in Mind 88.

    [21]Tieszen, R., 2011, After G?del, New York: Oxford University Press.

    [22]Thomson, J. F., 1960, “What Achilles Should Have Said to the Tortoise”, in Ratio 3.

    [23]Wieland, J. W., 2013, “What Carroll’s Tortoise Actually Proves”, in Ethical Theory Moral Practice 16.

    转自《哲学研究》2025年第9期

  • E · C · 齐曼:突变数学

    [提要]“突变理论”(Catastrophe Theoay)运用拓扑学、奇点理论和结构稳定性等数学工具,研究自然界各种形态、结构的不连续的突然变化。Catastrophe原意是指灾难性的突然变化,以强调变化过程的间断性,有时也直接表示市场的崩溃、战争的爆发、地震的发生等带来灾难性后果的变化。
    数学家伦尼 · 汤姆(René Thom,1923-2002)1972年在其《结构稳定性和形态发生学(Structural Stability and Morphogenesis)》一书中系统阐述了这个理论。
    本文作者齐曼认为,微积分模型解释了光滑地连续变化现象,突变理论模型则描述了不连续的突然变化现象,如水结成冰或化成气、弹性梁受挤压而弯曲、胚胎的变化、人的情绪波动等等。突变理论用拓扑学的曲面折叠概念来描述这些突变现象。例如,在狗的进攻模型中,狗的突然进攻和突然逃跑是由发怒和恐惧这两个相互矛盾的因素所控制的。在齐曼的模型中,这两个因素作为两轴构成控制平面,用垂直于平面的轴作为行为轴。在通常的情况下,行为是发怒和恐惧程度的函数,是一个三维空间中的曲面。曲面中间部分的折叠把曲面分成顶、中、底三叶,分别表示攻击行为,中间状态和逃跑行为。因此,根据狗发怒和害怕的程度就可以画出尖顶的边界,说明狗的行为如何突然变化。
    齐曼介绍了突变理论在物理学、工程学、医学等方面的应用。如在范 · 德 · 瓦尔(Vander Waals)方程中温度和压力是两个相反的因素,密度在行为轴上标出,顶叶是液态,底叶是气态,两个突变表示沸腾和凝结,尖顶的顶点是临界点,尖顶区里液态和气态同时存在。这种模型可以对物理学上定律加深理解。此外,齐曼还介绍了这个理论在社会科学方面的应用,如预测战争对策、市场变化、解释心理学现象等(文章中这方面的内容未译出)。

    汤姆对所有这些突变都进行了分类,他证明如控制因子不多于四个,突变模型可归结为七种基本突变。目前,突变理论模型正广泛应用于物理学、工程技术、生理学、医学等方面,特别是用到基因密码的翻译和语言、文字同思想的关系等问题上,引起很大的兴趣。突变理论究竟如何,要看未来十年的实验检验。

    科学家常常用构造数学模型的方法来描述事件。事实上,如果这样的一个模型特别成功,那就可以说不但描述了事件,而且也“解释”了事件;假使这个模型能够归结为一个简单的方程,甚至可以把它叫做一条自然定律。三百年前,牛顿和莱布尼茨在构造这类模型时发现了著名的微分法。牛顿本人在表达他的引力定律和运动定律时用了微分方程。麦克斯韦(James Clerk Maxwell)则把微分方程用于它的电磁理论。爱因斯坦的广义相对论最终归结为一组微分方程。这类比较不那么著名的例子还可以举出许许多多。然而,微分方程作为一种记叙性的语言也有其固有的限制:它们只能描述那些连续变化和光滑变化的现象。用数学的语言来说就是:这些微分方程的解必须是可以微分的函数。但这类有规律、有很好性态的现象,相对来说是很少的。相反,世界上充满了突然变化和不可预测的事件,这些都要求不可微分的函数。

    有一种关于不连续的、发散现象的数学方法,到最近才发展起来。这个方法有可能描述自然界各种形式的进化,因而它体现了一种更有普遍性的理论;它能特别有效地应用于由逐渐变化的力量或运动而导致突然发生变化的情形。由于这个原因,这一方法被称之为突变理论。物理学中有许多事件,现在都可以看作是数学突变的事例。但这个理论最重要的应用,毕竟还是在生物学和社会科学方面,那里不连续的、发散的情况几乎无所不在,而其它数学方法至今证明无效。突变理论能对到今天还是“不精密”的科学提供一种数学语言。

    突变理论是法国Bures-sur-Yvette高级科学研究院的汤姆创立的。他在1972年出版的《结构稳定性和形态发生学》一书中介绍了他的思想。这理论导源于拓扑学,它是涉及多维空间曲面性质的数学分支。同拓扑学有关,是因为自然界的基本力量可以用关于平衡的光滑曲面加以描述,当这一平衡被打破时,突变就发生了。因此,突变理论的问题是要描述各种可能的平衡曲面的样式。汤姆用很少几种最原始的形式,即他称之为基本突变的,把这个问题解决了。对于不超过四个因子控制的过程,汤姆证明正好有七种基本突变。汤姆定理的证明很难,但证明的结果却比较易于了解。这些基本突变本身,不必看证明就可以懂,并可以用到科学问题上。

    攻模型

    突变理论的模型的性质,最好用例子来说明,我们从研究狗的进攻模型开始。洛仑兹(Konrad Z. Lorenz)曾指出,进攻行动受两个互相矛盾的倾向所制约:发怒和恐惧。他还指出,对于狗来说,这两种因素在某种程度上可以测量出来。一只狗的发怒和张嘴、露齿程度有关,其恐惧程度则可从它的耳朵向后拉平多少反映出来。使用面部表情作为狗的情绪状态的指标,我们可望弄清狗的行为的变化是如何因情绪变化而变化的。

    在两个互相矛盾的因素中如果只有一个因素出现,狗的反应比较容易预测。如果狗发怒而不害怕,某种进攻行动比如发动攻击是可以料到的。当狗受了惊吓而未发怒,进攻行动就未必发生,狗多半会逃走。如果没有刺激,预测也很简单:狗将处于某种中间状态,同进攻和驯顺都不相干。

    如果狗同时又发怒又恐惧该怎么样呢?这两个控制因子是直接冲突的。有一种和不连续变化不相适应的模型预测,两种刺激将相互抵消后回到中间状态。这正好暴露了这种简单化模型的短处,因为实际上中间状态最少可能发生。当一只狗又发怒又受惊,采取两种极端行为的概率都很高:可能攻击也可能逃走,但不可能保持无动于衷。从突变理论中导出的模型的长处在于能估计出取二个值的概率分布。另外,这个模型还提供了一个预测在特殊情况下狗将选择什么行动的基础。

    构造模型,首先要在水平面上划两个轴,表示发怒和恐惧这两个控制参量,这个水平面称为控制面。度量狗的行为的第三轴垂直于前两轴称为行为轴。我们可以假定狗的各种可能行为方式都平滑而连续地排列着,如开始是仓皇逃走,继而退缩、回避、漠然、惊叫、直到咆哮进攻。最有进攻性的行为假定在行为轴上取最大值,最少进攻性的则取最小值。对控制面上的每一点(即对发怒和恐惧的每一种组合),至少存在一种最可能的行为。我们就直接在控制面的那一点之上标出空间上一点,使之最大限度地表示出上述行为。对控制面上许多点来说,不论是恐惧还是发怒占优势,只有一个行为点与之相应。但接近于图形中心部分,发怒和恐惧的程度差不多相等,控制面上的每一点都有两个行为点:一个在行为轴上有较大数值,表示攻击行为;另一个有较小数值,表示驯顺行为。此外,我们还可以注意到两点之间有第三点,表示最小可能的中间行为。

    如果对整个控制面上每一点都画出行为点,并能连成一片,则形成一个光滑曲面:行为曲面。这曲面有一种整体性倾斜,从发怒占优势的高数值区域到恐惧占优势的低数值区域。但这种倾斜还不是它最主要的特征。突变理论表明,曲面中间一定还有一个光滑的打了褶但没有皱的二重折叠,造成从曲面前部到后部的夹缝,最后出现折叠中三叶会合的奇点(见图1说明)。正是这一折叠才给予这个模型最有趣的特征。行为曲面上的所有的点表示狗的最可能行为,有一个例外是中间叶,它表示最小可能的行为。通过突变理论,我们可以根据某些控制点上的双重行为得出整个行为曲面的形状。

    3.1.1
    图1 狗的进攻可用一种基本突变理论模型描述。这个模型假定进攻行为受控于两个互相冲突的因子,发怒和恐惧,标为水平面,即控制面上的两根轴。狗的行为从攻击到逃跑表示于垂直轴。对发怒和恐惧任何一种组合,从而对控制面上的任何一点,至少有一种相当的行为形式,用控制面相应点上方行为轴的适当高度上的一个点指示出来。所有这些点的集合构成行为曲面。在大多数情况下,只有一种可能的行为方式,但发怒和恐惧的程度如果大致相等,就会有两种方式:一只狗既发怒又害怕,就可能或者进攻或者逃跑。因此在图中央有两叶表示最可能的行为,两叶用第三叶连接起来形成一个连续的折叠面。这第三叶或中间叶(阴影部分)同另外两叶意义不同,表示这种中间状态的最小可能的行为。行为曲面的折叠朝原点方向越来越狭,直到最后消失。确定折叠边缘的线叫做折叠曲线,它在控制面上的投影是一条尖形曲线。由于这个尖顶标志着行为出现双枝的区域的边界,因而叫做分支集,这个模型叫做尖顶突变。如果使一只发怒的狗害怕起来,它的情绪沿控制面上的轨道A变化。行为曲面上相应的路径在顶叶上向左移动直到达到折叠曲线为止;然后顶叶消失了,行为点的路径一定突然跳到底叶。这时狗放弃攻击而突然逃走。同样,一只受到惊吓的狗被激怒以后,沿轨道B移动。狗保持在底叶,直到底叶消失为止,然后跳到顶叶,狗不再畏缩而突然发动攻击。狗如果同时受到激怒和惊吓,必然沿着C上的两条轨道之一移动。究竟移动到顶叶变为进攻还是移动到底叶变为驯顺,则严格取决于发怒和恐惧的数值。这时一个很小的刺激会产生一个很大的行为变化:这现象就是发散。

    为了了解怎样用模型预测行为,我们必须研究狗对改变刺激的反应。假设狗的初始情绪状态是中间的,可以用控制面上的原点表示。这时在行为曲面上标出的狗的行为也是中间的。如果某些刺激增强了狗的怒气而不使之害怕,那么在行为曲面上标出一个光滑地向上改变的行为方向,趋向于进攻的态势,当发怒增强到足够程度,狗便会攻击。如果狗的恐惧开始增强,而发怒气仍保持高水平,那么控制面上表示这些情态的点一定向中央部分伸展过去。而表示行为的点也当然跟着移动。但因为行为曲面在这一区域不很陡,行为变化很轻微,所以狗仍保持着进攻态势。

    当恐惧继续增强,最后行为点必然达到折叠的边缘。模型显然给人以新的启发。在折叠边缘上,顶叶经过向下折叠以后,其效果已经消失。这里只要稍微增加一点恐惧,顶叶就不起作用了。因此,行为态势将直接取决于图的底叶,它表示完全不同的行为方式。顶叶的进攻态势再也不可能了,不可避免地突然、实际上是突变式地变为驯顺态度。于是,这一模型预测到,如果一只狂怒的狗逐渐恐惧起来,最后将中止进攻而逃走。这种行为的突然变化可以叫做逃跑突变。

    此图也可以预测存在一个相反的行为模式:攻击突变。当狗处于恐惧占优势的初始状态时,其行为稳定在底叶,但随着怒气的充分增大,穿过折叠的对边跳到顶叶,处于攻击态势。换句话说,一只逃跑的狗,如果置于怒气渐渐增大的状态下,可能突然攻击。

    最后,一只狗最初处于中间状态,后来怒气和恐惧同时增大,其行为将怎样呢?行为点开始在原点上,在两种对立的刺激影响下,在图上笔直地向前移动。到达奇点时,行为曲面发生折叠,行为点或者在狗更多进攻性时向上面一叶移动,或者在狗更少进攻性时向下面一叶移动。究竟到哪一叶,严格取决于狗在到达奇点以前的态势。此图被称为发散的:初始条件的一点很小变化都会引起最后状态的重大变化。

    顶突变

    在行为曲面上,标志着经顶叶折向底叶边缘上的那条线,称为折叠曲线。它投射在控制面上,形成了一条尖形的平面曲线。由于这个原因,这个模型叫做尖顶突变。这是七个基本模型中最简单的一个,也是至今最有用的一个。

    控制面上的这条尖形曲线,称为尖顶突变的分支集合,规定了突然变化可能发生的范围。当系统的状态在这一集合之外,行为的改变量作为控制参量的函数平滑而连续地变化着。甚至进入尖形曲线内部,一时也看不到急剧的变化。然而,当控制点从头至尾穿越尖顶时,突变就不可避免了。

    分支集合内的每一点都有两种行为方式,外面只有一种。而且,即使行为曲面有三叶,尖顶中也只有两种行为方式。因为我们曾用折叠部分的中间叶表示最小可能的行为。中间叶的存在使行为曲面保持平滑和连续,然而行为点并不布满整个中间叶,事实上控制面上没有一条渠道能使行为点进入中间叶。一旦跨过折叠曲线,行为点就要在顶叶和底叶之间跳跃,因此,中间叶是难以接近的。

    构造这一模型,是从一个本质上是决定性的假设出发的:狗的行为能够从反映在面部表情上的情绪状态预测到。最后,用图表示的模型乍看上去似乎违背了这个假设,因为对于给定的情绪状态有两种可能的行为方式,就不可能作出毫无含糊的预测。事实上如果我们仅仅知道当前的情绪状态(假定这一状态在图的双值区域以内),我们当然不能预测到狗将干什么。不过当我们附加某些条件时,就可以提高这个模型的决定作用,也可以使它更复杂些。倘若我们对狗现在和前一段的情绪状态都知道,狗的行为就可以预测。

    进攻性当然不只是狗的特征,这个模型也描述了一种可以同样运用于其它物种的机制。例如,考虑某些热带鱼有一种在珊瑚礁建立永久巢穴作为领土的行为。在这种情形中,控制进攻因子可以是来犯鱼的大小和接近窝的程度。鱼的攻击行为将再次被描述为一种尖顶突变。一条鱼远离巢穴寻找饲料,碰到大鱼时将会逃跑;但一旦逃到自己领土的“防御”边界,突然改变态度,转过来保卫自己的巢穴。反过来,如果鱼在它的巢穴里遇到危险,它将驱逐来犯者,但一到达自己领土的“攻击”边界,就会放弃追赶而返回巢穴。从巢穴到改变行为地点的距离,将取决于尖形曲线的分支集合。由于尖顶模型的样式,这个模型可以令人感兴趣地预测到“防御”范围比“攻击”范围要小些。此外,这两个边界的大小取决于敌我力量的对比。一条来犯的大鱼更靠近巢穴才会激起这条鱼起来战斗。这个模型还很容易说明鱼的行为的一种可见特点:这种有领土的鱼配对时,对于偶尔接近巢穴的对象会进行更有力的抵抗。

    动力的作用

    还留下一个重要的问题来:什么是动力?在进攻模型中是什么迫使狗表现出最可能的行为?在自怜模型中为什么最可能怀有的心情正是所采取的那一种?

    像突变机这样一个物理系统中的能量极小值,是所谓吸引子概念的一个特例。这里它是最简单的一种吸引子,一种单一的稳定状态,其作用好像一块磁石的吸引子:在它影响范围内的什么东西都要被它拉过去。在吸引子的作用下,系统呈现出静态平衡。

    心理学模型中一定也有吸引子,虽然不一定这么简单。一个动态平衡系统的吸引子,是由系统经历各态的全部稳定循环所构成。例如,正在用弓拉的提琴弦一再按其共鸣频率重复同样的位置循环,这些位置循环就代表弦的吸引子。

    在心理学模型中寻找吸引子,显然要到大脑的神经机构中去找。大脑当然比提琴弦复杂得多,了解得却很少,但也知道亿万神经原组成大规模互相连结的网络,形成一个动力系统。任何一个动力系统的平衡态都可以用吸引子表示出来。有些吸引子可以是单一状态,但大多处于稳定状态的循环或者更高级的类稳定循环之中。头脑的各部分是互相影响的,因而吸引子的出现与消失有时很快,有时很慢。当一个吸引子让位于另一个吸引子,系统也可能保持稳定性,不过情况常常不是这样,大脑状态会出现突变性的跳跃。

    汤姆的理论讲,在最简单的吸引子——静态平衡点之间——所有可能的突然跳跃都是由基本突变决定的。因此,倘使大脑动力只有点吸引子,它就只能表现为基本突变。但实际上并不是这样,还有更复杂的吸引子,明显的证据是:大脑的X节律波是一个循环吸引子。支配循环吸引子和高维吸引子之间跳跃的法则,现在还不知道,它们必然不仅包括基本突变,还包括一般化的突变,对这些问题的研究是今天数学研究的活跃领域。因此还没有描述整个大脑动力系统的完备理论。然而,基本突变仍然对某些大脑活动提供了有意义的模型。模型是清楚的,有时也使人感到简单,但是它们所依据的主要数学理论隐含地以神经网络的复杂性作为基础。

    大脑动力的吸引子概念,提供了我们的人类行为和动物行为模型中所需要的东西。

    担负像自怜这类情绪的神经机制是不知道的,但存在着一种稳定状态的情绪,就意味着这个机制是一个吸引子。事实上,在自怜模型中行为曲面的每一点都相当于一个支配着情绪的大脑中那个系统的吸引子。如果神经系统受到什么干扰,它立即在吸引子的影响下回到行为曲面上来,正如突变机制恢复到平衡一样。当一个吸引子的稳定性被打破,让决定情绪的系统接受另一个吸引子的影响,并朝着它迅速移动的时候,情绪的急剧变化就出现了。

    尖顶突变的特征

    前面的例子和分析提示了尖顶突变的某些共同特征。一个不变的特征是:行为都在区域上方,部分是双重的,并可以观察到从一种行为方式到另一种方式的突然变化。此外,突然变化的模式还呈现一种滞后效应,就是说,从顶叶到底叶的变换并不发生在从底叶到顶叶变换的同一点上。尖顶中央并不发生变化,一直推迟到到达分支集合为止。另一个特点是:在尖顶里面行为是双重的,行为轴的中间地段很难接近。最后,模型意味着有可能发散,使系统初态的小扰动最后会变成终态的大差别。这五种性质:双态性、突然变化、滞后、不可接近性和发散性,由于模型本身而彼此有关。如果有一个在过程中显露出来,也应当找到其它四个,如果不止找到一个,就应当考虑选择尖顶突变来描述这个过程。

    对于许多物理学(一种运用高度发展的数学语言的科学)上的问题,突变理论也有助于理解。一个例子是物质在液相和气相之间的转化。我们可以作为尖顶突变而重写范 · 德 · 瓦尔方程,以温度和压力为两个相反的控制因子,密度为行为轴。顶叶是液相,底叶表示是气相,两种突变表示沸腾和凝聚。尖顶的顶点是临界点,同时存在液相和气相。绕过尖顶背后,液体可以不经沸腾而变成气体。

    物理学中的另一个尖顶突变,来源于18世纪欧拉(Euler)的工作,即弹性梁在水平挤压和垂直荷载下的弯曲。挤压是破裂因子,荷载是正常因子。加强挤压,使图形上的行为点进入尖顶区域,在这里,梁有两个稳定状态,一个向上弯曲,一个向下弯曲。如果梁最初是向上弯曲的,荷载增加时,行为点的移动会跨过尖顶区,使梁突然向下弯曲。这种情况如果是发生在一座桥的支持桁架上,就既是数学上的突变,也是现实中的突变。

    物理学中另一个绝妙的例子,是由于光线在弯曲表面上的反射和折射形成的明亮的几何图案,即所谓光焦散。一种熟悉的焦散是尖顶形曲线,一杯咖啡的表面由于阳光的照耀有时会出现这种焦散,它是由太阳光线从杯子内部的反射而造成的。

    另一个熟悉的焦散展现了短暂的和立体的亮度的不连续性,即在太阳光下游泳池底部变化着的图案。雨后的虹是一族颜色的散射。一道光线照射到凹面镜上或者通过球面镜或柱面镜(例如一只泡泡或者注满了水的烧杯),会产生许多复杂的焦散现象。在这里应用突变理论后,加深了对现象的理解。汤姆曾指出:稳定的焦散只有3种类型的奇点。对光焦散现象进行突变理论分析的数学精巧性在于,这里没有用动力学,用的是对极大极小给以同等重要地位的变分学。

    3.1.2
    图2对剩下的两种突变只可用截口加以解释,因为即使其分支集也超过了三维。蝴蝶突变的四维分支集用三维截口表示。第四维是蝴蝶因子,如果碰巧它表示时间,那么一个截口的结构就能引申出他截口来。图形中从左到右的移动反映倾斜因子的变化。二维“薄片”可以更清楚地显示这些因子的作用。抛物脐形突变的四维分支集合也用三维截口表示。这是照英国兰开斯特工艺学校的高德温(Godwin)事先用计算机准备的图形画的。

    尖顶突变是三级图像:二个控制参量需要二维,行为轴还要一维,其实行为轴不一定只表示单独的行为变量,例如在脑功能模型中,它可以表示亿万神经原同时变化的状态。然而突变理论指出,总是可能选出一个单独的行为变量,画出仅仅相对于行为轴的行为曲面,从而得出我们熟悉的三维图像。

    如果把图像减为二维,结果会产生一个更加简单的模型:折叠突变。折叠突变中只有一个控制参量,控制空间是一条直线,分支集是线上的一个单独点。行为空间是一条抛物线,一半表示稳定状态,另一半表示不稳定状态。这两个部分由一个直接在分支点之上的折叠点所分开。

    类定理

    折叠突变可以看成是尖顶突变折叠曲线的截口。尖顶突变也可以当作许多原点上只有一个新奇点的折叠突变的堆砌。更复杂的高维突变可以按同样办法构成:由每一个都在原点上有一个新奇点的许多低维突变所组成。

    如果控制空间是三维的,行为空间仍然是一维的,唯一的一个四维突变就可以构造出来。行为曲面变成一个三维超曲面,沿整个曲面的折叠代替沿曲线的折叠,这样的图形很不容易画得让人看出来。分支集合不再是二维平面上有奇点的曲线,而是在边缘上遇到尖顶的三维空间的曲面。一个新的奇异性发生在原点上,叫做燕尾突变。因为是四维图像,整个燕尾突变是画不出来的。我们只能画出它的三维分支集合,由此可能得到关于燕尾的某种几何直觉,正如通过画出尖顶的二维分支集合,并记住行为曲面在尖顶以内是双重的就能够描述尖顶突变,这种突变叫做燕尾,因为它的分支集合看上去有点像一只燕尾。这个名字是一位法国盲人数学家贝纳德 · 毛林(Benard Morin)建议的。

    如果再加上另一个控制参量,产生一个五维突变。折叠,尖顶和燕尾又作为截口出现,而一个新的奇异性由于几个曲面的交截形成一个“口袋”。“口袋”的形状和它的截口,叫做蝴蝶突变。它的分支集合是四维的,因而画不出来,只能通过二维或三维的截口来说明(见图3)。

    3.1.3
    图3五种基本突变图提示了它们的几何本质。折叠突变是尖顶突变的折叠曲线的一个截口,其分支集合由一个单独的点所组成。尖顶是可以全部画出来的最高维数的突变。燕尾是四维突变,抛物脐状突变和椭圆脐状突变是五维的,这些图只能画出三维分支集,表示不出行为曲面。

    当控制空间是三维、行为空间是二维时,形成两个以上的五维突变。这叫做双曲脐形和椭圆脐形突变。像燕尾式,有两个带尖形边缘的曲面组成分支集合,它们是三维的,可以画出来。最后,由一个四维控制空间和一个二维行为空间所产生的六维突变,叫做抛物脐型。它的几何形状是复杂的,也只能画出它的分支集合的截口。

    增加控制空间和行为空间的维数,可以构造出无限的突变序列。俄国数学家阿诺尔德(V. I. Arnold)已经至少对25维进行了分类。但在现实世界的现象模型中,是上面所描述的七种可能最为重要,因为它们具有不超过四维的控制空间。由空间位置和时间所决定的各种过程的特殊同类性,不能多于四维的控制空间,因为我们的世界只有空间三维和时间一维。

    即使画不出的突变也可以用模型现象加以解释,它们的几何形状完全是确定的,虽然不能从图上看出来,但点在行为曲面上的运动可以进行解析地研究。每一突变都用势函数来定义,而且在每种情况下行为曲面都是由势函数的一阶导数为零的点所构成的图形。

    汤姆理论的力量在于它的一般性与完备性。它指出,一个过程如果由某一函数的极大值或极小值所决定,而且由不超过四个因子所控制,则行为曲面的任何奇异性一定类似于上面指出的七种突变之一。如果一个过程仅仅由两个控制因子决定,则行为曲面只能有折叠和尖顶。这个原理本质上说明,在任何包含两个原因的过程中,尖顶突变是可能发生在图上的最复杂的事。这个原理的证明在这里介绍就太专门、太长了,但它的结论却十分简要:只要连续变化的力量有突然改变的效应,这个过程一定可以描述为一种突变。

    3.1.4

    七种基本突变描述了控制因子不多于四个的所有可能的不连续现象。每一种突变都同一个势函数相联系,其控制参量用系数(a,b,c,d)表示,系统的行为决定于变量(x,y)。每一个突变模型中的行为曲面是由势函数一阶导数为零的一切点所组成的图像,当有两个一阶导函数时,二者都等于零。

    神经性厌食症

    蝴蝶型突变的第二个应用,也是最丰富的应用,是有关神经性厌食症的。这种主要在青春期少女和青年妇女中产生的神经紊乱,使得她们的饮食状况恶化到不吃东西。其模型由我和海维西(Hevesi)合作完成。海维西是英国心理医疗学家,曾用催眠疗法治疗厌食症。不久以前他调查了1000名厌食症病人,其中只有一个人说曾被完全治愈过。

    在厌食症的初期,不吃东西导致饥饿,有时甚至死亡。随着时间的推移,病人的态度会倾向于吃食物,但其行为更加反常。通常大约两年以后发展到第二期,称为贪食期,这时患者交替地绝食和贪食。这种双重行为明显地可看作是一种突变,在厌食症患者的后一时期,其行为可在两个极端之间突然跳动,而拒绝采取介于二者之间的正常行为。突变理论提出一种理论上的治疗建议:如果能按照蝴蝶突变引进一种“分叉”,那么恢复正常的途径是可以得到的。

    这一模型的行为曲面用来表示病人的行为,其次序是从不可控制的滥吃到吃得过饱最后到绝食不吃。这当然提供了大脑基本状态的某些指标。但正如在进攻模型中那样,我们关心的那种情绪状态,可能最初产生于周围神经系统。心理学上的论据表明,行为变量应是一种量度,表示周围神经系统从身体各部分来的信号输入量和从大脑皮层方面来的相反的信号输入量之间的相对量值。对正常人来说两种输入量在某种意义上是平衡的,而在厌食症患者,其中一个或另一个占着优势。

    3.1.5
    图4神经性厌食症,一种青春期少女和青年妇女患的由于神经紊乱而不吃东西的病症,可以用蝴蝶型突变描述。控制参量是饥饿和对食物的反常态度。对正常人来说,饥饿导致一个想吃东西和吃饱之间的循环。对厌食症患者,由于变态心理,同样的饥饿导致完全不同的行为。在病的初期(上图),圆圈在行为曲面的下叶,患者保持平常的绝食状态。在第二时期(下图)诱发了自我控制这个第三因子的变化。当病人经过二年或更多时间失去自我控制以后,分支集合逐渐弯向左边直到饥饿圈通过尖顶的右半边。然后患者进入了后期循环:她绝食,直至饥饿使她发生“放开”突变,然后贪食,直至发生“击败”突变重又回到绝食,并且在她发觉弄脏了时把自己洗干净。

    在控制参量中,饥饿是正常因子。正常人有节奏地在想吃和吃饱之间循环。破裂因子是厌食症患者对食物的反常程度。随着患者情况恶化,变态程度也逐渐增长。饮食更加艰难,一切种类的食物都不想吃。对糖类最初是回避,后来竟感到恐惧。

    蝴蝶型突变的倾斜因子是失去自我控制,它能用周围神经系统减少相对量值来衡量。在紊乱的初期,患者的态度已经失常,但还能控制自己。这时她的情况处在曲面的底叶,其周围神经系统始终保持和绝食相适应的状态,即使当她正在吃最低限度食物的时候也是这样。

    随着患者周围神经系统减少相对量值,她也失去控制,倾斜因子渐渐增加。结果尖顶摆向图形的左边(见图5)。如果移动得足够远,尖顶的右半边和厌食圈相交,病就突然进入第二期的发作,现在患者不再处于通常的第一期绝食循环,而被赶入后一个循环:从底叶跳到顶叶,又从顶叶跳回底叶。在典型的厌食症患者的语言中,当她说“放开”时,就发生从绝食到贪食的突变跳跃。人们毫无办法地注视“在她心中的怪物”狼吞虎咽地大吃几小时,有时还呕吐。当她筋疲力尽,感到厌恶、丢脸的时候,突变又回到绝食状态,许多厌食症患者把这叫做“击败”。

    3.1.6
    图5厌食症的处理,依赖于提出表示行为中间方式第三叶。蝴蝶型突变的第4个控制参量:使病人安心;它的增加可能构成新的行为。第4个参量的作用是在分支集合中设置一个口袋,以便产生行为曲面的中间叶。由英国心理医疗学家海维西发展起来的治疗体系,使病人安心的办法是鼓励病人进行催眠。最初病人进入或离开催眠状态,就是从中间叶到顶叶或底叶跳跃的突变,如上面下图所示。当治疗继续进行,病人的状态就从中间叶光滑地转移到口袋后面的正常行为方式。

    后期由于“击败”而进入绝食的期间,和初期的通常的绝食是不同的。它位于行为轴的不同位置,把这种情况叫做“净化”也许更好些。早期绝食时,周围神经系统状态是大脑皮层的信号输入量占优势,不肯吃东西。在贪食期,周围神经系统是身体方面来的输入量占优势。基于“净化”时的状态又是大脑输入占优势,但这时又有身体方面输入的倾向以避免弄脏身体的成分在内。

    从事催眠疗法的海维西设法使病人安心,减少她们的不稳定性,用催眠术使患者回复到接近正常的行为。厌食症患者的睡眠是不定时的。当她们醒来时,就体验由催眠者自然引起的催眠状态。催眠可表示周围神经系统的第三种状态,它位于贪食和净化之间的不可接近的地带。病人在绝食时以忧虑的眼光看整个外部世界,在贪食时又被外部世界所压倒,但处于催眠状态时她被孤立起来了。她的心情从需要食物和设法避开食物二者之间解脱出来,只在这时,才能使病人安下心来。

    使病人安心的程度成为模型中的蝴蝶型因子,它在行为曲面中创造了新的一叶。它位于其它二叶之间,并最终将接近于尖顶后面正常区域的稳定状态。因为治疗通常从绝食状态开始,所以进入催眠是从底叶到中间叶的跳跃,解除催眠则是另一种突变,使病人的状态从中间叶跳到顶叶或底叶。

    大约催眠两个星期,进行了7个催眠疗程之后,病人的变态心理通常会突然被打破,个人性情又和整体协调起来。当病人从催眠中醒来时,她会说这好像是“再生的时刻”,她能再次吃东西而不会过分了。看来催眠打开了大脑中的途径,使得周围神经系统获得更好的平衡,病人则重新接近正常行为。随后的催眠是为了进一步加强这种体验。

    这里介绍的厌食症模型在许多方面是不完全的。我省略了另一个附加控制因子:昏睡。这因子支配了醒和睡二者之间的行为特征,也和进入熟睡及唤醒的突变相联系,因此在模型中从催眠到正常的途径由于省略了唤醒突变而使人感到困惑。这一模型的其它方面,我还没有讨论过。

    厌食症突变模型的长处之一,是它解释了病人对自己的叙述。许多患者所描述的表面上不可理解的病情,用突变曲面的结构去看,就变得十分合乎逻辑。数学语言在这类应用中的好处,是心理学所不关心的。它能把本来当作不相关联的观察结果加以有条不紊地综合。

    突变理论的未来

    突变理论是一门年青的科学:1968年汤姆发表了他的第一篇论文。至今它已对数学本身引起极大反响。特别是为了证明它的一些定理,刺激了许多其它数学分支的发展。在这个理论发展中,最重要的突出问题,是关于普遍性突变的理解和分类以及在加入对称条件时所引起的更精细的突变。此外,还有许多问题涉及怎样才能结合其他数学方法、数学概念运用突变理论,如微分方程,反馈,噪声,统计和扩散理论。

    这一理论的新的应用正在各个领域中进行探索。在物理学和工程技术方面,如波传播、曲面最小面积、非线性振动、散射和弹性理论所构造的各种模型已得到发展。Bristol大学的Michael V. Berry最近已利用脐型突变预测腐蚀和流体流动物理学的新结果,并用实验证实了这些结果。

    在汤普逊(D’Arcy Wentworth Thomp-son)和威定(C. H. Wadding)的鼓舞下,汤姆的《结构稳定性和形态发生学》已广泛联系到胚胎学,但至今生物学家还很少在实验室里追随汤姆的思想。我已构成了心搏、神经冲动传播、胚胎中胚囊和索米茨(Somites)形成的突变模型。最近,库克(J. Cooke)在伦敦医学研究会实验室、爱耳斯塔耳(T. Elsdule)在爱丁堡医学研究会实验室所进行的实验,看来证实了我的某些预测。

    如同本文叙述的模型所提示的,我自己的绝大部分工作还是人文科学方面。大量增加的研究者提出了许多根据突变理论得出的模型,未来十年内我期望看到这些模型为实验所证明。只有到那时,我们才能判断这个方法的真正价值。

    汤姆用这个理论大力研究了语言是如何产生的。这是一个令人感到兴趣的思想:同一门数学不但能够为基因密码如何发展成胚胎,也能够为印刷字如何激发我们的想象提供基础。

    本文原载《科学美国人》,第234卷,1976年4月

  • Yoshua Bengio 等:一种神经概率语言模型

    A Neural Probabilistic Language Model

    1 引言

    语言建模及其他学习问题面临的根本性难题是维度灾难。当需要建模多个离散随机变量(如句子中的单词或数据挖掘任务中的离散属性)的联合分布时,这一问题尤为明显。例如,若要用 10 万个单词的词汇表 V 建模自然语言中 10 个连续单词的联合分布,潜在参数数量高达 100000^10-1 个。对于连续变量建模,我们更容易获得泛化能力(例如通过多层神经网络或高斯混合模型等平滑函数类),因为待学习函数通常具有局部平滑特性。而在离散空间中,泛化结构并不明显:这些离散变量的任何变化都可能对目标函数值产生剧烈影响,当每个离散变量可能取值的数量较大时,大多数观测对象在汉明距离上几乎处于彼此最远的状态。

    受非参数密度估计视角启发,一种直观理解不同学习算法如何泛化的有效方法是:设想最初集中于训练点(如训练语句)上的概率质量如何扩散到更大范围,通常以某种形式的训练点邻域分布在高维空间中,关键在于将概率质量精准分配至关键区域,而非均匀分散在每个训练点周围所有方向。本文将证明,当前提出的方法其泛化机制与以往最先进统计语言建模方法的泛化方式存在本质差异

    语言统计模型可通过给定所有前序词汇条件下预测下一个词的条件概率来表示,因为

    其中wt表示第t个单词,记子序列wji=(wi,wi+1,…,wj-1,wj)。这类统计语言模型已被证实对许多涉及自然语言的技术应用具有重要价值,例如语音识别、机器翻译和信息检索。因此,统计语言模型的改进可能对这些应用产生重大影响。

    在构建自然语言的统计模型时,研究者通过利用词序规律以及时序相邻词语间存在更强统计依赖性的特点,大幅降低了建模难度。因此,n-gram语法模型会为大量上下文(即前 n-1 个单词的组合)构建下一单词的条件概率表:

    我们仅考虑那些在训练语料库中实际出现或出现频率足够高的连续词组合。当出现一个训练语料库中未曾见过的 n 词新组合时会发生什么?我们不应给这种情况分配零概率,因为这类新组合很可能出现,且上下文窗口越大时出现频率会更高。一个简单的解决方案是参考更小上下文窗口预测的概率,如回退三元模型(Katz, 1987)或平滑(插值)三元模型(Jelinek and Mercer, 1980)所做的那样。那么在这类模型中,如何实现从训练语料库中观察到的词序列到新词序列的基本泛化?理解这一机制的方式是设想一个与这些插值或回退 n 元模型对应的生成模型。本质上,新词序列是通过”粘合”训练数据中高频出现的、长度为 1、2…至 n 的极短重叠片段而生成的。 获取下一个词块概率的规则隐含在回退或插值 n-gram 算法的具体实现中。研究者通常采用 n=3(即三元模型)并获得了最先进的成果,但 Goodman(2001 年)的研究表明,结合多种技巧可带来显著提升。显然,待预测词之前的序列信息远不止前几个词的身份标识。这种方法至少存在两个亟待改进的特征,而我们将在本文中重点探讨这些获得最先进成果的改进方向。首先,现有方法未能考虑超过 1-2 个词之外的上下文;其次,它忽略了词语之间的”相似性”。例如,当训练语料中出现过”猫在卧室里行走”这样的句子时,应当能帮助我们泛化推断出”狗在房间里奔跑”也具有相近的概率,这仅仅因为”狗”与”猫”(以及”the”与”a”、”room”与”bedroom”等)具有相似的语义和语法角色。

    针对这两个问题,学界已提出多种解决方案。我们将在 1.2 节简要说明本文方法与早期某些方法的关系。首先阐述本方法的核心思想,随后在第 2 节通过基于共享参数多层神经网络的实现方案进行形式化表述。本文的另一贡献在于解决了海量参数神经网络(百万级参数)在超大规模数据集(千万级样本)上的训练难题。最后,本文的重要贡献在于证明:虽然训练这种大规模模型成本高昂但切实可行,能够扩展至大语境场景,并取得优异的对比实验结果(第 4 节)

    本文多数运算采用矩阵表示法:小写v表示列向量及其v’表示转置,Aj表示矩阵A的第j行,x.y表示x’y。

    1.1 用分布式特征对抗维度灾难

    本方法的核心思想可简要概括为:

    • 1. 为词汇表中的每个单词分配一个分布式词特征向量(即Rm空间中的实值向量),
    • 2. 根据序列中这些单词的特征向量来表达单词序列的联合概率函数,以及
    • 3. 同时学习词特征向量和该概率函数的参数。

    特征向量表征了单词的不同方面:每个单词都与向量空间中的一个点相关联特征数量(例如实验中 m=30、60 或 100)远小于词汇表规模(例如 17,000)。该概率函数表示为给定前序单词条件下后续单词条件概率的乘积(例如实验中采用多层神经网络根据前序单词预测后续单词)。该函数具有可迭代调整的参数,旨在最大化训练数据的对数似然或正则化标准(例如通过添加权重衰减惩罚项)。与每个单词相关联的特征向量是通过学习获得的,但也可以基于语义特征的先验知识进行初始化

    为什么这种方法有效?在前面的例子中,如果我们知道”dog”和”cat”扮演着相似的角色(在语义和句法上),同理(“the”,”a”)、(“bedroom”,”room”)、(“is”,”was”)也是如此,我们很自然能从中进行泛化(即转移概率质量):

    “The cat is walking in the bedroom” to “A dog was running in a room”

    同样的 “The cat is running in a room”、“A dog is walking in a bedroom”、“The dog was walking in the room”…

    以及其他许多组合形式。在提出的模型中,这种泛化能力得以实现,因为“相似”词语预期会具有相似的特征向量且由于概率函数是这些特征值的平滑函数,特征的微小变化将引起概率的微小改变。因此,训练数据中只要出现上述任一语句,不仅会提升该语句本身的概率,还会提升其在句子空间(表现为特征向量序列)中组合数量的”邻近”语句概率

    1.2 与之相关研究内容

    利用神经网络建模高维离散分布的思想已被证明能有效学习 Z· · · Z 的联合概率,这是一组可能具有不同性质的随机变量(Bengio 和 Bengio,2000a,b)。该模型将联合概率分解为条件概率的乘积

    其中 g(.)是由具有特殊从左到右结构的神经网络表示的函数,第 i 个输出块 g()计算用于表达 Z 在给定先前 Z 值条件下的分布参数(可按任意顺序)。在四个 UCI 数据集上的实验表明该方法表现相当出色(Bengio and Bengio, 2000a,b)。由于本文需处理可变长度数据(如句子),故需调整上述方法。另一重要区别在于:此处所有 Z(第 i 个位置的单词)均指向同类对象(单词)。因此本文提出的模型引入了跨时间参数共享机制——同一 g 函数在不同时间步复用,以及跨不同位置输入单词的共享。这是对联结主义早期理念(Hinton, 1986; Elman, 1990)——为符号数据学习分布式表示——的大规模成功应用,近期 Hinton 的方法经改进后,在学习多种符号关系方面取得了显著成效(Paccanaro and Hinton, 2000)。 使用神经网络进行语言建模的想法也并非首创(例如 Miikkulainen 和 Dyer,1991 年)。与之不同的是,我们将这一构想推向了大规模应用,并专注于学习词序列分布的统计模型,而非探究词语在句子中的角色。本文提出的方法还与先前基于字符的文本压缩方案相关——那些方案使用神经网络预测下一个字符的概率(Schmidhuber,1996 年)。Xu 和 Rudnicky(2000 年)也曾独立提出过用神经网络进行语言建模的设想,不过他们的实验网络既无隐藏单元又仅接受单个输入词,本质上只能捕获一元和二元统计量。

    通过发现词语间相似性来实现从训练序列到新序列的泛化,这一思路早有先例。例如基于词语聚类学习的方法就运用了这一理念(Brown 等人,1992 年;Pereira 等人,1993 年;Niesler 等人,1998 年;Baker与 McCallum,1998):每个单词都以确定性或概率性与一个离散类别相关联,同一类别中的单词在某种程度上具有相似性。本文提出的模型中,我们不再使用离散随机变量或确定性变量(对应单词集合的软划分或硬划分)来表征相似性,而是为每个单词分配一个连续实值向量,即通过学习获得的分布式特征向量,以此表示单词间的相似性。本实验对比部分包含了基于类别的 n-gram语法模型(Brown 等人,1992;Ney 和 Kneser,1993;Niesler 等人,1998)的测试结果。

    在信息检索领域,利用向量空间表示词语的概念已被充分探索(例如参见 Schutze 1993 年的研究),其中基于词语在同一文档中共现概率(潜在语义索引,参见 Deerwester 等人 1990 年研究)学习词语的特征向量。一个重要区别在于,我们在此寻求的词语表示方式需有助于紧凑地呈现自然语言文本中词序列的概率分布。实验表明,联合学习表示(词语特征)与模型非常有效。我们尝试(未成功)将每个词 w 与上下文共现频率的第一主成分作为固定词特征,这类似于信息检索中 LSI 对文档的处理方式。然而 Bellegarda(1997)在基于 n-gram文法的统计语言模型背景下成功应用了词语连续表示的思想,通过 LSI 动态识别语篇主题。

    在神经网络背景下,符号的向量空间表示思想先前也被表述为参数共享层的形式,例如用于二级结构预测(Riis 和 Krogh,1996 年)以及文本到语音映射(Jensen 和 Riis,2000 年)。

    2 神经网络模型

    训练集是由词汇表V中的单词w构成的序列w1……wt,其中词汇表V是一个庞大但有限的集合。目标是通过学习得到一个优质模型  f(wt,…,wt-n+1)=^p(wt|wt-11),从样本外高似然度的角度来看,该模型表现优异。在实验中,我们将报告1/^p(wt|wt-11)  的几何平均数(即困惑度),该数值同时也是平均负对数似然的指数函数。模型唯一的约束条件是:对于任意 wt-11 ,必须满足    ∑|V|i=1f(i,wt,…,wt-n+1)=1 且 f>0 。通过这些条件概率的乘积运算,最终可以得到词序列联合概率的建模结果。

    我们将函数 f(wt,…,wt-n+1)=^p(wt|wt-11)  分解为两部分:

    • 1. 一个从词汇表 V 中任意元素 i 到实数向量 C(i)∈Rm 的映射 C 。它表示与词汇表中每个单词相关联的分布式特征向量。实际应用中, C 由一个 |V|×m 的自由参数矩阵表示。
    • 2. 基于 C 定义的概率函数:函数 g 将上下文单词的特征向量序列  作为输入,映射到下一个单词  在词汇表  上的条件概率分布。如图 1 所示,g  的输出是一个向量,其第 i 个元素估计概率  。

    函数  是这两个映射(  和  )的组合,其中  在上下文的所有单词间共享。这两个部分各自关联着一些参数。

    图 1:神经网络架构, g 是神经网络, C(i) 是第 i 个词的特征向量

    映射 C 的参数就是特征向量本身,用一个  |V|×m  的矩阵  表示,其第 i 行是词 i 的特征向量 C(i) 。函数 g 可以通过前馈神经网络、循环神经网络或其他参数化函数实现,参数为 ω 。整体参数集为 θ=(C,ω) 。

    通过寻找使训练语料库惩罚对数似然最大化的θ来实现训练:

    其中 R(θ) 是正则化项。例如在我们的实验中,R  是仅应用于神经网络权重和 C 矩阵的权重衰减惩罚项,不作用于偏置项。

    在上述模型中,自由参数的数量仅与词汇表单词数 V 呈线性比例关系。同时其与阶数 n 也只呈线性比例:若引入更多共享结构(如使用时延神经网络或循环神经网络,或二者组合),该比例因子可降至次线性。

    在以下多数实验中,神经网络除词特征映射外还包含一个隐藏层,并可选择性地包含从词特征到输出的直接连接。因此实际存在两个隐藏层:无非线性变换的共享词特征层 C(因其不会带来有用增益),以及普通的双曲正切隐藏层。更准确地说,该神经网络通过保证概率为正且求和为 1 的 softmax 输出层计算如下函数:

     yi是每个输出词 i 的非归一化对数概率,计算方式如下,参数包括b 、W、U、d 和 H :

    其中双曲正切函数 tan h 逐元素作用,W  可设为零(表示无直接连接), x 是词特征层的激活向量,由矩阵 C 中的输入词特征拼接而成:

    设 h 为隐藏单元数量,m  为每个单词关联的特征数量。当不需要单词特征直接连接输出时,矩阵 W 设为 0。该模型的自由参数包括:输出偏置  b(含 h 个元素)、隐藏层偏置  b(含 |V| 个元素)、隐藏层到输出的权重  U(|V|×h矩阵)、单词特征到输出的权重  W(a|V|×(n-1)m 矩阵)、隐藏层权重  (  矩阵)以及单词特征  C(a|V|×m矩阵):

    自由参数总量为 |V|(1+nm+h)+h(1+(n-1)m) ,主导因子为  |V|(nm+h) 。理论上,若对权重 W 和 H 进行权重衰减而不对 C 衰减,可能导致 W 和 H 趋近于零而 C 无限增大。但在实际采用随机梯度上升训练时,我们并未观察到这种现象。

    神经网络的随机梯度上升法表现为:在呈现训练语料库第 t 个单词后执行以下迭代更新:

    其中 ε 为”学习率”。需要注意的是,大部分参数在每处理完一个样本后无需更新或访问:即所有未出现在输入窗口中的单词 j 所对应的词特征 C(j) 

    模型混合。在我们的实验中(见第 4 节),我们发现将神经网络的概率预测与插值三元组模型的概率预测相结合能提升性能,可以采用简单的固定权重 0.5、学习权重(在验证集上通过最大似然估计获得)或一组根据上下文频率调整的条件权重(采用与插值三元组中结合三元组、二元组和一元组相同的混合程序)。

    3 并行实现

    尽管参数数量具有良好的扩展性——即与输入窗口大小呈线性关系,与词汇表规模也呈线性关系——但获取输出概率所需的计算量远大于 n-gram 模型。主要原因是:在n-gram模型中,由于相对频率的线性组合具有便捷的归一化特性(在模型训练时已完成),获取特定 P(wt|wt-1,…,wt-n+1)  时无需计算词汇表中所有单词的概率,而神经网络实现的主要计算瓶颈在于输出层激活值的计算

    并行计算机上运行模型(包括训练和测试)是减少计算时间的有效方法。我们已在两种平台上探索了并行化方案:共享内存处理器机器和配备高速网络的 Linux 集群

    3.1 数据并行处理

    在共享内存处理器的情况下,由于处理器之间通过共享内存实现的极低通信开销,并行化可以轻松实现。为此我们选择了数据并行实现方案,其中每个处理器处理数据的不同子集。各处理器计算其分配样本的梯度,并对存储在共享内存区域的模型参数执行随机梯度更新。我们的初始实现效率极低,依赖于同步指令来确保不同处理器不会同时对上述参数子集进行写入操作。每个处理器的大部分周期都耗费在等待其他处理器释放参数写入访问锁上。

    我们选择了一种异步实现方式,其中每个处理器可以随时在共享内存区域进行写入。有时,某个处理器对参数向量的部分更新会被另一个处理器的更新覆盖而丢失,这会在参数更新中引入一些噪声。然而,这种噪声似乎非常小,并且显然没有减慢训练速度。

    遗憾的是,大型共享内存并行计算机非常昂贵,且其处理器速度往往落后于可连接成集群的主流 CPU。因此,我们能够在快速网络集群上实现更快的训练。

    3.2 参数并行处理

    若并行计算机由多个 CPU 构成网络架构,由于参数交换量庞大(最大规模网络下参数规模接近 100MB),频繁在处理器间传输全部参数将超出本地网络带宽的承受能力。为此我们采用参数并行化策略,重点针对输出单元参数进行划分——这正是我们架构中计算最密集的环节。每个 CPU 负责计算部分输出单元的非归一化概率,并更新对应输出单元的权重参数。该方案实现了通信开销极低的高效并行随机梯度上升,各 CPU 仅需交换两类关键数据:(1)输出层 softmax 的归一化因子;(2)隐藏层(下文记作 a )与词特征层(下文记作 x )的梯度信息。 所有 CPU 都会重复计算输出单元激活前的运算,包括词特征选择、隐藏层激活  的计算,以及相应的反向传播和参数更新步骤。不过对于我们的网络架构而言,这些计算量仅占总计算量的极小部分。

    以美联社(AP)新闻数据实验采用的架构为例:词汇表大小 |V|=17964 ,隐藏单元数 h=60 ,模型阶数 n=6 ,词特征维度 m=100 。处理单个训练样本所需的总运算量约为  |V|(1+nm+h)+h(1+nm)+nm(其中各项分别对应输出单元、隐藏单元和词模型阶数 n=6 的特征单元计算)。在此例中,输出单元加权求和计算量约占整体计算量的比例约为99.7%。这个计算是近似值,因为不同操作实际消耗的 CPU 时间存在差异,但它表明并行化输出单元的计算通常具有优势。对于本文追求的并行化程度(即几十个处理器)而言,所有 CPU 重复执行极小部分计算并不会显著影响总计算时间。如果隐藏单元数量庞大,并行化其计算也将变得有利可图,但我们在实验中未对该方法进行深入研究。

    该策略的实施是在一个由 1.2 GHz 主频 Athlon 处理器(32 台×2 CPU)组成的集群上完成的,这些处理器通过 Myrinet 网络(一种低延迟千兆位局域网)连接,并使用 MPI(消息传递接口)库(Dongarra 等人,1995 年)进行并行化处理。以下简要描述针对单个样本 (wt-n+1,…,wt) 的并行算法,该算法由集群中 M 个处理器中的第 i 个 CPU 并行执行。CPUi (i  的范围从 0 到M-1  )负责从编号 starti=i×[|V|/M]开始的输出单元块,该块的长度为 min([|V|/M,|V|]- starti) 。

    4 实验结果

    我们在布朗语料库上进行了对比实验,该语料库包含 1,181,041 个单词的文本流,涵盖各类英文文本和书籍。前 800,000 个单词用于训练,随后的 200,000 个单词用于验证(模型选择、权重衰减和早停策略),剩余的 181,041 个单词用于测试。语料库包含 47,578 个不同单词(含标点符号、区分大小写,以及用于分隔文本段落的语法标记)。将出现频率 ≤3 的低频词合并为单一符号后,词汇量缩减至 |V|=16383 

    另在 1995-1996 年美联社(AP)新闻文本上进行了实验。训练集是一个约 1400 万(13,994,528)词的连续语料流,验证集约为 100 万(963,138)词,测试集同样约为 100 万(963,071)词。原始数据包含 148,721 个不同词汇(含标点符号),通过仅保留高频词(及标点)、将大写字母转为小写、数字形式映射为特殊符号、罕见词映射为特定符号以及专有名词映射为另一特殊符号,最终将词表规模缩减至  |V|=17964  。

    在神经网络训练过程中,初始学习率设为  ε0=10-3(经过小规模数据集多次试验后确定),并按照以下方案逐步衰减: εt0/(1+rt) ,其中 t 表示已完成的参数更新次数, r 为启发式选择的衰减因子,根据启发式方法设定为 r=10-8 

    4.1  N-gram模型

    神经网络的首个对比基准是插值或平滑三元语言模型(Jelinek 与 Mercer,1980)。设 qt=l(freq(wt-1,wt-2)) 表示输入上下文 (wt-1,wt-2) 的离散化出现频率,则条件概率估计采用条件混合形式:

    其中条件权重满足 ai(qt)≥0 且 Σai(qt)=1 。基础预测器分别为:p0=1/|V|  (词汇表大小的倒数), p1(i) 是一元模型(训练集中词 i 的相对频率),p2(i|j)  是二元模型(前一个词为 j 时词 i 的相对频率),p3(i|j, k)  是三元模型(前两个词为 j 和 k 时词 i 的相对频率)。其原理在于:当 (wt-1,wt-2) 出现频率较高时,三元模型最可靠;而当频率较低时,低阶统计量的二元模型、一元模型甚至零元模型会更可靠。针对 qt 中的每个离散值(即上下文频率区间),分别设有不同的混合权重 α 集合。这些权重可以通过 EM 算法在大约 5 次迭代内轻松估计得出,且在一组未用于一元、二元和三元相对频率的数据集(即验证集)上完成。由于多层感知器似乎以截然不同的方式产生”误差”,因此采用插值 n-gram 模型与之形成混合模型

    我们还与其他最先进的 n-gram 模型进行了比较:采用 ModifiedKneser-Ney 算法的回退 n-gram  模型(Kneser 和 Ney,1995;Chen 和 Goodman,1999),以及  class-based 的 n-gram  模型(Brown 等人,1992;Ney 和 Kneser,1993;Niesler 等人,1998)。验证集用于选择 n-gram 的阶数以及   class-based 模型的词类数量。我们使用了 SRI 语言建模工具包中这些算法的实现,该工具包由 Stolcke(2002)提供,并可在 http://www.speech.sri.com/projects/srilm/获取。这些算法用于计算下文报告的回退模型困惑度,需注意的是,在计算对数似然时,我们并未给予句子结束标记特殊地位,这与我们神经网络困惑度的处理方式一致。所有标记(单词和标点符号)在对数似然平均化(从而获得困惑度)时均被同等对待。

    4.2 结果

    以下是不同模型在测试集上的困惑度衡量指标(  1/^p(wt|wt-11)的几何平均值)。在布朗语料库上,随机梯度上升过程约经过 10 到 20 轮迭代后显现出收敛迹象对于美联社新闻语料库,我们未观察到过拟合现象(基于验证集),这可能是因为仅运行了 5 轮迭代(使用 40 个 CPU 耗时超过 3 周)。验证集采用早停策略,但仅在布朗语料实验中启用。布朗实验中采用  的权重衰减惩罚系数,美联社新闻实验则使用 10-5 的权重衰减(通过少量试验基于验证集困惑度选定)。表 1 汇总了布朗语料库上的实验结果,表中所有回退模型均为 ModifiedKneser-Ney 算法的 n-gram ,其表现显著优于标准回退模型。当表格中回退模型标注  值时,表示采用 class-based 的 n-gram (m 为词类别数量)。词特征值采用随机初始化(类似于神经网络权重的初始化方式),但我们推测基于知识的初始化可能获得更好效果

    表 1:布朗语料库上的对比结果。删除插值三元组的测试困惑度比具有最低验证困惑度的神经网络高出 33%。最佳 n-gram 模型(基于500个词类的 class-based 模型)的差异为 24%。  n:模型阶数。 c :class-based的n-gram的词类数量。 h:隐藏单元数量。 m :MLP 的词特征数量/class-based的n-gram的类别数量。direct  :是否存在从词特征到输出的直接连接。mix :神经网络输出概率是否与三元模型输出混合(各占 0.5 权重)。最后三列分别给出训练集、验证集和测试集的困惑度

    主要结果表明,与表现最佳的 n-gram 模型相比,使用神经网络能显著提升效果——在布朗语料库上测试困惑度降低约 24%,在美联社新闻语料库上降低约 8%(比较对象均为验证集表现最优的  模型)。数据还显示神经网络能有效利用更长上下文(在布朗语料库中,上下文窗口从 2 词扩展到 4 词时神经网络持续改进,而  模型无此效果)。实验同时证实隐层单元具有实际价值(对比 MLP3 与 MLP1、MLP4 与 MLP2),且将神经网络输出概率与插值三元语法混合总能降低困惑度。简单平均法表明,神经网络与三元模型会在不同位置产生预测误差(即对实际出现词语赋予过低概率)。 实验结果无法确定输入到输出的直接连接是否有用,但表明至少在较小语料库上,不采用直接输入输出连接能获得更好的泛化性能代价是训练时间更长,没有直接连接的模型收敛耗时翻倍(20 个周期而非 10 个周期),尽管困惑度略低。合理的解释是,直接输入输出连接提供了稍强的容量,并更快的从单词特征到对数概率映射的“线性”部分的学习。另一方面,若没有这些连接,隐藏单元会形成严格的瓶颈,这可能迫使模型获得更好的泛化能力。

    表 2 展示了在更大语料库(美联社新闻)上的结果,尽管困惑度差异较小(8%),仅进行了 5 轮训练(约三周时间使用 40 个 CPU)。在此情况下,class-based  模型并未提升 n-gram 模型性能,但高阶 modifiedKneser-Ney 回退模型在 n-gram 模型中表现最佳。

    5 扩展和未来工作

    在本节中,我们将描述对上述模型的扩展以及未来工作的方向。

    表 2:美联社新闻语料库的对比结果。各列标签含义请参阅前表。

    5.1 能量最小化网络

    上述神经网络的一个变体可被解释为遵循Hinton’s近期关于专家乘积(Hinton, 2000)研究的能量最小化模型。在前文描述的神经网络中,分布式词特征仅用于”输入”词而不用于”输出”词(下一个词)。此外,输出层扩展了极大量参数(占大多数),且未利用输出词之间的语义或句法相似性。此处描述的变体中,输出词同样由其特征向量表示。该网络接收单词子序列(映射为其特征向量)作为输入,并输出能量函数 E ——当单词构成可能子序列时 值较低,不可能时值较高。例如,该网络输出的”energy”函数为:

    其中 b 是偏置向量(对应无条件概率), d 是隐藏单元偏置向量,v  是输出权重向量,H  是隐藏层权重矩阵。与先前模型不同,此处输入词和输出词共同构成 x :

    能量函数 E(wt-n+1,…,wt) 可解释为 (wt-n+1,…,wt)  联合出现的非归一化对数概率。要获得条件概率  ,只需^P(wt|wt-1t-n+1)(尽管计算代价较高)对 w 的可能值进行归一化处理,具体如下:

    需要注意的是,总计算量与之前提出的架构相当,且若参数  通过目标词(  )的标识进行索引,参数量也能保持一致。需注意在上述 softmax 归一化后仅保留  bwt(任何关于i>0  时 wt-1 的线性函数都会被  softmax 归一化消除)。与之前相同,模型参数可通过随机梯度上升法在 log ^P(wt|wt-1,…,wt-n+1上进行调优,计算过程类似

    在专家乘积框架中,隐藏单元可视为专家:子序列 (wt-n+1,…,wt) 的联合概率正比于与每个隐藏单元 j 相关联的项 vjtanh(dj+Hjx) 的指数和。值得注意的是,由于我们选择将整个序列的概率分解为每个元素的条件概率,梯度的计算是可行的。例如,在乘积隐马尔可夫模型(Brown and Hinton, 2000)中就不具备这一特性——该模型对处理整个序列的专家进行乘积运算,并可通过对比散度算法(Brown and Hinton, 2000)等近似梯度算法进行训练。值得注意的是,该架构与专家乘积公式可视为最大熵模型(Berger et al., 1996)的扩展形式,但不同之处在于:其基函数(或称”特征”,此处指隐单元激活状态)是通过惩罚最大似然法与凸组合参数同步学习的,而非采用贪婪特征子集选择方法在外层循环中学习。

    我们已实现并实验了上述架构,同时基于重要性采样开发了神经网络训练的加速技术,该技术可带来 20 倍的训练速度提升(Bengio and Senécal, 2003)。

    未登录词处理。该架构相较于前一架构的优势在于,它能轻松处理未登录词(甚至能为它们分配概率值!)。其核心思想是:首先通过加权凸组合的方式,为这类词汇推测初始特征向量——即对可能出现在相同上下文中的其他词汇特征向量进行加权求和,权重与其条件概率成正比。假设网络在上下文 wt-1t-n+1 中为词汇表 V 中的词 i 分配了概率 ^P(wt|wt-1t-n+1) ,而在此上下文中我们观测到新词 j∉V 。我们按以下方式初始化 j 的特征向量 C(j) :←C(j) )Σi∈VC(j)^P(wt|wt-1t-n+1)   。随后可将 j 纳入词汇表 V ,并为这个略微扩大的集合重新计算概率(仅需对所有词进行归一化处理,唯独词 i 需要通过神经网络重新计算)。当预测后续词汇概率时,这个特征向量 C(j) 便可作为输入上下文部分的特征使用。

    5.2 其他未来工作

    这项工作的后续仍面临诸多挑战。短期内需要设计和评估加速训练与识别的方法。长期来看,除本文采用的两种主要方式外,还应引入更多泛化途径。以下是我们计划探索的方向:

    • 1.将网络分解为子网络,例如通过对词汇进行聚类实现。训练多个小型网络将更简单高效
    • 2.采用树形结构表示条件概率,每个节点应用神经网络计算词类在上下文中的概率,叶节点计算具体词汇在上下文中的概率。此类表征有望将计算复杂度从 |V| 降至 |V|/log|V| 量级(参见 Bengio,2002 年研究)。
    • 3.仅从输出词的一个子集传播梯度。这个子集可以是基于更快速模型(如三元模型)条件概率最高的词汇(Schwenk 和 Gauvain 在 2002 年应用了这一理念),也可以是三元模型表现较差的词汇子集。若语言模型与语音识别器结合,则只需计算声学模糊词汇的分数(未归一化概率)。
    • 4.引入先验知识。可以引入多种形式的先验知识,例如:语义信息(来自 WordNet 等资源,参见 Fellbaum 1998 年的研究)、底层语法特征信息(例如使用词性标注)以及高级语法信息(例如将模型与随机语法耦合)。长距离上下文的影响可以通过在神经网络中引入更多结构和参数共享来捕捉,例如使用时延神经网络或循环神经网络。在这种多层网络中,针对连续小词组的计算无需在输入窗口移动时重复执行。类似地,可以使用循环网络来捕捉更长距离的文本主题信息。
    • 5.解释(并可能利用)神经网络学习到的词特征表示。简单的第一步可从 m=2 的特征开始,这样更易于可视化。我们认为更有意义的表示需要大规模训练语料,特别是对于较大的 m 值。
    • 6.多义词可能无法很好地适应当前模型,因为该模型为每个词在连续语义空间中分配单一位置点。我们正在研究该模型的扩展版本,其中每个词将关联空间中的多个位置点,每个点对应该词的不同语义。

    6 结论

    在两个语料库(一个包含超过百万例句,另一个包含超过 1500 万词)上的实验表明,所提出的方法比最先进的平滑三元语言模型获得了更优的困惑度,困惑度差异达到 10%至 20%。

    我们认为这些改进主要源于:该方法能够利用学习到的分布式表征,以其人之道还治其人之身地对抗维度灾难——每个训练句子都能为模型提供关于组合数量级其他句子的信息

    在模型改进方面,可能还需要从架构、计算效率以及利用先验知识等层面开展大量工作。未来研究的重要方向应包括优化加速技术,以及探索在不显著增加训练时间的前提下提升模型容量的方法(以应对包含数亿甚至更多词汇的语料库)。一个利用时间结构并扩展输入窗口以涵盖整段内容(同时避免参数数量或计算时间大幅增加)的简单思路是采用时延神经网络或循环神经网络。此外,在应用场景中对本文所述模型类型进行评估也将大有裨益,不过可参考 Schwenk 与 Gauvain(2002)已开展的关于降低语音识别词错误率的研究成果。

    更广泛地说,本文提出的内容为统计语言模型的改进开辟了新途径——通过用基于分布式表示的更紧凑、更平滑的表征来替代”条件概率表”,这种表征能够容纳更多条件变量。传统统计语言模型(如随机语法)为避免过拟合,往往需要耗费大量精力来限制或汇总条件变量;而本文描述的这类模型将难点转移至其他方面:虽然需要更多计算量,但计算和内存需求仅随条件变量数量呈线性增长,而非指数级增长

  • 张振《人类六万年》6-8

    第六章 与百万年历史决裂

    耶路撒冷东北25千米的Tell el Sultan是《圣经》上反复出现的一个地名,1870年代,考古发掘证实,这里实际上属于《圣经》中提及次数更多的古城耶利哥(Jericho)的一部分。后来,这一带陆续出土的古人类定居的遗址逐渐超过20处,时间大多超过4 000年。1952-1958年,英国的女考古学家凯瑟琳·凯尼恩(Kathleen Kenyon,1906-1978)主持对新的土层进行系统挖掘,彻底改变了人们对历史的看法:耶利哥的早期人类遗迹超过一万年。

    凯瑟琳·凯尼恩发现:不同于石器时代的先祖,耶利哥(大约7 000年前,人类放弃了这个定居将近4 000年的城市)的人类社区已经开始出现早期农业种植的遗迹,在颅骨上涂抹石膏装饰说明在这里出现了古代崇拜的宗教信仰。现代技术测定确认,这个地区的历史超过9 500年。

    1968年,人们在叙利亚境内的幼发拉底河上建造塔巴水坝(Tabqa Dam)时,挖掘出一个人类居住了近4 000年(1.1万——0.75万年前)的遗址——阿布·胡列伊拉(Tell Abu Hureyra)。这是一个从狩猎采集生活形态向农业种植形态过渡的遗址,这里的生活者也因此被称为世界上最早的农民。在这个遗址,从土壤和动物鱼骨等物质中成功分离出712个种子样本,最终查明属于150类以上食用植物的500多种植物种子。这个叙利亚遗址再现了1.1万年前的人类采集狩猎生活方式,和大约一万年前开始的初步的农业种植生活的轮廓。

    学者将这种半定居生活的中东文明命名为纳图夫文明(Natufian culture),时间在1.25万——0.9万年,生活在这一带的人群被称为纳图夫人(Natufian)。这个名称的来源,也是出自一位英国女考古学家。1924年,英国女考古学家多萝西·加罗德(Dorothy Garrod)在以色列的纳图夫河道(Wadi an-Natuf)的洞穴里第一次发现了这种文明。

    在大约1.25万年前冰河期结束时的温暖的地中海沿岸,仅仅过了几百代,纳图夫人(Natufian)就开始酝酿着一场与上百万年的狩猎采集生活的决裂。人类迁移到中东地区后发现,即使定居在一个地点,也可以采集到足够的植物种子生存下去,于是开始了半定居或定居的纳图夫文明。

    大约1.1万年前,气候更加温暖干燥,植物种子产量开始减少。纳图夫人的生活出现了双重的压力:获得更多种子的压力和不愿意脱离舒服的定居生活的压力。但是人们很快想出了解决办法。在不到1 000年的时间里,中东地区的各个定居点逐渐转向植物种子的种植,并且开始利用水利进行灌溉——农业出现了。戈登·柴尔德(Gordon Childe,1892-1957,考古学家和语言学家)把这场巨变命名为“新石器革命”。

    农业文明的出现

    考古学可以给出细节,解答很多疑问。在追寻人类旅程的过程中,考古学、人类学、语言学、遗传学、生物学组成了同盟军,必须互相借鉴对方的成果。基因技术的出现并未否定其他学科,基因把零零散散的引起多年争议的少量化石证据连接成为一个清晰的证据链。

    旧石器时代(Paleolithic)和新石器时代(Neolithic)都被称为石器时代(Stone Age),这两个名称都有后缀lithic(希腊语lithos的意思是石头)。警察经常在垃圾箱里翻腾寻找犯罪证据,考古学家的工作,其实与翻腾垃圾箱差不多。他们翻腾出来在250万——300万年里,人类和其他人属生物制作的无数石器证据,形成了考古学的专业学科和很多学派。

    在过去的250万——300万年里,人类的全部技术的99%体现在石器上,所以考古学家能够准确推测出很多历史细节。与石器时代的所有其他的类人生物不同,只有我们人类这个物种,进入了一种新的生活方式,即农业时代。

    新石器时代(Neolithic)是人类历史的转折点。从此,人类不再受气候控制,反过来开始控制自己的命运。

    第一,农业使人类有了选择的权利,耶利哥的纳图夫人不必每天走十几到几十千米去采集植物的种子。早期农业在中东、中国和美洲分别发生了,人类开始直接控制食物来源。
    第二,人口开始迅速增长。人类学家虽然并不知道农业出现之前的旧石器时代的人口总数,但估算出农业出现时全球人口仅约几百万,而到了1750年工业革命时,全球人口已约5亿。
    第三,农业是人类迁移过程中出现的最新技术。人类曾经在巨大的欧亚干草原带利用新的狩猎技术生存了两万年,而后一个一万年是人类在全球站稳脚跟的时代。
    狩猎技术,曾经引发第一次人口迁移,人类开始全球分布。
    农业技术,即将引发第二次人口迁移。

    20世纪,研究者在中东地区进行了大量的考古挖掘,证实当时这里发生了一场新石器时代革命,时间约为一万年前。新石器革命的发生非常突然,而且是在多处同时发生。
    这场革命的起源在土耳其东部的卡拉卡山(Karacadag),科学考察确认至今还有68种野生植物继续生长在这个山区,而且,现在全球食用量最高的小麦最有可能是在卡拉卡山区被驯化出来的。

    卡拉卡山与新月沃土

    卡拉卡山区丰富的可食用植物种子和种植技术,沿着黎巴嫩——以色列——叙利亚——伊拉克,一直传播到地中海沿岸。其中最著名的遗迹包括耶利哥(Jericho)、叙利亚的阿布·胡列伊拉遗址(Tell Abu Hureyra)、土耳其的加泰土丘(Catal Huyuk)。(加泰土丘挖掘时间在1950-1990年,新石器时代的14层遗迹厚度达15米,时间为8 850年前,当时已经进入所谓的金石混用时代(中东学者对青铜时代的称呼),艺术和宗教的文物极其丰富)

    中东地区开始的农业,在亚洲也出现了。在欧洲,南部的农业起源于7 000年前,北部起源于5 000年前。

    起源于中东新月沃土(F ertileCrescent)的农业,几千年后传到欧洲。但是这一理论始终存在争议。到底是农业技术传播到欧洲取代了狩猎采集的生活形态,还是中东人群带着农业技术取代了当地的欧洲人?这是完全不同的两个概念。1970年代,斯福扎和另外两个遗传学家Alberto Piazza、Paolo Menozzi开始研究农业对遗传的效应——农业是怎么传播的?

    显然,农业在当时是一种“时髦文化”。

    这项研究没有取得什么结果。血型和细胞表面蛋白质标记无法确认人的血统世系,也无法落实迁移路线。这是当时的研究技术的限制。但是,斯福扎发现农业并非单纯的文化现象,而是伴随着人口的快速增长,这股风潮从欧洲的东南部向西北部扩散,后来被称为“前进的浪潮”(Wave of Advance)。这种“前进的浪潮”被很多人接受了,但是斯福扎本人并不接受这种观念,因为人们还没有搞清楚欧洲的基因库的起源。

    1990年,牛津大学的马丁·理查兹(Martin Richards)和他的同事,开始发表欧洲和东南亚人群线粒体DNA的一系列研究成果。他们最先提出一种小心翼翼的求证绝对时间的方法,再按照绝对时间,估算出欧洲基因库的各种血统迁移的相对分布形态。他们的研究结果得出一种猜测:没有很多农业人口从中东迁移到欧洲,因为看不到这种基因效应,欧洲大部分人口的血统已经在欧洲存在2万——4万年。

    2000年,欧尔奈拉·塞米诺(Ornella Semino)等人检测分析了1 000多个欧洲人和中东人的Y染色体,希望找出农业扩张的原因。他们发现,Y染色体的结果与线粒体DNA的研究结果一样,现代欧洲的血统里,中东的基因标记很少——欧洲原来的M173占80%,来自中东的M172仅占20%。但是并非农业没有产生影响,农业传播带来沿途人口的激增。此外,他们计算出3万——1.5万年,欧洲人口曾大幅度下降,当时欧洲正在逐渐步入冰河期最严酷的时代。大约1.6万年前,欧洲人后撤并局限在伊比利亚半岛——意大利南部——巴尔干半岛地区。冰河期结束后,少量幸存者的人数开始上升。

    也就是说,基因分析证明:欧洲的农民起源分为两种,大部分农业人口是欧洲原住民,他们学习和接受了农业。欧洲人,尤其欧洲北部的人群自己学来了时髦的农业文明。中东人,喜欢故乡的温暖,没有大规模移民,只有少数中东农民带着农业技术移民来到南欧,这一部分新来者带来了中东的基因,如下图所示。

    大量化石记录证明,人类和其他人科生物一样,长期依赖狩猎和采集为生。追随着猎物群体迁移或季节变换,人类也从一个地方游荡到另一个地方。转换为农业和定居生活方式之后,人类的健康状态和社会状态并非是完全正面的,很多证据已经证明,人类的健康和社会反而更槽糕。但是,农业保证了食物供应,带来的一个最大好处是生产人口。

    新石器革命时农业从中东向欧洲散布,图中标识的时间依据为考古证据

    大约一万年前,世界各地的所有狩猎采集人口合计才只有几百万,相当于现在的一座大城市的人口。原本分散的耕地,很快连接成大片耕地,人口得以持续增长。现在,世界人口已达70亿人,增长了1 000倍。

    这就是农业革命的结果。

    双刃的镰刀

    中东人驯化植物的过程比较曲折,亚洲人驯化植物的过程却相对清晰。

    中国的植物品种没有中东那么多(新月沃土驯化的农作物为31种,印度——中国——东南亚合计11种),9 000年前黄河流域的主要农作物是粟米,扩散到中国北方其他区域。长江流域的湖南彭头山遗址(Pengtoushan)显示,大约早了两千年,水稻在中国南方被独立驯化出来,然后向长江流域扩散,大约7 000年前成为中国南部的主要农作物,5 500年前传播到中国台湾,4 000年前传播到婆罗洲和苏门答腊,3 500年前传播到印度尼西亚全境。

    与欧洲当地人自己学会了农业不同,亚洲地区发生了农业人口的大迁移。在亚洲,水稻技术与基因标记同时传播。如果说,欧洲农业技术带来了“前进的浪潮”(Wave of Advance),那么携带水稻技术的东亚人的大迁移就像一场海啸。

    M122是定义东亚氏族的M175上出现的第一个基因标记,在亚洲超过一半的男性Y染色体上都发现了M122。3万年前,M122首次出现。在中亚没有发现M122,在中东和欧洲从来没有发现……但是在东亚,在中国南部、中国北部、日本、太平洋塔希提群岛都发现了M122,而且扩散速度非常快。

    M122,现在定义了中国农业人的后裔。

    大卫·戈德斯坦(David Goldstein)检测了中国大陆和台湾携带M122的人群中的一个被命名为M119的微卫星的多样性,发现其出现频率非常高。但是,在马来西亚半岛和印度尼西亚地区,这个M119的频率却开始显著降低了。这个形态精确地表明一万年前的人口扩张浪潮的起源在中国,这与水稻农业的考古学证据完全一致。

    M119和M122都是M175的后裔,东南亚地区人群的Y染色体上同时携带M119与M122的人口超过50%。对比之下,欧洲携带新石器时代移民的比例仅为20%。所以,东亚发生的移民不是浪潮,而是海啸。

    人口大量增加更加适于发展农业,农业提供的稳定食物来源又导致了人口继续增加,所以,人们曾经认为,农业的效应完全是正面的。但是,各种学科的研究证实,农业的成就可能被过度夸大了,历史真相是农业带来了很多负面效应。

    第一,农业时代的人均资源,远远低于狩猎采集时代,农业使得人类大大降低了抗击自然风险的能力。因为人类无法控制气候,而气候始终完全控制着人类。现在出土的证据表明,农业发展反而使得气候对人类的控制力更加强大。仙女木时期的农业人群可能经历了一段极其艰难的生活,但是继续狩猎采集的人群却没有受到影响。

    仙女木时期(Dryas periods)系指冰河期结束时的一次反复,长达1千多年(1 300 ± 70年),气温下降8-20℃。1.28万——1.15万年前称为新仙女木时期(Younger Dryas),在此之前约1 000年还发生过一次旧仙女木时期(Older Dryas),全球气温突然下降,时间长达300年左右。这次气温骤降,给新石器时代从事农业的的人类带来很多困难和问题。

    第二,农业人口的聚集生活带来的副产品是疾病的大量出现。

    很多疾病必须聚集一定的人群数量才可能发生和传播,并且限定在某一区域内传播。例如,天花和伤寒必须在数万人的范围内才能传播,并且限定在这个范围内。人们过去认为,狩猎采集的人群比较易于受伤,所以寿命比较短,但是出土的骨骼证据表明,当时农业群体的寿命反而比狩猎采集的群体更短,原因很可能就是疾病的流行。

    农业首先驯化了植物,随后驯化了动物,大量动物聚集生活也会产生疾病,再传染给人类。例如,人类的麻疹与牛瘟病毒就密切相关。威廉姆·麦克尼尔(William McNeill)认为,《圣经》中描述的多种瘟疫大流行正是农业传播到欧亚大陆时期,人类感染各种传染病的忠实记载。

    第三,农业时代导致社会的分化和阶层的出现。

    一般来说,狩猎采集群体中人与人是平等的,没有社会分工,现在桑人(San)部落和澳大利亚土著依然如此。农耕时代,初期阶段(田园牧歌时期)的大型战争比较少,人口增长很快,财富积累和社会分工出现,最后不可避免地出现社会分化,形成阶层,随后出现权力争夺和帝国雏形,引发前所未见的巨大规模的战争和破坏,导致人口多次大量死亡。人口减少反过来又造成大量土地荒芜和疾病流行……这种恶性循环,在各地的农业社会多次发生。

    既然农业具备这么多负面效应,为什么人类还是喜欢农业?

    事实并非如此。在世界各个角落都有排斥采用农耕生活方式的群体继续存在,他们的环境至今保护较好。但是世界大部分地区还是采用了农耕生活方式,并且不再回头。因为谁都不愿意天天拿着武器,出去寻找下一顿晚餐。

    现在的研究已经证实,导致人类死亡的主要疾病的原因,分为三个阶段。
    一、在狩猎采集时代,主要的死因是外伤,尤其是狩猎活动中的伤亡。
    二、在农业时代,人类的主要致命疾病是传染病,尤其是源自动物的疾病,如天花、伤寒、霍乱、麻疹、肺结核、流感、黑死病等都与动物有关。在抗生素和疫苗发明以后,大部分传染病得到控制或消灭。
    三、在现代,非传染慢性病是人类的主要疾病,例如高血脂、高血压、糖尿病、心脏病、脑血管疾病等。这些疾病都要终生服药,且都与基因有关,已经与传统的传染病的概念完全不同。癌症的起因也是基因突变的累积结果。

    但是,某些传染病现在仍然存在,例如疟疾。
    1 86 1年,法国探险家亨利·穆奥(H enri Mouhot,1826-1861)因为疟疾死在老挝的丛林里。亨利·穆奥在泰国、柬埔寨和老挝探险3年并发现了吴哥窟。虽然当地的居民知道吴哥窟,但是,是亨利·穆奥死后才发表的著作《暹罗、柬埔寨和老挝游记》(Travelsin Siam, Cambodia and Laos)使西方读者第一次知道了这座古城。

    吴哥窟建筑群是东南亚当时最强大的高棉帝国的统治者在9-15世纪期间建造的,该建筑占地1 000平方千米。这是产业革命之前世界最大的城市,其巅峰时代,容纳的人口超过75万,但是在15世纪却被放弃了,除了吴哥窟寺庙(Angkor Wat)外,其他寺庙和建筑都被丛林掩埋。

    这座城市为什么会被放弃?

    假设很多,后来比较被公认的一个原因是生态压力。支持75万人口必需的资源之一是水源,当时只能来自周围的河流。14-17世纪,北半球气候变化,导致东南亚季风改变,由于缺少降雨和水源枯竭,人类被迫放弃水稻种植。这是吴哥城的设计者始料不及的天灾。

    另外一个原因是疟疾。疟疾(malaria)是意大利语,意思是“坏空气”。疟原虫在污染环境里才会大量繁殖,通过蚊子叮咬传染人类。意大利人起的这个名字是正确的,疟原虫有两个宿主:人类和疟蚊。传播疟原虫的疟蚊(Anopheles,又称按蚊)有40多种,分布在世界各地,大部分疟蚊是热带和亚热带品种,大多在非洲、东南亚和拉丁美洲。疟原虫可以在疟蚊体内生活,也可以在人类的红细胞里生活。无处不在的疟蚊传播了疟疾,很多史前历史学家猜测,疟蚊曾经在人类进化史上给人类带来了毁灭性的灾难。

    1992年,法国流行病学家雅克·维德拉格(Jacques Verdrager)发表文章认为,放弃水稻种植后,生态环境恶化,疟疾流行带来死亡,导致更多人放弃水稻种植,疟疾更加流行,死亡更多……仅仅几代之后,吴哥城就成为一座空城。疟疾在这座巨大的古城沦为废墟的过程中,扮演了关键角色。

    疟疾的故事并未到此结束。

    在1992年,DNA技术尚未成熟。随着技术的成熟,DNA密码揭示了疟原虫的秘密。

    美国国家健康研究院(National Institutes of Health)的迪尔德丽·乔伊(Deirdre Joy)和她的同事发现,疟原虫在5万年前开始多样化,这个时间恰好是人类走出非洲的时期,暗示人类带着疟原虫前往世界各地。乔伊还发现了其他证据,一万年前,疟原虫开始大规模的多样化,这个时间正是新石器革命的农业起源的时间。

    另一项DNA研究佐证了上述发现。宾夕法尼亚大学的遗传学家莎拉·提什科夫(Sarah Tishkoff)和她的同事仔细分析人类基因组上围绕G6PD基因的遗传变异,他们发现,一万年前,G6PD曾经受到强大的自然选择压力。

    G6PD是细胞里的一种酶,可以把葡萄糖转化成一种亚细胞能量包(subcellular energy packet),这种亚细胞能量包名为NADPH,是人类细胞能量活力的来源。我们吃下的谷物——碳水化合物又称多糖类,被转化为单糖(葡萄糖)后,最终变成我们细胞里的三种能量:NADPH、NADH和ATP。所以G6PD极其重要。

    我们体内的G6PD的精细调制的进化历史,已经长达几亿年,属于最重要的酶之一。在人类的身体里,如果G6PD缺乏或功能减弱,就会出现类似蚕豆中毒的症状:贫血、黄疸、肾脏失调……在红血球里,G6PD非常活跃,疟原虫也是在红血球里非常活跃,不知道什么时候,疟原虫发生了基因组变异,它们可以通过“虹吸原理”吸收G6PD的能量,从而成为红血球里的寄生微生物,直接破坏红血球的新陈代谢,最后迫使红血球“自杀”,同时也杀死了自己。

    为了查清疟原虫的基因什么时候发生了这种变异,莎拉·提什科夫和她的同事对G6PD基因的变异进行了计算分析,发现变异出现了两次:
    第一次,3 840-11 760年前,主要发生在非洲。
    第二次,1 600-6 640年前,主要发生在地中海。
    G6PD基因的这两次变异,都发生在农业出现之后。这是一个令人震惊的发现,结合疟原虫的基因变异,证明在过去的一万年里,疟疾已经成为人类的主要噩梦之一。
    疟疾原本是狩猎采集时代的一种古老疾病,后果并不严重。在定居和农业开始后,疟疾的威胁日益增大。中东地区水利灌溉为疟蚊繁殖创造了机会,吴哥窟周围的稻田水塘湿地也是疟蚊繁殖的好地方。

    农业,迫使人类基因组变化了,也迫使致病微生物的基因组变化了。
    农业,引发了基因与基因的战争。现代的飞机,为这些涉及基因层次的疾病传播提供了远远超过远古步行的人类之间的传播速度——疟蚊带着疟原虫,可以乘坐飞机很快到达其他大洲。这种坐飞机传播的涉及基因层次的疾病还有克雅二氏病(Creutzfeldt-Jakob)和艾滋病(HIV)等。
    农业,就像一把双刃的镰刀。

    不能与上帝开玩笑

    历史上,只有一个国家做过制造人类的实验,苏联。
    1924年,伊万诺夫(Ilya Ivanovich Ivanov,1870- 1932)向苏联政府写信,希望开展人与灵长目动物的杂交实验。列宁的秘书戈布诺夫(Nikolai Gorbunov)对此很感兴趣,批准了这个实验。
    1927年,伊万诺夫教授来到几内亚,给两个雌性黑猩猩做了人工授精。两个雌性黑猩猩都没有怀孕。没有人知道精子来自什么人,但是知道陪同教授的是他的儿子。伊万诺夫又来到刚果,声称要在医院里实验,但是没有说什么实验。当地的总督坚持要在室外观看实验,伊万诺夫拒不同意。实验在两个非洲国家都失败了。

    斯大林的故乡,格鲁吉亚的苏呼米(Sukhumi)有一个灵长目实验站表示欢迎教授。伊万诺夫教授从非洲带回几只黑猩猩,包括一只雄性黑猩猩,来到苏联领袖的故乡准备继续实验。他改变了办法——用雄性黑猩猩和苏联女性杂交,可能成本低一些,而给雌性黑猩猩授精的难度比较大。

    1928年,伊万诺夫开始寻找志愿者。他需要5个苏联妇女为科学献身,但最终只来了一个志愿者。苏联档案里的这个女人的代号是G,不知道G的年龄多大,是哪里人,长得漂亮还是丑陋。苏联档案里只有G写的一封信:“亲爱的教授:我的私生活会被毁灭,我将看不到继续存在的意义——但是想到能为科学服务,我还是鼓起勇气给你写信。我请求你,不要拒绝我。”
    教授没有拒绝她。
    伊万诺夫和G做了一系列准备,要在苏呼米为G授精。不幸的是,由于缺乏食物和牛奶,这只唯一的雄性黑猩猩死去了。
    1930年,伊万诺夫教授被捕。
    1932年,伊万诺夫教授在集中营里饿死了。
    1938年,列宁的秘书戈布诺夫也被处决。

    但是,正常的“制造人类”的实验并非不存在。各种原因的不孕症是困扰人类多年的难题,剑桥大学的罗伯特·爱德华兹(Sir Robert Edwards,1925-)从1960年代开始研究人工授精的可能性。

    1968年,世界第一个体外试管受精成功。

    1978年,世界第一个试管婴儿路易斯·布朗(Louise Brown)诞生,她母亲患有输卵管阻塞,9年无法成功怀孕。这一技术现称IVF,即体外受精。

    2010年,爱德华兹获得诺贝尔奖,这一年世界体外受精婴儿突破400万人。需要说明的是,爱德华兹的技术并不涉及基因。

    另一个英国医生走得更远,他试图“设计优秀的人”,他要挑战基因。

    2002年,世界第一个“设计婴儿”(designer baby)在英国诞生。这个婴儿查理(Charlie)成为媒体头条新闻。起初查理似乎很健康,3个月后出现明显不正常,被确诊为DBA贫血症(Diamond-Blackfan anemia,没有正式中文译名),这是一种在整个英国也找不出几个的罕见疾病:红血细胞先天不足,无法携带足够的氧。各种减轻症状的治疗方案都失败了,查理可能死亡,除非找到一个合适的骨髓捐赠者替换查理的造血骨髓。但是,寻找合适骨髓捐赠者的种种努力也失败了。

    如果查理有兄弟姐妹,可能骨髓适合,但是查理是唯一的孩子。于是,唯一的希望是查理的母亲再生一个孩子,给查理捐献骨髓。这个方案也有风险,因为查理父母的第二个孩子也非常可能患DBA贫血症,所以查理的母亲必须找其他男人授精生孩子,这已经不是医学范畴而是伦理道德范畴的问题了。

    查理的医生穆罕默德·塔拉尼西(Mohamed Taranissi)曾经是一个非常成功的医生,他原本希望“设计婴儿”成功并推广这种技术。他现在进退两难,饱受媒体和舆论的猛烈攻击。

    英国的法律不允许这种授精,美国的法律允许。于是,塔拉尼西飞到美国芝加哥寻求帮助,13个人愿意捐精。塔拉尼西自己掏腰包承担全部费用,请查理的父母也飞到芝加哥,在13个人中选择合适对象。最后选择了两个人的精子,一次性全部植入查理母亲的子宫。几个星期后,超声波检测证实查理的母亲怀孕了,只怀了一个。

    18个星期之后,抽羊水检查确认怀孕婴儿的骨髓适合移植给查理,所有人都松了一口气。但是10个月后,发现婴儿是臀位分娩,于是查理的母亲不得不施行剖腹产,生下第二个儿子杰米(Jamie)。这位30岁的英国妇女始终非常合作,她看着5岁儿子查理的病况,“心都要碎了”。

    常年服药的查理,又开始了化疗。他的免疫系统被摧毁,体重减轻,头发几乎掉光。随后查理接受了骨髓移植,并大量服用防止排异反应的药物。6个月后查理停止了服药,多次检查后证实,查理的红血细胞正常了。

    10年后,查理的父亲说了一句话——“我们不能和上帝开玩笑”。

    语言造就了人类

    1996年,伦敦儿童健康研究所(Institute for Child Health)的一群医生迎来了牛津大学遗传学教授安东尼·摩纳哥(Anthony Monaco,1959-),他们要会诊一种奇怪的疾病。医生们发现,一个源自巴基斯坦家族的几家亲戚,三代人都罹患了语言障碍的遗传病。为了保护隐私,这些家族被称为KE家族。他们无法控制面孔下半部的肌肉运动,因而丧失了语言表达能力,他们也无法理解别人的语言。
    安东尼·摩纳哥教授进行了基因组扫描(genome scan),分析对比几百处可能发生变异的位置,包括KE家族中患病和没有患病的成员。经过一年多的努力,发现问题可能出在7号染色体,但是却无法确认是哪一个基因造成的。
    幸运的是,后来牛津大学又遇到了另外一个独立的患者,代号CS,这是一个与KE家族无关的男孩,也罹患了类似的语言障碍。摩纳哥和他的同事们再次进行了基因组分析,发现这个男孩出现了染色体的重新排列,染色体的某一部分分裂开了,分叉伸进另一个染色体里,这种现象被称为基因置换(translocation)。在这个分叉点上,有一个基因的功能因此紊乱了。这个男孩CS的这个突变,在KE家族的染色体上也找到了。
    这是人类第一次发现影响语言的单一基因,这个基因被命名为FOXP2。

    2001年,《自然》(Nature)刊登出这个发现后,引起巨大轰动,有些媒体报道为“发现语言基因”。

    FOXP2负责制造带箭头分叉的P2蛋白,这类蛋白传递很多DNA的打开与关闭信号,所以又被称为“基因组的分子公共汽车”。这些DNA涉及体内的物理部分和精神部分,所以控制了语言和语法等,在此之前,人们曾经以为是几百个基因在操控语言。

    FOXP2的基因调控中枢角色,在黑猩猩和老鼠身上也得到了发现和证实。老鼠的这个基因发育不全,类似婴儿。所以FOXP2的进化应该超过7 000万年。人们立刻联想到,FOXP2在人类的语言进化中必然扮演了重要角色,南猿、能人、直立人和尼安德特人,可能都有发音沟通的能力。

    在以色列的科巴拉洞穴(Kebara Cave)出土了几乎完整的6万年前的尼安德特人的骨骼,包括完好无损的舌骨(hyoid)。舌骨是娇嫩精巧的骨头,可以帮助人类说话。尼安德特人也有舌骨,表示它们也可能有说话能力。

    2007年,斯万特·帕博(Svante Paabo,1955-)的团队发表了他们极其惊人的研究成果:尼安德特人的FOXP2基因,与人类没有什么差异,也就是说,尼安德特人与人类一样具备语言能力。(斯万特·帕博的团队从克罗地亚北部的文迪迦洞穴(Vindija Cave)获得了尼安德特人的FOXP2基因。这个洞穴的堆积层的年代为2.5万——4.5万年,最下面是尼安德特人的遗骸,上面是现代人的遗骸)

    帕博的团队研究了5年,他们发现人类和黑猩猩的FOXP2基因的蛋白上都有715个氨基酸,其中只有2个氨基酸的序列不同,这一差别可能出现在500万年前。但是,尼安德特人的FOXP2基因,与以前的猜测完全不同,确实具备说话的能力。但具备说话能力,并不意味着拥有语言。很多鸟类、动物和鲸鱼都有发音沟通的能力,甚至青蛙和昆虫也可以做到通过声音沟通。科学研究证实,黑猩猩即使经过训练,最多只能表达1-2个单词。

    这个“小小”差异,意味着什么呢?举一个简单的例子。“妈妈从冰箱里取出苹果”这个句子包含全部信息,既有地点,也有先后次序,还有相应动作。对比之下,妈妈冰箱,冰箱苹果,妈妈苹果,妈妈取……表达1-2个单词没有任何意义。

    语言,正是“亚当”“夏娃”的苹果,使得人类区别于其他生物。

    语言的出现,使得人类成为人类。

    不论什么原因,6万年前走出非洲的人类,在世界所有角落都留下了抽象思维和想象力的石刻证明,标志着艺术从开始就伴随着人类生活。创新是人类的能力。创新是一个复杂的过程,创新的核心是思考和实施解决某一问题的抽象思维,创新的第一步是想象力。艺术是想象力和抽象思维的产物——只有语言才能交流这些看不见的想象力和抽象思维。

    语言、艺术创造了人类。人类创造了人类自己。

    设想一下,每天晚上,在远古的篝火边,大家围着火堆讨论当天的故事和先祖的传说,雕刻着艺术作品,如何捕捞三文鱼、猎杀猛犸象,如何攻击狮子?如何在洞穴绘制壁画,如何在岩石上雕刻浮雕?他们也会议论其他部落的新闻……

    这不是凭空的想象,这是仍然保留在现代的世界各地的游牧民族的日常生活……

    信仰、图腾、宗教的诞生,全部因为语言。

    他们是米开朗基罗、莎士比亚和爱因斯坦的祖先,他们在亚欧大陆的无边无际的广袤的干草原上自由驰骋,没有任何约束和限制。

    现代智人的考古记录,事实上正是一部人类创新的历史记录——他们迅速适应了各地的气候和环境,开始尝试驯化小麦、水稻、玉米,虽然这些创新遭遇过多次失败和失误。狩猎采集时代的语言多样性、文化适应性和无拘无束的创新性,曾经是所有多元文化的源头。在美洲的猛犸象的尸体里,曾发现十几个美洲土著的石器枪头。在中东和希腊地区发现很多人类主动攻击狮子的浮雕……我们的先祖,曾经几乎无所不为,为所欲为。

    进入农业社会之后,人口数量和密度不断增大,出现了太多有形的和无形的“边境线”,既约束了自由也约束了思想。大大小小的王国和帝国、印度的种姓划分、天主教的等级森严、孔儒的停滞僵化、欧洲的封建体系等,都曾经使社会长期停滞不前,不再出现创新。

    正在消失的语言与文化

    封闭的苏联时代隔绝了遗传学,苏联时期的哈萨克斯坦、乌兹别克斯坦等地区成为基因形态的“黑盒子”。苏联解体后,美国遗传学家们赶紧前往“黑匣子”地区给少数民族采样,其中一个少数民族是亚诺比人(Yaghnobi people)。亚诺比人说亚诺比语(Yagnobi),他们的历史可以直接上溯到丝绸之路。

    1 500年前的亚洲中部地区,从波斯到中国的丝绸之路上的所有贸易中心,曾经都说粟特语(Sogdian)。公元6-8世纪,穆斯林逐步征服这一带之后,粟特语类开始衰落。20世纪,粟特语系的大部分语言全部消亡,仅仅留下亚诺比这一种语言。

    索格底亚那,这里从未形成一个强大政权,主要部落围绕在撒马尔罕周围。唐朝《隋书》中称使用索格底亚那语(Sogdian)的群体为粟特人,涵盖的氏族和部落很多,建立过许多小的政权

    现在的亚诺比人居住在塔吉克斯坦北部遥远的扎拉夫尚河谷(Zarafshan Valley)的几个村庄里,他们是继续使用这种1 500年前的古老语言的仅剩的小小群体。美国遗传学家计划拜访他们,说服他们合作提供DNA的血样,追踪历史的遗迹。

    走过几个平行的河谷,又在崎岖坎坷的道路上跋涉了几个小时,美国人才发现一个村庄。可是那里的老人却说他们这一趟白跑了。老人解释说,亚诺比人世代居住在这里,可能丝绸之路时代就住在这里。1960年代开始,因为旱灾严重,苏联政府把他们迁移到低地。1980年代,这一带发生地震,幸存的亚诺比人都搬到首都杜尚别(Dushanbe)居住。在这片故土上已经找不到亚诺比人了,他们都在首都当清洁工或卡车司机。不过老人也给了他们一个希望,距离这里几天路程的山区里,可能还有一个亚诺比人的村庄……

    科学家们又进行了几天的艰难搜索,终于碰到一个偏远的亚诺比人的村庄,人们非常乐意帮助这些遗传学家,带领他们在首都杜尚别一带寻找同乡。科学家采集到了出乎预料的大量血样,丝绸之路上一个与世隔绝的文化残迹出现了。

    那位塔吉克斯坦的乡下老人讲述的故事,每天都在世界上发生。亚诺比人的故事,世界处处都在上演。一座又一座冒出来的现代化城市,吞没了一批又一批村庄,原始居民和语言都湮灭了。有的社区对多样性非常宽容,有的社区认为多样性是统一的障碍。新生的政权总是努力推进语言的统一性。

    让我们看一看19世纪的欧洲的语言的真相。

    如果访问今天的法国,游客们都会对法国人热爱法语印象深刻。国家语言的官方捍卫者法兰西学术院(Academie francaise),像猎鹰一样紧紧监视着说的法语、写的法语,以免受到国外的“不良影响”。

    其实,仅仅150年前,大约6代人之前,法国领土上说“法语”的人口还不足一半,大部分“法国人”说自己当地的方言,甚至自己的语言。

    同一时代的意大利,说意大利语的人口不到10%。奥地利首相梅特涅(Clemens von Metternich,1773-1859)说过:“意大利不是一个国家,只是一种‘地理表述’。”如果不算语言,梅特涅显然说的不错。

    19世纪的欧洲,出现了各种新思想和运动,浪漫主义、现实主义、工业化、殖民扩张都对“现代”的世界观发展产生了巨大影响。其中最重要的思想之一是民族主义,不仅造就了现代欧洲的政治版图,并且流传到世界各地。

    19世纪之前,欧洲分裂为各自独立的封地采邑——王国的领地和公爵的领地。人们的生活更有“区域性”,仅仅与周围发生的事件相关,欧洲历史上的配偶们的出生地之间的距离没有多少千米。这种特点,造成了语言的延续性。

    现代法语是法兰西学术院捍卫的官方语言,但是在18世纪之前,法国存在的语言五花八门,分别可以上溯到各个省的地方语言,包括巴斯克语(Basque)、布列塔尼语(Breton)、奥克西坦语(Occitan)、科西嘉语(Corsican)、阿尔萨斯语(Alsatian)等完全不同的语种。民族主义流行欧洲之后,各个政府为了寻求文化的统一性而偏好某种一语言,不喜欢另外一种语言。英国政府喜欢英语,于是支持英语,贬损凯尔特语族。19世纪,统治者开始以民族语言进行强制性的学校教育和军队服务,仅仅几代人就完成了一种语言的传播。

    德语的诞生,更是出于精心的设计。几乎全世界的孩子都知道《格林兄弟童话》,但是却不知道格林兄弟是为了通过童话传播“正规的德语”。雅各布·格林(Jacob Grimm,1785-1863)是语言学家,他制定德语的发音规则,维护和铸造德语的民族同一性,他是“德国民族”的精明建筑师之一。

    现在,15种最大的语言的使用人数占世界人口的一半,前100种语言的人数占全球人口的90%以上。但是在公元1500年,估计存在1.5万种以上的语言。形成一种语言需要500-1 000年的时间,每一种语言承载着一种文化。现在,全世界仅剩约6 000种语言,平均两星期消失一种语言,21世纪末将再消失一半。

    英伦群岛的原始土著的语言之一是凯尔特语族的马恩岛语(Celtic Manx language),1874年有1.2万人说马恩岛语,20世纪之交只剩4 000人,1974年最后一个说马恩岛语的人死去之后,马恩岛语成为活化石,现在仅仅剩下几百个爱好者了。

    罗曼语(Romance languages)源自拉丁语,随着罗马帝国的兴盛传遍欧洲,今天的法语、西班牙语、意大利语、罗马尼亚语、加泰罗尼亚语(Catalan,西班牙官方语言之一)、罗曼什语(Romansch,瑞士官方语言之一)的先祖之一都是罗曼语。

    语言记录了历史,一种语言的消失就是一种文化传承的断绝。

    基因的分析研究,有时必需语言和文化的帮助。原因有二:第一点,我们的先祖生活在五万年前,仅仅经历了大约2 000代,突变的产生并不频繁。我们只要做不多的采样和大量的分析计算,就能找到某一个点位的大部分多样性,尤其是Y染色体多态性比较丰富的部位。由于人类的“种族”太年轻了,物理化石差异不大,大部分非洲、亚洲和欧洲的化石都很相似,无法分析推测出他们的肤色、发型和其他外貌特征。遗骨的证据证明,我们所谓的种族概念是一种非常晚近的现象,直到最后一次冰河期结束之后,现代人类才开始“发散”出现在看到的多样形态。

    第二点,人类是机动的,各个群体在历史上是一边迁移一边混血,所以相互之间的遗传变异并不明显。即使我们走出非洲之后,出现了各种遗传基因标记,也被广泛散布。语言消失的动态加速,表明人类的混血也在加速。很多语言正在消亡,表明原先互相隔绝分别生存的群体,正在融合为更大的群体。

    那么,是否存在统计这些现象的具体数据?

    美国的人口统计就是一个典型的例子。2000年统计的美国的人口是2.814亿人,比1990年增加了13%,并且显示出更多的民族变化版图——美国的人口统计的“种族类型”从5类增加为63类。申报是“白人与少数民族混血”的后裔的人数,增加到680万人。真实的混血的类型、混血人口的比例,估计比政府统计数据更多更大。有些人已经不知道应该归属为哪一个类型。比如,人人都知道的高尔夫球手“老虎”伍兹(Tiger Woods),但是他自己不知道自己属于哪个“种族”,他的祖先包括非洲人、美洲人、欧洲人、东南亚人……美国越来越成为“种族”的熔炉。这种融合可能是一件好事,混血的下一代比他们的前一代或许拥有更多的优点。

    产业革命造成的机动性,导致人类历史的第三次大迁移,也带给我们一幅全新的遗传画面。五彩缤纷的多样性,可以把五万年前开始分离的人类识别出来,并再次分门别类,现在发生的全球性种族大融合,则是人类历史上过去从未发生的新现象。

    现代化的浪潮使城市正在吞没乡村,孤单生活的群体正融入难以计数的人海。虽然基因标记无法消失,但是同时也融入了无边无际的人海……于是,他们携带的基因故事同时化为更加难解的历史谜团。

    我们必须知道我们的过去,才能预知我们的未来。

    我们终于具备了这种能力,因此我们也被赋予了一种责任——这是人类的责任,这是我们从非洲出发殖民全球必须承担的责任。

     第七章 农业文化的反思

    大约20万年前,现代人从非洲开始。

    大约6万年前,现代人离开非洲,走向世界。

    今天,我们生活在一个高度全球化的世界,一个人与其他人之间发生联系的方式超过一个世纪之前的想象。非洲人、欧洲人、亚洲人、美洲人……正在再次融为全球性的一个混合群体,这种混血现象和融合程度是人类历史上的第一次。在DNA的层次上,我们都是一样的,我们都是日益扩大的人类大家族的一部分。这个世界将因为技术进步日益加速的节奏,在未来几代人的时间里发生超乎预期的改变。

    我们现在日常生活中的一切,大部分是最近几十年才进入每一个家庭的。

    E-mail、Google、手机、电脑、混合动力汽车……以互联网为核心的全球性社会网络已经成为人们须臾不可分离的生活组成部分,离开这一切已经不能想象。但是,现代生活方式也成为人类的巨大包袱。越来越多的非传染性慢性病,如高血压、心脏病、糖尿病、高血脂、肥胖症、癌症……正在不断增多;各种精神疾病、心理失调、沮丧、焦躁、忧虑……也在不断增长。

    的确,我们是自己命运的主宰,但是,究竟是我们创造了农业文化,还是这种文化驱动着我们?

    一万年前的农业文明,彻底颠覆了我们的田园牧歌。越来越多的证据使人们逐渐发现:正是农业文化的出现,开始损害人类的健康。

    考古证据证明,转向农业生活的动机决定了今天的复杂世界的出现,从工业革命到互联网到生物时代,人类稀里糊涂冲进了21世纪。但是,世界各地的人们仍然在没有止境地开发土地,生产更多食物的强烈欲望冲击着大自然设定的底线。

    人类能源消耗比农业文明产生之前增加了100倍,摄入的食物及卡路里也大量增加

    我们这个物种具备制造各种恶果的能力,我们已经并在继续导致更多其他物种的灭绝。

    遗传学和DNA迫使我们重新认识,过度贪婪的农业文化带来过度需求导致的一系列后果。

    巨大的进化压力

    20世纪,人类发现基因是遗传变异的来源,开始研究基因。

    1987年,25年前,在人类的技术可以观察DNA之后,全世界的注意力都转向了DNA。人们发现,在几十亿年的进化中,各种生命并非“互相战斗”而是“互相合作”地占据了地球,共同演化出了一个绚丽多彩的大千世界。在50多年的DNA研究过程中诞生了几十位诺贝尔奖得主,达尔文似乎被淡忘了,“适者生存”的自然选择似乎被“中性理论”取代了。

    2007年,《PLoS生物》(PLoS Biology)发布了芝加哥大学乔纳森·普里查德(Jonathan Pritchard)研究小组的一项研究结果:达尔文的“自然选择,适者生存”理论不仅是正确的,并且在最近一万年里对人类的基因组产生了重大影响。也就是说,人类的很大一部分“进化”,是在农业出现后发生的。

    那么,人类在这一万年里,为什么承担了如此巨大的进化压力?更直白地说,为什么我们取得如此巨大的物质进步的同时,每一个人都感到压力巨大?甚至觉得物质满足并未带来应有的幸福感觉,并且不得不随着继续的快速发展而“进化”自己身体的各个部分?

    这是最新的DNA研究向全世界提出的一个问题。

    芝加哥大学的这项研究的基础数据,来自2005年启动的“国际人类基因组单体型图计划”(International HapMap Project)。与群体遗传学的单倍群不同,单体型(Haplotype,希腊语原意单一,单体)研究每一个个体的微小的遗传变异——单核苷酸的多态性(Single-nucleotide polymorphism)。这篇论文,甚至描述了我们的眼睛、耳朵的精致进化演变的原因和过程。

    最近一万年里,人类的环境和演变,确实过于巨大了。

    普里查德用珠子项链为例解释自己的发现。

    每一个人的单体型,就像这个人自己佩戴的珠子项链。一个长达2米的基因组被切分成23对46个染色体小股,染色体DNA序列就像一串串珠子将它们串联起来。在结合和重组时,每一代人的父母的珠子都被拆开打乱,按照另外一种顺序重新串起——这些珠子形成一个新的项链。下一代携带的新项链,与父母的项链都不一样,他们的再下一代的项链,又是另外一种新的顺序的珠子项链。经过若干代之后的项链,已经面目全非——父母原来的项链已经湮灭了,消失了。于是,形成了单体型的多样性。

    在基因序列里,只有线粒体DNA和Y染色体DNA不参与重组,所以根据它们可以统计分析计算出人类先祖的踪迹,找到人类的旅程。

    “国际人类基因组单体型图计划”获得的海量数据,在经过功能更强大的电脑和软件分析之后,发现了人类的进化趋势——我们确实在被自然选择压迫
    图片出自韦尔斯《潘多拉的种子》

    现在,其他的22对染色体的单体型的更加复杂的多样性,也得出了同样的分析结果。

    普里查德领导的小组开发出一套新方法检测基因组中的单体型,他们的样本来自欧美、非洲、亚洲等地。每一个人的项链都不一样,所以每一个人都不一样。这些项链就像某种“遗传时髦”,根据气候和环境而发生形态的变异。这是大自然的力量推动的,具体的原因还不清楚。

    普里查德应用的方法属于集成单体型积分(integrated haplotype score, IHS),很多微小的变异,积累到一定程度就会成为变异,甚至非常显著的变异。过去人类发生过多次显著的变化,例如拇指与四指分开、肤色改变、大脑神奇发育……这些当年的“时髦流行”成为人类与其他物种的区别。

    在每一个人和其他人之间,也存在差异,因为单体型的形态各不相同。在23对染色体上,普里查德领导的小组发现了几百个基因区域,分布相当稀疏,受到某种自然选择的强大压力,甚至影响到人类不同群体的眼睛和耳朵的精细区别。

    最令人震惊的是,这些变异就发生在最近一万年里。

    人们过去认为,这种变异必须花费很长时间,必须经过很多世代。这个小组发现,这些变异竟然如此年轻。人类的单体型的形态,发生如此显著的变化——高度适应各种环境的生物组织变异,仅仅从大约一万年前开始,仅仅经历了大约350代人。这是一种什么样的巨大选择压力,导致基因组出现如此显著变化?

    普里查德领导的小组,最初也不敢相信这一事实,但是经过多种验证核实证明,这一切都是真实的。

    这意味着什么呢? 根据已知的考古地点以及基因组的线索,估计在20万——8万年前,我们这个物种的数量不多并且相对稳定,因为化石数量很少。即使12万年前出现在南非和中东,人数也没有显著增多,中东只是非洲的地理延伸,气候、植被和动物也类似,这些小小的群体只是四处游荡,没有冒险离开非洲的故乡。

    从曲线上看,10万年前,人数只有几万人。在8万——5万年前的冰河期时代,不知道什么原因,人类化石证据出土很少,包括非洲也是如此。

    我们人类可能因为某些灾难性的挑战而撤退了,人口数量急骤下降。根据遗传科学的对比推算,当时人类比大猩猩的数量少,7万年前只有2 000多人,濒临灭绝的边缘。6万年前曲线开始上升,人数增长并开始走出非洲。此后经过4.5万年,人类散布到世界所有大洲(除了南极洲),从几千人变成几百万人的狩猎采集者。

    过去10万年中的人类数量变化(对数曲线)
    真实比例的人口爆炸示意图

    大约一万年前,出现一场重大革命。人类定居下来,做出一个改变与大自然关系的重大决定,这就是发展农业。曲线上的人口开始快速增长,由几百万人变成70亿人,这场人口大爆炸的结果是人类统治了世界。

    狩猎采集者依赖食物资源,农业人创造食物资源。这个动机改变了历史。控制了食物的来源,就拥有了在特定地点选择养活多少人的能力。

    普里查德的基因研究结果显示:最显著的功能形态变化是皮肤的黑色素的变化,五种不同的基因涉及欧洲人的黑色素的选择,其中作用最强的基因之一是乳糖分解酵素(Lactase)。乳糖分解酵素帮助人类代谢乳糖,否则就会出现乳糖不耐受症。这个基因在人类婴幼儿时代启动,帮助消化母乳,此后大部分群体的这个基因关闭,成人不宜消化乳糖。

    1万——0.8万年前,中东人驯化了山羊和奶牛,增加了营养来源。这些中东人把山羊和奶牛带到欧洲,长期饮用乳品造成一个基因突变,现在90%以上的欧洲人把乳品作为日常饮用品,但是亚洲和非洲的群体中的成人,继续呈现对乳糖的不耐受症。

    三种单体型群体的乳糖分解酵素(Lactase)基因的集成单体型积分(IHS)分析,CEU是欧洲人,YRI是非洲人,ASN是亚洲人。欧洲的选择强度信号最高。此图出自韦尔斯《潘多拉的种子》

    这个例子诠释了遗传中自然选择的作用:欧洲成人也分泌乳糖分解酵素。

    普里查德的技术特点是“不做任何假设”地分析,仅仅从海量数据中查找是否存在自然选择的痕迹。这是人类基因组工程的重大成果。过去,我们必须艰难地采集和烦琐地分析少量的基因序列数据,以证实某一种假设。现在,情况完全颠倒过来了,基因序列数据成为洪水,我们必须对无数分布形态的统计学分析结果作出合理的解释。

    普里查德领导的小组还发现,人类的一个负责酒精脱氢酶(alcohol dehydrogenase)的基因,也受到自然选择的压力,这个基因产生的酒精脱氢酶可以分解进入人体的白酒和啤酒。有趣的是,他们还发现1号染色体上的一个基因,也受到自然选择的压力,导致肝脏组织发生变异,可以分解外来的化合物,例如进入身体内的各种药物。此外,随着各种新的食物进入我们的身体,我们也需要肝脏的这些“清洁”基因的功能,将这些新的食物中性化。

    普里查德的最后一个发现是很多基因出现重叠(overlap),证明自然选择和基因的冲突引发了复杂的综合性疾病,如糖尿病、高血压等。例如,高血压只是一种症状,并非一种疾病。导致高血压的原因很多,这种“疾病”极其复杂,既涉及遗传,也与生活方式有关。其中一种高血压类型是“盐敏感”,这类高血压患者如果吃了一定数量的盐,就会强烈影响血压的升高。几乎一半高血压患者呈现出这种“盐敏感”,在1号染色体上的细胞色素P-450(cytochrome P-450)的一组基因CYP3A导致了这种“盐敏感”。基因的这种变异是保护性反应,阻止我们的生活方式发生剧烈改变——农业的高度发达使得我们可以成吨地吞进各种营养,但是,人体根本不需要存贮这么多营养。

    普里查德的计算分析证实,从狩猎采集生活转向农业生活之后,我们的DNA受到了巨大的影响。达尔文发现的自然选择,不仅产生了很多正面变化,例如皮肤颜色变淡、可以消化牛奶等,也造成很多负面效应。农业发展促成了人口大爆炸,人口大爆炸使我们与过去决裂,但也留下了遗传学的不利后果。

    人类的“进步神话”之一是:过去一万年,人类摆脱狩猎采集生活,进入物质极大丰富的时代。大部分人认为,我们的先祖此前的生存异常艰难,英国哲学家托马斯·霍布斯(Thomas Hobbes,1588-1679)形容他们的生活是“孤独的、贫穷的、危险的、野蛮的、短寿的”。所以,当农业和政府一起降临时,优越性似乎是明显的,人们的生活似乎可以无限制地改善下去,人口与食物的增长都是正面的。但是,考古证据发现的事实恰恰相反。

    1984年,人类学家约翰·劳伦斯·安吉尔(John Lawrence Angel)分析了地中海东部地区的人类,在转换为农业生活方式之前和之后的各个时期的遗骸,尤其分析了牙齿(根据牙齿可以判断寿命),计算得出下表:

    PID:表述健康的指数(pelvic inlet depth index),越高越好

    这些数据令人非常意外。旧石器时代人的寿命短,男性35.4岁、女性30.0岁的原因是婴幼儿死亡率较高;新石器时代开展农业后,人均寿命反而降低:男性33.6岁,女性29.8岁;中世纪身高降低,PID指数下降约22,此时的人类不是死于婴幼儿时期,而是死于疾病。

    美国科学家也得出了类似的研究结果:农业生活方式,使得人类更不健康。

    毫无疑问,如果不伴随着人口爆炸,农业肯定是拥有巨大效益的进步。我们曾经不断改良植物和动物的品种和产量——但是,我们是否更应该改良我们自己?如果我们再不控制土地资源的摄取和人口的增长,有可能像七万年前一样再次面对濒临灭绝的威胁。

    农业新文化的成长

    突尼斯城,曾经是迦太基帝国的首都。罗马帝国兴起于战胜迦太基帝国的三次长达120多年的战争。在突尼斯的克肯纳群岛(Kerkennah Islands),人们仍在沿用着几千年前的古老捕鱼方式:不是渔网,不是鱼钩,而是人造陷阱。
    突尼斯人花费大约两个星期制作一个精巧的陷阱,放进地中海里,受骗的鱼类一旦进去就无法出来。这里的人们因此享受过几千年悠闲富足的海洋生活。
    这种陷阱曾经非常有效,原来每天可以取出150磅活鱼,但是现在,每天进入陷阱的鱼类数量不到原来的十分之一。

    地中海空了,人类的摇篮空了。

    一万年前农业出现后,陆地的植物和动物食物来源,97%已被驯化了。

    最近一万年里陆地和海上驯化的植物和动物的物种

    100年前,海上的植物和动物食物来源,在仅仅一个世纪内就被驯化了,而其中的四分之一是在上世纪最后10年这么短的时间内驯化的。

    为了使得三文鱼的颜色在长期冷冻条件下依然显得栩栩如生,挪威的海上丰收公司(Marine Harvest)培育出可以长期保持鲜红颜色的新三文鱼品种。一万年前的农民,现在为海上驯化的新三文鱼品种申请了专利,进入了工业化生产。三文鱼曾经是捕捞最为困难的海上美味之一。这家挪威企业的驯化已经扩展到鳕鱼、比目鱼和金枪鱼,大量出口世界各国市场,中国市场上也充斥着这种“颜色鲜艳”的挪威三文鱼。

    英国石油公司BP(British Petroleum)的业务遍布全球,从事海产养殖的子公司Nutreco在1994年与BP分离,现在员工近10万人,在30多个国家建立了100多个生产设施。他们在澳大利亚被称为“金枪鱼海上牛仔”。

    中国驯化淡水鱼的历史超过2000年,曾经创造过科学循环利用废料的养鱼方式:宋朝驯化出青、草、鲢、鳙四大家鱼种类,并且将吐丝成绸的蚕的粪便作为鱼的饲料。20世纪后期开始,中国海洋水产驯化和人工养殖的范围已经遍布中国沿海地区。

    欧洲天主教会曾经不允许吃肉,但是因为鱼类是“冷血”动物,教会认为不属于肉类,所以投资培育鱼类。欧洲首先驯化了海上的鳕鱼。这些技术现在传播到夏威夷和其他波利尼西亚群体——这些太平洋海岛上的人们也开始用鱼塘饲养鱼类,逐步取代了丰富的海产。

    我们餐桌上的主要日常食物小麦、水稻、肉类、土豆……都是一万年前新石器时代后期的农民驯化陆地生物的成果。而海产驯化是由20世纪100年中海上的农民开始的,他们与先祖的区别在于拥有了高新科技和大规模投资。虽然世界的水产品中,现在只有大约四分之一是人工驯养的,但是人工驯养的比例正在不断提高。

    捕鱼,是我们的先祖数百万年的狩猎采集时代遗留至今的唯一的生产方式。现在,过度捕捞的直接后果是世界海产品产量大幅度下降,1970-1980年是世界海产的巅峰,此后各种海产的收获全部出现崩溃。

    1995年,鳕鱼的商业捕捞停止了。在英国的北海地区,鳕鱼被宣布为“商业性灭绝”了。继续徒劳地追寻残存的少量鳕鱼,已经无利可图。

    2003年,全球29%的公海渔场“崩溃”,产量减少90%以上。

    换句话说,世界的海洋和渔场衰败了。

    戈登·柴尔德(Gordon Childe)把农业称为“新石器革命”,是人类这一物种的历史转折点。戈登·柴尔德认为,“人类自己创造了自己”,他勾画出冰河期结束时地中海沿岸气候变化和农业诞生的关系。他的证据和结论是基本正确的。拉尔夫·爱默生(Ralph Waldo Emerson,1803-1882)说:“第一个农民是第一个人,所有历史上的贵族都是拥有和使用土地的人。”

    新石器革命带来很多负面效果。但是,人类一旦踏上这一步就不再回头,因为就如我们前文所说,谁也不愿意拿着武器,每天出去寻找下一顿晚餐。

    海产品物种丧失曲线图。“崩溃”(collapse)的定义:与长期平均值对比,产量减少90%或更多

    具有讽刺意味的是,在贪婪的农业文化的驱动下,当海洋也开始衰败时,人们还在被反复警告:食用鱼类比较健康,鱼肉含有较少的饱和脂肪,尤其是鱼类含有omega3之类成分可以防治无数的“现代病”,从心脏病到老年痴呆症……所以,过去的30年里,欧洲和美国的猪肉和牛肉销量下降三分之一,水产品销量持续攀升。

    于是,剩下的唯一出路就是人工饲养海产品。

    我们先祖狩猎采集时代的唯一遗产——捕鱼可能很快将濒临灭绝,取而代之的是水产业:aquaculture,这个英文名词是“水上+文化”两个意思的合成。

    六万年前人类走出非洲,随后很多大型动物灭绝了。捕杀大型动物才能收获更多食物。但是,中东的人类发现,定居种植草类和收集种子更可靠。

    现在考古的方法之一是检测锶(strontium)的水平:遗骸的锶水平越高,人类食用植物的比例越大。中东的纳图夫人(Natufian)的锶水平曾显著增高,证明农业最先起源于中东。但是在1.28万——1.15万年前的新“仙女木时期”(Younger Dryas),全球的气温骤然下降8-20℃,时间持续1,300±70年,这段时期锶水平又显著降低,表明人类不得不再次以狩猎为主。

    巨型动物在三大洲、马达加斯加和新西兰的灭绝形态,每一次灭绝都发生在人类抵达之后不久

    农业起源于中东。但是,这些植物品种,起源在哪里?

    病态的农业起源

    俄罗斯最著名的植物学家和遗传学家尼古拉·瓦维洛夫(Nikolai Vavilov ,1887-1943)游历欧洲等地学习之后,在俄国组织了探险考察队,搜集了世界上几乎每一个角落的植物种子,存放在彼得堡。这个资源库至今依然是最有价值的植物资源库之一。
    瓦维洛夫详细分析了世界上主要粮食品种的起源。最大的一个起源地在中东的新月沃土地区,其他几个起源在伊朗——印度——中国——东南亚、中美洲——南美洲安第斯山脉等地。这些起源地有一点相同,即全部起源于山区。山区是生物学多样性的避难所。气候导致的各种灾难和干旱,造成其他地方的植物灭绝时,山区的植物却幸存下来。人类从山里挑选出可以作为食物的植物品种,这些粮食品种被世界各地的人类带下山的时间基本上差不多。
    中美洲的玉米、土豆、豆类、辣椒、巧克力、香草、菠萝、南瓜都起源于墨西哥南部的瓦哈卡(Oaxaca)附近。瓦哈卡的地形崎岖不平,形成很多山间的大小盆地,这里的文明出现于一万年前,起源于这里的最重要的粮食作物是玉米。玉米迅速向四处扩散,进入北美和南美,正如小麦从新月沃土的扩散一样。

    瓦维洛夫的农作物起源地合计8个,其中一半农作物品种起源于新月沃土地区
    墨西哥南部的瓦哈卡(Oaxaca)

    在北美人的骨骼遗骸里,突然出现了新的“碳信息”。
    植物的碳分子结构并不相同。2.5亿年前,出现C3植物,只有3个碳原子。这类植物用大气中的二氧化碳生产3个碳原子的植物分子,利用光合作用储蓄能量。现在世界上大约95%的植物属于C3植物,狩猎采集群体食用的大部分植物也都是C3植物。6 500万年前,植物又进化了,出现C4植物,拥有4个碳原子的分子,包括大部分热带草本植物,例如玉米、谷子、甘蔗等。
    大部分碳分子有6个质子和6个中子,6+6=12个原子,亦即碳12。但是少数碳分子拥有7-8个中子,形成碳13和碳14同位素。植物死亡后,残留的碳分子会逐步丢弃多余原子,回到12个原子的正常状态。碳14被丢弃的速率不变,检测碳14的残留量可以推算时间。同时,碳13继续维持不变。可以通过检测碳14的存在比例了解历史。考古学家就是用这种办法,检测出玉米的信息出现在北美土著的遗骸里——他们吃的C4食物(例如玉米)越多,碳14的比例越低。
    根据骨骼的年代和碳14的比例高低等数据,科学家查清了玉米传播的大致途径和时间:北美的农业,出现时间还不到2 000年。随后,“玉米杀手”迅速传播。

    碳14检测的C4食物玉米在北美的传播

    水稻则起源于中国南部。水稻的野生祖先野生稻(Oryza rufipogon),至今仍然生长在印度和巴基斯坦,在中国和北美也有野生稻。

    经总部设在美国的史密森尼学会(Smithsonian Institution)仔细研究发现,在1.3万年前,中国长江中游出现过水稻,但是在北半球突然变冷的“新仙女木”时期却消失了,留下了植物化石。1.1万年前,水稻的植物化石又出现了。所有的粮食作物的起源必经的最后一个步骤就是驯化。

    威廉·布莱船长(William Bligh,1754-1817)的故事《叛舰喋血记》(The Mutiny of the Bounty)曾5次被搬上银幕。1789年,他率领的“邦蒂号”(Bounty)经过6个月航行抵达塔希提。他一路上都严苛地虐待水手,抵达塔希提后,他强令水手不许寻找当地女人以免传染性病。

    威廉·布莱当时在塔希提滞留的原因是面包树(breadfruit)。这种植物美味可口,富含卡路里、易于生长,但是却没有种子,只能在树枝上砍出缺口,缺口长出根系后,砍下这段树枝移植到其他地方,最后成为一棵独立的树。

    布莱带着两个植物学家耐心地培育尽可能多的小树,准备用船带到西印度群岛种植。这是一个漫长而枯燥的过程,饱受虐待的大部分船员叛变驾船离开,只有少数忠于他的船员留在塔希提。

    挪威的海上丰收公司(Marine Harvest)的三文鱼人工培育过程也采取这种“闭合循环”的反复重复。繁育过程中,没有外来的植物和动物的介入,原来的物种本身不断反复循环,最后出现很多不同的变种。

    野生鳕鱼4-6年才能长大成熟,海上丰收公司重复繁育,找到了两年成熟的一个新品种。这家挪威公司的大部分预算都投入在重复繁育。为了培育新的比目鱼,他们甚至建立了很多海水养殖的“比目鱼大厦”,让更多比目鱼住进楼房,从而容纳更多的重复繁育。

    现在看看三大谷物:小麦、水稻、玉米。

    这三种谷物提供了世界人口的大部分卡路里,但是,现在它们都是同源多倍体(polyploid)——它们已经被人类繁育了很多代。换句话说,小麦、水稻、玉米的基因组重复了很多次,染色体变成原来的很多倍,它们成了转基因植物。

    挪威海上丰收公司的比目鱼大厦。比目鱼出生6个月左右,一只眼睛翻到另一边。两眼都在身体的上方,鱼身平行游动。这个“比目鱼大厦”设计了很多“楼层”,可以居住更多比目鱼。饲料从海水的水面丢下来,没有吃掉的饲料回收再投放。比目鱼只能看见海面上掉下来的食物,它们吃完食物,又回到自己的楼层休息

    现代的转基因范围更广泛了,已经发展成移植抗病、抗虫的基因等。

    正常情况下,一个基因组里的染色体的数量大约上百万年才会增长一倍。人类的驯化使得小麦、水稻、玉米的染色体数量翻了很多倍,这是相当于几百万年才能有的进化。

    复制录像次数越多,图像越模糊,复印资料也会发生错误或遗漏某些页——复制基因组当然也会发生很多错误。基因组染色体不匹配的植物无法产生后代,复印时必须保留一份“原件”,以备再次复印——第二年作为种子播种,这是多倍体谷物的缺陷。所以农民必须购买种子,否则,产量会一代又一代地自动退化回去,这是一种源自基因的力量。

    人类这种反复的重复繁育,存在致命的风险。

    第一个指出这种风险的学者是日本裔美国生物学家大野乾(Susumu Ohno,1928-2000),他在1970年所著的《基因重复的进化》(Evolution by GeneDuplication)一书中提出:重复基因时,随心所欲地草率选择,会导致“快速进化”的变异,必须保留备份。他创造出“垃圾DNA”(junk DNA)一词,用以描述基因组里的很多功能不详的DNA。这种垃圾是重复基因的必然宿命,也许毫无意义,也许后果致命。

    单倍体、双倍体、三倍体和四倍体

    正常发挥功能的基因维持生物体“继续活着”,无法预料的突变则可能夺去生物组织的生命。所有癌症都是不断重复自己的DNA,最后发展成为同源多倍体的。

    这种危险的同源多倍体的小麦、水稻、玉米呈现出极高的突变率:它们的DNA始终处于不稳定的、重复的、分子湮灭的状态。

    分子湮灭时会产生基因换位现象(transposable elements),成为DNA上寄生现象的起因。病毒可以嵌入基因,尤其是活跃的逆转录病毒(retroviruse)。艾滋病毒(HIV)就属于逆转录病毒家族。1950年,美国女遗传学家芭芭拉·麦克林托克(Barbara McClintock,1902-1992)在研究玉米遗传时发现了这一现象。起初遗传学界表示怀疑,后来证明她是正确的。

    现在的玉米分为很多类型,包括双倍体、四倍体、多倍体等。玉米的最重要的3个基因分别决定玉米棒的数量、玉米颗粒的层次数量和玉米的糖分。经过仅仅4 400年的人工选择,尤其是最近2 000年的培育,玉米已经出现巨大的变异。

    在人类居住了4 000年的叙利亚境内的阿布·胡列伊拉遗址(Tell Abu Hureyra)中,出土了1.1万——0.75万年前的人类留下的150类500多种食用植物种子,研究这个遗址的学者们认为起源的定义有几种,人类刻意选择物种也算是一种“起源”。

    如果某些物种没有产生人们期望的后代,人类就从野外再找其他物种。这些中东的早期农民,最后在“150类500多种食用植物种子”中留下了仅仅8类农作物,其中就包括小麦。

    开展农业是人类的一个历史性决定。向大自然开战,与几百万年的进化史告别,人类与人类本身也决裂了——没有任何计划和目标的远征开始了。在没有地图和导航的黑暗中,人类跌跌撞撞地开始前行。

    农业文化,带来两个重要的新事物。
    第一,农业带来了人口数量的第二次1 000倍数量级增长。
    第二,农业催生了政府。

    狩猎采集者之间是基本平等的。农业却使人类无法离开耕地和水源,定居带来各种建筑和不动产,大量人口群集造成不同的社会阶层和不平等。世界上的所有人类群体都自发诞生了宗教。为了合理分配水源和土地、联合开凿引水渠、共同建设神庙……人类突然发现必须有一个新的东西——政府。
    是农业文明最终带来了政府。

    政府开始组织更大规模的农业生产,从而产生出更多的人口。人口压力再迫使人们继续迁移,寻找更多的土地和水源。政府的诞生,原本为了协调农业生产,但很快转变成为战争组织,以夺取新的土地。最后,政府演变成帝国,如埃及、亚述、波斯、希腊、罗马、印度孔雀王朝、中国汉朝、高棉帝国、大津巴布韦等。

    本质上,政府的诞生源自生育的力量。为了争夺土地资源,政府组织的战争越来越多,规模越来越大。随着战争日益频繁和残酷,社会主导地位向男性倾斜,战争英雄成为被崇拜对象或政府首领,而发明农业的妇女却沦为农业社会的下层。(如尼罗河两岸原本有40多个政府(Nome,诺姆),经过几千年的残酷战争后兼并为两个政府:上埃及和下埃及。5 100年前,上埃及的法老那尔迈首次统一两个埃及)

    农业使我们病了

    世界自然遗产大烟山国家公园(Great Smoky Mountains National Park)是美国旅游人数最多的国家公园之一,每年有900万——950万游人。位于田纳西州东部的大型游乐场多莱坞(Dollywood)的游客每年超过200万人。如果我们去大烟山和多莱坞旅游,就会发现几乎处处都是肥胖者。

    虽然大烟山的游客来自全美和世界各地,但是大部分还是来自附近各州。这些州的肥胖比例超过20%,密西西比州的比例更是超过三分之一。肥胖比例最高的州都是家庭平均收入最低的州。但是,美国的东海岸、西海岸和欧洲,也是肥胖者越来越多,很多场所的座椅尺寸已经无法容纳越来越庞大的人体。

    肥胖已经不是一种现象,而是一种疾病,一种流行病。

    1991年,美国没有任何一个州的肥胖人口超过20%。仅仅20多年间发生的变化无法用基因变化来解释。现在85%以上的美国人认为,肥胖是一种病。美国疾病控制预防中心(Centers for Disease Control and Prevention)和世界卫生组织的调查确认,肥胖是仅次于吸烟的第二大流行病,并将在10年内成为世界第一大流行病。(现代人的食物远远超过了实际需求。线粒体以氧气为原料,每天制造的ATP能量的重量占人体体重的一半,为人类制造能量的效率为20万倍)

    肥胖是很多疾病的基础。
    我们的丰富食物,既滋养了我们,也在杀死我们。

    欧洲的肥胖病也在流行,发病率最高的地区也是经济最不发达的地区。这和美国的统计完全一致。

    发展中国家的肥胖病也在流行。过去的解释认为,收入低的地区,受教育程度低,进入社会后的收入也低,成为恶性循环。因为运动缺乏,食物过量,才导致肥胖。现在,这些说法已经不足以解释全球性的肥胖病,因为收入中等、人口最多的印度和中国也在受肥胖病及其带来的诸多恶果困扰。

    政策制定者和公共卫生专家已经认识到,除了糖尿病,肥胖还会引发一系列严重的慢性疾病。印度金奈的医学家们发现,人类很难改变固有的生活方式,贪吃和不爱运动既是强力的毒品,也是人的天性。

    美国遗传学家詹姆斯·尼尔(James Neel,1915-2000)在对广岛和长崎遭遇原子弹辐射的群体研究中曾经惊讶地发现,基因突变率没有增加,也就是说,甚至强烈的原子辐射也无法撼动DNA。然后,尼尔着迷于巴西——委内瑞拉边境的原始土著——亚马孙流域的亚诺玛尼人(Yanomami,约两万人的部族)的遗传研究。这里原来与世隔绝,人们生活在天然状态,但随着转入农业的进化压力,基因却很快发生了显著变化。

    尼尔猜测,在狩猎采集群体里,原先几乎没有糖尿病,所以这种疾病可能是突然大量供给卡路里的一种生理反应。卡路里的低摄入是狩猎采集群体在长期进化中形成的一种维持正常生理机能的能力,这种能力与现代的丰富饮食发生了严重冲突。他称其为“节俭基因型”(thrifty genotype)。

    这个理论,随着糖尿病日益普遍得到认可。显然,这又是一个自然选择的行为。

    糖尿病分为两种。Ⅰ型糖尿病可以在儿童时期发病,病因是DNA的遗传因素与环境的综合。Ⅱ型糖尿病在成人时期出现(也有少年时期的发病者),部分源自遗传,部分源自日常饮食,80%以上的Ⅱ型糖尿病患者都超重或肥胖。

    这种“节俭基因型”副作用的最有趣的例子,是太平洋波利尼西亚诸岛屿的居民。萨摩亚人(Samoans)在3 000年前从亚洲南部迁徙到这些岛屿,他们有时必须承受几个星期营养不足的强大生理压力,幸存者属于能够减少卡路里消耗的群体。他们从事农业,获得丰富的卡路里,但是他们几乎天天四处活动消耗热量,防止了肥胖的流行。

    但是,现代文明来到后,萨摩亚人不再乐于田间劳作和出海捕鱼,大部分时间坐着享受生活。现在,城镇的萨摩亚人中的肥胖者超过人口的三分之二,乡村中的肥胖者超过一半。所以萨摩亚人的糖尿病比例很高:男性25%,女性15%。

    在美国西南部和墨西哥北部的美洲土著比马人(Pima Indians)中,生活方式与糖尿病的密切关系更令人恐怖。住在美国的比马人,物质丰富,高达40%的人口罹患糖尿病,这个比例是全世界最高的。但是,边境另一边的同一族群却较多地维持着传统生活方式,只有7%的糖尿病患者,虽然这个比例也不低,但远远低于美国比马人。

    现在人人皆知“过度饮食和缺乏运动导致肥胖”。我们的先祖在狩猎时必须节省每一个单位的卡路里,因为每多消耗一个单位的卡路里,就必须多猎取一个单位的卡路里进行补偿。锻炼身体对他们来说是荒唐可笑的,他们本来就在奔走狩猎或四处采集种子和水果。这种几百万年的进化,产生了一套极其高效率的能量存贮和使用能力,早已深深埋藏在我们的基因里。

    所以,糖尿病的威胁,不是来自外部,而是来自内部。

    对肥胖——糖尿病的理解,涉及基因的进化及文明的发展历程。肥胖——糖尿病已经引发了无数后续的疾病。美国政府的统计发现,肥胖引起的各种疾病在人均医疗支出中的比例已经稳居第一位,约占四分之一。

    第三次疾病浪潮

    2003年2月,一位中国医生到香港出席侄子的婚礼,他无意中散播了一场蔓延全球的传染病。他当时感觉自己病了,以为得了感冒。这种感冒可以通过空气快速传染,最后出现肺炎,死亡率约10%。当时,这种疾病迅速扩散到五大洲,世界旅游行业下跌了9%。这种疾病源自冠状病毒(coronavirus)的一种,从此,一种新的传染病SARS(Severe acute respiratory syndrome,严重急性呼吸系统综合征)诞生了。

    SARS的特点是传播速率惊人。这种病可能是中国南部的鸡病毒或猪病毒的突然变异。宿主成为人类后,通过饲养场的雇员和这位医生,一个月里就传播到加拿大、瑞士和南非。

    SARS的死亡率不高。非洲的埃博拉(Ebola)、拉沙热(Lassa fever)和马尔堡病毒(Marburg virus)的死亡率极高,但是,这几种疾病仅仅在相对封闭的群体里突然暴发,没有快速传播造成严重威胁。H5N1禽流感(H5N1 avian flu)的死亡率可以高达50%,顾名思义,这种病毒来自家禽。1918-1919年暴发的流感,在欧洲等地造成2 000多万人死亡。

    这些传染病全部起源于人类饲养的动物,并非“新威胁”。

    美国历史学家威廉·麦克尼尔(William McNeill,1917-)在他1976年出版的《瘟疫与人类》(Plagues and Peoples)一书中,阐述了疾病与人类历史的关系,他发现传染病是很多重大历史事件的催化剂。

    例如,14世纪欧洲流行的黑死病迫使蒙古帝国的军队逃离,而西班牙对美洲各个帝国的成功征服,主要是欧洲带来的疾病造成了大部分美洲土著死亡。

    麦克尼尔发现很多疾病起源于新石器时期:农业人口集中在较小的空间,导致疾病的发生和流行。大约一万年前,中东开始驯化绵羊、山羊、牛和猪。大约8 000年前,东南亚开始驯化鸡——人类第一次与其他动物生活在一个社区里。

    麦克尼尔写道:“人类与他们驯养的动物分享各种疾病,26种疾病来自鸡,42种疾病来自猪。”

    人类与牛分享的天花曾经杀死了无数人类,直到人类用种牛痘的办法遏制了天花。从动物传染给人类的其他著名疾病还有麻疹、肺结核和流感、黑死病。考古发现,人类过去从未罹患这些疾病,这些疾病通称“动物疾病”(zoonotic diseases,希腊语zoon的意思是疾病)。

    在人类几百万年的进化中,体内长期存在多种细菌和病毒,但是它们与人类是互利互惠、寄生共存的关系。比如消化系统里的多种菌类,它们不会暴虐地杀死自己的宿主,断绝自己的生存资源。

    考古证据发现,旧石器时代人类死亡的主要原因不是疾病,而是外伤和外伤引起的感染。外伤主要是狩猎造成的。进入农业社会之后,外伤导致的死亡下降,疾病导致的死亡上升,后来慢性非传染病开始大量增加,这三大死亡原因形成三次浪潮。

    麦克尼尔的证据,引来很多类似的研究著述的出版。

    从这三次浪潮的三条曲线可见:

    过去1.5万年,3种主要病患的变化曲线

    1.人类从旧石器时代到新石器时代,外伤是第一位的死亡原因。
    2.定居和驯化动物以后,传染病成为主要原因,直至20世纪出现抗生素。
    3.最后一条曲线发展若干世纪后,在20世纪中期上升——非传染慢性病如癌症、糖尿病、高血压、心脏病等成为人类的最大威胁。

    造成这些现象的另外一个原因是医学的发展延长了人类的寿命,很多慢性病往往与年龄关联。但是,最严重的问题是三次浪潮中最新的一次巨浪——非传染性慢性病,这些疾病全部无药可医,换句话说,必须终生服药。
    非传染性慢性病的起源是碳水化合物——糖,糖给人类带来疾病,其证据最早是从印度河谷出土的蛀牙化石发现的。这个证据,首先刊登在《自然》杂志上。

    梅赫尔格尔(Mehrgarh)距离阿拉伯半岛3 000多千米,位于一个陡峭的山峰下的坡地。这里发现的最大一个村庄的面积达到2平方千米。这是世界最古老的新石器时代定居点之一,也是亚洲南部最老的人类定居点,5 000年前印度河谷文明的发源地。从梅赫尔格尔向东,还有多处古代村镇遗迹,其中摩亨佐·达罗(Mohenjo Daro,乌尔都语,意思是死城)是一座古城,被列入联合国世界文化遗产。
    人类在梅赫尔格尔居住了大约4500年,这里发现了人类驯化小麦、大麦、牛、羊、山羊等的遗迹,以及石器、铜器、铁器等。9000年前定居在梅赫尔格尔的人类住在泥砖房子里,制作陶器,用海产与800千米外的帕米尔高原上居住的人类进行贸易。
    在这里最令人惊讶的发现之一是古代牙科手术的证据,它来自9000-7500年的土层。那个时期的牙钻应该是石器,这是世界最早的活人牙科手术。

    蛀牙,在旧石器时代的狩猎采集群体里几乎没有发现,在新石器时代才开始显著增加。它正是人类食用碳水化合物——多糖类食物的后果之一。为了减轻蛀牙的痛苦,史前的梅赫尔格尔的人类用石器做成钻头,磨掉被侵蚀的蛀牙部分。否则,严重的蛀牙会导致整个口腔的溃烂。北美土著的情况与此类似。研究发现,在狩猎采集生活方式中,发生蛀牙的比例不到5%。而进入农业时期以后,蛀牙增加到25%以上。

    在农业时代,日常饮食里突然增加了大量的碳水化合物,这种食品必须经过去壳、研磨、发酵、烹饪等处理。在这些处理过程中,植物原有的很多营养丢失了,碳水化合物仅仅是糖。但是狩猎采集群体直接吃草类,不仅保持原有的营养,还起到了清洁牙齿的作用。

    现在流行的阿特金斯饮食法(Atkin s diet)、旧石器饮食法(Paleo Diet)和其他版本的各种新饮食方式,都是回归狩猎采集时代我们先祖的饮食方式——新石器时代以前、农业出现以前的生活方式。(旧石器饮食法(Paleo diet):又称洞穴人饮食法(Caveman diet)、狩猎采集者饮食法(Hunter-gatherer diet)。这类饮食排斥谷物、豆类、乳制品等,推崇水产、食草类动物的肉类、蔬菜等

    美国医生罗伯特·阿特金斯(Robert Atkins,1930-2003)为了解决自己的超重问题,研究出不吃碳水化合物和含糖食品,只吃肉类、蔬菜的减肥饮食。1972年他出版了《阿特金斯医生的饮食革命》(Dr. Atkins’ Diet Revolution),此后又出版十余本同样理念的书,号召人类回归自然,避免非传染慢性病。这套办法风靡至今。(阿特金斯饮食的基本理念:可以摄入和消化脂肪,但是排斥碳水化合物和含糖食品,以免多余的碳水化合物变成脂肪存贮起来。阿特金斯饮食可能过分强调以蛋白质取代碳水化合物)

    新石器时代的纳图夫人的食物中已经包含一定数量的碳水化合物。但是,进入农业时代之后,突然变成以碳水化合物为主。现代人类的食物主要是碳水化合物和脂肪,这确实完全背离了人科生物几百万年的进化史。

    当然,看起来似乎淀粉比糖好。实际上,淀粉也是糖。

    人类食用糖的历史已有几千年,蔗糖的规模生产起始于产业革命。欧洲原来用蜂蜜作为甜味调料,蜂蜜营养全面,包含多种维生素和矿物质,但是产量少、价格高,无法作为卡路里的长期来源。于是,产量大、价格低的淀粉成为卡路里的来源。

    现代饮食中,排名第一位的罪犯是糖。人类的基因因为无法处理过量的糖(碳水化合物),从而导致糖尿病。另一个重要罪犯是添加剂。2002年,埃里克·施洛瑟(Eric Schlosser,1959-)出版了大型调查报告《快餐民族:所有美国人食物的黑暗面》(Fast Food Nation: The Dark Side of the AllAmerican Meal)。这本书列举了很多数据,例如,麦当劳草莓奶昔由60多种添加剂构成,唯独没有任何草莓成分,含糖很多。又如,番茄酱(ketchup)的三分之一是糖。这本调查报告引起巨大轰动,美国涌现大量类似书籍,出现多部电影,批判反思现代饮食文化。

    人类在几百万年的进化中,形成了敏感的味觉和摄取偏好。对于苦味,人类本能地警惕,因为这些植物可能有毒。对于甜味,人类本能地感觉安全,因为它属于成熟的水果的味道。这些味觉和摄取偏好最后导致人类走向过量的糖——碳水化合物。偏好甜味正是人类进化史中的“阿喀琉斯之踵”(Achilles’ heel)。

    19世纪的产业革命是人类的第二次产业革命,新石器晚期的农业革命是第一次产业革命——由政府组织实施的获得食物的产业化革命。梅赫尔格尔发现的人类蛀牙,只是农业革命的恶果之一。

    过去的一个多世纪里,美国食物中的糖类大大增加,汽车取代了走路……美国各个年龄组的肥胖人数都增加了大约10倍。现在,电脑、手机、互联网和游戏机使得人类的体力活动和身体锻炼更少,很难预料未来将是什么样子。有的媒体估计,2000年出生的孩子,在2050年时大约三分之一会成为肥胖者。
    所有这些疾病的根,都源自农业文化——我们要为对抗大自然付出代价。
    糖尿病、高血脂、高血压、心脏病等非传染慢性病,要么无药可治,要么必须终生服药。这已经完全不是传统意义上的“疾病”的概念,这些症状,也源自农业文化——我们要为对抗人类的基因付出代价。

    在发展中国家,情况也不乐观。中国的各种“吃”出来的疾病也在不断增加,以肝脏为例,城市中的肥胖和脂肪肝人群非常普遍,中国特有的地方病乙肝的数量已经超过三亿人口。这一切都发生在最近几十年里。

    21世纪是生物世纪,但是不应该成为医药世纪。
    2011年,世界的新药品中74%已经是生物药品。生物药品迅速超过了化学药品,这些药品中不仅有治疗身体疾病的药品,还有治疗精神疾病的药品。
    难道我们六万年前走出非洲,就是为了今天吃药?

    农业使我们疯了

    人类走出非洲的旅程中,农业不仅引发身体疾病,还引发了精神疾病。
    现代人头脑聪明,能够制作各种石器和武器,通过语言沟通和社会组织进行有效的狩猎和采集。现代人在非洲发展出这些文化,但是,他们为什么离开非洲?以前又为什么留在非洲呢?
    对非洲各地的湖泊沉积物的数据分析发现,七万年前,最后一次冰河期,气候日益趋向寒冷,非洲也越来越干旱,草原减少;8 000年以前,非洲越来越干旱,撒哈拉沙漠开始扩张。但是干旱可能不是唯一的原因,人类曾经遭遇过一次巨大的天灾。

    印度尼西亚的苏门答腊北部的多峇湖(Lake Toba),长度100千米,宽度30千米。这是一座休眠火山口,曾经发生3次大爆发。第三次喷发在七万多年前,是200万年里地球上最大的一次火山爆发,在大气层形成大量尘埃,遮挡了阳光,使气温急剧下降。火山灰散布到周围各地,造成全球性的巨大生态灾难。直到今天,在印度中部一些地区还覆盖着厚达6米的火山灰。
    当时已经进入冰河期。火山灰遮蔽阳光,导致全球出现6-10年“火山冬季”(Volcanic winter)和大约1 000年的极度严寒,非洲地区的气温进一步下降。斯坦福大学的研究发现,当时非洲的人类数量减少到几千人,濒临灭绝。而其他地区的智人亚种受到了更大的打击。欧洲的尼人完全灭亡,西亚的尼人只留下高加索山谷中数百人。东亚的丹尼索人也可能只剩下横断山区数百人。多峇火山爆发为现代人走出非洲扫清了障碍。我们仍然不清楚当时发生了一些什么故事。但是,再次发现人类时,他们的石器和艺术已经大不相同,人类文化发展了——这种进步明显受到了强大的进化压力。很多学者猜测,这次多峇火山爆发可能是人类进步和走出非洲的一个非常重要的刺激因素。
    这个理论被称为“多峇巨变理论”(Toba catastrophe theory),又称多峇突变理论:巨大的自然灾难带来瓶颈效应,迫使人类发生了突变。

    进入工业化之后,人类成为马歇尔·萨林斯(Marshall Sahlins)激烈批评的“经济人种”(Homo economicus,或经济动物):每天受时间的严格约束,无数人天天重复做同一件事情,探险精神和创新精神成为少数人的专利。

    进入现在的后工业化时代,人类“进化”为不同的 “专业人种”:
    在微粒子物理论坛上,一个民事诉讼律师根本搞不懂物理学家们在说什么。
    在文学理论学术会上,一个化学家也是多余的听众。
    每一个人都不会修理自己的汽车和家用电器。
    每一个人都在过着食品和娱乐过剩的生活,但还是像机器一样在拼命。
    ……
    我们已经找不到自我,找不到生活。

    1997年,托比·莱斯特(Toby Lester,1964-)发表的文章说:“我们是机器噪声包围的第一代人类。”无论在工厂还是办公室,各类机器设备比比皆是,家里的家用电器遍布每个角落,互联网和手机须臾不可分离……听得见的噪声、听不见的电子噪声、无数的社会联系,正在悄悄地损害着我们的免疫系统。

    人类能够走遍世界,首先是因为具备了强大的身体和精神力量。所谓身体的强大,并非肌肉的强劲,而是免疫系统的发达。在一个细菌病毒无所不在的世界,任何幸存的物种都必须拥有强大的免疫系统。所有人属物种都灭绝了,因为人类的免疫系统最强大,所以只有现代人幸存下来。但是,现在越来越多的癌症正是免疫系统无法控制细胞基因突变的一个最好例证。

    狩猎采集时代的田园牧歌,不可能时光倒流。(北美土著有一句古老格言:善等地球。它不是你父母给你的,它是你的孩子们借给你的。Treat the earth well. It was not given to you by your parents, but is loaned to you by your children.)

    每一个民族,都曾经回忆和怀念远古的传说,那是人类的黄金时代。探索和反思人类六万年的旅程,只能得出一个结论或者疑问:我们是不是疯了?

    著名的“邓巴150”是精神疾病起源的另一个证明。

    考古学家曾经研究分析过尼罗河沿岸的历史。干旱驱赶着日益扩大的撒哈拉地区的无数部落氏族,拥挤到狭窄的尼罗河两岸。资源的争夺与战争不可避免,在这些资源争夺战中,有的埃及部落死亡率超过40%。但是,狩猎采集时代,人类还有更多的空间,最好的出路是走开,离开尼罗河,走向欧亚大陆。实际上,《圣经》也是描述了犹太人走开的一个例子。

    猴子、猿人和猩猩也会发生资源冲突,它们的最终选择也是走开。

    进化心理学家罗宾·邓巴(Robin Dunbar,1947-)对复杂社会架构的大量群体中,如何缓解压力感到好奇,于是研究了各种猴子、猩猩等灵长目动物的平均群体数量。他发现,平均群体数量与大脑皮层有关,大脑越大的灵长目动物,迁移和生活的群体数量越大,因为神经元的增加,扩大了可以联系的个体数量,即社交联系的范围。大部分物种的群体数量在5-50只个体。他推算出人类大脑与相应的联系个体的平均数量为148个人,这个数据后来被称为罗宾·邓巴150(Robin Dunbar 150)。

    大脑皮层比率(Neocortex ratio),黑点是猴子,空心点是猩猩,方框是人类。人类群体的推算数量是148个人,故称邓巴150

    罗宾·邓巴解释:这个数值是人类理想的社交联系人数,虽然有人最多可以记住2 000个人,但是保持有意义的社会关系的人数是150。这个数字正是1990年代发明E-mail之前,人们在圣诞节邮寄贺卡的平均人数。

    这是生物学决定的一个“硬链接”数值。如果超出这个数值,只有两种可能性:要么分离,要么调整和改善政府、宗教、法律、警察等社会组织的相应结构以维持这个数值。

    旧石器时代的先祖可以选择分离,我们只能选择后者——调整和改善。

    无论怎样调整和改善,现代社会的社交人数,还是往往远超150人,由此也带来心理负担和精神压力。

    农业发展、产业革命、互联网时代使得人类社会变得如此复杂,我们陷入了一种既不可能“非人化”,也不可能违背自然规律的两难境地。于是,我们不愿观看身边的人海,宁愿在公共场合埋头玩手机;我们对各种社交聚会犹豫不决,又不得不前去社交和应酬……事实上,我们的大脑根本处理不了这么多的“社会关系”,也没有时间安排这些“社交应酬”。

    这种大背景,正是精神疾病日益增多的另一个原因。国际卫生组织已经将这类疾病列为2020年世界范围内第二大的致残和致死原因,在欧洲和北美,出现这类精神疾病症状的人口比例都已超过四分之一。

    复杂的社会结构和社会关系,使得人类在心理、精神和神经方面的疾病也成为一张长长的清单。

    我们是不是应该收敛疯狂?

    这种趋势的连带后果是精神疾病药物的使用在不断增长,人们试图改善自己的精神状态,酒精已经不能帮助人们缓解和摆脱精神的烦恼和压力……

    根据美国疾病控制中心的统计,抗抑郁药类(如Prozac和Paxil)是美国现在数量最多的处方药,超过治疗高血压、胆固醇和头痛药剂的总和。此外,美国大约10%的男孩在天天服用含有兴奋剂Ritalin的药物,以控制注意力不集中和失调多动症状……

    虽然新的更有效的药物正在继续研发,但是无法解决农业文化和人口爆炸这两个孪生的病源,因为我们不可能战胜我们自己的基因。

    这是人类历史上的第一次。

    时光虽然不能倒流,但是我们可以回到狩猎采集时代,看看几百万年进化的人类,找出真正合适的社会交流范围,以保护我们的免疫系统和健康。

    我们应该学习了解生物学和基因的新知识和新发现,我们应该参考农业出现之前的狩猎采集时代,再造新的文化,再造人类。

    已经开始的溃败

    农业扩张一万年后,人类第一次开始从土地上撤退了。

    图瓦卢(Tuvalu)是一个太平洋岛国,由9个珊瑚礁环岛屿组成,面积约1.054万平方千米,26万人口。这个岛国最高海拔仅5米,随着全球大气变暖,南北极冰盖融化以及全球冰川消退,欧美各国在图瓦卢安设的精确设备测量发现,太平洋海平面平均每年上涨0.9厘米,预计21世纪之内,也许50年内,图瓦卢将淹没在大海里。

    随着海平面上升,这个岛国现在已经无法获得淡水,所有食品和饮水必须进口,导致各种包装垃圾遍布各个岛屿。图瓦卢的旅游业已经消失了。

    在德国、法国、英国、美国、日本、澳大利亚等国的帮助下,图瓦卢一面接受国际援助,一面进行谈判和规划,他们只能放弃家园、举国迁移。

    这是人类历史上的第一次国家整体溃退。可怕的是,这一现象,正在全球蔓延。

    人类终于认识到索取地球无止境的农业文化的重大内在缺陷,觉悟到农业文化贪婪的恶果。人类开始退耕还林,退草还牧,控制人口。

    20世纪,人类最重要的发明之一是退休,退休之后由国家福利体系养老。

    退休制度的重大成就之一是遏制了世界人口的继续迅速增长,人类不必为了吃饭、为了养老而没有节制地大量繁衍下一代。

    20世纪,发达国家人口保持稳定的事实,已经证明托马斯·马尔萨斯的政治经济学理论是正确的。他的理论深刻揭示了人类与大自然的关系。农业文化的本质是无止境地索取地球、繁育人口,形成恶性循环直至地球资源枯竭。

    我们必须改变农业文化以来的世界观。

    所谓“开化的”农业始终是野蛮的。

    最初的农业是“刀耕火种”:破坏和利用一块土地,然后迁移到另一块土地。农民播下种子的目的,是为了收获和养活家人,土地只与生存有关。土地不足的时候,为了争夺土地资源,就会发动有组织的战争,互相屠杀。进入“文明的”工业时代,人类“进步”了,开始更加努力地增加产量——向地球索取。这种循环没有止境,直到再也没有地方可以开发,直到世界再也没有新的资源,人类再也无处可去。(我们人类根本不需要那么多粮食、肉类、蔬菜和水果)

    农业文化认为,向地球索取可以无穷无尽,尤其最近几个世纪的无限制扩张和掠夺几乎达到疯狂。可是,土地终有尽头,地球终有尽头。
    农业文化发展进步的陈旧模式面临资源枯竭的致命挑战,继续维持已不可能。虽然我们无法回到农业以前的时代,但是狩猎采集时代的人类文化值得我们反思和借鉴。
    人口与人,完全是两个不同的概念。托马斯·马尔萨斯(Thomas Robert Malthus,1766-1834)说:“人口的力量无限大于索取地球而求生存的人的力量。”

    人是猎人,几百万年的猎人。
    六万年前,我们离开非洲。
    一万年前,潘多拉的盒子打开了。
    我们的进步和错误,都发生在一万年之内。基因研究告诉我们,我们是不可分割的远亲,人类也只有一个地球家园。
    我们不可能回到狩猎采集时代。在陆地资源已经所剩无几,当我们继续带着农业文化的世界观,准备走向海洋继续索取,继续探索基因技术以求新的发展之前,是否应该首先勇敢地再次审判自己:我们做错了什么?
    仅仅20多年,生物科学和基因技术揭示出一系列事实,使得人类陷入全面的反思和探索。

    第八章 必须向新理论开放

    人类科学研究的历史证明,我们必须向新的理论开放,因为新的理论可能被新的事实证明。在研究人类的遗传、人类的起源、人类的旅程、生命的起源的过程中,一百多年来涌现了无数不屈不挠的先驱者,他们在一团谜雾中摸索,他们一次又一次否定自己、发现真相,他们带领我们找到了人类的先祖,了解了人类波澜壮阔的六万年旅程。

    这一章,我们主要介绍其中最重要的几个人物,几个诺贝尔奖获得者的故事,以及最新出现的新的生命理论。

    这些内容,都与本书的主题、人类六万年的旅程息息相关。

    基因的先驱与DNA的先驱

    中世纪,“先成者说”(preformationist theory)认为,人类本来就在卵子里。如果“先成者”存在于母体里,那么,母亲的母亲的母亲的……母亲的体内,就应该有一个孩子的胚胎。这个理论有些像俄罗斯的套娃,它的真实含义是人类是在不断的退化过程中,所以这个理论被抛弃了。

    精源论(spermists theory)和卵源说(ovism)更加糟糕。

    按照《圣经》的创世逻辑和理论,上帝应该在创世的第六天,把所有人类的精子都塞进了亚当的身体里,包括亚当的孩子的孩子的孩子的孩子……的精子。这显然是不可能的。同样道理,夏娃被塞进无数世代的无数卵子当然更是不可能的。

    科学家们相信,是某种化学物质参与了所有的遗传和进化。

    基因与DNA,现在似乎已经成为同义词,其实并不一样。DNA是化学名词,基因是遗传学概念。

    DNA——基因构成的大型分子结构叫作染色体,DNA结构蕴藏着基因的信息。

    19世纪的中期,基因和DNA几乎被同时发现。两个伟大的先驱,基因的发现者格雷戈尔·孟德尔(Gregor Mendel)和DNA的发现者弗里德里希·米歇尔(Friedrich Miescher)都默默无闻地死去了。

    1884年1月,孟德尔去世的那个冬天非常寒冷。修道院里修士们腾空了孟德尔的办公室,无情地烧毁了他的所有文件和院子里的实验设施。当时谁也不承认孟德尔的基因研究,没有任何亲友认领孟德尔的遗物,虽然后来作为遗传学之父的孟德尔成为这座修道院的无价之宝。

    1884年,同一个寒冷的冬天,瑞士的米歇尔正在他的修道院地下室里进行三文鱼的实验。他的面前,放着他多年来从三文鱼的精液里提炼出来的一大堆黏糊糊的东西。他沉迷于这些实验,当年他的朋友们把他强行从这个地下实验室拖出来、前去参加他自己的婚礼。正是从这些黏糊糊的东西里,米歇尔提炼出了DNA。

    孟德尔和米歇尔所在的修道院,距离大约600千米。但是,几乎整整一个世纪,没有任何人把基因和DNA联系在一起。

    米歇尔的父亲是一位著名妇产科医生,因为米歇尔的耳朵不好,人们建议这个孩子从事化学研究。1868年,米歇尔进入生物化学家费利克斯·霍普-赛勒(Felix Hoppe-Seyler)的实验室。现代人无法想象,这个实验室竟然在一座古城堡地下室的王室洗衣房和厨房里。米歇尔做事非常专心致志,他取出德国伤兵伤口里的脓,在其白细胞的细胞核里,发现了一种化学物质。他用猪胃里提炼出来的酸溶解了细胞膜,分离出灰色的糊状物。但是他无法分辨这到底是什么东西?这种物质不是蛋白,因为和蛋白完全不同,这种物质在盐水、醋酸、稀盐酸里都无法溶解。他把这种物质命名为核酸(nuclein),后来学术界称其为DNA。

    1869年,霍普-赛勒认为米歇尔的实验搞错了,要求他一步一步地再次重复这项实验,否则不允许他发表这项实验的结果。

    1871年,又经过两年实验,米歇尔发表了他的论文。这篇论文,使米歇尔成为DNA的发现者。

    1871年,同一年,达尔文的第二本巨著《人的由来》也发表了。

    达尔文、孟德尔、米歇尔等遗传——基因——人类科学的先驱探索科学领域的时代,正是人类文明发生重大转折的时代,三场伟大的战争几乎同时在欧洲、亚洲、美洲进行:

    1861-1865年:美国南北战争,双方动员军队超过300万。此战后美国成为真正统一的国家。

    1868-1871年:日本明治维新,德川幕府退位,天皇从京都迁都东京,经两次全国性血腥内战“废藩置县”(300多藩主被废,改为70余县)后,日本成为统一国家。

    1864-1871年:德国统一战争,俾斯麦三战三捷,先后击败丹麦、奥地利和法国,1871年,德国成为统一国家。

    19世纪结束时,英美法德日五大强国完成工业化,科学技术高速发展。但是,生物——遗传——基因——DNA科学的道路仍然崎岖坎坷。

    1869年,25岁的弗雷德里希·米歇尔(Friedrich-Miescher,1844-1895)在德国图宾根(Tubingen)一座古代城堡的地下室的简陋实验室里发现了核酸(Nucleic acid)。这种物质是DNA的构成单元。(同一时期,孟德尔发现了基因)

    此后,米歇尔经历了一段不成功的教学生涯,因为“(学生)难以理解”和“性格焦躁”,米歇尔不得不离开教室,再次回到实验室。这一次,他的研究对象不再是伤兵的脓,而是三文鱼的精液,因为米歇尔发现三文鱼的精液几乎全部是DNA。他每年秋天和冬天都在莱茵河里捕捞三文鱼。他努力捍卫DNA的声誉,他的预算有限,他不被理解,他的努力也付诸东流——他无法回答这种神秘的DNA到底是什么?他也不知道这种物质如何影响了遗传?瑞士政府也不支持他。最后,米歇尔不得不全部放弃了DNA的研究。

    当时,大部分人依然相信是蛋白质决定了遗传。

    当时,大部分人认为DNA是不稳定的。所以,甚至米歇尔自己也开始研究蛋白的氨基酸如何影响遗传。最后,顽强的米歇尔发现,蛋白的氨基酸无法解释遗传,于是他再次转回DNA。不幸的是,他的身体越来越糟糕,1895年,米歇尔因为肺炎而撒手人寰。

    孟德尔的遗传学研究更不顺利。他选择豌豆的原因之一是实验简单,昆虫和风都不会帮助豌豆授粉。孟德尔认认真真地记录每一天的温度和气压,以及各种豌豆实验数据,最后他的豌豆遗传实验几乎变成了一批统计学表格的综合。

    1865年,孟德尔在一次会议上宣读了他的遗传学论文。史料记载,所有听众都认为这是一场数学计算演示,会议上没有出现讨论,甚至没有人提出任何问题。

    1866年,孟德尔书面发表了他的结果。仍然是一片寂静,没有人回应。

    1868年,孟德尔被选为修道院的院长之后,他一方面管理修道院,一方面仍然顽强地继续着他的实验。他过去每天抽20支雪茄,最后发展到最多一天抽120支雪茄。他晚年的一位来访者回忆,孟德尔曾经带着他参观修道院的花园和果树,但是看到豌豆的实验田的时候,孟德尔赶紧转移话题,甚至显得局促不安。来访者问他为什么种植豌豆?孟德尔回答说:“这只是一个小游戏,故事很长,长得一时难以讲清楚。”更加麻烦的是,孟德尔为了教会的利益与政府进行了长期的抗争,一位律师感叹地写道:“孟德尔的身边‘充满了敌人、叛徒和告密者’。”四面受敌,身体日渐衰弱的孟德尔担心自己被活着烧掉,所以坚持死后进行尸体解剖。

    1884年,心脏和肾脏都失去功能的孟德尔最终死去了,修道院烧毁了孟德尔留下的一切,以维护修道院的名誉,豌豆实验也成为他的陪葬品。
    孟德尔死后35年里,先后11位科学家(大部分不是农业科学家)分别表示,他们不认可孟德尔的遗传理论。这些科学家再次埋葬了孟德尔。
    孟德尔曾经跟他的一位同事说过:“我的时代终究会来到。”1900年,3位生物学家几乎同时发现孟德尔是正确的。这3位科学家各自发表的论文印证了孟德尔的研究,他们不约而同地复活了这位捷克的修道士和他的基因理论。
    但是,“基因”到底在哪里?仍然是一个谜。

    胡戈·德弗里斯(Hugo de Vries,1848-1935),荷兰植物学家和生物学家,1901年发现突变(Mutation)并提倡突变理论。
    埃里克·冯·切尔马克(Erich vonTschermak,1871-1962),奥地利农学家。
    卡尔·埃里克·科伦斯(Carl ErichCorrens, 1864-1933),德国植物学家和遗传学家。

    果蝇造就的一批诺贝尔奖

    19世纪后期,达尔文的理论衰落了。生物学家承认演化发生了,但是他们贬低达尔文的自然选择机理,认为适者生存证据不足。人们认为适者生存的原理仅仅适用于不适者,演化是跳跃的或突然发生的,而不是达尔文所说的微小的演化。

    19世纪后期,统计学进入生物学,人们发现个体特征(Trait)的变化往往呈现钟形曲线,例如,人群的个子都差不多高,特别高和特别低的人都是少数。显然,自然选择不能去除最高的人和最矮的人。

    1900年之后,孟德尔主义(Mendelism)迅速流行,这种基因理论开始挑战达尔文主义(Darwinism)。人们认为这两种理论互不相容。

    当时已经出现了染色体理论、突变理论、基因理论等,但每一种理论都不那么清晰和有条有理。科学家们互相争执,这些理论似乎互相重叠了。有人认为基因不在染色体里,有人认为一个染色体里只有一个基因……达尔文被忽略了。

    达尔文及其支持者推翻了《圣经》,但是现在又出现了针对达尔文的战争。

    1900年,一场不文明的内战打响了,这是孟德尔的遗传学针对达尔文的自然选择的战争。大部分生物学家认为,这场战争的结果将是一个理论灭绝另一个理论。三个复活了孟德尔的科学家之一,胡戈·德弗里斯(Hugo de Vries)首先发明了突变理论(mutation theory),他认为物种起源是某些罕见的突变引起的。

    摩尔根(Thomas Hunt Morgan,1866-1945)原来是一个动物学家,研究胚胎。1900年,他听说了突变理论之后,照搬孟德尔的做法进行研究。他选择的不是豌豆,而是果蝇。当时果蝇移民到美国,香蕉也进口到美国。因为果蝇(drosophila,又称fruit flies)可以12天繁殖一代,所以成为一个很好的实验工具。

    摩尔根在他的实验室里放了8个大柜子,几千只果蝇幸福地生活在牛奶瓶子里,靠腐烂的香蕉活着,抽屉里也爬满了蟑螂。但是摩尔根泰然自若地忙碌在这个肮脏的环境里。他坐在中间的一张桌子旁,他的主要武器是一个放大镜,详细观看是否出现了胡戈·德弗里斯所说的突变。如果某一个奶瓶里的果蝇没有出现他希望看到的突变或类型,他就用拇指把这些果蝇碾死,然后把它们的尸体随意抹在什么地方,例如在他的笔记本里。

    1910年5月,戏剧性的突变出现了——一只果蝇的眼睛变成了白色,而原本所有的果蝇都是红眼睛。

    摩尔根把白眼睛隔离开来,培育出很多白眼睛。他用白眼睛雄性果蝇与红眼睛雌性果蝇交配,结果很复杂。他用不同的方法培育各种后代,出现了一个激动人心的结果:他发现红眼睛与白眼睛的比例是3∶1。摩尔根听说过一个名词——基因,摩尔根还听说哺乳动物的染色体中雄性是X与Y,雌性是X与X,这里有三个X与一个Y。这可能说明,摩尔根发现了比例为3∶1的基因?

    1900-1940年,达尔文理论陷入了黑暗时代。

    这段时期,基因的情况也好不到哪里,全世界没有几个人说得清楚什么是基因。

    染色体的情况更糟糕。染色体和核苷酸的拉丁名称又长又难记。行星是按照希腊神明的名字命名的;化学元素是按照神话、英雄和伟大城市的名字命名的……当时不受重视的23对46个染色体的名称,则干脆是按照它们的长度命名的:1号染色体的长度第一,2号染色体的长度第二……这些枯燥无味的命名,说明人们当时搞不清楚染色体和DNA的真实意义,所以对它们也没有什么兴趣。

    非常幸运的是,只有一个重要的例外,就是果蝇。

    摩尔根的团队不断推出新的发现,演示染色体的遗传效应,他给这些不同模样的果蝇分门别类,起了很多标新立异的品种名称。摩尔根想出了一个理论——复合基因(multiple genes)理论。他把果蝇的眼睛、翅膀的形状、绒毛的模样等作了分门别类,然后分别培育这些遗传特性。虽然基因和染色体没有改变,但是个体的遗传特性却变得互不相同,而且可以一代又一代培育出来。

    虽然理论上没有什么新发现,但是,谁都无法否认摩尔根培育并展示出与性染色体有关的、不同类型的大批果蝇存在的事实。摩尔根变得越来越著名。

    摩尔根的小小的纽约实验室原本拥挤狭小得滑稽可笑,1928年,成为生物学的“重要人物”之后,他搬到了加利福尼亚州的洛杉矶的宽敞明亮的新实验室里,雄心勃勃地希望建立自己的理论体系,虽然他的果蝇实验和突变理论实际上只是追随别人的实验模式和理论。他在洛杉矶加州理工学院(California Institute of Technology)创建的生物系,先后培育出了7个诺贝尔奖得主。

    1933年,摩尔根获得诺贝尔奖。他是世界上第一个获奖的遗传学家。一个历史学家这样评述摩尔根:“他(摩尔根)建立了一些他曾经打算推翻的遗传学原理。”因为摩尔根的果蝇实验发现,遗传特性“往往不是受一个基因的影响,而是受多个基因的影响”。

    事实上,当时诺贝尔奖委员会也不知道人类的染色体有多少?在给摩尔根颁发诺贝尔奖的时候,人们普遍认为人类有24对48个染色体。这个错误观念持续了大约30年。

    1955年12月22日是一个具有历史意义的时刻,蒋有兴(Joe Hin Tjio,1919-2001,出生于荷属东印度(现印度尼西亚)爪哇的一个华裔家庭)最终发现和确认了人类有23对46个染色体。

    1910年开始,赫尔曼·马勒(Hermann Muller,1890-1967)常常到纽约摩尔根的果蝇实验室参与一些工作。当时他是一个大学生,比摩尔根小24岁。后来马勒也成为一个著名的遗传学家,他用X射线诱导产生了基因的突变。

    因为果蝇实验使人们知道,染色体和基因可能与生物遗传特性的变化相联系。马勒认为:孟德尔和达尔文的学说,互相完美地巩固了对方。马勒最终使得摩尔根也相信了这一点,最后摩尔根成为一个达尔文主义者。马勒强调,基因的作用大于自然选择。

    虽然果蝇实验非常简单,但是在1920-1930年,这种办法成为一种国际流行的动物遗传学的实验模式。马勒回忆摩尔根的影响时说:“我们不会忘记摩尔根,他的例子影响了所有其他人,他的不屈不挠、深思熟虑、开朗和勇气。”

    生物学家开始重新审视他们对达尔文的偏见,开始综合孟德尔的基因理论与达尔文的自然选择。生物学家发现,一些微小的变化确实可以改变物种演化的新方向。

    果蝇实验和染色体基因作用演示说服了一些人,但是还有很多人不相信基因。在1940年DNA与蛋白的实验报告中,只有少数科学家认为DNA是遗传物质。

    1952年,更好的证据出现了。阿弗雷德·赫希(Alfred Day Hershey,1908-1997)和他的女助理玛莎·蔡斯(Martha Cowles Chase,1927-2003),在美国纽约的冷泉港实验室(Cold Spring Harbor Laboratory)利用病毒进行的著名的赫希——蔡斯实验(Hershey-Chase experiment),证实了DNA是遗传物质。

    蛋白中只含有硫,不含有磷。如果基因是蛋白,受感染的细胞里应该有硫。赫希和蔡斯在受到病毒感染的细胞里只发现了磷。也就是说,基因在DNA里,基因不在蛋白里。

    赫希和蔡斯的这个实验激起了研究DNA的热潮。

    1953年,一年之后,剑桥大学的两个年轻人,詹姆斯·沃森和弗朗西斯·克里克终于搞清了DNA的奇特而稳定的化学分子结构。1954年,20个青年学者(代表20种氨基酸)组成RNA领带俱乐部(RNA Tie Club),讨论分析DNA→RNA→蛋白的遗传关系:DNA是双链,RNA是单链,DNA将遗传信息交给“信使”RNA,然后由RNA指令细胞制造蛋白。这个遗传信息的转达和表达过程,转瞬即逝,机理难以查明。DNA→RNA→蛋白的遗传制造过程中,当然也会出现错误,但是细胞通常会立刻修正这些错误,否则这些错误就永久留在DNA里遗传下去。

    (欧文·查戈夫(Erwin Chargaff,1905-2002)发现DNA的四个碱基比例为:A=30.9%,T=29.4%,G=19.9%,C=19.8%。这种比例明显意味着DNA碱基结构可能是对称的。1950年,他发表了自己的成果。1952年,查戈夫当面向沃森和克里克解释他的发现,帮助他们理解并最终搞清楚DNA的结构)

    原子弹也无法改变DNA

    1945年8月6日,广岛的幸存者们都记得原子弹的爆炸和火焰之间有一段奇怪的延迟,强烈的闪光过后是冲击波,静静地升起的蘑菇云越来越大越高,伽玛射线正在辐射着广岛的人群……遗传学家开始研究核辐射对DNA的作用。

    1940年代,科学家已经发现基因存在于DNA的一些证据,但是人们仍然相信蛋白质才是遗传物质。科学家们继续深入研究,发现DNA和蛋白质之间存在特殊的关系。如果是DNA在指导制造蛋白,那么,核辐射是否会摧毁DNA?

    1946年,马勒获得诺贝尔奖之后告诉《纽约时报》:“现在可以预言1000年以后的结果,那些被原子弹杀死的人比他们(原子弹幸存者)更幸运。”
    马勒是一个悲观主义者。

    但是,遗传学家在幸存者中根本找不到伽玛射线损害DNA的证据,几年甚至几十年以后也没有发现证据。如此强烈的伽玛射线,对DNA竟然没有伤害?虽然幸存者们经历着各种折磨,很多人在几十年后陆续死于核辐射后遗症,但是,DNA确实没有改变。

    细胞修复DNA双链的速度,超过简单复制DNA时的速度大约3 000倍。长度大约2米的DNA缠绕压缩在染色体里,当原子弹的伽玛射线打击这些双链时,如果其中一个链条受到损害,细胞可以立刻从另一个链条复原两条双链:因为DNA的两个链条是互补对应的。如果无法复原DNA,细胞就会通过自杀来实现自我牺牲。如果同时自杀牺牲的细胞太多,人就会死亡。

    虽然伽玛射线可以造成幸存者们出现皮肤溃烂、脱发、体虚、咳血等症状,但是这些都会逐渐恢复。只是那些没有被杀死的细胞发生基因突变的可能性增大,而这些突变的累积可能导致癌症。日本随后出现的很多白血病(血癌)病例证明了这一点。10年之后,日本的白血病高潮才逐步消退。

    原子弹受害者的孩子们也没有受到影响,这进一步证明了DNA没有改变。

    很多科学家的悲观预测都没有出现,氢弹之父爱德华·泰勒(Edward Teller,1908-2003)甚至猜测少量的原子辐射对人可能有正面影响。总而言之,原子弹的力量似乎无法影响DNA的遗传。

    (西德尼·布伦纳(Sydney Brenner,1927-),罗伯特·霍维茨(Robert Horvitz,1947-),约翰·苏尔斯顿爵士(Sir JohnE. Sulston,1942-),2002年,这三位科学家获得诺贝尔奖。他们在细胞的凋亡(apoptosis)方面分别做出了贡献。细胞的凋亡是一种程序性死亡,是细胞主动实施的死亡)

    山口彊(Tsutoma Yamaguchi,1916-2010)是一个典型的例子。1945年,山口彊在广岛和长崎两次受到原子弹辐射。在受到辐射的当时,山口彊的皮肤溃烂、头发脱落、左耳丧失听力。后来,他的所有症状都消失了,头发也长了出来。他又活了65年,2010年因胃癌去世,享年93岁。科学家们推测,山口彊的细胞修复DNA和RNA的能力特别强。

    DNA的强大,令科学家们感到不可思议。暴露在宇宙射线和太阳辐射之下30多亿年的DNA,虽经历过无数的损害,却始终没有改变。大自然怎样赋予DNA不可思议的保护模式?我们至今对此一无所知。科学家仅仅知道遗传过程是DNA→RNA→蛋白的简单遗传教条,迄今为止,任何人都不知道真正的DNA的“语言”和“数学”模式。

    地球上的生命形式诞生于约35亿年前,所有有机组织都采用了同一套DNA体系进行生命的遗传。最近的4亿多年里,地球曾经发生过五次生物大灭绝,大体情况如下:
    第一次约4.4亿年前,奥陶纪末期:约85%的物种灭绝。
    第二次约3.6亿年前,泥盆纪后期:海洋生物遭受灭顶之灾。
    第三次约2.5亿年前,二叠纪末期:海洋95%和陆地75%以上的物种灭绝。
    第四次约2亿年前,三叠纪晚期:爬行动物遭遇重创。
    第五次6 500万年前后,白垩纪晚期:侏罗纪以来统治地球的恐龙灭绝。

    DNA的强大和不可改变,至今无法找到解释。

    每一个人的身上,都带着很多遗传错误,但是大都是非致命的错误。所有的生物组织,随着年龄的增加都会继续积累突变(错误):每个人的细胞平均大约每天复制50万次以上,有的细胞每天复制150万次以上,在人的大约100万亿个细胞的复制过程中,想避免错误非常困难。生物组织形体越小、外界温度越高、细胞的DNA复制越活跃,发生复制错误的概率越高。人类属于体形较大的哺乳动物,体温也基本保持着恒温,所以人类的细胞复制基本保持恒定的速率。

    两种DNA的发现与解释

    沃森和克里克破解DNA的双螺旋结构,与一个女科学家密切相关。

    罗莎琳·爱尔西·富兰克林(Rosalind Elsie Franklin,1920-1958)是英国生物物理学家、X射线专家,对发现DNA、RNA、病毒、煤炭和石墨等的分子结构做出了重大贡献。她在英国伦敦国王学院(King’s College London)工作期间,与同事莫里斯·威尔金斯(Maurice Wilkins,1916-2004)合作,第一个做出了DNA的X射线衍射图像,初步揭示出DNA的结构。
    1962年,她的同事威尔金斯以及沃森和克里克等三人分享了1962年的诺贝尔奖,他们发现了DNA的双螺旋结构和遗传的机理。当时,罗莎琳已经去世4年了。很多人评论说,罗莎琳也是应该获得这次诺贝尔奖的科学家。

    沃森和克里克搞清楚DNA的基本结构之后,另一位女科学家对DNA的子结构——碱基的结构做出了贡献。这个人就是米利亚姆修女(Sister Miriam Michael Stimson)。
    米利亚姆修女1939年开始研究DNA的结构,1953年她获悉沃森和克里克的研究结果后,知道自己十几年的心血白费了。但是米利亚姆修女没有放弃,转向了研究DNA的碱基的结构和其他领域。
    1953年,沃森和克里克发表DNA结构的同一年,米利亚姆修女在索邦大学(La Sorbonne,巴黎大学体系的一部分)发表了她的研究成果。这是继居里夫人之后,第二位妇女走上这个法国最高讲坛。2002年,米利亚姆修女以将近89岁高龄去世。

    科学的历史上充满了重复发现现象:自然选择、氧气、海王星、太阳黑子……两个、三个甚至四个重复的独立科学发现同时出现。

    1963年,两个研究团队几乎同时发现了人类存在第二个DNA的重要事实。一个团队在显微镜里看到线粒体,形状像豆子的组织,在细胞里提供能量;另一个团队把肠子煮成浓汤之后提炼出线粒体。两个团队都发现,线粒体有自己的DNA。19世纪,DNA的发现者米歇尔并不知道有两个DNA,他以为DNA的唯一住所是细胞核。

    现在看起来,当时科学家们对线粒体DNA的解释非常幼稚可笑:这些DNA是从细胞核“借用”的DNA,但是用完之后没有归还给细胞核。

    生物科学的历史,总是被不断改写。3年以后,1966年,一位美国女科学家对线粒体DNA作出了颠覆性的解释。

    1966年,琳·马古利斯(Lynn Margulis,1938-2011)在她的论文中彻底颠覆了人们对线粒体DNA的好奇心,把人类的视野推向了一个全新的高度。马古利斯认为:动物——植物——菌类都起源于原生生物,生命不是通过互相战斗而是通过互相协作占据了整个地球。

    马古利斯认为,地球上所有的生命都分享某些基因,我们所有生命都是地球上第一个微生物的后裔。很久很久以前,一个大的微生物吞下了一个小的微生物,不知道经过多少世代之后,双方形成共存模式:大微生物不再生产能量,只是提供庇护和原料营养,小微生物则负责用氧气生产高辛烷值的“燃料”能量。

    正如哲学家亚当·斯密(Adam Smith,1723-1790)当年的预测:这种生物分工形成互惠互利的关系,双方失去对方都会导致死亡。

    这就是线粒体的起源。

    马古利斯的理论已经完全超越历史上所有的传统生物学家的梦想,也得到越来越多的来自各个学科的证据支持。线粒体DNA的存在,只是内共生学说的证据之一。

    但是,人们对这个理论的接受,却并非一帆风顺。马古利斯的这篇文章曾经被大约15家杂志退稿,最终发布以后,很多科学家拒不接受这个理论。他们每一次攻击马古利斯,马古利斯都拿出新的一系列证据予以反驳。双方阵营的辩论规模越来越大,对手们批评马古利斯的理论虽然完美,唯独缺乏证据。越来越好斗的马古利斯干脆对观战的无数听众直接发出呼吁:“这里有生物学家吗?有没有分子生物学家?”她伸开双手大笑着问道,“是的,我知道你们讨厌这个(内共生学说)!”

    马古利斯说对了,生物学家们确实讨厌内共生学说。

    这场争吵持续了十几年,直到1980年代发明新的扫描技术之后,人们终于发现,线粒体里存放的DNA不是长长的线性的染色体(动物和植物都是线性的长形的DNA),而是环形的DNA——只有细菌才是环形的DNA染色体。线粒体确实是一个古代细菌。

    线粒体里有37个类似细菌的蛋白,它们的A-C-G-T序列与细菌非常相似。马古利斯预测的证据找到了,科学家们甚至找到了线粒体DNA的活着的亲戚,例如伤寒细菌(typhoid bacteria)。(在34.65亿年前的岩石中发现过一个类似微生物的多单元细丝(A microbe-like cellular filament foundin 3.465 billion year old rock),这是地球生命起源于35亿年前的证据之一)

    各种证据接踵而来,反对者们被批驳得哑口无言。马古利斯的理论不仅解释了线粒体,还帮助理解了地球生命的深奥秘密——为什么在生命发生之后,演化的速度达到失速的状态。没有线粒体的推动,原始的生命不可能演化为高等生命,直到出现人类。

    我们不知道原始的生命元素来自哪里?也许在海洋底部的火山口,也许在外太空。天文学家已经发现外太空星际尘埃中漂浮着多种氨基酸,化学家也测算出DNA的碱基可以在空间形成。外界环境的恶劣,反而导致更加复杂的分子的形成。有的科学家认为,也许是彗星带着这些原始生命元素落入了海洋。它们组合和演化的过程非常缓慢,不知道经历了多少年。也许很多年里根本没有什么演化,只是处于一种蓄势待发的“孵化”状态。

    所有生命的共同起源出现之后,很短时间就分化了。不同的生命,采取了不同的消费能量的模式。原始的微生物,可能仅仅需要2%的能量复制和维持DNA,但是要花费75%的能量用于蛋白质制造DNA的过程。所以,如果一个微生物能够找到另一个寄生的微生物负责生产能量,则是一个意义巨大的进步。这样,简单的生物很快就会演变成极其复杂的多功能的新生物——线粒体,可以使细胞生产DNA的能力激增20万倍,这在过去的演化史上几乎难以置信。

    马古利斯的理论,撕开了演化史中黑暗的内幕:人类根本不需要那么多营养。

    线粒体DNA的真相,为科学打开了一个新的世界。人类正是利用它最后追寻到了17万——20万年前的“夏娃”。

    马古利斯的威望日盛,她的理论使得达尔文和孟德尔的理论成为“配角”,有人称其为新达尔文主义。马古利斯认为,各种生物都是合成的,例如美人鱼、斯芬克斯等,虽然目前还没有证据。马古利斯得到了两个对立阵营——激进的和保守的生物学家们共同的赞美,因为这种理论包罗万象、极其完美,引起了各种新的研究和探索,各种观念都已经或正在发生变化,例如人们现在认为生命不应该用名词Life,而应该用动名词Living。

    动物细胞线粒体DNA是圆形的

    更加重要的是,这个理论改变了人们对人类——地球——生命的认识,改变了对宇宙的认识。我们必须控制发展、保护环境,走可持续发展、绿色能源的道路……

    人类还发现,原来的生物分类的思考方向也错了,至少并不全面。地球的生命类型如果从利用二氧化碳和氧气来区分,可以分成两大类:

    换句话说,人类原本就是“寄生类”生物,更不应该打破这种生态平衡。最近一万年来,过度贪婪的农业文化不仅正在打破这种生态平衡,甚至改变了大气温度和地球环境。如果继续向地球无限制地索取,向大自然的整体生态系统挑战,人类最终的失败将是毫无疑问的。

    地球上的所有生命,都有一个共同的微生物的先祖,如下图所示:

    这是一棵生命树,所有的生命都是地球上第一个微生物的后裔。人类属于异养生物,必须依赖食用其他植物、动物和菌类等才能生存。

    国际专家曾经多次组织研究小组,确定了若干个对人类生存至关重要的“地球生命支持系统”,并对目前人类的消耗水平和系统的“临界点”进行了量化和评估。科学家们警告:一旦这些临界点全部或大部分被突破,人类生存环境将面临不可逆转的变化。

    这些地球生命支持系统包括但不限于:
    海洋酸化 臭氧浓度 淡水消耗量
    生物多样性 氮磷循环 土地使用率
    二氧化碳浓度 气溶胶浓度 化学污染

    大自然不遵守大自然法则

    1909年,一个农民带着一只鸡来到位于纽约长岛曼哈顿的洛克菲勒大学(Rockefeller University)。这所大学当时名称为Rockefeller Institute,是石油巨头洛克菲勒捐赠创立的私立大学。这所大学先后诞生了24位诺贝尔奖获得者。

    这只鸡病了,它的右侧胸部长出可疑的肿瘤。当时这种肿瘤正在肆虐美国,很多农民因为可能损失养鸡场而焦虑不安。

    佩顿·劳斯(Peyton Rous)负责诊断这只鸡的肿瘤。他没有治疗这只鸡,而是杀死这只鸡,提取出含有肿瘤细胞的液体。劳斯估计,肿瘤细胞里可能含有某种微生物。他把这种液体注射到另外一只鸡的胸部,第二只鸡很快也出现了肿瘤。

    劳斯继续重复实验,六个月里,一个又一个鸡肿瘤出现了。

    劳斯困惑了。他在霍普金斯医学院学习时,知道病毒可以传染疾病,但是肿瘤不会传染。但是他的实验只有一个结论——病毒在传染肿瘤。他无法相信这个荒谬可笑的结果,但是,他还是发表了这个结论。

    劳斯的发现,用现在的术语表达就是病毒通过RNA传染癌症。

    科学界很快忘记了劳斯的这个论文。虽然后来也有人偶尔发现病毒与肿瘤之间的联系,但是其他新发现很快又掩盖了这类发现。但是人们对于病毒的原理也越来越清楚——它们利用细胞制造它们自己。

    1958年,DNA结构的两个发现者之一,弗朗西斯·克里克(Francis Crick)发布了著名的“分子生物学中心法则”(Central dogma of molecular biology)。这个中心法则的主要含义是:DNA制造RNA制造蛋白质(DNA makes RNA makes protein)。

    显然,劳斯错了,RNA病毒重写细胞违反分子生物学中心法则。

    非常遗憾,1960-1970年的一系列发现证明:大自然不遵守大自然的法则——大自然根本不在乎什么分子生物学中心法则。支持克里克的其他诺贝尔奖获得者也都错了。生命的形式绝不是那么简单,那么绝对,那么遵循“大自然法则”。人类对于生命,仍然一无所知。

    例如,病毒的逆反方向翻译和复制也是可能的,HIV病毒就是一个最好的例子。深谙遗传技术的HIV病毒可以熟练地操控DNA,哄骗被感染的细胞把病毒DNA塞进细胞的基因组。也就是说,这些HIV病毒把细胞搞糊涂了,不知道制造的是“他们的”DNA还是“我们的”DNA。于是,HIV这类RNA病毒摇身一变成为人类的DNA,患者的艾滋病(AIDS)于是变得不可收拾——人类的免疫系统搞不清楚马奇诺防线的哪一边是敌军了。

    分子生物学的中心法则(Central dogma of molecular biology)示意图

    很多科学家猜测,在演化历史上,RNA出现的时代比DNA更早。

    1986年,另一位诺贝尔奖获得者沃特·吉尔伯特(Walter Gilbert)首先提出“RNA世界假说”(RNA world hypothesis),因为RNA可以自己制造自己。这个假说得到很多科学家的支持,其中包括另外几位诺贝尔奖获得者。

    这些理论得到了继续演化,地球从RNA世界逐步演化到今天的“DNA-RNA-蛋白质世界”(DNA, RNA and protein world)。在这个新的世界里,结构稳定的双链DNA最终“降伏”了活泼好动的单链RNA,作为自己的信使传播制造蛋白的遗传信息等等。

    荷马史诗不能总是口头流传,必须经由“稳定”的文字记述才能世世代代流传下去。DNA就是荷马史诗的永恒不变的文字内容,RNA多才多艺、声音惟妙惟肖、姿势活龙活现,大家一起保留了历史。

    如果顺序搞反了,细胞制造的就不是原来的DNA,而是病毒的DNA。1909-1911年,劳斯发现的正是这种病毒之一。这些病毒被注射进鸡的体内以后,它们“欺骗”鸡的细胞进入核DNA,然后复制的都是这些病毒的DNA。最后复制速率不可控制,疯狂地增殖形成恶性肿瘤。这种通过病毒传染的肿瘤比较少见,大部分恶性肿瘤的产生源自基因突变的累积。

    劳斯的论文在当时默默无闻,整整55年之后,他的发现才得到各种新证据的证明。这种感染癌症的病毒最后以他的名字命名为劳斯肉瘤病毒(Rous sarcoma virus)。这种病毒正是逆转录感染:先从RNA感染DNA后,再返回来制造蛋白,然后不断繁衍复制。

    当时,劳斯也不明白为什么病毒会传染癌症?他猜测也许病毒释放某种毒素导致癌症。但他坚信自己的研究,他的坚持在55年后得到公认。

    1970年,获奖4年后,劳斯去世,享年90岁。他去世以后,被大批年轻的微生物学家视为崇拜的偶像。劳斯因为一只鸡获得诺贝尔奖,他也是等待诺贝尔奖时间最长的一位科学家——整整55年。

    2000年,人类基因组工程完成以后,生物学家发现:不到2%的基因是编码遗传基因(即编码制造人类的蛋白质);超过8%以上的基因是病毒细菌的基因。

    超过98%以上的非编码基因作用不明,有待继续研究;换句话说,细菌病毒基因数量是人类遗传编码基因的整整4倍以上。所以很多生物学家开玩笑说:“人类基因组工程是不是命名不当?”

    这是怎么回事?

    从病毒的角度来看,殖民到动物的DNA是理所当然的。很多病毒狡猾奸诈不择手段,通过逆转录导致癌症或疾病,例如艾滋病毒(AIDS)。但是,并非所有病毒都是害虫。大多数病毒都心怀慈善、自我约束,绝对不做伤害自己宿主的愚蠢事情。有一些深谋远虑的病毒干脆进入宿主的精子或卵子,随之进入宿主的后代的体内,世世代代存在下去。还有一些无害的病毒,甘当宿主的对敌作战“工具”——宿主可以直接利用它们打击入侵者,它们也便成为人类免疫系统的成员。这个道理其实非常简单:赌场喜欢雇用精明的发牌员,电脑保安公司喜欢雇用黑客高手,因为他们知道如何战胜对手。我们进入农业时代之后,又获得很多其他病毒作为开关,比如放出一些酶,消化各种小麦、玉米等碳水化合物。

    在我们体内,这些病毒、细菌、原生生物基因无处不在,操控着人类演化的方向盘,它们构成的无数开关和调节器控制着人体的活动和大脑的思维。

    基因的变化并非只有这些:人类DNA的大约一半是机动DNA(mobile DNA)或曰跳跃基因(jumping DNA),有的转位子基因(transposon,又称Transposable element)的长度甚至达到300个碱基。这些基因的位置和功能是可以转换的。首先发现这些基因特性的芭芭拉·麦克林托克(Barbara McClintock,1902-1992)最初不被人们接受,直到32年之后,她才得到承认。1983年,麦克林托克获得了诺贝尔奖。

    那么病毒细菌基因是否仅仅占人类基因组的8%呢?现在还不清楚。很多科学家承认:“我们对于我们人类这一物种的整体认识,可能都错了。”

    地球是一个活的超级生物体

    在古希腊神话中,最高的神明是盖亚(Gaia)。我们必须了解盖亚理论,才能理解生命的起源和人类六万年的旅程。
    在希腊语中,盖亚(Gaia)是地球女神或地球的拟人化,她是所有生命的起源,她是所有提坦(Titan)和巨人的母亲,也就是说是地球孕育了生命。因此,盖亚也被西方人用来代称地球。
    首先,我们看一看两个问题及其答案:

    上面两个问题及其答案,互为依存,互为因果。这是古希腊柏拉图时代提出的问题,这也是现代科学理论——盖亚理论(Gaia theory)的由来。即地球上的生命本身产生了巨大的反馈,确保了自身的生存条件。

    现在,让我们看一看地球旁边的两个星球——金星和火星的条件。金星比地球靠近太阳,火星比地球远离太阳,但是地球两边的这两个星球都不适合生命存在。

    地球上的这些“生命存在的条件”都是生命体系在几十亿年里自己创造出来的。

    那么,生命是什么?
    生命是地球生命的集合,是所有地球上生物的集体行为,从最小的细菌到最大的哺乳动物,都在协同维持地球的最佳环境。换句话说,地球生命的活动,正是为了确保自己的生存。

    盖亚理论设定地球为一个完整的整体,一个超级生物体,维系着地球上所有生命形式的存在。盖亚理论强调了一个事实:我们所有生命都是互相关联的,每一个物种的生存都与我们自己本身的生存息息相关,任何一个物种的灭绝都会给地球带来灾难。

    20世纪后半叶,我们见证了对于地球的理解的不可思议的大飞跃。

    地球的地壳构造板块

    1910年代,魏格纳(Alfred Lothar Wegener,1880-1930)提出了不可思议的地球大陆板块漂移学说。这个理论经过很多学科的共同研究,最终得到确认。(大陆板块漂移说另一个发现者,是赫斯(Harry Hammond Hess,1906-1969))
    1960年代,詹姆斯·洛夫洛克(James Lovelock,1919-)最早归纳整理出盖亚假说。这个假说认为地球是活的。

    1979年,洛夫洛克正式发表盖亚假说。假说认为地球的物理——化学——地质——生物过程都是互动的,生命和非生命组成了地球。“盖亚”是温和的、多产的,也是无情的。洛夫洛克提出地球处于一种动态平衡状态,维持相对稳定的条件,地球本身就是一个生命体——大气层、海洋、陆地、生物圈等构成太阳系里的一个有机组织。洛夫洛克把这种观点叫作地球生理学(Geophysiology)。这种观点,其他星球也同样适用。

    1965年,洛夫洛克在美国航天局(NASA)参与寻找火星的生命时,产生了“存在盖亚”的思想。当时,他被要求提出一些“其他星球可以存在生命的假设”,他提出的其中一个假设是大气层的化学平衡:如果一个“死”星球的大气层是化学平衡的,也就是说,如果所有可能发生的化学反应已经发生过了,那么,这个星球的大气层的气体是相对惰性的。换句话说,如果生命存在于某一星球上,这个星球的大气层就不是平衡的,化学反应会非常活跃地持续进行。根据这个假设,洛夫洛克和他的美国航天局团队研究了火星和金星上的大气成分,发现这两个星球上的大气层主要由通常不再进行化学反应的二氧化碳构成,它们分别占火星和金星大气层的95%,所以这两个星球是“死”的。但是,地球的大气层与众不同,属于不稳定的多种气体的混合,所以,在地球上可能存在生命。而事实上,我们地球确实存在生命。

    “地球是活的”这个理论曾经使很多科学家感到非常苦恼,但是,仅仅20年后,盖亚假说就得到承认。虽然盖亚假说还要接受时间的检验,但是已经颠覆了我们对地球的认识。

    洛夫洛克在他的第一本书的第一章结束时写道:
    如果盖亚是存在的,她和人类的关系就是非常重要的,因为人类是这个复杂的生命系统中占据支配地位的动物物种,有可能左右各种力量之间的平衡……

    有的人喜欢在地球上走路,有的人喜欢站在地球上,有的人喜欢凝视着地球,他们都为地球上承载的如此绚丽多彩的生命而惊叹不已……盖亚假说为“人类为什么出现在地球上”给出了一种思考模式——与大自然是一种冷酷无情的不可战胜的力量的悲观观念相比,盖亚假说给出了另一种选择……

    但是,盖亚假说也给出了同样令人沮丧的另外一幅画面,因为这个星球似乎像是神经错乱的一艘宇宙飞船,围绕着太阳的内核在永不停息地飞行着,既无人驾驶,也没有目标……

    这就是盖亚假说的来由,这个过程也告诉我们科学家是如何思考和研究的。

    地球大气成分不是化学平衡的,但是仍然维持着一种稳定状态,说明地球大气层存在某种形式的行星调节机制。洛夫洛克猜测,可能生命本身维持着大气层的成分,后来他把这一概念拓展到涵盖气候——岩石——空气——海洋的整个体系,这个体系形成了一种自我调节过程。

    (1979年洛夫洛克出版了《盖亚:对地球生命的新看法》(Gaia: A New Look at Life on Earth),这是洛夫洛克出版的“盖亚理论”的第一本书。他出版了多部著作,如:
    Lovelock, James.
    Gaia: A New Look at Life on Earth.
    Oxford University Press, Oxford, England.
    洛夫洛克的这个观念,其实并非全新的观念。)

    世界著名的“地质学之父”詹姆斯·赫顿(James Hutton,1726-1797)最早提出“地球是活的,地球是一个超级生物体”这一观念。

    1974年,在洛夫洛克发表他的盖亚理论之前,另一位医学博士兼著名作家刘易斯·托马斯(Lewis Thomas ,1913-1993)在他的著名随笔《一个细胞中的生命:一个生物学观察者的笔记》(The Lives of a Cell:Notes of a Biology Watcher)里写道:

    如果在遥远的月亮上观察地球,就会吃惊地发现地球是活的。月亮的表面是干巴巴的,四处坑坑洼洼,就像一块干枯的骨头。在月亮的上方,正在自由自在地升起一个潮湿的、亮闪闪的地球,蓝色的天空就像是地球的细胞膜,这是宇宙中仅有的一个星球。如果再仔细观察,就会看到巨大的白云形成的涡旋,覆盖了大约一半的陆地。如果你以一个地质学的时间跨度观察,就会看到各个大陆本身也在移动,好像一些内在充满热情的外壳板块。地球是一个有机物,本身就像一个活着的生物,满载着信息,被太阳熟练地操控着。

    刘易斯·托马斯进一步写道:
    我曾经试图假想地球是一种有机组织,但是它不是,地球更像是一个细胞。

    这个令人震惊的理论让我们知道,所有生命形式都是内在关联的,都对与每一个人、每一个生命息息相关的环境的维持作出了贡献。是所有生命的行为的总体协同构成,帮助地球维系着一种令人惊异不已的“活的星球”的环境质量。

    我们人类曾经认为自己是地球上的特殊物种,真正的智慧物种,神造的物种。但是,盖亚理论打开了我们的视野,揭示了地球的真相:我们人类和所有其他生命,都是地球这个超级生物组织的组成部分之一。

    这一事实使我们认识到,无论我们的科学和技术如何绚丽夺目,我们仍然被包裹在这个超级生物组织——地球之内,不论我们是否情愿,我们仅仅是比我们更加伟大的世界的一个部分。

    如果说,地球上存在着真实的生命,这个生命就是地球本身。其他所有生命形式都是转瞬即逝的。假设我们坐在外太空的一把椅子上,观看地球围绕太阳运转,能够看到生命吗?假设我们以六万年为尺度观看地球生命,1分钟等于1 000年,能够看到生命吗?我们看不到连续存在的任何一个生物,包括人类,所有人都转瞬即逝,迅速消失于无形。只有唯一的一个生命体持续存在,那就是地球。

    只有地球,六万年里始终支持着所有生命形式的活动,化学的和物理的形式的活动。天空、湖泊、海洋、山脉、花朵、小鸟、大型哺乳动物、你、你的朋友、整个人类都是活生生的地球的组成部分而已。我们所有人的贡献,只是维持这个地球生命的可持续发展。这个世界上的一切都是互相依存的。根本不存在什么至高无上的概念。在“地球盖亚”面前,所有的生命都是平等的,都是地球的一部分。

    不论“有机组织”“细胞”还是“超级生物体”,都仅仅是语义表达的差异。从哲学角度,盖亚理论的关键在于:地球是一个单一系统,设计合理,自我调节,物理、化学、地质、生物的力量综合互动,作为一个完整的整体维持着来自太阳的能量输入,和散发到外太空的能量输出之间的平衡。

    地球的基本配置正是调节能量流量和物质循环:

    盖亚假说的“地球作为一个单一的系统而行为”的理念带给我们全新的警示:
    这个星球上的所有事情都是相互关联的,人类的行为处于一种全球过程中。我们不能继续认为地球上距离遥远的事物与己无关,我们不能继续认为这个星球上的某一行为是独立无关的。这个星球上发生的每一件事情,无论砍伐树木还是植树造林,无论增加还是减少二氧化碳排放,无论开垦耕地还是退耕还林,都会影响整个星球。

    甚至微观生命系统的设计也是极其精妙的。2008年,美国《科学》(Science)杂志发表了一篇在肯尼亚实验保护金合欢树的研究论文。实验将一半金合欢树用栅栏围住,阻拦大象和长颈鹿等食草动物,另一半完全放开,放开的金合欢树将承受着极大的来自食草动物的压力。实验结果与人们的预测完全相反,被大象和长颈鹿蹂躏的金合欢树郁郁葱葱,而被保护的金合欢树却越来越虚弱、濒临死亡。

    研究发现,金合欢树有一种防卫体系,其中包括一种特殊小蚂蚁。金合欢树分泌含糖汁吸引和滋养这些小蚂蚁,被栅栏保护以后,树不需要自我保护,就停止分泌含糖汁,这种特殊小蚂蚁也不来了,换成另外一些蚂蚁品种,其他昆虫和害虫乘机攻击这些金合欢树,于是它们日益衰败。这个简单的例子说明,在一个相对容易了解的生态体系里,每一种生物组织的交互关系都是错综复杂、难以预测的,当我们试图对某一元素修修补补的时候,就存在着其他关联元素的后续效应风险。

    如何理解“地球是活的”这一概念呢?首先,让我们看看科学家如何理解生命。

    物理学家定义生命是一个局部减少熵的系统(生命与熵的战斗)。从分子生物学家的角度来看,生命是复制DNA达成生存并根据周围环境的改变而演化以达成最佳生存。生理学家认为,生命是一个生物化学系统,利用外来的能量而生长并重复生产。

    对于地球生理学家(Geophysiologist)洛夫洛克来说,生命是一个向物质和能量开放的系统,同时维系着一种内在的稳定状态。

    加利福尼亚州的红杉(S e q u o i a gigantea)是生命的最好注解。这些巨树生长在树丛里,高度达到100米以上,寿命超过3 000年。红杉97%的组织是死的,主干和树皮已经死去,只有主干外表的细胞部分是活的。红杉的主干类似地球的岩石圈,只有岩石圈外表薄薄一层生物圈是活的。红杉的树皮类似大气层,保护着这层生物圈,并且进行生物学意义上非常重要的气体交换——二氧化碳和氧气的交换。
    毫无疑问,红杉总体上是活的生命,我们不能只把红杉的外层称为红杉,其余部分视为死的木头。

    地球的很大一部分可以视为“非活的”(岩石圈),但是这些“非活的”地球部分也是生命过程的某种延伸,所以地球是活的,就像红杉。为了更好地理解地球的“生理”,我们对比一下人的体温和地球的温度调节机制。

    人体温度维持在摄氏37度,这是大脑、人体组织、外界系统之间反馈的结果。我们的身体发展出提高和降低体核温度的一套感应器系统:如果太冷了,身体就会产生热量;如果太热了,身体就会散发热量。但是,人体的调节能力有限,所以发明了衣服隔绝过热或过冷的温度,衣服使人类可以生存在非常寒冷的北极或者最热的沙漠。

    地球温度调节机制与此类似,但是地球的“衣服”复杂得多。首先,地球对太阳的光线有一种反照率(Albedo),反照率系指星球的颜色、吸收或反射光线的能力,比如沥青的马路和白色的路边小道的反照率就不一样。

    地球调节温度的方式如下:
    黑色区域:例如夏季的山脉、森林、海洋,可以从太阳那里吸收更多的热能。
    浅色区域:例如沙漠、云区、极地冰盖,可以反射更多的热能。

    地球的反照率不是恒定的,其中云团是调节全球温度最重要的因素之一。如果云团较多,从地球反射的阳光也多,地球温度就会下降;如果云团较少,更多的阳光抵达地球表面,地球温度就会上升。

    那么,哪些因素在控制云团的多少?
    控制云团的因素很多,大气层与海洋的互动是最重要的因素。
    海洋占有地球表面的三分之二,海洋上形成的云团是地球温度最重要的一个因素。
    最近几十年里,人类刚刚搞清楚海上浮游植物,尤其是coccolithophorids的云团冷凝核(cloud-condensation nuclei,CCN)机理。云带来雨是众所周知的常识,但是谁也不知道云在海上是如何产生的。

    人们通常认为,阳光的热效应使海水蒸发成为云。其实,还有更重要的原因。大批小小的绿色浮游生物始终漂浮在海面上,它们的生命循环的一部分就是向大气中排放硫。正是这些硫分子“鼓励”水分子凝聚在一起形成云升上去,再形成雨滴降落下来。水蒸发到大气层之后进行浓缩和冷凝,但是,构成云团还必需一些小颗粒作为“核”来聚集水分而形成小水滴。这些小小的颗粒叫作云团冷凝核,存在于大气层里,它们形成了云团。这种物质叫作二甲基硫(dimethyl sulphide,DMS),也来自海洋中的浮游生物。近年的研究已经定量地确认了这些海上浮游生物如何排放二甲基硫进入大气层,然后如何形成了云团。也就是说,这些海上的小小绿色浮游生物群体不仅帮助形成云,还帮助形成雨,它们对整个地球的温度调节做出了巨大的贡献。

    这些小小的单细胞生物是地球的恒温器:太阳光线比较强烈——浮游生物加速繁殖——产生大量二甲基硫——产生更多云团——云团遮挡阳光——降低地球温度——浮游生物繁殖减速——云团减少——阳光增加——地球温度升高——浮游生物再次加速繁殖……如此循环往复,地球的温度得以保持稳定。

    这是盖亚理论中生物圈影响大自然(调控地球温度)的一个典型例证。

    地球的岩石圈、大气层、水圈、生物圈构成了一个和谐的、有智慧的、有哲理的、富有诗意的整体。地球是一个活的生物组织,生物、地质、化学、水文学的过程都是关联的。

    这个机制,诞生了“生物地球化学循环”(biogeochemical cycles)这个新名词。也就是说,地球的物质和化学元素必须出现物理的循环,如果这些物质和化学元素固定不动了,这个体系就停滞不变了,地球就会变得像月球一样死气沉沉。

    最常见的生物地球化学循环是碳循环——氮循环——硫循环。这些元素的不断循环是活的生物组织的关键所在。大量的物质被活的生物组织消耗——转换——运送——再循环……这种生物组织控制的行星过程,使我们相信盖亚假说。大量证据出现以后,盖亚假说被称为盖亚理论。盖亚理论带来了哲学性的科学性,引发很多新的思考甚至新的学科,例如行星生物学(Planetary Biology)。

    事实已经证明,地球的物理、地质、化学、生物过程确实是互相依存的。这种动态平衡与人体内的动态平衡概念类似。海洋和河流是地球的血脉、大气层是地球的肺、陆地是地球的骨骼、生物组织是地球的感官……对盖亚理论的研究似乎像研究一种“地球生理学”。

    如果我们把大约46亿年的地球视为一天:
    04:00:生命出现,厌氧生物。此后进展缓慢
    20:30:出现第一批海洋生物,不久出现水母
    21:04:出现三叶虫等复杂的海洋生物
    22:00:陆地出现植物,接着出现动物
    22:24:陆地被森林覆盖,成为今天的煤炭
    23:00:恐龙出现,统治地球约40分钟后灭绝,哺乳动物的新生代开始
    23:58:43:人类出现,至今已有1分钟17秒的漫长的进化历史

    洛夫洛克和马古利斯认为:因为地球是活的,所以生命不是名词Life,生命应该是动词或者动名词Living。这个用词的变化,意义非常深刻。

    反对这种“活的有机组织”观念的最主要论据是地球不可再生,而活的有机组织都是可以复制并把自己的遗传信息传承给后代。但是,生命正是盖亚诞生的,人类也正是盖亚诞生的,而所有这些生物都是可以再生的。

    盖亚理论,无所不包,无法反驳。
    盖亚理论最有意思的延伸之一是这一种理论转换成为多种理论。这种现象在科学领域的历史上极其罕见,说明盖亚理论蕴含的勃勃生机。盖亚理论正在向各个科技领域不断延伸拓展,每一个科学家及其信仰都受到巨大冲击。
    盖亚理论现在已经得到公认,虽然仍然有少数人质疑这套理论,但是所有的反对者也都一致承认:生命确确实实影响着这个行星的各种体系的过程。

    盖亚理论公认的两位创始人中,另一位创始人是美国女生物学家琳·马古利斯(Lynn Margulis),她第一次提出“生命或生物圈调节和维持气候和大气层的成分以维持其最佳状态”。这个解释,与洛夫洛克不谋而合。

    马古利斯出版了很多论文和著述论述生命的起源,在世界科学界引发了一场又一场大辩论。最后,马古利斯赢得了胜利,世界的生物分类也作出了如下的改变:动物和植物两界,扩展为三域五界,外加病毒。

    马古利斯和她儿子联合出版了24本论著,揭示的事实佐证了洛夫洛克的理论:35亿年前,地球出现第一批微生物厌氧菌,它们吃下二氧化碳,吐出“毒气”氧气,导致地球早期大气层出现戏剧性的变化。氧气的出现彻底改变了地球的物理——地质——化学——生物过程,地球与邻近的金星和火星变得完全不同了。这些厌氧菌的一部分后裔,演化为具有光合作用的有机组织——植物。25亿年前,地球出现第二批微生物,好氧菌们吃下氧气,吐出“毒气”二氧化碳。厌氧菌演化为植物,好氧菌演化为动物,分解植物和动物尸体的是菌类和细菌。

    马利古斯告诉我们,所有生命来自一个起源,至今使用着同一套生命系统:DNA——RNA——蛋白质系统。所有生命都是互惠互利——互相协助——共同演化,最终形成覆盖在地球表面的一层生物圈。DNA的结构都是一样的:基因存贮在DNA里。

    人类的DNA太长了,大约2米,很难存放和复制,于是被 “切割”成46个片段(其他生命的染色体数量不一),人类每个细胞的细胞核里都有一个染色体组(基因组)。过去认为人类约有100万亿个细胞,所以一个人的染色体DNA长度约为200万亿米,即2 000亿千米。地球到月球的距离38万千米,亦即一个人的DNA总长度可以在地球——月球之间来回53万次。现在的新研究认为,人的细胞数量大约为1亿亿个,这是原来估计数量的100倍,现在已经很难估算一个人的DNA的总长度能够在地球——月球之间来回多少次。

    如此复杂的DNA存储器,可以存放非常复杂的遗传信息和生命程序——基因。在长达35亿年的时间里,地球生命的演化过程跌宕起伏,多次经历盛衰兴亡,除了5次著名的大灭绝之外,还有十几次小的灭绝事件。但是,DNA既未消亡,也未改变,只是基因(生命的程序及其传承)越来越复杂,多次合并共生使得地球的生命五彩缤纷,欣欣向荣。

    马古利斯的生物演化假说得到了越来越多的证明,考古证据发现地球上出现的生命形式几乎难以计数,至少出现过300亿种生命物种,微生物的种类更是无法统计。很多科学家甚至开始设想,人类如何殖民到另外的星球?他们设想,首先将厌氧菌和好氧菌送到一个合适的星球,逐渐改变这个星球的大气层,形成极地冰盖——植物开始生长——云团出现——反照率改变,从而将这个没有生命的死星球从静止不变的状态转换变化成为一个美丽的、活的、呼吸的、演化的整体。

    这就是盖亚的力量。

    盖亚理论蕴含着富有诗意的丰富内涵,具有重大的指导意义。整个人类开始审视与大自然的关系,提出了保护环境、保护臭氧层、减少二氧化碳排放、防止气候变暖等一系列的新观念和新理论。

    盖亚理论指出了生命的起源,生物科学和DNA的研究结果证明各种生命的起源和演化关系的的确确是息息相关的,人类(以及哺乳动物)的主要能量不是来自每日三餐,而是来自线粒体使用氧气制造的高能ATP能源……

    如果人类违反大自然的规律,对抗DNA中蕴藏的基因,人类不仅会罹患更多的疾病,还会破坏地球的生命存在的条件,甚至再次引发生命的大灭绝。

    结语

    21世纪是生物世纪。
    2000年6月26日宣布的“人类基因组工程”的首要目的是揭示各种疾病的秘密,找到治疗这些疾病的方法,以及查明500多种遗传病的起因……但是,人类对基因的了解刚刚起步,对大自然的精妙设计仍然一无所知。的确,我们非常聪明,研发出各种新设备仪器、新药品、新疗法……试图对大自然赐予的基因修修补补,甚至造出更好的下一代,但是我们必须考虑深远的长期后果。

    仅仅两个世纪之前,我们作出开发煤炭、石油、天然气、油砂等化石能源的重大决定,后来发现石油制造的农药和化肥可以增加粮食产量……当时谁也没有预料到,这一决定导致了两个世纪后的人口爆炸、大气变暖、环境恶化等一系列全球性恶果。

    人类与基因组之间存在的最大鸿沟在于:我们完全不知道基因组如何传递进入生物体系;不知道各个基因如何正确地打开和关闭,从而在细胞中进行生物化学物的混合和制造;不知道这些细胞如何懂得构建出一个生理组织,这些生理组织又如何自我协调而成为一个切实有效的有机系统?这个系统如此复杂,在这些不可理喻的总体联合作业面前,人类除了震惊,已经无法理解。

    我们以有限的可怜的遗传基因的修补手艺,试图修修补补的最可能结果,将是失败大于胜算,亏损大于收益,风险无法估量。我们最安全的出路是弥合我们与大自然决裂,解决进入贪婪无度的农业社会至今带来的一系列社会问题。

    2012年9月5日,人们又一次发现自己错了。
    2012年9月5日开始,世界第一大媒体《时代》的一篇报道的题目本身就蕴含认错的含义:《垃圾基因:其实并非无用》(Junk DNA-Not So Useless After All)。这篇报道连续5天占据《时代》网络版头版位置。
    这个消息,也是世界所有媒体的头版新闻。

    2012年9月5日,总计30篇论文同步发表于《自然》(Nature)、《科学》(Science)、《基因研究》(Genome Research)等杂志上。

    这是ENCODE第一次公布研发成果,并且是全球同步公告。

    ENCODE是“DNA元素百科全书工程”(Encyclopedia of DNA Elements,ENCODE)的简称,是从2003年开始,全世界32个研究机构联合进行的一项巨大工程,目标同样是人类基因组。

    2003年,人类基因组测序完成。编码的遗传基因只有2.1万——2.3万个,在全部约30亿个碱基对中所占的比例不足2%。它们是制造人体的全部蓝图和组装手册,包括人体的各种蛋白到每一个生物组织、器官、五官、皮肤、外观等的制造和装备。而其余的98%以上的基因不参与编码,即不涉及人的制造。所以,2003年基因组工程完成时,很多人感到相当失望,“垃圾基因”流行一时。与此同时,很多人也不相信大自然会犯下如此的错误。

    事实上,这里依然是人类知识的荒漠——我们对基因的了解才刚刚开始。

    10年后,2012年9月5日,30篇同步发布的论文告诉大家,在占整个基因组碱基对的98%以上的非编码基因中,80%以上具备生物化学活性,它们不是无用的垃圾,它们具备人类过去无法想象的功能。这80%DNA中包括400多万个基因开关(gene switches),每个细胞都能通信联络。这80%DNA中隐藏的指令,虽然不参与人体组织和蛋白的制造,但是却控制着我们的人生,例如大脑神经元的生长、吃肉以后指令胰腺分泌胰岛素、下令某些皮肤细胞死亡的同时产生新的皮肤细胞……这些DNA指令就像一场不可思议的人生舞台设计的全套剧本,具体到每一个演员(细胞)的出场和每一个舞蹈动作。参加这场人生演出的“演员”,过去只有DNA、RNA和蛋白,现在,各种新陈代谢因子和精巧绝妙的设计也参与了进来。科学家们已经无法用语言向纷至沓来的记者描绘这些新发现……

    “DNA元素百科全书工程”不仅打开了疾病治疗的新大门,也对人类进化有了更多了解——我们的头发与脚趾甲,到底是怎么生长的?我们的基因组,难道一直在操作着这些生长?现在科学家可以了解“何时”与“何处”的基因开关表达,直到整个人体的全部功能,这是错综复杂到不可思议的一场人生舞台表演。

    人类基因组工程之后,科学家已经从基因组里找到心脏病、糖尿病、精神分裂、孤独症等疾病的线索,但是还有几百种疾病的线索找不出来。现在,科学家终于可以在更加扩大的非编码基因范围里寻找新的线索。科学家们现在已经可以说,他们找到了以前无法完全理解的基因影响疾病的更多线索。

    人类曾经犯过很多错误,但是最后都发现了真相,纠正了错误。

    17世纪,伽利略提出“日心说”推翻了教会权威努力维持的地心说,证明我们不是宇宙的中心,告诉我们必须以开放的心态对待那些反对“历史事实”或“历史实践”的思想。

    英国和法国建立科学社会的办法是建立各种论坛,自由讨论科学方法——自然界所遵循的各种规则,构成了大自然的法则,这些大自然的法则是可以被发现,也可以被检验的。牛顿是把这些法则整理成为一个体系的第一个人。

    20世纪唯一可以与牛顿相比的是爱因斯坦,他在1905年发表的相对论否定了绝对时间的存在。起初人们认为相对论太过抽象,没有实际用途。但是根据爱因斯坦相对论中质量与能源相互转换的理论,人们制造出了原子弹。
    伽利略认为我们不是宇宙的中心。
    牛顿是把自然法则整理为体系的第一人。
    爱因斯坦否定了绝对时间的存在。
    科学技术的发展历史一再证明,人类必须向新的理论开放。

    幸存的物种,
    不是最强大的,
    也不是最聪明的,
    而是最能适应变化的。
    ——达尔文(达尔文从来没有使用过“进化”一词,他认为进化意味着进步)

    从希腊时代的早期起,哲学家的工作就是提出问题和思考问题,现代公认的最伟大的两个提问者是弗洛伊德和达尔文。

    弗洛伊德(1856-1939)是第一位科学地研究潜意识的人。通过生理学的方法,他研究了病人自由思想时所表达的含义,得出结论:人的行为直接联系其童年时代的经验或被压抑的性幻想的潜意识记忆。这个结论震撼了世界,过了仅仅几十年,就成为现代文化的内核,也解释了人类如何从2 000人左右的小小群体成为地球的霸主。

    达尔文的理论,经过一百多年的反复验证后才被接受:所有生存的和消亡的物种都是自然选择的结果。在认识达尔文理论的过程中,人类犯了无数错误。

    这些历史给整个人类的最大的教训就是:我们必须向所有新的理论开放,因为新的理论可能被新的事实证明。

    附录

    附录1 人类20万年的旅程图

    现在的各种人类旅程路线,正在越来越详细。人类找出自己的来源,找出先祖,找到自己的根是一个长期的理想。而这个理想,随着越来越先进的测序设备和软件的发展正在逐步实现。经过大量采样和多次重复DNA测序,可以找到每一个体的DNA序列,从而推断这个个体所属的单倍群。

    基因图谱工程采集的世界样本数量世界第一,所以绘制出的人类20万年以来的旅程路线最有权威性。这里列出11张美国国家地理网站公布的人类旅程图,能够更加详尽地解释人类走出非洲之后的路线。

    20万年前,人类刚刚诞生。非洲以外,只有早期走出非洲的亚洲直立人、欧洲尼安德特人等其他人科动物
    6万——5.5万年前,第一批人类走出非洲,走得最远的一群抵达澳大利亚
    5.5万——5万年前,CF非洲,进入欧亚干草原,他是欧亚的“亚当”
    5万——4.5万年前,一批又一批人类沿着“撒哈拉通道”走出非洲,抵达中亚——亚洲东部和印度等地。欧洲尚未出现人类,欧洲当时没有尼人了,尼人是与现代人同时再次进入欧洲的
    4.5万——4万年前,亚洲和西伯利亚遍布人类,一批人转头从中亚向欧洲走去
    4万——3.5万年前,欧洲的人类最远已到西班牙,巴斯克语言出现。从伊朗高原到欧亚干草原的人类非常活跃,部分人类向南进入印度和东南亚
    3.5万——3万年前,欧洲尼安德特人和克罗马农人混杂居住。6万年前的第一批人类也进入亚洲东部
    3万——2.5万年前,冰河期高峰,人类抵达白令海峡边,但是无法跨越。欧洲出现洞穴壁画,尼安德特人灭绝了
    2.5万——2万年前,冰河期高峰,出现欧洲洞穴壁画、南非最著名的阿波罗11洞穴遗址、欧洲多次文化遗址
    2万——1.5万年前,冰河逐渐消退,多批人类进入美洲,很快抵达中——南美洲,其中包括6万年前第一批走出非洲的人类
    1.5万——1万年前,纳图夫文明出现,世界最早的城市耶利哥出现,美洲多处著名遗址、欧洲最著名的几个洞穴壁画——世界文化遗产出现。日本诞生绳文文化,楚科奇人在白令海峡的亚洲一侧定居

    附录2 主要单倍群简介

    全世界的人类都属于一个单倍群,一个先祖氏族。这个氏族的单倍群遗传标记使我们可以研究迁移到世界各地的人类。人类群体可以通过遗传形态的计算分析出不同的单倍群。下面列举主要单倍群及其早期旅程,包括线粒体DNA与Y染色体单倍群。

    附录2.1

    线粒体mtDNA单倍群

    线粒体DNA的全球迁移图,最常见的单倍群分布如下:
    非洲:L=L1,L2,L3
    近东:J,N(N包括在A,B,F,H,I,J,K,P,R,S,T,U,V,W,X)
    欧洲:J,K,H,V,T,U,X
    亚洲:A,B,C,D,E,F,G,M(M包括在C,D,E,G,Q,Z)
    美洲:A,B,C,D和少量的X

    单倍群L1/L0

    先祖血统:“夏娃”→ L1/LO

    考古学和化石证据认为人类大约20万年前起源于非洲,但是直到5万——7万年前才显示出现代智人的特征。

    线粒体夏娃是人类谱系树的女性先祖的根。夏娃的早期的后裔,在非洲之内的各地活动,最后分为两个血统,分别携带不同的突变。比较古老的一个群体定义为L0,线粒体树最早的一个分支。现代的所有人类都属于这个L0群体的不同的关联分支,亦即L0是最古老的一个血统。更为重要的是,现代遗传数据研究证明,属于L0的原住民全部存在于非洲地区,这个证据进一步支持人类起源于非洲的结论。(几乎所有2万年以前的现代人遗骸都出土于埃塞俄比亚及其周围,只有极少几个出土于非洲南部。埃塞俄比亚及其周围也是其他人科生物化石出土最多的地区)

    此后,线粒体夏娃的后裔又构成另一个群体L1,与较早出现的L0同时存在于非洲。L1的部分后裔最终离开非洲,L0的后裔始终全部在非洲。

    单倍群L0

    可能在10万年前起源于东非一带。经过几万年的迁移,他们的早期先祖曾经在撒哈拉以南的非洲游荡。

    现在,L0频率最高的群体是非洲中部的俾格米人(Pygmies)和非洲南部的科伊桑人(Khoisan,常称桑人)。

    L0的频率,在非洲中部——东部——东南部为20%——25%,在非洲北部——西部较低。

    2 000-3 000年前的班图人大迁移过程中,铁器从非洲西部传播到非洲其他地区,土生土长的L0被同化或取代了,这使得L1的后裔在非洲中部、东部的频率显得比较高。在大西洋奴隶贸易时代,很多古老的血统离开了非洲大陆,美国的很多L0的后裔的线粒体DNA与莫桑比克人相同。

    总体上,北美洲和中美洲的频率分布与非洲的西部和中西部惊人地接近,证明他们起源于非洲。

    南美洲的L0的频率,接近非洲中西部——东南部的频率。

    L1的频率,在非洲西部较高,但是L1非常分散,在中部——东部也比较高,在某些阿拉伯群体里也可以找到,只是比例较低,包括巴勒斯坦人、约旦人、叙利亚人、伊拉克人和贝都因人。

    单倍群L2

    先祖血统:“夏娃”→ L1/LO→L2

    L2个体存在于撒哈拉以南的非洲,与他们的祖先L0/L1一样,他们也存在于非洲中部到遥远的南部。L0/L1在非洲东部——南部占主导地位,L2的先祖则向其他地区迁移。L2个体是非洲频率最高,分布最广泛的mtDNA单倍群,分为4个独特的子单倍群:L2a、 L2b、L2c、L2d。其中L2a频率最高的地区是非洲东南部,L2b、L2c、L2d主要分布在非洲西部和中西部。L2d是最古老的,L2b和L2c后来多次分支。

    估计L2群体起源于7万年前的一个母系先祖,最早出现在非洲西部——中西部,其分布非常广泛,使得判断L2的准确起源地区非常困难。L2被认为是班图单倍群的起源,东南非洲的班图人中,大约一半的遗传血统来自L2。2 000-3 000年前的班图族大迁移,使得L2(L1的后裔)在非洲的中部和东部的频率非常高。由于L2频率最高的西非地区是奴隶贸易的主要地区,L2成为非洲裔美国人的最主要血统,频率约为20%。

    单倍群L3

    先祖血统:“夏娃”→ L1/LO→L2→L3

    L3的最近的共同先祖生活在大约8万年前,L3的人群在非洲处处可见。他们是最早走出非洲的现代人,原因可能是气候的影响。大约5万年前,欧洲北部的冰原开始消融,非洲的气候开始变得温暖和潮湿,撒哈拉的部分地区变得适于居住。各种动物开始向北方迁移,L3跟随着好气候和猎物也向北迁移,具体路线不详。

    L3在北非的频率很高,在整个非洲的班图人里也都可以找到L3。一些L3向西迁移到大西洋沿岸,包括佛得角群岛(Cabo Verde)。一些L3继续向北,最后完全离开非洲大陆,他们的后裔在中东人群中占10%,其中两个分支的单倍群走向了世界其他地区。L3是非洲裔美国人的重要单倍群,在美国人中可以找到源于非洲西部的L3的大部分血统,而源于非洲中西部——东南部的L3的频率较低。

    单倍群M

    先祖血统:“夏娃”→ L1/LO→L2→L3→M

    L3的后裔M单倍群离开了非洲,可能通过红海——亚丁湾(Gulf of Aden)一带渡过狭窄的海峡,从东非海岸来到阿拉伯半岛。这是一场长距离大迁徙的开始,M沿着中东——欧亚大陆南部——澳大利亚,最后到达波利尼西亚。M是出现在约6万年前的第一批走出非洲的人类。

    M属于亚洲血统,在阿拉伯半岛东部频率很高,在阿拉伯半岛南部约15%,在Levant(地中海东部)地区不存在,在巴基斯坦南部和印度北部的频率高达30%——50%,在印度河谷以东呈现广泛的分布和更大的遗传多样性,说明携带M的人群是南亚第一批居民的后裔。

    M有多个分支:M1是非洲分支,M2-M6在印度,M7在东南亚南部,M7的两个分支M7a和M7b2分别在日本和韩国。M7在中国南部和日本的频率约15%,在蒙古的频率较低。

    单倍群M1

    先祖血统:“夏娃”→ L1/LO→L2→L3→M→M1

    携带M突变的人群离开非洲走向印度次大陆和亚洲东部时,M1没有向东走,而是返回了非洲。M1包括4个独特的突变,年代都在6万年左右,在东非形成4个分支,最近1万——2万年分离了。

    现在,非洲东部的线粒体血统的20%属于M1,分布横跨红海两岸,占地中海的M血统的大部分,在尼罗河的所有血统中占7%。

    M1在印度和亚洲东部很少见,有趣的是,印度和亚洲东部的M和非洲东部的M1的年代是相似的,所以估计M1是走出非洲后又返回非洲的人群。

    单倍群C

    先祖血统:“夏娃”→L1/LO→L2→L3→M→C

    M分支出来的一批人群进入中亚广袤的干草原:约五万年前,C的第一批成员北上到达西伯利亚,他们中的一些人后来最终进入北美洲和南美洲。

    C起源于里海和贝加尔湖之间的中亚大平原,属于西伯利亚血统,占西伯利亚地区的20%。由于年代久远,在欧亚大陆北部频率较高,被认为是最早定居在这一带的第一批人类。

    C的后裔向四周扩散并迅速南下,进入亚洲的北部和中部,但是频率逐步下降,在中亚为5%——10%,在东亚约3%。向西迁移的C的后裔终止于乌拉尔山脉和伏尔加河,仅为1%,说明早期人类受地理因素影响很大。

    在1.5万——2万年前,适应西伯利亚寒冷气候的C的后裔,跨过白令海峡来到阿拉斯加,现在占北美洲和南美洲的土著的20%。但是,既不清楚他们的具体迁移路线,也不清楚他们迁移了多少批次。

    单倍群D

    先祖血统:“夏娃”→ L1/LO→L2→L3→M→D

    约5万年前,从M分支的另一批人群D单倍群进入中亚干草原——亚洲东部,他们的第一批成员继续向东,最终进入北美洲和南美洲。

    与C单倍群一样,D单倍群也居住在里海和贝加尔湖之间的中亚大平原,属于欧亚大陆东部血统,D的后裔向四周扩散并迅速南下,现在是亚洲东部的重要血统,约占20%。D的频率向西的方向逐步减少,在亚洲中部为15%——20%。

    D是北美洲和南美洲土著的5类线粒体DNA之一。

    单倍群Z

    先祖血统:“夏娃”→ L1/LO→L2→L3→M→Z

    约3万年前,Z单倍群的第一个成员北上进入西伯利亚,开始向亚洲东部的旅程。Z属于西伯利亚血统,居住在里海和贝加尔湖之间,现在约占这一地区的3%。

    Z单倍群向四周扩散并南下进入亚洲的北部和中部,现在约占亚洲东部的2%。但是,Z向其他方向的迁移似乎都失败了。

    当C和D的后裔进入美洲时,Z的后裔没有前往美洲。由于C-D-Z的居住区域相同,也许Z也进入了美洲,但是这支血统在美洲绝嗣了。

    单倍群N

    先祖血统:“夏娃”→ L1/LO→L2→L3→N

    N与M是L3的两个直接后裔分支。M来自第一波走出非洲的大迁移,N来自第二波走出非洲的大迁移。M的路线是通过红海,N的路线是沿着尼罗河,通过西奈半岛走出非洲,因为沿着尼罗河谷地迁移可以找到足够的食物与饮水。这些L3的后裔最终构成了N单倍群。

    N的早期成员离开撒哈拉沙漠的严酷环境,生活地中海东部和亚洲西部,可能当地依然存在着尼安德特人,因为以色列卡巴拉洞穴(Kebara Cave)出土了约6万年的尼安德特人遗骸,说明两种人科生物当时都在地中海沿岸。

    携带N单倍群的突变特征的一些成员组成很多群体,向亚洲——欧洲——印度——美洲等地进发。N被认为是欧亚大陆西部的单倍群,因为在中东和欧洲的几乎所有线粒体血统中都发现了N。

    单倍群N1

    先祖血统:“夏娃”→ L1/LO→L2→L3→N→N1

    N单倍群的地理分布广泛,其后裔N1是德裔的4个犹太血统(Ashkenazi)之一。公元1300年,德裔犹太人约2.5万人,20世纪达到850万人。在非德裔犹太人中,很少见到N1。现在N1的德裔犹太人约80万人,为4个德裔犹太人线粒体中第二大血统。N1也出现在Levant——中亚——埃及人群中。

    单倍群A

    先祖血统:“夏娃”→ L1/LO→L2→L3→N→A

    约5万年前,A单倍群的第一个成员越过西伯利亚,最终来到北美洲和南美洲。A可能起源于中亚高原,然后扩散到亚洲东部几个地区。在美洲土著中第一次发现A,使得遗传学家开始用这个突变研究史前人类的迁移。

    除了极少的例外,A是爱斯基摩人的唯一血统,A也是西伯利亚——阿拉斯加——加拿大的美洲土著的血统,可靠的起源时间约为1.1万年前。这个时间成为一个分子钟,用于估算爱斯基摩人和美洲土著的迁移时间,但是不能用于估算世界其他地方的人类迁移时间。

    单倍群B

    先祖血统:“夏娃”→ L1/LO→L2→L3→N→B

    约5万年前,B单倍群的第一个成员进入亚洲东部,最终来到北美洲和南美洲,以及波利尼西亚的大部分地区。这个B单倍群可能起源于里海和贝加尔湖之间的中亚高原,成为亚洲东部的创始血统之一,B、F、M构成了现在亚洲东部所有线粒体血统的大约四分之三。

    B单倍群向四周扩散并迅速南下进入亚洲东部,现在约占东南亚的17%,约占中国全部基因池的20%,并且广泛分布在太平洋沿岸,从越南到日本,少量存在于西伯利亚土著(约3%)。由于历史久远,频率较高,B被广泛承认是欧亚大陆最早的人群之一,也是南北美洲的5个线粒体血统之一。

    B单倍群的分支之一B4,从东南亚向波利尼西亚扩张。B4积累了在欧亚大陆的突变,最近不到5,000年内扩散到波利尼西亚,其中的一些中间血统出现在越南——马来西亚——婆罗洲,支持B4起源于东南亚的可能性。

    单倍群I

    先祖血统:“夏娃”→ L1/LO→L2→L3→N→I

    I是N的后裔,起源于中东地区,在欧亚大陆北部和北欧地区呈现显著的多样性,所以I的早期成员在旧石器时代的中期可能已经第一次进入欧洲。

    这一波进入西欧的移民潮称为奥里尼雅克文化(Aurignacian culture),他们的工具先进、首饰精美、社会组织也比较复杂。

    他们留下的欧洲血统,在旧石器时代约为10%,在新石器时代约为20%,其余的欧洲血统(包括I)是在旧石器时代中期的2.5万年前进入欧洲的,在1.5万年前的冰河时代后期开始扩散。

    单倍群W

    先祖血统:“夏娃”→ L1/LO→L2→L3→N→W

    W是N的后裔,从中东进入欧洲。与I类似,现在中东的W后裔比北欧的W后裔呈现更显著的多样性,说明W在中东居住更久,积累了更多突变。

    也与I类似,W的后裔是在旧石器时代中期进入欧洲的,他们也参与创造了奥里尼雅克文化(Aurignacian culture)。

    单倍群X

    先祖血统:“夏娃”→ L1/LO→L2→L3→N→X

    X主要有X1和X2两个分支,分布广泛且没有规则。

    X1大部分位于非洲的北部和东部。X2广泛分布于欧亚大陆西部,在欧洲占2%,在近东——高加索——地中海地区比例升高,有的欧洲地区达到10%——25%,扩散时间约为1.5万年前。

    X也是美洲土著的5个线粒体血统之一,但是仅存在于北美洲。5个美洲线粒体血统A、B、C、D、X中,唯有X没有完全出现在亚洲东部,原因不详。

    单倍群R

    先祖血统:“夏娃”→ L1/LO→L2→L3→N→R

    R是N的一个后裔,这个女人又被称为欧亚大陆西部血统的共同先祖,R的频率较高的地区在伊朗——高加索——安纳托利亚(Anatolian,又称小亚细亚,位于土耳其)地区。

    R的历史复杂,起源很早,分布很广泛,属于第二波走出非洲的人类。从中东地区开始,R与她的先祖N一起走过了上万年,凡是发现N的地点和时间几乎都同时发现R。两者的故事很难分辨。

    R的一部分后裔走到亚洲中部——印度河谷,R的另一部分后裔在3.5万年前进入欧洲,成为第一批抵达欧洲的克罗马农人,当时尼安德特人仍然生活在欧洲。R的后裔现在是欧洲最重要的线粒体血统,超过75%。

    单倍群F

    先祖血统:“夏娃”→ L1/LO→L2→L3→N→R→F F起源于里海和贝加尔湖之间的中亚高原,属于亚洲东部创始血统之一。F、B、M构成了现在亚洲东部所有线粒体血统的大约四分之三。

    F是R的后裔,起源于中亚和东南亚。大约5万年前,F的第一个成员进入亚洲东部,然后扩散到整个东南亚,现在占东南亚的25%以上。

    F的多样性在越南最显著,F广泛分布于菲律宾——中国台湾土著——东南亚等太平洋沿岸,最北方延伸到西伯利亚中部的鄂温克人(Evenks),最南边延伸到婆罗洲的卡达赞人(Kadazan people)。在巴布亚新几内亚的某些沿海群体里也发现了F,这个单倍体可能也影响了印度尼西亚人的起源。

    由于F在美拉尼西亚(Melanesia)——波利尼西亚地区的频率很低,不太可能是澳大利亚土著带给他们的,估计是6 000-8 000年前的汉藏语系群体的扩张期间,通过东南亚带到了美拉尼西亚——波利尼西亚地区。

    现在,东南亚——印度尼西亚——美拉尼西亚——波利尼西亚等地的史前历史,还有很多有趣的谜团,有待遗传学家和考古学家解开。

    单倍群pre-HV

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→pre-HV

    pre-HV在红海周围处处可见,广泛分布在近东地区,属于埃塞俄比亚——索马里的共同起源血统,在阿拉伯国家的频率最高。这些pre-HV接近欧亚大陆西部,很多群体生活在非洲东部,这些人可能是后来返回了非洲大陆。与此类似,N和R的后裔也有一些人返回了非洲大陆。

    pre-HV是R的后裔,有时命名为R0,在安纳托利亚——高加索——伊朗地区的频率也很高,在印度——巴基斯坦边境的印度河谷地区也有pre-HV,可能是近东的群体向东方迁移的结果。

    还有一些携带pre-HV的群体进入欧洲成为克罗马农人,形成两个非常重要的欧洲线粒体血统:H和V,时间约为2万年前。这就是名称pre-HV的来源。当时他们人数很少,不断扩大的冰原把他们挤压到西班牙南部、意大利和巴尔干半岛。1.2万前气候开始变暖之后,他们开始向欧洲北方扩张。

    单倍群HV

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→pre-HV→HV

    HV是pre-HV的后裔,一组独特的突变定义了HV单倍群。虽然一些后裔血统前往中亚——印度河谷等地,或返回非洲,HV的先祖始终留在近东。

    约3万年前,HV的一些成员翻过高加索山脉,进入欧洲,1.5万——2万年前,他们被冰原挤压到伊比利亚半岛——意大利——巴尔干躲避严寒,人口急剧减少,原先在欧洲形成的多样性也丢失了。冰原撤退时,他们重新向欧洲西部殖民,其中两个最常见的线粒体血统是H和V,它们存在于75%以上的欧洲血统里。

    单倍群HV1

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→pre-HV→HV1

    HV1是pre-HV的后裔,形成于3万年前。与HV类似,HV1在近东的频率也很高,包括安纳托利亚(现土耳其)——高加索山区,主要集中在俄罗斯南部和格鲁吉亚。其中一些成员越过高加索山脉进入俄罗斯南部,来到黑海的干草原,然后向西进入波罗的海各国和欧亚大陆西部。今天,这些HV1的后裔血统位于东欧诸国和地中海东部地区。

    虽然距离伊比利亚半岛不远,HV1的后裔与H和V的后裔没有发生关系。非常有趣的是,在非洲东部也发现了HV1的后裔,尤其是埃塞俄比亚,这很可能是最近2,000年来的奴隶贸易的结果。

    单倍群H

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→pre-HV→HV-H

    冰河期结束,人类再次向欧洲殖民时,出现频率最高的单倍群是H,H构成欧洲女性基因池的40%——60%。罗马和雅典的H的比例为40%,西欧其他地区的比例也差不多。越向东走,H的比例越低。土耳其的比例约25%,高加索山区的比例约20%。

    H不仅是欧洲西部的主要单倍群,在东方也发现了H:东南亚约20%,亚洲中部约15%,亚洲北部约5%。更加重要的是,H在东方和西方的时间不同。在欧洲,H的时间估算为1万——1.5万年,实际上,H在3万年前已经进入欧洲,但是冰河时期人口急剧减少,多样性也丢失了,所以计算出来的时间比较短;在亚洲的中部和东部,H的时间估算约为3万年,亦即H血统很早以前也从近东迁移到亚洲。

    单倍群V

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→pre-HV→HV-V

    现在,V局限于欧洲的西部——中部——北部,时间约1.5万年。这意味着人类在冰河时期,曾经在欧洲南部的避难地逗留了大约5 000年。

    在西班牙北部相对封闭的巴斯克人(Basques)中,V的比例约12%。在其他西欧群体中,V的比例约5%。阿尔及尔和摩洛哥也发现了V,说明伊比利亚半岛的群体曾渡过直布罗陀海峡来到北非。有趣的是,斯堪的纳维亚(Scandinavia)北部的Skolt Sami人中V的比例最高。Skolt Sami人是狩猎采集群体,他们随着驯鹿,季节性地在西伯利亚和斯堪的纳维亚之间来回游牧。

    单倍群J

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→J

    J是R的后裔,这个女人出现在大约4万年前,这个单倍体是新石器时代人口大扩张中最重要的单倍群之一,她的后裔分布非常广泛:在印度——巴基斯坦、阿拉伯半岛、欧洲东部和北部都有J。

    J在近东的多样性远远高于欧洲,J是黎巴嫩沿岸很多群体的先祖,在阿拉伯的比例最高:贝都因人和也门人中占25%

    单倍群K

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→K

    K也是R的后裔,这个女人出现在大约2万年前,她的后裔分为几个不同的分支,地理上极其分散,在欧洲、北非、印度、阿拉伯、高加索北部、斯堪的纳维亚、近东等地区都有。还有很多K的后裔进入俄罗斯南部的黑海干草原。

    与N1类似,K也是一个著名的单倍群,因为K和K的分支涵盖了德国裔犹太人(Ashkenazi)的4个线粒体DNA单倍群中的3个,相当于300万个德国裔犹太人。

    但是K在非德国裔犹太人中的频率比较低。在地中海沿岸Levant——中亚——埃及地区,K的比例约3%。

    单倍群T

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→T

    T也是R的后裔,这个女人出现在大约4万年前。T的分布广泛,最南边到阿拉伯半岛,最东边到印度河谷。T出现于旧石器时代,也是新石器时代大扩张的主要单倍群之一。

    单倍群U

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→U

    U也是R的后裔,这个女人出现在大约5万年前,T和T的分支广泛分布在欧洲、北非、印度、阿拉伯、高加索北部、近东等地。其中最重要的一批群体翻越高加索山脉,进入黑海干草原,然后继续西进,抵达现在的波罗的海各国和欧亚大陆西部。

    U在欧洲常见,在地中海东部的频率约7%。

    单倍群U5

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→U5

    U5是U的后裔,起源于5万年前。局限于斯堪的纳维亚,尤其是芬兰。原因可能是芬兰的地理位置相对比较封闭。

    季节性跟随驯鹿迁移的游牧群体Skolt Sami人中,U5的比例高达50%。

    U5也出现在北非摩洛哥——塞尔加内——阿尔及利亚的帕帕尔人群体中。在距离如此遥远的两个地区发现同样的遗传血统,确实出乎预料,这可能是冰河期结束之后,一场延续了大约1.5万年的大迁徙的结果。

    U5在近东很少,比例约2%,在阿拉伯地区找不到。U5还出现在土耳其人——库尔德人——亚美尼亚人——埃及人里,这可能是欧洲人回流到近东的结果。

    单倍群U6

    先祖血统:“夏娃”→

    L1/LO→L2→L3→N→R→U6

    U6是U的后裔,起源于5万年前。U滞留在近东,但是U的一部分后裔北上进入欧洲和斯堪的纳维亚,还有一部分后裔沿着地中海沿岸向西走,现在北非地区的U6约占10%。

    U6的文化相当发达,石器和骨器先进,首饰和雕塑精美,岩画也很著名。冰河期结束之后,U6的先祖渡过直布罗陀海峡,进入西班牙和法国南部,他们来往于北非和欧洲南部,所以在两边都留下了血统。

    附录2.2Y染色体单倍群

    进入南北美洲的Y染色体单倍群只有两个:C3和Q3。C3属于第一波走出非洲的群体,Q3属于第二波走出非洲的群体。

    单倍群A

    先祖血统:“亚当”→ M91

    单倍群A起源于约6万年前,由M91定义。遗传多样性随着时间增大,所以M91联系着一个更早的男性共同先祖“亚当”。

    现在,埃塞俄比亚——苏丹——洲南部很多人携带着M91,他们的文化传统仍然关联着先祖的生活方式。例如,喀拉哈里沙漠(Kalahari)的桑人——布须曼人(San Bushmen)和坦桑尼亚哈扎人(Hadza),都继续使用嗒嘴音。

    距今2 000-3 000年的非洲班图人的文化大扩张,大大挤压了A单倍群的人口数量和古老文化。

    单倍群B

    先祖血统:“亚当”→ M60

    M60定义了B单倍群,一个起源于5万——6万年前的古老非洲血统。与其他古老的血统后裔类似,B的分布非常分散,遍布整个非洲大陆,涉及很多不同的人群和文化,包括俾格米人:Biake people人和Mbuti people人。

    单倍群C

    先祖血统:“亚当”→M168→M130

    约5万年前,可能在南亚,一个男人出生时携带着基因标记M130,他的晚近先祖参与了第一批走出非洲的旅程。这批人沿着非洲海岸前进,路线大致为阿拉伯半岛南部——印度——斯里兰卡——东南亚。其中一些人渡海抵达并定居澳大利亚。这批早期移民沿着海岸线旅行,不需要什么新技术,依靠海洋资源维生,不到5 000年就迁移到澳大利亚。

    在这部分迁移的人群中,并非每个人都前往了澳大利亚,许多人留在东南亚沿海,逐步向内陆迁移,几千年后进入亚洲东部,包括蒙古和西伯利亚。在大约1万年前,这批群体的一部分居住在中国北方或西伯利亚东南方的后裔,乘船沿着太平洋海岸线迁移到北美洲,证据就是北美洲的纳——德内语系(Na-Dene languages)。

    这个语系仅限于北美洲的西半部。在纳——德内语系的群体中,尤其是加拿大西部和美国西南部的男性美洲土著中,携带基因标记M130的比例为25%。

    单倍群YAP

    先祖血统:“亚当”→M168→YAP

    YAP是Y染色体Alu多态性(Y Alu Polymorphism)的简称,Alu是Y染色体上长度约300碱基对(核苷酸)的一个区段,又称阿鲁元素(Alu element),这个无害的Alu重复地插入人类基因组的不同部位,插入模式已经超过100万种并遗传给后裔。约5万年前,一个男人体内的Y染色体上出现了这个300碱基对的区段并遗传给他的后裔。

    YAP在非洲东北部,属于撒哈拉南部3个最常见的遗传分支之一。YAP血统后来分支成为2个距离遥远的群体:D单倍群在亚洲,由M174突变定义;E单倍群主要在非洲和地中海地区,由基因标记M96定义。

    单倍群D

    先祖血统:“亚当”→M168→YAP→M174

    D的先祖与C单倍群一起,构成离开非洲的第一批主要的移民潮。现在D存在于东南亚和安达曼群岛(Andaman Islands),但是印度没有。D的一部分后裔现在日本,还有一部分后裔现在西藏。

    单倍群D1

    先祖血统:“亚当”→M168→YAP→M174→Ml5

    遗传标记M15定义了D1,这个单倍群最早出现于3万年前,地点可能在东南亚。这个血统的后裔后来进入西藏。现在D1存在于东南亚和西藏,西藏的频率最高。

    单倍群D2

    先祖血统:“亚当”→M168→YAP→M174→P37.1

    约3万年前,第一次出现基因标记P37.1。这个标记定义了D2,这个M174的后裔单倍群逐步向北迁徙,最后抵达日本,现在D2是日本最常见的单倍群,在某些日本群体中的频率超过50%。

    单倍群E

    先祖血统:“亚当”→M168→YAP→M96

    3万——4万年前,基因标记M96第一次出现在非洲东北,准确的地点尚不清楚。后来进入西非,并随班周大迁徙成为非洲主流。约5万年前,一个中东氏族开始走出非洲进行第二波大迁移,他们大部分是M89(参阅F)的后裔。这个中东氏族向北走,最后定居在中东。E单倍群也来到中东,具体路线可能与中东氏族相同,也可能不同。

    单倍群E3a

    先祖血统:“亚当”→M168→YAP→M96→M2

    约3万年前,这个男人出现在非洲,他的后裔向撒哈拉以南迁徙。在大约2 500年前的班图人大扩张期间,E3a的后裔从非洲中西部向非洲的东部和南部扩散。现在,E3a在尼日利亚和喀麦隆的频率超过70%。在非洲裔美国人中,E3a也是最常见的血统。

    单倍群E3B

    先祖血统:“亚当”→M168→YAP→M96→M35

    约2万年前,M35出现在中东。冰河期结束,气候变暖之后,人类从游牧的狩猎采集生活方式向定居农业生活方式转变。约8 000年前,新月沃土地区出现了成功的农业,向地中海周围扩张,社会组织也开始复杂化。M35单倍群可能以30-50人的小群体进行扩散。

    单倍群F

    先祖血统:“亚当”→M168→M89

    约4.5万年前出现在非洲东北部或者中东的基因标记M89,现在存在于世界的90%以上“非非洲人”的身上。

    最早离开非洲的人类沿着海岸线来到澳大利亚,但是F的路线是沿着大草原迁移,路线为非洲东部——中东——继续向前。F属于走出非洲的第二波移民,很多M89的后裔留在中东,还有很多M89的后裔追随着猎物的迁徙继续前进,途经今天的伊朗地区进入欧亚大陆中部广袤的干草原。

    当时,这片巨大的干草原像一条“超级高速公路”,从法国直达韩国。他们从亚洲中部分别向西方和东方扩散。

    单倍群G

    先祖血统:“亚当”→M168→M89→M201

    G的后裔都携带基因标记M201,这个男人大约在30,000年前出生在中东的东方地区,可能是巴基斯坦或印度的喜马拉雅山脚下。在新石器时代的农业人口大扩张之前,G的后裔生活在印度河谷地区。农业人口来到之后,取代或灭绝了很多G的后裔,幸存的G的后裔学会了农耕技术。

    G有3个关联的“兄弟”单倍群:H,I,J,他们的部分后裔随着农业继续扩散。

    单倍群G2

    先祖血统:“亚当”→M168→M89→P15

    基因标记P15出现于约1万年前,定义了单倍群G2,出现于中东,G2的后裔很快扩散,经过现在的土耳其进入欧洲东南部。

    约1.5万年前的冰河期巅峰时期,早先的欧洲移民被冰原挤压和封锁在欧洲南部的几处避难地,人口较少。冰河期结束后,G2的各个血统从中东向欧洲的北部和东部扩散,还有一些人进入欧亚大陆的西部。

    单倍群H

    先祖血统:“亚当”→M168→M89→M69

    约4.5万年前,起源于中东的H单倍群的先祖沿着欧亚大陆的干草原上的“超级高速公路”移民,后来辗转进入印度。约3万年前,一个携带遗传标记M69的男人诞生了,M69定义了这个新的H单倍群血统。虽然M69是一个“印度基因标记”,但是这个男性先祖的出生地点可能在中亚的南部,他的后裔是最早定居印度的内陆地区的群体之一。

    这个单倍群H并非抵达印度的第一批人类。在5万——6万年前,第一批人类从非洲沿着海岸线来到印度,有些人定居在印度的沿海,但是内陆地区的大部分人类属于H单倍群的成员。

    单倍群H1

    先祖血统:“亚当”→M168→M89→M69→M52

    M52定义了单倍群H1,这是印度的主要血统之一,M52在大约2.5万年前第一次出现在印度,属于迁移到印度的第二波主要人类群体。

    H1的先祖也起源于中东,现在某些印度地区的频率为25%,在伊朗和中亚的南部,也有频率不高的H1。

    单倍群I

    先祖血统:“亚当”→M168→M89→M170

    I的先祖是中东氏族M89的一部分,他们向西北的巴尔干迁移,后来扩散到欧洲的中部,在2.1万——2.8万年前,这些群体在欧洲的西部创造了格拉维特文化(Gravettian culture)。格拉维特文化是指法国的格拉维特发现的一些新的技术和艺术,石器工具也与早期的奥里尼雅克文化(Aurignacian culture)有所不同。格拉维特文化的狩猎工具更加先进,并且出现了女性雕塑的形象、贝壳首饰,以及动物骨头建造的房屋。(非洲喀拉哈里沙漠(Kalahari)的桑人,属于最古老的A单倍群)

    这个共同先祖M170出现在约2.5万年前,在最后一次冰河期,他的后裔被迫退避到欧洲南部的封闭的避难地——巴尔干半岛和伊比利亚半岛(现西班牙)。

    冰河期结束后,I单倍群的后裔在重新殖民欧洲时期担任了重要角色。

    单倍群I1a

    先祖血统:“亚当”→M168→M89→M170→M253

    约2万年前,这个群体像很多欧洲群体一样退避到南部的避难地,以躲避冰河期巅峰时期向南扩张的大片冰原。I1a单倍群的避难地在伊比利亚半岛,其中一个男性成员出现了基因标记M253。

    约1.5万年前地球变暖,I1A向欧洲其他地区扩散,在欧洲西北地区非常普遍,频率最高的地区是斯堪的纳维亚西部,可能很多维京海盗是I1A的后裔。

    维京海盗多次入侵英国,这有助于解释M253在英伦诸岛的出现。

    单倍群I1b

    先祖血统:“亚当”→M168→M89→M170→P37.2

    P37.2定义了单倍群H1b,这个基因标记约15 000年前出现在巴尔干,现在当地依然非常普遍。

    P37.2可以识别冰河期退避到欧洲南部避难地的群体。

    P37.2在冰河期结束后开始向欧洲北部和东部扩散,现在欧洲中部和东部非常普遍。这个血统可能是凯尔特人(Celtic)在公元前的一千多年的扩张。

    单倍群J

    先祖血统:“亚当”→M168→M89→M304

    约1.5万年前,J诞生于新月沃土,这个地区包括以色列——西岸——约旦——黎巴嫩——叙利亚——伊拉克。现在J的频率最高的地区包括中东——北非——埃塞俄比亚。

    在欧洲,J原先仅仅分布在地中海附近,农业出现后人口激增,J开始扩散。

    例如,现在J和他的分支J2合计占犹太人的30%。

    单倍群J1

    先祖血统:“亚当”→M168→M89→M304→M267

    新石器革命之后,随着农业的成功,J1和其他J单倍群在中东兴起,部分J1的成员前往北非并获得成功,证据是现在这一带的J1频率最高。

    携带M267基因标记的其他J1的成员,一部分留在中东,一部分北上进入欧洲西部,但是频率较低。

    单倍群J2

    先祖血统:“亚当”→M168→M89→M304→M172

    M172定义了起源于M89的J单倍群的主要分支。J2现在分布在北非——中东——欧洲南部,在意大利的频率是20%,西班牙南部的频率是10%。

    单倍群K

    先祖血统:“亚当”→M168→M89→M9

    约4万年前,基因标记M9出现,地点在伊朗或亚洲中南部,这是中东氏族M89分支的一个新血统,这个血统的后裔经过3万年,扩散和成为地球的大部分人口。

    这个大型血统K,被称为欧亚氏族,扩散过程延续了几万年时间,沿着欧亚干草原的“超级高速公路”,追随着猎物四处扩散,直到被亚洲中南部的巨大的山脉系统——兴都库什山脉——天山山脉——喜马拉雅山脉阻拦。这三大山脉的交会地区是帕米尔高原,位于今天的塔吉克斯坦,K单倍群在这里分为两支:一部分人北上进入亚洲中部,一部分人南下进入巴基斯坦——印度次大陆。帕米尔高原导致了K的分离。

    今天北半球大部分人群的起源都可以追溯到这个男人M9:亚洲东部和北美洲的几乎全部,欧洲的大部分,以及很多印度人群。

    单倍群K2

    先祖血统:“亚当”→M168→M89→M9→M70

    并非所有的M9都走向帕米尔高原,还有一些M9回到近东的舒适环境,这些人群中诞生了M70,时间约3万年前。

    M70定义了K2,这个血统扩散到地中海沿岸各地,包括北非沿岸和欧洲南部的地中海沿岸。

    有些人认为,K2就是腓尼基人,这些航海家建立了很多地中海沿岸的繁华的贸易据点,M70的起源可能在黎巴嫩一带。

    现在,M70在地中海沿岸处处可见,在中东和非洲东北地区的频率是15%,在西班牙——法国的南部也可以找到M70。

    单倍群L

    先祖血统:“亚当”→

    M168→M89→M9→M20

    欧亚氏族M9的后裔可能在印度或中东诞生了M20。这个M20在约3万年前进入印度,形成了L单倍群,所以L又称为印度氏族。

    印度南部的M20的频率达到50%,他们都是L单倍群的成员,虽然他们不是最早进入印度的群体。

    单倍群M

    先祖血统:“亚当”→M168→M89→M9→M4

    由于冰河期的严酷气候,M4的先祖退避到东南亚的沿海地区。第一个携带M4的男人可能出生于1万年前,这个基因标记主要出现在美拉尼西亚(Melanesia)——印度尼西亚,少量存在于密克罗尼西亚(Micronesia)。

    M4是随着水稻技术在各个海岛上传播的,当时中国和中东的农业正在发生。大约在4 000年前,水稻技术传播到婆罗洲——苏门答腊地区。然后,这里的群体携带着大量的淡水和水稻,航行到太平洋上的各个岛屿并定居下来。

    单倍群N

    先祖血统:“亚当”→M168→M89→M9→LLY22G

    经过东亚的欧亚氏族诞生了基因标记LLY22G,定义了N单倍群,时间约1万年前,地点可能在西辽河流域,他的后裔成为江藏语系的部分和乌拉尔语系(Uralic)的群体,现在分布在斯堪的纳维亚的南部和亚洲的北部。

    乌拉尔语系的文化,呈现出多样性:欧洲北部大部分人曾是狩猎采集群体,匈牙利人早期是牧马人,俄罗斯北方的很多群体也属于N。瑞典——挪威——芬兰——俄罗斯北部的Sami人是追随驯鹿的游牧——打鱼群体,人数仅剩下约8.5万人。

    单倍群O

    先祖血统:“亚当”→M168→M89→M9→M175

    约3.5万年前,一个携带M175的男人出生了,地点在亚洲东部或中部。这些人是M9的后裔,他们当时在伊朗高原狩猎。

    在冰河期的巅峰时期,O单倍群的先祖们抵达中国和亚洲东部,由于高山屏障的阻拦,他们封闭了上万年。O单倍群被称为东亚氏族:现在的亚洲东部,这个O单倍群的频率为80%——90%。在亚洲西部和欧洲, O单倍群不存在。

    单倍群O1a

    先祖血统:“亚当”→

    M168→M89→M9→M175→M119

    约3万年前,在中国南部出现的M119定义了单倍群O1a。他们可能是长江下游水到农业的人群后裔。

    O1a的成员扩散到东南亚各地,他们的很多至今仍在东南亚。还有一些携带M119的群体进行了长距离的迁移,最终抵达中国台湾,现在台湾的几个原住民群体中的M119的频率高达50%。

    单倍群O2

    先祖血统:“亚当”→M168→M89→M9→P31

    约3万年前,第一个携带P31的男人诞生了。P31定义了单倍群O2。这个男人居住在亚洲的东部,或许在中国南部。这个男人的后裔,有的向南扩散到东南亚,向东扩散到韩国和日本。这个基因标记现在是马来西亚——泰国等东南亚国家最常见的标记。

    单倍群O3

    先祖血统:“亚当”→

    M168→M89→M9→M175→M122

    这个携带M122基因标记的男人可能出生在中国中部,他的后裔分布非常广泛,约占中国男人的50%,所以,他的后裔很可能与农业的传播关系密切。单倍群O3的成员很可能都是长江中游种水稻和桑干河——永定河流域种粟米的农民的后裔。

    亚洲东部的水稻农业的发达引发了大规模的人口扩张,考古学证据证明水稻技术一直传播到日本——中国台湾——东南亚,基因证据认为传播水稻技术的群体都携带着M122。

    单倍群P

    先祖血统:“亚当”→M168→M89→M9→M45

    约3.5万年前,一个男人携带M45出生在亚洲中部,他是M9的后裔。

    M9曾经扩散到一片富饶的大草原,包括今天的哈萨克斯坦——乌兹别克斯坦——西伯利亚南部。在冰河期的巅峰时期,草原环境日益恶化,迫使他们追随着驯鹿向北方进发,最后学会用兽皮搭建帐篷,改进武器和狩猎技术等。

    M45是大部分欧洲人和几乎全部美洲土著的共同先祖。

    单倍群Q

    先祖血统:“亚当”→

    M168→M89→M9→M45→M242

    1.5万——2万年前,一个携带M242的男人诞生在极度严寒的西伯利亚。

    M242的后裔成为第一批探索美洲大陆的人类。当时西伯利亚的气温很低,人类设法穿过没有积雪的苔原,来到亚洲的最北端——西伯利亚东部。

    当时世界的海平面比现在低100米左右,西伯利亚——阿拉斯加之间形成了白令陆桥,人类可以直接走到美洲。

    Q单倍群踏上了美洲的具体的时间还有争议,有人认为在2万年前。但是遗传学分析的数据是约1.5万年前,这个数据与考古证据基本吻合。

    Q单倍群的成员进入北美洲之后开始南下,目前还不清楚他们如何越过北美的冰原。一种估计是落基山脉中的一条通道,另一种估计是沿着无冰的海岸线。

    单倍群Q3

    先祖血统:“亚当”→

    M168→M89→M9→M45→M242→M3

    第一批人类进入美洲后,M3出现了,时间是1万——1.5万年前,地点是北美洲。这是美洲土著中分布最广泛的一个血统,包括全部南美洲人口以及大部分北美洲人口。

    M3在西伯利亚没有发现,仅仅分布在美洲。携带M3的群体继续南下,在大约1 000年里,就迅速抵达南美洲的南端。

    单倍群R

    先祖血统:“亚当”→

    M168→M89→M9→M45→M207

    在亚洲中部逗留了相当长的一段时间以后,经受着严寒气候考验的人类具备了更先进的技术,开始转头向西,进入欧洲大陆

    这个氏族里的一个男人的Y染色体上,出现了一个新的突变M207,他的后裔分为两支:一部分人进入欧洲,一部分人后来转向南方,进入印度次大陆。

    分析计算证实,这次迁移发生在1万年内,很多细节尚不清楚。

    单倍群R1

    先祖血统:“亚当”→

    M168→M89→M9→M45→M207→M173

    第一批大规模定居欧洲的群体的后裔是R单倍群的成员,M173定义了R单倍群:携带M207的群体一起向西迁移,半途分开。

    约3.5万年前,M173的后裔抵达欧洲,当时尼安德特人处于衰亡时期。这些更聪明的M173的后裔获得更多的资源,可能加速了尼安德特人的灭绝。

    在冰河期巅峰时期,M173的后裔撤退到南部的避难地:西班牙——意大利——巴尔干。冰河期之后,他们再次北上。现在欧洲的M173的频率非常高。

    单倍群R1a1

    先祖血统:“亚当”→

    M168→M89→M9→M45→M207→M173

    →M17

    1万——1.5万年前,一个携带M17的男人诞生了,地点在现在的乌克兰或者俄罗斯南部。他的后裔继续游牧,并且驯化了马。他们骑着马,更加便于迁移:从印度到冰岛,他们迁移的范围很广泛。

    在捷克——西伯利亚——亚洲中部,M17的频率约40%,在印度约35%,在中东地区为5%——10%。在伊朗,M17在伊朗西部仅为5%——10%,在伊朗东部高达35%。这些分布使得语言学家猜测:骑马的M17后裔可能是印欧语系的传播者。

    单倍群R1b

    先祖血统:“亚当”→

    M168→M89→M9→M45→M207→M173

    →M343

    约3万年前,已经处于欧洲的群体中出现了遗传标记M343,定义了单倍群R1b。他们是克罗马农人的后裔,这些群体最著名的遗产是在法国南部等地留下的洞穴壁画。在此之前,人类的艺术作品主要是贝壳、骨头、象牙等材料制作的首饰。

    单倍群R2

    先祖血统:“亚当”→

    M168→M89→M9→M45→M207→M124

    约2.5万年前,亚洲中南部诞生了一个携带M124的男人,他的后裔迁移到巴基斯坦和印度东部。这个基因标记现在存在于印度北部——巴基斯坦——亚洲的中南部地区,频率5%——10%。这个单倍群R2也属于第二批大规模进入印度的移民,但是距离5万——6万年前的第一批大规模移民时间久远。(绝大部分2万年以上的现代人化石出土于苏丹——埃塞俄比亚——肯尼亚等东非地区,只有极少几个现代人化石遗骸出土在埃塞俄比亚以南的地区)

    在欧洲东部的吉普赛人中,也发现了单倍群R2的成员,估计也是起源于印度次大陆地区。目前还不清楚这些远古时代的远程移民的细节。

  • 张振《人类六万年》1-5

    第一章 人类是一个物种吗?
       林奈与达尔文   夏娃在非洲   什么是DNA   天书的解读   黑人的皮肤
    第二章 女性线粒体DNA的故事
       线粒体DNA   古人的线粒体DNA   宗族母亲与金丝熊   最后一个沙皇之谜   一个埃及王朝的灭绝   不检点的美国国父   只有欧洲人是杂种吗?   第二场欧洲人起源之战
    第三章 男性Y染色体的故事
       大生物时代   非洲化石大爆炸的困惑   什么也找不到   血型开始的分子探索   两个大型炸弹   勇敢的列文庭   引起进化的三个力量   从蛋白看到先祖的影子   打捞湮灭的先祖   姗姗来迟的亚当
    第四章 走出非洲的旅程
       亚当、夏娃最近的后裔   无法逾越的撒哈拉沙漠   走出非洲第一站   海鲜盛宴与澳大利亚土著   第二波大迁移   走进欧亚大陆的主流   中国人不是北京猿人的后代   进入欧洲的艺术家   美洲土著来源的百年困惑   美洲土著的亚洲亲戚   有声的语言与无声的坟冢   太平洋的拼图
    第五章 基因图谱工程
       意外邂逅启动的工程   单倍群编码   印度海岸的秘密   人类的摇篮——东非大裂谷   达尔文家族起源于非洲   撒哈拉掩埋的艺术瑰宝
    第六章 与百万年历史决裂
       农业文明的出现   双刃的镰刀   不能与上帝开玩笑   语言造就了人类   正在消失的语言与文化
    第七章 农业文化的反思
       巨大的进化压力   农业新文化的成长   病态的农业起源   农业使我们病了   第三次疾病浪潮   农业使我们疯了   已经开始的溃败
    第八章 必须向新理论开放
       基因的先驱与DNA的先驱   果蝇造就的一批诺贝尔奖   原子弹也无法改变DNA   两种DNA的发现与解释   大自然不遵守大自然法则   地球是一个活的超级生物体
    结语
    附录
       附录1 人类20万年的旅程图
       附录2 主要单倍群简介

    第一章 人类是一个物种吗?

    宇宙起源、生命起源、人类起源是自然科学的几个大难题。

    在世界上的每一个角落都有人类的身影,地球的总人口已经达到70亿。我们是如何成为地球主人的?这是科学史上最大的谜团之一。世界上所有的民族都自发产生了各自的神话和宗教,回答的第一个问题就是世界是怎么产生的,人类是怎么产生的。因为每个人都不得不回答自己的孩子的问题:我们来自哪里?

    而所有的宗教和神话都无法解释的另一个问题是:全世界的人类,为什么具有完全不同的文化、外观、身高和肤色?为什么每一个人与其他人(任何一个)都不同?

    公元前5世纪的希腊历史之父希罗多德(Herodotus)的著作,不仅描绘了希腊和波斯的战争故事,而且是对人类多样性的最早的清晰记录:黑色的神秘的利比亚人、北方吃人的俄国生番、远古游牧的土耳其人和蒙古人、从蚂蚁洞里寻找黄金的印度北方土著部落……希罗多德的著作是西方文化中最早的一笔人种学的财富,虽然它存在明显的瑕疵。

    现在,让我们站在希罗多德的角度,想象一次人类多样性的采样。

    假设我们乘坐一架飞机沿着赤道飞行,我们把这次旅行的起点设在经度和纬度均为0度的地方,这个地点位于大西洋上空,加蓬首都利伯维尔(Libreville)的西边大约1 000千米。现在,我们的飞机开始向东飞行。

    首先,我们看到的是中非的说班图语(Bantu)的非洲人,他们皮肤黝黑,住在小村庄里。再向东是没有树木的大草原,那里住着尼罗人(Nilotic),说尼罗语,个子高大,放牧为生,其间混杂居住着说哈德扎语(Hadza)的其他黑人。

    再向东,飞过浩瀚的印度洋,我们会看到马尔代夫群岛的人们类似非洲人,皮肤很黑,但是他们语言不同,外观也与非洲人不同:鼻子、头发和其他细节都不一样。

    站在希罗多德角度的人类多样性采样路线图

    继续向东,又经过一大片海洋,我们来到苏门答腊岛群。这里的人们个子比非洲人和马尔代夫人矮小,头发很直,浅色皮肤,眼帘上的皮肤褶皱很少。

    再越过一大片岛群继续向东,这个地方叫美拉尼西亚(Melanesians),这里的人皮肤也很黑,也许他们与非洲人的关系更紧密?

    我们的飞机再继续向东,就会来到波利尼西亚(Polynesians),这是一片绵延数千千米的太平洋上的珊瑚礁岛。在这里,人类的外貌又一次大大改变了,他们与亚洲东部的人群和北美地区的土著长得相当接近。而且,更为令人困惑的是,这些波利尼西亚人是如何来到这些间距几千千米的几千个岛屿上的?

    再向东,我们来到南美西部的厄瓜多尔。其首都基多(Quito)的居民令人惊讶地分为两类:一类人的外貌像马尔代夫人,但是肤色浅一些;另一类人与苏门答腊人和波利尼西亚人比较相近。这两类群体令人不可思议地混居在一起。

    再向东,在巴西的东北再次出现了黑人。这些黑人住在距离他们的故乡非洲几万千米之外的地方,他们来到美洲只有几百年,当时他们是被欧洲人作为“会说话的另一种生物”和劳动力从非洲运来的,他们当年的身份是奴隶。从15世纪欧洲大航海和地理大发现开始,西班牙人、葡萄牙人和荷兰人就开始贩卖非洲的黑人作为奴隶,因为他们当时认为,欧洲白人和非洲黑人不是一个物种。

    人类遍布世界的每一个角落,肤色、外貌和语言都不一样。我们越来越感到迷惑,我们来自哪里?为什么我们人类之间存在这么多的外在差异?

    林奈与达尔文

    首先,我们看看现在公认的物种定义。

    如何定义一个物种?20世纪公认的定义是这样的:能否杂交产生健康的后代并继续繁殖。换句话说,如果双方能够生产正常的后代,则属于同一物种。反之,则不是。例如,狮子和老虎可以生下狮虎兽,但是狮虎兽并不健康;又如,马和驴虽然可以生下健康而强壮的骡子,但是骡子不能继续繁育,所以马和驴也不是一个物种。虽然这个标准在低等动物和其他生物中并不普适,但对哺乳类而言依然是适用的。

    奴隶制度的拥护者曾经认为,现代人分为很多物种和亚种,殖民者与奴隶不是一个物种。瑞典科学家卡尔·冯·林奈(Carl von Linne)最早提出这一体系。林奈是一个植物学家,他首先用拉丁文命名植物,随后扩展到动物。他把人类命名为智人(Homo sapiens)。他认为所有的人类属于同一物种——智人的不同亚种和地理种,他还认为人的种族是互不相同的、分别诞生的、多元发生的。这种思想起始于希腊时代的人类“多起源说”。

    关于人类的起源,人类学家和考古学家的争议持续了一百多年。

    英国的达尔文从来不公开发表讲话,但是他却出版了两本引发科学与宗教巨大争议的巨著:《物种起源》(1859年)、《人的由来》(1871年)。

    与维多利亚时代的很多人一样,达尔文自幼酷爱科学。当时的大英帝国已经殖民到世界各个角落,但是,随着人们的视野越来越开阔,头脑却越来越迷惑,人们无法解释各式各样的物种的变异和起源。

    1831年12月27日,达尔文乘坐“小猎犬”号(Beagle)开始了一场前无古人的伟大环球航行。达尔文不仅想搞清楚物种的起源,他还想探索另一个疑问——人的起源。

    达尔文从英国出发,途经佛得角群岛——巴西——阿根廷——火地岛——智利——厄瓜多尔——加拉帕格斯群岛——塔希提——新西兰——澳大利亚——毛里求斯——巴西,直到1836年10月2日才回到英国。好奇的达尔文在世界上游历了整整5年。为了获得第一手资料,他曾经在巴西和阿根廷深入内陆探险。达尔文在南美洲遇到的最与众不同的人类是火地岛的土著,他写道:

    ……身材矮小,脸上用白漆涂抹得丑陋不堪,皮肤油腻肮脏,头发缠绕成团,声音沙哑难听,举止粗暴……看着这样的人,很难相信他们和我们是同样的人类……

    达尔文带着3个土著火地人回到维多利亚时代的大不列颠。达尔文给他们起了色彩鲜明的欧洲名字:Fuegia Basket、Jemmy Button和York Minster(他们三人原名Yok-cushlu、 Orundellico和El’leparu),他们学会了基本的英语,模仿中产阶级的行为举止。达尔文清楚地认识到,他们和英国人应当属于同一物种,某些方面甚至超越了“小猎犬”号上的英国水手。

    达尔文回到英国之后,1859年和1871年,间隔12年出版了两本书。他本来准备出版一本书,因为太大,改为两本书:

    《物种起源》:原书全称《物种起源,通过自然选择的方式或在生存斗争保留优势种群的方式》(On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life)(注:这本书英文原名《种的起源》,日文译名也是《种的起源》,国内长期译为《物种起源》,本书沿袭旧译名)。

    《人的由来》:原书全称叫作《人的由来,与性关系的选择》(The Descent of Man,and Selection in Relation to Sex)。

    达尔文在《人的由来》中猜测,世界上的智人可能源自同一个先祖,这个先祖最有可能在非洲。

    达尔文的外祖父韦奇伍德(Josiah Wedgwood)是一个废奴主义者,激烈反对奴隶制度,他写过一本书——《我们是人还是兄弟》。韦奇伍德出身于一个陶瓷世家,他是英国陶瓷产业化的先驱者,英国最大的陶瓷公司韦奇伍德公司的创始人,该公司现在已发展成为一个跨国陶瓷玻璃集团。也就是说,极其富有的达尔文家族在英国的地位有些类似现在的世界富豪,例如比尔·盖茨家族。达尔文的父亲罗伯特(Robert Darwin)是一个富有的金融家和医生。作为一个精工巧匠和一个著名医生的后代,达尔文的考古证据采集和严谨的分析推理,几乎无懈可击。

    经过长达20年的观察、探索和考证,达尔文把人类从一个全能的至高无上的上帝的神圣产物,变成了修修补补的长期进化过程的一个结果。

    1860年6月30日,距离1859年达尔文《物种起源》发表不到一年,一位愤怒的牧师威尔伯福斯(Samuel Wilberforce)登上了牛津大学图书馆的讲堂,他开始了一场战斗,不仅仅是为了他的观点,也是为了基督教的未来。

    威尔伯福斯认为,人类的历史大约6 000年,在公元前4004年10月23日,上帝的手创造了世界。这个数据是根据《圣经》记载的谱系推算的。他还指出了当时大多数人心中一个同样的疑问:人怎么和猴子有关系?完全是无稽之谈!

    达尔文乘 “小猎犬”号进行环球航行的路线

    但是,维多利亚时代同样著名的杰出人物约瑟夫·胡克爵士(Joseph Dalton Hooker)和赫胥黎(Thomas Henry Huxley)支持达尔文。他们三人之间同样精彩的辩论演说敲响了旧的人类起源说的丧钟,勇敢地开创了一个新的世界。

    出身豪门的达尔文,具备足够的财力和时间去世界各地收集样本。他能够潜心观察的原因之一是他患有一种非常奇怪的病:写文章的时间不能超过20分钟,否则会感到身体疼痛。所以,达尔文写一会儿,就必须去仔细观察一会儿标本作为休息,然后再回来继续写作。这是一种什么疾病,至今也不清楚。达尔文经常写信给他的朋友,抱怨他的这种痛苦。因此,达尔文没有参加与教会的辩论,他一生也没有做过任何演说或授课。

    150年后,科技手段证实了达尔文的假设。这些科技手段就是化石和DNA。科学研究者们通过化石、石器、基因等线索追踪人类在全世界的足迹,揭示出人类的伟大的旅程。

    [1] 卡尔·冯·林奈(1707-1778),生物学家、植物学家,1753年发表《植物物种》(Species Plantarum)奠定了现代生物分类学的基础,被誉为分类学之父。林奈将人类分类为智人,并分为几个亚种:非洲人(Afer)、北美土著(Americanus)、东亚人(Asiaticus)、欧洲人(Europ aeus)和其他人(Monstrosus)。因为他的贡献,瑞典枢密院封他为爵士

    [2] 英国牧师威尔伯福斯(Samuel Wilberforce,1805-1873),当时最有名的演说家之一,他与进化论观点的大辩论非常著名

    [3] 赫胥黎(Thomas Henry Huxley,1825-1895),英国生物学家,支持达尔文的演化理论和学说,被称为“达尔文的斗牛犬”(Darwin’s Bulldog)。一生著述很多威尔伯福斯认为,人类的历史大约6 000年,在公元前4004年10月23日,上帝的手创造了世界。这个数据是根据《圣经》记载的谱系推算的。他还指出了当时大多数人心中一个同样的疑问:人怎么和猴子有关系?完全是无稽之谈!

    夏娃在非洲

    1871年,达尔文在《人的由来》[全称:《人的由来,与性关系的选择》(The Descent of Man, and Selection in Relation to Sex)]中写道:

    在世界上每一个较大的区域生活的哺乳动物,都与同一地区的已经灭绝的物种的血缘关系很近。因此,有一种很大的可能性:非洲曾经生活着一些已经灭绝的类人猿,它们与大猩猩和黑猩猩很接近。这两种猩猩是最接近人类的物种,所以,还有一种更大的可能性:我们早期的祖先生活在非洲大陆的某一个地方。

    事实是否确如达尔文的推测,我们的祖先诞生在非洲,并且可能起源于某一种已经灭绝的类人猿?

    英国人类学家路易斯·李基(Louis Leakey,1903-1972,考古学家,出生于非洲的肯尼亚,在剑桥专攻人类学。他首先发现了60万年的猿人化石,后来发现175万年的猿人化石)坚信达尔文的人类起源于非洲的假设,他27岁取得剑桥大学博士学位之后,长期在非洲工作,他的妻子、子女和整个家族都参与了非洲的考古工作。路易斯·李基取得大量考古成果,出版了十几本著作,他的家族是非洲人类考古的先驱。

    1967年,路易斯·李基组织考察肯尼亚的奥某河(Omo River)地区,这支考察队的成员来自三个国家:法国队员以Camille Arambourg为首,美国队员以ClarkHowell为首,肯尼亚队员以路易斯·李基的二儿子理查德·李基(Richard Leakey,1944-)为首。路易斯·李基本人因为关节炎没有参加这次考察。在奥某河中,鳄鱼攻击并毁坏了考察队的木船,理查德·李基用无线电向父亲呼救,要求提供新的铝制船只。美国国家地理协会提供了铝制船只。在考察现场,Kamoya Kimeu(1940-,著名化石采集者之一,他和李基兄弟多次发现重要的化石)发现了一个人科生物的化石,理查德·李基认为这些化石属于直立人。理查德·李基把化石带回来以后,他的父亲路易斯·李基认为这些化石属于智人。

    奥某1号和奥某2号(Omo1,Omo2),当时是一些头骨的碎片
    复原的奥某1号和奥某2号(Omo1,Omo2)

    1967年的这次考察获得的智人化石,当时测定的年代为13万年,21世纪的新方法测定的年代约为19.5万年。这是迄今为止发现的世界上最古老的生物学意义上的智人化石。

    奥某河头骨的发现证实了达尔文的推测,也证实了达尔文的高瞻远瞩令人难以置信。

    在19-20世纪的欧洲,大部分人还认为亚当和夏娃在欧洲或亚洲。达尔文发表《物种起源》和《人的由来》时,世界上还没有发现任何类人猿的化石(尼安德特人虽然在《物种起源》发表前3年已经被发现,但当时人们以为那是洞熊的遗骸)。19世纪后期,欧洲首先发现已经灭绝的尼安德特人的化石。1920年代,亚洲的印度尼西亚和中国发现已经灭绝的直立人化石。1930年代,非洲开始出土大量各种类人猿的化石,数量和种类超过世界各地出土的其他人科生物化石的总和。

    达尔文的人类起源于非洲的类人猿的观念得到公认。在科学上,达尔文远远超越了他的时代。此后,人类到底有多少起源,成为新的争议焦点。

    本书后面经常提到的两个概念是完全不同的英语单词,它们从两个角度描述地球生命的巨大差异和丰富程度。这两个名词经常混用。

    多样性(diversity):
    在一个给定的生态系统里,或生物群系里,或一个星球上,各种生命的存在形式的变化和差异。例如,地球上的各种生物,以及生物的不同种类。

    多态性(polymorphisms):
    内在基因不同或基因相同,但是有的基因呈现显性,有的基因呈现隐性从而导致的不同,常常呈现为外在的不同。例如,人类的肤色、身高、形状等差异,又如其他的同一物种的形形色色的差异和变异。

    正是这些多样性和多态性,使得人类学和考古学的先驱者们困惑了上百年。

    1960年代,人类学家的世界最高权威之一、美国体质人类学家协会(American Association of Physical Anthropologists)会长卡尔顿·库恩(Carleton Coon)发表了影响很大的两本著作:《种族的起源》(The Origin of Races)和《人的现存种族》(The Living Races of Man)。库恩在他的权威巨著中,把现代人类进一步细分为互不相同的五大亚种(实际是地理种):
    Australoid :澳大利亚人种(澳大利亚土著,又称棕种人);
    Caucasoid :高加索人种(欧洲——北非——西亚——中亚——南亚,又称白种人,虽然肤色不一);
    Negroid :尼格罗人种(非洲撒哈拉南部,东南亚小岛与山区,又称Congoid或黑种人);
    Capoid :开普敦人种(非洲南部,如布须曼人——桑人);
    Mongoloid :蒙古利亚人种(亚洲大部——北极圈——南北美洲——太平洋诸岛,又称黄种人)。

    他还详细列举和分析了各个亚种的骨骼、肤色、外貌等特征差异,他认为是基因的混合导致人们变成了黑种人、白种人、黄种人和棕种人等。但是,他仍然无法解释人类的多样性。

    一百多年以来,考古得到的信息非常少。考古学家和人类学家们一直在进行着激烈的争论。库恩的两大权威论著发表后,人类逐步开发出一整套揭示基因秘密的技术……1987年,突然从遗传学领域出现的一个惊人的结论,这个结论引发了更大规模的争论和新一轮的一系列新的研究探索。

    1987年1月,美国一个在读遗传学女博士丽贝卡·卡恩(Rebecca Cann)和她的同事们在英国《自然》(Nature)杂志发表了一篇论文:《线粒体DNA和人类的演化》(Mitochondrial DNA and Human Evolution)。论文认为:人类起源只有一个,这个起源可能在非洲,时间在20万年以内。尽管几乎不可思议,但DNA数据研究分析却证明了:今天所有的地球人都来自同一个共同祖先。

    美国的这项研究的主持人阿伦·威尔逊(Allan Wilson,1934-1991)是来自澳大利亚的生物化学家,在加利福尼亚大学伯克利分校运用生物学的新分支——分子生物学的方法进行人类演化研究,尤其注重于DNA和蛋白质。

    丽贝卡·卡恩在阿伦·威尔逊的实验室攻读博士时,开始研究人类的mtDNA(线粒体DNA)变异。这个伯克利大学的小组从不同人群的人体胎盘(mtDNA资源丰富)中收集了147份样本,发现所有的线粒体都可以追溯到曾经住在非洲的一位女性祖先,不论这些线粒体现在位于世界的什么地方。

    伯克利大学的研究证明现代人起源于非洲,最早的分离从线粒体mtDNA (夏娃)开始,在非洲已经出现多次mtDNA 的分离,证明他们积累进化变异非常久远了

    这就是后来媒体命名的“线粒体夏娃”(Mitochondrial Eve)的来源。当然,“线粒体夏娃”并非当时唯一的夏娃,但是,她是现在可以追溯到的唯一的女性先祖。

    人类大约有100万亿个细胞,每个细胞都存放着Y染色体DNA和线粒体DNA。Y染色体DNA由父亲遗传给儿子,仅仅由男性后裔继续传承男性后裔;线粒体DNA由母亲遗传给儿子和女儿,仅仅由女性后裔继续传承女性后裔。Y染色体DNA比较大,计算分析极其困难。线粒体DNA比较小只有一万六千多个碱基单位,所以遗传学通过线粒体DNA找到人类的女性祖先比较早。在1987年发现“线粒体夏娃”之后,过了整整13年,直到2000年才找到“Y染色体亚当”,详见后述。

    找到这位女性先祖,实际上是对比线粒体DNA的突变差异,找出几个问题的答案。

    第一个问题:“夏娃”的起源地在哪里?

    如果我们在水池里丢下一块石头,激起的水波一圈一圈地扩大和扩散,我们仍能推测出石头落水的位置——在水波的正中央。人类进化的mtDNA序列,从母亲到女儿传递着累积的多态性,正像这种扩散的水波。我们的祖先就在那块石头“入水”的位置。我们可以“看见”这位唯一的祖先,生活在20万年之内,她发生的基因突变导致了以后所有的分离(分叉)形式,一直延续到今天。

    第二个问题:“夏娃”是什么时候出现的?

    如果我们知道这种基因突变发生的速率,我们就可以通过人类多样性的采样和分析,搞清楚产生了多少多态性,进而计算出“这块石头丢进水里后经历了多少年”。换句话说,一代又一代继承所有突变的后裔,必然源自同一个祖先。带给我们所有这些多样性的这位单一的祖先并非当时的唯一活着的人,只是其他女性的血统现在已经绝嗣了(找不到她们的后裔的遗传差距了)。

    我们用一个比喻解释这个概念。假设在一个18世纪的古老村庄里,住着10户人家。每家都有自己独特的烹调鱼汤的配方,这些配方全部是母亲口头传给女儿。如果某一家只有儿子,他家的配方就失传了。随着时间推移,拥有原始配方的家庭越来越少,因为有的人家一个女儿也没有:没有女性继承祖传的鱼汤。最后只剩下一家还保留着原始的美味鱼汤。

    现实世界里,没有任何一家的女儿会一代一代传承完全相同的配方,不做任何修改以适合她们自己的口味。有的女儿多加了大蒜,有的女儿增添了香料……这就出现了基因变异。随着时间的推移,这些变异就形成了她们自己的多样性的鱼汤。原来的配方完全改变了,但是那种原始鱼汤的基本配方的痕迹仍然保留在鱼汤里。如果我们去这个村庄参观,我们将品尝到配方多样性带来的美味,并且依然可以追溯到原始的配方——18世纪的单一的祖先。

    1987年,英国《自然》(Nature)杂志上发表的著名的mtDNA树:世界147个人的线粒体DNA计算分析。论文的三个署名作者与顺序:丽贝卡·卡恩 Rebecca Cann 马克·斯通尼金 Mark Stoneking 阿伦·威尔逊 Allan Wilson 这是一个里程碑

    这就是“线粒体夏娃”的秘密。

    1987年,丽贝卡·卡恩和她的同事发表这一结果之后,面对激烈的争议和质疑,他们又开始了一项新的研究。1987年9月,丽贝卡·卡恩和她的同事们又在英国《自然》(Nature)杂志发表了第二篇论文:《有争议的人类群体非洲起源》(DisputedAfrican origin of human populations),再次证实“线粒体夏娃”确实就在非洲。

    1987年的两项研究的结果,都证实了两个同样的事实:
    1.人类线粒体多样化发生在20万年之内。
    2.这块石头,是在非洲丢进水里的:人类起源于非洲。

    从进化的角度来看,这个时间非常短。又经过很多其他的研究方法证实,这个时间甚至不到17万年,我们的祖母的祖母的祖母的祖母……生活在大约15万年前。在此之前,人类学家和考古学家们对人类起源于非洲已经没有什么争议,他们长期争议的是现代的人类究竟有几个起源?

    多起源说支持者认为人类在世界多个地区分别进化成为现代人类,单一起源说支持者认为现代人类全部起源于非洲,以前起源于非洲后迁移到世界各地的早期智人直立人或人属生物都灭绝了,现代人类是人属生物中唯一幸存的物种。

    这两个派别都承认人类起源于非洲,在几百万年里,多次走出非洲——各种类人猿、直立人、早起智人、现代人相继走出了非洲。两大派的争议在于最后一次现代人走出非洲之后是否取代了其他人属生物?

    “线粒体夏娃”的出现是一个戏剧性的变化。所有人的论点都被颠覆了。虽然达尔文在《人的由来》里猜测“人类有很大的可能起源于非洲”,但是达尔文的支持者们普遍认为人类在非洲生活了几百万年,而并非短短20万年。

    1987年,关于“线粒体夏娃”的论文发表后,考古学、人类学、生物遗传学、气候学、地理学……都加入了这场大辩论,各种证据越来越多地证明线粒体夏娃是真实的。世界各国掀起了一股人类起源研究的狂潮,欧美各国以《走出非洲》为题的各种著作难以计数。

    有“夏娃”,就有“亚当”。

    2000年,在发现“夏娃”整整13年之后,“亚当”也终于被找到了。“亚当”也在非洲,线粒体DNA和Y染色体的两类研究结果不谋而合:人类的男性和女性先祖都起源于非洲。如前所述,“线粒体夏娃”并非当时唯一活着的女性,“Y染色体亚当”也并非当时唯一活着的男性。他们是单倍群(分享同样基因突变的群体)的称呼。

    古气候学和地理学的证据,也佐证了人类走出非洲之前和之后的十几万年的旅程。考古学和人类学的证据很少,全世界出土的各种人科生物的头骨化石只有4 600多个,但是DNA的证据存在于现在活着的70亿个人的身上。

    21世纪被称为生物世纪,生物科学的大发展影响到几乎每一个学科。1987-2000年,“线粒体夏娃”出现之后的这段时间,被称为间接观察DNA的时代。2000年至今,“Y染色体亚当”出现之后,被称为直接观察DNA的时代。在这25年里,各种学科的传统观念一次又一次被颠覆,人类一次又一次发现,DNA携带的无数历史故事就像一本突然打开的巨大的《百科全书》,令人目不暇接,眼花缭乱。围绕着少得可怜的化石和其他考古证据的各种学派之间的百年论争戛然而止,因为所有证据都被DNA证据有条有理地串联起来。

    多起源说:直立人在各个地区逐渐演化成为现代人
    单起源说:从一支直立人突然迅速演化成为现代人,取代了世界所有地区的其他直立人。单起源说又称替代说

    人类基因的十几万年的奥德赛之旅,既有英雄的史诗,也有艰难的跋涉,现代人类从七八万年前的仅仅几千人的一支小小的物种,成为现在这个星球的统治物种。
    15万——20万年前,现代人类起源于非洲。
    6万年前,现代人类开始一批一批走出非洲。
    4万年里,现代人类已经走到世界的每一个角落。
    1万年前,现代人类开始发展农业,人口增长了1 000倍。

    什么是DNA

    本书并非论述人类的起源,而是论述人类的旅程。因为我们仍然不知道究竟什么原因和演化过程,在大约19.5万年以前出现了生物学意义上的现代人类。我们非常确定的只有一个事实:所有人属动物都起源于非洲。

    本书并非论述基因,基因是遗传学概念, “遗传学之父”孟德尔最早发现遗传过程中存在基因作用。英文基因是Gene,日文是遗传子(遗传因子)。人们曾经认为,遗传基因的媒介可能是血型,后来认为可能是蛋白质,直到1950年代才最终确认是DNA……人类对遗传基因的认识不断深化。DNA是生物组织中最稳定的化学结构,基因通过DNA得以传承和表达。现在,为了方便和简单起见,人们往往用一段DNA表示一个基因。正是通过DNA,人们最终发现了人类走出非洲的六万年旅程。

    研究DNA的历史,正是人类一次又一次发现自己的错误的历史。

    研究DNA的历史,也是人类一次又一次修正自己的错误的历史。

    一百多年来,人们一次又一次发现,人类对于遗传——基因——DNA——生命的认识是错误的。这正是科学研究的本质之一。德国戏剧家与诗人贝尔托·布莱希特(Bertolt Brecht)在他的著名剧作《伽利略的一生》(Life of Galileo)中这样总结伽利略推翻地心说、建立日心说的对与错:
    科学的目标,
    不是为无限的智慧,打开一扇大门,
    而是为无限的失误,设定一个限度。

    千百年来,人们都知道孩子与父母很相像,男女结合,女性受孕10个月后就会产生一个孩子。但是,遗传的机理一直是个奥秘,人们从未停止尝试建立各种遗传学说。在古希腊文献中,大量的资料提到家族内的相似性,对这些问题的思考和争辩,成为早期哲学家们最喜欢争议的话题之一。

    希波克拉底(Hippocrates)认为,生育时男性和女性都产生一种精液,受精后,部分双方的精液混合,占上风的部分决定了婴儿的各种性状。这个过程的结果,会使一个孩子可能拥有父亲的眼睛和母亲的鼻子,如果父母双方决定某一种形状的流质不相上下,孩子就可能表现居中,比方说头发的颜色处于父母头发颜色之间。

    哲学家亚里士多德在大约公元前335年没有任何根据地写道:总的来说,父亲决定孩子的模样,母亲的贡献仅限于孩子在子宫里和出生后。这种哲学思想反映了当时以男性为主导的观点——孩子的健康和形态状况,以及心理和生理的一切特性都源于父亲。但是,亚里士多德也没有否定选择妻子的重要性——肥沃的土壤总比贫瘠的土壤更适合种植。但是,另一个问题产生了:假如孩子是因为父亲产生的,那么,男人怎么会有女儿呢?

    亚里士多德一生都受到这一问题的挑战。他的回答含糊其词,几乎是狡辩:所有婴儿在各方面都应和父亲一样,包括性别应该为男性,除非在子宫里受到某种“干扰”。有时候这种“干扰”比较小,产生微不足道的变异,例如孩子长出红头发,而不是父亲的黑头发;有时候这种“干扰”比较大,例如畸形或女性。

    这种古代哲学理论发展成了人胚全息论。人胚全息论认为,在性交过程中,一个微小的人体被放进女性体内。为了保持皇家血统的纯正,从埃及帝国到曾经控制几乎所有欧洲王室的强大的哈布斯堡王朝,都流行近亲婚姻以维护统治。从现在的遗传学来看,这些封闭的王室之间的婚姻,就像同一个村庄里的没有太多选择的婚配,配偶都是自己的亲戚或邻居。这种婚配方式导致后代出现大量遗传疾病,成为这些帝国灭亡的重要原因之一。

    18世纪初,显微镜之父安东尼·冯·列文虎克(Antonie van Leeuwenhoek,1632-1723)认为,他可以在精子头部看到蜷缩的微型人体。

    19世纪,两项技术的发展使人类发现了染色体。一项技术是纺织工业出现的新的化学染料,另一项技术是显微镜的性能得到重大改进。

    染色体(Chromosome)源于希腊语,意思是“染上颜色的物体”。高倍放大能力使人们很容易观察单个细胞,细胞的内部结构用新的染料染色后,可以清晰地显现出来。人们在显微镜中惊讶地看到:在受精过程中,大的卵细胞和小的精子结合时,细胞分裂,奇怪的线状结构聚合起来,平均分配到两个新的细胞中。这个过程叫作有丝分裂。

    首先发现基因作用的孟德尔是捷克布鲁诺市(Brno)的一个修道士,1850-1860年,他在修道院花园里通过大量的豌豆杂交实验,奠定了现代遗传学的基础。1856-1863年,孟德尔在杂交实验了大约2.9万棵植株之后,发表了论文《植物杂交试验》。孟德尔认为存在一些遗传物质(后世的科学家把这种物质称为基因)。孟德尔得出一个结论:无论是什么物质决定了遗传,父母双方总是把这种物质等量地传给后代。非常遗憾的是,他的论文在当时没有引起任何人的重视。

    孟德尔没有看到染色体就去世了,但是,他的预言后来被生物学证实是正确的。人类的23对46个染色体,从父母双方等量遗传(除了线粒体DNA和Y染色体)。在受精过程中,染色体这种奇怪的线状物,一部分来自父亲的精子,另一部分来自母亲的卵子。

    1869年,25岁的弗雷德里希·米歇尔(FriedrichMiescher,1844-1895,生物学家,DNA的发现者),在德国图宾根(Tubingen)的一座古代城堡地下室的简陋实验室里发现了核酸(Nucleic acid)。这种物质就是DNA的构成单元。他被认为是DNA的发现者,但是当时没有人注意他的这个发现。

    1903年,人们发现染色体在遗传中可能扮演重要角色。

    1928年,孟德尔叫不出名字的“遗传物质”,第一次被称为基因(Gene)。

    1944年,人们发现DNA是染色体的主要成分,人们将这种物质命名为脱氧核糖核酸(DNA,Deoxyribonucleic acid),并且经过实验确认DNA是遗传基因的载体。这是一个伟大的进步,但是当时大部分人认为蛋白质是遗传物质,这个进步被埋没了。

    1953年,剑桥大学的两个年轻科学家,詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)发现了DNA的分子结构。当时人们已经查清一些蛋白质的结构,沃森和克里克认为,利用检测蛋白质的现成技术或许可以发现DNA的分子结构,然后通过DNA可能找出遗传的奥妙。沃森和克里克使用了分析蛋白质的同样办法:首先使DNA成为结晶纤维,再用X射线照射DNA,大部分X射线会直线穿透DNA分子结构的间隙,从后侧出来,还有一些会撞击到DNA分子结构里的原子,弹到一旁。用X射线的照相胶片上的分布形态和位置,可以推算出DNA内部的原子位置,然后查清DNA的分子结构。

    但是,DNA的这些X射线的照片的形态太奇特了,他们两人很久都没有找到与之相吻合的DNA化学结构。最后,沃森和克里克采用了非常笨拙的“原始”方法,用一条一条的硬纸板和一片一片的金属片和金属丝,构建各式各样的模型,试图重现DNA的结构。他们最后发现有一种双螺旋模型完全吻合X射线的分布。这种模型很简单,像两个螺旋形的梯子扭结在一起。而且这种结构非常稳定——只有稳定的结构才能作为遗传物质。DNA正是一种极其稳定的化学结构,仅由4种核苷酸碱基构成的一种糖类骨架。这4种核苷酸的化学名称如下:
    A 腺嘌呤
    C 胞嘧啶
    G 鸟嘌呤
    T 胸腺嘧啶

    人类的染色体
    4个碱基之一腺嘌呤(A=Adenine)的示意图。莫尔斯电报的“建材”只有2种:点和划,表达我们的语言和信息;DNA的“建材”是4种:4种碱基表达基因的语言和遗传信息
    DNA的结构
    DNA中的4种碱基A,T,C,G

    我们不必记住这些源自希腊语的核苷酸碱基的麻烦名字,只需记住它们的首写字母:A,C,G,T。即使是科学家,也是经过50多年的研究才查清了这4种核苷酸碱基的基本结构。

    对遗传媒介的最重要的要求是可以一代又一代地忠实复制。当细胞分裂时,两个新的细胞核里都必须有一套染色体。每次细胞分裂时,染色体内的遗传物质必须复制成两份。复制的质量必须很高,不允许出现错误。沃森和克里克发现,每个DNA分子都由两条很长的链构成,就像两条缠绕的螺旋形,他们称之为“双螺旋”结构。复制开始的时候,这个双螺旋的两条螺旋解开,分别重新制造出一模一样的另外两个双螺旋,然后再分别存进两个新的细胞里。

    当时,他们不知道自己是否是正确的。起初,他们两人甚至无论如何也画不出一个合乎逻辑的平面结构草图。最后,弗朗西斯·克里克请他的太太,一位英法混血的女画家奥迪尔·克里克绘制出了“世界上第一个DNA的平面图”。然后,克里克拿着这张简陋的草图,高高兴兴地找到喝得醉醺醺的沃森:“你看,就是这样的,就是这个!”然后,他俩才好不容易最终拼凑出这个奇形怪状的立体模型。然后,他们把这个发现写成了论文。1962年,9年之后,沃森和克里克获得诺贝尔奖。

    这些D N A密码写成的“整套装配手册”叫作基因组(genome,又称染色体组),可以组装出完整的独一无二的物理个体,即一个人的全部信息。这套装配手册就像用分子写成的一本《百科全书》式巨著,大约有30亿个文件夹(核苷酸)。

    虽然没有办法作出统计,但人们通常认为一个人大约有100万亿个细胞,每个细胞里都存放了这样一本巨大的装配手册——23对46个染色体构成的基因组。每个基因组的物理长度约2米,所以不能直接插在人体中,更无法放进每一个细胞里。于是,这本“巨著”基因组被折叠起来,螺旋状紧紧缠绕着放在每一个细胞的23对46个染色体里。

    大约46亿年前地球形成,大约35亿年前第一个细胞出现在地球上:基因组出现了,第一个细胞分裂就是基因组的复制。人类已经知道一些基因的功能,虽然还不清晰,而且对大部分基因的功能至今仍然一无所知。例如,我们知道,有的基因装配成为肾脏,有的基因装配成为肺,但是我们却不知道装配的细节;我们仅仅知道这些器官的基本功能,却不知道它们如何工作和相互协调。基因组的这套密码和人体组织过于庞大和复杂了。

    詹姆斯·沃森和弗朗西斯·克里克获得诺贝尔奖,并非因为他俩仅仅拼出了这个奇形怪状的双螺旋结构的立体模型,沃森和克里克还发现双螺旋的两条链的“装配原则”:一条链上的A只能与另一条链上的T相连,一条链上的C只能与另一条链上的G相连。

    A与T
    C与G

    ①DNA的结构②蛋白质把DNA绕成长串小珠③DNA绕成圈④DNA绕成玫瑰花结样式⑤DNA卷成螺线管塞进染色体里。23对46条安放DNA的染色体全部在细胞核里:合称基因组或染色体组

    这是永远不变的规则,从大约35亿年前就开始了,至今没有改变。根据这个规则,4个字母组成的序列被永久保存下来。这种字母序列叫作DNA序列。DNA序列“密码”蕴含着基因信息,又称遗传信息或遗传密码。

    天书的解读

    虽然细胞——组织——器官的复杂程度极其惊人,但是,基本的DNA指令的记录方式却简单得不可思议。DNA序列类似其他字符系统,例如语言、数字、计算机二进制码或莫尔斯电码等,这些DNA序列的符号本身没有任何意义,符号的顺序却蕴藏着大量的信息。

    例如,字母或数字相同,顺序不同,则含义完全不同。

    Derail(出轨)和Redial(重拨):字母顺序不同,单词完全不同。

    803 741和408 137:相同的阿拉伯数字,顺序不同,构成的数值不同。

    001 010和100 100:相同的二进制码,顺序不同,含义也完全不同。

    与此类似,DNA中四种化学代码的序列也包含着不同的信息。例如,ACGGTA和GACAGT是DNA的变位字,在细胞看来是完全不同的,就像Derail和Redial的意思完全不同一样。

    一条链上的序列(一条链上的序列ATTCAG必然和另一条链上的TAAGTC相对应。当双螺旋解开,细胞中的分子复制机器在旧链的ATTCAG位置,相对应地构建了一条新的序列TAAGTC。同时,在另一条旧链TAAGTC位置,就会构建一条ATTCAG的新链。结果,得到两条与原序列相同的新双螺旋。每次过程之后,DNA被完美地复制成两份)

    DNA始终“住在”染色体里,维持遗传信息和发布指令,由RNA和蛋白质执行所有工作。20种氨基酸组成了无数种蛋白质,DNA的指令规定了蛋白质中20种氨基酸的顺序,精确地决定了该种蛋白质的最终的形状和功能,因而决定了某一组织或器官的形状和功能,直到制造出一个完整的人体。

    4个字母组成的DNA序列构成30亿个核苷酸,打印出来是一部巨大的“天书”(2000年完成的《人类基因组工程》把“基因组草稿”(4个字母序列)打印出来之后,相当于“200本超过1 000页的巨著”,这本巨著仅仅由4个字母组成)

    但是对这部巨型的“天书”,细胞阅读起来却一点也不困难。每3个字母,代表20种氨基酸里的一种,于是细胞按照3个字母一组阅读这些DNA代码,例如:ATGACCTCCTTC细胞读为ATG-ACC-TCC-TTC。每个3符号组,称为一个三联体,与20个氨基酸中的1个氨基酸对应:ATG:氨基酸甲硫氨酸;ACC:苏氨酸;TCC:丝氨酸;TTC:苯丙氨酸。

    细胞们一边阅读指令,一边用相应的氨基酸生产蛋白。读出第一个三联体,解码为甲硫氨酸,取下一个甲硫氨酸分子;读出第二个三联体是苏氨酸,取下一个苏氨酸,接在甲硫氨酸上;读出第三个三联体是丝氨酸,一个丝氨酸分子又接到苏氨酸上;读出第四个三联体是苯丙氨酸,再接上一个苯丙氨酸。这四个氨基酸按照DNA序列的指导,现在装配成一小段正确的顺序:甲硫氨酸——苏氨酸——丝氨酸——苯丙氨酸。然后,细胞继续阅读下一个三联体,第五个氨基酸又加上去……如此往复。这种阅读、解码、顺序加上氨基酸的过程,一直持续到全部指令读到尽头……

    本书只讲述人类基因组30亿个文件夹(核苷酸)中两类文件夹里涉及的故事,即分别由母系和父系世世代代遗传的线粒体DNA和Y染色体的故事。(植物学家和遗传学家威廉·约翰森(Wilhelm Johannsen,1857-1927)1909年在自己的著作中第一次使用了基因(Gene)一词)

    这部“人类基因组工程”检测出来的天书,仅仅记录了4个字母构成的30亿个核苷酸在基因组中的位置,既未涉及DNA的复杂结构,也未涉及DNA之间的更加错综复杂的相互关联。此外,人们对于这些“A与T和C与G”密码构成的生命程序究竟是采用什么“语言”编写的?这些生命程序又是什么内容?人类至今一无所知。但是,这个成果已经解决了人类走出非洲六万年旅程的诸多疑问。

    一般认为,10亿根骨头中只有1根骨头可能形成化石。每个人身上有206块骨头,也就是说,全美国3亿人总共只能形成大约60块化石,全中国13亿人只能留下200多块化石。而且更加困难的是,考古学家还必须把这些非常幸运地变成化石的骨头找出来。目前全世界找到的类人猿和人属生物的化石仅仅涉及几千个个体,并且存在很多争议,仅仅通过化石考古,根本无法了解人类起源及走出非洲的全貌。

    通过对现在活着的人的DNA的分析计算,以及化石的DNA的分析计算,人类六万年的旅程终于被大型电脑系统计算出来了。

    黑人的皮肤

    地球上所有的人类都是一个物种、一个起源,都源于非洲,如果真的如此,为何我们的相貌和体形会有这么多差异?尤其是皮肤的颜色?所以,在继续我们的故事之前,首先回答这个困惑人类很多年的问题。

    非洲人有一个共同点,皮肤比较黑。事实上,热带地区的印度南部的人类和新几内亚的人类的皮肤也比较黑,也属于黑人。人类是没有皮毛保护的生物,所以,沉积在皮肤下的黑色素(Melanin)成为人类的一个保护层——防止非洲炙热的阳光晒伤皮肤,因为黑色素能挡住紫外线。那么,在皮下沉积多少黑色素才合适呢?涉及肤色的遗传基因很多,其中发挥主要作用的是一个叫MC1R (melanocortin 1 receptor,黑皮质素1号受体),或称MSHR(melanocyte-stimulating hormone receptor,黑素细胞刺激荷尔蒙受体)。黑色皮肤的形成来自自然选择的压力:因为人类需要更多的黑色素保护皮肤。所以,热带地区的人们的皮肤下沉积了大量的黑色素。

    瓶颈效应时的遗传漂变示意图(发生巨变或灾难导致人口急剧减少时出现瓶颈效应,本来数量相似的球体随机出现蓝球比黄球多的概率,下一代的蓝球就比黄球多。这也是两种DNA后裔不平衡的原因之一。在人类六万年的迁移中,多次发生巨变和灾难。几个氏族的合并点(coalescence point)是远古群体的分离点。人类的群体越小,越容易发生漂变,导致这一代与下一代差异显著)

    6万年前,人类走出非洲,进入紫外线少得多的地区,自然选择的压力颠倒过来,人类需要更多的紫外线——这时,MC1R基因发生突变:人类必须吸收更多的紫外线才能合成维生素D,皮肤太黑的孩子会缺乏维生素D,无法生成健康的骨骼,淡色皮肤的孩子们才能吸收更多的紫外线而健康成长——于是,人类的皮肤颜色变浅(尤其是欧洲和东亚地区的人类)。最后,世界各地的人类,形成了各式各样的肤色。

    来自非洲西部的尼日尔-刚果语系的群体,在2 000-3 000年前扩张到非洲撒哈拉以南大部分地区,目前人口已达3亿多。班图语族的群体皮肤特别黑,他们的形象误导了我们对非洲人的肤色的认识。在现代人类的起源地东非大裂谷——苏丹——埃塞俄比亚——肯尼亚——坦桑尼亚一带生活的非洲群体的皮肤,直到现在仍然并不很黑。

    全世界70亿人中,每一个男人和女人的线粒体DNA都源自非洲,每一个男性(占70亿人中一半)的Y染色体也都源自非洲。除了黑色的皮肤,非洲人和其他各大洲的人类没有区别。例如,几万年前来到欧洲的人类与当时非洲的先祖的样子应该差不多,虽然我们并不知道当时的先祖的真实模样,因为变化是后来发生的。

    第二章 女性线粒体DNA的故事

    20世纪开始,非洲出现“化石大爆炸”,出土的化石超过世界其他地区化石的总和,包括300万——400万年前的化石,甚至2 300万年前的化石。在1987年的DNA检测结果没有出现的时候,考古学家和人类学家也普遍认为非洲是人类的起源地,我们的根在非洲。

    剩下的唯一争议:人类到底有几个起源?到底进化了多少年?

    1980年,两个发明DNA快速测序方法的科学家获得诺贝尔奖,他们是哈佛大学的沃特·吉尔伯特(Walter Gilbert)和剑桥大学的弗雷德里克·桑格(Frederick Sanger)。他们分别独立开发出两种DNA快速测序方法。正是这些快速测序方法的出现,促使伯克利大学的一个研究小组在1987年找到了“线粒体夏娃”:时间在20万年之内,地点在非洲。

    2000年,找到“线粒体夏娃”的13年之后,“亚当”终于出现了:斯坦福大学的两个名叫彼得的科学家——彼得·欧依夫内尔(Peter Oefner)和彼得·安德希尔(Peter Underhill)发明了一种“忽视”具体的DNA序列、仅仅分析计算DNA序列之间差异的新的测序方法。包括这两个彼得在内的合计21个人,2000年联合发表了一项研究成果:大约6万年前,“亚当”出现在非洲。

    但是,新的疑问出现了:为什么“亚当”和“夏娃”的“年龄”相差几万年?

    事实上,“夏娃”和“亚当”都是一种实体(单倍群)概念,根据生物多样性分析计算得到的“夏娃”的年龄比“亚当”的时代久远,并非历史的真实。远古时代,只有少数男性与多数女性结合,很多男性没有能力抢夺配偶和留下后裔。也就是说,女性有更多生孩子的机会。此外,男性负责狩猎,死亡概率较高,或者没有生下儿子,所以很多Y染色体血统绝嗣了;女性负责采集,死亡概率较低,线粒体DNA血统留下的数量和机会更多。种种因素,导致了“亚当”与“夏娃”的年龄相差几万年的情况,但这并不表明“亚当”与“夏娃”的先祖不在同一时期存在于非洲。

    大量多样性分析已经证实:在这两种DNA的世界旅程中,样本数据越多,路线越互相吻合。即使走到遥远的南美洲,建立新的文明,两种DNA分析的结果依然指向非洲。

    6万年前人类走出非洲之后,仅仅经历了大约2 000代。6万年,2 000代,只是遗传学上的一瞬间。从外貌、语言到文明,人类的难以置信的多样性,才是我们智人这个物种的最大特点之一。例如,在有“人类的大熔炉”之称的美国,现在已经找不到多少“纯种”的非洲裔美国人了,正式登记的混血黑人比例超过30%,包括现任的美国总统奥巴马。真实的混血无法统计,以至于美国国家统计局在现在的美国人口普查中已经难以分类。

    6万年前走出非洲散布四方之后,全球一体化把人类重新聚集在一起。

    18世纪,瑞典的科学家卡尔·冯·林奈尝试将世界上的生命进行分类拼图,这是欧洲早期殖民主义努力的一部分。林奈的任务庞大而艰巨,他要归纳整理的不仅是在瑞典可以看到的生命,而且包括正在不断增多的从世界各地带回欧洲的大量物种。林奈创造出现代的系统命名法,他把生命分为两个界:植物界和动物界,然后在下面又分为门——纲——目——科——属——种。

    林奈是按照动物和植物的外形进行分类的,例如鱼鳍的形状、蹄子的差异等。林奈没有解释为什么这样分类,他当时认为是“上帝创造出了这些差异”。其他的生命,例如原生生物(Protist,单细胞生物)和真菌(Fungus)等,现在已经从林奈当时划分的“植物界”分化出来,成为单独的界(Kingdom )。还有一个界,当时被林奈完全忽略了,即原核生物界(Kingdom Monera),这是德国的恩斯特·海克尔(Ernst Haeckel,1834-1919)提出的,显微镜技术终于进步到可以识别这些微小的生命组织。虽然恩斯特·海克尔提出了“细菌”一词,遗憾的是,他并没有真正看到过细菌。

    林奈的分类体系蕴含着一种正确的假设:任何生命组织,仅仅属于某一实体的成员,一个生命组织不可能既属于植物又属于动物。20世纪的研究证实,所有生命组织都是各种动物到细菌的“组合”,至少在分子层次上全部都是如此。人类也是多种生物的“组合”。仅由女性遗传的线粒体DNA,正是一个太古时代的古细菌。

    人类基因组测序发现:人类与其他生物(黑猩猩)的最大差异不超过2%,人类基因中的大约8%的DNA序列与细菌病毒相同。这只能导出一个结论——人类是动物和细菌病毒拼合组装的。这个结果不仅被反复证实和接受了,并且被好莱坞电影大肆渲染,从《动物总动员》、各种机器人系列到《钢铁侠》系列,都描述了各种“拼装的怪物”。对于这场生命认识的革命,英国生物学家罗宾·韦斯(Robin Weiss,1940-)说了一句值得深思的名言:“如果达尔文出现在今天,他会感到非常惊讶,原来人类是猴子和各种病毒的后裔。”

    动物细胞
    动物体内的能量工厂是线粒体,线粒体用氧气生产ATP能量
    植物体内的能量工厂是叶绿体,叶绿体用二氧化碳进行光合作用

    生命,与物质不同。生命,有生有死,DNA代代相传,独立于外部世界。组成各种生命的过程太困难了,所以各种生命组织必须长期“合作演化”(中性)。遗憾的是,有些病毒和细菌过于暴虐,它们很快杀死了自己的宿主,自己也随之死亡了。只有和谐共处的细菌和病毒,现在还随着宿主世世代代继续过着幸福的生活,直至融为一体。

    现在的生物分类,早已远远超出了林奈时代的两个界(kingdom)——植物和动物两界,已经被生物界正式扩展为三个域(domain)、八个界,外加病毒(这种分域和分界仍在继续争议中)。在新的生物分类中,人类变成范围更广泛的“细胞生物——真菌域——动物界——灵长目——人科”的幸存的唯一的一员。

    英语细胞(Cell)一词来自拉丁语Cella,意思是“小房间”。换句话说,线粒体DNA住在细胞这个小房间里的一个“小隔间”里,即住在自己的细胞膜里。人类基因组的46个染色体是长长的线形的,绕成螺旋塞进细胞核。而线粒体DNA是圆环形,细菌的DNA全部都是圆形的。

    线粒体在大约十几亿年前是一个自由生活的细菌,不知道什么原因,也无法确定是什么时候进入了哺乳动物的细胞里,开始半独立“自治”,负责生产能量。线粒体的功能是利用氧气制造能量。细胞越有活力,需要的能量越多,包含的线粒体也越多。活跃的生物组织(如肌肉、神经和大脑)的每一个细胞里,都含有成千上万的线粒体。线粒体生产的是高能分子ATP。

    我们身体的100万亿个细胞里的线粒体生产的ATP的数量很大,每天的产量大约相当于人类体重的一半,具体数量至今还没有权威的统计。有机组织做任何事情都用ATP作为能源,比如心肌收缩、看书时视网膜神经冲动、大脑进行思考等,人类的体温也是依靠ATP来维持在大约37℃的恒温。

    使用氧气是细胞进化过程中的一个巨大进步。利用同等数量的燃料,细胞在使用氧气的情况下,比不使用氧气能够制造更多的高能ATP,即可以增加20万倍的能量。换句话说,我们每日三餐摄入的营养,只是我们的活动能量的很小一部分,我们人类主要的能量是线粒体用氧气制造的,新鲜的空气(氧气)比任何食物都更加重要。人不吃饭可以存活几周甚至更长时间,但是,人不呼吸则几分钟内就会死亡。所以,无污染的环境中的清新空气比再好、再多的食物都更加重要。

    这种“20万倍的效率”如果与细菌的线粒体相比,我们人类又差得太远了,很多细菌每天可以从一个细菌繁殖成几万个几十万个细菌;如果生存条件合适,有的细菌一天可以繁殖到几十亿个。这些小小的微生物已经在地球上生存了大约35亿年,它们的本事显然比我们人类强大得多。

    线粒体DNA

    大约十几亿年前,线粒体进入大的微生物并定居其中。线粒体DNA只有16 569个核苷酸,这与拥有6 000万个核苷酸的Y染色体DNA相比确实非常小。线粒体DNA不在细胞核的染色体组(基因组)里,也不参与卵子与精子的重组。父亲的精子里的线粒体很少,仅在尾基部,这些线粒体只为精子提供有限的“动力”:精子游到子宫、钻入卵子的动力,然后残余的线粒体就被丢弃,没有进入卵子参与胚胎的形成。此后,所有线粒体都是母亲的线粒体。换言之,无论儿子还是女儿,都仅仅继承了来自母亲的线粒体DNA,男性的线粒体不会遗传给下一代。因此,线粒体DNA成为我们追踪女性先祖的线索。

    核细胞DNA传承给所有后代
    线粒体DNA仅仅单一地由女性传承给后代,父亲的线粒体没有继续传承

    随着细胞的分裂和复制,无论女性的线粒体的DNA,还是男性的细胞核里的Y染色体DNA,都会偶尔产生一些简单的错误,造成DNA的改变,称为突变。细胞的错误校正机制能够修正绝大部分错误,只有一小部分突变会逃过这种监督机制,保存下来。这些突变,如果发生在产生卵子和精子的生殖细胞里,就会遗传给下一代。发生在身体其他细胞中的突变,则不会遗传给下一代。大多数DNA突变,对于人体的健康是完全没有影响的(无害的),只是某些非常偶然的机会,突变才会影响某些特别重要的基因,使其失去功能,最坏的可能性是造成严重的遗传疾病。

    细胞核DNA(基因组)中发生突变的频率极低,每一次细胞复制时,大约10亿个核苷碱基中才会发生1-50个突变。对比之下,线粒体的错误校正机制能力较低,“漏网”的突变大约为细胞核DNA的100倍。也就是说,如果我们把DNA中累积的突变的数量作为计算时间长度的一种“分子钟”,这个分子钟在线粒体中比在细胞核中要走得快得多。这样一来,线粒体作为人类进化调查的工具,就更有吸引力了。

    遗传学家正是利用这一点,通过计算累积突变的数量推算出了人类起源的时间。但是,如果突变速率太慢,就会有太多人的线粒体DNA完全一样,导致没有足够的多样性来对比差异(分析随着时间变迁发生的差异)。这是“夏娃发现较早、亚当发现较晚”的原因之一。

    古人的线粒体DNA

    史书留下历史的躯干,亲历者的回忆赋予历史血肉。所有的历史都是这样组成的。1990-2000是基因科学发展的关键时代。1990年启动的规模巨大的“人类基因组工程”在美国、日本、英国、德国、法国、西班牙以及中国等地进行,这里面只有少数几个研发团队活跃在媒体之间,其中相当著名的一群人是牛津大学医学教授布莱恩·赛克斯(Bryan Sykes,1947-,牛津大学人类遗传学教授,1989年发表论文报告首次在古代遗骸发现线粒体DNA)的团队,他们最先找到了古人的线粒体DNA,并且多次在媒体发表了这些发现。

    1989年,布莱恩·赛克斯在古代人的骨骼中找到了线粒体DNA,他也是生物时代的无数改行和跨行的科学家之一,正像丽贝卡·卡恩等人并非考古学家一样。这一个时期,如前所述,被称为间接观察DNA的时代。在“线粒体夏娃”的论文发表之前,赛克斯是牛津大学分子医学研究所的遗传学教授,研究一种很麻烦的骨骼遗传病——胶原蛋白及其基因在人群中的变异。1987年,赛克斯看到媒体公开了一项重要新发明:加利福尼亚州的凯利·穆利斯(Kary Banks Mullis,1944-,分子生物学家,1983年对聚合酶链式反应(Polymerase chain reaction)作出重大改进,成为广泛应用于医学、生物化学和分子生物等领域的基本技术之一。1993年,他因这一发明获得诺贝尔化学奖)发明出一种方法,可以在试管里扩增非常微量的DNA,甚至可以扩增单个分子。

    1983年,一个星期五晚上,穆利斯沿着海岸的101号高速公路行驶,薄雾润湿了夜色,树的花香弥散在空气中。穆利斯当时在旧金山湾区的一家生物技术公司上班,他一边开车,一边和身边的女友谈论他的工作。他也正在用试管复制DNA。这是一个极其缓慢的过程,DNA分子一次只能复制一份。DNA像一根长长的线,复制过程从一端开始,在另一端结束,然后再从起点开始复制另一条……非常麻烦。穆利斯说着这件事的时候,脑海中突然出现了一个灵感。如果不是从一端开始复制,而是从两端同时开始复制,那么,一种可持续链式反应就启动了。这种反应不再只是复制原始模板,还能复制已经形成的复制品——每次循环都使复制品数量翻一番,再也不是2个循环复制2份,3个循环复制3份……而是每个循环都翻倍,1-6个循环中依次产生2份,4份,8份,16份,32份,64份复制品,而不是 1,2,3,4,5,6……经过20个循环之后,得到的不是20份复制品,而是100万份。

    这项发明对遗传学研究产生了革命性影响,因为这种办法意味着可以从极其微量的组织碎片中得到无限多的DNA以供研究。一根头发甚至一个细胞就可以制造出任意数量的DNA,想要多少就有多少。

    1987年,没有笔记本,没有互联网,只有杂志和报纸。
    1987年,很多人还不相信DNA。

    看到媒体报道的穆利斯的方法,赛克斯决定放弃对胶原蛋白的研究。如果古代骨骼留有DNA的话,为什么不直接研究DNA呢?赛克斯想用这种新发明的链式反应扩增DNA,他需要一些很古老的骨骼试一试。世界上第一次从古人的遗骸上提取DNA的过程就这样开始了。现在回忆这些,或许有些可笑,现在的中学生可以做到的事情,当时竟然是牛津大学教授的课题。

    1988年,媒体报道在牛津南边约1英里(约1.6千米)的阿宾登(Abingdon)正在进行考古发掘。当地在建造一家超市时,挖土机铲到了一个中世纪墓地。考古队要在两个月限期内清空这个遗址,不然开发商就要进来了。赛克斯赶到时,这里正在忙乱,几具骨骸被挖出一半,沾满棕红色泥土。赛克斯觉得不能乐观。做了几年DNA研究,赛克斯的操作已经非常小心翼翼。潮湿的样品一般是在零下70摄氏度保存,如果从冰箱里取出来,要求放在冰盒里。如果由于疏忽让冰化掉了,只好扔掉,因为DNA可能已降解破坏了。没有人会认为潮湿的DNA可以在室温下放置几分钟而不损坏,更别说埋藏在地下几百年。不管怎样,试一试吧。赛克斯从发掘现场带走了三块大腿股骨。

    回到实验室,赛克斯必须决定两件事:
    1.怎么把DNA提取出来。
    2.选择什么区段来进行DNA的扩增反应。

    第一个问题比较简单。只要还有DNA留存,很可能被骨骸的钙质束缚着。这时,只须想办法把DNA从钙质中释放出来。

    赛克斯用一把钢锯把骨头割成小片,在液氮里冰冻,再砸成粉末,然后浸泡在一种化学试剂里,试图在几天时间内慢慢地去掉钙。很幸运,钙质全部去掉以后,试管底部还留下一些东西,这是残剩的胶原蛋白、其他蛋白、细胞碎片,可能还有脂肪。当然,赛克斯希望还有几个DNA分子。赛克斯决定用一种酶来去除蛋白质。酶是生物催化剂,可以加快反应速率。他选了一种消化蛋白质的酶,然后再用氯仿去除脂肪,用苯酚清洗剩余物。最后剩下一小茶勺的浅棕色液体,这里面至少理论上应该含有DNA——可能只有几个分子,所以下一步分析必须用新的DNA扩增反应来增加DNA的数量。

    骨骸里如果留有DNA,也不会很多,所以赛克斯选择了线粒体DNA。原因很简单,细胞里的线粒体DNA比其他任何基因都多。扩增线粒体DNA所需的所有配料都加到反应体系中了,要使反应在试管里运行起来,必须持续煮沸——冷却——加温数分钟,然后再煮沸——冷却——加温……不断重复这种循环,至少20次。

    现代遗传学实验室里,到处都是自动运行这种反应的机器,但是当时还没有。1980年代,市面上仅有的机器价值连城,赛克斯连一台都买不起。进行这种反应唯一的办法是拿一个秒表,面前放三个水杯,一个沸水,一个凉水,一个温水,再把试管每隔3分钟徒手从一个水杯转移到另一个水杯……重复操作,再重复,一共进行几个小时。赛克斯试了一次,没成功,只好改用家里的电水壶再试一试……此后三个星期,赛克斯一直和电线、计时器、温度计、继电器、铜管打交道,外加洗衣机水阀和他家里的电水壶。最后,赛克斯制造了一个装置来操作所有要做的事。这个装置先沸腾,洗衣机水阀打开,冷的自来水注入螺旋铜管后,装置很快冷却,然后再加温……这个装置运行了起来。非常幸运,扩增反应成功了,几百年前的死者的DNA——坟墓里的中世纪的人“复活”了。

    早期的提取古人DNA的故事,像大多数科研一样,没有预先设定的步骤,没有完美的研发目标,没有理性策略……当然也没有预定的途径,每次只能进展一点点,而且对于结果和未来一无所知。

    在科学界,不承认谁先做出实验,只承认谁先发表结果。其他人哪怕比赛克斯提前一天发表结果,荣誉也会归于别人。幸运的是,赛克斯说服英国《自然》(Nature)的编辑,在最快的时间里刊登了论文。

    1989年圣诞节前,赛克斯的文章发表了。接下来发生的事情,赛克斯毫无准备。第二天上班时,赛克斯的电话响个不停,整整一个上午都是有关他的科学论文的采访和问询。

    从古人骨骼中提取古DNA最困难的事情之一是,扩增的DNA可能属于其他人的DNA(样本污染),而不是化石的DNA——除非极为细心。即使古代的DNA存在,也是支离破碎的。化学变化,尤其是氧化,会慢慢改变DNA的结构,使DNA变成越来越小的片段。只要有微量的现代人的DNA进入反应,聚合酶就会以完好的现代人的DNA为模板,产生几百万份现代人的DNA复制品,因为聚合酶并不知道需要扩增的是古人的DNA片段还是现代人的DNA片段。也就是说,结果看上去很成功,检测核实才会发现是现代人的DNA,根本不是化石的DNA,正是实验者本人的DNA。虽然赛克斯确信阿宾登骨骼实验中没有发生这种情况,但他还是想了一个办法来检测——通过提取古代动物的DNA,而不是古代人骨的DNA,查清扩增出来的是真实的动物DNA,还是“污染”的人类DNA。赛克斯想到古代动物骨骼的最佳来源是沉船“玛丽罗斯号”(Mary Rose)。

    1545年,这艘英国战船在朴茨茅斯与法国舰队交战时沉没,只有少数船员幸存。沉船在14米深的水下淤泥中沉睡了400多年,1982年才被打捞出来,陈列在朴茨茅斯港博物馆,浸泡在抗冻剂和水溶液中以防止散架。沉船中除了发现罹难船员遗骨外,还有很多动物和鱼类的骨骼。这艘船沉没的时候装满了货物,包括牛和猪,还有成桶的腌鳕鱼。赛克斯说服博物馆长,拿走一根猪肋骨进行检测。由于这根肋骨大部分时间都埋在海底缺氧的软泥里,保存相当完好,赛克斯没花费多少力气就成功地得到了大量DNA。

    经过检测,这些DNA毫无疑问属于一只猪,而不是一个人。这个过程也被媒体报道了,《星期日独立报》(Independent on Sunda)的一篇文章的题目为《猪是DNA研究的功臣》。这些报道使得赛克斯成为“名人”,所以他后来被邀请去检测“冰人”的DNA。

    “冰人”来自阿尔卑斯山。

    1991年9月19日,埃丽卡·西蒙和赫尔穆特·西蒙(Erika Simon,Helmut Simon)夫妇在攀登阿尔卑斯山3 516米的菲奈尔斯匹兹峰(Finailspitze)的时候偏离了标记的道路,来到一条小道,发现了一具露出冰雪的男尸。尸体旁边还有个桦树皮做的容器。从罹难者的装备来看,这件高山事故发生的年代距今相当久远。这是一具几千年前的尸体。这件事情成为世界上一项重大的考古发现。这个干瘪的遗骸被运到奥地利因斯布鲁克(Innsbruck)的法医研究所冰冻储藏起来,它被命名为“冰人奥茨”(Otzi the Iceman),多国科学家组成的小组对这具独特的尸体作了一次仔细检査。因为赛克斯的牛津研究小组最早从古人类骨骼中发现了DNA,所以,他也被找去看看能不能在这个冰人中找到DNA。

    赛克斯无法拒绝这个天赐良机,他甚至从此放弃了他的本行——传统医学遗传学的研究,转到全新的科学领域——线粒体DNA的研究上来,并开始了一系列的发现。经过碳同位素测定,这个冰人生活在5 000-5 350年前。虽然这比赛克斯以前研究过的年龄几百年的人类遗骸古老,但是成功的希望很大。因为尸体一直是在冰里面深冻保存,避免了水和氧气对DNA的破坏。

    赛克斯采用了他在其他古代样品中曾经成功的步骤——抽提那些小碎骨中的DNA,他成功地得到了冰人的DNA,而且数量很多。赛克斯把这项研究结果及时发表在美国的《科学》(Science)杂志上。慕尼黑的另一个研究团队也独立地从“冰人”身上得到了DNA序列,而且两个团队检测出的DNA序列完全相同——奥茨是欧洲人,在现代欧洲人的DNA样本中,也找到了完全一致的DNA序列。

    这些结果发表后,引起了一系列的媒体采访。《周日时报》(Sunday Times)的记者刘易斯·罗杰斯(Lois Rogers)问了赛克斯一个重要问题:“你说你们在欧洲现代人中发现了完全一样的DNA序列,他们到底是哪些人?”她的口气显示,她非常期望得到具体的答复。

    “到底是哪些人?你这个问题是什么意思?他们就在我们从全欧洲采集的那些样本里。”

    “我知道,但是他们到底是哪些人呢?”刘易斯坚持问道。

    “我还不清楚。我们分类保管存放提供样本者的身份资料文件,而且采集样本的时候,我们答应为提供样本者严格保密。”

    放下电话后,赛克斯打开电脑,想看看到底哪些样本的DNA序列与“冰人”的DNA序列一致,LAB2803就是一个。编号前缀LAB表示这份样品来自实验室的工作人员或来访者或朋友,这位LAB2803名叫玛丽·莫斯里(Marie Moseley),她与“冰人”的DNA序列完全一致,这意味着莫斯里是“冰人”的一个亲戚。也就是说,莫斯里的母亲和“冰人”的母亲之间,一定存在着某种尚未中断的女性血统遗传联系,这种联系被线粒体DNA忠实记录下来了。

    玛丽住在英国波恩茅斯(Bournemouth),她本人不是科学家,但她对遗传学有着浓厚的兴趣。为了科学研究,两年前她捐献了自己的两根头发。赛克斯不知道她是否愿意公开这个与她本人有关的发现。赛克斯打电话问她,是否介意把她的名字告诉《周日时报》时,玛丽满口答应。于是,《周日时报》刊登的一系列报道中增加了关于玛丽的一篇文章,题目为《“冰人”的亲戚在多西特》。

    几个星期以后,玛丽成了世界名人。所有报道中最滑稽可笑的是《爱尔兰时报》(Irish Times)的文章。记者问玛丽,她的这位著名祖先是否留给她什么遗产,她说什么都没留下,于是这家媒体的文章题目成为《“冰人”在波恩茅斯留下了他的穷亲戚》。

    从5 000年前的古人“冰人奥茨”身上成功提取DNA几年后,赛克斯又成功提取了一个1.2万年的古人的DNA。

    旧石器时代晚期的人类遗骸非常少,一万年又很长,只有在最合适的环境下,骨骼才能保存一万年,因此,幸存的骨骼成为珍宝,是博物馆里严加保护的标本。DNA分子非常稳定,但是无法独立长期保存,必须在骨骼里才能存留,因为骨骼和牙齿的无机物——羟磷灰石(钙质)可以隔离细菌,保护蛋白质和DNA免于降解。只要这些无机物保持完好,DNA就能幸存下来,一旦离开钙质保护,暴露的DNA很快就消失了。钙质是碱性,所以在碱性土壤中保存较好。在中性和酸性土壤中,DNA的寿命短得多,因为骨骼的钙质会被酸性溶解。高热对DNA的保存也不好,埃及木乃伊可以找到DNA,尤其是王室或富人的木乃伊,但是埋藏较浅的木乃伊的蛋白质和DNA,仅仅经过2 000-3 000年就没有了,因为无机钙质虽然不受高温的影响,但有机分子却在沙漠酷热下很快就分解流失了。赛克斯将注意力转向了欧洲北部的石灰石洞穴,那里的环境是碱性。

    英国最著名的石灰石洞穴是切达(Cheddar)峡谷的洞穴,位于巴斯(Bath)西部20英里,其中最大的一个是高夫洞穴(Gough’s Cave)。这个地区的切达奶酪(Cheddar Cheese)非常著名。1903年,高夫洞穴出土了一个切达人,碳14测定约9 000年,骨骼保存在伦敦自然历史博物馆,由人类起源组的组长克里斯·斯特林格负责。赛克斯打电话给他,确定了一次约会。在克里斯的现代化办公室里,赛克斯解释了他的来意。克里斯希望知道,如果允许赛克斯取样,提出DNA的成功概率有多大?赛克斯无法给出明确答复。5 000年的冰人成功了,并不能保证切达人也能成功。克里斯当然舍不得让赛克斯对“切达人”这种珍贵标本进行破坏性取样。赛克斯提出一个建议:如果有高夫洞穴出土的相同年代的其他动物骨骼,可以先拿那些骨骼做试验,如果试验成功,就证明高夫洞穴的条件可以保存上万年的DNA。

    克里斯手里确实有几十块来自高夫洞穴的动物骨头。于是,赛克斯带着一小块鹿骨回到牛津大学。不到一个月,赛克斯带着好消息回到克里斯的办公室:鹿骨里面保存着足够的DNA。克里斯觉得这一证据很充分,同意赛克斯对人类化石取样。这一次,赛克斯终于如愿以偿带着一块切达人的骨头,再次回到牛津大学的实验室。

    第二天,赛克斯小心翼翼地钻孔取样,得到切达人骨粉,但是没有看到任何DNA的迹象。赛克斯回到伦敦,告诉克里斯这个坏消息。两人一边闲谈,赛克斯一边注视着旁边一个下颌骨的牙齿。牙齿上的珐琅质磨损了,牙却没有腐烂,看上去比赛克斯自己的多处修补的牙齿更为健康。当赛克斯向克里斯谈到这颗牙齿时,克里斯说:“如果你觉得这些牙齿不错的话,过来看看这个吧。”他把赛克斯领出办公室,走进了一间有很多存储柜的大房间。克里斯拿出另外一个小木盒子,这是一个更年轻的男性下颌骨,牙齿规整,没有一点磨损,似乎刚刚做完牙膏广告。赛克斯以为这些牙齿只有几百年,克里斯告诉他,这是一个生活在1.2万年前的年轻人的牙齿,比切达人还早3 000年,是1986年他亲自从一个山洞里发掘出来的。

    DNA结构示意图

    DNA能不能藏在未破损的被牙釉质保护的牙齿里面?切达人的DNA实验失败了,而且任何人都没有从牙齿中成功提取DNA的经验。离开克里斯的办公室时,赛克斯承诺会设计出一种方法,在牙齿钻孔而不影响牙釉质,让牙齿继续留在颌骨上。而克里斯则承诺,如果赛克斯能做到这些,则允许赛克斯带走高夫洞穴样本中的一个。不到两个星期,赛克斯又来了。他的牙医帮他设计出一个办法,可以钻孔取出一点牙本质,然后修复钻孔。于是,赛克斯带着这个颌骨回到牛津。

    第二天,赛克斯开始提取DNA。赛克斯得到的牙粉很多,约200毫克,赛克斯取了50毫克,其余的足够进行重复实验。接下来,他开始了抽提DNA的实验。第三天晚上,赛克斯从牙齿中找到了线粒体DNA。此后两个多星期,赛克斯仔细检查DNA序列,并进行了复核。赛克斯看到了迄今为止全世界从人类化石中成功提取出来的最古老的DNA序列。但是,这并非最重要的。关键信息在DNA序列本身的细节里——它和现代欧洲本地人的序列一样吗?如果不一样,难道它是一种已经绝灭的类型?经过检测,最终答案明确了:高夫洞穴的古代DNA序列,与现代人完全一致。

    媒体又开始大肆报道。电视制片人菲利浦·普里斯特里(Philip Priestley)当时正在制作一个考古系列,其中一集是切达的撒克逊人(Saxon)的故事。他希望在拍摄时,切达地区的某一个人能够与考古结果联系起来,产生轰动效果。但是赛克斯告诉菲利浦,上一次提取切达人的DNA的失败了。于是,菲利浦·普里斯特里去说服克里斯,又给了赛克斯一个切达人的下颌骨。经过另一次惊心动魄的旅行,这块下颌也被顺利锁进了牛津大学的保险柜。几天之后,9 000年的切达人的牙齿的DNA序列终于被成功提取出来。

    参与电视系列的20个志愿者中,检测出3个人的DNA与切达人的DNA完全一致,他们是2个孩子、1个成人——阿德里安·塔吉特(Adrian Targett)。赛克斯不希望十几岁的孩子涉及媒体的渲染报道,普里斯特里同意了。在节目现场,菲利浦和他的团队组织了一场公开的“揭密”:阿德里安在摄像机面前当场被确认为“切达人的亲戚”。

    第二天路过报摊时,赛克斯几乎不敢相信自己的眼睛,切达人的故事成为所有报刊的头版新闻,包括《泰晤士报》,阿德里安都是封面人物,旁边是他著名的化石亲戚。赛克斯买下了一大堆报纸。此后几个星期,赛克斯每天都要收到一大包邮件。电视播出之后的几周里,切达人的故事传遍了整个世界。现在的切达地区成为英国的一个旅游热点,切达人的故事也被媒体宣传得几乎走样了:“英国人的最古老的居住点在切达,这里出土了1个9 000年的切达人,英国考古学家、生物学家和遗传学家们发现了这个古人,同时发现这个古人的1个亲戚还住在这里,他是一位当地的教师”……切达出产的奶酪,从此更加畅销了。

    基因的表达

    宗族母亲与金丝熊

    1987年,“线粒体夏娃”的发现公布后,所有人都意识到,如果要用线粒体DNA深入地研究我们智人这个物种的遗传史,需要跨越至少15万年的人类进化史。如果每25年算作一个世代,就是6 000代人。这个结果来自500个碱基的一段控制区。如果这个线粒体DNA控制区的突变太多、太不稳定,经过几个世代后,很难甚至不可能区别重要的信号和所有偶然的变化。在花费大量的时间和金钱研究世界各地的众多的人类群体之前,必须用某种方法检验一下。但是,怎样才能找到宗族母亲呢?最理想的是找到家谱完备、确证母系源自同一女性的一大批活人。但是,在哪里找到既有完备家谱、又有很多活人的家族呢?

    作为一个宗族母亲,必须具备两个基本条件:
    第一条,她必须有女儿。
    线粒体DNA是母亲传给女儿的。只有儿子的女人是不可能成为宗族母亲的,因为她的儿子们永远也不会从她那里传承下去线粒体。
    第二条,她必须至少有两个女儿。

    宗族母亲(宗族母亲必须有两个女儿,而不是一个女儿。母系祖先是这8个女人最晚近的共同祖先——她的母亲当然也是此后所有女人的母系祖先,但她母亲不是最晚近的,她本人才是。她的两个女儿也是后继的女人的母系祖先,但没有一个是所有这8个女人的共同母系祖先。也就是说,如果将上图视为一个宗族,只有标为MRCA的这个女人是宗族母亲。不论8个人还是800万人的宗族都适用这同一原则(MRCA,Most Recent Common Ancestor:最晚近的共同先祖))

    宗族母亲是一个宗族所有成员的母系祖先,一代兄弟姐妹的母系线会在母亲那里聚合,两代堂(表)兄弟姐妹的母系线会在他们的祖母那里聚合,三代的堂(表)兄弟姐妹的子女的母系线在曾祖母那里聚合……以此类推,几千代以前,至少两个女儿的血统会联结在一个女人身上——这个人,就是宗族母亲。宗族母亲只有一个,但宗族母亲并非当时唯一的女性,她是唯一一个把不间断的母系血统延续至今的人。

    一天晚上,赛克斯在回家的路上,思考着一些其他的事情,一个念头突然从脑海深处浮现出来。他自己也不知道怎么回事,一刹那仿佛找到了答案,甚至根本来不及弄清楚为什么——他突然想到了金丝熊。在英国的少儿百科全书中记载,全世界所有的宠物金丝熊,都是同一只母金丝熊的后代。读过这本书以后的几十年里,赛克斯再也没有想起过这件事。现在金丝熊的故事突然冒了出来。

    这个故事可能不是真的。但如果是真的呢?那么,这是检验控制区稳定性的理想方法。全世界所有的金丝熊,都可以通过母系关系联系到那个“世界金丝熊之母”。线粒体在金丝熊中肯定也通过母系关系遗传,就像人类一样。赛克斯要做的事情就是收集一些活的金丝熊,然后比较它们的控制区序列。不需要完备的家谱,如果它们真的是从一个母体开始的,无论如何都可以追溯回去。如果控制区稳定,那么,所有活着的金丝熊的DNA序列应该是一样的,至少是很接近的。

    克里斯·汤姆金斯是一个本科生,1990年夏天进入赛克斯的实验室,开始他最后一个学年的遗传学实习。赛克斯让他收集关于金丝熊的信息。克里斯首先发现,它们根本不叫金丝熊,它们的名字是叙利亚仓鼠。然后,克里斯又去了牛津公共图书馆,又带回另一个好消息:英国有一个大不列颠国家叙利亚仓鼠协会。他给那个协会的秘书打了电话。第二天,赛克斯等人去了伦敦西部的伊灵(Ealing)。大不列颠叙利亚仓鼠协会的秘书罗伊·鲁滨逊(Roy Robinson)热烈欢迎了来访的赛克斯、克里斯和马丁·理查德。

    鲁滨逊先生是一个自学成才的业余科学家,他的书房堆满了动物遗传学的书籍,其中很多是他自己写的。鲁滨逊拿出了有关叙利亚仓鼠的书,他证实了赛克斯读到的故事。

    1930年,一个动物考察队来到叙利亚西北阿勒颇 (Aleppo,现名Halab)的山区,捉到4只小啮齿动物,1只母的,3只公的,把它们带回耶路撒冷的希伯来大学,放养在一起。那只母鼠很快怀孕,生下一窝幼崽。喂养这些小鼠类并不困难。希伯来大学把越来越多的小老鼠送给世界各地的医学研究所。这种实验动物脾气很坏,有时会咬人,但作为大白鼠和小白鼠之外的又一个选择,它们很受欢迎。1938年,第一批叙利亚仓鼠移民美国。如果实验动物过剩,人们往往会把它们带回家,当宠物喂养。随着时间的推移,叙利亚仓鼠从一个家庭到另一个家庭逐渐流传开来,名气也越来越大。商业饲养者开始把它们列入商品目录,大批叙利亚仓鼠爱好者也出现了。1947年,一个繁殖群体中出现了一只花斑叙利亚仓鼠。这是以后出现的众多毛色品种中的第一种,原因是毛色基因的自然突变。突变品种交配培育出纯种品系也不困难。饲养者永远渴望新的毛色,后来出现大量突变,形成各种纯系——奶油色、肉桂色、缎纹、龟甲色等。叙利亚仓鼠是一种可爱的宠物,各种不同毛色更增添了它们的趣味。这个群体开始扩张,目前,全世界作为宠物饲养的叙利亚仓鼠已经超过几百万只。

    鲁滨逊带着大家参观他的饲养场,赛克斯一行简直不敢相信自己的眼睛。每个笼子住着一家叙利亚仓鼠,一层一层叠起来的笼子上,都贴着标签并编着号码。鲁滨逊收集了人们培育出的每一种纯毛色的品种,通过杂交,进行遗传学分析。鲁滨逊先生在叙利亚仓鼠界非常出名,人们每发现一种新毛色品种,都会送给他,这里成为一个叙利亚仓鼠的世界标本室。

    这次访问很有成果,赛克斯一行从鲁滨逊收藏的所有品系中的每一种仓鼠身上都取了一些毛发。鲁滨逊先生还提供了世界各地叙利亚仓鼠繁殖饲养俱乐部的联系方式。与赛克斯和克里斯同行的马丁·理查德兴趣盎然,他在回家途中的一个宠物店买了一对叙利亚仓鼠。

    回到实验室,大家开始讨论怎么向世界各国的叙利亚仓鼠爱好者们索要更多的样本。提取和检测线粒体DNA需要很多毛发,叙利亚仓鼠的毛发细,虽然它们不在乎被拔掉一些毛,但是它们的主人会不高兴。赛克斯他们必须找出其他的DNA收集方式。他们想出一个似乎很荒唐的念头。DNA扩增反应很有效,叙利亚仓鼠的粪便中会不会留有一些大肠壁上脱落下来的细胞呢?无论多么珍爱宠物的主人,应该也不吝惜为科学研究提供一些宠物粪便吧。

    粪便到底行不行,只有一个办法来验证。第二天,马丁·理查德带来了他的新宠物的新鲜粪便,又干又皱,很像老鼠屎。克里斯把粪便放在试管里,煮了几分钟,在离心机里把杂质沉淀下来,然后取了一滴,进行DNA扩增反应。试验成功了。这个夏天的后来一段时间里,世界各地的叙利亚仓鼠爱好者寄来了一个又一个小包裹。最后,赛克斯他们取得了35个叙利亚仓鼠的DNA。克里斯很快完成了它们的线粒体控制区测序:它们完全相同。这证明“金丝熊的故事”确实是真的,全世界所有的宠物叙利亚仓鼠,真的来自同一个母体。对赛克斯来说,这个实验证实线粒体DNA控制区保持了足够的稳定。从叙利亚沙漠捕到的第一只仓鼠,到世界每一个角落的几百万个曾孙的曾孙的曾孙……控制区DNA都忠实地进行了复制,没出一个错误。

    赛克斯产生了一个想法:最快速率下,叙利亚仓鼠每年可以繁殖4-5代。以这个速率计算,1930年至今应该至少繁殖了250代叙利亚仓鼠,无论这35个叙利亚仓鼠的DNA能不能追溯到1930年的同一个母系先祖,它们的DNA序列完全没有差异这一事实,也足以打消赛克斯的控制区突变可能发生太快的疑虑。事实上,这里是一段非常可靠的区段,没有变幻无常的突变,有可能追溯几百代,从而探索出人类自己的祖先。当然,也有另一种可能,控制区在仓鼠体内很稳定,但在人类体内却不稳定。不过,赛克斯认为这种可能性不大,他准备赌一次。

    事实上,不只赛克斯有这样的兴趣,世界上很多科学家很快也有了类似想法,他们意识到了线粒体DNA在解读人类进化中的奥秘和价值。把老鼠的实验扩大到人类先祖,首先要找几个人类试一试。赛克斯在欧洲的人类中找到的“第一只老鼠”是俄罗斯的沙皇。

    最后一个沙皇之谜

    1991年7月,俄国地质学家亚历山大·亚夫多宁(Aleksander Avdonin)在俄国乌拉尔地区叶卡特琳堡(Ekaterinburg)郊外的白桦林中一个浅浅的墓穴里,挖出了九具遗骸。这是他多年坚持不懈研究的结果,他认为这里是沙俄皇室的最后一代罗曼诺夫家族(Romanovs)的埋葬地。

    1918年7月16日的晚上,为了防止正在攻城的白俄军队救走囚禁在叶卡特琳堡的皇室一家,莫斯科下达了处决他们的命令。除了末代沙皇尼古拉斯二世(Nicholas II),还有他的妻子亚历山大皇后(Alexandra)、他们的五个孩子、他们的医生和三个仆人。批准执行死刑的批复,凌晨1:00才从莫斯科传达下来。夜里1:30,卡车开到房前准备带走“尸体”时,沙皇全家人才被叫醒并被告知,由于城里战乱,他们后半夜必须待在地下室才安全。

    过去的两个星期里,罗曼诺夫一家每天晚上都会听到远远的炮声,所以没有意识到这个要求有什么特别的企图。他们安安静静地下了楼,走到地下室。士兵让他们排成队列时,他们也没有丝毫的怀疑。然后,行刑队长向沙皇走过来,一只手从口袋里拿出一张纸,另一只手握着夹克衫里的左轮手枪,匆匆读了一遍宣判死刑的通知。沙皇困惑地看了看他的全家,又看了看士兵。士兵举起了武器,女孩子们尖叫起来。枪开火了,首先击中的是沙皇,他倒在地上。受害者的尖叫声、枪声和子弹在房间里弹跳的声音交织成一片,地下室里一片混乱,士兵们更难瞄准慌乱躲避的目标。长官下令停止射击,其余的人用刺刀和枪托解决。不到三分钟,统治俄罗斯300年的罗曼诺夫王朝结束了。

    这栋房子现在已不复存在,沙皇罗曼诺夫全家人的下落长期保持神秘。苏联宣传部门声称罗曼诺夫全家被带到安全的地方保护了起来。死刑说法的证明,完全取决于确认墓葬坑中取出的遗体究竟是不是罗曼诺夫一家。至少埋藏尸体的地点同现有的记录是相符的——尸体被装上一辆卡车,运到郊外的树林里。根据某些说法,当时卡车陷入泥浆,尸体被扔进了一个草草挖出来的坑里。运送者在尸体上浇硫酸,试图消灭―切可供辨认的特征。

    这些挖掘出来的骨头被装配起来之后,清楚地显示出只有九具。如果集体屠杀的受害者都埋在同一个坟墓里,就缺少两具尸体。整修800多块骨头和被行刑队枪托砸烂的头骨碎片是一项耗费时间的艰巨工作。由骨架得出的九具尸体分别是:沙皇;皇后;五个孩子中的三个:玛丽亚(Maria)、塔蒂阿娜(Tatiana)、奥尔加(Olga);沙皇的医生尤加尼·波特金(Eugeny Botkin);以及三个仆人:贴身男仆阿莱克谢·特拉普(Alexei Trupp)、厨师伊凡·卡利多诺夫(Ivan Kharitonov)、皇后的女仆安娜·德米多娃(Anna Demidova)。没有找到沙皇最年轻的女儿阿纳斯塔西娅(Anastasia)和皇太子阿莱克谢(Alexei)的尸体。

    除了拼接骨架以外,还有什么更好的办法,可以确认这些遗骸的身份呢?

    赛克斯被邀请从叶卡特琳堡的遗骸中提取DNA,以证明他们是否是罗曼诺夫一家。这项工作由俄罗斯科学院和英国法医科学服务处负责。首先,研究人员用常规的法医遗传指纹识别骨架的性别,确定他们的确是父母双方和三个孩子组成的家庭。然后,从推测是波特金医生和仆人们的遗骨中提取的DNA显示,他们与这个家庭没有关系,他们彼此之间也没有关系。至此,所有情况与骨骼专家的结论全都吻合。

    赛克斯成功地从骨骼中找到了线粒体DNA,在家庭组中发现了两组不同的序列。被推测为沙皇皇后的女性成人,与三个孩子有着完全相同的线粒体。家庭组中被推测为沙皇的男性成人,有不同的线粒体序列——这与预期的家庭结构相符。三个孩子从他们的母亲那里遗传了线粒体DNA序列,他们的父亲从他自己的母亲那里遗传了线粒体DNA序列,没有传给他的孩子们。

    但是,提取线粒体DNA和测定DNA序列本身,并不能确认这个家庭就是罗曼诺夫一家,任何家庭都会显示孩子和母亲完全一样,而与父亲不同。证明究竟是哪个家庭的唯一办法是找到沙皇和皇后的母系亲戚。他们不必是近亲,线粒体DNA的真正威力在于不会因距离而被冲淡。只要亲戚之间的关系是母系,线粒体DNA就是一样的。

    沙皇和皇后健在的直接母系亲戚都能找到。欧洲皇室之间婚姻关系很密切,在遗传学上,他们几乎就像是同一个村子的邻居。这是曾经以联姻控制几乎整个欧洲几百年的哈布斯堡王朝以来的传统。沙皇未中断的母系亲戚是皇室:沙皇的外祖母是丹麦皇后露易丝·赫西·卡斯尔(Louise Hesse Cassel),她的一个后代是尼古莱·特鲁贝特斯戈伊伯爵(Nicolai Trubetskoy),这位伯爵是银行家,现在70岁,退休后住在哥特达祖尔(Cote d’Azur)。皇后的未中断的母系亲戚也是皇室:直接母系亲戚爱丁堡公爵,即英国女王伊丽莎白二世的丈夫菲利浦亲王(Philip)。这两个人都同意提供样本,提取他们的DNA。

    被推测为皇后和三个孩子的序列类型出来了:他们都有完全相同的序列“111,357”,他们都与爱丁堡公爵完全相符。但是,用同样的方法,被推测为沙皇的成年男子却不吻合。他的DNA序列与退休银行家特鲁贝特斯戈伊伯爵的不完全相同。特鲁贝特斯戈伊的序列是“126,169,294,296”,但被推测为沙皇的DNA只有126,294和296,非常相似,但不一样。

    这是一个挫折。已有许多的旁证把尸体与罗曼诺夫一家联系在一起,女性DNA也与爱丁堡公爵完全吻合。男性基本吻合,但不是完全吻合。如果这具尸体与特鲁贝特斯戈伊伯爵跨越六代的母系关系没有被打断,两者的线粒体DNA序列应该完全吻合才能得出结论。会不会家谱记载特鲁贝特斯戈伊伯爵是沙皇的亲戚,实际上伯爵却不是?如果这样的话,其间必然有什么地方中断了,这条血统线索上某个人有一个与家谱记载不同的母亲。这有一定可能性,比如收养关系或生产时弄错了,但可能性非常小。

    也许,这具尸体不是沙皇?既然常规遗传指纹已经鉴定出他是墓中三个孩子的父亲,那么结论只能是“这里并非罗曼诺夫一家的墓地”。

    必须继续研究分析。只有一个办法可以解决这个问题:把DNA克隆出来。

    克隆是把混合在一起的DNA分子分开的唯一方法。简单地说,就是诱导细菌接受一个DNA分子,然后把它当自己的DNA来复制。实验终于成功获得了“沙皇”线粒体DNA的28个克隆,然后一一分别测序:其中21个包含了“126,294,296”,没有169突变;还有7个克隆的DNA额外包含169突变,与特鲁贝特斯戈伊伯爵的DNA完全一致。

    这次研究,非常巧合地遇到一次罕见的正在出现的新突变(169的位置),这种情况人们以前了解很少,1994年发表关于罗曼诺夫家族遗体的论文时,这还是一件新鲜事。这一结果正是研究人员寻找的证据,证明叶卡特琳堡的“沙皇”骨骼和沙皇尼古拉斯二世仍然健在的亲戚之间明确的连续性母系联系,他们确实是沙皇一家。但是还有一个谜团尚未解开。人们只发现了罗曼诺夫家族的五具尸体——两个成人和三个女孩,沙皇最小的女儿阿纳斯塔西娅(Anastasia)和皇太子阿莱克谢(Alexei)的遗骸,至今下落不明。

    于是,这场调查闹剧,长期成为媒体的热门娱乐内容。但是,整个沙皇家庭都被杀害是基本确定的事实。根据一些书面记载,那些负责处理尸体的人,本来打算在发现遗骸的墓穴附近的树林里烧掉尸体。他们堆起了一个火葬柴堆,先把最小的阿莱克谢的尸体放上去,然后是一个沙俄公主,再在他们身上泼洒汽油并点火。火焰没有把尸体烧光,牙齿和碎骨散落四周。于是计划改动了,剩下的尸体被扔进了浅浅的墓穴。如果这份事件过程的记录是真实的,那么,阿莱克谢和阿纳斯塔西娅最后的遗骸就不在墓穴里,而在乌拉尔山的森林里。

    经过越来越多的DNA研究和知识普及,人们才惊讶地发现所有欧洲人的DNA其实都差不多,超过99.99%都是一样的。遗憾的是,这种亲属关系,还不至于近到可以申请认领罗曼诺夫家族的巨额海外遗产。

    一个埃及王朝的灭绝

    科学研究证明,DNA可以查清人类的身世,追踪我们的先祖。当DNA的知识被越来越多的人认知之后, DNA检测名人的故事也越来越多了。从美国国父杰弗逊的风流韵事到肯尼迪总统奇怪的古铜色皮肤,从埃及的各种木乃伊到一个完整的法老家族……都受到了DNA的检测。

    1996年,美国的《历史频道》(The History Channel)在《最伟大的法老》节目中列举了15位埃及法老,其中第10位伟大法老是图坦卡蒙(Tutankhamun),他的在位时间大约是公元前1334-前1325年:八九岁即位,在位大约10年。这位图坦卡蒙法老,任何“伟大的功业”也没有干过。他的“伟大”之处仅仅在于他的陵墓在3 300多年里没有被盗,是唯一没有被盗的埃及法老陵墓。

    8 000年前,非洲越来越干旱。在原来很小的撒哈拉沙漠逐渐扩大的过程中,人们从四面八方迁移拥挤到尼罗河沿岸,形成了曾经辉煌的埃及文明。7 000年前形成了40多个国家,各个氏族带来神明2 000多个。这些人后来又离开埃及,《圣经》中也曾记载以色列人走出埃及。1922年,图坦卡蒙的陵墓被发现,出土了大量罕见的财富和文物。现在这些文物在全球多次巡展,各国科学家都希望用基因技术考察埃及法老们的秘密,但是埃及政府不愿意破坏他们的文物,一直没有同意进行检测。

    2005年,埃及同意对图坦卡蒙进行了一项不破坏木乃伊的实验。埃及科学家提供了图坦卡蒙1,700多份三维立体CT扫描,法国和美国科学家按照这些信息进行了复原,他们成功复原出了埃及法老图坦卡蒙的照片,刊登在美国《国家地理》杂志上。 这个三千多年前的埃及人的形象,不是白种人,不是黑种人,也不是黄种人。美国的媒体无奈地说:“……看不出图坦卡蒙属于哪个种族。”

    2007年,埃及政府终于同意对5代埃及法老的木乃伊进行DNA测试,包括图坦卡蒙的曾祖父母、祖父母、父母与他的子女。

    考古学家很早就发现,图坦卡蒙父亲的浮雕形象非常奇特。他的臀部特别肥大,腿像鸡腿,手臂细长,完全是一种病态的畸形。考古学家推测他可能患有某种遗传疾病。这位图坦卡蒙的父亲,阿蒙霍特普四世(Amenhotep IV)也属于“埃及最伟大的15个法老”之一。他进行了彻底的宗教改革,用新的太阳神阿顿(Aten)取代了传统的太阳神拉(La)。他认为自己的畸形证明他本人正是太阳神阿顿的直接后裔,所以他还把自己的称呼改为埃赫那顿(Akhenaten),意为“阿顿的奴仆”。这些改革激化了埃及的内部矛盾,埃及帝国日益虚弱,最后丢失了在巴勒斯坦和叙利亚等地的殖民地。

    阿蒙霍特普四世留下的最宝贵的文物,是他的王后娜芙蒂蒂的雕塑。王后娜芙蒂蒂(Nefertiti)的雕像现藏于德国柏林博物馆,这件作品被认为是古埃及最精美的雕塑之一。迄今为止,人们一直无法完全弄清楚奇怪的埃及象形文字,但是记载似乎显示这位王后曾经摄政。她为什么取得这种罕见的权力?这在埃及历史上并不正常。专家学者们众说纷纭,争议持续了很多年。

    对埃及法老的DNA检测证明,第四代法老图坦卡蒙和他的前三代一样患有多种遗传疾病。图坦卡蒙的父母是患有遗传病的亲兄妹,图坦卡蒙的祖父母也是患有遗传病的近亲,法老家族的遗传病连续五代相传,也许更早。图坦卡蒙父亲的腹部肿大和腿部畸形的另一个原因是患有疟疾,这种疾病在古埃及非常普遍,但是身体虚弱的法老的症状显得更加突出,并非太阳神的恩赐。

    图坦卡蒙的父母是亲兄妹,都是图坦卡蒙近亲结婚的祖父母的孩子,图坦卡蒙的父亲阿蒙霍特普四世的遗传病特别严重,图坦卡蒙遗传的疾病更是翻了几倍。科学家们检测出图坦卡蒙患有多种遗传疾病,此外他可能是弱智,以至于根本无法正常执政。图坦卡蒙的疾病使他不能正常行走。在他大约19岁时,原因不明的意外骨折使他严重受伤,因无法止血而迅速死亡,然后被匆忙掩埋。这些推测的证据来源于图坦卡蒙的陪葬品中多达130多根的拐杖。图坦卡蒙的妻子是图坦卡蒙的同父异母妹妹,所以图坦卡蒙的墓葬里,当时已经掩埋着他和他妹妹的两个女儿:一个死于5个月,一个死于7个月。这个墓葬本来可能是他孩子的陵墓。两个女儿死了,图坦卡蒙死了,这个法老家族的血统绝嗣了。

    图坦卡蒙的死亡非常突然,陵墓墙壁上的油漆都还没有干。图坦卡蒙的幕僚们在他的陵墓里放入大量陪葬品,以纪念整个法老血统的绝嗣。图坦卡蒙的家族绝嗣后,美国《历史频道》评出的“第11位伟大法老”阿伊(Ay)即位,阿伊曾经为前面的2-3代法老担任过主要幕僚。阿伊的“伟大”也不在于他创建了什么业绩,而在于他即位仅仅4年就被图坦卡蒙时代的“军队总司令”霍朗赫布(Horemheb)推翻。霍朗赫布随后发动了一场对阿伊的“清除记忆战争”(清除某人统治的痕迹和记载),把阿伊的所有历史痕迹都抹去了,霍朗赫布将军成为新的法老。霍朗赫布甚至还在图坦卡蒙的陵墓上建造了一座新建筑,试图掩盖图坦卡蒙统治的遗迹。这位新法老的工作非常认真,以至于再也没有人能够发现图坦卡蒙的陵墓,所以才给我们留下了最完整的一个法老墓葬,包括最著名的图坦卡蒙纯金面具。

    不检点的美国国父

    1776年,美国独立战争爆发。打仗和设计国家体制,花了14年时间。
    1 789年,华盛顿当选为第一任美国总统。
    1 789年,美国第一届内阁只有5个部:财政部部长汉密尔顿(Alexander Hamilton)、外交部部长杰弗逊(后改称国务部,部长名称为国务卿)、战争部部长诺克斯(Henry Knox)、司法部部长伦道夫(Edmund Randolph)、邮政部部长奥斯古德(Samuel Osgood)。加上总统华盛顿和副总统亚当斯,美国第一届内阁的全部阁员仅仅7人。

    第一届美国政府的主要任务不是打仗,而是偿还战争债务和建设国家,第一任财政部长汉密尔顿做到了。他是美国的“传奇国父”,长期担任华盛顿将军的32个军事助理中的首席助理(大约相当于参谋长)的职位,美国军队与美国大陆议会之间的文件也大多是汉密尔顿起草的,他在建国后创建了美国第一银行和税务体系。他是一个文武全才。

    汉密尔顿的“国家工业化百年规划”从第四任总统麦迪逊开始执行,汉密尔顿的“坚决不介入欧洲战乱”的思想由第五任总统门罗发展为“门罗主义”。120年后,当美国军队第一次踏上欧洲时,已经成为世界第一强国。但是,这位传奇国父汉密尔顿,却莫名其妙地辞职了。后来媒体披露的原因很简单,他与一个女子发生3年婚外情,被后来的第五任总统门罗发现了。汉密尔顿坦然承认了事实。门罗去找第三任总统杰弗逊商量,决定不予公开,条件是汉密尔顿主动辞职。遗憾的是,1998年,整整200年后,杰弗逊的婚外情不幸被DNA检测出来了。

    而作为汉密尔顿的同僚杰弗逊也有一段传奇的故事。托马斯·杰弗逊是美国《独立宣言》的主要起草者,美国第一任外交部部长(国务卿),第三任总统。他的妻子玛莎·杰弗逊(Martha Jefferson,1748-1782)仅仅活了34岁。杰弗逊和玛莎生了6个孩子,只有2个女儿活下来。托马斯·杰弗逊与他的混血女奴莎丽·海明斯(Sally Hemings,1773-1835)之间的传奇,在当年曾引起轩然大波。英国的《自然》(Nature)杂志发表的DNA检测论文宣称这个故事是真实的,杰弗逊和海明斯的后裔们都携带着相同的遗传基因标记。由于杰弗逊总统没有留下合法婚姻的男性继承人,这次检测使用了杰弗逊的叔叔菲尔德·杰弗逊(Field Jefferson,1743-1826)的男性后裔的DNA。

    杰弗逊的岳父约翰·威利斯(John Wayles,1715-1773)三次失去妻子之后,与他的一位混血女奴贝蒂·海明斯(Betty Hemings,1735-1807)生下6个孩子,莎丽·海明斯是最小的一个女儿。所以莎丽·海明斯也是杰弗逊的正式妻子玛莎的同父异母妹妹。1773年,杰弗逊的岳父约翰·威利斯去世后,玛莎和杰弗逊夫妇继承了约翰·威利斯的125个奴隶和1.1万英亩土地,包括莎丽·海明斯。正式妻子玛莎比杰弗逊小5岁,海明斯比杰弗逊小30岁。据说莎丽·海明斯非常美丽,她的母亲贝蒂·海明斯是非洲奴隶与英国船长的女儿,所以莎丽·海明斯有四分之一黑人血统,她与杰弗逊的关系长达40年,据说两人一共生了6个孩子,其中4个孩子活到成年。杰弗逊下令让她的两个儿子成为自由公民,融入社会以后都被认定为白人(他们只有八分之一的黑人血统)。

    1798年,200年前,美国的媒体刊登这个绯闻时,杰弗逊既不承认,也不否认。但是杰弗逊的支持者坚决否认这个传闻。现在,这些孩子们的后裔的Y染色体DNA类型都与杰弗逊家族的Y染色体一样。于是,反对杰弗逊的绯闻传奇是事实的一派改口说,这些孩子可能是杰弗逊家族的其他男性与海明斯结合的后裔。

    当年,莎丽·海明斯的母亲贝蒂·海明斯带着多达75个儿子女儿和孙子孙女,在托马斯·杰弗逊总统家族的庄园里种植和收获粮食蔬菜,管理仓库和处理家务。两个家族世世代代生活在弗吉尼亚,两个家族的后裔的遗传形态确实非常接近。每一个孩子从父亲和母亲分别接受染色体的一半,但是这个重组过程不是简单的混合,而是合计46对128个染色体上的60亿个“建筑单元”的全部重新组合,所以每一个孩子都是独一无二的新基因组。这个过程对下一代的健康是有益的,对遗传学家的分析研究则是一场噩梦,因为遗传形态极其困难和复杂。怎么能够肯定这些孩子是备受尊敬的美国国父的后裔,而不是杰弗逊家族其他男性成员的后裔呢?

    直到今天,杰弗逊和海明斯的传奇仍然没有确切的答案。

    1998年,美国政府正在争论是否因为莱温斯基的绯闻弹劾总统克林顿,杰弗逊的DNA检测结果恰好也在这一年公布,使得争论更加激烈。当时各国的著名人物的DNA检测结果也在世界各地不断出现,美国著名总统林肯和肯尼迪等人的DNA也都被检测了。

    1998-1999年,争议的受益者之一是娱乐界,故事被迅速编成电视剧,美国全国热播。杰弗逊和海明斯的故事,使得人们既同情国父,也喜爱他的美丽的混血情人。克林顿成为DNA检测的受益者,最终逃过了弹劾。但是很多人却成了“受害者”。“民族主义”的主要发源地德国受到很大冲击。铁血宰相俾斯麦统一德国后,几代德国人辛辛苦苦打造出了一个“优秀的纯正民族”,但是DNA检测证实德国人也是“杂种”。最大的“受害者”之一是希特勒,DNA检测显示他的家族起源于巴尔干半岛,距离德国很远。如果希特勒地下有知,一定很不开心。

    只有欧洲人是杂种吗?

    1987年,“线粒体夏娃”出现之后,人类世界再也不平静了。最著名的论战是欧洲人的起源之战。

    考古学和人类学曾经长期陷入“人种分类”的象牙塔里,各个流派争论不休。他们甚至争论“为什么非洲西部没有发现人类化石”?这不是因为人类最近才来到西非地区,而是因为热带雨林并非死后变成化石的好地方。任何大型猿类化石,包括大猩猩、黑猩猩和僰猿的化石,在非洲西部都未发现。如果仅仅根据化石记录推测,只能得出它们根本不曾存在的结论,但谁都知道大猩猩、黑猩猩和僰猿至今仍然生活在非洲西部。

    真正有意义的争议只有一个——最重要的人科生物尼安德特人。欧洲的近代人类史与尼安德特人紧密相关,尼安德特人曾在很长一段时间内被认为是欧洲人的起源。

    1856年,德国杜塞尔多夫的石灰开采工人在尼安德尔山谷(Neander Valley)炸开了一个小矿坑,清理碎片时发现了颅骨残骸,然后是大腿骨、肋骨、手臂骨和肩骨等。最初人们以为这是欧洲常见的一只灭绝的穴居熊的遗骸。一个偶然的机会,他们向当地学校的老师、博物学家约翰·卡尔·富尔罗特(JohannKarl Fuhlrott)请教。富尔罗特一看到遗骸,马上意识到这不是穴居熊。但这些遗骸究竟是什么?争议持续了几年。这个颅骨不是猿,它的非常粗壮的眉脊也不属于人类,而且,也没有人能回答得出它存在有多少年了。

    发现德国尼安德特人的遗骸时,欧洲的学者们正在激烈抨击《圣经》中“创世记”的年代计算方式,他们不能接受世界只存在几千年的说法。尼安德特人出土3年后,1859年,达尔文的《物种起源》出版,《圣经》“创世记”的绝对真理地位开始动摇。

    右:尼安德特人 左:现代人(克罗马农人)
    尼安德特人化石的分布区域

    达尔文的著作和英国牛津大学的大辩论之后,人类原始祖先非常久远的观点开始被接受了。德国的这种尼安德特“人”,越看越像是人类原始祖先的一员。这个结论是在剔除了许多稀奇古怪的想象之后得出的。有的解释很离奇:这是一个罹患眉骨加粗的骨骼病人头骨;有的解释很荒唐:这是拿破仑战争中受伤的一个哥萨克骑兵的骨骼,他爬进洞穴后死去了,可是他的刀剑和军装哪里去了?

    此后一百多年里,人们又发现了同样特征的大批尼安德特人的化石,这些“人”的特征都是身体粗壮、脑壳硕大、鼻子凸出、眉脊粗壮。第一个尼安德特人是1848年在直布罗陀出土的,比尼安德尔山谷(Neander Valley)的尼安德特人还早8年,但是当时被人们忽视了。比利时、法国和克罗地亚也陆续发现了尼安德特人的化石。出土的化石不断增多,直到以色列、伊拉克、乌兹别克斯坦等地,分布地区非常广泛。

    世界其他地区也存在同样的困惑。
    现代中国人是北京周口店猿人的后代吗?
    爪哇直立人是否进化成了现代的澳大利亚人——巴布亚新几内亚的土著?

    多地区起源说的支持者是一批既有影响力、又敢于大胆假设的体质人类学的“权威”,他们认为,100万年来,从身材粗壮、骨骼厚重的祖先,到身材苗条、骨骼轻盈的后代之间的人类体质特征的变化,属于世界不同地区按照不同速率发生的渐进的适应过程。单起源说的支持者强烈地抨击这种观点,他们认为尼安德特人、北京周口店和印度尼西亚的化石,都是起源于非洲、一百多万年来走出非洲、最后走入“进化死胡同”的灭绝人科生物的化石。单起源说的化石证据是4万——5万年前在欧洲突然出现的拥有轻巧头颅和骨架的人种——克罗马农人(Cro-Magnon)。克罗马农人与现代的欧洲人已经没有什么区别了,毫无疑问,克罗马农人正是今天的现代人类这个亚种——现代(晚期)智人。(关于最后一批尼安德特人的灭亡地点,学术界至今争执不一。可能在西班牙南部)

    单起源说的支持者认为,一夜之间发生巨大的遗传突变,尼安德特人突然变成克罗马农人是不可思议的。克罗马农人的石器先进,工艺精美,动物骨骼和鹿角第一次成为手工业原料。最关键的是艺术在克罗马农人中诞生了,在法国和西班牙北部的200多个山洞里,发现了克罗马农人绘制的绮丽粗犷的野生动物肖像,这些鹿、马、猛犸、野牛的图案并非拙劣的随意涂画,而是表现成熟的抽象思维和绘画技艺。(克罗马农人会缝制防寒的衣服,他们一直迁徙到寒冷的欧亚大陆北部)

    难道尼安德特人不但改变了体质和工艺,还突然变成了艺术家?虽然多地区起源说的支持者这样认为,但是欧洲发现洞穴艺术的遗址,没有一处是尼安德特人的遗址,其他各大洲也是如此。

    长期的争议,一直悬而未决。

    化石记录清楚地显示,3万——4万年前克罗马农人到达西欧以后,尼安德特人至少继续存在了大约1万年。最晚的一个尼安德特人遗骨发现于西班牙,说明最后一个尼安德特人应该已经死在了西班牙南部。线粒体DNA技术出现以后,人们检测了世界各地群体的线粒体DNA,发现欧洲人与世界其他地方的人类的DNA差异不大,这些差异不足以认定欧洲人是尼安德特人的后代。那么,会不会是这种情况:尼安德特人和克罗马农人杂交成功了,但是没有产生既能存活又有繁育能力的后代?

    两个不同物种杂交产生完全健康但不育的后代的例子很多。例如,公驴和母马杂交生下骡子。驴子和马的基因互补,骡子很强壮健康,功能健全,但是骡子不能生育,因为驴子和马拥有不同数量的染色体:马有64条染色体,驴子有62条。马的64条染色体和驴的62条染色体导致骡子有63条染色体。这对骡子的其他细胞不是问题,但骡子繁殖时就会出现混乱。63条染色体是奇数,无法准确地分成两半,所以无法传宗接代。

    尼安德特人和克罗马农人是不是染色体数目不同、产生了不育的混血儿?如果不是,欧洲人又是哪里来的?尼安德特人又有多少染色体呢?难道全世界都是非洲出来的纯种人,只有欧洲人是现代人与尼安德特人的杂种?

    是还是不是,只有一种选择。大量尼安德特人的遗骸遍布欧洲——中亚——中东地区是事实。人们起初都不情愿接受进化的事实,此后很多年,人们不得不承认尼安德特人是欧洲人的祖先,虽然也很不情愿,欧洲人毕竟不算是杂种。但是,1987年“线粒体夏娃”的DNA检测结果动摇了这一观念。地球上所有的人类都是从非洲迁移到欧洲的,怎么可能是至少25万年前的尼安德特人进化来的?

    有人坚持认为“线粒体夏娃”错了,欧洲人的祖先就是披着兽皮的尼安德特人。解决争议的最好办法、也许是唯一的办法,就是恢复尼安德特人的DNA。

    1997年,慕尼黑大学的教授斯万特·帕博(Svante Paabo)领导的一个小组发布了第一个尼安德特人的DNA序列。这是人类学的圣杯之一,回答了人类学领域最古老的、争议最大的问题之一:现代的欧洲人是否是尼安德特人进化来的?或者,尼安德特人是否被入侵的人类灭绝了?

    圣杯(Holy Grail)是英国亚瑟王传奇故事群的核心,古代英国骑士们追求的最高目标,据说是耶稣在最后的晚餐上使用的酒杯。尼安德特人的课题是欧洲人的圣杯,相对缺乏种族意识的美国人在这项研究中落在了后面。

    帕博(Svante Paabo,1955-,曾经恢复埃及木乃伊的DNA和尼安德特人的DNA)1997年开始任马克斯·普朗克进化人类学研究所(Max Planck Institute for Evolutionary Anthropology)的遗传部主任。马普进化人类学研究所有五个部,属于德国马普研究院(Max Planck Society)。马普研究院有32位诺贝尔奖获得者,包括斯万特·帕博的父亲。1980年代,帕博和他的同行,包括找到“线粒体夏娃”的三个论文作者之一阿伦·威尔逊(Allan Wilson,1934-1991)等人,在德国和美国分别开始了古代DNA领域的研究。他们首先找出埃及木乃伊的DNA序列,然后很快转向化石。

    1984年,帕博第一次成功取得2 400年前的木乃伊的基因序列。此后,帕博开始承接各式各样的DNA序列检测项目和工程,现在成为恢复古代DNA的世界权威。

    1990年代,帕博终于开发出从远古的样本中提取和评测DNA的一套可靠方法。德国波恩的一家博物馆里有一批140多年前出土的尼安德特人的遗骸,时间约为4万年前。帕博经过几年不懈的游说,终于拿到了一块化石的右臂骨的上半部分残骸。帕博的一个博士研究生马提亚斯·柯林斯(Matthias Krings)参与分析这些遗骸的DNA,准备作为他的博士论文。

    经过长达一年的尝试——失误——尝试——失误的枯燥单调的过程,柯林斯最终恢复出数量足够的完整无缺的线粒体DNA,然后制作出105个碱基对的序列。柯林斯这样描述他第一次看到可能是4万年以上的DNA序列的情景:
    ……其实,我基本上已经把DNA序列都背熟了……如果给我一个序列,我一眼就能看出哪里发生了一个置换(DNA序列的变化)……浏览第一个序列的时候,我觉得我的脊梁后面一阵阵发冷。在通常只出现3个置换、最多只可能出现4个置换的一个位置上,竟然出现了8个置换。我心里想:“这真是一个异常独特的序列。”

    帕博又换了这批遗骸中的另外一块遗骨,重新进行了一场恢复和测试工程。为了进行对比实验,帕博把一块遗骨快递给宾夕法尼亚大学的马克·斯通金(Mark Stoneking)和他的女博士生安妮·斯通(Anne Stone),这两个实验室开始同步进行同样的DNA恢复和DNA检测……大西洋两岸的多次实验反复证实了这个序列的有效性。又进行了几次重复实验之后,帕博得到327个碱基对的线粒体序列。德国和美国的这两个实验室里的两个博士生——德国的马提亚斯·柯林斯和美国的安妮·斯通,通过越洋电话一个一个核对线粒体的序列位置……美国的斯通每说出一个序列的位置,都引起德国的柯林斯的一声欢呼,核对结束的那个夜晚,柯林斯举行了一次Party庆贺大洋两岸的实验结果完全相符……几个月后这一成果发表,一位人类学家说这篇论文“像报道人类登上火星一样令人兴奋”。

    最终检测结果显示,这批遗骨的线粒体mtDNA,既不属于现代人,也不属于其他类人猿,而是属于一种类人动物,这种动物在50万年以前曾与人类分享同一个先祖。(后校正为80万年左右)这个时间与古人类学家预测的另外一种稀疏分布在欧洲的所谓“远古人”(即早期智人)(archaic humans)的时代相吻合,古人类学家曾经预测它们是从非洲来到欧洲的。

    这个结论证明,尼安德特人不是现代人的直接先祖,他们只是区域性分布的古代智人的一个亚种,后来被现代人取代了。尼安德特人和现代人没有发生过混血。此前已经在全世界检测了数万个现代人的线粒体序列,没有一个人是从柯林斯看到的尼安德特人序列分离出来的。尼安德特人远远处于人类的所有变种类型范围之外。一切证据都表明,尼安德特人是另一个物种。尼安德特人DNA的结论,为多起源说的棺材,钉上了最后一根钉子。

    人科生物进化(所有其他的人科生物都进入了进化的死胡同,已经全部灭绝了。人类是唯一的幸存者,逐渐散布到世界各大洲。其中,只有尼安德特人与现代人共存过一段时间)

    迈克尔·克莱顿(Michael Crichton,1942-2008)的小说《侏罗纪公园》(Jurassic Park,后改编为系列电影)的灵感,正是来自帕博早期恢复DNA的探索工作。当时的人们幻想找出6,500万年前灭绝的恐龙的DNA序列。事实上,这种DNA的恢复极其困难。生物死亡后,分子很快分解消失了。找到完整分子的希望非常渺茫。如果只能找到残缺的分子,恢复工作更加困难。而超过100万年,DNA 都碎成最基本单位,根本不成序列了。

    类人猿(大猩猩、黑猩猩和红猩猩)是人类最近的灵长类亲戚,它们比人类多一对染色体。可能500万——700万年前,人类与其他人科生物从共同的祖先分道扬镳

    欧洲人终于平反了,他们不是人与尼安德特人的杂种。这是一个人科种群被另一个人科种群完全替代的例证。现代欧洲人的先祖在非洲,世界上每个人都起源于非洲。那么尼安德特人的取代者,究竟是一批什么样的人类呢?智人——现代人——人类——人,虽然具体的定义仍然存在争议,但有几点是公认的:
    第一,现代人免疫系统非常发达。人类对很多疾病可以终身免疫,寿命较长。尼安德特人平均活不过30岁,它们的化石大都发生了骨折,说明狩猎采集技能较低,体质很差,生活条件艰难。现代人在史前时代的寿命可以达到50岁左右,老人可以为青壮劳力带孙子,口头传授各种知识经验,有利于壮大族群。
    第二,从尼安德特人的化石可以看到,尼安德特人死后大都被同类吃掉,它们的骨头很多都有被啃咬或石器刮过的痕迹。所有的现代人类群体,全部自发产生了宗教,建立了伦理道德体系。很多哺乳动物的共同生活群体的数量很少,抵抗外来攻击的能力很差。现代人类的宗教和伦理道德体系可以建立几百人——几千人——几万人的群体,最后建立几千万人甚至几亿人的社会组织。
    第三,人类是唯一自发产生艺术的生物,亦即人类具备抽象思维和想象力等能力。在非洲——中东——欧洲——亚洲——澳大利亚——南北美洲都发现了史前人类的艺术作品。最早的一件艺术作品出土于非洲南部,这是一个大约7.5万年的小型石刻。最丰富的艺术作品是欧洲南部的几百个洞穴壁画艺术,在确认非洲是人类起源地之后,在已经成为沙漠的撒哈拉沙漠里,竟然发现了数万年前的三万多处史前石刻和壁画。
    第四,人类是唯一具有语言能力的动物。其他动物也可以用声音沟通,黑猩猩经过训练,最多表达1-2个单词。但是,只有人类可以运用复杂的语言。

    欧洲的问题解决了。亚洲的化石比欧洲少得多,由于种种原因,亚洲直立人也全部消失了。没有任何证据表明,亚洲的现代智人和灭绝的直立人曾经共同存在于同一时期。中国地区在10万——4万年前有一个化石记录的断层,亚洲的直立人可能在现代人类抵达之前已经灭绝了。在澳大利亚和南北美洲,也没有找到直立人存在的任何化石证据,说明人类是这两块大陆的第一批定居者。

    第二场欧洲人起源之战

    旧石器时代的克罗马农人仍然过着狩猎采集的生活。考古学家将石器时代分成三个时期,这种分类虽然界线有些模糊,却是描述考古遗址的一种有效方法。很多出土的遗址没有人类骨骸,通过石器这个唯一的证据,考古学家很快就能分辨出这些遗址属于旧石器时期、中石器时期还是新石器时期。

    旧石器时期:
    从大约300万年前第一批石制工具的出现,一直持续到大约1.5万年前最后一次冰川期的结束。根据石器的制作技术的明显不同,旧石器时期进一步划分为早期、中期和晚期。旧石器时期的早期,大致相当于平脸人、能人到直立人阶段。旧石器时期的中期,大致相当于尼安德特人的时代。旧石器时期的晚期,大约20万年前,现代人出现在非洲。4万——5万年前,第一批现代人来到欧洲,克罗马农人出现了。

    中石器时期:
    最后一次冰川期结束。旧石器晚期和中石器时代的分界,有时相当困难。

    新石器时期:
    发生彻底的石器技术革新,农业时代到来,出现全新的石器工具——收割小麦的镰刀、碾磨谷物的石器以及各种原始陶器等。农业出现的一万年之内发生了天翻地覆的变化,人类开始控制食物来源。

    围绕这种历史分类,又出现一个重大争议:到底是原来的欧洲人学习掌握了农业技术,还是掌握农业技术的中东人取代了原来以狩猎采集为主的欧洲“土著”?也就是说,现代欧洲人是克罗马农人的猎人后裔,还是从中东和北非地区背着一堆口袋,里面装着小麦种子前来殖民欧洲的农民后裔?也许猎人和农民两者的后裔都有?这两种人的混血绝对没有问题。但是,他们各自占欧洲人口的比例是多少呢?

    猎人后裔还是农民后裔?又一场欧洲人的起源之战爆发了。

    人类的谱系树模型是平面的,这种谱系树是二维的分叉图,无法描述人的旅程。但是线粒体DNA的突变率太高,有大量重复发生的突变,所以无法构成简单的分叉图。各种线粒体DNA的差距的分布数据,似乎围绕着几个点,呈现出较高的发生频率。但是这种形态,既不是树状结构,也不是立体结构。几乎不约而同,人们意识到,这个模型可能是网络结构。牛津大学的赛克斯最早发表了他的网络结构,一是因为他开始将DNA研究与数学结合,二是因为线粒体DNA的研究分析比Y染色体DNA简单。

    赛克斯是在咖啡馆的餐巾纸上糊涂乱画突然想出来的。我们首先介绍他的故事,以后的各式各样的网络更加复杂,所以从最简单的网络开始。例如,DNA的变异,围绕着右图的四个点的频率最高,这怎么会是一个进化树?既没有进化,也不是树,而是人类的旅程。基因差异最大的点是DNA的差异发生最多的地方,也是某一个“夏娃”的女儿或者孙女诞生的地方。

    赛克斯回忆说:“我也不知道怎么把D画出来的,因为A-B-C3个点仍然是一个树杈的结构。”这个平面网络虽然非常简陋,也不完美,但是思路打开了——原始数据的真实分布形态本来就不是一棵树,而是一个网络。赛克斯赶快去找德国数学家合作。起初他们难以确定这些点——单倍群的数量是几个:4个?5个?6个?最后,他们发现欧洲的线粒体DNA的单倍群是7个。

    赛克斯画的DNA网络结构图

    我们已经知道,线粒体DNA通过母系传递,男性也能从母亲那里继承线粒体DNA,却无法将其遗传给后代。但最近有人发现了男性线粒体传给后代的案例,这可能是一种畸变。也就是说,如果一个女性生下的全都是儿子,那么她的线粒体DNA遗传链将因此终止。换句话说,绝大多数现代欧洲人的线粒体DNA分为7种类型。每个线粒体DNA相同的人,都是数万年前同一个女人的后代。学术上,这种群体类型叫作单倍群:共享某些DNA突变的群体。赛克斯给欧洲人的7个线粒体先祖(单倍群)起了7个现代人的名字:
    乌苏拉=Ursula:对应U单倍群(Haplogroup U)
    齐尼娅=Xenia:对应X单倍群(Haplogroup X)
    海伦娜=Helena:对应H单倍群(Haplogroup H)
    薇达 =Velda:对应V单倍群(Haplogroup V)
    塔拉 =Tara:对应T单倍群(Haplogroup T)
    卡特琳=Katrine:对应K单倍群(Haplogroup K)
    贾斯敏=Jasmine:对应J单倍群(Haplogroup J)

    牛津大学简化的网络示意图最重要的不是确认多少单倍群,而是确认单倍群结构的存在。这些单倍群的原始数据的内在结构很难理解,如果不加以简化和澄清,根本不可能识别这种网络系统。但是,存在几个单倍群无可置疑

    赛克斯把这7个女性欧洲先祖合称为“夏娃的七个女儿”。当然,古代欧洲并非只有这7个女人,同一时代生活着大量史前的女性,她们要么没有活到成年,要么没有生孩子,要么生下的全是男孩。只有这7个原始女人活了足够长时间,并且每人至少生了两名女儿,从而开始了线粒体DNA的遗传链,并且一直延续到今天。

    一波未平,一波又起。

    当时的主流观点认为现代欧洲人的构成,主要是背着小麦种子,从中东——北非地区殖民欧洲的新石器时代的农民的后裔,他们取代了当时的欧洲土著——猎人克罗马农人,就像当年的克罗马农人取代了尼安德特人一样。但是,赛克斯在其著作《夏娃的七个女儿》中认为,6个女儿的年龄为1.5万——4.5万年。当时世界上尚未诞生农业(考古证明农业起源于1万——1.2万年,以两河流域的“新月沃土”地区为中心开始),只有一个夏娃的女儿贾斯敏比较年轻,出现在大约一万年前。那么,欧洲人到底是猎人还是农民?基因检测证明,携带中东农民DNA基因的后裔仅仅占现代欧洲人的17%。如果依这个数据推测,那么,大部分欧洲人就是猎人的后裔,而不是农民的后裔。

    面对质疑,赛克斯赶紧反复核算自己的计算分析结果是否有误。

    反复核查DNA序列,是否统计了过多的突变?没有。重新检查计算方法,是否存在数学计算问题?没有。

    不论怎么说,这些DNA证据都是生物学与数学合作,用电脑计算出来的。谁也没有见过几万年前的欧洲的活人,怎么用欧洲现在的活人验证这些结论?只有一个群体最合适,那就是巴斯克人。

    巴斯克人(Basque people)是欧洲最古老的群体之一,总人口约1 800万人,其中1 500万移居海外(主要在南北美洲),其余的巴斯克人主要分布在西班牙和法国。在古代,这里被称为巴斯克国,现称巴斯克地区。

    古代的巴斯克国。在欧洲大航海时代,巴斯克地区出现了大批的美洲征服者,向南北美洲送出大批巴斯克人的移民

    巴斯克人分布在险峻的比利牛斯山区(Pyrenees),尤其是法国的一个省和西班牙的巴斯克自治区。在冰河时期,巴斯克人的先祖也没有撤离故乡,并留下很多史前洞穴壁画,其中很多被列入世界文化遗产。2 000年前,这里是罗马帝国境内唯一没有被征服的土地。

    人类的血型有40余种,最重要的是ABO型和Rh型。亚洲人中的99%属于Rh阳性,所以输血没有问题。亚洲人(包括中国人)并不关心甚至根本不知道自己的Rh血型,输血时仅仅检查ABO血型就可以了。因为Rh阴性血型稀少,在中国,这种血型被形象化地赋予了“熊猫血”这一名称。但是,欧洲与众不同,两种Rh血型都很多,其中巴斯克人的Rh阴性频率世界第一。此外,巴斯克人的B型血的比例最低。这种Rh阴性血型,可以导致“蓝婴综合征”(Blue baby syndrome,新生儿溶血病)——新生儿因为血液缺氧而全身发青(蓝色婴儿)。这种病症可以通过输血抢救,但是危险性极大,曾经导致很多婴儿死亡。

    蓝婴综合征的原因很简单:Rh阴性母亲,如果与Rh阳性(携带Rh阴性抗体)父亲结合,胎儿血型有很髙概率是Rh阳性。这对第一个孩子不是问题。但是婴儿出生时,一部分血红细胞可能进入母亲的血液系统,母亲的免疫系统开始制造针对它们的抗体。母亲怀的下一个孩子是什么血型,对母亲本人没有任何问题,但对胎儿却有极大的影响。如果胎儿血型是Rh阳性,母亲的Rh抗体会透过胎盘攻击胎儿,使得这个婴儿出生时罹患蓝婴综合征,抢救不及时可能死亡。

    现在,蓝婴综合征不再是严重的临床病症。所有Rh阴性母亲都注射了抗Rh阳性血细胞的抗体,当她们生第一胎时,如果阳性血细胞进入她的循环系统,母亲的免疫系统会发现它们,并在产生抗体之前把它们消灭掉。但是,在输血法和Rh阴性母亲抗体治疗法发明之前,曾经有大量的婴儿死于溶血症。这是一个非常沉重的进化负担,这种状态的结束只能期待Rh血型中的一种最终消失。除了欧洲以外,世界上其他地方人类血型已经基本是Rh阳性。比例参见下表。

    在早期的人类学研究中,血型曾被作为研究人类起源的突破口之一,虽然这个尝试失败了,但是欧洲积累了大量的血型数据。

    巴斯克人长期以来被认为是在冰河时期欧洲原始狩猎采集人群的最后幸存者,使用一种全然不同的语言,长期生活在欧洲的最后变成农田的土地上。证明巴斯克人具有独特群体的所有特征的证据不仅来自考古学、人类学、医学的研究,还有语言学的证据。巴斯克人的语言与印欧语系毫无关系。巴斯克人保留了欧洲西部唯一不属于印欧语系的巴斯克语,与现存其他语言没有任何语言学关系。而原来西班牙东部和法国东南部的伊比利安语已被拉丁语完全湮灭了。在法语和西班牙语的夹击下,巴斯克语依然保留了下来,确实是一个奇迹。如果冰河时期欧洲的原始狩猎采集人群全部撤退了,仅仅留下一支,他们只可能是巴斯克人。

    对巴斯克人的采样和DNA分析,结果如下:巴斯克人的DNA序列与其他欧洲人的DNA序列一样。前六种女性线粒体DNA的单倍群的频率都存在。第七种女性线粒体DNA的单倍群频率完全找不到,而恰恰是这第七种线粒体DNA是最年轻的一种,大约一万年前来自中东。

    如果其他欧洲人的祖先是近东地区来的农民,那么,狩猎采集时代的最后幸存者巴斯克人,应该具有完全不同的线粒体DNA序列谱系。但是,巴斯克人的DNA序列竟然毫无特殊之处。多次采样核实,确实如此。也就是说,欧洲的猎人可能并未被蜂拥而来的中东农民取代。如果巴斯克人是旧石器时代狩猎采集者的后裔,那么,其余大部分欧洲人同样也是旧石器时代狩猎采集者的后裔。

    巴斯克人中为什么没有出现第七个单倍群?这个单倍群比其他六个单倍群年轻得多。如果把七个单倍群在欧洲地图上标出来,就会呈现一种模型:一方面,六个古老的单倍群遍及整个大陆,只是出现频率不同。另一方面,第七个年轻单倍群的分布分为两支,一支源于巴尔干半岛,穿过匈牙利平原,沿着中欧河谷抵达波罗的海;另一支的路线是西班牙地中海沿岸——葡萄牙沿海——不列颠西部。两条DNA遗传路线都与考古证据吻合,与第一批农民的迁徙路线吻合。

    欧洲早期农业遗址可以从陶器类型得到证实:6 000-7 000年前,农民从巴尔干半岛穿越中欧扩散,很多考古遗址出土的一类特殊风格的陶器显示出这条路线。这种陶器分布并非巧合,DNA分析显示的第七个年轻线粒体单倍群的两条分支,也描绘出了这两条农民进入欧洲的路线。

    考古证据链和DNA地理分布模式的基本吻合,证明虽然发生了中东农民殖民欧洲的人类迁移,但是这些一万年前的移民并非欧洲人的主体,他们不到20%。欧洲的猎人们自己选择了定居的农业生活,并非被后来的农民取而代之。大部分欧洲人是冰河时期来到欧洲的狩猎采集者的后代,这就是结论。

    欧洲人起源的主流观点是遗传学之父费希尔(Sir Ronald Aylmer Fisher,1890-1962)的学生,出生在意大利的著名遗传学家卡瓦利·斯福扎(Luca Cavalli Sforza,1922-,遗传学家)。他的研究结果曾是欧洲遗传学的主流观点)计算出来的。他的计算来自大量的原始数据,其影响远远超出人类遗传学领域,涉及考古学和其他许多相关学科。后来,其他学者诠释这项计算分析的大意为:克罗马农人取代尼安德特人后,中东的农民又压倒性地湮没了克罗马农人的后代。这种大规模的取代意味着,大多数欧洲人的祖先是中东农民群体,而不是更早来到欧洲的狩猎采集群体。

    1970年,斯福扎从意大利来到美国,成为斯坦福大学教授并主持一个精英荟萃的实验室。20多年来,卡瓦利·斯福扎最早阐明的理论支配了欧洲史前史研究。曾与斯福扎合作过的科学家都在人类群体遗传学的不同学科中,占据着重要的学术职位。斯福扎的理论具有强大的数学基础:费希尔创建的数学模型可以描述从生长中心向外扩散,包括动物、人类、基因或思想。斯福扎用“群体扩散”描述他的计算过程:群体是人群,扩散是农业人群从近东逐步地向外扩张的委婉说法。后来,这个数学模型被称为“前进的浪潮”——不断需求土地的农民扫除前进道路上的一切而产生的不可阻挡的迁移浪潮。这个模型被广泛接受,这个观点成为考古学界的主流意见。这个模型的含义最后被人们诠释为:欧洲人起源于中东的农民。

    1995年11月,在西班牙巴塞罗那召开的第二届欧洲群体历史会议(Second Euroconference on Population History)上,出现了一场激烈争辩。牛津大学的赛克斯在发言中用线粒体DNA的事实批驳了“欧洲人起源于中东农民”的主流观点。发言结束后的提问时间,“前进的浪潮”的支持者们提出各种意见,但是在DNA数据面前,却又无话可说。斯福扎也在会场,他没有多说什么。会议结束后的五年里,激烈的争论一直没有停止。这是又一场欧洲人的起源之战。

    斯福扎的农民迁移到欧洲的计算结果,并没有量化,没有提及欧洲人口比例。牛津大学和斯坦福大学的结论,没有可比性。斯福扎本人回忆说,他也不相信欧洲人大部分是农业出现以后从中东迁移来到欧洲的说法。他的结论是计算出来的,包括死人和活人的数据,唯独没有DNA的数据——找出人类群体的DNA数据太困难了。

    在科学界,巴塞罗那“欧洲群体历史会议”之类的国际会议可以宣布新的发现,但是会议的报告不是真正有效的,必须在科学期刊上发表。发表过程中,一批评审专家将对立题——结果——解释进行彻底的审查,称为同行评审。评审专家必须与作者没有任何利益冲突。牛津大学把报告送到《美国人类遗传学杂志》(American Journal of Human Genetics),受到非同寻常的严格审查。不仅要求对1995年发表的数学化的晦涩难懂的网络构建方法加上一个附录,作出进一步解释,还要求加上传统的群体比较表格。从巴塞罗那会议到论文发表,评审拖延长达8个月。当时世界各国的实验室和大学都在进行DNA的研究,没有统一标准,甚至互相保密,方法不同,DNA的表述和编号也不一致,这一切直到美国的人类基因组工程之后才逐步统一。

    1996年7月,牛津大学的论文终于发表了。斯福扎的美国研究团队,当时正在进行长期的研究分析计算Y染色体的艰难攻关。2000年,斯福扎与其他合计21人联合发表了一篇重要的论文。在欧洲人的起源问题上,这篇论文的结论与牛津大学的赛克斯的团队的结论基本一致:来自中东的欧洲人不超过欧洲人的20%,欧洲有10个Y染色体单倍群。

    大洋两岸的女性线粒体DNA和男性Y染色体的两个研究团队的结论,不谋而合。更加重要的是,长期从事统计数学和Y染色体研究的美国团队在这篇论文中得出结论:大约6万年前,“亚当”出现在非洲。这与“夏娃”起源于非洲的结论也是一致的。1987年发现“夏娃”出现在非洲以来,人们苦苦等了13年,“亚当”终于出现了。但是,新的问题也出现了:“夏娃”15万年,“亚当”6万年,这是怎么回事?

    难道是“夏娃”和“亚当”从来也没有见过面?

    第三章 男性Y染色体的故事

    2000年6月26日,美国的两个遗传学家和美国总统比尔·克林顿一起站在白宫东厅的新闻发布会现场。这两位科学家刚刚结束一场艰苦的大战,他们分别完成了第一个完整的人类基因组的约30亿个核苷酸单元的全部草图。他们是遗传学家弗朗西斯·柯林斯(Francis Collins,1950-)和遗传学家克雷格·文特尔(Craig Venter,1964-)。

    柯林斯当时领导了1990年启动的美国联邦政府资助的“人类基因组工程”(Human Genome Project),工程投资30亿美元,预计15年后的2005年完成。1998年,文特尔在硅谷成立一家私人企业,发明超前技术,宣布准备在三年内完成人类基因组的测序。

    仅仅在文特尔发明超前技术两年之后,在政府科研机构和私营企业的激烈竞赛下,两个基因组草图同时独立提前完成。这件大事不同寻常,所以,既不是白宫发言人,也不是美国国家健康研究院,而是由无可争议的最有权势的总统本人亲自宣布。几乎整个世界都观看了这场重大宣布。

    克林顿说这幅基因图是“人类迄今制作的最重要最完美的地图”,克林顿在演说中谈到人类基因组可能揭开“500种以上遗传病”的原因以及其他多种疾病的秘密,克林顿还开玩笑说,他打算活到150岁。

    大生物时代

    参与“人类基因组工程”的国家除了美国,还有英国、德国、西班牙、法国和日本等国家。中国也参与了一部分工作。
    2000年6月26日,同一天,英国首相托尼·布莱尔在伦敦作出了同样宣布。
    2000年6月26日,这一天从多种意义上都标志着基因时代的到来。为了迎接这一天的到来,无数人经历了艰辛的努力。
    2000年6月26日,就从这一天开始,生物科学成为一种“大科学”(big science)。越来越紧密频繁的国际合作交流,越来越多的传统科学领域与生物科学融合,越来越多新的学科和分支开始向上游和下游延伸和发展……与历史上所有学科的开发史都不一样,基因组工程是公开的全球合作。克林顿和布莱尔宣布:基因组工程的结果全部公开,不允许申请基因的专利,世界各国的科学家都可以自由浏览,成果属于全人类。

    在基因组工程的研发过程中,开发出无数让人难以想象的先进设备和神奇技术,破解了不可胜数的疑难和谜团。文特尔的企业每天都有新的原型DNA出现,几乎变成基因组的一座流水线生产厂……柯林斯和文特尔这两个基因组工程的故事,被写成几十部小说,其中很多成为畅销小说。
    1987年,加利福尼亚的伯克利大学找到“线粒体夏娃”。
    1987年,美国能源部展开世界上第一个人类基因组工程,他们认为这是原子辐射对人类影响研究的自然延伸,7年时间,预算10亿美元。
    1988年,美国卫生部国家健康研究院建立了一个专门研究机构进行人类基因组研究,与能源部竞争。
    1990年,很多科学家到国会游说“基因组工程意义重大……DNA密码可能揭开遗传病的机理和其他疾病的根源,可以研发出新的生物药品” ……于是,能源部与卫生部的人类基因组工程合二为一。

    这是一场疯狂的竞赛,文特尔的传奇经历成为家喻户晓的故事。文特尔本人也被多次评为20世纪和21世纪最有影响的人物之一。
    文特尔原来是国家健康研究院的一个生物学家,他从小就是一个调皮捣蛋的家伙。小学时骑着自行车追飞机(机场没有栅栏)而被警察追捕;中学的时代追求女孩子过于热烈,被他的“岳父”用枪顶着脑袋警告;高中的时代曾经静坐示威两天两夜,抗议老师给他一个F(不及格)……1976年,21岁的文特尔来到激战中的越南战场,在一个军队医院担任卫生兵。眼看着上百个战友在他的身边死去,他感到生命没有意义,于是跳进海里打算自杀。他游了很远很远,一条鲨鱼用鼻子顶他的肚皮,似乎在问他:你在干什么?突然清醒的文特尔赶紧回头向海岸游回去……

    23对46个染色体。人类23对染色体中的22对称为常染色体,最后一对X和Y称为性染色体。23对染色体包含约30亿“文件夹”核苷酸:4种碱基ACTG序列,全部序列称为一个基因组

    在人类基因组工程的实施期间,文特尔听说RNA能传递制造蛋白质的信息。他想,为什么不能反过来用RNA去测序DNA?说干就干,他很快把一个基因的测序成本从5万美元降低到20美元,他因此一下子发现了2 700多个新的基因。本来,人类基因组工程的计划是首先用几年时间,拿第一个10亿美元把46个染色体区分开来,然后交给不同的团队分别去进行DNA测序。文特尔看不上沉闷枯燥漫长的人类基因组工程,认为参与工程的工程师都是“签约的奴隶”。

    1994年,文特尔向国家 健康研究院领导的人类基因组工程申请经费支持。他认为细菌才是完整的生物,他要解读细菌的DNA基因组。几个月后,他的申请被拒绝了。专家权威们认为,他提出的测序办法是“根本不可能的”。1995年,文特尔完成了世界上第一个细菌——流感嗜血杆菌(Haemophilus influenza)的完整DNA测序,这个基因组约有200万个碱基。这是世界上第一个被完成测序的细菌。1996年,文特尔完成了世界上第二个细菌——生殖支原体(Mycoplasma genitalium)phi X 174 (ΦX174) 的完整DNA测序。一个月之后,人类基因组工程也完成了这个细菌的测序。连续赢得两个回合的文特尔团队不仅两次夺得第一名,并且没有拿过联邦政府的一分钱资助。

    单核苷酸多态性(Single Nucleotide Polymorphism,SNP)系指DNA序列单个核苷酸碱基之间的变异。图中显示了4个个体的变异

    1998年,文特尔成立了一个公司专门测序人类基因组。1953年艾德蒙·希拉里(Edmund Hillary,1919-2008)成为第一个登上珠穆朗玛峰的人类,文特尔希望自己成为直接乘坐直升飞机登上生物科学珠穆朗玛峰的第一个人——他的直升飞机就是他的各种异想天开的思路和大规模电脑系统。他的新公司开展的第一项工作是构建世界上最大的一套非军用超级计算系统,计算能力超过世界上任何其他计算系统。

    1998年,原定 “15年完成”的基因组工程进展到第8年,官办科研机构仅仅完成基因组测序的4%,很多人都被文特尔 “3年完成全部测序”的宣言惊呆了。而且文特尔的全部预算仅为联邦计划的十分之一。

    人类基因组工程的主任,虔诚的基督徒柯林斯在教堂祈祷了一个下午,他可能从耶稣那里得到了启发。他修改了工程目标,不是在2005年完成基因组全部测序,而是在2001年完成基因组的草稿。他砍掉了一大批卫星计划和子课题,全力以赴力争完成这份基因组草稿。

    1998年,空前惨烈的DNA竞争大会战爆发了。文特尔像罗马将军一样发表了疯狂的演讲,他的大军一边高声喝彩,一边像罗马军团一样,大家一起用皮鞋猛蹬地板。双方同时展开了一次又一次大规模军备竞赛,耗资数千万美元的稀奇古怪的DNA测序设备被一个又一个研发出来。双方的大军不仅是脑力和体力的大决斗,也是精神和忍耐力的大比拼……他们双方各自阵营的内战也此起彼伏,例如在一次国际会议上,德国科学家和日本科学家互相批评指责对方的测序数据出现错误,谁都承担不起竞赛失败的责任和因此而丢失的脸面……

    1999年,文特尔宣布完成果蝇的1.2亿个碱基测序——他占领了又一个制高点。紧接着,文特尔宣布突破10亿个人类基因组碱基测序。国家健康研究院立刻坚决否认,指责文特尔没有公布出来给大家审查。但是一个月后,国家健康研究院自己也宣布突破了10亿个碱基,过了4个月又宣布突破20亿个碱基……所有人的心里都明白,文特尔的大军确实在发动一场豪赌,一场DNA测序的闪电战。

    2000年,克林顿总统亲自宣布“雨过天晴”,基因组属于全人类,成果不申请专利,向世界公开。

    克林顿总统把两个阵营的首领,文特尔和柯林斯,都请到新闻发布会的现场。参加这两个基因组工程的科学家超过3 000人,克林顿总统承认:“大政府的时代过去了。”

    是的,大生物的时代来临了。

    2001年,两个阵营的基因组草稿分别公布。经过对比,启动仅仅两年的私营企业阵营赢了,文特尔的草稿比政府的草稿更好。媒体和舆论普遍认为,如果没有文特尔的挑战,政府主导的基因组工程可能还是遥遥无期(2003年,完整的人类基因组测序才最后完成)。

    2000年6月26日以后,各种DNA的数据库成为一个长长的清单,并且全部开放、自由浏览。生物时代来到了。

    生物时代的最大特点之一是信息量的巨大和数据库的爆炸性增长。我们看看一个著名大型杂志集团诞生的例子。

    2001年,美国提出PLoS(科学公共文库,Public Library of Science)。2003年,第一份PLoS杂志发行。同行评审、公开检索、非营利是该杂志三大显著特点。PLoS迄今已发行8种生物学杂志,年发表论文总量位居世界第一。

    2012年,PLoS生物杂志系列群已经基本成型,其中PLoS Biology 的检索引用系数位居PLoS杂志第一,PLoS ONE年发表1.4万篇论文,数量位居PLoS杂志第一……与此同时,面向全球的各种基因库、基因银行纷纷建立,也全部采用自由检索方式。

    2008年以后,各种基因工程一个又一个出现。测序的基因组对象包括人类——植物——动物——微生物——原生生物……基因技术的大量突破、新的技术和设备的大量出现,使人类进入了所谓的“第二代基因组测序技术时代”。我们不讨论这些技术以及各种设备的发展和性能, 现在我们看看仅仅几年内“测试一个人类基因组的成本”的戏剧性变化。

    每个基因组的成本。在2008年,曲线突然开始急速下降:2007-2008年,美国基因测序技术出现突破,成本开始突然迅速下降。测试同一个目标,1990年的成本是30亿美元,而此时,每个人类基因组的测序成本都降到了一万美元以下。差距达到30万倍,彻底打破了电子技术的摩尔定律(图中的白线)

    测序成本的大幅度降低,引发了一大批新的基因工程的启动:

    测序成本不断下降,各种基因工程和项目遍地开花,人类随着生物技术冲进21世纪,而21世纪也因此被称为生物世纪。

    但是,“夏娃”出现十几年后,人类还是没有找到自己的先祖“亚当”……

    非洲化石大爆炸的困惑

    达尔文是一位性格平和、实事求是的博物学家,他喜欢观察,喜欢化石。他的名字前面的一长串各式各样的称号,都是后人添加的头衔。在《物种起源》中,达尔文甚至没用“进化”(evolution)一词,而是采用了“更改的后代”(descent with modification)一词,因为他认为,进化一词含有进步的含义,物种的遗传变化只是为了适应变化的环境,并没有进步或退步的含义。达尔文除了收集各个物种的标本,还收集了大量化石。但是,达尔文当时还无法分辨清楚这些化石,也没有条件进行统计学的分析。

    瑞典“分类学之父”林奈,将现代人类命名为Homo sapiens,拉丁语意思是“智慧的人”(wise man)。19世纪,考古发现智人不止一种,很多类似智人的化石也出现了。

    1856年,德国尼安德尔谷地(Neander Valley)发现第一批古人类遗骨,被命名为尼安德特人。1890年代,荷属东印度(现印度尼西亚)的爪哇岛发现亚洲直立人的化石。1920年代,中国发现周口店猿人(Zhoukoudian Sinanthropus)……

    欧仁·杜布瓦(Eugene Dubois,1858-1940)是一个坚忍不拔的荷兰人,他在荷属东印度群岛经过二十多年的挖掘——当然不是他亲自动手,而是雇用了大批囚犯——终于在爪哇岛发现一种直立人的化石。他把这种猿人命名为Pithecanthropus(英语erect ape-man:爪哇直立猿人)。1950年代以后,人们把在爪哇和中国发现的这两种亚洲直立人分别命名为爪哇人(Java man)和北京人(Peking man)。

    但是,正如达尔文的推测,世界上化石最多的地方在非洲。1920年代,非洲的猿人化石开始大量出土,远远超过欧洲和亚洲。1921年,赞比亚发现第一个猿人化石。1922年,雷蒙德·达特(Raymond Dart,1893-1998)被任命为南非威特沃特斯兰德大学(University of the Witwatersrand)的人类学教授,开始组建一个人类学系。1924年,达特确认,在赞比亚发现的是迄今最古老的猿人化石。1959年,在距离赞比亚几千千米的肯尼亚,路易斯·李基(Louis Leakey)发现了一个175万年前的南方古猿(Australopithecus)。这一考古发现,将非洲地区的远古类人猿的生存年代延长了大约一倍。此后的考古发现,非洲人科生物的化石年代越来越久远,分布越来越广泛。

    此后的几十年里,越来越多的非洲南方古猿(Southern Ape Man)的化石大量出土,其数量之大,超出世界上其他所有地方的总和。人类起源于非洲的理论,在事实面前逐渐被世界接受。

    非洲南方古猿(Southern Ape Man)的年代逐渐向前延伸:300万年,400万年……最新发现的类似黑猩猩的猿人Ardipitbecus(地猿)进一步把非洲猿人的年代延伸到560万年前的中新世(Miocene)。但是,伯克利大学计算出来的“线粒体夏娃”这个现代智人的诞生时间,仅仅不到20万年,这到底是怎么一回事?(1974年11月,露西(Lucy)在埃塞俄比亚出土,她的年龄约20岁,生活年代约320万年前。露西属于南方古猿阿法种(Australopithecus afarensis),这种古猿与现代人的关系目前仍不清楚。露西被列为联合国世界文化遗产)

    化石是确凿无疑的证据,但也可能把我们引入歧途。化石给予我们认知远古历史的证据和知识,但是无法给出生物谱系(genealogy)。只有基因可以找出我们的谱系。一切都取决于这些人科生物出现的时间。

    线粒体数据和模拟计算分析反复证实,现代人类从非洲进化而来,然后散布全球,取代了所有的人科生物远亲。虽然这个结论非常残酷,但是与考古学、人类学、语言学、气候学等学科的综合结论完美地吻合在一起。这一切发生在仅仅十几万年前。

    更加详细的研究证明:4万年前到200万年前的尼安德特人、北京人、爪哇人、南方古猿等,现在都没有留下任何基因的痕迹,也没有分别独立进化成现代人的证据,虽然它们的形态与我们人类多多少少有些相似,虽然它们都是比现代人类更早走出非洲的类人生物,但是它们都已经彻底灭绝了。

    我们的祖先几万年前走出非洲,所有的遗传数据都支持这一观点。非洲的多态性是世界上最丰富的:非洲的一个村子里的居民的高度分离的基因遗传血统,就超过世界所有其他地方的多态性数量的总和。更准确地说,在我们人类这个物种的遗传多态性(genetic polymorphisms)中的绝大部分多态性仅仅存在于非洲。欧洲——亚洲——南北美洲的多态性只占很小一部分,比不上任意一个非洲村庄。

    我们是唯一存留的人种,多起源说再次被证明是错误的。(图尔卡纳男孩(Turkana Boy), 1984年在肯尼亚图尔卡纳湖(Lake Turkana)出土,是世界上最完整的一具骨骼。男孩年龄11-12岁,年代150万——160万年)

    但是,人类考古史上,学者们曾经并不这样认为。每一块出土的人类化石都曾引发出一场争论。在欧洲、亚洲和非洲,许多年代久远的古代遗址出土了毫无疑问的人类活动遗迹。其中出土最多的遗物是石器,因为石器容易保存下来,真正的人类骨骼却极其罕见。围绕这些化石,古人类学家研究和争论了很多年:
    能人,Homo habilis
    直立人,Homo erectus
    海德堡人,Homo heidelbergensis
    尼安德特人,Homo neanderthalensis
    ……

    命名虽然五花八门,但是所有这些分类的定义都是根据骨骼的解剖形态,而不是以生物学意义上“彼此是否可以杂交产生健康后代,并且后代是否也能继续传承”为依据。考古学的这些分类只是为了便于研究,骨骼形态根本无法查明不同地区的人类能否成功杂交。如果能够杂交,就能进行基因交流,因为同一物种处于同一个基因库里。如果不能杂交,不同物种之间就不会交流基因,位于互相隔离的基因库中的不同的物种之间进化的道路无可挽回地分道扬镳了。

    化石记录只能告诉我们早期的各种人科生物,在离开家乡之前在非洲度过了几百万年。中国和爪哇的化石,与古老的非洲直立人相似,不仅表现在体质形态上,还表现在遗址中的石器类型上。但是,毫无疑问,它们都已经灭绝了。所有的其他人科生物都进入了进化的死胡同,在最后一个尼安德特人死亡之后,它们永远消失了……

    什么也找不到

    在继续讲述之前,有必要介绍一下两本科学杂志。迄今为止,我们论述的故事都首先刊登在这两本世界性的权威科学杂志上,它们分别是英国的《自然》(Nature)和美国的《科学》(Science)。这两本杂志的历史地位非常特殊,几乎所有生物科学和基因科学的新发现,都是这两本杂志首先披露的,例如“线粒体夏娃”“Y染色体亚当”、尼安德特人等。在这两本杂志上发表论文必须经过非常严格的“同行评审”。

    1994年,诺贝尔奖获得者沃特·吉尔伯特(Walter Gilbert)和罗布·多利特(Rob Dorit)、广濑明石(Hiroshi Akashi)在《科学》上发表了一篇奇特的论文。这篇论文的奇特在于:他们不是报道发现了什么,而是报道没有发现什么,论文的题目是《人类Y染色体在ZFY区段不存在多态性》(Absence ofpolymorphism at the ZFY locus on the human Y-chromosome)。这三个科学家希望能从世界不同地方采样的38个人的Y染色体上找到多态性,但是最终没有找到。他们感到非常惊讶,反复进行核实,结果还是找不到。也就是说,这38个人理论上来自同一个父亲。一位诺贝尔奖得主和两个生物专家,花费很大力气,发现了一个花天酒地的风流男人,他在全世界眠花宿柳,他生下的38个儿子又恰好被搜集到这场科学实验里来了。
    这绝对不可能。

    这个DNA区段的长度是700个核苷酸。经过一系列复杂的计算,三个研究者的结论是:这38个人的最近的共同祖先——亚当的时代,应该在0-80万年之间。这些数据没有意义,这篇论文也没有提供什么新发现,只是阻止了一些人继续研究Y染色体,避免了浪费时间和精力。

    其实,早在1985年,米里亚姆·卡萨诺瓦(Myriam Casanova)和杰勒德·路托特(Gerard Lucotte)也独立发现了这一奇特的现象:在人类23对46个染色体上,只有最后一个染色体的Y染色体找不到变化。

    几年之后,美国亚利桑那大学(University of Arizona)的迈克尔·函默(Michael Hammer)找到了足够的多样性,证实亚当在20万年之内,确实存在于非洲。这个结论,佐证了线粒体的研究结论:亚当和夏娃的幽会舞台,确实在远古的非洲大草原。但是,函默也没有查清Y染色体的多态性。

    夏娃出现7年了,亚当还是没有任何音信。现在的世界地图无法帮助我们研究DNA和人类的迁移。人类迁移与现在人为划定的国家和行政管辖的界线没有关系,所谓的种族和民族概念完全无法代表人类的旅程。

    科学地论述史前历史,不能使用概括性语言,例如所谓“第一批美洲人”或“第一批澳大利亚人”,因为这类语言的潜台词是这些古人的群体当时是意见一致的群体。设想一下,欧洲的尼安德特人会不会说:“糟糕了,弟兄们,我们灭绝的时候到了,只好让克罗马农人来接替吧。”白令海峡边的亚洲人会不会说:“伙计们,现在是1.4万年前,赶紧穿越白令陆桥去美洲吧,再过2 000年这里就又变成海峡啦。”这些设想毫无可能。古人根本没有计划,他们根本不知道世界是什么样子,中东北非的农民也不可能组织有计划的欧洲殖民。

    1987年,“线粒体夏娃”的谱系图出现。这个图很大,线粒体DNA样本来自147个活着的人,我们取其中的16个人的关系看一看:

    16个人的16根线,反映了他们的线粒体DNA的遗传差异。两个人的DNA越相似=关系更接近=共同祖先更近=短树枝。两个人的DNA差距越大=关系更远=共同祖先更远=长树枝。最早分叉的树枝有4个非洲人,另一个早分叉的树干涵盖了世界其他地区的所有人和一个非洲人。在这根分叉的树干上,较近的枝条连接了世界上同一地区的人,例如亚洲人、巴布亚人、欧洲人。有时也会把不同地区的个体连在一起,例如中间的一枝把一个巴布亚人、一个亚洲人和两个欧洲人连在一起。非洲的树干和世界其他地区树干的早期分叉,正是非洲古老地位的证明,而世界其他地区紊乱的树干说明,每一个现存的群体的历史都有融合的烙印。

    这张著名的“线粒体夏娃”图产生了巨大影响,这幅图告诉我们,遗传相关的个体会散落世界各地。在所有群体中,如果一个群体中的某一个体的DNA关系出现在另一个群体中,那么,群体作为生物学单位的传统概念就没有任何科学依据。在全世界的线粒体DNA采样中,没有找到任何“纯种人”的群体。生物学意义上,人类属于一个种,只是后来产生的语言和文化才造就了现在的世界格局。

    此外,线粒体DNA谱系图的绘制,加入了时间概念。计算分析发现,所有的枝干都汇聚到15万年前的同一个点,即树的“根”。这意味着整个人类物种比许多人想象得年轻得多,关系也近得多。

    关于人类起源的争论,曾经非常激烈。争论的双方都认为我们现存人类同属于一个种,起源于非洲。双方都承认有几种更早的人类,属于进化的不同中间阶段。例如,直立人在190万——80万年前出现于非洲并向其他地区扩张,因为在欧洲、中国、印度尼西亚都发现了直立人的化石。这些都是事实。对于这些问题,争论的双方自始至终都是认同的。争论双方的分歧集中在是否发生过一次源自非洲的现代人的扩散?单起源说认为新的人类在世界范围内完全取代了直立人;多起源说认为智人是直接从各地的直立人进化的,例如现代中国人是中国直立人的后裔,现代欧洲人是欧洲直立人进化的,他们都不是非洲最后一次迁移出来的现代智人的后代,他们在当地进化了上百万年。

    细胞里的染色体

    “线粒体夏娃”的基因树,第一次将时间测度引入了年代估计,清晰地指出,所有现代人的共同线粒体祖先,生活在15万年前。这与单起源说相符,受到单起源说支持者的热烈欢迎。多起源说的支持者则很沮丧,如果现代人的共同祖先只能追溯到15万年前,那么,他们就不可能是居住在当地100万年以上的本土直立人进化的。

    这场论战中,Y染色体的研发遭遇了困境,相对简单的线粒体DNA被推崇为解释人类历程的主要手段,全世界的实验室都掀起了研究线粒体的高潮,也涌现出了大量数据。但是,与Y染色体一样,线粒体DNA的研究也原地踏步不前。原因出在哪里?几乎全世界的研究者都不约而同地想到了数学。是的,原因是没有与数学结合起来。看来,必须抛弃谱系树模型的禁锢,另辟蹊径。

    研究者分头积极开发相应的数学模型、数学工具、电脑程序……

    血型开始的分子探索

    人类多样性的研究,直到20世纪依然局限于肉眼可以看到的差异。欧美的生物统计学家收集了全球各个角落的不计其数的人类体质数据,形成科学探索的一个新领域:体质人类学。从化石到石器,无穷无尽的分析数据持续增多,但是,学者们仍然找不到归纳统一这些不断积累的海量数据的新的理论。

    人们逐步意识到,肯定是某种遗传学的因子决定了人类的形态,也许是成千上万个基因的变化,导致了人类形态的千差万别?人类多样性研究中,遗传变异是关键,因为只有遗传变化才可以导致实质的进化。只有通过基因的研究,才能查明两个个体是否属于同一个种。

    血型,因为最先被认为是基因的载体而最早进入了分子层次的遗传研究。

    血型研究的最初目的是治病救人。1628年,意大利第一次记载了输血。由于很多人死于输血后严重的副作用,所以意大利、法国和英国先后禁止了输血。此后,试验停止了两个世纪。19世纪中期,为了解决产后常见的致死性出血,人类又开始了输血,但仍然经常发生输血不良反应甚至输血致死。这时,科学家开始意识到,血液类型的不同可能是问题的症结。

    1875年,法国生理学家列奥纳多·拉罗瓦斯(Leonard Lalois)发现了一种血型和另一种血型反应的本质。他把不同动物的血液互相混合起来,发现血细胞会凝集起来,并常常破裂。

    1901年,奥地利细菌学家卡尔·兰德施泰纳(Karl Landsteiner)终于找到了真相,他发现了第一个人类的血型系统,他把人的血型分成A、B、AB、O型,简称ABO血型。当献血者的ABO血型与接受输血的病人相符,就不会有不良反应,如果不相匹配,细胞会凝集并破裂,从而导致严重的不良反应。

    从遗传学角度来看,在一个多世纪之前,卡尔·兰德施泰纳发现ABO血型是人类第一次知道自身的多态性(polymorphism)。此后又发现了40多种血型,使用最多的仍然是兰德施泰纳发现的ABO血型。

    人体组织的多态性更是数不胜数,器官移植就是一个例子。移植心脏、肝脏、肾脏或骨髄等器官时,为了避免排异反应,捐献者和受赠者的组织必须匹配。现在,病人不会因为找不到合适的血型匹配等待输血,但是,为了找到一个匹配的心脏或肾脏捐献者,却往往需要等待几个月甚至几年,很多患者在等到合适的匹配器官之前就死去了。

    在兰德施泰纳研究成果的基础上,瑞士人路德维克和汉卡·赫希菲尔德夫妇(Ludwik & Hanka Herschfeld)在第一次世界大战期间采集了更多的血型,他们不仅试图深入了解血型,甚至想了解人类的遗传。当时的血型采样分析比较困难,但作为军医的他们有条件采集到很多血型样本。

    1919年,路德维克和汉卡·赫希菲尔德夫妇的论文发表在英国权威的医学期刊《柳叶刀》上。他们认为,A型和B型是“纯种”人类血型,其他的血型的人类都是“混血”,在世界各地的频率不同。赫希菲尔德夫妇的理论被部分接受了,但是却无法解释A型和B型的起源。他们的论文宣称,A型在欧洲北部特别常见,B型在印度南部频率较高,因此认定人类肯定有两个起源。

    1930年代开始,在赫希菲尔德夫妇的研究基础上,美国人布莱恩特(Bryant)和英国人穆兰特(Mourant)在世界各地采集血样。经过30年的长期努力,这两个科学家及其团队从几百个人群中采集了数万份血型样本,甚至包括死去的埃及人——木乃伊。1954年,穆兰特从非常分散的血型分布中,归纳整理出人类生物化学多样性的错综复杂的分布形态。他们两人所做的这些基础工作,在20年之后开启了现代人类遗传学时代,但在当时却是一团乱麻。根据血型找出人类的种族和分类的道路似乎走不通,但是又似乎很有道理和根据。

    这时出现的两个结论,彻底否定了从血型寻找人类遗传的错误道路。一个结论来自美国生物学家列文庭,一个结论来自“遗传学之父”费希尔的两个学生。人们把这两次大的转变,称为遗传学上的两个大型炸弹。

    两个大型炸弹

    人类具备考察DNA能力的时间不长,分子遗传学直接研究DNA的能力出现仅仅20多年。此前,人类只能用间接的方法研究变异,主要研究对象是DNA编码构成的蛋白质。1901年,人类发现了第一种亚细胞蛋白质——血型,第一次定义了遗传差异。1960年代,美国的统计学与遗传学结合,研究发现了许多个体的根是遗传的,这个根就是蛋白质多态性(protein polymorphism)。达尔文收集了大量有趣的证据证明他的进化理论,但是达尔文没有进行直接的统计学显著性的任何实验,他的各种结论长期停留在外在的观察分类上。

    理查德·列文庭(Richard Lewontin,1929-,通过数学手段研究群体遗传学(population genetics)和进化理论)是几个大学的兼职教授,必须四处上课。他在从芝加哥到路易斯安娜的巴士上,用统计学分析计算证明现存人类属于一个种,亚种分化不存在,种族不存在。从此,群体遗传学(Populationgenetics)诞生了。

    1970年代,欧洲的一批科学家尝试用数学方法解决遗传学问题。费希尔的两个学生,遗传学家卡瓦利·斯福扎(Cavalli-Sforza)和安东尼·爱德华(Anthony Edwards)经过20多年合作,不是参照外在的形态数据,而是根据内在的多态性,计算绘制出了一棵与众不同的谱系树。他们的数据来自全球的15个群体,在不可胜数的无数种多态性中,他们采用简约(parsimony)方式筛选出几十种典型多态性数据。从此,计算遗传学(Computational biology)诞生了。

    列文庭和斯福扎的研究成果,激起巨大反响,他们的结论与我们以前的猜测相反——人类的关系原来如此互相接近。列文庭的统计分析发现,如果人类确实进化了几百万年,为什么人类的“种族”之间没有发生显著的遗传变异?斯福扎的各种谱系树,一个又一个分支都向同一个主干的根部靠拢。其他科学家参照他们的新方法进行了更多的分析计算,都得出类似的结论:

    卡瓦利·斯福扎的谱系树,根据经典的多态性显示若干人类群体之间的关系
    列文庭研究显示各个群体中人类遗传变异主体85%+7%=92%属于一个群体

    群体遗传学发现,所有人类属于一个大家族。
    计算遗传学发现,各个群体指向同一个主根。
    于是,一个共同的疑问产生了:人类是不是有一个共同的先祖?

    千变万化的肤色和外观区分了各种人,但是我们身体内在的遗传数据悄悄告诉我们,我们之间的差异并不像想象的那样大。那么,我们互相接近的程度到底有多大呢?1970年代早期,蛋白质的数据无法解答这个疑问。1970年代后期,DNA的测序技术得到的各种基因数据令人瞠目结舌。

    1977年,美国哈佛大学的沃特·吉尔伯特(Walter Gilbert,1932-)和英国剑桥大学的弗雷德里克·桑格(Frederick Sanger,1918-),分别独立开发出两种DNA快速测序方法。这是一个巨大的进步。其中,弗雷德里克·桑格的方法适合实验室而获得广泛运用,最终引导人们尝试开展基因组的大规模测序,引发了人类起源和多样性认识的一场革命。

    1980年代,被DNA测序技术武装起来的擅长统计学的群体遗传学家,深入他们的前辈不敢想象的多样性和多态性的数据海洋里,用硅谷的最新电脑技术和不断升级换代的软件系统开始了新的探索。

    1980年代,分别面向女性DNA和男性DNA的探索开始了。加利福尼亚大学伯克利分校的阿伦·威尔逊研究只在母女之间代代传承的线粒体DNA;斯坦福大学的卡瓦利·斯福扎研究只在父子之间代代传承的Y染色体的遗传标记。这两套办法的成功运用勾勒出人类的早期迁移过程,并且发展出一批新的工具和方法学,可以破译我们的DNA记录的历史信息。
    生物学,尤其是遗传学,正在转换为一种大规模的计算科学。
    现在,我们一起回顾一下这段崎岖不平的科学研究的道路。

    勇敢的列文庭

    根据其他学术组织和学者收集整理的大量血型资料和蛋白资料,理查德·列文庭尝试不带任何偏见地验证人类的“种族”。列文庭当时打算分析计算人类的遗传数据,从互相差异很大的人类“种族”数据中,看看能否找出不同种族存在的统计学证明。也就是说,他打算直接验证“分类学之父”林奈和美国体质人类学会的会长库恩提出的所谓“人类亚种”的真实性。林奈和库恩是两个世界级权威,列文庭当时并未打算否定权威。如果人类遗传的多样性确实导致了不同种族的明显差异,那么林奈和库恩就是正确的。

    1950年代,列文庭用自己擅长的统计学知识计算分析过遗传变异,尤其是果蝇的遗传变异;1960年代,列文庭又找到了统计分析各种蛋白差异的新模型;1970年代,列文庭在这次长途巴士旅行中,希望用他的新数学模型检测血型和蛋白等人类数据。

    列文庭后来这样描述他的分析过程:
    ……我想用纸写下答案……为新的一期《进化生物学》(Evolutionary Biology)杂志提供一篇文章,内容并非人类遗传学,而是生态学(Ecology)。我希望定量测度(人类)多样性……我必须坐巴士前往印第安纳州的布鲁明顿(Bloomington)。我有一个习惯,坐火车或巴士的时候写东西。我必须写出这篇文章,所以我上车的时候带着Mourant的著作和一个plnp计算表(计算多样性的一种数学表格)。

    他的这次巴士旅行,成为人类遗传学的一个里程碑。列文庭把他的新数学模型,与研究动物和植物地理分布的新学科——生物地理学(Biogeography)结合起来,因为正是地理分布的不同定义了所谓“种族”。

    此前,列文庭自己也曾根据地理上的“血统”粗略划分了人类:
    高加索人(Caucasians ,欧亚大陆的西部)
    黑色非洲人(Black Africans,撒哈拉以南的非洲)
    蒙古人(Mongoloids,亚洲的东部)
    南亚土著(South Asian Aborigines,印度的南部)
    美洲人(Amerinds,美洲)
    大洋洲和澳大利亚土著(Oceanians and Australian Aborigines)

    他作出的上述的假设分类,已经非常合理,既区分了主要区域遗传差异,又涵盖了广大的不同群体。然后,他根据血型和蛋白等大量数据,分析计算人类的这些“种族”分类是否真实存在。但是,就是在这次长途旅行中,列文庭的严谨的统计学计算结论,却推翻了他自己假设的上述“种族”分类——92%的多样性在群体间无差别,只剩下8%的多样性有所差异,但是仍然不足以成为另外一个不同的物种或亚种。这个结论,正是科学界必须否定和摒弃的“现代存在亚种分类”观念的一个令人震惊的证明:现存人类属于一个种,亚种不存在,种族不存在。

    关于这个结论,列文庭写道:
    我没有想到,真的没有想到。即使我有种族偏见,我也认为种族差异不会很大。这个观点有一个事实依据:很多年以前,我和我妻子到(埃及)卢克索旅游,她在大厅里与一个埃及人闲聊。那个人说,他好像曾经认识她。我的妻子坚持说:“不,先生,你把我错当成什么人了。”最后那个埃及人说:“好吧,对不起,可是我确实觉得你们长得都是一样的。”这件事,对我的思想影响很大。他们与我们确实差别不大,我们都是相似的。

    列文庭自己假设的“种族分类”错了,他的发现还证明了世界分类学之父林奈和人类学权威库恩也都错了。因为否定了世界权威,他也获得了“勇敢的列文庭”的称号。

    关于人类多样性的争议似乎无休无止,种族主义者们总是声称人类之间存在多样性差距。但是列文庭认为,即使在同一个族群之内,依然存在少量的遗传差异,但是这种差异不足以使人类变成不同的亚种。列文庭最喜欢给人们举这样一个例子:如果发生核战争,人类大部分灭绝了,只有肯尼亚的基库尤人(Kikuyu),或者南亚的泰米尔人(Tamils),或者印尼的巴厘岛人幸存下来,在他们中间仍然可以找到至少5%的基因差异。这是对种族主义“科学”理论的彻底否定,对达尔文理论的全力支持。

    1940年以前世界各地人类原住民肤色地理分布
    奥地利医生费利克斯-利特尔-冯-卢尚(Felix Ritter von Luschan ,1854-1924)发明了一种仪器和皮肤颜色检测方法,叫作冯——卢尚肤色度(von Luschan chromatic scale),他把人的皮肤颜色分为36个度。这种方法是20世纪前半个世纪最流行的皮肤测度方法,被作为种族主义者区分人类“种族”的最主要依据

    列文庭后来反复核算了血型和蛋白等数据,证明自己的结论是正确的。列文庭的这些成果否定了种族理论,给出了“人类作为一个物种走出非洲”的基本线索,但是还是没有解答人类走出非洲的旅程的细节。

    引起进化的三个力量

    在寻找人类来源的道路上,人类曾经走过太多的崎岖弯路:骨骼、血型、蛋白、种族、多样性……骨骼无法区分种族,血型也无法区分种族。人的分类是否有意义?遗传学能否解释人类的多样性?而且,直到现在,研究者们依然没有找到我们的男性先祖亚当。

    1990年代,人们已经知道引起“进化”的力量非常简单,只有三个。

    最主要的力量是基因的突变(mutation)。
    没有突变,就没有多态性(polymorphism)。每一代人的每一个基因组(genome,又称染色体组)大约产生30个突变。换句话说,每个人身上都有30个突变,使得他们和自己的父母不同。突变是随机发生的变化,是在细胞分裂过程中,基因复制出现的错误。这和我们买彩票中大奖或不中奖是一个道理。

    根据基因理论,物种的形成大体上有四种模式。其中异域型的典型例子是澳大利亚,在大洋隔离的大陆,许多物种独立演化。边域型和临域型是“姐妹物种”,例如高山或河流阻隔群体,分别演化。同域型包括同一地域内发生的基因突变等,例如人科动物很多物种包括人类,都在非洲地区发生了基因突变

    第二个力量是选择,尤其是自然选择。
    这个力量曾经使达尔文非常激动。这个力量在智人(Homo sapiens)的进化中是非常关键的角色,对其他动物的作用也很大,例如在寒冷的气候下,皮毛比较多的动物后代生存的机会就超过皮毛较少的后代。进化使得我们感知功能更强,文化更发达,也曾经使得我们直立起来、学会说话、大拇指与其他四指分开……没有选择,我们和500万年前的先祖没有什么差别。

    第三个力量是遗传漂变(genetic drift)。
    如果我们抛一枚硬币1 000次,正面和反面的机会是50∶50。但是我们抛10次,正面和反面的机会可能是50∶50或60∶40或70∶30。这是少量采样中的随机事件。假设人类遗传是这样的“事件”,一个比较小的人群中发生类似抛硬币的现象,下一代的变化从50%突然增大到70%,那么,仅仅几代之后,这个人群就会出现显著的改变。这种漂变,对一个小的人群的基因频率会产生巨大的影响。

    这三种力量的综合,导致了今天的遗传形态令人眼花缭乱的巨大阵列——难以计数的多样性和多态性。仅仅认识到生物化学层次的多样性和基因的作用,还远远不能真正认识人类的多样性和人类的迁移。

    继列文庭的第一个大型炸弹之后,现代遗传统计学的奠基人费希尔的两个学生——斯福扎和爱德华兹引爆了第二个大型炸弹,从而彻底否定了从血型研究人类遗传的错误道路。

    斯福扎(Luigi Luca Cavalli- Sforza,1922-),一个数学天才,意大利的医学博士,通过研究细菌和昆虫的进化给遗传研究带来了新的思路,使人类最后找到了亚当。列文庭是杜布赞斯基(Theodosius Dobzhansky,1900-1975)的学生,斯福扎的大学老师也是杜布赞斯基的支持者。这两个大型炸弹的制造者,都与当年著名的果蝇实验有关系。1950年代,著名的果蝇遗传学家特拉沃索(Buzzati Traverso,1913-1983)曾经用昆虫研究遗传。历史上,无论孟德尔的豌豆实验还是特拉沃索的果蝇实验,都太简单了,仅仅揭示了基因作用的可能存在。这种谁也没有亲眼看到的“基因”,后来又被复杂化了——统计学、概率论、生物地理学……都对遗传学和基因做出了过度的“贡献”。

    斯福扎原来是一名医学院的学生,他后来离开医学,转向遗传研究。在果蝇变异和医学这两种似乎无关的背景知识下,斯福扎开始研究血型多态性(后来,这些研究被遗传学家称为“古典”多态性),希望搞清楚现代人类之间的关系。这项工作起始于1950年代,那时还是遗传学的先驱时代。与大部分遗传学家相同的是,斯福扎也采用迅速发展的生物化学技术分析基因变异。但是,与其他人不同的是,斯福扎运用了数学,尤其是统计学——最为实事求是的一个数学分支。变幻缤纷的多态性产生的杂乱无章的数据,如同浩瀚的数据大海,必须有一套条理清晰、前后连贯的理论框架才能厘清头绪。这里,只能求助于统计学。

    基因的变异,乍看起来是随机的、互不联系的,许多组类似的变异堆积在一起。如何才能从这些杂乱无章甚至乱作一团的数据中找出多样性产生的机制?当时,人类已经研究积累了几十年的丰富的个体信息数据(例如不同血型等)。现在,生物遗传学必须与数学,更确切地说与统计学结合了。费希尔及其学生们,从此开始成为遗传科学中的主角,最后大型计算系统被引进了遗传科学。

    一开始,斯福扎和爱德华兹一起进行了综合数学分析。当时还没有电脑,他俩用早期的打孔卡计算机完成了这项工作量巨大的综合分析工程。通过对多个遗传系统数据的分析计算,过去那些貌似有道理的考古学和人类学的研究结果都被排除了。

    大部分生物学家无可奈何地把大自然多样性的根本原因归结为自然选择,人类的多样性当然也不例外。过去人们认为,人的外形到鼻子的形状都是“正常”的选择结果,只有一些遗传疾病是“不正常”的。1950年代,在美国工作的一个日本科学家木村资生(Motoo Kimura,1924-1994)进行了一些遗传学计算,他采用的方法是处理气体弥散(扩散)的数学。木村资生发现,人群中的遗传多态性有时源自漂变。他还得出了更加令人兴奋的结论:遗传基因的变化频率是一种可以预测的速率。进化选择的研究难点正是速率。进化变异发生的速率,完全取决于选择的强度——如果遗传变异体是非常适应的,就会加快变异发生的频率。但是,我们不可能通过实验测量选择强度,所以谁也无法预测变化速率。在抛硬币的例子里,如果硬币正面是一个基因变异,硬币反面是另一个基因变异,速率从50%加速到70%的“一代人”理应非常强烈地选择正面。但是,事实并非如此。正面增加到70%的“一代人”如果不被接受,就毫无意义。

    木村资生认为,大部分多态性也是这样。它们有效地规避了选择,在进化中呈现“中性”——不受整体采样误差的漂变的影响。这个观点在生物学家中引发出一场大辩论。木村资生和他的支持者们认为,几乎所有的遗传变异都与自然选择无关,但是更多的生物学家继续支持达尔文的选择理论。

    这种“中性进化”的新观念,解决了曾经在血型分类多样性研究中困扰几乎所有人的一个巨大难题——越算越多、累积增加的海量数据。人类找到了一个新途径,基因的研究出现了转机。

    在论述这条新的道路之前,我们需要首先回顾和感谢一位中世纪的智者。

    奥卡姆的威廉(William of Ockham,1288-1349,生于奥卡姆(Ockham))是一个奇才,他刻板地逐字诠释亚里士多德的格言:上帝和大自然绝对不做任何多余的事,总是付出最少的努力。这位被称为“奥卡姆剃刀”的学者抓住一切机会与别人辩论,解释他的诠释。他说过一句著名的拉丁语格言:

    除非必要,不做多元的假设。
    Pluralitas non est ponenda sine necessitate(拉丁语)
    Entities should not be multiplied beyond necessity(英语)

    这是对宇宙的一种独特而冷静的哲学诠释,一种简约的观念。

    在现实世界里,如果每一个事件的发生都有特定的概率,多个事件具备多种不同概率的话,复杂的事情并非不大可能是简单的——这就打开了通过易于理解的各个部分,进而全面了解复杂的整个世界的大门,虽然喜欢简单有时似乎有些荒谬。比如说,我们要从迈阿密飞到纽约,但是我们想途经香港,这是难以置信的荒谬。虽然这种旅程安排极其荒谬,但是我们探索混沌无知的科学世界时,我们的出发点经常出现荒谬的安排,不仅并非不可能,而且可能性很大。

    我们怎么知道大自然总是选择最简约的途径?

    我们怎么能够相信“简化即是自然”的格言?

    总而言之,大自然喜欢简单甚于喜欢复杂,尤其当事物是变化的。例如,一块石头从悬崖落下来,将在重力的作用下直接从高处下降到低处,仅此而已,不会途中转道香港去喝茶。这样一来,如果我们承认大自然变化的趋势总是选择从A点到B点的最短路径,那么,我们就有了一个可以推断出过去的理论。

    这是一场飞跃。人们终于认识到:我们只要观察现在的人,就可以发现过去发生的事情。

    从效果上看,简约理论为我们提供了一个哲学的时间机器,使我们得以返回早已不复存在的时代,四处探索和欣赏。这个机理,令人陶醉。其实,达尔文也是这个理论的一个懵懵懂懂的早期附和者。赫胥黎(Huxley)曾经批评达尔文本人对于自己的信仰也是稀里糊涂的,他说:“natura non facit saltum(拉丁语:大自然不会产生飞跃)。”

    1964年,第一次将这种简约原理有条有理地运用于人类分类的科学家,正是斯福扎和爱德华兹。他们两个人在20多年的合作研究中,树立了两个里程碑式的假设,这两个假设后来都用在了人类遗传多样性的研究上。

    第一个假设:遗传的多态性是可预测的(正如日本的木村资生提出的),亦即它们是中性的,频率的任何差异都来自漂变。

    第二个假设:人群之间的正确关系必定遵从Ockham规则(奥卡姆剃刀),亦即导致大量数据产生必需的变异的步数,必须最小化才能找出答案。

    从这两个假设出发,他们创建出所谓的“最小化进化”方法,然后用这种方法推导出人类群体的第一个谱系树(family tree)。这个树转化自一套图表,不同的人群与图表的某一部分关联,基因频率越接近,图表中的位置也越接近。

    斯福扎和爱德华兹检测了世界各地的15个人群血型频率,用电脑分析了频率检测结果——非洲人之间的差异最大,欧洲人和亚洲人之间频率比较集中。这是人类进化历史中的一个激动人心的清晰证据。斯福扎说,这个分析“只是找到一些感觉”(made some kind of sense)。此外,这个分析结果反映出基因频率的相似性:随着时间的推移,频率呈现有规律的变化。

    欧洲各个人群之间的接近程度,远远超过欧洲人与非洲人之间的接近程度,这意味着欧洲人离开非洲的时间,远远早于欧洲人自己开始多样性变化的时间。

    斯福扎和爱德华兹还研究出以基因频率为基础的许多种分析人群关系的方法,但是,他们始终广泛运用简约(Parsimony)的原则。700年前的哲学家奥卡姆的思想,指导现代的人类研究走上了一条新的道路。这种全新的人类分析方法,甚至可能计算出人类分离的时间。分离也可称为分叉,即不同的族群或谱系分开的点位(出现永久性突变)。这些分离点或曰分叉点的时间间距是一种生物钟,可以反向推算出人类的旅程。

    1971年,斯福扎和“遗传学之父”费希尔的另一个学生沃尔特·伯德默(Walter Bodmer)合作完成了一些新的估算:
    4.1万年前:非洲人和东亚人分离。
    3.3万年前:非洲人和欧洲人分离。
    2.1万年前:欧洲人和东亚人分离。

    但是,他们无法确定自己的假设是否真实。此外,他们仍然没有对人类的起源给出一个清晰明确的答案。现在,需要一种新的数据了。

    基因图谱工程绘制出的早期人类迁移图

    从蛋白看到先祖的影子

    血型被否定了。那么,用什么来研究人类的遗传呢?起初人们认为,另外一种途径是研究蛋白。很多科学家曾经认为,血型不是遗传的原因,蛋白才是遗传的原因。在这条道路上,人类也走过另一段弯路。

    加利福尼亚理工学院的艾米尔·朱科康德尔(Emile Zuckerkandl,1922-,和鲍林首先提出了“分子钟”的概念)是出生在奥地利的犹太移民,他一生的大部分时间都在顽强地专注于一个问题:蛋白质的结构。1950-1960年,朱科康德尔开始与诺贝尔奖的获得者,美国生物化学家莱纳斯·鲍林(Linus Pauling,1901-1994)一起工作。

    朱科康德尔研究携带氧气的分子——血红蛋白(haemoglobin)的基本结构。他选择这个对象进行研究的原因是血红蛋白非常丰富,易于提纯。更加重要的是,每一种现存的哺乳动物的血液里,都能找到血红蛋白。

    任何蛋白质,都由氨基酸(amino acids)的长长的序列构成,每一种蛋白质中,这些小小的氨基酸“分子建筑单元”的序列都是独一无二的。蛋白质总是扭曲着呈现出不同的形状,如果其他蛋白质插进来,它们就会呈现出不同的功能和反应。蛋白质的惊人之处在于:虽然五花八门的蛋白质的形状不同,功能各异,但是这些形状和功能全部取决于氨基酸的序列。总共只有20个氨基酸,却构成了无数种不同形状和功能的蛋白质。

    朱科康德尔在氨基酸中发现了一种有趣的形态。首先,他破译了不同的哺乳动物的血红蛋白,发现它们都是类似的。而且,越是亲缘关系接近的哺乳动物,这种共同性越明显。

    人类与大猩猩的血红蛋白基本相同,只有2个差异;人类与马也只有15个氨基酸不同。朱科康德尔和莱纳斯·鲍林猜测,这些分子可能是某一种分子钟(molecular clock),记录了随着氨基酸的数量的变化,某一共同先祖距离现在的逝去时间。

    1965年,他们发表了这些发现。

    他们把分子视为“进化历史的文件”。分子结构上谱写的形态,甚至可以让我们看到先祖本身,只要我们用“奥卡姆剃刀”把氨基酸的变化历程刮得仅剩下最少,就可能上溯到起始点。也就是说,我们的基因,写出了一部历史文献。

    分子,实质上是我们的先祖留下的时间胶囊(time capsules),我们要做的事情仅仅是读懂这些时间胶囊。朱科康德尔和鲍林认为,蛋白质并非基因变异的终极来源,DNA才是基因变异的终极来源,DNA实质上构成了我们的基因——DNA为蛋白质提供编码,所以最好研究DNA本身。只有DNA一个途径,能够解释和区分人类的多样性。

    基因不在血型里,也不在蛋白里,基因在DNA里。

    两个相关分子的进化谱系,显示出两个血统上累积的DNA序列变化

    现在我们终于知道,现代人类在将近20万年里出现了如下的演化。
    19.5万年前,突变形成新亚种(生物学意义)。
    16万年前,再次发生演化(解剖学意义)。注:长者智人可能只是一小群混血种群。
    6万年前,带着免疫系统——宗教——艺术——语言等装备走出非洲。
    这个过程可称为人类的旅程,并非人类的起源。但是,当时的科学家们并不知道,他们仍然深陷在艰难的科学探索中。

    打捞湮灭的先祖

    血型、蛋白、DNA,遗传基因研究的战场不断转换。

    发现DNA双螺旋结构的两个诺贝尔奖得主之一的克里克发现,遗传信息的单一方向流动顺序是DNA-RNA——蛋白。虽然人们曾经把这个顺序的方向完全搞颠倒了,但是积累的研究成果还是有用的。1980年代,人们发现分子生物学领域开发的新工具可以借来处理群体多态性,从分子序列数据估算出各种时间,直到回答一个古老的问题——人类的起源。

    分子生物学家面临的难题是DNA信息复制的特性。我们的基因组(genome,又称染色体组)携带构成人体的全部编码,其中还有很多DNA的作用不明。这个基因组有两套复制品存放在两组染色体里。染色体里存放这些遗传资料的“字符”核苷酸(nucleotides)的数量大约30亿个。解决的方法只能是找到直截了当读懂这么多文件的办法。但是两套染色体使问题更加复杂。精子进入卵子时,父亲的基因组和母亲的基因组以50∶50的比例混合形成一个新的基因组。而且,每一代都要产生一个新的基因组。从生物学角度来说,性就是产生一个新基因组。性产生新基因组的重新组合,称为遗传重组(genetic recombination)。两套染色体从中间分开,再次黏附到另外一半染色体上,构成新的染色体。分裂——复制——分裂——复制……有时甚至形成荒诞不经的奇怪的染色体。这也许是一件好事,因为环境变化了,我们也要变化应对。

    图中,长条是其他染色体,短条是Y染色体,圆圈是线粒体DNA。染色体经过一代又一代混合,先祖原来的染色体不见了(湮灭重组)。由于并非消失,所以称为湮灭

    那么,分开后再重新聚合在一起的染色体,是否与原来的染色体不同?它们是一模一样的复制品吗?答案是不一样。新的染色体绝对不一样,它们在整个链条上的很多地方都不一样。原因很简单,染色体原本就是复制品的复制品的复制品的复制品……根本不存在绝对完全一模一样的两条染色体,随着时间的推移,复制机器中产生的少量随机差异也被复制,突变(mutations)产生了。(染色体之间产生的差异,称为突变。在英语中,突变(mutations)是一个单词,变异、变化和差异又是不同的其他单词,这些单词的含义并不相同。在中文里,这些单词的含义非常接近,往往被忽视(尤其是突变一词))

    染色体上,大约每1 000个“文件夹”核苷酸中存在1个突变。这个突变是两个染色体的差异。因此,当父亲和母亲的染色体结合时,每一个新的基因组——婴儿也是不同的。同一个DNA片段,就是这样和多态性联系起来了。这种多态性的产生机制,对于进化是一件好事,但是却使得分子生物学家的人生变得异常艰难。重组使一个染色体上的每一种多态性都是独一无二的,都与任何其他染色体不同。随着时间的推移,多态性重组——重组——重组——重组……几百代或几千代之后,这些染色体的那一个共同先祖的多态性就会完全丧失。这被称为湮灭。

    由于重组(又被称为湮灭重组)带来的变异,使分子钟也无法使用,因为分子钟可能高估或低估了我们的共同先祖的存在时间。也就是说我们后裔染色体完全变了,先祖的痕迹消失了。我们找不到先祖,也无法用“奥卡姆剃刀”刮掉多态性的形态——与我们的不复存在的先祖的染色体相比,我们根本不知道发生了哪些变化。

    寻找亚当的道路,再次遇到困难。

    1980年代,人类在细胞里发现了一个小的结构:线粒体(mitochondrion)。2000年代,人们终于知道,线粒体是十几亿年以前第一批复杂细胞进化过程中留存下来的一类细菌。也就是说,我们的单细胞先祖们曾经吞噬了一种古代细菌,因为这种细菌在细胞内部可以生产能量,最后,这种被吞噬的古代细菌从一种“寄生虫”演变成一座亚细胞能量工厂(sub-cellular power plant)。非常幸运的是,与细菌的基因组类似,线粒体基因组(mitochondrial genome或者mtDNA)只有一套复制品,也就是说,它们不会重组。光明和希望再次出现。

    细胞核基因组里,大约每1 000个核苷酸里就出现一个多态性,比例比较少。而在线粒体基因组里,大约每100个核苷酸里就出现一个多态性,比例要远远大得多。在进化对比中,我们希望找到尽可能多的多态性,因为每增多一个多态性,都会增大我们区分两个个体的能力。打个比方:如果我们仅仅测定一个多态性,具有两个类型,类型A和类型B,我们可以把这个多态性归纳为两个类型,仅仅用变异A或变异B来表示。如果我们在两个变异上,分别看到10个多态性,问题好办多了,因为多个个体具备完全相同的变异组合的可能性很低。换句话说,找到的多态性越多,就可以找到推断人群关系的更有意义的形态——线粒体DNA(mtDNA)的多态性比细胞核基因组的多态性增大了10倍,这里正是观测的好地方。

    为什么多态性越丰富,表示的年代越长?

    让我们再次回到前面假设的古代村庄。为什么这个村庄里,每一户人家的祖传的鱼汤配方改变了?因为每一代都有一个女儿少量改变了鱼汤的成分,随着时间的推移,这些小小的差异造成鱼汤的多样化更加丰富。累积的变化时间越长,鱼汤的种类更加分离,我们在鱼汤里看到的差异也就越多。

    艾米尔·朱科康德尔研究蛋白质时提出的“分子钟”,与此道理相同。从DNA差异的角度来看,对于一个特定的群体,这个群体存在时间越长,遗传差异累积越多。反过来看,如果我们发现一个群体的遗传差异越多,即可推断这个人群的存在时间越长。人类进化树的所有分支的进化速率都是相同的,无论是在走出非洲之前还是之后。这就是非洲的多样性数量巨大的原因,“非洲的人类历史最古老”这一结论也由此确定。由于进化的速率相同,我们还可以对比每一个进化分支的差异数量,从而得到人类进化的各个分支的大概时间。

    无论是推算人类的共同祖先,还是推算人类的各个分支,都可以采用相同的速率。也就是说,世界各个群体的进化速率完全相同,无论是非洲草房里的牧民,泰国渔船里的渔民,还是巴西草原上的猎人,距离单一的共同先祖的时间都是相同的。世界各地的各个群体之间的区别,仅仅是不同群体基因变异的数量及其表达(多样性和多态性)。

    现在我们终于知道,距离单一的共同先祖的时间大约15万年。“夏娃居住的非洲伊甸园在哪里”这个我们一直希望得到答案的古老问题本身就是错误的,这个问题没有答案,因为非洲生活着无数的女性。所以,正确的问题是:非洲的哪一些人群(群体)仍然保留着距离我们的遗传学先祖最接近、最清晰、最明显的痕迹?在这些群体里,保留着追踪到“夏娃”的一种直接的线粒体的关联。而在其他各大洲,这些遗传信息随着人类的旅程,越来越少,甚至看不清楚了。

    姗姗来迟的亚当

    “夏娃”找到了:15万年前,在非洲。

    但是,这是不是唯一的“夏娃”?非洲是不是唯一的伊甸园?

    这个“夏娃”,确实是根据线粒体DNA(mtDNA)上溯推算出来的人类谱系树(family tree)的根。我们所有的人都分享着她一个人的线粒体,这是确凿无疑的。但是,我们需要另外的佐证。我们有23对染色体,其中22对染色体随着一代又一代的重组,携带的信息从人间消失了:多态性湮灭了先祖的影子。这22对染色体,构成我们基因组的主要部分。也就是说,我们基因组的大部分,对于上溯和追踪先祖毫无用处。在人类的23对染色体中,最终证明只有最后一对染色体是个无价之宝。这一对染色体的作用是决定下一代的性别,所以被称为性染色体。这个染色体叫Y染色体,和线粒体一样,可以上溯和追踪我们的先祖。

    线粒体DNA相对比较简单,它是远古时代的一个寄生细菌,其基因组与遗传染色体基因组不同。Y染色体相对复杂一些,它的遗传与众不同,女性后裔是一个X和一个X染色体配对,男性后裔是一个Y和一个X染色体配对。这个Y染色体只能由父亲传承给儿子,然后进行细胞的分裂——复制——分裂——复制过程。无论经历多少代,都不会因为多态性而从人间消失,亦即无法湮灭父系祖先的影子,这个特点与仅仅经由母系遗传的线粒体DNA的性质一样。

    我们如果“放大”观察染色体的结构,就可以看到:紧紧的“严密包装”使得大量DNA可以存放在很小的细胞核里
    1.在一个真核细胞的细胞核里,有一定数量的染色体。上图是复制的人类染色体
    2.在最致密的时候,复制的染色体“严密包装”成为X形
    3.当我们把染色体像一根纤维丝一样打开时,染色体像一个螺旋弹簧构成的空心管子
    4.在这个螺旋弹簧一样的结构中,包括一个长长的DNA分子(蓝色),这个DNA分子包裹着的各种蛋白(紫色)
    5.每隔一个规律的间距,DNA分子就围绕一个组蛋白(histone)的核心绕两圈。这种结构好像一条“珠子项链”,其中“项链”是DNA,“珠子”是核小体(nucleosome)
    6.DNA分子本身是两条链,缠绕成为双螺旋结构

    Y染色体和线粒体DNA的另一个区别是大小:线粒体DNA比较小,大约1.6万个字符(核苷酸);Y染色体大得多,大约6 000万个字符(核苷酸)。也就是说,在漫长的历史中,Y染色体的长长的链条上,可能发生复制错误(突变,mutations)的部位的数量比线粒体DNA多了几千倍。Y染色体不参与精子和卵子形成新基因组的过程(重组),否则,我们既不能仿照朱科康德尔和鲍林的密码破译,也不能利用“奥卡姆剃刀”——乱码无法破译,先祖也就找不到了。难道我们的体内存在一种抵抗重组的势力?这不是与产生多样性以适应外界环境的变化趋势互相矛盾吗?是的,我们体内确实存在着一种“抵抗重组”的力量,其中一部分就在Y染色体上。

    产生变化的活跃基因数量并不多,它们在基因组不同部位的分布也不平均,各个部位的活跃基因的数量差别也很大。例如:在线粒体DNA里,活跃基因有37个;在细胞核基因组里,活跃基因约30 000个(平均每对染色体约1 500个)。那么,究竟是什么原因使大量的基因丧失了活跃性呢?

    我们首先看看线粒体。线粒体是我们的细菌先祖吞噬的一个寄生古细菌,在几十亿年的进化过程中寄生性不断增大,逐步放弃“自治权”后,线粒体在细胞里过着舒适生活,绝大部分基因已不参与重组。

    我们再来看看Y染色体。Y染色体活跃基因丧失的情况与线粒体类似,虽然平均每对染色体有1 500个活跃基因,但是Y染色体上只剩下21个活跃基因,其中一些基因还是重复的,随机复制的。更有趣的是,这21个活跃基因只参与一项工程——制造男性。其中一个基因决定性别,称为Y染色体性别决定区,缩写SRY(Sex-determining Region of the Y)。其他的活跃基因负责决定其他男性特征(例如男人的外貌、长相、行为举止等)。Y染色体上的其他基因什么功能也没有,被称为“垃圾DNA”(junk DNA)。这些“垃圾DNA”也许是生物学的垃圾,却是群体遗传学家的金砂。

    如前所述,我们只能通过寻找差异研究人类的多样性。差异决定了每一个人都是独一无二的,除非我们身上没有多态性(只有同卵孪生子例外)。Y染色体可以从儿子——父亲——祖父一直向上追溯,现在活着的每个男人的DNA,最后都可以追溯到第一个男性先祖——“亚当”。但是,如何把毫无关联的男人们联系起来?是不是每一个男人都肯定能从自己独一无二的Y染色体里追溯到“亚当”?

    答案是否定的。原因有些复杂,因为我们并不是毫无关联的。每一个人,都继承了父亲和母亲的一半基因组,具有独一无二的新的基因组。实际上,我们的基因组,我们的父母的基因组,我们所在群体的基因组都是独一无二的。地球上,没有两个群体的DNA中记录的故事是相同的。

    现在,我们计算一下我们的血统中,父系基因组的比例和我们的祖先数量。我们可以一步一步地推算:我们具有50%的父亲的基因组,25%的祖父的基因组,12.5%的曾祖父的基因组,6.25%的曾曾祖父的基因组……继续这样的理论计算,最后的结果惊人。

    500年前,现在的每一个人理论上都会有超过100万个祖先;1 000年前,每一个人理论上有超过10亿个祖先——这个数字已经超过现有的全部地球人口。

    难道我们的计算出了什么差错?在数学上,这个答案显然是正确的,希腊时代的人们已经掌握了这些计算方法。电脑也没有错。但是,我们计算的假设错了。我们是在“谱系中的每一个人都毫无关联”的假设下进行计算的,但是人们会共享谱系,虽然共享的情况互不相同。

    信天翁是一种巨大的海鸟,翼展超过3.5米,可以在天空长期翱翔,可以闭上眼睛一边睡觉一边继续飞行,所以它们可以飞行几周不必落地,可以一次跨越上万千米。但是,它们总是回到它们出生的岛屿繁殖,它们的配偶也会飞回同一个岛屿幽会。下一代信天翁出生之后,即使飞得再遥远,也会在繁殖时期回到它们出生的岛屿。繁殖期结束之后,它们互相告别,再次飞往无边无际的大海的上空。

    人类的行为与此类似,总是与自己的“邻居”——相近的游牧部落,或者相邻的村庄之间,甚至亲戚之间交换配偶。有的群体的习惯是在第三代血亲之间,有的群体的习惯是在第二代血亲之间。这些交配都是随机发生的。如果一个群体迁移了,他们又有新的邻居,又开始与新的邻居交换配偶。这种区域婚配习惯的结果,使得同一区域的群体之间越来越接近,与不同区域的群体之间的差异越来越大。如果两个第三代的表兄妹结婚了,从遗传学的角度来看,这两个父母并非无关的,而是关联的。这两个配偶之间的一部分基因组是相同的,这里的2×2不等于4,因为两个2都小于2。所以说,我们前面的数学计算的假设是错误的。

    这个基因组比例成分的乘法继续下去,我们祖先的数量不是越来越大,而是越来越小,最后只剩下一个人——“Y染色体亚当”。正如前面的列文庭的分析:向上追溯,“亚当”和“夏娃”都没有消失,他们还在那里,只是需要更多的研究——计算——分析……Y染色体是追寻“亚当”的一张王牌。

    1991年,斯坦福大学的斯福扎实验室里来了一个应聘的青年人,彼得·安德希尔(Peter Underhill)。安德希尔早年在特拉华大学(University of Delaware)从事海洋生物学研究并获得博士学位,后来到加利福尼亚州,转向研究酶在分子生物学中的应用。1980年代正是生物技术大发展的初期,硅谷是重组DNA的震中。如何用各种各样的酶切割基因——分离基因——黏合基因……各种生物技术与电脑技术相互辉映,电子和生物两大技术领域将旧金山湾区变成了一个朝气蓬勃的全球新兴技术中心。

    斯福扎留下了安德希尔,请他进行线粒体mtDNA的序列研究。但是,彼得的兴趣很快转向了Y染色体。当时,分析化学极其困难。遗传学家的主要武器之一是从最基础的分子分离DNA片段的能力。与蛋白质一样,DNA是在我们的细胞里以核苷碱基(nucleotide bases,简称碱基或者核苷酸)为建材构成的一种长链。人类基因组的核苷酸数量约为30亿个,必须通过一些技术,把这种分子混合体分离开来,才能检测出每一个DNA分子上的核苷酸的序列。首先,要通过一些生物化学技术,把某一个小片段的DNA,严格按照它们原来的序列多次再造出来。制造出这些DNA的小片段后,再在一种类似凝胶的基质(gelatine-like Matrix)中制造电场,以电场的力量把它们分离开来。

    DNA带有负电荷,所以,DNA的小片段会在凝胶基质中,向正电荷的方向移动——分子水平的微小移动。微观上,凝胶内部是弯弯绕绕的无数微小通道。DNA的分子在凝胶中的移动迟缓笨拙,其移动的程度取决于分子的长度,分子越长,移动程度越低,因为较长的分子要携带更多的物质通过凝胶内部的通道。在正电场的这种作用下,不同的DNA分子就分离出来了。这叫作DNA的测序(sequencing)。

    DNA或RNA的测序

    这个理论很复杂,实施起来却很有效。在过去的30年里,几乎每一个重要的遗传学发现都离不开这种技术。例如,人类基因组的序列分析就要重复实施几千万次到几亿次这样的测序。这种技术虽然有效,工作量却巨大得可怕。测序的另一个问题是进度非常缓慢。只有经过生物化学反应,才能确定DNA的分子序列,所以这种研究代价高昂,很多遗传学家希望找到更快更便宜的办法。

    彼得·欧依夫内尔(Peter Oefner)是一位来自奥地利的化学家,当时也在斯坦福大学读博士后,他正在研究一种分离分子的技术,叫作高效液相色谱(High Pressure Liquid Chromatography,简称HPLC)。这种技术如果用于DNA分子,比凝胶方法快得多。有一次,安德希尔在遗传学系的讲座上,看到欧依夫内尔介绍HPLC技术,安德希尔马上想到把这种技术用于Y染色体的多态性分析上。他询问欧依夫内尔是否愿意和他一起合作?两个彼得,一拍即合。此后的18个月,两个彼得放弃周末休息,一起投入了疯狂的实验。

    两个彼得的合作,诞生了一种新的HPLC技术,简称dHPLC。这种技术可以用于快速检测DNA分子复制中的偶发性错误。dHPLC技术又快又便宜,节省的时间令人瞠目结舌。过去,人们在Y染色体上仅仅发现了十几个多态性,dHPLC技术出现后,每个星期都能找到Y染色体的多态性。这种新的测序分析方法的实质是:“忽视”具体的DNA序列,仅仅分析计算DNA序列之间的差异。

    这两个彼得发明的新办法,终于使人类找出了“夏娃”的伴侣——“亚当”。2000年11月的《自然遗传学》(Nature Genetics)上,发表了一篇21个人署名的论文,结论是Y染色体最早的分离起始于非洲的先祖。这个答案与线粒体mtDNA的母系的研究完全吻合。但是,“亚当”诞生的时间——推算出来的Y染色体分离时间是在5.9万年,与“夏娃”的年龄差距超过8万年。

    “亚当”和“夏娃”,难道根本没见过面?

    这个问题不能这样理解。所谓“亚当”和“夏娃”,只是科学研究中假设的两个遗传学实体概念。遗传学首先回答的一个问题是:“我们与黑猩猩或三文鱼是不是一个物种?” 然后,我们把人类的父系先祖和母系先祖假设为“亚当”和“夏娃”。遗传学研究是从现在活着的人群中,寻找形形色色的DNA差异(多样性和多态性),最终得出一个结论:人类是一个人种,人类的祖先在非洲。遗传学只是逐字逐句地解读DNA写出的天书,其中很长的一段时间究竟发生了什么?在几千代的代代繁衍中,深藏了哪些故事?遗传学无法回答,因为目前还没有更多的变异和差异数据可以告诉我们确切的答案——“奥卡姆剃刀”,已经没有什么可以再刮了。

    “亚当”和“夏娃”的年龄,并不代表我们这个物种的出现时间。“亚当”和“夏娃”是Y染色体和线粒体DNA分别编织出的色彩斑斓的两个大挂毯,我们带着这两块地毯走向世界各地。“亚当”和“夏娃”分别是人类遗传的两个合并点(Coalescence point),“夏娃”不可能等待“亚当”几万年。2000年11月的论文估算的“亚当的年龄”是一个范围:4万——14万年,最有可能在5.9万年。这是一个没有任何悬念的科学事实。

    这一研究结论,彻底否定了多起源说。这一研究结论,也是一个巨大的震撼。我们这个物种出现在非洲不到20万年,但是,非洲发现的最古老的类人猿化石已有2 300万年的历史——这是一个难以想象的时间,假如我们把这个时间压缩为一年的365天,则如下图所示:
    1月1日,猿人出现了:第一个千禧人开始直立行走人科动物。
    10月底,类人猿出现了。
    12月初,直立人出现了:200万年前他们走出非洲,后来全部灭绝。
    12月18日,智人出现了;80万年前走出非洲。
    12月28日,现代人出现了。
    12月31日,深夜1 1点,人类开始走出非洲:不到1个小时。

    第四章 走出非洲的旅程

    现代的科学家经过一系列的DNA测试,终于在非洲找到了人类的先祖——直接联系着人类最古老祖先的证据的携带者群体。这是一个漫长的过程。这是寻找基因秘密的过程。这是解读DNA密码的过程。

    1953年,DNA双螺旋结构被发现,确认基因在DNA里。

    1987年,“线粒体夏娃”出现。

    2000年,“Y染色体亚当”出现。

    可是疑问依然存在:我们的先祖为什么离开非洲?他们如何在史前非洲生存?他们通过哪几条路线走出非洲?离开非洲家园之后,他们如何在世界迁徙?

    上一章里,我们讲述了人类如何从化石研究转向实验室研究,继而转向利用统计学进行大规模计算分析寻找“夏娃”和“亚当”的故事。这一章,我们继续讲述人类走出非洲的故事。这些故事也是DNA检测——计算——分析的结果,它们与化石证据完全吻合。现代人用了六万年时间,经历了千难万险的大迁移,终于来到了世界的每一个角落。其中最长的一段旅程是非洲——中东——欧亚干草原——西伯利亚——白令海峡陆桥——北美洲——南美洲,这条路线花费了整整四万多年。

    这一章,我们会跟随先祖的足迹,一起来体验那场波澜壮阔的人类旅程。

    阿根廷圣克鲁斯省(Santa Cruz)的平图拉斯河手洞(Cueva de las Manos)
    这些是用骨头作成吹管吹喷出的手印
    人类来到美洲时间为0.93万——1.3万年前

    亚当、夏娃最近的后裔

    亚当和夏娃还在非洲吗?当然不在了。

    亚当和夏娃的后裔还在非洲吗?是的,他们还在非洲。

    在Y染色体分析中,非洲的多样性是最有意思的,旷古悠久的遗传血统的痕迹分布丰富而广泛,远远超过地球上其他大陆。这些群体分布在现在的埃塞俄比亚——苏丹——非洲东部和南部,在其他地区已经消失的遗传信息,在非洲依然存在,它们全部直接指向一个合并点——“亚当”。

    多样性最丰富的群体围绕着东非大裂谷,一直延伸到西南非洲。东非大裂谷就是人类最初的家园,人类在这里生活的时间远远超过了其他任何地方。1967年,最确凿的证据在这里出土:距今19.5万年的人类最古老的化石。

    在非洲南部的群体中有一批人,他们过去被称为布须曼人(Bushmen),现称桑人(San)。Y染色体和线粒体DNA都证明,他们是多态性最丰富的群体之一。而证明他们属于最古老人群的另一个证据是语言,语言使人类社会结构的发展达到了其他动物永远也无法企及的高度。桑人说着地球上最复杂的语言。英语有31个发音,世界上三分之二的语言有20-40个音,桑人的语言却有141个音,而且很多单词包括嗒嘴音(click,用嗒嘴发音)。桑人打猎时,有时会使用浊音清化技巧,他们不使用元音,完全靠口腔各部分弹击音来沟通,减少了被猎物发现的可能性。这些特点吸引着语言学家,他们对桑人语言的研究已经超过200年,但是却没有人知道,这种语言的多样性积累了多少年。身体上的优势、优秀的沟通能力和先进的技术,使桑人成功地生存了下来,他们遍布非洲东部以及非洲最南端。

    Y染色体、线粒体、语言,都是桑人直接联系着人类最古老祖先的证据,这是不是就表明人类的先祖亚当就起源于非洲的南部呢?答案并非如此。

    历史上,桑人的祖先生活在非洲大部分地区,现在非洲东部的坦桑尼亚人也使用嗒嘴音(Hadza语和Sandawe语),按照骨骼学分类,索马里和埃塞俄比亚的旧石器时代出土的骨骼与桑人最为接近。在2 000-3 000年前,说班图语的非洲人群取代了桑人。在此之前,桑人是非洲东部和南部的主导群体。

    博物馆展览的形象曾经完全误导了我们。这些远古人类的形象往往都是长发披肩、浑身长毛、肌肉发达,正在野蛮凶狠地猛烈攻击古代巨兽——其实,那是是尼安德特人。而现在的非洲人的形象,其实都是班图人(Bantu peoples)的形象:皮肤很黑,曾被欧洲殖民者们贩卖到南北美洲。当时欧洲人以为他们属于另一个物种。班图人在非洲首先掌握了铁器和农业技术,在2 000-3 000年前开始扩张,成为非洲人口的大多数,目前已超过3亿人,包括300-600个族群,使用大约250种语言。

    而桑人是“非非洲人”,他们身材不高、骨骼轻盈、举止优雅、性情温和。与遍布撒哈拉沙漠以南的班图人完全不同,桑人皮肤比较淡,也没有被贩卖到美洲。在2 000-3 000年前发生的班图人大迁移中,桑人被挤到了很小的分散的土地上,继续先祖留下的狩猎采集生活。

    那么,我们是不是可以据此认为桑人的形象就是我们祖先的形象呢?我们很难想象出我们的男性和女性先祖的“正确”模样,但我们能够确切地知道,我们的非洲先祖不可能像尼安德特人那样浑身长毛、野蛮粗暴,因为温暖的非洲并不缺少食物和阳光。

    Y染色体和线粒体两条基因线索都指向现在非洲的“非非洲人”——桑人,“亚当”就在桑人的远古的某一个群体里,时间是六万年之前的某一时代。我们不知道“亚当”之后经历了多少代人,估计可能2 500代左右。我们知道走出非洲之后的六万年里,人类又经过了2 000代人。这么短的时间里,现代人不可能演化成不同的亚种。

    六万年前,一小群人类先驱者离开了非洲大陆,波澜壮阔的人类旅程就此展开。科学家们甚至估计出了这群人的人数,最多不超过几百人。这一小群先驱者的后代,如今占据了全世界。如果只有这一小群人离开了非洲,他们肯定走的是同一条路,他们是从哪里离开了非洲,又走向了哪里呢?

    无法逾越的撒哈拉沙漠

    从地图上可以看出,走出非洲很不容易。起源于东非大裂谷的现代人,相当于生活在孤岛上,东西南三面都被大洋环绕,北面是几乎无法逾越的撒哈拉大沙漠。撒哈拉沙漠横跨整个非洲大陆,面积约900万平方千米,绵延11个国家。

    在没有走出非洲之前,东非大裂谷的现代人类首先在非洲本地扩散:他们走向非洲各地。向南方,一直走到了大陆的尽头——今天的南非;向北方,跨越撒哈拉沙漠到达了现在的以色列。

    在南非的Pinnacle Point,考古学家进行了多年挖掘,发现了多处17万——4万年前的人类遗迹。其中,最著名的是布隆伯斯洞窟(Blombos Cave),在这里出土了一件大约7.5万年前的艺术品,这件小石刻和其他装饰品是已知的人类最早的艺术品。(人类与其他人科生物的根本区别包括强大的免疫系统、自发的宗教伦理、语言以及抽象艺术思维)

    20世纪30年代,英国剑桥大学的第一位考古学女教授多萝茜·加罗德(Dorothy Garrod,1892-1968)发现了人类跨越撒哈拉的确凿证据。她带领的考古小组在以色列卡梅尔山(Mount Carmel)进行了挖掘。在那里,他们不仅发现了尼安德特人的遗迹,还发现了现代人的遗迹。后来的考古学家在这一带的几十个洞穴中,先后发现了可能属于11-12个现代人的遗骸。测定显示,这些现代人在以色列地区生活的时代为12万——8万年前。

    这些现代人类是怎样越过沙漠的?远古时期世界各地的气候与现在存在很大差异:大约12万年前,撒哈拉沙漠的气候和现在完全不同,不仅有河流、湖泊和湿地,地面上还覆盖着许多植被。人类跟随着猎物,一步步向北迁移,有些人就到达了以色列。

    但是,非常遗憾,这些人类在那里只生活了几万年。这些卡梅尔山洞穴的线索中断了,没有任何证据表明人类一直在此繁衍生息或者继续踏上旅程。这群先驱者的故事没有后续,没有结局。

    人类第一次从北方走出非洲的尝试失败了。也就是说,早期人类走出非洲的尝试因为失败而中断了数万年。

    随着冰河时期的来临,温暖潮湿的非洲故乡开始变得越来越干燥。六万年前,人类又一次走出非洲的壮举发生了。

    一条路线是12万——8万年前的老路:从尼罗河谷——西奈半岛——以色列地区进入中东。

    一条路线是海路:随着地球进入冰河时期,撒哈拉地区重新形成沙漠,北美和欧洲形成了大片冰川,冻结了大量海水,海平面下降,红海地区露出了大片陆地。非洲、阿拉伯半岛之间的距离明显变小了,横渡红海的最短距离从30千米缩短到仅仅11千米,人类甚至能看得见对岸。

    气候变化了,大地干枯了,绿色消失了,猎物迁移了,人类先祖们的食物来源也越来越少了。

    人类走出非洲,走向世界的机会,就这样来到了。

    走出非洲第一站

    令人难以置信的是,六万年前第一批人类走出非洲后,一直沿着非洲海岸——南亚海岸——东南亚海岸,第一个到达的终点站竟然是今天的澳大利亚。

    学术上的“澳大拉西亚”(Australasia)是一个区域概念,包括澳大利亚、新西兰、新几内亚岛、塔斯马尼亚岛(Tasmania)和其他一些印尼群岛东部的岛屿。今天的澳大利亚是地球上最干旱的大陆之一,90%以上地区的年降水量不到1 000mm。所以这里也是世界上都市化最高的地区,90%以上人口居住在沿海城市里。

    更令人惊讶的是,澳大利亚的所有物种与这个星球的其他任何地方(新几内亚岛除外)都不一样。大陆板块结构使得这里与欧亚大陆、南北美洲和非洲隔绝的时间超过1亿年。澳大利亚也不存在所有哺乳动物的“正常”进化,整个澳大拉西亚地区根本没有灵长目动物,没有猴子,没有猿人,人类是这里唯一的灵长目动物。所以,毫无疑问,澳大利亚的土著必定是从其他地方迁移来的。那么人类是如何经历漫长而又艰险的旅程,来到澳洲大陆的?

    亚洲南部

    在澳洲发现的最早的古人类遗体年代久远,最保守的估计也有四万年之久,还有人说可能有六万年之久。它具有非凡的意义,证明了现代人在到达欧洲之前,就已经到达了澳洲,这看起来不太可能,澳洲不但比欧洲距离非洲更远,中间还隔着印度洋。这个旅程如此遥远,完全可以想象出其中的艰难,这可能吗?

    在最后一次冰河期的最寒冷的时期,全球海平面下降,很多陆地露出水面,在澳大拉西亚曾经形成了一片巨大的Sahul古陆:澳大利亚——新几内亚——塔斯马尼亚岛连成一片。但是,即使是在两万年前最寒冷的时期,澳大利亚与其他东南亚陆地之间,也相隔着50-100千米的海洋。如果人类只能航海而来,那么他们是什么时候又是怎样来的?

    悉尼以西1 000千米的新南威尔士有一个Lake Mungo湖,这是广袤沙漠中的一个干涸的湖。但在4.5万——2万年前,这里植被茂盛,几条河流进这个湖,附近生活着很多有袋类动物, 包括水牛一样巨大的大面颊兽(Zygomaturus)、重达200千克的巨型短面袋鼠(Procoptodon,世界最大的袋鼠)等,这些食草动物显然都是人类捕猎的对象。大约一万年前,Lake Mungo湖地区干涸了,这一带留下了极其丰富的考古遗迹。

    1974年,Lake Mungo湖出土了一个完整的被埋葬的人,发现者吉姆·伯勒(Jim Bowler)将这个古人命名为Mungo 3。当时的技术检测结果显示Mungo 3生活在3万年前,后来开发的新技术确认Mungo 3生活在4.5万年前。Mungo 3附近的土层中出土的古代艺术品超过4万年,其他各种人类石器制品超过6万年。在解剖学上,这是非洲之外的年代最悠久的现代人类生活的遗迹。

    Lake Mungo湖被列入联合国世界文化遗产。但是,这里的人类遗迹也引出一个无法自圆其说的谜团:东南亚最早的人类遗址为4万年,澳大利亚的人类殖民却超过6万年。人类必须经过东南亚地区才能来到澳大利亚,那么怎么解释澳大利亚人类的历史比东南亚的人类殖民还早了大约两万年?

    我们必须回到非洲的伊甸园,看看能否找到答案。

    海鲜盛宴与澳大利亚土著

    非洲位于北纬38°和南纬34°之间,是横跨赤道面积最大的大陆,85%的土地面积处于热带。与其他所有的大陆不同,非洲的海洋温度比较高,几十亿年里从未结冰。虽然广袤荒凉的撒哈拉沙漠和东非的火山活跃山区不欢迎人类居住,但其他地区对人类异乎寻常地友善和温和。东半球最大的延绵不断的热带雨林、从东非延伸到南非的大草原,都生活着数量惊人的各种各样的哺乳动物,这里显然是动物进化的乐园。人科的各种猿类,几乎肯定是在雨林和草原之间开始了双足直立行走。一望无际的茂密雨林里,存在来自四面八方的各种危险,步行在食物丰富的草原上更加安全。

    非洲原来不在现在的位置,大陆漂移的板块运动,使得孤立的非洲撞上了欧亚大陆。大约1 500万年以前,非洲与欧亚大陆连在一起之后,第一批猿类开始“走出非洲”。这些早期的移民在世界各地进化成不同的猿猴,非洲本地的猿类则演变成了黑猩猩和大猩猩。

    15万——20万年前,解剖学上的现代人类出现在非洲,这得益于非洲气候的温暖。但是,同一时期,其他大陆的气候却正经历着剧烈变动起伏。古气候学研究证实,大约15万年前,地球开始进入最后一次冰河期——里斯冰河期(Riss glaciation),平均温度比现在低10摄氏度左右,13万年前曾经回暖,12万年前再次不断变冷。这种逐步降温一直延续了大约7万年,寒冷的气候维持了5万年,并在两万年前达到温度的最低点。但大部分非洲大陆处于热带,气温取决于阳光,在这里只有降水多少的变化,呈现为雨季或者旱季。这种变化,决定了动物和人类的迁徙。

    美国地球物理学家罗伯特·沃尔特(Robert Walter)近年来的研究发现,最后一次冰河期导致的非洲干旱,使东部的热带雨林和草原逐渐变成大沙漠和干草原(steppe)。非洲变得干旱以后,多雨的沿海草原没有变化,于是人类逐渐向沿海聚集,食物来源除了附近生活的动物,又增加了海产品。在非洲其他地方出土的一大批证据也确凿无疑地证实,人类曾经以海洋为生。在非洲东部的厄立特里亚(Eritrea),考古学家发现了大量垃圾和其他废弃物,既有被屠杀的犀牛和大象的遗骨,也包括很多贝壳,时间约为12.5万年前。这些垃圾中,还混杂着人类制作的各种石器。这些证据证明,人类曾在这里开发过海洋资源。

    这是海洋与草原的盛宴,而且与餐馆不同,这些牛排与海鲜都是免费的。我们的先祖是一些美食家,古代生活可能并不那么艰辛。

    罗伯特·沃尔特揭示的最激动人心的发现之一,是沿海的居民点一直延续到几千千米之外的非洲的最南端。南部非洲的人类,开发了同样的海洋资源,使用的石器工具也非常相似,可能他们是沿着非洲东海岸进行了长距离迁移的移民。如果人类沿着一块大陆长距离移民,使用同样的工具开发同样的资源,为什么他们不可以沿着另一块大陆的海岸线移民?平坦的沿海与多山的内陆完全不同,沿海海滨是远古时代的一条超级高速公路。阿拉伯半岛——印度西海岸——东南亚沿海——澳大利亚沿海,这一条路线,与厄立特里亚的环境和资源完全一样,人类无须进化和适应环境。(弓箭起源于埃塞俄比亚奥姆河谷地区。与其他类人生物的粗糙石器相比,这些5万——10万年前的箭头做工精致)

    这场伴随着“牛排与海鲜”的大迁移的速度显然很快,人类离开非洲不久,很快就出现在了澳大利亚。很多遗迹证明,第一波人类大迁移发生在古代的沿海高速公路,他们比东南亚内陆的人类殖民早了大约两万年。但是,非常遗憾,我们没有找到非洲祖先从沿海高速公路快速迁移到澳大利亚的考古学证据。随着气候的再一次变暖,人类先驱者的足迹也许都淹没在了大海里。在冰河时期,大量的水成为冰川——冰盖——冰原,世界海平面比现在低100米以上。如果人类沿着印度沿岸的舒适沙滩走到澳大利亚,那么,当年的海滩就在现在的海水以下100米,距离印度现在的海岸大约200千米。冰河期结束以后,海平面上升,淹没了绝大部分史前人类的旅程足迹。

    当时,印度——斯里兰卡之间的陆地连为一体,马来半岛——印度尼西亚群岛连成一片大陆,澳大利亚——新几内亚也连成一片大陆。现在的波斯湾和泰国的暹罗湾,当时是植被繁茂的河流入海口的三角洲,日本列岛也与亚洲大陆连在一起。来到澳大利亚的现代人肯定具备造船能力,所以,他们沿着海岸高速公路来到大陆的最顶端之后,渡海抵达澳大利亚,时间约为六万年前。虽然没有更多的化石和石器为这一路线提供证据,但是,基因却为我们提供了确凿无疑的证明。

    人类好像一棵大树,树根在非洲,树干在非洲,绝大多数支干也在非洲,只有几个支干伸出非洲,并且继续分支和繁衍,成为遍布世界各地的形形色色的群体。现在的每一片树叶都是不同的。幸运的是,基因标记(markers,突变留给后裔的标记)的分布构成了一幅错综复杂的地图,让我们看到了过去岁月的轮廓。

    树根在20万——15万年前开始生长,这是“Y染色体亚当”和“线粒体夏娃”。“亚当”这棵大树只有一个分支伸出非洲,被称为“欧亚亚当”(EurasianAdam)。这位“欧亚亚当”是一个非洲男人,他因Y染色体上的一次随机突变而被命名为M168。M168出现在3.1万——7.9万年前,现在,非洲以外的每一个“非非洲人”的男人身体里都可以找到这个突变M168。陪伴这个“欧亚亚当”的是一位“欧亚夏娃”(Eurasian Eve),这是一个非洲女人的线粒体DNA上的一次随机突变,被命名L3。这次突变出现在5万——6万年前,现在,非洲以外的每一个“非非洲人”的女人身体里都可以找到这个突变L3。

    基因研究证实,现在的欧洲、亚洲、南北美洲人中90%以上都是“欧亚亚当”M168和“欧亚夏娃”L3的后裔。当然,M168和L3的后裔现在在非洲也有分布。这全部指向一个结果:M168的根,更深层次是与他的非洲远方兄弟们联系在一起;L3 的根,更深层次是与她的非洲远方姐妹们联系在一起。根据统计学的计算,M168和L3最可能的发生位置是在非洲东北的埃塞俄比亚——苏丹——肯尼亚的东非大裂谷地区。

    MRCA(Most recent common ancestor):最晚近共同先祖(线粒体夏娃)。M和N是走出非洲的L3的两个后裔
    M168的后裔分离出M130与非M130

    枯燥的字母和数字命名缺乏想象力,可能比较难以理解。现在我们还是用《圣经》的方式描述:“夏娃”诞生了突变L3,L3诞生了另一个突变M,M从非洲来到了澳大利亚。在印度,只有20%的人基因中含有M,这个M在中东没有出现,在欧洲也没有找到任何M的踪迹。而在澳大利亚,几乎所有的土著基因里都含有M,这是他们直接从非洲来到澳大利亚的最有力证据。

    基因证据找到了。我们的先祖从非洲走出来,第一批人类来到了澳大利亚。当然,来到澳大利亚的人类并非全部是女性,“亚当”的后裔也来了。

    Y染色体的演变和迁徙路线,更加复杂,走出非洲之后分为多个单倍群。为了简单说明,左图中只绘出其中的两类单倍群。

    为了便于理解,我们还是借助《圣经》的方式描述:“欧亚亚当”M168诞生了M130,M130的迁移路线与线粒体M的海岸线迁移路线是同路,最终来到澳大利亚。更有意思的是,M130在亚洲东北部、蒙古、西伯利亚的比例也非常高。经过研究分析发现,这一批M130的年代比澳大利亚的M130的时间晚得多,揭示出后来的另外一波M130的移民大潮。也就是说,人类走出非洲的旅程是一波人群接着一波人群,并非一次。

    约6万年前,冰盖和沙漠占压倒优势。这是一幅零散的小群现代人迁移路线图化石证据证实现代人类出现在以下地区的时间:
    非洲:19.5万年前
    以色列:12万年前
    澳大利亚:6万年前
    中国:5万年前
    欧洲:4万年前
    北美:1.4万年前

    其他灭绝的类人猿或直立人都没有能力渡过海洋。例如,爪哇直立人距离澳大利亚的连成一片的大陆只有大约100千米,但是它们从未到达澳大利亚。事实上,在澳大利亚从来没有发现任何灵长目的痕迹。只有现代智人具备渡过海洋的能力。当时属于旧石器时代,沿着海岸高速公路零零散散发现的旧石器时代的石器证明,当时非洲人的确是沿着海岸线走到澳大利亚的。虽然印度沿岸的证据沉睡在深深的海底,斯里兰卡的一个山洞(Fa Hien cave)里却出土了大量旧石器时代的石器,证实了远古沿海高速迁移的真实存在。澳大利亚的土著,正是已经部分沉入海洋之下的澳大拉西亚(Australasia)的最早的一批殖民者,在他们的文化里,至今保留着祖传的因素。直到今天,澳大利亚的土著还保留着用歌声呼唤非洲先祖的仪式。

    讲述人类走出非洲的故事,一方面,必须使用基因标记描述;另一方面,基因标记的描述方法总是显得枯燥乏味,所以我们用拟人化的语言小结一下:

    “Y染色体亚当”的后裔只有三个人:M91、M60和M168。其中M91和M60两个人的后裔始终全部留在非洲,即单倍群A和单倍群B。只有M168一个人的后裔走出了非洲,成为世界上所有“非非洲人”的祖先。

    M168重要的后裔也有3个人:M130、YAP和M89。约6万年前,第一个走出非洲的人是M130。一部分M130沿着海岸高速公路从非洲一直走到澳大利亚,还有一些M130留在印度次大陆及东南亚地区,他们继续北上进入亚洲东部的中国——蒙古——韩国——日本等地,还有一些人进入了北美洲。

    Y染色体亚当的后裔关系图,单倍群C-R都是M168的后裔非非洲人

    约6万年前(范围5.91万——6.83万年前),YAP出现了,YAP的后代现在分布在东非——中东——亚洲各地。约4.8万年前(范围3.87万——5.57万年前),M168的最大的一个后裔血统M89出现在非洲,现在世界上大约90%的“非非洲人”都是M89的后裔。

    第二波大迁移

    第一波大迁移的基因标记是M130。第二波大迁移的基因标记是M89。

    为什么出现在15万年前的大部分人类,过了那么久才离开非洲?我们目前还不知道答案,可能是一场人口大迁移,也可能与气候变化有关系。但我们却可以清楚地知道,人类的第二次大迁移与技术、文化、艺术等文明进步密切相关。

    Y染色体和线粒体DNA揭示,埃塞俄比亚——苏丹——中东地区是人类走出非洲的出发地,澳大利亚的旅程只是人类迁移的一部分。非洲出土的猿人和类人动物的化石类别繁多,现代人的化石相对较少。非洲的现代人走出非洲之后,数量不断繁衍增多,相互之间也开始呈现明显的差异。

    如果1个细菌掉进1碗肉汤里,就会1变2,2变4,4变8……迅速增长。细菌的增长是细菌DNA的复制。几代细菌之间看不出什么变异。但是经过几百代的繁殖之后,不同的菌落之间的变异就呈现出来了。人类的DNA同样也是不断分裂——复制——分裂——复制……随着时间的推移,几百到几千代之后,两个人群之间的差异就很明显了。

    我们细胞里的分子钟,控制着4个碱基A-C-G-T的复制速率,因此,只要测算出分布的平均值(波形的中间点),就可以计算出一个群体的指数增长时间。经过检测计算分析,无论细菌的DNA,还是人的DNA,这种变异的发生速率都是固定不变的。复制过程中随机发生的不匹配(突变)形成分布曲线,这种曲线与高斯曲线(Gaussian curve)非常相似。美国人类学家和群体遗传学家亨利·哈本丁(Henry Harpending,1944-)经过精确分析,得到了这个分布形态。结果令人非常震惊:在过去的一万年里,地球的人口确实增长极其迅速。

    两个增长的群体的线粒体DNA的不匹配的分布。如果增长的时间越长,基因序列差异的平均值越高。
    实线=群体1(例如欧洲人) 虚线=群体2(例如非洲人)

    如果群体的增长是停滞的或者缩减的,这个分布会呈现“来回拉锯”的形态,原因是遗传漂变(genetic drift)或自然选择导致某些血统的绝嗣和丧失。如果这种分布形态是平滑的,表示我们现代智人的人口增长速率很高。哈本丁和他的团队采集和分析了世界25个群体的线粒体DNA数据,发现呈现指数增长的群体多达23个。根据这一研究成果,他出版了一本著作《一万年的爆炸》(The 10000 Year Explosion)。亨利·哈本丁认为,这场人口大迁移起始于5万年前,这个时间与人类走出非洲的时间基本吻合。

    也就是说,我们和细菌一样,本能地努力扩大我们的后裔的数量。

    大约7万年前,冰河期的严寒开始了。非洲变得越来越干旱,草原减少,水源和猎物减少,于是人群聚集到沿海,沿着温暖的海岸开始了旅行,直到澳大利亚,甚至一小部分人还到达了南北美洲。古气候学(Palaeoclimatology)已经证实,气候是第一波迁移的催化剂。那么,我们的先祖又是什么时候进入北方,到达欧亚大陆的呢?考古遗址证明了这一时期的历史轮廓。

    大约12万年前,人类从撒哈拉沙漠走出非洲到达以色列,但是在8万——5万年前的冰河期,人类在那里全部消失了。4.5万年前,人类再次出现在那里。这一次,他们携带的狩猎工具更加先进,社会组织更加复杂,狩猎的专业化分工开始出现。这是一场漫长的从被捕猎对象向狩猎者的巨大转变。我们的先祖在猛兽与恶劣的环境中生存了下来,考古遗址的动物遗骨证明了这些事实。

    Levant(地中海东部地区)的位置

    热带雨林里处处隐藏着危险。来到草原之后,人类直立起来,开始狩猎,技术和工具不断发展。与大约12万年前第一次来到中东Levant地区的时候完全不同,当4.5万年前人类再次来到地中海东部地区时,人类的狩猎工具大大改进,语言能力也大大增强,我们的祖先猎取几只羚羊就像购买一次“外卖比萨”那么简单。这一次,人类全副武装,一场向欧亚大陆内部进军的闪电战拉开了帷幕——技术和文明的进步引发了又一场人类大迁移。

    非洲迁移出来的人类,分别携带着不同的基因标记(marker)。例如,所有美国的英国后裔的Y染色体上通常携带着基因标记M173。也就是说,几万年前,欧亚干草原带上有一个人(一个男人)的Y染色体的核苷酸序列上的特定位置上发生了一个A变成C的变化,这个基因标记传承给他的所有儿子,他的儿子们进入欧洲后继续代代相传,随着时间推移,逐渐增大了M173的频率。现在,西欧男性中的M173非常普遍,英国南部70%的男性携带着M173。最后,M173被带到美国。但是,M173并非这个英国后裔的唯一基因标记,如果上溯遗传血统,还有其他基因标记,例如M9和M89,这是他的Y染色体上不同部位的突变,也是多态性的证明。当然他还有M168,这个基因标记可以上溯到6万年前的非洲祖先,欧亚大陆的每一个人都携带着M168。那么,他们后来怎么带上了M89?

    首先,我们介绍一下遗传学的基因分析计算中的两个概念:相对时间和绝对时间(relative dates and absolute dates)。

    首先看看什么是相对时间(relative dates)。

    我们现在用类比的方法,解释如何从多样性和多态性的差异追寻我们的先祖。韦尔斯的“黑斑羚肉汤”的例子非常有利于理解这些问题:假设我们调查一种多成分肉汤的起源,在遗传学的肉汤历史上,后人不断增加新的配料(突变)……最后这种肉汤的成分越来越复杂,我们怎么分辨呢?

    答案:没有办法分辨。

    但是,假设我们召开一次国际肉汤大会,世界各地的几十个人都拿出他们的祖传手艺,做出五花八门的肉汤(多样性和多态性),我们又怎么分辨呢?

    答案:现在有办法分辨了。

    正是因为有了这么多种祖传的肉汤,我们才能找到最早的肉汤的配方。首先,每一种肉汤里都有黑斑羚(impala),这种原料仅产于非洲——M168。我们假定在其中一个餐桌上,摆着5种肉汤,经过品尝发现配料成分如下:
    ①黑斑羚、芥末、 黑胡椒、奶酪、牛至
    ②黑斑羚、盐,、罗甘梅、花生、辣椒
    ③黑斑羚、芥末、黑胡椒、 咖喱、罗勒
    ④黑斑羚、黑胡椒、螃蟹、柏树仔
    ⑤黑斑羚、盐、香草、西芹、猪肉

    我们发现,全部5种肉汤的第一个形态都有黑斑羚。在久远的古代,一个名叫亚当的厨师选择了黑斑羚作为主料,一直流传至今。第二个形态是黑胡椒和盐。有的肉汤有黑胡椒,有的肉汤有盐。这里是一个分叉点:黑胡椒和盐把5种肉汤分成两大类。盐这个调料(M130)开始沿着海岸旅行,旅途中又分为2个分支(血统)。最后一种肉汤的祖传配方来自澳大利亚,表示一批人类来到了澳大利亚。黑胡椒这个调料分布在3种肉汤(血统)里,它们都没有出现在澳大利亚。

    这就是“奥卡姆剃刀”的两次简化:每一次都把独立变量最小化,第一次是一种黑斑羚,第二次是两种黑胡椒和盐。黑胡椒肉汤又出现第三个形态:两种包含芥末,一种没有芥末。黑胡椒分支下面的这个芥末分支(血统)再次分为两种,老练的厨师很快就可以分辨出来,例如墨西哥厨师和意大利厨师使用的芥末不可能相同。

    运用数学工具和数学模型进行电脑计算分析,原理与此完全一样。我们既分析了每一种肉汤中的共有的配料,又分析了每一种肉汤的独立的配料。当然,这里不是一棵树状结构的谱系平面图(谱系树),而是单倍群和形态等的大规模分析计算。

    我们是否可以找到每一种配料加进来的具体时间?

    答案:没问题。

    但是,这里要运用另一个概念:绝对时间(absolute dates)。

    为了得到正确的绝对时间计算结果,我们首先要作出一些假设和规则。第一个规则:添加配料的速率假设是一样的、规则的。第二个规则:任何配料一旦添加,就是配方的永久成分。也就是说,即使你以后不喜欢这种调料,你也无法把它去掉(突变是永久存在的)。这两个规则的潜在意义很明确:随着时间增加,配料越来越多,肉汤成分越来越复杂,最后可能尝不出黑斑羚的味道了,但是黑斑羚肯定还在里面。假定每一代厨师都规规矩矩地遵循祖传的配方,但是平均每过10代人必定出现一个异想天开的家伙,希望增加一种调料“改善味道”。在上面韦尔斯举的例子中,第一种配方之后又4次添加配料,说明我们经历的时间出来了:4×10=40代人的时间。假若平均每一代人是25年,则40×25=1 000年。我们找到了第一个发明黑斑羚肉汤的厨师(先祖)的绝对时间:大约1 000年,虽然这里存在一些误差。

    我们品尝这些肉汤的过程,叫作采样。我们采集更多的多样性和多态性数据之后,甚至可以回答其他问题:什么人、什么时候、在什么地方(Who,When,Where)添加了这些配料?

    两种不同的基因组——Y染色体和线粒体mtDNA的计算分析结果,与古气候学和考古学的证据,最后惊人的一致和吻合。

    现在,我们论述4.5万年前,在非洲发生的故事。

    非洲的撒哈拉沙漠出现的很晚。在撒哈拉沙漠里发现了大量的早期人类的艺术作品,这些岩石雕刻和壁画超过三万处。图中绘制了人类走出非洲的撒哈拉通道

    人类迁移的主要屏障是海洋、沙漠和山区。非洲东北的人类向外迁移,总要途经中东,早期的直立人也是经过地中海的东部走出非洲的。

    非洲的沙漠出现很晚。撒哈拉(Sahara)这片沙漠把整个非洲分为两个部分:撒哈拉和撒哈拉以南。8万年前的最后一次冰河期,撒哈拉沙漠出现,然后逐步扩大,占据了整个非洲大陆的北部,仅仅留下地中海沿岸适合人类居住。这是人类走出非洲的新屏障。大约7万年前开始,气候越来越冷,非洲越来越干燥,人类从越来越大的撒哈拉沙漠地区消失了。狭长的尼罗河沿岸是人类迁移的一条路线,从红海南端渡过大约20千米的海水抵达阿拉伯半岛是另外一条路线。4.5万年前,人类来到地中海东部(Levant地区)。

    现代人类的“树干”M168的后裔走出非洲后,基因标记M89出现了。M89出现的绝对时间是4万年前。考虑计算误差因素,应该在3万——5万年。从M89开始,人类世界分裂为撒哈拉以南和欧亚大陆两个部分,非非洲人出现了。M89定义了Y染色体的主要“非非洲”血统。在非洲东北部,尤其埃塞俄比亚——苏丹——中东地区都存在M89,但是在东南亚和澳大利亚却没有M89。

    第一波大迁移,人类主要沿着海岸的高速公路。第二波大迁移,人类追随着猎物进入了广袤的欧亚干草原带,分布在亚洲西部——亚洲中部——亚洲东部——西伯利亚——欧洲东部——欧洲西部的巨大草原,开始了更加波澜壮阔的旅程。

    走进欧亚大陆的主流

    人类第二次大规模离开非洲的主要迁移方向是向东扩散,走向伊朗到亚洲东北的一望无际的连续干草原带(steppe)。这个事实的所有线索和证据都在我们的基因M89里。

    伴随着M89的扩散,另一个基因标记M9出现在一个男人身上,时间约四万年前,地点在伊朗高原或中亚的南部。这场扩散持续了3万年。我们把携带M9的人群统称为欧亚氏族(Eurasian clan)。他们的迁移遇到了3个山区的屏障:兴都库什山脉(Hindu Kush)——喜马拉雅山脉——天山山脉。这3条山脉的会合在帕米尔高原,位于现在的塔吉克斯坦。(兴都库什山脉——喜马拉雅山脉——天山山脉汇集形成帕米尔高原阻挡了人类的迁移,北边巨大的干草原带成为人类迁移高速公路;世界最大的欧亚干草原带(steppe belt),几万年前温暖潮湿,人类一波一波地迁徙,从这里进入欧洲——东南亚——亚洲东部——南北美洲等地)

    第一个山区札格罗斯山脉(Zagros)是可以逾越的,这里也是很多动物迁徙的通道。但是天山山脉和喜马拉雅山脉却是无法逾越的,这两座山的高度都在5,000米以上,而且冰河时期的严寒也让人类无法抵御。于是,迁移的人群在这里分离为两个部分:一部分向北,走向兴都库什山脉;一部分向南,走向印度次大陆。

    向南的群体里,又出现了一个新的基因标记M20。在印度以外,几乎找不到这个突变,但在印度次大陆却超过50%,我们把他们称为印度氏族。3万年前他们迁移到印度南部时,遇到了比他们早到了上万年的第一批移民,这些移民是M130的后裔,仍然生活在沿海高速公路附近。根据遗传形态分析,两批人类之间没有发生互惠互利的融合,情况恰恰相反,他们之间发生了资源竞争和屠杀,M89的后裔可能抢掠了M130后裔的妻子和女儿,杀死了大部分男性。基因的证据在现在的印度人身上——跟随M130的女性线粒体M的比例很高,但是男性Y染色体的比例很低,在印度南部甚至不足5%。我们至今仍然不清楚在第一波移民和第二波移民中发生的这些故事的细节,但是事实是女性被保留下来,男性被大部分灭绝。

    M89定义了非非洲人中主要的Y染色体血统

    向北的人群走向中亚地区,他们的血统里出现了一个新的基因标记M45。M45出现的时间约为3.5万年前,今天只有中亚地区存在M45,这个标记定义了中亚氏族。M45偶然出现在东亚、中东地区,M45在印度个别地区也偶然呈现较高频率,可能是更晚近的少量迁移。中亚比较封闭,从中亚迁移到印度非常困难。但是,现在每一个中亚地区的男性身上都携带着M45。

    世界最大的欧亚干草原带

    M9的后裔,除了印度的M20和中亚的M45,还有一个东亚的M175。M175越过天山之后继续向东,经过所谓准噶尔缺口(Dzhungarian Gap)来到亚洲东部,这条路线是大片连续干草原构成的所谓干草原高速公路,适合人类迁移。M175出现的时间约为3.5万年前,在亚洲东部血统中的比例,为60%——90%(还有一个M122,详见后述)。兴都库什山脉——喜马拉雅山脉以东的人群被M175定义为东亚氏族。在亚洲西部和欧洲,完全不存在M175。但是,亚洲东部的中国——日本——韩国等地的M175的频率非常高。

    M89的后裔血统在欧亚大陆的主要地理分布特点

    还有一些人群向北迁移,追随着猎物进入了西伯利亚。他们在这里受到了严峻考验,不仅要面对极其恶劣的自然环境,忍受刺骨的严寒,还要面对越来越稀少的食物来源。他们是怎样生存下来的?其间到底发生了什么,让他们的外貌产生了很大的变化?

    西伯利亚的北部位于北极圈内,冬天的最低温度可达零下55摄氏度,这几乎是人类生存的极限。人类在这里生存就必须模仿动物。动物身上有厚厚的皮毛,可以在寒冷的冬天活动,所以,人类的祖先也穿上了兽皮衣,学习动物的生存技巧。对于来自热带的人类祖先来说,适应这样的气候无疑极为艰难。追踪他们的足迹几乎不可能,但他们还是通过工具给我们留下了一些痕迹。在西伯利亚南部出土了一些精致的石头工具,说明四万年前这里曾有人类居住。考古学家在西伯利亚各地都发现了古代火堆的遗迹,这说明早期人类跟随着兽群一点点向北迁移,最终穿过了这片辽阔的荒原。

    早期的人类,一路猎杀猛犸、野马、犀牛、驯鹿和小鸟。这些证据表明,人类来到西伯利亚时,猎物的种类远比现在丰富。驯鹿不仅是食物来源,皮毛也可以御寒。我们的祖先用驯鹿皮缝制的衣服抵御了严寒,征服了极北的千里冻土。

    中国人不是北京猿人的后代

    1921年,一个国际考古专家小组在北京附近周口店发现了人类生活的遗址,他们在石灰岩里仔细寻找一层层人类生活的痕迹。1929年,一个古代人科生物的头盖骨出土了,估计约有50万年。这是亚洲最早发现的直立人的化石之一。接下来的几年中,周口店又陆续出土了更多直立人的化石,这些证据说明离开家乡的一部分非洲直立人最终在中国定居下来。

    后来,在中国的其他地方也发现了多处直立人的化石。这些直立人可能上百万年前从非洲来到这里。但是,化石只能说明直立人曾经来到中国,无法解释中国人的谱系。解决这个谜团的方法非常简单,只要借助现在的中国人的DNA。基因标记M168发生的时间在6万年前,当时人类尚未走出非洲。非洲以外的非非洲人全部携带着M168。此前走出非洲的直立人没有这个标记,他们的后代到达中国地区也不可能拥有这个标记。如果中国人的基因里携带有M168,就可以证明现在的中国人不是从周口店的直立人进化的。

    上海复旦大学的遗传学家金力教授曾长期在美国工作,他也在斯坦福大学斯福扎的实验室工作过。1997年,金力、李辉的团队开始从事中国、东南亚的人类研究,采集的样本来自东亚、东南亚、印度尼西亚、太平洋岛国的163个群体的12 127个个体。金力、李辉的团队的研究证明,每一个中国男人的Y染色体都携带着M168,都指向5万年前的非洲先祖。没有一个样本表明中国人是从周口店直立人进化而来的。所有样本都说明,中国人是6万年前走出非洲现代智人的后代。

    中国没有发现10万年以后的直立人遗迹,没有人知道北京猿人是如何灭绝的。现代人没有与直立人混血,亚洲直立人陷入了进化死胡同,完全灭绝了,对亚洲东部的基因库没有任何贡献。大约3.5万年前来到亚洲东部地区的人类都是完全的现代人。

    全世界的人,彼此并不遥远,我们都有一个共同的先祖,我们都是一家人。

    进一步的基因研究表明,中国人的先祖一部分来自亚洲中部、西伯利亚,还有沿着印度洋海岸以及东南亚跋涉而来的。因为在亚洲东部也出现了从沿海高速公路走出非洲的第一批人类的M130基因标记,而且在很多地区的频率非常高。印度——东南亚——中国南方——中国北方,甚至蒙古的M130的频率也达到50%,这一切表明M130在亚洲东北地区非常普遍。

    M130来到中国很早,或许在5万年前(他们大约6万年前抵达了澳大利亚)。携带着M130的群体从东南亚、中国南方进入中国北方,与欧亚干草原高速公路下来的北方移民会师了,成为中国地区的原住民,后来又与北方欧亚干草原带(steppe belt)向南迁移的一波又一波的新的移民发生了多次混血。(进入巨大的欧亚干草原的群体多次南下与中国的原住民混血,其中一些群体从欧亚干草原进入乌克兰——俄罗斯——欧洲,还有一些群体越过白令海峡进入北美洲)

    美国斯坦福大学斯福扎实验室和复旦大学金力、李辉的团队多次对中国的几十个群体进行计算分析,发现南方的中国人和北方的中国人之间的差异非常明显。但是同一文化群体——汉族的成员中,北方汉族和南方汉族彼此更加接近,而与他们地理上的邻居较远。此外汉族主要是来自南方的移民,在北方孕育形成,再扩张到南方。北方的汉族中,有部分北方的少数民族的遗传成分。南方的汉族中有部分南方的少数民族。

    来自南方和北方的两大类移民血统定居的形态,在今天的中国清晰可见。南方的M130经过东南亚进入中国定居,逐步向北方迁移,而北方的移民逐渐向南方迁移。中国北方人群的多样性远远低于南方的人群。北方人群所有的单倍型,南方人群都有,而南方人群有的某些单倍型,北方人群却没有。多样性最丰富的地区在东南亚,于是,几条清晰的迁移路线出来了:走出非洲的人群,沿着气候适宜和食物丰富的路线迁移——中东——印度洋沿岸——东南亚——东亚南部——中国。后来的北方欧亚干草原带(steppe belt)的移民也一波一波进入中国。南方的汉族与北方的汉族,两个方向的移民的演化形态好像一双筷子。

    人类到达了远东地区,在冰河时代生存下来,征服了整个亚洲。但是,故事并未到此结束,因为,这里并不是旅程的终点。

    日本人的迁移路线像筷子。在冰河期,海平面下降,不仅日本列岛连成一体,有的地方与亚洲也连成一体。于是,一部分人类从北边的北海道进入日本,另一部分人类从朝鲜半岛进入日本。冰河期结束后,海平面上升,日本与亚洲大陆分离。DNA分析证明,中国——韩国——日本都属于O单倍群,只有早期进入北海道的群体是M130的后裔。C-M130进入日本的时间超过两万年,并遍布日本。直至两千多年前,O才经朝鲜半岛进入日本

    进入欧洲的艺术家

    现代人类,本能地具备艺术天赋。达尔文认为有艺术的地方就有人类。发现艺术,才发现了最早的欧洲人。

    第一批进入欧洲的人类大约在四万多年前,他们从欧亚大陆广袤无际的欧亚干草原带,向西辗转进入乌克兰——东欧——德国——法国等欧洲地区。在冰河期的巅峰时期(大约两万年前)被迫退缩到欧洲南部,在欧洲南部的西班牙——法国——意大利地区的几百个洞穴里,留下了大量的洞穴艺术作品。

    1922年的秋天,两个十几岁的孩子钻进法国南部的一个洞穴,一个震惊世界的发现揭开了序幕。这里的精美壁画后来被命名为Pech Merle。这个洞穴靠近卡布勒德(Cabrerets)。当时欧洲最著名的考古学家亨利·布鲁威尔(Henri Breuil,1877-1961)把这个最早发现的Pech Merle壁画赞誉为“西斯廷教堂”,考察了几十个欧洲洞穴艺术之后,他认为这些壁画可能是3万年前的艺术作品。

    1940年的秋天,因一个十几岁的孩子又发现了法国南部的一个洞穴,这里的壁画更多,被命名为拉斯科洞窟壁画(Lascaux)。人们后来又在这个拉斯科洞窟附近发现几十个洞穴里也有类似的壁画。现在,拉斯科洞窟壁画和欧洲其他多处洞穴艺术被列为世界文化遗产。

    欧洲分布的几百个岩洞艺术的时间,最初测定大多不到2.5万年,后来发现的肖维岩洞(Chauvet cave)把这个时间提前到3.2万年前。富曼恩洞穴(Fumane cave),又把这个时间提前到3.5万年前。这些作者是天才的艺术家,标志着现代人类与尼安德特人时代的彻底告别。那么,这些艺术天才究竟是什么时候来到西欧地区的?他们的基因标记是什么?

    M89是中东地区的基因标记,西欧人群中最常见的是M173,越向西频率越高,在西班牙、爱尔兰、英格兰达到90%。M89出现在4.5万年前,M173出现在3.5万年前,两者时间差距高达1万年。我们必须找出M173的起源时间,因为不可能有一部分先祖在什么地区“潜伏”了一万年,然后突然袭击西欧并留下这么多壁画。

    这些基因标记的事实,告诉了我们两种可能性:
    1.西欧人曾经有一个共同的男性先祖。
    2.不知道什么原因,这个血统消失了,因为找不到与M89的关联。

    这是一个难解的谜团。我们必须找出这段时间,否则,谁也说不清楚到底什么时期现代人类来到了欧洲。要找出M173的起源时间,就要分析M173的遗传变化,即M173的多态性。但是,西欧的M173频率很高,人人几乎一样,怎么寻找多态性?唯一的办法是借助其他基因标记。这一次已经不能继续沿用前面的“相对时间”和“绝对时间”的办法。DNA的复制过程是一种分子水平的活动,也会发生分子水平的错误。我们就从DNA复制过程开始探索新的办法,寻找新的基因标记。

    DNA的复制过程示意图
    首先,解旋酶(Helicase)与拓扑异构酶(Topoisomerase)将双螺旋解开,然后,一个DNA聚合酶(DNA polymerase)负责合成下面的一条前进股(Leading strand);另一个DNA聚合酶则与上面的一条延迟股(Lagging trans)结合,制造出一些不连续片段,再由DNA连接酶(DNA Ligase)将这些冈崎片段(Okazaki fragment)黏合在一起(Strand可以译为股或链,1966年日本科学家冈崎令治夫妇发现冈崎片段)

    D NA的复制过程如下:
    由一批不同类型的小小复制机器——聚合酶(polymerases),先把双螺旋的两个链条打开,然后辛辛苦苦地分别复制两个链条的互补部分,分别形成另外两个DNA分子的双螺旋,使得一个DNA双螺旋变成了两个DNA双螺旋。这里只有一个简单的不可侵犯的法则:A永远配对T;C永远配对G。(1984年,遗传学家阿莱克·杰弗里斯(Alec Jeffreys,1950-)发现:3-30个碱基对的短核苷酸序列,在基因组里可以重复20-100次。他把这种重复序列组称为“微卫星”,或随机重复变量(VNTRs,variable number of tandem repeats)。人类基因组中这些区段的数量和位置,每个人都不一样。在人类的旅程的探索中,这种“微卫星”技术大量运用,找出了各地的人类群体差别以及群体之内的个体之间的微小差异)

    这项复制工作通常在一个基因组的99%以上部分都不会发生问题。但是,当DNA的链条中多次重复出现一段成对字母(如CACACACACA……)的时候,聚合酶才会被“搞糊涂”——到底重复几次?有时候,还会出现3个字母或4个字母或更多字母的连续重复,聚合酶机器就更糊涂了。这种分子水平上的重复字母顺序的复制错误过程没有正式名称,斯福扎把这种过程称为“stutter”(英语原意:“说话结巴”)。

    这种错误的发生概率是1∶1000,即大约1 000次复制出现1次。复制人类的DNA时,聚合酶产生这种错误的次数约为100万次。这种错误是在生产下一代的时候出现的,也就是说,我们的孩子身上带着大约100万个新突变。绝大部分这类重复复制错误产生的突变都会处于某种“沉睡”状态,不会发生作用,几乎毫不影响孩子的健康。但是这类复制错误,却为我们提供了极其丰富的多样性。这种错误的后果的正式名称为Microsatellite(微卫星)。

    如果我们对M173的Y染色体上的若干个微卫星的变动水平进行分析计算,就可以知道这个Y染色体的年代有多久,亦即我们的那个“找不到踪迹”的先祖的年龄有多大,因为所有Y染色体都来自一个共同的祖先——变动水平为零(0)的地方。微卫星是一个有力的工具。遗传学家们就是这样找出了“丢失的欧洲先祖”M173诞生的时间——大约3万年前(可能存在几千年的误差)。我们在这个时间前后,看到现代人在欧洲大陆上坚韧不拔的进军步伐。他们不仅留下了大批精美的洞穴壁画,石器工具类型也别具一格。所以,在考古学中,这种文明早已有一个专业名称——奥瑞纳文化(Aurignacian culture),这种文化的大批遗址广泛分布在欧洲的南部,这些遗址的主人原来大都是天才的艺术家。现在我们研究发现,R-M173可能来源于中亚草原,是向东迁徙的早期现代人的后代。虽然有3万年历史,但进入欧洲可能是五千年前骑马的印欧语系的第二次扩张。而另一个标记M170,定义的单倍群工,才是在欧洲生活了3万多年的类型,至今在欧洲普遍存在。

    奥瑞纳文化分布区域图

    尼安德特人当时也在欧洲,分布在互相隔绝的少数地区,生活非常艰难。他们的工具落后,在冰河期的巅峰时期,大约2.5万年前彻底消失了。那么,现代欧洲人是不是杀死他们的远亲尼安德特人的凶手呢?

    尼安德特人消亡的理论和假设很多。其中一个说法是他们被后来入侵的某些现代智人种群杀光了。但是这种说法没有证据。迄今为止,没有发现任何古战场遗迹,没有发现尼安德特人的滑铁卢的遗迹。两个物种之间没有战争,尼安德特人的灭亡可能属于自然选择。

    考古发现,新来的现代人的社会结构复杂,分工专业,武器精良,估计他们的狩猎效率很高。但是,尼安德特人的石器水平低下,所有遗骨大多是破碎的,普遍伤痕累累,估计狩猎往往很不成功,所以它们的生活非常艰辛。现代人靠的是工具和大脑,尼安德特人靠的是蛮力,所以寿命很短,尼安德特人大部分死于30岁左右,很难熬过50岁。尼安德特人的社会组织松散,群体很小,群体之间距离较远,各自生产本地特色的简陋石器。考古学家认为,尼安德特人的生活形态无法与现代人竞争。他们被现代人隔离了,无法基因交流。各个群体越来越小,以致最后根本找不到配偶,直至灭亡。

    现代人的生活方式会延长寿命,狩猎和社会组织已经不再依赖本能,而是依赖教授和学习。教育,正是现代人类与其他物种的最大区别之一。现在社会中,我们每一个人的教育都要延续到二十多岁,然后进入社会组织。没有文化已经无法进入现代社会。进入社会之后,仍然需要继续接受教育,人类现在已经进入一种所谓终生教育的社会形态。3万年前的现代人中,老年人就是教师,给孩子们讲故事;在青年们外出采摘或打猎时,老年人在家照顾孙子。今天的人类,还是老年人照顾孙子。仅此一个优点,现代人就足以击败尼安德特人。

    无论什么原因,现代人进入欧洲几千年后,尼安德特人消失了。3万年后留在欧洲的只有现代人,他们被称为克罗马农人(Cro-Magnons)。克罗马农人的身材细长,个子很高,手臂较长。粗矮敦实的尼安德特人大多只有约1.60米,而新来的移民克罗马农人的身高往往超过1.80米。

    克罗马农人,即现代的欧洲人,到底来自哪里?他们不是从非洲经由中东进入欧洲的,在这条线索上找不到基因标记。在3万年前出现的M173在欧洲的频率很高,包括隔绝居住的群体,例如凯尔特人(Celts)和巴斯克人(Basques)。第一个基因标记M168与第三个基因标记M173之间的踏脚石,即联系两者的第二个基因标记M45终于被找到了——人们在中亚氏族的一个分支里发现了M45。

    如前所述,人类走出非洲来到中东后,开始沿着干草原高速公路向广袤的欧亚大陆的中部地区扩散。有人向东进入中国——韩国——日本;有人向北走向西伯利亚——北美洲;有人转了一圈向西扩散,从东欧的干草原进入德国地区的干草原。这条进入欧洲的迁移路线绕过了难以逾越的亚洲和欧洲的分界线——高加索山脉。

    欧亚干草原带(steppe belt)是世界最大的干草原,当时延伸到德国——法国地区。从中东进入欧洲的早期人类M172,没有在欧洲取得支配地位。在广袤的欧亚干草原带上游荡狩猎“磨磨蹭蹭”了数万年之后进入欧洲的第二波移民R(可能是五千年前才从东欧到西欧),成为欧洲的主要居民,这些猎人的狩猎工具非常先进,并在欧洲南部留下几百个地点的洞穴艺术。

    现代欧洲人,来自亚洲。

    美洲土著来源的百年困惑

    公元1492年,哥伦布的船队向西远航,意外发现了一块新的大陆,这就是美洲。第二年,哥伦布向欧洲各个君主发出公开信,通告了他的发现。这次发现使西班牙和葡萄牙成为人类历史上第一个世界性海洋帝国,在此之前,人类历史上的海洋国家或帝国都是区域性的。

    在哥伦布发现美洲后接下来的200年里,美洲土著几乎灭绝了。根据现代的研究估算,当年西班牙和葡萄牙人来到美洲时,这里生活着5 000万——7 000万美洲土著。欧洲人带来的各种疾病,尤其是天花导致了90%以上美洲土著的死亡。由于没有文字记载,美洲土著的来源成为一个谜。于是,殖民者们开始大量贩卖非洲黑奴(当时他们认为非洲黑人是另外一个物种)来填补美洲的劳动力空缺。西班牙人和葡萄牙人似乎对人类学和考古学很少关心。

    1787年,美国总统托马斯·杰弗逊(Thomas Jefferson)在他的《弗吉尼亚州笔记》(Notes on the State of Virginia)里写道:
    ……虽然亚洲与美洲是完全分离的,但是,中间只有一个狭窄的海峡……美洲印第安人与亚洲东部的居民之间相似的外貌使我们产生一个猜测,要么前者是后者的后裔,要么后者是前者的后裔……

    20世纪中叶,美国体质人类学家协会的会长卡尔顿·库恩也曾经把亚洲人和美洲土著分为一类——Mongoloid(蒙古利亚人,又译为黄色人种)。当时的很多人类学家也持有类似观点。但是谁也说不清楚,美洲土著是什么时间,又是怎样来到美洲的?很多年以来,许多人认为亚洲人和北美土著可能来自同一个起源。

    一百多年里,以美国为主的西半球考古学家先后在美洲挖掘出200多个“重要的遗址”,不仅没有找出美洲人起源的答案,反而引起了各种争议。由于利用基因检测查清美洲土著起源的过程困难重重,经历了很多曲折,走了很多弯路,所以我们这里采取“倒叙”的方式讲述这个故事:先讲结论,再讲过程。首先,我们再次看看这两幅示意图:M168:所有非非洲人的先祖,他的早期后裔M130走出非洲,到达澳大利亚等地。M168的后来的最大一支后裔是M89。M89的一部分后裔继续留在中东,一部分后裔M9形成欧亚大陆最大的宏单倍群,包括K-L-M-N-O-P-Q-R等单倍群。

    我们现在看看M9的3支重要后裔(参阅下图):
    第一支M45:在欧亚干草原带分为两个方向,西路进入欧洲,东路进入南北美洲;
    第二支M175:进入亚洲东部,包括大部分中国、韩国、日本人;
    第三支M20:进入印度次大陆。

    基因检测的最终结果证实:
    1.最早走出非洲的M130的一部分竟然来到了美洲,他们走了整整4万年。
    2.M45的东路,从白令海峡陆桥一次又一次进入了美洲。

    但是,在早期的DNA检测中,美国和欧洲的科学家们既想不到M 130的后裔走了4万年,也根本找不到M45这个关键的联系亚洲——美洲的基因标记。

    美洲的南部是一望无际的大海,那是几乎不可逾越的太平洋。美洲的北部是一望无际的巨大冰原,在最后一次冰河期的鼎盛时期,绝大部分北美洲都覆盖在巨大的冰原下,厚度几百米的冰原从阿拉斯加一直延伸到美国中部。

    一边是广袤的大海,一边是巨大的冰原,石器时代的人类既没有向导和设备,也无法携带足够的食物走过几千千米冰原,这和跨过海洋一样几乎不可能。美洲似乎是一片无法企及的陆地。美洲土著的先祖是跨过白令海峡陆桥后,跋涉了几千千米的冰原,还是远航跨过了浩瀚无际的太平洋?虽然两个假设都不可能,但是,他们确确实实就在这里。
    这些北美土著,难道是天上掉下来的?

    当然不可能。人类学家和考古学家们争议了一百多年,没有任何两位专家的意见是相同的。基因科学家们没有参与争论,他们从电脑计算中发现:亚洲——美洲之间存在一个遗失的基因标记。他们离开实验室,飞往世界各地采样,最终找到了M45,地点就在西伯利亚。

    携带M45的群体叫作楚科奇人,生活在西伯利亚的东北角。前往这里采样的道路非常艰难,当时谁也不知道会有什么结果。俄罗斯东北端的克列斯特湾(Kresta Bay)地区, 一年中有9个月是冰天雪地,楚科奇人(Chukchi)居住的小镇埃格韦基诺特(Egvekinot)几乎与世隔绝。科学家们首先要从莫斯科飞行一万千米,抵达阿纳德尔(Anadyr),从这里乘坐两个小时直升飞机后,再经过八小时的履带式军车的颠簸,才能抵达埃格韦基诺特。

    楚科奇人是适应环境的奇迹。他们靠驯鹿生活,或在冰河上钻洞捕鱼。他们的这些技术几万年也没有改变。他们身穿驯鹿的毛皮,使用木杆搭建的帐篷,可以随着驯鹿群迁移,寻找地衣更丰富的地方。驯鹿是楚科奇人营养的唯一来源。几百万年以前的各种生物,都在这样的环境下消失了。只有走出非洲的现代人类才具备如此惊人的适应能力,在北极圈的极端环境下生存至今。正是在这些楚科奇人的身体里,生物学家第一次发现了M45。

    起源于亚洲中部的M45是欧洲最主要的血统M173的起源

    M45的携带者楚科奇人的先祖在大约四万年前进入西伯利亚,逐步适应环境,跟随着迁移的大批驯鹿,一直走进北极圈。在西伯利亚东北地区的Dyuktai和Ushki Lake出土了两万年前的人类遗迹,这里的石器非常尖细,呈现对称的“树叶”形状,这是一种细石器与其他人群的石器明显不同,但是与北美的早期人类遗址出土的石器几乎一模一样。

    有趣的是,M45的计算分析获得的第一个结论,仍然与美洲土著无法联系在一起。基因分析发现:M45是欧亚大陆的群体进入欧洲的基因标记纽带——也就是说,M45首先证明欧洲人是从亚洲地区过去的。这个结果使得生物学家非常尴尬。当时研究欧洲人的起源也是一团乱麻,在欧洲人身上发现的几个基因标记也找不到来源,基因科学家的困惑比考古学家好不了多少。当时的分析发现欧洲分布最广泛的基因标记是M173,但是人们却找不到M173的来源。谁也没有想到诞生于欧亚大陆的M45会分成东路和西路,东路的后裔进入美洲,西路的后裔正是进入欧洲的M173。

    这个惊人的结论推导出:美洲土著和欧洲人是近亲,中国——韩国——日本地区的人类没有进入美洲。这个结果发表之后,美国的媒体调侃说:原来本·拉登和布什也是亲戚。

    那么,M45是不是亚洲——美洲的基因标记纽带呢?因为很多考古发现都非常明确地证明了这一点,例如西伯利亚人用的“克洛维斯枪头”与美洲土著的枪头几乎一模一样,他们的帐篷模式也如出一辙。

    1950年代,在新墨西哥地区的克洛维斯文化(Clovis culture)遗址出土了大量文物,碳14技术推定这种文明起源于大约1.1万年前。数千件树叶形状的石器武器克洛维斯枪头(Clovis points)残留在很多灭绝的猛犸象的尸体里,在亚利桑那州东南的一处遗址,人们发现一只猛犸象身上有8个克洛维斯枪头。

    1970年代,北美又发现很多克洛维斯文化遗迹。这些遗迹的检测证明,美洲土著来到北美的时间可能更早,大约在1.2万年前,一些人认为在大约1.3万年前。

    1970-1980年,三个新的考古遗址被发现。一个在北美,两个在南美。这三个遗址显示出的时间更早,大约在1.2万年前,比墨西哥克洛维斯文化早了3,000年。

    事情并未到此结束。1986年:著名的《自然》(Nature)刊登了巴西考古学家尼埃德·古伊登(Niede Guidon,1933-)的一篇令人震惊的文章:《碳14显示人类3.2万年前在美洲》(Carbon-14 dates point to man in the Americas 32 000 years ago)。这篇文章介绍了在巴西东北部皮奥伊州(Piaui)的大批洞穴发现的史前遗迹和各种壁画。这些壁画总数超过三万处,除了远古时代的礼仪、舞蹈、狩猎以外,还有最后一次冰河期以前灭绝的动物雕齿兽(Glyptodon)、巨型犰狳(Armadillo)等动物。这里出土了大量陶器,还有绘制的世界最早的船只。这篇文章在美洲迁移史的研究中引起了轩然大波。这些历史遗迹的具体时间,至今仍然在争议中。

    1992年,美国的Doug Wallace和Antonio Torroni联合发布了关于美洲的第一份线粒体DNA研究报告,这份报告的结论是:美洲土著可能分两批来到美洲,时间在0.6万——3.4万年之间。

    1996年,人们在Y染色体上发现一个核苷酸变化,命名为M3。这个M3遍布美洲各地,频率在中美洲和南美洲高达90%,在北美约50%。显然,M3是美洲土著的奠基者,这个基因标记定义了美洲氏族。但是,在亚洲却没有发现M3。难道美洲人不是来自亚洲?当时测定Y染色体年代的技术还不可靠,M3的多样性也难以确定,必须继续努力。

    1999年,Fabricio Santos和Chris Tyler-Smith在牛津大学,Tanya Karafet和 Mike Hammer在亚利桑那大学(University of Arizona),分别独立地报告,M3的祖先是Y染色体上的一个未加定义的核苷酸改变,这个基因标记叫作92R7。他们发现从欧洲到印度的整个欧亚大陆都有92R7。这个92R7外加其他核苷酸变化,共同证实西伯利亚是美洲土著的来源。这一结论也佐证了线粒体DNA研究的结果。但是,研究者却难以确定92R7血统的年龄,因为这个基因标记太普遍了。

    这里还需要另外一个基因标记,才能找到第一批美洲土著的来源。

    最后,研究者们在携带92R7的Y染色体上找到了另一个基因标记,这就是M45。这是一个在中亚出现的基因标记。也就是说,携带M45的群体迁向欧洲,又增加了一个基因标记M173。但是,是不是还有一些M45的后裔群体带着M3来到了美洲?只有进一步分析M45,才能确定美洲的祖先什么时候从非洲——中东——干草原——西伯利亚进入美洲。为了进一步研究M45,科学家们首先假定了一个基因标记M242。

    M45是携带M173的大部分欧洲人的先祖,也是携带着M242和M3的北美土著的先祖。科学家首先假定了一个M242,最后终于找到了这个M242。

    这个M242应该在至少两万年前从中亚来到西伯利亚,分布到亚洲(印度南部——中国),然后分布到美洲。这个基因标记应该在西伯利亚的频率很高,所以生物学家称它为西伯利亚基因标记。

    M242的后代是M3,前后关系为:M45→M242→M3。这是两万年里,人类中亚——西伯利亚——北美洲的基因迁移路线。所以,中间的这个M242应该是美洲最古老的基因标记,分布应该非常普遍,而且应该与线粒体DNA的分布大体上类似。

    注意,这里重叠两个基因科学家的理论推算:
    理论推算1:有一个基因标记M45在亚洲东北部,联系亚洲——美洲。
    理论推算2:有一个基因标记M242在亚洲东北部,联系M45-M242-M3(亚洲——美洲最重要的基因标记是M3)。

    最后,在接近白令海峡的楚科奇人中,科学家们“预测”或“理论推算”的M242和M45被同时找到了。欧美科学家们全面检测了楚科奇人的DNA,结果显示:楚科奇人与整个欧亚大陆的群体都有关联,他们也与世界另一边的美洲土著密切关联。

    楚科奇人居住的地区

    新的DNA证据证明:第一批北美土著,在1.5万——2万年之间通过白令海峡陆桥进入北美,当时海平面比现在低100多米,形成一个巨大的陆桥,所以他们从这里进入了北美大平原。这是一种符合逻辑的推理。基因学家们通过推理找到了真实存在的基因标记,并且这些基因信息又与考古学和人类学的证据互相吻合。

    石头——遗骨——DNA,互相吻合,互相印证。

    以大型计算为基础的DNA技术,还可以作出其他的推理。非常有趣的是,DNA技术不仅仅可以从北美土著的遗传数据计算分析出他们什么时候来到北美,甚至可以推算出来迁移的大概人数。

    根据北美土著现存的基因谱系随着时间的发散数据,推算出的结论之一是建立北美人群的先祖人数为10-20个人。

    在过去的1.5万年里,肯定有些血统绝嗣了(类似前面的普罗旺斯鱼汤的例子),所以10-20个人的数字可能被低估,但是,最初来到北美的人数最多只有几十人到几百人。这种估算的理由来自美洲土著的多样性非常贫乏,远远比不上欧亚大陆。

    计算分析发现,欧亚大陆的人类多样性极其丰富,几乎是非洲大陆之外的另一个“二级先祖”。但是,越过白令海峡进入阿拉斯加的人群中,只有很少几十个人留下了后裔血脉,这是当年不屈不挠的艰险跋涉的明显证据。

    第一批美洲先驱者们跨过白令海峡陆桥,也许是沿着冰川的边缘行进,也许是沿着海岸行进,到底通过哪些路线,人们还是没有找到最终的答案。

    但是有一个问题没有争议,那就是这些美洲先祖们经过冰天雪地的长途跋涉,最终来到温暖的北美大平原,就像来到人间天堂。

    这里好像中亚故乡广袤的欧亚干草原,到处游荡着大群的哺乳动物。美洲土著的先祖们就像颠簸在汪洋大海中的一艘小船突然被大水冲进了一个琳琅满目的大型超级市场,于是人口激增,高效的西伯利亚武器(例如“克洛维斯枪头”)帮助他们在大约1 000年的时间里,迅速冲到了南美洲(电脑分析:他们的基因在仅仅1 000年里就发散了)。

    越过白令海峡进入阿拉斯加

    美洲的很多物种被他们杀光了,四分之三的大型哺乳动物被他们杀死了,猛犸象和马也被他们灭绝了——冰河期结束时,他们给了濒临灭绝的猛犸象们最后的致命一击。

    一万年之后,15世纪西班牙人来到这里时,北美土著的后裔才又一次看到了马。

    美洲土著的亚洲亲戚

    M45终于把亚洲和美洲联系在一起。

    科学家们的脚步并未就此停止,他们继续追寻着亚洲——北美洲——南美洲的更加深邃的内在联系。
    韦尔斯在其著作《深邃的先祖》一书中记载了这样一个故事:美国基因图谱工程总部的工作人员菲尔·布鲁豪斯(Phil Bluehouse)是美洲土著的后裔,他一直觉得自己的相貌特征与亚洲中部的人群非常相似,他总是感到自己有什么亲戚住在中亚或西伯利亚,所以他非常乐意参与总部在华盛顿的基因图谱工程。
    布鲁豪斯出身纳瓦霍族(Navajo),这是北美最大的一个土著,正式登记的人数超过30万人。这个群体构成了美国的一个独立自治体,管理着四处土著保留地。在保留地区域流行纳瓦霍语属于纳丁尼(Na-Denl)语系,与其他美洲土著语言不同。所以纳瓦霍人也不属于印第安人,大部分人也会说英语。
    布鲁豪斯参加基因图谱工程的原因,正是希望知道纳瓦霍族的起源,以及自己的先祖是怎样来到北美的?布鲁豪斯知道“美洲土著来自亚洲”这一结论,但他还是希望检测自己的DNA。检测结果出来,证实他的Y染色体DNA属于Q单倍群。听到这个结果,布鲁豪斯当场放声大哭——不是因为恐惧,也不是因为惊讶,而是因为幸福,他的许许多多的远亲确实在亚洲。Q单倍群是土生土长的美洲人的Y染色体中最常见的单倍群,90%以上美洲土著都属于Q单倍群。在中亚——蒙古大草原——西伯利亚的巨大草原上也有Q单倍群,那些亚洲远亲的生活与纳瓦霍族人的生活形态曾经如此相似。根据年代推断,亚洲人迁移到美洲的时间并不很长。( 纳瓦霍族语言古老,发音独特,无文字。太平洋战争期间,美国军队雇用纳瓦霍族人负责密码和情报传递,因日本人不懂纳瓦霍语。电影《风语者》(Wildtalkers<)描述了真实的二战历史:纳瓦霍族军人直接用纳瓦霍族的奇特语言, 明码呼叫指示炮火和飞机的攻击目标,成为日军无法破译的密码体系。美国将军回忆说:“如果没有纳瓦霍族人,我们永远无法攻克硫磺岛。”)
    DNA终于把失散了上万年的远亲们联系在了一起。布鲁豪斯说:“我一直知道我有亲戚在那里,现在DNA终于证实了这一切。”

    北美土著的故事,并非这么简单。北美土著的故事,还有更加深邃的根。
    在横贯北美的落基山脉,到处都是杨树(Aspen)。很多杨树是无性繁殖的树种,分布在整个北半球,与松树和杉树混杂生长在一起。与单调不变的松树和杉树的深绿色针叶不同,季节变化时,杨树叶子的颜色也会变化,呈现出绿色、红色、黄色,非常美丽。但是,当一些树叶改变成黄色的时候,其他杨树的叶子可能还是绿色。这种不同仅仅是自然现象吗?答案出乎预料,这里蕴藏着杨树的一个生物学秘密——这些杨树来自不同的根系。

    杨树(Aspen)的根部由成百上千的树根互相联系,通过无性繁殖不断生长,北美已经发现多处超过一万年的杨树。不是一棵杨树,而是同一个根系生长出来的不同的单株杨树的群体。有一个名叫潘多(Pando)的杨树根系占地超过666平方千米,总重量660万千克,寿命8万年。这是世界最大的最长寿的一个生物组织。

    杨树一旦成熟,就放出一个一个的根系,成长为一棵又一棵新的杨树的树干。这个过程会不知不觉地延续几千年,树林可以延续几百米甚至更远的距离。如果我们从地表的土壤向下挖掘,就会发现这个树群的起源其实只有一个根系。植物的这种繁殖方式,又称无性殖民群落(clonal colony)。

    杨树的这种生物形态,类似基因图谱研究中的“宏单倍群”(Macrohaplogroup):表面上互不关联的单倍群越来越多,散布各地的各个氏族及其分支也越来越多,成为一个“超级氏族”(superclans)。但是,如果我们从遗传学的土壤向下面越挖越深,就会发现它们都属于同一个先祖。

    “奥卡姆剃刀”的简约理论,就是剥离事件的构成成分,仅仅找出事件之间最简单的内在联系。也就是说,仅仅追求最简洁的因果联系。基因序列的进化,遵循的法则正是最简洁的关系。在遗传学中,最简单的解释几乎总是正确的。

    如果我们规避了参与千变万化的遗传重组的22对染色体,规避了X和Y染色体中变化多端的位置,只是观察分析变化稳定的若干区段,就可以清晰地分析计算出氏族关系和个体关系。当遗传形态最简约化之后,我们甚至可以清晰地分辨个体与个体之间的相互关系。

    甲,乙和丙三人的关系
    甲,乙和丙的关系树

    下面是甲、乙和丙三个人之间的DNA序列中四个碱基A-T-C-G的差异:
    这些差异在三个位置上。甲和乙只有一个变异:C与T,他俩关系比较接近。但是丙与甲、乙分别有两个变异,丙与他们两个关系比较远。于是,我们的DNA鉴定结果出来了,假如他们是表兄弟,则应该为:
    甲和乙是亲兄弟关系。
    甲、乙和丙是表兄弟关系。

    对许许多多的序列,需要一次又一次重复这样的分析和计算。这种分析计算可以针对一个群体,也可以针多个群体。3个序列只需要3次对比:甲和乙,乙和丙,丙和甲。但是,超过3个序列,分析计算就复杂了。4个序列就有6种可能的关系,5个序列就有10种可能的关系……所以,检测几百个序列时必须借助大型电脑系统进行分析计算。在基因研究中,世界上所有氏族(单倍群)都是这样分析计算出来的。

    研究人员正是采用这种方法,查明布鲁豪斯所属的Q单倍群确实是世界谱系树上的一个亚洲支干的分支,布鲁豪斯的DNA揭示出了他的先祖的冰雪之旅。

    基因漂变示意图:这里只有2个人留下了后裔,其他5个人的后裔全部消失了。图片来源:维基百科

    (人类最重要的动物伙伴依次是驯鹿——马——狗。驯鹿曾经是人类最主要的蛋白来源,陪伴人类度过了几万年漫长的冰河期)

    我们假设时光倒流,回到1.8万年前的西伯利亚。此时正是冰河期最严酷的时代,欧亚大陆的北部被巨大的冰川覆盖,气温比现在低10度以上,身披长毛的猛犸象群统治着亚洲的冻土苔原,剑齿虎在冰天雪地里捕食猎物。人类也在冰雪中艰难地生活着,就像现在西伯利亚的楚科奇人(Chukchi)以及雅库特人(Yakut)的群体。谁也不知道,为什么人类在两万年前来到这里并且永久定居了。这里没有发生新石器革命,这里至今没有出现农业。

    Q单倍群血统有一个基因标记M242,这个标记起源于两万年前西伯利亚的一个男人,可能位于西伯利亚南部或中亚。Q单倍群中的一个氏族来到欧亚大陆东北端的白令海峡,当时的海平面比现在低100多米,冰盖形成了陆桥,这个氏族跨越了白令海峡,进入了阿拉斯加。

    这是一次勇敢的行动。

    几百万年以前,其他的人科物种,也曾经走出非洲来到欧亚大陆各处,只有现代人类渡过海洋来到澳大利亚,但是,没有任何人科生物跨过白令海峡进入美洲。
    他们是美洲的第一批猿类。
    他们是美洲的第一批人科生物。
    他们是美洲的第一批现代人类。

    来到北美的亚洲移民就像一场豪赌的意外胜利,经过艰苦卓绝的长途跋涉之后,他们伤亡惨重,传承下来的DNA种类非常少,说明渡过白令海峡活下来的人数很少。基因分析证实,男性只涉及3个单倍群,女性只涉及5个单倍群:
    Y染色体DNA=3个氏族:Q,Q3,C3。
    线粒体DNA =5个氏族:A, B, C, D,X

    Q单倍群分布在南北美洲,从阿拉斯加直到最南端的阿根廷,Q的后裔Q3紧随着Q。C3单倍群是第二批移民,仅仅分布在北美洲,从来没有出现在南美洲。女性的5个线粒体DNA单倍群,伴随着3个男性的Y染色体单倍群。对比之下,欧亚大陆的Y染色体和线粒体DNA多达几十个血统(群体越大,越不容易发生基因漂变)。在西伯利亚——白令海峡——阿拉斯加——北美洲——南美洲的艰难旅程中,这些人口数量不大的小群体,多次发生突然的人口减少或人口增加。于是,有的人绝嗣了——基因漂变出现了。由于基因漂变,南北美洲人类的多样性非常贫乏,远远不如非洲和欧亚大陆。也就是说,美洲土著的先祖数量太少了,所以他们互相之间的DNA太相像了。

    进一步的基因分析证实,美洲土著只有很少的共同祖先,即Q和C3,约占美洲土著的99%。那么,在亚洲的时候,美洲土著Q和C3的先祖在哪里?这些先祖包括哪些氏族?这些氏族后来又到哪里去了呢?

    研究显示,Q单倍群与R单倍群都起源于欧亚大陆,起源于一个先祖M45。

    大约四万年前,中亚出生了一个男孩,他身上携带着M45。这是根据全球多样性频率计算推断出M45诞生于中亚,因为只有中亚发现了M45的全部重要的血统分支。

    从右图可见:两个单倍群Q和R构成了一个宏单倍群P。Q和R的“祖父”都是M45,如果用前面的“三个人的例子”来表述的话,Q和R的关系是表兄弟,亦即美洲土著与欧亚大陆西部的群体是亲兄弟。大部分欧亚大陆西部和美洲土著的先祖都是这个M45。

    再向上追寻,四万年前的M9是更巨大的一个杨树的根系。M9把表面上互不关联的很多血统联系在一起:从K到O,外加上属于M45的P到R,以及后来分离出来的很多其他血统。为了更加形象和易于理解,我们可以这样说:1492年,哥伦布向西远航“发现”了美洲土著,实际上,哥伦布和美洲土著的祖父的祖父的祖父的祖父……在四万年前是同一个人。

    美洲的女性传承的线粒体DNA的答案,与Y染色体的分布几乎完全一样。美洲的仅有的5个线粒体DNA:A、B、C、D、X,全部在中亚发现了。显然,她们与同一批氏族中的男性成员们一起跨过了白令海峡。

    Q单倍群与R单倍群都起源于M45
    4万年前一个携带M9基因标记的男性的后裔形成大部分欧亚血统。

    多次的重复采样和反复检测,一再确认了以下的历史事实:位于塔吉克斯坦的帕米尔高原周围的几个山脉的走向,决定了从非洲——中东——中亚迁移的各个氏族的走向,向北边迁移的一些群体分别走到了欧洲——西伯利亚——美洲,向南边迁移的一些群体,分别进入了亚洲南部——亚洲东部。

    大约四万年前,第一批现代人类(M170,属于工单倍群)进入东欧时发现,早已有一批人科生物先期殖民欧洲了。这些人科生物就是尼安德特人。约三万年前,尼安德特人基本灭绝了。各种基因检测分析已经证实,尼安德特人与现代人不是一个亚种。

    当一些人类向欧洲北方各个角落扩张的时候,其他地方的一些人类正在向南迁移,继续殖民亚洲。这段冰河期,人类的狩猎采集群体比较小,所以上一代人与下一代人之间的遗传差距往往特别大。换句话说,这一段时期是这些群体的基因漂变发生最多的时期,人类的外观和肤色开始迅速分化。印度和东南亚仍然需要比较黑的皮肤,欧洲和西伯利亚则从不担心阳光灼伤皮肤,反而需要阳光以合成坚实的骨骼。冰河期人类外观的变化还有两个原因,即自然选择和性选择。达尔文在《人的由来》一书中认为:性选择是人类多样性的关键因素之一。在冰河时代,基因漂移、适应环境、性选择交互影响,这三个因素使得人类的肤色、身高和外观等群体特征发生了非常显著的变化。

    还有一个非常重要的变化是人类的语言。狩猎采集时代,食物的不稳定性使人类无法在一个地域内维持很大的群体。于是,人类的群体不断地分化,走向四面八方,语言也越来越不相同,最后形成不同的语言和方言。这一切,全部发生在过去四万年之内。

    有声的语言与无声的坟冢

    基因研究证明,美洲土著来自M45和M130。但是这些移民群体是一次还是分成几次移民美洲的?这是北美土著起源的一个长期争议的主题。华盛顿州肯纳威克(Kennewick)曾经出土了一个9,500年前的所谓高加索人(Caucasoid)的头颅骨,表明北美与欧洲有联系。有的人类学家认为,澳大利亚人曾经来到南美洲,还有的学者毫无根据地猜测,日本人曾经在几千年前跨过了太平洋……基因科学,能否找到这些胡乱猜测的谜底呢?

    基因技术已经证实,最早走出非洲的一批现代人类中,一部分人群很快来到了澳大利亚,还有一部分人群辗转四万年来到北美洲。这个漫长的有趣故事,要从语言学谈起。

    长期以来,语言学也是人类研究的一个线索。美洲的语言超过600种,这也是语言学界的长期争议话题:这些语言是互不相关的,还是可以归类整理为很少的几个语系?

    约瑟·格林伯格(Joseph Greenberg,1 9 1 5-2001)把600种以上的美洲语言,归类为一个单一的宏语系(macro-family),并将其命名为美洲语(Amerind)。

    格林伯格发现,南美洲和大部分北美洲的土著语言都属于美洲语,但是有两个例外的语系:

    格林伯格猜测,每一种语言都对应着一批亚洲进入美洲的移民。语言随着美洲人群的迁移而迁移,人群移动了,语言也跟着移动了,基因当然也移动了。说美洲语系的人群进入美洲最早,散布最广泛,而且是南美洲唯一的语系,这个事实说明,至少两批亚洲移民曾经进入美洲。Y染色体的基因研究结论支持了格林伯格的猜测。

    美洲宏语系:使用美洲语系的人群在南北美洲分布最广泛,这些携带M242和M3的人群来自西伯利亚氏族,线粒体mtDNA的研究数据也支持这一结论,他们在仅仅大约1 000年里就广泛分布到南北美洲各个地区。

    纳——德内语系:使用纳——德内语系的人群在美洲的分布第二广泛,仅次于美洲语系的群体,基因分析证实他们是第二波移民。有趣的是,他们的基因里竟然包括M130,并且比例达到25%。如前所述,M130是大约六万年前,沿着海岸高速公路离开非洲的最早的第一波移民群体。更有趣的是,在南美洲没有发现M130,说明纳——德内语系的人群可能是一万前离开中国北部或西伯利亚南部进入了美洲,当时白令海峡已经再次被海水淹没,他们几乎是全程使用船只的移民,然后分布在沿海地带,这种语言扩散到美国沿海的西部,直到加利福尼亚。他们的路线可能是非洲——印度——

    东南亚——北上北极圈——北美洲。

    爱斯基摩——阿留申语系:使用爱斯基摩——阿留申语系的人群可能是M242的一个西伯利亚分支,他们喜欢沿海生活,他们成为现在的爱斯基摩人,他们的祖先在西伯利亚,主要以驯鹿为生,这种生活方式与西伯利亚的楚科奇人一样。

    出乎所有早期学者们的预料,在南北美洲都找不到M175,也就是说,美洲没有发现携带M175的中国——韩国——日本地区的人类的痕迹。

    各种DNA证据都显示出一个结论——所有美洲人全部来自西伯利亚。

    一万年以前,人类已经殖民到世界所有大洲(南极洲除外)。人类的先驱者们聪明灵活,善于适应各种不同于非洲故乡的环境。在五万年的旅程中,人类作为猎人,穿过沙漠、越过高山、跋涉过冰雪覆盖的荒原,从非洲一直走到了火地岛,来到世界每一个角落。

    石器时代,也是语言发生多样性的年代。

    语言学是一种分类归纳学科。假若美国人来到英国,肯定大吃一惊,以为自己来到另一个国家。美国没有方言,英国的方言很多,甚至刚刚走出伦敦都会区,各地的口音就不一样了。人们猜测,原来人类可能只说一种语言,随着人类氏族和部落越走越分散,语言随之多样化,与遗传学中的多样化类似。最典型的例子之一是印欧语系。

    1786 年,在英属印度担任法官的语言学家威廉姆·琼斯爵士(Sir William Jones,1746-1794,发现梵语与拉丁语和希腊语非常相似),在大量研究分析的基础上提出印欧语系(Indo-European language family)的概念,即欧洲到印度的大片地区所有的语言有一个共同起源。这种假设,最终得到广泛承认。

    1988年,斯福扎决定在印欧语系与基因分布之间,绘制出一幅对比图表进行核实。他从世界各地的42种不同语言群体的基因分析得出一种分布树,经过对比证实,这棵树与语言系统树中各种语言的关系非常接近。例如,印欧语系中的各个群体,与基因树中的相应位置基本上一一对应。

    在方言繁多的班图语系和中国北方——南方的不同方言体系中,也发现了类似分布状态,证明语言与基因的多样性是基本相吻合的。属于同一语系的人群语言变化与基因多样性变化互相印证,基因出现差异的地方,语言也发生分化。

    如果琼斯爵士的猜测和分类是正确的,亦即印欧语系的各个群体拥有一个共同的起源,那么,印欧大陆的各个群体必定在远古的某一个时间点上曾经拥有一个共同先祖。对于这个谜团,考古学家和语言学家的考察研究和激烈争论持续了200多年。

    一个“印欧语系”的假设带出了一系列疑问,各种解答形成了盘根错节的乱麻一样的无数证据和假设。所有的假设和解答,都是为了寻找这个欧亚大陆的无数族群的“故乡”……这些多学科的共同努力,最终激励遗传学家们也加入了这场寻找故乡的百年探索。

    同一个单词,可以追溯出它最原始的词源。例如,英语中的牛ox,可以联系到印度梵语中的牛uksan,中国西部吐火罗语(Tocharian)的牛okso。同一语系中,动物、植物以及工具、武器的单词往往是相同的。印欧语系中“马”和“带轮子的车辆”等单词也是一样的。但是,印欧语系与西欧的考古证据之间的联系并不清晰。这种语言在欧亚干草原带上的证据非常清晰,进入西欧的森林地区就模糊不清了。

    人类的历史中,很多语言产生了,很多语言消亡了。语言演变有时难以定论,至今仍争论不休。但是,考古证据是无法改变的。能不能找到印欧语系的先祖们的葬身之地呢?

    这些墓葬,终于在欧亚干草原带上被找到了。

    Urheimat是源自德语的语言学名词:Ur=原始的,最初的;heimat=家园。语言学中这个德语专业词汇常常用于描述原始语言(proto-language),又称祖语。上图是语言学中常用的树结构,其中:15=原始语祖语;6,20=第二级祖语;2,7,31=第三级祖语;5,9=第四级祖语。这种树结构在其他领域广泛应用

    1950年代,美国UCLA大学考古学教授玛丽亚·金布达斯(Marija Gimbutas,1921-1994)在伊朗高原——欧亚干草原——乌克兰地区——东欧——西欧——南欧进行了一系列墓葬考古和研究。1970年代,金布达斯开始发表一系列研究报告,以坟冢(Kurgan)为主要线索,初步勾画出一幅图景,将印欧语系群体联系起来。金布达斯提出的假设被称为“原始印欧祖语假设”(Proto-Indo-European Urheimat hypotheses)。

    这种“原始印欧祖语”(简称PIE,Proto-Indo-European)的发源地在巨大的欧亚干草原,这种假说完全涵盖了前期曾经出现的很多假设(例如纹绳陶器文化等)。这种坟冢文化(Kurgan culture)的大量坟冢遗迹至今仍然安安静静地沉睡在整个欧亚干草原带的全部范围之内,从乌克兰的大平原,一直延续到蒙古大草原。这里正是人类走出非洲的主流群体徘徊辗转了数万年的地区,人类从这里走向欧洲——亚洲——北美洲——南美洲。

    玛丽亚·金布达斯以语言学和神话学为脉络尝试联系各种考古证据链,以坟冢假说(Kurgan hypothesis)将人类的语言起源和发展的路线进行了描述,基本接近后来的基因证实的人类迁移路线
    战车技术扩散示意图
    玛丽亚·金布达斯根据考古证据,还提出战车技术的传播路线。考古发现证明:大约7 000年前,中亚游牧的人类首先驯化了马,创造出马拉的战车,这种战车从中亚开始向伊朗高原——两河流域——印度北方扩散,并向东欧和中国扩散

    这种坟冢文化理论,证实了琼斯爵士“印欧语系”的猜测是正确的。这个答案和理论在基因技术出现之前就被找到了,当时曾经存在争议。在基因技术的确认之后,这个理论现在得到了广泛的公认。

    毫无疑问,美洲土著是最勇敢的一批人类,他们是我们这个物种中跋涉距离最远,牺牲最为惨重的一群勇敢的先驱者,令人更加难以置信的是他们崎岖的旅程和怪异的构成:他们有的从中东——欧亚大陆——西伯利亚走进北美洲(M45),有的从非洲海岸线开始:印度次大陆——东南亚——中国——蒙古——西伯利亚走进北美洲(M130)……这些大型电脑系统进行的计算推理和基因分析的结论,使人联想起福尔摩斯对华生医生的忠告:“当你排除了不可能的,无论剩下什么,不管多么不可思议,都是真实的。”

    太平洋的拼图

    DNA的分析计算揭示的戏剧性结果发现,人类波澜壮阔的六万年大迁移的最早一次和最后一次殖民世界,都与太平洋有关。

    大约六万年前,第一批走出非洲的人类来到澳大利亚。大约4 000年前,人类最后一次迁移是波利尼西亚地区的海上大移民。

    所谓波利尼西亚三角(图中的紫色部分)的三个顶端为:夏威夷群岛——复活节岛——新西兰岛

    波利尼西亚是太平洋中央几千个岛屿的统称,波利尼西亚人是这些岛屿原住民的统称,从夏威夷的土著到新西兰的毛利人(Maori people)都属于这一范畴。波利尼西亚(Polynesia)一词源自希腊语:poly意为众多,nesoi意为岛屿。1756年法国作家Charles de Brosses(1706-1777)第一次使用这个词,当时泛指太平洋上的所有岛屿。现在的波利尼西亚(Polynesia)的范围也没有严格界定:从美国洛杉矶出发,飞向新西兰首都奥克兰经过的海域就是波利尼西亚,距离约1.2万千米,飞行约14个小时。飞机下面一望无际的辽阔海域散布着数以千计的岛屿。

    早在欧洲人探索太平洋之前,这里的每一个岛屿都被人类发现并居住了,波利尼西亚人是史前最伟大的航海家,他们现在的总人口超过150万,使用的各种语言统称波利尼西亚语(Polynesian languages)。

    1778年,英国著名航海家库克船长(Captain Cook)成为第一个“发现”夏威夷群岛的西方人。从发现夏威夷开始他就认真思考探索波利尼西亚人的起源问题,他怎么也搞不清楚这些土著居民是什么时候和怎么来到这里的。夏威夷群岛和北美大陆的最近距离超过3 200千米,四周是浩瀚的太平洋,他们肯定是航海来的。但是,从夏威夷土著对远航船只的充满疑虑态度来看,他们似乎对航海知识一无所知。库克船长还发现,他们处于石器时代,没有金属冶炼和书写文字。

    库克船长的三次航海路线图。第一次红色,第二次绿色,第三次蓝色,蓝色虚线是库克船长死后的航线

    库克船长的其他航海“发现”更加使他困惑不已:从夏威夷西南3 500千米的马科萨斯群岛(Marquesas Islands),到继续向南1 500千米的社会群岛(Society Islands)都位于浩瀚的太平洋中心,竟然也都有人类居住……如此大规模的移民,如此遥远的距离,库克船长找不出答案。在没有罗盘和其他航海仪表指示纬度的史前时代,这些波利尼西亚的航海家怎么可能具备这种能力?

    库克船长并不是第一个探索太平洋的航海家,但是库克船长的航行区域的广阔程度超过任何前人。

    1766年,英国皇家学会与时年39岁的战争英雄库克船长签约,让他带领科学考察团观察金星穿越黄道,以便计算地球和太阳之间的距离。当时人们发现,波利尼西亚的塔希提群岛是观察1769年的这一现象的最佳地点。这是库克船长的第一次航行,此后库克船长又对太平洋地区进行了两次更大范围的探索。在三次航海中,他曾经到过新西兰——澳大利亚——美洲太平洋西北海岸——白令海峡——夏威夷等广大的海域,最后在卡拉克夸湾(Kealakekua Bay)的一次冲突中被当地土著杀死。

    库克船长对这些遥远而分散的无数岛屿上的人群的起源产生了浓厚的兴趣。他发现,从夏威夷直到新西兰等岛屿,人们的长相和语言都有相似性,库克船长猜测他们可能来自同一个地方。波利尼西亚人自己也不知道他们来自哪里,新西兰毛利人的神话传说中的故乡叫作哈瓦伊奇(Hawaiiki),但是至今为止,谁都不知道这个哈瓦伊奇在哪里。

    库克船长的问题,长达200余年没有令人满意的答案。根据不断出土的考古学证据,后来人们普遍接受这样一种观点:波利尼西亚地区的人类是4 000年前自己航行到这些太平洋诸岛的。于是争议的焦点转变为:他们是来自亚洲,还是来自美洲?

    库克船长等欧洲航海家,对太平洋的风向和洋流非常清楚。大自然的威力,人类难以抗拒。

    南岛语系的分布区域
    南岛语系一词是拉丁语auster(南风)和希腊语nesos(岛屿)的一个合成词。日本直译为南岛语系,中国沿用了这个译名

    西班牙人是最早探索太平洋的欧洲人,他们只能从东向西单一方向穿越太平洋——从中美洲航行到菲律宾后,西班牙人无法从原路返航,只能通过北太平洋的环流,经过日本北部——阿拉斯加——北美太平洋海岸南下回到中美洲。西班牙大型帆船也无法对抗海风和洋流,波利尼西亚土著的小船怎么可能做到呢?假如波利尼西亚人来自亚洲,他们必须对抗海风和海流。所以,一些人认为波利尼西亚人来自美洲比较合理,因为海风和洋流会帮助他们。

    但是,语言学的研究,并不支持波利尼西亚人来自美洲的假设。波利尼西亚人的语言,与台湾——东南亚——马来半岛地区的语言关系密切。台湾现在说汉语和闽南话,但是17世纪之前的台湾土著说着一批互不相同的语言,这些语言的名称原来是马来——波利尼西亚语系,20世纪改称南岛语系(Austronesian)。南岛语系包括大约1 300种语言,是世界上唯一主要分布在岛屿上的一个语系,除了印度洋——太平洋诸岛,还包括东南亚的泰国——马来西亚——越南——柬埔寨部分地区。这个语系分布广泛,西至马达加斯加,东至波利尼西亚。与南岛语系最接近的是侗傣语言,分布在中国西南一直到泰国和印度东北部。两个语系有很多同源词,不过南岛语不像侗傣语那样有声调。

    这一带的很多地区,在最后冰河期的巅峰期(Last Glacial Maximum,LGM)却并不是分离的岛屿。当时的世界与现在的世界全然不同:海平面低100米以上,冰盖覆盖着欧洲北方和美洲北方的大片陆地,英伦三岛与欧洲大陆连在一起;波斯湾并不存在,两河流域与伊朗高原连在一起;日本列岛的四大岛屿是一个整体并与亚洲大陆连在一起,人类从亚洲直接走进日本……马来半岛——印度尼西亚群岛连在一起构成巽他古陆(Sundaland),澳大利亚——新几内亚连在一起构成Sahul古陆(Sundaland)萨胡,这两个古陆之间始终是海洋,这两块古陆从未连在一起,所以澳大利亚洲——新几内亚的物种与其他大陆不同。

    7万——1.4万年前的两块古陆:
    Sunda古陆:7万——1.4万年前马来半岛——印尼诸岛——菲律宾群岛连在一起。Sahul古陆:7万——1.4万年前澳大利亚——新几内亚连在一起

    约六万年前,第一批人类来到巽他古陆,其中一部分人渡过不到100千米的海峡来到Sahul古陆,成为今天的澳大利亚土著。当时隔断两个古陆之间的海洋不宽,仅50千米至100千米。约1.2万年前,冰河期结束,海平面上升100多米,淹没了巽他古陆上人类的故乡,也淹没了人类如何学习航海的证据。Sahul古陆被上升的海水分离成为澳大利亚和新几内亚。这些古陆存在的证据最早的发现者是华莱士(Alfred Russel Wallace)。

    1854-1862年,库克船长“发现”夏威夷——新西兰等地的80余年之后,华莱士在印度尼西亚群岛——新几内亚一带收集了12.5万多种物种。华莱士发现这一地区存在着一条分界线,两边的物种完完全全不同。这个分界线后来被命名为华莱士线(Wallace Line,后来的学者对这条华莱士线做了局部的修正)。人们发现,这一带曾经属于两个分隔的古陆,这一带的海水很浅,大型船舶航行存在风险,只有马六甲海峡是安全的航线。

    波利尼西亚人起源的争议持续了200年。考古学、人类学和语言学的证据以及波利尼西亚发现的驯养动物和农作物类型,都把他们的故乡指向东南亚,但是很多人仍然认为他们来自南美洲。

    如果他们在南美洲生活得非常习惯,为什么要航行到太平洋的这些岛屿上生活呢?起源美洲的支持者解释说:他们可能在打鱼的时候迷路了,漂流到了这些岛屿。起源亚洲的支持者反驳说:那么,波利尼西亚人的先祖们在出外打鱼的时候,为什么带着全家人?而且甲板上还放着各种动物和农作物?

    两派观点在一个问题上没有争议:他们是乘船来的,不是游泳来的。
    他们是从亚洲乘船来的吗?海风和海流可能阻碍他们的航行,确实说不通。
    他们是从美洲乘船来的吗?海风和海流可以帮助他们航行,这个假设可以实验。

    1947年,瑞典人类学家托尔·海尔达尔(Thor Heyerdahl,1914-2002)用一次著名的实验,支持了波利尼西亚人来自南美的说法。他按照南美人留下的造船图纸,制造了一个著名的筏子,名字叫作孔蒂奇(Kon-Tiki),他要模拟南美人来到太平洋的过程。
    1947年4月28日——8月7日,经过102天,航行距离4 300英里(近7 000千米),海尔达尔抵达了距离塔希提不远的土阿莫土群岛(Tuamotus)。他们没有无线电,没有其他仪器,实际上是漂流而来。

    支持波利尼西亚人起源于南美洲的证据很多,例如,波利尼西亚岛屿普遍种植的库玛拉(Kumara,甜土豆)是南美安第斯山区的特产;又如,复活节岛的石制纹饰和雕刻与印加风格极其相似。但是,最著名的证据就是海尔达尔实验。很多人被说服了,人们相信波利尼西亚人来自美洲。

    1987年,在海尔达尔实验50年后,“线粒体夏娃”出现了。仅仅过了几年,几批科学家的DNA检测结论轻而易举地推翻了人们的观念:海尔达尔错了,波利尼西亚人来自亚洲而不是美洲,波利尼西亚人的大体迁移路线是中国闽台——东南亚——印尼诸岛——波利尼西亚诸岛,最后一站是新西兰。也就是说,新西兰的毛利人与六万年前来到澳大利亚土著完全没有关系……

    基因技术,给出了一个令人难以置信的太平洋的拼图。
    大约4 000年前,人类经过不分昼夜的远洋漂流,先后抵达和定居在浩瀚的太平洋中央的数千个岛屿上,这与其说是一个伟大的壮举,不如说是一个奇迹,这再一次证明了现代人类的确是一个自由、勇敢、善于探索未知的伟大物种。
    这是不可思议的事实,也是仍然存疑的事实。他们使用的是什么航海工具?他们用什么技术顶风破浪来到太平洋的中心?

    很多人猜测,他们可能使用的是双体船,两个船身四个船头,不用转弯就可以反向行驶,参照星座定位日夜漂流……不管怎么说,他们确实来了,他们是自己航行来的,这场海上大迁移似乎与寻找新的土地没有什么关系,因为每个海岛上的人口密度都很低,食物也很丰富……民俗学研究给出了答案,波利尼西亚的祖先群体有了继承制传统,长子以外的子女得不到父亲的土地和主要家产,被迫组织探险,寻找新土地。他们似乎对自己的航海技术非常自信,他们似乎仅仅是为了向上苍证明:人类,敢于驶向任何遥远的未知;人类,敢于在任何天涯海角生存。复旦大学的李辉教授课题组一直在研究南岛民族最早在大陆上的源头。他们发现,南岛民族不但与东亚大陆的侗傣民族语言相近,还共有一个高频的Y染色体标记M119,定义单倍群O1.这个单倍群最早出现在浙江一带的新石器时代人骨中。那么,南岛民族是什么时候离开“魔都”大上海,又是为什么离开呢?因为M119太高频,人群中多样性太高,很难计算分化时间,他们又找到了一个罕见突变标记N6,恰好东南岛民族与江浙人群中存在。通过累积突变数量的估计,他们精确计算出南岛民族离开江浙是约5900年前,这正好是马家浜文化结束,崧译文化开始的年代。来自长江以北的大汝口一凌家滩文化系统人群可能入侵江南,驱逐了马家浜文化的上层建筑。马家浜上层的南迁,开始了近六千年的南岛历史。留下的人民,后来部分形成了侗傣语言。

    人类确实是伟大的物种,在六万年的陆地迁移中,人类发明了各种武器,成为可以远距离攻击其他物种的唯一生物。所以,我们的先祖敢于攻击狮子老虎,敢于挑战大象犀牛,最后甚至敢于驶向茫茫的未知……我们只知道化学结构稳定的DNA里存储着基因,但是不知道基因的语言,更不知道基因语言编制的生命程序……
    太平洋上的史前人类,谱写了最为壮丽的一支生命的赞歌。

    第五章 基因图谱工程

    如果在外太空的月亮附近观看地球,地球就像黑暗中漂浮的一个蓝色圆球。拉近镜头,我们看到的是欧亚大陆和非洲连在一起,南北美洲连在一起……如果把镜头聚焦在纽约,我们看到的是一个五光十色的小小世界——世界上有192个国家,纽约人来自其中180多个国家,说着140多种语言……随着每一个个体的迁移,随着无数快乐、悲伤、爱情、战争的故事,人类在四万年里抵达了世界每一个角落,在一万年的农业社会里数量激增,在500年前的大航海和产业革命之后,再次聚集在同一个地球村。
    每一个人心里都有一个找不到答案的疑问:
    我的根,在哪里?

    基因技术,就像放出魔瓶的魔鬼,几乎无所不能。这一场长达50年的DNA科技旋风,最终揭开了无数关于我们每一个活着的人的共同的深邃的先祖的秘密。我们起源于非洲,我们拥有共同的先祖,我们有非常相近的基因……

    1987年,“线粒体夏娃”出现以后,人类一次又一次发现自己对先祖的认知错了。全世界集体发现和承认错误并迅速改正观念,这是历史上的第一次。

    2000年启动的人类基因组工程,发明了一大批新技术和新设备。

    2000年之后,生物和基因技术发展的节奏快得令人难以置信,几乎每一天都有新的技术和新的发现公之于众。遗传学家已经可以不再局限于少数个体的遗传研究,而是设法读懂天书一样的遗传DNA文献,从欧洲、美洲、亚洲、非洲、大洋洲、太平洋诸岛找来大量志愿者,实现真正的全球采样,从他们的遗传形态推算分析还原人类先祖的历史。这里需要的不是精确性,而是多样性和多态性。现在的DNA测序也已经不再困难和漫长。

    2005年,基因图谱工程(The Genographic Project)启动。这项工程检测全球人类的历史脚步,研究结果将对很多学科都产生有形和无形的帮助。事实上,Genographic(基因图谱)本身就是一个新创造的英语名词。世界正在趋向一个种族大熔炉,人类的大规模迁移正在加速,城市化正在全球蔓延,人潮追随着经济和资本的流向,无数族群——语言——地方文化正在消失……追寻人类历史的遗传学家只能与时间赛跑而且必须与时间赛跑……基因科学和生物科学带来惊人的结果,我们刚刚知道人类原来这么年轻,历史原来这么短暂,而且全世界都是远亲……

    总部设在华盛顿的国家地理协会(National Geographic Society;1888年1月27日,为了筹集地理学的普及和调查资金,33名探险家、教师和军人成立了非营利组织国家地理协会,第一任会长巴巴多;当年10月,第一本《国家地理杂志》出版)是全世界最大的非营利组织之一,最著名的创始会长是电话的发明者贝尔(Alexander Graham Bell;巴巴多的义子,AT&T创始人;1889年1月任第二任会长)。现在,美国国家地理协会是世界最大的科学和教育组织。《国家地理》等杂志平均每月读者人数2.8亿人,《国家地理频道》等媒体涵盖160多个国家的电视台,观众数量以十亿计。1888年成立至今的124年间,国家地理协会资助支持的科研项目超过8 000个,涵盖世界所有国家和地区。协会的主要兴趣在地理学、考古学和自然科学,发行的各种杂志书籍和DVD等庞大的数据没有确切统计数字。

    丽贝卡·卡恩发现了“线粒体夏娃”

    我们已经知道,人类的起源和人类的旅程不是化石告诉我们的,而是电脑计算出来的。灵长目动物的化石和人科动物的化石非常有限,人类的化石也非常有限。我们人类——智人是生物学中的新来者。生活在大海里的螃蟹和鲨鱼的化石出现在1亿年前;我们人属(Homo)的化石仅仅出现在几百万年前,能人(Homo habilis)和直立人(Homo erectus)等早期人属生物们开始使用工具,已经有些类似我们的样子。但是,50万年前我们仍然尚未出现。

    1967年,理查德·李基(Richard Leakey)在埃塞俄比亚的奥莫河(Omo River)的基比什结构(Kibish Formation)中,发现19.5万年的生物学意义上的人类化石,这是世界上最古老的人类化石。第二古老的人类化石,一个在埃塞俄比亚的赫尔托的波里结构(Herto Bouri Formation),另一个在摩洛哥的埃尔赫德山(Jebel Irhoud)。这两处化石大约16万年,在解剖学上也属于人类。

    人类化石稀少的可能原因是人口稀少,并且仅仅分布在非洲和中东地区。

    意外邂逅启动的工程

    基因图谱工程的启动,来自一次偶然的邂逅。

    2002年8月的一天,斯宾塞·韦尔斯(Spencer Wells,1969-,生物学家)在伦敦希思罗机场(Heathrow Airport)的四号航站楼候机时,他的相邻餐桌坐着国家地理频道(National Geographic Channel)的国际部高级经理金·麦凯(Kim McKay),麦凯看过韦尔斯的电视节目。麦凯的责任之一就是在尽可能多的地方,结交尽可能多的电影电视上出现的人。

    这一天,韦尔斯和麦凯两人在机场越谈越深。麦凯由衷地感到生物遗传科学是如此令人着迷,人类旅程的探索更是令人神往。麦凯问了一个最终引出基因图谱工程的问题:“那么,下一步你想干什么?”

    韦尔斯的脑子转得飞快,该干的事千头万绪,从何谈起呢?麦凯说:“《国家地理》的兴趣也正是遗传人类学家们正在干的事情。”韦尔斯想了一会儿,对麦凯说:
    我们需要更多的样本,非常非常多……我们现在是从几千个人的样本,研究他们的少量的遗传基因标记,知道了人类迁移的形态……如果我们能够得到一万人的样本,就会在几年之内拿出更多的报告。世界65亿人,一万个人的数字也不大……我希望制造更大的双筒望远镜看看外太空。我需要的样本至少应该增加一个数量级,10万人或更多人,才能找到关于我们的过去的更多疑问的答案。我们必须有这样一个遗传学的大型望远镜,才有能力识别出人类历史上那些细微难辨的迁移踪迹,这里面有太多有趣的故事……

    那一天,韦尔斯和麦凯两人都没有顾上前往各自原定的约会,他俩的脑海里翻腾出来一堆几乎难以置信、但又令人着迷的新思路。随后的几个月里,在国家地理协会的主导下,各个有关方面草拟出一份令人激动的科学冒险计划。这项工作第一次用同样的技术手段,同步的时间框架,同等的伦理方法学,进行了一项正确的科学工程。

    过去,《国家地理》支持过很多项目,路易斯·李基(Louis Leakey)夫妇(理查德·李基的父母)的非洲古人类考古、简·古多尔(Jane Goodall,1934-)的黑猩猩研究、打捞沉没在大西洋海底的“泰坦尼克号”……都得到了《国家地理》的支持。

    这项基因图谱工程交织着多种学科及其成果元素。考古学、人类学、生物学、遗传学、气候学、地理学、天文学……各个行业都进入了这项工程,大家要合力采集计算分析人类群体和个体的五彩缤纷的多样性和多态性,解答人类最近6万——15万年旅程和其他疑问……人类走出非洲之后的旅程,是我们人类这一物种的史诗巨著,这部天书人力无法读懂,现有的电脑软件和硬件无法胜任。考古学数据、人类学数据、语言学数据等二类数据库的数据同样浩若烟海、错综复杂,相互之间又盘根错节……这是一场多学科的大合唱,需要一支拥有巨大计算能力的交响乐队……于是,拥有一个计算生物学团队的IBM也加入了这一工程。

    2005年,基因图谱工程经过大量细节的仔细论证和认真规划之后,宣布正式启动。这项工程计划(后来的发展远远超出了原定的计划)5年内采集10万人类DNA样本,预算4000万美元,亦即平均每个样本400美元。

    因为收集的人类DNA样本越多越好,于是,这个计划向尽可能多的人群开放,包括那些背景复杂、遗传形态极其难以识别的群体。任何愿意了解自己DNA的人都可以购买一套自我检测套件——基因图谱工程公众参与套件(Genographic Project Public Participation Kit),把受检者引人入胜的DNA故事加入工程设立在世界各地的11个收集检测中心,最后,所有数据通过互联网进入数据库汇总分析计算。

    2007年,DNA样本达到17万个,仅仅两年就突破原定计划。

    2012年,DNA样本超过52万个;2014年,DNA样本超过69万个。全球参与者每天都在增长。

    基因图谱工程只关心每一次DNA复制中出现了哪些差错,然后从这些差错的对比中,寻找我们人类最近十几万年的旅程。所以需要大量的样本,以便对比出更多的差异,从差异的对比中寻找历史。这似乎有些像中世纪的修道院,人们认认真真地抄写宗教文献,经过修道院长的审核,纠正大部分错误,然后把全部文件卷起来,放进文件柜保存。这项抄写工作同样非常虔诚和认真,但是难免出现抄写的错误,一旦留下几个抄写错误,这种错误也就世世代代流传下去了。

    在DNA的复制中,有一些酶专门负责纠正DNA复制中的错误,虽然这些酶像修道院长一样,纠正了大部分错误,但也难免留下几个错误,这些错误也世世代代流传下去了。这种错误叫作突变(mutations),发生的速率不高,大约10亿次复制中出现50个。这种突变成为进化过程中的基本建材:变异。世界上的人都是互不相同的,变异的多样性和多态性令人难以置信,但是我们仍然属于一个物种,只是在过去十几万年的某些时间点位,我们出现了各种突变。

    这些变异使人类学家长期误入歧途:根据肤色、头发和骨骼等变异,他们仔细地把人分成不同的物种或种族。直到1962年,人类学权威、美国体质人类学会会长库恩(Carleton Coon,1904-1981)在《种族起源》(The Origin ofRaces)中还把人类分为五大种族和很多亚类。他们的方法不过是远古希腊形态学(morphology)的延续。

    人类外观形态差异的真实原因是遗传变异。演化为不同的物种需要漫长的时间,我们走出非洲仅仅六万年,经历大约2 000代人,这么短的时间里不可能演化成不同的物种,我们都是远房的亲戚。如果我们把137亿年的宇宙历史视为一年的365天,人类历史只有几秒钟。所以,现代人在各地域的差异,属于地理种的概念。

    单倍群编码

    法国大革命前夕,经济历史学家大卫·兰德斯(David Landes)的研究证实,当时法国农民的状况与两千年前的罗马帝国时代差别不大,亦即与公元前59年恺撒征服高卢时代差别不大,耕作,缴税,生活艰难,卫生保健和医疗条件有限,身高和预期寿命等也与罗马帝国时代差别不大。法国农民活动范围也是区域性的。

    配偶出生地点的平均距离在几个世纪里的增长

    人口学家(Demographers)主要研究出生、婚姻和死亡等信息,根据法国教会的记录数据,18世纪的法国,配偶的出生地点之间的距离只有几千米,说明当时法国农民很少旅行。直到19-20世纪的产业革命之后才出现变化,所以产业革命又被称为机动力革命(mobility revolution)。

    法国大革命之前,一大半法国人不说法语,而是说各地的语言。也就是说,一大半法国臣民的语言与路易十六和他的朝廷在巴黎说的法语完全不同。缺乏机动力的时代,语言也是相对封闭的。几百年甚至几千年里,人们互不交流,经过若干代之后,地理惰性形成互不相同的语言。在这种长期停滞的社会里,人们的婚姻对象往往局限在自己村庄的几百个人里,也许就是自己的邻居……最后,不知不觉中,一个区域内的亲属关系越来越复杂,人们互相之间形成盘根错节的亲属网络关系,很多人拥有相同的遗传形态。

    欧洲的王室家族的近亲婚姻,最典型的例子是哈布斯堡王朝(House of Habsburg)。这个王朝是欧洲历史上最有权势的王朝,起源于奥地利、匈牙利,他们通过婚姻关系扩大政治联盟。哈布斯堡王朝的鼎盛时代几乎联姻到了欧洲的每一个王室,使得16-18世纪的欧洲王室之间的血缘关系极其接近,遗传学效果使他们几乎成为一个“小村庄”。这个王朝不仅一代又一代地遗传财富和权势,也遗传基因标记和各种生理缺陷。按照遗传学意义,这个王朝最后变为同系交配或同族交配(endogamous),越来越差的王室后代正是哈布斯堡王朝最后土崩瓦解的重要原因之一。

    性的遗传是为了优秀的后代。研究遗传的道理,一点也不复杂。性染色体Y上的变化很少,因为Y染色体始终是“孤独”的,不参与卵子与精子的重组:要么Y被丢弃,X与X结合成为一个女孩胚胎;要么Y与X结合,成为一个男孩胚胎。所以Y染色体成为我们追寻先祖的不可多得的机会。

    提取DNA很简单,因为DNA溶于盐水。首先把样本(细胞)加入盐水,用离心机把其他蛋白质和细胞膜等分离出来,脱水干燥之后的DNA是晶体结构。然后加入100%的酒精,再用离心机分离,重复多次以后,试管底部只剩下DNA。

    第二步则比较难办。基因组约30亿个核苷酸,应该阅读哪一部分?基因组的测序需要大型实验室和巨型电脑,我们只能对比分析其中很小一部分,即使在这个微小的部分,每个人99.9%以上的基因序列都是相同的,每一个人都和其他人的差别不到1/1000,只有科学家才知道在哪些地方寻找和对比差异。这些差异的发生概率也很低,也就是说,如果你和某一个人携带同一个基因标记,你肯定在过去的某一时间点与这个人拥有同一个祖先。

    遗传学家的办法是隔绝某一区位,再放大这个区位(多次复制),然后观察这个区位的某几个点的变异。这个过程叫作聚合酶链式反应(polymerase chain reaction, PCR)。这个过程,就像我们复印了很多份文件,但是却只专门观察其中的一句话,观察这句话里的每一个单词的变化:是否A变成T,或C变成G?

    如果一批样本中有十几个或更多的变化被同时确认,这些样本就属于一个特定的单倍群(haplogroup)。每一个人都可以归纳进某一个单倍群。单倍群是十几个或更多的变异同时遗传的。斯坦福大学团队发现的定义单倍群的标记突变通常用M(Marker)表示,例如,M9或M60表示第9个和第60个发现的突变。又如,M130就是在Y染色体的位置上,发现一个C变成了一个T。正是这些基因标记,使得我们知道了这个单倍群(氏族)与另一个单倍群(氏族)之间的关系。

    基因图谱工程的科学目标,正是解读全球人类的多样性形态。其他团队也各有字母标号,如复旦团队的F。

    基因图谱工程并不指望找到每一个人的先祖谱系,而是查清每一个群体的起源。最理想的样本来自世界各地的原住民,若干世纪迁移很少的原始居民的样本。这种方法类似遗传人类学(Genetic anthropology),但是考察对象是群体。从某种意义上说,基因图谱工程类似对图腾的研究,或者对印第安部落羽毛头饰的研究。这种数据库,只能使每一个人找到自己原来属于哪一个群体——时空穿梭是不可能的。换句话说,基因图谱工程要找到地球上所有现存的人类主要遗传血统。历史上的每一个谜团,随着工程的进展必定水落石出。

    那么,这些单倍群是怎么编制出来的?
    现在基因研究早已跨越人工观测对比X射线照片,而是全部利用电脑检测出来。
    简单地说,人们利用DNA的聚合酶(polymerase),复制一大批不完整的DNA片段,再用不同的颜色在自动的测序仪器上显示出来。我们以对TCCATGGACCA的测序为例(如右图):我们使用双脱氧核苷酸(dideoxynucleotides)来复制这个DNA片段的4个碱基。每个碱基(核苷酸)用一种颜色标注:A=绿色,C=蓝色,G=黑色,T=红色。

    当基因标记连续几代出现的时候,这些基因标记就产生了一个新的血统,并由后代继续传承下去
    DNA的二代测序过程

    DNA聚合酶把这个DNA片段作为模板来合成一个新的DNA的链。在合成这个新的DNA的链时,每添加一个核苷酸,反应停止一次,然后再添加下一个核苷酸(碱基)。在整个反应都停止时,我们得到的混合物中就产生了很多原先存在于那一个原始DNA模板(即被测序的DNA片段)中的不完整的复制片段。然后,我们通过电泳法,把这些复制的片段按照长度分类。每一类不同DNA的链条都有同样数量的双脱氧核苷酸(碱基),每一类片段的颜色都不一样。最后,我们用仪器和电脑检测、记录这些片段的颜色。按照长度不同,显示的颜色的顺序就是原始的模板DNA(即被测序的DNA片段)的顺序。

    这个办法是几个诺贝尔奖获得者发明和逐步改进的,这里只是介绍简单的原理。正是采用这种办法,我们可以测试出每一个人的DNA的序列。

    根据各个群体的DNA序列中的突变(编成不同代码的基因标记,例如M168、M130、M175等)的分析和对比,我们把人类分门别类,划分归纳成不同单倍体。

    于是,下面的单倍体编码出来了:最上面是基因标记编码,下面用不同的颜色,区分不同的单倍群。当然,这是地球上70亿人口的单倍群。按照同样的方法继续细分,还有更多的突变(基因标记)和更详细的单倍群,70亿人每一个都是独一无二的。

    现在看看这个谱系图:距离“亚当”最近的后裔是三个人:M91、M60和M168。他们的祖先正是理论上的“Y染色体亚当”。他们三个人是所有现存的70亿人的祖先。其中M91、M60两个人的后裔始终全部留在非洲,即单倍群A和B。只有M168一个人的后裔走出非洲成为世界上所有“非非洲人”的祖先。包括大洋洲、欧洲、亚洲、北美洲、南美洲。当然,M168也有后裔留在非洲。

    M168又被称为“欧亚大陆亚当”(Eurasian Adam)或“走出非洲亚当”(Out of Africe Adam),这个男人的Y染色体突变发生的时间为6万——7.9万年前,地点在东非的埃塞俄比亚——苏丹一带。我们不知道M168是什么人,有些学者认为他“可能是一夫多妻制度下的一位酋长”。走出非洲的男性并非只有M168的后裔,但是M168是迄今为止唯一没有断绝的男性Y染色体血统。

    基因图谱工程采用的单倍群编码。图片来源:美国国家地理协会

    M 168重要的后裔也有3个人,即M130、YAP和M89。约6万年前,第一批走出非洲的人类是M168的后裔M130。一部分M130沿着海岸线一直走到澳大利亚,还有一些M130留在印度次大陆——东南亚地区,他们继续北上进入亚洲的东部,即青藏高原——中国内地——蒙古——韩国——日本等地,还有一些人进入了北美洲。

    约6万年前(范围5.9 1万——6.83万年前),YAP出现了。YAP的后代现在分布在非洲——中东——亚洲各地,在非洲之外的部分数量不大,范围很广。在历史上的某个时期,不知道什么原因,这些血统在亚洲的西部、中部、南部地区灭绝了。

    约4.8万年前(范围3.87万——5.57万年前),M168的最大的一个后裔血统M89出现在非洲,现在世界上大约90%的“非非洲人”都是这位M89的后裔。M9是M89的后裔,他的后裔M175(O单倍群,上图)在东南亚——亚洲东部的比例为80%——90%。也就是说,大部分东南亚国家、中国、韩国、日本的人类都是M175的后裔。

    O单倍群分布:冰河期巅峰时期,印尼诸岛——东南亚——东亚——日本列岛连为一体,只有澳大利亚是分离的
    克罗马农人进入欧洲的路线也很清晰:M168-M89-M9-M45-M207-M173-M343

    下面,我们简单介绍其中的几个单倍群。
    U,起源于亚洲。U的进化分支已发现8个:U1-U8。其中U8的后裔发展最为普遍,被称为K。例如,在占犹太人口的80%的阿什肯纳兹犹太人(Ashkenazi Jews)中,大约32%属于K单倍群下面的3个进化分支。(Ashkenazi来自《圣经》“创世记”第10章第3节中的人名,起源于中东,在11世纪约占世界犹太人的总人口的3%,1931年占世界犹太人口的92%,现在约占世界犹太人口的80%)
    现在仍然不清楚,为什么有的单倍体的频率非常高,有的很低。根据蛋白类型和所在位置,这些单倍群的后裔,可以继续分为更多的类型。

    这是一个令人震惊的结果。U单倍群的多样性累积时间超过五万年,难道U、H、T和V四个氏族比第一批农民J氏族更早来到欧洲吗?
    J氏族是大约8 000年前来到欧洲的,绝大部分欧洲女性的线粒体DNA属于H和T两个单倍群及其进化分支的后裔,她们是自愿放弃狩猎采集的生活方式,接受农业的吗?
    根据男性Y染色体的分析计算,证实确实如此。大部分欧洲人的先祖在5万——3万年前进入欧洲,他们在严酷的冰河时期,不得不退缩到欧洲的南部。

    线粒体DNA和Y染色体的分析结果非常接近。80%的欧洲血统,从非洲——中东——亚洲的干草原进入欧洲地区,他们原来是狩猎采集群体,已经驯化了马。但是,在最后一次冰河期的巅峰时期,1.6万年前,北欧成为冰原地带,英伦三岛也和欧洲大陆连成一体。严酷的气候使此时的欧洲人不得不退缩到南部的“避难地”(Refugia,残遗物种躲避生态变化的区域)。这三个地区是欧洲多样性最丰富的地区,它们是伊比利亚半岛、意大利、巴尔干。这里植物和动物的DNA多样性分布形态,也从另一方面证实了这三个避难区域的存在。

    冰河时期的史前人类生活在温暖的欧洲南部的避难地(Refugia),并留下大量洞穴艺术,这三个避难地成为欧洲再次殖民的新舞台

    其他的人属生物,则在冰河期的欧洲灭绝了。它们最后的日子非常艰难,在已经发现的尼安德特人的骨头上,几乎都发现了被石器砍削的痕迹——它们互相吃掉了对方,至少可能吃掉了同类的尸体。

    但现代人却有了完全不同的生活。现代人类的特点是强大的免疫系统、宗教和艺术。世界所有的群体都自发产生了宗教,宗教使人类结成大的群体互相帮助,群体人数远远超过其他灭绝的类人生物。即使在严酷的冰河时代,人类在欧洲也留下了几百个绘制了大量绘画的洞穴,在非洲、澳大利亚、南北美洲也发现了各种岩石壁画艺术,达尔文的“有艺术的地方,就有人类”成为一个考古的规律。

    狩猎采集时代的世界总人口,估计仅仅只有几百万人,但是已经散布在全球每一个角落。也就是说,假设新石器革命时的世界人口是300万人,世界陆地面积约1.49亿平方千米,计算的结果就是当时人均土地50平方千米。

    当时的地中海沿岸地区的人口,超过了世界其他地区人口的总和。冰河时代的寒冷从未抵达地中海,尤其是地中海南部的中东、北非。

    冰河期结束后,人类从欧洲南部的避难地再次向整个欧洲殖民,他们不仅狩猎,还采集更多的草类种子作为食物,其中最著名的是源自卡拉卡山区(Karaca Mountains)的一种草,名字叫作小麦。

    虽然我们仍然不清楚细节,但是,原先的欧洲狩猎采集群体与中东的农业群体完全混血和融合了,前者的频率约占80%,后者的频率约占20%,农业成为一种文化现象出现在欧洲。

    气候决定人类的兴衰。基因生物技术的这一发现,推动人类开始高度重视全球气候变暖这一世界性问题。

    印度海岸的秘密

    基因图谱工程印度中心主任拉马萨米·皮特查潘(Ramasamy Pitchappan)教授的一个朋友韦鲁曼迪(Virumandi),住在印度南部的一个小村庄里。这里属于印度最南端一个邦——泰米尔纳德邦(Tamil Nadu)的32个行政区之一的皮拉马来区(Piramalai region),这个村庄距离行政区的首府马杜莱(Madurai)不远。

    皮特查潘曾经来到这里采集样本。韦鲁曼迪的村庄属于名叫卡拉尔(Kallar)的群体,这是印度南部的非常典型的遗传形态。人类在中亚开发出新的工具,穿上暖和的衣服,然后前往欧洲、亚洲其他地区和美洲,并且来到印度的南部。卡拉尔群体就来自中亚,已经在印度南部生活了几千年。

    在基因研究出现之前,我们所知道的先祖的大部分故事,都是从史前遗物推断出来的,例如各种石器和陶罐,我们还可以从这些人造的器物分析制造者的心理。人类的软组织最多保存几千年,所以,遗骸和人造器物成为仅剩的证据。

    我们的先祖还留下一种物证——在岩石上刻画的图画。人属生物可以制造石器工具,但艺术的唯一创造者却是现代人类。

    达尔文在澳大利亚的金伯利(Kimberley)第一次发现了岩石绘画。这些艺术无疑是人类的创造,只是不知道时间。后来澳大利亚从北到南都发现了岩石绘画。进入现代之后,研究者对达尔文在金伯利发现的岩石绘画进行了碳14测定,时间显示为1.7万年。后来,在澳大利亚发现了4.5万——5万年前的人类遗骸。

    现在的澳大利亚土著到底是直立人进化来的,还是从非洲出来的智人?这些疑问曾经争论多年。

    考古发现无法解释澳大利亚土著的来源,只有韦鲁曼迪和他的卡拉尔群体携带的DNA可以解开这个谜团。在印度南部采集的基因样本显示出卡拉尔群体与澳大利亚土著之间非常清晰的遗传关系:澳大利亚土著不是直立人的后裔,属于现代人类。

    韦鲁曼迪的村庄在印度最南端

    第一个DNA证据,正是来自这位大学里的图书管理员韦鲁曼迪。他的一个基因标记名叫RPS4Y,这个缩写名称的全称是Ribsomal Protein S4 on the Y chromosome(Y染色体上的核糖体蛋白质S4)。这个RPS4Y,现在简称M130:Y染色体上发现的第130个基因标记。在印度南部的人群中,M130的频率仅约为5%,包括卡拉尔群体(Kallar)。但是在澳大利亚土著中,M130却成为主导标记,超过50%。在东南亚约为20%。在印度的北部地区也发现了M130。

    第一批人类在离开非洲之后,沿着印度南部的海岸南下,可能仅仅花费了几千年的时间就来到东南亚——澳大利亚。

    韦鲁曼迪所属的这个皮拉马来的卡拉尔群体(Piramalai Kallar)的历史极为古老,携带着非常重要的遗传线索,他们和澳大利亚土著都是C单倍群的后裔。这个M130继续迁移,在中亚——蒙古地区形成一个后裔单倍群C3,C3单倍群继续前进,最后来到了北美洲。也就是说,走出非洲的第一批现代人类,一部分人来到澳大利亚和印度,另外一部分继续向内陆地区迁移,从东南亚逐步走向亚洲东部——蒙古地区——北美洲。

    5万年前,澳大利亚土著是用双脚从非洲走到澳大利亚的,女性的线粒体DNA也显示出与M130(C单倍群)相似的迁移路线。也就是说,我们的男性先祖和女性先祖,都走到了澳大利亚,还有一些群体继续向前走,最后他们用船只渡过白令海峡,定居在北美洲。

    在这一条迁徙路线上,这一批M130走了整整4万年。

    但是,现在欧亚大陆(包括印度)的主导血统不是M130,而是后来来自中亚的M89的后裔。M89的后裔占非非洲人的Y染色体和线粒体DNA的一大半以上,M89的后裔走出非洲的时间比沿着海岸线迁移的第一批移民M130的时间稍晚,大约在4.5万年前。

    美国神经生物学家,多产的威廉姆·加尔文(William Calvin,1939-)出版了十几本著作,他的研究认为,撒哈拉地区的气候变化和沙漠的扩大的综合效应就像一个巨大的泵,非洲和中东地区的人类和动物都被一批一批地抽走了。

    M130的迁移路线,其中一部分人一直走到了中南美洲
    纳—德内语系分布图。中亚——蒙古地区形成的C3血统在北美的纳—德内语系(Na-Dene languages)的人群中频率非常高。纳—德内语系是北美第二大语系。8 000年前,纳—德内语系的C3血统来到北美,当时白令海峡的陆桥再次消失了,所以他们肯定是乘船来到北美的
    约8 000年前的撒哈拉,沙漠缩减到两块。当时的撒哈拉并非全部是沙漠,气候比较湿润。这一地区的气候波动起伏很大

    这就是一波又一波的人类和动物迁移不断重演的原因。在这个“撒哈拉泵吸效应”(Sahara pump theory)发生作用时,北半球大部分男性的先祖——M89出现了。陪伴这位M89的女性线粒体DNA是氏族N,他们在大约6万年前离开了非洲。这是人类第一次大规模移民进入中东。

    约12万年前,现代人首次进入中东,但是,约8万年前却全部消失了:他们没有走出非洲。

    约6万年前,人类第一次大规模移民中东,M130的一批后裔很快来到澳大利亚。

    约5万年前,人类第二次大规模移民中东,M89的后裔在广袤的欧亚干草原上迅速散播开来。基因形态显示,携带M89-M9-M45的男性和携带线粒体DNA单倍群N的女性,可能仅仅用了大约一万年时间,就布满了北极圈以南的欧亚大陆——印度次大陆——亚洲东部等地。

    第二批以M89和线粒体N定义的欧亚氏族(又称内陆氏族)占领的区域,很快超过以M130和线粒体M定义的沿海岸线走出非洲的氏族占领的区域,现在几乎绝大部分印度人都是来自中亚大陆M89的后裔,只有少数是M130的后裔。

    M130的先祖是M168,一个6万——7.9万年前出生在非洲东北部的男人,他是走到印度——澳大利亚的第一批M130移民的先祖。在M130走出非洲几千年后,M168的孙子的孙子的孙子的孙子……建立了M89血统,再次离开非洲来到中东,向世界扩散。

    女性方面全部起源于6万年前的L3a血统,这个血统大体上伴随着M168的后裔。L3a血统先后又诞生了M和N两大分支,M伴随着约6万年前的M130,N伴随着约5万年前M9-M45-M89(注:这里的时间都是大概的时间)。

    非洲人与非非洲人的Y染色体和线粒体DNA谱系

    欧亚大陆的“亚当”和“夏娃”是Ml68和L3a。所以,他们又被称为“欧亚亚当”(EurasianAdam)和“欧亚夏娃”(Eurasian Eve):欧洲——亚洲——澳大利亚——美洲大陆的每一个人,都可以从一代又一代先祖,找到父系Ml68和母系L3a。他们的后裔占全世界人口的85%以上,这些人都被称为“非非洲人”。上图的谱系树中,Ml68和L3a是非洲以外仅有的血统,其他的人类血统都在非洲大陆以内。现在,我们看看 “人类摇篮”非洲的遗传形态。

    人类的摇篮——东非大裂谷

    东非大裂谷(Great Rift Valley)位于非洲东部,形成于800万——1 000万年前。宽度30-100千米,总长度超过6 000千米,超过100米落差的悬崖随处可见。

    这里是人类的摇篮,出土了各种类人猿化石:埃塞俄比亚出土的320万年前的南方古猿露西(Lucy)被列入世界文化遗产,世界最早的现代人类化石全部出土于埃塞俄比亚——肯尼亚地区,坦桑尼亚现在有120个民族,说着120种完全不同的语言……苏丹——埃塞俄比亚——肯尼亚——坦桑尼亚地区的人类多样性是世界上最丰富的地区。

    东非大裂谷的位置

    桑人(San)和哈扎人(Hadza)是最接近人类共同先祖的群体。桑人(A单倍群),目前有大约9万人;哈扎人(B单倍群),目前仅剩约1 000人。
    哈扎人至今仍然是一个纯粹的狩猎采集群体。坦桑尼亚政府为了让哈扎人融入现代社会,设计实施了多种计划。很多哈扎人在孩童时代就被送进附近的小学接受教育,政府还不允许他们说哈扎语。但是,所有帮助他们转变为定居生活的努力都失败了。
    哈扎人喜欢沿袭5万年前共同祖先留下的生活方式。他们捕杀猎物、采集植物种子、搜集天然水源,对现代的城市生活熟视无睹。仅仅在大约1万年前,全世界的人类还在使用这种生活方式。但是现在,世界上纯粹的狩猎采集群体在非洲、亚洲、澳大利亚和美洲都已经不多了,总人数大约只剩几万人。如果各国政府加强限制,这个数字还会减少。但是,哈扎人的狩猎采集生活方式至今依然非常成功和适合当地环境。
    哈扎人的语言非常独特,也相当复杂:包括100多个不同的辅音,远远超过简单的英语,与哈扎人沟通相当困难。(恩戈罗恩戈罗火山口(Ngorongoro Crater)位于坦桑尼亚的恩戈罗恩戈罗保护区(Ngorongoro Conservation Area),是哈扎人生活的地区,这一带处于东非大裂谷地带,是现代人类的起源地之一)

    语言是人类的一个特点。虽然有的鸟类和鲸也能发出声音,但只有人类发展出了复杂的发音表达思想,人类的面部、嘴部和喉部的100多块肌肉参与了语言的表达。经过长期训练的黑猩猩也可以含糊地表达两个单词,如“吃香蕉”“走出去”。但是,黑猩猩完全无法组成一个有语法结构的句子。
    语言是人类和其他物种之间的一个巨大的断层。完全现代的、句法和语法结构完备的语言是现代人类进化的最后一个阶段,早期直立人类的简单的语言与莎士比亚的优美的语言完全不是一回事。

    1992年,贾德·戴蒙(Jared Diamond,1937-)在他的《第三个黑猩猩》(The ThirdChimpanzee)一书中表达了这样的观点:最后一次冰河期的艰苦环境,迫使我们的祖先在五万年前开发出更好的技术和生活方式,以应对热带环境下日益减少的食物资源。

    根据遗传数据估算,这段时期,我们的先祖人数缩减到大约2 000人。当时的人类濒临灭绝。这一时期找到的考古证据也非常少。我们人类的进化,从长期的四处游猎转而进入一个前所未有的文化过渡阶段——语言出现了。

    历史上的一系列复杂事件的解释,有时其实非常简单。

    语言,这一全新能力的诞生,给人类带来无数巨大的优势——5万年前,无论是在森林里采摘多汁的水果,还是在草原上捕杀美味的猎物,人类都可以利用语言更好地达成目的。

    人类语言的多样性令人难以置信。即使是发展到今天各种语言消失了一大半后,剩余的语言依然超过6 000种。

    出现语言之后,人类摆脱了可怕的困境,从人口的缩减走向繁育兴旺和开始扩张,从故乡的非洲走向全球的所有大洲……直至成为地球的主人。所有这一切都是语言出现突然变化之后很短时间里发生的故事,我们都是这个充满勃勃生机的小群体的后裔。

    朱利叶斯(Julius)是一个哈扎人部落的头人,居住在东非大裂谷的旁边。哈扎人是世界上最稀有的族群之一,朱利叶斯的部落只有20多人。

    桑人生活的地区——面积250万平方千米的干旱和半干旱卡拉哈里沙漠地区(Kalahari Desert),其中35万平方千米已经成为沙漠
    哈扎人生活的东非大裂谷,恩戈罗恩戈罗火山口附近地区

    朱利叶斯的部落的生活方式既不是遵守什么人的遗嘱,也不是愿意倒退。这种生活方式在当地的环境下,似乎确实无须改变。哈扎人的生活方式好像是窥探人类先祖的令人惊叹的一扇窗户。

    朱利叶斯的基因样本,证实朱利叶斯的祖先居住在非洲很长时间了。事实上,他们的先祖早在现代人类诞生以前就居住在非洲。

    朱利叶斯的Y染色体基因标记叫作M60,也就是说,朱利叶斯属于单倍群B——Y染色体谱系树上最深邃的树枝之一,起源于六万年以前,当时冰河期的严寒尚未到来。

    2005年4月,朱利叶斯受邀参加了基因图谱工程的启动仪式。朱利叶斯非常乐意与大家分享他的故事。朱利叶斯在纽约处处受到热烈欢迎,美国人仅仅是科学家,朱利叶斯才是真正的遗传VIP。

    但是,朱利叶斯所属的哈扎人的单倍群B,还不是最古老的。
    起源于埃塞俄比亚——苏丹地区的单倍群A,才是非洲最古老的血统。属于这个最古老的单倍群A的非洲群体,现在分布在非洲的南部,这些群体原先称为布须曼人(Bushmen),现在称为桑人(San)。
    桑人的居住区,距离哈扎人所在的东非大裂谷很远。桑人分布在非洲南部的卡拉哈里沙漠(Kalahari Desert)地区。但是,非常有趣的是,卡拉哈里沙漠地区的桑人的语言与东非大裂谷地区的哈扎人的语言非常类似,都有嗒嘴音(click language)。这两种语言被称为“语言化石”。
    桑人和哈扎人的多样性是全世界最高的。

    斯坦福大学的Alec Knight和Joanna Mountain领导了对哈扎人与桑人的基因研究,研究的结果出乎预料。通过对Y染色体分布形态的分析计算发现,这两个血统都非常古老,但是又不相同,这两个群体都是人类最古老的血统氏族的后裔。

    许多历史的谜团,都在一个一个揭开。

    互相综合作用的自然选择、遗传漂变、性选择等理论使得真相越来越清楚。从亚历山大大帝的远征,到成吉思汗子孙的统治,更多的细节都在一一呈现。

    我们的先祖不仅非常聪明,而且非常勇敢,他们猎杀狮子,他们攻击猛犸,他们跨过河流和海洋……在5万——6万年前,第一批先祖渡海来到澳大利亚……在大约1.5万年前,他们开始多次进入北美洲……在大约4 000年前,他们占领了太平洋上的几乎每一个岛屿……

    留在非洲的人类,则积累了最多的生物多样性和多态性。

    非洲多样性太丰富了,最矮的人类群体在非洲,最高的人类群体也在非洲。非洲不同部落氏族间外观差异也很大,因为他们是6万年以上长期进化的幸存者,当然互不相同。

    达尔文家族起源于非洲

    达尔文16岁进入爱丁堡大学,两年后开始手术课程学习。他的自传中,描述了观看一个男孩做手术时自己忍受的痛苦。在没有麻药的时代,可以想象手术时悲惨的情景和患者的凄惨呼叫。看完这场手术以后,达尔文的胃变得越来越糟糕。
    在登上“小猎犬”号远航之后,他的健康开始崩溃。航海开始后他总是晕船,经常躺在船上,除了葡萄干,他什么也吃不下去,他曾为此写信向他的医生父亲求救。1836年回到英国之后,他常常昏晕、心动过速、手指麻木、失眠、偏头痛、头昏眼花、罹患湿疹,眼前感到蒙蒙胧胧和出现黑云,他的耳朵也经常出现耳鸣。最糟糕的症状是呕吐,早餐、午餐、晚餐之后都会呕吐。最严重的时候,他一天呕吐20多次,连续呕吐 27天。精神方面的疗法只能加重他的胃病,即使作为一个最多产的伟大生物学家,达尔文也对这些症状束手无策。他感叹说:“即使我想吃牛排,我也做不到。”

    世界最矮的群体俾格米人(Pygmy )的分布图。这个称呼泛指身高约1.5米的群体,他们适合热带森林里的捕猎生活。俾格米人也存在于亚洲热带地区

    (世界最高的群体马赛人(Maasai),分布在肯尼亚南部到坦桑尼亚北部。平均身高1.9-2米,3.0-8.0的超常视力超出仪器测量范围)

    这些病症伴随着达尔文的一生。为了健康,达尔文搬到距离伦敦16英里(约25.75千米)的Down House。这样可以避免更多的来访者打扰。他经常给朋友们写信抱怨自己的健康:“我的病非常奇怪,没有任何精神上的兴奋,几乎无法与人交谈,所以感觉不到快乐。”与世隔绝并未治愈达尔文,只要写字超过20分钟,他就会觉得身上的什么地方出现刺痛,后来疼痛形式越来越多。

    这种病症也成为他的优势。他从未出去授课或演说,由好斗的赫胥黎与教会和其他对手进行辩论。他在家里专心致志地继续他的研究,仔细观察演化的证据,找出了别人没有注意的很多细节。他数过鸽子尾部羽毛的数量,观察过鸽子眼睛颜色的细微差异。无数的演化中间形式被达尔文发现了,自然选择的思想形成了。

    达尔文吃过很多药,包括鸦片,都无法缓解他的症状。后来他接受了水疗。经过4个月的水疗,他觉得精神焕发,可以一天步行10千米以上,长期困扰他的失眠也消失了。

    达尔文曾经在《人的由来》一书中写道:“……还有一种更大的可能性:我们早期的祖先生活在非洲大陆的某一个地方……”

    那么,能否检测达尔文本人的基因,验证他的推测呢?至今为止,英国政府始终不同意对达尔文的遗体进行DNA检测。

    2010年2月5日,《新西兰先驱》(The New Zealand Herald)刊登了一篇题为《达尔文家族DNA的非洲起源》(Darwin family DNA shows African origin)的报道。1986年,达尔文的直系后裔克里斯·达尔文(Chris Darwin)移居澳大利亚,居住在悉尼西边的Blue Mountains。2010年,克里斯·达尔文接受人类基因图谱工程的DNA分析,证实达尔文的家族约四万年前走出非洲,路线为中东——中亚——欧洲,最后一次冰河时代辗转进入西班牙,然后北上迁移到英国。

    48岁的克里斯·达尔文对人类基因图谱工程非常着迷,他说:“我的生物课考试不及格,所以我可能没有继承查尔斯(达尔文)的科研能力,但是我希望继承了他的好奇心,他总是希望翻过山去,看看山的那边是什么?” 克里斯·达尔文非常高兴他的先祖达尔文的理论再次得到验证。他说:“我们都属于一个大家族,我们应该团结友爱地在一起。”

    撒哈拉掩埋的艺术瑰宝

    正像所有的博物馆的“古人”形象都曾经误导了我们对先祖形象的认识一样,博物馆里的胡图族非洲人的简陋艺术品,也误导了我们对先祖的艺术水平和高超技艺的认识。事实上,我们的非洲祖先在非洲留下了大量的石刻和岩画艺术,精美程度超过澳大利亚、南北美洲和欧洲的洞穴壁画和石刻。
    在基因技术证实人类六万年前走出非洲之后,欧美各国掀起了“寻根”的热潮,建立了很多基金探索非洲。人们甚至在渺无人烟的巨大的撒哈拉沙漠里也发现了史前人类留下的大量“沙漠里的艺术”——埃及艺术、希腊艺术和人类艺术的起源找到了。
    迄今为止,仅仅在撒哈拉沙漠地区,人们就已经发现了3万多处史前非洲艺术作品。

    非洲各地的史前艺术分布淡黄是石刻艺术,深棕是壁画艺术。这个分布图证明非洲先祖的艺术水平

    让我们一起来看看这幅令人难以置信的《塔萨利女郎》(Tassili ladies)。这幅壁画位于联合国世界文化遗产、Tassili n’Ajjer国家公园,描述了放牧女孩们骑牛前行的情景,华丽的服饰和优雅的神情令人叹为观止。其中美少女的形象,更是神态悠闲、气质高雅。对这幅作品,评论很多,有的评论惊叹说“这不是非洲,这俨然已是欧美上流社会的女郎正在前往巴黎歌剧院途中的情景”。
    但是,这里确实是非洲,这幅《塔萨利女郎》确实是几万年前的先祖留存在沙漠里的无数壁画之一。毫无疑问,在撒哈拉沙漠下,还埋藏着更多的远古时代的艺术瑰宝。
    这些艺术品的作者,迫使我们重新审视人类的艺术史。

    《塔萨利女郎》(Tassili ladies

    人类最早的两个文明,出现在两河流域和埃及。现在,这些文明现象的形成原因,也越来越清晰了。
    在遥远的古代,从埃及现在的荒漠,直到广阔的非洲北部,都曾经是湿润的肥沃土地。生活在撒哈拉到埃及的人们狩猎、捕鱼,和其他旧石器时代的人类没什么区别。巨大的撒哈拉沙漠当时是湖泊成群、植物茂盛的人间乐土。
    地球的气候变化,使得一切都改变了。从大约两万年前开始,非洲北部慢慢变得干燥,撒哈拉大沙漠开始形成。原始人类的天堂,一块又一块地逐渐褪去绿色。各种各样的部落从四面八方涌向尼罗河谷,只有这里的绿色还依然存在——古埃及文明开始了。
    直到罗马帝国时代,埃及依然是人类的粮仓。农业出现时,全世界人口的一半生活在地中海周围。这就是历史,也是撒哈拉沙漠中的艺术作品的来源。两河文明,主要体现在出土的大量泥板刻写的楔形文字。埃及文明的建筑和雕刻令人难以置信,从巨大的金字塔到宏伟的神庙、精美的浮雕……现在似乎都在撒哈拉——东非大裂谷一带的大量艺术遗迹找到了合理的解释。我们的先祖是被干旱挤压到埃及尼罗河两岸,更多人不得不走出非洲……

  • 朱利平:大数据面前,统计学的价值在哪里[节]

    01 统计学对大数据的意义

    在讲大数据之前,我们首先来看看什么是数据。……凡是可以被数据化的信息载体,我们都可以认为是数据。
    比如说,我们接触的文本,包括平时看到的一些文字,现在我们都可以把它量化。我们看到的图片、视频和音频,现在也都可以量化。包括阿拉伯数字、文本、图片、视频和音频,我们都称之为数据。
    现在我们理解的数据,从来源上来说更加广泛了,从类型上说变得很复杂了。这些不同来源、类型复杂的数据组合在一起,达到一定的体量之后,就可以认为是一个大数据了。

    ……统计学是什么呢?……大不列颠百科全书对统计学有个定义,说这是一门收集数据、分析数据的科学和艺术。定义中提到统计学是一门科学,这个容易理解。那为什么说统计学是一门艺术呢?这个问题,就和我今天主要回答的一个问题很有关系。顺便说一句,现在美国很多高校的统计系,它并不设在理学院下面,而是设在艺术学院下面。

    下面,我主要回答一个问题:在大数据时代,我们究竟是否需要基于抽样的统计学?
    有些人认为,现在计算机科学非常发达,可以收集海量的数据。为了特定的研究目的,我们现在甚至有能力通过计算机技术收集与特定的研究目的相关的全部数据。今天,基于抽样的统计学就没有那么重要了,甚至都不在被需要了。事实真的是这样吗?

    02 统计学是一门收集数据的艺术

    既然统计学被认为是一门收集数据、分析数据的科学和艺术。我们暂时不谈科学,先来看看统计学为什么被认为是一门收集数据的艺术。

    我们来看第一个案例。这个案例是希望调查15个国家的国民的诚实情况。调查人员想要知道,哪些国家的国民最倾向于撒谎,哪些国家的国民很诚实。
    如果直接去问被调查的人员:“您是否撒过谎?”十之八九,是问不到真实答案的。如果被调查人员以前撒过谎,也不在乎多撒这个谎了。被调查人员可能出于不同的动机,不愿意给出真实答案。
    那么,调查数据怎么得来呢?这显然不是简单地通过计算机技术、通过某些爬虫软件就容易收集到适合研究目的相关数据的。
    如何利用统计学方法来收集数据呢?这就需要统计学的智慧了。调查人员设计了两组实验。
    调查人员先从每一个国家找1000人参与测试,15个国家一共找了15000人,找这么多不同国家的人来面对面调查,这是非常困难的,所以调查人员通过互联网找到了这15个国家共计15000人。两组实验都是在互联网上进行的。
    在第一组中,他们先做了一个测试,请受调查者在家里抛硬币,硬币有正反两面,调查者事先规定,受调查者抛硬币之后要告诉我结果,如果硬币正面朝上,我就奖励你十块钱,如果反面朝上,我就不给你奖励。这个调查不需要提供你抛硬币的证据,只是由你告诉调查者,抛硬币的结果。这也就是说,受调查者有没有撒谎,只有他自己知道。这个最后的结果,实际上调查者是有参照的。因为,每个国家有1000人参与测试。正常情况下,1000次抛硬币的结果,应该是500次左右正面朝上。某个国家参与实验的1000个人之中,如果有900个人声称自己抛出来的硬币正面朝上,甚至1000人声称抛出来硬币正面朝上。那么,很大概率就是其中有人撒谎了。这是第一组实验。
    第一组的实验有价值,但是它也不一定能够全面反映真实的情况,所以调查人员还有第二组实验。
    第二组实验,是要求受调查者回答五个问题。这五个问题在回答之前,需要受调查者承诺,他不能为了答题去查阅任何资料,不能去寻求任何帮助,也就是说,看了这五个问题之后,受调查者需要立即给出答案。
    调查者承诺,如果五个问题中,回答对了四个以上,就奖励给受访者十块钱,如果答对三个或者三个以下,就没有奖励。
    而这五个问题中,其中有三个问题特别简单,类似于像1+1等于几这种问题。另外两个问题则非常生僻。如果受调查者不去查阅资料或咨询他人的话,基本是不太可能回答出来的。
    因此,如果有受调查者答对了这两道难题,十有八九就说明他违反了自己事先承诺的“不去查阅资料寻求帮助”,由此可以推论他在这件事情上不诚实。
    然后统计人员通过这两组实验结果,互相验证。这两组数据收集的过程都非常恰当地体现了统计学在收集数据方面的智慧。
    所以说,即使在大数据时代,不是说有了计算机,有了爬虫技术,我们就能收集到适合研究目的的所有数据。统计学是一个收集数据的艺术,针对特定的研究目的,设计非常漂亮的数据收集方案,就是一个非常艺术的收集数据的过程了。

    我们再举一个例子。这是最近美国麻省理工刚刚完成的一个实验,大致在2018年左右完成的,实验结果也公布出来了,目的是想了解大家目前的婚姻观念,100人受到邀请来到一个封闭的场所参与这个实验。
    参加实验时,每人都会被贴上一个编号。男的编号是单数一三五七九,女的编号是双数二四六八十,以此类推。参与实验的这100人不知道自己的编号,也不知道究竟有多少人参加了这次实验。换句话说,他们不知道参加这次实验的正好是50个男人和50个女人,受访者仅仅知道,这次实验有很多人参加。
    在这里统计人员采取了一点小花招,就是当受访者进门的时候,把编号贴在受访者后背上,受访者知道自己有编号,但是不知道自己的编号是多少,不过他能够看到别人后背上的编号。实验规则说,允许100人中的任何两个人进行交谈,除了不能告诉对方他的后背编号是多少,其他话题都可以谈。
    然后实验者把这100人带到一个很小的一个房间里,宣布给大家5分钟时间,在这5分钟内,大家自行配对,每人只能配一名异性。5分钟结束之后,如果配对成功了,两个人背后的数字加起来乘以十,就是两人能够拿到的奖金。
    也就是说,如果编号是100的那个女性找到了那个编号为99的男性,那么两人就可以拿到(100+99)×10的奖金,也就是1990美元,这笔钱已经很可观了。但是如果你是一个编号为2的女性,而你找到的是那个编号为1的男性,那么你俩只能得到(1+2)×10也就是30美元,你俩用这奖金一起吃顿饭都不一定够。但是5分钟之后,如果还没有配对成功的话,你就连一美分都拿不到。
    因此,参加者必须在5分钟之内,在一个很小的拥挤空间内,尽快找到愿意跟自己配对的那个人。而且在这个过程中,要尽可能让自己的奖金数额变得很大。
    实验人员之所以把100人故意安排在非常拥挤的小房间内,就是考虑到,一方面要让大家能够很快速地看到一些人的编号,另一方面又能保证一个人不可能看到所有人的编号。在人挤人的情况下,有些编号是肯定看不到的。实验开始了。
    一些人很快就发现,自己连续跟别人配对三四次,大家都拒绝他。这很可能说明,自己后背的编号数字不够大,别人不感兴趣。
    于是这其中就有人采取了应对策略,他跟别人讲,如果你愿意跟我配对的话,那我愿意把奖金全部给你,反正我数字也不大,所以我的钱不要了。还有人说,只要你这次跟我配对成功了,我们出去以后,我再单独请你吃顿饭。
    另外还有一些人,虽然他不知道自己后背的编号,但是他发现有很多人过来找他,所以他很快就意识到,自己后背的编号很可能很大,但具体多大,他并不知道。而且要尽可能让两个人组合出来的数字变得很大。
    于是他很快就把眼前这批他能看到数字的人拒绝掉了,因为他理所当然地认为接下来肯定还有更大的编号,但是他并不知道最大的编号是多少,同时他还必须要在5分钟内快速决定跟谁配对。
    这个实验的结果是,编号99的男性并没有与编号100的女性配对成功。那位编号100的女性,找到的是编号八十几的一位男性。那些数字在中间的人,大体都配对了跟自己差不多的另一个人。

    这我们现在来看这个实验的结果,它基本上跟中国男女婚姻观念的现实比较类似。比如说,实验者因为自己编号小,就让渡自己的奖金给对方甚至于承诺事后请对方吃饭,以求得成功配对,这个跟现实中“我的个人条件差一些,但是我父母同意我们两个结婚之后送给我们一套房子”的承诺是类似的。
    而且我们在生活中也发现,一些最优秀的男性女性,他们身边不乏追求者,但是他们并没有找到自己的“最佳匹配对象”。
    这个数据的收集过程也是非常漂亮的。

    03 数据并不是越多越好

    统计本身是一门收集数据的科学,但是数据是不是越多越好呢?很难说。

    历史上有一个非常有名的例子。大约500年之前,丹麦有一个天文学家叫第谷,他从当时的丹麦国王那里要了一笔钱,建了一个实验室。第谷天天去观察每颗行星的运动轨迹,并且每天记录下来。于是第谷观察了20年,记录了大量的数据。不过,这个数据太多了,第谷花了大量时间、精力来分析这个数据,但没有发现任何规律。
    这时候,一个叫开普勒的人出现了。开普勒认为,第谷每天去观测,一年365天每一颗行星都会有365个数据,这样20年观测记录积累下来,要分析处理的数据就太多了,而且那个时候的数据分析只能依靠手工计算,这个处理工作量实在太大了。
    于是开普勒就说,能不能每年只给我一个数据,比如说你可以只告诉我每年的1月1日,地球在什么位置,土星在什么位置,太阳在什么位置等等。这样20年的观测数据筛选之后,每一颗行星的数据就只有20个了。开普勒知道,地球每隔365天会回到同一个位置,然后他把地球的位置固定,再分析其他行星跟地球的相对位置。
    开普勒通过固定地球的位置,对其他行星位置20年的数据进行分析,就成功得到了其他行星的运行轨迹。此后开普勒就发现,如果地球位置不变的话,那么其他行星的20年运行轨迹画出来之后,这些行星都是围着太阳运转,运行轨迹都是椭圆形的。由此开普勒发现了行星运动的规律。
    从这个天文学上的著名案例,我们可以看出来,数据太多可能会导致信息量变得巨大,反而增加寻找到规律的难度。从而需要通过科学的方法简化数据。

    关于这方面的案例还有不少。比如说美国总统富兰克林·罗斯福,他是美国历史上唯一一位连任四届的总统。1932年的时候他第一次当总统,当时美国和许多国家正在遭受经济危机,罗斯福面临的压力也很大。
    因此到了1936年罗斯福想竞选自己的第二任总统的时候,美国许多人预测罗斯福很难连任。那一次,罗斯福的主要竞选对手是兰登。当时就有两个机构在预测总统选举结果,其中一个是《文学文摘》杂志,它在当时是一个非常有影响力的刊物,因为这个杂志此前几次对总统选举结果的预测都成功了。
    到了1936年美国总统选举的时候,文学文摘搞了一个大的调查统计,它调查了240万人。具体方式就是在杂志里面夹上关于总统选举的调查问卷,然后收集反馈。其实当时文学文摘调查的还不止240万人,还要更多,只不过最后收回来的有效问卷是240万份。正是根据这个调查结果,文学文摘宣布他们预测兰登将战胜罗斯福赢得大选。
    而当时还有一个机构,准确地说是一个年轻人,叫盖洛普,他的预测结果跟文学文摘的预测正好相反。起初盖洛普做这类调查统计,是因为他的母亲要竞选众议员,他是给他母亲帮忙,于是就在经费不多的情况下做了对较小人群的相关调查,然后这个调查结果很成功,他母亲当上了众议员。
    接下来他就想调查一下,罗斯福和兰登谁会赢得1936年竞选。但是他比不了文学文摘的财大气粗,所以他只调查了5000个人,根据这5000人的调查结果,盖洛普预测罗斯福当选。
    结果罗斯福果然成功连任总统,盖洛普的预测胜利了。
    这个选举结果出来之后,对《文学文摘》杂志的声誉造成了巨大的冲击:毕竟文学文摘调查了240万人,最后却发布了一个错误的预测,而盖洛普只调查了5000人,发布的预测却是正确的。结果,文学文摘因为这个事情后来就关门倒闭了。而那个年轻人盖洛普,就此成立了一个民意调查公司,也就是现在的盖洛普咨询公司。
    这是事情的结果。那么为什么调查了5000人的预测,要比调查240万人的结果更准确呢?我们先不说240万这种海量数据,它在规模变大以后会带来计算效率的下降,我们也不提这类海量收集数据会导致成本居高不下的问题。
    根本的原因,是当时文学文摘通过杂志夹带问卷进行调查的这种方式。因为当初问卷是夹在杂志中发放的,所以文学文摘收集来的240万份有效问卷,实际面对的都是订阅了这份期刊的用户。
    那么,当时什么样的家庭会订阅这样的杂志呢?一般来说都是家境比较好的家庭,所以,文学文摘虽然号称调查了240万人之多,但是它调查的主要群体,是当时美国国内相对而言有钱的那部分人。而穷人群体的意见,它这个调查实际并没有覆盖到。
    数据的量多不一定就代表准确,收集来的数据质量好、有代表性,才有可能分析出准确的结果。

    04 统计学是一门分析数据的艺术

    前面举了一些例子,提醒我们需要非常小心地设计方案收集数据。数据收集上来之后,我们还要做数据分析。按照前面大不列颠百科全书的说法,统计学同样是一门分析数据的艺术。

    讲到数据分析,在这里我只讲两个基本概念:相关与因果。为什么讲这两个概念呢?这是因为人们常常混淆这两个概念,常常会把相关关系误以为是因果关系。在许多科学研究和政策问题评价中,我们更关心因果关系。但是,当我们看到了某种形式的相关关系后,常常会误以为这就是我们追求的因果关系了。

    比如说,在中世纪的欧洲,很多人相信,虱子对人的健康是有帮助的。这是因为当时人们发现,得病的人身上很少有虱子,而健康人的身上反而是有虱子的。这是长期的观察累积下来,形成的经验。
    在中世纪的欧洲,很长一段时间里人们都根据这个经验,得出这样一个因果推论:这个人身上有虱子,所以他身体健康,那个人身上没虱子,说明他身体不健康。
    当时,人们确实观察到虱子的存在与否跟人是否健康构成了相关关系,但是,这是因果关系吗?
    有了温度计以后,人们就发现了,这不是真正意义上的因果关系:因为虱子对人的体温非常敏感,它只能在一个很小的温度区间范围生存下来。而人体一旦生病的话,很多时候会出现发烧症状。人体一发烧,温度变化,虱子就无法适应发烧时候的热度,于是跑掉了。
    如果我们只停留在观察到健康与否和虱子多寡之间存在关系,那实际只是相关关系,而不是因果关系。与之类似的例子还有很多,比如说,我们看到每年冰淇淋销量增加的同时,各地不幸溺亡的人数也在增加。那么这两件事情是不是构成因果关系呢?
    常识告诉我们,肯定不是。其实是因为每年气温升高之后,游泳的人可能就多了起来了,随之溺亡人数也就相应增加了。而同样是因为气温升高,冰淇淋的销量也会增加。
    也就是说,如果我们观察到一个因素出现了一点点变化,另外一个因素也会随着跟它变化,它们之间可能就有相关关系,但是这种相关关系,并不意味着这两个因素构成因果关系。
    如何判断因果关系呢,这就需要我们非常小心,而且要非常艺术地做数据分析了,我们最终还是要回到统计学上来。

    这里,我们举一个历史上的疾病案例,这就是小儿麻痹症,也就是脊髓灰质炎。现在大家看到的小儿麻痹症病例比较少,因为现在有相应的疫苗。历史上,脊髓灰质炎曾经是一个让人非常害怕的疾病。
    在20世纪50年代,当时美国一所大学的实验室,做出了一种针对这个疾病的疫苗,已经证明它在实验室条件下能够产生有效的抗体。但是他们不知道,如果应用到实际生活中的大规模实验,这个疫苗还会不会有效。
    所以当时美国政府部门就决定要做实验,这个时间大致在1954年。因为当时脊髓灰质炎的患者主要是孩子,所以当时的实验人群定为小学一二三年级的学生。怎么做实验才能够真正说明疫苗是否有效呢?为了确保统计结果最终反映真实的因果关系,当时提出了五套实验方案。

    第一套方案是,因为1953年之前是没有这个疫苗的,所以就从1954年开始,给所有的一二三年级小学生接种疫苗,最后再来看一下,1954年的发病率,跟1953年相比,会不会有差别。
    这个方案是个办法,但是它有问题,因为之前每一年的脊髓灰质炎发病率的差别比较大。比如说1951年全美可能有3万名脊髓灰质炎患者,1952年则有6万名,而1953年又可能缩减到不足4万名。
    这个脊髓灰质炎每年发病率的波动都比较大,万一到时候实验结果是3万名到4万名之间,如何判断这个结果是随机变化的,还是疫苗发生了作用?

    第二个方案则提出要按照地区来做。比如,在纽约地区,就给一二三年级小学生们全部接种疫苗,而在芝加哥地区的就全部不接种疫苗,然后来统计,纽约和芝加哥这两个地区的脊髓灰质炎发病情况。
    这个方案后来发现也不行。因为脊髓灰质炎本身就是传染病,一个地区可能流行这个疾病了,而另外一个地区就可能没流行,那么这两个地区的数据看起来就会有差异,但是这不是疫苗的效果,不具有可比性。

    于是就有人提出了第三个方案。因为当时这个疫苗接种,谁也不知道有没有副作用,因此是有一定风险的。所以这个方案就提出,让接种疫苗的孩子们的父母来自行选择。有的家长选择给孩子接种疫苗,有的就不选择接种,这样同一批孩子就会出现不同的对照。
    但是这么做,也有问题。因为当时人们已经发现,脊髓灰质炎的患者一般来自于家境比较好的家庭。
    这是因为,那些家庭经济状况比较差的家庭,因为生活条件差,卫生条件不好,可能一个人很早就接触过脊髓灰质炎的病毒了,甚至很可能在刚刚出生的时候就接触了脊髓灰质炎的病毒,但是刚出生的婴儿是有母体的免疫力的,婴儿凭借母体的免疫力,接触这个病毒之后能够产生抗体,反而不会得病。
    当时的这类数据情况已经展现了这种现象。如果采用自愿接种的方式,那些经济状况比较好的家庭,往往愿意让自己的小孩去接种,而经济状况不好的家庭由于经费原因,同时也知道自己这个阶层染病率稍微低一些,他可能就不愿意接种了。这样就造成了对实验结果的干扰,你无法判断到底是疫苗有效还是经济原因导致的不同结果。

    然后是第四个方案。有人提出,只让二年级的学生接种,而一年级和三年级学生不接种。之后再比较接种的跟不接种的学生之间的区别,看他们的发病率会不会有差别。这个方案是当时的一个脊髓灰质炎防治委员会提出的方案。
    这个方案同样行不通,第一,它同样无法避开接种孩子家庭贫富差距导致的患病概率差异。第二,脊髓灰质炎是一种传染疾病,人群的年龄是对这种传染有影响的,一、二、三年级的学生年龄层次有差别,可能就会导致各个年级学生得病概率的差异。
    此外这个方案还有第三个重大缺陷,那就是可能会对医生形成心理上的诱导。如果按照这个方案执行下去,医生们就是知道的,一、三年学生没有接种疫苗,而二年级同学中有部分同学接种了疫苗。
    当时脊髓灰质炎的诊断还不太容易,如果医生已经知道了这个疫苗接种方案,而且也提前知道这个疫苗在实验室阶段是管用的,那么医生在面对一年级学生时,一旦这个疾病还无法确诊,那么这个医生就很可能根据“一年级学生没有接种疫苗”“疫苗是有效的”这两个提前的认知,就直接诊断这名一年级学生得了脊髓灰质炎。
    而且这种区别对待的方案,接种的学生本身心理也会受到影响的。
    当时还有第五个方案,也就是最终执行并被采纳了调查结果的方案。这个方案具体来说,就是在征得学生家长同意之后,仍旧会告诉家长:你即使同意接种疫苗,我给你家孩子接种的,也不一定是疫苗,而是一种看起来跟疫苗一模一样的安慰剂,没什么副作用也没有什么效果。
    因为这个安慰剂跟疫苗长得一样,所以医生和学生都不知道到底接种的是疫苗还是普通的安慰剂,但是疫苗提供方是知道的,它对每一个药品都加了编号,因此疫苗提供方知道哪些是安慰剂,哪些是疫苗。
    通过这样的方式,实验室实现了随机的方式接种疫苗,而且无论家境好坏,这个接种疫苗都是随机的。同时医生们也不知道,到底是哪一些小孩接种了疫苗。这就规避了年龄、经济条件等各种扰动,有助于确定脊髓灰质炎与疫苗之间真正的因果关系。
    1954年,这个实验大约有74万名小学生参与。最终的实验结果是,如果接种疫苗,孩子罹患脊髓灰质炎的概率大约是十万分之28,如果不接种疫苗,患病概率大约是十万分之77,二者相差一倍多。之后又经过各种努力,脊髓灰质炎疫苗在美国获得了通过。

    许多科学结论、政策评价都依赖于因果分析而不是相关分析。统计学能够帮助我们证明那些我们所需要的因果关系。很多时候,真正的因果关系,不能简单地建立在相关关系的基础之上。还有很多科学问题,仍需要我们去发现真正的因果关系,这正是统计学可以提供数据收集以及分析方案的地方,也是统计学的魅力所在。

    本文转自《光明日报》

  • 徐一鸿:物理学的十大基础理念[节]

    我想阐述的是物理学的基础理念。我将仅仅探讨那些经过时间的洗礼,被无数经验验证了的观念。因此,我并不会涉及弦论或是量子引力。

    什么是物理学中最重要的基础理念?几乎可以肯定的是,如果要求别的物理学家写下物理学中最重要的十条基础理念,恐怕得到的结果会和我给出的不同——但希望不会差异太大。我只能说,我所总结的这些基础理念得益于我自身对理论物理学习和研究的旅程、我自己接受的教育以及影响我的人。当然,“十”这个数字只是出于人类在地球上演化的偶然,它没有任何特殊的含义。

    1 最不可理解的事是世界竟是可理解的

    这句话出自爱因斯坦。这或许是整个人类有史以来最具有创造性的想法,显然任何杂志的审稿人都会拒绝其发表。只有很少的一批人最早认识到了这一点。但据我所知,大多数的古文明都没有明确地阐述这一想法。

    为什么自然能被人类理解?在一个极其平凡普通的星系、在围绕着一颗毫不起眼的恒星旋转的地球上演化出的人类,到底有什么特殊之处?为什么物理学的定律总是简洁而优美的?如爱因斯坦所说,我们完全可以设想自己生活在一个极端“丑陋”的宇宙里,一个完全随机的宇宙,没有任何现象能够通过思考来理解。或许另一种解释是,最终只有能够被理解的那部分自然才能被我们理解。

    2 物理学定律在任何地点和时间都是一致的

    从诞生第一天起,人就能看到超凡缥缈的月亮悬浮在天空,像潮汐一般盈亏变换。但在数百万年之后,直到牛顿,人类才意识到,月亮事实上在“下坠”。不止如此,下坠的月亮和下坠的苹果一样,由相同的物理学定律所支配。

    物理学的定律是普适的,永恒的。在牛顿之前,人们会分别研究地球物理学和天体物理学,认为地上的领域和天体的领域所遵循的规则可能是不同的。在牛顿之后,天体物理学和宇宙学变成了物理学的一个分支。

    当然,某些长期以来物理学家所认为不言自明的物理规则也可能被认定是错误的。20世纪50年代,物理学家首次在实验上观察到弱相互作用会区分左右,这一发现震惊了物理学界。“物理学定律在任何时间地点都是一致的”这一断言也可能被推翻,但目前为止,支持这一原则的证据是非常显著的。

    3 物理世界是量子的

    有关量子物理,有许多非常熟悉的引言,事实上,我们当中的一些人在当学生时可能说过完全类似的话。对我这一代的物理学家而言,我们秉承了费曼“shut up and calculate”的理念。在以前学习物理时,如果我们问任何有关量子力学的问题,老师都会让我们去计算就好。

    我想谈谈量子物理,特别是贝尔不等式相关的内容。二三十年前我曾试图阅读贝尔所著的书,但里面有很多词语我不理解,阅读有很多障碍。我不倾向于使用“实在”一词,而是用“反事实确定性”来描述经典物理和量子物理的区别:经典物理是反事实确定的,而量子物理不是。

    要理解这一点,假设有一位性格怪异的朋友,因为某些不可知的原因不愿意告诉我们他所拥有的一条围巾的颜色,而是让我们猜。他告诉我们,这条围巾有百分之七十的可能性是蓝色的,而有百分之三十的可能性是红色的。但我们所有人都知道,这条围巾有一个确定的颜色,无论我们是否亲眼看见了它。由于他知道自己围巾的颜色,他所言的概率完全是对这一概念的误用,仅仅是想引诱我们进行猜测所说的花言巧语罢了。这本质上和问别人“猜猜我上个周末干了什么”是一样的:无论是颜色还是周末所干的事,都是确定存在的,这大约就是所谓“实在”的含义。无论我们朋友的围巾是什么颜色的,或者在周末干了什么,这一问题的答案在我们问出这一问题时是不会改变的。这是“反事实确定性”的内涵,也是经典物理学和量子物理学最基本的不同。

    而至于贝尔不等式,它事实上也可以看作是对经典物理学的一个断言。根据法国物理学家米歇尔·勒·贝拉克(Michel Le Bellac)的说法,这一不等式最早源自英国逻辑学家乔治·布尔,反映的是最基本的布尔代数法则。

    因此,理解贝尔不等式并不需要知道量子力学,这是许多人的一个误解。

    4 永恒的场:爱因斯坦的挚爱

    宇宙是由许多不同的量子场交织在一起相互作用涌现而成的,每一个场都影响着别的场如何演化。

    在20世纪20年代的量子力学中,电磁场是一个相对论性的场,但电子仍被当成非相对论性的点粒子。在狄拉克发现了描述电子的相对论性方程之后,约当说服了狄拉克,认为电子也应该被当成一个场来描述——事实上,温伯格(Weinberg)告诉我大部分的物理学教材都把历史弄错了:狄拉克并不是最早提出电子也应当被当成场来处理的人,他一开始甚至有些排斥这一想法。在我看来,这标志着物理学一个重要的分水岭:自此之后,所有的物理对象都由一个场来描述。

    量子场论对许多问题都提供了非常简洁的答案。在我是学生的时候,我不理解为何宇宙中所有的电子都是同一的。宇宙中有巨量的电子,但在非相对论性的量子力学中,电子的同一性只能被当成一个事实来对待,无法进一步解释。理论物理总希望将假定的基本事实变得越少越好,而量子场论对此提供了一个非常简明的答案:这是因为只存在一个电磁场,而所有的电子都只是这一个电磁场的激发而已。

    奥本海默也曾于1966年写到,爱因斯坦“全心全意地认同场的概念……这使得他早在提出广义相对论很久之前就知道,引力必定是由场描述的。”

    5 可畏的对称:充满了对称的宇宙

    宇宙所遵循的基本定律出于某些原因满足许多的对称性。可以说,20世纪的物理学一个重要的主题就是对不断增长的对称性的发掘和欣赏。

    当19世纪的数学家发明了群论时,一部分人曾声明他们终于发明了一个物理学家无法偷走的理论。但显然,那时的数学家无法预测量子力学的发现。量子物理极度依赖群的概念和工具来表述叠加态。经典物理没有叠加性原理,因此它本质上不需要用到群论。

    历史学家和科学哲学家彼得·加里森(Peter Galison)曾给我看了一篇论文。这篇论文由物理学家和科学史学家霍耳顿(Gerald Holton)所写,阐述了一个非常令人震惊的事实:他曾检查过20世纪20年代的物理学百科,而在整本书中只有一处涉及了对称性,是在声明爱因斯坦的度量张量的角标在交换下保持不变。20世纪的物理学几乎只有晶体学在讨论对称性。

    下述历史也很少有人知道。魏格纳(Wigner)将群论引入量子力学的研究影响十分深远。他在柏林获得学位后,回到了他父亲位于匈牙利的皮革工厂。他在那里非常不开心,他曾说如果他的后半生将在为女性制作皮包为男性制作皮鞋中度过,他会疯掉的。因此他询问他的父亲能否回到德国工作。对于物理学的历史来说,完全偶然的是他申请到的工作恰好是一位晶体学家的助手,也是由此,他将群论引入了物理。

    魏格纳曾回忆,薛定谔对他讲过五年之后没有人会再使用群论了。魏格纳将他的困惑告诉了冯·诺伊曼,后者的话语则使他安心:“噢,这些都是老骨头了。五年之后,所有的学生都将学习群论。”显然,冯·诺伊曼说的是对的。我向本科生教授群论课程已经超过十年了,也写过一本群论的教科书。因此,圣巴巴拉分校所有物理系的本科生都应该学过群论。

    20世纪的物理学也因此揭示了自然丰富的内部结构:从SU(2)对称性到SU(3)对称性以及夸克的发现。强子的性质和数量与群表示论的深刻联系已经无法分割,这最终导致了杨-米尔斯场论以及量子色动力学的发展。

    爱因斯坦曾这样描述过艾米·诺特(Emmy Noether):“在找寻逻辑美的努力下,她发现了充满神性的公式,更深刻地揭示了自然定律的本质。”诺特是对物理学作出杰出贡献的伟大的数学家之一。她的工作揭示了物理学的守恒定律是来自对称性。

    我们都知道物理学中许多物理量,例如能量、动量都是守恒的。但这些守恒定律是从哪来的?在我还是本科生的时候,如果我问我的物理教授为什么这些量是守恒的,我的教授是没有办法回答我的,除非他知道诺特定理。

    6 爱因斯坦:消灭相对性

    “相对性”一词从未在爱因斯坦原本的论文中出现过。“相对论”这一不幸的名称事实上是一位名不见经传的德国物理学家阿尔弗雷德·布舍勒(Alfred Bucherer)在1906年给出的。该人早就被遗忘在了历史的长河中。

    之后,爱因斯坦曾后悔他没有将他的理论命名为“不变性理论”,因为爱因斯坦理论的核心思想恰恰是物理规则不是相对的,而是不变的,不同的观测者所见的物理规律是一致的。

    我曾与一些哲学家有过碰面,他们告诉我:“你们物理学家证明了真理是相对的!”如果爱因斯坦将其理论命名为不变性理论,我就不用浪费我的时间向他们解释事实与此正相反了。

    爱因斯坦曾反对过哲学家:“我相信哲学家对科学的进步起到了相反的作用,因为他们将许多重要的基础概念从经验主义中剥离了出去……对时间和空间的概念来说更是如此。”

    事实上,爱因斯坦最著名的公式E=mc2并没有出现在他原本的论文当中,而是他在几个月后的一个小注释中提出的。那时他曾对这一公式的正确性非常怀疑,他对一位朋友写道:“这一论证是令人愉悦甚至是诱人的,但就我所知上帝可能正嘲笑我写下的东西,正牵着我的鼻子走呢。”

    我想要强调爱因斯坦对物理学的两个重要影响。首先,爱因斯坦的工作使得同时性在物理学中不存在了。这对物理学而言十分重要,因为它直接导致了所有的物理定律都应是局域的,而不是全局的。在之前的物理学中,守恒定律可以是全局的,一个电子可以同时在北京消失而出现在非洲,并不影响电荷的守恒。但在爱因斯坦的理论中,由于同时性的丧失,电子在北京消失后对某个观测者而言它可能是在昨天出现在了非洲。这显然违背了守恒定律,因此也是不可能发生的。自此之后,所有的守恒定律都是局域的,是对同一时空点而言的。其次,爱因斯坦将相对性变为了时空变换的不变性,也是他意识到了牛顿的力学定律在洛伦兹变换下保持不变。

    7 宇宙中力的统一

    物理学的发展总是迈向统一的。牛顿将地球物理学和天体物理学统一了起来,麦克斯韦和他同时代的其他物理学家统一了电和磁。若从生活现象出发,这种统一性完全不是显然的。声和光表面看起来如此不同,但它们最终都可被归结于电磁场的相互作用。

    当物理学的统一迈进了19世纪晚期20世纪初,引力、天体物理、地球物理以及声学都被归纳进了力学的范畴,而光学、电学和磁学都归为了电磁学。爱因斯坦曾想统一电磁学和引力,但他失败了。可以说,他失败的原因是他忽略了辐射这一现象,而辐射现象的背后潜伏着强相互作用和弱相互作用。

    到了1983年,电磁学和强相互作用与弱相互作用也统一了起来。至此,若我们相信大一统理论,则剩下没有统一的只有引力。我们希望超弦理论能达到这一目标,但目前并不知道它是否会成功。

    8 造物者使用数学的语言

    我们都认同造物者使用数学的语言,这一观念至少可以追溯到伽利略。但之后魏格纳写了一篇很有影响力的文章,题目为“数学在自然科学中不可理解的有效性”。一些人认为这一观察是不值一提的,而另一些人则认为其非常深刻,甚至还有一部分人同时认同这两种说法。在我看来,这是非常深刻的一个观察。物理学家对此有过很多的争论,为什么数学在物理中这么有效?

    物理学和数学的发展相互牵连,谁也离不开对方。在19世纪末,二者的发展看起来相背离,其中一个原因是数学走到了一个需要严谨公理化的阶段。

    毫无疑问,物理学需要数学。在弦论之前,物理学与数学最重要最紧密的结合包括电磁学与偏微分方程,引力与微分几何,以及量子力学、粒子物理与群表示论。但同样令人惊讶的是,对于大部分物理来说,除开证明结果的严谨性,理解自然所需要的数学几乎只涉及这些科目的本科教授前几周的内容。当然,不同的物理分支所需要的数学内容以及深度都是不同的。弦论需要非常多的数学,而天体物理所需要的数学内容则较少。

    在广袤的数学海洋中,我自己的感受是只有极少的一部分数学内容看起来和物理是相关的,至少目前来说是这样。回到20世纪50年代,在发现很多新粒子后,面对这些看起来完全没有头绪的谜题,物理学家曾自然地设想一些更高深的数学内容能够帮助我们理解这些物理现象。但最终,随着弱电统一以及量子色动力学和大一统理论的发展,一些基础的群论知识加上对于李群SU(3),SU(5)以及 SO(10)的理解就已经足够了。

    许多物理学的分支,如宇宙学和原子物理,只需要很少的数学,仍在向前蓬勃发展。但基础物理如粒子物理的研究,目前来看似乎停滞不前了。或许我们需要很多的数学内容,也许是数学家也还不知道的数学内容,来帮助物理学。又或许物理学家需要自己解决自己的问题。

    9 熵和热:核心是分享

    在宇宙中,不同的系统有不同的能量,但它们都以某种方式想要相互分享这部分能量,某种意义上这就是熵和热的核心。我喜欢把傅立叶称为18世纪“多即不同”的倡议者。他曾在他热学论文的前言中写道:“牛顿是个伟大的人!用他的理论,我们能解释从大炮发射到月亮运行的所有问题了,留给我去解释的只有热和冷。”有人提到,年轻人经常觉得物理学所有重要的事都已经被研究过了。我想说,傅立叶也一样,认为牛顿做了物理学所有的工作。但他对于热学的研究让他发现了函数可以分解为无穷多正余弦函数的和,这毫无疑问是非常伟大的数学发现。

    另一位重要的人是鲁道夫·克劳修斯(Rudolf Clausius),他引入了“Verwandlungshinhalt”这一概念,意即内容的变换。值得感恩的是,他随后将其重新命名为了“entropy”,也就是熵。“entropy”一词选择得非常好,因为它有很多近亲,如“tropical”,还有例如“zoetrope”——该词是“movie”一词的前身,相比而言,我更喜欢前者,因为它的前缀“zoo”是表示动物、生命;而“trope”意为变换、运动。换言之,当事物动起来时它就变得有生命了。

    玻尔兹曼对熵和热力学第二定律的研究将热学带领向了微观世界。香农则将信息这一概念和熵联系了起来。

    现在,基于这些人的工作,黑洞的信息熵或许是我们最有希望一窥量子引力奥秘的切入口,是物理学前进的希望。

    10 作用量所在之处就是物理

    对我来说,相同的物理原理有不同的表述方式,这是非常神奇的,甚至有些“不合理”。费马的最小作用量原理、反射折射的斯涅尔定律以及麦克斯韦的波动方程都描述了光线的轨迹。牛顿的力学方程、欧拉-拉格朗日变分原理以及哈密顿最小作用量原理也都描述了力学体系的运动。

    在我还是学生的时候,我曾问我的教授,为什么我们需要拉格朗日作用量或哈密顿作用量?因为只要理解了牛顿的力学定律,我们已经可以解决经典力学的所有问题了。当然,这些作用量真正的闪光之处是在量子力学发展以后,使用哈密顿的最小作用量原理,我们能得到薛定谔方程。而在量子场论发展后,拉格朗日量变成了最为重要的作用量,因为它是相对论意义下的标量,而哈密顿量不是,这直接导致了场论的狄拉克-费曼路径积分表述。

    我一直认为这是一个未解之谜:所有经验验证过的物理,一直到大一统理论,都可以归结为某种作用量原理。显然,一个人可以写下无法被作用量原理解释的运动方程,但因为某些非常深刻的原因,所有基础物理的定律都可以由作用量原理得到。为何如此?我们不知道。

  • 邓煜,扎赫尔・哈尼,马骁:希尔伯特第六问题的重大突破

    “物理学的公理化”即希尔伯特1900年提出的23个数学难题中第六个问题。此后,希尔伯特曾追问:能否像欧几里得几何一样,为物理学构建严格的数学基础?

    因涉及从微观粒子动力学到宏观连续介质的多尺度关联:
    在微观层面,气体由无数粒子组成,单个粒子运动服从牛顿力学(时间可逆)
    在宏观层面,气体的统计行为由玻尔兹曼方程描述(时间不可逆,趋向熵增)
    如何从可逆的微观规律,演化出不可逆的宏观行为?
    爱因斯坦的广义相对论、量子力学的数学框架虽部分实现了公理化愿景,但微观与宏观定律间的逻辑鸿沟始终未被弥合。

    此次,三位数学家撕开了这道世纪难题的一角。
    他们成功从微观粒子模型推导出宏观气体行为,填补了牛顿力学与玻尔兹曼方程之间的逻辑鸿沟。
    首次严格证明了从牛顿力学到玻尔兹曼方程的完整过渡,不仅为统计力学奠定了更坚实的数学基础,更意外地解答了玻尔兹曼时代遗留的“时间箭头之谜”。

    核心突破

    该问题的核心目标是从弹性碰撞的硬球粒子系统出发,严格推导出流体力学的基本偏微分方程,完成希尔伯特第六问题中从原子论到连续介质运动定律的推导程序。

    解决该问题要分两步走,先通过 “动力学极限” 从牛顿定律推导出玻尔兹曼方程,再通过 “流体动力学极限” 从玻尔兹曼方程推导出流体方程。

    从牛顿到玻尔兹曼——“动力学极限”

    考虑直径为ε的N个硬球粒子组成的系统,当N趋于无穷大、ε趋于0时(称为Boltzmann-Grad极限),证明粒子系统的单粒子密度可由玻尔兹曼方程描述。

    邓煜和哈尼最初专注于波系统研究(如光线传播),曾在分析波的微观到介观过渡时,开发出分解复杂波动模式为简单子模式的数学工具。

    他们通过 “逐次近似法”,将多个波的相互作用拆解为两两或三三波的局部作用,从而简化概率计算。

    转向粒子系统后,他们发现粒子碰撞与波的干涉本质不同

    波可叠加穿透,而粒子碰撞后会改变轨迹,导致碰撞顺序和次数直接影响结果(如多次碰撞可能引发 “蝴蝶效应”)。

    需重新设计方法以追踪粒子碰撞后的轨迹变化,避免因轨迹复杂性导致的计算爆炸。

    于是,团队从无限空间气体模型入手(粒子最终离散,碰撞次数有限),而非直接挑战 “盒子环境中粒子无限碰撞” 的难题,降低初始研究复杂度。

    在无限空间中证明 “玻尔兹曼方程可由牛顿模型推导” 后,三人将技术迁移至周期性边界条件的盒子环境(粒子碰撞盒壁后从对侧重生,模拟无限空间)。

    通过傅里叶变换将盒子环境中的粒子轨迹转换为无限空间的虚拟轨迹叠加,从而复用无限空间中的碰撞模式分析方法,证明盒子环境中碰撞频率与无限空间等效,且多次碰撞概率仍可忽略。

    这一阶段的研究证明了牛顿粒子模型在无限空间和盒子环境中,均可推导出玻尔兹曼方程(描述分子速度分布),解决了希尔伯特第六问题中 “最困难的逻辑断层”。

    从玻尔兹曼到流体方程——“流体动力学极限”

    当玻尔兹曼方程中的碰撞率α趋于无穷大时,其解趋近于局部麦克斯韦分布,对应宏观流体参数(密度ρ、速度u、温度T)。

    团队在这一阶段具体推导出了:

    不可压缩纳维-斯托克斯-傅里叶方程组,描述流体的速度和密度演化。

    可压缩欧拉方程,描述流体的密度、速度和温度的宏观运动。

    在从介观到宏观的研究进程中,数学家们的目标是证明描述分子层面行为的玻尔兹曼方程,能够推导出描述宏观流体运动的纳维-斯托克斯方程。

    为此,他们引入克努森数来衡量气体的稀薄程度,判断气体更符合哪种方程的适用条件。

    借助Chapman-Enskog展开法,科学家们把分子分布函数拆解成不同层级,逐步分析其中的变化。

    在这个过程中,他们利用玻尔兹曼方程中碰撞满足质量、动量和能量守恒的特性,推导出宏观的守恒定律。

    同时,通过熵增原理,将分子层面的变化与宏观流体的能量损耗建立联系。

    经过多年研究,数学家们证明了在特定条件下,玻尔兹曼方程的解会逐渐趋近于纳维-斯托克斯方程的解。

    不过,这种推导也有局限性,只适用于接近平衡状态的情况,对于复杂的湍流现象还无法完全解释。

    邓煜、哈尼和马骁三位数学家在完成微观到介观的推导后,结合前人在介观到宏观领域的成果,最终形成了形成“牛顿力学→统计力学→流体力学”的完整逻辑链。

    用数学方法严谨地证明了气体在不同尺度下的物理规律之间的联系。

    这项工作不仅标志着希尔伯特第六问题得到重大突破,还提供了一种对古老悖论严格的数学解决方案

    微观层面粒子遵循牛顿定律,时间可逆,而介观和宏观层面的玻尔兹曼方程与纳维-斯托克斯方程时间不可逆,这一矛盾曾令玻尔兹曼同时代人困惑。

    玻尔兹曼认为虽单个粒子时间可逆,但几乎所有碰撞模式最终使气体扩散,时间不可逆。

    兰福德在极短时间范围内从数学上证实此直觉,如今三位数学家的成果在更现实情况下进一步确认,从数学角度解决了这一古老悖论。

  • John D. Kelleher 《Deep Learning》

    1 Introduction to Deep Learning
    2 Conceptual Foundations 
    3 Neural Networks: The Building Blocks of Deep Learning
    4 A Brief History of Deep Learning
    5 Convolutional and Recurrent Neural Networks
    6 Learning Functions
    7 The Future of Deep Learning

    1 Introduction to Deep Learning

    Deep learning is the subfield of artificial intelligence that focuses on creating large neural network models that are capable of making accurate data-driven decisions. Deep learning is particularly suited to contexts where the data is complex and where there are large datasets available. Today most online companies and high-end consumer technologies use deep learning. Among other things, Facebook uses deep learning to analyze text in online conversations. Google, Baidu, and Microsoft all use deep learning for image search, and also for machine translation. All modern smart phones have deep learning systems running on them; for example, deep learning is now the standard technology for speech recognition, and also for face detection on digital cameras. In the healthcare sector, deep learning is used to process medical images (X-rays, CT, and MRI scans) and diagnose health conditions. Deep learning is also at the core of self-driving cars, where it is used for localization and mapping, motion planning and steering, and environment perception, as well as tracking driver state.

    Perhaps the best-known example of deep learning is DeepMind’s AlphaGo.1 Go is a board game similar to Chess. AlphaGo was the first computer program to beat a professional Go player. In March 2016, it beat the top Korean professional, Lee Sedol, in a match watched by more than two hundred million people. The following year, in 2017, AlphaGo beat the world’s No. 1 ranking player, China’s Ke Jie.

    In 2016 AlphaGo’s success was very surprising. At the time, most people expected that it would take many more years of research before a computer would be able to compete with top level human Go players. It had been known for a long time that programming a computer to play Go was much more difficult than programming it to play Chess. There are many more board configurations possible in Go than there are in Chess. This is because Go has a larger board and simpler rules than Chess. There are, in fact, more possible board configurations in Go than there are atoms in the universe. This massive search space and Go’s large branching factor (the number of board configurations that can be reached in one move) makes Go an incredibly challenging game for both humans and computers.

    One way of illustrating the relative difficulty Go and Chess presented to computer programs is through a historical comparison of how Go and Chess programs competed with human players. In 1967, MIT’s MacHack-6 Chess program could successfully compete with humans and had an Elo rating2 well above novice level, and, by May 1997, DeepBlue was capable of beating the Chess world champion Gary Kasparov. In comparison, the first complete Go program wasn’t written until 1968 and strong human players were still able to easily beat the best Go programs in 1997.

    The time lag between the development of Chess and Go computer programs reflects the difference in computational difficulty between these two games. However, a second historic comparison between Chess and Go illustrates the revolutionary impact that deep learning has had on the ability of computer programs to compete with humans at Go. It took thirty years for Chess programs to progress from human level competence in 1967 to world champion level in 1997. However, with the development of deep learning it took only seven years for computer Go programs to progress from advanced amateur to world champion; as recently as 2009 the best Go program in the world was rated at the low-end of advanced amateur. This acceleration in performance through the use of deep learning is nothing short of extraordinary, but it is also indicative of the types of progress that deep learning has enabled in a number of fields.

    AlphaGo uses deep learning to evaluate board configurations and to decide on the next move to make. The fact that AlphaGo used deep learning to decide what move to make next is a clue to understanding why deep learning is useful across so many different domains and applications. Decision-making is a crucial part of life. One way to make decisions is to base them on your “intuition” or your “gut feeling.” However, most people would agree that the best way to make decisions is to base them on the relevant data. Deep learning enables data-driven decisions by identifying and extracting patterns from large datasets that accurately map from sets of complex inputs to good decision outcomes.

    Artificial Intelligence, Machine Learning, and Deep Learning

    Deep learning has emerged from research in artificial intelligence and machine learning. Figure 1.1 illustrates the relationship between artificial intelligence, machine learning, and deep learning.

    Deep learning enables data-driven decisions by identifying and extracting patterns from large datasets that accurately map from sets of complex inputs to good decision outcomes.

    The field of artificial intelligence was born at a workshop at Dartmouth College in the summer of 1956. Research on a number of topics was presented at the workshop including mathematical theorem proving, natural language processing, planning for games, computer programs that could learn from examples, and neural networks. The modern field of machine learning draws on the last two topics: computers that could learn from examples, and neural network research.

    Figure 1.1 The relationship between artificial intelligence, machine learning, and deep learning.

    Machine learning involves the development and evaluation of algorithms that enable a computer to extract (or learn) functions from a dataset (sets of examples). To understand what machine learning means we need to understand three terms: dataset, algorithm, and function.

    In its simplest form, a dataset is a table where each row contains the description of one example from a domain, and each column contains the information for one of the features in a domain. For example, table 1.1 illustrates an example dataset for a loan application domain. This dataset lists the details of four example loan applications. Excluding the ID feature, which is only for ease of reference, each example is described using three features: the applicant’s annual income, their current debt, and their credit solvency.

    Table 1.1. A dataset of loan applicants and their known credit solvency ratings

    IDAnnual IncomeCurrent DebtCredit Solvency
    1$150-$100100
    2$250-$300-50
    3$450-$250400
    4$200-$350-300

    An algorithm is a process (or recipe, or program) that a computer can follow. In the context of machine learning, an algorithm defines a process to analyze a dataset and identify recurring patterns in the data. For example, the algorithm might find a pattern that relates a person’s annual income and current debt to their credit solvency rating. In mathematics, relationships of this type are referred to as functions.

    A function is a deterministic mapping from a set of input values to one or more output values. The fact that the mapping is deterministic means that for any specific set of inputs a function will always return the same outputs. For example, addition is a deterministic mapping, and so 2+2 is always equal to 4. As we will discuss later, we can create functions for domains that are more complex than basic arithmetic, we can for example define a function that takes a person’s income and debt as inputs and returns their credit solvency rating as the output value. The concept of a function is very important to deep learning so it is worth repeating the definition for emphasis: a function is simply a mapping from inputs to outputs. In fact, the goal of machine learning is to learn functions from data. A function can be represented in many different ways: it can be as simple as an arithmetic operation (e.g., addition or subtraction are both functions that take inputs and return a single output), a sequence of if-then-else rules, or it can have a much more complex representation.

    A function is a deterministic mapping from a set of input values to one or more output values.

    One way to represent a function is to use a neural network. Deep learning is the subfield of machine learning that focuses on deep neural network models. In fact, the patterns that deep learning algorithms extract from datasets are functions that are represented as neural networks. Figure 1.2 illustrates the structure of a neural network. The boxes on the left of the figure represent the memory locations where inputs are presented to the network. Each of the circles in this figure is called a neuron and each neuron implements a function: it takes a number of values as input and maps them to an output value. The arrows in the network show how the outputs of each neuron are passed as inputs to other neurons. In this network, information flows from left to right. For example, if this network were trained to predict a person’s credit solvency, based on their income and debt, it would receive the income and debt as inputs on the left of the network and output the credit solvency score through the neuron on the right.

    A neural network uses a divide-and-conquer strategy to learn a function: each neuron in the network learns a simple function, and the overall (more complex) function, defined by the network, is created by combining these simpler functions. Chapter 3 will describe how a neural network processes information.

    Figure 1.2 Schematic illustration of a neural network.

    What Is Machine Learning?

    A machine learning algorithm is a search process designed to choose the best function, from a set of possible functions, to explain the relationships between features in a dataset. To get an intuitive understanding of what is involved in extracting, or learning, a function from data, examine the following set of sample inputs to an unknown function and the outputs it returns. Given these examples, decide which arithmetic operation (addition, subtraction, multiplication, or division) is the best choice to explain the mapping the unknown function defines between its inputs and output:

    Most people would agree that multiplication is the best choice because it provides the best match to the observed relationship, or mapping, from the inputs to the outputs:

    In this particular instance, choosing the best function is relatively straightforward, and a human can do it without the aid of a computer. However, as the number of inputs to the unknown function increases (perhaps to hundreds or thousands of inputs), and the variety of potential functions to be considered gets larger, the task becomes much more difficult. It is in these contexts that harnessing the power of machine learning to search for the best function, to match the patterns in the dataset, becomes necessary.

    Machine learning involves a two-step process: training and inference. During training, a machine learning algorithm processes a dataset and chooses the function that best matches the patterns in the data. The extracted function will be encoded in a computer program in a particular form (such as if-then-else rules or parameters of a specified equation). The encoded function is known as a model, and the analysis of the data in order to extract the function is often referred to as training the model. Essentially, models are functions encoded as computer programs. However, in machine learning the concepts of function and model are so closely related that the distinction is often skipped over and the terms may even be used interchangeably.

    In the context of deep learning, the relationship between functions and models is that the function extracted from a dataset during training is represented as a neural network model, and conversely a neural network model encodes a function as a computer program. The standard process used to train a neural network is to begin training with a neural network where the parameters of the network are randomly initialized (we will explain network parameters later; for now just think of them as values that control how the function the network encodes works). This randomly initialized network will be very inaccurate in terms of its ability to match the relationship between the various input values and target outputs for the examples in the dataset. The training process then proceeds by iterating through the examples in the dataset, and, for each example, presenting the input values to the network and then using the difference between the output returned by the network and the correct output for the example listed in the dataset to update the network’s parameters so that it matches the data more closely. Once the machine learning algorithm has found a function that is sufficiently accurate (in terms of the outputs it generates matching the correct outputs listed in the dataset) for the problem we are trying to solve, the training process is completed, and the final model is returned by the algorithm. This is the point at which the learning in machine learning stops.

    Once training has finished, the model is fixed. The second stage in machine learning is inference. This is when the model is applied to new examples—examples for which we do not know the correct output value, and therefore we want the model to generate estimates of this value for us. Most of the work in machine learning is focused on how to train accurate models (i.e., extracting an accurate function from data). This is because the skills and methods required to deploy a trained machine learning model into production, in order to do inference on new examples at scale, are different from those that a typical data scientist will possess. There is a growing recognition within the industry of the distinctive skills needed to deploy artificial intelligence systems at scale, and this is reflected in a growing interest in the field known as DevOps, a term describing the need for collaboration between development and operations teams (the operations team being the team responsible for deploying a developed system into production and ensuring that these systems are stable and scalable). The terms MLOps, for machine learning operations, and AIOps, for artificial intelligence operations, are also used to describe the challenges of deploying a trained model. The questions around model deployment are beyond the scope of this book, so we will instead focus on describing what deep learning is, what it can be used for, how it has evolved, and how we can train accurate deep learning models.

    One relevant question here is: why is extracting a function from data useful? The reason is that once a function has been extracted from a dataset it can be applied to unseen data, and the values returned by the function in response to these new inputs can provide insight into the correct decisions for these new problems (i.e., it can be used for inference). Recall that a function is simply a deterministic mapping from inputs to outputs. The simplicity of this definition, however, hides the variety that exists within the set of functions. Consider the following examples:

    • • Spam filtering is a function that takes an email as input and returns a value that classifies the email as spam (or not).
    • • Face recognition is a function that takes an image as input and returns a labeling of the pixels in the image that demarcates the face in the image.
    • • Gene prediction is a function that takes a genomic DNA sequence as input and returns the regions of the DNA that encode a gene.
    • • Speech recognition is a function that takes an audio speech signal as input and returns a textual transcription of the speech.
    • • Machine translation is a function that takes a sentence in one language as input and returns the translation of that sentence in another language.

    It is because the solutions to so many problems across so many domains can be framed as functions that machine learning has become so important in recent years.

    Why Is Machine Learning Difficult?

    There are a number of factors that make the machine learning task difficult, even with the help of a computer. First, most datasets will include noise3 in the data, so searching for a function that matches the data exactly is not necessarily the best strategy to follow, as it is equivalent to learning the noise. Second, it is often the case that the set of possible functions is larger than the set of examples in the dataset. This means that machine learning is an ill-posed problem: the information given in the problem is not sufficient to find a single best solution; instead multiple possible solutions will match the data. We can use the problem of selecting the arithmetic operation (addition, subtraction, multiplication, or division) that best matches a set of example input-output mappings for an unknown function to illustrate the concept of an ill-posed problem. Here are the example mappings for this function selection problem:

    Given these examples, multiplication and division are better matches for the unknown function than addition and subtraction. However, it is not possible to decide whether the unknown function is actually multiplication or division using this sample of data, because both operations are consistent with all the examples provided. Consequently, this is an ill-posed problem: it is not possible to select a single best answer given the information provided in the problem.

    One strategy to solve an ill-posed problem is to collect more data (more examples) in the hope that the new examples will help us to discriminate between the correct underlying function and the remaining alternatives. Frequently, however, this strategy is not feasible, either because the extra data is not available or is too expensive to collect. Instead, machine learning algorithms overcome the ill-posed nature of the machine learning task by supplementing the information provided by the data with a set of assumptions about the characteristics of the best function, and use these assumptions to influence the process used by the algorithm that selects the best function (or model). These assumptions are known as the inductive bias of the algorithm because in logic a process that infers a general rule from a set of specific examples is known as inductive reasoning. For example, if all the swans that you have seen in your life are white, you might induce from these examples the general rule that all swans are white. This concept of inductive reasoning relates to machine learning because a machine learning algorithm induces (or extracts) a general rule (a function) from a set of specific examples (the dataset). Consequently, the assumptions that bias a machine learning algorithm are, in effect, biasing an inductive reasoning process, and this is why they are known as the inductive bias of the algorithm.

    So, a machine learning algorithm uses two sources of information to select the best function: one is the dataset, and the other (the inductive bias) is the assumptions that bias the algorithm to prefer some functions over others, irrespective of the patterns in the dataset. The inductive bias of a machine learning algorithm can be understood as providing the algorithm with a perspective on a dataset. However, just as in the real world, where there is no single best perspective that works in all situations, there is no single best inductive bias that works well for all datasets. This is why there are so many different machine learning algorithms: each algorithm encodes a different inductive bias. The assumptions encoded in the design of a machine leanring algorithm can vary in strength. The stronger the assumptions the less freedom the algorithm is given in selecting a function that fits the patterns in the dataset. In a sense, the dataset and inductive bias counterbalance each other: machine learning algorithms that have a strong inductive bias pay less attention to the dataset when selecting a function. For example, if a machine learning algorithm is coded to prefer a very simple function, no matter how complex the patterns in the data, then it has a very strong inductive bias.

    In chapter 2 we will explain how we can use the equation of a line as a template structure to define a function. The equation of the line is a very simple type of mathematical function. Machine learning algorithms that use the equation of a line as the template structure for the functions they fit to a dataset make the assumption that the model they generate should encode a simple linear mapping from inputs to output. This assumption is an example of an inductive bias. It is, in fact, an example of a strong inductive bias, as no matter how complex (or nonlinear) the patterns in the data are the algorithm will be restricted (or biased) to fit a linear model to it.

    One of two things can go wrong if we choose a machine learning algorithm with the wrong bias. First, if the inductive bias of a machine learning algorithm is too strong, then the algorithm will ignore important information in the data and the returned function will not capture the nuances of the true patterns in the data. In other words, the returned function will be too simple for the domain,4 and the outputs it generates will not be accurate. This outcome is known as the function underfitting the data. Alternatively, if the bias is too weak (or permissive), the algorithm is allowed too much freedom to find a function that closely fits the data. In this case, the returned function is likely to be too complex for the domain, and, more problematically, the function is likely to fit to the noise in the sample of the data that was supplied to the algorithm during training. Fitting to the noise in the training data will reduce the function’s ability to generalize to new data (data that is not in the training sample). This outcome is known as overfitting the data. Finding a machine learning algorithm that balances data and inductive bias appropriately for a given domain is the key to learning a function that neither underfits or overfits the data, and that, therefore, generalizes successfully in that domain (i.e., that is accurate at inference, or processing new examples that were not in the training data).

    However, in domains that are complex enough to warrant the use of machine learning, it is not possible in advance to know what are the correct assumptions to use to bias the selection of the correct model from the data. Consequently, data scientists must use their intuition (i.e., make informed guesses) and also use trial-and-error experimentation in order to find the best machine learning algorithm to use in a given domain.

    Neural networks have a relatively weak inductive bias. As a result, generally, the danger with deep learning is that the neural network model will overfit, rather than underfit, the data. It is because neural networks pay so much attention to the data that they are best suited to contexts where there are very large datasets. The larger the dataset, the more information the data provides, and therefore it becomes more sensible to pay more attention to the data. Indeed, one of the most important factors driving the emergence of deep learning over the last decade has been the emergence of Big Data. The massive datasets that have become available through online social platforms and the proliferation of sensors have combined to provide the data necessary to train neural network models to support new applications in a range of domains. To give a sense of the scale of the big data used in deep learning research, Facebook’s face recognition software, DeepFace, was trained on a dataset of four million facial images belonging to more than four thousand identities (Taigman et al. 2014).

    The Key Ingredients of Machine Learning

    The above example of deciding which arithmetic operation best explains the relationship between inputs and outputs in a set of data illustrates the three key ingredients in machine learning:
    1. Data (a set of historical examples).
    2. A set of functions that the algorithm will search through to find the best match with the data.
    3. Some measure of fitness that can be used to evaluate how well each candidate function matches the data.

    All three of these ingredients must be correct if a machine learning project is to succeed; below we describe each of these ingredients in more detail.

    We have already introduced the concept of a dataset as a two-dimensional table (or n × m matrix),5 where each row contains the information for one example, and each column contains the information for one of the features in the domain. For example, table 1.2 illustrates how the sample inputs and outputs of the first unknown arithmetic function problem in the chapter can be represented as a dataset. This dataset contains four examples (also known as instances), and each example is represented using two input features and one output (or target) feature. Designing and selecting the features to represent the examples is a very important step in any machine learning project.

    As is so often the case in computer science, and machine learning, there is a tradeoff in feature selection. If we choose to include only a minimal number of features in the dataset, then it is likely that a very informative feature will be excluded from the data, and the function returned by the machine learning algorithm will not work well. Conversely, if we choose to include as many features as possible in the domain, then it is likely that irrelevant or redundant features will be included, and this will also likely result in the function not working well. One reason for this is that the more redundant or irrelevant features that are included, the greater the probability for the machine learning algorithm to extract patterns that are based on spurious correlations between these features. In these cases, the algorithm gets confused between the real patterns in the data and the spurious patterns that only appear in the data due to the particular sample of examples that have been included in the dataset.

    Finding the correct set of features to include in a dataset involves engaging with experts who understand the domain, using statistical analysis of the distribution of individual features and also the correlations between pairs of features, and a trial-and-error process of building models and checking the performance of the models when particular features are included or excluded. This process of dataset design is a labor-intensive task that often takes up a significant portion of the time and effort expended on a machine learning project. It is, however, a critical task if the project is to succeed. Indeed, identifying which features are informative for a given task is frequently where the real value of machine learning projects emerge.

    The second ingredient in a machine learning project is the set of candidate functions that the algorithm will consider as the potential explanation of the patterns in the data. In the unknown arithmetic function scenario previously given, the set of considered functions was explicitly specified and restricted to four: additionsubtractionmultiplication, or division. More generally, the set of functions is implicitly defined through the inductive bias of the machine learning algorithm and the function representation (or model) that is being used. For example, a neural network model is a very flexible function representation.

    Table 1.2. A simple tabular dataset

    Input 1Input 2Target
    5525
    2612
    4416
    2204

    The third and final ingredient to machine learning is the measure of fitness. The measure of fitness is a function that takes the outputs from a candidate function, generated when the machine learning algorithm applies the candidate function to the data, and compares these outputs with the data, in some way. The result of this comparison is a value that describes the fitness of the candidate function relative to the data. A fitness function that would work for our unknown arithmetic function scenario is to count in how many of the examples a candidate function returns a value that exactly matches the target specified in the data. Multiplication would score four out of four on this fitness measure, addition would score one out of four, and division and subtraction would both score zero out of four. There are a large variety of fitness functions that can be used in machine learning, and the selection of the correct fitness function is crucial to the success of a machine learning project. The design of new fitness functions is a rich area of research in machine learning. Varying how the dataset is represented, and how the candidate functions and the fitness function are defined, results in three different categories of machine learning: supervised, unsupervised, and reinforcement learning.

    Supervised, Unsupervised, and Reinforcement Learning

    Supervised machine learning is the most common type of machine learning. In supervised machine learning, each example in the dataset is labeled with the expected output (or target) value. For example, if we were using the dataset in table 1.1 to learn a function that maps from the inputs of annual income and debt to a credit solvency score, the credit solvency feature in the dataset would be the target feature. In order to use supervised machine learning, our dataset must list the value of the target feature for every example in the dataset. These target feature values can sometimes be very difficult, and expensive, to collect. In some cases, we must pay human experts to label each example in a dataset with the correct target value. However, the benefit of having these target values in the dataset is that the machine learning algorithm can use these values to help the learning process. It does this by comparing the outputs a function produces with the target outputs specified in the dataset, and using the difference (or error) to evaluate the fitness of the candidate function, and use the fitness evaluation to guide the search for the best function. It is because of this feedback from the target labels in the dataset to the algorithm that this type of machine learning is considered supervised. This is the type of machine learning that was demonstrated by the example of choosing between different arithmetic functions to explain the behavior of an unknown function.

    Unsupervised machine learning is generally used for clustering data. For example, this type of data analysis is useful for customer segmentation, where a company wishes to segment its customer base into coherent groups so that it can target marketing campaigns and/or product designs to each group. In unsupervised machine learning, there are no target values in the dataset. Consequently, the algorithm cannot directly evaluate the fitness of a candidate function against the target values in the dataset. Instead, the machine learning algorithm tries to identify functions that map similar examples into clusters, such that the examples in a cluster are more similar to the other examples in the same cluster than they are to examples in other clusters. Note that the clusters are not prespecified, or at most they are initially very underspecified. For example, the data scientist might provide the algorithm with a target number of clusters, based on some intuition about the domain, without providing explicit information on relative sizes of the clusters or regarding the characteristics of examples that belong in each cluster. Unsupervised machine learning algorithms often begin by guessing an initial clustering of the examples and then iteratively adjusting the clusters (by dropping instances from one cluster and adding them to another) so as to improve the fitness of the cluster set. The fitness functions used in unsupervised machine learning generally reward candidate functions that result in higher similarity within individual clusters and, also, high diversity between clusters.

    Reinforcement learning is most relevant for online control tasks, such as robot control and game playing. In these scenarios, an agent needs to learn a policy for how it should act in an environment in order to be rewarded. In reinforcement learning, the goal of the agent is to learn a mapping from its current observation of the environment and its own internal state (its memory) to what action it should take: for instance, should the robot move forward or backward or should the computer program move the pawn or take the queen. The output of this policy (function) is the action that the agent should take next, given the current context. In these types of scenarios, it is difficult to create historic datasets, and so reinforcement learning is often carried out in situ: an agent is released into an environment where it experiments with different policies (starting with a potentially random policy) and over time updates its policy in response to the rewards it receives from the environment. If an action results in a positive reward, the mapping from the relevant observations and state to that action is reinforced in the policy, whereas if an action results in a negative reward, the mapping is weakened. Unlike in supervised and unsupervised machine learning, in reinforcement learning, the fact that learning is done in situ means that the training and inference stages are interleaved and ongoing. The agent infers what action it should do next and uses the feedback from the environment to learn how to update its policy. A distinctive aspect of reinforcement learning is that the target output of the learned function (the agent’s actions) is decoupled from the reward mechanism. The reward may be dependent on multiple actions and there may be no reward feedback, either positive or negative, available directly after an action has been performed. For example, in a chess scenario, the reward may be +1 if the agent wins the game and -1 if the agent loses. However, this reward feedback will not be available until the last move of the game has been completed. So, one of the challenges in reinforcement learning is designing training mechanisms that can distribute the reward appropriately back through a sequence of actions so that the policy can be updated appropriately. Google’s DeepMind Technologies generated a lot of interest by demonstrating how reinforcement learning could be used to train a deep learning model to learn control policies for seven different Atari computer games (Mnih et al. 2013). The input to the system was the raw pixel values from the screen, and the control policies specified what joystick action the agent should take at each point in the game. Computer game environments are particularly suited to reinforcement learning as the agent can be allowed to play many thousands of games against the computer game system in order to learn a successful policy, without incurring the cost of creating and labeling a large dataset of example situations with correct joystick actions. The DeepMind system got so good at the games that it outperformed all previous computer systems on six of the seven games, and outperformed human experts on three of the games.

    Deep learning can be applied to all three machine learning scenarios: supervised, unsupervised, and reinforcement. Supervised machine learning is, however, the most common type of machine learning. Consequently, the majority of this book will focus on deep learning in a supervised learning context. However, most of the deep learning concerns and principles introduced in the supervised learning context also apply to unsupervised and reinforcement learning.

    Why Is Deep Learning So Successful?

    In any data-driven process the primary determinant of success is knowing what to measure and how to measure it. This is why the processes of feature selection and feature design are so important to machine learning. As discussed above, these tasks can require domain expertise, statistical analysis of the data, and iterations of experiments building models with different feature sets. Consequently, dataset design and preparation can consume a significant portion of time and resources expended in the project, in some cases approaching up to 80% of the total budget of a project (Kelleher and Tierney 2018). Feature design is one task in which deep learning can have a significant advantage over traditional machine learning. In traditional machine learning, the design of features often requires a large amount of human effort. Deep learning takes a different approach to feature design, by attempting to automatically learn the features that are most useful for the task from the raw data.

    In any data-driven process the primary determinant of success is knowing what to measure and how to measure it.

    To give an example of feature design, a person’s body mass index (BMI) is the ratio of a person’s weight (in kilograms) divided by their height (in meters squared). In a medical setting, BMI is used to categorize people as underweight, normal, overweight, or obese. Categorizing people in this way can be useful in predicting the likelihood of a person developing a weight-related medical condition, such as diabetes. BMI is used for this categorization because it enables doctors to categorize people in a manner that is relevant to these weight-related medical conditions. Generally, as people get taller they also get heavier. However, most weight-related medical conditions (such as diabetes) are not affected by a person’s height but rather the amount they are overweight compared to other people of a similar stature. BMI is a useful feature to use for the medical categorization of a person’s weight because it takes the effect of height on weight into account. BMI is an example of a feature that is derived (or calculated) from raw features; in this case the raw features are weight and height. BMI is also an example of how a derived feature can be more useful in making a decision than the raw features that it is derived from. BMI is a hand-designed feature: Adolphe Quetelet designed it in the eighteenth century.

    As mentioned above, during a machine learning project a lot of time and effort is spent on identifying, or designing, (derived) features that are useful for the task the project is trying to solve. The advantage of deep learning is that it can learn useful derived features from data automatically (we will discuss how it does this in later chapters). Indeed, given large enough datasets, deep learning has proven to be so effective in learning features that deep learning models are now more accurate than many of the other machine learning models that use hand-engineered features. This is also why deep learning is so effective in domains where examples are described with very large numbers of features. Technically datasets that contain large numbers of features are called high-dimensional. For example, a dataset of photos with a feature for each pixel in a photo would be high-dimensional. In complex high-dimensional domains, it is extremely difficult to hand-engineer features: consider the challenges of hand-engineering features for face recognition or machine translation. So, in these complex domains, adopting a strategy whereby the features are automatically learned from a large dataset makes sense. Related to this ability to automatically learn useful features, deep learning also has the ability to learn complex nonlinear mappings between inputs and outputs; we will explain the concept of a nonlinear mapping in chapter 3, and in chapter 6 we will explain how these mappings are learned from data.

    Summary and the Road Ahead

    This chapter has focused on positioning deep learning within the broader field of machine learning. Consequently, much of this chapter has been devoted to introducing machine learning. In particular, the concept of a function as a deterministic mapping from inputs to outputs was introduced, and the goal of machine learning was explained as finding a function that matches the mappings from input features to the output features that are observed in the examples in the dataset.

    Within this machine learning context, deep learning was introduced as the subfield of machine learning that focuses on the design and evaluation of training algorithms and model architectures for modern neural networks. One of the distinctive aspects of deep learning within machine learning is the approach it takes to feature design. In most machine learning projects, feature design is a human-intensive task that can require deep domain expertise and consume a lot of time and project budget. Deep learning models, on the other hand, have the ability to learn useful features from low-level raw data, and complex nonlinear mappings from inputs to outputs. This ability is dependent on the availability of large datasets; however, when such datasets are available, deep learning can frequently outperform other machine learning approaches. Furthermore, this ability to learn useful features from large datasets is why deep learning can often generate highly accurate models for complex domains, be it in machine translation, speech processing, or image or video processing. In a sense, deep learning has unlocked the potential of big data. The most noticeable impact of this development has been the integration of deep learning models into consumer devices. However, the fact that deep learning can be used to analyze massive datasets also has implications for our individual privacy and civil liberty (Kelleher and Tierney 2018). This is why understanding what deep learning is, how it works, and what it can and can’t be used for, is so important. The road ahead is as follows:
    • Chapter 2 introduces some of the foundational concepts of deep learning, including what a model is, how the parameters of a model can be set using data, and how we can create complex models by combining simple models.
    • Chapter 3 explains what neural networks are, how they work, and what we mean by a deep neural network.
    • Chapter 4 presents a history of deep learning. This history focuses on the major conceptual and technical breakthroughs that have contributed to the development of the field of machine learning. In particular, it provides a context and explanation for why deep learning has seen such rapid development in recent years.
    • Chapter 5 describes the current state of the field, by introducing the two deep neural architectures that are the most popular today: convolutional neural networks and recurrent neural networks. Convolutional neural networks are ideally suited to processing image and video data. Recurrent neural networks are ideally suited to processing sequential data such as speech, text, or time-series data. Understanding the differences and commonalities across these two architectures will give you an awareness of how a deep neural network can be tailored to the characteristics of a specific type of data, and also an appreciation of the breadth of the design space of possible network architectures.
    • Chapter 6 explains how deep neural networks models are trained, using the gradient descent and backpropagation algorithms. Understanding these two algorithms will give you a real insight into the state of artificial intelligence. For example, it will help you to understand why, given enough data, it is currently possible to train a computer to do a specific task within a well-defined domain at a level beyond human capabilities, but also why a more general form of intelligence is still an open research challenge for artificial intelligence.
    • Chapter 7 looks to the future in the field of deep learning. It reviews the major trends driving the development of deep learning at present, and how they are likely to contribute to the development of the field in the coming years. The chapter also discusses some of the challenges the field faces, in particular the challenge of understanding and interpreting how a deep neural network works.

    2 Conceptual Foundations

    This chapter introduces some of the foundational concepts that underpin deep learning. The basis of this chapter is to decouple the initial presentation of these concepts from the technical terminology used in deep learning, which is introduced in subsequent chapters.

    A deep learning network is a mathematical model that is (loosely) inspired by the structure of the brain. Consequently, in order to understand deep learning it is helpful to have an intuitive understanding of what a mathematical model is, how the parameters of a model can be set, how we can combine (or compose) models, and how we can use geometry to understand how a model processes information.

    What Is a Mathematical Model?

    In its simplest form, a mathematical model is an equation that describes how one or more input variables are related to an output variable. In this form a mathematical model is the same as a function: a mapping from inputs to outputs.

    In any discussion relating to models, it is important to remember the statement by George Box that all models are wrong but some are useful! For a model to be useful it must have a correspondence with the real world. This correspondence is most obvious in terms of the meaning that can be associated with a variable. For example, in isolation a value such as 78,000 has no meaning because it has no correspondence with concepts in the real world. But yearly income=$78,000 tells us how the number describes an aspect of the real world. Once the variables in a model have a meaning, we can understand the model as describing a process through which different aspects of the world interact and cause new events. The new events are then described by the outputs of the model.

    A very simple template for a model is the equation of a line:

    In this equationis the output variable,is the input variable, andandare two parameters of the model that we can set to adjust the relationship the model defines between the input and the output.

    Imagine we have a hypothesis that yearly income affects a person’s happiness and we wish to describe the relationship between these two variables.1 Using the equation of a line, we could define a model to describe this relationship as follows:

    This model has a meaning because the variables in the model (as distinct from the parameters of the model) have a correspondence with concepts from the real world. To complete our model, we have to set the values of the model’s parameters:and. Figure 2.1 illustrates how varying the values of each of these parameters changes the relationship defined by the model between income and happiness.

    One important thing to notice in this figure is that no matter what values we set the model parameters to, the relationship defined by the model between the input and the output variable can be plotted as a line. This is not surprising because we used the equation of a line as the template to define our model, and this is why mathematical models that are based on the equation of a line are known as linear models. The other important thing to notice in the figure is how changing the parameters of the model changes the relationship between income and happiness.

    Figure 2.1 Three different linear models of how income affects happiness.

    The solid steep line, with parameters, is a model of the world in which people with zero income have a happiness level of 1, and increases in income have a significant effect on people’s happiness. The dashed line, with parameters, is a model in which people with zero income have a happiness level of 1 and increased income increases happiness, but at the slower rate compared to the world modeled by the solid line. Finally, the dotted line, parameters, is a model of the world where no one is particularly unhappy—even people with zero income have a happiness of 4 out of 10—and although increases in income do affect happiness, the effect is moderate. This third model assumes that income has a relatively weak effect on happiness.

    More generally, the differences between the three models in figure 2.1 show how making changes to the parameters of a linear model changes the model. Changingcauses the line to move up and done. This is most clearly seen if we focus on the y-axis: notice that the line defined by a model always crosses (or intercepts) the y-axis at the value thatis set to. This is why theparameter in a linear model is known as the intercept. The intercept can be understood as specifying the value of the output variable when the input variable is zero. Changing theparameter changes the angle (or slope) of the line. The slope parameter controls how quickly changes in income effect changes in happiness. In a sense, the slope value is a measure of how important income is to happiness. If income is very important (i.e., if small changes in income result in big changes in happiness), then the slope parameter of our model should be set to a large value. Another way of understanding this is to think of a slope parameter of a linear model as describing the importance, or weight, of the input variable in determining the value of the output.

    Linear Models with Multiple Inputs

    The equation of a line can be used as a template for mathematical models that have more than one input variable. For example, imagine yourself in a scenario where you have been hired by a financial institution to act as a loan officer and your job involves deciding whether or not a loan application should be granted. From interviewing domain experts you come up with a hypothesis that a useful way to model a person’s credit solvency is to consider both their yearly income and their current debts. If we assume that there is a linear relationship between these two input variables and a person’s credit solvency, then the appropriate mathematical model, written out in English would be:

    Notice that in this model the
    m
    parameter has been replaced by a separate weight for each input variable, with each weight representing the importance of its associated input in determining the output. In mathematical notation this model would be written as:

    where

    represents the credit solvency output,

    represents the income variable,

    represents the debt variable, and

    represents the intercept. Using the idea of adding a new weight for each new input to the model allows us to scale the equation of a line to as many inputs as we like. All the models defined in this way are still linear within the dimensions defined by the number of inputs and the output. What this means is that a linear model with two inputs and one output defines a flat plane rather than a line because that is what a two-dimensional line that has been extruded to three dimensions looks like.

    It can become tedious to write out a mathematical model that has a lot of inputs, so mathematicians like to write things in as compact a form as possible. With this in mind, the above equation is sometimes written in the short form:

    This notation tells us that to calculate the output variable
    y
    we must first go through all

    inputs and multiple each input by its corresponding weight, then we should sum together the results of these

    multiplications, and finally we add the

    intercept parameter to the result of the summation. The

    symbol tells us that we use addition to combine the results of the multiplications, and the index

    tells us that we multiply each input by the weight with the same index. We can make our notation even more compact by treating the intercept as a weight. One way to do this is to assume an

    that is always equal to 1 and to treat the intercept as the weight on this input, that is,

    . Doing this allows us to write out the model as follows:

    Notice that the index now starts at 0, rather than 1, because we are now assuming an extra input,
    input0=1
    , and we have relabeled the intercept
    weight0.

    Although we can write down a linear model in a number of different ways, the core of a linear model is that the output is calculated as the sum of the n input values multiplied by their corresponding weights. Consequently, this type of model defines a calculation known as a weighted sum, because we weight each input and sum the results. Although a weighted sum is easy to calculate, it turns out to be very useful in many situations, and it is the basic calculation used in every neuron in a neural network.

    Setting the Parameters of a Linear Model

    Let us return to our working scenario where we wish to create a model that enables us to calculate the credit solvency of individuals who have applied for a financial loan. For simplicity in presentation we will ignore the intercept parameter in this discussion as it is treated the same as the other parameters (i.e., the weights on the inputs). So, dropping the intercept parameter, we have the following linear model (or weighted sum) of the relationship between a person’s income and debt to their credit solvency:

    The multiplication of inputs by weights, followed by a summation, is known as a weighted sum.

    In order to complete our model, we need to specify the parameters of the model; that is, we need to specify the value of the weight for each input. One way to do this would be to use our domain expertise to come up with values for each of the parameters.

    For example, if we assume that an increase in a person’s income has a bigger impact on their credit solvency than a similar increase in their debt, we should set the weighting for income to be larger than that of the debt. The following model encodes this assumption; in particular this model specifies that income is three times as important as debt in determining a person’s credit solvency:

    The drawback with using domain knowledge to set the parameters of a model is that experts often disagree. For example, you may think that weighting income as three times as important as debt is not realistic; in that case the model can be adjusted by, for example, setting both income and debt to have an equal weighting, which would be equivalent to assuming that income and debt are equally important in determining credit solvency. One way to avoid arguments between experts is to use data to set the parameters. This is where machine learning helps. The learning done by machine learning is finding the parameters (or weights) of a model using a dataset.

    Learning Model Parameters from Data

    Later in the book we will describe the standard algorithm used to learn the weights for a linear model, known as the gradient descent algorithm. However, we can give a brief preview of the algorithm here. We start with a dataset containing a set of examples for which we have both the input values (income and debt) and the output value (credit solvency). Table 2.1 illustrates such a dataset from our credit solvency scenario.2

    The learning done by machine learning is finding the parameters (or weights) of a model using a dataset.

    We then begin the process of learning the weights by guessing initial values for each weight. It is very likely that this initial, guessed, model will be a very bad model. This is not a problem, however, because we will use the dataset to iteratively update the weights so that the model gets better and better, in terms of how well it matches the data. For the purpose of the example, we will use the model described above as our initial (guessed) model:

    Table 2.1. A dataset of loan applications and known credit solvency rating of the applicant

    IDAnnual incomeCurrent debtCredit solvency
    1$150-$100100
    2$250-$300-50
    3$450-$250400
    4$200-$350-300

    The general process for improving the weights of the model is to select an example from the dataset and feed the input values from the example into the model. This allows us to calculate an estimate of the output value for the example. Once we have this estimated output, we can calculate the error of the model on the example by subtracting the estimated output from the correct output for the example listed in the dataset. Using the error of the model on the example, we can improve how well the model fits the data by updating the weights in the model using the following strategy, or learning rule:
    • If the error is 0, then we should not change the weights of the model.
    • If the error is positive, then the output of the model was too low, so we should increase the output of the model for this example by increasing the weights for all the inputs that had positive values for the example and decreasing the weights for all the inputs that had negative values for the example.
    • If the error is negative, then the output of the model was too high, so we should decrease the output of the model for this example by decreasing the weights for all the inputs that had positive values for the example and increasing the weights for all the inputs that had negative values for the example.

    To illustrate the weight update process we will use example 1 from table 2.1 (income = 150, debt = -100, and solvency = 100) to test the accuracy of our guessed model and update the weights according to the resulting error.

    When the input values for the example are passed into the model, the credit solvency estimate returned by the model is 350. This is larger than the credit solvency listed for this example in the dataset, which is 100. As a result, the error of the model is negative (100 – 350 = –250); therefore, following the learning rule described above, we should decrease the output of the model for this example by decreasing the weights for positive inputs and increasing the weights for negative inputs. For this example, the income input had a positive value and the debt input had a negative value. If we decrease the weight for income by 1 and increase the weight for debt by 1, we end up with the following model:

    We can test if this weight update has improved the model by checking if the new model generates a better estimate for the example than the old model. The following illustrates pushing the same example through the new model:

    This time the credit solvency estimate generated by the model matches the value in the dataset, showing that the updated model fits the data more closely than the original model. In fact, this new model generates the correct output for all the examples in the dataset.

    In this example, we only needed to update the weights once in order to find a set of weights that made the behavior of the model consistent with all the examples in the dataset. Typically, however, it takes many iterations of presenting examples and updating weights to get a good model. Also, in this example, we have, for the sake of simplicity, assumed that the weights are updated by either adding or subtracting 1 from them. Generally, in machine learning, the calculation of how much to update each weight by is more complicated than this. However, these differences aside, the general process outlined here for updating the weights (or parameters) of a model in order to fit the model to a dataset is the learning process at the core of deep learning.

    Combining Models

    We now understand how we can specify a linear model to estimate an applicant’s credit solvency, and how we can modify the parameters of the model in order to fit the model to a dataset. However, as a loan officer our job is not simply to calculate an applicant’s credit solvency; we have to decide whether to grant the loan application or not. In other words, we need a rule that will take a credit solvency score as input and return a decision on the loan application. For example, we might use the decision rule that a person with a credit solvency above 200 will be granted a loan. This decision rule is also a model: it maps an input variable, in this case credit solvency, to an output variable, loan decision.

    Using this decision rule we can adjudicate on a loan application by first using the model of credit solvency to convert a loan applicant’s profile (described in terms of the annual income and debt) into a credit solvency score, and then passing the resulting credit solvency score through our decision rule model to generate the loan decision. We can write this process out in a pseudomathematical shorthand as follows:

    Using this notation, the entire decision process for adjudicating the loan application for example 1 from table 2.1 is:

    We are now in a position where we can use a model (composed of two simpler models, a decision rule and a weighted sum) to describe how a loan decision is made. What is more, if we use data from previous loan applications to set the parameters (i.e., the weights) of the model, our model will correspond to how we have processed previous loan applications. This is useful because we can use this model to process new applications in a way that is consistent with previous decisions. If a new loan application is submitted, we simply use our model to process the application and generate a decision. It is this ability to apply a mathematical model to new examples that makes mathematical modeling so useful.

    When we use the output of one model as the input to another model, we are creating a third model by combining two models. This strategy of building a complex model by combining smaller simpler models is at the core of deep learning networks. As we will see, a neural network is composed of a large number of small units called neurons. Each of these neurons is a simple model in its own right that maps from a set of inputs to an output. The overall model implemented by the network is created by feeding the outputs from one group of neurons as inputs into a second group of neurons and then feeding the outputs of the second group of neurons as inputs to a third group of neurons, as so on, until the final output of the model is generated. The core idea is that feeding the outputs of some neuron as inputs to other neurons enables these subsequent neurons to learn to solve a different part of the overall problem the network is trying to solve by building on the partial solutions implemented by the earlier neurons—in a similar way to the way the decision rule generates the final adjudication for a loan application by building on the calculation of the credit solvency model. We will return to this topic of model composition in subsequent chapters.

    Input Spaces, Weight Spaces, and Activation Spaces

    Although mathematical models can be written out as equations, it is often useful to understand the geometric meaning of a model. For example, the plots in figure 2.1 helped us understand how changes in the parameters of a linear model changed the relationship between the variables that the model defined. There are a number of geometric spaces that it is useful to distinguish between, and understand, when we are discussing neural networks. These are the input space, the weight space, and the activation space of a neuron. We can use the decision model for loan applications that we defined in the previous section to explain these three different types of spaces.

    We will begin by describing the concept of an input space. Our loan decision model took two inputs: the annual income and current debt of the applicant. Table 2.1 listed these input values for four example loan applications. We can plot the input space of this model by treating each of the input variables as the axis of a coordinate system. This coordinate space is referred to as the input space because each point in this space defines a possible combination of input values to the model. For example, the plot at the top-left of figure 2.2 shows the position of each of the four example loan applications within the models input space.

    The weight space for a model describes the universe of possible weight combinations that a model might use. We can plot the weight space for a model by defining a coordinate system with one axis per weight in the model. The loan decision model has only two weights, one weight for the annual income input, and one weight for the current debt input. Consequently, the weight space for this model has two dimensions. The plot at the top-right of figure 2.2 illustrates a portion of the weight space for this model. The location of the weight combination used by the modelis highlighted in this figure. Each point within this coordinate system describes a possible set of weights for the model, and therefore corresponds to a different weighted sum function within the model. Consequently, moving from one location to another within this weight space is equivalent to changing the model because it changes the mapping from inputs to output that the model defines.

    Figure 2.2 There are four different coordinate spaces related to the processing of the loan decision model: top-left plots the input space; top-right plots the weight space; bottom-left plots the activation (or decision) space; and bottom-right plots the input space with the decision boundary plotted.

    A linear model maps a set of input values to a point in a new space by applying a weighted sum calculation to the inputs: multiply each input by a weight, and sum the results of the multiplication. In our loan decision model it is in this space that we apply our decision rule. Thus, we could call this space the decision space, but, for reasons that will become clear when we describe the structure of a neuron in the next chapter, we call this space the activation space. The axes of a model’s activation space correspond to the weighted inputs to the model. Consequently, each point in the activation space defines a set of weighted inputs. Applying a decision rule, such as our rule that a person with a credit solvency above 200 will be granted a loan, to each point in this activation space, and recording the result of the decision for each point, enables us to plot the decision boundary of the model in this space. The decision boundary divides those points in the activation space that exceed the threshold, from those points in the space below the threshold. The plot in the bottom-left of figure 2.2 illustrates the activation space for our loan decision model. The positions of the four example loan applications listed in table 2.1 when they are projected into this activation space are shown. The diagonal black line in this figure shows the decision boundary. Using this threshold, loan application number three is granted and the other loan applications are rejected. We can, if we wish, project the decision boundary back into the original input space by recording for each location in the input space which side of the decision boundary in the activation space it is mapped to by the weighted sum function. The plot at the bottom-right of figure 2.2 shows the decision boundary in the original input space (note the change in the values on the axes) and was generated using this process. We will return to the concepts of weight spaces and decision boundaries in next chapter when we describe how adjusting the parameters of a neuron changes the set of input combinations that cause the neuron to output a high activation.

    Summary

    The main idea presented in this chapter is that a linear mathematical model, be it expressed as an equation or plotted as a line, describes a relationship between a set of inputs and an output. Be aware that not all mathematical models are linear models, and we will come across nonlinear models in this book. However, the fundamental calculation of a weighted sum of inputs does define a linear model. Another big idea introduced in this chapter is that a linear model (a weighted sum) has a set of parameters, that is, the weights used in the weighted sum. By changing these parameters we can change the relationship the model describes between the inputs and the output. If we wish we could set these weights by hand using our domain expertise; however, we can also use machine learning to set the weights of the model so that the behavior of the model fits the patterns found in a dataset. The last big idea introduced in this chapter was that we can build complex models by combining simpler models. This is done by using the output from one (or more) models as input(s) to another model. We used this technique to define our composite model to make loan decisions. As we will see in the next chapter, the structure of a neuron in a neural network is very similar to the structure of this loan decision model. Just like this model, a neuron calculates a weighted sum of its inputs and then feeds the result of this calculation into a second model that decides whether the neuron activates or not.

    The focus of this chapter has been to introduce some foundational concepts before we introduce the terminology of machine learning and deep learning. To give a quick overview of how the concepts introduced in this chapter map over to machine learning terminology, our loan decision model is equivalent to a two-input neuron that uses a threshold activation function. The two financial indicators (annual income and current debt) are analogous to the inputs the neuron receives. The terms input vector or feature vector are sometimes used to refer to the set of indicators describing a single example; in this context an example is a single loan applicant, described in terms of two features: annual income and current debt. Also, just like the loan decision model, a neuron associates a weight with each input. And, again, just like the loan decision model, a neuron multiplies each input by its associated weight and sums the results of these multiplications in order to calculate an overall score for the inputs. Finally, similar to the way we applied a threshold to the credit solvency score to convert it into a decision of whether to grant or reject the loan application, a neuron applies a function (known as an activation function) to convert the overall score of the inputs. In the earliest types of neurons, these activation functions were actually threshold functions that worked in exactly the same way as the score threshold used in this credit scoring example. In more recent neural networks, different types of activation functions (for example, the logistic, tanh, or ReLU functions) are used. We will introduce these activation functions in the next chapter.

    3 Neural Networks: The Building Blocks of Deep Learning

    The term deep learning describes a family of neural network models that have multiple layers of simple information processing programs, known as neurons, in the network. The focus of this chapter is to provide a clear and comprehensive introduction to how these neurons work and are interconnected in artificial neural networks. In later chapters, we will explain how neural networks are trained using data.

    A neural network is a computational model that is inspired by the structure of the human brain. The human brain is composed of a massive number of nerve cells, called neurons. In fact, some estimates put the number of neurons in the human brain at one hundred billion (Herculano-Houzel 2009). Neurons have a simple three-part structure consisting of: a cell body, a set of fibers called dendrites, and a single long fiber called an axon. Figure 3.1 illustrates the structure of a neuron and how it connects to other neurons in the brain. The dendrites and the axon stem from the cell body, and the dendrites of one neuron are connected to the axons of other neurons. The dendrites act as input channels to the neuron and receive signals sent from other neurons along their axons. The axon acts as the output channel of a neuron, and so other neurons, whose dendrites are connected to the axon, receive the signals sent along the axon as inputs.

    Neurons work in a very simple manner. If the incoming stimuli are strong enough, the neuron transmits an electrical pulse, called an action potential, along its axon to the other neurons that are connected to it. So, a neuron acts as an all-or-none switch, that takes in a set of inputs and either outputs an action potential or no output.

    This explanation of the human brain is a significant simplification of the biological reality, but it does capture the main points necessary to understand the analogy between the structure of the human brain and computational models called neural networks. These points of analogy are: (1) the brain is composed of a large number of interconnected and simple units called neurons; (2) the functioning of the brain can be understood as processing information, encoded as high or low electrical signals, or activation potentials, that spread across the network of neurons; and (3) each neuron receives a set of stimuli from its neighbors and maps these inputs to either a high- or low-value output. All computational models of neural networks have these characteristics.

    Figure 3.1 The structure of a neuron in the brain.

    Artificial Neural Networks

    An artificial neural network consists of a network of simple information processing units, called neurons. The power of neural networks to model complex relationships is not the result of complex mathematical models, but rather emerges from the interactions between a large set of simple neurons.

    Figure 3.2 illustrates the structure of a neural network. It is standard to think of the neurons in a neural network as organized into layers. The depicted network has five layers: one input layer, three hidden layers, and one output layer. A hidden layer is just a layer that is neither the input nor the output layer. Deep learning networks are neural networks that have many hidden layers of neurons. The minimum number of hidden layers necessary to be considered deep is two. However, most deep learning networks have many more than two hidden layers. The important point is that the depth of a network is measured in terms of the number of hidden layers, plus the output layer.

    Deep learning networks are neural networks that have many hidden layers of neurons.

    In figure 3.2, the squares in the input layer represent locations in memory that are used to present inputs to the network. These locations can be thought of as sensing neurons. There is no processing of information in these sensing neurons; the output of each of these neurons is simply the value of the data stored at the memory location. The circles in the figure represent the information processing neurons in the network. Each of these neurons takes a set of numeric values as input and maps them to a single output value. Each input to a processing neuron is either the output of a sensing neuron or the output of another processing neuron.

    Figure 3.2 Topological illustration of a simple neural network.

    The arrows in figure 3.2 illustrate how information flows through the network from the output of one neuron to the input of another neuron. Each connection in a network connects two neurons and each connection is directed, which means that information carried along a connection only flows in one direction. Each of the connections in a network has a weight associated with it. A connection weight is simply a number, but these weights are very important. The weight of a connection affects how a neuron processes the information it receives along the connection, and, in fact, training an artificial neural network, essentially, involves searching for the best (or optimal) set of weights.

    How an Artificial Neuron Processes Information

    The processing of information within a neuron, that is, the mapping from inputs to an output, is very similar to the loan decision model that we developed in chapter 2. Recall that the loan decision model first calculated a weighted sum over the input features (income and debt). The weights used in the weighted sum were adjusted using a dataset so that the results of the weighted sum calculation, given an loan applicant’s income and debt as inputs, was an accurate estimate of the applicant’s credit solvency score. The second stage of processing in the loan decision model involved passing the result of the weighted sum calculation (the estimated credit solvency score) through a decision rule. This decision rule was a function that mapped a credit solvency score to a decision on whether a loan application was granted or rejected.

    A neuron also implements a two-stage process to map inputs to an output. The first stage of processing involves the calculation of a weighted sum of the inputs to the neuron. Then the result of the weighted sum calculation is passed through a second function that maps the results of the weighted sum score to the neuron’s final output value. When we are designing a neuron, we can used many different types of functions for this second stage or processing; it may be as simple as the decision rule we used for our loan decision model, or it may be more complex. Typically the output value of a neuron is known as its activation value, so this second function, which maps from the result of the weighted sum to the activation value of the neuron, is known as an activation function.

    Figure 3.3 illustrates how these stages of processing are reflected in the structure of an artificial neuron. In figure 3.3, the Σ symbol represents the calculation of the weighted sum, and the φ symbol represents the activation function processing the weighted sum and generating the output from the neuron.

    Figure 3.3 The structure of an artificial neuron.

    The neuron in figure 3.3 receives n inputson n different input connections, and each connection has an associated weight. The weighted sum calculation involves the multiplication of inputs by weights and the summation of the resulting values. Mathematically this calculation is written as:

    This calculation can also be written in a more compact mathematical form as:

    For example, assuming a neuron received the inputsand had the following weights
    , the weighted sum calculation would be:
    z=(3X-3)+(9×1)
    =0

    The second stage of processing within a neuron is to pass the result of the weighted sum, the  value, through an activation function. Figure 3.4 plots the shape of a number of possible activation functions, as the input to each function,  ranges across an interval, either [-1, …, +1] or [-10, …, +10] depending on which interval best illustrates the shape of the function. Figure 3.4 (top) plots a threshold activation function. The decision rule we used in the loan decision model was an example of a threshold function; the threshold used in that decision rule was whether the credit solvency score was above 200. Threshold activations were common in early neural network research. Figure 3.4 (middle) plots the logistic and tanh activation functions. The units employing these activation functions were popular in multilayer networks until quite recently. Figure 3.4 (bottom) plots the rectifier (or hinge, or positive linear) activation function. This activation function is very popular in modern deep learning networks; in 2011 the rectifier activation function was shown to enable better training in deep networks (Glorot et al. 2011). In fact, as will be discussed in chapter 4, during the review of the history of deep learning, one of the trends in neural network research has been a shift from threshold activation to logistic and tanh activations, and then onto rectifier activation functions.

    Figure 3.4 Top: threshold function; middle: logistic and tanh functions; bottom: rectified linear function.

    Returning to the example, the result of the weighted summation step was . Figure 3.4 (middle plot, solid line) plots the logistic function. Assuming that the neuron is using a logistic activation function, this plot shows how the result of the summation will be mapped to an output activation: . The calculation of the output activation of this neuron can be summarized as:

    Notice that the processing of information in this neuron is nearly identical to the processing of information in the loan decision model we developed in the last chapter. The major difference is that we have replaced the decision threshold rule that mapped the weighted sum score to an accepted or rejected output with a logistic function that maps the weighted sum score to a value between 0 and 1. Depending on the location of this neuron in the network, the output activation of the neuron, in this instance , will either be passed as input to one or more neurons in the next layer in the network, or will be part of the overall output of the network. If a neuron is at the output layer, the interpretation of what its output value means would be dependent on the task that the neuron is designed to model. If a neuron is in one of the hidden layers of the network, then it may not be possible to put a meaningful interpretation on the output of the neuron apart from the general interpretation that it represents some sort of derived feature (similar to the BMI feature we discussed in chapter 1) that the network has found useful in generating its outputs. We will return to the challenge of interpreting the meaning of activations within a neural network in chapter 7.

    The key point to remember from this section is that a neuron, the fundamental building block of neural networks and deep learning, is defined by a simple two-step sequence of operations: calculating a weighted sum and then passing the result through an activation function.

    Figure 3.4 illustrates that neither the tanh nor the logistic function is a linear function. In fact, the plots of both of these functions have a distinctive s-shaped (rather than linear) profile. Not all activation functions have an s-shape (for example, the threshold and rectifier are not s-shaped), but all activation functions do apply a nonlinear mapping to the output of the weighted sum. In fact, it is the introduction of the nonlinear mapping into the processing of a neuron that is the reason why activation functions are used.

    Why Is an Activation Function Necessary?

    To understand why a nonlinear mapping is needed in a neuron, it is first necessary to understand that, essentially, all a neural network does is define a mapping from inputs to outputs, be it from a game position in Go to an evaluation of that position, or from an X-ray to a diagnosis of a patient. Neurons are the basic building blocks of neural networks, and therefore they are the basic building blocks of the mapping a network defines. The overall mapping from inputs to outputs that a network defines is composed of the mappings from inputs to outputs that each of the neurons within the network implement. The implication of this is that if all the neurons within a network were restricted to linear mappings (i.e., weighted sum calculations), the overall network would be restricted to a linear mapping from inputs to outputs. However, many of the relationships in the world that we might want to model are nonlinear, and if we attempt to model these relationships using a linear model, then the model will be very inaccurate. Attempting to model a nonlinear relationship with a linear model would be an example of the underfitting problem we discussed in chapter 1: underfitting occurs when the model used to encode the patterns in a dataset is too simple and as a result it is not accurate.

    A linear relationship exists between two things when an increase in one always results in an increase or decrease in the other at a constant rate. For example, if an employee is on a fixed hourly rate, which does not vary at weekends or if they do overtime, then there is a linear relationship between the number of hours they work and their pay. A plot of their hours worked versus their pay will result in a straight line; the steeper the line the higher their fixed hourly rate of pay. However, if we make the payment system for our hypothetical employee just slightly more complex, by, for example, increasing their hourly rate of pay when they do overtime or work weekends, then the relationship between the number of hours they work and their pay is no longer linear. Neural networks, and in particular deep learning networks, are typically used to model relationships that are much more complex than this employee’s pay. Modeling these relationships accurately requires that a network be able to learn and represent complex nonlinear mappings. So, in order to enable a neural network to implement such nonlinear mappings, a nonlinear step (the activation function) must be included within the processing of the neurons in the network.

    In principle, using any nonlinear function as an activation function enables a neural network to learn a nonlinear mapping from inputs to outputs. However, as we shall see later, most of the activation functions plotted in figure 3.4 have nice mathematical properties that are helpful when training a neural network, and this is why they are so popular in neural network research.

    The fact that the introduction of a nonlinearity into the processing of the neurons enables the network to learn a nonlinear mapping between input(s) and output is another illustration of the fact that the overall behavior of the network emerges from the interactions of the processing carried out by individual neurons within the network. Neural networks solve problems using a divide-and-conquer strategy: each of the neurons in a network solves one component of the larger problem, and the overall problem is solved by combining these component solutions. An important aspect of the power of neural networks is that during training, as the weights on the connections within the network are set, the network is in effect learning a decomposition of the larger problem, and the individual neurons are learning how to solve and combine solutions to the components within this problem decomposition.

    Within a neural network, some neurons may use different activation functions from other neurons in the network. Generally, however, all the neurons within a given layer of a network will be of the same type (i.e., they will all use the same activation function). Also, sometimes neurons are referred to as units, with a distinction made between units based on the activation function the units use: neurons that use a threshold activation function are known as threshold units, units that use a logistic activation function are known as logistic units, and neurons that use the rectifier activation function are known as rectified linear units, or ReLUs. For example, a network may have a layer of ReLUs connected to a layer of logistic units. The decision regarding which activation functions to use in the neurons in a network is made by the data scientist who is designing the network. To make this decision, a data scientist may run a number of experiments to test which activation functions give the best performance on a dataset. However, frequently data scientists default to using whichever activation function is popular at a given point. For example, currently ReLUs are the most popular type of unit in neural networks, but this may change as new activation functions are developed and tested. As we will discuss at the end of this chapter, the elements of a neural network that are set manually by the data scientist prior to the training process are known as hyperparameters.

    Neural networks solve problems using a divide-and-conquer strategy: each of the neurons in a network solves one component of the larger problem, and the overall problem is solved by combining these component solutions.

    The term hyperparameter is used to describe the manually fixed parts of the model in order to distinguish them from the parameters of the model, which are the parts of the model that are set automatically, by the machine learning algorithm, during the training process. The parameters of a neural network are the weights used in the weighted sum calculations of the neurons in the network. As we touched on in chapters 1 and 2, the standard training process for setting the parameters of a neural network is to begin by initializing the parameters (the network’s weights) to random values, and during training to use the performance of the network on the dataset to slowly adjust these weights so as to improve the accuracy of the model on the data. Chapter 6 describes the two algorithms that are most commonly used to train a neural network: the gradient descent algorithm and the backpropagation algorithm. What we will focus on next is understanding how changing the parameters of a neuron affects how the neuron responds to the inputs it receives.

    How Does Changing the Parameters of a Neuron Affect Its Behavior?

    The parameters of a neuron are the weights the neuron uses in the weighted sum calculation. Although the weighted sum calculation in a neuron is the same weighted sum used in a linear model, in a neuron the relationship between the weights and the final output of neuron is more complex because the result of the weighted sum is passed through an activation function in order to generate the final output. To understand how a neuron makes a decision on a given input, we need to understand the relationship between the neuron’s weights, the input it receives, and the output it generates in response.

    The relationship between a neuron’s weights and the output it generates for a given input is most easily understood in neurons that use a threshold activation function. A neuron using this type of activation function is equivalent to our loan decision model that used a decision rule to classify the credit solvency scores, generated by the weighted sum calculation, to reject or grant loan applications. At the end of chapter 2, we introduced the concepts of an input space, a weight space, and an activation space (see figure 2.2). The input space for our two-input loan decision model could be visualized as a two-dimensional space, with one input (annual income) plotted along the x-axis, and the other input (current debt) on the y-axis. Each point in this plot defined a potential combination of inputs to the model, and the set of points in the input space defines the set of possible inputs the model could process. The weights used in the loan decision model can be understood as dividing the input space into two regions: the first region contains all of the inputs that result in the loan application being granted, and the other region contains all the inputs that result in the loan application being rejected. In that scenario, changing the weights used by the decision model would change the set of loan applications that were accepted or rejected. Intuitively, this makes sense because it changes the weighting that we put on an applicant’s income relative to their debt when we are deciding on granting the loan or not.

    We can generalize the above analysis of the loan decision model to a neuron in a neural network. The equivalent neuron structure to the loan decision model is a two-input neuron with a threshold activation function. The input space for such a neuron has a similar structure to the input space for a loan decision model. Figure 3.5 presents three plots of the input space for a two-input neuron using a threshold function that outputs a high activation if the weighted sum result is greater than zero, and a low activation otherwise. The differences between each of the plots in this figure is that the neuron defines a different decision boundary in each case. In each plot, the decision boundary is marked with a black line.

    Each of the plots in figure 3.5 was created by first fixing the weights of the neuron and then for each point in the input space recording whether the neuron returned a high or low activation when the coordinates of the point were used as the inputs to the neuron. The input points for which the neuron returned a high activation are plotted in gray, and the other points are plotted in white. The only difference between the neurons used to create these plots was the weights used in calculating the weighted sum of the inputs. The arrow in each plot illustrates the weight vector used by the neuron to generate the plot. In this context, a vector describes the direction and distance of a point from the origin.1 As we shall see, interpreting the set of weights used by a neuron as defining a vector (an arrow from the origin to the coordinates of the weights) in the neuron’s input space is useful in understanding how changes in the weights change the decision boundary of the neuron.

    Figure 3.5 Decision boundaries for a two-input neuron. Top: weight vector [w1=1, w2=1]; middle: weight vector [w1=-2, w2=1]; bottom: weight vector [w1=1, w2=-2].

    The weights used to create each plot change from one plot to the next. These changes are reflected in the direction of the arrow (the weight vector) in each plot. Specifically, changing the weights rotates the weight vector around the origin. Notice that the decision boundary in each plot is sensitive to the direction of the weight vector: in all the plots, the decision boundary is orthogonal (i.e., at a right, or 90°, angle) to the weight vector. So, changing the weights not only rotates the weight vector, it also rotates the decision boundary of the neuron. This rotation changes the set of inputs that the neuron outputs a high activation in response to (the gray regions).

    To understand why this decision boundary is always orthogonal to the weight vector, we have to shift our perspective, for a moment, to linear algebra. Remember that every point in the input space defines a potential combination of input values to the neuron. Now, imagine each of these sets of input values as defining an arrow from the origin to the coordinates of the point in the input space. There is one arrow for each point in the input space. Each of these arrows is very similar to the weight vector, except that it points to the coordinates of the inputs rather than to the coordinates of the weights. When we treat a set of inputs as a vector, the weighted sum calculation is the same as multiplying two vectors, the input vector by the weight vector. In linear algebra terminology, multiplying two vectors is known as the dot product operation. For the purposes of this discussion, all we need to know about the dot product is that the result of this operation is dependent on the angle between the two vectors that are multiplied. If the angle between the two vectors is less than a right angle, then the result will be positive; otherwise, it will be negative. So, multiplying the weight vector by an input vector will return a positive value for all the input vectors at an angle less than a right angle to the weight vector, and a negative value for all the other vectors. The activation function used by this neuron returns a high activation when positive values are input and a low activation when negative values are input. Consequently, the decision boundary lies at a right angle to the weight vector because all the inputs at an angle less than a right angle to the weight vector will result in a positive input to the activation function and, therefore, trigger a high-output activation from the neuron; conversely, all the other inputs will result in a low-output activation from the neuron.

    Switching back to the plots in figure 3.5, although the decision boundaries in each of the plots are at different angles, all the decision boundaries go through the point in space that the weight vectors originate from (i.e., the origin). This illustrates that changing the weights of a neuron rotates the neuron’s decision boundary but does not translate it. Translating the decision boundary means moving the decision boundary up and down the weight vector, so that the point where it meets the vector is not the origin. The restriction that all decision boundaries must pass through the origin limits the distinctions that a neuron can learn between input patterns. The standard way to overcome this limitation is to extend the weighted sum calculation so that it includes an extra element, known as the bias term. This bias term is not the same as the inductive bias we discussed in chapter 1. It is more analogous to the intercept parameter in the equation of a line, which moves the line up and down the y-axis. The purpose of this bias term is to move (or translate) the decision boundary away from the origin.

    The bias term is simply an extra value that is included in the calculation of the weighted sum. It is introduced into the neuron by adding the bias to the result of the weighted summation prior to passing it through the activation function. Here is the equation describing the processing stages in a neuron with the bias term represented by the term b:

    Figure 3.6 illustrates how the value of the bias term affects the decision boundary of a neuron. When the bias term is negative, the decision boundary is moved away from the origin in the direction that the weight vector points to (as in the top and middle plots in figure 3.6); when the bias term is positive, the decision boundary is translated in the opposite direction (see the bottom plot of figure 3.6). In both cases, the decision boundary remains orthogonal to the weight vector. Also, the size of the bias term affects the amount the decision boundary is moved from the origin; the larger the value of the bias term, the more the decision boundary is moved (compare the top plot of figure 3.6 with the middle and bottom plots).

    Figure 3.6 Decision boundary plots for a two-input neuron that illustrate the effect of the bias term on the decision boundary. Top: weight vector [w1=1, w2=1] and bias equal to -1; middle: weight vector [w1=-2, w2=1] and bias equal to -2; bottom: weight vector [w1=1, w2=-2] and bias equal to 2.

    Instead of manually setting the value of the bias term, it is preferable to allow a neuron to learn the appropriate bias. The simplest way to do this is to treat the bias term as a weight and allow the neuron to learn the bias term at the same time that it is learning the rest of the weights for its inputs. All that is required to achieve this is to augment all the input vectors the neuron receives with an extra input that is always set to 1. By convention, this input is input 0 (), and, consequently, the bias term is specified by weight 0 ().2 Figure 3.7 illustrates the structure of an artificial neuron when the bias term has been integrated as .

    When the bias term has been integrated into the weights of a neuron, the equation specifying the mapping from input(s) to output activation of the neuron can be simplified (at least from a notational perspective) as follows:

    Notice that in this equation the index  goes from  to , so that it now includes the fixed input, , and the bias term, ; in the earlier version of this equation, the index only went from  to . This new format means that the neuron is able to learn the bias term, simply by learning the appropriate weight , using the same process that is used to learn the weights for the other inputs: at the start of training, the bias term for each neuron in the network will be initialized to a random value and then adjusted, along with the weights of the network, in response to the performance of the network on the dataset.

    Figure 3.7 An artificial neuron with a bias term included as w0.

    Accelerating Neural Network Training Using GPUs

    Merging the bias term is more than a notational convenience; it enables us to use specialized hardware to accelerate the training of neural networks. The fact that a bias term can be treated as the same as a weight means that the calculation of the weighted sum of inputs (including the addition of the bias term) can be treated as the multiplication of two vectors. As we discussed earlier, during the explanation of why the decision boundary was orthogonal to the weight vector, we can think of a set of inputs as a vector. Recognizing that much of the processing within a neural network involves vector and matrix multiplications opens up the possibility of using specialized hardware to speed up these calculations. For example, graphics processing units (GPUs) are hardware components that have specifically been designed to do extremely fast matrix multiplications.

    In a standard feedforward network, all the neurons in one layer receive all the outputs (i.e., activations) from all the neurons in the preceding layer. This means that all the neurons in a layer receive the same set of inputs. As a result, we can calculate the weighted sum calculation for all the neurons in a layer using only a single vector by matrix multiplication. Doing this is much faster than calculating a separate weighted sum for each neuron in the layer. To do this calculation of weighted sums for an entire layer of neurons in a single multiplication, we put the outputs from the neurons in the preceding layer into a vector and store all the weights of the connections between the two layers of neurons in a matrix. We then multiply the vector by the matrix, and the resulting vector contains the weighted sums for all the neurons.

    Figure 3.8 illustrates how the weighted summation calculations for all the neurons in a layer in a network can be calculated using a single matrix multiplication operation. This figure is composed of two separate graphics: the graphic on the left illustrates the connections between neurons in two layers of a network, and the graphic on the right illustrates the matrix operation to calculate the weighted sums for the neurons in the second layer of the network. To help maintain a correspondence between the two graphics, the connections into neuron E are highlighted in the graphic on the left, and the calculation of the weighted sum in neuron E is highlighted in the graphic on the right.

    Focusing on the graphic on the right, the  vector (1 row, 3 columns) on the bottom-left of this graphic, stores the activations for the neurons in layer 1 of the network; note that these activations are the outputs from an activation function  (the particular activation function is not specified—it could be a threshold function, a tanh, a logistic function, or a rectified linear unit/ReLU function). The  matrix (three rows and four columns), in the top-right of the graphic, holds the weights for the connections between the two layers of neurons. In this matrix, each column stores the weights for the connections coming into one of the neurons in the second layer of the network. The first column stores the weights for neuron D, the second column for neuron E, etc.3 Multiplying the  vector of activations from layer 1 by the  weight matrix results in a  vector corresponding to the weighted summations for the four neurons in layer 2 of the network:  is the weighted sum of inputs for neuron D,  for neuron E, and so on.

    To generate the  vector containing the weighted summations for the neurons in layer 2, the activation vector is multiplied by each column in the matrix in turn. This is done by multiplying the first (leftmost) element in the vector by the first (topmost) element in the column, then multiplying the second element in the vector by the element in the second row in the column, and so on, until each element in the vector has been multiplied by its corresponding column element. Once all the multiplications between the vector and the column have been completed, the results are summed together and the stored in the output vector. Figure 3.8 illustrates multiplication of the activation vector by the second column in the weight matrix (the column containing the weights for inputs to neuron E) and the storing of the summation of these multiplications in the output vector as the value .

    Figure 3.8 A graphical illustration of the topological connections of a specific neuron E in a network, and the corresponding vector by matrix multiplication that calculates the weighted summation of inputs for the neuron E, and its siblings in the same layer.5

    Indeed, the calculation implemented by an entire neural network can be represented as a chain of matrix multiplications, with an element-wise application of activation functions to the results of each multiplication. Figure 3.9 illustrates how a neural network can be represented in both graph form (on the left) and as a sequence of matrix operations (on the right). In the matrix representation, the  symbol represents standard matrix multiplication (described above) and the  notation represents the application of an activation function to each element in the vector created by the preceding matrix multiplication. The output of this element-wise application of the activation function is a vector containing the activations for the neurons in a layer of the network. To help show the correspondence between the two representations, both figures show the inputs to the network,  and , the activations from the three hidden units, , and , and the overall output of the network, .

    Figure 3.9 A graph representation of a neural network (left), and the same network represented as a sequence of matrix operations (right).6

    As a side note, the matrix representation provides a transparent view of the depth of a network; the network’s depth is counted as the number of layers that have a weight matrix associated with them (or equivalently, the depth of a network is the number of weight matrices required by the network). This is why the input layer is not counted when calculating the depth of a network: it does not have a weight matrix associated with it.

    As mentioned above, the fact that the majority of calculations in a neural network can be represented as a sequence of matrix operations has important computational implications for deep learning. A neural network may contain over a million neurons, and the current trend is for the size of these networks to double every two to three years.4 Furthermore, deep learning networks are trained by iteratively running a network on examples sampled from very large datasets and then updating the network parameters (i.e., the weights) to improve performance. Consequently, training a deep learning network can require very large numbers of network runs, with each network run requiring millions of calculations. This is why computational speedups, such as those that can be achieved by using GPUs to perform matrix multiplications, have been so important for the development of deep learning.

    The relationship between GPUs and deep learning is not one-way. The growth in demand for GPUs generated by deep learning has had a significant impact on GPU manufacturers. Deep learning has resulted in these companies refocusing their business. Traditionally, these companies would have focused on the computer games market, since the original motivation for developing GPU chips was to improve graphics rendering, and this had a natural application to computer games. However, in recent years these companies have focused on positioning GPUs as hardware for deep learning and artificial intelligence applications. Furthermore, GPU companies have also invested to ensure that their products support the top deep learning software frameworks.

    Summary

    The primary theme in this chapter has been that deep learning networks are composed of large numbers of simple processing units that work together to learn and implement complex mappings from large datasets. These simple units, neurons, execute a two-stage process: first, a weighted summation over the inputs to the neuron is calculated, and second, the result of the weighted summation is passed through a nonlinear function, known as an activation function. The fact that a weighted summation function can be efficiently calculated across a layer of neurons using a single matrix multiplication operation is important: it means that neural networks can be understood as a sequence of matrix operations; this has permitted the use of GPUs, hardware optimized to perform fast matrix multiplication, to speed up the training of networks, which in turn has enabled the size of networks to grow.

    The compositional nature of neural networks means that it is possible to understand at a very fundamental level how a neural network operates. Providing a comprehensive description of this level of processing has been the focus of this chapter. However, the compositional nature of neural networks also raises a raft of questions in relation to how a network should be composed to solve a given task, for example:
    • Which activation functions should the neurons in a network use?
    • How many layers should there be in a network?
    • How many neurons should there be in each layer?
    • How should the neurons be connected together?

    Unfortunately, many of these questions cannot be answered at a level of pure principle. In machine learning terminology, the types of concepts these questions are about are known as hyperparameters, as distinct from model parameters. The parameters of a neural network are the weights on the edges, and these are set by training the network using large datasets. By contrast, hyperparameters are the parameters of a model (in these cases, the parameters of a neural network architecture) and/or training algorithm that cannot be directly estimated from the data but instead must be specified by the person creating the model, either through the use of heuristic rules, intuition, or trial and error. Often, much of the effort that goes into the creation of a deep learning network involves experimental work to answer the questions in relation to hyperparameters, and this process is known as hyperparameter tuning. The next chapter will review the history and evolution of deep learning, and the challenges posed by many of these questions are themes running through the review. Subsequent chapters in the book will explore how answering these questions in different ways can create networks with very different characteristics, each suited to different types of tasks. For example, recurrent neural networks are best suited to processing sequential/time-series data, whereas convolutional neural networks were originally developed to process images. Both of these network types are, however, built using the same fundamental processing unit, the artificial neuron; the differences in the behavior and abilities of these networks stems from how these neurons are arranged and composed.

    4 A Brief History of Deep Learning

    The history of deep learning can be described as three major periods of excitement and innovation, interspersed with periods of disillusionment. Figure 4.1 shows a timeline of this history, which highlights these periods of major research: on threshold logic units (early 1940s to the mid 1960s), connectionism (early 1980s to mid-1990s), and deep learning (mid 2000s to the present). Figure 4.1 distinguishes some of the primary characteristics of the networks developed in each of these three periods. The changes in these network characteristics highlight some of the major themes within the evolution of deep learning, including: the shift from binary to continuous values; the move from threshold activation functions, to logistic and tanh activation, and then onto ReLU activation; and the progressive deepening of the networks, from single layer, to multiple layer, and then onto deep networks. Finally, the upper half of figure 4.1 presents some of the important conceptual breakthroughs, training algorithms, and model architectures that have contributed to the evolution of deep learning.

    Figure 4.1 provides a map of the structure of this chapter, with the sequence of concepts introduced in the chapter generally following the chronology of this timeline. The two gray rectangles in figure 4.1 represent the development of two important deep learning network architectures: convolutional neural networks (CNNs), and recurrent neural networks (RNNs). We will describe the evolution of these two network architectures in this chapter, and chapter 5 will give a more detailed explanation of how these networks work.

    Figure 4.1 History of Deep Learning.

    Early Research: Threshold Logic Units

    In some of the literature on deep learning, the early neural network research is categorized as being part of cybernetics, a field of research that is concerned with developing computational models of control and learning in biological units. However, in figure 4.1, following the terminology used in Nilsson (1965), this early work is categorized as research on threshold logic units because this term transparently describes the main characteristics of the systems developed during this period. Most of the models developed in the 1940s, ’50s, and ’60s processed Boolean inputs (true/false represented as +1/-1 or 1/0) and generated Boolean outputs. They also used threshold activation functions (introduced in chapter 3), and were restricted to single-layer networks; in other words, they were restricted to a single matrix of tunable weights. Frequently, the focus of this early research was on understanding whether computational models based on artificial neurons had the capacity to learn logical relations, such as conjunction or disjunction.

    In 1943, Walter McCulloch and Walter Pitts published an influential computational model of biological neurons in a paper entitled: “A Logical Calculus of the Ideas Immanent in Nervous Activity” (McCulloch and Pitts 1943). The paper highlighted the all-or-none characteristic of neural activity in the brain and set out to mathematically describe neural activity in terms of a calculus of propositional logic. In the McCulloch and Pitts model, all the inputs and the output to a neuron were either 0 or 1. Furthermore, each input was either excitatory (having a weight of +1) or inhibitory (having a weight of -1). A key concept introduced in the McCulloch and Pitts model was a summation of inputs followed by a threshold function being applied to the result of the summation. In the summation, if an excitatory input was on, it added 1; if an inhibitory input was on, it subtracted 1. If the result of the summation was above a preset threshold, then the output of the neuron was 1; otherwise, it output a 0. In the paper, McCulloch and Pitts demonstrated how logical operations (such as conjunction, disjunction, and negation) could be represented using this simple model. The McCulloch and Pitts model integrated the majority of the elements that are present in the artificial neurons introduced in chapter 3. In this model, however, the neuron was fixed; in other words the weights and threshold were set by han.

    In 1949, Donald O. Hebb published a book entitled The Organization of Behavior, in which he set out a neuropsychological theory (integrating psychology and the physiology of the brain) to explain general human behavior. The fundamental premise of the theory was that behavior emerged through the actions and interactions of neurons. For neural network research, the most important idea in this book was a postulate, now known as Hebb’s postulate, which explained the creation of lasting memory in animals based on a process of changes to the connections between neurons:
    When an axon of a cell A is near enough to excite a cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that A’s efficiency, as one of the cells firing B, is increased. (Hebb 1949, p. 62)

    This postulate was important because it asserted that information was stored in the connections between neurons (i.e., in the weights of a network), and furthermore that learning occurred by changing these connections based on repeated patterns of activation (i.e., learning can take place within a network by changing the weights of the network).

    Rosenblatt’s Perceptron Training Rule

    In the years following Hebb’s publication, a number of researchers proposed computational models of neuron activity that integrated the Boolean threshold activation units of McCulloch and Pitts, with a learning mechanism based on adjusting the weights applied to the inputs. The best known of these models was Frank Rosenblatt’s perceptron model (Rosenblatt 1958). Conceptually, the perceptron model can be understood as a neural network consisting of a single artificial neuron that uses a threshold activation unit. Importantly, a perceptron network only has a single layer of weights. The first implementation of a perceptron was a software implementation on an IBM 704 system (and this was probably the first implementation of any neural network). However, Rosenblatt always intended the perceptron to be a physical machine and it was later implemented in custom-built hardware known as the “Mark 1 perceptron.” The Mark 1 perceptron received input from a camera that generated a 400-pixel image that was passed into the machine via an array of 400 photocells that were in turn connected to the neurons. The weights on connections to the neurons were implemented using adjustable electrical resistors known as potentiometers, and weight adjustments were implemented by using electric motors to adjust the potentiometers.

    Rosenblatt proposed an error-correcting training procedure for updating the weights of a perceptron so that it could learn to distinguish between two classes of input: inputs for which the perceptron should produce the output, and inputs for which the perceptron should produce the output(Rosenblatt 1960). The training procedure assumes a set of Boolean encoded input patterns, each with an associated target output. At the start of training, the weights in the perceptron are initialized to random values. Training then proceeds by iterating through the training examples, and after each example has been presented to the network, the weights of the network are updated based on the error between the output generated by the perceptron and the target output specified in the data. The training examples can be presented to the network in any order and examples may be presented multiple times before training is completed. A complete training pass through the set of examples is known as an iteration, and training terminates when the perceptron correctly classifies all the examples in an iteration.

    Rosenblatt defined a learning rule (known as the perceptron training rule) to update each weight in a perceptron after a training example has been processed. The strategy the rule used to update the weights is the same as the three-condition strategy we introduced in chapter 2 to adjust the weights in the loan decision model:
    1. If the output of the model for an example matches the output specified for that example in the dataset, then don’t update the weights.
    2. If the output of the model is too low for the current example, then increase the output of the model by increasing the weights for the inputs that had positive value for the example and decreasing the weights for the inputs that had a negative value for the example.
    3. If the output of the model is too high for the current example, then reduce the output of the model by decreasing the weights for the inputs that had a positive value and increasing the weights for the inputs that had a negative value for the example.

    Written out in an equation, Rosenblatt’s learning rule updates a weight  (
    ) as:

    In this rule,
      is the value of weight i after the network weights have been updated in response to the processing of example t is the value of weight i used during the processing of example t is a preset positive constant (known as the learning rate, discussed below),  is the expected output for example t as specified in the training dataset,  is the output generated by the perceptron for example t, and  is the component of input t that was weighted by  during the processing of the example.

    Although it may look complex, the perceptron training rule is in fact just a mathematical specification of the three-condition weight update strategy described above. The primary part of the equation to understand is the calculation of the difference between the expected output and what the perceptron actually predicted: . The outcome of this subtraction tells us which of the three update conditions we are in. In understanding how this subtraction works, it is important to remember that for a perceptron model the desired output is always either  or . The first condition is when ; then the output of the perceptron is correct and the weights are not changed.

    The second weight update condition is when the output of the perceptron is too large. This condition can only be occur when the correct output for example  is  and so this condition is triggered when . In this case, if the perceptron output for the example  is , then the error term is negative () and the weight  is updated by . Assuming, for the purpose of this explanation, that  is set to 0.5, then this weight update simplifies to . In other words, when the perceptron’s output is too large, the weight update rule subtracts the input values from the weights. This will decrease the weights on inputs with positive values for the example, and increase the weights on inputs with negative values for the example (subtracting a negative number is the same as adding a positive number).

    The third weight update condition is when the output of the perceptron is too small. This weight update condition is the exact opposite of the second. It can only occur when  and so is triggered when . In this case (), and the weight is updated by . Again assuming that  is set to 0.5, then this update simplifies to , which highlights that when the error of the perceptron is positive, the rule updates the weight by adding the input to the weight. This has the effect of decreasing the weights on inputs with negative values for the example and increasing the weight on inputs with positive values for the example.

    At a number of points in the preceding paragraphs we have referred to learning rate, . The purpose of the learning rate, , is to control the size of the adjustments that are applied to a weight. The learning rate is an example of a hyperparameter that is preset before the model is trained. There is a tradeoff in setting the learning rate:
    • If the learning rate is too small, it may take a very long time for the training process to converge on an appropriate set of weights.
    • If the learning rate is too large, the network’s weights may jump around the weight space too much and the training may not converge at all.

    One strategy for setting the learning rate is to set it to a relatively small positive value (e.g., 0.01), and another strategy is to initialize it to a larger value (e.g., 1.0) but to systematically reduce it as the training progresses

    (e.g.,

    ).

    To make this discussion regarding the learning rate more concrete, imagine you are trying to solve a puzzle that requires you to get a small ball to roll into a hole. You are able to control the direction and speed of the ball by tilting the surface that the ball is rolling on. If you tilt the surface too steeply, the ball will move very fast and is likely to go past the hole, requiring you to adjust the surface again, and if you overadjust you may end up repeatedly tilting the surface. On the other hand, if you only tilt the surface a tiny bit, the ball may not start to move at all, or it may move very slowly taking a long time to reach the hole. Now, in many ways the challenge of getting the ball to roll into the hole is similar to the problem of finding the best set of weights for a network. Think of each point on the surface the ball is rolling across as a possible set of network weights. The ball’s position at each point in time specifies the current set of weights of the network. The position of the hole specifies the optimal set of network weights for the task we are training the network to complete. In this context, guiding the network to the optimal set of weights is analogous to guiding the ball to the hole. The learning rate allows us to control how quickly we move across the surface as we search for the optimal set of weights. If we set the learning rate to a high value, we move quickly across the surface: we allow large updates to the weights at each iteration, so there are big differences between the network weights in one iteration and the next. Or, using our rolling ball analogy, the ball is moving very quickly, and just like in the puzzle when the ball is rolling too fast and passes the hole, our search process may be moving so fast that it misses the optimal set of weights. Conversely, if we set the learning rate to a low value, we move very slowly across the surface: we only allow small updates to the weights at each iteration; or, in other words, we only allow the ball to move very slowly. With a low learning rate, we are less likely to miss the optimal set of weights, but it may take an inordinate amount of time to get to them. The strategy of starting with a high learning rate and then systematically reducing it is equivalent to steeply tilting the puzzle surface to get the ball moving and then reducing the tilt to control the ball as it approaches the hole.

    Rosenblatt proved that if a set of weights exists that enables the perceptron to properly classify all of the training examples correctly, the perceptron training algorithm will eventually converge on this set of weights. This finding is known as the perceptron convergence theorem (Rosenblatt 1962). The difficulty with training a perceptron, however, is that it may require a substantial number of iterations through the data before the algorithm converges. Furthermore, for many problems it is unknown whether an appropriate set of weights exists in advance; consequently, if training has been going on for a long time, it is not possible to know whether the training process is simply taking a long time to converge on the weights and terminate, or whether it will never terminate.

    The Least Mean Squares Algorithm

    Around the same time that Rosenblatt was developing the perceptron, Bernard Widrow and Marcian Hoff were developing a very similar model called the ADALINE (short for adaptive linear neuron), along with a learning rule called the LMS (least mean square) algorithm (Widrow and Hoff 1960). An ADALINE network consists of a single neuron that is very similar to a perceptron; the only difference is that an ADALINE network does not use a threshold function. In fact, the output of an ADALINE network is the just the weighted sum of the inputs. This is why it is known as a linear neuron: a weighted sum is a linear function (it defines a line), and so an ADALINE network implements a linear mapping from inputs to output. The LMS rule is nearly identical to the perceptron learning rule, except that the output of the perceptron for a given example  is replaced by the weighted sum of the inputs:

    The logic of the LMS update rule is the same as that of the perceptron training rule. If the output is too large, then weights that were applied to a positive input caused the output to be larger, and these weights should be decreased, and those that were applied to a negative input should be increased, thereby reducing the output the next time this input pattern is received. And, by the same logic, if the output is too small, then weights that were applied to a positive input are increased and those that were applied to a negative input should be decreased.

    If the output of the model is too large, then weights associated with positive inputs should be reduced, whereas if the output is too small, then these weights should be increased.

    One of the important aspects of Widrow and Hoff’s work was to show that LMS rule could be used to train network to predict a number of any value, not just a +1 or -1. This learning rule was called the least mean square algorithm because using the LMS rule to iteratively adjust the weights in a neuron is equivalent to minimizing the average squared error on the training set. Today, the LMS learning rule is sometimes called the Widrow-Hoff learning rule, after the inventors; however, it is more commonly called the delta rule because it uses the difference (or delta) between desired output and the actual output to calculate the weight adjustments. In other words, the LMS rule specifies that a weight should be adjusted in proportion to the difference between the output of an ADALINE network and the desired output: if the neuron makes a large error, then the weights are adjusted by a large amount, if the neuron makes a small error, then weights are adjusted by a small amount.

    Today, the perceptron is recognized as important milestone in the development of neural networks because it was the first neural network to be implemented. However, most modern algorithms for training neural networks are more similar to the LMS algorithm. The LMS algorithm attempts to minimize the mean squared error of the network. As will be discussed in chapter 6, technically this iterative error reduction process involves a gradient descent down an error surface; and, today, nearly all neural networks are trained using some variant of gradient descent.

    The XOR Problem

    The success of Rosenblatt, Widrow and Hoff, and others, in demonstrating that neural network models could automatically learn to distinguish between different sets of patterns, generated a lot of excitement around artificial intelligence and neural network research. However, in 1969, Marvin Minsky and Seymour Papert published a book entitled Perceptrons, which, in the annals of neural network research, is attributed with single-handedly destroying this early excitement and optimism (Minsky and Papert 1969). Admittedly, throughout the 1960s neural network research had suffered from a lot of hype, and a lack of success in terms of fulfilling the correspondingly high expectations. However, Minsky and Papert’s book set out a very negative view of the representational power of neural networks, and after its publication funding for neural network research dried up.

    Minsky and Papert’s book primarily focused on single layer perceptrons. Remember that a single layer perceptron is the same as a single neuron that uses a threshold activation function, and so a single layer perceptron is restricted to implementing a linear (straight-line) decision boundary.1 This means that a single layer perceptron can only learn to distinguish between two classes of inputs if it is possible to draw a straight line in the input space that has all of the examples of one class on one side of the line and all examples of the other class on the other side of the line. Minsky and Papert highlighted this restriction as a weakness of these models.

    To understand Minsky and Papert’s criticism of single layer perceptrons, we must first understand the concept of a linearly separable function. We will use a comparison between the logical AND and OR functions with the logical XOR function to explain the concept of a linearly separable function. The AND function takes two inputs, each of which can be either TRUE or FALSE, and returns TRUE if both inputs are TRUE. The plot on the left of figure 4.4 shows the input space for the AND function and categorizes each of the four possible input combinations as either resulting in an output value of TRUE (shown in the figure by using a clear dot) or FALSE (shown in the figure by using black dots). This plot illustrates that is possible to draw a straight line between the inputs for which the AND function returns TRUE, (T,T), and the inputs for which the function returns FALSE, {(F,F), (F,T), (T,F)}. The OR function is similar to the AND function, except that it returns TRUE if either or both inputs are TRUE. The middle plot in figure 4.4 shows that it is possible to draw a line that separates the inputs that the OR function classifies as TRUE, {(F,T), (T,F), (T,T)}, from those it classifies as FALSE, (F,F). It is because we can draw a single straight line in the input space of these functions that divides the inputs belonging to one category of output from the inputs belonging to the other output category that the AND and OR functions are linearly separable functions.

    The XOR function is also similar in structure to the AND and OR functions; however, it only returns TRUE if one (but not both) of its inputs are TRUE. The plot on the right of figure 4.2 shows the input space for the XOR function and categorizes each of the four possible input combinations as returning either TRUE (shown in the figure by using a clear dot) or FALSE (shown in the figure by using black dots). Looking at this plot you will see that it is not possible to draw a straight line between the inputs the XOR function classifies as TRUE and those that it classifies as FALSE. It is because we cannot use a single straight line to separate the inputs belonging to different categories of outputs for the XOR function that this function is said to be a nonlinearly separable function. The fact that the XOR function is nonlinearly separable does not make the function unique, or even rare—there are many functions that are nonlinearly separable.

    Figure 4.2 Illustrations of the linearly separable function. In each figure, black dots represent inputs for which the function returns FALSE, circles represent inputs for which the function returns TRUE. (T stands for true and F stands for false.)

    The key criticism that Minsky and Papert made of single layer perceptrons was that these single layer models were unable to learn nonlinearly separable functions, such as the XOR function. The reason for this limitation is that the decision boundary of a perceptron is linear and so a single layer perceptron cannot learn to distinguish between the inputs that belong to one output category of a nonlinearly separable function from those that belong to the other category.

    It was known at the time of Minsky and Papert’s publication that it was possible to construct neural networks that defined a nonlinear decision boundary, and thus learn nonlinearly separable functions (such as the XOR function). The key to creating networks with more complex (nonlinear) decision boundaries was to extend the network to have multiple layers of neurons. For example, figure 4.3 shows a two-layer network that implements the XOR function. In this network, the logical TRUE and FALSE values are mapped to numeric values: FALSE values are represented by 0, and TRUE values are represented by 1. In this network, units activate (output +1) if the weighted sum of inputs is ; otherwise, they output 0. Notice that the units in the hidden layer implement the logical AND and OR functions. These can be understood as intermediate steps to solving the XOR challenge. The unit in the output layer implements the XOR by composing the outputs of these hidden layers. In other words, the unit in the output layer returns TRUE only when the AND node is off (output=0) and the OR node is on (output=1). However, it wasn’t clear at the time how to train networks with multiple layers. Also, at the end of their book, Minsky and Papert argued that “in their judgment” the research on extending neural networks to multiple layers was “sterile” (Minsky and Papert 1969, sec. 13.2 page 23).

    Figure 4.3 A network that implements the XOR function. All processing units use a threshold activation function with a threshold of ≥1.

    In a somewhat ironic historical twist, contemporaneous with Minsky and Papert’s publication, Alexey Ivakhnenko, a Ukrainian researcher, proposed the group method for data handling (GMDH), and in 1971 published a paper that described how it could be used to learn a neural network with eight layers (Ivakhnenko 1971). Today Ivakhnenko’s 1971 GMDH network is credited with being the first published example of a deep network trained from data (Schmidhuber 2015). However, for many years, Ivaknenko’s accomplishment was largely overlooked by the wider neural network community. As a consequence, very little of the current work in deep learning uses the GMDH method for training: in the intervening years other training algorithms, such as backpropagation (described below), became standardized in the community. At the same time of Ivakhnenko’s overlooked accomplishment, Minsky and Papert’s critique was proving persuasive and it heralded the end of the first period of significant research on neural networks.

    This first period of neural network research, did, however, leave a legacy that shaped the development of the field up to the present day. The basic internal structure of an artificial neuron was defined: a weighted sum of inputs fed through an activation function. The concept of storing information within the weights of a network was developed. Furthermore, learning algorithms based on iteratively adapting weights were proposed, along with practical learning rules, such as the LMS rule. In particular, the LMS approach, of adjusting the weights of neurons in proportion to the difference between the output of the neuron and the desired output, is present in most modern training algorithms. Finally, there was recognition of the limitations of single layer networks, and an understanding that one way to address these limitations was to extend the networks to include multiple layers of neurons. At this time, however, it was unclear how to train networks with multiple layers. Updating a weight requires an understanding of how the weight affects the error of the network. For example, in the LMS rule if the output of the neuron was too large, then weights that were applied to positive inputs caused the output to increase. Therefore, decreasing the size of these weight would reduce the output and thereby reduce the error. But, in the late 1960s, the question of how to model the relationship between the weights of the inputs to neurons in the hidden layers of a network and the overall error of the network was still unanswered; and, without this estimation of the contribution of the weight to the error, it was not possible to adjust the weights in the hidden layers of a network. The problem of attributing (or assigning) an amount of error to the components in a network is sometimes referred to as the credit assignment problem, or as the blame assignment problem.

    Connectionism: Multilayer Perceptrons

    In the 1980s, people began to reevaluate the criticisms of the late 1960s as being overly severe. Two developments, in particular, reinvigorated the field: (1) Hopfield networks; and (2) the backpropagation algorithm.

    In 1982, John Hopfield published a paper where he described a network that could function as an associative memory (Hopfield 1982). During training, an associative memory learns a set of input patterns. Once the associate memory network has been trained, then, if a corrupted version of one of the input patterns is presented to the network, the network is able to regenerate the complete correct pattern. Associative memories are useful for a number of tasks, including pattern completion and error correction. Table 4.12 illustrates the tasks of pattern completion and error correction using the example of an associative memory that has been trained to store information on people’s birthdays. In a Hopfield network, the memories, or input patterns, are encoded in binary strings; and, assuming binary patterns are relatively distinct from each other, a Hopfield network can store up to 0.138N of these strings, where N is the number of neurons in the network. So to store 10 distinct patterns requires a Hopfield network with 73 neurons, and to store 14 distinct patterns requires 100 neurons.

    Table 4.1. Illustration of the uses of an association memory for pattern completion and error correction

    Training patternsPattern completion
    John**12MayLiz***?????Liz***25Feb
    Kerry*03Jan???***10MarDes***10Mar
    Liz***25FebError correction
    Des***10MarKerry*01AprKerry*03Jan
    Josef*13DecJxsuf*13DecJosef*13Dec

    Backpropagation and Vanishing Gradients

    In 1986, a group of researchers known as the parallel distributed processing (PDP) research group published a two-book overview of neural network research (Rumelhart et al. 1986b, 1986c). These books proved to be incredibly popular, and chapter 8 in volume one described the backpropagation algorithm (Rumelhart et al. 1986a). The backpropagation algorithm has been invented a number of times,3 but it was this chapter by Rumelhart, Hinton, and Williams, published by PDP, that popularized its use. The backpropagation algorithm is a solution to the credit assignment problem and so it can be used to train a neural network that has hidden layers of neurons. The backpropagation algorithm is possibly the most important algorithm in deep learning. However, a clear and complete explanation of the backpropagation algorithm requires first explaining the concept of an error gradient, and then the gradient descent algorithm. Consequently, the in-depth explanation of backpropagation is postponed until chapter 6, which begins with an explanation of these necessary concepts. The general structure of the algorithm, however, can be described relatively quickly. The backpropagation algorithm starts by assigning random weights to each of the connections in the network. The algorithm then iteratively updates the weights in the network by showing training instances to the network and updating the network weights until the network is working as expected. The core algorithm works in a two-stage process. In the first stage (known as the forward pass), an input is presented to the network and the neuron activations are allowed to flow forward through the network until an output is generated. The second stage (known as the backward pass) begins at the output layer and works backward through the network until the input layer is reached. This backward pass begins by calculating an error for each neuron in the output layer. This error is then used to update the weights of these output neurons. Then the error of each output neuron is shared back (backpropagated) to the hidden neurons that connect to it, in proportion to the weights on the connections between the output neuron and the hidden neuron. Once this sharing (or blame assignment) has been completed for a hidden neuron, the total blame attributable to that hidden neuron is summed and this total is used to update the weights on that neuron. The backpropagation (or sharing back) of blame is then repeated for the neurons that have not yet had blame attributed to them. This process of blame assignment and weight updates continues back through the network until all the weights have been updated.

    A key innovation that enabled the backpropagation algorithm to work was a change in the activation functions used in the neurons. The networks that were developed in the early years of neural network research used threshold activation functions. The backpropagation algorithm does not work with threshold activation functions because backpropagation requires that the activation functions used by the neurons in the network be differentiable. Threshold activation functions are not differentiable because there is a discontinuity in the output of the function at the threshold. In other words, the slope of a threshold function at the threshold is infinite and therefore it is not possible to calculate the gradient of the function at that point. This led to the use of differentiable activation functions in multilayer neural networks, such as the logistic and tanh functions.

    There is, however, an inherent limitation with using the backpropagation algorithm to train deep networks. In the 1980s, researchers found that backpropagation worked well with relatively shallow networks (one or two layers of hidden units), but that as the networks got deeper, the networks either took an inordinate amount of time to train, or else they entirely failed to converge on a good set of weights. In 1991, Sepp Hochreiter (working with Jürgen Schmidhuber) identified the cause of this problem in his diploma thesis (Hochreiter 1991). The problem is caused by the way the algorithm backpropagates errors. Fundamentally, the backpropagation algorithm is an implementation of the chain rule from calculus. The chain rule involves the multiplication of terms, and backpropagating an error from one neuron back to another can involve multiplying the error by a number terms with values less than 1. These multiplications by values less than 1 happen repeatedly as the error signal gets passed back through the network. This results in the error signal becoming smaller and smaller as it is backpropagated through the network. Indeed, the error signal often diminishes exponentially with respect to the distance from the output layer. The effect of this diminishing error is that the weights in the early layers of a deep network are often adjusted by only a tiny (or zero) amount during each training iteration. In other words, the early layers either train very, very slowly or do not move away from their random starting positions at all. However, the early layers in a neural network are vitally important to the success of the network, because it is the neurons in these layers that learn to detect the features in the input that the later layers of the network use as the fundamental building blocks of the representations that ultimately determine the output of the network. For technical reasons, which will be explained in chapter 6, the error signal that is backpropagated through the network is in fact the gradient of the error of the network, and, as a result, this problem of the error signal rapidly diminishing to near zero is known as the vanishing gradient problem.

    Connectionism and Local versus Distributed Representations

    Despite the vanishing gradient problem, the backpropagation algorithm opened up the possibility of training more complex (deeper) neural network architectures. This aligned with the principle of connectionism. Connectionism is the idea that intelligent behavior can emerge from the interactions between large numbers of simple processing units. Another aspect of connectionism was the idea of a distributed representation. A distinction can be made in the representations used by neural networks between localist and distributed representations. In a localist representation there is a one-to-one correspondence between concepts and neurons, whereas in a distributed representation each concept is represented by a pattern of activations across a set of neurons. Consequently, in a distributed representation each concept is represented by the activation of multiple neurons and the activation of each neuron contributes to the representation of multiple concepts.

    In a distributed representation each concept is represented by the activation of multiple neurons and the activation of each neuron contributes to the representation of multiple concepts.

    To illustrate the distinction between localist and distributed representations, consider a scenario where (for some unspecified reason) a set of neuron activations is being used to represent the absence or presence of different foods. Furthermore, each food has two properties, the country of origin of the recipe and its taste. The possible countries of origin are: ItalyMexico, or France; and, the set of possible tastes are: SweetSour, or Bitter. So, in total there are nine possible types of food: Italian+SweetItalian+SourItalian+BitterMexican+Sweet, etc. Using a localist representation would require nine neurons, one neuron per food type. There are, however, a number of ways to define a distributed representation of this domain. One approach is to assign a binary number to each combination. This representation would require only four neurons, with the activation pattern 0000 representing Italian+Sweet, 0001 representing Italian+Sour, 0010 representing Italian+Bitter, and so on up to 1000 representing French+Bitter. This is a very compact representation. However, notice that in this representation the activation of each neuron in isolation has no independently meaningful interpretation: the rightmost neuron would be active (***1) for Italian+SourMexican+SweetMexican+Bitter, and France+Sour, and without knowledge of the activation of the other neurons, it is not possible know what country or taste is being represented. However, in a deep network the lack of semantic interpretability of the activations of hidden units is not a problem, so long as the neurons in the output layer of the network are able to combine these representations in such a way so as to generate the correct output. Another, more transparent, distributed representation of this food domain is to use three neurons to represent the countries and three neurons to represent the tastes. In this representation, the activation pattern 100100 could represent Italian+Sweet, 001100 could represent French+Sweet, and 001001 could represent French+Bitter. In this representation, the activation of each neuron can be independently interpreted; however the distribution of activations across the set of neurons is required in order to retrieve the full description of the food (country+taste). Notice, however, that both of these distributed representations are more compact than the localist representation. This compactness can significantly reduce the number of weights required in a network, and this in turn can result in faster training times for the network.

    The concept of a distributed representation is very important within deep learning. Indeed, there is a good argument that deep learning might be more appropriately named representation learning—the argument being that the neurons in the hidden layers of a network are learning distributed representations of the input that are useful intermediate representations in the mapping from inputs to outputs that the network is attempting to learn. The task of the output layer of a network is then to learn how to combine these intermediate representations so as to generate the desired outputs. Consider again the network in figure 4.3 that implements the XOR function. The hidden units in this network learn an intermediate representation of the input, which can be understood as composed of the AND and OR functions; the output layer then combines this intermediate representation to generate the required output. In a deep network with multiple hidden layers, each subsequent hidden layer can be interpreted as learning a representation that is an abstraction over the outputs of the preceding layer. It is this sequential abstraction, through learning intermediate representations, that enables deep networks to learn such complex mappings from inputs to outputs.

    Network Architectures: Convolutional and Recurrent Neural Networks

    There are a considerable number of ways in which a set of neurons can be connected together. The network examples presented so far in the book have been connected together in a relatively uncomplicated manner: neurons are organized into layers and each neuron in a layer is directly connected to all of the neurons in the next layer of the network. These networks are known as feedforward networks because there are no loops within the network connections: all the connections point forward from the input toward the output. Furthermore, all of our network examples thus far would be considered to be fully connected, because each neuron is connected to all the neurons in the next layer. It is possible, and often useful, to design and train networks that are not feedforward and/or that are not fully connected. When done correctly, tailoring network architectures can be understood as embedding into the network architecture information about the properties of the problem that the network is trying to learn to model.

    A very successful example of incorporating domain knowledge into a network by tailoring the networks architecture is the design of convolutional neural networks (CNNs) for object recognition in images. In the 1960s, Hubel and Wiesel carried out a series of experiments on the visual cortex of cats (Hubel and Wiesel 1962, 1965). These experiments used electrodes inserted into the brains of sedated cats to study the response of the brain cells as the cats were presented with different visual stimuli. Examples of the stimuli used included bright spots or lines of light appearing at a location in the visual field, or moving across a region of the visual field. The experiments found that different cells responded to different stimuli at different locations in the visual field: in effect a single cell in the visual cortex would be wired to respond to a particular type of visual stimulus occurring within a particular region of the visual field. The region of the visual field that a cell responded to was known as the receptive field of the cell. Another outcome of these experiments was the differentiation between two types of cells: “simple” and “complex.” For simple cells, the location of the stimulus is critical with a slight displacement of the stimulus resulting in a significant reduction in the cell’s response. Complex cells, however, respond to their target stimuli regardless of where in the field of vision the stimulus occurs. Hubel and Wiesel (1965) proposed that complex cells behaved as if they received projections from a large number of simple cells all of which respond to the same visual stimuli but differing in the position of their receptive fields. This hierarchy of simple cells feeding into complex cells results in funneling of stimuli from large areas of the visual field, through a set of simple cells, into a single complex cell. Figure 4.4 illustrates this funneling effect. This figure shows a layer of simple cells each monitoring a receptive field at a different location in the visual field. The receptive field of the complex cell covers the layer of simple cells, and this complex cell activates if any of the simple cells in its receptive field activates. In this way the complex cell can respond to a visual stimulus if it occurs at any location in the visual field.

    Figure 4.4 The funneling effect of receptive fields created by the hierarchy of simple and complex cells.

    In the late 1970s and early 1980s, Kunihiko Fukushima was inspired by Hubel and Wiesel’s analysis of the visual cortex and developed a neural network architecture for visual pattern recognition that was called the neocognitron (Fukushima 1980). The design of the neocognitron was based on the observation that an image recognition network should be able to recognize if a visual feature is present in an image irrespective of location in the image—or, to put it slightly more technically, the network should be able to do spatially invariant visual feature detection. For example, a face recognition network should be able to recognize the shape of an eye no matter where in the image it occurs, similar to the way a complex cell in Hubel and Wiesel’s hierarchical model could detect the presence of a visual feature irrespective of where in the visual field it occurred.

    Fukushima realized that the functioning of the simple cells in the Hubel and Wiesel hierarchy could be replicated in a neural network using a layer of neurons that all use the same set of weights, but with each neuron receiving inputs from fixed small regions (receptive fields) at different locations in the input field. To understand the relationship between neurons sharing weights and spatially invariant visual feature detection, imagine a neuron that receives a set of pixel values, sampled from a region of an image, as its inputs. The weights that this neuron applies to these pixel values define a visual feature detection function that returns true (high activation) if a particular visual feature (pattern) occurs in the input pixels, and false otherwise. Consequently, if a set of neurons all use the same weights, they will all implement the same visual feature detector. If the receptive fields of these neurons are then organized so that together they cover the entire image, then if the visual feature occurs anywhere in the image at least one of the neurons in the group will identify it and activate.

    Fukushima also recognized that the Hubel and Wiesel funneling effect (into complex cells) could be obtained by neurons in later layers also receiving as input the outputs from a fixed set of neurons in a small region of the preceding layer. In this way, the neurons in the last layer of the network each receive inputs from across the entire input field allowing the network to identify the presence of a visual feature anywhere in the visual input.

    Some of the weights in neocognitron were set by hand, and others were set using an unsupervised training process. In this training process, each time an example is presented to the network a single layer of neurons that share the same weights is selected from the layers that yielded large outputs in response to the input. The weights of the neurons in the selected layer are updated so as to reinforce their response to that input pattern and the weights of neurons not in the layer are not updated. In 1989 Yann LeCun developed the convolutional neural network (CNN) architecture specifically for the task of image processing (LeCun 1989). The CNN architecture shared many of the design features found in the neocognitron; however, LeCun showed how these types of networks could be trained using backpropagation. CNNs have proved to be incredibly successful in image processing and other tasks. A particularly famous CNN is the AlexNet network, which won the ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) in 2012 (Krizhevsky et al. 2012). The goal of the ILSVRC competition is to identify objects in photographs. The success of AlexNet at the ILSVRC competition generated a lot of excitement about CNNs, and since AlexNet a number of other CNN architectures have won the competition. CNNs are one of the most popular types of deep neural networks, and chapter 5 will provide a more detailed explanation of them.

    Recurrent neural networks (RNNs) are another example of a neural network architecture that has been tailored to the specific characteristics of a domain. RNNs are designed to process sequential data, such as language. An RNN network processes a sequence of data (such as a sentence) one input at a time. An RNN has only a single hidden layer. However, the output from each of these hidden neurons is not only fed forward to the output neurons, it is also temporarily stored in a buffer and then fed back into all of the hidden neurons at the next input. Consequently, each time the network processes an input, each neuron in the hidden layer receives both the current input and the output the hidden layer generated in response to the previous input. In order to understand this explanation, it may at this point be helpful to briefly skip forward to figure 5.2 to see an illustration of the structure of an RNN and the flow of information through the network. This recurrent loop, of activations from the output of the hidden layer for one input being fed back into the hidden layer alongside the next input, gives an RNN a memory that enables it to process each input in the context of the previous inputs it has processed.4 RNNs are considered deep networks because this evolving memory can be considered as deep as the sequence is long.

    An early well-known RNN is the Elman network. In 1990, Jeffrey Locke Elman published a paper that described an RNN that had been trained to predict the endings of simple two- and three-word utterances (Elman 1990). The model was trained on a synthesized dataset of simple sentences generated using an artificial grammar. The grammar was built using a lexicon of twenty-three words, with each word assigned to a single lexical category (e.g., man=NOUN-HUM, woman=NOUN-HUM, eat=VERB-EAT, cookie=NOUN-FOOD, etc.). Using this lexicon, the grammar defined fifteen sentence generation templates (e.g., NOUN-HUM+VERB-EAT+NOUN-FOOD which would generate sentences such as man eat cookie). Once trained, the model was able to generate reasonable continuations for sentences, such as woman+eat+? = cookie. Furthermore, once the network was started, it was able to generate longer strings consisting of multiple sentences, using the context it generated itself as the input for the next word, as illustrated by this three-sentence example:

    girl eat bread dog move mouse mouse move book

    Although this sentence generation task was applied to a very simple domain, the ability of the RNN to generate plausible sentences was taken as evidence that neural networks could model linguistic productivity without requiring explicit grammatical rules. Consequently, Elman’s work had a huge impact on psycholinguistics and psychology. The following quote, from Churchland 1996, illustrates the importance that some researchers attributed to Elman’s work:
    The productivity of this network is of course a feeble subset of the vast capacity that any normal English speaker commands. But productivity is productivity, and evidently a recurrent network can possess it. Elman’s striking demonstration hardly settles the issue between the rule-centered approach to grammar and the network approach. That will be some time in working itself out. But the conflict is now an even one. I’ve made no secret where my own bets will be placed. (Churchland 1996, p. 143)5

    Although RNNs work well with sequential data, the vanishing gradient problem is particularly severe in these networks. In 1997, Sepp Hochreiter and Jürgen Schmidhuber, the researchers who in 1991 had presented an explanation of the vanishing gradient problem, proposed the long short-term memory (LSTM) units as a solution to this problem in RNNs (Hochreiter and Schmidhuber 1997). The name of these units draws on a distinction between how a neural network encodes long-term memory (understood as concepts that are learned over a period of time) through training and short-term memory (understood as the response of the system to immediate stimuli). In a neural network, long-term memory is encoded through adjusting the weights of the network and once trained these weights do not change. Short-term memory is encoded in a network through the activations that flow through the network and these activation values decay quickly. LSTM units are designed to enable the short-term memory (the activations) in the network to be propagated over long periods of time (or sequences of inputs). The internal structure of an LSTM is relatively complex, and we will describe it in chapter 5. The fact that LSTM can propagate activations over long periods enables them to process sequences that include long-distance dependencies (interactions between elements in a sequence that are separated by two or more positions). For example, the dependency between the subject and the verb in an English sentence: The dog/dogs in that house is/are aggressive. This has made LSTM networks suitable for language processing, and for a number of years they have been the default neural network architecture for many natural language processing models, including machine translation. For example, the sequence-to-sequence (seq2seq) machine translation architecture introduced in 2014 connects two LSTM networks in sequence (Sutskever et al. 2014). The first LSTM network, the encoder, processes the input sequence one input at a time, and generates a distributed representation of that input. The first LSTM network is called an encoder because it encodes the sequence of words into a distributed representation. The second LSTM network, the decoder, is initialized with the distributed representation of the input and is trained to generate the output sequence one element at a time using a feedback loop that feeds the most recent output element generated by the network back in as the input for the next time step. Today, this seq2seq architecture is the basis for most modern machine translation systems, and is explained in more detail in chapter 5.

    By the late 1990s, most of the conceptual requirements for deep learning were in place, including both the algorithms to train networks with multiple layers, and the network architectures that are still very popular today (CNNs and RNNs). However, the problem of the vanishing gradients still stifled the creation of deep networks. Also, from a commercial perspective, the 1990s (similar to the 1960s) experienced a wave of hype based on neural networks and unrealized promises. At the same time, a number of breakthroughs in other forms of machine learning models, such as the development of support vector machines (SVMs), redirected the focus of the machine learning research community away from neural networks: at the time SVMs were achieving similar accuracy to neural network models but were easier to train. Together these factors led to a decline in neural network research that lasted up until the emergence of deep learning.

    The Era of Deep Learning

    The first recorded use of the term deep learning is credited to Rina Dechter (1986), although in Dechter’s paper the term was not used in relation to neural networks; and the first use of the term in relation to neural networks is credited to Aizenberg et al. (2000).6 In the mid-2000s, interest in neural networks started to grow, and it was around this time that the term deep learning came to prominence to describe deep neural networks. The term deep learning is used to emphasize the fact that the networks being trained are much deeper than previous networks.

    One of the early successes of this new era of neural network research was when Geoffrey Hinton and his colleagues demonstrated that it was possible to train a deep neural network using a process known as greedy layer-wise pretraining. Greedy layer-wise pretraining begins by training a single layer of neurons that receives input directly from the raw input. There are a number of different ways that this single layer of neurons can be trained, but one popular way is to use an autoencoder. An autoencoder is a neural network with three layers: an input layer, a hidden (encoding) layer, and an output (decoding) layer. The network is trained to reconstruct the inputs it receives in the output layer; in other words, the network is trained to output the exact same values that it received as input. A very important feature in these networks is that they are designed so that it is not possible for the network to simply copy the inputs to the outputs. For example, an autoencoder may have fewer neurons in the hidden layer than in the input and output layer. Because the autoencoder is trying to reconstruct the input at the output layer, the fact that the information from the input must pass through this bottleneck in the hidden layer forces the autoencoder to learn an encoding of the input data in the hidden layer that captures only the most important features in the input, and disregards redundant or superfluous information.7

    Layer-Wise Pretraining Using Autoencoders

    In layer-wise pretraining, the initial autoencoder learns an encoding for the raw inputs to the network. Once this encoding has been learned, the units in the hidden encoding layer are fixed, and the output (decoding) layer is thrown away. Then a second autoencoder is trained—but this autoencoder is trained to reconstruct the representation of the data generated by passing it through the encoding layer of the initial autoencoder. In effect, this second autoencoder is stacked on top of the encoding layer of the first autoencoder. This stacking of encoding layers is considered to be a greedy process because each encoding layer is optimized independently of the later layers; in other words, each autoencoder focuses on finding the best solution for its immediate task (learning a useful encoding for the data it must reconstruct) rather than trying to find a solution to the overall problem for the network.

    Once a sufficient number8 of encoding layers have been trained, a tuning phase can be applied. In the tuning phase, a final network layer is trained to predict the target output for the network. Unlike the pretraining of the earlier layers of the network, the target output for the final layer is different from the input vector and is specified in the training dataset. The simplest tuning is where the pretrained layers are kept frozen (i.e., the weights in the pretrained layers don’t change during the tuning); however, it is also feasible to train the entire network during the tuning phase. If the entire network is trained during tuning, then the layer-wise pretraining is best understood as finding useful initial weights for the earlier layers in the network. Also, it is not necessary that the final prediction model that is trained during tuning be a neural network. It is quite possible to take the representations of the data generated by the layer-wise pretraining and use it as the input representation for a completely different type of machine learning algorithm, for example, a support vector machine or a nearest neighbor algorithm. This scenario is a very transparent example of how neural networks learn useful representations of data prior to the final prediction task being learned. Strictly speaking, the term pretraining describes only the layer-wise training of the autoencoders; however, the term is often used to refer to both the layer-wise training stage and the tuning stage of the model.

    Figure 4.5 shows the stages in layer-wise pretraining. The figure on the left illustrates the training of the initial autoencoder where an encoding layer (the black circles) of three units is attempting to learn a useful representation for the task of reconstructing an input vector of length 4. The figure in the middle of figure 4.5 shows the training of a second autoencoder stacked on top of the encoding layer of the first autoencoder. In this autoencoder, a hidden layer of two units is attempting to learn an encoding for an input vector of length 3 (which in turn is an encoding of a vector of length 4). The grey background in each figure demarcates the components in the network that are frozen during this training stage. The figure on the right shows the tuning phase where a final output layer is trained to predict the target feature for the model. For this example, in the tuning phase the pretrained layers in the network have been frozen.

    Figure 4.5 The pretraining and tuning stages in greedy layer-wise pretraining. Black circles represent the neurons whose training is the primary objective at each training stage. The gray background marks the components in the network that are frozen during each training stage.

    Layer-wise pretraining was important in the evolution of deep learning because it was the first approach to training deep networks that was widely adopted.9 However, today most deep learning networks are trained without using layer-wise pretraining. In the mid-2000s, researchers began to appreciate that the vanishing gradient problem was not a strict theoretical limit, but was instead a practical obstacle that could be overcome. The vanishing gradient problem does not cause the error gradients to disappear entirely; there are still gradients being backpropagated through the early layers of the network, it is just that they are very small. Today, there are a number of factors that have been identified as important in successfully training a deep network.

    In the mid-2000s, researchers began to appreciate that the vanishing gradient problem was not a strict theoretical limit, but was instead a practical obstacle that could be overcome.

    Weight Initialization and ReLU Activation Functions

    One factor that is important in successfully training a deep network is how the network weights are initialized. The principles controlling how weight initialization affects the training of a network are still not clear. There are, however, weight initialization procedures that have been empirically shown to help with training a deep network. Glorot initialization10 is a frequently used weight initialization procedure for deep networks. It is based on a number of assumptions but has empirical success to support its use. To get an intuitive understanding of Glorot initialization, consider the fact that there is typically a relationship between the magnitude of values in a set and the variance of the set: generally the larger the values in a set, the larger the variance of the set. So, if the variance calculated on a set of gradients propagated through a layer at one point in the network is similar to the variance for the set of gradients propagated through another layer in a network, it is likely that the magnitude of the gradients propagated through both of these layers will also be similar. Furthermore, the variance of gradients in a layer can be related to the variance of the weights in the layer, so a potential strategy to maintain gradients flowing through a network is to ensure similar variances across each of the layer in a network. Glorot initialization is designed to initialize the weight in a network in such a way that all of the layers in a network will have a similar variance in terms of both forward pass activations and the gradients propagated during the backward pass in backpropagation. Glorot initialization defines a heuristic rule to meet this goal that involves sampling the weights for a network using the following uniform distribution (where w is the weight on a connection between layer j and j+i that is being initialized, U[-a,a] is the uniform distribution over the interval (-a,a),  is the number of neurons in layer , and the notation w ~ U indicates that the value of w is sampled from distribution U)11:

    Another factor that contributes to the success or failure of training a deep network is the selection of the activation function used in the neurons. Backpropagating an error gradient through a neuron involves multiplying the gradient by the value of the derivative of the activation function at the activation value of the neuron recorded during the forward pass. The derivatives of the logistic and tanh activation functions have a number of properties that can exacerbate the vanishing gradient problem if they are used in this multiplication step. Figure 4.6 presents a plot of the logistic function and the derivative of the logistic function. The maximum value of the derivative is 0.25. Consequently, after an error gradient has been multiplied by the value of the derivative of the logistic function at the appropriate activation for the neuron, the maximum value the gradient will have is a quarter of the gradient prior to the multiplication. Another problem with using the logistic function is that there are large portions of the domain of the function where the function is saturated (returning values that very close to 0 or 1), and the rate of change of the function in these regions is near zero; thus, the derivative of the function is near 0. This is an undesirable property when backpropagating error gradients because the error gradients will be forced to zero (or close to zero) when backpropagated through any neuron whose activation is within one of these saturated regions. In 2011 it was shown that switching to a rectified linear activation function, , improved training for deep feedforward neural networks (Glorot et al. 2011). Neurons that use a rectified linear activation function are known as rectified linear units (ReLUs). One advantage of ReLUs is that the activation function is linear for the positive portion of its domain with a derivative equal to 1. This means that gradients can flow easily through ReLUs that have positive activation. However, the drawback of ReLUs is that the gradient of the function for the negative part of its domain is zero, so ReLUs do not train in this portion of the domain. Although undesirable, this is not necessarily a fatal flaw for learning because when backpropagating through a layer of ReLUs the gradients can still flow through the ReLUs in the layers that have positive activation. Furthermore, there are a number of variants of the basic ReLU that introduce a gradient on the negative side of the domain, a commonly used variant being the leaky ReLU (Maas et al. 2013). Today, ReLUs (or variants of ReLUs) are the most frequently used neurons in deep learning research.

    Figure 4.6 Plots of the logistic function and the derivative of the logistic function.

    The Virtuous Cycle: Better Algorithms, Faster Hardware, Bigger Data

    Although improved weight initialization methods and new activation functions have both contributed to the growth of deep learning, in recent years the two most important factors driving deep learning have been the speedup in computer power and the massive increase in dataset sizes. From a computational perspective, a major breakthrough for deep learning occurred in the late 2000s with the adoption of graphical processing units (GPUs) by the deep learning community to speed up training. A neural network can be understood as a sequence of matrix multiplications that are interspersed with the application of nonlinear activation functions, and GPUs are optimized for very fast matrix multiplication. Consequently, GPUs are ideal hardware to speed up neural network training, and their use has made a significant contribution to the development of the field. In 2004, Oh and Jung reported a twentyfold performance increase using a GPU implementation of a neural network (Oh and Jung 2004), and the following year two further papers were published that demonstrated the potential of GPUs to speed up the training of neural networks: Steinkraus et al. (2005) used GPUs to train a two-layer neural network, and Chellapilla et al. (2006) used GPUs to train a CNN. However, at that time there were significant programming challenges to using GPUs for training networks (the training algorithm had to be implemented as a sequence of graphics operations), and so the initial adoption of GPUs by neural network researchers was relatively slow. These programming challenges were significantly reduced in 2007 when NVIDIA (a GPU manufacturer) released a C-like programming interface for GPUs called CUDA (compute unified device architecture).12 CUDA was specifically designed to facilitate the use of GPUs for general computing tasks. In the years following the release of CUDA, the use of GPUs to speed up neural network training became standard.

    However, even with these more powerful computer processors, deep learning would not have been possible unless massive datasets had also become available. The development of the internet and social media platforms, the proliferation of smartphones and “internet of things” sensors, has meant that the amount of data being captured has grown at an incredible rate over the last ten years. This has made it much easier for organizations to gather large datasets. This growth in data has been incredibly important to deep learning because neural network models scale well with larger data (and in fact they can struggle with smaller datasets). It has also prompted organizations to consider how this data can be used to drive the development of new applications and innovations. This in turn has driven a need for new (more complex) computational models in order to deliver these new applications. And, the combination of large data and more complex algorithms requires faster hardware in order to make the necessary computational workload tractable. Figure 4.7 illustrates the virtuous cycle between big data, algorithmic breakthroughs (e.g., better weight initialization, ReLUs, etc.), and improved hardware that is driving the deep learning revolution.

    Figure 4.7 The virtuous cycle driving deep learning. Figure inspired by figure 1.2 in Reagen et al. 2017.

    Summary

    The history of deep learning reveals a number of underlying themes. There has been a shift from simple binary inputs to more complex continuous valued input. This trend toward more complex inputs is set to continue because deep learning models are most useful in high-dimensional domains, such as image processing and language. Images often have thousands of pixels in them, and language processing requires the ability represents and process hundreds of thousands of different words. This is why some of the best-known applications of deep learning are in these domains, for example, Facebook’s face-recognition software, and Google’s neural machine translation system. However, there are a growing number of new domains where large and complex digital datasets are being gathered. One area where deep learning has the potential to make a significant impact within the coming years is healthcare, and another complex domain is the sensor rich field of self-driving cars.

    Somewhat surprisingly, at the core of these powerful models are simple information processing units: neurons. The connectionist idea that useful complex behavior can emerge from the interactions between large numbers of simple processing units is still valid today. This emergent behavior arises through the sequences of layers in a network learning a hierarchical abstraction of increasingly complex features. This hierarchical abstraction is achieved by each neuron learning a simple transformation of the input it receives. The network as a whole then composes these sequences of smaller transformations in order to apply a complex (highly) nonlinear mapping to the input. The output from the model is then generated by the final output layers of neuron, based the learned representation generated through the hierarchical abstraction. This is why depth is such an important factor in neural networks: the deeper the network, the more powerful the model becomes in terms of its ability to learn complex nonlinear mappings. In many domains, the relationship between input data and desired outputs involves just such complex nonlinear mappings, and it is in these domains that deep learning models outdo other machine learning approaches.

    An important design choice in creating a neural network is deciding which activation function to use within the neurons in a network. The activation function within each neuron in a network is how nonlinearity is introduced into the network, and as a result it is a necessary component if the network is to learn a nonlinear mapping from inputs to output. As networks have evolved, so too have the activation functions used in them. New activation functions have emerged throughout the history of deep learning, often driven by the need for functions with better properties for error-gradient propagation: a major factor in the shift from threshold to logistic and tanh activation functions was the need for differentiable functions in order to apply backpropagation; the more recent shift to ReLUs was, similarly, driven by the need to improve the flow of error gradients through the network. Research on activations functions is ongoing, and new functions will be developed and adopted in the coming years.

    Another important design choice in creating a neural network is to decide on the structure of the network: for example, how should the neurons in the network be connected together? In the next chapter, we will discuss two very different answers to this question: convolution neural networks and recurrent neural networks.

    5 Convolutional and Recurrent Neural Networks

    Tailoring the structure of a network to the specific characteristics of the data from a task domain can reduce the training time of the network, and improves the accuracy of the network. Tailoring can be done in a number of ways, such as: constraining the connections between neurons in adjacent layers to subsets (rather than having fully connected layers); forcing neurons to share weights; or introducing backward connections into the network. Tailoring in these ways can be understood as building domain knowledge into the network. Another, related, perspective is it helps the network to learn by constraining the set of possible functions that it can learn, and by so doing guides the network to find a useful solution. It is not always clear how to fit a network structure to a domain, but for some domains where the data has a very regular structure (e.g., sequential data such as text, or gridlike data such as images) there are well-known network architectures that have proved successful. This chapter will introduce two of the most popular deep learning architectures: convolutional neural networks and recurrent neural networks.

    Convolutional Neural Networks

    Convolution neural networks (CNNs) were designed for image recognition tasks and were originally applied to the challenge of handwritten digit recognition (Fukushima 1980; LeCun 1989). The basic design goal of CNNs was to create a network where the neurons in the early layer of the network would extract local visual features, and neurons in later layers would combine these features to form higher-order features. A local visual feature is a feature whose extent is limited to a small patch, a set of neighboring pixels, in an image. For example, when applied to the task of face recognition, the neurons in the early layers of a CNN learn to activate in response to simple local features (such as lines at a particular angle, or segments of curves), neurons deeper in the network combine these low-level features into features that represent body parts (such as eyes or noises), and the neurons in the final layers of the network combine body part activations in order to be able to identify whole faces in an image.

    Using this approach, the fundamental task in image recognition is learning the feature detection functions that can robustly identify the presence, or absence, of local visual features in an image. The process of learning functions is at the core of neural networks, and is achieved by learning the appropriate set of weights for the connections in the network. CNNs learn the feature detection functions for local visual features in this way. However, a related challenge is designing the architecture of the network so that the network will identify the presence of a local visual feature in an image irrespective of where in the image it occurs. In other words, the feature detection functions must be able to work in a translation invariant manner. For example, a face recognition system should be able to recognize the shape of an eye in an image whether the eye is in the center of the image or in the top-right corner of the image. This need for translation invariance has been a primary design principle of CNNs for image processing, as Yann LeCun stated in 1989:
    It seems useful to have a set of feature detectors that can detect a particular instance of a feature anywhere on the input plane. Since the precise location of a feature is not relevant to the classification, we can afford to lose some position information in the process. (LeCun 1989, p. 14)

    CNNs achieve this translation invariance of local visual feature detection by using weight sharing between neurons. In an image recognition setting, the function implemented by a neuron can be understood as a visual feature detector. For example, neurons in the first hidden layer of the network will receive a set of pixel values as input and output a high activation if a particular pattern (local visual feature) is present in this set of pixels. The fact that the function implemented by a neuron is defined by the weights the neuron uses means that if two neurons use the same set of weights then they both implement the same function (feature detector). In chapter 4, we introduced the concept of a receptive field to describe the area that a neuron receives its input from. If two neurons share the same weights but have different receptive fields (i.e., each neuron inspects different areas of the input), then together the neurons act as a feature detector that activates if the feature occurs in either of the receptive fields. Consequently, it is possible to design a network with translation invariant feature detection by creating a set of neurons that share the same weights and that are organized so that: (1) each neuron inspects a different portion of the image; and (2) together the receptive fields of the neurons cover the entire image.

    The scenario of searching an image in a dark room with a flashlight that has a narrow beam is sometimes used to explain how a CNN searches an image for local features. At each moment you can point the flashlight at a region of the image and inspect that local region. In this flashlight metaphor, the area of the image illuminated by the flashlight at any moment is equivalent to the receptive field of a single neuron, and so pointing the flashlight at a location is equivalent to applying the feature detection function to that local region. If, however, you want to be sure you inspect the whole image, then you might decide to be more systematic in how you direct the flashlight. For example, you might begin by pointing the flashlight at the top-left corner of the image and inspecting that region. You then move the flashlight to the right, across the image, inspecting each new location as it becomes visible, until you reach the right side of the image. You then point the flashlight back to the left of the image, but just below where you began, and move across the image again. You repeat this process until you reach the bottom-right corner of the image. The process of sequentially searching across an image and at each location in the search applying the same function to the local (illuminated) region is the essence of convolving a function across an image. Within a CNN, this sequential search across an image is implemented using a set of neurons that share weights and whose union of receptive fields covers the entire image.

    Figure 5.1 illustrates the different stages of processing that are often found in a CNN. Thematrix on the left of the figure represents the image that is the input to the CNN. Thematrix immediately to the right of the input represents a layer of neurons that together search the entire image for the presence of a particular local feature. Each neuron in this layer is connected to a differentreceptive field (area) in the image, and they all apply the same weight matrix to their inputs:

    The receptive field of the neuron(top-left) in this layer is marked with the gray square covering thearea in the top-left of the input image. The dotted arrows emerging from each of the locations in this gray area represent the inputs to neuron. The receptive field of the neighboring neuronis indicated bysquare, outlined in bold in the input image. Notice that the receptive fields of these two neurons overlap. The amount of overlap of receptive fields is controlled by a hyperparameter called the stride length. In this instance, the stride length is one, meaning that for each position moved in the layer the receptive field of the neuron is translated by the same amount on the input. If the stride length hyperparameter is increased, the amount of overlap between receptive fields is decreased.

    The receptive fields of both of these neurons (and) are matrices of pixel values and the weights used by these neurons are also matrices. In computer vision, the matrix of weights applied to an input is known as the kernel (or convolution mask); the operation of sequentially passing a kernel across an image and within each local region, weighting each input and adding the result to its local neighbors, is known as a convolution. Notice that a convolution operation does not include a nonlinear activation function (this is applied at a later stage in processing). The kernel defines the feature detection function that all the neurons in the convolution implement. Convolving a kernel across an image is equivalent to passing a local visual feature detector across the image and recording all the locations in the image where the visual feature was present. The output from this process is a map of all the locations in the image where the relevant visual feature occurred. For this reason, the output of a convolution process is sometimes known as a feature map. As noted above, the convolution operation does not include a nonlinear activation function (it only involves a weighted summation of the inputs). Consequently, it is standard to apply a nonlinearity operation to a feature map. Frequently, this is done by applying a rectified linear function to each position in a feature map; the rectified linear activation function is defined as:. Passing a rectified linear activation function over a feature map simply changes all negative values to 0. In figure 5.1, the process of updating a feature map by applying a rectified linear activation function to each of its elements is represented by the layer labeled Nonlinearity.

    The quote from Yann LeCun, at the start of this section, mentions that the precise location of a feature in an image may not be relevant to an image processing task. With this in mind, CNNs often discard location information in favor of generalizing the network’s ability to do image classification. Typically, this is achieved by down-sampling the updated feature map using a pooling layer. In some ways pooling is similar to the convolution operation described above, in so far as pooling involves repeatedly applying the same function across an input space. For pooling, the input space is frequently a feature map whose elements have been updated using a rectified linear function. Furthermore, each pooling operation has a receptive field on the input space—although, for pooling, the receptive fields sometimes do not overlap. There are a number of different pooling functions used; the most common is called max pooling, which returns the maximum value of any of its inputs. Calculating the average value of the inputs is also used as a pooling function.

    Convolving a kernel across an image is equivalent to passing a local visual feature detector across the image and recording all the locations in the image where the visual feature was present.

    The operation sequence of applying a convolution, followed by a nonlinearity, to the feature map, and then down-sampling using pooling, is relatively standard across most CNNs. Often these three operations are together considered to define a convolutional layer in a network, and this is how they are presented in figure 5.1.

    The fact that a convolution searches an entire image means that if the visual feature (pixel pattern) that the function (defined by shared kernel) detects occurs anywhere in the image, its presence will be recorded in the feature map (and if pooling is used, also in the subsequent output from the pooling layer). In this way, a CNN supports translation invariant visual feature detection. However, this has the limitation that the convolution can only identify a single type of feature. CNNs generalize beyond one feature by training multiple convolutional layers in parallel (or filters), with each filter learning a single kernel matrix (feature detection function). Note the convolution layer in figure 5.1 illustrates a single filter. The outputs of multiple filters can be integrated in a variety of ways. One way to integrate information from different filters is to take the feature maps generated by the separate filters and combine them into a single multifilter feature map. A subsequent convolutional layer then takes this multifilter feature map as input. Another other way to integrate information from different filter is to use a densely connected layer of neurons. The final layer in figure 5.1 illustrates a dense layer. This dense layer operates in exactly the same way as a standard layer in a fully connected feedforward network. Each neuron in the dense layer is connected to all of the elements output by each of the filters, and each neuron learns a set of weights unique to itself that it applies to the inputs. This means that each neuron in a dense layer can learn a different way to integrate information from across the different filters.

    Figure 5.1 Illustrations of the different stages of processing in a convolutional layer. Note in this figure the Image and Feature Map are data structures; the other stages represent operations on data.

    The AlexNet CNN, which won the ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) in 2012, had five convolutional layers, followed by three dense layers. The first convolutional layer had ninety-six different kernels (or filters) and included a ReLU nonlinearity and pooling. The second convolution layer had 256 kernels and also included ReLU nonlinearity and pooling. The third, fourth, and fifth convolutional layers did not include a nonlinearity step or pooling, and had 384, 384, and 256 kernels, respectively. Following the fifth convolutional layer, the network had three dense layers with 4096 neurons each. In total, AlexNet had sixty million weights and 650,000 neurons. Although sixty million weights is a large number, the fact that many of the neurons shared weights actually reduced the number of weights in the network. This reduction in the number of required weights is one of the advantages of CNN networks. In 2015, Microsoft Research developed a CNN network called ResNet, which won the ILSVRC 2015 challenge (He et al. 2016). The ResNet architecture extended the standard CNN architecture using skip-connections. A skip-connection takes the output from one layer in the network and feeds it directly into a layer that may be much deeper in the network. Using skip-connections it is possible to train very deep networks. In fact, the ResNet model developed by Microsoft Research had a depth of 152 layers.

    Recurrent Neural Networks

    Recurrent neural networks (RNNs) are tailored to the processing of sequential data. An RNN processes a sequence of data by processing each element in the sequence one at time. An RNN network only has a single hidden layer, but it also has a memory buffer that stores the output of this hidden layer for one input and feeds it back into the hidden layer along with the next input from the sequence. This recurrent flow of information means that the network processes each input within the context generated by processing the previous input, which in turn was processed in the context of the input preceding it. In this way, the information that flows through the recurrent loop encodes contextual information from (potentially) all of the preceding inputs in the sequence. This allows the network to maintain a memory of what it has seen previously in the sequence to help it decide what to do with the current input. The depth of an RNN arises from the fact that the memory vector is propagated forward and evolved through each input in the sequence; as a result an RNN network is considered as deep as a sequence is long.

    The depth of an RNN arises from the fact that the memory vector is propagated forward and evolved through each input in the sequence; as a result an RNN network is considered as deep as a sequence is long.

    Figure 5.2 illustrates the architecture of an RNN and shows how information flows through the network as it processes a sequence. At each time step, the network in this figure receives a vector containing two elements as input. The schematic on the left of figure 5.2 (time step=1.0) shows the flow of information in the network when it receives the first input in the sequence. This input vector is fed forward into the three neurons in the hidden layer of the network. At the same time these neurons also receive whatever information is stored in the memory buffer. Because this is the initial input, the memory buffer will only contain default initialization values. Each of the neurons in the hidden layer will process the input and generate an activation. The schematic in the middle of figure 5.2 (time step=1.5) shows how this activation flows on through the network: the activation of each neuron is passed to the output layer where it is processed to generate the output of the network, and it is also stored in the memory buffer (overwriting whatever information was stored there). The elements of the memory buffer simply store the information written to them; they do not transform it in any way. As a result, there are no weights on the edges going from the hidden units to the buffer. There are, however, weights on all the other edges in the network, including those from the memory buffer units to the neurons in the hidden layer. At time step 2, the network receives the next input from the sequence, and this is passed to the hidden layer neurons along with the information stored in the buffer. This time the buffer contains the activations that were generated by the hidden neurons in response to the first input.

    Figure 5.2 The flow of information in an RNN as it processes a sequence of inputs. The arrows in bold are the active paths of information flow at each time point; the dashed arrows show connections that are not active at that time.

    Figure 5.3 shows an RNN that has been unrolled through time as it processes a sequence of inputs. Each box in this figure represents a layer of neurons. The box labeledrepresents the state of the memory buffer when the network is initialized; the boxes labeledrepresent the hidden layer of the network at each time step; and the boxes labeledrepresent the output layer of the network at each time step. Each of the arrows in the figure represents a set of connections between one layer and another layer. For example, the vertical arrow fromtorepresents the connections between the input layer and the hidden layer at time step 1. Similarly, the horizontal arrows connecting the hidden layers represent the storing of the activations from a hidden state at one time step in the memory buffer (not shown) and the propagation of these activations to the hidden layer at the next time step through the connections from the memory buffer to the hidden state. At each time step, an input from the sequence is presented to the network and is fed forward to the hidden layer. The hidden layer generates a vector of activations that is passed to the output layer and is also propagated forward to the next time step along the horizontal arrows connecting the hidden states.

    Figure 5.3 An RNN network unrolled through time as it processes a sequence of inputs [x1,x2,……,xt]

    Although RNNs can process a sequence of inputs, they struggle with the problem of vanishing gradients. This is because training an RNN to process a sequence of inputs requires the error to be backpropagated through the entire length of the sequence. For example, for the network in figure 5.3, the error calculated on the outputmust be backpropagated through the entire network so that it can be used to update the weights on the connections fromandto. This entails backpropagating the error through all the hidden layers, which in turn involves repeatedly multiplying the error by the weights on the connections feeding activations from one hidden layer forward to the next hidden layer. A particular problem with this process is that it is the same set of weights that are used on all the connections between the hidden layers: each horizontal arrow represents the same set of connections between the memory buffer and the hidden layer, and the weights on these connections are stationary through time (i.e., they don’t change from one time step to the next during the processing of a given sequence of inputs). Consequently, backpropogating an error through k time steps involves (among other multiplications) multiplying the error gradient by the same set of weights k times. This is equivalent to multiplying each error gradient by a weight raised to the power of k. If this weight is less than 1, then when it is raised to a power, it diminishes at an exponential rate, and consequently, the error gradient also tends to diminish at an exponential rate with respect to the length of the sequence—and vanish.

    Long short-term memory networks (LSTMs) are designed to reduce the effect of vanishing gradients by removing the repeated multiplication by the same weight vector during backpropagation in an RNN. At the core of an LSTM1 unit is a component called the cell. The cell is where the activation (the short-term memory) is stored and propagated forward. In fact, the cell often maintains a vector of activations. The propagation of the activations within the cell through time is controlled by three components called gates: the forget gate, the input gate, and the output gate. The forget gate is responsible for determining which activations in the cell should be forgotten at each time step, the input gate controls how the activations in the cell should be updated in response to the new input, and the output gate controls what activations should be used to generate the output in response to the current input. Each of the gates consists of layers of standard neurons, with one neuron in the layer per activation in the cell state.

    Figure 5.4 illustrates the internal structure of an LSTM cell. Each of the arrows in this image represents a vector of activations. The cell runs along the top of the figure from left () to right (). Activations in the cell can take values in the range -1 to +1. Stepping through the processing for a single input, the input vectoris first concatenated with the hidden state vector that has been propagated forward from the preceding time step. Working from left to right through the processing of the gates, the forget gate takes the concatenation of the input and the hidden state and passes this vector through a layer of neurons that use a sigmoid (also known as logistic)2 activation function. As a result of the neurons in the forget layer using sigmoid activation functions the output of this forget layer is a vector of values in the range 0 to 1. The cell state is then multiplied by this forget vector. The result of this multiplication is that activations in the cell state that are multiplied by components in the forget vector with values near 0 are forgotten, and activations that are multiplied by forget vector components with values near 1 are remembered. In effect, multiplying the cell state by the output of a sigmoid layer acts as a filter on the cell state.

    Next, the input gate decides what information should be added to the cell state. The processing in this step is done by the components in the middle block of figure 5.4, marked Input. This processing is broken down into two subparts. First, the gate decides which elements in the cell state should be updated, and second it decides what information should be included in the update. The decision regarding which elements in the cell state should be updated is implemented using a similar filter mechanism to the forget gate: the concatenated inputplus hidden stateis passed through a layer of sigmoid units to generate a vector of elements, the same width as the cell, where each element in the vector is in the range 0 to 1; values near 0 indicate that the corresponding cell element will not be updated, and values near 1 indicate that the corresponding cell element will be updated. At the same time that the filter vector is generated, the concatenated input and hidden state are also passed through a layer of tanh units (i.e., neurons that use the tanh activation function). Again, there is one tanh unit for each activation in the LSTM cell. This vector represents the information that may be added to the cell state. Tanh units are used to generate this update vector because tanh units output values in the range -1 to +1, and consequently the value of the activations in the cell elements can be both increased and decreased by an update.3 Once these two vectors have been generated, the final update vector is calculated by multiplying the vector output from the tanh layer by the filter vector generated from the sigmoid layer. The resulting vector is then added to the cell using vector addition.

    Figure 5.4 Schematic of the internal structure of an LSTM unit: σ represents a layer of neurons with sigmoid activations, T represents a layer of neurons with tanh activations, × represents vector multiplication, and + represents vector addition. The figure is inspired by an image by Christopher Olah available at: http://colah.github.io/posts/2015-08-Understanding-LSTMs/.

    The final stage of processing in an LSTM is to decide which elements of the cell should be output in response to the current input. This processing is done by the components in the block marked Output (on the right of figure 5.4). A candidate output vector is generated by passing the cell through a tanh layer. At the same time, the concatenated input and propagated hidden state vector are passed through a layer of sigmoid units to create another filter vector. The actual output vector is then calculated by multiplying the candidate output vector by this filter vector. The resulting vector is then passed to the output layer, and is also propagated forward to the next time step as the new hidden state.

    The fact that an LSTM unit contains multiple layers of neurons means that an LSTM is a network in itself. However, an RNN can be constructed by treating an LSTM as the hidden layer in the RNN. In this configuration, an LSTM unit receives an input at each time step and generates an output for each input. RNNs that use LSTM units are often known as LSTM networks.

    LSTM networks are ideally suited for natural language processing (NLP). A key challenge in using a neural network to do natural language processing is that the words in language must be converted into vectors of numbers. The word2vec models, created by Tomas Mikolov and colleagues at Google research, are one of the most popular ways of doing this conversion (Mikolov et al. 2013). The word2vec models are based on the idea that words that appear in similar contexts have similar meanings. The definition of context here is surrounding words. So for example, the words London and Paris are semantically similar because each of them often co-occur with words that the other word also co-occurs with, such as: capitalcityEuropeholidayairport, and so on. The word2vec models are neural networks that implement this idea of semantic similarity by initially assigning random vectors to each word and then using co-occurrences within a corpus to iteratively update these vectors so that semantically similar words end up with similar vectors. These vectors (known as word embeddings) are then used to represent a word when it is being input to a neural network.

    One of the areas of NLP where deep learning has had a major impact is in machine translation. Figure 5.5 presents a high-level schematic of the seq2seq (or encoder-decoder) architecture for neural machine translation (Sutskever et al. 2014). This architecture is composed of two LSTM networks that have been joined together. The first LSTM network processes the input sentence in a word-by-word fashion. In this example, the source language is French. The words are entered into the system in reverse order as it has been found that this leads to better translations. The symbolis a special end of sentence symbol. As each word is entered, the encoder updates the hidden state and propagates it forward to the next time step. The hidden state generated by the encoder in response to thesymbol is taken to be a vector representation of the input sentence. This vector is passed as the initial input to the decoder LSTM. The decoder is trained to output the translation sentence word by word, and after each word has been generated, this word is fed back into the system as the input for the next time step. In a way, the decoder is hallucinating the translation because it uses its own output to drive its own generation process. This process continues until the decoder outputs an

    symbol.

    Figure 5.5 Schematic of the seq2seq (or encoder-decoder) architecture.

    The idea of using a vector of numbers to represent the (interlingual) meaning of a sentence is very powerful, and this concept has been extended to the idea of using vectors to represent intermodal/multimodal representations. For example, an exciting development in recent years has been the development of automatic image captioning systems. These systems can take an image as input and generate a natural language description of the image. The basic structure of these systems is very similar to the neural machine translation architecture shown in figure 5.5. The main difference is that the encoder LSTM network is replaced by a CNN architecture that processes the input image and generates a vector representation that is then propagated to the decoder LSTM (Xu et al. 2015). This is another example of the power of deep learning arising from its ability to learn complex representations of information. In this instance, the system learns intermodal representations that enable information to flow from what is in an image to language. Combining CNN and RNN architectures is becoming more and more popular because it offers the potential to integrate the advantages of both systems and enables deep learning architectures to handle very complex data.

    Irrespective of the network architecture we use, we need to find the correct weights for the network if we wish to create an accurate model. The weights of a neuron determine the transformation the neuron applies to its inputs. So, it is the weights of the network that define the fundamental building blocks of the representation the network learns. Today the standard method for finding these weights is an algorithm that came to prominence in the 1980s: backpropagation. The next chapter will present a comprehensive introduction to this algorithm.

    6 Learning Functions

    A neural network model, no matter how deep or complex, implements a function, a mapping from inputs to outputs. The function implemented by a network is determined by the weights the network uses. So, training a network (learning the function the network should implement) on data involves searching for the set of weights that best enable the network to model the patterns in the data. The most commonly used algorithm for learning patterns from data is the gradient descent algorithm. The gradient descent algorithm is very like the perceptron learning rule and the LMS algorithm described in chapter 4: it defines a rule to update the weights used in a function based on the error of the function. By itself the gradient descent algorithm can be used to train a single output neuron. However, it cannot be used to train a deep network with multiple hidden layers. This limitation is because of the credit assignment problem: how should the blame for the overall error of a network be shared out among the different neurons (including the hidden neurons) in the network? Consequently, training a deep neural network involves using both the gradient descent algorithm and the backpropagation algorithm in tandem.

    The process used to train a deep neural network can be characterized as: randomly initializing the weight of a network, and then iteratively updating the weights of the network, in response to the errors the network makes on a dataset, until the network is working as expected. Within this training framework, the backpropagation algorithm solves the credit (or blame) assignment problem, and the gradient descent algorithm defines the learning rule that actually updates the weights in the network.

    This chapter is the most mathematical chapter in the book. However, at a high level, all you need to know about the backpropagation algorithm and the gradient descent algorithm is that they can be used to train deep networks. So, if you don’t have the time to work through the details in this chapter, feel free to skim through it. If, however, you wish to get a deeper understanding of these two algorithms, then I encourage you to engage with the material. These algorithms are at the core of deep learning and understanding how they work is, possibly, the most direct way of understanding its potentials and limitations. I have attempted to present the material in this chapter in an accessible way, so if you are looking for a relatively gentle but still comprehensive introduction to these algorithms, then I believe that this will provide it for you. The chapter begins by explaining the gradient descent algorithm, and then explains how gradient descent can be used in conjunction with the backpropagation algorithm to train a neural network.

    Gradient Descent

    A very simple type of function is a linear mapping from a single input to a single output. Table 6.1 presents a dataset with a single input feature and a single output. Figure 6.1 presents a scatterplot of this data along with a plot of the line that best fits this data. This line can be used as a function to map from an input value to a prediction of the output value. For example, if x = 0.9, then the response returned by this linear function is y = 0.6746. The error (or loss) of using this line as a model for the data is shown by the dashed lines from the line to each datum.

    Table 6.1. A sample dataset with one input feature, x, and an output (target) feature, y

    XY
    0.720.54
    0.450.56
    0.230.38
    0.760.57
    0.140.17
    Figure 6.1 Scatterplot of data with “best fit” line and the errors of the line on each example plotted as vertical dashed line segments. The figure also shows the mapping defined by the line for input x=0.9 to output y=0.6746.

    In chapter 2, we described how a linear function can be represented using the equation of a line:

    whereis the slope of the line, andis the y-intercept, which specifies where the line crosses the y-axis. For the line in figure 6.1,and; this is why the function returns the valuewhen, as in the following:

    The slopeand the y-interceptare the parameters of this model, and these parameters can be varied to fit the model to the data.

    The equation of a line has a close relationship with the weighted sum operation used in a neuron. This becomes apparent if we rewrite the equation of a line with model parameters rewritten as weights (:

    Different lines (different linear models for the data) can be created by varying either of these weights (or model parameters). Figure 6.2 illustrates how a line changes as the intercept and slope of the line varies: the dashed line illustrates what happens if the y-intercept is increased, and the dotted line shows what happens if the slope is decreased. Changing the y-interceptvertically translates the line, whereas modifying the sloperotates the line around the point.

    Each of these new lines defines a different function, mapping from  to, and each function will have a different error with respect to how well it matches the data. Looking at figure 6.2, we can see that the full line, , fits the data better than the other two lines because on average it passes closer to the data points. In other words, on average the error for this line for each data point is less than those of the other two lines. The total error of a model on a dataset can be measured by summing together the error the model makes on each example in the dataset. The standard way to calculate this total error is to use an equation known as the sum of squared errors (SSE):

    Figure 6.2 Plot illustrating how a line changes as the intercept (w0) and slope (w1) are varied.

    This equation tells us how to add together the errors of a model on a dataset containing n examples. This equation calculates for each of the  examples in the dataset the error of the model by subtracting the prediction of the target value returned by the model from the correct target value for that example, as specified in the dataset. In this equation  is the correct output value for target feature listed in the dataset for example j, and  is the estimate of the target value returned by the model for the same example. Each of these errors is then squared and these squared errors are then summed. Squaring the errors ensures that they are all positive, and therefore in the summation the errors for examples where the function underestimated the target do not cancel out the errors on examples where it overestimated the target. The multiplication of the summation of the errors by , although not important for the current discussion, will become useful later. The lower the SSE of a function, the better the function models the data. Consequently, the sum of squared errors can be used as a fitness function to evaluate how well a candidate function (in this situation a model instantiating a line) matches the data.

    Figure 6.3 shows how the error of a linear model varies as the parameters of the model change. These plots show the SSE of a linear model on the example single-input–single-output dataset listed in table 6.1. For each parameter there is a single best setting and as the parameter moves away from this setting (in either direction) the error of the model increases. A consequence of this is that the error profile of the model as each parameter varies is convex (bowl-shaped). This convex shape is particularly apparent in the top and middle plots in figure 6.3, which show that the SSE of the model is minimized when  (lowest point of the curve in the top plot), and when  (lowest point of the curve in the middle plot).

    Figure 6.3 Plots of the changes in the error (SSE) of a linear model as the parameters of the model change. Top: the SSE profile of a linear model with a fixed slope w1=0.524 when w0 ranges across the interval 0.3 to 1. Middle: the SSE profile of a linear model with a y-intercept fixed at w0=0.203 when w1 ranges across the interval 0 to 1. Bottom: the error surface of the linear model when both w0 and w1 are varied.

    If we plot the error of the model as both parameters are varied, we generate a three-dimensional convex bowl-shaped surface, known as an error surface. The bowl-shaped mesh in the plot at the bottom of figure 6.3 illustrates this error surface. This error surface was created by first defining a weight space. This weight space is represented by the flat grid at the bottom of the plot. Each coordinate in this weight space defines a different line because each coordinate specifies an intercept (a  value) and slope (a  value). Consequently, moving across this planar weight space is equivalent to moving between different models. The second step in constructing the error surface is to associate an elevation with each line (i.e., coordinate) in the weight space. The elevation associated with each weight space coordinate is the SSE of the model defined by that coordinate; or, put more directly, the height of the error surface above the weight space plane is the SSE of the corresponding linear model when it is used as a model for the dataset. The weight space coordinates that correspond with the lowest point of the error surface define the linear model that has the lowest SSE on the dataset (i.e., the linear model that best fits the data).

    The shape of the error surface in the plot on the right of figure 6.3 indicates that there is only a single best linear model for this dataset because there is a single point at the bottom of the bowl that has a lower elevation (lower error) than any other points on the surface. Moving away from this best model (by varying the weights of the model) necessarily involves moving to a model with a higher SSE. Such a move is equivalent to moving to a new coordinate in the weight space, which has a higher elevation associated with it on the error surface. A convex or bowl-shaped error surface is incredibly useful for learning a linear function to model a dataset because it means that the learning process can be framed as a search for the lowest point on the error surface. The standard algorithm used to find this lowest point is known as gradient descent.

    A convex or bowl-shaped error surface is incredibly useful for learning a linear function to model a dataset because it means that the learning process can be framed as a search for the lowest point on the error surface.

    The gradient descent algorithm begins by creating an initial model using a randomly selected a set of weights. Next the SSE of this randomly initialized model is calculated. Taken together, the guessed set of weights and the SSE of the corresponding model define the initial starting point on the error surface for the search. It is very likely that the randomly initialized model will be a bad model, so it is very likely that the search will begin at a location that has a high elevation on the error surface. This bad start, however, is not a problem, because once the search process is positioned on the error surface, the process can find a better set of weights by simply following the gradient of the error surface downhill until it reaches the bottom of the error surface (the location where moving in any direction results in an increase in SSE). This is why the algorithm is known as gradient descent: the gradient that the algorithm descends is the gradient of the error surface of the model with respect to the data.

    An important point is that the search does not progress from the starting location to the valley floor in one weight update. Instead, it moves toward the bottom of the error surface in an iterative manner, and during each iteration the current set of weights are updated so as to move to a nearby location in the weight space that has a lower SSE. Reaching the bottom of the error surface can take a large number of iterations. An intuitive way of understanding the process is to imagine a hiker who is caught on the side of a hill when a thick fog descends. Their car is parked at the bottom of the valley; however, due to the fog they can only see a few feet in any direction. Assuming that the valley has a nice convex shape to it, they can still find their way to their car, despite the fog, by repeatedly taking small steps that move down the hill following the local gradient at the position they are currently located. A single run of a gradient descent search is illustrated in the bottom plot of figure 6.3. The black curve plotted on the error surface illustrates the path the search followed down the surface, and the black line on the weight space plots the corresponding weight updates that occurred during the journey down the error surface. Technically, the gradient descent algorithm is known as an optimization algorithm because the goal of the algorithm is to find the optimal set of weights.

    The most important component of the gradient descent algorithm is the rule that defines how the weights are updated during each iteration of the algorithm. In order to understand how this rule is defined it is first necessary to understand that the error surface is made up of multiple error gradients. For our simple example, the error surface is created by combining two error curves. One error curve is defined by the changes in the SSE as  changes, shown in the top plot of figure 6.3. The other error curve is defined by the changes in the SSE as  changes, shown in the plot in the middle of figure 6.3. Notice that the gradient of each of these curves can vary along the curve, for example, the  error curve has a steep gradient on the extreme left and right of the plot, but the gradient becomes somewhat shallower in the middle of the curve. Also, the gradients of two different curves can vary dramatically; in this particular example the  error curve generally has a much steeper gradient than the  error curve.

    The fact that the error surface is composed of multiple curves, each with a different gradient, is important because the gradient descent algorithm moves down the combined error surface by independently updating each weight so as to move down the error curve associated with that weight. In other words, during a single iteration of the gradient descent algorithm,  is updated to move down the  error curve and  is updated the move down the  error curve. Furthermore, the amount each weight is updated in an iteration is proportional to the steepness of the gradient of the weight’s error curve, and this gradient will vary from one iteration to the next as the process moves down the error curve. For example,  will be updated by relatively large amounts in iterations where the search process is located high up on either side of the  error curve, but by smaller amounts in iterations where the search process is nearer to the bottom of the  error curve.

    The error curve associated with each weight is defined by how the SSE changes with respect to the change in the value of the weight. Calculus, and in particular differentiation, is the field of mathematics that deals with rates of change. For example, taking the derivative of a function, , calculates the rate of change of  (the output) for each unit change in  (the input). Furthermore, if a function takes multiple inputs [] then it is possible to calculate the rate of change of the output, , with respect to changes in each of these inputs, , by taking the partial derivative of the function of with respect to each input. The partial derivative of a function with respect to a particular input is calculated by first assuming that all the other inputs are held constant (and so their rate of change is 0 and they disappear from the calculation) and then taking the derivative of what remains. Finally, the rate of change of a function for a given input is also known as the gradient of the function at the location on the curve (defined by the function) that is specified by the input. Consequently, the partial derivative of the SSE with respect to a weight specifies how the output of the SSE changes as that weight changes, and so it specifies the gradient of the error curve of the weight. This is exactly what is needed to define the gradient descent weight update rule: the partial derivative of the SSE with respect to a weight specifies how to calculate the gradient of the weight’s error curve, and in turn this gradient specifies how the weight should be updated to reduce the error (the output of the SSE).

    The partial derivative of a function with respect to a particular variable is the derivative of the function when all the other variables are held constant. As a result there is a different partial derivative of a function with respect to each variable, because a different set of terms are considered constant in the calculation of each of the partial derivatives. Therefore, there is a different partial derivative of the SSE for each weight, although they all have a similar form. This is why each of the weights is updated independently in the gradient descent algorithm: the weight update rule is dependent on the partial derivative of the SSE for each weight, and because there is a different partial derivative for each weight, there is a separate weight update rule for each weight. Again, although the partial derivative for each weight is distinct, all of these derivatives have the same form, and so the weight update rule for each weight will also have the same form. This simplifies the definition of the gradient descent algorithm. Another simplifying factor is that the SSE is defined relative to a dataset with  examples. The relevance of this is that the only variables in the SSE are the weights; the target output  and the inputs  are all specified by the dataset for each example, and so can be considered constants. As a result, when calculating the partial derivative of the SSE with respect to a weight, many of the terms in the equation that do not include the weight can be deleted because they are considered constants.

    The relationship between the output of the SSE and each weight becomes more explicit if the SSE definition is rewritten so that the term , denoting the output predicted by the model, is replaced by the structure of the model generating the prediction. For the model with a single input  and a dummy input, this rewritten version of the SSE is:

    This equation uses a double subscript on the inputs, the first subscript  identifies the example (or row in the dataset) and the second subscript specifies the feature (or column in the dataset) of the input. For example,  represents feature 1 from example . This definition of the SSE can be generalized to a model with  inputs:

    Calculating the partial derivative of the SSE with respect to a specific weight involves the application of the chain rule from calculus and a number of standard differentiation rules. The result of this derivation is the following equation (for simplicity of presentation we switch back to the notation  to represent the output from the model):

    This partial derivative specifies how to calculate the error gradient for weight  for the dataset where  is the input associated with  for each example in the dataset. This calculation involves multiplying two terms, the error of the output and the rate of change of the output (i.e., the weighted sum) with respect to changes in the weight. One way of understanding this calculation is that if changing the weight changes the output of the weighted sum by a large amount, then the gradient of the error with respect to the weight is large (steep) because changing the weight will result in big changes in the error. However, this gradient is the uphill gradient, and we wish to move the weights so as to move down the error curve. So in the gradient descent weight update rule (shown below) the “–” sign in front of the input  is dropped. Using  to represent the iteration of the algorithm (an iteration involves a single pass through the  examples in the dataset), the gradient descent weight update rule is defined as:

    There are a number of notable factors about this weight update rule. First, the rule specifies how the weight  should be updated after iteration  through the dataset. This update is proportional to the gradient of the error curve for the weight for that iteration (i.e., the summation term, which actually defines the partial derivative of the SSE for that weight). Second, the weight update rule can be used to update the weights for functions with multiple inputs. This means that the gradient descent algorithm can be used to descend error surfaces with more than two weight coordinates. It is not possible to visualize these error surfaces because they will have more than three dimensions, but the basic principles of descending an error surface using the error gradient generalizes to learning functions with multiple inputs. Third, although the weight update rule has a similar structure for each weight, the rule does define a different update for each weight during each iteration because the update is dependent on the inputs in the dataset examples to which the weight is applied. Fourth, the summation in the rule indicates that, in each iteration of the gradient descent algorithm, the current model should be applied to all  of the examples in the dataset. This is one of the reasons why training a deep learning network is such a computationally expensive task. Typically for very large datasets, the dataset is split up into batches of examples sampled from the dataset, and each iteration of training is based on a batch, rather than the entire dataset. Fifth, apart from the modifications necessary to include the summation, this rule is identical to the LMS (also known as the Widrow-Hoff or delta) learning rule introduced in chapter 4, and the rule implements the same logic: if the output of the model is too large, then weights associated with positive inputs should be reduced; if the output is too small, then these weights should be increased. Moreover, the purpose and function of the learning rate hyperparameter (η) is the same as in the LMS rule: scale the weight adjustments to ensure that the adjustments aren’t so large that the algorithm misses (or steps over) the best set of weights. Using this weight update rule, the gradient descent algorithm can be summarized as follows:
    1. Construct a model using an initial set of weights.
    2. Repeat until the model performance is good enough.
    a. Apply the current model to the examples in the dataset.
    b. Adjust each weight using the weight update rule.
    3. Return the final model.

    One consequence of the independent updating of weights, and the fact that weight updates are proportional to the local gradient on the associated error curve, is that the path the gradient descent algorithm follows to the lowest point on the error surface may not be a straight line. This is because the gradient of each of the component error curves may not be equal at each location on the error surface (the gradient for one of the weights may be steeper than the gradient for the other weight). As a result, one weight may be updated by a larger amount than another weight during a given iteration, and thus the descent to the valley floor may not follow a direct route. Figure 6.4 illustrates this phenomenon. Figure 6.4 presents a set of top-down views of a portion of a contour plot of an error surface. This error surface is a valley that is quite long and narrow with steeper sides and gentler sloping ends; the steepness is reflected by the closeness of the contours. As a result, the search initially moves across the valley before turning toward the center of the valley. The plot on the left illustrates the first iteration of the gradient descent algorithm. The initial starting point is the location where the three arrows, in this plot, meet. The lengths of the dotted and dashed arrows represent the local gradients of the  and  error curves, respectively. The dashed arrow is longer than the dotted arrow reflecting the fact that the local gradient of the  error curve is steeper than that of the  error curve. In each iteration, each of the weights is updated in proportion to the gradient of their error curve; so in the first iteration, the update for  is larger than for  and therefore the overall movement is greater across the valley than along the valley. The thick black arrow illustrates the overall movement in the underlying weight space, resulting from the weight updates in this first iteration. Similarly, the middle plot illustrates the error gradients and overall weight update for the next iteration of gradient descent. The plot on the right shows the complete path of descent taken by the search process from initial location to the global minimum (the lowest point on the error surface).

    Figure 6.4 Top-down views of a portion of a contour plot of an error surface, illustrating the gradient descent path across the error surface. Each of the thick arrows illustrates the overall movement of the weight vector for a single iteration of the gradient descent algorithm. The length of dotted and dashed arrows represent the local gradient of the w0 and w1 error curves, respectively, for that iteration. The plot on the right shows the overall path taken to the global minimum of the error surface.
    It is relatively straightforward to map the weight update rule over to training a single neuron. In this mapping, the weight

    It is relatively straightforward to map the weight update rule over to training a single neuron. In this mapping, the weight  is the bias term for a neuron, and the other weights are associated with the other inputs to the neuron. The derivation of the partial derivative of the SSE is dependent on the structure of the function that generates . The more complex this function is, the more complex the partial derivative becomes. The fact that the function a neuron defines includes both a weighted summation and an activation function means that the partial derivative of the SSE with respect to a weight in a neuron is more complex than the partial derivative given above. The inclusion of the activation function within the neuron results in an extra term in the partial derivative of the SSE. This extra term is the derivative of the activation function with respect to the output from the weighted summation function. The derivative of the activation function is with respect to the output of the weighted summation function because this is the input that the activation function receives. The activation function does not receive the weight directly. Instead, the changes in the weight only affect the output of the activation function indirectly through the effect that these weight changes have on the output of the weighted summation. The main reason why the logistic function was such a popular activation function in neural networks for so long was that it has a very straightforward derivative with respect to its inputs. The gradient descent weight update rule for a neuron using the logistic function is as follows:

    The fact that the weight update rule includes the derivative of the activation function means that the weight update rule will change if the activation function of the neuron is changed. However, this change will simply involve updating the derivative of the activation function; the overall structure of the rule will remain the same.

    This extended weight update rule means that the gradient descent algorithm can be used to train a single neuron. It cannot, however, be used to train neural networks with multiple layers of neurons because the definition of the error gradient for a weight depends on the error of the output of the function, the term . Although it is possible to calculate the error of the output of a neuron in the output layer of the network by directly comparing the output with the expected output, it is not possible to calculate this error term directly for the neurons in the hidden layer of the network, and as a result it is not possible to calculate the error gradients for each weight. The backpropagation algorithm is a solution to the problem of calculating error gradients for the weights in the hidden layers of the network.

    Training a Neural Network Using Backpropagation

    The term backpropagation has two different meanings. The primary meaning is that it is an algorithm that can be used to calculate, for each neuron in a network, the sensitivity (gradient/rate-of-change) of the error of the network to changes in the weights. Once the error gradient for a weight has been calculated, the weight can then be adjusted to reduce the overall error of the network using a weight update rule similar to the gradient descent weight update rule. In this sense, the backpropagation algorithm is a solution to the credit assignment problem, introduced in chapter 4. The second meaning of backpropagation is that it is a complete algorithm for training a neural network. This second meaning encompasses the first sense, but also includes a learning rule that defines how the error gradients of the weights should be used to update the weights within the network. Consequently, the algorithm described by this second meaning involves a two-step process: solve the credit assignment problem, and then use the error gradients of the weights, calculated during credit assignment, to update the weights in the network. It is useful to distinguish between these two meanings of backpropagation because there are a number of different learning rules that can be used to update the weights, once the credit assignment problem has been resolved. The learning rule that is most commonly used with backpropagation is the gradient descent algorithm introduced earlier. The description of the backpropagation algorithm given here focuses on the first meaning of backpropagation, that of the algorithm being a solution to the credit assignment problem.

    Backpropagation: The Two-Stage Algorithm

    The backpropagation algorithm begins by initializing all the weights of the network using random values. Note that even a randomly initialized network can still generate an output when an input is presented to the network, although it is likely to be an output with a large error. Once the network weights have been initialized, the network can be trained by iteratively updating the weights so as to reduce the error of the network, where the error of the network is calculated in terms of the difference between the output generated by the network in response to an input pattern, and the expected output for that input, as defined in the training dataset. A crucial step in this iterative weight adjustment process involves solving the credit assignment problem, or, in other words, calculating the error gradients for each weight in the network. The backpropagation algorithm solves this problem using a two-stage process. In first stage, known as the forward pass, an input pattern is presented to the network, and the resulting neuron activations flow forward through the network until an output is generated. Figure 6.5 illustrates the forward pass of the backpropagation algorithm. In this figure, the weighted summation of inputs calculated at each neuron (e.g.,  represents the weighted summation of inputs calculated for neuron 1) and the outputs (or activations, e.g.,  represents the activation for neuron 1) of each neuron is shown. The reason for listing the  and  values for each neuron in this figure is to highlight the fact that during the forward pass both of these values, for each neuron, are stored in memory. The reason they are stored in memory is that they are used in the backward pass of the algorithm. The  value for a neuron is used to calculate the update to the weights on input connections to the neuron. The  value for a neuron is used to calculate the update to the weights on the output connections from a neuron. The specifics of how these values are used in the backward pass will be described below.

    The second stage, known as the backward pass, begins by calculating an error gradient for each neuron in the output layer. These error gradients represent the sensitivity of the network error to changes in the weighted summation calculation of the neuron, and they are often denoted by the shorthand notation  (pronounced delta) with a subscript indicating the neuron. For example, δk is the gradient of the network error with respect to small changes in the weighted summation calculation of the neuron k. It is important to recognize that there are two different error gradients calculated in the backpropagation algorithm:
    1. The first is the  value for each neuron. The  for each neuron is the rate of change of the error of the network with respect to changes in the weighted summation calculation of the neuron. There is one  for each neuron. It is these  error gradients that the algorithm backpropagates.
    2. The second is the error gradient of the network with respect to changes in the weights of the network. There is one of these error gradients for each weight in the network. These are the error gradients that are used to update the weights in the network. However, it is necessary to first calculate the  term for each neuron (using backpropagation) in order to calculate the error gradients for the weights.

    Note there is only a single  per neuron, but there may be many weights associated with that neuron, so the  term for a neuron may be used in the calculation of multiple weight error gradients.

    Once the s for the output neurons have been calculated, the s for the neurons in the last hidden layer are then calculated. This is done by assigning a portion of the  from each output neuron to each hidden neuron that is directly connected to it. This assignment of blame, from output neuron to hidden neuron, is dependent on the weight of the connection between the neurons, and the activation of the hidden neuron during the forward pass (this is why the activations are recorded in memory during the forward pass). Once the blame assignment, from the output layer, has been completed, the  for each neuron in the last hidden layer is calculated by summing the portions of the s assigned to the neuron from all of the output neurons it connects to. The same process of blame assignment and summing is then repeated to propagate the error gradient back from the last layer of hidden neurons to the neurons in the second last layer, and so on, back to the input layer. It is this backward propagation of s through the network that gives the algorithm its name. At the end of this backward pass there is a  calculated for each neuron in the network (i.e., the credit assignment problem has been solved) and these s can then be used to update the weights in the network (using, for example, the gradient descent algorithm introduced earlier). Figure 6.6 illustrates the backward pass of the backpropagation algorithm. In this figure, the s get smaller and smaller as the backpropagation process gets further from the output layer. This reflects the vanishing gradient problem discussed in chapter 4 that slows down the learning rate of the early layers of the network.

    Figure 6.5 The forward pass of the backpropagation algorithm.

    In summary, the main steps within each iteration of the backpropagation algorithm are as follows:
    1. Present an input to the network and allow the neuron activations to flow forward through the network until an output is generated. Record both the weighted sum and the activation of each neuron.

    Figure 6.6 The backward pass of the backpropagation algorithm.

    2. Calculate a  (delta) error gradient for each neuron in the output layer.
    3. Backpropagate the  error gradients to obtain a  (delta) error gradient for each neuron in the network.
    4. Use the  error gradients and a weight update algorithm, such as gradient descent, to calculate the error gradients for the weights and use these to update the weights in the network.

    The algorithm continues iterating through these steps until the error of the network is reduced (or converged) to an acceptable level.

    Backpropagation: Backpropagating the δ s

     term of a neuron describes the error gradient for the network with respect to changes in the weighted summation of inputs calculated by the neuron. To help make this more concrete, figure 6.7 (top) breaks open the processing stages within a neuron  and uses the term  to denote the result of the weighted summation within the neuron. The neuron in this figure receives inputs (or activations) from three other neurons (), and  is the weighted sum of these activations. The output of the neuron, , is then calculated by passing  through a nonlinear activation function, , such as the logistic function. Using this notation a  for a neuron  is the rate of change of the error of the network with respect to small changes in the value of . Mathematically, this term is the partial derivative of the networks error with respect to :

    No matter where in a network a neuron is located (output layer or hidden layer), the  for the neuron is calculated as the product of two terms:
    1. the rate of change of the network error in response to changes in the neuron’s activation (output): 

    Figure 6.7 Top: the forward propagation of activations through the weighted sum and activation function of a neuron. Middle: The calculation of the δ term for an output neuron (tk is the expected activation for the neuron and ak is the actual activation). Bottom: The calculation of the δ term for a hidden neuron. This figure is loosely inspired by figure 5.2 and figure 5.3 in Reed and Marks II 1999.

    2. the rate of change of the activation of the neuron with respect to changes in the weighted sum of inputs to the neuron: .

    Figure 6.7 (middle) illustrates how this product is calculated for neurons in the output layer of a network. The first step is to calculate the rate of change of the error of the network with respect to the output of the neuron, the term . Intuitively, the larger the difference between the activation of a neuron, , and the expected activation, , the faster the error can be changed by changing the activation of the neuron. So the rate of change of the error of the network with respect to changes in the activation of an output neuron  can be calculated by subtracting the neuron’s activation () from the expected activation ():

    This term connects the error of the network to the output of the neuron. The neuron’s , however, is the rate of change of the error with respect to the input to the activation function (), not the output of that function (). Consequently, in order to calculate the  for the neuron, the  value must be propagated back through the activation function to connect it to the input to the activation function. This is done by multiplying  by the rate of change of the activation function with respect to the input value to the function, . In figure 6.7, the rate of change of the activation function with respect to its input is denoted by the term: . This term is calculated by plugging the value  (stored from the forward pass through the network) into the equation of the derivative of the activation function with respect to . For example, the derivative of the logistic function with respect to its input is:

    Figure 6.8 plots this function and shows that plugging a  value into this equation will result in a value between 0 and 0.25. For example, figure 6.8 shows that if  then . This is why the weighted summation value for each neuron () is stored during the forward pass of the algorithm.

    The fact1 that the calculation of a neuron’s  involves a product that includes the derivative of the neuron’s activation function makes it necessary to be able to take the derivative of the neuron’s activation function. It is not possible to take the derivative of a threshold activation function because there is a discontinuity in the function at the threshold. As a result, the backpropagation algorithm does not work for networks composed of neurons that use threshold activation functions. This is one of the reasons why neural networks moved away from threshold activation and started to use the logistic and tanh activation functions. The logistic and tanh functions both have very simple derivatives and this made them particularly suitable to backpropagation.

    Figure 6.8 Plots of the logistic function and the derivative of the logistic function.

    Figure 6.7 (bottom) illustrates how the  for a neuron in a hidden layer is calculated. This involves the same product of terms as was used for neurons in the output layer. The difference is that the calculation of the  is more complex for hidden units. For hidden neurons, it is not possible to directly connect the output of the neuron with the error of a network. The output of a hidden neuron only indirectly affects the overall error of the network through the variations that it causes in the downstream neurons that receive the output as input, and the magnitude of these variations is dependent on the weight each of these downstream neurons applies to the output. Furthermore, this indirect effect on the network error is in turn dependent on the sensitivity of the network error to these later neurons, that is, their  values. Consequently, the sensitivity of the network error to the output of a hidden neuron can be calculated as a weighted sum of the  values of the neurons immediately downstream of the neuron:

    As a result, the error terms (the  values) for all the downstream neurons to which a neuron’s output is passed in the forward pass must be calculated before the  for neuron k can be calculated. This, however, is not a problem because in the backward pass the algorithm is working backward through the network and will have calculated the  terms for the downstream neurons before it reaches neuron k.

    For hidden neurons, the other term in the  product, , is calculated in the same way as it is calculated for output neurons: the  value for the neuron (the weighted summation of inputs, stored during the forward pass through the network) is plugged into the derivative of the neuron’s activation function with respect to .

    Backpropagation: Updating the Weights

    The fundamental principle of the backpropagation algorithm in adjusting the weights in a network is that each weight in a network should be updated in proportion to the sensitivity of the overall error of the network to changes in that weight. The intuition is that if the overall error of the network is not affected by a change in a weight, then the error of the network is independent of that weight, and, therefore, the weight did not contribute to the error. The sensitivity of the network error to a change in an individual weight is measured in terms of the rate of change of the network error in response to changes in that weight.

    The fundamental principle of the backpropagation algorithm in adjusting the weights in a network is that each weight in a network should be updated in proportion to the sensitivity of the overall error of the network to changes in that weight.

    The overall error of a network is a function with multiple inputs: both the inputs to the network and all the weights in the network. So, the rate of change of the error of a network in response to changes in a given network weight is calculated by taking the partial derivative of the network error with respect to that weight. In the backpropagation algorithm, the partial derivative of the network error for a given weight is calculated using the chain rule. Using the chain rule, the partial derivative of the network error with respect a weight  on the connection between a neuron  and a neuron  is calculated as the product of two terms:
    1. the first term describes the rate of change of the weighted sum of inputs in neuron  with respect to changes in the weight ;
    2. and the second term describes the rate of change of the network error in response to changes in the weighted sum of inputs calculated by the neuron . (This second term is the  for neuron .)

    Figure 6.9 shows how the product of these two terms connects a weight to the output error of the network. The figure shows the processing of the last two neurons ( and ) in a network with a single path of activation. Neuron  receives a single input  and the output from neuron  is the sole input to neuron . The output of neuron  is the output of the network. There are two weights in this portion of the network,  and .

    The calculations shown in figure 6.9 appear complicated because they contain a number of different components. However, as we will see, by stepping through these calculations, each of the individual elements is actually easy to calculate; it’s just keeping track of all the different elements that poses a difficulty.

    Figure 6.9 An illustration of how the product of derivatives connects weights in the network to the error of the network.

    Focusing on , this weight is applied to an input of the output neuron of the network. There are two stages of processing between this weight and the network output (and error): the first is the weighted sum calculated in neuron ; the second is the nonlinear function applied to this weighted sum by the activation function of neuron . Working backward from the output, the  term is calculated using the calculation shown in the middle figure of figure 6.7: the difference between the target activation for the neuron and the actual activation is calculated and is multiplied by the partial derivative of the neuron’s activation function with respect to its input (the weighted sum ), . Assuming that the activation function used by neuron  is the logistic function, the term  is calculated by plugging in the value  (stored during the forward pass of the algorithm) into the derivation of the logistic function:

    So the calculation of  under the assumption that neuron  uses a logistic function is:

    The  term connects the error of the network to the input to the activation function (the weighted sum ). However, we wish to connect the error of the network back to the weight . This is done by multiplying the  term by the partial derivative of the weighted summation function with respect to weight . This partial derivative describes how the output of the weighted sum function  changes as the weight  changes. The fact that the weighted summation function is a linear function of weights and activations means that in the partial derivative with respect to a particular weight all the terms in the function that do not involve the specific weight go to zero (are considered constants) and the partial derivative simplifies to just the input associated with that weight, in this instance input .

    This is why the activations for each neuron in the network are stored in the forward pass. Taken together these two terms,  and , connect the weight  to the network error by first connecting the weight to , and then connecting  to the activation of the neuron, and thereby to the network error. So, the error gradient of the network with respect to changes in weight  is calculated as:

    The other weight in the figure 6.9 network, , is deeper in the network, and, consequently, there are more processing steps between it and the network output (and error). The  term for neuron  is calculated, through backpropagation (as shown at the bottom of figure 6.7), using the following product of terms:

    Assuming the activation function used by neuron  is the logistic function, then the term  is calculated in a similar way to : the value  is plugged into the equation for the derivative of the logistic function. So, written out in long form the calculation of  is:

    However, in order to connect the weight  with the error of the network, the term  must be multiplied by the partial derivative of the weighted summation function with respect to the weight: . As described above, the partial derivative of a weighted sum function with respect to a weight reduces to the input associated with the weight  (i.e., ); and the gradient of the networks error with respect to the hidden weight  is calculated by multiplying  by  Consequently, the product of the terms ( and ) forms a chain connecting the weight  to the network error. For completeness, the product of terms for , assuming logistic activation functions in the neurons, is:

    Although this discussion has been framed in the context of a very simple network with only a single path of connections, it generalizes to more complex networks because the calculation of the  terms for hidden units already considers the multiple connections emanating from a neuron. Once the gradient of the network error with respect to a weight has been calculated (), the weight can be adjusted so as to reduce the weight of the network using the gradient descent weight update rule. Here is the weight update rule, specified using the notation from backpropagation, for the weight on the connection between neuron  and neuron  during iteration  of the algorithm:

    Finally, an important caveat on training neural networks with backpropagation and gradient descent is that the error surface of a neural network is much more complex than that of a linear models. Figure 6.3 illustrated the error surface of a linear model as a smooth convex bowl with a single global minimum (a single best set of weights). However, the error surface of a neural network is more like a mountain range with multiple valleys and peaks. This is because each of the neurons in a network includes a nonlinear function in its mapping of inputs to outputs, and so the function implemented by the network is a nonlinear function. Including a nonlinearity within the neurons of a network increases the expressive power of the network in terms of its ability to learn more complex functions. However, the price paid for this is that the error surface becomes more complex and the gradient descent algorithm is no longer guaranteed to find the set of weights that define the global minimum on the error surface; instead it may get stuck within a minima (local minimum). Fortunately, however, backpropagation and gradient descent can still often find sets of weights that define useful models, although searching for useful models may require running the training process multiple times to explore different parts of the error surface landscape.

    7 The Future of Deep Learning

    On March 27, 2019, Yoshua Bengio, Geoffrey Hinton, and Yann LeCun jointly received the ACM A.M. Turing award. The award recognized the contributions they have made to deep learning becoming the key technology driving the modern artificial intelligence revolution. Often described as the “Nobel Prize for Computing,” the ACM A.M Turing award carries a $1 million prize. Sometimes working together, and at other times working independently or in collaboration with others, these three researchers have, over a number of decades of work, made numerous contributions to deep learning, ranging from the popularization of backpropagation in the 1980s, to the development of convolutional neural networks, word embeddings, attention mechanisms in networks, and generative adversarial networks (to list just some examples). The announcement of the award noted the astonishing recent breakthroughs that deep learning has led to in computer vision, robotics, speech recognition, and natural language processing, as well as the profound impact that these technologies are having on society, with billions of people now using deep learning based artificial intelligence on a daily basis through smart phones applications. The announcement also highlighted how deep learning has provided scientists with powerful new tools that are resulting in scientific breakthroughs in areas as diverse as medicine and astronomy. The awarding of this prize to these researchers reflects the importance of deep learning to modern science and society. The transformative effects of deep learning on technology is set to increase over the coming decades with the development and adoption of deep learning continuing to be driven by the virtuous cycle of ever larger datasets, the development of new algorithms, and improved hardware. These trends are not stopping, and how the deep learning community responds to them will drive growth and innovations within the field over the coming years.

    Big Data Driving Algorithmic Innovations

    Chapter 1 introduced the different types of machine learning: supervised, unsupervised, and reinforcement learning. Most of this book has focused on supervised learning, primarily because it is the most popular form of machine learning. However, a difficulty with supervised learning is that it can cost a lot of money and time to annotate the dataset with the necessary target labels. As datasets continue to grow, the data annotation cost is becoming a barrier to the development of new applications. The ImageNet dataset1 provides a useful example of the scale of the annotation task involved in deep learning projects. This data was released in 2010, and is the basis for the ImageNet Large-Scale Visual Recognition Challenge (ILSVRC). This is the challenge that the AlexNet CNN won in 2012 and the ResNet system won in 2015. As was discussed in chapter 4, AlexNet winning the 2012 ILSVRC challenge generated a lot of excitement about deep learning models. However, the AlexNet win would not have been possible without the creation of the ImageNet dataset. This dataset contains more than fourteen million images that have been manually annotated to indicate which objects are present in each image; and more than one million of the images have actually been annotated with the bounding boxes of the objects in the image. Annotating data at this scale required a significant research effort and budget, and was achieved using crowdsourcing platforms. It is not feasible to create annotated datasets of this size for every application.

    As datasets continue to grow, the data annotation cost is becoming a barrier to the development of new applications.

    One response to this annotation challenge has been a growing interest in unsupervised learning. The autoencoder models used in Hinton’s pretraining (see chapter 4) are one neural network approach to unsupervised learning, and in recent years different types of autoencoders have been proposed. Another approach to this problem is to train generative models. Generative models attempt to learn the distribution of the data (or, to model the process that generated the data). Similar to autoencoders, generative models are often used to learn a useful representation of the data prior to training a supervised model. Generative adversarial networks (GANs) are an approach to training generative models that has received a lot of attention in recent years (Goodfellow et al. 2014). A GAN consists of two neural networks, a generative model and a discriminative model, and a sample of real data. The models are trained in an adversarial manner. The task of the discriminative model is to learn to discriminate between real data sampled from the dataset, and fake data that has been synthesized by the generator. The task of the generator is to learn to synthesize fake data that can fool the discriminative model. Generative models trained using a GAN can learn to synthesize fake images that mimic an artistic style (Elgammal et al. 2017), and also to synthesize medical images along with lesion annotations (Frid-Adar et al. 2018). Learning to synthesize medical images, along with the segmentation of the lesions in the synthesized image, opens the possibility of automatically generating massive labeled datasets that can be used for supervised learning. A more worrying application of GANs is the use of these networks to generate deep fakes: a deep fake is a fake video of a person doing something they never did that is created by swapping their face into a video of someone else. Deep fakes are very hard to detect, and have been used maliciously on a number of occasions to embarrass public figures, or to spread fake news stories.

    Another solution to the data labeling bottleneck is that rather than training a new model from scratch for each new application, we rather repurpose models that have been trained on a similar task. Transfer learning is the machine learning challenge of using information (or representations) learned on one task to aid learning on another task. For transfer learning to work, the two tasks should be from related domains. Image processing is an example of a domain where transfer learning is often used to speed up the training of models across different tasks. Transfer learning is appropriate for image processing tasks because low-level visual features, such as edges, are relatively stable and useful across nearly all visual categories. Furthermore, the fact that CNN models learn a hierarchy of visual feature, with the early layers in CNN learning functions that detect these low-level visual features in the input, makes it possible to repurpose the early layers of pretrained CNNs across multiple image processing projects. For example, imagine a scenario where a project requires an image classification model that can identify objects from specialized categories for which there are no samples in general image datasets, such as ImageNet. Rather than training a new CNN model from scratch, it is now relatively standard to first download a state-of-the-art model (such as the Microsoft ResNet model) that has been trained on ImageNet, then replace the later layers of the model with a new set of layers, and finally to train this new hybrid-model on a relatively small dataset that has been labeled with the appropriate categories for the project. The later layers of the state-of-the-art (general) model are replaced because these layers contain the functions that combine the low-level features into the task specific categories the model was originally trained to identify. The fact that the early layers of the model have already been trained to identify the low-level visual features speeds up the training and reduces the amount of data needed to train the new project specific model.

    The increased interest in unsupervised learning, generative models, and transfer learning can all be understood as a response to the challenge of annotating increasingly large datasets.

    The Emergence of New Models

    The rate of emergence of new deep learning models is accelerating every year. A recent example is capsule networks (Hinton et al. 2018; Sabour et al. 2017). Capsule networks are designed to address some of the limitations of CNNs. One problem with CNNs, sometimes known as the Picasso problem, is the fact that a CNN ignores the precise spatial relationships between high-level components within an object’s structure. What this means in practice is that a CNN that has been trained to identify faces may learn to identify the shapes of eyes, the nose, and the mouth, but will not learn the required spatial relationships between these parts. Consequently, the network can be fooled by an image that contains these body parts, even if they are not in the correct relative position to each other. This problem arises because of the pooling layers in CNNs that discard positional information.

    At the core of capsule networks is the intuition that the human brain learns to identify object types in a viewpoint invariant manner. Essentially, for each object type there is an object class that has a number of instantiation parameters. The object class encodes information such as the relative relationship of different object parts to each other. The instantiation parameters control how the abstract description of an object type can be mapped to the specific instance of the object that is currently in view (for example, its pose, scale, etc.).

    A capsule is a set of neurons that learns to identify whether a specific type of object or object part is present at a particular location in an image. A capsule outputs an activity vector that represents the instantiation parameters of the object instance, if one is present at the relevant location. Capsules are embedded within convolutional layers. However, capsule networks replace the pooling process, which often defines the interface between convolutional layers, with a process called dynamic routing. The idea behind dynamic routing is that each capsule in one layer in the network learns to predict which capsule in the next layer is the most relevant capsule for it to forward its output vector to.

    At the time or writing, capsule networks have the state-of-the-art performance on the MNIST handwritten digit recognition dataset that the original CNNs were trained on. However, by today’s standards, this is a relatively small dataset, and capsule networks have not been scaled to larger datasets. This is partly because the dynamic routing process slows down the training of capsule networks. However, if capsule networks are successfully scaled, then they may introduce an important new form of model that extends the ability of neural networks to analyze images in a manner much closer to the way humans do.

    Another recent model that has garnered a lot of interest is the transformer model (Vaswani et al. 2017). The transformer model is an example of a growing trend in deep learning where models are designed to have sophisticated internal attention mechanisms that enable a model to dynamically select subsets of the input to focus on when generating an output. The transformer model has achieved state-of-the-art performance on machine translation for some language pairs, and in the future this architecture may replace the encoder-decoder architecture described in chapter 5. The BERT (Bidirectional Encoder Representations from Transformers) model has built on the Transformer architecture (Devlin et al. 2018). The BERT development is particularly interesting because at its core is the idea of transfer learning (as discussed above in relation to the data annotation bottleneck). The basic approach to creating a natural language processing model with BERT is to pretrain a model for a given language using a large unlabeled dataset (the fact that the dataset is unlabeled means that it is relatively cheap to create). This pretrained model can then be used as the basis to create a models for specific tasks for the language (such as sentiment classification or question answering) by fine-tuning the pretrained model using supervised learning and a relatively small annotated dataset. The success of BERT has shown this approach to be tractable and effective in developing state-of-the-art natural language processing systems.

    New Forms of Hardware

    Today’s deep learning is powered by graphics processing units (GPUs): specialized hardware that is optimized to do fast matrix multiplications. The adoption, in the late 2000s, of commodity GPUs to speed up neural network training was a key factor in many of the breakthroughs that built momentum behind deep learning. In the last ten years, hardware manufacturers have recognized the importance of the deep learning market and have developed and released hardware specifically designed for deep learning, and which supports deep learning libraries, such as TensorFlow and PyTorch. As datasets and networks continue to grow in size, the demand for faster hardware continues. At the same time, however, there is a growing recognition of the energy costs associated with deep learning, and people are beginning to look for hardware solutions that have a reduced energy footprint.

    Neuromorphic computing emerged in the late 1980s from the work of Carver Mead.2 A neuromorphic chip is composed of a very-large-scale integrated (VLSI) circuit, connecting potentially millions of low-power units known as spiking neurons. Compared with the artificial neurons used in standard deep learning systems, the design of a spiking neuron is closer to the behavior of biological neurons. In particular, a spiking neuron does not fire in response to the set of input activations propagated to it at a particular time point. Instead, a spiking neuron maintains an internal state (or activation potential) that changes through time as it receives activation pulses. The activation potential increases when new activations are received, and decays through time in the absence of incoming activations. The neuron fires when its activation potential surpasses a specific threshold. Due to the temporal decay of the neuron’s activation potential, a spiking neuron only fires if it receives the requisite number of input activations within a time window (a spiking pattern). One advantage of this temporal based processing is that spiking neurons do not fire on every propagation cycle, and this reduces the amount of energy the network consumes.

    In comparison with traditional CPU design, neuromorphic chips have a number of distinctive characteristics, including:
    1. Basic building blocks: traditional CPUs are built using transistor based logic gates (e.g., AND, OR, NAND gates), whereas neuromorphic chips are built using spiking neurons.
    2. Neuromorphic chips have an analog aspect to them: in a traditional digital computer, information is sent in high-low electrical bursts in sync with a central clock; in a neuromorphic chip, information is sent as patterns of high-low signals that vary through time.
    3. Architecture: the architecture of traditional CPUs is based on the von Neumann architecture, which is intrinsically centralized with all the information passing through the CPU. A neuromorphic chip is designed to allow massive parallelism of information flow between the spiking neurons. Spiking neurons communicate directly with each other rather than via a central information processing hub.
    4. Information representation is distributed through time: the information signals propagated through a neuromorphic chip use a distributed representation, similar to the distributed representations discussed in chapter 4, with the distinction that in a neuromorphic chip these representations are also distributed through time. Distributed representations are more robust to information loss than local representations, and this is a useful property when passing information between hundreds of thousands, or millions, of components, some of which are likely to fail.

    Currently there are a number of major research projects focused on neuromorphic computing. For example, in 2013 the European Commission allocated one billion euros in funding to the ten-year Human Brain Project.3 This project directly employs more than five hundred scientists, and involves research from more than a hundred research centers across Europe. One of the projects key objectives is the development of neuromorphic computing platforms capable of running a simulation of a complete human brain. A number of commercial neuromorphic chips have also been developed. In 2014, IBM launched the TrueNorth chip, which contained just over a million neurons that are connected together by over 286 million synapses. This chip uses approximately 1/10,000th the power of a conventional microprocessor. In 2018, Intel Labs announced the Loihi (pronounced low-ee-hee) neuromorphic chip. The Loihi chip has 131,072 neurons connected together by 130,000,000 synapses. Neuromorphic computing has the potential to revolutionize deep learning; however, it still faces a number of challenges, not least of which is the challenge of developing the algorithms and software patterns for programming this scale of massively parallel hardware.

    Finally, on a slightly longer time horizon, quantum computing is another stream of hardware research that has the potential to revolutionize deep learning. Quantum computing chips are already in existence; for example, Intel has created a 49-qubit quantum test chip, code named Tangle Lake. A qubit is the quantum equivalent of a binary digit (bit) in traditional computing. A qubit can store more than one bit of information; however, it is estimated that it will require a system with one million or more qubits before quantum computing will be useful for commercial purposes. The current time estimate for scaling quantum chips to this level is around seven years.

    The Challenge of Interpretability

    Machine learning, and deep learning, are fundamentally about making data-driven decisions. Although deep learning provides a powerful set of algorithms and techniques to train models that can compete (and in some cases outperform) humans on a range of decision-making tasks, there are many situations where a decision by itself is not sufficient. Frequently, it is necessary to provide not only a decision but also the reasoning behind a decision. This is particularly true when the decision affects a person, be it a medical diagnosis or a credit assessment. This concern is reflected in privacy and ethics regulations in relation to the use of personal data and algorithmic decision-making pertaining to individuals. For example, Recital 714 of the General Data Protection Regulations (GDPR) states that individuals, affected by a decision made by an automated decision-making process, have the right to an explanation with regards to how the decision was reached.

    Different machine learning models provide different levels of interpretability with regard to how they reach a specific decision. Deep learning models, however, are possibly the least interpretable. At one level of description, a deep learning model is quite simple: it is composed of simple processing units (neurons) that are connected together into a network. However, the scale of the networks (in terms of the number of neurons and the connections between them), the distributed nature of the representations, and the successive transformations of the input data as the information flows deeper into the network, makes it incredibly difficult to interpret, understand, and therefore explain, how the network is using an input to make a decision.

    The legal status of the right to explanation within GDPR is currently vague, and the specific implications of it for machine learning and deep learning will need to be worked out in the courts. This example does, however, highlight the societal need for a better understanding of how deep learning models use data. The ability to interpret and understand the inner workings of a deep learning model is also important from a technical perspective. For example, understanding how a model uses data can reveal if a model has an unwanted bias in how it makes its decisions, and also reveal the corner cases that the model will fail on. The deep learning and the broader artificial intelligence research communities are already responding to this challenge. Currently, there are a number of projects and conferences focused on topics such as explainable artificial intelligence, and human interpretability in machine learning.

    Chis Olah and his colleagues summarize the main techniques currently used to examine the inner workings of deep learning models as: feature visualization, attribution, and dimensionality reduction (Olah et al. 2018). One way to understand how a network processes information is to understand what inputs trigger particular behaviors in a network, such as a neuron firing. Understanding the specific inputs that trigger the activation of a neuron enables us to understand what the neuron has learned to detect in the input. The goal of feature visualization is to generate and visualize inputs that cause a specific activity within a network. It turns out that optimization techniques, such a backpropogation, can be used to generate these inputs. The process starts with a random generated input and the input is then iteratively updated until the target behavior is triggered. Once the required necessary input has been isolated, it can then be visualized in order to provide a better understanding of what the network is detecting in the input when it responds in a particular way. Attribution focuses on explaining the relationship between neurons, for example, how the output of a neuron in one layer of the network contributes to the overall output of the network. This can be done by generating a saliency (or heat-map) for the neurons in a network that captures how much weight the network puts on the output of a neuron when making a particular decision. Finally, much of the activity within a deep learning network is based on the processing of high-dimensional vectors. Visualizing data enables us to use our powerful visual cortex to interpret the data and the relationships within the data. However, it is very difficult to visualize data that has a dimensionality greater than three. Consequently, visualization techniques that are able to systematically reduce the dimensionality of high-dimensional data and visualize the results are incredibly useful tools for interpreting the flow of information within a deep network. t-SNE5 is a well-known technique that visualizes high-dimensional data by projecting each datapoint into a two- or three-dimensional map (van der Maaten and Hinton 2008). Research on interpreting deep learning networks is still in its infancy, but in the coming years, for both societal and technical reasons, this research is likely to become a more central concern to the broader deep learning community.

    Final Thoughts

    Deep learning is ideally suited for applications involving large datasets of high-dimensional data. Consequently, deep learning is likely to make a significant contribution to some of the major scientific challenges of our age. In the last two decades, breakthroughs in biological sequencing technology have made it possible to generate high-precision DNA sequences. This genetic data has the potential to be the foundation for the next generation of personalized precision medicine. At the same time, international research projects, such as the Large Hadron Collider and Earth orbit telescopes, generate huge amounts of data on a daily basis. Analyzing this data can help us to understand the physics of our universe at the smallest and the biggest scales. In response to this flood of data, scientists are, in ever increasing numbers, turning to machine learning and deep learning to enable them to analyze this data.

    One way to understand how a network processes information is to understand what inputs trigger particular behaviors in a network, such as a neuron firing.

    At a more mundane level, however, deep learning already directly affects our lives. It is likely, that for the last few years, you have unknowingly been using deep learning models on a daily basis. A deep learning model is probably being invoked every time you use an internet search engine, a machine translation system, a face recognition system on your camera or social media website, or use a speech interface to a smart device. What is potentially more worrying is that the trail of data and metadata that you leave as you move through the online world is also being processed and analzsed using deep learning models. This is why it is so important to understand what deep learning is, how it works, what is it capable of, and its current limitations.

  • Zack Savitsky:熵是什么

    生命是一本关于破坏的文集。你构建的一切最终都会崩溃。每个你爱的人都会死去。任何秩序或稳定感都不可避免地湮灭。整个宇宙都沿着一段惨淡的跋涉走向一种沉闷的终极动荡状态。

    为了跟踪这种宇宙衰变,物理学家使用了一种称为熵的概念。熵是无序性的度量标准,而熵总是在上升的宣言——被称为热力学第二定律——是自然界最不可避免的宿命之一。

    长期以来,我一直被这种普遍的混乱倾向所困扰。秩序是脆弱的。制作一个花瓶需要艺术性和几个月的精心策划,但用足球破坏它只需要一瞬间。我们一生都在努力理解一个混乱和不可预测的世界,在这个世界里,任何建立控制的尝试似乎都只会适得其反。热力学第二定律断言机器永远不可能达到完美效率,这意味着无论宇宙中结构何时涌现,它最终都只会进一步耗散能量——无论是最终爆炸的恒星,还是将食物转化为热量的生物体。尽管我们的意图是好的,但我们是熵的代理人。

    “除了死亡、税收和热力学第二定律之外,生活中没有什么是确定的”,麻省理工学院的物理学家Seth Lloyd写道。这个指示是无法回避的。熵的增长与我们最基本的经历深深交织在一起,解释了为什么时间向前发展,以及为什么世界看起来是确定性的,而不是量子力学上的不确定性。

    尽管具有根本的重要性,熵却可能是物理学中最具争议的概念。“熵一直是个问题,”Lloyd告诉我。这种困惑,部分源于这个词在学科之间“辗转反侧”的方式——从物理学到信息论再到生态学,它在各个领域都有相似但不同的含义。但这也正是为何,要真正理解熵,就需要实现一些令人深感不适的哲学飞跃。

    在过去的一个世纪里,随着物理学家努力将迥异的领域整合起来,他们用新的视角看待熵——将显微镜重新对准先知,将无序的概念转变为无知的概念。熵不被视为系统固有的属性,而是相对于与该系统交互的观察者的属性。这种现代观点阐明了信息和能量之间的深层联系,现在他正在帮助引领最小尺度上一场微型工业革命。

    在熵的种子被首次播下200年后,关于这个量的理解从一种虚无主义转为机会主义。观念上的进化正在颠覆旧的思维方式,不仅仅是关于熵,还是关于科学的目的和我们在宇宙中的角色。

    熵的概念源于工业革命期间对双面印刷机的尝试。一位名叫萨迪·卡诺(Sadi Carnot)的28岁法国军事工程师着手计算蒸汽动力发动机的最终效率。1824年,他出版了一本118页的书,标题为《对火的原动力的反思》,他在塞纳河畔以3法郎的价格出售。卡诺的书在很大程度上被科学界所忽视,几年后他死于霍乱。他的尸体被烧毁,他的许多文件也被烧毁了。但他的书的一些副本留存了下来,其中藏着一门新科学“热力学”的余烬——火的原动力。

    卡诺意识到,蒸汽机的核心是一台利用热量从热物体流向冷物体的趋势的机器。他描绘了可以想象到的最高效的发动机,对可以转化为功的热量比例建构了一个界限,这个结果现在被称为卡诺定理。他最重要的声明是这本书最后一页的警告:“我们不应该期望在实践中利用可燃物的所有动力”。一些能量总是会通过摩擦、振动或其他不需要的运动形式来耗散。完美是无法实现的。

    几十年后,也就是1865年,德国物理学家鲁道夫·克劳修斯(Rudolf Clausius)通读了卡诺的书,他创造了一个术语,用于描述被锁在能量中无法利用的比例。他称之为“熵”(entropy),以希腊语中的转换一词命名。然后,他提出了后来被称为热力学第二定律的东西:“宇宙的熵趋于最大”。

    那个时代的物理学家错误地认为热是一种流体[称为“热质”(caloric)]。在接下来的几十年里,他们意识到热量是单个分子碰撞的副产品。这种视角的转变使奥地利物理学家路德维希·玻尔兹曼(Ludwig Boltzmann)能够使用概率重新构建并深化熵的概念。

    玻尔兹曼将分子的微观特性(例如它们的各自位置和速度)与气体的宏观特性(如温度和压力)区分开来。考虑一下,不是气体,而是棋盘上的一组相同的游戏棋子。所有棋子的精确坐标列表就是玻尔兹曼所说的“微观状态”,而它们的整体配置——比如说,无论它们形成一个星形,还是全部聚集在一起——都是一个“宏观态”。玻尔兹曼根据产生给定宏观状态的可能微观状态的数量,来定义该宏观状态的熵。高熵宏观状态是具有许多相容的微观状态的宏观状态——许多可能的棋盘格排列,产生相同的整体模式。

    棋子可以呈现看起来有序的特定形状的方式只有这么多,而它们看起来随机散布在棋盘上的方式要多得多。因此,熵可以被视为无序的度量。第二定律变成了一个直观的概率陈述:让某物看起来混乱的方式比干净的方式更多,因此,当系统的各个部分随机地在不同可能的配置之间切换时,它们往往会呈现出看起来越来越凌乱的排列。

    卡诺发动机中的热量从热流向冷,是因为气体颗粒更有可能全部混合在一起,而不是按速度分离——一侧是快速移动的热颗粒,另一侧则是移动缓慢的冷颗粒。同样的道理也适用于玻璃碎裂、冰融化、液体混合和树叶腐烂分解。事实上,系统从低熵状态移动到高熵状态的自然趋势似乎是唯一可靠地赋予宇宙一致时间方向的东西。熵为那些本可以反向发生的进程刻下了时间箭头。

    熵的概念最终将远远超出热力学的范围。艾克斯-马赛大学的物理学家Carlo Rovelli说,“当卡诺写他的论文时……我认为没有人想象过它会带来什么”。

    扩展熵

    熵在第二次世界大战期间经历了重生。美国数学家克劳德·香农(Claude Shannon)正在努力加密通信通道,包括连接富兰克林·罗斯福(Franklin D. Roosevelt)和温斯顿·丘吉尔(Winston Churchill)的通信通道。那次经历使他在接下来的几年里深入思考了通信的基本原理。香农试图测量消息中包含的信息量。他以一种迂回的方式做到这一点,将知识视为不确定性的减少。

    乍一看,香农想出的方程式与蒸汽机无关。给定信息中的一组可能字符,香农公式将接下来出现哪个字符的不确定性定义为每个字符出现的概率之和乘以该概率的对数。但是,如果任何字符的概率相等,则香农公式会得到简化,并变得与玻尔兹曼的熵公式完全相同。据说物理学家约翰·冯·诺伊曼(John von Neumann)敦促香农将他的量称为“熵”——部分原因是它与玻尔兹曼的量非常一致,也因为“没有人知道熵到底是什么,所以在辩论中你总是占优势”。

    正如热力学熵描述发动机的效率一样,信息熵捕捉到通信的效率。它与弄清楚消息内容所需的是或否问题的数量相对应。高熵消息是无模式的消息;由于无法猜测下一个角色,这条信息需要许多问题才能完全揭示。具有大量模式的消息包含的信息较少,并且更容易被猜到。“这是一幅非常漂亮的信息和熵环环相扣的画面,”Lloyd说。“熵是我们不知道的信息;信息是我们所知道的信息”。

    在1957年的两篇具有里程碑意义的论文中,美国物理学家E.T.Jaynes通过信息论的视角来观察热力学,巩固了这一联系。他认为热力学是一门从粒子的不完整测量中做出统计推断的科学。Jaynes提议,当知道有关系统的部分信息时,我们应该为与这些已知约束相容的每个配置分配相等的可能性。他的“最大熵原理”为对任何有限数据集进行预测提供了偏差最小的方法,现在应用于从统计力学到机器学习和生态学的任何地方。

    因此,不同背景下发展起来的熵的概念巧妙地结合在一起。熵的增加对应于有关微观细节的信息的损失。例如,在统计力学中,当盒子中的粒子混合在一起,我们失去了它们的位置和动量时,“吉布斯熵”会增加。在量子力学中,当粒子与环境纠缠在一起,从而扰乱它们的量子态时,“冯·诺伊曼熵”就会增加。当物质落入黑洞,有关它的信息丢失到外部世界时,“贝肯斯坦-霍金熵”就会增加。

    熵始终衡量的是无知:缺乏关于粒子运动、一串代码中的下一个数字或量子系统的确切状态的知识。“尽管引入熵的动机各不相同,但今天我们可以将它们都与不确定性的概念联系起来,”瑞士苏黎世联邦理工学院的物理学家Renato Renner说。

    然而,这种对熵的统一理解引发了一个令人不安的担忧:我们在谈论谁的无知?

    一点主观性

    作为意大利北部的一名物理学本科生,Carlo Rovelli从他的教授那里了解了熵和无序的增长。有些事情不对劲。他回到家,在一个罐子里装满油和水,看着液体在他摇晃时分离——这似乎与所描述的第二定律背道而驰。“他们告诉我的东西都是胡说八道,”他回忆起当时的想法。“很明显,教学方式有问题。”

    Rovelli的经历抓住了熵如此令人困惑的一个关键原因。在很多情况下,秩序似乎会增加,从孩子打扫卧室到冰箱给火鸡降温。

    Rovelli明白,他对第二定律的表面胜利不过是海市蜃楼。具有强大热视觉能力的超人观察者会看到油和水的分离如何向分子释放动能,从而留下更加热无序的状态。“真正发生的事情是,宏观秩序的形成是以微观无序为代价的,”Rovelli说。第二定律始终成立;有时只是看不见。

    在Gibbs提出这个悖论一个多世纪后,Jaynes提出了解决方法(他坚称吉布斯已经理解了,但未能清楚地表达出来)。想象一下,盒子里的气体是两种不同类型的氩气,它们相同,只是其中一种可溶于一种称为whifnium的尚未发现的元素中。在发现whifnium之前,没有办法区分这两种气体,因此抬起分流器不会引发明显的熵变化。然而,在whifnium被发现后,一位聪明的科学家可以使用它来区分两种氩物种,计算出熵随着两种类型的混合而增加。此外,科学家可以设计一种基于whifnium的活塞,利用以前无法从气体的自然混合中获得的能量。

    Jaynes 明确指出,系统的“有序性”——以及从中提取有用能量的潜力——取决于代理人的相对知识和资源。如果实验者无法区分气体A和B,那么它们实际上是相同的气体。一旦科学家们有办法区分它们,他们就可以通过开发气体混合的趋势来利用功。熵不取决于气体之间的差异,而是取决于它们的可区分性。无序在旁观者的眼中。

    “我们可以从任何系统中提取的有用功,显然也必然取决于我们拥有多少关于其微观状态的’主观’信息,”Jaynes写道。

    吉布斯悖论强调需要将熵视为一种观察属性,而不是系统固有的属性。然而,熵的主观视图是难以被物理学家接受的。正如科学哲学家肯尼斯·登比(Kenneth Denbigh)1985年在书中写道,“这样的观点,如果它是有效的,将产生一些深刻的哲学问题,并往往会破坏科学事业的客观性”。

    接受熵的这个有条件的定义需要重新思考科学的根本目的。这意味着物理学比某些客观现实更准确地描述了个人经验。通过这种方式,熵被卷入了一个更大的趋势,即科学家们意识到许多物理量只有在与观察者有关时才有意义(甚至时间本身也被爱因斯坦的相对论所重新渲染)。“物理学家不喜欢主观性——他们对它过敏”,加州大学圣克鲁斯分校的物理学家Anthony Aguirre 说,“但没有绝对的——这一直都是一种幻觉。”

    现在人们已经接受了这种认知,一些物理学家正在探索将主观性融入熵的数学定义的方法。

    Aguirre和合作者设计了一种新度量,称之为观测熵(observational entropy)。它提供了一种方法,通过调整这些属性如何模糊或粗粒度化观察者对现实的看法,来指定观察者可以访问哪些属性。然后,它为与这些观察到的特性相容的所有微观状态赋予相等的概率,就像 Jaynes 所提出的那样。该方程将热力学熵(描述广泛的宏观特征)和信息熵(捕获微观细节)连接起来。“这种粗粒化的、部分主观的观点是我们有意义的与现实互动的方式,”Aguirre说。

    许多独立团体使用 Aguirre 的公式来寻求第二定律更严格的证明。就Aguirre而言,他希望用他的度量来解释为什么宇宙一开始是低熵状态(以及为什么时间向前流动)并更清楚地了解黑洞中熵的含义。“观测熵框架提供了更清晰的信息”,巴塞罗那自治大学的物理学家Philipp Strasberg说,他最近将其纳入了不同微观熵定义的比较。“它真正将玻尔兹曼和冯·诺伊曼的思想与当今人们的工作联系起来。”

    与此同时,量子信息理论家采取了不同的方法处理主观性。他们将信息视为一种资源,观察者可以使用它来跟日益与环境融合在一起的系统进行交互。对于一台可以跟踪宇宙中每个粒子的确切状态的具有无限能力的超级计算机来说,熵将始终保持不变——因为不会丢失任何信息——时间将停止流动。但是,像我们这样拥有有限计算资源的观察者总是不得不与粗略的现实图景作斗争。我们无法跟踪房间内所有空气分子的运动,因此我们以温度和压力的形式取平均值。随着系统演变成更可能的状态,我们逐渐失去了对微观细节的跟踪,而这种持续的趋势随着时间的流逝而成为现实。“物理学的时间,归根结底,是我们对世界无知的表现”,Rovelli写道。无知构成了我们的现实。

    “外面有一个宇宙,每个观察者都带着一个宇宙——他们对世界的理解和模型”,Aguirre说。熵提供了我们内部模型中缺点的度量。他说,这些模型“使我们能够做出良好的预测,并在一个经常充满敌意但总是困难的物理世界中明智地采取行动。

    以知识为驱动

    2023年夏天,通过Aguirre于2006年共同创立的一个名为Foundational Questions Institute(FQxI)的非营利研究组织,在英国约克郡一座历史悠久的豪宅庄园连绵起伏的山脚下,Aguirre主持了一次闭门研讨会(retreat)。来自世界各地的物理学家齐聚一堂,参加为期一周的智力安睡派对,并有机会进行瑜伽、冥想和野外游泳。该活动召集了获得FQxI资助的研究人员,以探讨如何使用信息作为燃料。

    对于这些物理学家中的许多人来说,对发动机和计算机的研究已经变得模糊不清。他们已经学会了将信息视为真实的、可量化的物理资源,即一种可以诊断从系统中提取多少功的手段。他们意识到,知识就是力量(power)。现在,他们开始着手利用这种力量。

    一天早上,在庄园的蒙古包里参加了一次可选的瑜伽课程后,这群人聆听了Susanne Still(夏威夷大学马诺阿分校的物理学家)。她首先讨论了一项新工作,针对可以追溯到一个世纪前,由匈牙利出生的物理学家利奥·西拉德(Leo Szilard)所提出的思想实验:

    想象一个带有垂直分隔线的盒子,该分隔线可以在盒子的左右壁之间来回滑动。盒子中只有一个粒子,位于分隔线的左侧。当粒子从壁上弹开时,它会将分隔器向右推。一个聪明的小妖可以装配一根绳子和滑轮,这样,当分隔器被粒子推动时,它会拉动绳子并在盒子外举起一个重物。此时,小妖可以偷偷地重新插入分隔器并重新启动该过程——实现明显的无限能量源。

    然而,为了始终如一地开箱即用,恶魔必须知道粒子在盒子的哪一侧。西拉德的引擎由信息提供动力。

    原则上,信息引擎有点像帆船。在海洋上,利用你对风向的了解来调整你的帆,推动船向前行进。

    但就像热机一样,信息引擎也从来都不是完美的。他们也必须以熵生产的形式纳税。正如西拉德和其他人所指出的,我们不能将信息引擎用作永动机的原因是,它平均会产生至少同样多的熵来测量和存储这些信息。知识产生能量,但获得并记住知识会消耗能量。

    在西拉德构思他的引擎几年后,阿道夫·希特勒成为德国总理。出生于犹太家庭并一直居住在德国的西拉德逃离了。他的著作几十年来一直被忽视,直到最终被翻译成英文,正如Still在最近的一篇信息引擎历史回顾中所述。

    最近,通过研究信息处理的基本要素,Still成功地扩展并泛化了西拉德的信息引擎概念。

    十多年来,她一直在研究如何将观察者本身视为物理系统,受其自身物理限制的约束。趋近这些限制的程度不仅取决于观察者可以访问的数据,还取决于他们的数据处理策略。毕竟,他们必须决定要测量哪些属性以及如何将这些细节存储在有限的内存中。

    在研究这个决策过程时,Still发现,收集无助于观察者做出有用预测的信息会降低他们的能量效率。她建议观察者遵循她所说的“最小自我障碍原则”——选择尽可能接近他们物理限制的信息处理策略,以提高他们决策的速度和准确性。她还意识到,这些想法可以通过将它们应用于修改后的信息引擎来进一步探索。

    在西拉德的原始设计中,小妖的测量完美地揭示了粒子的位置。然而,在现实中,我们从来没有对系统有完美地了解,因为我们的测量总是有缺陷的——传感器会受到噪声的影响,显示器的分辨率有限,计算机的存储空间有限。Still展示了如何通过对西拉德的引擎进行轻微修改来引入实际测量中固有的“部分可观测性”——基本方法是通过更改分隔线的形状。

    想象一下,分隔线在盒子内以一定角度倾斜,并且用户只能看到粒子的水平位置(也许他们看到它的阴影投射到盒子的底部边缘)。如果阴影完全位于分隔线的左侧或右侧,则可以确定粒子位于哪一侧。但是,如果阴影位于中间区域的任何位置,则粒子可能位于倾斜分隔线的上方或下方,因此位于盒子的左侧或右侧。

    使用部分可观测的信息引擎,Still计算了测量粒子位置并在内存中对其进行编码的最有效策略。这导致了一种纯粹基于物理的算法推导,该算法目前也用于机器学习,称为信息瓶颈算法(information bottleneck algorithm)。它提供了一种通过仅保留相关信息来有效压缩数据的方法。

    从那时起,和她的研究生Dorian Daimer一起,Still研究了改进的西拉德引擎的多种不同设计,并探索了各种情况下的最佳编码策略。这些理论设备是“在不确定性下做出决策的基本组成部分”,拥有认知科学和物理学背景的Daimer说。“这就是为什么研究信息处理的物理学对我来说如此有趣,因为在某种意义上,这是一种完整的循环,最终回归到对科学家的描述。”

    重新工业化

    尽管如此,他并不是约克郡唯一一个梦想西拉德引擎的人。近年来,许多FQxI受资助者在实验室中开发了有功能性的引擎,其中信息用于为机械设备提供动力。与卡诺的时代不同,没有人期望这些微型发动机为火车提供动力或赢得战争;相反,它们正在充当探测基础物理学的试验台。但就像上次一样,信息引擎正在迫使物理学家重新构想能量、信息和熵的含义。

    在Still的帮助下,John Bechhoefer已经用漂浮在水浴中的比尘埃还小的二氧化硅珠重新创建了西拉德的引擎。他和加拿大西蒙弗雷泽大学的同事用激光捕获硅珠并监测其随机热波动。当硅珠碰巧向上晃动时,它们会迅速抬起激光阱以利用其运动。正如西拉德所想象的那样,他们通过利用信息的力量成功地提起了重量。

    在调查从他们的真实世界信息引擎中提取功的限制时,Bechhoefer和Still发现,在某些状态下,它可以显著跑赢传统发动机。受到Still理论工作的启发,他们还追踪了接收部分低效信息的硅珠的状态。

    在牛津大学物理学家Natalia Ares的帮助下,信息引擎现在正在缩小到量子尺度,她曾与Still一同参加了闭门研讨会。在与杯垫大小相当的硅芯片上,Ares将单个电子困在一根细碳纳米线内,该纳米线悬挂在两根支柱之间。这个“纳米管”被冷却至接近绝对零度的千分之一,像吉他弦一样振动,其振荡频率由内部电子的状态决定。通过追踪纳米管的微小振动,Ares和她的同事计划诊断不同量子现象的功输出。

    Ares在走廊的黑板上写满了许多实验计划,旨在探测量子热力学。“这基本上就是整个工业革命的缩影,但尺度是纳米级的,”她说。一个计划中的实验灵感来源于Still的想法。实验内容涉及调整纳米管的振动与电子(相对于其他未知因素)的依赖程度,本质上为调整观察者的无知提供了一个“旋钮”。

    Ares和她的团队正在探索热力学在最小尺度上的极限——某种意义上,是量子火焰(quantum fire)的驱动力。经典物理中,粒子运动转化为有用功的效率限制由卡诺定理设定。但在量子领域,由于有多种熵可供选择,确定哪个熵将设定相关界限变得更加复杂——甚至如何定义功输出也是一个问题。“如果我们像实验中那样只有一个电子,那熵意味着什么?”Ares说道。“根据我的经验,我们仍然在这方面非常迷茫。”

    最近一项由美国国家标准与技术研究院(NIST)的物理学家Nicole Yunger Halpern主导的研究表明,通常被视为同义的熵生成的常见定义,在量子领域中可能会出现不一致,这再次出于不确定性和观察者依赖性。在这个微小的尺度上,不可能同时知道某些属性。而你测量某些量的顺序也会影响测量结果。Yunger Halpern认为,我们可以利用这种量子奇异性来获取优势。“在量子世界中,有一些经典世界中没有的额外资源,所以我们可以绕过卡诺定理,”她说道。

    Ares正在实验室中推动这些新的边界,希望为更高效的能源收集、设备充电或计算开辟道路。这些实验也可能为我们所知道的最有效的信息处理系统——我们自己——的机制提供一些洞见。科学家们不确定人脑是如何在仅仅消耗20瓦电力的情况下,执行极其复杂的脑力运动的。也许,生物学计算效率的秘诀也在于利用小尺度上的随机波动,而这些实验旨在探测任何可能的优势。“如果在这方面有某些收获,自然界也许实际上利用了它,”与Ares合作的埃克塞特大学理论学家Janet Anders说道。“我们现在正在发展的这种基础理解,或许能帮助我们未来更好地理解生物是如何运作的。”

    Ares的下一轮实验将在她位于牛津实验室的一个粉色的制冷室中进行。几年前,她开玩笑地向制造商提出了这个外观改造的建议,但他们警告说,金属涂料颗粒会干扰她的实验。然后,公司偷偷将冰箱送到汽车修理厂,给它覆盖了一层闪亮的粉色薄膜。Ares将她的新实验场地视为时代变革的象征,反映了她对这场新的工业革命将与上一场不同的希望——更加有意识、环保和包容。

    “感觉就像我们正站在一个伟大而美好的事物的起点,”她说道。

    拥抱不确定性

    2024年9月,几百名研究人员聚集在法国帕莱佐,为纪念卡诺(Carnot)其著作出版200周年而举行的会议上。来自各个学科的参与者讨论了熵在各自研究领域中的应用,从太阳能电池到黑洞。在欢迎辞中,法国国家科学研究中心的一位主任代表她的国家向卡诺道歉,承认忽视了卡诺工作的重要影响。当天晚上,研究人员们在一个奢华的金色餐厅集合,聆听了一首由卡诺的父亲创作、由一支四重奏演奏的交响乐,其中包括这位作曲家的远亲后代。

    卡诺的深远见解源于试图对时钟般精确的世界施加极致控制的努力,这曾是理性时代的圣杯。但随着熵的概念在自然科学中逐渐扩展,它的意义发生了变化。熵的精细理解抛弃了对完全效率和完美预测的虚妄梦想,反而承认了世界中不可减少的不确定性。“在某种程度上,我们正朝着几个方向远离启蒙时期,”Rovelli说——远离决定论和绝对主义,转向不确定性和主观性。

    无论你愿不愿意接受,我们都是第二定律的奴隶;我们无法避免地推动宇宙走向终极无序的命运。但我们对熵的精细理解让我们对未来有了更为积极的展望。走向混乱的趋势是驱动所有机器运作的动力。虽然有用能量的衰减限制了我们的能力,但有时候换个角度可以揭示隐藏在混沌中的秩序储备。此外,一个无序的宇宙正是充满了更多的可能性。我们不能规避不确定性,但我们可以学会管理它——甚至或许能拥抱它。毕竟,正是无知激励我们去追求知识并构建关于我们经验的故事。换句话说,熵正是让我们成为人类的原因。

    你可以对无法避免的秩序崩溃感到悲叹,或者你可以将不确定性视为学习、感知、推理、做出更好选择的机会,并利用你身上蕴藏的动力。

  • 薛其坤:探究微观量子世界

    本文系讲演稿整理而得

    欧姆定律是接近200年前,由德国物理学家欧姆提出的一个非常经典的电学规律,它说的是通过一个导体,导体的电阻与加在导体两端的电压差成正比,与流过这个导体的电流成反比。大家都非常熟悉。换一句话来说,流过这个导体的电流正比于加在这个导体两端的电压,反比于这个材料的电阻。这个材料的电阻越大,它越绝缘;在额定的电压下,它的电流就越小。

    欧姆定律讲的是沿着电流流动方向关于电压、电阻、电流基本关系的科学规律。我们很好奇,自然就想问“在垂直于电流流动的方向上,是不是也会有类似欧姆定律关于电流、电压、电阻关系的东西呢?”答案:“是!”

    这就是欧姆定律提出50多年以后,在1879年由美国物理学家埃德温霍尔发现的霍尔效应。霍尔效应实验是一个非常精妙的实验,他把这个导线变成了这样一个平板,当时用的材料是金。在垂直于这个金的平板方向上,再加一个磁场,当然沿着电流流动的方向仍然有欧姆定律的存在。但是由于这个磁场下,流动的电子受到洛伦兹力的作用,它会在垂直于电流的方向也发生偏转。

    在这样一个磁场下,电流除了欧姆定律方向的电流在流动以外,电子还在横向发生偏转,形成电荷的积累,形成电压。这个电压就叫霍尔电压,这个现象就是霍尔效应。加一个磁场就可以产生霍尔效应,那么我们自然想问,是不是不需要磁场也能实现这样一个非常伟大的霍尔效应呢?答案也是“是”!

    他发现霍尔效应一年以后,就做了这样一个试验,把材料金换成铁,靠铁本身的磁性产生的磁场,也发现了类似的霍尔效应。因为科学机理完全不一样,命名为反常霍尔效应。

    不管怎么样,霍尔效应、反常霍尔效应是非常经典的电磁现象之一。为什么呢?它用一个非常简单的科学实验、科学装置就把电和磁这两个非常不一样的现象在一个装置上完成了。

    当然了,霍尔效应非常有用。今天我给大家列举了一些大家非常熟悉的例子。比如测量电流的电流钳,我们读取信用卡的磁卡阅读器,汽车的速度计,这都是霍尔效应的应用。它已经遍布在我们生活的每一个方面,是一个极其伟大的科学发现,同时对我们社会技术进步带来了极大的便利。

    这不是这个故事的结束。100年以后,德国物理学家冯·克利青把研究的材料从金属变成半导体硅,结果他就发现了量子霍尔效应,或者说霍尔效应的量子版本。他用了一个具体材料,就是我们熟知的每一个计算机、每一个芯片都有的场效应晶体管。这个场效应晶体管中有硅和二氧化硅的分界面,在这个界面上有二维电子气。就是在这样一个体系中,在半导体材料中,他发现了量子霍尔效应。

    在强磁场下,冯·克利青先生发现了霍尔电阻,右边这个公式,=h/ne2,h是以普朗克科学家命名的一个常数,是一个自然界的物理学常数。n是自然数——1、2、3、4、5。e就是一个电子带的电量,这是一个非常伟大的发现。为什么呢?我一说就明白,因为测到的霍尔电阻和研究的材料没有任何的关系。硅,可能任何材料都会有这个,它只和物理学常数,和自然界的一些基本性能相关,和具体材料没有任何关系。因此它就打开了我们认识微观世界、认识自然界的大门。

    同时,量子霍尔效应给我们材料中运动的电子建造了一个高速公路,就像左边大家看到的动画一样,电子的高速公路上,它的欧姆电阻,平行于电流方向的电阻变成0,像超导一样。因此,用量子霍尔效应这样的材料做一个器件的话,它的能耗会非常低。

    大家今天看到的是两条道的情况,是n=2。如果n=3,这个高速公路的一边就有3条道;如果n=4,电子的高速公路就变成4条道,所以这样一种理解就把自然数n,1、2、3、4、5、6、7、8和微观世界的电子高速公路密切结合起来。大家可以看到,我们对自然界的理解,对量子世界的理解又大大前进了一步。

    冯·克利青在1980年发现量子霍尔效应以后,由于这个巨大的科学发现,五年以后他被授予诺贝尔物理学奖。

    硅有量子霍尔效应,是不是其他半导体材料也会有量子霍尔效应呢?有三位物理学家在第二年,1982年就把研究的材料从硅变成了可以发光的砷化镓,结果,他们发现了分数化的,不是一二三四了,三分之一、五分之一,分数化的量子霍尔效应,1998年这三位物理学家获得诺贝尔物理学奖。

    在我们这个世纪,大家都知道石墨烯,有两位物理学家利用石墨烯这个量子材料继续做一百年前的霍尔效应实验,结果发现了半整数的量子霍尔效应。随着量子霍尔效应的不断发现,我们对自然界,对材料,对量子材料,对未来材料的理解在电子层次上、在量子层次上逐渐加深,所以推动了科学,特别是物理学的巨大进步。

    量子霍尔效应有很多应用,今天我讲一个大家比较熟悉的应用,那就是重量的测量。我们每天都希望测测体重,重量的测量无处不存在。1889年国际度量衡大会定义了公斤千克的标准,是9:1的铂铱合金做成的圆柱体,以后的一百多年,全世界都用这个做为标准称重量。

    但是在118年以后的2007年,我们发现这个标准变化了:减轻了50微克。一个标准减少50微克是一个巨大的变化,全世界的标准就不再标准了,而且随着时间的推移也会进一步变化。因此我们需要更精确,可以用得更久的重量标准。

    在2018年的时候,国际度量衡大会重新定义了公斤的标准,那就是基于刚才我提到的量子霍尔效应,和另一个诺奖工作、约瑟夫森效应提出了一个全新的称,叫量子称或者叫基布尔称,它对重量的测量精度可以达到10的负8次方克,而且是由物理学的自然界常数所定义的,1万年、10万年、1亿年也不会发生变化。这是我举的一个大家能理解的例子。

    刚才我提到了三个不同版本的量子霍尔效应。它们需要一个磁场,就像霍尔效应一样,而且一般情况下需要的磁场都特别强,一般是10个特斯拉,10万个高斯,这是非常强大的磁场,我们庞大地球产生的磁场只有0.5高斯,我们要用的磁场是地球磁场强度的20万倍。能不能把它去掉磁场也能观察到量子霍尔效应呢?我带领的团队与合作者一起,在2013年的时候完成了这个实验,在世界上首次发现了不需要任何磁场、只需要材料本身的磁性而导致的量子霍尔效应,或者叫量子反常霍尔效应。

    这样一个发现是不是也是材料驱动的呢?是的。我在这里给大家复习一下我们所熟悉的材料。在我们一般人的概念中,我们自然界的材料只有3类,导电的金属,不导电的绝缘体,还有一个是半导体,介于两者之间。

    第一代半导体有硅、锗,第二代半导体有砷化镓、锑化汞,第三代、第四代还有氮化镓、碳化硅、金刚石等等。在研究材料和材料的相变基础上,包括量子霍尔效应上,有两个物理学家,一个是大家可能比较熟悉的华人物理学家张首晟,和宾夕法尼亚大学的Charles Kane,在这基础上他们提出了一个全新的材料:拓扑绝缘体,也就是大家在屏幕的最右边所能看到的。

    什么是拓扑绝缘体?我给大家简单解释一下。这个图大家可能比较熟悉,最左边是一个陶瓷的碗,是绝缘的、不导电的。再朝右是一个金做成的碗,是导电的,叫导体。拓扑绝缘体就是一个陶瓷碗镀了一层导电的膜。如果把这个镀了膜的碗进一步进行磁性掺杂,使它有磁性的话,它就会变成一个只有边上镀金的碗。这个边上镀金碗就叫磁性拓扑绝缘体材料。

    按照张首晟等的理论,它就可以让我们能观察到量子反常霍尔效应。但是,这个材料是一个三不像的矛盾体:它有磁性,它要拓扑,它还要绝缘,我们还要把它做成薄膜,这就要求一个运动员篮球打得像姚明那么好,跑步像博尔特那么快,跳水要全红蝉那么伶俐,这样的材料非常难以制备。为什么呢?因为大部分磁性材料都是导电的,铁、钴、镍都是导电的;另外,磁性和拓扑在物理上是很难共存的;还有一点,在两维薄膜的情况下,很难实现铁磁性,使这个才有真正的磁性。因此真正观测到量子反常霍尔效应,在实验室看到它,这是一个极其具有挑战性的实验。

    我带领的团队和另外三个团队紧密合作,我们动员了20多位研究生,奋斗了4年,尝试了一千多个样品,最后在2012年10月份,全部完成了量子反常霍尔效应发现,完成了实验。我们证明了确实在边上镀金的碗(磁性拓扑绝缘体)中,存在量子反常霍尔效应这样一个新的规律。

    今天,我特别把当时发现量子反常霍尔效应的样品带到了现场。大家可以看到,看到很多电级,电级之间有方块,每个方块上就是首先观察到的量子反常霍尔效应的样品。

    这里我再给大家讲一下制备这个材料,对原子磁场的控制,对科学发现非常重要。这是其中一个例子,我们学生制备的,采集的一些照片。中间大家会看到,拓扑绝缘体碲化铋薄膜的扫描隧道显微镜照片,上头每一个亮点代表一个原子,更重要的是,在这个范围内你找不到一个缺陷。说明我们材料的纯度非常高,我们在其他材料中也能做到这个水平。

    这是另一个拓扑绝缘体材料:硒化铋。大家可以看到,这么大的范围内,你只看到你想要的原子,没有任何缺陷,而且薄膜是原子级的平整,这为我们最后发现量子反常霍尔效应奠定了非常好的基础。

    最近,我们继续在朝这个方向努力,我们正在攻克的一个问题就是高温超导机理这个重大科学问题。我再次放了博士后制备的研究高温超导机理异质结样品的电镜照片,大家从上可以看到有5个样品,不同的颜色代表这个异质结的结合部。大家可以看到,每个亮点几乎是接近一个原子,我们制备的异质结,两个材料的结合部几乎达到了原子尺度的完美,只有这样,我们才能在这样一个非常难以攻克的高温超导机理上有所作为,我们会沿着这个方向继续努力下去。

  • 最优学习的85%规则

    文章原题目:The Eighty Five Percent Rule for Optimal Learning

    论文地址:https://www.biorxiv.org/content/10.1101/255182v1

    1. “恰到好处”——学习的迷思

    人们在学 习新技能时,例如语言或乐器,通常会觉得在能力边界附近进行挑战时感觉最好——不会太难以至于气馁,也不会太容易以至于感到厌烦。

    历史传统中有所谓的中庸原则,我们也会有一种简单直觉经验,即做事要“恰到好处”。反映在学习中,即存在一个困难程度的“甜蜜点”,一个“金发姑娘区”。在现代教育研究中,在这个区域的不仅教学最有效果[1],甚至能解释婴儿在更多更少可学习刺激之间的注意力差异[2]。

    在动物学习研究文献中,这个区域是“兴奋”[3]和“失落”[4]背后的原因,通过逐步增加训练任务的难度,动物才得以学习越来越复杂的任务。

    在电子游戏中几乎普遍存在的难度等级设置中,也可以观察到这一点,即玩家一旦达到某种游戏水平,就会被鼓励、甚至被迫进行更高难度水平的游戏。

    类似地,在机器学习中,对于各种任务进行大规模神经网络训练,不断增加训练的难度已被证明是有用的 [5,6],这被称为“课程学习”(Curriculum Learning)[7] 和“自步学习”(Self-Paced Learning)[8]。

    尽管这些历史经验有很长的历史,但是人们一直不清楚为什么一个特定的难度水平就对学习有益,也不清楚最佳难度水平究竟是多少。

    在这篇论文中,作者就讨论了在二分类任务的背景下,一大类学习算法的最佳训练难度问题。更具体而言,论文聚焦于基于梯度下降的学习算法。在这些算法中,模型的参数(例如神经网络的权重)基于反馈进行调整,以便随时间推移降低平均错误率[9],即降低了作为模型参数函数误差率的梯度。

    这种基于梯度下降的学习构成了人工智能中许多算法的基础,从单层感知器到深层神经网络[10],并且提供了从感知[11],到运动控制[12]到强化学习[13]等各种情况下人类和动物学习的定量描述。对于这些算法,论文就训练的目标错误率提供了最佳难度的一般结果:在相当温和的假设下,这一最佳错误率约为15.87%,这个数字会根据学习过程中的噪音略有不同。

    论文从理论上表明,在这个最佳难度下训练可以导致学习速度的指数级增长,并证明了“85%规则”在两种情况下的适用性:一个简单的人工神经网络:单层感知机,以及一个更复杂、用来描述人类和动物的感知学习[11]的类生物神经网络(biologically plausible network)。

    2. 计算最优学习率

    在标准的 二分类任务中,人、动物或机器学习者需要输入的简单刺激做出二元标签分类判断。

    例如,在心理学和神经科学[15,16]的随机点动实验(Random Dot Motion)范例中,刺激由一片移动的点组成 – 其中大多数点随机移动,但有一小部分连贯一致地向左或向右移动。受试者必须判断相应一致点的移动方向。

    决定任务感知判断难度的一个主要因素是一致移动点所占的比例。如下图所示,一致点占0%时显然最难,100 %时最容易,在 50%时难度居中。

    实验人员可以在训练过程中使用被称为“阶梯化”(staircasing)的程序[17]控制这些一致移动点的比例以获得固定的错误率。

    论文假设学习者做出的主观决策为变量 h,由刺激向量 x(如所有点的运动方向) 的经函数 Φ 计算而来,即:h = Φ(x, φ) ——(1),其中φ是可变参数。并假设变换过程中,会产生一个带噪声表示的真实决策变量Δ(例如,向左移动点的百分比),即又有 h = ∆ + n ——(2)。

    噪声 n 由决策变量的不完全描述而产生的,假设 n 是随机的,并从标准偏差σ的零均值正态分布中采样。设 Δ = 16,则主观决策变量 p(h) 的概率分布如图1A所示。

    红色曲线是学习之后新的曲线,可以看到其分布标准差σ比原来有所降低,使更多变量分布在了Δ=16 附近。这就说明学习者在学习之后决策准确度有所提高。曲线下方的阴影区域面积(积分)对应于错误率,即在每个难度下做出错误响应的概率。

    如果把决策界面(decision boundary)设置为 0,当 h > 0 时模型选择选项 A,当 h < 0 时选择 B, h = 0 时随机选择。那么由带噪声表示的决策变量导致的错误概率分布为:

    其中 F(x) 是噪声标准正态分布的累积分布函数,概率密度函数 p(x)= p(x|0,1)。由等式(3)可以得到β = 1/σ。即若 σ 为正态分布的标准差,则 β 精确表示了在任务难度Δ下学习者的技能水平。σ越小,β越大,技能水平越高。

    如图1B所示,无论学习前还是学习后,随着决策变得更容易(Δ增加),两条曲线皆趋于下降,从而使错误率变得更低。

    但两条曲线的下降速度是不一样的:当β增加(σ变小)后,曲线更集中和陡峭,因此学习之后的红色曲线下降速度也更快,这表示学习者对任务挑战的技能水平越趋于完善。

    由最初的公式(1) 可知,学习的目标是调整参数φ,使得主观决策变量 h 更好地反映真实决策变量Δ。即构建模型的目标应该是尽量去调整参数φ以便减小噪声 σ 的幅度,或者等效地去增加技能水平精度 β。

    实现这种调节的一种方法是使用误差率函数的梯度下降来调整参数。例如,根据时间 t 来改变参数。论文在将梯度转换为精度β的表示后,发现影响因子只在于最大化学习率 ∂ER/∂β 的值,如图1C所示。显然,最佳难度Δ随着技能水平精度β的函数 dER/dβ 而变化,这意味着必须根据学习者的技能水平实时调整学习难度。不过,通过Δ和ER之间的单调关系(图1B),能够对此以误差率ER来表达最佳难度,于是可以得到图1D。

    在变换后,以误差率表达的最佳难度是一个精度函数的常量。这意味着可以通过在学习期间将误差率钳制在固定值上实现最佳学习。论文通过计算得出,对于高斯分布的噪声这个固定值是:

    ——即最佳学习率下误差率约为 15.87 %。

    3. 模拟验证:感知机模型

    为了验证“85%规则”的适用性,论文模拟了两种情况下训练准确性对学习的影响:在人工智能领域验证了经典的感知机模型,一种最简单的人工神经网络,已经被应用于从手写识别到自然语言处理等的各种领域。

    感知机是一种经典的单层神经网络模型,它通过线性阈值学习过程将多元刺激 x 映射到二分类标签 y 上。为了实现这种映射,感知机通过神经网络权重进行线性变换,并且权重会基于真实标签 t 的反馈进行更新。也就是说,感知机只有在出错时才进行学习。自然的,人们会期望最佳学习与最大错误率相关。然而,因为感知机学习规则实际上是基于梯度下降的,所以前面的分析对这里也适用,即训练的最佳错误率应该是15.87%。

    为了验证这个预测,论文模拟了感知机学习情况。以测量范围为0.01到0.5之间的训练误差率,步长为0.01(每个误差率1000次模拟)训练。学习的程度由精确度β确定。正如理论预测的那样,当以最佳错误率学习时,网络学习效率最高。如图2A所示,不同颜色梯度表示了以相对精度β/βmax 作为训练误差率和持续时间的函数,在 β=βmax 时学习下降最快;在不同错误率比例因子下的动态学习过程,图2B也显示,理论对模拟进行了良好的描述。

    图2:“85%规则”下的感知机

    4. 模拟验证:类生物神经网络

    为了证明“85%规则”如何适用于生物系统学习,论文模拟了计算神经科学中感知学习的“Law和Gold模型”[11]。在训练猴子学会执行随机点运动的任务中,该模型已被证明可以解释包括捕捉行为、神经放电和突触权重等长期变化情况。在这些情况下,论文得出相同结果,即当训练以85%的准确率进行时,学习效率达到最大化。

    具体来说,该模型假设猴子基于MT脑区的神经活动做出有关左右感知的决策。MT区在视觉系统的背侧视觉通路(Dorsal visual stream),是已知在大脑视觉中表征空间和运动信息的区域[15],也被称为“空间通路”(where),相对的,视觉系统另一条腹侧视觉通路(Ventral visual stream)则表征知觉形状,也被称为“辨识通路”(what)。

    在随机点动任务中,已经发现MT神经元对点运动刺激方向和一致相关性 COH 都有响应,使得每个神经元对特定的偏好方向响应最强,且响应的幅度随着相关性而增加。这种激发模式可通过一组简单的方程进行描述,从而对任意方向与相关刺激响应的噪声规模进行模拟。

    根据大脑神经集群响应情况,Law 和 Gold 提出,动物有一个单独脑区(侧面顶侧区域,LIP)用来构建决策变量,作为MT中活动的加权和。不过它与感知机的关键差异在于,存在一个无法通过学习来消除的随机神经元噪声。这意味着无论多么大量的学习都不可能带来完美的性能。不过,由论文计算结果所示,不可约噪声的存在不会改变学习的最佳精度,该精度仍为85%。

    Law and Gold 模型和感知机的另一个区别是学习规则的形式。具体来说就是有基于预测误差正确的奖励,会根据强化学习规则进行更新权重。尽管与感知器学习规则有很大的不同,但Law和Gold模型仍然在误差率[13]上实现梯度下降,在 85%左右实现学习最优。

    为了测试这一预测,论文以各种不同的目标训练误差率进行了模拟,每个目标用MT神经元的不同参数模拟100次。其中训练网络的精度β,则通过在1%到100%之间以对数变化的一组一致性测试上,拟合网络的模拟行为来进行估计。

    如图3A所示,在训练网络精确度β作为训练错误率的函数下,蓝色的理论曲线很好描述了训练后的精度。其中灰点表示单次模拟的结果。红点对应于每个目标误差率的平均精度和实际误差率。

    此外,在图3B中,以三条不同颜色测量曲线显示了三种不同训练错误率下行为的预期差异 。可以看到,在误差率为 0.16 (接近 15.87%)的黄色曲线上,结果精确度高于过低或过高误差率的两条曲线,即取得了最优的训练效果。

    5. 心流的数学理论

    沿着相同的思路,论文的工作指向了“心流”状态的数学理论[17]。这种心理状态,即“个体完全沉浸在没有自我意识但具有深度知觉的控制”的活动,最常发生在任务的难度与参与者的技能完全匹配时。

    这种技能与挑战之间平衡的思想,如图4A所示,最初通过包括另外两种状态的简单概念图进行描述:挑战高于技能时的“焦虑”和技能超过挑战时的“无聊”,在二者中间即为“心流”。

    而以上这三种不同性质的区域:心流,焦虑和无聊,可以本篇论文的模型中自然推演出来。

    设技能水平为精度 β,以真实决策变量的反函数 1 /Δ 为技能挑战水平。论文发现当挑战等于技能时,心流与高学习率和高准确性相关,焦虑与低学习率和低准确性相关,厌倦与高准确性和低学习率相关(图4B和图C)。

    也就是说,在技能与挑战水平相等时以“心流”状态进行的学习,具有最高的学习率和最高的准确性。

    此外论文引述了 Vuorre 和 Metcalfe 最近的研究[18]发现,心流的主观感受达到巅峰时的任务是往往主观评定为中等难度的任务。而在另一项关脑机接口控制学习方面的研究工作发现,主观自我报告的最佳难度测量值,在最大学习任务相关难度处达到峰值,而不是在与神经活动的最佳解码相关难度处达到峰值[19]。

    那么一个重要的问题来了,在使用最佳学习错误率,达到主观最佳任务难度即心流状态进行学习时,其学习速度究竟有多快

    论文通过比较最佳错误率与固定但可能次优的错误率、固定难度进行学习来解决了这个问题。通过对训练误差率函数计算,最终得到,在固定错误率下:学习技能β精度随着时间 t 的平方根而增长。

    而相对的,在没有使用最佳固定错误率学习,即决策变量固定下一般学习,其结果会强烈地依赖于噪声的分布。不过论文计算出了噪声为正态分布的情况下的近似解,对β的提升,学习技能以更慢的对数速度增长。即若最佳训练率下,可以相当于对后者实现指数级增长的改进。二者学习增速趋势对比图如下:

    从论文对感知机和Law and Gold 模型测试,心流理论的数学化可以看出,未来研究者们去测试各种学习类型活动参与度的主观测量值,验证是否在最大学习梯度点达到峰值,“85%规则”是否有效将会是有非常有趣的。

    然而这篇论文的作用还远不仅于此,下面就本文意义做进一步深入探讨。

    6. 学习的定量时代? 讨论、延伸与启示

    学习对个体生物个体的重要性不言而喻,甚至比大多数人想得更重要。在2013年1月,《心理学通报与评论》上发表了一篇 论文①的就认为,学习不仅一个是认知过程,在更本质的功能层面是一种个体自适应过程,包括生物体在有机环境规律作用下的行为改变,并认为就如演化论是生物学核心一样,学习研究应该是心理学的核心

    然而,自心理学诞生后的诸多理论,对学习的研究往往止于简单行为操作或概念描述层面。比如行为主义研究者巴普洛夫和和斯金纳经典条件反射、操控条件反射,苏联心理学家维果斯基(Lev Vygotsky)有关儿童教育的“最近发展区”理论,有关动机和表现之间的关系的耶基斯–多德森定律(Yerkes–Dodson law)、基于舒适-学习-恐慌区的“舒适圈理论”,还包括米哈里·契克森米哈赖的“心流理论”,安德斯·艾利克森的“刻意练习”等等。

    这些学习理论,要么强调学习需要外部刺激相关性、或正向奖励负向惩罚的某些强化,要么强调学习在大周期的效果,或较小周期的最小行动,要么寻求某种任务难度与技能水平、或动机水平与表现水平之间的一个折中区域。但是却从来没有给出如何到能达这种状态的条件,往往只能凭借有教育经验的工作者在实际教学中自行慢慢摸索。

    而在这篇论文中,研究者考虑了在二分类任务和基于梯度下降的学习规则情况下训练准确性对学习的影响。准确计算出,当调整训练难度以使训练准确率保持在85%左右时,学习效率达到最大化,要比其他难度训练的速度快得多,会使学习效果指数级快于后者。

    这个结果理论在人工神经和类生物学神经网络具有同样的效果。即“85%规则”既适用于包括多层前馈神经网络、递归神经网络、基于反向传播的各种深度学习算法、玻尔兹曼机、甚至水库计算网络(reservoir computing networks)[21, 22])等广泛的机器学习算法。通过对∂ER/∂β梯度最大化的分析,也证明其适用于类生物神经网络的学习,甚至任何影响神经表征精确度的过程,比如注意、投入或更一般的认知控制[23,24]。例如在后者中,当∂ER/∂β最大化时,参与认知控制的好处会最大化。通过关联预期价值控制理论(Expected Value of Control theory)[23,24,25]的研究,可以知道学习梯度 ∂ER/∂β 由大脑中与控制相关的区域 ( 如前扣带回皮层 ) 来进行监控。

    因此可以说,本篇论文无论对计算机科学和机器学习领域研究,还是对心理学和神经科学研究,都具有重要的意义。

    在前者,通过“课程学习”和“自步学习”诉诸广泛的机器学习算法,本文基于梯度下降学习规则思路下包括神经网络的各种广泛学习算法,都急需后续研究者进行探索和验证。在最佳学习率上,论文的工作仅仅是对机器学习学习效率数学精确化实例的第一步。并且同时也促使研究者思考:如何将这种最优化思路推广到在更广泛的环境和任务的不同算法中?例如贝叶斯学习,很明显和基于梯度下降的学习不同,贝叶斯学习很难受益于精心构建的训练集,无论先出简单或困难的例子,贝叶斯学习者会学得同样好,无法使用 ∂ER/∂β 获得“甜蜜点”。但跳开论文研究我们依然可以思考:有没有其它方法,例如对概念学习,通过更典型或具有代表性的样本、以某种设计的学习策略来加快学习速度和加深学习效果?

    另一方面,这篇论文的工作同样对心理学、神经科学和认知科学领域有重大启示。

    前面已经提到,有关学习理论大多止步于概念模型和定性描述。除了少数诸如心理物理学中的韦伯-费希纳定律(Weber-Fechner Law)这样,有关心理感受强度与物理刺激强度之间的精确关系,以及数学心理学(Mathematical psychology)的研究取向和一些结论,缺乏数学定量化也一直是心理学研究的不足之处。

    而这篇论文不仅结论精确,其结论适用于包括注意、投入或更一般的认知控制下任何影响神经表征精确度的过程。如前所述,如果我们采取“学习不仅一个是认知过程,在更本质的功能层面是一种个体自适应改变过程”有关学习本质的观点,会发现它带来的启示甚至具有更大的适用性,远远超出了一般的认知和学习之外。

    例如,在知觉和审美方面的研究中,俄勒冈大学(University of Oregon)的物理学 Richard Taylor 通过对视觉分形图案的研究发现,如设白纸的维度D为1,一张完全涂黑的纸的维度D为2,即画出来的图形维度在 1~2 之间,那么人类的眼睛更偏好于看维度 D=1.3 的图形[26]。事实上许多大自然物体具有的分形维度就是 1.3,在这个复杂度上人们会感到最舒适。一些著名的艺术家,比如抽象表现主义代表人物 ( Jackson Pollock ),他所画的具有分形的抽象画(下图中间一列,左边是自然图,右边为计算机模拟图)分布在 D=1.1 和 1.9 之间,具有更高分形维度的画面会给人带来更大的压迫感[27]。

    心理学家 Rolf Reber 在审美愉悦加工的流畅度理论(Processing fluency theory of aesthetic pleasure)中[28]提出,我们有上述这种偏好是因为大脑可以快速加工这些内容。当我们能迅速加工某些内容的时候,就会获得一个正性反应。例如加工 D = 1.3的分形图案时速度很快,所以就会获得愉悦的情绪反应。此外,在设计和艺术领域心理学家域唐纳德·诺曼(Donald Arthur Norman)和艺术史学家贡布里希(Ernst Gombrich)也分别提出过类似思想。

    对比下 D = 1.3 和 15.87% 的出错率,如果进行下统一比例,会发现前者多出原有分形维复杂性和整体的配比,未知:已知(或熟悉:意外,秩序与复杂)约为 0.3/1.3 ≈ 23.07%,这个结果比15.87%要大。这种计算方法最早由数学家 George David Birkhoff 在1928 年于《Aesthetic Measure》一书中提出,他认为若 O 为秩序,C 为复杂度,则一个事物的审美度量 M = O/C。

    因此,在最简化估计下,可以类似得出 23.07% 额外信息的“最佳审美比”,会让欣赏者感到最舒适。

    当然,因为信息复杂度的计算方法不一,上面只是一个非常粗略的估计。审美过程涉及感觉、知觉、认知、注意等多个方面,并且先于狭义的认知和学习过程,因此最佳审美比应该会15.87%要大。但至于具体数值,很可能因为不同环境和文化对不同的主体,以及不同的计算方法有较大差别,例如有学者从香农熵和柯尔莫哥洛夫复杂性方面进行度量的研究[29]。

    但不管怎样,从这篇文章的方法和结论中,我们已可以得到巨大启示和信心,无论是在人工智能还是心理学或神经科学,无论学习还是审美、知觉或注意,在涉及各种智能主体对各种信息的处理行为中,我们都可能寻求到一个精确的比例,使得通过恰当选取已知和未知,让智能主体在体验、控制或认知上达到某种最优。而这种选取的结果,会使积累的效果远超自然过程得到改进。从这个意义上讲,这篇论文影响得很可能不只是某些科学研究方向,而是未来人类探索和改进自身的根本认知和实践方法。

    参考资料

    1. Celeste Kidd, Steven T Piantadosi, and Richard N Aslin. The goldilocks effect: Human infants allocate attention to visual sequences that are neither too simple nor too complex. PloS one, 7(5):e36399, 2012.
    2. Janet Metcalfe. Metacognitive judgments and control of study. Current Directions in Psychological Science, 18(3):159–163, 2009.
    3. BF Skinner. The behavior of organisms: An experimental analysis. new york: D.appleton-century company, 1938.
    4. Douglas H Lawrence. The transfer of a discrimination along a continuum. Journal of Comparative and Physiological Psychology, 45(6):511, 1952.
    5. J L Elman. Learning and development in neural networks: the importance of starting small. Cognition, 48(1):71–99, Jul 1993.
    6. Kai A Krueger and Peter Dayan. Flexible shaping: How learning in small steps helps.Cognition, 110(3):380–394, 2009.
    7. Yoshua Bengio, Jérˆ ome Louradour, Ronan Collobert, and Jason Weston. Curricu- lum learning. In Proceedings of the 26th annual international conference on machine learning, pages 41–48. ACM, 2009.
    8. M Pawan Kumar, Benjamin Packer, and Daphne Koller. Self-paced learning for latent variable models. In Advances in Neural Information Processing Systems, pages 1189–1197, 2010.
    9. David E Rumelhart, Geoffrey E Hinton, Ronald J Williams, et al. Learning represen- tations by back-propagating errors. Cognitive modeling, 5(3):1, 1988.
    10. Yann LeCun, Yoshua Bengio, and Geoffrey Hinton.Deep learning.Nature, 521(7553):436–444, 2015.
    11. Chi-Tat Law and Joshua I Gold. Reinforcement learning can account for associative and perceptual learning on a visual-decision task. Nat Neurosci, 12(5):655–63, May 2009.
    12. WI Schöllhorn, G Mayer-Kress, KM Newell, and M Michelbrink.Time scales of adaptive behavior and motor learning in the presence of stochastic perturbations.Human movement science, 28(3):319–333, 2009.
    13. Ronald J Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8(3-4):229–256, 1992.
    14. Frank Rosenblatt. The perceptron: A probabilistic model for information storage and organization in the brain. Psychological review, 65(6):386, 1958.
    15. William T Newsome and Edmond B Pare. A selective impairment of motion perception following lesions of the middle temporal visual area (mt). Journal of Neuroscience, 8(6):2201–2211, 1988.
    16. Kenneth H Britten, Michael N Shadlen, William T Newsome, and J Anthony Movshon.The analysis of visual motion: a comparison of neuronal and psychophysical perfor- mance. Journal of Neuroscience, 12(12):4745–4765, 1992.
    17. Mihaly Csikszentmihalyi. Beyond boredom and anxiety. Jossey-Bass, 2000.
    18. Matti Vuorre and Janet Metcalfe. The relation between the sense of agency and the experience of flow. Consciousness and cognition, 43:133–142, 2016.
    19. Robert Bauer, Meike Fels, Vladislav Royter, Valerio Raco, and Alireza Gharabaghi.Closed-loop adaptation of neurofeedback based on mental effort facilitates reinforce- ment learning of brain self-regulation. Clinical Neurophysiology, 127(9):3156–3164, 2016.
    20. De Houwer J1, Barnes-Holmes D, Moors A..What is learning? On the nature and merits of a functional definition of learning.https://www.ncbi.nlm.nih.gov/pubmed/23359420
    21. Herbert Jaeger. The “echo state” approach to analysing and training recurrent neural networks-with an erratum note. Bonn, Germany: German National Research Center for Information Technology GMD Technical Report, 148(34):13, 2001.
    22. Wolfgang Maass, Thomas Natschläger, and Henry Markram. Real-time computing without stable states: A new framework for neural computation based on perturba- tions. Neural computation, 14(11):2531–2560, 2002.
    23. Amitai Shenhav, Matthew M Botvinick, and Jonathan D Cohen. The expected value of control: an integrative theory of anterior cingulate cortex function. Neuron, 79(2):217–240, 2013.
    24. Amitai Shenhav, Sebastian Musslick, Falk Lieder, Wouter Kool, Thomas L Griffiths, Jonathan D Cohen, and Matthew M Botvinick. Toward a rational and mechanistic account of mental effort. Annual Review of Neuroscience, (0), 2017.
    25. Joshua W Brown and Todd S Braver. Learned predictions of error likelihood in the anterior cingulate cortex. Science, 307(5712):1118–1121, 2005.
    26. Hagerhall, C., Purcell, T., and Taylor, R.P. (2004). Fractal dimension of landscape silhouette as a predictor for landscape preference. Journal of Environmental Psychology 24: 247–55.
    27. A Di Ieva.The Fractal Geometry of the Brain.
    28. Rolf Reber, Norbert Schwarz, Piotr Winkielman.Processing Fluency and Aesthetic Pleasure:Is Beauty in the Perceiver’s Processing Experience.http://dx.doi.org/10.1207/s15327957pspr0804_3
    29. Rigau,Jaume Feixas,Miquel Sbert,Mateu.Conceptualizing Birkhoff’s Aesthetic Measure Using Shannon Entropy and Kolmogorov Complexity. https://doi.org/10.2312/COMPAESTH/COMPAESTH07/105-112