从此走进深度人生 Deep net, deep life.

分类: 学术综合

  • 赖建诚:萨缪尔森的内心独白

    萨缪尔森从生物学、物理学、数学、机械工程学,借用大量概念与工具,套用入经济理论分析。他在哈佛完成的博士论文《经济分析的基础》(1947)就是这种手法的开山之作。《萨缪尔森自述》给数理经济分析,开创了康庄大道,也吸引全球有自然科学根基的学者投入,兴盛了经济学的多元化与科学化。

      1990 年3 月我38 岁时,经济思想史名家Mark Blaug (1927-2011) 告诉我:“萨缪尔森的经济分析没多大意思,但其他的著作都非常独特。”当时还年轻不明白真正的意义,我自忖:这是美国首位得诺贝尔经济学奖的重要人物,著作影响战后全球的经济学界。他最拿手的数理经济分析,有许多我根本看不懂,为什么会没多大意思?

       2016 年7 月退休两年后,我找齐了萨缪尔森的论文集7 大册,共有597 篇学术论文,每册都超过千页。全都是期刊论文直接翻拍,因为他写得又快又好,重新排版校对都跟不上。我当然无法跟上所有内容,只能挑个我较熟悉的小领域,看能否瞧出点名堂。几个月后拟了篇稿子《萨缪尔森与辉格思想史观》,收在书末当附录。

       写了这篇文章我才明白,Blaug 那句话的真义:萨缪尔森从生物学、物理学、数学、机械工程学,借用大量概念与工具,套用入经济理论分析。他的哈佛博士论文《经济分析的基础》(1947)就是这种手法的开山代表作。此书给数理经济分析,开创了康庄大道,也吸引全球有自然科学根基的学者投入,兴盛了经济学的多元化与科学化。   对他批判最严厉的是他在芝加哥大学读本科时的兄长:George Stigler(1911-1991,1982 诺贝尔奖) 与Milton Friedman(1912-2006,1976诺贝尔奖)。Stigler认为这种套用的手法,对熟悉分析技巧的工程师,每几个月写一篇也没问题。根本性的质疑是,萨缪尔森的这种论文,除了提出数学定性与逻辑推论,能产生哪些有用的见解与思想?Friedman 的反对角度是学派性的:芝加哥派学的市场机能、古典自由派取向,不愿接受哈佛、耶鲁、MIT 的凯恩斯派取向(注重短期政策效果、强调政府的作为、用财政赤字刺激有效需求)。

       我支持Stigler 的批评,原因很简单。通读萨缪尔森近百篇的思想史论文,会有个明确的感觉:他根本不是在做思想史研究,而是把从自然科学借来的数学工具,先套在经济分析上,再套到思想史研究上。他对思想的内容与时代意义着墨太少,甚至不在意。换言之,他是一以贯之地在做同一件事:Veni, vidi, vici(I came; I saw; I conquered :我来到、我看见、我征服)。

       思想史学界的怀疑和Stigler一样:这种做法能产生有意义的新知识吗?其实萨缪尔森内心也很明白,但就是无法克制这种征服欲。他曾说,日后在天堂遇见圣彼得(相当于我们的阎罗王)时,他要坦诚认罪,说他“最严重的罪行,就是用辉格史观(数理模型)研究科学史(思想史)”。我相信读过萨缪尔森对《资本论》的分析后,肯定没人会因而抛头颅洒热血。

       再举个实例,这是萨缪尔森的自陈:“我生命中的运气,就是一直跟同时代的领军数学家、物理学家、化学家、分子生物学家无间地在一起。经济方法论的批评家相信,像我这样的经济学者,处心积虑要从他们那赢取赞誉,那就大错特错了。有人认为,非经济学界的科学家,对经济学的公理体系没兴趣。哈佛数学家George Mackey,从不想跟我讨论我的《经济分析基础》(Foundations)。反而是我的初级《经济学》(Economics)(或John Rae 的利息理论)吸引他注意,而不是像Debreu 那种纯数学的细微之处,会让别人喜欢我。”(意指:数学界喜欢他的经济见解,而非数学技巧。)

       现在换个角度,谈Blaug 评语的下半句:经济分析之外,萨缪尔森的其他作品都非常独特有趣。我们译了《萨缪尔森自述》25 篇,充分认同这项观察。萨缪尔森的文笔精简、活泼、机灵、知识渊博、用典恰当。这给译者带来不少麻烦,但给读者带来不少知性乐趣与启发。

       我引《一位早期金融理论家的回忆》首段为例:“有一次,有人让我来描述我在经济学中专攻的领域。我当时回答说,也许我是经济学界‘最后的通才’——因为纯理论、文字经济学和数理经济学、宏观经济学和微观经济学、统计学和概率论、对外贸易和管理经济学,全是我的主要研究对象。这意味着我会对金融与风险理论抱有某种随机关注。但实际上,这种说法并没有完全表达出我对该领域的兴趣和投入的精力。一般意义上的金融(个人层面上的和整体经济范围的),在属于我的20 世纪演化为最成功的领域之一,而我一直希望成为局中人。” 

      这类妙句全书随处可见,还有许多话中有话的隐喻,都让我深刻感受到:萨缪尔森的文字功力超过他的数学方程式。数学技巧与时俱进,1950 年代的前沿数学,现在看来就普通一般。文字与见解的智能,反而最能经受时间考验。

       我对萨缪尔森的评判是:他的文章比数学好、学术见闻比经济分析有趣、人情世故比政策分析通达、非经济学的见解比专业论证更深刻、内在信息比字面更丰富。萨缪尔森是二战后经济学界的标志性灯塔,让茫茫大海的船只有明确指引,照亮了广袤的海面,可说是学光普照。

       苏格兰哲学家David Hume (1711-1776) 说:“要当个哲学家,但在一切哲学之前,先当个人。”(Be a philosopher; but, amidst all your philosophy, be still a man)。萨缪尔森在这本自述中,解说他如何成为伟大的经济学家,以及如何谦虚地展示博学、犀利、通达、睥睨。

       他真的睥睨天下吗?再举本书第6 篇的自陈(提到LSE 经济学者Lionel Robbins (1898-1984):“Lionel个子高挑、容貌英俊,总是让人印象深刻。有一次,Robbins 在哈佛大学做一场高水平的讲座,年轻的Bob Solow 对我耳语说:‘不那样讲课的人都该枪毙。’……我在某次经济学家的鸡尾酒会上遇见他,确切地说是偶遇。他一身礼服,看上去比任何人更显高贵。他出于客气,非常有礼貌地展示出了对我的兴趣。这让我越来越激动,我夸夸其谈,自我陶醉,嗓门越来越高——在过度兴奋之中,我竟然把马丁尼鸡尾酒全洒在了他的笔挺的礼服上。我赶紧愧疚地把餐巾纸递给他。Lionel泰然地说:‘没关系,我亲爱的Paul,不必在意。’……Lionel 轻轻戳破了我吹起的这个浮夸的气球。” 

      盖棺论定,Paul Anthony Samuelson (1915-2009) 是奥运十项全能型的高手,前无古人,至今尚无来者。他是战后数理经济分析革命的奠基者。他不是科斯(Ronald Coase, 1910-2013)那类提出重要概念者,也不像亚当·斯密、马克思、凯恩斯那样,建构出新类型的分析体系。他不是“主义层次”的圣者,但在历届诺贝尔奖的罗汉群中,他属于更高一层的观音。萨缪尔森的数理分析过时了,但经验与智慧还很有用。

    本文为《萨缪尔森自述》序言,格致出版社出版,略有删节。文章来源:北大金融评论。

  • 洪永淼、汪寿阳:​大数据如何改变经济学研究范式

    摘要:本文首先从经济学视角探讨大数据给经济学实证研究所带来的范式变革,包括从理性经济人到非完全理性经济人,从孤立的经济人到互相关联的社会经济人,从代表性经济人到异质性经济主体,以及从经济分析到经济社会活动的系统分析。然后,从方法论视角讨论大数据给经济学实证研究方法所带来的变革,包括从模型驱动到数据驱动,从参数不确定性到模型不确定性,从无偏估计到有偏估计,从低维建模到高维建模,从低频数据到高频甚至实时数据,从结构化数据到非结构化数据,从传统结构化数据到新型结构化数据,以及从人工分析到智能分析等。大数据引起的经济学研究范式与研究方法变革,正在深刻重塑经济学发展方向,不但加强了经济学实证研究范式的趋势,而且还进一步突破了现代西方经济学的一些基本假设的局限性,使经济学研究日益呈现出科学化、严谨化、精细化、多元化(跨学科)与系统化的趋势,并且与社会科学其他领域在方法论上日益趋同。中国大数据资源,为从中国经济实践中总结经济发展规律,从中国特殊性中凝练可复制的经济发展模式,从而构建具有深厚学理基础的原创性中国经济理论体系,提供了一个得天独厚的“富矿”。
    关键词:大数据  文本分析  机器学习  研究范式  研究方法  反身性

    一、引言

    在中国经济学界,绝大多数经济学家已形成高度共识,认为中国经济发展有其内在逻辑和一般规律,需要对中国经济学进行原创性理论创新,以探索中国经济发展规律(王一鸣,2017;王东京,2018;杨红丽等,2020;洪永淼、薛涧坡,2021;侯增谦,2021;刘伟、蔡志洲,2021;杨耀武、张平,2021)。但是,中国经济学家对于中国经济学应该采用什么样的研究范式与研究方法,尚未达成广泛的共识,甚至存在较大争议。例如,关于定性分析与定量分析的关系、经济思想与数学、模型的关系等,观点各异(洪永淼、汪寿阳,2020)。在研究范式方面尚未达成广泛共识,决定了中国经济学家很有必要对研究范式进行深入的学术讨论。中国经济理论创新,需要对研究范式进行深刻变革。洪永淼、汪寿阳(2021a)论述了研究范式对经济学研究的重要作用。本文首先讨论研究范式对提高经济学研究科学性的重要意义以及过去40多年经济学实证研究或经验研究范式革命产生的背景与特点,然后从经济学视角阐释大数据革命对现代经济学的一些基本假设和基本研究范式的深远影响,并从多个维度具体讨论大数据和机器学习如何深刻改变经济学实证研究方法。

    我们的分析表明,大数据革命强化了经济学“实证革命”的研究范式,并且正在引起经济学研究范式的变革和研究方法的创新,推动交叉学科研究,促进经济学和社会科学其他领域之间的融合,促进经济学和数学、人工智能、计算机科学、统计学、认知科学等自然科学学科之间的交叉。

    40多年来,中国通过改革开放,逐步建立起中国特色社会主义市场经济基本制度,主动融入世界经济体系,充分发挥比较优势,实现经济长期持续快速增长,成为了世界第二大经济体。中国经济崛起是21世纪世界最重大的经济事件,正在深刻改变世界经济格局及其发展趋势。新时代改革开放和社会主义现代化建设的丰富实践,是理论和政策研究的“富矿”。党的十八大以来,中国及时总结新的生动实践,不断推进理论创新,在发展阶段、发展理念、发展格局、所有制、分配体制、共同富裕、市场机制、政府职能、宏观调控、产业结构、区域规划、企业治理等重大问题上提出了许多重要论断,形成了习近平新时代中国特色社会主义经济思想。如何以习近平经济思想为指导,从中国经济实践中揭示中国特色社会主义市场经济发展规律,从中国特殊性中凝练可复制的中国经济发展模式,是中国经济学家的历史机遇和时代使命。由于中国超大经济体的规模优势和数字经济的快速发展,中国在大数据资源方面与西方发达国家大致站在同一起跑线上,加上中国经济拥有多样性的所有制结构、丰富的“政策数据库”等特点,中国经济学家如果能够充分利用大数据所提供的有关中国经济实践的大量信息,与时俱进地探索科学研究范式,将能够从中国经济发展中揭示中国经济发展规律,构建具有深厚学理基础的原创性中国经济理论体系。

    二、经济学研究的“实证革命”

    任何学科的发展离不开其研究方法及其知识生产与积累方式的进步,而一门学科是否具有科学性或者说其科学性的程度有多高,关键在于它是否有一个与时俱进的科学研究范式。所谓研究范式,是指一个学科的学术共同体进行科学研究时所遵循的模式与框架,是学科知识生产与积累的基本研究方法的总和,这是影响经济学研究质量的关键因素。历史上自然科学每一次重大理论突破,都伴随着研究范式的革命和研究方法的创新(Kuhn,1996)。经济学的发展也是如此。自亚当·斯密《国富论》发表以来,经济学研究范式随着时代的变迁一直在变化。19世纪60、70年代,经济学产生了马克思主义政治经济学以及“边际革命”;20世纪30年代,出现了“凯恩斯革命”;20世纪50年代,诞生了“新古典综合”。过去40多年来,现代经济学又出现新的范式革命,即“实证革命”,也称为“可信性革命”(王美今、林建浩,2012)。实证革命是指经济学以数据作为基础,以计量经济学为主要方法研究并解释经济变量之间的逻辑关系,特别是因果关系的研究范式革命。Hamermesh(2013)发现,从1963到2011年发表在经济学顶级期刊的论文中,20世纪80年代中期以前大部分论文都是理论性的,而从80年代中期以来,实证研究论文比例攀升到超过70%。Angrist等(2017)指出,从1980到2015年,国际顶尖与主流经济学期刊以数据为基础的实证研究论文数量从不到35%上升到55%左右,而理论性论文数量则从近60%下降到不到40%,实证研究成为现代经济学最主要的研究范式。40多年来,中国经济学也从定性研究为主转变为以定量实证研究为主(李子奈、霍玲,2005;洪永淼、薛涧坡,2021;洪永淼等,2021)。

    经济学实证研究之所以逐渐流行并逐渐占据主导地位,得益于计算机技术的不断发展,以及数据可获得性的不断提高,但最重要的原因在于实证研究更加符合现代科学研究范式。什么是科学研究范式?Kuhn(1996)在《科学革命的结构》一书中提出,任何理论假说都需要经过经验验证,才能证明其正确性与有效性。鄂维南(E,2021)指出,自牛顿以来,自然科学研究基本上按照开普勒和牛顿两种不同范式展开,其中牛顿范式是基于第一性原理的研究方法,其目标是发现物理世界的基本原理,如牛顿、麦克斯韦、玻尔兹曼、爱因斯坦、海森堡、薛定谔的理论物理学,主要研究方法是“思想实验”,而开普勒范式是指数据驱动的研究方法,通过对数据的分析,寻找科学规律并解决实际问题,如行星运动的开普勒定律。无论是哪一种范式,任何理论假说都需要接受经验验证,而且在相同的条件下,任何结论应该能够被独立地重复证实或发现。撤稿观察数据库(Retraction Watch Database)显示,《自然》和《科学》从2001到2020年各撤稿67、74篇,其原因是这些文章的结论不能获得大多数人重复实验的验证。最近,《金融学报》(Journal of Finance)自创刊以来首次撤回获得该期刊2020杰出论文奖的一篇论文,主要原因是该研究的核心实证结果无法复制,研究成果可靠性不足。

    可能有人会提出这么一个问题:上述实证研究范式是自然科学的研究范式,而社会科学与自然科学存在很大差别,特别是很多自然科学的主要研究对象是自然界,是物;而包括经济学在内的社会科学的主要研究对象是人,是具有意识的人。社会存在决定社会意识,但社会意识对社会存在也有反作用,这种互动关系在社会科学被称为“反身性”。这是社会科学与自然科学最显著的不同之处。社会科学与自然科学还有其他不同之处,如绝大部分经济社会现象都是非实验性的。自然科学诞生以来,其理论已被历史与实践证明了是科学理论,可精确解释与预测自然界的现象与运动规律,而这些科学理论主要是采用了科学研究范式而创建起来的。因此,社会科学可以而且应当借鉴自然科学的科学研究范式,以提升社会科学的科学性与先进性。不能因为社会科学与自然科学研究对象不同,就认为自然科学的研究范式不适合于社会科学,这实际上是以特殊性否认普遍性。同时也应强调,借鉴自然科学的研究范式与研究方法,并不是机械地照搬照抄,而是需要根据社会科学的特点(如反身性与非实验性),有所发明与创新,使之适用于研究社会科学。例如,由于社会经济系统所产生的观测数据具有非实验性的特点,经济学家与计量经济学家在识别经济因果关系时便面临所谓的内生性问题,因此发展了很多可克服内生性的因果推断方法,如工具变量法、双重差分、断点回归、倾向性得分匹配与虚拟事实分析等,这些方法也被广泛用于定量评估各种经济社会公共政策。有关这些方法的介绍,参见Angrist和Pischke(2009)。

    三、大数据与经济学研究范式变革

    经济学实证研究范式包含三大要素:(1)数据,包括观测数据和实验数据,大部分经济数据是观测数据;(2)分析方法与工具,包括计量经济学模型、方法、计算工具,如统计软件包和机器学习算法程序包;(3)经济理论,用于提供经济解释、经济直觉;经济理论本身也常常是受检验的对象。经济学实证研究的最主要方法论是计量经济学,这一方法论学科对推进经济学科学化发挥了重要作用(洪永淼,2007;李子奈,2008)。

    以互联网、移动互联网、云计算、人工智能为代表的信息科技革命和第四次工业革命正在深刻改革人类的生产与生活方式,催生了数字经济这一新的经济形态。人类很多经济社会活动与行为轨迹都以数字化的形式记录下来,形成了各种形式的大数据,这些大数据包含着大量互相关联的微观经济主体行为动态信息。早在2010年美国加州举办的科技经济会议上,谷歌总裁施密特就曾表示:“当今世界每2天产生的数据相当于2003年以前人类历史中产生的所有数据的总和。”相对于传统数据,大数据具有什么特点?大数据对经济学研究,特别是经济学研究范式与研究方法有什么影响?众所周知,大数据有以下4个特征:(1)规模性,即样本容量大,变量个数多。若样本容量大于变量个数,称为高大数据;若变量个数大于样本容量,称为胖大数据。大部分经济大数据均是大量互相关联的微观经济主体(如消费者、生产者、投资者等)的动态行为大数据。(2)高速性,即可获得高频数据甚至实时数据。(3)多样性,即具有结构化数据,又有各种形式的非结构化数据,包括文本、图形、音频、视频等。即使是结构化数据,也有新型的数据,如矩阵数据、函数数据、区间数据、符号数据等。(4)准确性,即噪声大、信息密度低。这些特征是传统数据所不具备的。

    在很多情景下,大数据包含传统数据所没有的信息。例如,高频微观行为大数据提供了大量互相关联的经济主体的互动关系如何随时间演变的信息,而类似于一次性快照的传统微观调查数据则不包含这些动态信息。又如,社交媒体平台的文本数据包含了经济主体(如投资者、消费者)丰富的情绪、情感等心理信息,这也是传统数据所没有的。情绪、情感是人类的非理性现象,但可从文本数据中提取并定量测度。新型数据需要新的分析方法与工具,例如对文本数据的情感分析需要用到自然语言处理技术与包括机器学习在内的分析方法,如词典方法、主题模型、词向量模型(关于自然语言处理的介绍,参见Manning et al.,2008;Jurafsky and Martin,2009)。大数据的可获得性和机器学习的应用,不可避免地引起经济学实证研究范式与研究方法的变化(胡毅等,2019)。那么,大数据和机器学习如何改变经济学的研究范式与研究方法呢?大数据是开辟新的研究领域、研究方向、研究命题,还是以更新颖更有启发性的方式来回答传统问题?大数据是带来一次研究范式的变革,还是仅仅只是渐进式范式变化的延续?以下,我们首先从经济学视角来讨论这些重要问题。

    (一)从完全理性到非完全理性

    长期以来,新古典经济学假设理性经济人在完全竞争市场环境下进行经济决策,优化配置稀缺资源,但理性经济人这一新古典经济学的最基本假设与实验经济学、社会心理学的经验发现并不兼容。随着经济理论的发展,完全竞争市场假设拓展为垄断与寡头垄断,完全信息假设拓展为信息不对称假设,而完全理性经济人假设也通过实验经济学得以放松,如假设有限理性。宏观经济学的理性预期学派也研究认知偏差对经济运行所带来的影响(崔丽媛、洪永淼,2017)。这些研究均取得了丰硕的理论成果,如产生了信息经济学、规制经济学、实验经济学、行为经济学、行为金融学等新兴学科。

    社会科学和自然科学一个最大的不同之处是自然科学的主要研究对象是自然界,是没有意识的物,而社会科学的主要研究对象是有心理意识的人,存在情绪、情感、价值判断等心理现象。比如,新冠肺炎疫情大流行,给人类社会经济带来了巨大的不确定性,经济主体对于这种不确定性给现在与未来经济造成的可能影响会形成一定的心理预期,这种预期反过来会影响经济主体当下的消费与投资行为,从而影响整个经济运行。经济学家早就认识到心理因素在经济学中的重要性,19世纪70年代的“边际革命”首先通过效用这个概念将心理因素引入经济学的分析框架中,宏观经济学从凯恩斯革命到理性预期学派,都非常注重经济主体(如消费者、投资者等)的心理预期对宏观经济的影响,如所谓“流动性陷阱”就是指投资者对前景极其悲观,因此不管利率有多低也不愿意借贷去投资。但是,很多经验事实表明,人的决策并不都是完全理性的,常常受到情绪、情感、情景以及偶然因素的影响(Shiller,2000,2019)。要精确研究经济主体的心理因素(如投资者的情绪、情感,消费者的幸福感、满意度等)及其对经济的影响,需要对经济主体的心理进行测度。由于传统数据很少包含经济主体的心理信息,以往很难开展关于经济主体的心理如何影响经济的定量实证研究。如今,大数据特别是文本数据,提供了很多消费者、投资者的情绪、情感、价值判断等信息,这些心理信息可通过自然语言处理技术与人工智能方法从文本数据中提取出来(Tetlock,2007)。因此大数据使经济学家能够采用定量实证研究方法,精确研究社会心理对经济的影响。诺贝尔经济学奖获得者罗伯特·席勒(Shiller,2019)在《叙事经济学》一书中,倡导重视研究社会情感及其传染对重要经济事件的影响。众所周知的抢购、银行挤兑、线上直播、羊群效应、资产泡沫、金融传染病等,都是社会情感及其传染影响经济行为的例子。2021年初,美国股市大量散户投资者在与机构投资者博弈时取得了胜利,让人们见证了散户投资者通过社交网络平台的情感传染所爆发出来的巨大影响力。同样地,作为一种长期形成的社会心理与行为习惯,文化也可定量刻画。例如,荷兰社会心理学家霍夫斯泰德(Hofstede,1984,1991)基于跨国调查数据提出了一个文化维度理论,从6个维度定量测度不同国家的文化差异。另外,可从企业财务报表和工作报告等文本数据中提取刻画文化元素的有用信息,构建并测度文化变量,这样便能精确研究企业文化对企业经营的影响(Goldberg et al.,2016;Li et al.,2021)。

    (二)从孤立经济人到社会经济人

    新古典经济学所假设的理性经济人在微观层面上是一个孤立的经济人,这与现实生活中的人完全不同,这是新古典经济学最突出的一个缺陷。在《〈政治经济学〉导言》中,马克思批判了从孤立的个人出发来研究财富与生产的错误做法。马克思强调人的社会性,注重研究人与人之间的生产关系。现实中,人是社会人,人与人之间具有千丝万缕的直接或间接的联系。特别是随着互联网技术的广泛使用和经济全球化的深入发展,人与人、企业与企业、行业与行业、群体与群体、国家与国家之间等各个层面的联系更加紧密。这些联系所构成的各种社会网络(如地理网络、行业网络、平台网络、数字网络等)会深刻影响微观经济主体的行为与心理。以前,绝大多数的微观调查数据相当于一次性快照的数据,不包含人与人之间互相联系的信息,因此很难将经济人当做社会经济人加以研究。现在,大量微观行为高频大数据,如脸书、推特、领英、微博、QQ、知乎、豆瓣、贴吧等社交媒体平台上的各种文本数据,可提供大量、丰富的人与人之间的动态联系信息,这使经济学家可将经济人视为社会人,研究他们之间的经济社会关系及其动态演变。习近平总书记在2020年8月召开的经济社会领域专家座谈会上指出,“我国社会结构正在发生深刻变化,互联网深刻改变人类交往方式,社会观念、社会心理、社会行为发生深刻变化。”大数据可用于精确刻画与研究这些社会变化及其影响,以适应社会结构、社会关系、社会行为方式、社会心理等的深刻变化。

    (三)从代表性经济人到异质性微观主体

    20世纪30年代的凯恩斯革命宣告宏观经济学的诞生,对世界各国经济政策特别是货币政策与财政政策的制定产生了深远影响。宏观经济学主要研究总产出(如GDP)、价格水平(如CPI)、失业率、汇率等宏观经济变量之间的数量关系,如奥肯定律、泰勒规则等。在20世纪70年代之前,宏观政策分析主要使用简约联立方程组刻画宏观经济变量之间的数量关系,其本质是通过观察经济主体对既往政策变化的反应,对其行为方程进行估计,从而预测新政策的效果。但这种方法没有考虑到政策变化后经济主体通过预期改变自身行为,从而导致政策失效的可能性(Lucas,1976)。“理性预期革命”后,宏观经济学逐渐发展出动态一般均衡模型,通过引入理性代表性经济人内生跨期最优决策来解决“卢卡斯批判”问题,其本质是假设经济主体的偏好等结构参数不会随政策而改变,通过估计代表性经济主体的结构参数,而非其行为参数,并结合经济主体跨期优化的理论结果,来预测政策效果。但在单一代表性经济人假设下,宏观模型仍然缺乏对微观主体决策行为的深入刻画,特别是刻画宏观经济变量之间数量关系的方程并不是在众多互相关联的微观主体行为的假设基础上推导出来的。现实中的经济主体,如消费者、生产者、投资者、地方政府等,存在显著的异质性,具有不同的结构参数以及不同的经济行为。例如,低收入和高收入家庭受新冠肺炎疫情的影响程度不同,他们应对疫情的行为也不一样。在中国,不同所有制的企业,其行为也有很大差别。宏观经济总量通常是由加总获得的,由于存在异质性,加总可能导致信息失真。由异质性很强的不同群体所构成的宏观经济动态趋势,可能与代表性经济主体假设下的宏观经济趋势有显著差别,甚至相反。比如,通过效用最大化推导出来的个人消费函数(即个人消费与个人收入之间的关系),在加总后并不能得到相同函数形式的宏观消费函数,除非每个人的效用函数均属于齐序函数(Varian,1999)。Granger(1980)通过一个例子说明,具有“短记忆”性质的个人消费时间序列,在加总后,宏观消费变量将变成具有“长记忆”性质的时间序列。微观主体的异质性使得为宏观经济理论奠定微观基础的尝试更加困难。然而,大量高频微观经济主体行为大数据的出现,如消费者在线消费数据与企业投资数据,可用于识别外生经济或者政策冲击对不同行业、不同部门、不同微观主体产生的分布效应,刻画这些冲击在经济系统内的传导路径,从而更好理解宏观经济政策传导机制,帮助政府制定精准有效的宏观经济政策。

    (四)从经济分析到经济社会系统研究

    人类社会是一个复杂系统,由经济、科技、政治、法律、社会、历史、文化、地理气候、生态环境等诸因素共同组成,而且经济与其他因素交织在一起。经济学家早就认识到这一点,因此除了政治经济学外,还出现法与经济学、经济史学(包括量化经济史学)、生态经济学、环境经济学、气候变化经济学、教育经济学、健康经济学、文化经济学等交叉学科。新一代信息技术的快速发展与广泛应用,除了记录大量微观经济行为大数据外,还产生很多关于生态环境、医疗健康、政治法律、公共政策、历史文化等领域的大数据。这些大数据的可获得使经济学家能够在一个统一的经济社会框架中,以系统方法研究经济与其他因素或其他子系统之间的互动关系(洪永淼、汪寿阳,2021a)。在大数据背景下,经济学的跨学科交叉融合研究的趋势因此日益加强,经济学与社会科学其他领域之间的界限越来越模糊,特别是社会科学各个领域以大数据为基础的定量实证研究范式与研究方法日益趋同。近年来,由于大数据在社会科学各个领域的可获得性与广泛使用,认知科学、实验心理学、人工智能、计算机编程、数据科学等方法论学科的知识与方法,如机器学习、深度学习、文本分析、社会网络分析以及模拟仿真等,已被广泛应用于社会科学各个领域的研究中。事实上,经济学与社会科学其他领域一个共同的主要目的是识别因果关系与定量评估经济社会公共政策,又都面临经济社会系统的非实验性特点,因此所使用的很多定量实证方法具有共性。例如,经济学家和计量经济学家所熟悉的很多因果推断和定量政策评估方法,包括工具变量、双重差分、断点回归、倾向积分匹配、虚拟事实分析等,也日益广泛应用于社会学、政治学、历史学、教育学等社会科学其他领域。

    2009年,美国15位学者(Lazer et al.,2009)在《科学》上提出“计算社会科学”这个新兴学科的概念。社会科学的最主要研究对象是人,它是关于人类如何思考(心理学)、如何处理财富(经济学)、如何互相联系(社会学)、如何治理人类自己(政治学)以及如何创造文化(人类学)等的科学。2012年,14位欧美学者(Conte et al.,2012)联合发表《计算社会科学宣言》,呼吁计算社会科学通过结合信息技术、人工智能和社会科学理论来解决新时代社会科学面临的重要问题。目前,计算社会科学进入了基于大数据的实证研究范式:数据驱动的研究方法将算法和计算工具应用于复杂数据,以揭示社会现象的本质。计算社会科学的研究范式蕴含着交叉学科方法,需要包括经济学家在内的社会科学家、认知科学家、计算机科学家、数学家、统计学家、物理学家等各领域学者的通力合作。

    综上所述,大数据的可获得性,特别是大量互相关联的异质性微观经济主体行为(包括心理)高频大数据,使经济学实证研究有望突破现代西方经济学中一些经常受到批判的重要缺陷,如假设孤立的理性经济人,忽略经济主体的社会联系(即社会性),忽略经济主体进行经济决策时所处的历史、文化、心理、情景等因素的影响。大数据特别是文本数据使得测度社会心理变量(包括情感、情绪、价值判断)和文化变量成为可能,使经济学的实证研究能够将社会科学的“反身性”特点纳入定量实证研究框架,即所谓的文本回归分析框架,从而将原来只能进行定性分析的问题转变为严谨的定量分析,并且通过跨学科交叉研究,将经济置于一个更大的人类经济社会系统之中,以系统的观念与方法研究经济与人类社会系统中其他子系统的互动关系。此外,利用大量互相关联的微观主体行为高频大数据,可让经济学家更好识别外生冲击(如新冠肺炎疫情、中美地缘政治冲突)或政策冲击对不同微观主体的分布效应、识别这些冲击的传导机制,从而奠定宏观经济学的微观基础。毫无疑义,历史上对经济学发展有重要影响的哲学、政治学、法学、社会学、历史学、心理学等学科将继续产生重要影响,与此同时,因大数据分析而需要的数学、统计学、计算机科学、数据科学、认知科学等学科也将发挥重要的方法论作用,所有这些学科将极大推进经济学和人文社会科学之间以及经济学和数学与自然科学之间的交叉融合。

    四、大数据与经济学研究方法变革

    新型数据需要新的分析方法与工具。Einav和Levin(2014)讨论了大数据,特别是美国政府部门行政大数据和私人部门大数据如何改变经济学实证研究的统计方法。Varian(2014)和洪永淼、汪寿阳(2021a,2021b)分析了大数据与机器学习给计量经济学与统计学带来的机遇与挑战。Mullainathan和Spiess(2017)和Athey(2019)讨论了机器学习对计量经济学理论与方法的影响。这里,我们从多个维度具体说明大数据如何深刻改变经济学实证研究方法。

    (一)从模型驱动到数据驱动

    首先是从模型驱动转变为数据驱动。从广义上说,经济学以数据为基础的定量实证研究可视为数据驱动的研究。从狭义上说,大数据背景下的模型驱动研究和数据驱动研究有其特殊含义:两者都是以数据为基础的研究,但前者通常是指使用一个低维参数模型(如线性回归模型),这样的模型存在误设的可能性,从而导致模型证据和数据证据出现差异;而后者是指直接使用机器学习算法分析数据,机器学习算法本质上是一种正则化非参数统计方法,不假设具体的函数形式,因此具有较大的灵活性,比较接近数据证据(洪永淼、汪寿阳,2021c)。随机森林提出者里奥·布瑞曼(Breiman,2001)详细讨论了这两种研究范式。以下,我们在经济学框架中分析这两种研究方法的优劣性与异同点。

    在现代经济学中,很多经济理论都是基于一些关于制度、技术、经济主体偏好与行为等基本假设上通过数学模型建立起来的。这种理论建模方法是对复杂经济系统的一种高度简化与抽象,聚焦于主要经济变量之间的因果关系,以揭示经济运行的内在本质,但由于数学模型的高度简化与抽象,现实中的很多其他因素没有被考虑进来。因此,当经济模型用于解释现实观测数据时,可能会出现模型误设的情形,从而对经济实证研究的结论造成不可忽略的影响(洪永淼,2021)。这是模型驱动的实证研究的一个主要弊端。当然,并非模型误设就不能使用。例如,分析文本数据的自然语言处理方法(如词典方法、主题模型、词向量模型)都是文本语言的误设模型,但这些误设模型在提取文本数据中的信息时非常有用(Grimmer and Stewart,2013)。

    很多经济学理论假说与模型无关。比如经典的有效市场假说。有效市场假说成立时,历史信息对将来的收益率没有任何预测力。如果要用观测数据验证这一假说,通常需要假设一个预测模型,如线性自回归模型,然后验证该模型所有滞后项的系数都等于零的统计假设。通过这样的方式将经济假说转变为统计假说,从而可使用计量经济学方法来检验经济假说。但这种方法存在局限性,即如果发现所有滞后项的系数都为零,并不能证明有效市场假说是正确的。因为线性自回归模型只是预测收益率的一种方式,还有无穷多的非线性预测方式。有可能线性自回归模型没有预测能力,但非线性模型有一定的预测能力(Hong and Lee,2003)。因此当不能拒绝统计假说时,只能说线性模型没有发现拒绝有效市场假说的证据,而不能说证实了有效市场假说,除非能穷尽所有的预测模型,但这是做不到的。这就是通常所说的实证研究只能“证伪”,不能“证实”。因此模型证据与数据证据两者之间存在差异。大数据的出现,使我们可采用机器学习的方法,不假设具体的模型或函数形式,而是让数据本身告诉真实的函数关系是什么,从而突破传统低维参数模型的局限性,挖掘更多的数据证据,缩小模型证据和数据证据之间的差异。对大多数传统数据来说,线性模型常比非线性或复杂模型在预测时表现更好,但在大数据条件下,样本容量、变量维度以及噪声都大幅度提高,线性模型无法刻画大数据的非线性、异质性、动态性、离散性等重要特征,而机器学习则能够有效刻画它们并进行精准预测。比如,决策树和随机森林可有效捕捉交互效应等非线性特征。

    在宏观计量经济学,以韩德瑞为代表的计量经济学家,曾提出了“伦敦政经学院计量经济学方法论”(Campos et al.,2005),强调从一般到特殊的建模方法,即从一个复杂、高维、与数据相吻合的计量经济学模型出发,再利用经济理论与统计推断方法来降维简化模型,以提升模型的经济可解释性和样本外预测能力。这里,经济理论可视为对模型参数的约束,例如在线性自回归模型中,有效市场假说意味着所有滞后项系数为零。这样,便可从一个高维统计模型中得到一个具有经济含义的简约计量经济学模型。也有计量经济学家主张从特殊到一般的建模方法,即从一个简单的模型开始,逐渐放入新的解释变量,并考虑是否存在非线性关系,通过模型诊断和模型设定检验,最后得到一个适用的计量经济学模型。因为大数据的容量大、变量多,从一般到特殊的方法在大数据情景下可能更有科学性,特别是可减少因为模型误设而产生的系统偏差。需要强调,从一般到特殊的方法仍需要经济理论的指导,特别是在降维和经济解释时。如何将数据驱动方法与经济理论相结合,是数据驱动方法增强其经济可解释性的必由之路。

    (二)从参数不确定性到模型不确定性

    大数据将实证研究的关注点从参数估计不确定性转变为模型不确定性。传统计量经济学模型常包含低维解释变量与低维未知参数,研究者主要关注未知参数的一致性估计,然后通过t-统计检验量或P-值判断参数估计的统计显著性,进而推测其经济重要性,特别是当某个参数估计值在统计上显著不为零时,研究者将下结论说相应的解释变量是“重要的”。从统计学角度看,t-统计检验量或P-值刻画了参数估计不确定性,这种估计不确定性主要是样本容量有限等原因造成的。在大数据条件下,由于样本容量大,参数估计值十分接近真实的参数值或其概率极限,因此标准误差很小。哪怕真实参数值非常接近零,以至没有多大的经济重要性,其t值在统计意义上也是非常显著的。换言之,经济重要性与统计显著性不是一回事(洪永淼、汪寿阳,2021b)。在数据容量不大的情形下,实证研究者通常没有区分经济重要性和统计显著性,但在大数据条件下,区分这两者就显得特别重要,因为任何参数估计不确定性在样本容量很大时将大大降低,甚至在实际中可忽略不计。

    另一方面,由于大数据特别是胖大数据包含大量潜在的解释变量,可能存在共线性或近似共线性,从而导致估计模型出现不确定性。模型不确定性是指当数据出现“微扰”,即增加或减少一小部分数据时,基于某一准则(可以是统计准则,也可以是经济准则)的最优估计模型会出现显著变化,比如重要或显著的解释变量集合突然改变了,显示模型对数据的微小扰动具有高度的敏感性。因此,在大数据情形下,需要将注意力从(给定模型下)参数估计不确定性转移到模型不确定性。Varian(2014) 指出,很多经济学实证研究包含所谓的“敏感性分析”,即通过假设不同模型设定来检验实证发现的稳健性,实际上是在检验模型不稳定性的影响。从经济预测视角看,当出现模型不确定性时,可将不同的模型进行线性组合或模型平均,以提升样本外预测的稳健度(Bates and Granger,1969;Sun et al.,2021)。从经济学的角度看,可能存在不同的经济理论或模型可解释同一个经济现象,但因为样本数据不多等原因没有办法拒绝其中错误的模型,或者有可能每一个模型可解释现象的一部分,但就像日本20世纪50年代著名电影《罗生门》那样,每个人对于同一个案件都有合乎逻辑的解释,法官则由于证据不足而无法判断谁是真正的杀人凶手。模型不确定性也会影响经济主体的决策行为。Hansen和Sargent(2001)研究了当经济主体对数据生成过程(即产生数据的真实模型)存在一定程度的不确定性判断时,这种模型不确定性或模型模糊性如何影响经济主体的决策行为。

    (三)从无偏估计到正则化估计

    经济学实证研究主要是识别与推断经济因果关系,很多传统的统计推断方法均基于无偏估计。以经典的低维线性回归模型为例,其普通最小二乘法估计量以及相应的残差方差估计量均为无偏估计。常用的统计推断方法,如经典的t-检验和F-检验,均基于这些无偏估计量。但无偏估计不一定是最优估计。随着大数据的广泛使用,可能出现很多解释变量,当解释变量维数较高时,有较大概率会存在近似共线性,导致OLS估计不稳定,即OLS估计量的方差很大。如果对参数施加一定约束,通过牺牲无偏性质,换取估计方差的显著减少,这将显著减少均方误差,提高预测精准度。一个例子是Hoerl和Kennard(1970)提出的岭回归,其参数估计量不是无偏估计量,但其解存在且比较稳定。从本质上说,岭回归通过约束未知参数值的大小,以牺牲无偏性换取方差的显著减少,从而改进预测效果。在大数据时代,经常使用机器学习进行预测(包括分类),其基本思想是将数据分成两个子集,一个是训练数据,用于训练算法;一个是测试数据,用于测试算法的样本外预测能力或泛化能力。为了获得较好的泛化能力,机器学习通常引入一个惩罚项,限制算法的复杂度,这实际上是在算法预测的方差与偏差之间,取得一个适当的平衡。因此,算法预测大多是有偏估计。目前,统计学家与计量经济学家正在将机器学习应用于政策评估等统计推断中(Athey and Imbens,2019)。关于基于有偏估计量的统计推断方法,需要系统地建立一套新的统计学与计量经济学理论(Lee et al.,2016)。

    (四)从样本内拟合到样本外预测

    任何一种经济理论的生命力取决于其对经济现实的解释力,特别是其所揭示的因果关系的解释力。经济学传统建模与经验解释大多基于样本内拟合。然而,任何一种科学理论或假说,必须能够在同样的条件下,独立地重复通过经验验证。因此,一种科学理论或模型不但需要能够解释已经发生的现象,更重要的是能够进行精准的样本外预测,即拥有良好的泛化能力。在实际应用中,样本内拟合和样本外预测之间也存在一个权衡的问题。一般而言,一个模型越复杂,其样本内拟合越好。但是,一个模型的样本外预测能力如何,取决于它是否能够捕捉不同数据中的共同特征(即通常所说的“信号”)。不同数据的共同特征越多,或模型捕捉共同特征的能力越强,其样本外预测能力越好。例如,机器学习依靠非参数统计方法,具有强大样本内拟合的能力,但这并不能保证样本外精准预测。一种高度灵活的机器学习算法,不但能够捕捉数据中的“信号”,而且还会捕捉数据中无助于样本外预测的“噪声”,从而导致样本内过拟合。为了改善样本外预测精准度,必须限制模型复杂度,这就需要对模型进行正则化。

    正则化通过限制参数值或参数维度或模型复杂性,减少捕捉训练数据中的“噪声”,避免算法的过拟合,以获得良好的样本外预测。大部分经济决策(如消费、投资)是在不确定市场条件下所做的决策,均基于样本外预测,因此良好的样本外预测能力十分重要。由于经济结构常常具有时变性,以前表现优越的模型不一定能够继续精准预测未来。此外,经济主体的理性预期使经济主体会随政策变化而改变其行为,从而导致政策失效(Lucas,1976)。因此,精准的样本外预测具有很大的挑战性。在实证研究中,经常看到一些模型具有很显著的样本内证据(如预测变量的参数估计值很显著),但样本外预测能力则很弱。但是,任何科学理论或假说,都必须建立在可靠、可重复验证的实证基础之上。可重复验证意味着在相同的条件下,任何科学理论或假说都应该有很好的样本外预测能力,而不仅仅是有很好的样本内拟合。Varian(2014)指出,随着大数据可获得性的增强,经济学的实证研究在检验经济理论的有效性时,将会更多地从样本内拟合转变到样本外预测。Hofman等(2021)提出了在计算社会科学领域兼顾解释与预测的整合建模思想。

    (五)从低维建模到高维建模

    传统计量经济学模型大多是低维模型,即解释变量维数小,未知参数维数也小。低维模型存在模型误设的可能性,如遗漏重要的解释变量。而大数据特别是胖大数据提供了大量潜在的解释变量,其维数甚至比样本容量更大,这给计量经济学建模带来很大挑战,但也提供了巨大的灵活性,可显著减少因模型误设而引起的系统偏差,避免遗漏重要的解释变量。事实上,很多经济金融问题涉及高维潜在的经济变量。高维建模将所有潜在的解释变量放进模型中,再用统计方法排除不重要的解释变量,实现有效降维,从而达到识别重要解释变量、增强模型可解释性、提升预测稳健性与精准度等目的。

    高维建模思想可用于金融学中的高维投资组合选择问题,比如假设要从标准普尔500中选择30只股票进行投资,如何在每个时期选择最重要的30只股票并决定其最优组合权重,是一个降维问题。再以异质性资本资产定价模型为例,如何从包括所有潜在的共同风险因子和所有资产特质风险因子的高维风险因子集合中,识别出共同风险因子和每个资产的特质风险因子,是一个降维问题。自Engle和Kroner(1995)以来,如何在保证条件方差—协方差矩阵半正定性的前提下,有效估计多元波动率模型的未知参数值,一直是金融计量学的一个难题。

    如何对高维模型进行降维,解决所谓的“维度灾难”问题?岭回归没有降维功能,但Tibshirani(1996)提出的统计学习方法LASSO可用于选择重要的解释变量,达到降维目的。假设存在稀疏性,即在大量潜在的解释变量中,只有少数变量的系数不为零。在这种情形下,可考虑采用LASSO方法。由于对未知参数值的约束从原来岭回归的L2范数(参数平方和约束)改变为L1范数(参数绝对值加总约束),LASSO会令数值很小的系数直接为零,从而达到降维的目的。当样本容量足够大时,LASSO将以大概率正确识别重要的解释变量,同时排除所有其他不重要的解释变量。机器学习的基本思想类似于LASSO,但有两个显著不同。首先,机器学习一般不用线性回归模型,而是采用非参数分析方法,即让数据挑选最优的函数关系,因此具有很大灵活性,可避免模型误设而导致的系统偏差。其次,由于非参数方法的灵活性,存在对数据过拟合的可能性。为了改进样本外预测精确度,机器学习将数据分为训练数据和测试数据,其中训练数据用于决定算法结构,而测试数据用于检验样本外预测效果。

    非参数方法可有效刻画非线性关系,如边际递减或递增效应、交互效应等,但也存在“维数灾难”,特别是当存在高维潜在的解释变量时。为了解决这个问题,机器学习采用了类似LASSO的惩罚项,实现有效降维和避免过拟合。这种带有约束的统计优化问题称为正则化,通过限制模型复杂性,在偏差与方差之间取得适当平衡,以提升预测精准度。这种思想广泛应用于决策树、随机森林、人工神经网络、深度学习等机器学习方法中。需要强调,正则化并不一定都对高维参数施加稀疏性假设。例如,在估计多元波动率模型时,直接假设参数稀疏性并不能保证时变方差—协方差矩阵的半正定性,在这种情形下,可假设未知参数矩阵是低秩的,即假设很多参数行可表示为少数参数行的线性组合,这样既可实现降维估计,又能保证矩阵的半正定性(Cui et al.,2021)。

    高维问题或“维数灾难”并不是统计学与计量经济学所特有的现象。例如,在微观经济学中,包含大量经济主体(或博弈者)的超大型博弈问题的求解也面临维数灾难问题。在宏观经济学中,当状态变量维数变大或服从非马尔科夫过程时,刻画随机动态最优规划的贝尔曼方程的数值求解也存在维数灾难问题。其他学科如物理学和应用数学,多元偏微积分方程的数值求解在变量维数增加时也面临同样的难题(E,2021)。如果拥有大数据,机器学习特别是深度学习将是解决上述高维求解难题的一个有效方法。

    (六)从低频数据到高频数据

    大数据的一个显著特点是其动态性,即产生高频数据甚至实时数据。高频与超高频金融数据的可获得性催生了高频金融计量学(Engle and Russell,1998;Engle,2000)和高频微观金融学(如市场微观结构金融学,参见O’Hara,1995)。20世纪90年代,Engle和Russell(1998)基于高频与超高频金融交易数据,提出了一个自回归条件久期模型,用于刻画资产价格变动或交易的时间间隔与历史信息之间的动态关系,这类模型的产生得益于高频金融数据的可获得性。

    由于不能实时监测GDP等宏观经济变量,宏观经济学研究长期以来受到低频数据的限制。实时预测原是气象学的一个术语。Giannone等(2008)提出了利用大数据实时预测当期GDP的方法,即在季度GDP数据发布之前,利用实时更新的数据预测当期GDP,其基本思想是将大量的异质数据(如失业率、工业销售、贸易差额等)作为信息源,在传统季度GDP数据发布前从中提取出有关当期GDP变化的信息。美联储每天都在利用高频大数据预测当期季度的GDP增长率和通货膨胀率,这对美联储制定货币政策可提供很大帮助。

    随着高频微观经济数据的产生,很多宏观经济指标都能实现高频化甚至实时化,比如,可用互联网消费价格大数据构建日度CPI数据。一个例子是美国麻省理工学院的研究项目(Billions Price Project)所构建的美国和阿根廷的日度CPI指数(Cavallo,2012,2013)。Scott和Varian(2014,2015)使用谷歌搜索数据构建了重要宏观经济变量的高频数据,包括失业人数、消费零销额、消费者情感指数等,以往这些变量只能通过统计调查构建低频数据。预计高频宏观经济数据的可获得性将催生一门新兴学科——高频宏观经济学。宏观实体经济与金融市场高度相关。金融市场有高频数据,但长期以来宏观经济指标数据的获得相对滞后,因此研究者没有办法研究实体经济与金融市场之间的即时互动关系。如果宏观经济变量能够高频化,那么这种研究将成为可能。除了用于构建高频宏观经济指标之外,高维大数据在识别外生经济或政策冲击对不同行业、不同经济主体的分布效应,以及宏观经济政策的传导机制等方面具有天然优势。

    比如,可用高频金融市场大数据精准识别货币政策冲击。针对特定的货币政策工具(如利率),利用“高频”数据(以日为频率)估计货币政策执行前后金融市场价格(反映了市场对政策的预期)的变化,并利用胖大数据控制其他高维因素,识别没有预期到的外生政策冲击(Gertler and Karadi,2015)。较之宏观计量经济学的结构向量自回归模型,上述方法能够更精准识别外生货币政策对金融市场的冲击。

    再比如高频微观行为大数据(如家庭在线消费和企业的投资),可用于识别宏观经济政策对家庭消费与企业投资的分布效应。异质性主体新凯恩斯理论认为货币政策冲击会对面临不同约束(如信贷约束)的微观家庭产生异质性影响,从而导致政策具有分布效应并影响其传导机制。分析微观层面的家庭消费与投资在货币政策实施前后的动态变化,可精准刻画货币政策对不同家庭冲击的分布效应及其背后的市场摩擦机制。同样地,企业投资大数据可用于刻画宏观经济政策(如信贷供给)对微观层面的异质性企业投资行为的分布效应,从而为制定精准信贷政策提供科学依据。

    基于高频的企业生产与销售数据,可估计重大外生冲击(如新冠疫情、中美贸易冲突)发生后,同一产业内不同企业之间的动态关联,以及不同产业之间的动态关联,刻画重大冲击的产业网络或产业链传导机制,特别是对系统性重要产业和核心企业的识别,这将有助于制定科学的定向经济复苏政策(如定向信贷供给和政策补贴),提升产业链的稳定性与韧性,有效降低系统性风险,增强扩张性政策的有效性。

    (七)从结构化数据到非结构化数据

    大数据包括结构化数据和非结构化数据,后者不能以传统的行—列格式表示。非结构数据包括文本、图像、视频、音频等,可用于定量刻画结构化数据无法描述的社会经济活动与现象,如群体心理、企业文化、经济政策不确定性等。非结构化数据一般是高维的。例如,从统计学视角看,文本数据是一种高维的复杂数据。因此,分析非结构化数据的第一步通常是借助深度学习等人工智能方法,例如,利用自然语言处理技术获取文本中的语义学信息,利用语音识别确定声音和音频中的声调,以及通过计算机视觉提取图像和视频蕴含的地理信息等。

    以文本数据为例,各种政府工作报告与政策文件、各类新闻报道、社交媒体平台的各种评论等都是文本数据。文本数据的现代统计分析可追溯到Mosteller和Wallace(1963)。他们通过分析《联邦党人文集》中每篇文章中的冠词(如“an”、“of”、“upon”)出现的频率,并基于每个人写作习惯不会轻易改变的假设,分辨出《联邦党人文集》中一些原来作者不明的文章的作者是詹姆斯·麦迪逊,而非亚历山大·汉密尔顿。在计量经济学史上,对谁发明工具变量法,计量经济学界有过争议。关于工具变量估计的推导最早出现在Wright(1928)所著的《动物油与植物油关税》一书的附录,但附录的写作风格与正文完全不同。Stock和Trebbi(2003)对文本数据进行主成分分析,并使用前4个主成分作为预测变量,最终得出结论,即工具变量估计的提出者是Philip Wright而非他的儿子Sewall Wright。在中国,也早有学者基于《红楼梦》文本数据所包含的常用副词,用统计学两样本均值检验方法研究《红楼梦》前80回的作者和后40回的作者是否为同一个人。

    文字语言是人类表达思想、情感,进行沟通、交流的最主要工具,因此可从文本数据中提取有用信息,测度各种社会心理变量,如金融学中的投资者情感指数(Tetlock,2007;García,2013)、福利经济学中的国民幸福感指数(张兴祥等,2018)、市场营销学中的顾客满意度指数(He et al.,2013;Homburg et al.,2015)、经济学中的经济政策不确定指数(Brogaard and Detzel,2015;Baker et al.,2016;Gulen and Ion,2016;Baker et al.,2020)、教育学中的学生学习压力指数(Munezero et al.,2013)以及新闻传播学中的社会舆情指数等。

    还可基于文本数据构建与测度文化变量。文化是人类社会相对于经济、政治而言的精神活动及其产物,分为物质文化和非物质文化,非物质文化是长期形成的社会心理与行为习惯,可通过文本数据进行刻画。例如,可测度诸如创新、正直、质量、敬畏和团队协作之类的企业文化 (Li et al.,2021)。在Graham等(2017)的访谈研究中,企业高管们推荐了11个度量文化的数据来源,其中大多数是非结构化数据,如财报电话会议记录。Li等(2021)通过自然语言处理技术对企业文化进行研究,他们使用5个标准普尔500公司网站中最常提到的词汇作为“核心价值词汇”,包括“创新”、“正直”、“质量”、“敬畏”、“团队协作”,并借用Guiso等(2015)所提供的与各个“核心价值词汇”相关的“种子词汇”,将财报会议记录中的词语与“种子词语”联系起来,建立异质性的企业“文化字典”,并在每一财务年度为每个企业文化指标赋值,其中每个文化指标的得分是其相关词语的加权计数占总词数的比例。Li等(2021)突破以往企业文化研究主要使用代理变量或采用调查访谈的做法,使用词向量模型度量文化。词向量模型突破传统的词袋模型将字词视为相互独立符号的假设,避免或减少了忽视上下文语境而导致的偏差,将语法表达层面的定量方法推进到语义层面。测度好各种文化指标后,可将这些指标代入回归模型中,使原来的定性分析转变为定量分析。

    需要指出,中文文本数据的定量分析难度高于英文文本数据。例如,与能够自动分词、断句的英文文本数据相比,中文文本数据的分词、断句的位置不同可能产生截然不同的含义,一个经典的例子是:“下雨天,留客天。天留我不留。”与“下雨天,留客天。天留我不?留。”另外,一些中文关键词的词性在上下文中会发生变化,如“领导”可以是名词,也可以是动词。因此,中文词性的判断往往需要一定程度的深度学习和较为庞大的训练数据。还有,中文是不断进化的语言。完全相同的词汇,可能在短短数年间,其含义便发生巨大变化,特别是大量网络语言不断涌现,这些词汇往往代表强烈的感情色彩,但无法按照常规的中文语句含义进行分析。

    文本回归分析不仅使经济学与人文社会科学的跨学科交叉研究成为可能,也使系统性的人类经济社会研究成为可能。众所周知,经济只是人类社会的一个组成部分(当然,是重要组成部分),除了经济因素的影响外,人类的经济活动还受到政治、法律、科技、历史、文化、社会与自然环境等因素的深刻影响,并且反过来影响这些因素。习近平总书记指出,“系统观念是具有基础性的思想和工作方法。”经济学研究也需要坚持系统分析方法。跨学科跨领域的大数据特别是文本数据,可为人类经济社会的系统研究提供很多新的洞见和发现。可以预见,基于大数据的文本回归分析将成为经济学与人文社会科学一个基本的定量实证研究方法(洪永淼、汪寿阳,2021a)。Grimmer和Stewart(2013),Evans和Aceves(2016),Loughran和McDonald(2016)以及Gentzkow等(2019)分别介绍了文本数据的一些基本分析方法及其在政治学、社会学、会计学与金融学,以及经济学实证研究中的应用。

    (八)从传统结构化数据到新型结构化数据

    除了非结构化数据外,大数据还包括新型结构化数据。新型结构化数据例子包括矩阵数据、函数数据、区间数据以及符号数据,其中向量数据是矩阵数据的一个特例,区间数据是符号数据的一个特例,而面板数据则是函数数据的一个特例。长期以来,很多经济金融数据所包含的信息没有得到充分利用。比如,在金融波动率建模时,人们通常只使用金融资产每天的收盘价数据,而由金融资产每天的最高价和最低价所组成的价格区间数据,或者其每天从开盘到收盘的函数价格数据,所包含的信息要比每天的收盘价丰富得多,但却长期没有得到有效利用。作为一个实际应用的例子,股市投资中的K线预测可视为部分利用区间数据进行交易的技术投资策略。K线反映了各种股票每日、每周、每月的开盘价、收盘价、最高价、最低价等涨跌变化情况(Xie et al.,2021)。Chou(2005)提出一个基于范围(即最高价减最低价)数据的条件自回归范围模型,发现基于范围数据的波动率预测优于基于收盘价的GARCH波动率模型预测。而He等(2021)和Zhu等(2021)使用自回归区间模型(Han et al.,2021)和门框自回归区间模型(Sun et al.,2018),分别发现在预测月度原油价格波动率和每天外汇市场波动率时,区间模型预测优于范围模型,而范围模型又优于基于点数据的GARCH模型,展现了有效利用区间数据信息可显著改进波动率预测的信息优势(区间数据既包含范围信息,也包含中点价和收盘价信息)。关于区间数据建模与预测的更多讨论,参见洪永淼和汪寿阳(2021a)。

    新型结构化数据比传统点数据提供更加丰富的信息,但新型结构化数据建模需要新的分析方法与工具,比如一个区间是无穷多点的集合,因此需要构建随机集合的计量经济学模型,而不是点数据的计量经济学模型(Han et al.,2021;Sun et al.,2018)。对新型结构化数据建模需要新的数学工具,这将给计量经济学研究带来范式变革。

    (九)从人工分析到智能化分析

    由于大数据的海量性和复杂性(如不同结构、不同频率、不同来源、噪声等),由人工收集、储存、处理与分析大数据是极其困难甚至不可能的。人工智能,特别是机器学习,也因此应运而生,并得到了空前大发展。机器学习,如深度学习,是分析大数据的最主要工具,已广泛应用于各种现实经济活动中,如高频算法交易。MIT最近开发了一个PClean数据清洗系统(Lew et al.,2021),可自动清洗脏数据,如错误、数值缺乏、拼写错误和数值不一致等常见的数据问题。据报道,在中国杭州市余杭区,“统计机器人”正在帮助及时收集各个部门、各个单位的统计数据报送。机器学习也正在应用于经济学研究中,特别是基于大数据的经济学实证研究,例如文本数据的情感分析需要使用各种自然语言处理方法与技术。人工智能可应用于自然语言处理、计算机视觉、语音识别以及商业智能分析。计量经济学家正在发展一些新的基于机器学习的因果识别与政策评估方法,用于精确评估经济社会公共政策效应(Athey and Imbens,2019)。中国人工智能之父吴文俊曾长期研究如何用机器来证明数学定理。机器人现在还可以帮助科学家做科学实验和写学术论文。

    大数据与人工智能的发展对经济学者的编程能力和数据分析素养带来了新的挑战。比如,为处理海量大数据和及时获取最新算法,经济学家需要掌握一些难度较高的开源可编译软件(如Python,R,Java,C++等),并熟悉诸如GitHub、码云等代码共享平台。再比如,若数据量超过一定规模,在单独服务器上使用计算软件进行数据分析将变得不再可行,这时需要进行分布式计算,将庞大的工作量分散到多个节点服务器分别进行,最后再进行汇总。因此,研究人员也需要熟练掌握如Hadoop、Storm等分布式计算软件。

    五、结束语

    本文的分析表明,大数据正在深刻改变经济学的研究范式与研究方法。由于大数据包含大量互相关联的异质性微观主体的行为(包括心理)信息,使经济学家能够从实证研究的视角出发,突破现代西方经济学的一些基本假设的局限性,如假设完全理性经济人而忽视非理性行为因素,忽视经济人的社会性与社会心理的反作用,忽视宏观经济学的微观基础,忽视以系统观点将经济活动放在更广泛的人类社会系统中来研究经济等重要缺陷,同时,大数据也促进了经济学与认知科学、人工智能、计算机编程学、数据科学等相关领域之间的交叉,特别是促进了这些新兴方法论学科在经济学与社会科学其他领域中的应用,从而推动了经济学与社会科学其他领域之间以及经济学与数学、自然科学之间的融合。经济学与社会科学其他领域的实证研究范式正呈现出科学化、严谨化、精细化、多元化(跨学科)、系统化与趋同化(方法论)的趋势。一个新兴方法论学科,即大数据与机器学习计量经济学正在兴起。需要重视和学习交叉学科和跨学科的理论与方法,包括各种大数据分析方法、技术与工具。

    应该强调,不是使用了定量实证研究方法,经济学研究便自动具有科学性。任何定量实证研究方法,都有其适用的前提条件,如果这些前提条件不满足,相应的方法便不适用。例如,不管样本容量有多大,经典的t-检验和F-检验在条件异方差情形下便会失效(洪永淼,2021)。此外,与任何其他研究方法一样,定量实证研究方法也有其缺点。例如,当使用文本数据测度社会心理变量和经济政策不确定性时,不仅所使用的自然语言处理方法均基于语言的误设模型,而且还可能有不同的构建方式(如赋予不同权重),存在一定的随意性。由于从文本数据构造的变量大多是解释变量,自然语言处理方法所用的误设语言模型会产生变量误差,导致估计偏差,因此需要使用工具变量等方法加以矫正(洪永淼,2011)。另一方面,在实证研究中,通常是研究者事先提出一个理论假说,然后设计一个实验或选择一个方法来检验该假说。不管是拒绝或接受理论假说,研究人员不会事先预知结果。但是,如果为了获得某个预期结果而提出适合该结果的理论假说,并且反复从数据中寻找“证据”支持,这将可能导致数据窥视偏差(Campbell et al.,1997)。例如,研究人员可能会对一种算法的不同版本在同一数据进行反复试验,直至获得某种符合预期结果的版本。这不是科学的态度与方法。但是,不能因此就放弃定量分析而退回到定性分析;相反地,应该研究如何改进测量社会心理变量的方法,如何减少或避免数据窥视偏差。事实上,10年来,分析文本数据的自然语言处理统计方法已显著地变得更加精准,并且还在不断完善中。

    另一方面,也不能说不用定量方法就没有科学性。逻辑分析、历史分析不一定非用数学和其他定量方法不可。但是,在大数据时代,海量大数据包含很多传统数据所没有的信息,特别是大量互相关联的微观主体行为信息,这些信息可用于揭示个人与群体的行为,个人之间与群体之间的关系,以及宏观经济运行的规律。在这种情况下,不采用定量方法是不可想象的。定量分析并不意味着一定要使用高深的数学和复杂的模型,而且需要注意模型的可解释性(特别是经济解释)与数据分析的可视化。实证研究特别是定量实证研究是现代经济学最主要的研究范式,但也只是一类研究范式。不同的研究范式或研究方法都有其合理性和局限性,需要兼容并包。应当鼓励使用多元的研究范式和研究方法,互相补充、互相交叉、互相促进、共同提高中国经济学研究的科学性与先进性。

    中国经济是中国特色社会主义市场经济,以公有制为主体、多种经济成分并存,市场在资源配置上发挥决定性作用,同时政府发挥重要作用。中国经济经过40多年持续快速增长,成为世界第二大经济体、最大制造业国家、最大货物贸易国、全球三大主要供应链中心之一,并且即将成为全球最大消费国,中国经济崛起是21世纪上半叶世界最重要的经济事件,已经并且正在深刻影响世界经济格局的发展趋势。从中国经济实践中揭示中国经济发展规律,凝练可复制的中国经济发展模式,构建具有深厚学理基础的原创性中国经济理论体系,是中国经济学家的历史机遇与时代责任。由于超大经济体的规模优势,以及中国政府“互联网+”政策,中国数字经济发展迅速,在某些领域(如移动支付)领先全球,中国在大数据资源方面与西方主要发达国家处于同一起跑线,并且拥有巨大潜力。海量大数据资源,加上中国数字经济的快速发展、中国经济所有制的多样性以及全球最具特色的“政策数据库”等得天独厚的优势,为中国经济学家开展以大数据为基础的定量实证研究,探索中国经济发展规律、数字经济运行规律、政府与市场之间关系等重要理论与现实问题,提供了一个可以产生重大理论创新成果的“富矿”(陈国青等,2021)。

    更重要的是,大数据的出现,使中国经济学家可以克服现代西方经济学研究范式的一些根本性缺陷,并从中国经济实践中提炼出新的带有普遍性的经济知识体系,为当代世界经济学的发展做出中国经济学家应有的贡献。同时,新型数据需要新的研究方法与工具,需要不断创新基于大数据的实证研究方法,并应用于研究各种现实经济问题,包括以证据为基础精准评估经济社会公共政策,提升政策制定的科学性、精确性、时效性与协同性,从而更好支持政府科学决策。

    在构建原创性中国经济理论过程中,还应坚持国际学术交流与合作,批判性借鉴现代西方经济学中有益的理论成分与研究方法,以科学研究范式分析中国经济问题,用国际语言讲述中国经济故事,不断加强中国经济学的国际学术影响力。

    作者:
    洪永淼(中国科学院数学与系统科学研究院、中国科学院大学经济与管理学院、中国科学院预测科学研究中心)
    汪寿阳(中国科学院数学与系统科学研究院、中国科学院大学经济与管理学院、中国科学院预测科学研究中心)

    文章刊发:
    洪永淼、汪寿阳:《大数据如何改变经济学研究范式?》,《管理世界》,2021年第10期,第40~55、72页。

  • 十六种常用统计分析软件简介

    1 SAS统计软件 

    SAS 是英文Statistical Analysis System的缩写,翻译成汉语是统计分析系统,最初由美国北卡罗来纳州立大学两名研究生开始研制,1976 年创立SAS公司, 2003年全球员工总数近万人,统计软件采用按年租用制,年租金收入近12亿美元。SAS系统具有十分完备的数据访问、数据管理、数据分析功能。 在国际上, SAS被誉为数据统计分析的标准软件。SAS系统是一个模块组合式结构的软件系统,共有三十多个功能模块。SAS是用汇编语言编写而成的,通常使用SAS 需要编写程序, 比较适合统计专业人员使,而对于非统计专业人员学习SAS比较困难。SAS最新版为9.0版。网址:http://www.sas.com/

    SAS是美国SAS(赛仕)软件研究所研制的一套大型集成应用软件系统,具有比较完备的数据存取、数据管理、数据分析和数据展现的系列功能。尤其是它的创业产品—统计分析系统部分,由于具有强大的数据分析能力,一直是业界中比较著名的应用软件,在数据处理方法和统计分析领域,被誉为国际上的标准软件和最具权威的优秀统计软件包,SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等。

    SAS系统是一个组合的软件系统,它由多个功能模块配合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理着用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除了可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序比较方便地进行。

    SAS系统具有比较灵活的功能扩展接口和强大的功能模块,在BASE SAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SA/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS /FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。SAS提供的绘图系统,不仅能绘各种统计图,还能绘出地图。SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。

    目前SAS软件对Windows和Unix两种平台都提供支持,最新版本分别为8.X和6.X。与以往的版本比较,6.X版的SAS系统除了在功能和性能方面得到增加和提高外,GUI界面也进一步加强。在6.12版中,SAS系统增加了一个PC平台和三个新的UNIX平台,使SAS系统这一支持多硬件厂商,跨平台的大家族又增加了新成员。SAS 6.12的另一个显著特征是通过对ODBC、OLE和MailAPIs等业界标准的支持,大大加强了SAS系统和其它软件厂商的应用系统之间相互操作的能力,为各应用系统之间的信息共享和交流奠定了坚实的基础。

    虽然在我国SAS的逐步应用还是近几年的事,但是随着计算机应用的普及和信息事业的不断发展,越来越多的单位采用了SAS软件。尤其在教育、科研领域等大型机构,SAS软件已成为专业研究人员实用的进行统计分析的标准软件。然而,由于SAS系统是从大型机上的系统发展而来,其操作至今仍以编程为主,人机对话界面不太友好,系统地学习和掌握SAS,需要花费一定的精力。而对大多数实际部门工作者而言,需要掌握的仅是如何利用统计分析软件来解决自己的实际问题,因此往往会与大型SAS软件系统失之交臂。但不管怎样,SAS作为专业统计分析软件中的巨无霸,现在鲜有软件在规模系列上与之抗衡。

    2 SPSS统计软件 

    SPSS是英文Statistical package for the social science 的缩写,翻译成汉语是社会学统计程序包,20世纪60年代末由美国斯坦福大学的三位研究生研制,1975年在芝加哥组建SPSS总部。SPSS系统特点是操作比较方便,统计方法比较齐全,绘制图形、表格较有方便,输出结果比较直观。SPSS是用FORTRAN语言编写而成。适合进行从事社会学调查中的数据分析处理。最新版为13.0版。网址:http://www.spss.com/

    SPSS原名社会科学统计软件包,现已改名为统计解决方案服务软件。是世界著名的统计分析软件之一。

    20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了 SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一套统计分析软件微机版本 SPSS/PC+,开创了SPSS微机系列产品的先河,从而确立了个人用户市场第一的地位。

    同时SPSS公司推行本土化策略,目前已推出9个语种版本。SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据深入分析、使用灵活方便、功能设计齐全等方面给予了高度的评价与称赞。目前已经在国内广泛流行起来。它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要是掌握一定的 Windows操作技能,粗通统计分析原理,就可以使用该软件进行各种数据分析,为实际工作服务。

    SPSS for Windows是一个组合式软件包,目前已经开发出SPSS12版本,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种统计图形和地图。

    SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种操作系统的计算机上,最新的版采用 DAA(Distributed Analysis Architecture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告,领先于诸多竞争对手。方便易用是SPSS for Windows的主要优点,同时也是SPSS不够全面的原因所在。

    3  BMDP统计软件 

    BMDP是英文Biomedical computer programs 的缩写,翻译成汉语是生物医学计算程序, 美国加州大学于1961年研制,是世界上最早的统计分析软件。特点是统计方法齐全,功能强大。但1991年的 7.0版后没有新的版本推出,使用不太普及,最后被SPSS公司收购。

    4 Stata统计软件 

    Stata统计软件由美国计算机资源中心(Computer Resource Center)1985年研制。 特点是采用命令操作,程序容量较小,统计分析方法较齐全,计算结果的输出形式简洁,绘出的图形精美。不足之处是数据的兼容性差,占内存空间较大,数据管理功能需要加强。最新版为8.0版。网址:http://www.stata.com/

    5 EPINFO软件 

    EPINFO是英文Statistics program for epidemiology on microcomputer 的缩写,翻译成汉语是流行病学统计程序。美国疾病控制中心CDC和WHO共同研制,为完全免费软件。特点是数据录入非常直观,操作方便,并有一定的统计功能,但方法比较简单,主要应用于流行病学领域中的数据录入和管理工作。最新版为Epidata 2.0版及EPINFO2000版。

    6  Minitab

    Minitab由美国宾州大学研制。其特点是简单易懂,很方便进行试验设计及质量控制功能。在国外大学统计学系开设的统计软件课程中,Minitab与SAS、BMDP并列,根据没有SPSS的份。最新版本为14.0版,网址:http://www.minitab.com/

    7 Statistica

    Statistica为一套完整的统计资料分析、图表、资料管理、应用程式发展系统;美国StatSoft公司开发。能提供使用者所有需要的统计及制图程序,制图功能强大,能够在图表视窗中显示各种统计分析和作图技术。

    8  SPLM统计软件

    SPLM是英文Statistical program for linear modeling 的缩写,翻译成汉语是线性模型拟合统计软件程序。1988年由解放军第四医学大学统计教研室研制。系统特点是采用线性模型的方法,实现各种统计方法的计算。统计方法比较齐全,功能比较强大。SPLM采用FORTRAN语言编写完成。但1999年推出3.0版后无新的产品推出。

    9 CHISS统计软件

    CHISS 是英文Chinese High Intellectualized Statistical Software的缩写,翻译成汉语是中华高智统计软件, 由北京元义堂科技公司研制,解放军总医院、首都医科大学、中国中医研究院等参加协作完成。1997年开始研发,2001年推出第一版。CHISS是一套具有数据信息管理、图形制作和数据分析的强大功能,并具有一定智能化的中文统计分析软件。CHISS的主要特点是操作简单直观,输出结果简洁。既可以采用光标点菜单式也可采用编写程序来完成各种任务。CHISS用C++语言、 FORTRAN语言和delphi 开发集成,采用模块组合式结构,已开发十个模块。 CHISS可以用于各类学校、科研所等从事统计学的教学和科研工作。最新版为CHISS2004版。网址:http://www.chiss.cn

    10  SASD统计软件

    SASD是英文package for Statistical analysis of stochastic data 的缩写,翻译成汉语是随机数据统计分析程序包。它是由中国科学院计算中心研制。系统特点是以FORTRAN源程序形式向用户提供大量的子程序可供用户进行二次开发,统计方法比较齐全,功能比较强大。SASD采用FORTRAN语言编写完成,比较适合从事统计专业人员使用。但无新版推出。

    11  PEMS统计软件

    PEMS是英文package for encyclopaedia of medical statistics汉语是中国医学百科全书-医学统计学软件包。它以<中国医学百科全书>一书为蓝本,开发的一套统计软件。系统特点是实现各种统计方法的计算。统计方法比较齐全,功能比较强大。PEMS采用TURBO C和TURBO BASIC语言编写完成,比较适合从事医学工作的非统计专业人员使用。最新版为PEMS3.0版。网址:http://www.pems888.com/

    12  EXCEL电子表格与统计功能

    EXCEL电子表格是Microsoft公司推出的Office系列产品之一,是一个功能强大的电子表格软件。特点是对表格的管理和统计图制作功能强大,容易操作。Excel的数据分析插件XLSTAT,也能进行数据统计分析,但不足的是运算速度慢,统计方法不全。

    13 DAS统计软件

    DAS是英文Drug and Statistics的缩写,翻译成汉语是药理学计算软件,由孙瑞元等开发。特点是内容涵盖基础药理学、临床药理学,药学,医学统计学。能多种处理结果同时显现。EXCEL平台使用方便,智能化,图表直接插入文档。网址:http://www.drugchina.net/

    14  SDAS统计软件

    DAS是英文Statistical design and analysis system的缩写,翻译成汉语是统计设计和分析系统。1992年由解放军总医院医学统计教研室开发。特点是窗口操作,操作方便,图表简明,与国内医学统计学教材一致。但只有DOS版,1995年后没新的版本。

    15  Nosa统计软件

    Nosa是非典型数据分析系统,1999年由解放军四军医大学医学统计教研室夏结来教授开发。特点是采用广义线性模型建模,从数据录入与管理、统计分析、绘图,到结果管理嵌入了当代数据处理技术。但只有DOS系统下使用。

    16  Minitab

    Insightful公司是世界著名的商务智能软件提供商,产品涵盖分析统计、数据挖掘、知识获取、决策支持等多个领域。公司总部设在美国西雅图。

    S-PLUS作为一个工业数据分析工具与数据分析应用开发平台,在各行各业已经有较长的使用历史。并曾获得著名的“美国计算机协会优秀软件奖。

    S-PLUS提供了方便、灵活、交互、可视化的操作环境,帮助您找出数据之间的关系和趋势,让您做出更好地决策。在科学研究、市场营销、产品研发、质量保证、财务分析、金融证券、资料统计等各个方面,S-PLUS都有广泛的应用。
    S-PLUS有流畅、直观的操作界面,广泛的输入输出功能,不论您的数据在何处、数据的格式如何,都可以轻松地存取,生成的结果可以以任意格式进行输出 (图形、文档、表格、网页)。特别是:S-PLUS的操作界面与Microsoft Office完全一致,用鼠标轻松点击,就可以把S-PLUS 的分析结果嵌入到Word文档和PowerPoint文档中;S-PLUS与Excel无缝集成,您可以在S-PLUS 环境中随意操作Excel数据,也可以在Excel环境中使用S-PLUS功能,无需花时间在Excel及S-PLUS之间,将数据来回转换;S- PLUS可以在Internet环境中进行数据分析和结果发布。

    S-PLUS领先于业界的探索式图形技术,使得您可以直观地展现隐藏在数据中的关系和趋势,不致迷失在简单的统计数值及文字报表中。S-PLUS提供超过80种的二维和三维图形库,您可以轻松修改每一层图形的细节,包括线条、颜色、字体等,产生您想要的图形。

    S-PLUS提供超过4200种统计分析函数,包含了传统和现代的统计分析、数据挖掘、预测分析的算法。软件所有的分析功能都是向导式的,使您轻松完成数据的分析任务。S-PLUS的开放性,允许您自己开发新的算法,集成到S-PLUS软件中。您也可以从S-PLUS网站或者其它统计网站上免费下载算法,集成到S-PLUS软件中。

    通过S-PLUS的脚本语言,可以记录和存储分析过程;或者,用鼠标拖拉对象(如按钮、菜单等等)到命令窗口,会立即产生相应的执行指令;反之,拖拉指令到工具列上,会产生相应的功能按钮。使得您的分析过程可以进行存储、共享和重复执行,大大减少您的重复工作量。

    S-PLUS还提供强大的编程语言——S语言,您可以使用它来开发专门适合于您的个性化系统,也可以建立企业级的应用系统。而且,S-PLUS几乎可以集成到其它任何系统中,如:在Unix系统上,S-PLUS的CONNECT/Java接口,可以让S-PLUS集成到Java程序中。在Windows系统上,S-PLUS的CONNECT/C++接口,可以在您开发的C++程序內使用全部的S-PLUS分析方法。另外S-PLUS的DDE及OLE接口,可以让您集成S-PLUS到其他Windows应用程序中,允许您从Excel或Visual Basic应用程序中执行S-PLUS功能。

  • 高林,贺京同:第二代行为金融学对未来研究的启示

      美国圣克拉拉大学列维商学院金融学教授、行为金融学创始人迈尔·斯塔特曼所著的《行为金融学通识》一书在北京大学出版社出版。本书译者高林、贺京同撰文,深入介绍了第二代行为金融学的基本假设、理论涵义和对未来研究的启示。

      对于《行为金融学通识》一书的作者迈尔·斯塔特曼,专业人士通常用行为金融学领域的“开创者”、“先驱人物”、“领路者”等词汇来形容他。从本书内容所依据的700多篇参考文献来看,本书可以看成是对目前行为金融领域前沿和代表性研究成果的一次较全面的回顾与大总结,在此基础上构建了一个统一且严谨的第二代行为金融学的基本理论框架体系,架起了理论、证据与实践三者之间的桥梁。本书的出版发行为我们理解这些成果并以此为基础进一步深入研究提供了“巨人的肩膀”。

      作者将金融学研究的发展历程划分为四个阶段:原始行为金融学、标准金融学(始于20世纪50年代末60年代初)、第一代行为金融学(始于20世纪80年代早期)和第二代行为金融学。第二代行为金融学的理论结构体系主要由五大基石或模块构成:普通人假设、行为资产组合理论、行为生命周期理论、行为资产定价理论和行为市场有效性理论,迥异于标准金融学的理性人假设、均值-方差资产组合理论、标准生命周期理论、标准资产定价理论和市场有效性理论,由此基本形成了一个统一且完整的第二代行为金融学理论框架体系。

      “普通人”假设替代“理性人”假设是第二代行为金融学最为重要的理论突破。“普通人”的行为特征与其他四模块有机融合在一起,可以很好的对人们的金融选择和行为进行描述和解释,解决金融投资领域的各种异象和谜团,其解释力要远优于标准金融学。

    一、第二代行为金融学用“普通人”假设替代了“理性人”假设

      标准金融学是以新古典“理性人”假设为基础的理论体系。它将人描述为理性人:其仅追求功利性收益;具有无限的认知能力;做决策时会充分利用所有可得信息且不受情绪左右。仅当未预料到的新信息或冲击出现时,理性人才会犯错,但其不会犯认知型和情绪型错误。“标准金融学统治了金融学的‘厌食’时期,其倡导者忙碌着将金融领域的问题排除在外而非回答它们。”

      第一代行为金融学将标准金融学的理性人模型作为“理想类型”, [1]在此基础上对比预测行为和实际行为之间的差异,关注人们进行选择时出现的各类“错误”,进而识别出各种“异象”并试行解释。大量的此类实证证据表明,人的实际行为偏离了新古典理性人模型所做预测。这些偏误表明人是“非理性”的,会犯各种错误。此种研究路径导致的一个直接后果是其研究内容零散化,缺乏统一的结构体系。行为金融学看似“只不过是投资者被一系列认知型和情绪型错误所误导的松散的故事集合”。典型的第一代行为金融研究发现,交易更多的时候会降低而非增加财富,并且它将交易的渴望主要归因于认知型错误。由于情绪相比认知而言过于复杂,相关研究不愿关注情绪。

      第二代行为金融学融合目前行为经济学和心理学等领域的前沿和代表性研究成果,去芜取精,为行为金融学提供了一个统一且严谨的理论结构体系,架起了理论、证据与实践三者之间的桥梁。其核心特征是对人进行了更准确的刻画,将无血无肉、脱离现实的、抽象的“理性人”丰富为有血有肉、栩栩如生、更接近现实的“普通人”,用“普通人”假设替代了“理性人”假设。

    二、第二代行为金融学对“普通人”的刻画

      与“理性人”假设相对应,“普通人”假设的核心要点表现在如下四个方面。

      (1) 关于欲望:普通人不仅关注功利性收益,还关心表达性收益和情感性收益

      普通人假设首先承认并正视人具有一系列的普通欲望:想要富有且免于贫困、扶养孩子和家庭、展示自己的能力、玩游戏并获胜、坚守自己的价值观、享受熟悉性和表现爱国主义、获得高社会地位、促进公平、不纳税等等。普通人的这些欲望因人(个性品质、价值观、宗教、背景、文化、社会阶层和政治取向等)而异,千差万别。任何经济物品,包括金融产品和服务都可能会满足这些欲望。第二代行为金融学将这些欲望的满足概括为三类收益:功利性收益、表达性收益和情感性收益,三大收益共同决定行为人所获效用。

      (2)关于知识:“中度无知-中度有知”替代了“全知”

      普通人并非是会充分利用所有可得信息的“全知”,而是处于从中度无知(normal-ignorant)到中度有知(normal-knowledgeable)两者之间的某个区域。中度无知和中度有知两个概念的定义有些模糊,令人费解。总体上,有知者会基于科学证据(例如人类行为类、金融事实类和信息类三类知识)尽力通过提高熟虑型系统2的使用和适当的激励手段,做好纠正准备并进行纠正,克服犯错倾向并避免错误,虽然该过程很是困难且效果不一定会尽如人意。而无知者通常不会这样做,并且有些人甚至不相信科学证据。

      (3)关于认知能力:区分了欲望、捷径与错误

      普通人并非是具有无限认知能力的“全能”,而是可能犯各种认知型和情绪型错误。以心理学领域的研究成果为基础,第二代行为金融学假设普通人在选择或决策时会权衡运用直觉型系统1和熟虑型系统2进行决策。直觉型系统1会利用各种认知和情绪捷径(也称为经验法则或直觉推断),让我们快速且俭省的做出决策。多数时候其可以让我们接近于最佳方案,做出好的选择,但是其也会产生误导,导致各种认知型和情绪型错误。当利用直觉型系统1做出错误决策时,全力投入熟虑型系统2会产生更好的选择。

      一些投资者的行为偏向被归因于认知型和情绪型错误或许是恰当的,但对其他投资者而言,同样的偏向或许是由想获得表达性和情感性收益的欲望导致的。真正由这些欲望所导致的行为偏向(与理性人相比)并非错误,其可能是“理性的”,进而欲望和错误便被区分开来。

      区分欲望、捷径与错误是第二代行为金融学的另一个重要特征。但是三者之间的分别是模糊的,人们的选择或行为是否是错误,其辨别难免会牵涉到价值判断甚至武断。对这个问题我们留待后面进一步讨论。

      (4)关于情绪:为情绪在选择和决策中的重要性正了名

      对于认知型和情绪型错误,第二代行为金融学区别于第一代行为金融学的一个重要特征就是走出了狭隘的认知中心观,强调了情绪的极端重要性,将情绪承担的角色与认知承担的角色放在了同等重要的地位上。情绪研究是一个艰深、复杂且异常困难的课题,对此领域的进一步深入研究可能是未来行为金融研究的重心。在进行金融决策时,情绪捷径并非总是导致错误决策,其大多时候会对我们提供正确指导,不论正面情绪还是负面情绪都是如此。简言之,情绪大多时候并非理智的“绊脚石”,其与理智是相辅相成的。投资者在进行投资决策时,未必总要遵循“将情绪抛到脑后”的传统投资建议,这为情绪在投资决策中的作用正了名。但这也导致了一个难题,由于认知和情绪两者通常会交互作用,这使得到底是将捷径、错误或选择归为情绪还是认知很是困难。

    三、“普通人”假设替代“理性人”假设的理论涵义

      对于金融学理论而言,上述普通人的行为特征会产生重要的理论影响甚或变革。这些影响会贯穿融合于其他四个理论模块之中,使得研究者可以从一个不同的角度来解释个体和市场行为。

      (1)消费与投资不可分

      不管是进行投资还是消费,由于理性人仅关注它们带来的功利性收益,因此标准经济学在处理消费与投资两者的关系时,会遵循所谓的费雪分离定律,认为投资与消费可以分开决策。但普通人不愿将消费者和投资者角色分开,他们关心产品和服务(包括金融产品和服务)带来的全系列普通欲望满足或三大收益,而且由于这些欲望或三大收益之间可能产生冲突,普通人会对其进行权衡取舍。这导致很多时候投资与消费两者不可分,违反分离定律。例如,有社会责任感的投资者可能不愿意投资于枪械制造公司股票,在获得更高的金钱回报后,再将此部分高出的收入捐献给反枪械运动,这表明人们将投资者和消费者角色混在了一起。消费和投资的不可分性会始终如一的贯穿于其他四个理论模块之中。

      (2)风险测度逐步从客观转向主观

      对风险和不确定性的处理在选择理论中处于核心地位,标准金融学的期望效用理论和行为金融学的前景理论主要通过方差和损失来衡量风险。第二代行为金融学在区分体验效用和生活质量评价两个幸福概念基础上,尝试将期望效用理论和前景理论融合在一起提出自己的选择理论,虽然两理论融合的还显生硬,本质上还有“两张皮”的感觉。但它在风险测量方面进行了更激进的理论尝试,主要通过(与渴望值之间的)差额数量、差额出现的概率或期望差额来衡量风险。   由于风险必然是为了实现愿望而付出的一种代价,因此在期望收益与风险之间以及三种风险测度之间,行动人可能需要做出权衡取舍。例如,为了避免损失或差额,就要接受方差。因而,用差额厌恶可以解释人们对方差的逐求(标准经济学所谓的风险逐求)。行为人并非方差逐求者,只不过是差额厌恶者而已。总而言之,若用差额形式衡量风险,则人们总是风险厌恶的。差额厌恶是风险和不确定性条件下的选择理论以及行为资产组合理论的一个核心概念,其特别反映了行为人对表达性和情感性收益的追求,反映了情绪因素的影响。在选择或决策过程中,差额厌恶主要表现为行为人对客观概率进行主观加权这样一个过程。

      这种衡量风险的方式意味着逐步将风险从一个客观测度量转化为一个主观测度量,在理念上从“以物为本”转为“以人为本”。这种处理与张五常处理风险的方式截然相反,代表着两个极端。张五常主张“以物为本”理念,尝试使用交易费用尤其是信息费用之高低来测度风险。两种理念到底孰优孰劣,还无法盖棺定论。

      (3) 追求表达性和情感性收益,认知型和情绪型错误会降低用金钱衡量的收益率   普通人会在各种普通欲望或三大收益之间进行权衡取舍、会犯各种认知型和情绪型错误,并且欲望和错误的影响具有持久性,不是暂时的。这必然导致投资以金钱衡量的收益率下降,进而影响到资产组合构建、资产定价和市场的有效性。概括而言,其导致投资机构想要的和选定的资产组合并非位于标准资产组合理论的均值-方差前沿上,而是位于行为资产组合理论的行为-欲望前沿上(其位于均值-方差前沿之下);导致资产定价的理论模型必须考虑认知型和情绪型错误的影响,尤其是后者;导致市场不是有效市场,不具备价格等于价值型效率。

      在资产定价理论中,此部分收益差额即所谓的超额收益。该超额收益反映了交易费用(例如避免犯错的信息费用、套利费用等)以及投资者为了获得表达性和情感性收益而愿意付出的代价或机会成本。严格来说,可以看作是投资者为满足某些欲望和避免犯错所“要求的报酬率”。在这里,不管是标准金融学还是行为金融学,都仅将价格定义为狭义的“市场价格”,而非广义的“人们愿意支付的代价”,未能一以贯之的贯彻机会成本概念。简言之,假若存在一个将此超额收益转化为金钱收益的市场,则理论上该超额收益是不应存在的。   

    (4) 行为资产组合理论从单纯的资产构建理论变为关于资产构建与目的的理论

      均值-方差资产组合理论是标准金融学的资产组合理论,其认为投资者的欲望仅是想要获得高期望收益和低风险带来的功利性收益,而不考虑构建资产组合的目的。但资产组合构建只是投资者达成终极目的的一个中途站点。该资产组合理论是一种处方性理论,为权衡期望收益和风险的投资者开具最优资产组合处方。在该理论中,投资者总是方差厌恶而非方差逐求的,其不会建议人们购买彩票,而是应该购买分散化的资产组合来降低风险。

      行为资产组合理论的一个核心特征是融合了塞勒的心理核算理论,以投资者目标为起点构建资产组合,投资者的欲望已经扩延到功利性收益之外,还会想获得各种表达性和情感性收益,例如想要履行社会责任、想要表现爱国主义和获得熟悉性、想要自豪感和避免懊悔以及想要遵守传统习惯等等。它将投资者的资产组合看作是一个分层的心理账户金字塔,而非像标准金融学那样将其看成是一个整体。每一层心理账户都对应着某特定欲望、相关目标及其功利性、表达性和情感性收益。投资者并非如标准金融学那样仅有一种风险态度,而是有多种风险态度,每一层心理账户都对应一种。

      例如,一层心理账户或许对应着“跌价保护”欲望,其功利性收益包括防止贫困导致的低消费水平,其表达性和情感性收益包括财务独立并避免对贫困的恐惧。在该心理账户中,目标财富水平相对较低,投资者是方差厌恶的。另一层心理账户或许对应着“升值潜力”欲望,其功利性收益包括富裕导致的高消费水平和资产的累积,表达性和情感性收益包括高社会地位和自豪。在该心理账户中,目标财富水平相对较高,投资者是方差逐求的。

      由此导致投资机构想要的和选定的资产组合并非在均值-方差前沿上,而是位于行为-欲望前沿上。跌价保护心理账户可能由分散化的一系列股票、债券、支付年金的有保证型收入和类似投资构成,升值潜力心理账户可能由具有彩票性质的非分散化的少量股票和类似投资构成。此种最优的行为-欲望前沿资产组合在避免认知型和情绪型错误的同时能够有效平衡各种欲望之间的冲突。

      行为资产组合理论不仅是处方性的,而且也是描述性的,可以描述实际构建的资产组合,其解释力要高于均值-方差资产组合理论。在投资实务上,许多实践案例都具有类似特征。例如,查理·芒格对标准金融学的投资分散化处方给出了以下评价:“投资应该越分散越好是一种发疯的观念……几乎所有的好投资的分散化程度都是相对较低的”。[2]对于查理·芒格这些财富目标非常之高的投资者而言,相比分散化的投资组合,由于彩票具有更高的达成目标的概率(虽然该概率也很小),他们即使厌恶方差也可能偏爱购买彩票。

    四、第二代行为金融学对未来研究的启示

      “普通人”假设替代“理性人”假设大大扩展了金融学的研究范围,使其不再局限于研究资产组合构建、资产定价和市场有效性等问题。例如,对于大脑、神经、欲望、目的、心理、具体决策过程等的研究都会纳入行为金融学的研究范围。但“普通人”假设和研究范围的扩展也带来一系列的困难和问题,需要研究者在未来研究过程中提起重视。

      (1)研究层面还原到“心理”层面与客观研究原则的冲突 理念上,“普通人”假设替代“理性人”假设导致研究从传统的“行为”层面还原到了“心理”或“大脑”层面,不再通过行为揭示偏好,不再将行为看作“终极给定事实”。这可能遭致传统经济学家提出批评和质疑。受限于大脑和神经科学的研究现状,这种研究思路会给研究的客观性带来困难,研究容易受到价值判断影响。

        对于人们的选择或行为,要区分其是由欲望驱动还是错误所致通常并不容易,因为某些欲望是隐性而非显性的,其区分难免会牵涉到价值判断甚至武断。例如,相比其他国家,通常认为我国居民的储蓄率偏高而消费率偏低,这到底是因为人的普通欲望(想为孩子的教育和成家立业做准备,并留下大笔遗产等等欲望导致的个人储蓄取向较高)还是错误(缺乏准确估计生命周期财富和自己寿命所需的信息和知识,过度的自我控制等等)所致呢?在自愿自由的交易中,是否存在阿克洛夫和席勒所谓的欺骗或“钓愚”现象呢?基金经理人利用投资者的认知型和情绪型错误从中渔利的行为是否是欺骗呢?错误或欺骗行为的标准要由谁来制定呢?

      价值判断通常是科学分析之大忌,这导致经济学家所扮演的角色不同于政治家。经济学家在研究过程中要秉持客观原则,避免进行价值判断,强加某种甚至是自己的价值观。研究者应将行为和现象看作是给定事实并予以承认,在此基础上尝试描述和解释人的行为。这主要因为价值判断是主观的,只是共识,无法验证对错。在预先确定的价值判断基础上进行规范分析通常是不可取的。

      (2)可能导致研究范式产生变化 第二代行为金融学对人的刻画意味着人从简单人转变为复杂人。例如,它认为人的欲望千差万别,会因个性品质、价值观、宗教、背景、文化、社会阶层和政治取向等而不同;普通人会在各种欲望或三大收益之间进行权衡取舍;在进行选择决策时,普通人会权衡使用直觉型系统1与熟虑型系统2,可能会犯错;错误与捷径和欲望有别;风险度量从客观逐步转向主观等等。    所有上述复杂刻画都给当前研究的数学化、模型化的量化研究倾向提出了挑战,导致模型复杂化,更加难以处理。例如,在讨论最佳的储蓄-支出公共政策时,可能需要按照财富、收入、个人特征、特别是自我控制力等对人们进行细分,避免一刀切式的漫无目的的讨论。但这又可能导致一般性理论变为特殊理论。未来研究方向是会倾向于更加复杂化甚至特殊化的数理化模型,还是如社会学或奥地利学派行动学研究范式那样偏重于“理解”呢?我们更倾向于后者。

    [1]标准经济学的理性人模型通常也被称为是规范性模型。但更加正确的处理方式是遵从马克思·韦伯的方法,摒弃模型的规范性含义,将之作为进行比较研究时的一个“理想类型”或比较基准。人的行为未必真的如是,也未必应该如是。
    [2]彼得·考夫曼. 穷查理宝典:查理·芒格智慧箴言录[M]. 北京:中信出版社,2016

  • 刘义圣, 赵东喜:AER 百年经典论文导读

    本文来自《经济学动态》,2011年第5期。

    由美国经济学联合会主办的《美国经济评论》创刊于1911年,距今整整100周年,是在美国影响最大,也是世界知名遐迩的经济学期刊之一。为纪念创刊100周年,期刊特邀了阿罗(K.J.Arrow)、伯恩黑姆(D.Bernheim)、费尔德斯坦(M.S.Feldstein)、麦克法登(D.L.McFadden)、波特巴(J.M.Poterba)与索洛(R.M.Solow)等六位著名经济学家,成立了“20篇最佳论文”评选委员会,在该刊100年来刊登的数千篇文章中,甄选出对经济学发展与实践产生深远、重大影响,且富有创造性的20篇最佳论文。2011年第1期《美国经济评论》出版了百年纪念特刊,开辟了百年论坛专栏,并公布了中选结果。膺选论文都名重一时,代表了每一时期经济学的最高学术水平, 同时整体再现了百年来在经济学领域艰辛跋涉、不断探索的历史发展轨迹,反映了美国主流经济学的基本走向。

    为了提选最具开创意义和积厚流广的论文,评委会首先使用了JSTOR(Journal Storage)系统的论文引用和查询数量作为参考指标进行初选。其后,为避免因论文引用与查询数量指标的内在缺陷可能导致早期刊发的经济学家的文章被漏选或误选,评委会对若干著名经济学家的相关文章也给予了重点关注。最后,评委会每个人以自己对于质量和重要性的判断为标准,从已选论文中再作遴选,授予20篇论文为百年最佳论文。其中,12篇论文为诺贝尔经济学奖得主独著或合著的经典论文。现给出这20篇膺选最佳论文的导读,以飨读者,让读者感受这些经济学经典文献所蕴含的内在价值。论文导读按文章发表先后顺序排列:

    《生产理论》(1928) C.W.柯布与P.H.道格拉斯著

    本文研究了1899-1922年间美国制造业的资本、劳动与产出的关系,分析了这一时期劳动与资本两类要素对产出的影响,首次提出并使用了此后以其名字命名的不变弹性柯布-道格拉斯(Cobb-Douglas)生产函数,其一般形式为:P=ALαKβ,式中,P、L、K分别为产量、劳动、资本,A、α、β为三个参数。当α+β=1时,α、β分别表示劳动、资本所得在总产量中所占份额。该函数以其简单的形式描述了人们所关心的一些性质,是经济学中使用最广泛的一种函数形式,被用于表示生产、效用函数以及理论与实证经济学其他方面。他们用机器、工具、设备与建筑量测资本,制造业工人数表示劳动,经过对1899-1922年间有关经济资料的分析与估计,得到美国制造业以1899年为基准的不变价格的产量、资本和劳动投入量的数据,并总结出生产函数:P=1.01L0.75K0.25,该函数表明这一期间的总产量中,劳动与资本所得的相对份额分别为75%与25%。他还通过数理分析,探讨了该函数的基本性质。

    《知识在社会中的利用》(1945) 弗里德里希·冯·哈耶克著

    本文主要阐述了经济体系的本质及其在资源配置中的作用。他认为经济社会的基本问题是社会中的知识利用问题。知识分为两类:科学知识与原理;特定时间与地点的特殊情况的知识。在经济活动中,众多参与者各自的经济活动产生了大量知识,分散在不同经济个体中。知识的分散使经济计划成为必要。哈耶克认为计划体制有三种,即中央计划、分散计划与介于二者之间的行业计划,即垄断,这些体制的效率取决于哪种体制能更充分利用知识。由于知识障碍,中央计划当局不能做出有效决策,只有依靠分散计划才能保证特殊情况的知识迅速得到利用。同时,社会经济问题总是唯一来自变化,分散计划也不能仅仅依据关于直接情况的有限知识做出决策,这又产生了如何传递别人信息的问题。哈耶克认为分散信息通过价格机制传递,价格机制最显著的事实就是知识节约。价格体系是信息传递的媒介,通过价格体系的传导作用,分工与资源协调利用成为可能。价格制度是人们偶然发现的、未经理解就学会利用的体系,目前为止人们还没有设计出一种可以保留价格体系优点的替代体系。哈耶克的信息分散论把理解经济知识建立在哲学认识论的基础之上,论证了经济自由和市场机制的客观性。

    《经济增长与收入不平等》(1955) 西蒙·库兹涅茨著

    本文根据经验数据阐明了经济增长过程中收入分配不平等的变化趋势及其原因。他在分析说明经济发展早期(普鲁士)、经济发展后期(美国、英国、德国)及对比分析发展中与发达国家有限统计数据的基础上,提出了反映不平等长期变动特征的“倒U型”假说:在前工业文明向工业文明过渡的经济增长早期收入不平等扩大,经短暂稳定时期后,在增长的后期不平等差距逐渐消失。库兹涅兹认为,在经济发展过程中,一方面,存在着使收入分配不平等扩大的两个主要因素:一是储蓄和积累集中在少数富裕阶层,储蓄又成为其获得更多收入的手段,经济增长必然导致穷富两极分化;二是工业化与城市化水平持续提高,而城市居民收入比农村更加不平等,经济增长必然引起分配差距拉大。另一方面,随着收入差距的扩大,也出现了抑制不平等扩大的因素,如法律约束和国家政策干预、富裕阶层因低生育倾向而占总人口的比重降低、技术进步与新兴产业出现而引起的产业结构调整等。因此,在上述两方面因素的作用下,社会收入分配不平等呈现“倒U型”变化趋势,用图形表示即是著名的“库兹涅茨曲线”,该结果成了众多发展经济学实证与理论分析的主题。

    《资本成本、公司财务与投资理论》(1958)F.莫迪利亚尼与M.H.米勒著

    本文采用无套利分析方法、建立新的理论框架阐述了资本结构、资本成本与公司价值三者之间关系,回答了公司融资方式如何影响公司资本成本与投资行为这一公司财务的核心问题,这也成为日后莫迪利亚尼与米勒分别于1985和1990年获得诺贝尔经济学奖的重要基础。MM理论认为存在不确定性的情形下,资本成本是资本投资者所要求的必要回报率即预期收益率的加权平均值,而不是获得某种特殊资本来源的成本。在没有企业和个人所得税、没有企业破产风险、资本市场充分有效等假定条件下,公司的市场价值和平均资本成本与资本结构无关,无论有无债务资本,公司价值等于公司所有资产的预期收益额按其综合资本成本率进行折现的现值,其平均资本成本等于权益现金流的资本化率。利用财务杠杆的公司,其股权资本成本随借入资本在总资本中所占比例提高而增加。为了股东利益最大化,公司应当在投资收益大于或等于其资本成本时才进行投资。同时,他们用无套利分析对此给予了证明,在假定条件下,投资者的套利活动必然引起债券与股票相对价格发生变化,最终使套利机会消失,进而抵消财务杠杆作用对公司市场价值的影响而达到投资均衡。MM理论奠定了现代企业资本结构理论与金融经济学的基石,革命性地将企业财务目标转向股东利益最大化目标,首创的无套利分析成为金融经济学的基本方法之一。

    《最优货币区理论》(1961) 罗伯特·蒙代尔著

    20世纪60年代初,围绕浮动汇率与固定汇率之间最优汇率制度选择问题,学者们争论不休。蒙代尔在文章中提出了最优货币区理论,探讨了对经济区成员国而言,什么是其放弃主权国家货币、采用共同货币的最优区域问题。蒙代尔提出应以生产要素流动性为准则,以地理区域而不是国家为单位来确定最优货币区。他认为货币区就是要素自由流动、汇率固定的地理区域。当生产要素在每一区域内成员国之间能够完全流动,而区域之间生产要素不流动时,要素自由流动的每个区域就可采用共同或单一货币,建立货币区,而货币区之间保持浮动汇率。在货币区内通过劳动力要素流动就能纠正由需求转移造成的外部失衡,进而实现各成员国充分就业或价格稳定;而货币区之间的外部平衡通过汇率浮动就可自动实现,从而达到经济稳定,无任何区域产生通胀或失业,即只有在基于地理区域的货币区之间通过汇率浮动实行稳定经济的政策才有效。在此基础上,蒙代尔进一步指出最优货币地理区域规模的选择需考虑以下两方面因素的平衡:一方面,货币区规模越小,区内要素流动性程度相对于区外越高,成员国就越易实现宏观经济稳定,以至于每个要素不流动的失业地区都应独立成区;另一方面,货币区规模越小,交易费用、投机冲击越大,货币幻觉假设越无效,以至于整个世界应采用单一货币,建立最大的货币区,最优货币区规模即是这两方面因素的均衡。最后,他还分析了该理论在欧元起动30多年前欧洲国家的潜在应用。

    《资本理论与投资行为》(1963)  戴尔·乔根森著

    本文克服以往投资理论研究“重宏轻微”的缺陷,以新古典资本积累理论为基础,构建了企业投资行为分析框架。他认为企业资本存量需求不同于资本投资需求,短期投资需求取决于滞后的资本存量需求的变化,资本存量需求决定于企业净值最大化,企业净值是净收益的现值。通过考察企业的行为,乔根森首先给出了净值、总收益、直接税方程,并考虑融资成本与税收制度而引入资本使用者成本概念。其次,利用新古典经济学分析方法,结合资本使用者成本与柯布-道格拉斯生产函数, 得出了新古典投资理论的最优资本存量方程:

    k*=γpq/c

    其中,k、γ、p、q、c分别表示资本存量、资本产出弹性、产出价格、产量与资本使用者成本。该式说明了企业的最优资本存量k取决于当期的产量、产出价格以及资本使用者成本。利用资本存量函数进而可导出投资经济计量方程:

    It=w(L)[K*t-K*t-1

    其中,I、w为实际投资与滞后函数。最后,乔根森还运用1948-1960年间美国制造业的季度数据对其投资行为理论模型进行了实证检验。最优资本存量函数已成为投资行为实证研究的标准方法,其资本的使用者成本被广泛运用于选择性税则影响的理论研究中。

    《不确定性与医疗保健经济学》(1963) 肯尼斯·阿罗著

    本文用现代微观经济学的方法和语言,建立了医疗保健经济学的分析框架,被视为卫生经济学的开山之作。阿罗认为医疗保健市场有显著的不确定性、外部性、信息不对称等特征,由此产生了逆向选择、道德风险、委托-代理等问题,医疗保健市场是不完全竞争市场,存在市场失灵。他依据福利经济学第一与第二最优原理,分析了医疗市场失灵的原因:主要是由于风险承担的不可销售性与信息的无法完全市场化导致了医疗保健市场偏离完全竞争状态。在确定性条件下,偏离表现在产品的不可销售性、供给规模递增、市场进入受限与产品差别定价等四方面;在不确定性条件下,偏离表现在针对所有可能风险的保险市场的缺失与医疗效果的不确定性两方面。医疗保健市场失灵会产生低效率。对此,阿罗指出,医疗保健市场最优状态没有实现时,社会在一定程度上会认识到其与最优状态之间的偏离,非市场补偿性制度就会出现,促进医疗市场向最优转化,旨在纠正由市场失灵产生的低效率。医疗保健市场不同于完全竞争市场的特殊结构特征很大程度上就是为了纠正其对完全竞争状态的偏离。如财政补贴、慈善行为等非竞争性行为就可用这种补偿性制度解释,医疗保障问题本质上就是这种适应性的表现。这些市场适应行为有时反而阻碍了竞争,无助于效率提高。阿罗在近半个世纪前关于不确定性与医疗保健福利经济学的开创性研究,对全球医疗保障制度改革产生了重要影响,所探讨的许多问题今天仍然是卫生经济学的核心内容。

    《新古典增长模型中的国家债务》(1965) 彼得·戴蒙德著

    本文在萨缪尔森代际模型的基础上,建立了世代交叠模型(overlapping generations, OLG),考察了经济长期均衡特征与政府债务问题。虽然戴蒙德是因劳动力市场领域的研究成就而被授予2010年度诺贝尔经济学奖,但使他声名鹊起,奠定其在宏观经济学、公共财政问题研究中学术地位的却是世代交叠模型。该模型构建了宏观经济学的微观基础,建立了具有普遍意义的分析框架,是继拉姆塞-卡斯-库普曼模型之后,具有微观基础的第二个宏观经济学动态模型。两者的核心差异是前者存在着人口的新老交替,不存在数量固定的永久生存家庭。模型沿袭新古典增长模型的基本假定,认为生命分年青与老年两期。在第一期内,企业租用老年人拥有的资本、雇用年轻人的劳动作为生产要素生产产品。老人消费其储蓄与利息,然后退出模型;每个年轻人提供1单位劳动,收入在本期的消费与储蓄之间分配。储蓄则带入下一期成为第二期资本。通过向模型引入资本品,比较中央计划经济与竞争经济的长期均衡,发现即使不存在传统意义上市场失灵来源,在竞争经济中,世代交叠模型中均衡资本存量可能会大于黄金率水平的资本存量,即时均衡可能是帕累托无效的,即动态无效率。通过引入国家债务,分析内外债务对个体消费决策的影响时发现,在没有外债、竞争均衡处于帕累托无效率时,国家债券发行会改善社会福利,但如果竞争均衡已处于帕累托最优时,债券发行会使利率上升,而降低福利。这作为结论解决了长期以来关于政府发行债券代际转移公共支出负担可行性的争论,导致李嘉图等价性失败,触发众多关于李嘉图等价性真实程度的探寻。

    《货币政策的作用》(1968)  米尔顿·弗里德曼著

    本文是弗里德曼在1967年美国经济学联合会上发表的会长讲演,和费尔普斯(E.S. Phelps)的相关论文一起构成了“长期垂直菲利普曲线”的来源。弗里德曼认为战后财政政策的失败与低利率引发的灾难性通胀,是政府采取干预经济的错误政策的结果;强调大萧条是货币政策悲剧性证明,而不是凯恩斯等人认为的是货币政策无效的证据。在反对凯恩斯主义财政政策的同时,他强调正确的货币政策在经济中的重要作用。他首先简要分析了货币政策的两个局限性:一是钉住利率,他认为最好以货币量增长率而不能以利率作为“紧缩”或“宽松”的货币政策目标;二是把就业作为货币政策标准。他指出菲利普斯曲线存在忽视通胀预期影响的严重错误,并引入自然失业率与预期通货膨胀率概念,证明菲利普斯曲线只是一个短期概念,通货膨胀与失业之间的替代只存在来自没有预期到的通货膨胀的暂时性替代,在长期,菲利普斯曲线是垂直的。通过扩张性政策增加就业的做法只会因增加货币供应量引起通胀。其次,他重点指出正确货币政策的三大作用。一是它能够防止货币本身成为经济波动的主要根源;二为经济提供稳定的环境;三有助于抵消经济中其他来源的干扰;最后,提出了“单一规划”的货币政策,即公开采取一种稳定货币政策,使货币供应量保持稳定增长率。

    《移民、失业与发展:两部门分析》(1970) J.R.哈里斯与M.P.托达罗著

    建立在充分就业均衡基础之上的传统理论,无法合理解释许多欠发达国家在农业边际生产率为正、城市失业率较高的情况下,农村劳动力却持续甚至加速向城市转移的现象。哈里斯与托达罗认为城市最低工资限制了工资调节机制的发挥,造成工业部门期望工资大于农业部门工资,诱使劳动力持续单向流入城市,不能实现迁入城市的劳动力充分就业,以此为基础,他们建立了存在失业的两部门模型规范分析阐释上述现象。模型中,经济被分为农业与工业两部门,假设农业不存在剩余劳动力,以保证劳动生产率为正,制度决定城市最低工资,工业部门期望工资为城市最低工资与就业概率的乘积。假如开始时,较高的最低工资或是较高的就业概率,使工业期望工资大于农业,农业劳动力将向城市转移,会引起城市失业率增加,就业概率下降,进而期望收入减少,与此同时,农业劳动力减少,引起农产品价格上升,从而导致农业工资增长。均衡时,边际劳动力选择向城市转移与否无差异,城市期望工资等于农业部门边际产品价值,工农业期望收入差异消失。因此,哈里斯与托达罗指出,最低工资的存在,使均衡就业人数与产出均低于充分就业水平,城市存在失业,均衡处于非最优状态。政府通过工资补贴与限制劳动力转移均可改善社会福利,但单独任何一种政策都不能使经济达到最优竞争均衡,而二者的结合才是最优政策,并建议欠发达国家应加快发展农业,发展城市工业只能使城市失业加剧。

    《最优税制与公共产品》(1971)  P.A.戴蒙德与J.A.米尔利斯著

    本文分为“生产效率”、“税收规则”两部分连载于《美国经济评论》61卷第1、3期。文章通过建立数理经济模型,全面探讨了次优条件下的最优税收问题,奠定了最优税制的理论基础。研究结果主要包括给定最优税收条件下的生产效率存在性以及最优税收结构两方面内容。与帕累托最优状态和生产效率相一致的一般认识相左,他们的研究结果表明,即使经济没有充分达到帕累托最优,生产效率也是最适宜的;在最优状态下,征收商品税使边际替代率与边际转换率不再相等,损失效率;总量税使收入再分配偏离最优状态,缺乏公平。政府通过设计最优税制,在增进公平与生产效率损失之间权衡,能实现社会最优收入再分配,增进社会福利。文章在第一部分,首先考虑一个消费者、两部门的交易经济,通过数理经济分析,证明最优生产效率点存在,且在生产可能性曲线边界上,并推导出最优税收结构的一阶条件。其次,将这种特殊分析拓展到更具一般意义上众多消费者的两部门经济,阐明并用一般均衡理论论证了最优生产的存在及其有效性。最后,文章将最优生产效率理论拓展至三部门经济,并简要论述了存在消费外部性、不完全竞争资本市场与外贸等情形下的应用。在第二部分,探讨了如何设计最优税制,利用税收工具实现分配公平与社会效率的均衡,增进社会福利。同时,戴蒙德与米尔利斯扩展了拉姆塞、萨缪尔森关于单个消费者经济中的最优税收结构条件,指出如果不存在总量税,政府可以通过对不同商品征税或补贴,实现收入再分配。他们的这一开创性探讨具有重要意义,明晰了税制设计对增进社会福利的作用,从而引发了大量关于税制设计以及最小化税收负担的研究。

    《生产、信息成本与经济组织》(1972) A.A.阿尔钦与H.德姆塞茨著

    与科斯不同,阿尔钦与德姆塞茨在本文中根据偷懒投机行为,而不是交易成本,从企业管理激励角度提出了团队生产理论,解释了古典企业出现的原因及其内部组织问题。他们认为市场或企业都是促进专业化合作,提高生产率的组织经济。经济组织存在计量投入要素的生产率、计量产出与分配投资报酬两大问题。企业本质上是一种团队生产组织形式,这是企业区别于市场的主要特征。团队生产即指这样一种生产:若干投入资源的联合使用,其产出量大于投入资源单独使用产出的加总,团队中使用的资源并不属于同一所有者。团队生产中存在成员偷懒投机以及由此产生的投入要素的生产率与投资报酬计量困难。要客服计量困难问题,团队需指派专门监督者,赋予其完整的权利束,让其观测、监督团队成员的投入要素绩效,减少偷懒投机。而要克服监督者自身的偷懒投机,须赋予监督者剩余索取权,使其得到管理激励,减少投机。就这样,如果通过团队生产,扣除规范团队成员行为所增加的支出后,还能使生产率有较大提高,人们就会通过企业而不采取市场形式进行专业化合作。在此基础上,阿尔钦与德姆塞茨指出,团队生产能提高生产率,但要直接计量投入要素的边际产出,需付出很高成本;通过监督者观测或规范投入行为并计算边际生产率则比较经济。正是这两个条件的自发形成,导致“古典资本主义企业”的契约组织出现。

    《代理经济理论:委托人问题》(1973) 斯蒂芬·罗斯著

    文章认为代理是古老、普遍的社会交往模式之一。当事人中,如果一方(代理人)代表或为了另一方(委托人)做出谋取利益的决策活动时,就产生了代理关系。当信息不完善、双方利益不一致时,如何借助于制度安排来约束或激励代理人为委托人利益行事,就是委托-代理理论要研究的道德风险问题。假设代理人与委托人均为风险规避或风险中性,各自拥有状态依赖的V-N-M期望效用函数,委托人问题就是设计一个报酬制度,根据可观测变量激励代理人。因此,他用“状态空间模型化方法”建立了包含委托人的期望效用函数、代理人参与和激励相容约束的道德风险模型。其中,代理人参与约束是代理人接受制度安排的最小期望报酬或期望报酬效用,代理人激励相融约束是由于代理人行动是不可观测的,给定任何制度安排,代理人总会选择最使自己效用最大化的行动。通过最优化均衡分析,利用一阶条件得出了最优的报酬制度安排,均衡显示,使委托人均衡达到帕累托最优状态的效用方程与收益结构无关,同样,使委托人均衡达到帕累托最优状态的收益结构也与效用方程无关。罗斯对委托-代理以及道德风险问题的开创性描述与分析,树起了微观经济学理论的一个里程碑,其所探讨的许多问题至今仍处于信息经济学研究的核心位置。

    《产出-通胀替代的若干国际证据》(1973) 罗伯特·卢卡斯著

    卢卡斯作为理性预期学派的创始人,发展并率先将理性预期学说成功应用于宏观经济分析,较好解释了上世纪70年代西方经济出现的滞胀现象,因而被授予1995年度诺贝尔经济学奖。卢卡斯曾在理性预期与自然率假说基础上,利用不完全信息数理模型,从理论上推导出了垂直的菲利普斯曲线,并指出不论在长期与短期,都不存在负斜率的菲利普斯曲线,产出与通胀无任何替代关系。本文是卢卡斯运用18个国家1951-1967年间的年度时间序列数据,对此理论的经验性检验。他假设市场信息不完善,参与者决策是在不能确定其观察到的价格变化是相对价格或是总体价格水平变化的情形下做出的。价格水平由总供给变化决定,名义产出完全由总需求决定,存在自然产出率。定义xt为外生冲击变量,等于可观测变量名义GDP对数,{Δxt}是独立、正态的序列,表示名义GDP对数的变化,均值、方差分别为δ、σ2。在这些假设条件下,卢卡斯通过数理分析,推导出了自然率模型:

    yt= -πδ+πx t+λy t- 1                                            ( 1)

    π=Τ2 ϒ /[( 1-π)2σx22 ( 1+ ϒ) ]                  ( 2)

    式中,y表示真实产出,π、λ、β为参数。

    方程(1)中,总需求冲击Δx通过弹性系数π对真实产出产生即期影响。平均名义GDP均值δ的系数与Δx的弹性系数相同,但符号相反。表明,可预期到的收入增长没有产出效应,而未预期到的货币增长才会有产出效应。因此,卢卡斯根据自然率假说预期,需求冲击波动越小的国家,真实产出效应π越大。方程(2)表明了总需求变动对真实产出影响的反映系数与可观测变量的方差的关系。以方程(2)为基础对其预期进行了检验,结果与预期一致。因此,他指出,政策要想有效,必须有欺骗性。理性预期理论的应用使卢卡斯的理论取得了迅猛发展,其政策无效的结论与不完全信息的建模技术对相关研究产生了重要影响。

    《寻租社会的政治经济学》(1974) 安妮·克鲁格著

    虽然很早人们就注意到租金及寻租行为对经济的扭曲,但克鲁格首次阐释了其重要性,用数理模型探讨了数量限制下寻租的福利效应。克鲁格认为经济中广泛存在的政府管制会产生各种形式的租金,而且人们会去竞争这些租金。寻租行为经常是高度竞争的,但印度和土耳其两国的数据显示,与许可证等经济控制制度有关的腐败已经普遍增加,扭曲了经济,造成福利损失,突显出寻租问题的重要性,她特别指出许可证下的竞争性寻租比通过关税方式实现同样进口限制造成的福利成本更大,强调要集中探讨寻租产生的额外成本。因此,她以竞争性寻租基本模型为基础,分别在自由贸易、无寻租关税进口限制以及存在竞争性寻租的进口限制条件下,对比分析了均衡特征。结果表明,从自由贸易到无寻租关税进口限制时,从事进口的劳动力将减少,农业产量增加,而从进口关税限制到许可证寻租情形时,劳动力又会增加,农业产量减少。对于任何特定数量的进口限制,关税都帕累托优于等额限制的竞争性寻租,前者可在不减少进口的情况下消费更多的商品。竞争性寻租限制的福利成本等于等额关税限制成本加上额外的寻租成本。印度和土耳其估计的租金就是数量限制引起的无谓损失,其值等于关税产生的福利成本之外的额外损失。因此,克鲁格指出,既然租金普遍存在,只有禁止寻租行为才能阻止损失发生。克鲁格提出的损失分析框架将政府政策的经济学分析从工具选择扩展到了目标实现领域。该文引发了大批学者从不同角度对寻租问题的研究。

    《垄断竞争与最优产品多样化》(1977) A.K.迪克西特与J.E.斯蒂格利茨著

    在张伯伦垄断竞争模型的基础上,迪克西特与斯蒂格利茨开创性地将规模经济与不完全市场竞争结构相结合,精妙地把规模报酬问题转化为产品数量与多样化种类的关系,建立了内生产品多样化与报酬递增的垄断竞争模型,用微观经济学的分析工具解决了这一两难问题。他们首先建立了一个含有子函数,且具有凸性无差异曲面可分的效用函数。该函数的凸性可以体现产品的多样性;通过把经济分为部门内与部门外经济两类(部门内产品有较高替代性,部门间产品则替代性差),将子函数定义在部门内产品上,以便分析产品数量与品种的均衡关系。其次,设定每种产品均以不变的固定成本和边际成本生产,将规模报酬递增模型化。最后,比较了不变、可变替代弹性以及非对称效用函数情形下的市场均衡与帕累托最优特征。结果表明,固定替代弹性情形下, 垄断竞争均衡和约束最优相一致,具有同样多的产品数量、种类,使用了较多的社会资源,垄断竞争均衡是次优的,但在不可避免的规模经济的约束下,实现了社会福利最大化。相反,无约束最优具有最多的产品种类。文章中通过一般福利均衡分析反映多样性偏好选择的方法,为内生产品数量与多样性研究提供了基础。所建立的迪克西特-斯蒂格利茨模型(D-S模型),成为新贸易理论、新增长理论与新经济地理学的起点。

    《几近理想的需求系统》(1980)  A.S.迪顿与J.米尔鲍尔著

    迪顿与米尔鲍尔追随斯通(Stone)的传统,假设消费者行为满足PIGLOG (Price Independent Generalized Log)偏好,即成本或支出函数满足PIGLOG型函数,利用鹿特丹(Rotterdam)需求模型与对数转换模型(translog model)的“逼近”函数方法,通过扩展沃金—莱塞(Working—Leser)的恩格尔曲线模型,开发并估计了几近理想的需求系统(Almost Ideal Demand System, AIDS)。

    w i=αi + ∑jγijlog pj+βj log ( x/ p)

    logp=α0 + ∑kαk logpk+1/2∑jkγkj logpk log pj

    γij= (γ*ij + γ*ji ) = rji

    wi表示i类商品的预算支出份额;x表示给定效用下的总支出;pj表示j类商品价格;p表示价格指数;α0、αi、βj、γij均表示参数。

    模型中,对于追求效用最大化的消费者,实现特定价格水平p下给定效用水平的最小支出就是其真实预算总支出。不同商品的预算支出份额是真实预算总支出的对数和相对价格的对数的线性函数。这个模型除了保持鹿特丹模型与对数转换模型的一般性外,估计与预测简单,非常接近线性;它可以一阶逼近任意一种需求系统;它的函数形式与家庭预算数据有较强一致性,能很好地满足选择公理,可检验需求理论的齐次性与对称性限制。他们使用1954-1974年间战后英国的年度数据对模型进行了参数估计与理论假设检验,结果表明,模型与数据拟合得很好,模型解释力强,但齐次性与对称性限制检验与以前相关研究发现相一致均被拒绝。总之,AIDS是一个结构简单、在普遍意义上与效用理论相符合的需求模型,被广泛运用于具体产品需求、政策福利影响分析等经济学领域,特别是福利经济学与计量经济学领域,产生了诸多重要成果,具有极强的实用性和政策导向性,后被称为迪顿-米尔鲍尔系统,已成为消费者需求实证分析的标准。

    《论信息有效市场的不可能性》(1980) S.J.格罗斯曼与J.E.斯蒂格利茨著

    尽管人们认为信息分散的经济中,价格体系是配置资源的有效手段,但格罗斯曼与斯蒂格利茨却证明正是由于信息成本的存在,才使得信息从拥有者传递到无信息者。信息成本的存在,使价格无法完全反映信息,竞争均衡与有效信息市场相矛盾。首先,假设信息有一定成本,交易者是否是信息拥有者取决于是否花费成本获得信息。如果开始信息拥有者的期望效用高于无信息者的期望效用,部分无信息者将变成信息拥有者,反之亦然。由于随着拥有信息的交易者数量增加,信息拥有者的期望效用相对于无信息者的期望效用将下降,均衡时,边际交易者选择成为信息拥有者或相反是无差异的。其次,在完全不变风险厌恶假设下,通过建立数理模型进行了均衡与比较静态均衡分析。结果表明,噪声越多,信息拥有者比例越大。若不存在噪声或信息完全,价格传递了所有信息,均衡不存在。当拥有信息者人群所占比例为0或1时,市场变得贫瘠。因此,他们认为价格无法完全反映有成本的信息,竞争均衡与有效信息市场是相互矛盾的。如果市场创造不需要成本,均衡将就永远不存在。有效市场理论认为信息无成本是价格完全反映信息的充分条件是错误的。如果有效市场假设正确,且信息有成本,那么竞争性市场将会瓦解,此时信息所有者所占比例为正的状态都不是均衡,因为竞争市场上信息所有者都不再花成本去获得信息,同时所有人都是无信息者也不是均衡,此时每个交易者都认为价格为给定的,那么都有动力成为信息拥有者。文章为研究信息不对称市场提供了全新的视角,被视为信息经济学的拓荒之作。

    《规模经济、产品差异化与贸易方式》(1980)  保罗·克鲁格曼著

    二战后,出现了许多新的国际贸易模式,无论是没有比较优势或资源禀赋相似的工业国家之间及产业内贸易量日益扩大,还是各国倾向于出口在国内占较大需求份额的产品,传统的贸易理论都不能予以很好的解释。本文对此进行了规范分析与阐释。克鲁格曼假设存在大量潜在产品、生产具有内生规模经济、厂商不增加成本即可差异化产品,垄断利润为零,消费者有多样化偏好。作者以D-S模型为基础,建立了内生规模经济与产品多样化的贸易模型。首先,克鲁格曼通过开放与封闭条件下的均衡对比分析发现,在两国偏好、技术水平与要素禀赋都相同,传统贸易条件不存在的条件下,在同一产业内贸易仍会发生并改进两国福利。这表明规模经济导致贸易产生,每个国家或厂商都进行专业化生产,没有两个国家生产同一种产品。世界市场比国内市场为消费者提供了更多种类的产品,提高了福利水平。其次,引入运输成本扩展基本模型后发现,运输成本没有影响任何国家的厂商数量与产量,但导致了国内市场较大的国家工资率较高。在封闭模型中,厂商尽可能在它最大的市场附近进行专业化规模生产。最后,克鲁格曼将单一产业拓展为两个产业,发现不管分工完全与否,当两国进行产业间贸易时,每个国家都成了国内市场需求比较大的产品净出口国。克鲁格曼在垄断竞争、规模经济基础上对贸易模式的探讨构成了新贸易理论的核心内容,他也因“在分析贸易模式和经济活动的区位方面所做出的贡献”荣获2008年度诺贝尔经济学奖。

    《股价过度波动能根据其后的股利变化进行解释吗?》(1981) 罗伯特·希勒著

    有效市场理论认为公司股票内在价值等于股票未来期望股利的贴现价值,但在资本市场上,人们经常认为,相对于股利,股票价格指数波动大,不能对任何客观的新信息做出反映,资本市场有效性受到质疑。为此,希勒利用方差边界检验方法,计量检验股价波动与股利变化的关系,以验资本市场的有效性。首先,假设存在理性预期,在完全有效市场上,p是p*的最优预测值,即p=E(p*),定义u=p*-p,那么,u与p不相关,根据统计学原理,可知var(p*)=var(u)+var(p),进一步可得var(p)≦var(p*),转化为标准差可得σ(p)≦σ(p*)。如果检验结果与此相反,则说明否定了有效市场假设,即可判定存在过度波动。希勒还发展了标准有效市场模型,度量了对未来股利不确定性影响,以便准确识别股票价格对股利新息(news)的反应。在此基础上,希勒通过美国1871-1979年间年标准普尔综合股价指数和相关股利数据的方差与公司支付股利的方差对比,发现美国1871-1979年间股价波动是已实现股利分配波动程度的5-13倍,存在过度波动特征,即使在考虑了预期实际贴现率的变化和未来股利不确定性的度量问题后, 股价过度波动问题仍然存在,股票股利变动不足以解释股票波动,且有效市场理论对数据解释的失败不能归因于数据误差、价格指数问题以及税法的变化。这一实证发现激发了大量关于股价股利关系的研究。

    参考文献:
    Alchian, A.A. & H.Demsetz(1972),“Production, information costs, and economic organization”, AER,62(5):777-95.
    Arrow,K.J.(1963),“Uncertainty and the welfare economics of medical care”, AER,53(5):941-73.
    Arrow, K.J., et al(2011), 100 Years of the American Economic Review: The Top 20 Articles, AER,101(1):1-8.
    Cobb,C.W. & P.H.Douglas(1928),“A theory of production”, AER,18(1):139-65.
    Deaton,A.S. & J.Muellbauer(1980),“An almost ideal demand system”, AER,70(3):312-26.
    Diamond,P.A. & J.A.Mirrlees(1971),“Optimal taxation and public production I: Production efficiency”, AER,61(1):8-27.
    Diamond,P.A. & J.A.Mirrlees(1971),“Optimal taxation and public production II: Tax rules”, AER,61(3):261-78.
    Diamond,P.A.(1965),“National debt in a neoclassical growth model”, AER,55(5):1126-50.
    Dixit, A.K. & J.E.Stiglitz(1977),“Monopolistic competition and optimum product diversity”, AER 67(3):297-308.
    Friedman,M.(1968),“The role of monetary policy”, AER,58(1):1-17.
    Grossman,S.J. & J.E.Stiglitz(1980),“On the impossibility of informationally efficient markets”, AER, 70(3):393-408.
    Harris,J.R. & M.P.Todaro(1970),“Migration, unemployment and development: A two-sector analysis”, AER, 60(1):126-42.
    Hayek,F.A.(1945),“The use of knowledge in society”, AER,35(4):519-30.
    Jorgenson,D.W.(1963),“Capital theory and investment behavior”, AER,53(2):247-59.
    Krueger,A.O.(1974),“The political economy of the rent-seeking society”, AER,64(3):291-303.
    Krugman,P.(1980),“Scale economies, product differentiation, and the pattern of trade”, AER, 70(5):950-59.
    Kuznets,S.(1955),“Economic growth and income inequality”, AER,45(1):1-28.
    Lucas,R.E.Jr.(1973),“Some international evidence on output-inflation tradeoffs”, AER,63(3):326-34.
    Modigliani,F. & M.H.Miller(1958),“The cost of capital, corporation finance and the theory of investment”, AER,48(3):261-97.
    Mundell,R.A.(1961),“A theory of optimum currency areas”, AER,51(4):657-65.
    Ross,S.A.(1973),“The economic theory of agency: The principal’s problem”, AER,63(2):134-39.
    Shiller,R.J.(1981),“Do stock prices move too much to be justified by subsequent changes in dividends?” AER,71(3):421-36.

  • 陈强:如何写作经济学实证论文

    1. 什么是论文

    究竟什么是论文?简单地说,论文就是对新的研究成果的汇报。

    为什么一位成绩优秀的学生,在撰写毕业论文时可能一筹莫展?

    这主要是因为,平时上课做题,主要学习已有知识,只需被动消化吸收即可,有固定模式可循;而做研究写论文,则需主动创造 (哪怕是一点点) 新知识。

    因此,刚起步研究的学生,面临着从学习知识 (学生) 到创造知识 (研究者) 的转型。

    论文与一般的文章或散文不同,后者可以仅仅表达某种情感,或记录一些事情。

    经济学论文必须用十分严谨的数理逻辑或统计推断,来一步一步地得到结论,保证每个环节都丝丝入扣、经得起推敲;而不能随便发表议论,或轻率地下结论。

    而且,论文贵在创新,其价值主要在于其原创性 (originality) 或新颖性(novelty),即对于已有文献的边际贡献 (marginal contribution),参见下图。

    当然,本科或硕士论文并不要求有太多创新,但至少应有一点点创新;而绝不能是 “山寨版” 或抄袭。

    已有知识与新研究的关系

    一般来说,规范的实证研究包括以下几个步骤,即准备阶段、选题、探索性研究、收集数据、建立计量模型、选择计量方法、解释回归结果、论文写作、与同行交流、提交论文或投稿,下面分别进行介绍。

    2. 准备阶段

    如果以为今天想做研究,明天就可开始,或许不现实。要开始真正的研究,需要一系列的准备工作。

    首先,必须掌握一定的经济理论,以获得观察经济现象的必要视角 (perspective)、参照系 (reference 或 benchmark) 与分析工具 (analytical tools)。

    否则,即使看到经济现象,也可能无从下手分析。正如钱颖一 (2002, p.2) 所指出:

    我在哈佛大学做博士生的时候,韦茨曼 (Martin Weitzman) 教授问我,受过现代经济学系统训练的经济学家和没有经过这种训练的经济学家究竟有什么区别?他研究比较经济制度,经常去苏联访问,问这个问题是从与苏联经济学家交往中有感而发的。韦茨曼的回答是,受过现代经济学系统训练的经济学家的头脑中总有几个参照系,这样,分析经济问题时就有一致性,不会零敲碎打,就事论事。

    这正是经济学界常说的 “像经济学家那样思考” (Think like an economist)。当然,爱因斯坦更早就说过类似的话,甚至更为深刻:

    你能不能观察到眼前的现象取决于你运用什么样的理论,理论决定着你到底能观察到什么。

    显然,那种认为可以不需要任何理论指导而直接去 “看真实世界” 的想法或许过于天真了。这些经济理论的学习,主要体现在微观经济学、宏观经济学以及经济学的各专业课程上,比如金融学、财政学、发展经济学、产业经济学、劳动经济学等。

    其次,为了进行实证研究,还必须掌握一定的计量方法与统计软件 (比如 Stata)。即使你收集到相关的数据,但数据也不会 “自己说话”,仍需要使用统计软件,运用适当的计量方法进行统计推断。

    因此,计量经济学对于实证研究不可或缺。在具备一定的理论功底与计量训练后,即可正式开始做实证研究了。

    3. 选题

    Everything has been thought before, but the problem is to think of it again. — Johann Wolfgang von Goethe

    实证研究的第一步就是选题,即选择研究的题目。对于刚起步的研究者,常常不知如何选题。研究者通常知道自己想要研究的领域 (比如,经济增长),但这还不是一个具体的 “研究问题” (research question)。

    对实证分析而言,研究问题通常是有关 “ X 对 Y 有何作用” 之类的因果关系。如果想研究 “家庭联产承包责任制对农业经济增长的作用”,就更具体了,此处 X 指 “家庭联产承包责任制”,而 Y指 “农业经济增长” 。

    当然,实证研究也可以只有 Y 而没有 X,比如对于某个统计指标 Y 的测算;但纯粹描述性的研究已比较少见。

    研究问题可以来源于理论 (比如,检验资产定价模型 CAPM 是否成立),也可来自对经济现象的观察 (比如媒体报道、社会调研);可以研究某政策的效应 (比如新劳动法对失业率的影响),也可以对文献中已有论文进行改进。

    如果没有任何研究想法,则建议先浏览一些经济学的顶级期刊。比如,经济学中文期刊的 “四大金刚”,即《经济研究》、《经济学(季刊)》、《世界经济》、《管理世界》;以及经济学英文期刊的 “Top 5”,即 American Economic Review,Econometrica,Journal of Political Economy,Quarterly Journal of Economics,Review of Economic Studies。这些顶级期刊都是经济学的一般性期刊 (general interest journal),涵盖经济学的各个领域。如果确定研究经济学的某个领域,比如金融学,还可关注《金融研究》等专业期刊 (field journal)。

    浏览这些期刊中的论文 (通常技术性较强,故未必从头读到尾),可大致知道当前的经济学者都在研究哪些前沿问题,取得了哪些成果,还有哪些未解之谜;进一步,可以评估他 (她) 们的研究方法是否可靠,以及可能的改善空间。

    如果能提出好的研究问题,也许你的研究就成功了一半。什么是好的研究问题呢?总的来说,研究问题越具体、越有趣、越新颖、越有可行性,则越好!

    (1) 具体:简单来说,在以上“ X 对 Y 有何作用” 的句型中,应能明确 X 与 Y 具体是什么。

    (2) 有趣:你的研究问题为什么重要?别人会感兴趣吗?为什么我们要在乎你的问题 (Why should we care)?知道问题的答案后,能影响人们对世界某方面的看法吗?

    (3) 新颖:论文的核心价值在于其创新性,即做出了文献中所没有的边际贡献。这种边际贡献可以是研究了新的现象、使用了新的 (更好的) 计量方法,或者使用了新的数据集。做研究的过程是创造新知识的过程,在本质上不同于学习已有 (旧) 知识的过程。

    (4) 可行:即使你的研究问题很具体、很有趣、很新颖,如果找不到相应的数据,则不可行。

    对于刚开始选题的学生而言,似乎自己能想到的题目,都已被别人做过了。其实未必。要想做出新的边际贡献,当然可在前人的基础上,继续拓展与改进 (改进计量方法,增加变量,使用新数据等) 。

    另一方面,也可以完全撇开前人,去研究全新的现象。比如,20世纪70年代末中国农村实行了家庭联产承包责任制改革,这是史无前例的。到了1990年左右,就涌现出一批研究农村改革对中国农业产出影响的论文 (比如,Lin, 1992)。又比如,2014年11月开始实行上交所与港交所之间的 “沪港通”。假以时日 (有了足够的数据后),就可以研究沪港通对中国证券市场的影响。

    即使是前人已经研究过的现象 (太阳底下没有新的事物),也可用新眼光、新视角去观察。重要的是,要有敏锐的观察力,并 “像经济学家那样去思考” (Think like an economist)。

    当然,对于刚起步的新手,应尽量避免已经被研究得很烂、或过于富有挑战性的题目。显然,备选的研究问题越多越好,因为能 “存活” 下来的研究想法通常不多。

    4. 探索性研究

    If I have seen further it is by standing on the shoulders of giants. — Isaac Newton

    尽信书,则不如无书。 –《孟子 ·尽心章句下》

    有了潜在的研究问题后,首先需要进行初步的 “探索性研究” (exploratory study),看看它是否具有新颖性与可行性。比如,通过查找文献,考察别人是否已经做过类似研究,并大致了解数据是否可得。

    (1) 通过文献回顾评估选题的新颖性

    论文贵在有新意。假设你找到了一个具体、有趣而可行的研究问题,但它究竟有多少新颖性,这就不可避免地需要查阅文献,看看文献中是否已有类似研究。如果别人已做过很相似的研究,则通常须更换题目;除非另辟蹊径,找到很不相同的方法或数据。

    对于中文论文,可在 CNKI (China National Knowledge Infrastructure) 中搜索。

    对于英文论文,可在 JSTOR (Journal Storage) 或 EconLit with Full Text (美国经济学会) 输入关键字进行搜索;二者均全文收录了许多经济类英文期刊,但前者有几年滞后。

    对于二者未覆盖的经济类期刊,可通过一些主要出版社 (集团) 搜索,比如 Elsevier Science Direct, Springer Link, Taylor & Francis, Wiley 等。某些工作论文则可通过百度或谷歌搜索。

    以山东大学图书馆为例,其电子资源的第一页提供了如下资源 (参见下图):

    山东大学图书馆电子资源首页

    什么时候开始看文献,即看文献的时机,也很重要。如果从一开始就大量地阅读文献,则可能被文献所淹没,望洋兴叹,自觉渺小。

    更好的方法是,当自己有了一定的想法之后,再去系统地看文献。这样,才会知道自己究竟要看什么,也更能带着批判的眼光去看。

    另外,阅读文献的态度也十分重要。虚心地从经典论文中汲取营养,才能站在巨人的肩膀上,但仍应带着某种批判性的眼光。

    事实上,由于经济现象的复杂性 (经济学还只是软科学),任何论文都有一定缺点 (比如,忽略了某些可能重要的因素),也都有可以改进的空间 (甚至可能推翻作者的结论),故不必太迷信 “权威”。

    既然经济学还不是科学,获得诺贝尔奖的经济学家可能持有相反的观点,那么又哪来的权威呢?重要的是,使用逻辑与实证的方法对不同的观点进行甄别与质疑。

    如果认为前人所做的研究已经十全十美,你都赞同,那么,你怎么可能做出新的边际贡献呢?

    (2) 确定所需数据是否可得

    在正式开始研究之前,还应大致知道所需要的数据不仅存在,而且可以得到。数据从何而来?一般来说,数据要么是别人提供的 (比如统计局),要么是自己收集的 (比如问卷调查)。寻找数据可以从网络搜索开始 (比如谷歌或百度),也可以询问专家或同行。

    如果确实不知道该从哪里找数据,还可关注文献中同类研究的数据来源,然后溯本及源。

    因此,阅读一定文献之后,就应该基本了解该研究领域的常见数据来源了。近年来,一些国际期刊已在其网站公开了发表论文中所用的数据集与估计程序 。

    5. 收集与整理数据

    从数据的来源格式来看,数据可分为电子版与非电子版两大类。对于非电子版的数据,需耐心输入数据 (通常先输入Excel表,再导入Stata中),并注意检查,防止出错。即便下载电子版数据,也应检查可能存在的错误。

    实证研究的关键材料乃是数据。如果数据质量不高,则 “巧妇难为无米之炊”。

    无论多么高深的计量方法,如果原始数据质量有问题,也只能是 “垃圾进去,垃圾出来” (garbage in, garbage out)。Zvi Griliches 在 1994 年给美国经济学会做的主席演讲 (presidential address) 指出,由于经济学家不够注意数据的来源及产生过程,经常错误地解释数据,导致研究的进展缓慢;如果不提高数据质量,计量理论方面的重大进展将无用武之地。为此,将数据导入统计软件后,需仔细察看数据 (inspect the data)。

    一个常见误区是,研究者只知进行回归,却不去熟悉原始数据 (raw data),或增加对数据的感觉 (get a feel for the data)。

    察看数据的常见方法为,计算变量的主要统计特征 (summary statistics),包括均值、最大值、最小值、标准差、相关系数等,并根据经济常识判断它们是否合理。

    比如,虚拟变量的最小值与最大值必然为 0 与 1;否则,此变量有误。如果数据有时间维度 (比如时间序列或面板数据),还可画时间趋势图。如果发现在某个时点上的变量取值异常波动,则应考察此数据是否有误;即使数据无误,也应考虑异常波动的原因。

    总之,在察看数据的过程中,主要观察数据中是否存在不一致 (inconsistent) 的地方;比如,出现了不可能、不现实或可疑的取值。如果发现,则要进行处理 (比如,可能是数据输入错误),这被称为 “数据清理” (data cleaning)。

    对于大多数从事应用研究的学者而言,主要是使用别人 (比如统计局、世界银行) 提供的数据。即便如此,也应该对数据的质量有一个清醒的判断,并使用相应的计量方法 (至少在做出实证研究的结论时,应考虑数据质量的影响)。在使用别人提供的数据时,还应注意其定义及统计口径,是否是与理论模型中的变量相对应。

    比如,中国的失业率指的是 “城镇登记失业率”,其统计口径与标准教科书中以及西方国家的失业率概念有很大不同。

    对于计量的初学者来说,与真实数据打交道也是加深对计量经济学理解的重要途径。只有弄脏你的手 (get your hands dirty),才能真正学会做实证研究。

    6. 建立计量模型

    虽然实证研究可以没有理论模型,但如果有好的理论模型作为基础,则更有说服力。

    具体来说,回归分析一般只能说明变量之间的相关性,要对变量之间的因果关系做出判断,常常需要依赖于经济理论。因此,即使无法提供完整的理论模型,也应该进行一定的理论分析。

    最理想的情形是,从理论模型中推导出计量模型 (econometric model),即待估计的回归方程。一般来说,一篇好的实证论文,需要讲一个好的 “故事” (story),然后用数据来证实或检验此故事。

    对于回归函数的具体形式,可以考虑线性、对数 (变量只取正数且有指数增长趋势)、双对数、非线性 (边际效应不是常数)等。在进行模型设定时,应尽量使用常识 (common sense) 与经济理论 (economic theory) 。

    比如,将 “人均变量” (如人均消费) 与 “人均变量” (如人均 GDP ) 相匹配;使用实际汇率来解释实际进出口。

    又比如,考虑 FDI 对经济增长的作用。由于 FDI 起作用需要时间,如果把当年的增长率对当年的 FDI 进行回归,可能没有太大意义。

    比较适当的做法是,考虑期初的 FDI 对随后五年 (或若干年) 经济增长的作用 (这样做也可缓解双向因果关系)。如果不确定该如何设定计量模型,可借鉴文献中同类研究的模型设定。

    另外,模型既不能过于简单 (解释变量过少),也不宜过于复杂,而应当保持适当的简洁 (keep it sensibly simple)。在选择解释变量时,“从小到大” (specific-to-general) 的建模方法简单易行,但可能偏差较大 (因为存在遗漏变量);而 “从大到小” (general-to-specific) 的建模方法偏差小,但不易执行。

    实践中,常采用折衷方案,即选择简单而有解释力的模型。

    7. 选择计量方法

    有了计量模型与数据之后,即可根据数据类型与特点,选择合适的计量方法。比如,被解释变量为虚拟变量,则可使用 Probit 或 Logit;如果是面板数据,则应考虑固定效应、随机效应、时间效应等;如果是时间序列,则须先判断是否含单位根,再决定使用相应的计量方法。

    对于一般的数据,通常先做 OLS,看看结果,作为一个参照系。做完 OLS 后,可以画残差图,大致看看扰动项是否符合经典假定,然后进行严格的检验。如果有所违背 (比如,存在异方差、自相关),则做相应的处理(使用稳健标准误或 GLS)。

    对于时间序列,还可检验是否存在结构变动 (邹检验,Chow test)。另外,应该对数据的质量进行检验,判断是否存在多重共线性、极端值、弱工具变量等,并做相应的调整。

    由于受数据可得性 (data availability) 的限制,遗漏变量几乎不可避免。因此,很有必要在实证论文中对此进行讨论。不外乎以下两种情况。第一,存在遗漏变量,但与解释变量不相关 (需要说明为什么不相关),故可以不做处理。第二,存在遗漏变量,且与解释变量相关,则必须进行处理,例如增加控制变量、寻找代理变量、使用工具变量、使用面板数据等。

    另一常见问题是内生解释变量。此时,一般需找到有效的工具变量才能得到一致的估计。由于面板数据可以在一定程度上克服遗漏变量问题,故比横截面数据或时间序列更有说服力。

    因此,如果可以获得面板数据,则应尽力争取。比如,对于中国的宏观变量,如果使用全国的时间序列,则一般样本容量较小。此时,可考虑收集省际面板 (provincial panel) 的相应数据。

    大多数的实证论文都希望说明 X 对 Y 的因果作用。而从回归分析的相关关系升华到因果关系,是很大的飞跃,需要使用适当的计量方法来识别这种因果关系。

    总之,在这部分应该说明,为什么所用的计量方法是最恰当的。计量经济学的理论总是建立于一些理想化的假定基础之上,而现实的经济数据通常或多或少地不符合这些假定。

    因此,尽管计量理论是可以严格证明的一门科学,但实证研究在一定程度上却是一门艺术,常需要在理论与现实之间找到适当的妥协 (be prepared to compromise)。

    8. 解释回归结果

    There are two things you are better off not watching in the making: sausages and econometric estimates.

    — Edward Leamer

    使用计量方法估计模型后,计算机软件 ( 比如 Stata ) 将输出相应的计量结果。此结果可能较长,包含密密麻麻的表格与数字。如果你尝试了各种不同的计量方法与解释变量 (alternative specifications),则结果就会更复杂。

    如何看这些结果?简单地说,只能用一个字一个字地看,直到看明白为止。当然,也有诀窍。计量结果可能很复杂,但真正重要的信息通常不多,比如回归系数 (含符号)、 p 值,以及样本容量、拟合优度等。以一元回归为例 (工资对数对教育年限回归) ,回归结果参见下图。

    工资对数对教育年限的回归结果

    在上图的回归结果中,变量 s (教育年限) 的回归系数符号为正 (与经济理论相符),系数估计值为 0.0966245, p 值为 0.000 (在 1% 水平上具有统计显著性),样本容量为 758,而拟合优度 为 0.2527 (教育年限可解释工资对数约四分之一的变动)。在上图中,左上角的残差平方和、右下角的置信区间,乃至常数项等信息,基本可以不关心 (除非有需要)。

    在解释回归系数时,还应注意区分统计显著性与经济显著性。“统计显著性” (statistical significance) 主要通过 p 值来考察。

    如果 p 值小于或等于 0.05,则意味着该系数在统计上显著地不等于零;反之,则在统计上不显著,在统计上可将此系数视为零 (不存在)。

    “经济显著性” (economic significance) 主要通过系数的绝对值来考察,须特别注意变量的取值单位。在上例中,解释变量教育年限 s 的单位为年,而被解释变量工资对数 lnw 可解释为工资的百分比变化,故 s 的回归系数为 0.0966245 意味着,每增加一年教育,未来工资收入将提高 9.66%,具有很高的经济显著性 (可能过高了)。

    反之,假如 s 的回归系数为 0.01 或 0.001,则意味着每增加一年教育,未来工资收入只会上升 1% 或 0.1%,显然在经济意义上很不显著。此时,统计上显著而经济上不显著,则意味着解释变量对被解释变量的影响很小 (经济上不显著),尽管这种影响被估计得很精确 (统计上显著)。

    类似地,在进行计量检验时 (比如,豪斯曼检验),Stata 可能输出很多结果,但最需要关注的只是原假设以及 p 值;因为知道二者就可以进行检验了,而其余信息都是细节。

    研究者通常花费较长时间收集与整理数据。将数据导入Stata,然后输入相应的回归命令,则是 “见证奇迹的时候” (moment of truth)。如果关键解释变量兼具统计与经济显著性,符号也与理论预期一致,而其他控制变量的符号与显著性也大体与预期相符,则会感到十分欣慰,过去收集整理数据的辛劳也都值了。

    但有时,所得计量结果未必尽如人意,比如关键解释变量不显著,甚至符号与预期相反。此时应怎么办呢?大致来说,出现这种情况,可能有如下三种原因。

    (1) 使用计量方法不当比如,在上述一元回归中,显然遗漏了许多变量,可能存在遗漏变量偏差,导致 OLS 估计不一致。更一般地,如果存在内生性而未加以处理,将导致不一致的估计,使得本应显著的变量变得不显著。

    (2) 数据质量有问题。如果数据存在较大的度量误差,所用代理变量与真实变量相差较远 (由于真实变量不可观测),或者数据输入中的人为错误,都有可能影响估计的一致性。

    (3) 经济理论有问题。在排除了以上两种可能性之后,最后一种可能性是,经济理论不正确。经济理论所预期的某种效应可能不存在;或者同时存在其他作用机制,使得净效应的符号相反。实证研究的目的之一就是检验经济理论。如果发现已有理论与经验证据不符,则说明此理论尚有改进空间,甚至需要放弃。正如林毅夫 (2001, p. 75) 所指出:

    如果发现理论推论和我国经验事实不一致,要坚持的不是现有的理论,而是进一步去了解我国的经验现象, 然后, 根据经验现象构建一个可以解释这个现象的理论。所以, 当发现这种不一致时, 不要死抱理论, 成为现有理论的俘虏, 也不要在巨人的面前而感到自己渺小。其实,这正是对理论发展做出贡献的绝好机会。

    在计量实践中,研究者经常根据计量结果而调整模型,以期得到更为理想的结果,并且只在论文中汇报最佳的结果,而将寻找此结果的过程隐去。这实际上是 “数据挖掘” (data mining) 的一种形式。

    数据挖掘既有成本 (缺点),也有收益(优点)。数据挖掘的优点是,可对数据进行各种 “实验”,以期揭示数据中的某种规律性,发现模型设定的错误,以此改进理论或计量模型。数据挖掘的缺点则是,由于它根据数据特征来设定计量模型,故模型设定由数据产生,如果再用此数据去检验由它产生的模型,就不是客观的检验,由此导致偏差。

    事实上,一定程度的数据挖掘是不可避免的,而这两种形式的数据挖掘的界限并不清晰,正如 Heckman (2000) 指出,“尽管使用数据来检验受到该数据启发的理论存在严重的问题,但如果拒绝从数据中学习并修改理论,则会导致更严重的问题” 。解决数据挖掘所带来的偏差的方法之一是进行稳健性检验,而不是仅汇报最佳的结果。

    9. 诊断性检验

    任何计量方法都有其适用的前提条件;如果前提不成立,则无法使用此计量方法 (可能导致不一致的估计)。因此,在估计完模型后,应对计量方法的前提条件进行 “诊断性检验” (diagnostic checking) 或作出定性说明。

    比如,使用工具变量法进行2SLS估计后,应进行弱工具变量检验、过度识别检验 (假设存在过度识别)、解释变量内生性检验;并从定性的角度说明 “排他性约束” (exclusion restriction) 为什么成立。

    又比如,使用时间序列估计自回归 (AR) 或向量自回归模型 (VAR),则应检验残差是否为白噪声 (无自相关)。即使进行OLS回归,也应说明解释变量为什么外生,或者遗漏变量偏差为什么不重要。

    10. 稳健性检验

    We have to learn…that the prime virtue of any econometric procedure is robustness.

    — Robert Solow

    为了使用特定的计量方法,研究者通常需要做一系列的假定。但问题是,论文的主要结果是否对这些假定很敏感?为此,有必要放松论文的某些假定,看结果是否稳健或基本不变,这称为 “稳健性检验” (robustness check) 或 “敏感度分析” (sensitivity analysis)。比如,通过改变样本区间 (或去掉极端值)、函数形式、计量方法、控制变量、变量定义、数据来源等,来考察计量结果的稳定性。

    在计量实践中,研究者通常会通过数据挖掘,找到 “最佳” 的计量模型。如果仅汇报此最佳模型,则会导致偏差。因此,有必要适当地改变模型的设定,比较其主要结果的变化。显然,只有稳健的结果才有说服力,故稳健性检验已成为高质量实证论文不可或缺的一部分。

    11. 论文写作

    Learn to write but also write to learn. — William Thomson

    得到较为理想的实证结果之后,即可开始写论文。简单地说,论文就是对研究成果的汇报。为了便于读者更快地从论文中获取信息,经济学论文通常有一定的结构,而论文写作本身也是一门精益求精的艺术。经济学家曼昆曾问过加尔布雷斯 (John K. Galbraith) 写作成功的秘密;加尔布雷斯回答说,他写的所有东西都会修改很多次,通常直到第五稿时才会基本满意。下面分别介绍论文的各个部分。

    (1)标题、关键字、摘要

    论文的首页通常包括标题、作者、摘要、关键字等信息。标题 (title) 是论文的标签,正如商品的商标或名称。一般应选择简洁而有吸引力的标题,并能让读者知道该文主要做什么。在论文写作乃至成文之后,都有可能修改论文题目,使之更为贴切有趣。

    在题目之下一般为作者姓名,而将具体的作者单位、联系方式、感谢语 (包括基金资助) 以及 “文责自负” 等声明放在脚注里。如果有多位作者,一般需选择其中一位作者作为 “通讯作者” (corresponding author),负责投稿并与编辑部保持联系 。

    在题目与作者之下,一般为摘要 (abstract),通常在100字左右。摘要需突出论文的重要意义、研究方法与主要结论。一般读者会先看摘要,再决定是否看全文。因此,论文摘要应字斟句酌,凸显本文的主要贡献,并激起读者进一步阅读的兴趣。摘要通常在论文主体完成后才撰写,因为此时作者对于论文的主要内容会有更清晰的概念。

    在摘要的下面,通常还需提供几个关键字 (key words),以便读者能很快地根据关键字搜索到此文。关键字常常来自论文的题目。另外,在关键字之下,还可能提供 JEL 分类号,这是美国经济学会主办的 Journal of Economic Literature 杂志所用的经济学各领域的分类编号 。

    经济学实证论文的正文一般依次包括以下部分:引言、文献回顾 (可归入引言)、理论框架或背景介绍 (可省略)、数据说明、计量模型与估计方法、回归结果、稳健性检验 (可归入回归结果)、结论。下面分别进行说明。

    (2) 引言 (Introduction)

    引言虽是全文的第一部分,却经常最后写。原因之一,引言集中了全文的卖点 (selling points),最难撰写,须反复修改;原因之二,引言概括了全文的内容,只有在全文大体完工后,才能准确地总结与提炼。

    引言通常包括以下内容:本文研究了什么问题,此问题为什么重要 (研究意义);本文使用了什么数据 (最好在数据来源上有所创新或挖掘),实证研究的计量方法是什么,得到了哪些主要结论;此研究与已有文献的关系,本文的主要创新与边际贡献等。

    由此可见,引言将论文的精华部分以非技术性的方式呈现给读者,可视为扩展版的摘要,是 “销售” 此文的重要手段。事实上,许多读者在浏览论文时,常常先看引言与结论,然后再决定是否细读正文;可见引言的重要性。

    引言的写作大致有两个套路。传统的套路是,在提出研究问题之后,首先回顾已有文献的相关研究以及不足之处,然后顺势引出本文的研究方法与主要贡献 (比如,填补了文献的空白)。传统套路的优点是,比较有逻辑性,能自然地呈现学术发展的脉络;其缺点在于读者需要有一定耐心,先回顾主要文献,然后才知道本文的主要工作。

    现代的套路是,提出问题之后,马上直奔主题,介绍本文的研究方法与主要结论,然后再回头介绍本研究与现有文献的关系。这两种套路各有优缺点,适合不同的论文,但直奔主题的现代套路似乎日益流行。

    另外,引言的最后一段通常提供全文的路标 (roadmap),告诉读者本文的其余部分在结构上如何安排,以便于读者阅读。

    (3) 文献回顾 (Literature Review)

    文献回顾如果较短,可以归入引言部分;反之,如果文献回顾较长,则可单独作为论文的一个部分。对于文献的回顾一般按文献出现的时间先后进行,着重介绍重要的文献,而其他文献可以简略介绍、放入脚注,甚至略去。

    文献回顾的写作切忌只是堆砌罗列一些文献,而未进行深入分析。事实上,文献回顾的根本目的是为了厘清本文的研究与已有文献的关系,以凸显本文的边际贡献及其在文献中的地位。

    为此,在肯定现有文献的原创贡献外,难免会指出其不足之处 (或被忽略的方面)。此时,应注意语气委婉,因为这些文献的作者有可能正是未来的审稿人或编辑。另一方面,你又希望突出本文的独特贡献 (当然必须实事求是)。因此,在指出现有文献的不足与突出本文的贡献之间,需要找到措辞与语调上的平衡。

    (4) 背景介绍 (Background Information) 或理论框架 (Theoretical Framework)

    实证论文并非仅仅是找一堆数据,然后汇报回归结果。只有告诉读者有关经济现象的背景,完整地述说一个经济故事,才能使得计量结果更有说服力。

    比如,Nunn and Qian (2011) 研究引入 “新世界” (New World) 作物土豆对 “旧世界” (Old World) 人口增长与城市化的影响,在其第二节背景部分,即以大量篇幅介绍土豆的优点 (virtues of the potato)、土豆如何从新世界传播到旧世界,以及其他新世界作物。

    因此,实证研究者的工作并不仅仅是下载数据进行回归,还需要熟悉所研究现象的历史、制度与文化背景,乃至数据的来源与产生过程。

    如果可能,在此部分可引入一个简单的理论模型 (theoretical model) 或思想框架(conceptual framework),为后续的实证研究提供理论基础。但对于实证论文而言,其理论部分不宜太过复杂,以致喧宾夺主。另外,如果经济现象过于复杂,没有现成的理论,也可根据常识 (common sense) 直接写下计量模型或回归方程。

    (5) 数据说明 (Data deion)

    实证论文的结论是否可靠,首先取决于数据的质量。因此,在数据说明部分,应详细说明数据的具体来源,并评估其可靠性。介绍数据来源的详细程度,应使读者能按图索骥得到同样的数据,以保证科学结果的可重复性。

    如果对原始数据进行了一些处理或加工,也应一一说明。如果学术界对于数据的质量有质疑,则应说明这些潜在的数据质量问题,对于你的研究有何影响。

    比如,GDP的绝对水平可能被夸大了,而你仅使用 GDP 的增长率,故可能影响不大。如果数据来自问卷调查,则应说明随机抽样如何进行,问卷如何发放与执行等,并在附录中附上具体的问卷。

    介绍数据来源之后,通常以表格形式给出主要变量的统计特征 (summary of statistics),比如样本容量、均值、标准差、最小值、最大值等,使读者对数据的基本特征有所了解。有时,还会提供关键变量的相关系数矩阵 (matrix of correlation),作为对变量之间关系的初步证据。

    (6) 计量模型与估计方法 (Econometric model and estimation)

    在此部分,需要结合所研究的问题以及已有数据,给出具体的计量模型,即回归方程。通常会有一个基准 (baseline 或 benchmark) 的计量模型,然后在此基础上对模型设定 (model specification) 有所变化,比如增加或替换变量。

    此部分着重需说明论文的估计策略 (estimation strategy),即究竟应使用什么计量方法来识别主要变量之间的因果关系。初学者易犯的错误是,在论文中直接使用某计量方法,而未说明为什么这是最合适的计量方法。

    任何计量方法都有适用的前提条件,需要研究者仔细甄别与判断。如果有两个计量方法,各有优缺点,则可二者都用,然后作为稳健性检验,比较二者的结果。

    (7) 回归结果 (Regression results)

    介绍计量方法之后,即可汇报回归结果,通常以表格形式来呈现,主要包括以下信息:被解释变量与解释变量的名称、回归系数估计值、标准误 (或 t 统计量),以星号表示统计显著性,以及相关的统计量 (样本容量、拟合优度等)。在正文中,需要对回归结果进行解读,包括回归系数的统计显著性与经济显著性,符号是否与理论预期相符等。

    (8) 稳健性检验 (Robustness checks)

    在实证论文中仅仅汇报一个回归结果显然是不够的,因为变量的显著性可能在不同的模型设定下变化。只有在不同的模型设定下,都能得到类似的结果,才是稳健与可信的。对于稳健性检验的结果汇报,如果篇幅比较短,可归入上一部分的 “回归结果”;反之,如果做了较多的稳健性检验,则可单独作为论文的一个部分。

    (9) 结论 (Conclusion)

    结论是论文的最后部分,对全文所作工作进行总结,并给读者留下最后的印象。结论部分通常概要地回顾本文的研究问题、计量方法与主要结论,也可重申本文的独特贡献。由于任何论文都有局限性,故也可指出未来的改进空间与研究方向。许多读者会先看引言与结论,再决定是否看正文,故结论部分也十分重要。

    (10) 参考文献 (References)

    几乎所有研究都建立在前人成果之上,故必然会在文中引用他人的论文或著作。这些论著的详细出处,则一般收集于文末的参考文献。需要特别注意的是,文中所有引用的论著,都应包括在参考文献中;反之,所有参考文献中的论著,都应在正文中被引用。

    参考文献的顺序一般按照作者姓氏的字母 (拼音) 进行排列,对于同一作者的作品则按发表年代排序。另外,不同期刊对于参考文献的具体格式也有不同要求;在投稿前需按所投期刊的要求进行修改。

    (11)附录 (Appendix)

    有些论文还有附录,主要收集不影响正文阅读,但篇幅较长的细节。比如,对于理论文章,可能把繁琐的证明放在附录。而对于实证论文,有时会把过长的数据说明放在附录。如果数据来自问卷调查,则通常把具体的问卷放在附录。

    (12)写作风格

    经济学论文属于科学类的论文,并不需要过于华丽的词藻,而应首先注意行文的简洁与逻辑性。另一方面,优美流畅的文笔对于提高论文可读性、吸引读者注意力十分重要。

    对于初次写论文者,首先要注意 “书面语” 与 “口语” 的区别,避免过分口语化;不能嘴上怎么说,笔下就怎么写,而应使用更为洗练到位的书面语言。在下笔之前,可先在脑海里构思文章的结构与写作风格。事实上,写作的过程也是使思路更加清晰的过程。

    对于论文中的方程式,可使用 Word 文档中的 “insert” → “object” → “Microsoft Equations” 进行编辑,使得方程更为美观 。论文中所有单独成行的方程式,都应按顺序编号,以(1)、(2)、(3)等表示,以便于检索。

    对于论文中的表格与图片,也应注意其格式。一般来说,表格的标题应在表的上方;而图片的标题则在图的下方。在表格或图片的下方,还可以有注释,说明数据来源、变量定义等相关信息。

    对于初学者,建议仔细观察经典论文的文章结构与风格,并注意模仿。比如,中文论文可以模仿《经济研究》或《经济学季刊》,而英文论文则可参照 American Economic Review, Journal of Political Economy, Quarterly Journal of Economics 等。正如古语所云,“熟读唐诗三百首,不会作诗也会吟”。

    12. 与同行交流

    论文初稿完成后,通常不宜直接投稿,或作为毕业论文提交。这是因为,在研究与写作过程中,难免受到个人先入为主的主观限制,出现这样或那样的偏差或疏忽。因此,恳请导师、同行或朋友阅读你的论文,并提出批评与修改意见,是十分必要的。

    更正式的渠道包括将论文提交至学术会议,或应邀到相关学术机构作报告;以便收集有益反馈,然后进一步修改论文。当代论文的复杂程度越来越高,需要考虑的问题也越来越多,如果一味闭门造车则难免挂一漏万,难以保证论文的高质量。

    13. 提交论文或投稿

    经过与同行交流并将论文修改完善后,可考虑提交毕业论文,或将论文投稿到合适的期刊。在选择期刊时,首先要评估论文的重要性与质量,即该文是否研究了一个重要或有趣的问题,以及所用方法是否严格、结论是否可信;然后再将论文投给相应档次的期刊。

    这里所说的 “重要”,并不一定非要是影响国计民生的重大课题,也可以只有学术上的意义。即使只是一个有趣的小问题,如果使用了严格的研究方法,也可能很有价值。反之,如果研究方法有漏洞,即便研究的是大问题,也可能大而无当。

    如果不清楚论文该投给哪个杂志,可请教导师或有投稿经验的前辈。在投稿时,切忌 “一稿多投”,即将一篇稿件同时投给多个杂志,造成编辑部的审稿资源浪费。这是投稿的基本规则;如果违背,可能导致严重的后果。一般来说,只有在被拒稿或主动撤稿之后,才能将稿件投给另外一个期刊。

    期刊编辑部在收到稿件后 (通常为电子投稿),一般由主编 (editor) 或共同主编 (co-editor) 先行浏览,并决定是否送外审;如果不送外审,则会直接在案头拒稿 (desk reject)。对于送外审的论文,主编通常选择2-3位匿名审稿人 (anonymous referee) 进行审稿,并要求在规定的时间内 (比如一个月或更长时间) 提交审稿人报告 (referee report)。

    有时匿名审稿人也不知道论文作者的身份,这称为 “双向匿名审稿” (double-blind review)。然而,在互联网时代,审稿人通常不难查到作者身份 (很多作者会把工作论文挂在网上),双向盲审也就失去了意义。为此,American Economic Review 从2011年开始改用 “单向匿名审稿” (single-blind review),即作者不知道审稿人身份,而审稿人知道作者身份。

    主编在收到全部审稿人报告后,通常根据这些审稿意见,对论文采取以下决定:(1) 直接接受;(2) 直接拒稿;(3) 修改再投 (Revise and Resubmit,简记 R&R)。一般来说,第一种情况 (直接接受) 非常少见,而第三种情况则说明此稿件有希望发表,应根据审稿人的建议进行认真修改。有时,“修改再投” 可能会发生 2-3 轮,而且越是顶尖的期刊,修改再投后被拒稿的可能性越大。

    总之,从论文投稿到期刊发表,即使在最顺利的情况下,也通常需要一年时间 (除非编辑部对重要稿件加急处理);而英文期刊的发表周期则可能更加漫长。在此期间,还可能需要几经修改,甚至转投多个期刊。这时你会发现,写论文并不难,难的是发表论文。唯有切实提高论文质量,才是发表论文的根本保证。

    14. 写作伦理

    在论文写作过程中,应特别注意引用的规范性,并杜绝抄袭。究竟 “引用” (citation) 与 “抄袭” (plagiarism) 有何区别?

    二者最本质的区别在于,引用给出了信息的出处;而抄袭未提供出处,让读者误以为是作者的原创。抄袭可以定义为 “将已经存在的思想或产品‘偷来’作为自己的思想或产品” (The Modern Language Association of America, 2009, p. 52)。

    抄袭是一种严重违背学术规范与职业道德的行为,可能导致无可挽回的严重后果。首先,它将别人的思想占为己有,等于 “偷窃” 了别人的知识产品;其次,将别人的知识产品作为自己的成果发表以获得好处,这等同于 “欺诈” (fraud)。

    为此,初学者在使用别人的研究成果时,一定要注意通过正确的引用来注明出处。如果直接引言别人的原话,应加上双引号,并注明文献来源。如果大段地复制已有文献而未标明出处,则为赤裸裸的抄袭,应坚决杜绝。即使是间接引用,比如用简洁的语言概述前人的思想,或将已有模型作了小的改动,也应及时注明其出处。

    15. 结语

    如何才能做出高水平的实证研究?如何才能写出高质量的经济学论文?更进一步,如何才能成为好的经济学家或经济工作者?显然,要达到这些目的,绝非单一学科 (比如,计量经济学) 就能胜任,而需要全方位的学识与素养。在此,引用凯恩斯的一段话作为结束语,并与大家共勉 (曼昆,2009,p.39):

    经济学研究似乎并不需要任何极高的特殊天赋。与更高深的哲学或纯科学相比,经济学不是……一门极其容易的学科吗?一门容易的学科,但这个学科中很少有人能出类拔萃!这个悖论的解释也许在于杰出的经济学家应该具有各种天赋的罕见的结合。在某种程度上,他应该是数学家、历史学家、政治家和哲学家。他必须了解符号并用文字表达出来。他必须根据一般性来深入思考特殊性,并在思绪奔放的同时触及抽象与具体。他必须根据过去、为着未来而研究现在。他必须考虑到人性或人的制度的每一部分。他必须同时保持果断而客观的情绪,像艺术家一样冷漠而不流俗,但有时又要像政治家一样脚踏实地。

    注:本文整理自《计量经济学及Stata应用》,陈强,山东大学经济学院,版权归原作者所有,仅作学术分享之用。

  • 肖金川,任飞,刘郁:主要英文经济学期刊论文计量方法

    本文基于2001~2012年五大英文顶级经济学期刊计量方法的统计数据分析表明,经验研究论文占刊登论文总数的比例在这12年中有所提高,2012年经验研究论文占比要明显高于2001年,而理论论文的占比有所下降。经验研究论文中缩减形式(reduced-form)占绝对主导地位。普通最小二乘方法在这12年中占刊登论文总数的比例较高,是缩减形式中占比最高的方法。此外,我们也发现经验研究论文中使用结构模型论文的相对数量有所上升。这些发现说明,相当数量的经验研究论文并未采用在技术上更为复杂的识别方法,采用哪种计量方法在很大程度上依赖于要解决什么样的问题

    一 、引言

    伴随中国经济的持续发展,经济学研究也在不断进步。十多年前,林毅夫讲“……国内经济学者一般善于写文章,阐述观点,而不乐意做经验实证的工作,有的人还误以为经验实证是数量经济学的事,将理论研究与实证检验不适当地割裂开来……”(林毅夫,2001)随着时间推移,我们确实看到越来越多的经济学论文开始使用经验研究的方法来进行研究,这些论文使用的数据结构越来越丰富,采用的估计手段和技术越来越复杂(成九雁和秦建华,2005)。的确,在中国当前的经济背景下,需要大量经验研究工作来不断检验经济学理论在中国的适用性,并通过检验结果来解释中国经济发展中存在的各种问题,从而能够进一步发展或创造更接近现实的理论框架来预测经济走势。

    但是,经验研究工作能否真正推动经济学进步的一个最重要前提就是所做的经验研究是否合乎规范。而要评价一篇经验研究论文是否规范,根本在于其是否“把经验分析建立在理论基础上,并从系统的数据中定量地检验理论假说和估计参数的数值”(钱颖一,2002),在这个基础上,有时候学者们为了“更好地估计经济模型和做出更精确的预测”(田国强,2005),才会考虑使用比较复杂的计量方法和工具。但是,任何复杂的经验研究方法要比简单方法得出更精确的估计都是有假定条件的。如果不明白这一点,只是简单使用最前沿的计量方法而忽视了所研究问题的性质和需要,这样的经验研究就不具有很大的价值。从这个意义上来说,经验分析方法要服务于论文所研究的问题。

    本文不打算探讨规范经验研究的范式,去分析规范的经验研究“应该”怎么做,而是希望通过分析国际公认的五大顶级英文经济学期刊所刊载论文在2001~2012年间的变化特征,客观呈现规范的经验研究是如何发展的。①已有一些文献对国内期刊刊登论文的情况进行统计分析(夏业良和王欣,2000;林良夫和陶小荣,2000;刘俊婉等,2004;孟大虎,2008),但多数是分析作者情况、研究范式等,也有少量文献关注期刊论文采用的计量方法(成九雁和秦建华,2005),但其分类相对简略。与之前的国内文献不同,本文关注《美国经济评论》(American Economic Review),《经济学季刊》(Quarterly Journal of Economics),《政治经济学杂志》(Journal of Political Economy),《计量经济学杂志》(Econometrica)和《经济研究评论》(Review of Economic Studies)五大英文期刊的计量方法,②并对五大期刊的论文根据计量方法进行细致分类。本文之所以关注五大顶级英文期刊,是因为改革开放以来国内经济学转型受西方国家影响很大,顶级期刊的论文自然也成为很多国内学者学习参考的对象。而西方国家的经济学界在计量方法的研究和使用方面,无疑是领先于国内的。因此,统计分析五大顶级英文期刊论文采用的计量方法,有助于我们认清经验研究乃至经济学研究的国际潮流,借鉴国际顶级英文期刊论文的相关经验,以提升自身的研究水平。

    下文的安排是:第二部分分析2001~2012年五大英文经济学期刊所刊载的理论研究和经验研究论文的数量特征;第三部分按照经验研究论文采用的模型结构将其区分为结构模型、缩减形式和时间序列三个类别,并描述五大期刊刊载这三类经验论文的数量特征;第四部分将缩减形式分为十个类别,来分析每个类别在缩减形式中所占比重的变化趋势;第五部分总结全文。

    二 、2001~2012年顶级经济学期刊刊载论文分析

    随着计量经济学的不断发展,经验研究在经济学研究中的地位越来越重要。为了分析比较其变化趋势,本文首先参考Persky(2000)和Hamermesh(2013)的做法,将所有论文分为“理论”、“理论+经验”和“经验”三大类,具体的定义如表1所示,其中,在“理论+经验”这一类中,包括了部分以经验研究为主要贡献,而理论仅是说明性的研究。

    图1给出了前述有代表性的五大顶级经济学研究期刊在2001~2012年合计的三类论文的数量统计,③从总量上来看,2001~2012年12年间,五大期刊上发表的论文总数相对稳定,大多数年份为260篇到280篇,最低的年份为2008年共计254篇,最高的年份为2012年共计321篇。其中“理论+经验”类论文和“经验”类论文在这12年中总体处于上升趋势,2012年发表篇数较2001年均有所增加,分别上升55.8%和42.1%。相较之下,纯“理论”类论文篇数却总体处于下降区间。④这初步反映了经验研究的重要性正逐渐得到重视,运用经验研究的方法进行经济学研究开始变得更流行,并且越来越受到主流经济学期刊的欢迎。

    图2统计了2001~2012年每个期刊中三类论文前6年(2001~2006年)和后6年(2007~2012年)的平均值占论文总数的比例,⑤以便更直观和细致地来考察每个期刊刊登的三种论文类型在两个较长时间段内的对比情况。从总体上看,2007~2012年“经验”类和“理论+经验”类论文分别占到当年发表论文总数的24.6%和23.1%,相较于2001~2006年的24.3%和16.4%有所提高。相应的,“理论”类论文占比就下降较多,从2001~2006年的59.3%降低到2007~2012年的52.3%。从每个期刊发表的论文来看,除AER的“理论”类论文维持稳定外,⑥其余4个期刊的“理论”类均有不同程度的下降。值得注意的是,Econometrica和RES这两个向来偏重发表理论研究的期刊,2007~2012年发表的“经验”类论文也大为增多。从图2中可以看到,2001~2006年的“理论”类论文占比,Econometrica达到89.9%,RES达到81.9%,而到了2007~2012年,这两个比例分别下降到80.2%(Econometrica)和72.1%(RES)。经验研究论文在2001~2012年间数量增长较为迅速,其中一个重要的原因是数据可得性提高使得经验研究的成本降低(Hamermesh,2013)。⑦这无疑说明好的经济学研究不仅仅是纯粹的理论推导和数学模拟,运用经验研究的方法去联系实际、验证模型和发现问题也能够做出一流的论文,并且,从目前的趋势来看,这有可能是未来经济学研究的主流。

    三、 2001~2012年顶级经济学期刊刊载经验研究论文分析

    经验研究的参数估计和假设检验都是建立在良好的经验研究模型基础上的,而不同的研究目的会产生不同的经验研究模型。表2列举了三种不同的经验研究模型结构:时间序列(time series)、结构模型(structural model)和缩减形式(reduced-form model)。

    图3显示了2001~2012年在五大期刊上刊登的所有经验研究论文(包括“经验”类和“理论+经验”类)中分别使用以上三类经验研究模型结构的论文数量。从总量上看,2001~2012年,越来越多的论文使用缩减形式,2001年有92篇经验研究类论文使用了缩减形式,这一数字在2012年达到132篇;从结构上看,这12年中缩减形式占经验研究论文的比例均超过80%,2008年甚至达到90.8%。由此可见缩减形式在经验研究类论文中最为重要。而使用时间序列模型的经验研究论文占经验研究论文的比例只有2001年超过10%,其余年份均在10%以下,这说明时间序列模型受限于其数据结构,很难成为最主要的经验研究模型。对于结构模型的论文,尽管数量不多,2001年只有3篇,2012年也只发表了23篇,但可以看到的是,在这12年中使用结构模型的经验研究论文总体上是在增加的。随着时间的推移,相关数据的获得逐步成为可能,可以预见结构模型的占比在未来将会继续提高。

    图3 经验研究论文使用模型结构的数量变动情况(2001~2012年)

    图4 每个期刊经验研究论文使用模型结构占比(2001~2006年和2007~2012年)

    图4统计了前6年(2001~2006年)和后6年(2007~2012年)每个期刊中经验研究论文使用三类模型结构比例的平均值。由图4可见,Econometrica和RES中缩减形式虽然占据主导地位,但结构模型占比也较为可观。Econometrica中结构模型在2001~2006年和2007~2012年占比均超过30%,RES占比也均在15%以上。值得一提的是,RES刊载的经验研究论文中,应用缩减形式的论文比例大为增加,从2001~2006年的62.2%上升到2007~2012年的76.4%。 AER、QJE和JPE则有所不同,结构模型占比较低,而缩减形式在2001~2006年和2007~2012年的占比均超过80%。另外,AER和QJE中采用结构模型的论文占比有所上升,⑧JPE中采用结构模型的论文占比基本未变。⑨这些都表明了缩减形式在经验研究中的主导地位。之所以缩减形式在经验研究中占据如此重要的位置,一个可能的原因是要解决的问题涉及的相关经济学领域缺乏成熟理论模型,导致经验研究工作无法采用结构模型进行估计,如有关制度的相关经验研究;另一个可能的原因是即使相关领域有成熟的理论模型,但如果没有高质量数据,也难以采用结构模型进行估计。

    四 、2001~2012年顶级经济学期刊所刊载缩减形式论文分析

    从以上的分析中,我们已经看到缩减形式在2001~2012年的五种期刊所载经验研究论文中占据80%以上。我们按照论文中用到的主要方法,将缩减形式分为十个类别,详见表3。⑩

    值得注意的是,我们所关注的这十个类别,在2001~2012年发文总数为1237篇,占刊登论文总数的37.4%;在2001~2006年中共计571篇,占论文总数的34.8%;在2007~2012年中共计666篇,占论文总数的39.9%。(11)2007~2012年缩减形式的这十个类别发文总数比2001~2006年增长了16.6%,占五大期刊刊登论文总数的比例增长了5.1%,缩减形式在当今经济学研究中的地位可见一斑。

    图5统计了这十个类别在前6年(2001~2006年)和后6年(2007~2012年)两个时间段内的发文数量。(12)可以发现,虽然应用普通最小二乘法的发文数量在2007~2012年相对2001~2006年有所降低,但这两个时间段内的发文数量在这十类中都是最多的。应用工具变量法和面板数据基本方法的发文数量在这两个6年内基本持平。以上三类方法在2001~2006年和2007~2012年发文数量上均占据了十类方法的前3位,其中2001~2006年三类方法占缩减形式的比例高达74.7%,2007~2012年间三类方法占缩减形式的比例也达60.0%。采用除以上三类方法外的论文数量,在2007~2012年相比2001~2006年出现了快速增长。其中,应用自然实验、实验室实验和倍差法等方法的发文数量增长了50%以上。应用田野试验、断点回归和匹配等方法的发文数量则增加了1倍以上。

    从前6年(2001~2006年)和后6年(2007~2012年)发文数量的对比可以发现,应用传统方法如普通最小二乘法、面板数据基本方法的发文数量仍较为可观,依然在缩减形式中占据主导地位。而采用实验类方法、倍差法、匹配等较为新颖方法的论文数量在2007~2012年相比2001~2006年有了较大幅度的增长。然而仅仅分析前6年和后6年的均值,只能对两个时间段进行对比分析,获取的信息虽然可以阐明长期的情形但忽略了每年的变动情况,下面我们将基于2001~2012年的逐年数据对缩减形式的十个类别进行进一步分析。

    图5 缩减形式具体各类数目变动情况(2001~2006年和2007~2012年)

    图6 缩减形式四类主要方法占论文总数比例变动情况(2001~2012年)

    图6和图7统计了在2001~2012年这十个类别除“其他”以外的九个类别占发文总数比例的变动情况。通过这两张图,我们更加清晰直观地了解到,这九个类别在经验研究中的地位在这12年间逐年的变动情况。从图6可以发现,普通最小二乘法是缩减形式中占比最高的方法,2001~2012年间占五大期刊发文总数的比例均值达11.8%,占缩减形式论文总数的比例均值高达31.6%。

    应用工具变量法和面板数据基本方法的论文数量在多数年份占五大期刊发文总量的比例达到5%以上,占缩减形式的比例均值达15%以上,是这九类中除普通最小二乘法以外占比最高的两个大类。而实验室实验作为除以上三类方法外的第四大方法,在2001~2012年总体处于上升趋势,尤其是在2008~2011年,平均每年增长93.1%,在2010和2011年的发文数量更是超过了工具变量法和面板数据基本方法,成为仅次于普通最小二乘法的第二大方法。

    从图7中我们可以发现,自然实验、田野实验、倍差法、匹配和断点回归这五类方法在2001~2012年间虽然占比有波动,但总体处于上升趋势,到2012年,这五类方法占五大期刊发文总数的比例加总为10.1%,是2001年1.5%的6.7倍。其中只有匹配法出现频率比较低,12年中有7年五大期刊中没有刊登使用匹配法的相关论文,其他四种方法在2009~2012年的占比均超过1%。

    图7 缩减形式五类出现频率较低的方法占论文总数比例变动情况(2001~2012年)

    下面我们以AER在2001~2012年缩减形式具体分类情况进行分析。之所以分析AER,除了它是世界公认最好的经济学期刊之一以外,它刊登的论文数量也较可观。2001~2012年AER共刊登1109篇论文,占五大期刊发文总数的33.5%,其中2012年共刊登124篇论文,(13)占到我们所分析的五大期刊当年所发论文总数的38.6%,因而比较具有代表性。(14)

    从图8我们可以发现AER的情况与图6基本类似。(15)由于Econometrica和RES主要刊登理论论文,我们也就不难理解AER中缩减形式各类别占发文总数的比例要高于五大期刊的相应比例了。值得注意的是,应用普通最小二乘法的论文,在2001年占到发文总数约27.1%,在2012年占比达到21.0%,12年中占比虽有起伏,但始终在十类方法中占比最高,平均占比达18.9%。作为世界上最优秀的经济学期刊之一,普通最小二乘法仍然占据如此重要的地位,在一定程度上反映了传统方法在经验研究中的重要性。采用面板数据基本方法的论文在这12年中的平均占比达到5.8%,而采用工具变量法的论文平均占比达9.1%。由此可知,在经验研究中,新技术新方法固然很重要,但是传统的技术方法并没有失去其主导地位。同时,AER在2008年以来越来越青睐实验室实验的论文,相关论文数量大幅增长,2011年占到发文总数的17.0%,远高于五大期刊合计的9.0%。另外,我们也可以发现使用五类出现频率较低的方法的论文占比在2007年以来也实现了较为快速的增长,(15)使用这五类方法的论文篇数合计占发文总数的比例在2012年甚至高达13.3%。这说明AER可能比较欢迎采用新颖识别方法的经验研究论文。

    图8 缩减形式各类占论文总数比例变动情况(2001~2012年,AER)

    结合图5、6、7和8的简单分析,可以得出的结论是:在我们所关注的这九类方法中,普通最小二乘法在最顶尖的经济学期刊中依然占比最大,无论是逐年的分析还是取6年的均值都是如此。这12年中,经济学研究用到的技术有了很大提升,但是并未撼动传统方法的地位。我们也可以发现,在10多年前很少见的一些方法如断点回归也开始频繁出现,即使它们的数量依然难与传统方法相比,但是它们经历了从无到有,从少到多,逐步为主流经济学期刊所接受,开始占有一席之地。这些发现说明,顶尖的英文经济学期刊刊登的经验研究论文往往并不艰深,相当数量的经验研究论文采用了较为简单的识别方法来处理问题,由此可知,重要的往往不是识别方法是否够复杂,而是采用的方法能否很好地解决问题。当然精巧的识别策略(如自然实验和断点回归等)有助于把经验研究做的“干净”,但是在精巧的识别策略难以实施时,找到能够解决问题的其他方法也能做出一流的经验研究论文。因而,在经验研究过程中,与其把重心过多的放在识别方法上,不如将问题摆到与方法同等重要的位置

    五 结论

    本文通过对2001~2012年五大顶级英文经济学研究期刊所刊论文的分析发现,2001~2012年经验研究类论文占刊登论文总数的44.2%,从2001年的40.4%增加到2012年的50.5%,12年间增长10.1%;这12年间缩减形式占刊登论文总数的37.4%,从2001年的34.1%增加到2012年的41.1%,12年间增长7.0%;这12年间普通最小二乘法方法占刊登论文总数的11.9%,2012年占刊登论文总数的比例仍高达11.7%,一直是缩减形式中占比最高的方法。另外,使用结构模型的论文占比从2001~2004年间的3%以下,增加到2009~2012年的5%~7%,成为经验研究中较为重要的方法。从这些数字中我们可以看出,经验研究类论文相比10多年前有了一个较大幅度的增长,而缩减形式则在经验研究中占据着毋庸置疑的数量优势,普通最小二乘法方法占据着缩减形式的首要地位,结构模型占比虽然不高,但地位越来越重要。另外,由于缩减形式中普通最小二乘法和面板数据基本方法占比出现一定程度的下降,工具变量法的占比相对稳定,因而缩减形式中除普通最小二乘法、面板数据基本方法和工具变量法之外的其他方法出现显著增长。此外,我们还以AER为例,具体分析了这个顶级期刊缩减形式论文的发文情况,也印证了以上观点。

    对于经验研究来说,问题与方法同等重要,方法服务于问题所需,好的经验研究方法并不一定是在数学上复杂的方法,而必定是对所研究问题而言最有利于得到精确估计的方法。当然,经验研究的复杂性在很大程度上还取决于数据收集的难度、研究设计的精巧以及运用简单方法排除特定机制的技巧等。对于五大顶级期刊在这12年间出现的趋势,我们认同哈佛大学Wyne就经济学未来发展方向咨询8位世界顶级的青年经济学家所得出的观点(Wyne,2012),(17)他们认为经验研究的分量将越来越重,因为研究者在未来能更容易获得各种宏观和微观数据,并且计算机技术的飞速发展使处理这些数据成为可能,因此经验研究将比理论研究发展更快。未来丰富的数据有助于研究者估计模型的具体参数,(18)经验研究将能验证详细的理论假设及结论,经济学的研究工具很可能会变得更为“经验化”。

    注释:

    ①前提是需要假设这些顶级英文经济学期刊所载的论文是规范的。

    ②在下文,为方便标记,我们将American Economic Review简称为AER,Quarterly Journal of Economics简称为QJE,Journal of Political Economy简称为JPE,Review of Economic Studies简称为RES。

    ③参照Card和DellaVigna(2013),我们统计的AER论文中包含了短论(short papers),但不包括会议增刊、演讲稿、就职演说、评论及回复和勘误;统计的Econometrica论文中包含短论和评论(notes and comments)中的短论,但不包括评论。

    ④2012年“理论”类论文篇数有所反弹,一是因为五大期刊发文总数有所上升,二是“理论”论文占论文总数的比重相对2011年也略有上升。

    ⑤我们统计了2001~2012年共12年的数据,在分段分析时,我们将时间段划分为2001~2006年和2007~2012年两个6年段进行均值计算,这样处理的好处是能够平滑掉短期的非趋势性波动,获得长期的平均变动情况,以验证我们所观察到的短期变化是否适应长期情况。

    ⑥前后两个6年的对比并不意味着AER更偏爱“理论”类论文。在2007~2012年,AER刊登的“理论”类论文占刊登论文总数的比重在迅速下降,2008年这一比重为55.6%,2012年降为30.6%,相关统计数字与Hamermesh(2013)的统计结果基本一致。

    ⑦Hamermesh(2013)认为理论研究主要被基于自有数据的经验研究所取代,研究者能够比以前更容易获取自有数据可能是经验研究快速增长的原因之一。

    ⑧AER在2007~2012年的结构模型占比超过10%。

    ⑨JPE的情况较为特殊,2001~2006年共刊登了112篇缩减形式、8篇时间序列和8篇结构模型的论文,而在2007~2012年则刊登了83篇缩减形式和6篇时间序列、6篇结构模型的论文。这是因为JPE每年刊登论文的总数有所下降,从2001~2006年的年均42.3篇减少到2007~2012年的年均29.7篇。

    ⑩主要参考Todd(2006)的分类方法,依据他的分类将五大期刊的论文整理归类为十类。分类方法及定义我们还参考了以下文献:余静文和王春超(2011)、洪永淼(2007)、李子奈(2008)、李子奈和齐良书(2010)、孟大虎(2008)、Angrist和Pischke(2009)、Heckman和Smith(1995)及Levitt和List(2009)等。

    (11)我们在这里及下文中之所以统计缩减形式具体类别占刊登论文总数的情况,是希望关注缩减形式的各个类别在经验研究中的地位,而不是仅仅关注缩减形式在经验研究中的地位。

    (12)在后续的讨论中我们将分析2001~2012年逐年的变动情况。

    (13)从2011年开始,AER由季刊改为双月刊,刊登的论文数量有所增加。

    (14)其他四刊发文数量相对较少,将缩减形式细分为十类后再进行分析,会导致每个类别的论文数量太少,使分析失去意义。

    (15)为便于展示,我们在图8中将出现频率较低的五类方法进行加总,由于使用这五类方法的论文数量较少,我们不再对其进行逐个分析。

    (16)具体是指田野实验、自然实验、倍差法、匹配和断点回归这五类方法。

    (17)这8位经济学家是Nicholas Bloom、Gauti Eggertsson、Xavier Gabaix、Gita Gopinath、Peter Leeson、Glen Weyl、Raj Chetty和Justin Wolfers。

    (18)采用结构模型的论文数量在2009~2012年的增长在一定程度上验证了这个假说。

    本文出处:《世界经济》;作者:肖金川,任飞,刘郁,复旦大学经济学院。

  • 卡尔·波普尔《科学发现的逻辑》

    第一章  对于若干基本问题的考察

    一个科学家,不论是理论家还是实验家,都提出陈述或陈述系统,然后一步一步检验它们。说得具体一些,在经验科学的领域里,他们构建假说或理论系统,然后用观察和实验,对照经验来检验它们。

    我想,对这个程序作出逻辑的分析,也就是说,分析经验科学的方法,就是科学发现的逻辑,或者说知识的逻辑的任务。

    但是,“经验科学的方法”是些什么?我们所说的“经验科学”又是什么?

    1.归纳问题

    按照流行的观点(本书反对这种观点),经验科学的特征是它们运用所谓“归纳方法”。按照这种观点,科学发现的逻辑等同于归纳逻辑,即这些归纳方法的逻辑分析。

    一般把这样一种推理称作“归纳的”,假如它是从单称陈述(有时也称作“特称陈述”),例如对观察和实验结果的记述,过渡到全称陈述,例如假说或理论。

    从逻辑的观点来看,显然不能证明从单称陈述(不管它们有多少)中推论出全称陈述是正确的,因为用这种方法得出的结论总是可以成为错误的。不管我们已经观察到多少只白天鹅,也不能证明这样的结论;所有天鹅都是白的。

    归纳推理是否证明为正确,或者在什么条件下证明为正确,被称作归纳问题。

    归纳问题也可以被表述为如何确立根据经验得出的全称陈述真理性的问题,经验科学的假说和理论系统就是这样的全称陈述。因为许多人相信这些全称陈述的真理性是“根据经验得知的”;但是,显然,观察或实验结果的经验的记述,首先只能是单称陈述,不能是全称陈述。因此,人们说从经验得知一个全称陈述的真理性,意思常常是这样:我们能用某种方法把这个全称陈述的真理性还原为一些单称陈述的正确性,而这些单称陈述根据经验得知是真的;这就等于说:全称陈述是以归纳推理为基础的。因此,问是否存在已知是真的自然定律不过是用另一种方法问归纳推理在逻辑上是否证明为正确。

    然而,如果我们要设法证明归纳推理是正确的,我们就必须首先确立归纳原理。归纳原理是我们借以能把归纳推理纳入逻辑上可接受的形式中去的陈述。在归纳逻辑拥护者的眼里,归纳原理对科学方法来说是极重要的。Reichenbach说:“……这个原理决定科学理论的其理性。从科学中排除这个原理就等于剥夺了科学决定其理论的真伪的能力。显然,没有这个原理,科学就不再有权利将它的理论和诗人的幻想的、任意的创作区别开来了。”

    这个归纳原理不可能是如重言式或分析陈述那样的纯逻辑真理。的确,假如有什么纯逻辑的归纳原理的话,就不会有归纳问题了。因为在这种情况下,所有的归纳推理就必须被看作纯逻辑的或重言的变形,就和演绎逻辑的推理一样。因此,归纳原理必须是一个综合陈述;就是说,这种陈述的否定并不自相矛盾,而在逻辑上是可能的。所以,问题发生了:为什么我们必须接受这样一个原理呢?我们根据理性的理由如何能证明接受它是正确的呢?

    相信归纳逻辑的人同Reichenbach一起急于指出:“归纳原理是为整个科学无保留地接受的,在日常生活里也没有人能认真地怀疑这个原理”,然而,即使假设情况是如此(毕竟,整个科学也可能是错的),我仍然认为,归纳原理是多余的,它必定导致逻辑的矛盾。

    归纳原理易于产生矛盾,这在Hume的著作里,已经说清楚了;那里还说到:即使有可能避免这种矛盾,也是很困难的。因为这个归纳原理本身也必须是一个全称陈述。假如我们试图认为它的真理性来自经验而得知,那么,导致引入归纳原理的同一个问题就再一次产生了。为了证明这个原理,我们就必须运用归纳推理;而为了证明这些归纳推理,我们就必须假定一个更高层次的归纳原理;如此等等。这样,想把归纳原理建基于经验之上的试图就破产了。因为这样做必定导致无穷后退。

    Kant试图摆脱这个困难,办法是他把归纳原理(他称作“普遍因果性原理”)看作是“先验地正确的”。但是我认为他为综合陈述提供一个先验的证明的这种试图,虽则机敏但并不成功。

    我自己的观点是:这里概述的归纳逻辑的各种困难是不可克服的。现在很流行这样一种学说:归纳推理虽然“严格地说”是不“正确的”,但能达到某种程度的“可靠性”或“概然性”。我认为,在这一种学说里同样存在着不可克服的困难。按照这种学说,归纳推理是“概然推理”。Reichenbach说:“我们将归纳原理描述为科学借以判定真理性的手段。更确切地说,我们应该说:它的作用是判定慨然性。因为科学并不能到达真理或谬误……科学陈述只能达到一系列不同程度的概然性,这种概然性不可达到的上限和下限就是真理和谬误。”

    在这个阶段,我可以不考虑归纳逻辑信仰者持有的这种概率观念,我在后面将要把它作为极不符合他们自己的论题而加以拒斥(参看下面第80节)。现在我可以这样做,因为求助于概率甚至并未触及上面已经提及的那些归纳原理所遇到的困难。因为,假如我们对根据归纳推理得来的论述给予一定程度的概率,那么为了证明它就必须援引一条新的经过适当修改的归纳原理。而这条新原理本身也必须被证明,如此等等。而且假如这条归纳原理本身也被说成不是“真的”,只是“概然的”,也得不出什么结果。简言之,和归纳逻辑的其他任何一种形式一样,概然推理的逻辑,或“概率逻辑”,不是导致无穷后退就是导致先验论的学说“。

    在下面展开论述的理论是与所有运用归纳逻辑观念的试图直接对立的。这理论可以称之为检验演绎法理论,或者说就是这样的观点:假说只能以经验来检验,而且只是在这假说被提出以后。

    在我详细论述这个观点(可以称为“演绎主义”,以与“归纳主义”相对立)以前,我首先必须将涉及经验事实的知识心理学和只与逻辑关系相联系的知识逻辑清楚地加以区别。因为对归纳逻辑的信仰多半是由于心理学问题和认识论问题的混淆。顺便说一下,可值得注意的是:这种混淆不仅对知识的逻辑而且对知识的心理学同样带来了麻烦。

    2.心理学主义的排除

    我在上面已说到:科学家的工作是提出和检验理论。

    在最初阶段,设想或创立一个理论,我认为,既不要求逻辑的分析,也不接受逻辑的分析。一个人如何产生一个新的思想(不论是一个音乐主题,一个戏剧冲突或者一个科学理论),这个问题对于经验的心理学来说,是很重要的,但是对于科学知识的逻辑分析来说,是无关的。科学知识的逻辑分析与事实的问题(Kant的quid facti[事实问题]?)无关,而只与正当或正确的问题(Kant的quid juris[权利问题]?)有关。它的问题是下列这一类的:一个陈述能被证明为正当吗?假如能够,则如何证明?它是可检验的吗?这个陈述在逻辑上是否依赖于某些别的陈述?或者与它们相矛盾?为了能以这种方式对一个陈述进行逻辑的考察,这个陈述必须已经被提到我们面前。必须有人已经表述了它并将它交付逻辑的考察。

    因此,我要在设想一个新思想的过程与逻辑上考察它的方法和由此得到的结果,这二者之间加以截然的区别。关于知识的逻辑(与认识的心理学相区别)的工作,我假定它仅在于研究在系统的检验中运用的方法,每一个新思想必须经受这种检验,如果要对它加以认真考虑的话。

    有人会反对说,把已导致科学家作出一个发现——找到某一新的真理——的步骤加以“理性重建”看作认识论的事更为合适。但是,问题在于,确切地说,我们要重建什么?假如要重建的是灵感的激起和释放的过程,那么我将不认为它是知识逻辑的工作。这种过程是经验心理学要研究的,而不是逻辑要研究的。假如要我们要理性地重建随后的检验,那就另当别论了;通过这个检验,灵感成为一项发现或变成一项知识。科学家批判地评判、改变或抛弃他自己的灵感,就此而言,他们可以(如果我们愿意)把这里所进行的方法论的分析看作一种相应的思维过程的“理性重建”。但是,这种重建并不能描述这些过程的真实情况,它只能提供一个检验程序的逻辑骨架。不过,有些人谈到我们借以获得知识的途径的“理性重建”,大概也就是指的这个意思。

    我在这本书里的论证完全不依赖于上面所说的问题。不过,不论其是否正确,我对这问题的看法是,并没有什么得出新思想的逻辑方法,或者这个过程的逻辑重建。我的观点可以这样表达:每一个科学发现都包含“非理性因素”,或者在Bergson意义上的“创造性直觉”。Einstein也说过类似的话:“探求高度普遍性的定律……从这些定律出发,用纯粹的演绎就能从这些定律获得世界的图景。达到这些……定律并没有逻辑的通路,只有通过基于对经验对象的智力爱好(‘Einfuhlung’)的直觉,才能达到这些定律”。

    3.理论的演绎检验

    按照这里我要提出的观点,批判地检验理论和根据检验结果选择理论的方法,总是按下列路线进行的。借助演绎逻辑,从尝试提出来且尚未经过以任何方式证明的一个新思想——预知、假说、理论系统,或任何其他类似的东西——中得出一些结论;然后将这些结论,在它们相互之间,并和其他有关的陈述加以比较,来发现他们之间存在的逻辑关系(如等价性、可推导性、相容性、不相容性)。

    我们可以(如果我们愿意)区别出四条不同的检验理论的路线。第一,在这些结论之间加以逻辑的比较,以此来检验理论系统的内部一致性。第二,考察理论的逻辑形式,目的是确定这理论是否具有经验的或科学的理论的性质,或者它是否是,比如重言的命题。第三,同其他的理论作比较,主要目的是确定,假如这理论经受住我们的各种检验,它是否构成科学上的进展。最后,通过能从理论推导出的结论的经验应用来检验理论。

    这最后一种检验的目的,是要找出理论的新推断(不论它自认为如何新法)耐受实践要求考验的程度。这种实践要求或是由纯科学实验引起的;或是由实际的技术应用引起的。在这里,检验的程序也是演绎的。我们借助其他过去已被接受的陈述,从理论中演绎出某些单称陈述,我们称作“预见”,特别是那种易检验或易应用的预见。从这些陈述中,选取那些从现行理论中不能推导出的,特别是那些与现行理论相矛盾的。然后我们将它们与实际应用和实验的结果相比较,对这些(以及其他)推导出的陈述作出判决。假如这判决是肯定的,就是说,假如这些单称结论证明是可接受的或被证实,那么,这理论眼下通过了检验,我们没有发现舍弃它的理由。但是,假如这判决是否定的。换句话说,假如这结论被证伪,那么它们之被证构也就证伪了它们从之合乎逻辑地演绎出来的那个理论。

    应该注意:肯定的判决只能暂时支持这理论,因为随后的否定判决常会推翻它。只要一个理论经受住详细而严格的检验,在科学进步的过程中未被另一个理论取代,我们就可以说它已“证明它的品质’,或说“它已得到验证”。

    在这里概述的程序中,没有出现任何类似归纳逻辑的东西。我从不认为我们能从单称陈述的真理性论证理论的真理性。我从不认为理论能借“已证实”的结论的力量被确定为“真的”,即使仅仅是“概然的”。

    在本书中,我想对演绎检验的方法作一更详细的分析。我将试图说明,通常称作“认识论”问题的所有问题都可以在这个分析的框架内得到处理。尤其是,由归纳逻辑产生的那些问题能够排除,而不会代之以产生新的问题。

    4.划界问题

    对这里提出来的观点,大概会有许多反对意见,其中最严重的或许是下面这种意见。反对者说,我由于摈弃了归纳法,就剥夺了经验科学最重要的特性;并且意味着我撤除了分隔科学和形而上学的思辨之间的屏障。我对这个反对意见的回答是:我摈弃归纳逻辑的主要理由,正在于它并不提供理论系统的经验的、非形而上学性质的一个合适的区别标志,或者说,它并不提供一个合适的“划界标准”。

    找到一个标准,使我们能区别经验科学为一方与科学和逻辑以及“形而上学”系统为另一方,这个问题我称之为划界问题。

    Hume知道这个问题,并试图解决它,Kant把它看作知识理论的中心问题。假如我们按照Kant那样把归纳问题称作“Hume问题”,我们也可以把划界问题称作“Kant问题。”

    我想,在这两个问题(几乎所有其他知识理论问题的根源)中,划界问题是更基本的。的确,带有经验论倾向的认识论学者所以信赖“归纳法”,其主要理由似乎是由于他们相信只有归纳法才能提供一个合适的划界标准。特别是那些信奉实证主义的经验论者是如此。

    老式的实证主义者只愿意承认那些他们所谓“导源于经验”的概念(或观念、思想),才是科学的或合理的;就是说,他们认为,这些概念可以在逻辑上还原为感性经验要素,如感觉(或感觉资料)、印象、知觉、视觉或听觉、记忆等等,现代实证主义者更明确地认为,科学不是概念的系统,而是陈述的系统“。因此,他们只愿意承认这样一些陈述是科学的或合理的,它们可以还原为基本的(或“原子的”)经验陈述——还原为“知觉判断”,或“原子命题”,或“记录语句”,如此等等”。很清楚,隐含着的划界标准就是要求归纳逻辑。

    既然我拒斥归纳逻辑,我也就必须拒斥所有这些想解决划界问题的尝试。由于这种拒斥,这个划界问题增加了它在当前研究中的重要性。对于不接受归纳逻辑的任何认识论来说,找到一种可接受的划界标准,是一项关键性的任务。

    实证主义者通常以一种自由主义方式来解释划界问题,他们把它解释为仿佛它是一个自然科学的问题。他们不认为他们的工作是提出一个合适的约定,他们相信,必须在经验科学和形而上学之间发现一种似乎在事物的本性中存在的区别。他们不断地试图证明:形而上学按其本性不过是无意义的蠢话,正如Hume所说:“诡辩和幻想”,我们应该将它们“付之一炬”。

    假如想要通过定义用“胡说”或“无意义”等词表达的只是“不属于经验科学”,那么将形而上学表征为无意义的胡说就没有价值;因为形而上学通常被定义为非经验的。但是,当然,实证主义者认为,关于形而上学他们可以说得更多一些,不只是说它的某些陈述是非经验的。“无意义”或“胡说”这些词表示或意在表示一种贬抑的评价。毫无疑问,实证主义者真正想完成的与其说是成功的划界,不如说是彻底推翻和消灭形而上学。不管是哪一种情况,我们发现,每次实证主义者试图把“有意义的”一词的意思说得更清楚一些时,总是导致同一个结果——导致“有意义语句”(区别于“无意义伪语句”)的定义,不过是重申他们归纳逻辑的划界标准。

    这一点在Wittgenstein那里“表现”得很清楚。按照他的看法,每一个有意义的命题必须可以在逻辑上还原为基本(或原子)命题。他把基本命题表征为“实在的图画”或描述(顺便说一下,这一表征包括所有有意义的命题)。我们从这一点可以看到:Wittgenstein的“有意义”的标准和归纳主义者的划界标准是相符合的,只要我们用“有意义的”代替他们的“科学的”或“合理的”等词。这个想解决划界问题的试图正是在归纳问题上遭到了失败:实证主义者在急于消灭形而上学的同时消灭了自然科学。因为科学定律也不能在逻辑上被还原为基本的经验陈述。Wittgenstein的有意义标准,假如首尾一贯地加以应用,就会把那些自然定律也作为无意义的而加以拒绝;它们决不能作为真正的或合理的陈述而接受。而探索自然定律,正如Einstein所说,是“物理学家的最高使命”。试图揭示归纳问题为一个空洞的假问题这一观点,曾被Schick“表达如下:“归纳问题在于要求关于实在的全称陈述的逻辑证明……,我们与Hume一样承认:不存在这种逻辑证明,其所以不可能有,只是因为它们不是真正的陈述”。

    这表明,归纳主义的划界标准如何不能在科学系统和形而上学系统之间划出一条分界线,以及为什么必定使二者处于同一地位;因为实证主义关于“意义”的教条判定二者都是无意义的假陈述的系统。这样一来,实证主义没有从经验科学中把形而上学根除掉,却使得形而上学侵入了科学的领域。

    和这些反对形而上学的策略(就是说,意图反对形而上学)相反,我的工作不是去推翻形而上学,而是表述概括经验科学的合适特征,或对“经验科学”和“形而上学”这两个概念下一定义,使得我们对于一个给定的陈述系统,能说对它的仔细研究是否属于经验科学的事情。

    因此,我的划界标准必须被看作对一个协议或约定的建议。对于任何一种这样的约定的适宜性,人们可以有不同的意见;而对这些问题的合理的讨论,只可能在有着某些共同目的的人们之间进行。当然,这种目的的选择最终是一种决定,超出理性论证的范围“。

    因此,任何把绝对确定的不可改变的真的陈述看作科学的目的和目标的人,一定会拒绝我在这里提出的建议。下面这样一种人也会拒绝,他们认为“科学的本质……在于它的尊贵”,他们认为这种尊贵寓于科学的“整体性”和“实在的真理性和本质性”中。他们大概不会认为现代理论物理学具有这种尊贵,而我和其他人则认为,现代理论物理学是直到目前为止我称作“经验科学”的最完全的体现。

    在我的心目中,科学的目的是不同的。然而,我并不想把它们说成是科学的真正的、本质的目的,来证明其正确性。这样做只能歪曲这个问题,而且这样做将意味着陷入实证主义的教条主义。就我所知,只有一种方法才能合理地论证我的建议,这就是:分析它们的逻辑推断,指出它们的丰富性——它们阐明知识理论问题的能力。

    因此,我坦率地承认,归根结底,是价值的判断和偏爱指导我达到我的建议的。但是我希望我的建议会被下面这样一种人接受;这些人不仅重视逻辑的严格性,而且重视摆脱教条主义;他们追求实际应用性,但是更吸引他们的,是科学的探险和科学的发现。这种发现一再使我们面对预料不到的新问题,并迫使我们作出直到现在梦想不到的新解答。

    价值判断影响我的建议这一事实,并不意味着我在犯我责备实证主义者所犯的错误——试图用谩骂来消灭形而上学。我甚至并不主张形而上学对于经验科学是毫无价值的。因为无可否认,与阻碍科学前进的形而上学思想一起,也曾有过帮助科学前进的形而上学思想,例如思辨的原子论。而且从心理学的角度来看这问题,我想,假如没有对纯思辨的有时甚至相当模糊的思想的信仰,科学发现是不可能的。这种信仰,从科学的观点来看,是完全没有根据的,因而在这个限度内是“形而上学的”。

    虽然我发出了这些警告,我仍然认为知识逻辑的第一项任务是提出一个经验科学的概念,这是为了使现在有点不明确的语言学的用法尽可能地明确,也是为了在科学和形而上学观念之间划下一条清楚的界线——即使这些形而上学观念可能在科学的历史中,曾经促进过科学的进展。

    5.作为方法的经验

    表述“经验科学”概念的一个可接受的定义的工作,不是没有困难的。某些困难是由于这一事实:必定有许多个理论系统,其逻辑结构和一个在任何特定时候被认为是经验科学的系统很相似。这个情况有时也可以这样说:存在着许多个(可能有无限多个)“逻辑上可能的世界”。但是,称作“经验科学”的系统是意在只表示一个世界:“实在世界”或“我们的经验世界”。

    为了把这个思想说得稍微确切一些,我们可以区别我们的经验理论系统必须满足的三个要求。第一,它必须是综合的,这样它能表示一个不矛盾的可能的世界。第二,它必须满足划界标准(参看第6、21节),就是说,它必须不是形而上学的,而必须表示一个可能的经验世界。第三,作为表示我们的经验世界的系统,它必须以某种方式和其他这类系统区别开来。

    那么,这种表示我们经验世界的系统是如何被区别出来的呢?回答是:根据它经历了并且经受住了对它的检验。这就是说,它是应用我要分析、描述的演绎方法区别出来的。

    根据这个观点,“经验”就成为分辨各种理论系统的辨别方法。这样,经验科学的特征就不仅在于它的逻辑形式,而且还要加上它的辨别方法(当然这也是归纳主义者的观点,他们试图以使用归纳方法作为经验科学的特征)。

    因此,知识理论的任务是分析经验科学特有的方法或程序,可以说知识理论是经验方法的理论——通常称作“经验”的理论。

    6.作为划界标准的可证伪性

    归纳逻辑固有的划界标准——就是实证主义关于意义的教条--和下列要求是等价的:所有经验科学的陈述(或所有“有意义的”陈述),必须是能最后判定其真和伪的;我们说:它们必须是“可最后判定的”。这意味着,它们的形式必须是这样:证实它们和证伪它们,二者在逻辑上都是可能的。因此,Schlick说:“……真实的陈述必须能得到最后的证实;”Waismann说得更清楚:“假如不可能确定一个陈述是否真的,那么这个陈述就没有任何意义。因为一个陈述的意义就是它的证实的方法。”

    我的观点是,不存在什么归纳“。因此,从“为经验所证实的”(不管是什么意思)单称陈述推论出理论,这在逻辑上是不允许的。所以,理论在经验上是决不可证实的。假如我们想避免实证主义者所犯过的错误,按我们的划界标准,实证主义者排除了自然科学的理论系统,那么我们就必须选择一个标准,它允许我们把即使不能证实的陈述也纳入经验科学的范围。

    但是,我当然只在一个系统能为经验所检验的条件下,才承认它是经验的或科学的。这些考虑提示:可以作为划界标准的不是可证实性而是可证伪性“。换句话说,我并不要求科学系统能在肯定的意义上被一劳永逸地挑选出来;我要求它具有这样的逻辑形式;它能在否定的意义上借助经验检验的方法被挑选出来;经验的科学的系统必须有可能被经验反驳。

    (因此,这样的陈述:“明天这里将下雨或不下雨”,不能被看作经验的,就只因为它不可能被反驳;而这样的陈述:“明天这里将下雨”就被看作经验的。)

    对于这里提出的划界标准可以提出各种反对意见。首先,科学应该给我们肯定性信息,而我的建议却认为,它的特征是能满足例如可反驳性这样的否定性要求,因此这种建议似乎是有些刚愎自用。但是,我将在第31-46节说明,这个反对意见无足轻重,因为一个科学陈述由于它的逻辑特性与可能的单称陈述冲突的可能越大,它所传达的关于世界的肯定性信息量就越大(我们称自然定律为“律”,不是没有道理的。所禁越多,所述越多)。

    其次,可以试图把我对归纳主义划界标难的批判转过来反对我自己;因为,对作为划界标准的可证伪性的反对意见,似乎和我自己反对可证实性的意见相类似。

    这个攻击并不能烦扰我。我的建议是以可证实性和可证伪性的不对称为根据的。这个不对称来自全称陈述的逻辑形式“。因为,这些全称陈述不能从单称陈述中推导出来,但是能够和单称陈述相矛盾。因此,通过纯粹的演绎推理(借助古典逻辑的否定后件的假言推理),从单称陈述之真论证全称陈述之伪是可能的。这样一种对全称陈述之伪的论证可以说是朝“归纳方向”(就是从单称陈述到全称陈述)进行的惟一严格的演绎推理。

    第三种反对意见似乎更为严重。人们可能这样说:即使承认不对称性,由于各种理由,任何理论系统最终地被证伪,仍然是不可能的。因为找到某种逃避证伪的方法总是可能的,例如,特设性地引入辅助假说,对一个定义特设性地加以修改。甚至有可能采取简单地拒绝承认任何起征伪作用的经验的态度,而并不产生任何逻辑矛盾。无可否认,科学家通常并不这样做,但是,从逻辑上说这样做是可能的。人们会说,这个事实就使得我提出的划界标准的逻辑价值,变得至少是可疑的。

    我必须承认,提出这个批评是正当的。但是我不需要因此就撤回我那采取可证伪性作为划界标准的建议。因为,我正要提出(在第20节以后),经验方法应被表征为明确地排除那些逃避证伪的方法,这些方法正如我想象中的批评者所正确坚持的,是逻辑上可能的。按照我的建议,经验方法的特征是,它使待检验的系统以一切可设想的方式面临证伪的态度,它的目的不是去拯救那些站不住脚的系统的生命,而是相反,使这些系统面临最剧烈的生存竞争,通过比较来选择其中最适应者。

    我建议的划界标准也引导我们到Hume的归纳问题——自然定律正确性问题——的解决。这个问题的根源在于下述二者之间明显的矛盾:可以称作“经验主义的基本命题”的那个命题——只有经验才能判定科学陈述的真伪——和Hume认识到归纳论证不可接受二者之间的矛盾。只有假定所有经验的科学陈述必须是“可最后判定的”,就是说,假定它们的证实和证伪二者在原则上都是可能的——只有在这样的条件下,上述矛盾才会产生。假如我们放弃这个要求,并把那仅在一种意义上可判定的——单方面可判定的,更具体地说,可证伪的——并且可以为证伪它们的系统尝试所检验的那些陈述,也承认是经验的陈述,那么,上述矛盾就消失;证伪法不以任何归纳推理为其前提,而只是以正确性没有争议的演绎逻辑的重言式变形为其前提。

    7.“经验基础”问题

    假如可证伪性作为划界标准是可应用的,那么就必须得到在证伪推理中可作为前提的单称陈述。因此,我们的标准似乎只是变换一下问题——使我们从理论的经验性质问题退回到单称陈述的经验性质问题。

    然而,即使如此,我们也有所收获。因为在科学研究实践中,与理论系统相联系的划界问题有时是迫切需要解决的,而至于单称陈述,则很少对它们的经验性质产生怀疑。的确,会发生观察的错误并因而产生假的单称陈述,但是科学家几乎从来没有理由把单称陈述称作非经验的或形而上学的。

    因此,经验基础问题——即关于单称陈述的经验性质以及如何检验它们的问题——在科学逻辑内所起的作用,和大多数其他与我们有关的问题所起的作用有点不同。因为大多数问题和研究的实践有密切的关系,而经验基础的问题几乎只属于知识的理论。然而,我必须讨论这个问题,因为它们产生了许多含糊不清之处,特别是在知觉经验和基础陈述之间的关系方面。(我称作“基础陈述”或“基础命题”的是在经验的证伪中能够作为前提的陈述:简言之,个别事实的陈述。)

    知觉经验经常被认为为基础陈述提供一种证明。人们认为,这些陈述的“基础”是感性知觉经验;认为通过知觉经验的“检查”,显示出这些陈述的真理性;或者认为知觉经验使它们的真理性成为“明显的”,等等。所有这些说法都显示一种强调基础陈述和知觉经验之间的紧密联系的完全正确的倾向。但是,因为陈述只能够根据逻辑由陈述来证明,这也是对的。因此,在知觉和陈述之间的联系依然不清楚,并且这种联系被同样模糊的说法描述,这些说法没有阐明什么东西,而是略过这些困难,或者至多用些比喻暗示这些困难。

    假如我们把这问题的心理学方面同它的逻辑、方法论方面清楚地区分开来,我想也能找到这问题的解决办法。我们必须区别下列两方面:一方面是我们的主观经验或我们的确信感,它们决不能证明任何陈述(尽管它们可以作为心理学研究的对象);另一方面是客观的逻辑关系,存在于各种科学陈述系统之间和每个系统内部。

    经验基础问题将在第25-30节中作详细的讨论。现在我最好转入科学客观性问题,因为,我刚才用过的术语“客观的”和“主观的”需要加以阐明。

    8.科学客观性和主观确信

    “客观的”和“主观的”是在历史上充满着各种矛盾用法和无结论、无休止讨论的哲学术语。

    我对“客观的”和“主观的”术语的用法不同于Kant。他用“客观的”这个词来表示科学知识应该是可证明的,不依赖于任何人的一时想法:一个证明是“客观的”,假如原则上它能被任何人所检验和理解的话。他写道;“假如某个事物对任何一个有理性的人都是合理的,那么它的基础就是客观的和充分的。”

    而我认为,科学理论不可能完全得到证明或证实,然而它们是可检验的。因此我要说:科学陈述的客观性就在于它们能被主体间相互检验。

    Kant用“主观的”一词表示我们(各种程度的)确信感。考察这些确信感如何产生是心理学的事情。例如,它们可以“根据联想定律”产生。客观的理由也可以成为“判断的主观原因”,只要我们考虑了这些理由并确信它们有说服力。

    Kant或许是第一个认识到:科学陈述的客观性是和理论的构建——和运用假说和全称陈述密切相关的。只有当某些事件能按照定律或规律性重复发生时,像在可重复的实验里的情况那样,我们的观察在原则上才能被任何人所检验。在我们重复和检验它们之前,我们甚至对自己的观察也不大认真对待,也不承认它们是科学的观察。只有根据这些重复,我们才确信我们处理的并不仅是一个孤立的“巧合”,而是原则上可以主体间相互检验的事件,因为它们有规律性和可重复性。

    每一个实验物理学家都知道,有些惊人的不可理解的外观“效应”在他的实验室里也许一度可以重复,但是最后消失得无影无踪。当然,在这种情况下,没有物理学家会说他已经作出一个科学发现(虽然他可以重新安排他的实验,以求得到可重复的效应)。的确,科学上有意义的物理效应可以定义为:任何人按照规定的方法进行适当的实验都能有规则地重复的效应。任何严肃的物理学家都不会把这种“神秘效应”(我建议的称呼)作为科学发现去发表——他不能提供如何重复它们的指示。这个“发现”会很快被当作幻想而摈弃,只是因为检验它的尝试都得到否定的结果。(因此,关于是否确有在原则上不可重复、独一无二的事件发生这个问题的争论,科学是不能判定的;这是一个形而上学的争论。)

    现在我们可以回到在前一节中提出的我的论点:主观经验或确信感决不能证明科学陈述,除了作为经验的(心理学的)研究对象外,它在科学中不可能起什么作用,不管确信感是如何强烈,它决不能证明一个陈述。因此,我可以完全深信一个陈述的真理性,确信我的知觉提供的证据,具有一种极强烈的经验,任何怀疑对我来说都是荒谬的。但是,这是否为科学提供丝毫理由来接受我的陈述呢?能否因为K.R.P.完全确信它的真理性就证明任何陈述呢?回答是,“不”。任何其他的回答都是和科学客观性的观念不相容的。我正在体验着一种确信感,对我来说是确定无疑的事实,甚至这个事实也不能在客观科学的领域里出现,除非以心理学假说的形式出现,这种假说当然要求主体之间的相互检验:心理学家可以从我有这种确信感的猜测中,借心理学的和其他的理论之助,演绎出某些关于我的行为的预见,然后在实验检验的过程中,这些预见可得到确证或者被反驳。但是,从认识论的观点来看,我的确信感是强还是弱,这是来自一种强烈的甚至不可抗拒的、确定性无可怀疑(或者“不言自明”)的印象,还是只不过来自一个可疑的臆测,这是毫不相干的。这些和科学陈述如何能被证明的问题是没有丝毫关系的。

    这样一些考虑,当然对经验基础问题并未提供一个解答。不过这些考虑至少帮助我们看到它的主要困难。由于要求基础陈述和其他科学陈述具有客观性。我们就丧失了我们希望把科学陈述的真理性还原为经验的任何逻辑手段。而且我们就不能给予那些描述经验,比如描述我们知觉的那些陈述(有时称作“记录语句”)任何优惠的地位。它们只能作为心理学陈述在科学中出现;而这就意味着:作为一种假说,它的主体间相互检验的标准肯定是不很高的(考虑到心理学的现状)。

    无论我们对经验基础问题的最后解答是什么,有一件事必定是清楚的:假如我们坚持我们的要求,科学陈述必须是客观的,那么那些属于科学的经验基础的陈述也必须是客观的,即可主体间相互检验的。但是,可主体间相互检验性总是意味着:其他的可检验的陈述能从待检验的陈述中演绎出来。因此,如果基础陈述自身也是可主体间相互检验的,那么在科学中就不可能有最终的陈述;在科学中不可能有不能被检验的陈述,因而就不可能有在原则上不能被反驳的陈述,通过证伪可从它们演绎出来的某些结论来检验和反驳这些陈述。

    因此,我们就达到下列观点:理论系统被认它们演绎出普遍性水平较低的陈述来检验。因为这些陈述是可主体间相互检验的,它们也必定是以同样的方式可检验的——这样以至于无穷。

    人们可能想到:这个观点导致无穷的后退,因此它是站不住脚的。在第1节里,当我批判归纳时,我提出了反对意见:归纳会导致无穷的后退;现在读者也许会认为,可以提出同样的反对意见,反对我自己提倡的演绎检验程度。然而,这并非如此。检验的演绎法不能确立或证明受检验的陈述;也没有打算要它这样做,因此并不存在无穷后退的危险。但是,必须承认:我引起注意的境况——无限的可检验性和没有无需检验的最终陈述——的确产生了一个问题。因为,显然事实上检验不能无限地进行,迟早我们必须停止。我在这里不详细讨论这个问题,只想指出:检验不能永远进行下去这个事实和我对每个科学陈述必须是可检验的要求并不矛盾。因为我并不要求每一个科学陈述,在被接受以前必须在事实上已被检验。我只要求每一个这样的陈述必须可能被检验;或者换句话说,我拒绝接受这样的观点:在科学中存在着我们必须顺从地当作真的陈述来接受的陈述,只是因为由于逻辑上的理由似乎不可能检验它们。

    第二章  论科学方法理论问题

    根据我在上面提出的建议,认识论或科学发现的逻辑,应该就是科学方法的理论。方法的理论,就其超出对科学陈述之间关系的纯逻辑分析之外而言,与方法的选择有关——与关于处理科学陈述的方式的决定有关。而这些决定当然又将根据我们从许多可能的目的中选择那个目的而定。这里建议的决定是为了规定我称作“经验方法”的适当的规则,这种决定是和我的划界标准密切联系的。我建议采取这些规则,它们可以保证科学陈述的可检验性,也就是可证伪性。

    9.为什么方法论决定是不可缺少的

    什么是科学方法的规则?为什么我们需要它们?可能存在这些规则的理论——方法论吗?

    人们回答这些问题的方式,主要依赖于他们对科学的态度。像实证主义者那样的人,他们把经验科学看作满足诸如有意义性或可证实性等一定逻辑标准的陈述系统,会做出一种回答。有些人包括我在内,看到经验陈述易于修正的突出的特性——人们可以批判它们,也可以用更好的陈述来代替它们;这些人认为它们的工作就是去分析科学取得进展的能力,以及在决定性的场合,在互相矛盾的理论系统之间作出选择的独特方法。这些人对上述问题就会做出很不同的回答。

    我很愿意承认有必要对理论进行纯逻辑的分析,这种分析不考虑理论的变化和发展。不过,这种分析并没有阐明经验科学的那些我所高度评价的方面。一个系统,例如经典力学,也许是非常“科学的”;但是教条主义地坚持它的那些人——也许他们相信,他们的任务就是在它没有被最终否证以前,保卫这样一个取得成功的系统免遭批判——他们就是采用一种和批判态度相反的态度,而我认为这种批判态度是科学家应该采取的。事实上,不可能产生对理论的最终否证;因为人们总是可能说:实验结果是不可靠的,或者说,人们断言在实验结果和理论之间存在的不一致仅仅是外观的,它们将随着我们的理解的深入而消失(在反对Einstein理论的斗争中,这两种论证都曾被用来支持Newton力学,在社会科学领域里,类似的论证很多)。如果你在经验科学领域里坚持严格的证实(或者严格的否证”),你就决不会从经验中得到益处,决不会从经验中知道你是怎么错的。

    所以,假如我们仅仅以科学陈述的形式的或逻辑的结构作为经验科学的特征的话,我们就将不能从经验科学中排除那种流行的形而上学,这种形而上学是把一个过时的科学理论格高为不可辩驳的真理的结果。

    这些就是我所以建议必须以经验科学的方法作为它的特征的理由。这里说的方法就是:我们处理科学理论的方式;我们用它做些什么,我们对它做些什么。因此,我将设法建立一些规则,或者可以说规范,来指导科学家去进行研究,或者说,在这里所理解的意义下的科学发现。

    10.对方法论的自然主义观点

    我在前一节里谈到的关于我的看法和实证主义者的看法之间的深刻区别,需要加以展开论述。

    实证主义者不喜欢这样的观念:在“实证的”经验科学的领域以外,还应存在着有意义的问题——真正的哲学理论所处理的问题。他们不喜欢这样的观念:应该有真正的知识理论,认识论或方法论。他们期望在所谓哲学问题中只看到“假问题”或“疑难”。他们的这种期望——顺便说一说,他们并不称之为期望或建议,而是称之为事实的陈述——总是可以被满足的。因为很容易揭示一个问题为“无意义的”或“假的”。你所要做的只是给“意义”这个词一个合适的狭窄含意就行,因此你就很快不得不说你在任何不合适的问题中,不能发现任何意义。而且,只要你认为除了自然科学的问题以外,就没有有意义的问题,任何关于“意义”概念的争论也就成为没有意义的了,关于“意义”的教条一旦建立起来,就被抬高成为永远不可争论的东西。它再也不受攻击。用Wittgen-stein的话来说,它已变成“不能攻击的和确切无疑的”了。

    关于哲学是否存在或者有无权利存在这一易引起争论的问题,几乎和哲学本身一样古老。一种完全崭新的哲学运动一再兴起,它们自以为已把古老的哲学问题最终地揭露为假问题,把哲学的邪恶的无意义和有意义的、实证的、经验的科学的良见卓识加以对照。而“传统哲学”的受鄙视的捍卫者,则一再试图对最近进行实证主义攻击的领导人解释:哲学的主要问题是对诉诸“经验”权威进行批判分析——正是这个“经验”,每一个实证主义的最新发现者和过去一样,自然而然地认为它是理所当然的。然而,对待这样一些反对意见,实证主义者只是耸耸肩,回答说:这些反对意见对他们来说没有意义,因为它们不属于经验科学,而只有经验科学才是有意义的。“经验”对他们来说,是一个纲领,而不是一个问题(除非它为经验心理学所研究)。

    我想实证主义者大概不会有任何其他不同的反应,来对待我自己分析“经验”的尝试,我把经验解释为经验科学的方法。因为他们认为只存在两种陈述:逻辑的重言式和经验的陈述。因此,假如方法论不是逻辑,他们就会得出结论,它就必定是某种经验科学的分支——正在工作的科学家的行为的科学。

    这种观点可以称之为“自然主义的”。按照这种观点,方法论本身也是一种经验科学,它研究科学家的实际行为,或“科学”的实际程序。毫无疑问,自然主义的方法论(有时称作“科学的归纳理论”)有它的价值。一个学习科学逻辑的学生,会对它发生兴趣并从中学习到东西。但是我称作“方法论”的东西不应被当作一种经验科学。我相信,不可能用经验科学的方法来判定如科学是否真正运用归纳原理这样的有争议的问题。当我想到,什么东西应被称为“科学”,什么人应被称为“科学家”这种问题总是一种约定或决定的事情时,我这种怀疑就增加了。

    我想这样一类问题应该用不同的方式来对待。例如,我们可以考虑和比较两种不同的方法论规则的系统;一种运用归纳原理,一种不运用。然后,我们可以考察,这样一种原理一旦被引进了,是否能应用而不产生矛盾,是否对我们有帮助;我们是否真正需要它。就是这种探究使我舍弃了归纳原理,不是因为这样一种原理事实上在科学中从不被使用,而是因为我认为,它不是必需的;它对我们并没有帮助;甚至会产生矛盾。

    因此,我摈弃自然主义观点。它是非批判性的。它的赞成者没有注意到:凡是他们认为自己已经发现一个事实的时候,他们只不过提出了一种约定。因此这种约定易于变成一种教条。对自然主义观点的这个批判,不仅适用于它的意义标准,而且也适用于它的科学观念并且因而适用于它的经验方法观念。

    11.作为约定的方法论规则

    在这里,方法论规则被当作约定。它们被描述为经验科学的游戏规则。它们不同于纯逻辑的规则,与奕棋规则相当相象,很少人会把奕棋规则当作纯逻辑的一部分;因为纯逻辑的规则支配着语言学公式的变形。对奕棋规则的研究结果也许可以称作“奕棋的逻辑”,不过不是纯而简单的“逻辑”。(同样,对科学游戏——即科学发现——的规则的研究结果,可以称作“科学发现的逻辑”。)

    可以举两个简单的方法论规则为例。它们足以表明,把方法的研究和纯逻辑研究放在同一层次上是不适当的。

    (1)科学的游戏原则上是没有终点的。有一天有人决定,科学陈述不再要求任何进一步的检验,可以认为这些陈述得到最终证实,他就退出这个游戏。

    (2)一旦一个假说被提出、被检验、被证明它的品质,没有“正当理由”就不允许它退出。“正当理由”可以是,比如:这一假说为另一个更可检验性的假说所代替;或者对这一假说的某个推断的证伪(“更可检验的”这一概念以后要作更充分的分析)。

    这两个例子表明方法论规则是什么样子的。很清楚,它们和通常称作“逻辑的”规则是很不同的。虽然逻辑也许可以建立判定一个陈述是否可检验的标准,但是它肯定不涉及是否有人尽力去检验这一陈述这个问题。

    在第6节里,我曾试图用可证伪性的标准来定义经验科学,但是由于我不得不承认某些反对意见的正当性,我曾允诺对我的定义作一方法论的补充。正如可以用适合于奕棋的规则来对它下定义一样,也可以用经验科学的方法论规则来对它下定义。建立这些规则时,我们可以系统地进行。首先要规定一个最高规则,作为判定其他规则的一种规范,因而它是一种更高类型的规则。这一规则就是:科学程序的其他规则必须这样来设计,它们并不保护科学中的任何陈述不被证伪。

    因此,方法论规则既与其他的方法论规则密切联系,又与我们的划界标准密切联系。但是,这种联系不是一种严格的演绎的或逻辑的联系。更确切地说,这是由于构建这些规则的目的是,在于保证我们的划界标准的可应用性;因此,它们的形成和为人们接受都是根据一个更高类型的实用规则来进行的。关于这点的一个例子已经在前面说到(参看规则1)。我们决定不提交任何进一步的检验的理论就不再是可证伪的了。正是在规则之间的这种系统的联系,才使得我们谈论方法的理论是恰当的。大家承认,这种理论的宣布,就如我们举的例子所表明的那样,绝大部分是一种相当明显的约定。方法论并不是什么深奥的真理。不过,方法论在许多情况下,可以帮助我们弄清逻辑境况,甚至解决某些迄今已证明不好对付的广泛的问题。比如,其中之一就是判定概率陈述何时应该接受或者拒斥的问题(参看第68节)。

    人们经常怀疑,知识理论的各种问题相互之间是否有系统的关系,以及它们能否得到系统的处理。我在本书里希望表明这些怀疑是不合理的,这一点是相当重要的。我所以提出我的划界标准的惟一理由是,它是很有成效的,它可以帮助我们弄清和解释很多问题。Menger说:“定义是教条,只有认定义引出的结论才能给我们某些新的洞察力”这肯定也适用于“科学”概念的定义。正是从我的经验科学的定义的推断和根据这个定义得出的方法论决定,科学家才能看出我的定义和他对他的努力的目标的直觉观念是如何的一致。

    哲学家也只有他们能接受从我的定义引出的推断时,才会接受我的定义。我们必须使哲学家感到满意:这些推断使得我们能够发现在过去知识理论中存在的矛盾和不恰当之处,以及追溯到这些矛盾和不恰当从之而来的基本假定和约定。我们也要使他们感到满意:我们的建议并不受到同类困难的威胁。这个发现和解决矛盾的方法也适用于科学本身,但是它在知识理论里有其特殊的重要性。正是依靠这种方法(假如依靠的话),方法论约定才可得到证明,并可证明它们的价值。

    我担心,哲学家是否会把这些方法论的研究看作属于哲学,这是十分可疑的,但是实际上这并没有多大关系。不过在这方面值得提及的是,不少形而上学的因而肯定是哲学的学说可以被解释为方法论规则的典型的实体化。其中一个例子,即所谓“因果性原理”将在下一节讨论。另一个我们已经遇到的例子是客观性问题。因为科学客观性的要求也可以解释成一条方法论规则:只有那些可以主体间相互检验的陈述才可被引进科学中(参看第8、20、27节和其他地方)。的确可以这样说:理论哲学的大部分问题,而且是最有趣的问题,都能用这种方式被重新解释成为方法的问题。

    第三章 理论

    经验科学是理论的系统。所以,科学认识的逻辑可说是理论的理论。

    科学理论是全称陈述。像所有的语言表示的一样,科学理论是记号或符号的系统。因此,我认为用下列的说法来表示全称理论和单称陈述之间的区别是毫无裨益的:单称陈述是“具体的”,而理论则仅是符号公式或符号图式。因为,甚至对最“具体的”陈述也可以完全同样地说是符号公式或符号图式。

    理论是我们撤出去抓住“世界”的网;使得世界合理化,说明它,并且支配它。我们尽力使得这个网的网眼越来越小。

    12.因果性、解释和预见的演绎

    给予某一事件以因果解释就是演绎出一个描述这一事件的陈述,运用一条或更多条的普遍性定律以及某些单称陈述即初始条件,作为演绎的前提。例如,我们可以说已经给一根线的折断作了因果解释,如果我们发现这根线的抗张强度是1磅,而我们放了2磅的重物在它上面。假如我们分析这个因果解释,我们就发现有几个组成部分。一方面,有一个假说:“凡是一根线上面放一重量超过这根线的抗张强度,这根线就要断”,这个陈述有着普遍性自然规律的性质,另一方面,我们有单称陈述(在这个例子里有两个),它只应用于这里说的特殊事件:“这根线的抗张强度是1磅”和“放在这根线上的重物重2磅”。

    因此,我们有两个不同种类的陈述,它们都是一个完全的因果解释的必要成分。它们是:(1)全称陈述,就是带有自然定律性质假说:(2)单称陈述,它应用于所讨论的特殊事件上,我称之为“初始条件”。我们正是从和初始条件合取的全称陈述中,演绎出这个单称陈述:“这根线要断”。我们称这个陈述为一个特殊的或个别的预见。

    初始条件描述该事件的通常被称作“原因”的东西(2磅重物放在只有1磅抗张强度的线上是这根线断的“原因”)。预见描述通常被称作“结果”的东西。我将避免使用这两个术语。在物理学里,“因果解释”这个表达方式的应用通常只限于一种特殊情况,在这种情况下,普遍定律具有“接触作用”定律的形式,或者更确切地说,用微分方程表示的无穷地接近零的距离的作用。我在这里不假定这种限制。而且,我并不想对这个理论解释的演绎方法的普适性作出一般的断言。因此我并不断言任何“因果性原理”(或者“普遍因果性原理”)。

    “因果性原理”主张:对任何事件都能作出因果解释——能用演绎对它作出预见。按照人们对这个论断里的“能”这个词的不同解释,这个论断或者是重言的(分析的)或者是关于实在的论断(综合的)。因为,如果“能”的意义是:作出因果解释在逻辑上总是可能的,那么这个论断就是重言的,因为对任何预见我们总能找到可以由之演绎出这个预见的全称陈述和初始条件。(这些全称陈述是否在其他场合已被检验和验证,当然是一个不同的问题。)然而,如果“能”的意义是表示,世界为严格的定律所支配,世界是这样构成的:每一个特殊事件都是普遍规律性或定律的一个实例,那么这个断言显然是综合的。但是在这种情况下,这个断言是不可证伪的。这一点将在下面第78节中讨论。所以,我既不采纳也不拒绝“因果性原理”;我满足于简单地把它当作“形而上学的”原理从科学领域里排除出去。

    然而,我要提出一条方法论规则来,它和“因果性原理”是如此一致以至后者可以被当作它的形而上学翻版。正是这条简单的规则,我们不放弃对普遍性定律和自治的理论系统的追求,也不放弃对任何种类我们能加以描述的事件作出因果解释的尝试。这条规则指导着科学研究者的工作。这里我不赞成这样的观点:物理学的最近发展要求放弃这条规则,或者说,现在物理学已确证,至少在一个领域里继续寻找定律再也没有意义了。这一点将在第78节里讨论。

    13.严格的和数的全称性

    我们可区别两种全称综合陈述:“严格的全称”和“数的全称”。到此为止,当我讲到全称陈述(理论或自然律)时,我指的是严格的全称陈述。另一种,数的全称陈述实际上等于某些单称陈述,或者说,一些单称陈述的合取。在这里,它们被归入单称陈述一类。

    例如,比较下列两个陈述:(a)谐波振荡器的能量决不会降到一定数量之下(即hv/2),适用于所有的谐波振荡器;(b)人的身高不超过一定数量(比如8英尺)适用于所有生活在地球上的人。只涉及演绎理论的形式逻辑(包括符号逻辑)将这种陈述同样地当作全称陈述(“形式的”或“一般的”蕴涵)。然而,我认为必须强调它们之间的区别。陈述(a)要求在任何地方任何时间都是真的。陈述(b)只涉及在有限的个别的(或特殊的)时空区域内特殊元素的有限类。后一种陈述原则上可以为单称陈述的合取所代替;因为只要有足够的时间,人们可以列数有关的(有限)类的所有元素。这就是为什么我们在这种情况下称之为“数的全称”。与之相对照,对于振荡器的陈述(a),就不能为在一定的时空区域内有限数量的单称陈述的合取所代替;或者更确切地说,它只能根据下列假定被代替:世界在时间上是有限的,在此时间内只存在有限数量的振荡器。但是我们并不作任何这种假定;特别是,在对物理学的概念下定义时,我们不作任何这种假定。我们宁可把如(a)类型的陈述当作全陈述(all-statement),即关于无限个体数的全称断言。这就清楚地解释了它不能为有限数量的单称陈述的合取所代替。

    我使用严格全称陈述(或“全称述”)这一概念是和下列观点相对立的:原则上每个综合的全称陈述必定可被翻译成有限数量的单称陈述的合取。主张这种看法的人或者援引他们的要求可证实性的意义标准,或者某种类似的考虑,坚持认为我称作“严格全称陈述”的陈述决不可能得到证实,所以他们拒绝这些陈述。

    很清楚,根据这种抹煞单称陈述和全称陈述之间的区别的自然律观点,归纳问题就似乎被解决了;因为,显然,以单称陈述推论到数的全称陈述是完全可接受的。但是同样清楚的是,这个解决办法并不影响归纳的方法论问题。因为,要证实一个自然定律只能用经验来肯定这定律可以应用到的每一个个别事件,并发现每一个这样的事件都真正地与这定律相符合,很清楚,这是一项不可能完成的工作。

    在任何情况下,科学定律是严格的全称还是数的全称的问题不能用论证来解决。这是只能用协议或约定来解决的那些问题之一。鉴于上述的方法论境况,我认为把自然律看作综合的和严格的全称陈述(“全陈述”)即有用又有成效。这就是把它们当作不能证实的陈述,(我们可以用下列形式来表示它:“……适用于在时空中的所有点(或者在时空的所有区域)”。与此相对照,仅仅涉及一定的有限时空区域的陈述,我称之为“特称的”或“单称的”陈述。

    严格的全称陈述和只是数的全称陈述(实际上是一种单称陈述)之间的区别只应用于综合陈述。不过,我可以提到把这种区别也应用到分析陈述的可能性(比如,某种数学陈述)。

    14.普遍概念和个别概念

    在全称陈述和单称陈述之间的区别与在普遍概念或名称和个别概念或名称之间的区别是密切联系的。

    通常用下列这种例子来说明这种区别:“独裁者”、“行星”、“H2O”是普遍概念或普遍名称;“Napoleon”、“地球”、“大西洋”是单一的或个别的概念。在这些例子里,个别概念或名称的特征是专有名词或者必须用专有名词来定义,而普遍概念或名称能够不用专有名词来定义。

    我认为在普遍概念或名称和个别概念或名称之间的区别,具有基本的重要性。科学的一切应用的基础就是从科学假说(它们是普遍的)推知个别情况,就是演绎出个别预见。但是,在每一个单称陈述里,个别概念或名称一定会出现。

    在科学的单称陈述里出现的个别名称,常常出现在时空坐标形式中。这是容易理解的,只要我们考虑到时空坐标系的应用总是关联到个别名称。因为我们必须固定它的原点,而我们只有采用专有名词(或者与之等价的东西)才能做到这一点。“格林威治”和“耶稣诞生之年’这些名称的采用说明了我的意思。用这种方法可以把有着任意大的数量的个别名称还原为很少的一些个别名称。

    有时这种模糊的一般用语如,“这里的这个东西”,那里的那个东西”等等,可以用作个别名称,也许还和某种直接表示的手势联系在一起,简言之,我们可以使用一些记号,它们虽然不是专有名词,但是在某种程度上和专有名词或个别坐标是可以互换的。但是,普遍概念也可以用直接表示的手势表示出来,但只是模糊地表示。我们可以指着某些个别事物(或事件),然后用短语“以及其他类似的事物”(或者“等等”)来表示我们想把这些个体看作只是某一个类的代表,我们应该给这个类一个适当的普遍名称。毫无疑问,我们正是从直接表示的手势以及类似的手段中学习普遍词的运用,也即它们之应用于个体。这样一种应用的逻辑基础是,个别概念不仅可以是类的元素的概念,而且可以是类的概念,因而它们和普遍概念的关系不仅可以是元素和类的关系,而且也可以是子类和类的关系。例如,我的狗路克斯(Lux)不仅是个别概念维也纳狗这一类的元素,而且也是普遍概念哺乳动物这一(普遍)类的元素。而维也纳狗不仅是奥地利狗这一(个别)类的一个子类,而且也是哺乳动物这一(普遍)类的一个子类。

    用“哺乳动物”这一个词作为普遍名称的例子可能引起误解。因为像“哺乳动物”、“狗”等等这些词在通常的用法中是模棱两可的。这些词被认为是个别类名称还是作为普遍类名称,取决于我们的意图,即取决于我们想说的是生活在地球上的动物的一个种(个别概念)呢,还是想说的是具有某些特性的一种自然物体,这些特性能用普遍术语来描述。同样的模棱两可也出现在使用“Pasteurized”(“消毒的”)、Linnean System”(“林奈系统”)和“Comtinism”(“拉丁语惯用法”)这样一些概念的使用中,因为有可能去除它们所涉及的专有名词(或者用这些专有名词来定义它们)。

    上面说的这些例子和解释应使大家明了“普遍概念”和“个别概念”在这里是什么意思。假如要我下定义,我就不得不如上面那样说:“个别概念是这样一种概念,对它下定义时,专有名词(或等价的记号)是必不可少的。假如能完全不提及任何专有名词,那么这个概念就是一个普遍概念。”不过任何这样的定义只有很小的价值,因为它所做的一切只是把个别概念或名称的观念还原为专有名词的观念(在一个个别的自然物的名称的意义上)。

    我相信我的用法与“普遍的”、“个别的”等词的习惯用法相当接近。但是不管这是否是这样,我当然认为这里的区别是必不可少的,如果我们不想去模糊在全称陈述和单称陈述之间的相应区别的话(在普遍概念和归纳问题之间存在着完全类似的关系)。鉴别一个个别事物,只根据它的普遍的性质和关系,这种性质和关系似乎是专属于它而不属于任何其他事物。这种试图是预先注定要失败的。这样的程序不是去描述一个个别事物,而是描述一些性质和关系所属的所有个体的普遍类。即使用一个普遍的时空坐标系也不能改变这一点。因为是否存在任何与用普遍名称描述相符的个别事物,假如存在,又有多少,必须始终是一个待解决的问题。

    同样地,任何用个别名称对普遍名称下定义的试图也是注定要失败的。这个事实经常为人们忽视。人们广泛地相信有可能用所谓“抽象”的方法从个别概念上升到普遍概念。这个观点和归纳逻辑有着密切的关系,归纳逻辑是从单称陈述过渡到全称陈述。从逻辑上说,这些程序是同样不可行的。不错,人们用这种办法能够得到个体类,但是这些类仍然是个别概念——用专有名词来定义的概念(这样的个别的类概念的例子有:“Napoleon的将军们”,“巴黎的居民们”)。因此,我们看到,我所说的在普遍名称或概念和个别名称或概念之间的区别与在类与元素之间的区别无关。普遍名称和个别名称两者都可以作为某些类的名称出现,也可以作为某些类的元素的名称出现。

    因此,Carnap用下面的论据来除去个别概念和普遍概念的区别是不可能的。他说“……这个区别是不能证明的,”因为“……按照所采取的观点,每一个概念都能被看作个别概念或者普遍概念。”Carnap想以下列论断来支持这个看法:“……正如普遍概念那样,(几乎)所有的所谓个别概念都是类的名称”。正如我已经表明的,这个论断是很正确的,但是和这里所讨论的区别不相干。

    在符号逻辑(曾经叫做“logistics”)的领域里的其他工作者曾同样混淆了普遍名称和个别名称的区别与类和它们的元素之间的区别。用术语“普遍名称”作为“类的名称”的同义语,用“个别名称”作为“元素的名称”的同义语,当然是允许的;但是这样的用法没有什么意义。问题并不能这样得到解决。另一方面,这种用法却很妨碍人们看到这些问题。这里的情况和前面讨论全称陈述和单称陈述之间的区别时遇到的情况很相似。符号逻辑这一工具用来处理普遍概念问题和用来处理归纳问题一样是不合适的。

    15.严格全称陈述和严格存在陈述

    把全称陈述说成是没有个别名称在其中出现的陈述当然是不够的。如果“渡鸦”这词用作一个普遍名称,那么,显然“所有渡鸦都是黑的”就是一个严格全称陈述。但是,在许多其他的陈述中,诸如“许多渡鸦是黑的”、“有些渡鸦是黑的”、“有一些黑渡鸦”等等,也只出现普遍名称;然而我们当然不应称他们为全称陈述。

    只有普遍名称没有个别名称出现的陈述,我们叫它“严格的”或“纯粹的”陈述。其中最重要的就是我们已经讨论过的严格全称陈述。此外,我特别对“有一些黑渡鸦”这样形式的陈述感兴趣。这一陈述可以被认为与下列陈述同一意思:“至少存在一只黑渡鸦”。我称这种陈述为严格或纯粹存在陈述(或“有”陈述)。

    严格全称陈述的否定总是与严格存在陈述等值,反过来说也是一样。例如,“不是所有的渡鸦都是黑的”就等于说:“存在着一只不黑的渡鸦”或“有非黑渡鸦”。

    自然科学的理论,特别是所谓自然定律,具有严格全称陈述的逻辑形式;因此它们可以被表达成严格存在陈述的否定形式,或者可以称作非存在陈述(或“无”陈述)。例如,能量守恒定律可以表达为这样的形式“不存在永动机”,基本电荷的假说可以表达为这样的形式:“除了基本电荷的倍数以外,不存在任何电荷”。

    在这个表述里,我们看到:自然定律可以和“排斥”或“禁止”相比拟。它们并不断言什么东西存在着或具有某种状态;而是否定它。它们坚持一定的事物或状态的不存在,可以说是排斥或禁止这些事物或状态:自然定律排除它们。正因如此,它们是可证伪的。如果有一个单称陈述断言为定律所排除的某一事物存在(或某一事件发生),因而可以说违反了禁令,而我们认为这个陈述是真的,那么这个定律就被反驳了(一个例子是:“在某个地方,有一个装置是永动机”)。

    与严格全称陈述相反,严格存在陈述不能被证伪。任何单称陈述(就是“基础陈述”、关于某一观察事件的陈述)都不能反驳存在陈述“有白渡鸦”。只有全称陈述司以做到这点。根据我在这里采取的划界标准,我必须把严格存在陈述当作非经验的或“形而上学的”陈述来对待。乍一看来,这样的说法似乎是可疑的,和经验科学的实际不大符合。人们可以提出反对意见,(合理地)断言:甚至在物理学里,有些理论具有严格存在陈述的形式。一个例子是一个可从化学元素周期系统中演绎出的陈述,它断言有一定原子序数的元素的存在。但是假如这个假说(存在一种具有一定原子序数的元素)这样提出,使它成为可检验的,那么就需要比一个纯粹存在陈述更多得多的东西。例如,具有原子序数72的元素(铪)的发现,并不仅仅根据一个孤立的纯粹存在的陈述相反,直到Bohr成功地从他的理论中演绎出它的若干性质的预见以前,所有发现它的尝试都失败了。而Bohr的理论以及其结论与这个元素有关并帮助发现它的那些理论都远不是孤立的纯粹存在陈述它们是严格全称陈述。我决定把严格存在陈述当作非经验的——因为它们是不可证伪的——是有益的,而且是和日常用法相符合的。这一点从它应用于概率陈述和应用于用经验来检验这种陈述的问题中可以看到(参看第66-68节)。

    严格的或纯粹的陈述,不论是全称的还是存在的,对于空间和时间来说,都是不受限制的。它们并不涉及一个个别的、有限的时空区域。这是为什么严格存在陈述不是可证伪的理由。我们不能去搜索整个世界来确定某个事物不存在,过去从未存在过,将来也不会存在。正由于同一个理由,严格全称陈述不是可证实的。同样,我们不能去搜索整个世界来确定定律所禁止的事物不存在。然而,两种严格的陈述,即严格存在陈述和严格全称陈述,原则上都是可用经验判定的;不过,每一种的判定都只是单向地,单方面可判决的。每当发现某个事物在某个地方存在,一个严格存在陈述因此而被证实,或一个全称陈述被证伪。

    这里描述的不对称以及由此引出的推断,即经验科学的全称陈述的单方面可证伪性,现在也许比在以前(在第6节中)不那么引起怀疑了。现在我们看到,这里没有涉及任何纯逻辑关系的不对称,相反,逻辑关系显示对称性。全称的和存在的陈述是对称地构建出来的,仅仅是我们的划界标准画出的一条线产生了不对称性。

    16.理论系统

    科学理论永远在变化着。这不是仅仅由于偶然的缘故,而是按照我们对经验科学的特征的理解,完全可以预期到的。

    也许这就是为什么,一般地说,只有科学诸分支——而且只是暂时地——达到精致的、逻辑上建构严密的理论系统的形式。尽管如此,一个试验性的系统通常完全能够作为一个整体来加以考察,包括它所有的重要推断,这是非常必要的。因为对系统的严格检验预先假定,这系统当时在形式上是足够的确定和不可更改,使得新的假定不可能偷运进来。换句话说,系统必须表述得足够的清楚和明确,使得我们易于辨认出每一个新假定是一种系统的修改,因而是一种修正。

    我相信,这是为什么一个严密的系统的形式被作为目的来追求的理由。这种形式是所谓“公理化系统”——例如,Hilber能够赋予理论物理学某些分支这种形式。人们试图收集所有必需的假定(但是不多于必需的)来形成系统的顶点。它们通常被称作“公理’(或“公设”、“原始命题”;在这里使用的“公理”这个术语,并不意味着认为它是真理)。公理是这样来选择的:所有其他属于这个理论系统的陈述都能用纯逻辑的或数学的变换从这些公理中推导出来。

    一个理论系统可以说是公理化了,假如已表述的一组陈述,即公理,满足下列四个基本的要求。(a)公理系统必须是没有矛盾的(不论是自相矛盾还是相互矛盾)。这等于要求,不是每一个任意选择的陈述可以从这系统中推演出来。(b)这系统必须是独立的,即它不准包含任何可以从其他公理中推演出来的公理(换句话说,只有一个陈述不能从系统的其余部分中推演出来,它才能被称为一个公理)。这两个条件是关于公理系统本身的;至于对公理系统和理论的主体的关系来说,公理必须是(c)充足的,足以使所有属于要公理化的那个理论的陈述得以推演出来;为了同样的目的,必须是(d)必要的;这意味着它不应包含多余的假定。

    在这样的公理化的理论里,考察这系统的各个部分的相互依赖性是可能的。例如,我们可以考察理论的一定部分是否可以从公理的某一部分中推演出来。这种考察(在第63和64、75-77节里对此将要更多地谈到)对于可证伪性问题有重要的关系。它们使我们弄清楚为什么一个逻辑上演绎出的陈述的证伪有时不影响整个系统,而只是影响这系统的某个部分,这个部分因此可被看作已被证伪。这是可能的,因为虽然物理学理论一般并没有完全公理化,但是这理论的各部分之间的联系可以很清楚,使得我们能够判定它的哪一个子系统受到某一特定的起征伪作用的观察所影响。

    17.公理系统解释的几种可能性

    在这里不讨论古典惟理论的观点:某些系统的“公理”,比如Euclid几何学的公理,必须被看作直接地或直觉地确定无疑的,或不证自明的。我只是表示我不同意这个观点。我认为对于任何公理系统的两个不同的解释是可以接受的。公理或者可以被看作是(i)约定,或者可以被看作是(ii)经验的或科学的假说。

    (i)假如公理被看作约定,那么它们就限制公理所引进的基本观念(或原始术语或原始概念)的用法或意义;它们决定关于这些基本观念能说什么和不能说什么。有时公理被描述为它们引进的观念的“隐定义”(implicit definitions)。这个看法也许能用公理系统和(自指的和可解的)方程式系统之间的类比来说明。

    在方程式系统中出现的“未知数”(或变量)的可允许值是以某种方式由这方程式系统所决定的。即使方程式系统不足以提供惟一的解,它也不允许每一个可设想的数值组合代人“未知数”(变量)。更确切地说,方程式系统认为一定的数值组合或数值系统是可接受的,其他的则是不可接受的;它将可接受的数值系统类和不可接受的数值系统类区别开来。同样,概念系统可以用称作“陈述方程式’的方法,分为可以接受的和不可接受的。陈述方程式是从命题函项或陈述函项(参看第14节注6)中得出的;这是不完全的陈述,在其中有一个或更多的“空位”出现。这种命题函项或陈述函项的两个例子是:“元素x的同位素具有原子量65”,“x+y=12”。用一定的值代入这些空位,x和y,每一个这种陈述函项就变换成陈述。按照代入的值(或值的组合),得出的陈述将或者是真的,或者是假的。例如在第一个例子中,用“铜”或“锌”代人x产生一个真的陈述,而代入其他字得出假的陈述。假如我们对某个陈述函项决定只允许那些能使这函项变成真陈述的值代人,我们就得到了我所说的“陈述方程式”。用这种陈述方程式,我们定义某一确定的可接受的值系统类,即那些能满足这一方程式的值系统类。与数学方程式的类同是明显的。如果我们的第二个例子不解释为陈述函数,而是解释为陈述方程式,那么这就变成一个普通(数学)意义的方程式。

    因为公理系统的未定义的基本观念或原始术语能被看作空位,公理系统开始时可以被作为陈述函项系统来处理。但是,假如我们决定只有那些能满足这系统的值系统或值组合可以代人,那么它就变成一个陈述方程式系统。它本身隐含地定义了一个(可接受的)概念系统类。每一个满足一个公理系统的概念系统可以被称作“这个公理系统的模型。”

    公理系统解释为约定系统或隐定义系统,也可以表述为:它等于只允许模型可作为代人物这样一种决定。但是,如果代入一个模型,那么结果就是一个分析陈述系统(因为它是因约定而成为真的)。因此用这样的方法解释的公理系统不能被看作(在我们意义上的)经验的或科学的假说系统,因为它不能因它的推断的被证伪而被反驳;因为这些推断也必定是分析的陈述。

    (ii)可以问:那么,公理系统怎样才能被解释为经验的或科学的假说系统呢?通常的看法是,在公理系统里出现的原始术语不能看作被下了隐定义的,而应看作“逻辑外的常数”。例如:出现在每一个几何学公理系统里的概念“直线”和“点”,可以被解释为“光线”和“光线的交叉点”。人们认为,用这样的方法,公理系统的陈述就变成关于经验对象的陈述,也就是说,变成综合陈述。

    初看起来,这个观点似乎能使人完全满意。然而这导致和经验基础问题相联系的困难。因为,什么是定义一个概念的经验方法是很不清楚的,人们习惯地谈到“直指定义”(“ostensive definitions”),它的意思就是给予概念以一定的经验定义,把这个概念和属于实在世界的一定对象联系起来。因此,它被认为这些对象的符号。但是,本来应该很清楚,只有个别名称或概念才能用下列方法来确定:直接指示“实在的对象”——比方说指向一定的物体,同时说出一个名称,或者贴上一个带有一个名称的标签,等等。然而,在公理系统里使用的概念应该是普遍名称,而普遍名称是不能用经验的表示、指向等等来定义的。假如可以下定义的话,它们只能用其他普遍名称下显定义(explicitly defined);否则,它们只能仍是未定义的概念。所以,有些普遍名称必定仍然是未定义的,这是完全不可避免的。困难就在这里,因为,这些未定义的概念总是可以被用于非经验的意义(i),就是说,好像它们是被下了隐定义的概念。然而,这种用法必定不可避免地破坏了系统的经验性质。我相信,这个困难只能用方法论决定的办法来克服。为此,我将采用一条规则:不要这样使用未定义的概念,仿佛它们被下了隐定义似的(这点将要在下面第20节中谈到)。

    在这里,我也许可以补充说明:一个公理系统(例如几何学)的原始概念通常是可能和另一个系统(例如,物理学)的概念相联系的,或者为后者所解释。在某一门科学的进化过程中,当一个陈述系统正在用一个新的(更加一般的)假说系统来解释的时候,上述可能性特别重要。从这个新的假说系统中,不但可以演绎出属于第一个系统的陈述,而且可以演绎出属于其他系统的陈述。在这样的情况下,用原来在某个旧的系统中使用的概念来定义新系统的基本概念是可能的。

    18.普遍性水平 否定后件假言推理

    在一个理论系统内,我们可以区别属于各种普遍性水平的陈述。普遍性水平最高的陈述是公理;较低水平的陈述能由它们演绎出来。较高水平的经验陈述相对于从它们演绎出来的较低水平的陈述来说,总是具有假说的性质:它们能为这些不那么普遍的陈述之被证伪所证优。但是,在任何假说的演绎系统中,这些不那么普遍的陈述本身仍然是(在这里所理解的意义上)严格全称陈述。因此,它们也必定具有假说的性质——在较低水平的全称陈述的情况下,这点往往被忽视。例如,Mach称Fourier的热传导理论是“物理学的模型理论”,他有一个古怪的理由:“这个理论的基础不是一个假说,而是一个观察事实。”然而,Mach用下列陈述来描述他所指的这个“观察事实”:“……假定温度差别很小,温度差消除的速度正比于温度差本身。”这是一个全陈述,它的假说性质应该说是够明显的。

    我甚至要说,某些单称陈述也是假说的,因为(依靠一个理论系统的帮助)可以从它们演绎出结论,使这些结论的被证优可以证伪这些单称陈述。

    这里提到的证伪的推理方式——用这个方式,一个结论的被证协必然得出这结论从之演绎出来的那个系统的被证伪——是古典逻辑的否定后件假言推理。这个方法可以描述如下:

    ,读作:“如果P可从t推导出,而且如果P是假的,那么t也是假的。”

    用这个推理方式我们证伪了整个系统(理论和初始条件),这个系统是演绎出陈述P,即演绎出被证协的陈述所必需的。因此,不能断言系统中的任何一个陈述,说它特别受到或不受到证伪的影响。只有当P对系统的某个部分是独立的,我们才能说:这个部分不受证伪的影响。与此相关的是下列可能性:在某种情况下,也许考虑到普遍性的水平,我们可以把证伪归之于某个确定的假说——比如,一个新引进的假说。假如一个得到充分验证并继续得到进一步验证的理论,可从一个更高水平的新假说演绎出来因而获得解释,上述情况就可以发生。必须努力用它的某些尚未得到检验的推断来检验这个新假说。如果任何这些推断被证伪,那么就完全可以把证伪单独归之于这个新假说。然后,我们将寻找其他高水平的概括来代替它,但是我们不必认为那个概括性较低的旧系统已被证伪(参看第85节关于“拟归纳”的论述)。

    第四章 可证伪性

    关于是否存在可证伪的单称陈述(或者“基础陈述”)的问题,将在以后考察。这里我假定对这个问题采取一个肯定的回答;我将考察我的划界标准可以在何种程度上应用到理论系统上来——假如可以利用的话。对一种通常称作“约定主义”的立场进行批判性讨论,首先会提出若干方法问题,我将采取一定的方法论决定来对付这些问题,其次,我将试图表征那些可证伪的理论系统的逻辑性质——可证伪的,即假如采用我们的方法论决定的话。

    19.约定主义的若干反对意见

    对于我采取可证伪性作为我们判定一个理论系统是否属于经验科学的标准的建议,一定会有反对意见。例如,那些受约定主义这一学派影响的人们就会提出反对意见。在第6、11、17节里我们已经接触到某些这种反对意见,现在要稍微详细一些加以考察。

    约定主义哲学的根源似乎是,对物理定律中显示出来的世界朴素优美的简单性感到惊奇。如果我们不得不与实在论者一起相信,自然定律给我们揭示了在外表丰富的多样性下面世界内在的结构的简单性,约定主义者却似乎感到,这种简单性是不可能理解的,实在是神秘的。Kant的唯心主义没法解释这种简单性,说:是我们自己的知性把它的定律赋予自然。同样地,甚至更加大胆地、约定主义者把这个简单性看作我们自己的创造。然而,他们认为,这种简单性并不是由于我们的知性把定律加于自然,因而使得自然成为简单的;因为他们并不相信自然是简单的。仅仅“自然定律”是简单的。约定主义者还认为,这些自然定律是我们自己的自由创造,我们的发明,我们的任意决定和约定。对于约定主义者来说,理论自然科学不是自然界的图景,只是逻辑建构。决定这种建构的不是世界的性质;相反,正是这种建构决定着一个人工世界的性质:一个概念的世界,这些概念由我们选择的自然定律隐含给予地定义。科学所谈论的只是这个世界。

    按照这个约定主义的观点,自然定律不能为观察所证伪;因为需要这些自然定律来决定观察,特别是科学的测量是什么。正是这些我们制定的定律为钟的调节和所谓“刚性”量杆的校正形成必不可少的基础。仅当用这些工具来测量的运动满足我们决定采用的力学公理时,才能称钟是“准确的”,量杆是“刚性的”。

    约定主义哲学帮助我们澄清理论和实验的关系是很值得称赞的。它认识到,在进行和解释我们的科学实验时,按照约定和演绎推理设计的我们的动作和操作所起作用的重要性,这种重要性归纳主义者是很少注意到的。我认为约定主义是一种独立完整的可加以辩护的系统。想从其中发现矛盾大概不能得到成功。但是不管所有这些,我发觉它是完全不能接受的。它的基础是一种关于科学、关于科学的目的和功能的观念,这种观念是和我的观念完全不同的。我并不向科学要求任何最终的确定性(因此我也没有得到),而约定主义者在科学中追求“基于最终根据的知识系统”,这是Dingler的用语。这个目的是可以达到的;因为把任何给定的科学系统解释为隐定义的系统是可能的。在科学发展缓慢的时期,很少机会引起倾向于约定主义的科学家和赞成与我类似观点的科学家之间的冲突,除非是纯学术性的冲突。在科学危机时期,情况就完全不同了。每当当时的“经典”系统受到新的实验结果的威胁(按照我的观点,这可以解释成为证伪)时,约定主义者都认为这理论系统是不可动摇的。他们会把这些已出现的矛盾解释过去,也许归咎于我们对这系统没有掌握,或者他们会特设性地建议采用某些辅助假说,或者对测量工具作某些校正,以此来消除上述的矛盾。

    在这种危机时期,关于科学目的的这个冲突变得尖锐起来。我们以及同意我们态度的人们,希望作出新的发现;我们希望新建立的科学系统会帮助作出新发现。因此我们对起证伪作用的实验有着最大的兴趣。我们将欢呼它的成功,因为它开辟新的远景,进入一个新经验的世界,即使这些新经验供给我们新论据来反对我们自己的最近才提出的理论,我们也要欢呼它。但是约定主义者却把这个新出现的结构(我们赞美这个结构的大胆)看作“科学总崩溃”的纪念碑。正如Dirgler所说的那样,在约定主义者的眼里,只有一个原理能够帮助我们从所有可能的系统中选出一个这当然实际上是指目前的“经典”系统:这就是选择最简单的系统——最简单的隐定义的系统的原理;当然这实际上就是当时的“经典”系统(关于简单性问题,参看第41-45节,特别是46节)。

    因此,我和约定主义者的冲突不是可以仅仅用超然的理论讨论所能最终解决的。然而我想从约定主义者的思想方式中抽出若干反对我的划界标准的有趣论据来,这是可能的;例如下面所说的论据。一个约定主义者可能这样说:我承认自然科学的理论系统是不可证实的,但是我认为它们也是不可证伪的。因为总是有可能……使任何合意的公理化系统达到所谓它“和实在相符”;可以用多种方法达到这一点(前面已经建议过几种方法)。例如我们可以引进特设性假说,或者我们可以修改所谓“直指定义”(或者修改“显定义”,如在第17节所表明的,它们可以代替“直指定义”)。或者我们可以对实验者的可靠性采取怀疑态度,我们可以把威胁我们系统的实验者的观察从科学中排除出去,根据这样的理由:这些观察的根据不充分、不科学,或者不客观,甚或根据这样的理由:实验者是一个说谎者(这是物理学家有时对所谓神秘现象所采取的那种正确态度)。作为最后的手段,我们总能对理论家的才智表示怀疑(例如,假如一个理论家如Dingler那样不相信电的理论将来有一天从Newton的引力理论中推导出来)。

    因此,按照约定主义的观点,把理论系统分为可证伪的和不可证伪的是不可能的;或者更确切地说,这样一种区分是模糊的。结论就是,我们的可证伪性标准作为划界标准必定证明是无用的。

    20.方法论规则

    我认为,一个想象中的约定主义者的这些反对意见,正如约定主义哲学本身那样,是无可争辩的。我承认我的可证伪性标准并不导致一个毫不模糊的分类。的确,不可能靠分析一个陈述系统的逻辑形式来判定,它是一个由不可反驳的隐定义组成的约定系统还是一个在我的意义上是经验的也就是可以反驳的系统。然而,这不过说明我的划界标准不能直接应用到陈述系统上去——这个事实我已经在第9、11节中指出过。因此,一个给定的系统本身应该被认为是一个约定主义的系统还是一个经验的系统问题是错误的。只有参照应用于理论系统的方法才可能问,我们处理的是约定主义的还是经验的理论。避免约定主义的惟一方法是采取一个决定:决定不应用它的方法。我们决定,假如我们的理论系统受到威胁,我们将不用任何种类的约定主义策略来挽救它。因此我们将防止利用那总是存在着的刚才提及的可能性:“……使任何合意的……系统达到所谓它‘和实在相符’”。

    在Poincare之前一百年,BComck表达了约定主义方法的得失的清楚理解。他写道:“巧妙地适应条件,能使得几乎任何假说和现象相符合。这个将满足我们的想象,但是不能推进我们的知识。

    为了表述防止采取约定主义策略的方法论规则,我们必须熟悉这些策略可能采取的各种形式,以便针对每种形式采取适当的反约定主义的对抗手段。而且,我们应该决定,每当我们发现一个系统为约定主义策略所挽救时,我们就要重新检验它,假如情况需要,就摈弃它。

    在前一节的末尾,已经列举了四种主要的约定主义策略。这个列举并不完全,必须让研究者,特别是在社会学和心理学领域里的研究者(物理学家不大需要这样的警告),经常保持警惕,不受使用新的约定主义策略的诱惑——例如,心理分析家常常屈从于这种诱惑。

    关于辅助假说,我们建议规定这样的规则:只有那些引进以后并不减少,反而增加该系统的可证伪度或可检验度的辅助假说才是可接受的(如何计算可证伪度,将在第31-40节中说明)。如果可证伪度增加了,那么引进假说真正加强了这理论:这系统比以前排除更多的东西,禁止更多的东西。我们也可以这样说:辅助假说的引进总应被看作构建新系统的尝试;然后这个新系统总是应该根据它被采用后,能否构成我们对世界的认识的一个真正的进展来判断其优劣。一个在这个意义上能被接受的辅助假说的突出例子是,Pauli的不相容原理(参看第38节)。一个不能令人满意的辅助假说的例子是,Fitzgeralid和Lorentz的收缩假说,它没有可证伪的推断,只是为了恢复理论和实验——主要是Michelson和Morley的发现——的一致。在这里进展只有靠相对论才获得的,它预见了新推断,新的物理效果,因而开辟了检验和证伪理论的新的可能性,我们的方法论规则可以用下列的话来加以限制:我们不需要把每一个不能满足上述标准的辅助假说都当做约定主义的而加以摈弃。特别是,有一些单称陈述实际上根本不属于理论系统。它们有时被称作“辅助假说”,虽然它们被引进来帮助理论,它们是完全无害的。(一个例子是这样的假定:一个不能重复的观察或测量可能是由于错误所致。参看第8节注⑥,第27、68节)。

    在第17节里,我提到过显定义。凭着这种定义,我们用一个普遍性水平较低的系统来给出一个公理系统的概念的意义。假如有用,改变这些定义是可以允许的;不过他们必须被认为是系统的修改,以后就必须重新审查这个系统,仿佛它是新的系统一样。关于未定义的普遍名称,必须区别两种可能性:(1)有某些未定义的概念只出现在普遍性水平最高的陈述中,它们的使用是基于这样的事实:我们知道其他概念和它们处于什么样的逻辑关系中。在演绎过程中,它们能被取消掉(一个例子是“能”)。(2)其他的未定义的概念也出现在普遍性水平较低的陈述中,它们的意义是由惯用法确定的(例如,“运动”、“质点”、“位置”)。与此相联系,我们要禁止惯用法的偷偷改变,而在其他方面就如前面说的那样按照我们的方法论决定来行事。

    关于我们列举的其他两点(涉及实验家或理论家的能力),我们要采用类似的规则。可以接受或根据相反的实验拒绝一个可主体间相互检验的实验。去诉诸要在未来被发现的逻辑指导可以不予考虑。

    21.对可证伪性的逻辑考察

    只是在(如按照我们的经验方法规则处理它)可证伪的系统的情况下,才需要注意防止约定主义的策略。让我们假定,我们已经用我们的规则成功地禁止了这些策略,现在可以要求说明这种可证伪的系统的逻辑特征了。我们将试图以理论和基础陈述类之间的逻辑关系来说明理论的可证伪性的特征。

    我称作“基础陈述”的单称陈述的性质,还有它们是否也是可证伪的问题,将在下一章中作更充分的讨论。这里我们假定:存在可证他的基础陈述。必须记住:当我讲到“基础陈述”时,我并不是指已接受的陈述系统。毋宁说我使用基础陈述系统这一术语时,它包括具有一定逻辑形式的所有自相一致的单称陈述——可以说是关于事实的所有可设想的单称陈述。因此,由全部基础陈述组成的系统包含着许多互不相容的陈述。

    作为第一次尝试,每当单称陈述能从某一理论演绎出来时,人们也许会称该理论为“经验的”。然而,这个尝试失败了,因为,为了从一个理论中演绎出单称陈述来,我们总是需要其他的单称陈述——初始条件,它告诉我们用什么去替代理论中的变量。作为第二次尝试,假如依靠作为初始条件的其他单称陈述的帮助可以演绎出单称陈述来,人们就称这个理论是“经验的”。但是这样也不行,因为,即使非经验陈述,例如重言陈述,也允许我们从其他的单称陈述中演绎出某些单称陈述来(例如,按照逻辑规则,我们可以例如说:从“2×2=4”和“这里有一只黑渡鸦”的合取中,除了别的以外,可以得出“这里有一只渡鸦”)。即使要求从和一些初始条件在一起的理论中,我们应该能够演绎出比我们仅仅从这些初始条件中能演绎出的更多的陈述,也是不够的。这个要求的确排除重言的理论,但是它并不排除综合的形而上学陈述(例如,从“每一事件都有原因”和“这里发生一场灾难”,我们能演绎出:“这个灾难有原因”)。

    这样就引导我们得出这样的要求:大致说来,理论应该允许我们,演绎出比我们单单从初始条件中能演绎出更多的经验的单称陈述。这意味着:我们必须把我们的定义建筑在特殊的单称陈述类上;而这正是我们需要基础陈述的目的。由于要详细地说出一个复杂的理论系统是如何帮助演绎出单称陈述或基础陈述是不很容易的,因此我建议采用下面的定义。一个理论应被称作“经验的”或“可证伪的”,如果它把所有可能的基础陈述类明确地分作下面两个非空的子类。第一,所有那些和理论不一致的(或理论排除的、禁止的)基础陈述组成一类,我们称这类为这个理论的潜在证伪者类;第二,那些和理论不矛盾的(或理论“允许”的)基础陈述组成一类。我们可以更简短地说:一个理论是可证伪的,如果它的潜在证伪者类不是空的。

    还可作这样的补充:理论只作出关于它的潜在证伪者的断言(它断言它们的谬误)。关于“允许的”基础陈述,它什么也没有说,特别是,它不说它们是真的。

    22.可证伪性和证伪

    我们必须清楚地区别可证伪性和证伪。我们引进可证伪性只是作为陈述系统的经验性质的标准。至于证伪,必须引进特殊规则来决定一个系统在什么条件下应被看作已被证伪。

    我们说一个理论已被证伪,只有当我们已经接受和理论相矛盾的基础陈述时(参看第11节,规则2)。这个条件是必要的,但不是充分的,因为我们知道,不能复制的个别偶发事例对于科学是没有意义的。因此少数偶然的与理论矛盾的基础陈述不会促使我们把理论作为已被证伪而摈弃。只有当我们发现一个反驳理论的可复制的效应时,我们才认为它已被证伪。换句话说,只有当描述这样一种效应的一个低水平的经验假说被提出和确认时,我们才接受这个证伪。这种假说可以称作证伪假说。证伪假说必须是经验的因而是可证伪的,这一要求的意思只是,它必须和可能的基础陈述具有一定的逻辑关系;因此,这个要求只与假说的逻辑形式有关。这假说应该得到验证,这一个附加条件是指它应该通过检验——使它面对着已接受的基础陈述的检验。

    因此,基础陈述有两个不同的作用。一方面,我们使用所有在逻辑上可能的基础陈述的系统,是为了借助它来得到我们正在探求的经验陈述形式的逻辑特征。另一方面,已接受的基础陈述是假说得到验证的基础。如果已接受的基础陈述和理论相矛盾,那么我们就认为仅当它们同时验证了一个起征伪作用的假说时,它们就为理论的证伪供给了充足的理由。

    23.偶发事件和事件

    可证伪性的要求在开始时有一些模糊,现在已经分裂成两部分。第一,方法论的公设(参看第20节)不大可能把它搞得很精确。第二,逻辑标准,一旦我们弄清楚了哪一些陈述应被称作“基础的”,它是非常确定的(参看第28节)。这个逻辑标准迄今已经以某种形式的方式表达为陈述之间的逻辑关系——理论陈述和基础陈述之间的逻辑关系。假如我现在用更“实在论的”语言来表述我的标准的话,也许会使它更清楚、更直觉。虽然这是和形式的言语方式等价的,但是可能比较接近于日常用法。

    在这个“实在论的”言语方式里,我们可以说,一个单称陈述(基础陈述)描述一个偶发事件。因此我们不说被理论排除或禁止的基础陈述,而是说理论排除某些可能的偶发事件,并且说假如这些可能的偶发事件事实上发生了,理论将被证伪。

    使用这个模糊的词“偶发事件”也许会遭到批评。有时有人说,像“偶发事件”或“事件”这种词应从认识论的讨论中全部驱除出去,我们不应该说“偶发事件”或“非偶发事件”或者“事件”的发生,而应该说陈述的真或伪。不过,我赞成保留“偶发事件”这种词。很容易将它的用法加以定义,使之不会引起反对。因为我们可以这样来使用它:每当我们说到一个偶发事件时,我们也能说出与之相应的某个单称陈述来代替它。

    给“偶发事件”下一定义时,我们可以记住这样的事实:说两个逻辑上等价的(就是说,可以相互演绎出来的)单称陈述描述同一偶发事件,这是很自然的。这提示下列定义:设Pk为一单称陈述(下标“k”指发生在Pk里的个别名称或坐标)。则我们称所有与Pk等价的陈述类为偶发事件Pk。例如,现在这里正在打雷,我们说这是一个偶发事件。我们可以认为这个偶发事件是下列陈述类:“现在这里正在打雷”;“1933年6月10日下午5时15分,在维也纳第13区,正在打雷,”还有所有其他与这些陈述等价的陈述。因此实在论的表述“陈述Pk代表偶发事件Pk”可以被认为与有点繁琐的陈述“陈述Pk是所有与它等价的陈述的Pk类的一个元素”有相同的意义。同样,我们认为陈述“事件Pk已经发生”(或者“正在发生”)的意义和“Pk和所有与它等价的陈述是真的”的意义相同。

    这些翻译规则的目的不是说,不管谁以实在论的言语方式使用“偶发事件”这个词都在想到一类陈述;它们的目的只是为了给出一个实在论言语方式的解释,这个解释使得有些说法容易理解,例如说:一个偶发事件Pk和一个理论t相矛盾。现在这个陈述的意思不过是:每一个与Pk等价的陈述和理论t相矛盾,因而是这理论的一个潜在证伪者。

    现在要引进另一个术语“事件”来表示什么是一个偶发事件的典型的或普遍的东西,或者在一个偶发事件中什么东西可以用普遍名称来加以描述。(因此,我用并不根据事件来理解复杂的或者也许长时间的偶发事件,不管这些词的日常用法提示什么。)我们定义:设:Pk,P1,……为偶发事件类的元素,这些偶发事件只在有关个体(时空位置或区域)方面是不同的;则我们称这个类为“事件(P)”。遵循这个定义,例如,关于陈述“一杯水刚刚在这里被打翻”,我们要说,和这陈述等价的陈述类是事件“一杯水的打翻”的一个元素。

    说到代表偶发事件Pk的单称陈述Pk,我们可以以实在论的言语方式说:这个陈述述说事件(P)在空时位置k的发生。我们认为这个说法的意义和“等价于Pk的单称陈述类Pk是事件(P)的一个元素”相同。

    现在我们要将这个术语应用于我们的问题。我们说,一个理论,假使它是可证伪的,它就不仅排除或禁止一个偶发事件,而且总是至少排除或禁止一个事件。因此,被禁止的基础陈述类,也就是理论的潜在证伪者类,假如它不是空的,总是包含无限数量的基础陈述;因为理论并不指个体本身。我们可以把属于一个事件的单称基础陈述称作“同型的”(homotypic),以表示描述一个偶发事件的等价的陈述,与描述一个(典型的)事件的同型的陈述之间的类似。因此我们可以说理论的潜在证伪者的每一个非空类至少包含同型基础陈述的一个非空类。

    现在让我们想象,一个圆形面积代表所有可能的基础陈述类。这个圆面积可以被看作代表经验的所有可能的世界或所有可能的经验世界的总体。我们进一步想象,一条半径(更精确地说,沿着一条半径的一个很窄的面积,或者说一个很窄的扇形)代表每一个事件,并且想象具有相同的坐标(或个体)的任何两个偶发事件的位置和圆心的距离相等,因而在同一个同心圆上,然后我们可以这样来用图说明可证伪性这一公设:要求每一个经验理论在我们的图形里必须至少有一条理论禁止的半径(或很窄的扇形)。

    这个图解可以证明,在讨论我们的各种问题时是有用的,比如关于纯粹存在陈述的形而上学性质问题(在第15节里曾简短地涉及过)。显然,一个事件(一条半径)属于每一个这种陈述,因而属于这个事件的各种基础陈述,每一个都将证实这个纯粹存在陈述。然而,它的潜在证伪者类是空的;所以,从纯粹存在陈述那里,不能得出任何关于可能的经验世界的知识(它不排除或禁止任何半径)。相反,从每一个基础陈述中得出一个纯粹存在陈述,这个事实不能用来作为支持后者的经验性质的一个论据。因为每一个重言式也可从每一个基础陈述中得出,由于重言式可从任何陈述中得出。

    在这里我也许可以说一说自我矛盾的陈述。

    虽然可以说重言式陈述,纯存在陈述以及别的不可证伪的陈述对于可能的基础陈述类断言太少,而自我矛盾的陈述则是断言太多。从一个自我矛盾的陈述中,任何陈述都可以正当地演绎出来。因此,它的潜在证伪者类就等于所有可能的基础陈述类:它为任何陈述所证伪。(也许人们可以说:这个事实是我们的方法的一个优点的例证,就是说,考虑可能的证伪者不考虑可能的证实者的方法。因为假如人们能以一个陈述的逻辑推断的证实来证实这个陈述,或者以这种方式仅仅使它成为可几的,那么,人们就可以期望,不管接受何种基础陈述,任何自我矛盾的陈述就会成为被确证的,或成为被证实的,或者至少成为可几的陈述了。)

    24.可证伪性和无矛盾性

    在一个理论系统或公理系统必须满足的各种要求中间,无矛盾性要求起着特殊的作用。它可被看作每一个理论系统,不论它是经验的还是非经验的,都要满足的第一个要求。

    为了说明这个要求的基本重要性,只提到明显的事实,即必须摈弃自相矛盾的陈述,因为它是“伪”的,这样做是不够的。我们经常和这样一种陈述打交道:它虽然实际上是伪的,然而产生适合于一定目的的结果(一个例子是Nernest关于气体平衡方程式的近似)。但是,如果人们认识到,自相矛盾的陈述不传达任何信息,无矛盾性要求的重要性就会得到认识。它所以不传达任何信息是因为,我们喜欢的任何结论都能从它推导出来。因此,不能挑选出或作为不相容的或作为可推导的任何陈述。因为所有的陈述都是可推导的。在另一方面,无矛盾的陈述把这组所有可能的陈述分为两种:与它相矛盾的陈述和与它相容的陈述在后者中间,是能从它推导出来的结论。这就是为什么无矛盾性对一个系统来说是最一般的要求,不论它是经验的还是非经验的,如果它想有任何用处的话。

    在无矛盾性以外,经验系统必然满足进一步的条件:它必须是可证伪的,这两个条件在很大程度上是类似的。不满足无矛盾性条件的陈述,不能在所有可能的陈述的总体中区分任何两个陈述。不满足可证伪性条件的陈述,不能在所有可能的经验的基础陈述的总体中区分任何两个陈述。

    第五章 经验基础问题

    现在我们已把理论的可证伪性问题,归结为我们称作基础陈述的那些单称陈述的可证伪性问题。但是,何种单称陈述是基础陈述呢?它们如何能被证伪?对于实际的研究工作者来说,对这些问题可能很少关心。但是,围绕这个问题有一些模糊和误解,因而在这里较详细地讨论它是有益的。

    25.作为经验基础的知觉经验:心理学主义

    经验科学可以还原成感觉、知觉,因而还原成我们的经验,许多人接受这个学说,认为明显得毫无疑问。然而,这个学说是和归纳逻辑共命运的,在这里我把它和归纳逻辑一起加以提除。我不想否认,数学和逻辑的基础是思维,而事实科学的基础是知觉,这个观点里是有一点真理的。但是这个观点中的真理和认识论问题没有什么关系。的确,在认识论中,几乎没有一个问题比这个经验陈述基础问题更严重地受心理学和逻辑之间的混淆之害了。

    经验基础问题对思想家的困扰很少如Fries那样深,他说,假如科学陈述不被教条地接受,我们必须能够证明它们。如果我们要求用推理的论证在逻辑的意义上去证明,那么我们就得接受这样的看法:陈述只能为陈述所证明。因而,要求所有的陈述都要被合乎逻辑地证明(Fries称作“对证明的偏爱”)一定会导致无穷后退。假如我们想避免教条主义和无穷后退的危险,似乎我们只能求助于心理学主义,即这样的学说:陈述不但可以为陈述所证明,也可以为知觉经验所证明。面对这个三难推理(trilemma)——教条主义、无穷后退和心理学主义——Fries以及几乎所有想说明我们的经验知识的认识论学者都选择心理学主义。他说,在感觉经验里,我们有“直接知识”,用这种直接知识。我们可以证明我们的“间接知识”——用某种语言符号表达的知识。这种间接知识当然包括科学陈述。

    通常对这个问题的探讨并不进行得如此之远。在感觉主义和实证主义的认识论里,经验科学陈述“述说我们的经验”这点被视为当然之理。因为,假如不经过感觉-知觉,我们如何能够得到任何事实知识呢?仅仅依靠思考,一个人不能对他关于事实世界的知识加进一丁点儿。因此,知觉经验必须是所有经验科学的惟一任“知识源泉”。所以,关于这个事实世界我们知道的一切都必定可以用关于我们的经验的陈述的形式表达。这张桌子是红的还是蓝的只能诉诸我们的感觉经验才能知道。感觉经验传达我们一种直接的确信感,我们凭此就能区别出真陈述(它的术语和经验一致)和伪陈述(它的术语和经验不一致)。科学只是试图分类和描述这种知觉知识,我们不能怀疑这些直接经验的真理性,科学是我们的直接确信的系统表述。

    照我看来,这个学说在归纳问题和普遍概念问题上失败了。因为我们说的科学陈述没有一个不远远超过我们“在直接经验的基础上”所能确定无疑地知道的东西(这个事实可以看作“在任何描述中固有的经验超越”)。每一个描述都使用普遍名称(或符号,或观念),每一个陈述都具有理论、假说的特性。陈述“这里有一玻璃杯水”不能为任何观察经验证实。理由是,在这陈述中出现的普遍概念不能和任何特殊的知觉经验发生相互关系。(一个“直接经验”的“直接给予”只有一次;这是独一无二的。)例如,玻璃杯这个词表示一种物体,它显示一定似定律行为,“水”这个词也是如此。普遍概念不能还原为经验类;它们不可能由经验“组成”。

    26.夫于所谓“记录语句”

    在我看来,上一节讨论的我称为“心理学主义”的观点,似乎仍然是经验基础现代理论的基础,即使它的拥护者并不说经验或知觉,而代之以“语句”——代表经验的语句。Neu-rath和Carnap称之为“记录语句”。

    Reininger主张类似的理论甚至更早,他的出发点是这样的问题:在一个陈述和它描述的事实或事态之间的对应或一致在哪里?他达到的结论是:陈述只能和陈述相比较。按照他的看法,陈述和事实的对应不是别的,只是属于不同的普遍性水平的陈述之间的逻辑对应:这是“……较高水平的陈述和具有同样内容的陈述,最后和记录经验的陈述之间的对应。”(Reininger有时称这些陈述为“基本陈述”)。

    Carnap从有点不同的问题出发。他的命题是,所有哲学的研究谈的是“言语的形式”。科学的逻辑必须研究“科学语言的形式”。它不谈(物质的)“客体”,只谈词;不谈事实,只谈语句。Carnap用这个正确的“形式的言语方式”和日常的,或他称之为“内容的言语方式”相对比。假如要避免混乱,内容的言语方式就只能用在有可能把它翻译成为正确的形式的言语方式的地方。

    这个观点——我同意它——导致Carnap(和Reininger一样)主张:在科学逻辑里,我们不应说,检验语句是把它们和事态或经验相比较;我们只能说,检验语句是把它们和其他语句相比较。然而Carnap实际上是在保留着对待这问题的心理学主义方法的基础思想;他正在做的只是把它们翻译成“形式的言语方式”。他说,科学的语句“借助记录语句”接受检验;但是因为记录语句被解释为“不需要确证但是可作为科学的所有其他语句的基础”的陈述或语句,这就等于说——在日常的“内容的”言语方式里——记录语句指的是“给予”、“感觉资料”。它们描述(正如Carnap自己说的)“直接经验的内容,或现象;因而最简单的可知的事实”,这十分清楚地表明,记录语句的理论不过是翻译成形式的言语方式的心理学主义。对于Neurath的观点也完全可以这样说。他要求在记录语句里,如“感到”、“看见”这些词应该和记录语句的作者的姓名一起出现。记录语句,就如这个术语所表明的,应该是直接观察或知觉的记载或记录。

    Neurath像Reininger一样认为,记录经验的知觉陈述——即“记录语句,”——不是不可取消的,而有时它们是可以被摈弃的。他反对Cernap的下列观点,自从Cernap修改观点以后:记录语句是最终的,不需要确证。但是,当Reininger描述一个在发生怀疑时用其他陈述来检验他的“基本”陈述的方法——这是演绎然后检验演绎所得结论的方法——时,Neurath没有给出这样的方法。他只是说,我们能够或者“删除”和系统矛盾的记录语句,“……或者接受它,用这样的方法来修改系统,使得加上这语句以后,系统仍然是无矛盾的”。

    在我看来,Neurath关于记录语句不是神圣不可侵犯的观点,代表一个值得注意的进展。但是除了以知觉陈述来代替知觉——仅仅是翻译成形式的言语方式——外,记录语句可以修改这一学说,就是他在知觉认识的直接性理论(来自Fries)上的惟一进展了。这是在正确方向上前进的一步;但是假如不跟上另一步,它就得不出什么结果:我们需要一组规则来限制“删除”(或者“接受”)记录语句的任意性。Neurath未能给出这种规则,因而在无意中抛弃了经验主义。因为没有这些规则,经验陈述就不再从任何其他种类的陈述中区别出来。假如允许人们(在Neurath看来,允许每一个人)在感到一个记录语句不方便时,就可以干脆“删除”它,那么,每一个陈述系统就都成为可辩护的了。人们不仅能够用约定主义的方式挽救任何系统;而且,由于有了许多记录语句的供应,人们根据证人的证言(他们证明或记录他们的所见所闻)甚至可以确证任何系统。Neurath避免了教条主义的一种形式,然而他却为自称为“经验科学”的任何随意的系统开辟了道路。

    因此,不很容易看出在Neurath的图式里记录语句应该起什么作用。Carnap的初期观点是,记录语句系统是经验科学的每一个主张必须据以判定的试金石。这就是为什么它们必须是“不可反驳的”。因为只有它们能够推翻语句——当然是在记录语句以外的语句。但是,假如它们被剥夺了这种作为试金石的功能,而且它们自己可以被理论推翻,那么它们起什么作用呢?由于Neurath不想解决划界问题,他关于记录语句的观点似乎只是一种遗迹——认为经验科学始于知觉的传统观点的一种残留纪念物。

    27.经验基础的客观性

    我建议对科学采取一种和各种心理学学派的观点稍有不同的看法。我希望在客观科学和“我们的知识”二者之间加以明确的区别。

    我很愿承认,只有观察能给我们“关于事实的知识,”我们“只有通过观察才能觉察事实”(如Hahn所说),但是这种觉察,这种知识并不证明或确立任何陈述的真理性。所以我不相信,认识论必须提出的问题是:“……我们的知识建筑在什么基础之上?…或者更确切些,我有了经验S,如何能证明我对这经验的描述和捍卫它不受怀疑?”这点是做不到的,即使我们把术语“经验”改为“记录语句”。在我看来,认识论必须提出的问题应该是:我们如何根据科学陈述的演绎推断来检验他们假如这些推断本身也必须是可以在主体间相互检验的,那么为了这个目的,我们能选择哪一种推断?

    现在,就逻辑的或重言的陈述而言,这种客观的、非心理学的看法被相当普遍地接受了。然而在不久以前,人们还认为,逻辑是一门科学,它研究精神过程及其规律——我们的思维规律。按照这种观点,所能找到的对逻辑的正确性的惟一证明,就是他们提到的这样的事实:我们就是不能用其他的任何方式来思维。逻辑推理似乎被证明了,就因为它被体验到是一种思维的必然性,一种不得不沿一定路线进行思维的感觉。在逻辑领域里,这种心理学主义现在也许已成为过去的事情了,没有人想象为了证明某一逻辑推理的正确性,或者捍卫它不受怀疑,在这个推论的旁边空白处写上一个记录语句:“记录:今天我在校核这一连串推理时,我体验到一种强烈的确信感。”

    当我们谈到科学的经验陈述时,情况就很不一样。在这里每人都相信,这些陈述的基础是如知觉那样的经验,或者是以形式言语方式的记录语句。大多数人认识到,把逻辑陈述建筑在记录语句的基础上的任何试图,都是一种心理学主义。但是很奇怪,涉及经验陈述时,同样的做法现在却被称作“物理主义”。然而不管问题涉及逻辑的陈述还是经验科学的陈述,我想回答是一样的:我们的知识,可以被模糊地描述为意向系统,可以和心理学有关,在这两种情况下,它都可以和信念感或确信感联结着。在一种情况下,也许和不得不以一定方式思维的感觉联结着。在另一种情况下,和“知觉的自信”的感觉联结着。但是所有这些都只有使心理学家感兴趣。它甚至没有触及如科学陈述之间的逻辑关系这样的问题,只有这些问题才使认识论学者感兴趣。

    (有一种广为传布的看法是,从认识论观点看来,陈述“我看见这里的这张桌子是白的”与陈述“这里的这张桌子是白的”比较,具有某种深刻的优点。但是,从评价它可能的客观检验这一观点看来,述说我的情况的第一个陈述,似乎并不比述说这里的桌子的情况的第二个陈述更可靠些。)

    只有一种方法可以确定一连串逻辑推理的正确性。就是把它置于最容易接受检验的形式中:我们把它分解成许多小步骤,每一步骤都易受任何学习过变换语句的数学或逻辑技巧的人检查。如果在这样做了以后,任何人仍然提出怀疑,那么我们只能请他指出在证明的步骤中的错误,或者请他自己再想一下这个问题。在经验科学的场合,情况很相像。任何经验科学陈述都能这样来表述(通过描述实验安排,等等),以至任何学习过有关技巧的人都能检验它。假使结果他拒斥这个陈述,那么,如果他只是告诉我们他对他的知觉的怀疑感或确信感,这是不能使我们满意的。他必须做的是提出一个和我们的断言相矛盾的断言,并且提供给我们如何检验他的断言的指示。假如他不能这样做,我们就只能请他对我们的实验更加仔细地考察一番,重新想一想。

    一个由于它的逻辑形式而不可检验的断言,至多在科学内起一种刺激物的作用:它能提示一个问题。在逻辑和数学的领域里,Fermat问题可以作为一个例子。在博物学领域,例如关于海蛇的报告。在这种情况下,科学并不说,这些报告是无根据的,Fermat是错误的,或者,所有关于见到海蛇的记录都是谎言。反之,科学暂不作出判断。

    可以从不同的角度来考察科学,不仅是从认识论的角度。比如,我们能把它当作一种生物学的或社会学的现象。科学本身可以被描述为一种工具、器械,也许可以和某种工业机器相比。科学可以被认为是一种生产手段——“间接生产”中的最新品种。即使从这一观点看,科学和其他工具或生产手段相比,并不与“我们的经验”有更密切的联系,即使我们把科学看作是满足我们智力需要的东西,它和我们的经验的联系,在原则上与任何其他客观结构和我们的经验的联系并无不同。一般公认,这样讲并不错:科学是“……一种工具,”它的目的是“……从直接的或已知的经验中预见以后的经验,甚至尽可能地控制他们。”但是我不认为这段关于经验的谈话有助于澄清问题。它和下面的话一样不解决问题:谈到石油钻井并非不正确的特点时断言:它的目的是提供给我们一定的经验:不是油,而是关于油的视觉和嗅觉;不是钱,而是有钱的感觉。

    28.基础陈述

    已经简略地指出,在我主张的认识论理论内,基础陈述起什么作用。我们需要它们,为了判定一个理论是否能被称作可证协的,即经验的(参看第21节)。我们需要它们,也是为了验证起证协作用的假说,为此也就证伪理论(参看第22节)。

    因此,基础陈述必须满足下列条件。(a)从没有初始条件的全称陈述中,不能演绎出基础陈述。

    另一方面,(b)全称陈述和基础陈述可能互相矛盾。只有在一个基础陈述的否定有可能从和它矛盾的理论中演绎出来时,条件(b)才能得到满足。从这一点和条件(a)中,可以得出:基础陈述必须有这样一种逻辑形式,以致它的否定不能是基础陈述。

    我们已经遇到过这样一种陈述,它们的逻辑形式和它们的否定的逻辑形式不同,这些陈述就是全称陈述和存在陈述。全称陈述存在是陈述的否定,反之亦然,它们的逻辑形式不一样。单称陈述能用类似的方法构建。陈述:“在时空区域k,有一只渡鸦”,可以说在它的逻辑形式上——不仅是在它的语言学形式上——不同于陈述:“在时空区域k,没有渡鸦”,具有“在区域k有某物”或“在区域是k一事件发生’(参看第23节),这种形式的陈述可以称作一个单称存在陈述,“或单称有(there-is)陈述”。而从否定这个陈述得出的陈述,即:“在区域k没有某物”或“在区域k某种事件没有发生”,可以称作“单称非存在陈述”,“单称无(there-isnot)陈述”。

    我们现在可以规定下列关于基础陈述的规则:基础陈述具有单称存在陈述的形式。这个规则意味着:基础陈述将满足条件(a),因为单称存在陈述决不能从严格全称陈述即严格非存在陈述中演绎出来。它们也将满足条件(b),这能从下列事实中看出:从每一个单称存在陈述中,只要不提及任何个别的时空区域,就能推导出一个纯粹存在陈述;我们已经知道,纯粹存在陈述确实可以和理论相矛盾。

    的否定)。

    这些是对基础陈述的形式要求;所有单称存在陈述都满足这些要求。除了这些要求外,基础陈述还必须满足一个实质要求——一个和事件有关的要求,正如基础陈述告诉我们的,这个事件发生在k地。这个事件必须是一个“可观察的”事件;这就是说,基础陈述必须是可以用“观察”在主体间相互检验的。由于它们是单称陈述,这个要求当然只能涉及适当地处于空间和时间中的观察者(这一点我不想作详细说明)。

    无疑地由于要求可观察性,我毕竟已允许心理学主义悄悄地溜回到我们的理论中来。然而并不是如此。无可否认,以心理学的意义解释可观察事件的概念是可能的。但是我在这样一个意义上使用这个概念,它完全可以用“涉及宏观物体的位置和运动的一个事件”代替它。或者我们可以更确切地规定:每一个基础陈述本身必须或者是关于物体的相对位置的陈述,或者它必须等价于某种“机械论的”或“唯物论的”基础陈述(这个规定是可行的,这和下列事实相联系:一个在主体间能相互检验的理论,也就是在感觉间能相互检验的。这就是说,涉及我们感觉的一种知觉的检验,在原则上能为涉及其它感觉的检验所代替)。因此,批评我由于诉诸可观察性已偷偷地重新承认心理学主义,和批评我已承认机械论或唯物论一样地无力。这表明,我的理论实际上是完全中立的,这些标签都贴不上。我讲这些都只是为了从心理学主义的恶名声中挽救我用的术语”可观察的”。(观察和知觉可以是心理学的、但是可观察性不是)。我不想对“可观察的”“或“可观察事件”下定义,虽然我很愿意用心理学的或力学的例子来阐明它。我想它应该作为一个未定义的术语引进,这种术语在使用中是足够确切的:作为一种原始概念,认识论学者必须学习它的用法,正如他必须学习术语“符号”的用法一样,或者如物理学家必须学习术语“质点”的用法一样。

    因此,基础陈述——在质料的言语方式中——就是断言在空间和时间的一定的个别区域里一个可观察事件正在发生的陈述。在这个定义里使用的各种术语,除了原始术语“可观察的”以外,已在第23节里较精确地解释过;对“可观察的”未下定义,但是,就如我们已在这里看到的,也可能对它予以相当确切地说明。

    29.基础陈述的相对性 Fries的三难推理的解决

    一个理论的每一次检验,不论它的结果是验证还是证伪,都必须中止于某一个我们决定接受的基础陈述。假如我们没有到达任何决定,没有接受某一个基础陈述,那么这检验就没有导致任何结果。但是从逻辑观点来考虑,决不会有这样的情况:它迫使我们只能中止于这一个特定的基础陈述,不能中止于那一个特定的基础陈述,否则就放弃整个检验。因为任何基础陈述本身也能接受检验,使用任何能够借助某个理论(正接受检验的理论或者另一个理论)从它演绎出来的基础陈述作为试金石。这个程序并没有自然的终点,因此,如果检验引导我们到达某一点,不过是中止于这一点或那一点,并且说:我们暂时满意了。

    很容易看出,我们这样到达了一个程序,按照这种程序:我们仅仅中止于特别易于检验的陈述,因为这意味着,我们中止于这样的陈述上:关于它们的接受或拒绝,各种研究者易于达到一致意见。假如他们没有取得一致,他们就继续检验下去,或者重新开始再做一遍。假如这也没有得到什么结果,我们就可说,该陈述不是可在主体间相互检验的,或者说我们毕竟没有在和可观察的事件打交道。假如有一天科学的观察者不再可能取得关于基础陈述的一致意见,这就等于语言不能作为普遍的交往工具了。这将等于一场新的“语言混乱”:科学发现将化作荒谬。在这个新的混乱里,高耸入云的科学大厦将迅速化为废墟。

    恰如逻辑证明到达了一个令人满意的形态,那时困难的工作已经过去,一切都易于核查,这样,在科学已经做完它的演绎的或解释的工作以后,我们就中止于易于检验的基础陈述。关于个人经验的陈述——就是记录语句——显然不是这类陈述。因此,它的作为我们在那里中止的陈述,是不很合适的。我们当然利用记载或记录,例如科学的和工业的研究部门发出的检验证明书,如果需要,这些证明书能够接受重新审查。因此,例如,检验这些实行检验的专家的反应时间(即:确定他们在观察上的个人误差)可能成为必要。但是一般说,特别是“……在关键情况下”,我们中止于易于检验的陈述,而不是如Carnap建议的,中止于知觉或记录语句;即我们不……中止于这些……,因为对知觉陈述作主体间相互检验……,是相对复杂和困难的”。

    那么,关于Fries的三难推理,在教条主义、无穷后退和心理学主义之间的选择,我们的观点是什么呢(参看第25节)?不可否认,我们中止于其上的,我们认为满意并已经过充分检验因而决定接受的基础陈述,具有教条的性质,但这只是在我们不再进一步的论证(或进一步的检验)来证明它们的条件下才是如此。但是这种教条主义是无害的,因为假如需要,这些陈述能容易地接受进一步的检验。我承认这也能使得演绎的链条原则上成为无限的。但是,这种“无穷后退”也是无害的。因为在我们的理论里,没有试图用它来证明任何陈述的问题。最后,关于心理学主义;我也承认,决定接受一个基础陈述,对它感到满意,和我们的经验——特别是我们的知觉经验——有因果联系。但是我们不想用这些经验来证明基础陈述。经验能够推动一个决定,因而推动对一个陈述的接受和拒绝,但是基础陈述不能被经验证明,——就如不能以拍桌子来证明一样。

    30.理论和实验

    基础陈述是作为一个决定或一致意见的结果而被接受的;在这个程度内,它们是约定。达到决定遵循由规则所支配的程序。在这些规则中,特别重要的是一条这样的规则:它告诉我们,我们不应接受零散的基础陈述——就是在逻辑上不联系的陈述——,但我们应该在检验理论的过程中,在提出关于这些理论的探索性问题(接受基础陈述应回答这些问题)的过程中接受基础陈述。

    因此,真实情况是和朴素的经验主义者或归纳逻辑的信仰者所看到的完全不同。他们认为,我们从收集和整理我们的经验开始,就这样沿着科学的梯子上升。或者,使用比较形式的言语方式,假如我们希望建立一门科学,首先我们必须收集记录语句。但是如果我接到命令:“记录下你现在正在经验着的东西”,我将不知道怎样执行这个模糊不清的命令。我是否该报告我正在写字;我听到铃响;一个报童在叫卖;一个扩音器发出嗡嗡之声;或者,也许我是否该报告这些噪音使我恼怒?而且即使能够执行这个命令,不论你用这种方法积累的陈述收集得如何丰富,它决不能加在一起成为一门科学。科学需要观点和理论问题。

    在基础陈述的接受或拒绝上达到一致意见,一般是在应用理论的情况下做到的;事实上,意见一致是使理论接受检验的应用的一部分。就像其他种类的应用一样,在基础陈述上达到一致是在各种理论考虑的指导下进行的有目的的行动。

    我想,现在我们有条件来解决诸如Wbitehead问题那样的问题了。Whitehead的问题是:为什么对可触的早餐总是伴随可视的早餐呢,为什么可触的泰晤士报总是伴随着可视的和瑟瑟可闻的泰晤士报呢,这种有规律的同时发生一定使得那些相信所有科学始于零散的原始知觉的归纳逻辑家感到迷惑不解,他们认为,它们一定是完全“偶然的”。他们不能用理论来解释规律性,因为他们的看法是,理论只不过是有规律地同时发生的事件的陈述而已。

    但是按照这里已经达到的观点,在我们的各种经验之间的联系是可以用我们正在对之进行检验的理论来说明并演绎出来的。(我们的理论并不导致我们期望:可见的月亮伴随着可触的月亮,我们也不期望被一可听见的恶梦所困扰。)当然,有一个问题仍然存在——一个显然不能用任何可证伪的理论来答复的问题,因而是一个“形而上学’问题:为什么在我们构建理论中时常是这要幸运——为什么存在“自然定律”?

    所有这些考虑对于实验的认识论理论来说都是重要的。理论家提出某些确切的问题给实验家,后者力图用他们的实验来对这些问题而不是对任何其他问题,给出一个判决性的回答:他努力排除所有的其他问题。(在这里,理论的子系统的相对独立性可能是重要的。)因此,他使得他的检验对这一个问题“……尽可能地敏感,而对所有其他有关问题尽可能地不敏感……这个工作的一部分在于排除所有可能的错误来源。”但是,设想实验家这样做,“是为了减轻理论家的工作”,或者也许是为给理论工作者提供进行归纳概括的基础,那是错误的。相反,理论家必须在很久以前已经作了他的工作或至少是他工作的最重要部分:他必须已经尽可能清楚地提出了他的问题。因此,正是理论家给实验家指示道路。不过,即使实验家,他的大部分工作也不是进行精确地观察,他的工作也主要是理论性的。理论支配着实验工作,从它开始计划一直到在实验室里最后完成。

    下列情况为这一观点作了很好的说明:理论家成功地预见某一可观察的效应,这个效应以后为实验所产生;也许最出色的例子是de Broglie预见物质的波动性质,首先为Davisson和Germer用实验确证。也许下列情况为这一观点作了甚至更好的说明:实验对理论的进步有着引人注目的影响。在这种情况下,迫使理论家寻求一个更好的理论的,几乎总是对一个迄今被接受和验证的理论的实验证伪,这又是理论指导的检验的结果。著名的例子是导致相对论的Michelson-Morley实验和导致量子论的Lummer和Pringsheim对Rayleigh-Jeans辐射公式和Wien公式的证伪。当然,偶然的发现也发生,但是它们是比较罕见的。Mach正确地说到这种情况是,“科学的意见为偶然的情况所改正”(因而违反了他的本意,承认了理论的意义)。

    现在我们可以回答这样的问题:怎样和为什么我们优先于其他理论接受一个理论?

    这种优先选择当然完全不是由于经验证明组成理论的陈述所致;它不是由于在逻辑上把理论还原成经验所致。我们优先选择在和其他理论的竞争中最能坚持住的理论;在自然选择中证明自己最适于生存的理论。这种理论不仅迄今为止已经受住最严格的检验,而且仍然可以用最严格的方法进行检验的理论。理论是工具,我们通过应用它来检验它,我们通过它的应用结果来判断它的适应性。

    从逻辑的观点看来,理论的检验依靠基础陈述,而基础陈述的接受或拒绝则依靠我们的决定。因此,解决理论的命运的是决定。在这个程度内,我对“我们怎样选择理论”这一问题的回答和约定主义者给出的回答相似;而且像他一样,我说这种选择部分地决定于对效用的考虑。但是,尽管如此,在我的观点和他的观点之间仍然存在很大的不同。因为,我认为经验方法的特点正是:约定或决定不直接决定我们对全称陈述的接受,而是相反,它进入我们对单称陈述即基础陈述的接受。

    约定主义者认为,他的简单性原则支配着全称陈述的接受;他选择最简单的系统。

    我则相反,建议首先应该重视的应该是检验的严格性。(在我称为“简单性”的东西和检验的严格性之间有着密切的联系;但是,我的简单性观念和约定主义者的有着很大的不同,参看第46节。)而且我认为,最终决定理论的命运的是检验的结果,即关于基础陈述的一致意见。我与约定主义者一样认为:任何特定理论的选择是一个行动、一个实践的问题。但是,我认为这选择受到理论的应用以及与这种应用相联系的基础陈述的接受的决定性影响;而约定主义者则认为,美学的动机是决定性的。

    因此,我和约定主义者不同,认为:为意见一致所决定的陈述不是全称的而是单称的。我和实证主义不同,认为:基础陈述不能为我们的直接经验所证明,而是从逻辑观点看来,因一个行动、一个自由的决定而接受。(从心理学的观点看来,也许这是一种有目的的和适应良好的反应。)

    在证明和决定——遵循由规则支配着的程序达到的决定——之间的这个重要区别,也许可以用一个类比来阐明:通过陪审团进行的古老的审判程序。

    陪审团的裁定(vere

    dictum=说实话),像实验工作者的裁决一样,是对事实问题(guid facti?)的回答,这问题必须以最鲜明、最确定的形式提给陪审团。但是,问什么问题,问题如何提出,主要视法律境况,即现行的刑法系统(相当于理论系统而定)。由于意见一致,陪审团通过它的决定接受关于事实发生的陈述——可以说是基础陈述。这个决定的意义在于:从它和(刑法)系统的全称陈述一起,能演绎出一定的推断。换句话说,这决定形成应用刑法系统的基础;这裁决起着一个“事实的真陈述”的作用。但是显然,这陈述不一定仅仅因为陪审团已经接受它就成为真的。这个事实是在允许废止或修改裁决的规则里得到承认的。

    达到裁决遵循由规则支配的程序。这些规则建立在一定的基本原则的基础之上,设计这些基本原则,主要是(如果不是仅仅是)为了发现客观真理。有时这些规则不仅为主观确信甚至也为主观偏见留有余地。然而即使我们不考虑古老程序的这些特定方面,想象出一个完全建立在促进发现客观真理的目的的基础上的程序,情况仍然是如此:陪审团的裁决决不证明它所断言的真理性,也不给这真理性提供根据。

    也不能认为陪审团员的主观确信证明所达到的决定的正确性;虽然在主观确信和所达到的决定之间当然存在着密切的因果联系——这联系可以用心理学规律陈述;因此这些确信可以称为这决定的“动机”。与确信不是证明这一事实相联系的是这样的事实:可以有不同的规则来调节陪审团的程序(例如,简单多数或限定多数),这一点说明,在陪审团员的确信和他们的裁决之间的关系可以有很大的变化。

    和陪审团的裁决相反。法官的判决是“推理性的”。它需要,也包含着证明。法官试图用其他陈述即法律系统的陈述,和起初始条件作用的裁决结合起来,来证明判决。或者从中合乎逻辑地演绎出判决来。这就是为什么可以用逻辑的报据对判决提出异议。另一方面对陪审团的决定提出异议,就只能质问决定是否遵循公认的程序规则而达到的,就是说,只涉及决定的形式,不涉及它的内容。(决定的内容的证明被称作“动机报告”而不称作“逻辑证明报告”,这是意味深长的。)

    在这个程序和我们借以决定基础陈述的程序之间的类似是清楚的。比如,这种类比帮助我们理解基础陈述的相对性和基础陈述如何依赖理论提出的问题的方式,在陪审团审判的情况下,除非首先通过决定达到一个裁决,显然不可能应用“理论”;然而,这裁决必须在遵循因而应用一般法规的一部分的程序中才能作出。这种情况和基础陈述的情况类似。接受基础陈述是理论系统的应用的一部分;只有这个应用才使得这理论系统的进一步应用成为可能。

    因此,客观科学的经验基础设有任何“绝对的”东西。科学不是建立在坚固的基岩上。可以说,科学理论的大胆结构耸立在沼泽之上。它就像树立在木桩上的建筑物,木桩从上面被打进沼泽中,但是没有到达任何自然的或“既定的”基底;假如我们停止下来不再把木桩打得更深一些,这不是因为我们已经达到了坚固的基础。我们只是在认为木桩至少暂时坚固得足以支持这个结构的时候停止下来。

    追记(1972)

    (1)我的术语“基础”具有反语的含意:这是一种不坚固的基础。(2)我采取一种实在论和客观主义的观点,我试图用批判的检验来代替作为“基础”的知觉。(3)我们的观察经验决不能不受检验,它们浸透着理论。(4)“基础陈述”是“检验陈述”:它们和所有语言一样,浸透着理论(即使允许形成如“现在这里红”这样的陈述的“现象”语言,也浸透着关于时间、空间和颜色的理论)。

    第六章 可检验度

    理论是或多或少可以严格地检验的;这就是说,或多或少可以容易地证伪的。它们的可检验性的程度对于理论的选择是有意义的。

    有这一章里,我要通过比较理论的潜在证伪者类来比较它们不同的可检验度或可证伪度。这个考察完全独立于是否有可能在绝对意义上区别可证伪的和不可证伪的理论这一问题。人们的确可以说,这一章通过表明可证伪性是一个程度问题而把可证伪性的要求“相对化”。

    31.纲领和例证

    就如我们在第23节中看到的,假如至少存在一个同型基础陈述的非空类,而这些基础陈述为一个理论所禁止;就是说,假如这理论的潜在证伪者类不是空的,这个理论就是可证伪的。第23节中也说到,假如我们用一圆面积代表所有可能的基础陈述类,用圆的半径代表可能的事情,那么我们可以说,至少有一条半径——也许更确切地说,一条窄的扇形,它的宽度可以代表事件应是“可观察的”这一事实——必须是和这理论不相容的,是为这理论所排除的。因此,人们可以用不同宽度的扇形代表各种理论的潜在证伪者。按照这些理论排除的扇形宽度的大小,可以表明理论具有或多或少的潜在证伪者(暂时不谈这个“或多”“或少”是否可能精确测定的问题)。因此可以进一步说,假如一个理论的潜在证伪者类比另一个理论的潜在证伪者类“大”,那么第一个理论就有更多的机会为经验所反驳;因此,和第二个理论相比较,第一个理论可以说具有“更高的可证伪度”。这也就意味着,第一个理论关于经验世界比第二个理论说得更多,因为它排除的基础陈述类较大。虽然允许的陈述类因而变得更小,这并不影响我们的论证;因为我们已经看到,理论对于这个类并不断言任何东西。因此可以说,一个理论传达的经验信息量,或者它的经验内容,随着它的可证伪度的增加而增加。

    现在我们设想:给我们一个理论,代表这理论禁止的基础陈述的扇形变得越来越宽,最后只留下一条窄的扇形代表着不为这理论所禁止的基础陈述(假如这理论是无矛盾的,就必定会有这样的扇形留下)。像这样的理论显然很容易证伪,因为它只允许经验世界有一个很小范围的可能性;因为它排除了几乎所有可设想的,即逻辑上可能的事件。它对经验世界断言如此之多。它的经验内容如此之大,以至可以说很少有逃脱被证伪的机会。

    确切地说,理论科学的目的就在于获得在上述意义上易于证伪的理论。它的目的在于限制允许的事件到最小的范围,假如能够做到的话,小到这样的程度,任何进一步的限制就会导致这理论的实际的经验的证伪。假如我们能成功地获得这样一个理论,那么这个理论就能描述“我们的特殊世界’精确到理论描述所可能达到的程度;因为它会用理论科学所可能达到的最大的精确性,来从所有在逻辑上可能的经验世界类中挑选出“我们的经验”世界来。所有我们实际遭遇到和观察到的所有事件或偶发事件类,而且只有这些,才称作“被允许的”。

    32.如何比较潜在证伪者类

    潜在证伪者类是无限类。直觉的“较多”和“较少”,不要任何特殊保证条件就可应用于有限类,却不能同样地应用于无限类。

    我们不容易躲开这个困难。即使我们为作比较而考虑被禁止的事件类,而不考虑被禁止的基础陈述或偶发事件,为了弄清其中哪一个含有“更多的”被禁止的事件,也不易躲开上述困难。因为某一经验理论所禁止的事件数也是无限的,这点可以从下列事实中看出:一个被禁止的事件和任何其他事件(不管它是否是被禁止的)的合取又是一个被禁止的事件。

    我将考虑三种方法,即使在无限类的情况下,也给予这直觉的“较多”或“较少”一个精确的意义,以便找出其中哪一种可用来比较被禁止的事件类。

    (1)类的基数(或幂)的概念。这个概念不能帮助我们解决我们的问题,因为很容易看出,潜在证伪者类对所有的理论有着同一的基数。

    (2)维的概念。立方体以某种方式包含比直线更多的点,这个模糊的直观的观念,能够通过集合论的“维”概念以逻辑上无懈可击的术语清楚地表述。这种概念对点的类或集是按照在它们的元素之间的“邻域关系”的丰度加以区别的:更高维的集具有更丰富的领域关系。维的概念,使我们能比较“较高”和“较低”维的类,这里将被用来处理比较可检验度的问题。这是可能的,因为基础陈述通过和其他基础陈述的合取结合起来又产生基础陈述,这个新产生的基础陈述比它们的组成部分“具有更高的复合度”;而基础陈述的这个复合度可以和维的概念联系起来。不过,必须使用被允许的事件的复合而不是被禁止的事件的复合。理由是,一个理论禁止的事件可以有任何复合度;另一方面,某些被允许的陈述之所以被允许,只是因为它们的形式,或者更确切地说,因为它们的复合度太低,以致使它们不能和该理论相矛盾;可以利用这个事实来比较维。

    β)。那么,或者β的所有元素也是α的元素——在这种情况下,我们说这两类具有相同的外延或者说它们是等同的——或者β的有些元素不属于a。在后一种情况下,不属于α的β的元素形成“余类”或称为α对于β的补类,α是β的一个真子类。子类关系和直觉的“较多”和“较少”非常对应,但是,它的不利之处是,这种关系只能用来比较两个互相包含的类。所以,假如两个潜在证伪者类不是互相包含,而是互相交叉,或者它们没有共同的元素,那么,相应的理论的可证伪度就不能用子类关系来比较;它们对于这种关系来说,是不可比的。

    33.用子类关系比较可证伪度

    暂时引进下列定义,以后在讨论理论的维数时将加以改进。

    (1)说陈述x比陈述y“更高度可证伪”或“更可检验”,或用符号表示:Fsb(x)>Fsb(y),当且仅当x的潜在证伪者类包含作为一个真子类的y的潜在证伪者类。

    (2)如果两个陈述x和y的潜在证伪者类同一,则它们有相同的可证伪度,即:Fsb(x)=Fab(y)。

    (3)如果这两个陈述的潜在证伪者类并不作为真子类相互包含,则这两个陈述没有可比的可证伪度(Fsb(x)‖Fsb(y))。

    假如(1)适用,总是有一个非空的补类。在全称陈述的情况下,这个补类必定是无限的。因此,两个(严格全称)理论不可能有这样的区别:其中一个理论禁止为另一个理论所允许的有限数量的单个偶发事件。

    所有重言的和形而上学的陈述的潜在证伪者类都是空的。所以,按照(2),它们是同一的。(因为,空类是所有类的子类,因而也是空类的子类,所以,所有空类是同一的;这一点可以表示为:只存在一个空类。)如果我们用‘e’表示经验陈述,用‘t’或‘m’分别表示重言的或形而上学的陈述(例如,纯粹存在陈述),那么我们可以给重言的或形而上学的陈述一个零可证伪度,我们写作:Fsb(t)=Fsb(m)=0Fsb(e)>0。

    自相矛盾的陈述(可以用(c)来表示),可以说是具有所有在逻辑上可能的基础陈述作为它的潜在证伪者类。这个意思就是说,任何陈述,就其可证伪度而言,都是和自相矛盾陈述可比的。我们得出:Fsb(c)>Fsb(e)>0。如果我们任意地设Fsb(c)=1,即任意地把1赋予某一目相矛盾的陈述的可证伪度,那么我们甚至可以用条件1>Fsb(e)>0来定义经验陈述e。按照这个公式,Fsb(e)总是在0和1之间的间隔内,不包括两端,即在以这两个数字为界的“开放间隔”内。由于把矛盾陈述和重言陈述(形而上学陈述也一样)排除在外,这个公式同时表达了无矛盾性的要求和可证伪性的要求。

    34.子类关系的结构 逻辑概率

    我们已经用子类关系对两个陈述的可证伪度的比较下了定义。因此,可证伪度的比较就具有子类关系的所有结构性质。可比较性问题可以用一个图(图1)来说明。在这个图中,左边画的是某些子类关系,右边画的是相应的可检验性关系。右边的阿拉伯数字对应于左边的罗马数字,某一罗马数字表示相应的阿拉伯数字所表示的那个陈述的潜在证伪者类。在这个图里表示可检验度的箭头,从具有更可检验的或更可证伪的陈述走向不那么可检验的陈述(因此它们相当准确地与可推导性箭头相当:参看第35节)。

    从图中可以看出,各种子类序列可加以区别和追溯,例如,序列Ⅰ-Ⅱ-Ⅳ或Ⅰ-Ⅲ-Ⅴ;并且可以看出,引进新的中间类,可以使得这些序列更加“密集”。所有这些序列在这个特殊情况下都始于1和终于空类,因为空类被包含在每一个类里(在左面的图里,不可能画出空类,只是因为它是每一个类的子类,因此可以说必须出现在每一个地方)。如果我们选择类Ⅰ作为所有可能的基础陈述类,那么Ⅰ就变成矛盾陈述(c),而0(相当于空类)就可以表示重言陈述(t)。从Ⅰ到空类,或者从(c)到(t),可能通过各种途径;从右边的图中可以看出,某些途径可以互相交叉。因此我们可以说,这种关系的结构是一种网络结构(由箭头或子类关系排列成的“序列的网络”)。在节结点(例如,陈述4和5)网络部分地联结起来。只有在普遍类和空类里,对应于矛盾陈述c和重言陈述t;关系才完全联结起来。

    是否可能把各种陈述的可证伪度排列在一个标尺上,即把按照它们的可证伪度排列的数字同各种陈述相关起来?显然,我们不可能用这种方法把所有的陈述排列起来,因为,如果能够的话,我们就会随意地使得那些不可比的陈述成为可比的。但是,我们完全可以从网络中挑选出某个序列,用数字来表示该序列陈述的次序。这样做时,我们必须给离矛盾陈述c较近的陈述的数字,比给离重言陈述t较近的陈述高。由于我们已经分别以0和1赋予重言陈述和矛盾陈述,我们就必须以真分数赋予所挑选的序列中的经验陈述。

    然而,我并不真正想挑选出某一个序列来。赋予这序列中的陈述以数字也是完全任意的。不过,可能给以分数这一事实有很大意义,特别是因为它说明了在可证伪度和概率观念之间的联系。每当我们能比较两个陈述的可证伪度时,我们就能说,可证伪度较小的陈述由于它的逻辑形式,也是概率较大的,这种概率我称为“逻辑概率”。不可把它和在博奕论和统计学中使用的数值概率相混淆。陈述的逻辑概率和它的可证伪度是互补的:它随可证伪度的减少而增加。逻辑概率1相当于可证伪度0,反过来也是如此。具有更可检验度的陈述,即具有更高可证伪度的陈述,是在逻辑上更少可几的陈述;而可检验性较差的陈述是在逻辑上更可几的陈述。

    在第72节中将看到,数值概率能和逻辑概率联结起来,因而也能和可证伪度联结起来。有可能把数值概率解释为适用于(从逻辑概率关系中挑选出来的)子系列的东西,可以在频率估计的基础上为这子系列规定一种测量系统。

    这些对可证伪度比较的考察不仅适用于全称陈述或理论系统;它们也可推广应用于单称陈述。例如,它们适用于和初始条件合取的理论。在这种情况下,潜在证伪者类不可被误认为事件类——同型的基础陈述类——,因为它是偶发事件类(这点和将在第72节中分析的逻辑概率和数值概率之间的联系有某种关系)。

    35.经验内容、衍推和可证伪度

    在第31节中说到,我称之为陈述的经验内容的东西随着它的可证伪度而增加:陈述禁止越多,它对经验世界所说越多(参看第6节)。我称为“经验内容”的东西和比如,Carnap定义的“内容”概念有密切的关系,但不是同一的。对于后者,我使用术语“逻辑内容”,以与经验内容相区别。

    我定义陈述p的经验内容为它的潜在证伪者类(参看第31节)。逻辑内容,借可推导性概念之助,被定义为从该陈述中可推导出的所有非重言陈述类(可以称作它的“后承类”)。所以,p的逻辑内容至少等于(即大于或等于)陈述q的逻辑内容,如q可从p中推导出来(符号表示:如‘p→

    q’)。如果可推导性是相互的(符号‘p←→q’),则说p和q有相同的内容如q可从p中推导出,而p不能从q中推导出,则q的后承类,一定是p的后承类的一个真子集;则p具有更大的后承类,并且从而具有更大的逻辑内容(或者逻辑力)。

    我的经验内容的定义的一个推断是,两个陈述p和q的逻辑内容和经验内容的比较导致相同的结果,假如作比较的陈述不包含形而上学要素的话。因此我们要求:(a)有着相等的逻辑内容的两个陈述也必定具有相等的经验内容;(b)陈述p的逻辑内容大于陈述q的逻辑内容,也必定具有更大的经验内容,或者至少相等的经验内容;最后(c)假如陈述p的经验内容大于陈述q的经验内容,那么它的逻辑内容必定更大,否则就是不可比的。在(b)里必须加上“或者至少相等的经验内容”,这个限制因为p例如可能是q和某个纯粹存在陈述或其他某类形而上学陈述(我们必经赋以一定的逻辑内容)的合取;因为在这种情况下,p的经验内容将不大于q的经验内容。相应的考虑使得在(c)上加上“否则就是不可比的”这条限制成为必要。

    因此,在比较可检验度或经验内容度时,我们通常——就是说,在纯粹经验陈述的情况下——达到和比较逻辑内容或可推导性关系时所达到的相同的结果。因此,可能把可证伪度的比较在很大程度上建立在可推导性关系的基础之上。两种关系都表明网络的形式,这网络在自相矛盾陈述和重言陈述里完全地联结起来(参看第34节)。这一点可以下列说法表示:自相矛盾陈述衍推每一个陈述,而重言陈述为每一个陈述所衍推。而且,我们已经看到,经验陈述可被描述成这样的陈述:它们的可证伪度落在以自相矛盾陈述的可证伪度为一端,以重言陈述的可证伪度为另一端的开放间隔中间。相同地,一般的综合陈述(包括非经验的陈述)也由于衍推关系,被放置在自相矛盾陈述和重言陈述之间的开放间隔中间。

    因此,和所有非经验的(形而上学的)陈述都是“无意义的”实证主义命题相对应的就会是这样的命题:我在经验的陈述和综合的陈述之间,或在经验内容和逻辑内容之间所作的区别是多余的;因为所有综合陈述必须是经验的——即所有都是真正的而不只是伪陈述。但是,我认为,这种使用词的方式,虽然是可行的,并不能把问题澄清,反而把问题混淆了。

    因此,我把对两个陈述的经验内容所作的比较,看作等同于对它们的可证伪度所作的比较。这就使得我们的方法论规则,即应该选择那些能经受最严格的检验的理论(参看第20节中反约定主义的规则),等同于这样的规则:选择具有最大可能的经验内容的理论。

    36.普遍性水平和精确度

    还有其他的方法论要求,可以还原为对最大可能的经验内容的要求。其中两个要求是突出的:对可能达到的最高水平(或程度)的普遍性的要求,和对可能达到的最高精确度的要求。

    考虑到这些要求,我们来考察下列可设想的自然律:

    p:所有在封闭轨道中运行的天体作圆形运动,或者更简洁地说,所有天体轨道是圆。

    q:所有行星轨道是圆。

    r:所有天体轨道是椭圆。

    s:所有行星轨道是椭圆。

    在这四个陈述中存在的可推导性关系在我的图中用箭头表示。从p可以得出所有其他的陈述,从q可以得出s,s也可从r得出;所以s可以从所有其他陈述得出。

    从p移动到q,普遍性程度减少,q表达的比p少,因为行星轨道形成天体轨道的一个真子类。因此,p比q更易于被证伪:如q被证伪,p也被证伪,但是反之不然。从p移动到r,(谓语的)精确度减少:圆是椭圆的其子类;如r被证伪,p也被证伪,但是反之不然。相应的话可以应用到其他的移动上:从p移动到s,普遍性程度和精确度二者都减少;从q到s,精确度减少;而从r到s,普遍性程度减少。和较高程度的普遍性或精确度相对应的是较大的(逻辑的,或)经验的内容,因而有较高的可证伪度。

    全称陈述和单称陈述二者都可以写成“全称条件陈述”的形式(或者经常称作“一般蕴涵”)。假如我们把我们的四个定律写成这个形式,那么我们也许能更容易和更准确地看到两个陈述的普遍性程度和精确度是如何进行比较的。

    全称条件陈述(参看第14节注)可以写成下列形式:‘(x)(φx→fx)’,或者读为:“所有x的值,满足陈述函项φx的,也满足陈述函项fx”。我们的图中的陈述s产生下列例子:“(x)(x是一颗行星的轨道→x是一个椭圆)”的意思是:“不论x是什么,如果x是一颗行星的轨道,则x是一个椭圆”。设p和q是写成这种“标准”形式的两个陈述;那么我们可以说,p比q有着更大的普遍性,如果p的前件陈述函项(可以用‘φpx’来表示)是重言地蕴含于(或可合乎逻辑地推导于),但是不等同于q的相应的陈述函项(可以用‘φqx’来表示);或换言之,如果‘(x)φqx→φpx’是重言的(或逻辑上真的)。同样,我们说,p比q有着更大的精确性,如果‘(x)(fpx→fqx)’是重言的。即如果p的谓词(或者后件陈述函项)比q的谓词更窄,这就意味着:p的谓词衍推q的谓词。

    这个定义可以推广到有着不止一个变量的陈述函项中。基本的逻辑变换从它导致我们已断言过的可推导性关系,这种关系可以用下列规则来表示:如果两个陈述的普遍性和精确性都是可比的,那么,较不普遍或较不精确的陈述可以从较普遍或较精确的陈述中推导出来;当然,除非一个更普遍而另一个更精确(如在我的图中q和r的情况)。

    现在我们可以说,我们的方法论决定——有时被形而上学地解释成因果性原理——应不让任何事情得不到解释,即总是试图从其他具有更高普遍性的陈述中推导出陈述来。这个决定是从可达到的最高普遍性程度和精确度的要求中推导出来的,而这个要求可以还原成这样的要求或规则:应该选择能经受最严格检验的理论。

    37.逻辑域 略论测量理论

    如果陈述p,由于具有更高水平的普遍性或精确性,比陈述q更易于证伪,那么,为p所允许的基础陈述类是为q所允许的基础陈述类的一个真子类。适用于被允许的陈述类之间的子类关系,是适用于被禁止的陈述(潜在证伪者)类之间的子类关系的对立物:这两个关系可以说是相反的(也许可以说是互补的)。为一个陈述所允许的基础陈述类,可以称作它的“域”。一个陈述允许实在有的“域”,可以说是它允许实在“自由活动”的范围(或者自由度)。域和经验内容(参看第35节)是相反(或互补)的概念。因此,两个陈述的域的相互关系和它们的逻辑概率的相互关系一样(参看第34、72节)。

    我引进域概念,因为它帮助我们处理和测量的精确度相联系的某些问题。假定两个理论的推断在所有的应用领域里区别是如此之小,以至在计算可观察事件之间的细微差别,由于在我们的测量中可达到的精确度不够高而不能检测到。因此,不首先改进我们的测量技术,就不可能用实验在这两个理论中作出判定。这表明,现行的测量技术决定了一定的域——一个范围,在这个范围内观察其间的差别为理论所允许。

    因此,理论应该有可达到的最高可检验度(因此只允许最窄的域),这一规则衍推这样的要求:测量的精确度应尽可能提高。

    人们经常说,所有测量都在于确定点的重合。但是任何这种确定只能在某些限度内才是正确的。在严格的意义上,不存在点的重合。两个物理“点”——比如,在量杆上的一个标记,在被测量物体上的另一个标记——它们至多能做到靠得很近;但不能重合,即不能合并成一点。不管在其他场合这个说法是如何的平凡,它对测量的精确性来说是重要的。因为它使我们想到,测量应该用下列术语来描述。我们发现,被测量的物体的点落在量杆的两个级别或标记之间,或者比方说,我们的测量仪器的指针落在刻度的两级之间。然后我们可以或者把这些级别或标记看作我们误差的两个最佳界限,或者去估计(比方说)指针在刻度间隔内的位置,因而得到一个比较准确的结果。人们可以这样描述这后一情况:我们使指针落在两个想象中的分级标记之间。因此,一个间隔、一个域总是存留着。物理学家的习惯是每一次测量都要估计这个间隔。(因此,例如他们效法Milliken用静电单位测量电子的基本电荷,得出e=4.774·10-10,加上:不精确范围是±O.005·10-10。)但是这里发生一个问题。人们用两个标记——即间隔的两个边界——来代替刻度上的一个标记的目的究竟是什么,对于这两个边界的每一个,又一定会提出同样的问题:对于这间隔的边界,什么是准确性的界限呢?

    给出间隔的边界显然是无用的,除非这两个边界本身能以大大超过我们对原来的测量所希望达到的精确度确定下来;即在它们不精确的间隔内确定下来,这些间隔因此应该比它们为原来的测量值确定的间隔小几个数量级。换句话说,间隔的边界不是截然分明的,而实际上是很小的间隔,这个间隔的边界本身仍然是更小得多的间隔,等等。就这样我们达到了可以称为间隔的“不分明的边界”或“缩聚边界”的观念。

    这些考虑并不以误差的数学理论和概率论为前提。这走的是另一条迂迴的路;通过分析测量间隔的观念,这些考虑提供了一个背景,如果没有这个背景,误差的统计理论就没有什么意义。如果我们测量一个量许多次,我们得到的数值以不同的密度分布在某一间隔——精确性的间隔依赖现行的测量技术。仅当我们知道我们追求什么——即这个间隙的缩聚边界——我们才能把误差理论应用到这些数值上,并确定间隔的边界。

    现在我想所有这些多少说明了使用测量方法对于纯定性方法的优越性。即使在定性估计的情况下,例如对一个乐音的音高的估计,有时也可能为这种估计给出一个准确性的间隔,这是正确的;但是,没有测量,任何这样的间隔只能是很模糊的,因为在这种情况下,不能应用缩聚边界的概念。这个概念只能在我们可以谈到数量级的地方因而只能在规定了测量方法的地方才适用。我将在第68节中,联系到概率论,进一步运用精确性间隔的缩聚边界这一概念。

    38.联系维来比较可检验度

    直到现在为止,我们仅在理论可以借助子类关系来作比较的范围内来比较它们的可检验度。在某些情况下,这个方法在指导我们选择理论方面很成功。因此现在我们可以说,在第20节中举例说到的Pauli的不相容原理的确证明是一个令人满意的辅助假说。因为它极大地增加了旧的量子论的精确度,因而增加了可检验度(如新量子论的相应的陈述断言:电子具有反对称状态,而不带电粒子和某些带大量电荷的粒子具有对称状态)。

    然而,对于很多目的来说,用于类关系的方法来进行比较是不够的。因此,例如Frank指出,具有高水平的普遍性的陈述——例如PComnck公式里的能量守恒原理——易于变成重言的,失去它们的经验内容,除非初始条件可以“……用少数测量,……即依靠系统状态特有的很少几个量值”来确定。关于必须确定和代入公式的参量的数目的问题是不能借助子类关系的帮助来阐明的,尽管它是显然与可检验性和可证伪性以及它们的程度密切联系着的。确定初始条件需要的量值越少,足以使理论被证伪的基础陈述就越不是复合的;因为起证伪作用的基础陈述,是由初始条件和推导出的预见的否定二者的合取组成的(参看第28节)。因此,通过弄清一个基础陈述必须有的最小复合度(如果它能够与理论矛盾的话),就有可能比较理论的可检验度;只要我们能找到一种方法来比较基础陈述以弄清它们是否更(或不那么)复合的,即是否是大量(或小量)比较简单的一种基础陈述的复合物。所有复合度没有达到必要的最低限度的基础陈述,不管它们内容如何,只是由于它们的低复合度,就都是为理论所允许的。

    但是,任何这样的纲领都面临着困难。因为一般地说,单靠检查,是不容易说出一个陈述是否是复合的,即是否等于更简单的陈述的合取。在所有的陈述里,都出现普遍名称,通过分析它们,人们往往能把陈述分解为合取的组分(例如,陈述:“在k地有一玻璃杯水”也许可以被分析和分解成两个陈述:“在k地有一玻璃杯盛着一种液体”和“在k地有水”)。用这种方法来分解陈述,没有希望找到任何自然的终点,特别是因为,我们为了使进一步分解成为可能,总能引进新的已定义的普遍名称。

    为了使得所有基础陈述的复合度成为可比的,可以建议:我们必须选择一定的陈述类作为基本的或原子的陈述,然后通过合取和其他的逻辑运算就能够从这些基本或原子陈述中得到所有其他陈述。如果成功,我们就应用这种方法来定义复合的“绝对零度”,然后可以把任何陈述的复合表示为可以说是绝对复合——度。但是由于上面已经说过的理由,这样一种程序必须被认为是非常不适当的;因为它会给科学语言的自由使用施加苛刻的限制。

    然而,比较基础陈述的复合度,因而也比较其他陈述的复合度,仍然是可能的。可以这样做:任意选择一个相对的原子陈述类,我们把它作为进行比较的基础。这样一种相对原子陈述类可以用生成的图式或母式来定义(例如,“在……地方为了……有一个量器,它的指针指在刻度……和……之间”)。然后,我们可以把通过代入确定值,从这种母式(或者陈述函项)中得到的所有陈述类定义为相对原子的,因而定义为等复合的。这些陈述类,与所有可从这些陈述形成的合取一起,可以称之为一个“场”。一个场的n个不同的相对原子陈述的合取,可以称之为“这场的n组复合”,并且我们可以说,它的复合度等于数n。

    如果对一个理论t,存在这样一个单称(但是不一定是基础)陈述场:对某个数目d,理论t不能为这场的任何d组复合所证伪,虽然它能为某些d+1组复合所证伪,那么我们称d为理论对于那个场的特性数。因此,这场的复合度低于d或等于d的所有陈述是同这理论相容的,是为这理论所允许的,不管这些陈述的内容是什么。

    现在就有可能把对理论的可检验度的比较建立在这个特性数d的基础之上。但是为了避免在使用不同的场时可能造成的不一贯,有必要使用一个比场这一概念更窄的概念,就是应用场的概念,如果已知理论t,我们说一个场是这理论t的一个应用场,假如对于这个场,存在理论t的一个特征性数字d,而且假如它满足其他一些条件。

    一个理论t对于一个应用场的特性数d,我称之为t对于这个应用场的维。“维”这个词本身就说明了问题,因为我们可以把场的所有可能的n组复合看作有空间结构的(在无限维的构型空间中)。例如,若d=3,则那些可允许的陈述(因为它们的复合度太低)形成这个构型的一个三维的子空间。从d=3过渡到变为d=2,相应于从立体过渡到为平面。维数d越小,容许的陈述类(这些陈述由于它们的复合度低,不管内容如何,不能与这理论矛盾)受到的限制就越严格,这理论的可证伪度就越高。

    应用场的概念不限于基础陈述,但各种单称陈述都被容许作为属于一个应用场的陈述。但是通过借助场比较它们的维,我们能估计基础陈述的复合度(我们假定,与高度复合的单称陈述相应的是高度复合的基础陈述)。因此可以假定,与较高维的理论相应的是一个较高维的基础陈述类,这个类的所有陈述为这理论所容许,不管它们断言的是什么。

    这回答了两种比较可检验度的方法如何联系的问题——一种方法通过理论的维,另一种方法通过子类关系。有这样一些情况:这两种方法都不适用,或者只有其中一种方法适用。在这种情况下,在这两种方法之间当然没有发生冲突的余地。但是如果在一种特殊情况下,这两种方法都适用,那么可以想象会发生这种的事:两个理论有相同的维,但是,假如用建基于子类关系的方法来评价,可能有不同的可证伪度。在这种情况下,从后一种方法得出的判断应该被接受,因为这一种方法证明是比较灵敏的方法。在这两种方法都适用的所有其他情况下,它们一定会导致相同的结果;因为,借助维理论的一条简单定理可以表明:一个类的维一定大于或等于它的子类的维。

    39.曲线集的维

    有时我们可把我所说的一个理论的“应用场”很简单地等同于它的图形表示场,即图纸上的一块面积,我们在这张图纸上用图形表示理论:可认为这个图形表示场的每一点相应于一个相对原子陈述。因此理论相对于这个场的维,就等于相应于这理论的曲线集的维。我将用第36节中的两个陈述q和s来讨论这些关系(我们用维作比较适用于具有不同谓词的陈述)。假说q——所有行星轨道都是圆——是三维的:要证伪它,至少需要这场的四个单称陈述,相应于它的图形表示的四个点。假说s:所有行星轨道都是椭圆,是五维的,因为要证伪它,至少需要六个单称陈述,相应于图形上的六个点。我们在第36节里看到:

    q比s更易证伪:因为所有圆都是椭圆,所以有可能把比较建基于子类关系之上。但是使用维使我们能比较以前不能比较的理论。例如,我们现在可以比较一个圆假说和一个抛物线假说(它是四维的)。“圆”、“椭圆”,“抛物线”,每一个词表示一个曲线类或集;这些集中的每一个集有d个维,假如挑选出这集中的一条特定曲线,或者给以特征描述,d点是必要和充分的话。在代数表示式里,这曲线集的维依赖于参量的数目,这些参量的值我们可以自由选择。所以我们可以说,用以表示一个理论的一个曲线集的、可以自由测定的参量的数目,是那个理论的可证伪(或可检验)度的特性数。

    与我的例子中的陈述q和s相联系,我愿意对Kepler发现他的定律作一些方法论的评论。

    我并不想提出这样的看法:完美的信念——指导Kepler作出发现的助发现原理——是有意或无意地由对可证伪度的方法论考虑所引起的。但是,我的确认为,Kepler取得成功部分地由于这一事实:作为他出发点的圆假说,相对地说是易于证伪的。假如Kepler从由于其逻辑形式不是如圆假说那样易于检验的假说出发,考虑到计算的困难,这种计算的基础是“在空中”——可以说,漂浮在天空中,以不知道的方式在运动,他很可能得不到任何结果。Kepler通过证伪他的圆假说达到的毫不含糊的否定结果,事实上是他的第一个真正的成功。他的方法也被证明完全正确,因而他可以继续进行下去;特别是因为,即使这第一步尝试也已经产生一些近似值。

    无疑,Kepler定律可以用另外的方法找到。但是我想,这是引致成功的方法,这一点不仅是偶然的。这相当于消去法,仅当理论足够易于证伪——足够精确,能够和观察经验相冲突时,这种方法才是可应用的。

    40.两种减少曲线集维数的方法

    非常不同的曲线集可以有相同的维。例如,所有圆的集是三维的;但是所有通过一个给定点的圆的集是一个二维集(和直线集一样)。如果我们要求圆应该都通过两个给定点,则我们得一个一维集,如此等等。每一个添加的要求,即一个集的所有曲线必须通过多一个给定点,减少这个集的一个维。

    零维类

    一维类

    二维类

    三维类

    四维类

    直线

    抛物线

    通过一个给定点的直线

    通过一个给定点的圆

    通过一个给定点的抛物线

    通过一个给定点的圆锥曲线

    通过两个给定点的直线

    通过两个给定点的圆

    通过两个给定点的抛物线

    通过两个给定点的圆锥曲线

    通过三个给定点的圆

    通过三个给定点的抛物线

    通过三个给定点的圆锥曲线

    除增加给定点数的方法以外,还有其他方法也可以减少维数。例如,给定长短轴比的椭圆集是四维的(和抛物线集一样),已知偏心率数值的椭圆集也是这样。从椭圆过渡到圆,当然等于指定一个偏心率(0)或者一个特定的长短轴比(1)。

    因为我们对评价理论的可证伪度感兴趣,现在我们要问:这些减少维数的种种方法对于我们的目的来说是否是等价的,或者我们是否应该更仔细地考察它们的相对价值。一条曲线必须通过一定的单一点(或小区域),这样的规定常常是联接于或相应于某一单称陈述即一个初始条件的接受。另一方面,比方说从一个椭圆假说过渡到一个圆假说,显然相应于理论本身的维的减少。但是,如何区别清楚这两种减少维的方法?一种减少维的方法并不根据有关曲线的“形式”或“形状”的规定来进行;即例如通过指定一个或更多的点,或者通过某种等价的规定来减少维,我们可以给这种方法一个名称:“内容的减少”。在另一个方法里,曲线的形式或形状规定得更窄,例如,我们从椭圆到圆或从圆到直线等等,我称之为维数的“形式的减少”的方法。

    然而,要使得这个区别截然分明是不很容易的。这一点可以这样来看:减少理论的维用代数术语来说意味着以常数代替参数。现在,我们如何能区别不同的以常数代替参数的方法,是不大清楚的。从椭圆的一般方程过渡到圆的方程这种形式的减少,可以被描述为使一个参数等于0,使第二个参数等于1。但是,如果另一个参数(绝对项)等于0,那么这就意味着内容的减少,就是规定椭圆的一个点。但是,我想,如果我们看到它和普遍名称问题的联系,就有可能使得区别清楚起来。因为内容的减少引进一个个别名称到有关曲线集的定义中,而形式的减少则引进一个普遍的名称。

    让我们设想,也许根据“直指定义”,给予我们某一个别的平面。在这个平面上的所有椭圆集可以用椭圆的一般方程来定义;圆集可以用圆的一般方程来定义。这些定义不依赖于我们在这平面的什么地方画与它们有关的(Descartes)坐标;因此,它们不依赖于坐标的原点和方向的选择。特定的坐标系统只能由个别名称来决定;比方说由直接指定它的原点和方向来决定。由于椭圆(或圆)集的定义对于所有Descartes坐标是相同的,它不依赖于这些个别名称的规定:它对Euclid群的所有坐标变换(位移和相似变换)是不变的。

    另一方面,假如人们想定义共同的在平面上有着一个特殊个别点的椭圆(或圆)集,那么我们就必须运用一个方程,它对于Euclid群的变换不是不变的,而是和一个单称的,即个别地或直指地规定的坐标系统相联系的。因此,它是和个别名称相联系的。

    可以把这种变换安排在一个等级系统里。对于比较一般的变换群是不变的一个定义,对于比较特殊的变换群也是不变的。对于一个曲线集的每一个定义,有一个它特有的(最一般的)变换群。现在我们可以说:一个曲线集的定义D1与一个曲线集的定义D2“同样一般”(或比它更一般),假如D1和D2(或一个更一般的定义)对于同一个变换群都是不变的话。一个曲线集的维的减少现在可以被称为形式的,假如这个减少并不减弱定义的一般性;否则它可以被称为内容的。

    如果我们通过考虑它们的维来比较两个理论的可证伪度,显然我们必须在考虑它们的维的同时考虑它们的一般性,就是它们对于坐标变换的不变性。

    按照理论(如Kepler理论)事实上是否作出了关于世界的几何陈述,或理论是否只是在它可以用图形来表示的意义上是“几何的”——例如,表示压力依赖温度的图形,上述程序当然必定是不同的。对后一种理论,或相应的曲线集提出这样的要求:它的定义必须对于比方说坐标系统的旋转是不变的,这是不适当的;因为在这些情况下,不同的坐标可以表示完全不同的东西(一个是压力,另一个是温度)。

    这就是我对用以比较可证伪度的方法的阐述的结论。我相信这些方法能帮助我们阐明认识论问题,例如简单性问题,我们接着就要讨论这个问题。但是,我们将要看到,还有其他问题通过我们对可证伪度的考察而得到新的说明;特别是所谓“假说的概率”或验证的问题。

    追记(1972)

    这本书的比较重要的思想之一是关于理论的(经验的或信息的)内容的思想(我们称自然律为“律”不是没有道理的:“它们禁止越多,它们说得越多”。比较:上面第41页和第112页以后)。

    在前一章里我强调两点:(1)理论的内容或可检验性(或简单性:参看第七章)可以有度,因此可以说这度使得可证伪性概念相对化了(它的逻辑基础仍然是否定后件假言推理)。(2)科学的目的——知识的增长——可以是和我们的理论的内容的增长完全一致的。(参看我的论文:‘The   Aim of Science’,载Ratio    Ⅰ,1957    PP.24-35,〔经过修改〕重载Contempo-rary Philosophy.ed R.Klibansky  1969,PP.129-142;现又为我的书Objective Knowledge:An Evolutionary   Approach的第5章,这书即将由CComrendon Press出版。)

    最近我进一步发展了这些思想;特别参看我的Conjectures and  Refutations第10章,1963年版和以后的版本。两个新观点是:(3)内容或可检验性概念联系到正在讨论的问题或问题集而进一步相对化(在1934年我已经把这些概念联系到应用场而相对化了)。(4)引进理论的真性内容和它对真理的近似或接近(“逼真性”)的概念。

    第七章 简单性

    关于所谓“简单性问题”的重要性几乎没有一致意见。Weyl在不久前说:“简单性问题对于自然科学的认识论是最重要的”。然而,近来对于这个问题的兴趣低落了;也许是因为似乎很少有机会来解释这问题,特别是在Weyl进行透彻的分析之后。

    直到最近,简单性观念一直在无批判地使用,仿佛简单性是什么,为什么它应该是有价值的,是很明显的。不少科学哲学家在他们的理论里给予简单性概念一个关键性的重要地位,甚至没有注意到它引起的困难,例如,Mach,Kirchhoff,Avenarius的追随者试图用“最简单的描述”这一观念来代替因果解释的观念。没有形容词“最简单的”或者类似的词,这个学说就什么也没有说。当应该解释为什么我们认为用理论对世界进行的描述,优于用单称陈述对世界进行的描述时,就似乎预先假定,理论比单称陈述更简单。然而很少有人曾经尝试解释过,为什么理论应该是更简单的,或者更确切地说,简单性是什么意思。

    而且,如果我们假定,使用理论是由于简单性,那么显然,我们应该使用最简单的理论。Poincare(他认为理论的选择是一个约定的问题)就是这样来表述他的理论选择原理的:他选择可能的约定中最简单的。但是,哪一个是最简单的?

    41.排除美学的和实用的简单性概念

    “简单性”这个词用于很多不同的意义。例如Schr odinger理论在方法论意义上具有很大的简单性,但是在另外一种意义上,完全可以说它是“复杂的”。我们可以说,一个问题的解决不是简单的而是困难的,或者说,一个描述或一个说明不是简单的而是难以理解的。

    首先,我要从我们的讨论中排除简单性这一术语应用于任何像描述或说明这类东西。有时,我们说到同一个数学证明的两种说明,其中一个比另一个更简单或更优美。从知识理论的观点看来,这种区别意义很小;它不在逻辑的范围之内,只是表示一种美学性质或实用性质的选择。当人们说,一项工作比另一项工作可以“用更简单的办法完成”时,意思是,它可更容易地完成,或者,为了完成它,需要较少的训练或较少的知识,这情况是类似的。在所有这些情况下,很容易排除“简单”这个词;这一词的使用是逻辑外的。

    42.简单性的方法论问题

    在我们排除了美学的和实用的简单性观念以后,如果有什么东西余留下,那是什么呢?是否有对于逻辑学家是重要的简单性概念?是否可能按照它们的简单度来区别在逻辑上不等同的理论?

    对这个问题的回答似乎是很可疑的,因为大部分想定义这个概念的尝试得到很小的成功。例如,Schlick给了一个否定的回答。他说:“简单性是……一个概念,它表示的选择性质上,部分地是实用的,部分地是美学的”。值得注意的是,他给出了这个回答,是在他写到这里使我们感兴趣的概念,我称之为简单性的认识论概念的时候;因为他继续说道:“即使我们不能解释简单性在这里的真正意思是什么,我们仍然必须认识到这样的事实:任何科学家成功地用一个非常简单的公式(例如:一个线性的,二次的,或指数的函数)来描述一系列观察,他就立即确信,他已发现了一条定律。”

    Schlick讨论了用简单性概念来定义似定律的规律性概念,特别是“定律”和“机遇”区别的可能性。他最后排除了这个可能性,说道:“简单性显然是一个完全相对和模糊的概念;用它不能得到因果性的严格定义,定律和机遇也不能精确地区别开”。从这一段话中真正期待简单性概念完成什么就很清楚了:它要提供一种事件的似律性或规律性程度的量度,Feigl说出了同样的看法,他说到“用简单性概念来定义规律性或似律性的程度”。

    简单性的认识论观念在归纳逻辑理论里起着特殊的作用,比如联系到“最简单曲线”问题。归纳逻辑的信仰者假定,我们通过概括特殊的观察到达自然律。如果我们设想在一系列观察中的各种结果,作为在一个坐标系统中标绘的点。那么定律的图形表示就将是一条通过所有这些点的曲线。但是,通过有限数目的点,我们总能画出形式极为多样的数目无限的曲线。因此,由于定律不是单单由观察决定的,归纳逻辑面临在所有这些可能的曲线中决定选择哪一条曲线的问题。

    通常的回答是:“选择最简单的曲线”。例如,Wittgenstein说:“归纳过程在于发现可以使之和我们的经验相协调的最简单的定律”。在选择最简单的定律时,通常不言而喻地假定,比方说,线性函数比二次函数简单,圆比椭圆简单,等等。但是,没有给出任何理由,或说明选择这个特殊的简单性等级,而不是任何其他的等级,或说明相信“简单的”定律优于比较不简单的定律——除了美学的实用的理由以外Schlick和Feigl提到Natkin的一篇未出版的论文,按照Schlick的叙述,Natkin建议称一条曲线比另一条更简单,如果它的平均曲率更小的话,或者按照Feigl的叙述,如果它偏离一条直线更小的话(这两种叙述是不等价的)。这个定义似乎和我们的直觉符合得相当好;但是,它没有抓住关键之处,例如,它使得双曲线的一部分(渐近线部分)比圆简单得多,等等。实在说,我不认为,问题能为这样的“技巧”(Schlick这样称呼它们)所解决。而且,为什么我们应该给予简单性(如果用这个特殊方法来定义它)以优先权,这仍然是个谜。

    Weyl讨论了并否定了一个非常有趣的把简单性置于概率基础之上的尝试。“例如,假定同一函数y=f(x)的20对坐标值(x,y),当标绘在方格图解纸上时,落在一条直线上(在预期的精确度内)。因此我们推测,我们在这里面对一条严格的自然律,y线性地依赖于x。我们所以这样推测是由于直线的简单性,或者因为,如果该定律是一条不同的定律,这20对任意选择的观察正好非常接近地落在一条直线上,是极端不可几的。假如,现在我们用这条直线来进行内插和外推,我们会得到超出观察告诉我们的东西之外的预见,然而,这个分析是可以批判的。总有可能来定义……会被这20项观察所满足的各种数学函数;而这些函数中的某些会相当大地偏离直线。对这些函数中的每一个,我们都可以说,除非它代表真的定律。这20项观察正好落在这条曲线上,是极端不可几的。因此,函数,更确切地说,函数类,由于它的数学简单性,必定是先验地由数学提供给我们的,这毕竟是必不可少的。应该注意,这个函数项不必依赖与应满足的观察数一样多的参数”。Weyl关于“函数类,由于它的数学简单性,必定是先验地由数学提供给我们的”这段话以及他提到的参数的数目,和我的观点(在第43节中展开)是一致的。但是,Weyl没有说“数学的简单性”是什么,而且,最重要的,他没有说较简单的定律,与较复杂的定律相比较,应该具有什么逻辑的或认识论的优点。

    以上引证的几段话是很重要的,因为它们和我们现在的目的有关,这目的是分析简单性的认识论概念。因为这个概念尚未精确地加以确定。所以有可能摈弃任何想通过下述办法使这个概念精确化的尝试(比如我的尝试)而说:认识论家感兴趣的这个简单性概念,实际上是一个完全不同的概念。对于这种反对意见,我可以这样回答:我不赋予“简单性”这个词丝毫重要性。这个术语不是我引进的,我也知道它的缺点。我所要说的只是,如我的引证所表明的,我要澄清的这个简单性概念帮助我们回答的问题,正好就是科学哲学家常常提出的与他们的“简单性问题”相联系的问题。

    43.简单性和可证伪度

    与简单性概念相联系而产生的认识论问题都可得到解答,只要我们把这个概念等同于可证伪度。这个断言可能遭到反对;所以我首先试图使它在直觉上更易于为人所接受。

    我已经说明,具有低维的理论比高维理论更易于证伪。例如,具有一次函数形式的定律比用二次函数表示的定律更易于证伪。但是后者在具有代数函数的数学形式定律中间,仍然属于最可证伪的定律之列的。这一点和Schlick对简单性的评论完全一致:“我们当然应该倾向于认为一次函数比二次函数简单,虽然后者无疑地也描述一条很好的定律……”。

    我们已经看到,理论的普遍度和精确度和它的可证伪度一起增加。因此我们也许可以把理论的严格度——可以说理论把定律的严格性加于自然的程度——等同于它的可证伪度;这一点表明,可证伪度正是做的Schlick和Feigl期望简单性概念做的事情。我还可以说,Schlick希望在定律和机遇之间作出的区别,也能借可证伪度概念之助弄清楚。关于具有似机遇特征的序列的概率陈述,证明具有无限的维(参看第65节);不是简单的而是复杂的(参看第58节和第59节的后半部分);而且只是在特殊的保证条件下才是可证伪的(第68节)。

    可检验度的比较已经在第31到40节里详细地讨论过。那里提供的某些例子和其他细节可以容易地转用到简单性问题上来。这一点特别适用于理论的普遍度,一个比较普遍的陈述能代替许多较不普遍的陈述,并由于这个理由时常被称作为“比较简单”。理论的维的概念可以说是使得Weyl的用参量的数目来确定简单性概念的思想精确化了。通过我们在理论的维的形式的减少和内容的减少之间所作出的区别(参看第40节),可以对付对Weyl理论的某些可能的反对意见。这些反对意见之一是,轴比和偏心率数值给定的椭圆集虽然它显然不是那么“简单的”,具有和圆集正好一样多的参数。

    最重要的是,我们的理论解释了为什么简单性是如此高度的合乎需要。为了理解这一点,我们不需要假定“思维经济原理”或者任何这类原理。假如知识是我们的目的,简单的陈述就比不那么简单的陈述得到更高的评价,因为它们告诉我们更多东西;因为它们的经验内容更多,因为它们更可检验。

    44.几何形状和函数形式

    我们关于简单性概念的观点使我们能够解决了一些矛盾,直到现在这些矛盾曾使得这个概念是否有任何用处成为疑问。

    很少人会认为,比方说对数曲线的几何形状是特别简单的;但是一个由对数函数表示的定律常常被认为是简单的定律。同样地,一个正弦函数通常被说成是简单的,纵然正弦曲线的几何形状也许不是很简单的。

    假如我们记住在参数数目和可证伪度之间的联系。假如我们又在维的形式减少和内容减少之间加以区别,像这样的困难可以得到解决。(找们也必须记住对于坐标系统的变换的不变性的作用。)如果我们说到一条曲线的几何形式或形状,那么我们所要求的是,对于所有归属位移群的变换的不变性,我们还可以要求对相似变换的不变性;因为我们并没有想把几何图形或形状和一定的位置联结起来。因此,如果我们把一条单参数对数曲线(y=logax)的形状看作置于一个平面的任何地方,那么它就有五个参数(假如我们允许相似变换)。因此它就完全不是一个特别简单的曲线。另一方面,如果用一条对数曲线来表示一个理论或定律。那么描述过的那种坐标变换是无关的。在这种情况下,进行旋转、平移或相似变换,都是没有意义的。因为一条对数曲线通常是一种坐标不能互变的图形表示(例如,x轴可以表示大气压力,y轴表示海拔高度)。由于这个理由,相似变换在这里同样没有任何意义。类似的考虑适用于沿着一根特殊的轴,例如时间轴的正弦振荡;还有许多其他情况都是如此。

    45.Euclid几何学的简单性

    在相对论的大部分讨论中起着主要作用的问题之一是,Euclid几何学的简单性。从未有人怀疑过,Euclid几何学本身是比任何有一定曲率的非Euclid几何学更简单些——更不要说具有随地方而变化的曲率的非Euclid几何学了。

    乍一看来,这里涉及的这种简单性似乎和可证伪性很少关系。但是,如果讨论中的陈述被表述为经验的假说,那么我们发现,在这种情况下这两个概念,简单性和可证伪性,也是重合的。

    让我们考虑什么实验可以帮助我们检验这样的假说:“在我们的世界里,我们必须运用具有某一曲率半径的一种度量几何学”。仅当我们把一定的几何学实体和一定的物理客体——例如直线和光线、点和几根线的交点——等同起来时,检验才是可能的。如果采取了这样的等同(一个相关定义,或者也许是一个直指定义;参看第17节),那么可以看出,Euclid光线几何学的正确性假说的可证伪度,比任何断言某种非Euclid几何学的正确性的与前者相匹敌的假说的可证伪度高。因为如果我们测量一个光线三角形的角度之和,那么对180度任何显著偏离都将证伪Euclid假说。另一方面,具有给定曲率的Bolyai-Lobatschewski几何学的假说是和任何不超过180度的特定测量相容的。而且,为了伪证这个假说,必须不仅测量角度之和,而且还要测量三角形的(绝对)大小;这意味着,在角度之外,必须再定义一个测量单位,例如面积单位。因此我们看到,证伪需要更多的测量;假说和测量结果的更大的变化相容;因此更难于证伪:它的可证伪度较小。换句话说,Eu-clid几何是惟一的具有确定曲率的,在其中可能进行相似变换的度量几何学。因此,Euclid几何图形能对比较多的变换保持不变;即它们可能是维数较少的:它们可能是较简单的。

    46.约定主义和简单性概念

    约定主义者所说的“简单性”并不对应于我所说的“简单性”。任何理论都不是为经验所毫不含糊地决定的,这是约定主义者的中心思想,也是他们的出发点;这一点我同意。他们相信,他们因此必须选择“最简单的”理论。但是,由于约定主义者并不把他们的理论当作可证伪的系统,而是当作约定的规定,显然他们认为“简单性”的意义是和可证伪度不同的。

    约定主义者的简单性概念证明确实是部分地美学的和部分地实用的。因此,下列Schlick的评论(参看第42节)适用于约定主义者的简单性概念,而不适用于我的:“人们只能用约定来定义简单性概念,这约定必定总是任意的,这一点是确定无疑的”,奇怪的是,约定主义者自己没有看到他们自己的基本概念——简单性概念的约定性质。他们必须是忽略了这一点,这是明显的,因为否则他们本来会注意到,一旦他们已选择了任意约定的方法,他们求助于简单性决不可能使他们避免任意性。

    从我的观点看来,假如有人按照约定主义者的实践,坚持某一系统是一个永远确立了的系统,每当它处于危险中时,他就决意引进辅助假说去挽救它,那么必须说这个系统是最高度复杂的。因为,这样保护起来的系统的可证伪度等于零。这样我们就被我们的简单性概念引回到第20节的方法论规则;特别是也引回到限制我们过度使用特设性假说和辅助假说的规则或原理:使用假说的节约原理。

    追记(1972)

    在这一章里,我试图表明简单度能够和可检验度等同到什么程度。没有什么东西依赖于“简单性”这个词:我从不就词进行争论,我也不设法揭示简单性的本质。我所试图说明的只是这样:

    有些大科学家和大哲学家已经论述了简单性和它对科学的价值。我认为,假如我们假定,当说到简单性时,他们有时在心里想的是可检验性,就能够更好地理解其中一些论述。这一点甚至说明了Poincare的某些例子,虽然这些例子和他的观点是冲突的。

    现在我应该进一步强调两点:(1)我们能在可检验性方面比较理论,仅当在这些理论应该解决的问题中,至少有一些是重合的。(2)不能用这种方法比较特设性假说。

    第八章 概率

    在这一章,我将只讨论事件的概率以及它引起的问题。这些问题的产生同博奕论和物理学的概率定律有关。我将什么可称之为假说的概率问题——例如一个经常受到检验的假说是否比一个很少受到检验的假说更可几等问题——留到第79至85节在“验证”题目下进行讨论。

    与概率论有关的观念在现代物理学中起着决定性的作用。然而我们仍然缺乏一个满意的、前后一致的概率定义;也就是说,我们仍然缺乏一个满意的概率计算的公理系统。概率和经验之间的关系也仍然需要澄清。在研究这个问题时,我们将发现对我的方法论观点几乎不能克服的反对意见最初是什么。因为虽然概率陈述在经验科学中起着如此重要的作用,可是结果它们却在原则上不受严格证伪的影响。然而,这块绊脚石将成为检验我的理论,以便查明它有什么价值的试金石。

    因此我们面临两项任务。第一项任务是为概率计算提供新的基础。我将试图通过把概率论发展为频率理论做到这一点,沿着Richard

    von Mises所遵循的路线,但不用他称之为的“收敛公理”(或“极限公理”),而使用有点削弱了的“随机公理”。第二项任务是阐明概率和经验之间的关系。这是指解决我所说的概率陈述的可判定性问题。

    我希望这些研究将有助于减轻目前的不满意的情况,物理学家在这种情况下大量使用概率,而未能前后一致地说明他们所说的“概率”是什么。

    47.概率陈述的解释问题

    我将从区别两类概率陈述开始:相数字表示某一概率的陈述——我称之为数值概率陈述——以及不用数字表示的概率陈述。

    例如,“用两颗骰子掷11的概率为1/18”,这种陈述就是数值概率陈述一个例子。非数值概率陈述可以有各种各样。“把水和酒精混合获得均匀的混合物是十分可几的”,这类陈述如得到适当阐明,就能转变为数值概率陈述(例如,“获得……的概率很接近1”)。另一种很不同的数值概率陈述例如“发现一种与量子论相矛盾的物理效应是高度不可几的”;我认为这种陈述不可能转变为数值概率陈述,或者与某种数值概率陈述等价,而不歪曲它的意义。我将首先讨论数值概率陈述;非数值概率陈述,我认为不那么重要,容后再考虑。

    与每一个数值概率陈述有联系的是这样一个问题:“我们应如何解释这类陈述,特别是这类陈述所作出的数值方面的断言?”

    48.主观解释和客观解释

    古典的(CompComce的)概率理论把某一概率的数值定义为用同样可能的情况数除有利的情况数所得的商。我们可以不理会已经提出来的反对这个定义的逻辑上的异议,如“同样可能的”不过是“同样可几的”另一种说法。但是甚至在那时我们也很难承认这个定义提供了一个可毫不含糊地应用的解释。因为其中隐含着若干种不同的解释,我要把这些解释分为主观的和客观的两类。

    概率论的主观解释常常使用的带有心理学味道的说法,如“数学期望”,或者比方说,“误差的正态定律”等等,使人想起概率论的主观解释;其最初的形式是心理学主义的。它把概率的大小看作为确定或不确定、相信或怀疑的感觉的量度,这些感觉可由某些断言或推测在我们心中引起。关于某些非数值陈述,“可几的”一词可用这种方法颇为满意地加以转译;但是我认为沿着这些路线对数值概率陈述所作的阐释是十分不能令人满意的。

    然而,主观解释的较新变种应该在这里给予更认真的考虑。还不是在心理学上,而是在逻辑上把概率陈述解释为关于可称之为陈述“逻辑近似”的断言。正如我们全都知道的那样,陈述能互相处于各种逻辑关系中,如可推演性、不相容性或相互依赖性;而逻辑-主观理论(Keynes是它的主要阐述者)把概率关系看作是两个陈述之间的特种逻辑关系。这种概率关系的两个极端情况是可推演性和矛盾:有人说,如陈述p从陈述q推导出,则q把概率1“给予”p。如p和q相互矛盾,则q给p的概率为0。在这两个极端之间有其他概率关系,大概可以下列方法解释:陈述声(给定q)的数值概率越大,则它的内容超出陈述q已包含的内容越少,p的概率依赖q(并且q把某种概率“给予”p)。

    从Keynes把概念定义为“理性信仰程度”这一事实可看出这个理论与心理学主义理论之间的密切关系。他的“理性信仰程度”是指信赖量,可以根据我们从”给予”陈述p概率的那个陈述q中得到的信息或知识赋予p以信任量。

    第三种解释,客观解释,把每一个数值概率陈述看作为一种相对频率的陈述,某一种类事件在一偶发事件序列内以这种频率发生。

    根据这种解释,“用这颗骰子下一次掷五的概率等于1/6”这陈述实际上不是一个关于下一次掷骰子的断言;宁可说,它是一个关于整个一类掷骰子的断言,下一次掷骰子不过是其中一个元素。这个陈述所说的不过是在这类掷骰子中得5的相对频率等于1/6。

    按照这个观点,如果我们能够对数值概率陈述作出濒率阐述,这些陈述才是可接受的。不能作出频率解释的那些概率陈述,尤其是非数值概率陈述,常常被频率理论家回避。

    下面我将尝试重新把概率理论作为一种(经过修改的)频率理论建立起来。因此我宣布我信仰客观解释;主要是因为我相信只有客观理论才能解释概率计算在经验科学中的应用。大家承认,主观理论能够给如何判定概率陈述的问题提供一个前后一致的解决办法;并且一般地说,它面临的逻辑困难比客观理论少。但是它的解决办法是:概率陈述是非常经验的;它们是重言的。当我们想起物理学利用概率论时,这种解决办法就证明是完全不能接受的了。(我摈弃主观理论的这种变种:认为客观频率理论应从主观假定中推导出来——也许利用Bernoulli定理作为“桥梁”;由于逻辑上的理由我认为这种纲领是不能实现的。)

    49.机遇理论的基本问题

    概率理论的最重要应用是用于我们可称之为“似相遇的”(chance-like)或“随机的”事件,或偶发事件。它们的特征是一种特殊的不可计算性,这使得人们经过许多次不成功的尝试后倾向于相信,一切已知的理性预测方法用于这些事件必定失败。可以说,我们感觉到除了先知以外没有一个科学家能够预测它们。然而正是这种不可计算性使我们得出这样的结论:概率的计算能够应用于这些事件。

    如果我们接受主观理论,那么从不可计算性达到可计算性(即达到某种计算的可应用性)这个有点悖论性质的结论,确实不再具有悖论性质了。但是这种避免悖论的方法是极不令人满意的。因为它包含着这样的观点:概率计算与经验科学的所有其他方法相反,不是一种计算预测的方法。按照主观理论,它不过是一种使我们已知的东西或者更确切地说,使我们未知的东西实行逻辑变换的方法;因为正是在我们缺乏知识时我们实行这些变换。这种观念确实使悖论消解,但它不能解释被解释为频率陈述的无知陈述如何能够在经验上受到检验和得到验证。然而这正好是我们的问题。我们如何能够解释这个事实:我们可从不可计算性——即从无知——中作出能够解释为经验频率陈述的结论,并且尔后我们发现它们在实践中得到光辉的验证呢?

    甚至频率理论直到现在还不能对这个问题——我将称之为机遇理论的基本问题——提供一个令人满意的解答。在第67节将表明这个问题与“收敛公理”有联系,后者是目前形式的这个理论的一个组成部分。但是在这个公理消除后,在频率理论框架内找到一个令人满意的解决办法是可能的。通过分析这样一些假定就会找到这种解答,这些假定使我们能够从单个偶发事件不规则序列推论到它们频率的规则性或稳定性。

    50.von Mises 的频率理论

    为概率计算的所有主要定理提供基础的频率理论首先由Richard von

    Mises提出的。他的基本思想如下。

    概率计算是似机遇的或随机的事件或偶发事件序列,即例如连续掷骰子那种重复**件序列的理论。借助两个公理条件把这些序列定义为“似机遇的”或“随机的”:收敛公理(或极限公理),和随机公理。如果一个事件序列满足这两个条件,von

    Mises就称它为一个“集合”(collective)。

    大体上说,一个集会就是一个事件或偶发事件的序列,它在原则上可以无限地延续下去;例如掷骰子序列。假设骰子是破坏不了的。在这些事件中,每一个都有一定的特性和性质;例如可以掷个5,因而具有性质5。如果我们选取直到序列某一元素以前已出现的所有具有性质5的掷骰子次数,除以直到那个元素以前掷骰子的总数(即序列中它的基数),那么我们就获得直到那个元素以前的5的相对频率。如果我们确定了直到这个序列每个元素以前5的相对频率,我们就用这种方法获得一个新的序列——5的相对频率序列。这种频率序列不同于它与之相应的原先的事件序列,后者可称为“事件序列”或“性质序列”。

    我选取我们称之为“二择一”(alternative)作为一个集合的简单例子。我们用这个词指假定只有两种性质的事件序列——例如掷一个钱币猜正反面的序列。一种性质(正面)用“1”表示,另一种性质(反面)用“0”来表示。于是事件序列(或性质序列)可用下式表示:

    (A) 0 1 1 0 0 0 1 1 1 0 1 0

    1 0……

    与这种“二择一”相应——或更精确地说,与这种二择一的性质“1”相关——的是下列“相对频率序列”,或“频率序列”:

    ……

    收敛公理(或“极限公理”)假定,随着事件序列越来越长。频率序列将趋向一个确定的极限值。von Mises使用这个公理是因为我们必须弄清楚我们能够借以工作的某个固定的频率值(即使实际的频率值有一些波动)。在任何集合中至少有两种性质;如果我们得到与某个集合所有性质相应的频率极限值,那么我们就得到集合的“分布”。

    随机公理或有时称之为“排除赌博系统原理” (the principle of the excluded gambling system),是打算用来为序列的似机遇性质提供数学表现。显然,如果掷硬币的序列有规律性,比方说在每三次掷正面后就出现反面相当有规律,那么一个赌徒就会用某种赌博系统来改善他的运气。随机公理就一切集合假定,不存在能够成功地应用于这种集合的赌博系统。它假定,不管我们可以选取何种赌博系统以选择认为有利的掷猜(tosses),我们将发现,如果赌博有足够长的时间继续下去,认为有利的掷猜序列中的相对频率接近的极限值与所有掷猜序列的极限值是一样的。因此存在着一种赌徒能借以改善他运气的赌博系统的序列不是von Mises意义上的集合。

    对于von Mises来说,概率是“集合中相对频率极限度”的另一个术语。所以概率概念仅应用于事件序列;从Keynes等人的观点看来,这样的限定大概是完全不能接受的。对于批评他的解释太窄的人,von Mises的回答是强调科学的使用概率(例如在物理学中)与一般的使用概率之间的不同。他指出要求定义恰当的科学术语非要在一切方面去适应不确切的、前科学的用法是个错误。

    按照von Mises的意见,概率计算的任务只不过在于此:从具有某些给定“初始分布”(initial distributions)的某些给定“初始集合”(initial collectives)推论出具有“导出分布”(derived distributions)的“导出集合”(derived collectives);简言之,根据给定的概率计算出那些没有给定的概率。

    von Mises把他的理论的独特特点概括为四点:集合概念先于概率概念;定义概率概念为相对频率的极限值;提出随机公理;以及规定概率计算的任务。

    51.新的概率理论计划

    von Mises提出的两条公理或公设以定义集合概念曾遇到强烈的批评——我认为这个批评不是没有道理的。特别是反对把收政公理和随机公理结合起来,理由是不允许把极限或收敛的数学概念应用于按照定义(即由于随机公理)必定不服从任何数学规则或定律的序列。因为数学极限值不过是决定序列的数学规则或定律的特有性质。数学极限值不过是这种数学规则或定律的一种性质,如果任意选定一个接近于零的分数,序列中都有一个元素,使得在它之后的所有元素与某个一定的值的差小于这个分数——于是这个值称为它们的极限值。

    为了对付这些反对意见,有人建议不要把收敛公理和随机公理结合起来,仅假定收敛,即被限值的存在。至于随机公理,建议或者全然放弃它(Kamke),或者用较弱的要求代替它(Reichenbach)。这些意见的前提是认为引起麻烦的是随机公理。

    与这些观点相对照,我倾向于责怪收敛公理不亚于责怪随机公理。因此我认为有两项任务要做:改进随机公理——主要是一个数学问题;以及完全消除收敛公理——认识论家特别关心的一个问题(参阅第66节)。

    下面我首先讨论数学问题,然后讨论认识论问题。

    这两项任务中的第一项,即数学理论的重建,其主要目的是从一个修改了的随机公理推导出Bernoulli定理——第一个“大数定律”;修改为实现这个目的所需,不要求更多。更确切地说,我的目的是推导出二项式公式(Binomial FormuCom,有时称为“Newton公式”),我称为“第三式”。因为能用通常的方法从这个公式中获得Bernoulli定理和概率论的其他极限定理。

    我的计划是首先制定一个有穷类(finite cComss)的频率理论,并且尽量在这个框架内发展这个理论——即直至推导出(“第一”)二项式。这个有穷类频率理论原来是类理论(the theory of cComsses)一个十分基本的部分。它之得到发展只是为了获得讨论随机公理的基础。

    接着我将通过引入收敛公理的老方法进而到无穷序列,即能够无限延续的事件序列,因为我们需要它来讨论随机公理。在推导出和考察Bernoulli定理之后,我将考虑如何能消除收敛公理,以及哪一类公理系统我们应该作为结果保留下来。

    在数学推导的过程中,我将使用三个不同的频率符号:F”示有穷类的相对频率;F’示无穷频率-序列相对频率的极限值;最后F示客观额率,即在“不规则”或“随机”或“似机遇”序列中的相对频率。

    52.有穷类内的相对频率

    让我们考虑一类α的有穷数目的偶发事件,例如昨天用这粒特定的骰子掷猜这类偶发事件。设这类α为非空类(non-empty),可以说它起着参考系的作用,将称之为(有穷的)参考类(reference-cComss)。属于α的元素数目,即它的基数,用“N(α)”表示,读作“α数”。另一类β,可以是有穷的,也可以不是有穷的。我们称β为性质类(property-cComss)。例如它可以是所有掷5的类,或(如我们将要说的)所有具有性质5的掷猜类。

    属于α又属于β的那些元素类,例如昨天用这粒特定的骰子掷并有性质5的掷类被称为α和β的乘积类(product-cComss),用“α·β”表示,读作“α和β”。由于α·β是α的子类,它至多能含有有穷的元素数(它可以是空类)。α·β中的元素数用“N(α·β)”表示。

    当我们用N表示(有穷)的元素数时,用F”示相对频率。例如,“在有穷参考类α内性质β的相对频率”写作“αF”(β)”,可读作“β的α频率”。我们现在能定义

    (定义1) αF”(β)=N(α·β)/N(α)

    根据我们的例子这意味着:“昨天用这骰子掷时出现5的相对频率,按照定义等于昨天用这骰子掷5的数被昨天用这骰子掷的总数来除所得的商。”

    从这个颇为平凡的定义中,能够十分容易地推导出有穷类中频率计算的定理(更具体地说,一般乘法定理;加法定理;以及除法定理,即Bayes规则)。在这种频率计算的定理中,以及在一般的概率计算中,其特征是基数(N数)从不在其中出现,出现的是相对频率,即比值,或F数。N数仅发生在一些基本定理的证明中,这些基本定理是直接从这个定义中演绎出来的;但N数并不发生在定理自身中。”(读作“β的补数”或简单地读作:“非β”)来表示不属于β的一切元素类。于是我们可写出:)=1

    虽然这个定理仅包含F数,它的证明要利用N数。因为这定理认定义(1)中得出,借助于来自断言N(α·β)十N(α·β)=N(α)的类的计算的一个简单定理。

    53.选择、独立、无影响、无关

    在能够用有穷类相对频率作的运算中,选择(selection)的运算对以下所述有特殊重要性。

    设给定一个有穷参考类α,例如一只匣子中的钮扣类,以及两个性质类,β(比方说,红钮扣)和γ(比方说,大钮扣)。我们现在可把乘积类α·β看作一个新的参考类,并提出α·βF”(γ)值的问题,即在新的参考类内γ的频率的问题。新的参考类α·β可称为“从α中选择β元素的结果”或“按照性质β从α中选择”;因为我们可以想到它是通过从α中选择那些具有性质β(红)的一切元素(钮扣)。

    γ发生在新的参考类α·β中的频率与发生在原先的参考类α中的频率相同,这恰恰是可能的;即

    α·βF”(γ)=αF”(γ)是正确的。在这种情况下,我们(遵循Hausdorff)说性质β和γ“在参考类a内是相互独立的”。独立关系是三项关系,在性质β和γ上是对称的。如果两种性质α和β在参考类α内是(相互)独立的,我们也可说性质γ在α内不受β元素的选择的影响;也许可说参考类α,就性质γ而言,不受按照性质β所作的选择的影响。

    β和γ在α内相互独立或不受影响也可——按照主观理论的观点——解释如下:如果我们被告知类α的某一特定元素具有性质β,那么这个信息是无关的,如果β和γ在α内是相互独立的话;也就是对于这个元素是否也有性质γ这个问题是无关的。如果另一方面我们知道,γ更经常(或不那么经常)发生在子类α·β(已根据β从α中选择出来)中,那么某个元素有性质β的信息对于这个元素是否也有性质γ的问题便是有关的了。

    54.有穷序列、顺序选择和邻域选择

    设有穷参考类α的元素是编了号的(例如盒子中的每一个钮扣都写上一个数目),并且把它们按照序数排列成序列。在这种序列中我们可以区分出两类具有特殊重要性的选择,即按照元素的序数进行选择,或简称顺序选择,以及按照它的邻域进行选择。

    顺序选择是根据依赖于元素序数的性质β从序列α中进行选择,元素的选择必须根据序数决定。例如β可以是性质偶数(even),因此我们从a中选择的一切元素,其序数是偶数。因此选择出来的元素形成一个所选子序列(selected

    sub-sequence)。如果性质γ独立于根据β的顺序选择,那么我们也可说,顺序选择对γ而言是独立的;或者我们也可说序列α就γ而言,不受β元素的选择的影响。

    邻域选择之有可能是由于这个事实:在把元素排列为编号序列时,某些邻域关系就形成了。这使我们例如有可能选择那些其直接先行者具有性质γ的所有成员;或者比方说,选择那些其第一和第一个先行者,或其第一个后续者具有性质Y的所有成员,如此等等。

    因此如果我们有一个事件序列——比方说掷钱币猜正反面——,我们就必须区分两类性质:如“正面”或“反面”那样一些的主要性质,这些性质属于与其在序列中位置无关的每一个元素;以及如“偶数”或“反面的后续者”等那样一些次要性质,这些性质是一个元素由于它在序列中的地位而获得的。

    具有两个主要性质的序列称为“二择一”。正如von Mises业已表明的(如果我们小心仔细),有可能把概率论的基本点发展为二择一理论,而不牺牲普遍性。用“1”和“0”表示二择一的两种主要性质,每一种二择一可表示为许多1和0的序列。

    一种二择一的结构可以是有规律的,或者它也可能是多少不规则的。下面我将更周密地研究某些有穷二择一的这种规律性或不规则性。

    55.有穷序列的n-自由度

    让我们以有穷二择一α为例,它由一个个1和0组成,有规律地排列如下:

    (α)

    1 1 0 0 1 1 0 0 1 1 0 0 1 1 0

    0……在这种二择一中,我们有均等的分布,即1和0的相对频率是均等的。如果我们用“F”(1)”示性质1的相对频率,用“F”(0)”示性质0的相对频率,我们可写:

    (1)αF”(1)=αF”(0)=1/2

    现在我们从α中选择(在α序列内)具有直接接在1后面的邻域性质的所有项。如果我们用“β”表示这种性质,我们可称为所选子序列“α·β“。它有这样的结构:

    (α·β)

    1 0 1 0 1 0 1 0 1 0……

    这个序列又是具有均等分布的一种二择一。而且,1和0的相对频率都没有变化;即

    (2)α·βF”(1)=αF”(1);α·βF”(0)=αF”(0)

    用第53节采用的术语,我们可以说二择一α的主要性质不受根据性质β作的选择的影响;简言之,α不受根据β作的选择的影响。

    的元素,我们得到这样的二择一:)

    0 1 0 1 0 1 0 1 0 1 0……

    作的选择的影响;所以我们可以说,α都不受根据直接先行者的性质所作的每一种选择的影响。

    并非不受根据先行者的性质所作的选择的影响。

    现在我们可以研究二择一α,看看它是否也不受其他选择,尤其是根据一对先行者的性质所作的选择的影响。例如,我们可从α中选择那些是一对1,1的后续者的所有元素。并且我们马上看到α并非不受四种可能的对即1,1;1,0;01;0,0中任何一对后续者的选择的影响。在这些情况下,得到的子序列都没有均等分布;反之,它们全都由不间断的块(blocks,或“反复”iterations)组成,即只由1,或只由0组成。

    α不受根据单个先行者作的选择的影响,但是并非不受根据成对先行者的选择的影响,这个事实可用主观理论的观点表述如下。关于α中任何元素一个先行者性质的信息,对于这个元素的性质问题是无关的。另一方面,关于元素的成对先行者的性质的信息则是高度有关的;因为给定α据以建立的定律,它使我们能够预测所讨论的元素的性质:关于元素成对先行者性质的信息,可以说给我们提供演绎出预测所需的初始条件。(a据以建立的定律要求一对性质作为初始条件;因此就这些性质而言,它是“二维的”。详细说明一种性质仅是在成为复合时作为初始条件不充分时才是“无关的”。参阅第38节。)

    我没有忘记因果性——原因和结果——概念与预测的演绎的关系是多么密切,同时我要利用下列术语。以前作出的关于二择一α的断言:“α不受根据单个先行者作的选择的影响”,我现在用下列说法来表示:“α不受单个先行者任何后效的约束”,或简言之,“α的自由度为1(1-free)”。不像以前那么说α“不受(或受)根据成对先行者所作的选择的影响”,我现在说:“a不受(或受)成对先行者后效的约束”,或简言之,“α的自由度是(不是)2”。

    用自由度为1的二择一作为我们的原型,我们现在能够容易地建立也具有均等分布的其他序列,这些序列不仅不受一个先行者的后效约束,即(像α一样)自由度为1,而且还不受一对先行者后效的约束,即自由度为2;此后,我们可以继续达到自由度为3等等的序列。这样把我们引导到对下述是基本的一般概念。这就是不受直至某个数n的一切先行者后效约束的自由度概念;或者如我们将要说的,n-自白度概念。更精确地说,我们称一个序列“自由度为n”,当且仅当它的主要性质的相对频率是“n重无影响”,即不受根据单个先行者和根据成对先行者和根据三个一组的先行者……和根据n个一组先行者作的选择的影响。

    自由度为1的二择一α可以用重复任何倍数的生成周期(generating period)。

    (A)

    1 1 0 0……

    来建立。同样我们获得具有均等分布的自由度为2的二择一,如果我们把

    (B)

    1 0 1 1 1 0 0 0……

    作为它的生成周期,自由度为3的二择一从生成周期

    (C)

    1 0 1 1 0 0 0 0 1 1 1 1 0 1 0 0……

    中获得,而自由度为4的二择一从生成周期

    (D)

    0 1 1 0 0 0 1 1 1 0 1 0 1 0 0 1 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 1……

    中获得。将会看到:面临一个不规则序列的直觉印象随它n自由度的数n的增长而越强烈。

    具有均等分布的一个具n自由度的二择一的生成周期必须包含至少2n+1个元素,作为例子给定的周期,当然可以开始于不同的位置;(C)例如可从它的第四个元素开始,于是我们获得的不是(C),而是

    (C’)

    1 0 0 0 0 1 1 1 1 0 1 0 0 1 0 1……

    有使序列的n-自由度不变的其他变换。为每一个数目n建立n-自由度序列生成周期的方法则在别处描述。

    如果我们把下一生成周期的最初的n个元素加在一个自由度为n的二择一上,于是我们得到一个长度为2[n+1]+n的序列。除了其他性质外,这个序列还有以下的性质:n+1个0和1的每一种排列,即每一个可能的n+1个组,至少在其中发生过一次。

    56.节段序列 二项式的第一形式

    给定一个有穷的序列α,我们称由n个连续元素组成的α的子系列为‘’α的n长度节段”;或更简单地说,“α的n-节段”。如果除了序列α以外,还给定某个定数n,那么我们能够把α的n-节段排列在一个序列中——α的n-节段序列。给定一个序列α,我们就可以从α的最初的n个元素的节段开始这种方式,建立一个新的序列,即α的n-节段序列。其次是α的2到n+1的元素的节段。一般地说,我们把α的从x到x+n-1的诸元素组成的节段看作新序列的第x个元素。如此获得的新序列可称为“α的交迭n-节段(over Compping n一segments)序列”。这个名称表示,新序列的任何两个连续元素(即节段)以这种方式交迭;使它们共有原先序列α的n-1元素。

    现在我们通过选择可以从一个交迭节段的序列中,获得其他序列,尤其是毗邻n-节段(adjoining n-segments)的序列。

    一个毗邻n-节段序列只含这样一些n-节段,它们在不交迭的α中,互相直接接续。例如开始也许是原先序列α的编号为1至n的元素的n-节段,续在后面的是n+1至2n,2n+1至3n如此等等的元素的n-节段。一般来说,一个毗邻节段的序列将以α的第k个元素开始,而它的节段将包含α的编号为直至n+k-1,n+k至2n+k-1,2n+k至3n+k-1如此等等的元素。

    下面将用“α(n)”示α的交迭n-节段的序列,用“αn”示毗邻n-节段序列。

    现在让我们更详细一点考虑交迭节段α(n)的诸序列。这样一种节段的每一个元素是α的一个n-节段。我们可以把例如组成节段的n个一组的有序的0和1看作是α(n)一个元素的主要性质。或者我们可以更为简单地把它的1的数目看作是这个元素(不管1和0的次序)的主要性质。如果我们用“m”表示1的数目,则显然m≤n。”(非m)赋予α(n)的所有其他元素的话。因此α(n)的每一个元素必定有这两个性质中的一个或另一个。

    现在让我们再次设想,给定一个具有主要性质“1”和“0”的一个有穷二择一。设1的频率αF”(1)等于p,0的频率αF”(0)等于q。(我们设分布是不均等的,即p≠q。)

    现在让这个二择一α至少有n-1个自由度(n是任意挑选的自然数)。于是我们可向下列的问题:性质m在序列α(n)中出现的频率是多少?换言之,α(n)F”(m)的值是多少?

    除了α至少有n-1个自由度外,我们什么也不假定,我们就能用初等算术解决这个问题。答案包含在下列公式中:

    “二项”式(1)的右边是由Newton在论述有关别的问题时提出的(有时称为Newton公式)。我将称它为“二项式的第一形式”。

    由于推导出了这个公式我就不再在有穷参考类内考察频率理论。这个公式将提供给我们一个基础来讨论随机公理。

    57 无穷序列 频率的假说性估计

    把为n-自由度有穷序列获得的结果推广到用生成周期(参阅第55节)定义的n-自由度无穷序列是十分容易的。起着参考类(我们的相对频率与此有关)作用的一个无穷的元素序列可称为“参考序列”。它多少与von Mises意义上的“集合”相对应。

    n-自由度的概念以相对频率的概念为前提;因为n-自由度的定义要求不受影响——不受根据一定的先行者所作的选择的影响——的是一种性质在其中发生的相对频率。在我们讨论有穷序列的定理中,我将暂时使用(直到第64节)相对频率极限值(用F’表示)概念代替有穷类的相对频率(F”)。只要我们把自己限于根据某个数学规则建立的参考序列,这个概念的使用就不会发生问题。对于这些序列我们总可以确定相应的相对频率序列是否是收敛的。相对频率极限值概念只是在没有数学规则只有经验规则(与例如钱卜序列有关的)的序列的情况下才会引起麻烦;因为在这些情况下,极限值概念是未定义的(参阅第51节)。

    建立序列的数学规则的一个例子如下:“序列α的第n个元素应该是0,当且仅当n可被4除”。它定义的无穷二择一是

    (α)

    1 1 1 0 1 1 1 0……

    其相对频率的极限值αF’(1)=3/4; αF’(0)=1/4。借助数学规则用这种方法定义的序列我简称为“数学序列”。

    与之相对照,建立经验序列的规则是例如“序列α的第n个元素将是0,当且仅当硬币c的第n次掷猜出现反面时”。但是经验规则不一定总是定义随机性质的序列。例如,我应该把下列规则称为经验规则:“序列的第n个元素将是1,当且仅当第n秒(从某个零时算起)时,发现摆p摆到这标记的左方时”。

    这个例子表明有时——例如根据与摆有关的一些假说和测量——可用数学规则代替经验规则。用这种方法我们会找到一个数学序列,它以按我们的目的也许使我们满意,也许不能使我们满意的精确度接近于我们的经验序列。有可能(我们的例子可用来建立这种可能)获得一个其各种频率接近于那些经验序列的频率,在我们目前的情况下具有特殊的意义。

    我把序列分为数学序列和经验序列时,我利用的是“内包”上的差别,不是“外延”上的差别。因为如果用“外延”方法,即用一个接一个地列举其元素的方法使我们得一个序列--因此我们就只能知道它的一个有穷的片段,一个有穷的节段,不管它有多长——,那么就不可能根据这个节段的性质确定其一部分的序列是学序列还是经验序列。仅当给定一个建构规则——即“内包”规则—一时,我们就能判定一个序列是否是数学的还是经验数的。由于我们希望借极限值(相对频率)概念之助处理我们的无穷序列,我们必须把我们的研究限于数学序列,实际上就是限于相应的相对频率序列是收敛的那些数学序列。这种限制等于引入收敛公理。(与这公理有关的问题到第63-66节再讨论,因为与“大数定律”一起讨论它们比较方便。)

    因此我们将只谈数学序列。然而我们将只谈那些数学序列:我们期望或推测它们就频率而言接近于具有似机遇或随机性质的经验序列,因为它们是我们的主要兴趣所在。但是期望或推测一个数学序列,就频率而言它接近于经验序列,不过是提出一个假说——一个关于经验序列频率的假说。

    我们对经验随机序列的频率的估计是假说这一事实,对我们用以计算这些频率的方法没有任何影响。显然,在有穷类方面,它对我们如何获得我们的计算由此开始的频率,丝毫没有关系。这些频率可借实际计算获得,或根据一条数学规则,或根据某种假说获得。或者我们简直可以虚构一些频率。在计算频率时我们接受某些频率作为给定的,并从中推导出其他频率。

    无穷序列中的概率估计同样如此。因此关于我们频率估计的来源问题不是一个频率计算问题;然而这并不是说把这个问题从我们关于概率论问题的讨论中排除出去。

    在无穷经验序列的情况中,我们能区分出我们假说性频率估计的两种主要“来源”——就是说两种方法,我们用这两种方法就可估计出频率。一是基于“均等-机遇假说”(equal chance hypothesis),(或等概率假说equi-probability hypothesis)的估计,另一是基于统计结果的外推(extrapoComtion of statistical findings)。

    我用“均筹-机遇假说”,是指这样一种假说,它断言各种主要性质的概率是均等的:它是断言均等分布的假说。均等-机遇假说常常基于对称性的考虑。最典型的例子是掷骰子时均等频率的推测,其根据是立方体六面的对称性和几何等值。

    至于基于统计学外推的频率假说,死亡率的估计提供一个很好的例子。在这里关于死亡率的统计资料是用经验查明的,并且根据过去的趋势将继续足十分接近稳定的,或者它们不会有很大变化——至少在最近时期内——的假说从已知事例,即从已用经验加以分类和计算的偶发事件外推到未知事例。

    具有归纳主义倾向的人容易忽视这些估计的假说性质,他们会把假说性估计,即基于统计外推的频率预测同它们的经验“来源”之——过去的偶发事件和偶发事件序列的分类与实际计算混为一谈。往往提出这样的主张;我们从已加以分类和计算的过去的偶发事件(如死亡统计)中“推导出”概率估计——即频率预测。但是从逻辑观点看,这个主张并没有得到证明。我们根本没有作什么逻辑推导。我们已经做的是提出一个不可证实的假说,这个假说在逻辑上是永远得不到证明的,这个假说就是推测频率仍将稳定不变,因此允许外推。甚至均等-机遇假说也被一些相信归纳逻辑的人认为是“经验上可推导的”,或“经验上可说明的”,他们认为这些假说基于统计经验,即基于经验上观察到的频率。然而就我来说,我相信,我们在作出这种假说性估计时,往往单独爱关于对称意义的想法以及类似的考虑的引导。我看不出有任何理由为什么这些推测应该只是由于积累大量归纳观察而产生的。然而,我并不赋于我们估计的起源或“来源”这些问题以很大意义(参阅第2节)。我认为,更重要的是对这个事实要十分清晰,即频率的一切预测性估计,包括我们从统计外推中得到的频率——当然还有所有与无穷经验序列有关的频率——总是纯粹的推测,因为它总是超出我们有权根据观察肯定的任何东西。

    我对均等-机遇假说和统计外推的区分与“先验”和“后验”概率的经典区分是完全符合的。但是由于这些术语是用于如此多的不同意义。而且由于这些术语因哲学上的联想而被严重玷污,最好还是避免用它们。

    我在下面考察随机公理时,将试图寻找逼近随机经验序列的数学序列;这就是说我将考察频率假说。

    58 随机公理的考察

    顺序选择(即按位置选择)的概念和邻域选择的概念均已在第55节中引入和说明。我现在将借助这些概念检查von Mises的随机公理——排除赌博系统原理——以希望找到一个能代替这个公理的较弱的要求。在von Mises的理论中,这个公理是他的集合概念的定义的一部分:他要求一个集合中频率的极限一定要对任何种类的系统选择(systematic Selection)不敏感(他指出,赌博系统总是可被认为是一种系统选择。)。

    对这个公理提出的大多数批评集中于它的表述的相对不重要的和表面的方面。这与下列事实有关,即在各种可能的选择中,会有这样的选择:比方说选择那些接近5的掷;显然在这种选择内,5的频率会与在原先序列内5的频率迥然不同。这就是为什么von Mises在他的随机公理表述中谈到他所说的“选择”或“选取”是“独立于”掷的“结果”,因而不用所选元素的性质去定义。但是只要指出我们可以根本不用成问题的措词来表述von Mises的随机公理,就可以完全答复针对这种表述的许多非难。因为例如我们可以表述如下:在一个集合中频率的极限一定都不受顺序选择和邻域选择的影响,而且也不受可用作赌博系统的这两种选择方法的所有组合的影响。

    上述困难随这个表述而消失。然而其他困难仍保留。因此也许不可能证明,借助如此强的随机公理定义的一个集合概念,不是自相矛盾的;换言之,不可能证明“集合”的类不是空的。(Kamke曾强调证明这一点的必要)至少,建构某个集合的例子,并用这种方式说明集合的存在,这似乎是不可能的。这是因为满足一定条件的某一无穷序列的例子只可能由数学规则来提供。但是对于von Mises意义上的集合,根据定义不可能有这种规则,因为能够把任何规则都用作一种赌博系统或选择系统。如果所有可能的赌博系统都被排除,这种批评确实是无法驳斥的。

    然而也可提出另外的异议来反对排除所有赌博系统的概念:它的要求实在太多了。如果我们要使某个陈述系统公理化——在这个场合是概率计算定理,尤其是特殊的乘法定理或Bernoulli定理——,那么所选的公理不仅应该对系统定理的推导是充分的,而且也是(如果我们能这样推导出定理)必要的。然而可以表明排除所有选择系统对Bernoulli定理及其系统定理是不必要的。要求排除特殊类的邻域选择是十分充分的:它是以要求序列应该不受根据任意选取的n个一组的先行者所作的选择的影响;也就是说,它应该有n个自由度,不受每个n的后效的约束,或简言之,它应该是“绝对自由的。”

    所以我建议用不那么严格的“绝对自由”的要求(对每一个n有n-自由度的意义上)来代替von Mises的排除赌博系统原理,并且相应地把似机遇的数学序列定义为满足这个要求的序列。其主要优点是不排除所有赌博系统,因此有可能提供建构在我们的意义上“绝对自由的”序列的数学规则,从而有可能建构实例。因此也就满足了上面讨论的Kamke的异议。因为我们现在能够证明似机遇数学序列的概念不是空的,所以是前后一致。

    也许有点奇怪:我们应该试图借助必须符合最严格规则的数学序列来勾划机遇序列极不规则的特点。von Mises的随机公理起初似乎使我们的直觉更为满意。一个机遇序列必定是完全不规则的,因此只要我们继续努力试图通过把这个序列延伸得足够长来证伪这个推测的话,任何推测的规则性一定会在序列的后面部分遇到失败,知道这一点是颇为令人满意的。但是这个直觉的论证也有利于我的建议。因为如果机遇序列是不规则的,那么,不容置疑,它们就不会是某种特殊类型的规则序列。而我们的“绝对自由”要求不过是排除一种特殊类型的规则序列,尽管是一种重要的类型。

    它是一种重要的类型这一点可以从这个事实中看出,即根据我们的要求不言而喻地排除下述三种典型的赌博系统(参阅下一节)。首先我们排除“正态的”或“纯粹的”邻域选择,在其中我们根据邻域的某种恒定的特征进行选择。其次,我们排除“正态的”顺序选择,这种选择选取的元素,它们的间距是恒定的,例如标号为是k,n+k,2n+k……等等的元素;最后,我们排除这两种类型选择的许多组合(例如一切第n个元素的选择,假如它的邻域具有某种具体的恒定特征)。所有这些选择的独特性质是,它们与序列的绝对的第一元素无关;如果原先的序列从另一个(相应的)元素开始标号,它们就可产生同样的所选的子序列。因此被我的要求排除的赌博系统是那些无需知道序列的第一元素而可使用的赌博系统。被排除的系统总涉及某些(线性)变换。它们是简单的赌博系统。(参阅第43节)。我的要求不予排除的只是涉及诸元素与绝对的(初始的)元素间有绝对距离的赌博系统。

    对一切n有自由度n——“绝对自由”——的要求也与我们大多数自觉地或不自觉地认为对机遇序列也适用的东西完全一致;例如一粒骰子下一次掷的结果不依赖以前几次掷的结果(掷以前摇摇骰子的做法就是想要保证这种“独立性”)。

    59.似机遇序列 客观概率

    鉴于我已说过的那些东西,我现在提出下列定义。

    我们说一个事件序列或性质序列,尤其是一个二择一,是“似机遇”或“随机的”,当且仅当它的主要性质的频率极限是“绝对自由的”,即不受根据任何n个一组的先行者的性质所作的一切选择的影响。与随机的序列相应的频率极限被称为在有关序列内该性质的客观概率;用F表示。这也可表述如下。设α为具有主要性质B的似机遇或似随机序列;这时下式成立:

    αF(β)=αF’(β)

    现在我们必须证明我们的定义足以推导出数学概率论的主要定理,尤其是Bernoulli定理。随后——在第64节——这里给定的定义将予以修改使之独立于频率极限的概念。

    60.Bernoulli问题

    在第56节提到的第一个二项式公式,即

    适用于交迭节段的有限序列。它可根据这样的假定推导出来,即有限序列α至少有n-1个自由度。根据同样的假定,我们直接获得一个有限序列的正好相应的公式;那就是说,如果α是有限的,并且至少有n-1个自由度,那么

    由于似机遇序列是绝对自由的,即对于每一个n有n个自由度,公式(2),即第二个二项式公式也必须适用于那些序列;并且确实它必须适用于它们,不管我们选择的n的值是多少。

    下面我们将只涉及似机遇序列,或随机序列(如在前节中定义的那样)。我们就要证明,对于似机遇序列,除了公式(2),第三个二项式公式(3)也必定适用;这个公式是

    公式(3)在两个方面不同于公式(2):第一,它所断言的涉及毗邻节段αn的序列,不是交迭节段α(n)的序列。第二,它不包含符号F’,而包含符号F。这意味着,根据蕴涵它断言邻近节段序列也是似机遇或随机的;因为从F,即客观概率的定义仅涉及似机遇序列。

    (3)所回答的在邻近节段序列中性质m的客观概率问题——即αnF(m)的值的问题——,我效法von Mises,称之为“Bernoulli问题。对于这个问题的解决,从而对于第三个二项式公式(3)的推导,假定α是似机遇或随机的也就够了。(我们的任务等于说明特殊的乘法定理适用于一个随机序列α的毗邻节段序列。)

    公式(3)的证明可用两步实现。首先,我们证明公式(2)不仅适用于交迭节段α(n)的序列,而且也适用于毗邻序列αn的序列。第二,我们证明后者是“绝对自由的”。(这两步的次序可以颠倒,因为交迭节段α的序列肯定不是“绝对自由的”;事实上,这种序列提供了一个可称之为“具有后效的序列”的典型例子。)

    第一步。毗邻节段αn的序列是α(n)的子序列,它们可通过正态顺序选择从α(n)中获得。因此如果我们能证明在交迭序列α(n)F’(m)中频率的极限不受正态顺序选择的影响,我们就是已经采取了第一步(以及甚至走得更远一点);因为我们将证明这个公式:

    (4)

    αnF’(m)=α(n)F’(m)

    我将首先以n=2为例概述这个证明;即我将证明

    (4a)

    α2F’(m)=α(2)F’(m) (m≤2)

    为真;因此很容易概括这个公式以适用于一切n。

    从交迭节段α(2)的序列中,我们能够选择毗邻节段的两个以及仅仅两个不同的节段α(2);一个用(A)表示,包含α(2)的第一,第三,第五……节段,即由数1,2;3,4;5,6;……组成的α的元素对另一个用(β)表示,包含α(2)的第二,第四,第六,……,节段,即由数2,3;4,5;6,7;……等组成α的元素对。现在假定公式(4a)不适用于两个序列中的一个,(A)或(B),结果节段(即对)0,0太经常出现在比方说序列(A)中;于是在序列(B)中必须出现一个余离差(complementary deviation);即节段0, 0将不很经常出现(“太经常”,或“不很经常”是与二项式公式相比较而言的)。但是这与所假定的α的“绝对自由”是矛盾的。因为如果0,0对在(A)中出现比在(B)中更经常,那么在α的足够长的节段中,0,0对在某些表示特征的间距内出现比在其他间距内出现更经常。如果0,0对属于两个α2序列中的一个,更为经常出现的间距就是那些占优势的间距,如果0,0对均属于两个α2-序列,不那么经常出现的序列就是那些占优势的序列。但是这与所假定的α的“绝对自由度”是矛盾的;因为根据第二个二项式公式,α的“绝对自由度”意味着,在任何α(n)序列中一个特定的长度为n的序列出现的频率只依赖在该序列中出现的1和0的数目,而不是依赖它们在序列中的排列。

    这证明(4a);由于这个证明能容易推广到任何n,(4)也就得到证明;这就完成了证明的第一步。

    第二步。αn序列是绝对自由的这一事实可用一个类似的论据来说明。我们仍可以首先只考虑α2序列;而就这些序列而言,开始只会证明它们的自由度为1。设两个α2序列中的一个,即节段(A)并不是自由度为1。那么在(A)中,在至少由两个元素(一个特定的α对)组成的一个节段之后,比方说在0,0节段之后,另一个节段比方说1,1,必须比如果(A)是“绝对自由的”时更为经常地跟随着;这就是说,节段1,1出现在根据先行节段0,0从(A)中选择的子序列中的频率比二项式公式使我们期望更大。

    然而,这个假定与序列α的“绝对自由度”是矛盾的。因为如果节段1,1在(A)中跟随节段0,0过分经常,那么通过补整(compensation),相反情况也必须出现在(B)中;因为否则四个一组0,0,1,1在α的一个足够长的节段中,会太经常地出现在某些特征性间距内——即在如果所说的两对属于同一α2序列就会占优势的那些间距内。此外,在其他特征性间距内,四个一组会不那么经常地出现——即在那些如果它们均属于两个α2序列就会占优势的间距内。因此我们面临的正好是与以前同样的情况;而且我们能用类似的考虑证明,假定事件在一些特有的间距内优先发生,是所假定的α的“绝对自由度”是不相容的。

    这个证明又可加以推广,结果我们可以说α序列不仅自由度为1,而且对每一个n,自由度为n,因而它们是似机遇的,或随机的。

    这就完成了我们对这两步的概述。因此我们现在有权在(4)中用F代替F’;这就是说,我们可以同意这个主张:第三个二项式公式解决了Bernoulli问题。

    顺便说一句,我们已证明交迭节段的序列α(n)不受正态顺序选择的影响,只要α是“绝对自由”时。

    这同样适用于毗邻节段序列αn,因为从αn中作的任何一个正态顺序选择可被认为是从α(n)中作正态顺序选择;所以它必须应用于序列α本身,因为α与α(1)和α1都是等同的。

    因此我们也还证明了,不受正态顺序选择的影响是从“绝对自由度”——它意指不受某一特殊类型的邻域选择的影响——中得出的必然结论。容易看出,更进一步的结论是不受任何“纯”邻域选择(即根据它的邻域的某个恒定的特征——不随元素序数而变化的特征——进行选择)的影响。最后它的必然结论是“绝对自由度”蕴含着不受这两类选择的所有组合的影响。

    61.大数定律(Bernoulli定理)

    在假定我们能使n趋向极限。即n→∞的条件下,Bernoulli定理,或(第一)“大数定律”可以用纯粹数学的推理从第三个二项式方式中推导出来。所以它能断言的只是无限的序列α;因为正是仅仅在这些序列中αn-序列的n-节段长度能无限增加。并且它能断言的只是这些“绝对自由”的序列,因为正是仅在假定对每一个n自由度为n的条件下,我们能使n趋向极限,n→∞-p]<δ时;换言之,节段具有性质‘△p’。现在Bernoulli定理回答了频率或概率值的问题,在αn序列内这种节段——具有性质△p的节段的值的问题;因此它回答了αnF(△p)值的问题。

    人们在直观上可以猜测:如果值δ(δ>0)是固定的,如果n增加,那么具有性质△p的这些节段的值,因此αnF(△P)的值,也将增加(并且它的增加将是千篇一律的)。Bernoulli的证明(在任何一本概率计算教科书中都可以找到这种证明)接着下去便是借助二项式公式来评价这种增加。他发现如果n的增加没有极限,αnF(△P)值便逼近最大值1,不管&的固定值有多少。这可用下式来表示。

    F(△p)=1

    (对任何△p值)

    这个公式从改变毗邻节段序列的第三个二项式公式而来。对于交迭节段的序列,类似的第二个二项式公式用同样的方法直接导附相应的公式。

    F’(△p)=1

    这个公式对于交迭节段序列以及从它们之中作正态顺序选择是正确的,因此对于具有后效的序列(Smoluchowski曾研究过这些序列)也是正确的。公式(2)本身产生(1),假如所选的序列不交迭,所以自由度为n。(2)可描述为Bernoulli定理的一种变式;而我在这里将要就Bemoulli定理所说的话经过必要的修正(mutatis mutandis)以适用于这种变式。

    Bernoulli定理,即公式(1),可用下面的话表示。让我们称从一随机序列α中选择的长度固定的一个长的有穷节段为一“中等样本”(fair

    sample),当且仅当在这个节段内1的概率,即在随机序列内1的概率值与p的离差只有某一小的固定的分数(我们可以自由挑选这个分数)。因此我们可以说,只要我们使这些节段有足够长,偶然碰到一个中等样本的概率如我们所喜欢的那样逼近于1。

    在这个表述中,“概率”(或“概率值”)一词出现两次。在这里如何解释或翻译它?在我的频率定义的意义上,这词不得不翻译如下(我将“概率”一词译为频率语言的两种译法用黑体表示):所有足够长的有限节段中绝大多数有“中等样本”;即它们的相对频率与该随机序列频率值p的离差为一任意固定的很小的量;或简言之:频率p近似地实现在几乎所有足够长的节段中。(我们如何达到p值与我们现在的讨论是无关的;比方说它可以是一种假说性估计的结果。)

    记住Bernoulli频率αnF(△p)一成不变地随节段的长度n的增加而增加,一成不变地随n的减少而减少,所以,相对频率值在短的节段中实现是比较罕见的,我们也可说:

    Bernoulli定理说明,“绝对自由的”或似机遇的序列的短节段经常表现在与p有比较大的离差,因此有比较大的涨落,而较长的节段,在大多数情况下,将表现出随长度的增加与P的离差越来越小。结果,在足够长的节段中大多数离差将变得如我们希望的那样小;换言之,大的离差将变得如我们希望的那样罕见。

    因此,如果我们取随机序列的一个十分长的节段,为了通过计算或也许利用其他的经验的和统计的方法,求在它的子序列内的频率,那么在大多数情况下我们将得到如下结果。有一个特征性平均频率,使整个节段中以及几乎所有的长的子序列中,相对频率与这个平均值的离差很小,如果我们挑选的子节段越短,较小的子节段的相对频率与这个平均值的离差就越大和越经常,这个事实,即有穷节段这种可在统计学上得到确定的行为,系指它们的“拟收敛行为”;或系指这样的事实:随机序列在统计学上是稳定的。

    因此,Bernoulli定理断言,似机遇序列的节段较小,经常表现为大的涨落,而大节段总表现恒定或收敛;简言之,我们在小节段中发现无序和随机,在大节段中发现有序和恒定。“大数定律”式所指的正是这种行为。

    62.Bernoulli定理和概率陈述的解释

    我们刚刚看到,用言语表述的Bernoulli定理中“概率”一词出现了两次。

    频率理论家在两种情况下根据它的定义翻译这个词没有困难:他能对Bernoulli定理和大数定律提供一个清楚的解释。主观理论的拥护者也能以它的逻辑形式做到这一点吗?

    想把“概率”定义为“理性信仰程度”的主观理论家,当他把“……的概率如我们希望的那样逼近1”这些话解释为“……几乎是确定无疑的”时,他前后完全一致,并且有权这样做。但是当他继续说:“……相对频率与它最可几的值p

    的离差小于一定量……”,或用Keynes的话说,“事件出现的比例与最可几的比例p的离散小于一定量……”时,他只不过模糊了他的那些困难。这听起来似乎蛮有道理,至少乍一听来是这样。但是如果在这里我们也把“可几的”(有时省略)一词,用主观理论的意义加以翻译,那么整个问题变成这样:“相对频率与理性信仰程度p值的离差小于一定量几乎是确定无疑的,”我认为这是十足的废话。因为相对频率只能与相对频率作比较,只能与相对频率有离差或没有离差。很清楚,在演绎Bernoulli定理之后,把一个不同于演绎之前给予p的意义给予它是不允许的。

    因此我们看到主观理论不能用统计学的大数定律来解释Bernoulli定理。统计定律的推导只有在频率理论的框架内才有可能。如果我们从严格的主观理论出发,将永远达不到统计陈述——即使努力填补同Bernoulli定理之间的鸿沟也不能达到。

    63.Bernoulli定理和收敛问题

    从认识论观点看,我对上述大数定律的演绎是不满意的;因为收敛公理在我们的分析中所起的作用是很不清楚的。

    实际上通过把我的研究限于具有频率极限的数学序列已不言而喻地引入了这类公理(参阅第57节)。结果甚至容易使人认为我们的结果——大数定律的推导——是无关紧要的;因为“绝对自由”的序列在统计学上是稳定的这一事实可被认为是它们的收敛所蕴含的,而它们的收敛如果不是不证自明也是不言自明地被假定的。

    但是正如von Mises已清楚地表明的那样,这个观点是错误的。因为有些序列满足收敛公理,虽然Bernoulli定理对它们不适用,因为具有频率接近1的任何长度的节段,出现在与p有一定程度离散的频率中。(极限p在这些情况下的存在是由于这个事实:虽然离散可无限增加,但它们相互抵销。)这些序列看起来仿佛它们在任意大的节段中是发散的。即使相应的频率序列事实上是收敛的。因此大数定律根本不是收敛公理的无关紧要的推断,而且,这个公理对于推导大数定律完全不充分。这就是为什么我对随机公理的修改,“绝对自由”的要求是不可缺少的。

    然而,我们的理论重建,提示了这样一种可能性:大数定律也许是独立于收敛公理的。因为我们已经看到,Bernoulli定理是直接从二项式公式中得出的;此外,我已证明,可为有穷序列推导出第一个二项式公式,因此当然无需任何收敛公理。还必须假定的一切是参考序列α的自由度至少是n-1;这是一个从中得出特殊乘法定理的可靠性以及第一个二项式公式的可靠性的假定。为了过渡到极限,为了获得Bernoulli定理,只需假定我们使n如我们希望的那样大。因此就能看出,Bernoulli定理大概是对的,即使对于有穷序列也是如此,如果对于一个足够大的n它们的自由度为n的话。

    所以看来Bernoulli定理的演绎并不依赖于假定频率极限存在的公理,而是仅依赖于“绝对自由度”或随机性。极限概念仅起次要的作用:它用来把相对频率的概念(在第一个例子中给它下定义只是为了有穷类,没有它,n-自由度的概念就不能提出)应用于能无限延伸的序列。

    此外,不应忘记,Bernoulli本人是在经典理论的框架内演绎他的定理的,这个理论不包含收敛公理;也不应忘记,作为频率极限的概率定义只是经典形式体系的一种解释——而且不是惟一可能的一种解释。

    我将试图用除n-自由度(应适当地加以定义)外无需假定任何东西就可推演出这个定理来证明我的推测——Bernoulli定理独立于收敛公理。并且我将试图证明它甚至适用于其主要性质并不具有频率极限的那些数学序列。

    只要能够证明这一点,我就会认为我之推演出大数定律从认识论家的观点来看是令人满意的。因为似机遇经验序列证明,我已描述为“收敛”或“统计学上稳定的”那种特殊行为,是一个“经验事实”——或至少有时人们这样告诉我们(参阅第61节)。通过用统计方法记录长节段的行为,人们能够确定相对频率越来越逼近一个限定的值,相对频率在其中涨落的间隔变得越来越小。对这种所谓的“经验事实”,已进行过如此多的讨论和分析,确实往往认为它是大数定律的经验验证,对这种“经验事实”可以从不同角度来看。具有归纳主义倾向的思想家大多数认为它是基本的自然律,不能还原为任何更简单的陈述;认为它是必须完全加以接受的我们世界的特性。他们认为以适当形式——例如以收敛公理的形式——表示的这个自然律应该作为概率论的基础,从而使概率论具有一门自然科学的性质。

    我对这种所谓“经验事实”的态度是不同的。我倾向于认为,它可还原为序列的似定律性质;可从这些序列的自由度为n的事实中推导出来。我认为Bermoulli和Poisson在概率论领域的成就正是在于他们发现了一种方法以表明这种所谓“经验事实”是重言式,表明从小规模的无序(假如它满足表述得合适的n-自由度条件)合乎逻辑地得出一种大规模的稳定性秩序。

    如果我们能够无需假定收敛公理而演绎出Bernoulli定理,那么我们就可把大数定律的认识论问题还原为一个公理独立性问题,因而还原为一个纯粹的逻辑问题。这种演绎也说明为什么收敛公理在各种实际应用(试图计算经验序列的近似行为)中起了很好的作用。因为即使对收敛序列的限制结果弄清是不必要的,利用收敛数学序列来计算经验序列的近似行为(它根据逻辑上的理由在统计学上是稳定的)肯定不是不合适的。

    64.收敛公理的排除“机遇理论基本问题”的解决

    迄今频率极限除了具有提供一个可应用于无穷序列相对频率的明确概念外,在我们的概率论的重建中没有其他功能,因此我们可以借助它来定义(不受后效约束的)“绝对自由度”。因为正是相对频率被要求不受根据先行者作出选择的影响。

    我们早就把我们的研究限制在具有频率极限的二择一,因此不言而喻地引入了收敛公理。现在,为了使我们摆脱这个公理,我将摆脱这个限制,而不用任何其它限制来代替它。这就是说我将不得不建构一个频率概念,它能接管被排除的频率极限的功能,并可应用于所有的无穷参考序列。

    满足这些条件的一个频率概念是相对频率序列聚点的概念。(如果在任何给定的元素之后有一些与α的离差小于一定量,即使这个量很小,就说α值是某一序列的聚点。)这个概念可不加限制地应用于所有无穷序列,这一点可从这个事实中看出,即对于每一个有穷的二择一,与之相应的相对频率序列中必有至少一个这样的聚点存在。由于相对频率决不可能大于1,也不可能小于0,相对频率序列必定由1和0连结起来。而且作为一个无穷的连结起来的序列,它必须(根据著名的Bolzano和Weierstrass)至少有一个聚点。

    简而言之,与一个二择一α相应的相对频率序列的第一个聚点被称为“α的中频率(middle frequency)”。因此,我们可以说:如果一个序列α有一个并且只有一个中频率,那么同时这就是它的频率极限;反之亦然:如果它没有频率极限,那么它就有不止一个中频率。

    将会发现中频率概念十分适合于我们的目的。正如前面p

    是序列α的频率极限这一点是我们的估计——也许是假说性估计——一样,我们现在也可以使用p是α的中频率这一估计。而且假如我们采取必要的预防措施,我们能够借助这些估计的中频率进行计算,类似我们用频率极限计算一样。此外,中频率概念可应用于所有可能的无穷参考序列,没有任何限制。

    如果我们现在试图把我们的符号αF’(β)解释为中频率,而不是频率极限,并且我们因而改变客观概率的定义(第59节),我们的公式大多数仍然是可推导的。然而有一个困难:某一中频率不是惟一的。如果我们估计或推测一个中频率是αF’(β)=p

    ,那么这不排除αF’(β)有除了p以外的值。如果我们假定这并非如此,那就不言而喻要引入收敛公理。如果在另一方面,我们定义客观概率无需这种具有惟一性的假定,那么我们就获得(至少在第一个例子中)一个模棱两可的概率概念;因为在某些条件下一个序列可同时拥有都是“绝对自由的”若干中频率。但是这是难以接受的,因为我们习惯于用不含糊的或惟一的概率;也就是假定在同一参考序列内对于同一性质,可能有一个,并且只可能有一个概率p。

    然而,无需极限公理定义惟一的概率概念的困难是容易克服的。我们可引入惟一性要求(毕竟是最自然的程度)作为最后一步,在假定了序列将是“绝对自由的”以后。这使我们对我们的似机遇序列定义以及客观概率定义提出下列修改作为对问题的一种解决办法。

    设α为一个二择一(有一个或数个中频率)。设α的1有一个或只有一个“绝对自由的”中频率p;于是我们说α是似机遇或随机的,并且p是1在α内的客观概率。

    这有助于把这个定义分为两个公理性要求。

    (1)随机性要求:对于似机遇的二择一,至少必须有一个“绝对自由的”中频率,即它的客观概率p。

    (2)惟一性要求:对于同一似机遇的二择一的同一性质,必定有一个且只有一个概率p。

    前面建构的实例保证了这个新公理系统的无矛盾性。有可能建构不具有频率极限的序列,虽然它们有一个且只有一个概率。这表明新的公理要来实际上比老的更广泛,更不确切。如果我们以下列形式陈述(如我们可以陈述的那样)我们的老公理,这个事实甚至会变得更加明显:

    (1)随机性要求:如上。

    (2)惟一性要求:如上。

    (2’)收敛公理:对于同一似机遇二择一的同一性质除了它的概率p外不存在其他中频率。

    我们可从建议的要求系统中演绎出Bernoulli定理,以及同它一起的经典概率计算定理。这就解决了我们的问题:现在有可能在频率理论的框架内演绎出大数定律,而无需利用收敛公理。此外,不仅第61节公式(1)和Bernoulli定理的文字表述仍然不变,而且我们给予它的解释也仍然不变:在一个没有频率极限的似机遇序列情况下,几乎所有足够长的序列表明与p只有小的离差,这仍然是正确的。在这些序列中(正如在有频率极限的似机遇序列一样)具有拟发散行为的任何长度的节段,也就是与p的离差有任何量的节段,当然不时会出现。但是这些节段比较罕见,因为它们必定被其中所有的(或几乎所有的)节段具有拟收敛行为的序列极端长的部分所补偿。正如计算所表明的,这些延伸部分一定会比它们补偿的具有发散行为的节段长几个数量级。

    这也就是解决“机遇理论基本问题”(在第49节就是这样称呼的)的地方。从单个事件的不可预测性和不规则性到概率计算规则对这些事件的可应用性,这看起来自相矛盾的推论实际上是可靠的。假如根据这样一个假说性假定,即在根据先行者所作的任何选择中只出现一个循环的频率——“中频率”——因而没有后效发生,我们就能够以相当的逼近度来表示不规则性。因为根据这些假定,有可能证明大数定律是重言的。坚持这样的结论,即在可以说任何事情在这时和那时都会发生的——虽然某些事情的发生只是罕见的——不规则序列中,某种规则性或稳定性将出现在十分大的子序列中,这是可以允许的,并非自相矛盾的(有人有此主张)。这个结论也不是不重要的,因为为了这个结论我们就需要特殊的数学工具(Bolzano和Weierstrass定理,n-自由度概念,以及Bernoulli定理)。当我们知道,不规则性的假定可以置于某种频率假说(不受后效约束的假说)的形式中,并且知道,如果我们要证明从不可预测性到可预测性,从无知到知识的推论的可靠性,它就必须置于这种形式中,那么这种推论外表的自相矛盾就消失了。

    现在已变得很清楚,为什么老的理论不可能适当处理我所说的“基本问题”。大家承认,主观理论能够演绎出Bernoulli定理;但是在大数定理时兴以后它决不能用频率前后一致地解释它(参阅第62节)。因此它决不能说明概率预测统计学上的成功,另一方面,老的频率理论,根据它的收敛公理则明确要求有规则性。因此在这个理论内不会有从小规模的不规则性推论到大规模的稳定性问题,因为它只涉及从大规模的稳定性(收敛公理)同小规模的不规则性(随机公理)结合在一起,推论到大规模的特殊形式的和稳定性(Bernoulli定理,大数定律)。

    收敛公理不是概率计算基础的一个必要部分。我用这个结果来结束我的数学计算分析。

    现在我们回来考虑性质截然不同的方法论问题,尤其是如何判定概率陈述问题。

    65.可判定性问题

    无论我们可给概率概念下什么定义,或我们选择什么样的公理表述:只要二项式公式在系统内是可推导出来的,概率陈述就是不可证伪的。概率假说并不排除任何可观察的东西;概率陈述不可能同一个基础陈述发生矛盾,或被它反驳;它们也不可能被任何有限数目的基础陈述所反驳;因此也就不会被任何有限数目的观察所反驳。

    让我们假定我们已对某个二择一α提出某个均等机遇假说;例如我们已估计到用一块硬币作掷猜出现“1”和“0”的频率是均等的,因此 αF(1)-

    αF(0)=1/2;再让我们假定我们在经验上发现无例外地一次又一次出现“1”:于是我们无疑会在实际上放弃我们的估计,认为它已被证伪。但在逻辑的意义上不可能有证伪问题。因为我们可以肯定观察的只是一个有限的掷猜序列。并且虽然根据二项式公式,碰巧出现与1/2的离差很大的十分长的有限节段的频率是极小的,然而它必定总仍然是大于0。因此具有甚至最大离差的有限节段十分罕见的出现决不可能反驳这个估计。实际上,我们必定会期望它出现:这是我们估计的一个推断。任何这种节段可计算的罕见性将是证伪概率估计的一种手段,这种希望证明是要落空的,因为甚至一个长的、离差大的节段的频率出现,也总可以说不过是一个更长、离差更大的节段的一次出现。因此不存在在外延方面给定的事件序列,所以不存在能够证伪概率陈述的有限的几个一组的基础陈述。

    只有一个无穷的事件序列——根据某项规则在内包上加以定义的——能反驳一个概率估计。但是鉴于第38节阐述的考虑(参阅第43节),这就是说,概率假说是不可证伪的,因为它们的维(dimension)是无限的。所以我们实际上应把它们描述为经验上没有信息的、没有经验内容的。

    然而面对物理学利用从概率假说性估计那里得到的预测所取得的成功,任何这种观点显然是不能接受的。(这里所用的论据同早些时候用来反对主观理论把概率解释为重言的论据是一样的。)许多这些估计的科学意义不亚于其他任何物理学假说(例如,不下于某一决定论性质的假说)。并且物理学家常常很能判定他是否可暂时接受某种特定的概率假说为“经验上得到确证的”,或他是否应该把它作为“实践上被证伪的”而加以摈弃,即对于预测设有用处。十分明显,这种“实践上被证伪”只能通过方法论上的判定才能获得,以把高度不可几的事件认作被排除的——被禁止的。但是根据什么理由可认为它们如此呢?我们应从什么地方获得这种思路?这种“高度不可几性”从哪里开始?

    由于从纯逻辑观点看,概率陈述不可能被证伪这个事实是不可能有什么疑问的,我们在经验上使用它们这个同样不容置疑的事实似乎必定是对我关于方法(我的划界标准决定性地依赖于它)的基本思想的致命打击。然而我将通过果敢地应用这些思想来试图回答我已提出的问题——什么是可判定性问题。但是要做到这一点,我将首先不得不分析概率陈述的逻辑形式,既考虑到它们之间逻辑上的相互关系,又考虑到它们与基础陈述所处的逻辑关系。

    66.概率陈述的逻辑形式

    概率估计不是可证伪的。当然,它们也不是可证实的。同样理由这也适用于其他假说,因为看到任何实验结果,不管多么多和多么有利,最后总能确定“正”的相对频率是1/2,并且将总是1/2。

    因此概率陈述和基础陈述不可能相互矛盾,也不可能彼此蕴含。然而由此得出结论说概率陈述和基础陈述之间没有任何逻辑关系,那就错了。并且同样不能认为虽然在这两类陈述之间有逻辑关系(因为观察序列同频率陈述显然或多或少是接近一致的),这些关系的分析迫使我们引入一种突破经典逻辑的特殊概率逻辑。与这些观点相反,我认为这些关系完全能够用可推演性和矛盾的“经典”逻辑关系来分析。

    从概率陈述的非可证伪性和非可证实性可以推论出,它们没有可证伪的推断,它们本身不可能是可证实陈述的推断。但是相反的可能性并未排除。因为它可以是(α)它们有单向可证实推断[纯粹存在推断,或有推断(there-is-consequences)]或(b)它们本身是单向可证伪全称陈述[所有-陈述(all—statements)]的推断。

    可能性(b)对于弄清概率陈述和基础陈述之间的逻辑关系鲜有帮助:一个非可证伪陈述,即一个说得很少的陈述能够属于可证伪的、因而说得更多的陈述的推断类,这是非常明显的。

    对我们意义更大的是可能性(α),它无论如何不是没有意义的,并且事实上结果证明对我们分析概率陈述和基础陈述之间关系是基本的。因为我们发现能够从每一个概率陈述中演绎出无限类的存在陈述,但反之不然。(因此概率陈述断言的比任何这些存在陈述断言的更多。)例如,设p是对某一二择一假说性估计的概率(并设0≠p≠1);那么我们能从这个估计中演绎出例如1和0都将出现在这序列的存在推断。(当然也还有许多远不是那么简单的例子——例如,会出现与p的离差仅为一非常小的量的节段。)

    但是我们从这个估计中能演绎出的多得多;例如“一遍又一遍地”出现一个具有性质“1”的元素和具有性质“0’的另一个元素;那就是说,在任何元素x之后,在序列中会出现一个具有性质“1”的元素y,并且也出现一个具有性质“0”的元素x。这种形式的陈述(“对于每一个x有y具有可观察的、或外延上可检验的性质B”)既是不可证伪的——因为它没有可证伪的推断——又是不可证实的——由于使之成为假说性的“所有”或“对于每一个”。虽然如此,它能够得到更好地或不那么好地“确证”——指我们可以证实它的许多或很少存在推断,或者不能证实它的存在推断;因此它与基础陈述处于似是概率陈述特有的关系中。上述形式的陈述可称为“全称化的存在陈述”或(全称化的)“存在假说”。

    我的主张是,概率估计对基础陈述的关系,以及这些估计或多或少得到很好“确证”的可能性,考虑到这一事实就能理解:存在假说在逻辑上可从所有概率估计中演绎出来。这对概率陈述本身是否可有存在假说的问题是有启发的。

    一切(假说性的)概率估计蕴含着这样的推测:所说的经验序列几乎是似机遇和随机的。这就是说,它蕴含着概率计算公理的(近似的)可应用性,以及真理性。所以,我们的问题就是这些公理是否代表我所说的“存在假说”的问题。

    如果我们检查一下第64节中提出的两个要求,那么我们发现随机性要求实际上具有存在假说的形式。另一方面,惟一性要求则没有这种形式;它不可能有这种形式,因为这种形式的陈述“只有一个……(There is only one……)”必然具有全称陈述的形式。(可译为“至多一个……”或“所有……是同一的”。)

    在这里我的论点是,正是概率估计的(可称之为的)“存在成份”,因而正是随机性的要求,概率估计和基础陈述之间才建立起一种逻辑关系。因此,惟一性的要求,作为全称陈述,没有任何外延的推断(extensional consequences)。具有所要求性质的p的值存在这一点确定能够在外延上得到“确证”——虽然只是暂时地;但是只存在一个这样的值这一点则不能。这后一个全称的陈述可能在外延上有意义,仅当基础陈述能够同它发生矛盾时;这就是说,仅当基础陈述能够肯定存在的值不止这一个时。由于它们不能够(因为我们记得不可证伪性与二项式有密切关系)做到这一点,惟一性的要求必然在外延上是没有意义的。

    这就是为什么如果我们从系统中消去惟一性要求,概率估计和基础陈述以及前者的分级“可确证性”之的分级之间所有的逻辑关系不受影响的缘故。在这样做时,我们能够给予系统以纯粹存在假说的形式。但是我们因此不得不放弃概率估计的惟一性,并且因而(就惟一性而言)获得某种不同于通常概率计算的东西。

    所以惟一性的要求显然不是多余的。那么它的逻辑功能是什么?

    虽然随机性要求有助于确立概率陈述和基础陈述之间的某种关系,惟一性要求调节着各种概率陈述本身之间的关系。没有惟一性要求,作为存在假说的某些陈述,可以从其他陈述中推导出来,但是它们决不可能彼此矛盾。只有惟一性的要求才保证,概率陈述能彼此矛盾;因为根据这个要求它们获得其成分为一个全称陈述和一个存在假说的合取形式;并且这种形式的陈述能够彼此处于同样基本的逻辑关系中(同义、可推导性、相容性和不相容性),正如任何理论——例如一个可证伪的理论——的“正常的”全称陈述那样。

    如果我们现在考虑收敛公理,那么我们发现,在它具有一种不可证伪的全称陈述的形式这一点上它类似惟一性要求。但是收敛公理要求的比惟一性要求的更多。然而这种附加要求也不可能有任何外延上的意义;此外,它没有逻辑或形式的意义,而只有内包上的意义:它要求排除所有没有频率极限的用内包定义的(即数学的)序列。但是从应用观点看,这种排除证明甚至在内包上也没有意义,因为在应用概率论中我们当然不涉及数学序列本身,而只涉及经验序列的假说性估计。所以排除没有频率极限的序列,只能用来告诫我们不要把那些经验序列着作为似机遇或随机的,对于那些经验序列我们假定它们没有频率极限。但是对这种告诫,我们能够采取何种可能的行动?鉴于这种告诫,我们应该容许或避免哪类关于经验序列可能收敛或发散的考虑或推测,保证收敛标准同发散标准一样可应用于这些序列?一旦摆脱了收敛公理,所有这些尴尬的问题也就消失了。

    因此我们的逻辑分析使系统各部分的要求的形式和功能都一目了然,并且表明反对随机性公理和支持惟一性要求的理由是什么。同时可判定性问题似乎变得越来越重要。并且虽然我们不一定称我们的要求(或公理)“无意义”,看来我们被迫把它们描述为非经验的。但是概率陈述的这种描述——不管我们用什么话来表达它——是否同我们研究的主要思想相矛盾呢?

    67.思辨形而上学的概率系统

    概率陈述在物理学中最重要的用处是这样:某些物理学规律性或可观察的物理效应被解释为“宏观定律”;也就是说,它们被解释或说明为大数现象,或假说性的、不能直接观察的“微观事件”的可观察结果。宏观定律用下列方法从概率估计中演绎出来:我们证明,与所说的观察到的规律性一致的观察结果,应该期望其概率十分接近于1,即其概率与1的离差为一个能达到按我们选取的那样小的量。当我们已证明这一点时,那么我们就说,我们已经用我们的概率估计把所说的可观察效应“解释”为一个宏观效应。

    但是如果我们以这种方法使用概率估计来“解释”可观察的规律性而不采取特定的预防措施,那么我们会马上陷入某些思辨,根据一般的用法,完全可以把它们描述为思辨形而上学的典型。

    因为概率陈述是不可证伪的,以这种方法用概率估计“解释”我们喜欢的任何规律性必定总是可能的。以万有引力定律为例。我们可以下列方法设想出一些假说性的概率估计来“解释”这个定律。我们选择某类事件作为基本事件或原子事件;例如某一小粒子的运动。我们也选择某方面作为这些事件的主要性质;例如粒子运动的方向和速度。于是我们假定这些事件显现出似机遇的分布。最后我们计算出所有的粒子在某一有限的空间区域内,在某一有限的时期内——某一“宇宙期”——将以规定的精确性(附带地说,以万有引力定律要求的方式)运动的概率。计算出的概率当然将十分小;实际上小得微不足道,但是仍然不等于零。因此我们可以提出这样的问题:这个序列的某个n-节段得有多长,或换言之,整个过程必须假定有多长,我们才可期望这种宇宙期出现的概率接近1(或与1的离差不超过某一任意小的值E),在这宇宙期内,作为偶发事件积累的结果,我们的观察将会完全与万有引力定律一致。对于任我们选取的接近于1的任何值,我们获得一个确定的、虽然极端大的有限数。于是我们可以说:如果我们假定序列的节段有这十分大的长度——或换言之,“世界”延续得足够长——那么我们的随机性假定使我们能够期望出现一个方有引力定律似乎也适用的宇宙期,虽然“实际上”除了随机发散外什么也没有出现。借助某种随机性假定,这类“解释”可应用于我们选取的任何规律性。事实上,我们可用这个方式把我们整个世界,以及它的所有被观察到的规律性,“解释”成随机混沌中的一个阶段——纯粹偶然巧合的一种积累。

    我认为很清楚,这类思辨是“形而上学的”,它们对科学没有任何意义。并且同样清楚的是:这个事实同它们的不可证伪性——我们能在任何时候和任何条件容许它们这个事实是有联系的。因此我的划界标准似乎同“形而上学的”一词的一般用法是完全一致的。

    所以涉及概率的理论,如果它们不加特定预防措施而加以应用,就不应被认为是科学的。如果它们应在经验科学的实践中有用处,我们就必须排除它们的形而上学用法。

    68.物理学中的概率

    可判定性困难的问题只是方法论的,不是物理学的。如果要求提出一个实践上可应用的概率概念,物理学家也许会提供某种物理学的概率定义,其思路如下:有些实验,即使在受控条件下进行也得出不同的结果。在某些这类实验——“似机遇的”实验,例如用硬币做掷猜——的情况下,经常重复导致具有相对频率的结果,进一步重复,这些相对频率越来越逼近某个固定值,我们可称之为所说事件的概率。这个值是“……可用经验通过一长系列实验确定到任何逼近度”;顺便说,这说明为什么证伪一个假说性的概率估计是可能的。

    数学家和逻辑学家会对根据这些思路下的定义提出异议,尤其是下列异议:

    (1)这个定义与概率计算并不一致,因为根据Bernoulli定理,只有几乎所有非常长的节段才是统计学上稳定的,即其行为仿佛是收敛的。由于这个理由,概率不能用这稳定性,即用拟收敛行为来定义。因为“几乎所有”一词——它应该出现在定义中——本身只是“十分可几的”一个同义语。因此这定义是循环的;这个事实容易通过去掉“几乎”一词隐避起来(但不能取消)。这就是物理学家的定义所做的事;所以这是不能接受的。

    (2)什么时候应说一系列实验是“长的”?不提供一个应称之为“长的”标准,我们不能知道我们何时,或是否已达到逼近这个概率。

    (3)我们如何能知道所需要的逼近实际上已达到?

    虽然我认为这些异议是合理的,然而我认为我们能够保留物理学家的定义。我将通过上节概述的论据来支持这种见解。这些论据表明当概率假说被允许无限应用时,它们就失去所有信息内容。物理学家决不会以这种方式使用它们。我将遵循物理学家的范例,不允许概率假说的无限应用:我建议我们作为方法论的决定决不把物理效应,即可复制的规律性,解释为偶发事件的累积。这个决定自然修改了概率概念:它使这个概念变窄了。因此异议(1)并不影响我的观点,因为我根本不主张概率的物理概念和数学概念是同一的;反之,我否认这种同一性。但是代替(1),出现了一个新的异议。

    (1’)什么时候我们能谈到“累积的偶发事件”?大概在概率很小的情况下。但是什么时候一个概率“小”?我们可以承认的是,我刚提出的建议排除了使用通过改变数学问题的提法,从小概率中制造任意大概率的方法(前节已讨论)。但是为了执行所建议的决定,我们得知道我们应把什么看作是小的。

    下面几页将表明所建议的方法论规则与物理学家的定义是一致的,问题(1’)、(2)和(3)提出的异议能借助它得到解答。开始,我脑子里只有一个典型的概率计算应用例子:我脑子里有一些可复制的宏观效应例子,这些效应能够借助精确的(宏观)定律——如气体压力——加以描述,并且我们把这些效应解释或说明为由于微观过程,如分子碰撞大量积累所致。其他典型例子(如统计涨落或似机遇的个别过程的统计)可没有很多困难地还原为这个例子。)=ε。根据Bernoulli定理,随n增加至无限,ε趋向零。

    我们假定ε“小”到可以不计(在这个假定中有“小”是什么意思的问题(1’),马上就要讨论它)。显然,△p应解释为间距,测量在此间距内逼近p值。由此我们看到三个量:ε,n,和△p与三个问题(1’),(2)和(3)相应。△p或ε可任意选取,它限制了我们选取ε和n的任意性。由于我们的任务是演绎出确切的宏观效应p(±φ),我们不去假定δ大于φ。就可复制效应p而言,如果我们进行的演绎满足δ≤φ

    ,它就是令人满意的。(这里φ是给定的,由于它是由测量技术来确定的。)现在让我们选取δ使它(近似地)等于φ。于是我们就将问题(3)还原为两个其他问题(1’)和(2)。

    通过选取δ(即△P)我们已在n和ε之间确立了一种关系,因为对于每一个n,现在都有一个ε值惟一地与之相应。因此(2),即什么时候n有足够长这个问题已还原为(1’),即什么时候ε小这个问题(反之亦然)。

    但是这意味着只要我们能够判定ε的哪一个特定的值可被认为“小到微不足道”而不计,所有三个问题都可得到回答。现在我们的方法论规则等于是决定忽略不计小的ε值;但是我们不准备老是去讨论某个确定的ε值。

    如果我们把问题交给物理学家,即如果我们问他,他准备不计什么样的ε——0.001或是0.000001,或是……?他大概会回答E根本不使他感到兴趣;他选取的不是ε而是n;他已这样选取n,使n与△P之间的相关大大独立于我们愿意造成的ε值的任何变化。

    由于Bernoulli分布的数学特点,物理学家的回答是有道理的:对每一个n,确定ε和△p之间的函数关系是可能的。对这个函数作一检查就可表明,对于一切(“大的”)n都存在一个表示特征的△p值,使得在这个值的邻域,完全不受ε的变化的影响。这种无影响性随n的增加而增加。如果我们取我们在极端大数现象情况下应该期望的一个数量级的n,那么在它的特征值的领域△p完全不受ε的变化的影响,以致即使ε的数量级改变,△p也几乎根本没有变化。现在物理学家将把很小的值附加于规定得更明确的△p界限上。并且在研究所限的典型的大数现象的情况下,我们记得,能够使△p与精确度为±φ(取决于我们的测量技术)的间距相对应;并且这个间距没有明确的界限,只有我在第37节所说的“缩聚界限”(condensation bound)。所以当△p在它的特征值(我们能够确定这个值)的领域的无影响性至少有如此之大,甚至ε数量级的改变引起的△p值仅在±φ的缩聚界限内涨落时,我们才称n是大的。(如果n→∞,则△P变得完全不受影响)。但是如果是如此,我们就无需再操心ε的精确测定:即使我们没有精确地说出必须把什么看作是“小的”,决定置小的ε于不顾也就够了。这等于是决定利用上述不受ε的变化的影响的△p的特征值。

    必须把极度不可几性置于不顾的规则(只有根据上述才成为十分明确的一条规则)与要求科学的客观性是一致的。因为对我们的规则的明显反对显然是,最大的不可几性始终是一种概率,不管这种概率有多么小,因此甚至最不可几的过程——即我们建议置之不顾的过程——终有一天会发生。但是这个反对意见可通过恢复可复制的物理效应概念来予以解决,这个概念与客观性概念有密切联系(参阅第8节)。我不否认不可几事件会发生的可能性。例如我并不断言在小量气体中的分子在一短暂时间内不会自发地聚集成为这容量的一部分,或者在大量气体中压力的自发涨落永远不会发生。我断言的是,这些偶发事件不是物理效应,因为根据它们的极度不可几性,它们不能随意复制。即使一个物理学家碰巧观察到这种过程,他也完全不可能去复制它,因此永远不能判定在这种情况下实际发生了什么,他是否有可能犯了一次观察上的错误。然而,如果我们发现一些可复制的离差,这些离差不同于按上述方式从概率估计中演绎出的宏观效应,那么我们必须假定概率估计已被证伪。

    这些考虑可帮助我们理解Eddington的下述看法,他区别了两类物理定律:“某些事情永远不会在物理世界中发生,因为它们是不可能的;另一些则因为它们也是不可几的。禁止前者的定律是一级定律;禁止后者的是二级定律”。虽然这种表述也许并不能摆脱批评(我宁愿不去对极度不可几的事情是否发生作出不可检验的断言),但它与物理学家对概率论的应用完全一致。

    可应用概率论的其他场合,如统计涨落,或似机遇个别事件的统计,可还原为我们一直在讨论的场合,即可精确测定的宏观效应场合。我理解的统计涨落就是Brown运动那样的现象。在这里测量精确度的间距(±o)小于对效应起促进作用的微观事件数n特有的间距△p;因而可期望不同于p的可测定离差是高度不可几的。发生这些离差这一事实是可检验的,因为涨落本身成为一种可复制效应;并且我以前的论证可应用于这种效应:涨落超过某一大小(超过某个间距△p),根据我的方法论要求,必定不是可复制的,朝同一方向涨落的长序列也是如此,如此等等。相应的论证也会适用于似机遇个别事件的统计。

    我现在总结我的关于可判定性问题的论证。

    我们的问题:概率假说——我们已看到它们是不可证伪的——如何能在经验科学中起自然律的作用?我们的回答是:概率陈述,就它们是不可证伪的而言,是形而上学的和没有经验意义的;就利用它们作为经验陈述而言,利用它们作可证伪的陈述。

    但是这种回答提出了另一个问题:概率陈述——是不可证伪的——可用作可证伪陈述,怎么可能呢?(它们能如此使用这个事实是毋庸置疑的:物理学家知道得十分清楚,什么时候认为概率假定已被证伪。)我们发现这个问题有两个方面。一方面,我们必须根据其逻辑形式使利用概率陈述的可能性成为可理解的,另一方面,我们必须分析支配它们用作可证伪陈述的原则。

    根据第66节,公认的基础陈述可以多少令人满意地与某种所提出的概率估计一致;它们可更好或稍差一些代表概率序列的一个典型节段。这为某种方法论规则的应用提供了机会,例如要求基础陈述和概率估计之间的一致应该符合某种最低限度标准这一规则。因此规则可引出某种任意的思路,并且规定只有适当代表性的节段(或适当“公平的样本”)才得以“允许”,而不典型的或没有代表性的节段是被禁止的。

    对这种意见作更仔细的分析向我们表明,什么被允许和什么被禁止之间的分界线的划定并不一定像起初想象的那样任意。尤其是无需“宽容地”划定这条分界线。因为有可能用这种方式形成这条规则,使什么被允许和什么被禁止之间的分界线,正如其他定律的情况一样,由我们的测量能达到的精确度来决定。

    我们根据划界标准提出的方法论规则,不禁止不典型节段的出现;它也不禁止离差(当然,对于概率序列是不典型的)的重复出现。这条规则禁止的是系统离差的出现可预测和可复制,例如朝特定方向的离差,或肯定是不典型的节段的出现。因此它要求的不单是粗略的一致,而是对于可复制和可检验的一切,简言之,对于所有的可复制效应可能是最佳的一致。

    69.定律和机遇

    人们有时听说,行星的运动服从严格的定律,而一粒骰子的掷下是碰运气,或受机遇支配。我认为区别在于这个事实:迄今我们已能成功地预测行星的运动,但还不能预测掷骰子的个别结果。

    为了演绎出预见,人们需要定律和初始条件;如果没有合适的定律或不能确定初始条件,科学的预见方法就垮台。掷骰子时我们所缺乏的显然是初始条件的充分知识。有了初始条件的足够精确的测定,也就有可能在这种情况下作出预见;但是选定正确掷骰子的规则(摇摇骰子盒)是为了防止我们测量初始条件。游戏规则以及确定某一随机序列的各种事件必将发生的那些条件的其他规则,我称之为“框架条件”。它们由这样一些要求组成,如骰子应该是“纯的”(由同质物质组成),应该把它们好好地摇摇等等。

    有一些其他情况,预见是不成功的。也许迄今还不可能提出合适的定律;也许发现一个定律的所有尝试都已失败,并且所有的预见也被证伪。在这些情况下我们可能对究竟是否会找到一个满意的定律已失望。(但是大概我们不会放弃尝试,除非问题已使我们不大感兴趣——例如如果我们满足于频率预测,就是这种情况。)然而,无论如何,我们不能定论地说,在某个特定的领域没有定律。(这是证实不可能性的一个结果。)这就是说,我的观点使机遇概念成为主观的。当我们的知识不足以作出预见时我就说“机遇”;正如掷骰子时,我们说“机遇”,因为我们对初始条件没有知识。(可以设想,仪器设备精良的物理学家,能观测其他人预测不到的一次掷骰子的结果。)

    与这种主观观点相反,人们有时支持一种客观的观点。就这种观点利用事件本身是指决定的还是不决定的这种形而上学观念而言,我将不在这里对这种观点作进一步的考察(参阅第71和78节)。如果我们的预见获得成功,我们可以谈到“定律”;否则我们对定律或不规则性的存在或不存在不可能有任何知识。

    也许比这个形而上学观念更值得考虑的是下面的观点。可以说,当我们的概率估计得到验证时,我们遇到客观意义上的“机遇”;正如当我们遇到因果规律性时一样。

    蕴涵在这观点中的机遇定义可能不全是无用的,但是应该有力强调,如此定义的概念并不与定律概念相对立:正是由于这个理由我称概念序列是似机遇的。一般地说,一个实验结果的序列是似机遇的,如果定义序列的框架条件不同于初始条件的话;当在同一框架条件下进行的个别实验,在不同的初始条件下进行时,就会产生不同的结果。其元素根本不可预测的似机遇序列是否存在,我不知道。我们甚至不能从某个序列是似机遇的这个事实,推论出它的元素是不可预测的,还是或者推论出它们“由于”在主观的知识不足意义上的“机遇”所致;我们尤其不能从这个事实推论出定律不存在的“客观”事实。

    不仅不可能从序列的似机遇性质中推论出任何与定律一致的东西,或者在另一方面与个别事件一致的东西;甚至不可能从概率估计的验证推论出序列本身是完全不规则的。因为我们知道似机遇序列是存在的,这些序列是根据数学规则建构的。一个序列具有Bernoulli分布这个事实不是不存在定律的征候,与“根据定义”不存在定律完全不是一回事。我们在概率预测成功中看到的不过是在序列结构中不存在简单定律的征候(参阅第43和48节)——与构成序列的事件相反。不受后效约束的假定相当于这样的假说:这种简单的定律是不可发现的,这个假定得到验证,但这就是一切。

    70.从微观定律推演宏观定律的可能性

    有一种学说几乎已成为偏见,虽然它在最近已受到严厉的批评——所有可观察的事件必须解释为宏观事件,即解释为一些微观事件的平均数或累计或总和的学说(这个学说有点类似某些形式的唯物主义)。像其他这种学说一样,这似是某一方法论规则的形而上学具体化,而这条规则本身是完全无可非议的。我指的是这条规则:我们应该看看我们是否能用上述类型的解释性假说简化、概括或统一我们的理论。在评论这些尝试的成功时,认为关于微观事件的非统计假说及其相互作用定律就能足以说明宏观事件,这是个错误。除此以外,我们应该需要假说性的频率估计,因为从统计前提中只能推导出统计结论。这些频率估计总是独立的假说,当我们从事研究与微观事件有关的定律时,这些假说的确不时出现在我们脑中,但是它们决不能从这些定律中推导出来。频率估计形成一类特殊的假说:一般地说,它们是与规律性有关的禁律。Von Mises对这一点说得十分清楚:“没有统计学性质的补充假定,在气体动力理论中甚至最微不足道的定理也不是单从经典物理学中推导出来的”。

    统计学估计或频率陈述决不能从“决定论”性质的定律中推导出来,理由是为了从这些定律中演绎出任何预见,需要初始条件。在初始条件那里,关于初始条件统计学分布的假定——也就是说特定的统计学假定——进入了演绎过程,统计学定律就是通过演绎从决定论性质或“精确”性质的微观假定中获得的。

    理论物理学的频率假定在一定程度上是等机遇假说,这是一个令人惊异的事实,但这无论如何并不是意味着它们是“自明的”,或先验地正确的。它们远非如此,这一点从经典统计学、Bose-Einstein统计学和Fermi-Dirac统计学之间的广泛差异中就可看到。这些表明特定的假定如何可与一个等机遇的假说结合起来,在每一种情况下都导致参考序列的主要性质(假定其分布是均等的)的不同定义。

    下面的例子也许可证明这个事实:甚至当我们想摆脱频率假定时,它们也是必不可少的。

    想象一个瀑布。我们可辨认某种奇特的规律性:组成瀑布的水流的大小是变化的;不时地飞溅从主流中甩出来;然而在贯穿所有这些变化中,某种规律性明显可见,它强烈提示有一种统计学效应。尽管有一些尚未解诀的液体动力学问题(与涡流的形成有关等等),我们在原则上能够以任何所需程度的精确性,预测任何量水——比方说一组分子——的路线,如果给定足够精确的初始条件的话。因此我们可以假定,有可能预言远在瀑布之上的任何分子,在哪一点上它将越过边缘,到达底部等等。这样原则上可计算出任何数量分子的路线;并且给定充分的初始条件,我们就能在原则上演绎出瀑布的任何一种个别的统计学涨落。但是只能是这种或那种个别的涨落的,而不是我们已描述过的反复发生的统计学规律性,一般统计学分布就更不行了。为了说明这些,我们需要统计学估计——至少假定某些初始条件对于许多不同组的粒子(等于一个全称陈述)将一次又一次地反复出现。我们获得一个统计结果,当且仅当我们作出这些特定的统计学假定——例如关于反复出现的初始条件频率分布的假定——时。

    71.形式上单称的概率陈述

    我称一个概率陈述为“形式上单称的”,当它把某一概率赋予某个单一偶发事件或某类偶发事件的单个元素时;例如,“用这个骰子掷下一次得5的概率是1/6”或“(用这个骰子)掷任何一次得5的概率是1/6”。从频率理论观点看,一般认为这些陈述是不十分正确的表述,因为不能把概率归之于单个偶发事件,而只能归之于偶发事件或事件有限序列。然而借助客观概率或相对频率概念用适当定义的形式上单称的概率把这些陈述解释为正确的陈述是容易的。我用“Pαk(β)”表示这形式上单称的概率:作为序列α的一个元素,某一偶发事件k有性质β——符号为kεα——于是我定义形式上单称的概率如下;

    Pαk(β)=αF(β)(kεα)(定义)

    这可用文字表达如下:事件k具有性质β——设k为序列α的一个元素——的形式上单称的概率,根据定义等于性质β在参考序列α内的概率。

    这个简单的几乎一目了然的定义证明令人惊异地有用。它甚至可帮助我们澄清现代量予理论的某些复杂问题(参阅第75-76节)。

    正如定义所表明的,如果一个形式上单称的概率陈述没有明确说出一个参考类,它就是不完全的。但是虽然α常常没有明确提及,在这些情况下我们往往知道α是什么意思,因此上述第一个例子没有具体规定任何参考序列α,但是十分清楚它与掷真的骰子的所有序列有关。

    在许多情况下,对一个事件K可以有若干不同的参考序列。在这些情况下非常明显,对同一事件可以作出不同的形式上单称的概率陈述。因此一个个别的人K将在一定时期内死亡这种概率可根据我们认为他是他的年龄组的一员,还是他的职业组的一员等等来假定十分不同的值。对于应该从若干可能的参考类中选定哪一个,不可能制定一个一般规则。(最窄的参考类往往最合适,假如它多到足以使概率陈述立足于合理的统计外推,并且得到足够量验证证据的支持的话。)

    Pk(β)=0。告诉给我们关于单个偶发事件实际结局的陈述——不是关于某个频率,而是关于“kεφ”形式的陈述——不能改变这些偶发事件的概率;然而,它们可提示我们选取另一个参考类。

    形式上单称的概率陈述概念提供了一种通向主观理论,从而也就通向域(range)理论的桥梁,正如下节将表明的那样。因为我们会同意把形式上全称的概率解释为“理性信仰程度”(依照Keynes)——假如我们允许我们的“理性信仰”受某一客观的频率陈述指导的话。因此这种陈述还是我们的信仰所依靠的信息。换言之,也可能有这样的事:我们除了知道某个事件属于某一参考类,某个概率估计在其中受到了成功的检验外,对它一无所知。这个信息并不能使我们预见这个事件的性质将是什么;但是它能使我们表达借助某种形式上单称的概率陈述知道它的一切,这种陈述看起来像关于所谈论的特定事件的不确定预见。

    因此,我不反对关于单个事件概率陈述的主观解释,即解释为不确定的预见——可以说,承认我们对所谈论的特定事件缺乏知识(的确,关于这个事件什么结论也不能从某个频率陈述中得出)。那就是说,我不反对概率陈述的主观解释,只要我们明确承认客观频率陈述是基本的,因为只有它们是可用经验检验的。然而,我反对把这些形式上单称的概率陈述——这些不确定预见——解释为关于客观事态的陈述,但不反对解释为客观统计事态的陈述。我脑子里有这样一种观点:关于掷骰子概率为1/6的一个陈述不仅是承认我们不知道任何确定的事情(主观理论),而且是关于掷下一次的断言——断言它的结果客观上既是不确定的又是非决定的——是关于某种仍悬而未决的事情的断言。我认为所有作出这种客观解释(除了别人外,Jeans作过充分的讨论)的尝试都是错误的。不管这些解释可能造成一些什么样的非决定论气氛,它们全都包含这样的形而上学思想:不仅我们能演绎出和检验预见,并且除此之外自然界或多或少是“决定的”(或“非决定的”);因此预见的成败不应用它们由之演绎出来的定律来解释,而是首先由这样一个事实来解释:自然界实际上是(或不是)根据这些定律组成的。

    72.域理论

    我在第34节中说,一个可证伪程度比另一陈述更高的陈述可被描述为逻辑上更不可几的陈述;而不那么可证协的陈述则是逻辑上更可几的陈述。逻辑上不那么可几的陈述衍推出逻辑上更可几的陈述。在逻辑概率概念和客观的或形式上单称的数值概率概念之间有密切关系。某些概率哲学家(Bolzano,von Kries,Waismann)曾试图把概率计算立足于逻辑域,因此立足于一个与逻辑概率一致的概念(参阅第37节);并且他们在这样做时,也试图弄清逻辑概率与数值概率之间的密切关系。

    Waismann曾建议用与不同陈述相应的相对频率测定它们逻辑域之间的相互关系程度(可以说它们的比值),从而把频率看作为决定一个测定域的系统的东西。我认为在此基础上建立概率论是可行的。的确我们可以说,这个计划就是使相对频率同某些“不确定的预见”相关起来——正如当我们定义形式上的单称概率陈述时在前一节已经做的一样。

    然而必须说,仅当一个频率理论已经建构时,这种定义概率的方法才是可行的。否则人们就得问在定义测定系统时使用的频率本身又是如何定义的。然而,如果我们手中已经有某个频率理论,那么引入域理论实际上就成为多余的。但是尽管有这种异议,我认为Waismann建议的可行性是重要的。发现一个更全面的理论能够填补解决这个问题的各种尝试之间,尤其是在主观和客观解释之间的鸿沟——起初似乎是不可填补的。然而Waismann的建议要求作一点修改。他的域比值概念(参阅第48节注)不仅要求域能借助它们的子类关系(或它们的衍推关系)加以比较;而且它更一般地要求使甚至只是部分交迭的域(不可比较的陈述的域)也能够成为可以比较的。然而这后一个假定有相当的困难,它是多余的。有可能表明,在有关的情况下(为随机情况)子类的比较和频率的比较必定导致类似的结果。这证明为了测定域而把频率与域相关起来的方法是对的。我们在这样做时,就使所谈论的陈述(按子类方法是不可比较的)成为可以比较的。我将粗略地表明所描述的方法如何可得到证明。

    B成立,则:

    (K)〔Fsb(kεγ)≥Fsb(kεβ)〕(参阅第33节)

    因此逻辑概率或陈述(kεγ)的域必须小于或等于(kεβ)的域。它将是相等的,仅当有一个参考类α(它可以是全称类)时,对于这个参考类下列规则成立,这个规则可以说具有“自然律”的形式:

    (x){[xε(α.β)→(xεγ)]}

    α.β

    如果这种“自然律”不成立,因此我们可假定在这个方面有随机性,那么不等性就成立。但是在这个情况下我们就得到下式,假如α是可数的,并可承认为一个参考序列:

    αF(γ)<αF(β)

    这就是说,在随意性情况下,域的比较必须导致同样的不等性,正如相对频率的比较一样。因此,如果我们有随机性,我们就可把相对频率同域相关起来,以使域成为可测量的。但是这正是我们在第71节中当我们定义形式上单称的概率陈述时所做的(虽然是间接地)。的确,我们可以从这些假定中直接推论出

    αPk(γ)<αPk(β)

    这样我们就回到了我们的出发点,概率解释问题。并且我们现在发现,客观和主观理论之间的冲突,初看似乎是如此难办,可用某种一目了然的形式上单称的概率的定义来完全消除。

    第九章 对量子论的若干意见

    我们对概率论的分析,已使我们掌握一些工具,我们现在可通过应用它们于现代科学一个主要问题来检验它们;并且我将借它们之助试图分析和澄清现代量子论若干更为模糊不清的论点。

    我用哲学或逻辑方法解决物理学中心问题之一的有点大胆的尝试,必定会引起物理学家的怀疑。我承认他的怀疑是正当的,他的怀疑是有充分根据的,然而我希望我也许能够克服他们。同时,值得注意的是在每门科学分支中,成堆的问题主要是逻辑的。量子物理学家一直渴望参与认识论讨论,这是事实。这提示他们本身感到量子论中某些仍未解决的问题的解法不得不在逻辑与物理学之间的无人岛上寻找。

    我将开始就预先记下将从我的分析中得出的主要结论。

    (1)量子论中有一些数学公式被Heisenberg用他的测不准原理加以解释;即关于由于我们在测量时达到的精确性的限制所致的测不准域的陈述。我将试图证明,这些公式应解释为形式上单称的概率陈述(参阅第71节);这意味着它们本身必须用统计学来加以解释。对这个公式作如此解释就是断言:在统计学上“分散”或“方差”或“离散”的某些域之间有一定的关系(它们在这里被称为“统计学的离散关系”)。

    (2)我将要试图证明,比测不准原理允许的精确性程度更高的测量与量子论的公式系统或及其统计学解释并不是不相容的。因此如果这样一种精确度终究成为可能,量子论不一定被反驳。

    (3)所以Heisenberg所断言的可达到的精确性极限的存在,并不是从理论公式中演绎出来的逻辑推断,更确切地说,它是一个孤立的或附加的假定。

    (4)此外,正如我将试图证明的那样,如果量子论的公式在统计学上得到解释,那么Heisenberg的这个假定实际上与这些公式是矛盾的。因为不仅更精确的测量与量子论相容,而且甚至有可能描述表明更确切的测定有可能的想象实验。在我看来,正是这个矛盾引起了所有那些困难,现代量子物理学的令人赞叹的结构就受这些困难困扰;以致Thirring谈到量子论时说,它“留下了一个难解的秘密给它的创始人,这是他们自己承认的”。

    下面所述也许可描述为对量子论基础的研究。在这个研究中,我将避免一切数学论证和一切数学公式,除一个例外。这是可能的,因为我将不对量子论数学公式系统的正确性提出疑问,我将只关心归功于Bohn的物理解释的逻辑推断。

    至于“因果性”的争论,我提出不同于现在如此流行的非决定论形而上学的意见。非决定论形而上学与直到最近才在物理学家中风行的决定论形而上学的区别,与其说在于它非常清晰,不如说它极无成果。

    在清晰性方面,我的批判常常是严厉的。所以不妨可以在这里说我认为现代量子论创始人的成就是整个科学史上最伟大的成就之一。

    73.Heisenberg的纲领和测不准关系

    当然尝试在新的基础上建立原子理论时,Heisenberg从一个形而上学纲领开始:摆脱“不可观察的东西”,即摆脱不能作实验观察的量值(magnitudes);人们可以说是摆脱形而上学因素。这些不可观察的量值发生在先于Heisenberg的理论的Bohr理论中:可被实验观察的任何东西与电子的轨道,甚至与电子旋转的频率均不一致(因为可被观察为光谱线的发射频率不可能就是电子旋转的频率)。Heisenberg希望通过排除这些不可观察的量值,他能够克服Bohr理论的缺点。

    这个情况与Einstein试图重新解释Lorentz-Fitzgerald假说时面临的情况有一定的相似之处。这个假说试图利用像对Lorentz的不动的以太作相对运动这样不可观察的量值,即无法用实验检验的量值,来解释Michelson和Morley实验的阴性结果。不管是在这种情况还是在Bohr理论的情况下,需要改革的理论都说明了某些可观察的自然过程;但是它们都用了令人不满意的假定:存在着一些物理事件和物理上可定义的量值,而自然界使它们永远不能接受观察检验,从而成功地把它们隐藏起来不让我们知道。

    Einstein表明了如何能消除包含在Lorentz理论中的不可观察的事件。人们可能会说,Heisenberg理论,至少它的数学内容也是如此。然而,似乎仍然有改进的余地。即使从Heisenberg自己对他理论所作的解释的观点看,并不是说他的纲领已经完全实现了。自然界仍然能够非常狡黠地把包含在理论中的某些量值隐藏起来不让我们知道。

    这种事态与Heisenberg所阐明的所谓测不准原理有联系。也许这个原理可解释如下。一切物理测量都包含着被测量物体和测量仪器(它也可是观察者本身)之间的能量交换。例如一束光线照射到物体上,物体反射的一部分色散的光可被测量仪器吸收。任何这种能量交换将会改变物体的状态,物体在被测量以后将处于一种与以前不同的状态之中。因此可以说,测量产生刚被测量过程本身破坏的那种状态的知识。测量过程干扰被测量物体,在宏观物体情况下可以忽略不计,但在原子物体的情况下则不行;因为这些物体可受到例如光辐射十分强烈的影响。因此不可能在一个原子已被测量后直接从测量结果中推论出它的状态。所以测量不能作为预测的基础。大家承认,借助新的测量总有可能在前次测量以后确定物体的状态,但是系统却因而又以不可预测的方式受到干扰。并且大家承认,总有可能以这样的方式安排我们的实验,使要测量的状态的某些特征——例如粒子的动量——不受扰动。但是,这只有以更严重地干扰要测量的状态的某些示性量值(在这种情况下是粒子的位置)为代价,才有可能做到这一点。如果两个量值以这种方式相关,那么下列定理就适用于它们;它们不可能同时精确加以测量,尽管每一个都可如此分别加以测量。因此如果我们增加两个测量之一的精确性——比方说动量Px,从而缩小△Px误差的域或间距——那么我们就必然会降低位置座标x测量的精确性,即扩大△x的间距。这样,根据Heisenberg的意见,可达到的最大的精确性是受测不准关系限制的。

    △x.△Px≥h/4π

    同样的关系也适用于其它坐标。这个公式告诉我们,两个误差域的积至少是h个数量级,h是PComnck的作用量子。从这个公式得出的结论是:这两个量值之一的完全精确的测量将不得不以另一个的完全不确定性为代价。

    根据Heisenberg的测不准关系,对位置的任何测量干扰了相应的动量部分。因此原则上不可能预测一个粒子的轨迹。“在新的力学中,‘轨迹’概念没有任何确定的意义……”

    但是在这里出现了另一个困难。测不准关系只应用于属于已进行测量后的粒子的(表示物理状态特性的)量值。一个电子的位置和动量直到测量那瞬间以前原则上能够以无限的精确性加以确定。这是这一事实的必然结果,即毕竟有可能前后相继地进行若干次测量操作。因此,通过把(a)位置的两次测量结果,(b)先作动量测量的位置测量结果,以及(c)后作动量测量的位置测量结果结合起来,就可借助所得数据计算出两次测量之间整个时期内精确的位置和动量坐标。(开始我们可把我们的考虑限于这个时期。)但是根据Heisenberg的意见,这些精确的计算对于预测是无用的:所以也就不可能去检验它们。之所以如此,是因为这种计算对于两次实验之间的轨迹是有效的,仅当第二次实验是第一次的直接后继者,即在它们之间没有干扰发生时。为检查两次实验之间轨迹而安排任何检验必然会干扰得如此厉害,以致使我们对确切轨迹的计算变得无效。Heisenberg谈到这些精确计算时说:“……人们是否应把任何物理实在赋予计算出的电子的过去历史,这是一个纯粹的趣味问题。”显然他通过这句话要想说的是,这些不可检验的轨迹计算,从物理学家的观点看没有任何意义。Schlick对Heisenberg这段话评论如下:“我要表示我自己与Bohr和Heisenberg两人的基本观点是完全一致的,我认为他们这些观点是无可争辩的。如果有关在原子范围内一个电子的位置的陈述是不可能证实的,那么我们不可能把任何意义赋予它;谈论在两点(在这两点观察到了某一粒子)之间该粒子的轨迹是不可能的”。(在March)Weyl和其他人那里可找到类似的评论。

    然而正如我们刚才听到过的那样,用新的形式体系计算这样一种“无意义的”或形而上学的轨迹是可能的。并且这表明Heisenberg不能把他的纲领贯彻到底。因为这种事态只允许有两种解释。第一种解释是,粒子有一个确切的位置和确切的动量(因此也有确切的轨迹),但是我们不可能同时测量它们二者。如果是如此,那么自然界仍然倾向于隐藏某些物理量值不让我们的眼睛看见;隐藏的实际上既不是粒子的位置,也不是它的动量,而是这两个量值的组合,“位置加动量”或“轨迹”。这种解释认为测不准原理是我们知识的一种限制;因此它是主观的,另一可能的解释是客观的解释,它断言把某种界限截然分明的“位置加动量”或“轨迹”赋予粒子是不允许的或不正确的,或是形而上学的:它根本没有“轨迹”,只有结合着不确切动量的确切位置,或结合着不确切位置的确切动量。但是如果我们接受这种解释,那么理论的形式体系又包含形而上学的因素:因为正如我们已看过的那样,在用观察检验粒子原则上是不可能的那些时间内,粒子的“轨迹”或“位置加动量”是可精确计算的。

    测不准关系的支持者如何在主观看法和客观看法之间摇摆,是看得很清楚的。例如,正如我们已看到的,Schlick在支持客观观点之后立刻写道:“关于自然事件本身,说什么、‘模糊性’或‘不准确性’,是不可能有什么意义的。这类词只能用于我们自己的思想(尤其是如果我们不知道哪些陈述……是真的)”:这种评论显然反对的正是那个客观解释,这种解释认为不是我们的知识,而是粒子的动量,可以说由于使它的位置得到精确测量而被弄得“模糊”。其他许多作者也显示了类似的动摇。但是不管人们决定支持客观观点还是主观观点,事实仍然是:

    Heisenberg的纲领并没有得到贯彻,他在他给自己布置的把一切形而上学因素驱逐出原子论的任务中并未取得成功。所以,Heisenberg试图把两个对立的解释融合在一起并没有获得任何成就,他说“……在这个意义上的‘客观’物理学,即把世界截然划分为客体和主体实际上已不再是可能的了。”Heisenberg迄今尚未完成他给自己布置的任务:他尚未清除掉量子论中的形而上学因素。

    74.量子论的统计学解释概要

    Heisenberg在推导测不准关系时仿效Bohr,利用了这样一个思想:原子过程可以用“量子论的粒子图象”表示,也可以用“量子论的波图象”表示,二者表示得一样好。

    这个思想是与现代量子论沿着两条不同的道路进展这个事实是有联系的。Heisenberg从经典的电子粒子理论开始,他按照量子论重新解释了这个理论:而Schradinger则从(同样经典的)de-Broglie的波理论出发:他把“波包”(Wave-packet)、即一组振荡(通过干扰这个振荡在一个小范围内互相增强,在此小范围外则彼此抑制)同每一个电子协调起来。Schrodinger后来表明,他的波动力学导致数学上与Heisenherg的粒子力学等价的结果。

    粒子图象和波图象这两种根本不同的图象却是等价的,这种佯谬先由Born对这两种理论的统计学解释解决的。他证明波理论也可被看作为粒子理论;因为Schrodinger的波方程式能作这样的解释:它提供给我们在一定空间范围内发现粒子的概率。(概率是由波幅平方决定的;在波包内波互相增强,概率就大,在波包外波就消失。)

    量子论应作统计学解释是由不同的问题境况方面提示的。自从Einstein提出光子(或光量子)以来,量子论的最重要的任务--原子光谱的演绎——不得不被认为是一种统计学的工作。因为这个假说把观察到的光效应解释为大数现象,解释为由于许多光子射入所致。“原子物理学的实验方法……在经验指导下,已成为惟独与统计学问题有关。为观察到的规律性提供系统理论的量子力学在每一方面都与实验物理学的现状相一致;因为它从一开始就把自己限于统计学问题和统计学解答。

    只是把它应用于原子物理学问题时,量子论才获得不同于古典物理学的结果。在把它应用于宏观过程时,它的公式产生十分近似古典力学的结果。March说:“根据量子论,如果把古典力学定律看作为统计学平均数之间关系的陈述,那么它们就是有效的”。换言之,古典的公式可演绎为宏观定律。

    在某些著作中试图用这事实来说明量子论的统计学解释,即测量物理量值时所能达到的精确性,受Heisenberg测不准关系的限制。有人论证说,由于在任何原子实验中测量的这种测不准性,“……结果一般不是确定的,即如果实验在相同条件下重复若干次,可获得若干不同的结果。如果实验重复的次数很大,就会发现每一个特定的结果都是在总次数中确定的几次获得的,因此人们可以说,在从事实验的任何时候结果的获得有一个确定的概率”。(Dirac)March也就测不准关系写道:“在过去和将来之间……只有概率关系;由此可清楚看出,新力学的性质必定是统计学理论的性质。”

    我认为对测不准公式和量子论的统计学解释之间的关系的这种分析是不能接受的。在我看来逻辑关系正好相反。因为我们能从Schrodinger的波方程式(它是应作统计学解释的)中推导出测不准公式,但不能从测不准公式推导出前者。如果我们对这些可推导性关系给予足够的重视,那么测不准公式的解释就得修改。

    75.用统计学对测不准公式作重新解释

    自从Heisenberg以来,以超出他的测不准关系所允许的精确性同时测量位置和动量是与量子论矛盾的这一事实已被承认为确定的事实。人们认为,“禁止”精确测量,能够从量子论或波动力学中合乎逻辑地推导出来。根据这个观点,如果进行的实验能够得到的测量结果具有“被禁止的精确性”,就不得不认为这个理论被证伪。

    我认为这个观点是错误的。大家承认,Heisenberg公式(△x·△Px≥h/4π)等等)确实是从这个理论引出的逻辑结论;但是按照Heisenberg的意思把这些公式解释为限制可达到的测量精确性的规则则不是从这个理论得出的必然结论。所以比按照Heisenberg所允许的更为精确的测量逻辑上不可能与量子论或波动力学发生矛盾。因此我要在公式(“Heisenberg公式”的简称)与把它们解释——也由Heisenberg提出的——为测不准关系(即对可达到的测量精确性加以限制的陈述)之间加以明确的区分。

    当人们在从事Heisenberg公式的数学推演时,不得不使用波方程式或某个等价的假定,即能作统计学解释的假定(正如我们在前节看到的那样)。但是如果这个解释得到采纳,那么用波包描述单个粒子无疑不过是一个形式上单称的概率陈述(参阅第71节)。我们已知,波幅决定在一定地点发现这粒子的概率;并且正是这种概率陈述——涉及单个粒子(或事件)的这种陈述——我已称之为“形式上单称的”。如果人们接受量子论的统计学解释,那么人们就必然要把例如Heisenberg公式那样一些陈述(它们能从这个理论的形式上单称的概率陈述中推导出来)反过来解释为概率陈述,并且如果它们应用于单个粒子的话,又要解释为形式上单称的。所以它们也必然最终解释为统计学断言。

    与“我们对粒子位置的测量越精确,我们对它的动量所能知道的越少”这种主观解释相反,我建议,应该把对测不准关系的客观解释和统计学解释作为基本的解释来接受;可表述如下。给定一个粒子的聚合体(在物理分离的意义上),选择一些粒子,它们在一定瞬间,以一定程度的精确性,具有一定的位置x,我们就会发现,它们的动量Px将展示出随机离散(random scattering);并且因而离散的域△Px越大,我们得到的△x,即允许位置所具有的离散范围或不精确性越小,反之亦然;如果我们选择或分离出那些粒子,它们的动量Px全落在预定的范围△Px内,那么我们将发现,它们的位置在某一范围△x内随机离散,△x越大,则我们得到的△Px即允许动量所具有的离散范围或不精确性就越小。最后如果我们试图选择那些粒子既有性质△x又有△Px,那么我们就能在物理学上进行这种选择——即在物理学上分离析这些粒子——仅当这两个域都足够大以满足方程式△x·△Px≥h/4π时,对Heisenberg公式的这种客观解释把这些公式看作为断言在某些离散域之间有某种关系;如果它们用这种方式解释,我将称它们为“统计学离散关系。”

    在我的统计学解释中,我迄今尚未提及测量;我仅提及物理选择。现在有必要澄清这两种概念之间的关系。

    我谈到物理选择或物理离析,就是指例如我们从粒子流中筛去除了通过狭孔△x,即通过粒子的位置在△x域的一切粒子。并且在谈到属于如此被分离出的那粒子束的粒子时,我要说它们已根据它们的性质△x,被物理上或技术上选择了出来。惟有这种过程或它的结果,物理上或技术上被分离的粒子束,我才把它们描述为“物理选择”——与只是“精神的”或“想象的”选择加以区别,当我谈到已通过或将通过△p域的一切其他粒子类,即谈到一个更广泛的粒子类(它已经在物理上从这一更广泛的粒子类中被筛出)内的一个类时,我们就是作的物理选择。

    现在一切物理选择当然可被看作是一种测量,并且实际上也可这样使用。如果比方说,一束粒子通过筛去或排除一切没有通过某一位置域(“地点选择”)的那些粒子而被选择出来,那么我们认为这地点选择就是位置测量,因为我们由此知道粒子已经通过一定的位置(虽然它什么时候在那里,我们有时也许不知道,或只能从其他测量中知道)。另一方面,我们必不可把一切测量都看作为一种物理选择。例如一股飞向x的单色电子束。我们用一架Geiger计数器就能记录那些到达一定位置的电子。通过对计数器的作用之间的时间间隔,我们也可以测量空间间隔;也就是说,我们测量它们在作用那瞬间以前在x方向上的位置。但是在从事这些测量时,我们并未根据它们在x方向上的位置对粒子进行物理选择。(实际上这些测量一般得到的是在x方向上位置的完全随机的分布)。

    因此我们的统计学离散关系在其物理应用中得出了如下这一点。如果人们不管用什么手段试图获得一个尽可能均匀的粒子聚合体,那么这个尝试在离散关系上将碰到确定无疑的障碍。例如我们可以通过物理选择获得一个平面的单色射线——比方说等动量的电子束。但是如果我们尝试使这个电子聚合体更为均匀——也许通过排除其一部分--以便获得不仅具有同样动量,而且已经通过了确定位置域△x的某个狭缝的电子,那么我们就必然失败。我们之失败是因为根据粒子的位置所作的任何选择就是对系统的干扰,这种干扰将使动量成分Px的离散增加,因而使离散随缝的变窄而增加(与Heisenberg公式表示的定律相一致)。反之:如果我们有一束射线,使其通过一个缝,根据位置加以选择,如果我们试图使之成为“平行的”(或“平面的”)和单色的,那么我们就一定要破坏这种根据位置所作的选择,因为我们不能避免增加射线的宽度。(在理想情况下,——例如如果粒子的Px成分全都变成等于0——宽度就一定会成为无限的。)如果选择的均一性尽可能地增加(即尽Heisenberg公式所允许的,以致在这些公式中相等的符号成为有效),那么这种选择可称为纯例(a pure example)。

    我们用这种术语就可表述统计学离散关系如下:没有一种粒子聚合体比纯例更均一。

    到现在还没有加以充分考虑的是,从量子论基本方程式的解释中推导出Heisenberg公式的解释恰恰必须同从这些基本方程式中用数学推导出的Heisenberg公式一致。例如March已描述了正好相反的情况(前节已表明):在他的论述中,量子论的统计学解释呈现为Heisenberg对可达到的精密度所加限制的结果。另一方面,Weyl从波方程式——他用统计学术语解释的方程式——严格地推导出Heisenberg公式。然而他把Heisenberg公式——他刚从用统计学解释的前提中推导出这些公式——解释为对可达到的精密度的限制。并且他这样做不顾如下的事实:他注意到对公式的这种解释在某些方面同Born的统计学解释是背道而驰的。因为按照Weyl的意见,鉴于测不准关系,Born的解释应加以“校正”。“当一个粒子的位置和速度在每一个单个情况下被测定时,正好服从统计学规律,情况不仅如此。更确切地说,这些概念的意义本身取决于确定它们所需的测量;并且位置的精确测量剥夺了我们确定速度的可能性。”

    Weyl感觉到的Born的量子论统计学解释和Heisenberg对可达到的精密度的限制之间的矛盾的确存在着;但是这个矛盾比Weyl认为的更尖锐。不仅从用统计学解释的波方程式推导出对可达到的精密度的限制是不可能的,而且可能的实验和实际的实验结果都与Heisenberg的解释不一致,这个事实能够被认为是支持量子论统计学解释的一个决定性论据,一种判决性实验。

    76.通过倒转Heisenberg纲领排除形而上学因素的尝试及其应用

    (“这次掷实际上没有得5”)之一之间可发现矛盾一样站不住脚。

    这些简单的考虑提供给我们反驳任何这些证明的手段,据说,这些证明是设计出来表明位置和动量的精确测量与量子论是矛盾的;或许设计出来表明单单假定任何这类测量在物理上是可能的,就必定导致理论内部的矛盾。因为任何这类证明必须利用应用于单个粒子的量子论考虑;这意味着它不得不利用形式上单称的概率陈述,而且意味着必定有可能把证明——可以说逐字地——翻译为统计学语言。如果我们这样做,那么我们就发现在认为是精密的单个测量与作统计学解释的量子论之间没有矛盾。在这些精密的测量和理论的某些形式上单称的概率陈述之间只有表面上的矛盾。

    但是,虽然说量子论排除精确的实验是错误的,然而说从量子论特有的公式——如对它们作统计学解释——中不可能推导出精确的单个预测仍是正确的。(我不把能量守恒定律或动量守恒定律列在量子论特有的公式中。)

    之所以如此是因为鉴于离散关系,我们必然不能用实验操纵系统(即用我们所说的物理选择)产生精确的初始条件。实验者的正常技术是要产生或建构初始条件,这是对的;并且这使从统计学离散关系中推导出这样一个定理——然而只适用于这种“建构性的”实验技术——:我们不可能从量子论中获得任何单个预测,只能获得频率预测。

    这个定理概括了我对Heisenberg(他在这里主要是遵循Bohr)讨论的所有那些想象实验的态度,目的是证明不可能作出他的测不准原理禁止的精确的测量。这一论点在所有情况下都是一样的:统计学离散使之不可能预测在测量操作后粒子的轨迹将会是什么。

    很可能我们对测不准原理的重新解释所得到的并不很多。因为即使Heisenberg大体上也不过断言我们的预测服从这个原理(正如我已试图证明的那样);并且由于在这个问题上我每一点都同意他,也许会认为我争论的只是字眼,不是实质问题。但是这很难说是对我的论证的公正评价。实际上我认为Heisenberg的观点和我的是正好对立的。这在下节将充分加以说明。同时我将尝试解决Heisenberg解释中固有的典型困难;并且我将努力弄清这些困难如何和为什么发生。

    首先我们必须考察如我们已看到的那样,使Heisenberg纲领遭到失败的那个困难。这就在那个形式体系中,出现位置加动量的精密陈述的困难;或换言之对轨迹(参阅第73节)作精确计算的困难,对这轨迹的物理实在性Heisenberg是必然要怀疑的,而其他人例如Schlick则干脆否认它。但是实验(a),(b)和(c)——参阅第73节——都能用统计学术语来解释。例如,组合(c),即测量位置后紧跟着测量动量,可以如下的实验实现。我们借助有一狭缝的光阑(diaphragm)根据位置选择一束射线(位置测量)。然后找们测量正从狭缝按一定方向传播的那些粒子的动量。(这第二次测量当然会使位置产生新的离散)。这两次实验加在一起将精密地测定所有那些属于第二次选择的粒子的轨迹,只要这个轨迹在两次测量之间:两次测量之间位置和动量都能精密计算。

    与诸要素精确一致的这些测量和计算,在Heisenberg的解释中被认为是多余的,而按照我对这个理论的解释则根本不是多余的。大家承认,它们不起初始条件或预测推导的基础的作用;但是它们是必不可少的:它们是检验我们的预测所必需的,我们的预测是统计预测。因为我们的统计离散关系所断言的是,当位置更为精确地测定时动量必定离散,反之亦然。这是一种不是可以检验、可以证伪的预测,如果我们不能借助于已描述的那类实验来测量和计算,那么在根据位置所作的任何选择后就会马上出现各种离散的动量。

    所以用统计学解释的理论,不仅不排除精确的单个测量的可能性,并且如果这些测量不可能,这个理论便是不可检验的,因而是“形而上学的”。因此,Heisenberg纲领的实现形而上学因素的清除在这里完成了,但用的是一种与他十分对立的方法。因为当他试图排除他认为不允许的量值(尽管不完全成功)时,我都把这种尝试倒过来,办法是证明正因为这些量值不是形而上学的,包含这些量值的形式体系是正确的。一旦我们放弃了Heisenberg对可达到的精密度所加的限制中包含的教条,就不再有任何理由,为什么我们应该怀疑这些量值的物理意义。离散关系是关于轨迹的频率预测;所以这些轨迹必定是可测量的——正好与比方说掷个5必定可用经验确定一样——如果我们能检验我们关于这些轨迹或这些掷猜的频率预测的话。

    Heisenberg之摈弃轨迹概念,及其谈论“不可观察的量值”,清楚地表明哲学思想的影响,尤其是实证主义思想的影响。March在同样影响下写道:“人们也许可以不怕误解地说……对于一个物理学家来说,一个物体仅在他观察它的时刻才有实在性。自然,没有人如此疯狂以致断言一个物体在我们背对着它时不再存在;但是它在那时不再是物理学家研究的对象,因为没有可能根据实验对它说些什么了。”换言之,当一个物体不在被观察时它以这种或那种轨迹运动这个假说是不可证实的。这当然是明显的,但是无聊的。然而重要的是这个或类似的假说是可证伪的:根据它沿一定轨迹运动的假说,我们能够预测物体将在这个或那个位置上可观察到;这是一个可被反驳的预测。量子论并不排除这类程序将在下节看到。但是事实上我们在这里说的已经很充分了;因为它解决了与轨迹概念“无意义性”有联系的一切困难。如果我们记得从轨迹概念所谓的失败中引出的极端结论,就可以更好地认识到这对澄清气氛有多么大的帮助。Schlick表述这些结论如下:“也许描述所考察情况的最简练方法是说(正如最杰出的量子问题研究者所做的那样),平常时空概念的有效性仅限于宏观上可观察的范围,不能把它们应用于原子的尺度。”这里Schlick可能在暗示Bohr,后者写道:“所以人们可假定,在与量子论的一般问题有关的地方,不只是一个力学和电动力学理论的改变,一个用普通物理学概念可以描述的改变,而是我们时空图象的根深蒂固的失弃,直到现在还用这些时空图象来描述自然现象。”Heisenberg采纳了Bohr的思想,即放弃时空描述作为他的研究纲领的基础。他的成就似乎表明这个放弃是富有成效的。但是事实上,这个纲领从来没有贯彻过。鉴于我们的分析,时空概念频繁的、不可避免的,即使是偷偷摸摸的使用,现在似乎可证明是正当的。因为这已表明统计离散关系是关于位置加动量离散的陈述,所以是关于轨迹的陈述。

    由于我们已经证明测不准关系是形式上单称的概率陈述,我们也能理清对测不准关系的客观解释和主观解释纠缠在一起的乱丝。我们在第71节中知道,一切形式上单称的概率陈述都能主观地解释为不确定的预测,关于我们知识不确定性的陈述。我们也已看到,在哪些假定下,客观地解释这种陈述的合理的和必要的尝试必定会失败。如果人们试图通过把不确定性直接赋于单个事件,用单个的客观解释来代替统计的客观解释,就必定要失败然而如果人们在主观的意义上(直接)解释Heisenberg公式,那么物理学作为一门客观科学的地位就受到了损害;因为为了前后一致,人们不得不主观地解释Schrodinger的概率波。这个结论是由Jeans作出的,他说:“简言之,粒子图象告诉我们,我们对一个电子的知识是不确定的;波图象则告诉我们电子本身是不确定的,不管是否对它作了实验。然而测不准原理的内容在这两种情况下必定是完全一样的。只有一种办法使之如此:我们必须设想,波图象提供给我们的不是客观自然界的描述,而只是我们关于自然界知识的描述……”因此对于Jeans来说,Schrodinger的波是主观概率波,关于我们知识的波。并且随着这一点整个主观主义概率论就侵入了物理学领域。我已摈弃的论据——利用Bernoulli定理作为从无知到统计学知识的桥梁以及类似的论据(参阅第62节)——就成为不可避免的了。Jeans表述现代物理学的主观主义态度如下:“Heisenberg通过放弃主要的谜——客观宇宙的性质——抨击物理宇宙之谜不可解,而集中于协调我们对这个宇宙的观察这个次要疑点上。因此最后出现的波图象应该证明仅与通过我们的观察获得的我们关于宇宙的知识有关,就不奇怪了。”

    这些结论无疑非常容易为实证主义者接受。然而我自己的有关客观性的观点犹未涉及。量子论的统计陈述必须像任何其他物理学陈述一样是可以在主体间检验的。并且我的简单分析不仅坚持了时空描述的可能性,也保持了物理学的客观性。

    有趣的是对Schrodinger波的这种主观解释有一个对于非统计学的,因而是直接的(即单个的客观描述)。Schrodinger本人在他的著名的Collected Papers on Wave-Mechanics中曾对他的波方程式(正如我们已经看到的它是形式上单称的概率陈述)提出了某种这样的解释。他试图把粒子直接同波包本身等同起来。但是他的尝试直接导致这类解释:我指的是把测不准归之于物理客体本身(客观化的测不准性)所特具的那些困难。Schrodinger不得不假定,电子电荷在空间(以及由波幅决定的电荷密度)被“模糊或涂污”;这个假定结果证明与电的原子结构是不相容的。Born的统计学解释解决了这个问题;但是统计学解释与非统计学解释之间的逻辑关系仍是模糊不清的。结果其他形式上单称的概率陈述——例如测不准关系——的独特性质仍得不到承认,这些陈述继续破坏理论的物质基础。

    也许我们可以把本节所说的应用于Einstein所提出的并被Jeans称为“新量子论最困难的部分之一”的想象实验作为结语;虽然我认为我们的解释使这个实验极为清晰,即使没有使它通俗些”。

    设想一面半透明的镜子即反映部分光线并让光线一部分通过的镜子。某一光子(或光量子)穿过镜子的形式上单称的概率陈述αPk(β),可被看作等于它被反射的概率;因此得:)=1/2,不是α——实验结果,即信息k∈β

    分别强烈地提示我们的一种选取。谈到这种选取的逻辑结果(或者这个信息的逻辑结果)时说:“以超光速传播”,其助益几乎等于说二乘二以超光速等于四一样。Heisenberg的进一步的评论大意是物理作用的这种传播不可能用来传递信号,这种评论虽然是正确的,但对情况并无改善。

    这个想象实验的命运说明迫切需要区分和定义统计学的和形式上单称的概率概念。它也表明量子论的引起的解释问题只有用对概率陈述解释的逻辑分析才能解决。

    77.判决性实验

    我现在已经完成了第73节前面的导言中概述的我的纲领的前两部分。我已证明(1)Heisenberg公式可用统计学加以解释,所以(2)把它们解释为对可达到的精密度的限制并非从量子论中合乎逻辑地得出的结论,因此不可能仅因我们测量时达到更高的精密度就反驳了量子论。

    “现在为止,一切顺利”,有人也许反驳说:“我不否认也许有可能这样看量子力学。但是我仍然不认为你的论证甚至触动了Heisenberg理论真正物理核心:作出精确的单个预测的不可能性。”

    如果要求用一个物理学的例子来详述他的论点,我的对手也许会这样说:“设想有一束电子,像阴极射线管中的一束电子那样。设这电子束的方向指向x。我们可以从这电子束中获得各种物理选择。例如,我们可以根据它们在x方向上的位置(即根据它们在某一时刻的x坐标)选择或分离出一组电子;这也许用一个在很短时间内打开的闸板来做到这一点。这样我们就应该获得一组电子,这些电子在x方向上的广延非常小。按照离散关系,这组不同电子的动量在x方向上也是十分不同的(因此它们的能量也如此)。你说得很对,我们可以检验这些关于离散的陈述。我们用测量单个电子的动量或能量就能做到这一点;并且由于我们知道位置,因此我们将既得到位置,又得到动量。可以进行这类测量,例如使电子撞击一块金属片,激发金属片的原子:于是我们就将发现某些被激发的原子,它们受激发要求的能量超过了这些电子的平均能量。因此我承认在你强调这些测量既是可能的又是重要的时,你是完全正确的。但是——现在我的反对意见来了——在进行任何这种测量时,我们必定扰动了我们正在考察的系统,或是单个电子,或是整个电子束,如果我们测定得多的话(如在我们的例子中)。大家承认,如果我们知道扰动前该组不同电子的动量,这个理论在逻辑上不会被反驳(当然只要它并不使我们能够利用我们的知识来影响一个被禁止的选择)。但是没有办法获得任何有关单个电子的知识而不去扰动它们。结论是精密的单个预测是不可能的,这仍然是对的。”

    对于这个反对意见,我应该首先答复说,如果它是正确的,那也并不奇怪。精确的单个预测块不能从统计学理论中推导出来,能推导出来的只是“不确定的”(即形式上单称的)单个预测,这毕竟是很明显的。但是我眼下断言的是,虽然这个理论并不提供任何这类预测,但它也并不排除它们。仅当可以断言对系统的扰动或干扰必定妨碍一切种类的预测测量时,人们才能说单称预测的不可能性。

    “但是那正是我断言的”,我的对手会说。“我恰恰断言任何这类测量的不可能性。你假定有可能来测量这些运动着的电子之一的能量而并不会迫使它离开它的轨迹和电子群。这个假定我认为是站不住脚的。因为假定我拥有能够进行这类测量的任何仪器,那么我用这某种类似的仪器就能产生一些电子聚合体,这些电子(a)就它们的位置而言,它们全是有限的,而(b)全有同样的动量。这些聚合体的存在会反驳量子论,这当然也是你的观点,因其存在是被你称之为‘离散关系’所排除的。因此你只能回答说,有可能设想一种仪器,它使我们能够进行测量,但不是作出选择。我承认这个回答在逻辑上是可允许的;但是作为一个物理学家我只能说,我的本能反对这种想法:我们能够测定电子的动量,而不能消除其动量超过(或不足于)一定量的所有那些电子。”

    我对这一点的第一个回答是,这一切听起来似乎十分令人信服。但是如果一种预测测量是可能的,相应的物理选择或分离也会是可能的,这种主张并未得到严格的证明(我们马上会看到不可能得到这种证明)。这些论据都不能证明精密的预测与量子论是矛盾的。这些论据都引入了一个补充假说。因为(按照Heisenberg的观点)精确的单个预测是不可能的这个陈述,结果证明与预测测量和物理选择有不可分割的连系这个假说是等价的。我的意见确实必定同这个新的理论系统——量子论与这个辅助的“连系假说”的合取——是冲突的。

    这样我的纲领的第(3)点也就落实了。但是第(4)点仍需证明:即我们仍需证明把用统计学解释的量子论(我们假定包括动量和能量守恒定律)同“连系假说”结合起来的系统是自相矛盾的。我认为有一个根深蒂固的成见:预测测量和物理选择总是连系的。这个成见的流行说明为什么证明对立看法的简单论据从来没有提出来过。

    我要强调指出,迄今介绍的主要是物理学的考虑并未形成我对测不准关系逻辑分析的一部分假定或前提,虽然可以说这些考虑是分析的成果。实际上,迄今进行的分析与后面的考虑是完全无关的,尤其与下面描述的想象实验无关,这个实验意图证明对单个粒子轨迹作出任意精密的预测是有可能的。

    我将借助于这个想象实验首先讨论一些简单的例子。这些例子意图表明我们能够毫无困难地作出任意精密的轨迹预测,并且检验它们。我暂时只考虑不涉及确定的单个粒子的预测,只涉及在一确定的小的时空区(△x.△y.△z.△t)内的(一切粒子)。在每一种情况下,只有粒子存在于这区内的概率是确定的。

    我们再设想一束(一个电子或光束)粒子朝x方向传播。但是这次我假定它是单色的,因此,所有粒子以已知的同样动量沿着朝x方向的平行轨迹传播。于是朝其他方向的动量也将是已知的,即已知等于零。现在我们不借助物理选择测定一群粒子在x方向上的位置——即不用技术手段把这群粒子同这束其余粒子分离开(我们在上面已这样做过)——我们将只满足于仅用集中注意于这群粒子把它同其余的区分开。例如,我们可集中注意于所有那些粒子,这些粒子(以一定的精密度)在一定时刻有地点坐标x,所以并未越出任意小的域△x。我们精确地知道这些粒子中每一个的动量。所以我们精确地知道在每一个未来时刻这群粒子将在哪里。(显然仅仅存在这样一群粒子并不与量子论发生矛盾;只是它的孤立的存在,即在物理上选择它的可能性,才与这理论有矛盾。)我们能够进行同样性质的与其他空间坐标有联系的想象选择。经物理选择的单色束在y和z方向上一定非常宽(在一个理想的单色束情况下无限宽),因为在这些方向,动量应该是精确选择的,即应该等于0;因此在这些方向上位置必定是伸展得很宽的。虽然如此,我们再可以集中注意于一条十分狭窄的部分射线。我们将又一次不仅知道每条射线每一个粒子的位置,而且知道它们的动量。因此我们将能够预测这条狭窄射线(可以说我们是在想象中选择它的)的每一个粒子它将在哪一点上用多少动量,撞击在一块挡着它轨迹的摄影底片上,当然我们能用经验(用前面的实验)检验这一点。

    类似从一种特定类型的“纯例”中进行选择一样,想象选择也能从其他类型的聚合物中进行。例如,我们取一单色束,借助非常小的缝△y,从中进行物理选择(因此把仅根据前面例子的想象选择进行的物理选择作为我们的物理起点)。我们不知道哪些粒子在通过缝以后将转向哪一个方向;但是如果我们考虑某个确定的方向,我们就能精确计算出所有转向这特定方向的粒子的动量分量。因此,通过缝后朝某个确定方向传播的那些粒子又形成一个想象选择。我们也能预测它们的位置和它们的动量,或简言之它们的轨迹;并且把一张摄影底片放在它们的轨迹上我们又能检验我们的预测。

    这个情况原则上与我们考虑过的第一个例子的情况,即根据它们在传播方向上的位置选择粒子一样(即使经验检验有点更加困难)。如果我们根据这个情况作出物理选择,那么由于动量距的增加不同的粒子将以不同的速度传播。因此这群粒子随着它的前进在x方向上将伸展一个日趋增大的域(波包将变得更宽)。于是我们可算出这些粒子(想象中选择的)群部分的动量,这些粒子在一定时刻将在x方向上的一定位置上:动量越大,选择的那部分群越靠前面(反之亦然)。用这个方法作出的预测的经验检验可用一个活动的带状电影片代替摄影底片来进行。由于我们对带上的每一点能够知道它接触电子冲击的时间,我们也能够对带上每一点预测冲击会以多少动量发生。我们可以检验这些预测,例如在活动带前面,或者也许在Geiger计数器前面插进一个滤光器(如光线则是滤光器;如电子则对射线方向形成直角的电场),接着根据方向进行选择,只允许那些具有某一最小动量的粒子通过。于是我们可以确定这些粒子在预测的时间实际上是否到达。

    与这些检验有关的测量的精密度不受测不准关系的限制。我们已看到测不准关系本意主要应用于那些用作推演预测而不是用作检验预测的那些测量。那就是说它们本意应用于“预测性测量”,而又是“非预测性测量”。在第73和76节中我考察了这种“非预测性”测量的三种情况,即(a)两次位置测量,(b)测量动量后测量位置或(c)测量位置后测量动量。上面讨论的借助放在电影片前面的滤光器或Geiger计数器前面的测量就是(b)的实例,即根据动量选择后测定位置。这大概恰好是按照Heisenberg(参阅第73节)所说的允许“计算电子的过去”那种情况。因为虽然在(a)和(c)时只有计算两次测量之间的时间才是可能的,在(b)时则有可能计算第一次测量以前的轨迹,假如这种测量是根据一定动量进行选择的话。我们知道,Heisenberg对这种测量的“物理实在性”提出了疑问,因为它使我们仅能根据粒子到达某个精确测定的位置和精确测定的时间计算它的动量:这种测定似乎缺乏预测内容,因为不能从它推导出任何可检验的结论。然而我将把我的想象实验(意图证明有可能精确预测一个确定的粒子的位置和动量)立足于这个特定的测量安排上,这种安排乍看起来显然是非预测性的。

    由于我就要从这类精密的“非预测性”测量是可能的这个假定推导出这些具有深远意义的结果,讨论这个假定的可允许性似是适宜的。

    下面我用想象实验直接向Bohr和Heisenberg的论证方法挑战,他们曾用这种方法证明把Heisenberg公式解释为对可达到的精密度的限制是正确的。因为他们试图通过证明不可能设计任何想象实验来产生更精确的预测性测量来证明这种解释。但是这种论证方法显然不能排除这种可能性,即终有一天可设计出一种想象实验,(利用已知的物理效应和定律)证明这些测量毕竟是可能的。任何这类实验与量子论的形式体系发生矛盾已被认为理所当然,并且似乎这种思想决定了探索这些实验的方向。然而我的分析——落实我的纲领(1)和(2)点——显然已经扫清了设计一种想象实验的道路,这种实验完全符合量子论,证明所说的精密测量是可能的。

    为了落实这个实验,我将如前一样利用“想象选择”;但我将选定这样一种安排,使得如果用这种选择表征的一个粒子实际存在着,我们就将能够确定这个事实。

    我的实验在某种程走上形成一种Compton-Simon和Bothe-Geiger实验的理想化。由于我们希望获得单个预测,我们不能仅使用统计学假定。必须使用能量和动量守恒的非统计学定律。我们可以利用这一事实:这些定律使我们能够计算出当粒子相撞时发生了什么,假如我们已知描述碰撞的四个量值(即碰撞前的动量a1和b1,和碰撞后的动量a2和b2)以及第三个量值的一个分量。(这种计算方法已知为Compton效应理论的一部分。)

    现在让我们设想下列的实验安排(见图3):我们使两条粒子束交叉(其中一条至多是一条光线,而一条至多是电荷非中性),这两条粒子束在下列意义上都是纯例,即A束是单色的,即根据动量a1作的选择,而B束通过狭缝SL,从而接受根据位置作的物理选择。可设B粒子具有(绝对)动量b1。这两束的一些粒子相撞。我们现在设想两条窄的部分射线[A」和[B」,他们在P处相交。[A」的动量是已知的;它是a1。部分射线(B)的动量是可计算出来的,只要我们已经判明它某个确定的方向;设它为b1。现在我们选定方向PX。注意到碰撞后在PX方向传播的部分射线(A)的粒子,我们就能计算出它们的动量a2以及b2,即在它们与之碰撞的那些粒子碰撞后的动量。与以动量a2在P沿X方向偏转的[A]的每一个粒子相应必定有「B」的第二个粒子在P以动量b2沿可计算的方向PY偏转。我们现在置一仪器于X上——例如一架Geiger计数器或一卷活动的电影片——以记录粒子从P到达任意限制的区域X的冲击力。于是我们可以说:由于我们注意到关于一个粒子的这种记录,我们同时知道第二个粒子必定以动量b2从P向Y传播。并且我们根据纪录也知道这第二个粒子在一定时刻在什么地方;因为我们从第一个粒子冲击X的时间及从它的已知的速度,可计算出它在P点碰撞的动量。通过在Y处使用另一架Geiger计数器(或活动电影片),我们能够检验我们对第二个粒子的预测。

    这些预测的精密度以及用来检验它们的测量的精密度,就位置坐标和在PY方向动量的分量来说,原则上不受测不准原理所致的任何限制。因为我的想象实验把对在P偏转的B粒子作出预测的精密度问题归结为在X测量时可达到的精密度问题。首先这些测量似是相应的第一个粒子「A」的时间、位置和动量的非预测性测量。这个粒子在PX方向的动量,以及它冲击X,即它在PS方向上位置的时间可以任何所需的精密度测量,如果我们在测量位置前设置一个电场或滤器在Geiger计数器前面进行动量选择的话。但是由于这样做的缘故,我们就能够以任何精密度作出关于在PY方向传播的B粒子的预测。

    这种想象实验使我们有可能不仅看到能够作出精确的单个预测,而且看到在什么条件下能够出这种预测,或更确切地说,在什么条件下它们与量子论可以相容。仅当我们能够获得关于粒子状态(不能任意创造这种状态)的知识时,就能作出这些预测。因此可以说我们实际上是在事件之后获得我们的知识的,因为在我们获得知识时,粒子已经采取了它的运动状态。然而我们仍然能够利用这种知识从中演绎出可检验的预测。(例如如果所说的B粒子是,光子,我们能计算出它达到天狼星的时间。)到达X的粒子的冲击将在不规则的时间间隔内接连发生;这就是说,我们对之作出预测的部分射线B的粒子也将在不规则的时间间隔后接连发生。如果我们能通过例如使这些时间间隔成为均等来改变事情的这种状态,它就与量子论发生矛盾。因此可以说,我们能够瞄准和预先测定子弹的力量;我们也能(在子弹打中靶Y以前)计算出在P开枪的确切时间。然而我们不能自由选定开枪时刻,而不得不等待开枪。我们也不能防止(从P的领域)射向我们的靶的不受控制的射击。

    很清楚,我们的实验和Heisenberg的解释是不相容的。但是由于进行这种实验的可能性可从量子物理学的统计学解释(加上能量和动量定律)中演绎出来,看来与这个实验矛盾的Heisenberg解释也必然同量子论的统计学解释发生矛盾。鉴于Compton-Simon和Bothe-Geiger实验,看来进行我们的实验是可能的。可以把它看作为在Heisenberg的概念和量子论的前后一致的统计学解释之间判决的一种判决性实验。

    78.非决定论的形而上学

    自然科学家的任务是探索使他能够演绎出预测的定律。这个任务可分为两部分。一方面,他必须努力发现将使他能够演绎出单个预测的那些定律(“因果性”或“决定论”定律或“精确陈述”)。另一方面他必须努力提出关于概率的假说,即断言概率的定律,以演绎出频率预测。在这两项任务中没有任何东西使它们互不相容。显然情况并不是这样:只要我们作出精确陈述,我们就不会作出频率假说;因为我们已经看见,某些精确陈述是可以从频率假定中推导出来的宏观定律。情况也不是那样;只要在某一特定的领域内,频率陈述得到充分的确证,我们就要作出结论说,在这个领域内不可能作出精确陈述。这种情况是十分明显的。然而我们刚摈弃的两个结论中的第二个却一再得出。我们也一再遇到这样的信仰:在运气占支配地位的地方就排除规律性。我已在第69节批判地检查了这种信仰。

    从科学发展的现状来判断,宏观和微观定律的二元论——我的意思是指我们都利用这两种定律这一事实——是不容易克服的。然而,逻辑上有可能的是把一切已知的精确陈述——通过把它们解释为宏观定律——还原为频率陈述。逆向还原是不可能的。我们在第70节已经看到,决不能从精确陈述中演绎出频率陈述。频率陈述需要自己的假定,这些假定必须是统计学的。概率只能从概率估计中计算出来。

    逻辑境况就是如此,它既不支持决定论观点,也不支持非决定论观点。并且如果物理学只用频率陈述工作终于成为可能,那么我们仍然不应该作出非决定论的结论;那就是说我们仍然不应该断言“自然界没有精确的定律,没有由之可演绎出关于单个或基本过程进程的预测的定律”。科学家决不让有什么东西阻止他探索定律,包括这类定律。不管我们可以多么有成效地运用概率估计,我们也不可作出探索精确定律是白费的结论。

    这些考虑无论如何不是第77节描述的想象实验的结局;完全相反。让我们假定测不准关系没有被这个实验反驳(不管什么理由):即使那时测不准关系也只能作为频率陈述受到检验,并且只能作为频率陈述得到验证。因此无论如何我们不应从它们得到充分验证这个事实引出非决定论结论。

    世界是否受严格的定律支配?我认为这是一个形而上学问题。我们发现的定律总是假说;这就是说它们总是可以代替的,它们有可能从概率估计中演绎出来。然而否认因果性同样是试图说服理论家放弃他的探索;并且这样一种尝试不可能得到刚刚已经说明的证明的支持。所谓:“因果性原理”或“因果律”,虽然可以表述,但性质上与自然律迥然有别;并且我不能同意Schlick,他说:“……可以在与任何其它自然律完全一样的意义上检验因果律的真理性。”

    对因果律的信仰是形而上学的。这不过是一条得到充分证明的方法论规则的一种典型的形而上学实体化,这条规则是科学家决不放弃他探索定律的决心。因此对因果性的形而上学信仰在其各种表现中比Heisenberg支持的那种非决定论形而上学更富成效。确实我们能够看到Heisenberg的评论对研究有一种摧残作用。如果继续重复说,探索任何这类联系是“无意义的”,就可能很容易忽视去寻找并不很远的联系。

    Heisenberg的公式——正如只能用它们的统计学推断验证的类似陈述一样——不一定导致非决定论结论。但是这本身并不证明不可能有证明这些或类似结论的其他经验陈述:例如这样的结论,上述方法论规则——决不放弃探索定律的决心——不可能实现它的目的,也许因为探索定律和单个预测是无成效的,或无意义的,或“不可能的”。但是具有能迫使我们放弃探索定律的经验陈述是不可能的。因为一个被认为是摆脱了形而上学因素的陈述可能有非决定论结论,仅当这些陈述是可证伪时。但是可以证明它们是假的,仅当我们能提出定律,并且从这些定律演绎出得到验证的预测时。因此,如果我们认为这些非决定论结论是经验假说,我们就应该严格地检验它们,即证伪它们。并且这就意味着我们应该探索定律和预测。因此我们不可能听从放弃这种探索的劝告,而不否认这些假说的经验性质。这表明认为有可能存在会迫使我们放弃探索定律的任何经验假说是自相矛盾的。

    这里我不想详细证明:多次尝试确立非决定论如何揭示了一种只能在形而上学意义上描述为决定论的思维方式(例如Heisenberg试图对因果解释为什么不可能提供一种因果解释)。我恰恰要提醒读者注意企图证明测不准关系关闭了若干可能的研究途径的尝试,正如光速不变原理所做的那样:两个常数c和h,即光速和普朗克常数之间的类似,通过说它们二者都在原则上对研究的可能性施加了限制,而得到了解释。在试图摸索越出这些障碍时提出的问题由于把令人讨厌的问题作为“假问题”而取消的众所周知的方法取消了。在我看来,在c和h两个常数之间确实存在着类似之处;顺便说一句,这种类似是保证常数h同常数c一样不是研究的障碍。光速不变(以及超过光速不可能性)原理并不禁止我们去探索大于光速的速度;因为它只是断言我们将不会发现什么;也就是说,我们将不能产生比光传播得更快的信号。同理Heisenberg公式不应该被解释为禁止探索“超纯”例:因为它们只是断言我们将不会找到什么;尤其是我们不能产生什么。禁止速度大于光速和“超纯”例的定律,像其他经验陈述一样,鞭策研究人员去探索被禁止的东西。因为他只能通过试图证伪它们来检验经验陈述。

    从历史观点看,非决定论物理学的出现是很可理解的。长期以来,物理学家信仰决定论物理学。因为逻辑境况没有得到充分的理解,从原子的力学模型中演绎出光谱--它们是统计学效应——的种种尝试的失败必定产生决定论的危机。今天我们看得很清楚,这种失败是不可避免的,因为从一个非统计学的(力学的)原子模型中演绎出统计学定律是不可能的。但是在那时(1924年左右Bohr,Kramers和SComter理论提出时)似乎在每一个单个原子的机制中概率代替了严格的定律。决定论的大厦倒坍了——主要是由于概率陈述被表达为形式上单称的陈述。在决定论的废墟上,非决定论起来了,得到了Heisenberg测不准原理的支持。但是我们现在看到,它的崛起同样是由于误解了形式上单称的概率陈述的意义。

    这一切的教训是我们应该努力去发现能够与经验冲突而垮台的严格定律——禁律。然而我们应该避免对研究的可能性施加限制的禁律。

    第十章 验证或理论如何经受住检验

    理论是不能证实的,但是它们可被“验证”。

    常常尝试把理论描述为既非真的又非假的,而是或多或少可几的。尤其是归纳逻辑已发展为一种不仅把“真”和“假”两个值,而且把不同程度的概率赋于不同的陈述;这类逻辑在这里将称为“概率逻辑”。按照那些相信概率逻辑的人看来,归纳应该确定一个陈述的概率程度。并且归纳原理应该,或者使归纳出来的陈述是“可能正确的”这一点成为确实可靠的,或者使这一点成为可几的——因为归纳原理本身只是“可能正确的”。然而我认为整个假说概率问题是被误解了的。我们不应去讨论一个假说的“概率”,而是应该努力去评价它通过经受住检验在多大程度上能够证明它适宜生存。简言之,我们应该努力评价它在多大程度上得到“验证”。

    79.关于假说的所谓证实

    理论是不能证实的这一事实常常被忽视。人们常常谈到一个理论时说,当从它推导出的某些预测被证实时它就被证实了。他们也许会承认从逻辑观点看,证实是不完全没有缺点的,或者承认通过确定某一陈述的某些推断决不能最终确定这个陈述。但是他们易于把这些异议看作是由于某种不必要的顾虑所致。他们说,我们不能确定地知道太阳明天是否会升起,这是很对的,并且甚至是平凡浅显的,但是这种不确定性可以不予考虑:理论不仅可改进,而且能被新的实验证伪这个事实给科学家提供了一个在任何时候都可成为现实的重大可能性;但是从来还没有认为一个理论由于一个得到充分确证的定律突然垮台而必须被证伪。决不会发生老的实验有一天产生新的结果这种事。发生的只是新的实验判定反对旧的理论。旧的理论,即使当它被取代时,也常常保持它的正确性作为新理论的一种极限情况;它仍然至少以高度的近似应用于那些以前它在其中富有成效的情况。简而言之,可用实验直接检验的规律性没有改变。大家承认,它们会改变这是可以设想的,或者在逻辑上是可能的;但是这种可能性为经验科学所忽视,并且不影响它的方法。相反,科学方法以“自然过程不变性”或“自然界均一性原理”为前提。

    对于上述论证有一些话要说,但它不影响我的论点。它表示对我们世界存在规律性的形而上学信念(我也有这种信念,并且没有这种信念实践行动是不可设想的)。然而,在我们面前的问题——则是在完全不同的侧面上。与我对其他形而上学问题的态度相一致,我避免去支持或反对对我们世界存在规律性的信念。但是我将努力证明理论的不可证实性在方法论上是重要的。正是在这个侧面我反对刚才提出的论据。

    所以我将认为只是这个论据中一个论点是有关的——提到所谓“自然界均一性原理”。我认为这个原理以十分浅显的方式表达了一个重要的方法论规则,这个规则正是从理论的不可证实性的考虑中有效地推导出来的。

    让我们设太阳明天将不升起(并且虽然如此我们将继续生活着,并从事着我们感兴趣的科学工作)。如果发生这样的事情,科学就不得不努力解释它,即认定律中把它推导出来。大概要求对现存的理论作重大修改。但是修改的理论不仅应解释新事态,我们旧有的经验也应可以从修改的理论中推导出来。从方法论观点看,人们看到自然界均一性原理在这里被既要考虑到空间又要考虑到时间的自然界不变性的公设取代了。所以,我认为断言自然规律性不变是错误的。(这是一种既不能反对又不能赞成的陈述。)更确切地说,如果我们假设它们不随空间和时间而变化,并且假设它们没有例外,这种陈述是我们自然律定义的一部分。因此从方法论观点看,证伪一个得到验证的定律无论如何不是没有意义的。它帮助我们发现,我们对自然律的要求和期望什么。并且“自然界均一性原理”也可被认为是对某个方法论规则——如与它十分接近的“因果律”的一种形而上学解释。

    人们尝试用方法原理代替这种形而上学陈述,这导致“归纳原理”,这个归纳原理被认为是支配归纳方法的,从而支配证实理论的方法。但是这个尝试失败了,因为归纳原理本身在性质上是形而上学的。正如我在第1节已指出的,归纳原理是经验的这一假定导致无穷的后退。因此只能作为原始命题(或公设,或公理)引入。如果归纳原理并非在任何情况下都得被看作不可证伪的的陈述,这也许没有什么关系。因为如果这个原理——它应证明理论的推论正确——本身是可证伪的,那么它就会随第一个被证伪的理论而证伪,因为这个理论在那时是一个借助归纳原理推导出的结论;而这个原理作为一个前提,只要从这前提推导出的一个理论被证伪,当然就将被否定后件的推理(modus  tollens)所证伪。但是这意味着一个可证伪的归纳原理将随着科学的进展而一再被证伪。所以就必须引入一个假定不可证伪的归纳原理。但是这等于是对一个先验地正确的综合陈述,即关于实在的一个不可反驳的陈述理解错误的观念。

    因此如果我们试图把我们对自然界均一性和理论可证实性的形而上学信念转变为基于归纳逻辑的知识理论,留给我们的只是在无穷后退和先验论之间进行选择。

    80.假说的概率和事件的概率:概率逻辑批判

    即使承认理论决不能最后被证实,我们是否能够确保它们在或大或小的程度上是可靠的——更可几的或不那么可几?毕竟也许有可能把一个假说的概率问题还原为比方说事件的概率问题,因而使之容易接受数学和逻辑的处理。

    像一般的归纳逻辑一样,假说概率理论似乎是由于把心理学问题和逻辑问题混为一谈而产生的。大家承认,我们对确信的主观感觉具有不同的强度,并且我们等待某一预测的实现和某个假说的进一步确认的信心程度,很可能取决于(除了其他以外)这个假说迄今业已经受住检验的方式——取决于它过去的验证。但是这些心理学问题并不属于认识论或方法论这一点甚至得到概率逻辑信仰者的充分承认。然而他们争辩说,根据归纳主义者的决定,把概率程度归于假说本身是可能的;并且进一步争辩说把这个概念还原为事件概率概念是可能的。

    一个假说的概率主要被认为只是关于陈述概率的一般问题的特例;而后者本身又被认为不过是用特定术语表达的一个事件的概率问题。因此例如我们在Reichenbach那里读到:“不管我们把概率归于陈述还是归于事件只是一个术语问题。迄今我们认为分配给一粒骰子某一面朝上的概率为1/6是事件概率的一种情况。但是我完全可以说正是‘点1将朝上’这个陈述被分配到1/6的概率。”

    如果我们想起第23节所说过的,就可以更好地理解事件概率和陈述概率的这种等同。在那里“事件”概念被定义为一类单称陈述。所以说用陈述概率代替事件概率也必定是可允许的。因此我们能够认为这仅是一个术语的改变:参考序列被解释为陈述序列。如果我们想到陈述所代表的一种“二择一”,或更确切地说它的元素,那么我们就能用“k是正面”这个陈述来描述正面朝上,并且用这个陈述的否定来描述它不朝上。这样我们就获得一个这种形式的陈述序列Pi,Pk,PI,Pm,Pn,……,其中Pi有时表征为真,有时(上面加一划)为“假”。因此能够把在一个二择一内的概率解释为陈述序列内陈述的相对“真频率”(而不是某种性质的相对频率)。

    如果我们愿意,我们可以称经过如此改造的概率概念为“陈述概率”或“命题概率”。并且我们能够证明在这个概念和“真理”概念之间有十分密切的联系。因为如果陈述序列变得越来越短,最后只包含一个元素,即只有一个单个的陈述,那么根据这单个陈述是真还是假,序列的概率或真频率只可能有1和0两个值中一个值。因此可把一个陈述的真或假看作是概率的特例;反之,就概率把真理概念作为一个极限情况包括在内而言,可把概率看作为真理概念的一般化。最后有可能以这种方式定义真频率运算,即经典逻辑常用的真值运算是真频率运算的极限情况。这些运算的计算可称为“概率逻辑”。

    但是我们实际上能否把假说概率与以这种方式定义的陈述概率,因而间接地与事件概率等同起来呢?我认为这种等同是混淆的结果。这个思想是,某一假说的频率,由于它显然是一种陈述概率,必须在刚才定义的意义上的“陈述概率”的名目下。但是这个结论证明是没有根据的;并且因此这个术语是很不合适的。也许终究最好不要用“陈述概率”这个词,如果我们心里指的是事件概率的话。

    不管这可能怎样,我断言假说概率概念引起的问题甚至未被基于概率逻辑的考虑触及。我断言如果人们谈到一个假说时说,它不是真的,但是“可几的”,那么这个陈述无论如何不能译为关于事件概率的陈述。

    因为如果人们试图把假说概率观念还原为使用陈述序列概念的真频率观念,那么他马上面临这个问题:根据哪些陈述序列,能够把一个频率值赋予一个假说?Reichenbach把一个“自然科学的断言”——他用它指一个科学假说——本身与一个陈述参考序列等同起来。他说,“……自然科学的断言决不是单称陈述,事实上是陈述序列,严格地说我们必须把一个较小的概率值,而不是概率度1赋予这些陈述。所以惟有概率逻辑才提供能够严格代表适合于自然科学知识概念的逻辑形式。”现在让我们把假说本身是陈述序列的意见追根究底。解释它的一个方法是取可能与假说矛盾或一致的种种单称陈述作为这样一个序列的元素。于是这个假说的概率决定于与它一致的那些陈述的真值频率。但是如果平均起来该假说被这个序列的每隔一个的单称陈述所反驳,那么这个假说的概率为1/2!为了避免这个毁灭性的结论,我们再试试两个权宜之计。一个是根据对它通过的所有检验与尚未尝试的所有检验的比值的估计把一定的概率——也许不很精确——赋予这个假说。但是这种办法也没有什么结果。因为这种估计碰巧能够精确计算,并且结果总是概率等于零。最后,我们可以努力使我们的估计立足于导致有利结果的那些检验与导致中性结果——即不产生清楚决定的结果——的那些检验的比值上(用这种方法人们确实可以获得某种类似主观信心感的量度,实验者就是用这种信心看他的结果的)。即使我们不顾这个事实:我们由于这种估计已经离开真值频率概念和事件概率概念很远了,这最后一种权宜之计也不行(这些概念基于真陈述与假陈述的比值,并且我们当然必须把中性陈述同客观上假的陈述等同起来)。为什么这最后的尝试也不行的理由是所建议的定义使一个假说的概念成为不可救药地主观:一个假说的概率不是依靠客观上可复制的和可检验的结果,而是依靠实验者的训练和技能。

    但是我认为接受可把某个假说看作是陈述序列这种意见是完全不可能的。如果全称陈述有这样的形式:“对一切k值,在k处某某事发生,这是真的”,这是可能的。如果全称陈述有这种形式,那么我们就可把基础陈述(与全称陈述矛盾或一致的陈述)看作陈述序列——被视为全称陈述的序列——的元素。但是我们已经看到(参阅第15和28节),全称陈述并不具这种形式。基础陈述决不是仅仅从全称陈述中推导出来的。所以全称陈述不能被认为是基础陈述序列。然而,如果我们试图考虑是从全称陈述推导出来的基础陈述的否定的序列,那么对每一个自相一致的假说的估计将导致相同的概率,即1。因为我们必须考虑能被推导出的未被证伪的否定的基础陈述(或其他可推导陈述)与已被证伪的那些陈述的比值。这就是说,我们不考虑真频率,而应考虑假频率的补值。这个值无论如何等于1。因为可推导的陈述类,甚至可推导的基础陈述否定类,都是无限的;另一方面,已接受的起征伪作用的基础陈述数目是有限的,不可能比它更多。因此即使我们不顾全称陈述决不是陈述序列这个事实,并且即使我们试图把它们解释为这类东西,把它们与完全可判定的单称陈述序列相关起来,即使如此我们也达不到一个可接受的结果。

    然而我们得考察用陈述序列解释假说概率的另一个十分不同的可能性。也许还记得我们已称某一单称事件是“可几的”(在“形式上单称概率陈述”的意义上),如果它是以一定概率发生的事件序列的一个元素的话。但是这个尝试也失败了——完全不是确定参考序列的困难(它可用许多方法选定;参阅第71节)。因为我们不能说假说序列内的真频率,只是因为我们决不能知道一个假说是否是真的。如果我们能够知道这一点,那么我们就根本不需要假说概率概念。现在我们如上述那样,试图取假说序列内假频率的补数作为我们的出发点。但是如果比方说我们借助未证伪与已证伪的假说序列的比值来定义一个假说的频率,那么如前所说,每一个无穷参考序列内每一个假说的概率等于0。并且即使选定一个有穷的参考系列,我们也未处于更好的地位。因为让我们假定我们能把与这种程序相应的在0与1之间的概率程度——比方说值3/4——赋予某个(有穷的)假说序列的诸元素。(如果我们获得信息,说某个假说属于已被证伪的序列,就能作到这一点。)就这些已被证伪的假说是序列元素而言,我们正由于这个信息就得把3/4而不是零值赋予这些元素。一般来说,一个假说的概率由于知道了它是假的,就要降低1/n,n是参考序列中的假说数。所有这一切显然同用“假说概率”表达我们必须根据支持性或破坏性证据赋予某一假说可靠性程度的纲领是矛盾的。

    我认为这已详尽地研究了使假说概率概念立足于真陈述频率(或假陈述频率)概念,从而立足于事件概率频率理论的可能性。

    我想我们不得不认为把假说概率与事件概念等同起来的尝试完全失败了。这个结论完全不依赖于我们是否接受(Reichenbach的)这个主张:物理学的所有假说“实际上”是,或者“仔细检查时”不过是概率陈述(关于观察结果序列内某些平均频率陈述,观察结果总是表明与某个均值有离差),或者不依赖于我们是否倾向于在两类不同的自然律之间——一方面“决定论的”或“精确的”定律与另一方面“概率定律”或“频率假说”之间作出区分。因为这两类都是假说性假定,这些假定决不能成为“可几的”:它们只能在这样的意义上得到验证,即它们能够在烈火中——检验的烈火中“证明它们的品质”。

    我们该如何解释概率逻辑的信仰者已经达到某种对立的观点这一事实呢?Jean写道——首先在我可以完全同意的意义上——“……我们对任何东西也不能……确定无疑地知道”,但是他接着说:“我们至多只能涉及频率。(并且)新量子论的预测(与观察结果)是如此完全一致,以致有利于与实在相符合的这个图式的机会是极大的。确实,我们可以说这个图式几乎肯定是定量正确的……”,当他这样写时,他的错误在哪里?

    无疑最常见的错误在于认为频率的假说性估计,也就是关于概率的假说,本身只能是可几的;或换言之,在于赋予概率假说以某种程度的所谓假说概率。如果我们记得,就其逻辑形式而言(无需参照我们的可证伪性的方法论要求),关于概率的假说既不能证实也不能证伪,那么我们也许能够提出一个令人信服的论据来支持这个错误结论(参阅第65至68节)。它们不是可证实的,因为它们是全称陈述,它们不是可严格证伪的,因为它们决不能在逻辑上与任何基础陈述发生矛盾。因此它们是(如Reichenbach认为的那样)完全不可判定的。现在正如我们已证明的那样,它们能够更好地或不太好地得到“确证”,那就是说,它们可或多或少地与已接受的基础陈述一致。看来正是在这一点概率逻辑起了作用。经典归纳主义逻辑所承认的可证实性与可证伪性之间的对称提示了这样一个信念:把某种可靠性程度的标尺,某种其可达到的上限和下限是真和假的“连续概率程度”(引自Reichenbach),同这些“不可判定的”概率陈述相关起来必定是可能的。然而,根据我的观点,概率陈述正因为它们是完全不可判定的,它们是形而上学的,除非我们使它们因接受某一方法论规则而变得可证伪。因此它们不可证伪的简单结果,并不是它们能更好地或不那么好地得到确认,而是它们根本不能在经验上得到验证。因为否则——假如它们什么也不排除,因而与一切基础陈述相容——就可以说它们被(任何组成程度的)一切任意选取的基础陈述所“验证”,假如它描述某种有关事例的出现的话。

    我认为物理学使用概率陈述仅在我在有关概率论已充分讨论的这一方面;更具体地说,它把概率假定,正如其他假说一样,用作可证伪的陈述。但是我应该拒绝参加关于物理学家“实际上”如何工作的这一争论,因为这必定主要是一个解释问题。

    我在这里对我的观点与我在第10节中称之为“自然主义”的观点之间的对比作了很好的说明。能够证明的首先是我的观点具有内在的逻辑一致性;其次,摆脱了困扰其他观点的那些困难。大家承认证明我的观点是正确的,这是不可能的,并且与另一种科学逻辑学的支持者进行争论也许毫无裨益。能证明的一切是我对这个特定问题的观点是我一直为之论证的科学概念的一个结果。

    81.归纳逻辑和概率逻辑

    假说的概率不能还原为事件的概率。这是从前节进行的考虑中引出的结论。但是一种不同的看法可否导致假说概率概念令人满意的定义?

    我不认为有可能建立一种假说概率概念,可被解释为表达假说的“可靠性程度”,与“真”和“假”的概念类似(而且它与“客观概率”概念,即与相对频率有如此密切的关系,因而证明使用“概率”一词是正确的)。虽然如此,我现在为了论证起见,要假设这样一种概念事实上已成功地建立,以便提出这样的问题:这会如何影响归纳问题?

    让我们假设,某一假说——比方说Schrodinger理论——在某个确定的意义上被承认是“可几的”;或“可几到某一数值程度”,或仅仅是“可几的”,没有具体规定程度。把Schrodinger的理论描述为“可几的”这种陈述我们可称为对理论的评价。

    一个评价当然必定是一个综合陈述——关于“实在”的断言——,正如陈述“Schrodinger的理论是真的”或“Schrodinger的理论是假的”一样。所有这些陈述显然说的是关于这个理论的适宜性,因此当然不是重言的。他们说一个理论是适宜的或不适宜的,或者在某种程度上是适宜的。其次,对Schrodinger理论的评价必须是一个不可证实的综合陈述,正如理论本身一样。因为一个理论的“概率”——即理论仍然可接受的概率——看来不可能决定性地从基础陈述中演绎出来。所以我们不得不问:评价如何能得到证明?它如何能受到检验?(因而又发生了归纳问题;参看第1节。)

    至于评价本身,也可断言这个评价是“真的”,或者也可说它是“可几的”。如果认为它是“真的”,那么它必定是一个经验上尚未证实的真的综合陈述——先验地真的综合陈述。如果认为它是“可几的”,那么我们需要一个新的评价:可以说是评价的评价,所以是更高水平上的评价。但是这意味着我们陷入了无穷后退。诉诸假说概率不能改善归纳逻辑这种靠不住的逻辑境况。

    相信概率逻辑的大多数人坚持这样的观点:借助赋予归纳出来的假说以概率的“归纳原理”可达到这种评价。但是如果他们把概率赋予这个归纳原理本身,那么这个无穷后退仍继续着。如果另一方面他们把“真理”赋予它,那么他们就不得不在无穷后退和“先验论”之间进行抉择。Heymans说,“概率论永远不可能说明归纳论证;因为正是同一个问题隐藏在一方,也隐藏在另一方(概率论的经验应用)。在两种情况下,结论都超出了前提中所给予的”。因此,用“可几的”一词代替“真的”一词,用“不可几的”一词代替“假的”一词毫无收获。仅当考虑到证实和证伪之间的不对称性——那种不对称性产生于理论和基础陈述之间的逻辑关系——时才有可能避免归纳问题的覆辙。

    信仰概率逻辑的人也许试图用这种方法来对付我的批评:他们断言概率逻辑产生于人的心智,而人的心智“与经典逻辑的框架紧紧束缚在一起”,所以不能遵循概念逻辑使用的推理方法。我坦白地承认我不能遵循这些推理方法。

    82.积极的验证理论:假说如何可“证明它的品质”

    我刚刚提出的反对归纳概率理论的异议是否可能转变为反对我自己的观点?似乎它们是可能的;因为这些异议基于“评价”概念。并且显然我也不得不使用这个观念。我谈到一个理论的“验证”;而验证只能被表达为一种评价(在这方面,验证与概率之间没有区别)。此外我也认为不可能断言假说是“真的”陈述,只能断言它们是“暂时的推测”(或这类东西);并且这个观点也只能用评价这些假说的方法来表达。

    这个异议的第二个部分容易回答。我确实不得不使用的。描述为“暂时的推测”(或这类东西)的假说的评价具有重言式的地位。因此它不发生归纳逻辑发生的那类困难,因为这种描述仅仅是解说或解释严格全称陈述,即理论不能以单称陈述中推导出来这个断言(按照定义,这种描述与这个断言是等价的)。

    至于异议的第一部分,有关陈述理论得到确认的评价,情况也类似。确认的评价不是一种假说,但是如果给定理论和公认的基础陈述就可以推导出来的。它断言这些基础陈述与理论并不矛盾这一事实,并且在它断言这个事实时考虑到这个理论的可检验性程度,以及直至陈述时间为止理论已经受的检验的严格性。

    我们说只要一个理论经受住了这些检验,它就得到“验证”。断言验证的评价(验证评价)确定某些基本的关系,即相容性和不相容性。但是单单相容性不允许我们把某种正的验证度赋予理论:单凭一个理论尚未被证伪的事实显然不能被认为是充分的。因为没有比建立任何数目的、与公认的基础陈述的任何系统相容的理论系统更容易的了。(这个评价也适用于所有“形而上学”系统。)

    也许可以提出,如果一个理论与公认的基础陈述系统一致,并且如果再加上这个系统的一部分可从这理论中推导出来,就应该给予某种正的验证度。或者,考虑到基础陈述不是可以从纯理论系统中推导出来的(虽然基础陈述的否定可如此推导出来),人们会提出,应该采取下列的规则:如果一个理论与公认的基础陈述相容,并且如果再加上这些基础陈述的非空子类可以从这个理论与其他公认的基础陈述的合取中推导出来,就应给予它一个正的验证度。

    我对这最后的表述并无严重的异议,除了我认为这对一个理论正验证度的适宜表征是不充分的。因为我们想说理论得到更好地或不那么好地确认。但是一个理论的验证度肯定不能只靠计算验证事例的数目,即可用已表明的方法推导出来的公认的基础陈述的数目来确定。因为会有这样的事发生:一个理论得到的验证似乎比另一个差得多,即使我们已借助它推导出非常多的基础陈述,而借助后一个理论推导出的基础陈述却很少。作为一个例子我们可以比较假说“一切乌鸦皆黑”同假说(第37节提到的)“电子电荷有Millikcan测定的值”。虽然在前一类假说的情况下,我们大概遇到许多更为验证的基础陈述,然而我们将判断Millikcan的假说是二者之一得到更好验证的假说。

    这表明决定验证度的与其说是验证实例的数目,不如说是所说的那个假说能够并且已经经受的种种检验的严格程度。但是检验的严格程度本身取决于可检验性程度,并且因此取决于假说的简单性:高度可证伪的假说,或更简单的假说,也是高度可验证的假说。当然实际达到的验证度不仅依赖于可证伪度:一个陈述也许是高度可证伪的,然而它也许只得到一点儿验证,或它事实上也许被证伪了。并且它也许虽未被证伪,却被它可从中推导出——或是它的极为密切的接近——的一个可更好检验的理论所代替。(在这种情况下,它的验证度也是低的。)

    两个陈述的验证度也许同可证伪度一样并不是在所有情况下都是可以比较的:我们不可能规定一个数值上可计算的验证度,但是只能用正的验证度、负的验证度等等粗略地说。然而我们可制定种种规则;例如这一条规则:我们不应继续把一个正的验证度给予一个已经被主体间可检验的实验证伪的理论,而这些实验基于起证伪作用的假说(参阅第8和22节)(然而,我们在某些条件下可把一个正的验证度给予另一个理论,即使它遵循一条类似的思路。一个例子是Einstein的光子理论,它与Newton的光的微粒说有密切联系)。一般说来,我们认为一个主体间可检验的证伪是最后的(假如它受到充分的检验):正是通过这种方式使人们感觉到理论的证实和证伪之间的不对称。这些方法论要点每一点都以它自己独特的方式推进作为一步步逼近过程的科学的历史发展。在后来作出的验证评价——即在把新的基础陈述加于那些已经得到承认的基础陈述上面作出的评价——可以用一个负的验证度代替正的,但是反之则不然。并且虽然我认为在科学史上总是理论而不是实验,总是思想而不是观察,开辟通向新知识的道路,我也认为总是实验把我们从死胡同中挽救出来:帮助我们跳出老框框,激起我们去发现新的道路。

    因此一个理论的可证伪性或简单性程度进入了理论验证的评价。并且这个评价可被认为是理论和公认的基础陈述之间的一种逻辑关系:考虑到理论已经经受的检验严格程度的一种评价。

    83.可验证性、可检验性和逻辑概率

    在评价一个理论的验证度时我们考虑到它的可证伪度。一个理论越能更好地得到验证,它就越可检验。然而,可检验性与逻辑概率的概念是相反的,因此我们也能说一个验证评价考虑到了该陈述的逻辑概率。而逻辑概率本身,如我们在第72节已表明的那样,与客观概率——事件概率——的概念有关。因此,通过考虑到逻辑概率,把验证概念与事件概率概念连结起来,即使也许只是间接地和松散地。我们认为这里也许同上面批评的假说概率学说有某种联系。

    当试图评价一个理论的验证度时,我们可推理如下:它的验证度将随它验证实例的数目而增长。这里我常常给予第一个验证实例比后面几个大得多的重要性:一旦一个理论得到充分验证,进一步的实例只能提高它的验证度很少一点儿。然而如果这些新的实例迥然不同于早先的实例,即如果这些实例在一个新的应用领域验证这个理论,这条规则就不适用。在这种情况下,它们就可极大地增加验证度。普遍性程度更高的理论的验证度因此可比普遍性程度较低(所以可证伪度也较低)的理论的验证度更大。同样,精确度更高的理论比精确度较低的理论可得到更好的验证。为什么我们不把一个正的验证度给予手相者和占卜者的典型预言的一个理由是他们的预测是如此小心谨慎和不精确,以致这些预言是正确的逻辑概率极高。并且如果我们被告知说,一些更为精确、因而逻辑上不那么可几的这类预测曾经是成功的,那么一般说来,我们怀疑的往往不是它们的成功,而是它们所谓的不可几性:因为我们倾向于认为这些预言是不可验证的,在这些情况下我们也往往从它们低的验证度推论到它们低的可检验度。

    如果我们把我的这些观点同蕴涵在(归纳)概率逻辑中的观点加以比较,我们就会得到一个真正值得注意的结果。根据我的观点,一个理论的可验证度——以及一个真实上已通过严格检验的理论的验证度,可以说均与它的逻辑概率处于反比关系中;因为它们都随它的可检验性和简单性程度而增加。但是概率逻辑蕴涵的观点正好是这种观点的对立面。这种观点的支持者使一个假说的概率的增加与它的逻辑概率成直接比例——虽然无疑他们想要他们的“假说概率”所要代表的与我试图用“验证度”所表明的完全是同一件事。

    在那些以这种方法论证的人中间是Keynes用了“先验概率”一词来指我称之为“逻辑概率”的东西(参见第113页注)。他就一个“概括”g(即一个(假说)以及“条件”或前件或条件从句φ和“结论”或后件或结论句f作了下列完全确切的评论:“条件φ内容越丰富和结论f内容越贫乏,我们赋予概括g的先验“概率就越大。这个概率随着φ中的每一次增加而增加,它随着f中的每一次增加而减少。”正如我说的,这完全正确,即使Keynes并没有在他称之为“某一概括的概率”——与这里被称为“假说概率”的相一致——与它们的“先验概率”之间作出明确的区分。虽然如此,Keynes用他的“概率”所指的与我用“验证”所指的是一回事,这一点可从他的“概率”随验证实例数目以及(最为重要的)也随实例之间多样性的增加而增加中看出。(但是Keynes忽视了这一事实:其验证实例属于各种各样应用领域的理论常常相应地具有高度的普遍性。因而他的两个要求,即获得高的概率——最小可能的普遍性和验证实例最大可能的多样性——一般是不相容的。)

    用我的术语来表达,Keynes的理论蕴涵着验证(或假说概率)随可检验性而降低。他对归纳逻辑的信仰引导他达到这个观点。因为使科学假说尽可能确定无疑,正是归纳逻辑的倾向。只有在种种假说能被经验证明为正确时才赋予它们以科学意义。只是因为理论和经验陈述之间密切的逻辑接近,一个理论才被认为科学上有价值。但是这不过意味着理论的内容必须尽可能少地超越经验上确定的。这个观点与否认预测的价值有密切的联系。Keynes写道:“预测的独特优点,……完全是想象性的。被考察的实例的数目和它们之间的类似是基本要点,碰巧在检查它们之前还是之后提出某一特定假说的问题是完全无关的。”Keynes在援引“先验地提出的”——即我们在对它们已有充分的支持以前根据归纳的理由提出的——假说时,写道:“……如果它不过是一种猜测,在它之前有一些事例或所有的事例都证实它,这一饶悻事实对它的价值丝毫不增添什么。”这种预测观点当然是前后一贯的。但是它使人们感到奇怪为什么我们总是要进行概括。有什么可能的理由要建立所有这些理论和假说?归纳逻辑的立场使这些活动成为完全不可理解的。如果我们评价最高的是可得到的最可靠的知识——并且如果预测本身对验证无所贡献——,那么为什么我们依然不满足于我们的基础陈述?

    引起十分类似的问题的另一个观点是KaiCom的观点。虽然我认为正是简单的理论,以及那些很少利用辅助假说(参阅第46节)的理论能得到很好的验证,正因为它们的逻辑不可几性,KaiCom根据类似Keynes的理由正好以相反的方式解释这种情况。他也看到我们常常把一个高概率(用我们的话说,高的“假说概率”)赋予简单的理论,尤其是那些需要很少辅助假说的理论。但是他的理由是与我的对立的。他不像我所做的那样把一个高概率赋予这些理论,因为它们是可严格检验的,或逻辑上不可几的;那就是说因为它们可以说是先验地具有与基础陈述矛盾的许多机会。相反地,他把高概率赋予具有很少辅助假说的简单理论,是因为他认为由很少假说组成的系统先验地比由许多假说组成的系统与实在发生矛盾的机会更少。人们在这里又一次不明白为什么老是要费神去建立这些冒险的理论。如果我们怕与实在发生冲突,为什么通过作出断言把理论招来?我们最安全的方针是采取一个没有任何假说的系统。〔“言多必失,不说为佳”]

    我自己的规则要求所用的辅助假说要尽可能地少(“利用假说的节约原理”)与KaiCom的考虑毫无共同之处,我对仅仅减少我们陈述的数目不感兴趣:我感兴趣的是它们在高度可检验性意义上的简单性。正是这种兴趣一方面导致我的应尽可能少地利用辅助假说的规则,另一方面导致我的公理——最基本的假说——数目应尽量减少的要求。因为这后一点出于这一要求:应选取普遍性水平高的陈述,以及由许多公理组成的系统如有可能应从具有更少“公理”和普遍性水平更高的系统中演绎出来(因此用后一系统解释)。

    84.论关于“真的”和“被验证的”概念的使用

    在这里概述的科学逻辑学中,避免使用“真的”和“假的”概念是可能的。它们的地位可由关于可推导性关系的逻辑考虑来代替。因此我们不一定说:“假如理论t和基本陈述b是真的,预测p就是真的。”我们可以说,陈述p是从t和b(非矛盾的)合取中得出的结论。一个理论的证伪可用同样方法描述。我们不一定说这理论是“假的”,但我们可以说它被一组公认的基础陈述反驳。关于基础陈述我们也不一定说,它们是“真的”或“假的”,因为我们可以把它们的得到承认解释为协约决定的结果,而公认的陈述是这种决定的结果。

    这当然不是说,我们禁止使用“真的”或“假的”概念,或它们的使用造成了任何特殊的困难。我们可以避免它们这一事实本身表明它们不可能引起任何新的基本问题。“真的”和“假的”概念的使用十分类似像“重言”、“矛盾”、“合取”、“蕴涵”和诸如此类这些概念的使用。这些是非经验概念、逻辑概念。它们描述或评价一个陈述,不考虑经验世界中的任何变化。虽然我们假定物理对象(Lewin意义上的“发生同一的[genidentical]对象”)随时间的推移而变化,我们仍然决定以这种方式使用这些逻辑谓词,因而陈述的逻辑性质成为无时间性的了:如果一个陈述是重言的,那么它永远是重言的。我们也把这同样的无时间性赋予“真的”和“假的”概念,这与日常的用法是一致的。说一个陈述昨天是完全真的,但今天变成假的,这不是日常的用法。如果昨天我们评价一个陈述是真的,今天评价它是假的,那么我们今天不言而喻地断言我们昨天错了;甚至昨天这个陈述也是假的——无时间性地假的——但我们错误地“把它当作真的”。

    这里人们能十分清楚地看到真理和验证之间的不同。评价一个陈述得到验证或没有得到验证也是一个逻辑评价,因此也是没有时间性的;因为它断言在某一理论系统和某种公认的基础陈述系统之间有一定的逻辑关系。但我们谈到一个陈述时决不能简单地说它本身或自己“得到验证”(以我们说它是“真的”这种方式)。我们只能说它就某种基础陈述系统而言得到验证——直到某一特定时刻以前得到承认的系统。“一个理论直到昨天得到的验证”与“一个理论直到今天得到的验证”在逻辑上不是等同的。因此我们必须给每一个验证评价添上一个下标——表征验证与之有关的基础陈述系统的下标。(例如用它得到承认的日期)。

    所以验证不是一个“真值”;即它不能与“真的”和“假的”概念(它们没有时间标志)处于同等的地位;因为对于同一陈述可以有任何数目的不同的验证值,这些值确实都可能同时是“正确的”或“真的”。因为它们是一些可从理论和在不同时期承认的不同组基础陈述中合乎逻辑地推导出来的值。

    上述的评论也可帮助阐明我的观点和实用主义者的观点之间的对立,他们建议用一个理论的成功——因而用它的有用性,或它的确证或它的验证来定义“真理”。如果它们的意图只是要断言一个理论成功的逻辑评价不过是它的验证评价,那我可以同意。但是我认为把验证概念同真理概念等同起来远不是“有用的”。这在日常用法中也是要避免的。因为人们谈到一个理论时完全可以说,它迄今根本末被验证,或它仍未被验证。但我们一般不应说一个理论迄今不是真的,或它仍然是假的。

    85.科学的道路

    人们在物理学进化中可以辨认出某种总方向——从普遍性水平较低的理论到水平较高的理论的方向。这通常被称为“归纳”方向;也许会认为物理学沿这个“归纳”方向进展这个事实可被用作支持归纳方法的一个论据。

    然而沿归纳方向进展不一定由归纳推理序列组成。实际上我们业已表明它可用完全不同的术语--用可检验性和可验证性程度——来解释。因为一个已得到充分验证的理论只能被一个普遍性水平更高的理论来代替;即被一个可更好检验的、并且此外包含旧的、得到充分验证的理论(或至少很接近于它)的理论来代替,所以把那种趋向——向普遍性水平越来越高的理论进展——描述为“拟归纳”趋向更好。

    这种拟归纳过程应设想如下。提出具有某种普遍性水平的理论,并用演绎法检验;在这以后,又提出普遍性水平更高的理论、又借助具有以前水平的普遍性的理论检验,如此等等。检验方法是不变地根据从较高水平到较低水平的演绎推理;另一方面普遍性水平按时间次序通过从较低水平到较高水平而达到。

    也许提出这个问题:“为什么不直接发明普遍性水平最高的理论!为什么等待这种拟归纳进化?也许这不就是因为毕竟有归纳要素包含在其中吗?”我不认为如此。具有一切可能的普遍性水平的意见——推测或理论——一次又一次被提出。那些普遍性水平太高的理论(即离开当时可检验的科学达到的水平太远)也许产生一种“形而上学系统”。在这种情况下,即使陈述应该可以从这个系统中演绎出来(或只是不完全地推导出来,例如在Spinoza系统的情况下),这些陈述属于流行的科学系统,在其中也不会有任何新的可检验陈述;这意味着没有任何判决性实验能被设计出来检验所说的系统。如果在另一方面,可以为它设计一个判决性实验,那么系统作为第一个近似将包含某个得到充分验证的理论。并且同时也包含某种新的东西——能够接受检验的东西。因此,该系统当然不是“形而上学的”。在这种情况下,可把所说的系统看作为科学拟归纳进化上的新进展。这说明为什么一般只是由那些提出来试图应付当时问题境况,即当时的困难、矛盾和证伪的理论来建立与当时科学的联系。在对这些困难提出一种解决办法时,这些理论可指出通向判决性实验的道路。

    为了获得一个这种拟归纳科学进化的图景或模型,可把种种思想和假说看作为悬浮在液体中的粒子。可检验的科学是这些粒子在容器底下的沉淀物:它们是分(普遍性的)层沉淀的。沉积的厚度随这些层次数目而增长,每一个新的层次相当于比在它下面的那些理论更为普遍的理论。这个过程的结果是以前在较高的形而上学区漂浮的思想有时可因科学的增长而被触及,因而与它接触而沉淀。这些思想的例子是原子论;单一物理“本原”或最终元素(其他东西由此衍生出来)的思想;地动理论(被Bacon认为虚构而反对);古老的光微粒说;它的液体理论(作为金属传导的电气假说而复活)。所有这些形而上学概念和思想,即使在其最初的形式,也许已帮助把秩序引入人的世界图景中,并且在一些情况下也许甚至已导致富有成效的预测。然而这样的一个思想获得科学的地位,仅当它存在于可证伪的形式时;那就是说,仅当用经验在它与某个对立理论之间作出抉择成为可能时。

    我的研究已探索了本书开头所采取的一些决定和约定——尤其是划界标准——的种种结果。我们在回顾时可以试图最后全面地看一看已经呈现的科学和科学发现的图景(我在这里想到的不是作为一种生物学现象,作为一种适应工具,或作为一种迂迴的生产方法的科学图景:我想的是它的认识论方面)。

    科学不是一个确定的或既成的陈述的系统;它也不是一个朝着一个终极状态稳定前进的系统。我们的科学不是绝对的知识(episteme):它决不能自称已达到真理,甚或像概率一样的真理的替代物。

    然而科学具有的价值不只是生物学的生存价值。它不仅是一个有用的工具。虽然它既不能达到真理,也不能达到概率,追求知识和探索真理仍然是科学发现最有力的动机。

    我们不知道:我们只能猜测。并且我们的猜测受到对我们能够揭示——发现的定律、规律性的非科学的、形而上学的(尽管在生物学上可以说明的)信仰指导。像Bacon一样,我们可把我们自己的当代科学——“人们现在通常应用于自然界的推理方法”——描述为由“轻率的和过早的预感”组成的,描述为“偏见”。

    但是,我们的这些不可思议的富有想象力的和大胆的推测或“预感”受系统的检验仔细而清醒的控制。我们的任何“预感”一旦提出,都不能被教条地坚持。我们的研究方法不是维护它们,为了证明我们是多么正确。相反,我们努力推翻它们。我们努力利用我们的逻辑的、数学的和技术的武库中的所有武器来证明我们的预感是错的——为了代替它们提出新的未被证明的和不可被证实的预感,Bacon嘲弄地称它们为新的“轻率的和过早的偏见”。

    有可能更为乏味地解释科学的道路。人们会说,进步“……只有两种方法获得:通过收集新的知觉经验,以及通过把已经得到的那些经验更好地组织起来”。但是科学进步的这种描述,虽然实际上并不错,似乎没有抓住要害。它也是Bacon归纳法的残余:太使人想起他的勤奋收集“无数成熟的应时的葡萄,他期望科学之酒从中流出:想起他的始于观察和实验,然后进到理论的科学方法神话(顺便说一句,这种神话方法仍然激励一些试图实践它的新近出现的科学,原因是普遍认为它是实验物理学的方法)。

    科学的进展并不是由于越来越多的知觉经验随时间而积累这一事实。它也不是由于我们正在越来越好地利用我们的感觉这个事实。科学不可能从未被解释的感觉经验中提炼出来,不管我们多么勤奋地收集和挑选它们。大胆的想法,未被证明的预感,以及思辨的思想是我们解释自然的惟一手段:我们把握自然的惟一的工具,我们惟一的仪器。并且我们为了获奖,就必须使它们冒风险。在我们之中不愿意使他们的思想去冒反驳的风险的人,不能参加科学游戏。

    甚至用经验仔细地认真地检验我们的思想本身也受思想启发:实验是有计划行动,其中每一步受理论支配。我们并不是偶然地碰见我们的经验的,我们也让它们像溪流那样在我们身旁流过。宁可说,我们必须是主动的:我们必须“制造”我们的经验。正是我们总是向自然界提出问题;正是我们一而再、再而三试图提出这些问题,为了得到明确的“是”或“否”(因为自然界不给答案,除非逼着它)。最后,正是我们给出答案;正是我们自己在认真仔细研究之后决心回答我们向自然界提出的问题——在持久地和诚挚地试图从自然界那里得到一个毫不含糊的“否”之后。Weyl说,“我永远要记录我对实验家在他的斗争中工作的无限敬意,他在这种斗争中从毫不让步的造物主那里夺取可解释的事实,造物主清楚地知道如何用一个决定性的不——或用一个听不见的是来对付我们的理论”。我完全同意他。

    关于episteme——绝对的确定的可证明的知识——的古老的科学理论已证明是一个偶像。科学客观性的要求使每一个科学陈述必定仍然永远是试探性的成为不可避免。它当然可被验证,但是每一次验证是相对于其他陈述而言的,这些陈述又是试探性的。只有在我们确信的主观经验中,在我们的主观信仰中,我们才可能是“绝对确定无疑的”。

    蒙昧主义的防御工事随着确定性的偶像(包括不完全确定性或概率的偶像)而垮台了。蒙昧主义阻碍科学前进的道路,妨碍我们问题的大胆性,危害我们检验的严格性和完整性。这种错误的科学观表现于渴望成为正确;因为造就科学家的不是他之拥有知识、不可反驳的真理,而是他坚持不懈地以批判的态度探索真理。

    那么我们的态度不得不是一种无可奈何的态度吗?我们是否不得不说,科学只能完成它的生物学任务;即至多它只能在可验证它的实际应用中证明它的品质吗?它的智力问题是不可解的吗?我不认为如此。科学决不追求使它的回答成为最后的甚至可几的这种幻想的目的。宁可说,它的前进是趋向永远发现新的、更深刻的和更一般的问题,以及使它的永远是试探性的回答去接受永远更新的和永远更严格的检验这一无限然而可达到的目的。

    追记(1972)

    我书的前一章(即最后一章)中,我试图阐明,我说的一个理论的验证度是指总结该理论如何经受住检验以及这些检验如何严格的简要报告。

    我从未偏离过这个观点。这里我将补充以下几点:

    (1)逻辑的和方法论的归纳问题不是不可解决的,但是我的书提供了一个反面的解决:(a)我们决不能合乎理性地证明一个理论,这就是说,我们决不能合乎理性地证明对一个理论真理性的信念,或对它可能是真的信念。这种否定解决同下述包含在优先选择比其他理论得到更好验证的理论的规则中的肯定解决是相容的;(b)我们有时能够合乎理性地证明根据理论的验证,即根据竞争理论的批判讨论的现状(从评价它们接近真理性,即逼真性的观点对它们进行批判讨论和比较)优先选择某一理论。这种批判讨论的现状,原则上可以它们验证度的形式报告。然而,验证度不是逼真性的量度(逼真性的量度必须是没有时间性的),而只是关于我们到某一时刻为止能够确定什么的报告,关于根据对可得到的理由(这些理由已被提出来支待或反对理论的逼真性)所作的判断比较竞争理论主张的报告。

    (2)逼真性观念提出的一个形而上学问题是:自然界中有没有真正的规律性?我的回答是:“有”。支持这个回答的论据(非科学的,但也许是“超验的”;参阅P.368)是:如果自然界中没有显而易见的规律性,那么观察和语言都不可能存在:描述性语言和论证性语言都不可能存在。

    (3)这个回答的力量依赖某种常识实在论。

    (4)实用的归纳问题也就自行解决了:在实践上优先选择根据理性讨论更接近于真理的理论是冒风险的,但是合乎理性

    (5)我认为心理学问题(为什么我们相信如此选择的理论继续值得我们信任?)是没有什么意义的。

    (6)这种方法并未解决所有可能的“归纳问题”(参阅我即将出版的书:Objective Knowledge:An Evolutionary Approach)。

  • 库恩《科学革命的结构》

            我的这些老的想法的形成,一部分来源于以前的科学训练本身,一部分则来源于我对科学哲学的历久不衰的业余兴趣。这些想法,不管什么样的教育作用,也不管理论上怎样言之成理,却怎么也不足以说明历史研究中所呈现出来的实际情况。但它们历来都是许多科学问题讨论中的基本原则,这就需要彻底揭穿它们貌似有理的假象。这么一来,我的专业计划就完全变了,先是从物理学转到了科学史,以后又从更直接的历史问题逐步回到了同哲学有更大关系的问题,而起初正是这些问题把我引向了历史。在我已发表的著作中,除少数几篇文章以外,本文还是第一次注重谈我早期关心的问题。某种程度上我也想通过本文向我自己和朋友们交代一下,最初我是怎样脱离科学的研究而走向科学史的研究。

            我第一次有机会深入探索下面提出的某些思想,是因为我在哈佛大学研究班中当了三年研究生。没有那一段自由时期,要转到一个新的领域就困难多了,甚至于根本办不到。那几年我把一部分时间用到科学史上。特别是我连续研究了亚里山大·柯依列(Alexandre  Koyre)的著作,并第一次接触到爱弥尔·梅耶逊(Emile  Meyerson)、海伦奈·迈兹热(Helene Metzger)和安奈里斯·麦尔(Annelies   Maier)的著作。①这些学者出近年来其他大多数人更清楚地表明,在科学思想准则同今天大不相同的时期中,科学的思维可能是怎样的。虽然我愈来愈怀疑他们的某些历史解释,但他们的著作同A.O.勒沃乔伊(Lovejoy)的《伟大的存在之链》一起,对于我的科学思想史概念的形成,仍然是主要的动因之一。

    那几年我还化了很多时间探索其他方面的一些问题,它们表面上同科学史没有什么关系,但现在却也象科学史一样提出了一些引起我注意的问题。我曾偶而从一条脚注中知道了让·皮亚瑞(Jean   Piaget)的实验,他用这些实验阐明了成长中的儿童所感知的各个世界,以及他们从一个世界转到另一个世界的过程。②我的一位同事要我读一读感觉心理学、特别是格式塔心理学③的文章。还有一位介绍我看本杰明·李·沃夫(Benjamin    Lee Whorf)是怎样考虑语言对世界观的作用。W.V.O.奎因(Quine)则为我解开了区别分析和综合的哲学之谜。④这是研究班所容许的自由探索,只有通过这样的探索我才能看到路德维克·弗莱克(Ludwik    Fleck)的几乎没有人知道的专题著作《科学事实的出现和发展》(巴塞,1935年),此文先于我而提出了我的许多想法。弗莱克的著作同另一位实习生弗朗西斯.X.萨顿(Francis    X.Sutton)的评论一起,使我意识到需要把这些想法置于有关科学界的社会学之中。读者将发现我在下文很少涉及这些著作或谈话,但我对它们的感激之情都超乎我现在所能复述或估价的。

    ①影响特别大的是柯依列:《伽里略研究》(3卷本,巴黎,1939年);梅耶逊:《同一和现实》,凯特·劳温伯格(Kate   Loewenberg)译(纽约,1930年);迈兹热:《法国从十七世纪到十八世纪的化学学说》(巴黎,1923年),《牛顿、斯塔耳、波尔哈夫和化学学说》(巴黎;1930年);以及麦尔:《十七世纪的先驱者伽里略》(《后期经理哲学的自然哲学研究》;罗马,1949年)。

    ②这些实验所反映出来的观念和过程,也是直接从科学史中涌现出来的,因此皮亚瑞有两组研究特别重要:《儿童的因果性概念》,马乔利·加贝因(Marjorie  Gabain)译(伦敦,1930年),以及《速度观念和家居幼儿》巴黎,1946年)。

    ③格式塔心理学(Gestalt    psychology),也有时译为“完形心理学”,心理学的一个重要流派。它认为心理现象的基本因素不是感觉,而是某种心理结构的“完形”,由个体内部固有的组成简单图形的能力所形成,即以主观的内在规律解释心理现象。这个学派最初在1912年产生于德国,后来扩展到物理、生物、经济等领域。——译者注

    ④后来约翰·B·卡洛耳(Job B.Carroll)收集了沃夫的文章编成《语言、思想和现实——本杰明·李·沃夫著作选》(纽约,1956年)。奎因的观点见于《经验主义的两个教义》,在他的《从逻辑观点看》(马萨诸基州,坎布里奇,1953年)一书中再版;第20-46页。

    在我作研究生的最后一年中,波士顿的洛厄尔研究所(Lowell Institute)请我去讲演,这使我第一次有机会测验一下我这个正在形成之中的科学观。于是产生了1951年3月间连续发表的八篇公开讲演,题目是《探索物理学理论》。第二年我开始讲授科学史本身,以后在差不多整整十年中,在一个我从未系统研究过的领域中讲课所带来的问题,使我没有什么时间把我最初产生的各种观点准确地表达出来。幸而这些观点证明,它们可以暗暗指明方向,也可以为我进一步讲授提出一套问题。因此,我得感谢我的学生来听这些宝贵无比的课,在这里既肯定了我的观点的生命力,同时也是一种卓有成效的交流方式。研究班结业以后,我所发表的绝大部分主要关于历史方面的研究,尽管表面上似乎各不相同,却都由这些同样的问题和方向统一起来了。有的课讨论了某一种形而上学在创造性科学研究中所起的必要作用。另外一些则检查了一种新理论的实验基础是怎样被人们积累起来并吸收进去的,这些人本来信奉一种绝不相容的旧理论。在这个过程中,这些课描述了这样一种发展模式,我在下文将称之为新理论或新发现的“涌现”。此外还讨论了其他一些这一类的问题。

    1958-1959年间我应邀到行为科学高级研究中心,由此开始了这个专题研究的最后阶段。这时我又一次有可能集中到以下所要讨论的问题上。特别重要的是,在一个主要是由社会科学家组成的团体中呆了一年,使我碰上一些预料不到的问题:这样的团体同培育了我的自然科学家团体有什么不同呢?特别使我吃惊的是,各个社会科学家对于合理的科学问题和科学方法的本质,竟有那么多、那么深刻的显著分歧。无论从历史上或者从现在的认识上看,我都怀疑,自然科学工作者对这些问题是否就比他们社会科学界的同事们掌握更可靠、更稳定的答案。但今天似乎只是心理学家或社会学家们所特有的根本原则的争论,天文学、物理学、化学或生物学的实践不知怎么总是激不起来。为了要找到分歧的根源,我认清了此后我称之为“规范”①的东西在科学研究中的作用。我是把“规范”作为普遍承认的科学成就,在一段时期中它为科学工作者团体提出典型的问题和解答。一旦我的这个难点得到了解决,此文的草稿就迅速涌现了。

    ①规范,原文是paradigm。这个字来自希腊文,原来包含“共同显示”的意思,由此引出模式、模型、范例等义。特别是用在文法中,表示词形变化规则,如名词变格、动词人称变化等。作者在这个基础上用这个字来说明科学理论发展的某种规律性,即某些重大科学成就形成科学发展中的某种模式,因而形成一定观点和方法的框架。“规范”的译法比较接近于作者的原义。——译者注

    这份草稿产生的经过,这里不需要再说了,但是对这种历经修改,而仍然保存的形式,还必须再说几句。在完成第一稿并大加修改之前,我还一直期望手稿会单独成为《统一科学百科全书》中的一卷。这部先驱著作的编者们先是请求,后来使我明确地承担了义务,最后又以非凡的机智和耐心等待结果。我很感谢他们,特别是查理士·毛里斯(Charles    Morris),他挥动着那根必不可少的刺棒,说服我完成了手稿。但限于《百科全书》的篇幅,我必须以极度浓缩的纲要形式表述我的观点。后来发生的一些事情虽使这个限制有所放松,而且手稿也有可能同时独立出版,但这一著作仍然作为一篇文章,而不是这个题目所最终要求的那样一本完整的书。

    我的最根本目的,就是要促使人们改变对熟知材料的理解和评价,因而对这第一次说明的纲要性决不能动摇。相反,如果读者自己的研究工作使他们对这里所提倡的新方向已有所准备,他就会感到本文这种形式不但更有启发,也更容易接收。但也有不利的方面。这证明我在开头所说的还有必要从各方面加以扩大和深入,我希望最后能有这样一个更详细的版本。历史上的有利证据,要比下面有限篇幅中所能容纳的多得多了。而且,既有物理科学史的,也有生物科学史的。这里我决定只用前一种证据,一方面是为了文章更为紧凑,一方面也是根据现有的力量。此外,这里所提出的科学观还对许多新的研究领域,包括历史领域和社会学领域,都可能有作用。例如,反常现象也即不合预想的现象是怎样愈来愈引起科学界的注意,就需要仔细加以研究;同样,一直无法解释的一种反常现象所引起的危机,也需要研究。再说,每一次科学革命都要改变经历革命以后科学界的历史面貌,如果这个说法是对的,这种改变也会影响革命以后教科书和科学出版物的结构。其后果之———改变了研究报告脚注中所引用的文献——应作为发生革命一个可能的标志而加以研究。

    因为要大大压缩篇幅,我只好放弃许多重要问题的讨论。例如,对科学发展中的前规范时期同后规范时期的区别,我就说得太简要了。一个学派的竞争如果表现出初期的特点,就是由于某种很象是规范的东西引导的结果,而晚期则有两种规范和乎共处的情况,尽管我认为这是罕见的。只掌握一种规范还不足以成为第II节所讨论的过渡的准则。更重要的,除了偶而作简要介绍以外,我从没有谈过科学发展中技术进步的作用,或者外部的社会条件、经济条件和精神条件的作用。但只要看着哥白尼和历书的关系就可以知道,外部条件也可以使单独一种反常现象成为一场严重危机的根源。这个例子同样可以表明,人们如果想找到某种革命的办法以结束危机,可供他们选择的范围就要受到科学以外条件的一定影响。①仔细分析这一类的后果,我认为决不会改变本文所提出的主要论点,却肯定会增添一个对了解科学进展具有头等重要意义的分析方法。

    ①在T·S.库恩的《哥白尼革命:西方思想发展中的行星天文学》(马萨诸塞,坎布里奇,1967年)一书第122~132、270~271页讨论了这些因素。关于外部的精神条件和经济条件对科学实际发展的作用,我在下列文章中有所阐明:《同时发现能量守恒之例》,载《科学史中的关键问题》,马歇尔·克莱杰特(Marshall    CComgett)编(威斯康星,麦迪逊,1959年);第321~356页;《沙迪·卡诺工作的技术先驱》,载《世界科学史成就》第XIII卷(1960年),第247~251页;以及《沙迪·卡诺和卡格纳(Cagnard)热机》,《爱西斯》(Isis)杂志,第III卷(1961年),第567~574页。因此,只是从本文所讨论问题的角度看,我才把外部因素的作用看得比较小。

    最后,也许最重要的是,篇幅的限制大大影响了我处理本文中由历史所指明的科学观的哲学含义。显然存在这样的含义,我已试图指出并论证了其中一些主要的。但同时,我总是回避详细讨论当代哲学家们对相应问题的各种不同主张。我所怀疑的,往往更多针对一种哲学态度,而更少针对任何一种首尾一贯的表述。结果,有些人如果不能跳出这种一贯的立场来看待问题和认识问题,他们就会觉得我没有领会他们的意思。我想他们错了,但本文并不打算说服他们。要说服他们,必需另外写一本更长得多的不同类型的书。

    对于曾经帮助我形成我的思想的学术著作和研究机构,这个序言所叙述的一些自传片段可以为我表示感谢。我还想通过后文的引证偿还其余的债务。但是无论在上文或下文,我只能暗示一下对许多人的深切感激,他们的批评建议都在一定时期支持并指导了我的思想的发展。从本文这些想法开始形成到现在,时间已经过去太久了,如果把所有那些字里行间受到他们某种影响的人都—一列举出来,那就差不多成了一张我的朋友和相识的总名单。因此我只好限于列举少数对我影响最大的,即使这样,记忆的错误也在所难免。

    詹姆士·B·柯南特(ant),当时的哈佛大学校长,第一个引导我转向科学史,由此开始改变了我对科学进展本质的看法。从那时以来,他就慷慨地给以意见、批评和时间——包括阅读我的草稿并建议作重大修改的时间。留纳德·K、纳什(Leonard    K.Nash)同我一起教了五年由柯南特博士开始的历史方面的课程。在我的思想最初成形的那几年中,他更积极地参加了筹划,但在最后发展阶段上他却错过去了。幸亏在我离开坎布里奇以后,我在伯克利的同事斯坦利·卡维尔(Stanley    Cavell)起了富有创造性的共鸣作用。卡维尔是一个主要研究伦理学和美学的哲学家,他得出的结论同我的十分一致,一直是一个激励和鼓舞我的源泉。而且,他还是唯一的一个可以同我只用一言半语探索思想。这种交流方式表明,他的理解力足以为我指出怎样通过或绕过我在准备第一个手稿时所遇到的主要障碍。

    那还是一个草稿,许多别的朋友帮助我重新系统化。我想他们会原谅我的,如果这里我只举出贡献最广泛、最关键的四个名字:伯克利学院的保尔·K·费耶雷本(Paul    K.Feyerabend)、哥伦比亚大学的厄奈斯特·纳格耳(Ernest    Nagel)、劳伦斯放射实验所(Comwrence Radiation    Comboratory)的H·庇尔·诺埃斯(H.Pierre Noyes)和我的学生约翰·

    L·海耳布隆(John L. Heilbron),在准备最后付印时他经常密切配合我一起工作。我发现,他们的一切保留和建议都极有帮助,但是没有根据可以使我相信(倒有根据使我怀疑)无论是他们还是上面提到的其他人会全盘赞同最后的手稿。

    最后我还得感谢我的父母、妻子和孩子们,当然是完全另外一种感谢。也许最后我还得在许多方面承认,他们每个人也都对我的著作贡献了一些思想片断。但他们还以各种不同的程度作了一些更加重要的事情。那就是,他们保证了这个工作的进行,甚至鼓励我献身于它。任何一个同这样一项工程搏斗过的人都会承认,有时的确是要付出这样的代价的。我不知道应当怎样感谢他们才好。

        T.S.库恩    加利福尼亚    伯克利    1962年2月

    I 导言:赋予历史的一种作用

    但是,如果人们所不断寻找和分析的历史资料,只是为了回答科学课本中那些永恒不变的陈词滥调所提出的问题,那么,即使根据历史,也无法形成新的科学观。比方说,这种课本似乎总是暗示,书中所描述的各种规则、定律、理论已经完美地表明了科学的内容。几乎无一例外,这些书读起来都象是在说:科学方法其实就是搜集教科学材料的技巧,再加上对材料进行理论概括的逻辑推理方法。这就造成了对科学本质和科学发展的一种纠缠不清的科学观。

    科学如果只是一堆现行课本中的事实、理论和方法的总汇,那么科学家不管有没有成就,也只能努力对这个总汇贡献一二而已。科学的发展成了一点一滴的进步,各种货色一件一件地或者一批一批地添加到那个不断加大的科学技术知识的货堆上。科学史成了这样一门学科:它既要记载这个连续不断的积累过程,也要记载阻止这一进程的障碍。历史学家为关心科学的发展,他就负有以下两个主要任务。一方面,他必须确定是什么人、什么时候发现或发明当代科学中的各种事实、定律和理论。另一方面,他还必须描绘和解释妨碍现代科学课本各部分更快积累起来的那一堆错误、虚构和迷信。许多研究工作都是为此而进行的,有一些现在仍然是这样。

    但近年来有几个科学史家已经发现,要按照这种渐进积累的观点进行工作,愈来愈困难了。作为这个积累过程的记录者,他们发现,研究得愈是深入,就愈是难于而不是易于回答这样一些问题:氧是什么时候发现的?是谁第一个想到能量守恒?有几个人还愈来愈怀疑,问题可能从根本上就提错了。科学也许根本就不是通过一个一个发现和发明的积累而发展。同时,科学史家要把过去人们所观察和相信的“科学”部分,同前人任意扣上“错误”、“迷信”的部分互相区别开来,也遇到愈来愈大的困难。他们愈是仔细研究象亚里士多德力学、燃素说化学、热质说热力学等等,就愈会感到,那些一度流行过的自然现,从总体上说,一点也不比今天流行的更不科学些,或者更加是人类天性怪解的产物。如果把这些过时的信念叫做虚构,那么,今天使我们获得科学知识的方法和根据,也同样可以产生虚构,可以证明虚构。另一方面,如果把它们叫做科学,那么,科学里面就包含一些我们今天所绝对不能容纳的信念。在这二者之间,科学史家必然要选择后者。过时的理论不能因为遭到摒弃就一定不科学。但这么一来,我们就再也难以把科学的发展看成单纯的增加了。同样,在科学史研究中把个别的发明和发现孤立起来也会遇到困难,这就有理由从根本上怀疑,科学史究竟是不是这样一个由个别科学贡献复合而成的积累过程。

    所有这些疑问,最后引起了科学研究史编写中的一场革命,尽管现在还是刚刚开始。科学史家逐步地、往往并不完全自觉地开始提出另外一类问题,研究另外一条往往并非渐进性的科学发展路线。他们不再去寻求一门古老科学对我们现代文明的永恒贡献,而是试图表现这门科学当时的完整历史。例如,他们并不问伽里略的观点同现代科学观点有什么关系,却要问伽里略的观点同当时他那个集体,即他在科学上的老师、同学和直接继承者的观点之间有什么关系。而且,他们在研究历史上这些集体的观点时还坚持这样一个出发点;尽可能使历史上的这些观点内部联系得最紧密,又最能符合于自然界。这个出发点通常是同现代科学的出发点大不一样的。通过这样写成的著作,最典型的也许就是亚历山大.

    柯依列的著作,我们可以看到,科学已不尽然是那种人们在历史编写旧传统中所争论的那样了。历史研究至少已暗示了一种新的可能的科学形象。本文的目的就是要说明编写历史的某些新含义,以勾画出这个科学形象的轮廓来。

    这样做,科学的哪个方面将会突出出来呢?首先,至少是说明顺序上的首先,方法论本身并不足以使我们能做到:只要按它的指示办就可以对许多科学问题得出唯一可靠的结论来。叫一个人去观察电学或化学现象,但他只知道什么合乎一般科学,却不懂这两门具体科学,他当然会从许多相互矛盾的结论中随便抽出一个来。他之所以从各种合理的可能性中得出这一个特定结论来,可能是因为他从别的地方得来的先入为主的经验,可能是因为调查研究中的某些偶然事件,也可能是由于他本人的个人特点。比方说,他把哪一些具体知识用到化学或电学研究中去了?在许多可以想到的适合这个方面的实验中,他首先选择哪个实验呢?在由此引起的各种复杂现象中,哪些现象会使他感到特别能说明化学变化和电吸引的本质呢?对这些问题的回答,至少对个人来说,有时甚至对整个科学界来说,都常常是科学发展中所不可缺少的决定性固素。我们将指出,如第II节所说,大多数科学的早期发展阶段都是酒过许多不同自然观之间不断的相互竞争而表现出自己的.特征来。其中每一种自然观都是片面地按照科学观察和方法的要求而得出来的,但又大体上都同这种要求没有矛盾。各个学派之间的不同,不在于各派的方法上有这样或那样的缺陷——它们都曾经是“科学的”,而在于,如我们后文要说的,它们看待世界和运用科学的不同方式之间的不可比性。观察和经验可以而且必须严格限制科学信念所容许的范围,否则就没有科学。但它们不能单独决定某一种特定的信念本身。由某一特定时代的特定科学共同体所支持的信念,总是在其构成成分中包含了由个人偶然性和历史偶然性所组成的明显任意性因素。

    但这种任意性因素并不表示,任何一个科学集体可以没有一套大家接受的信念而能进行专业活动。这种因素也不会降低那个一定时期内这一集体正是为之而献身的知识总汇的重要意义。科学界如果认为对下面一些问题没有得到可靠的回答,实际研究工作就没有开始:组成宇宙的基本实体是什么?它们之间怎样相互作用?又怎样同感官发生作用?对这种实体提出什么问题才合理?用什么办法才能找到答案?至少在已成熟的科学中,对这上类问题的回答(或者是完全可以代替答案的东西)已经深入到了学生由以获得专业训练的教学之中。那种教育又严密又刻板,因而这些答案也可以在人们的科学思维中留下深刻影响。这很能说明常规研究活动的特殊作用以及它在任何一段时间中所遵循的方向。在第III、IV、V各节中考查常现科学时,我们最后将说明,那种研究不过是一种狂热而虔诚的尝试:想把自然界强迫纳入专业教育所规定的思想框框里。同时我们还会怀疑,不管在历史来源或以后的发展中有些什么任意性因素,如果没有这样的框框,究竟还能不能进行研究。

    这种任意性因素确实存在,对科学的发展也有重要作用,这一点将在第VI、VII、VIII各节中详加考察。大部分科学家都难免要把几乎全部时间化在常规科学上,因为常现科学建立在这样一个假定之上:科学家了解世界是什么样子。科学事业的许多成就都是从科学界捍卫这个假定的决心中得来的,必要时还不惜付出相当的代价。例如,常规科学往往压制重大的革新,因为必然要打破它的一些基本成现。但是只要成规中有任意性因素,常规研究的本性又可以保证革新不会被压制很久。有时一个很普通的问题,本来可以用已知的规则和方法加以解决,但是虽经这个专业的研究集体中最有才能的人反复钻研,仍然不得解决。也有时,为常规研究制造的某一种设备不合要求,结果出现了反常,怎么努力也不能使之同科学上预期的现象相一致。在这样一些情况下,常规科学就会走入歧途。这时候——也就是当这一专业再也避不开那种破坏科学实践旧传统的反常现象时——就会开始那种非常研究,最后终于把这一专业引向一套新的成规,为科学实践提供一个新的基础。这种使专业的成规发生变革的非常事件,就是本文所说的科学革命。作为常规科学活动所受传统束缚的补充,革命是对这种传统的破坏。

    科学革命最显著的例子,是那些在以前科学发展中也经常被称为革命的著名事件。因此,在第一次直截了当地分析科学革命本质的第IX、X节中,我们将反复谈到那些在科学发展中同哥白尼、牛顿、拉瓦锡、爱因斯坦等名字相联系的重大转折点。这些历史事件,至少就物理科学而言,比大多数其他事件更能说明科学革命究竟是怎么回事。每一次革命都迫使科学界推翻一种盛极一时的科学理论,以支持另一种与之不相容的理论。每一次革命都必然会改变科学所要探讨的问题,也会改变同行们据以确定什么是可以采纳的或怎样才算是合理解决问题的标准。每一次革命都彻底改变了科学的形象,以至于最后我们不得不说,那个人们在里面进行科学研究的世界也根本变了。这些变化同几乎总是随之而来的争论一起,决定了科学革命的特征。

    研究一下牛顿革命或者化学革命,这种特征表现得特别明显。但本文却有这样一个基本论点;研究革命性不那么明显的其他事件,同样也可以得到这些特征。麦克斯韦方程对于受到影响的小小专业集体也同爱因斯坦方程一样地革命,从而也一样地受到抵制。创立另一种新理论如果触犯了某些专家的专门职权范围,也照例会激起他们同样的反应。对这些人来说,新理论意味着改变常规科学原来所遵循的规则。因此,新理论不可避免地要指责他们所已经完成的许多科学研究。正因为这样,一种新的理论,不管应用范围是多么专门,都很少会、甚至永远也不会只是已知事实的累加。新理论的同化作用要求重新构思原来的理论,重新评价原来的事实,这个内在的革命过程很少是由一个人单独完成的,更不是一夜之间所能完成的。毫不奇怪,历史学家很难为这个漫长的过程标出确切的日期来,而他们的专业语汇却又总是迫使他们把这个过程看成是孤立事件。

    创立新理论,还不仅仅是对有关专业领域专家们的致命的冲击。支配常规科学的成规不仅指明了宇宙包含些什么实体,还暗示了宇宙不包含什么实体。由此可以得出——尽管这一点还要进一步讨论——象氧或X射线那样的发现,决不单单是为了在科学家世界的总汇中多增添一个项目。只要学术界重新评价传统的实验方法,取代它久已熟悉的实体观念,并在这个过程中改变它把握世界的理论框架,最后就会出现这样的结果。除了在单一的常规科学实践中,科学事实和科学理论不能截然分开。正因为这样,意外的发现就不单纯是输入了一些事实,由于这些崭新的事实和理论,科学家的世界既有了量的丰富,也有了质的变化。

    这样来引伸关于科学革命本质的概念,下文将样加叙述。大家知道,引伸就会扭曲通常用法。尽管这样,我还是要说新发现是革命的,因为,正是由于有可能把这些发现的结构同哥白尼那样的革命联系起来,我才觉得这个引伸了的概念有这么重要。上面的讨论表明,常现科学和科学革命这两个互补的概念将怎样在以后紧接的第区节中展开。本文其他部分安排另外三个重要问题。第XI节通过讨论教科书,看着科学革命为什么以前是那么难以发现。第XII节描述了常现科学者传统的拥护者同新传统的追随者之间在革命过程中的竞争。因此,这一节我们也考察了这样一个过程,通过这个过程一定程度上可以在科学探索的理论中代替那种科学中通常所熟悉的证实或证伪程序,科学界不同部分之间的竞争,其实不过是不断否定一种以前公认的理论或接受另一种理论的历史过程。最后,第XIII节将提出这样一个问题:通过革命而发展怎么能同看起来是科学特有的进步性质一致起来呢?对这个问题,本文只想提供一种答案的轮廓,这个答案还取决于尚待进一步探讨的科学共同体特点。

    某些读者肯定已在怀疑,历史的研究究竟能不能得出本书所要讲的那种根本观念上的转变呢?用逻辑两分法的全套武器可以表明:不可能完全做到这一点。历史是一门纯粹描述的科学,这一点我们说得实在太多了。但上面提出的论点却把历史说成是解释的、有时还是规范的科学。而且,我的许多概括还牵涉到关于科学家的社会学或社会心理学,而我的某些结论至少在传统上是属于逻辑学或认识论的。在前面的一段文字中,我可能会侵犯到现代影响很大的“发现的前后关系”同“论证的前后关系”之间的界限。混淆了不同的科学领域和科学上不同的重点,除了造成极大的混乱以外,还能有什么呢?

    思想上离开了这一类的界限,我们简直无法更了解它们的含意和力量了。许多年来我一直认为,这关系到认识的本质问题。现在我还是认为,经过适当的修正,这些界限仍然可以为我们说明一些重要的问题。但是当我试图把这些界限应用到我们获得、接受和消化知识的实际情况时,即使是广义的应用,也是非常成问题的。这并不是一些基本逻辑或方法论方面的界限,从而比分析科学知识更为重要,现在看来,这正是一套传统可靠答案的一个组成部分,这些答案正是针对提出这种界限的那些问题的。这个逻辑循环绝不会使它们无效。但又确实使它们成为一种理论的组成部分,这样,它们也象其他理论一样需要仔细加以分析。如果它们的内容不仅是一些纯粹的抽象,那就必须看看把它们用到所要阐明的材料时其内容究竟怎样。难道科学史就不能为我们提供这样一些现象,可以合理地要求把认识论用上去吗?

    II  走向常规科学

    凡是具备这两个特点的科学成就,此后我就称之为“规范”。这是一个同“常规科学”密切有关的术语。我采用这个术语是想说明,在科学实际活动中某些被公认的范例——包括定律、理论、应用以及仪器设备统统在内的范例——为某一种科学研究传统的出现提供了模型。这就是一些历史学家在“托勒密(或哥白尼)天文学”、“亚里士多德(或牛顿)力学”、“微粒(或波动)光学”等标题下所描述的那种传统。学习这种规范,包括许多比前面所举的还要专门得多的规范,主要是使一个新手准备好参加那个此后他即工作于其中的科学共同体。他在那里所遇到的人,也是从同一模型中学到专业基础的,因此在他们以后的活动中,就不大会再在基本原则方面碰到重大分歧。根据共同规范进行研究的人们,也受同样的科学实践规则和标准所制约。这种制约以及由此所造成的表面上的一致,正是常规科学的前提,也是某一种研究传统形成和延续的起源。

    本文经常用规范概念代替各种熟悉的观念,因此,为什么要引进这个概念,还要作一些说明。具体科学成就作为专业性的规定,为什么要比由此抽象出来的概念、定律、理论和观点更为重要呢?共有规范对于科学中的新手来说,在什么意义上是一个逻辑上不能再分成具有同样功能的更小部分的基本单位呢?当我们在第V节中碰到这些类似问题时,怎样回答这些问题,对于了解常规科学以及有关的规范概念,是具有根本意义的。但是,这种更加抽象的讨论,还要取决于同作用中的常规科学范例或规范范例以前联系得怎样。特别是,如果注意到没有规范,至少是没有上面所举那种毫不含糊而又有约束力的规范,也可以进行某种研究,那么,常规科学和规范这两个相互有关的概念就清楚了。有了一种规范,有了规范所容许的那种更深奥的研究,这是任何一个科学部门达到成熟的标志。

    如果历史学家追溯一组挑选出来的现象,他很可能碰上物理光学历史所表现出来的那种发展模式,尽管可能略有变形。今天的物理教科书告诉学生,光是光子,也就是某种波动性和某种粒子性的量子力学实体。由此再研究下去,或者说,根据更精确的数学特征(由此得出语言特征)而研究下去。但是,对光的这种特征的描述,还只有半个世纪。本世纪初普朗克、爱因斯坦和其他人在进行这种描述以前,物理教科书还在教导说光是横波运动,这种认识扎根于一种规范之中,一种从十九世纪初杨(Young)和弗雷斯内尔(Fresnel)的光学著作中最后得出来的规范。波动理论起初也并不是大部分光学工作者所接受的。十八世纪中牛顿的《光学》为这个领域提供了规范,它教导说,光是物质粒子。那时的物理学家们都在寻求光粒子对固体的压力的证据,而早期的波动理论家们却不这样做。[约瑟夫·普列斯特利(Joseph Priestley):《关于视觉、光和色的发现的历史和现状》(伦敦;1972年),第385~39O页]

    物理光学中规范的这种转化,就是科学革。一种规范经过革命向另一规范逐步过渡,正是成熟科学的通常发展模式。但这种模式没有牛顿以前那个时代的特征,我们在这里所关心的也正是二者的差别。从远古开始直到十七世纪末为止,在这段历史时期中没有出现过一种大家都能接受的关于光的本质的看法。相反,总是有许多互相竞争的学派和小流派,其中大多数都拥护伊壁鸠鲁、亚里士多德或托勒密理论的某种变形。一些人把光看作是从物质客体发射出来的粒子;而另一些人认为,光是介入物体和眼睛之间的某种介质的变态;还有的用介质同眼睛发射物之间的相互作用来解释光;此外还有其他各种不同的组合和变形。每一个相应的学派都从它同某一种形而上学的关系中吸取力量,每一个都强调它的理论最能解释的那一组光学现象才是合乎规范的观测。为此,它也精心研究了另外一些观测,以免为进一步的研究留下了悬而未决的问题。[瓦斯科·隆奇(Vaseo Ronchi):《光学史》;让·塔顿(Jean Taton)译(巴黎,1956年),第i-iv章]

    所有这些学派都在各个不同时代为物理光学的主要概念、现象和技巧作出了重大贡献,而牛顿则从中引出了第一个几乎为大家一致公认的规范。任何一个关于科学家的定义,如果排除了这些不同学派中富有创造性的成员,也就排除了这些学派的现代继承人。这些人的确是科学家。但如果回顾一下牛顿以前的物理光学。人们完全可以得出结论说,那时这方面的工作者虽然是科学家,而他们工作的最后成果却不怎么够得上科学。既然可以不要什么共同的信念,每一个物理光学家都感到必须从根本上重建这门科学。这么一来,他要支持些什么观测和实验,也就可以相对自由地加以选择,因为并不存在一套每一个光学家都必须加以采纳的标准方法,或必须加以解释的标准现象。这种情况下所产生的一些著作,就总是对准其他学派的人,而不是对准自然界。这种模式,在今天许多富有创造性的领域中也不陌生,同重大发现和发明之间也没有矛盾。但这却不是牛顿以后物理光学所采取的发展模式,也不是其他自然科学今天所熟悉的模式。

    十九世纪上半叶电学发展的历史可以提供一个更加具体、更为熟悉的例子,说明一门科学在获得第一个普遍接受的规范以前是怎样发展起来的。在那时候,几乎有多少重要的电学实验家,象Hauksbee、Gray、Desaguliers、Du Fay、Nollett、Watson、富兰克林等人,对电的本质就有多少看法。在所有这许多电的概念中,存在着某些共同的东西——这许多概念,都是从当时指导一切科学研究的机械粒子哲学的某种变形中片面地引伸出来的。而且,这些都是真正科学理论的组成部分,它们部分地来源于实验和观察,部分地又决定着怎样选择和解释研究中新出现的问题。虽然所有这些实验都是电学实验,虽然绝大部分实验者都读过彼此的著作,但他们各自的理论却只不过象是同一家族中的不同成员。[杜安·鲁勒(Duan Roller)和杜安· H· D·鲁勒(Duane H·D·Roller):《电荷概念的发展:电学从希腊人到库伦》(《哈佛实验科学事例史》第8例,马萨诸塞州,坎布里奇,1954年);I.B柯亨(Cohen):《富兰克林和牛顿:探索牛顿思辨的实验科学理论以及由此产生的富兰克林电学著作之例》(费拉德尔菲亚,1956年),第Xii~Xii章。对下一段中某些分析的细节,我感谢我的学生约翰·L·布隆尚未发表的文章。在此文发表前,对富兰克林的规范的某种更展开、更确切的说明,见T.S.库恩:《科学研究中教导作用》,载A.C.克隆比(Crombie)编:《1961年7月9~15日牛津大学科学史专题会议》。即将由海涅曼教育书店出版]

    一批早期的理论家们根据十七世纪的实践,把吸引和摩擦起电看作是基本的电现象。这些人倾向于把排斥作为机械回跳所产生的二级效应,并又尽可能拖延对格雷新发现的电传导效应进行讨论和系统研究。另一些“电学家”(如他们所自称的)把吸引和排斥同样看成是电的基本表现,并据以修改他们的理论和研究工作。(实际上他们的人数很少——甚至连富兰克林的理论也从没有充分说明过两个带负电荷的物体为什么互相排斥。)但是他们在同时说明任何一种最简单的导电效应时,也碰上了同前一批人一样的困难。这种效应又为第三批人提供了一个出发点,他们倾向于把电说成是可以穿越导体的“流体”,而不是一种由非导体发射出来的“以太”。于是他们又面临着怎样把他们的理论同大量的吸引排斥效应协调起来的困难。只是通过富兰克林和他的直接后继者的工作才有了一种新的理论,可以同样简便地说明几乎所有这些效应,从而也可以给下一代“电学家”的研究工作提供一个共同的规范。

    象数学、天文学这样一些部门,早在史前时期就有了第一个明确的规范,再象由专业的分化和重组而形成的生物化学,也已臻于成熟。除了这几个特殊部门以外,上文所勾画的情况在历史上还是很典型的。虽然我不得不继续采取这种不恰当的简单化作法,把连续的历史事件硬套上一个简直是信手拈来的名字(例如牛顿或者富兰克林),但我却认为,这样的根本不同正是表现了这样一些学科的特点,象亚里土多德以前对运动、阿基米德以前对静止的研究、布来克(BIack)以前对热的研究、波义耳和波尔哈夫以前的化学的研究、胡顿(Hutton)以前对历史地质学的研究等等。在生物学的各个分支中——例如对遗传的研究——有了第一个为人们所普遍接受的规范,还是最近的事;而在社会科学中,究竟哪些分支已具备这种规范,还完全悬而未决。历史表明,要使科学研究中意见完全一致,实在是艰巨得很。

    但历史也表明了在这条道路上为什么会碰到这样的困难。如果没有一种规范或某种候补规范,凡是可能合乎某一门科学发展的事实,看起来都会同样地合适。结果,最初搜集事实的活动更近乎一种随机活动,而后来科学的发展却使之习以为常了。而且,因为没有必要寻求什么样的更隐秘的信息,最初搜集事实一般也只限于某些信手拈来的材料来源。在由此聚成的蓄水池中,也包含着那些易于受到偶然的观察、实验以及某些更奥秘材料影响的事实,都可以从医药、制定历法和冶金这一类行业中重新找到。由于这些行业可以随时提供不能按照因果关系发现的事实,因而在新科学的涌现中,它们的工艺经常起着不可缺少的作用。

    这样来搜集事实,对许多重要科学的起源尽管很重要,但是只要查阅一下普林尼(Pliny)的百科全书式著作或培根的自然史就会发现,这里有个泥坑。这样所产生的文献究竟算不算科学,人们会有所犹豫。培根关于热、色、呼吸、开矿等的“历史”中充满了消息,其中有一些也很深奥难解。但是在这些历史中,他却把那些后来证明是很能说明问题的事实(如通过混合而加热),同那些在一定时期内由于过分复杂而根本综合不到理论中去的事实(如粪堆中的热),杂然并列起来了。[参见培根《新工具》一书中关于热的自然史纲要,《弗兰西斯·培根著作集》第VIII卷,J、斯拜丁(Spedding)、R.L.埃利斯(Ellis)和I.D.希兹(Heath)编(纽约,1869年),第179~203页]还有,任何描述总是不完全的,因此,在一部标准自然史的大量详尽叙述中,也总会遗漏一些后来科学家恰好就在这里找到的重要启示。比方说,几乎没有一部早期的电学“历史”曾经提到过,摩擦过的玻璃棒把草屑吸引过来以后又会把它弹回去。这似乎是机械效应,不是电效应。[鲁勒和鲁勒,培根《新工具》,第14、22、28、43页。只是在培根书中最后引用了这些话之后,排斥效应作为一种明确的电效应才得到普遍的承认]而且,按照因果关系收集事实的时间很少,也没有必需的方法,因而自然史常常把上面我们所举那些描述同我们现在还不大能肯定的描述并列起来,比方说关于阻抗生热(或冷)的描述。[培根,《新工具》第235、337页:“微温的水比完全冷却的水更易于结冰。”对这种奇特观察的早期历史,在下书中有一部分记载:马歇尔·克莱杰特(Marshall CComgett):《乔温尼·马利安尼(Giovani Marliani)和中世纪晚期物理学》(纽约;194O年);第IV章]只有在十分偶然的情况下,例如古代静力学、动力学和几何光学在没有什么预定理论指导下所搜集到的事实,才足以明确地宣告容许第一个规范的涌现。

    这就是在一门科学早期发展阶段上建立这个阶段所特有的各种学派的情况。只有有了理论上和方法论上的信念,才能进行选择、评价和批评;如果没有这种信念,至少是某种隐含的信念,任何一部自然史都无法得到解释。如果这种信念的内容没有隐含在所搜集的事实之中——这种情况就不只是现成的“纯事实”了——那就必须通过流行的形而上学、其他科学或个人和历史的偶然事件从外界提供这种信念。因此毫不奇怪,在任何一门科学的早期发展阶段,不同的人对同样一些领域的现象,尽管未必都是同样一些具体现象,却会作出全然不同的描述和解释。令人吃惊的,而在这些我们称之为科学的领域中也许是最令人吃惊的是,初期的这种分歧总是大部分不见了。

    这些分歧,的确在相当大的程度上不见了,而且简直是一劳永逸地不见了。而且,通常总是由于一个前规范学派的成就使这些分歧不见了。这个学派由于它所特有的信念和先入之见,总是只强调那个太大而又太不发达的消息库中的某一特殊部分。有些电学家把电看成是一种流体,并从而特别强调它的传导作用,他们正好提供了一个出色的事例。按照这个信念,他们难以应付已知的大量吸引排斥效应,于是有些人就设想把这种电流体用瓶子装起来。他们努力的直接成果就是莱顿瓶,偶尔随机探索自然的人永远也不会发现这种装置。事实的确是在十八世纪四十年代早期,至少是由两个研究者独立提出来的。[鲁勒和鲁勒,培根《新工具》,第51~54页]富兰克林几乎从一开始进行电学研究时,就特别注意解释这种新奇而结果又特别有意义的专门仪器。他在这方面的成就,提供了使他的理论成为一种规范的最有力的论据,尽管仍然不能充分解释所有已知的.电排斥现象。[麻烦的是带负电物体的相互排斥;可参阅柯亨;前引书;第491~494、531~543页]一种理论成为规范,一定要比其他竞争对手更好,但并不一定要解释、事实上也从未解释过一切可能碰到的事实。

    电流体理论为一小部分相信这个理论的人所提供的东西,后来富兰克林的规范也为全体电学家提供了。这个规范指明了哪些实验值得作,哪些则由于只是针对次要现象或明显的复合现象而不值得。只有规范才能有效地完成这个任务,这部分是因为学派内部的争论使他们不需要再去不断地重申那些基本原则,部分则因为科学家们自信路子走对了,从而鼓舞了他们从事更精确、更深奥、也更费劲的研究工作。①电学家们结成的集体不要再去注意所有一切电学现象了,因而他们就有可能去设计更专门得多的装置,比以往任何电学家都要更加顽强而系统地运用这些装置,以便更细心地追踪某一种选定的现象。事实搜集和理论表述都成了高度有目的的活动。电学研究从而更加有效了,效率也更高了,它从社会方面证实了培根的一句锐利的方法论格言:“从错误中比从混乱中更易于出现真理”。②

    下一节我们将考察这种高度有目的的或者说根据规范所进行的研究工作,但先要扼要说明,规范的涌现怎样影响到这个领域工作集体的结构的。在自然科学的发展中,当个人或集体第一次达到了能吸引下一代大多数实际工作者的综合时,老的学派就逐渐消逝了。这部分是由于这个学派的成员转变到新的规范方面去。但是总会有那么一些人墨守某种老观点,于是他们干脆被排除出这个行业,从此,他们的工作就再也无人理睬了。新的规范意味着这个领域有了新的更严格的规定。谁如果不肯或不能同它谐调起来,就会陷于孤立,或者依附到别的集团那里去。③在历史上,这些人往往干脆呆在哲学部门里,反正那么多的专门科学都是从这里孳生出来的。这些迹象表示,有时正是由于接受了一种规范,才使以前只是关心研究自然界的那批人成了同行,或者至少建立了一门学科。在这些科学中(而不是在医学、技艺、法律这样一些领域中,因为它们主要的存在理由是外界社会需要),形成专门化的期刊,创立专家的学会,并在课程中要求专门地位,通常都同一个集团第一次接受某一种规范有联系。至少,从一个半世纪以前科学的专门化第一次成为制度起,直到最近专门化知识已建立了威信为止,情况就是这样。①应当指出,接受富兰克林的理论并没有完全结束一切争沦。1759年罗勃特·西莫(Robert Symmer)提出了两种流体说;此后许多年中,电学家就是按照电是一种流体还是两种流体而分开来的。但是这个问题的争论只能证实,上面所说普遍承认的成就就是这样把这个专业联结起来了。电学家们虽然在这一点上还有分歧,却已迅速地提出结论:任何实验都不能把这两种理论区别开来,因此,二者是等效的。这以后,两个学派都能够而事实也都利用了富兰克林的理论所提供的一切好处(同上书,第543~546、548~554页)。

    ②培根,前引书,第21O页。

    ③电学史提供了可从普列斯特利、开尔文等人的经历中重现的出色事例。富兰克林报告说,那个世纪中叶欧洲大陆上最有影响的电学家诺列特“生前看到他自己是他那个小流派的最后一人;除了他自己优秀的谪传门徒B.君以外”(马克斯·费兰德[Max    Farrand]编:《本杰明·富兰克林回忆录》[加利福尼亚州伯克利;1949年]第384~386页)。但更有趣的是。所有的学派—直都是愈来愈从专业学科中独立出来。试以占星术为例,它一度是天文学的一个组成部分,再看看从十八世纪末延续到十九世纪初的一个以前很受重视的“浪漫主义”化学传统。这正是查尔士·C·吉利斯庇(Charles C. Gillispie)在下列著作中讨论过的那种传统:《百科全书派和科学中的雅各宾哲学:关于观念和结论的研究》,《科学史中的关键问题》,马歇尔·克莱杰特编(威斯康辛州康迪逊,1959年),第256~289页;《拉马克进化论的形成》,《世界科学史成就》第XXXVII卷(1956年),第323~338页。

    对科学界更严格的限定,还带来了其他的后果。当个别科学家可以接受某一种规范时,他的主要工作就再也不需要从起码的原则开始,证明每一个引进的概念都合理,来重新确立他的研究领域了。这一些都可以留给教科书作者们。而有了一本教科书,科学家就可以从教科书达不到的地方开始研究,从而可以高度集中到科学界所关心的最微妙、最深奥的自然现象中去。这样做,他的研究公报就要开始改变形式了。对这种公报形式的演化,过去研究得太少了,但它在现代的作用却对所有人都是显而易见的,对许多人也是沉闷的。科学家的研究工作再也不会象以前那样,体现在写给那些对此有兴趣人们的书中了,象富兰克林的《关于电的……实验》或达尔文的《物种起源》。相反,通常只是写一篇简要的文章给同行们看,这些人肯定都知道共有的规范,而且也只有他们能够阅读这些写给他们的文章。

    今天的科学书籍,通常要么是教科书,要么是关于某一方面的科学生活的追溯。科学家写这样一本书,很可能会发现他在专业方面的声誉不是得到提高,而是受到损害。只有在各门科学更早的前规范发展阶段上,。这样的书一般才可以同在其他创造性领域中那样,仍然保持与专业成就的关系。只有在那些仍然把这种书作为一种学术交流工具的领域中,不管有没有专题文章,专门化的界限还是很不严格,外行们还以为只要读了研究工作者的原始报告就可以跟上去。在数学和天文学中,从古以来研究报告就不再是受过一般教育的读者们所能理解的。在力学中,在中世纪后期研究工作已同样深奥,只是到十七世纪早期,在新规范取代曾指导中世纪研究工作的老规范的过程中,才有过一个短暂的时期力学重新为一般人所理解。在十八世纪结束以前,电学研究也开始需要对外行们进行解释,而物理科学的大部分其他分支,到十九世纪一般人就再也不容易接受了。同样经过这两个世纪,从生物科学的各个不同部门中也可以概括出这种过渡来。社会科学有些部门,今天可能还处于这样的过渡之中。专业科学家同其他领域的同行们之间的鸿沟,愈来愈大了,这种哀叹虽已习以为常,肯定也很合理,但人们却太不注意这个鸿沟同科学进展固有机制之间的根本关系了。

    从史前期以来,研究领域一个接着一个都跨过了历史学家称之为一门科学的前史和本史之间的分水岭。这些科学向成熟期过渡,我在这里必须顺序加以讨论,实际上却很少有象我说的那么突然,那么分明。但历史上的这种过渡也不是渐进的,就是说,也不是整个领域一起发展的。电学作者们关于电学现象,在十八世纪前四十年中比他们十六世纪的先驱们拥有多得多的知识。在1740年以后的半个世纪中,并没有几项新的电学现象增加到他们的清单上。不管怎样,在一些重要方面,卡文迪什(Cavendish)、库仑(Coulomb)和伏特(Volta)在十八世纪最后三十几年中的电学著作距离格雷、杜·费直至富兰克林的著作,比这些十八世纪早期的电学发现者的著作距离十六世纪这方面的著作,要远得多了。①只有在1740年到1780年之间,电学家才第一次有可能把建立这样一个领域视为理所当然。从那时起他们就深入进到一些更具体、更深奥的问题上,随后也愈来愈用专题文章的形式把结果报告给其他电学家,而不是用书籍的形式报告给广大知识界。他们作为一个集体,已经达到了古代天文学家的水平,也达到了学生们在中世纪关于运动、在十七世纪晚期关于物理光学、在十九世纪早期关于历史地质学的水平。也就是说,他们已获得一种证明有可能指导整个集体进行研究的规范。除了事后认识到这种好处,很难另外找到什么标准可以明确宣布某一个领域成为一门科学。

    ①在富兰克林以后,有以下几方面的巨大发展:电探测器的灵敏度,第一种可靠的普遍推广的测量电荷的技术,电容概念以及与最新提炼的电压观念之间的关系的进展。还有静电力的定量等。可参阅鲁勒和鲁勒,前引书,第66~81页;W.O.沃克(walker):《十八世纪对电荷的探测和估量》,《科学年鉴》,第1卷(1936年),第66~1O0页;爱德门德·霍普(Edmund Hoppe):《电学研究》(莱比锡,1884年)第1部,第iii~iv章。

    III  常规科学的本质

    ①拉丁文动词“爱”的第一、第二、第三人称。

    ②拉丁文动词“称赞”的第一、第二、第三人称。

    如果了解了怎么可能是这样,我们就会认识到一种规范第一次出现时所能达到的范围和精确性是多么有限。规范所以能够获得这样的地位,因为它去解决一批实际工作者公认的重大问题时比竞争对手更为成功。但它更为成功的之处,却既不是完全成功地解决某一个问题,也不是显著成功地解决多么多的问题。一个规范的成功——不管是亚里士多德对运动的分析、托勒密对行星位置的计算、拉瓦锡对天平的应用还是麦克斯韦对电磁场的数学化——从一开始就主要是一种在选定的、但仍然未完成的事例中获得成功的指望。常现科学就在于实现这种指望,办法是:扩大对于那些规范特别能够加以说明的事实的知识,加强这些事实同规范预测之间的配合,进一步详细表达规范的本身。

    若不是一门成熟科学的真正实际工作者,很难理解一种规范会留下多少有待完成的扫尾工作,而进行这一类工作又是多么使人入迷。这几点必须加以了解。扫尾工作使绝大多数科学家献出了他们的全部生涯。他们创立了我这里称之为常规科学的东西。进一步看,不管是在历史上的还是现代的实验室中,这件事就象是硬要把自然界塞进规范早已制成的相当僵化的框框里。常现科学的目的绝不是引起新类型的现象;凡不适合这个框框的现象,实际上往往根本就看不到。科学家的目标按常规并不是发明新理论,他们也往往不能容忍别人的这种发明。①相反,常规科学研究总是为了深入分析规范所已经提供的现象和理论。

    ①帕纳德·巴勃(bernard Barber):《科学家对科学发现的抵制》,《科学》;第CXXXIV卷(1961年),第596~602页。

    这也许是缺点。当然,常规科学探讨的范围微不足道;我们现在所讨论的常规研究,其视野也受到严格的限制。但正是这些因信仰规范而产生的限制,对科学的发展却成为不可缺少的。由于集中注意狭小范围中比较深奥的问题,规范会迫使科学家仔细而深入地研究自然界的某一部分,否则就不能想象。常规科学具有一种固定机构,不管造成这种限制的规范什么时候不再发挥有效作用,它都可以保证把这种束缚研究的限制加以放松。从这一点开始科学家们的行动不同了,他们研究课题的性质也变了。但是,在规范获得成功的间歇期中,这一专业团体将会解决一些问题,其成员如果不信规范,不但想不到,也永远提不出。至少有一部分成就永远都是这样。

    为了更清楚地表明常规研究也即根据规范进行的研究究竟是什么意思,让我对常规科学所包括的主要问题加以分类和说明。为了说明的方便,姑且不谈理论研究,先看看事实的搜集,也即科技刊物中所描述的实验和观察,科学家们正是通过这些刊物的同行们报告他们不断研究的成果。科学家通常报告自然界的哪些方面呢?他们的选择取决于什么呢?而大多数科学观察都要花费大量时间、设备和金钱,推动科学家求得这一选择所导致结果的动力又是什么呢?

    我以为,关于事实的科学研究通常只有三个中心,它们之间的区别既不经常,也不永恒。首先是那一类事实,规范表明它们特别能揭示事物的本质。规范用这些事实解题,使事实对更加多样的情况具有更加精确的判决作用。某一个时期的这种关于事实的重大判决有:天文学中——行星的位置和大小、双星星蚀周期和行星周期;物理学中——物质所特有的引力和可压缩性,波长和光谱强度,导电性和接触电位;化学中——化合物和化合量,溶液的沸点和酸性,结构式和旋光性。为了提高认识这些事实的精确性、扩大认识范围所作的努力,占去了实验观察科学的大部分文献。为此目的,一次又一次地设计了复杂的专门仪器,而发明、制造和布署这些仪器都要求第一流的人才,还往往要求相当的财政后盾。同步加速器和射电望远镜不过提供了最新的例子来说明:只要规范可以肯定科学工作者所寻求事实的重要性,他们就能做到这样的程度。从第谷·布洛赫(Tycho Brahe)到E.O.劳伦斯(Lawrence),某些科学家之所以获得巨大声誉,并不是由于他们的发现有什么新颖,而是由于他们为重新判定某种以前已知事实所用方法的精确性、可靠性和广泛性。

    第二类的事实判定很普通,但也更少。这类判定针对那样一些事实,它们本身没有什么重要性,但可以直接用来同规范所预测的作比较。当我从常规科学的实验问题转到理论问题时,我们很快就会看到,一门科学理论,特别是主要以数学形式出现的理论,可以直接同自然界相对照的地方是不多的。这样的地方,即使是爱因斯坦的广义相对论所能达到的,也不超过三个。①而且,即使在这种可以实际应用的地方,也往往要求理论上和实验上更加接近,以免严重限制所期待的一致。为了更加一致,或者为了发现一些新的可以一举证实这种一致的领域,正在不断对实验者和观测者的技巧和想象力提出挑战。特种望远镜证实了哥白尼对周年视差的预测;阿乌德(Atwood)机是在牛顿《原理》以后几乎。个世纪才第一次发明的,却第一次毫不含糊地证实了牛顿第二定律;傅科(Foucault)的仪器表明光速在空气中比在水中大;设计巨型闪烁计数器是为了证明中微子的存在——象这样一些以及其他许多类似的特殊仪器,说明必需有这些巨大的努力和创造性才能使自然界同理论愈来愈一致起来。②试图证明这种一致性,是第二种类型的正常实验工作,它甚至比第一种更明显地依赖于一种规范。规范的存在使问题开始得到解决;规范理论往往直接包含在有可能解决这个问题的仪器设计之中。例如,如果没有《原理》,用阿乌德机所作测量就毫无意义。

    ①至今仍然得到广泛承认的唯一长期成立的验证,就是水星近日点的岁差。关于远星体光谱线的红移,可以从比广义相对论更基本的原因得出。光线绕太阳时的弯曲可能也是这样,这一点现在仍在争论之中。不管怎样,后两种现象的测量仍然含糊不清。最近可能又增加了另一种检验:穆斯保尔(Mossbauer)辐射的引力迁移。在这个现在很活跃但经过长期休眠的领域中,也许很快地会有变化。对这问题最新的简要说明,见L.I.什夫(Schiff):《NASA会议上检验相对论的报告》,《今日物理》,第XIV卷(1961年),第42~48页。

    ②关于两种视差望远镜,见阿伯拉罕·沃尔夫(Abraham Wolf):《十八世纪科学、技术、哲学史》(第二版;伦敦,1952年),第103~1O5页。关于阿乌德机,见H.R.汉森(Hanson):《发现的模式》(剑桥,1958年),第100-102、207~2O8页。关于后面两种特种仪器,见M.L.傅科:《关于测量空气和透明介质中的光速的一般方法》,《科学院的…活动报告》;第XXX卷(1860年),第551~56O页;C.L.小柯温(Cowan)等;《自由中微子的探测:一个证实》,《科学》;第CXXIV卷(1956年),第103~1O4页。

    第三类实验和观察,我认为穷尽了常规科学的搜集事实活动。它包括详细分析规范理论的经验性工作,以消除某些残留的含混不清,从而使以前只是引起注意的问题可以得到解决。这一类是最重要的一类,要加以描述还得细分。在更加数学化的科学中,旨在进行详细分析的实验是针对物理常数的判定的。例如,牛顿的研究表明,对于宇宙间任何位置上的任何一种物质,两个单位质量在单位距离之间的力都一样。但即使不考虑这种吸引即万有引力常数的大小,这个问题同样可以解决而在《原理》出现以后一百年中,没有其他任何人设计出能够确定这个常数的仪器。卡文迪什在十八世纪九十年代的著名判定也不是最后一个。由于引力常数在物理科学中的重要地位,改进其数值就成了此后一大批著名实验室反复努力的目标。①这一类长期研究的其他事例是:确定天文单位、阿怫伽德罗(Avoadro)数、焦耳(Joule)系数、电荷等等。如果没有一种规范理论规定了问题并保证有一个稳定的解,就很难设想会有这么多精心的努力,更不会产生任何成果。

    当然,努力把规范表述清楚,并不限于制定普遍常数。努力的目标也可能是定量定律,象波义耳关于气体压力与体积关系的定律,库仑关于电吸引的定律,焦耳关于电阻和电流生热的方程,都属于这一类。规范是发现这一类定律的前提条件,尽管表面上也许看不出来。我们常常听说,这些定律是由于为自己捡验测量数据以及没有理论成规而发现的。但是历史并不支持这样一种太过分的培根式的方法。空气以前被认为是一种所有静力学精密概念都用得上的弹性液体,当时波义耳实验一直不为人们所理解(如果理解了,就会接受另一种解释,或者根本不作解释)。②库仑的成功是因为他制造了一种专门仪器来测量两个点电荷之间的力(以前用普通的盘式天平等测量电力,根本没有发现有任何联系或简单规则性。)。但这一设计又依赖于以前的认识:每一个电流体粒子都超距作用于其他每一个粒子。这就是库仑正在寻求的两个这种粒子之间的力——唯一可以有把握假定为单纯距离作用的力。③焦耳的实验也可用来说明,定量定律是怎样通过说明规范而涌现的。事实上,定性的规范和定量的定律之间的关系如此广泛而密切,以至于从伽里略时代起,在设计出用于实验判定的仪器以前许多年,人们就常常借助于规范而确切地猜测出这些定律来。④

    最后,还有第三种旨在说明一种规范的实验。这种实验比其他的更象一种探测;在那样一些时期和科学中,即需要更多解决自然界规则性的定性问题而不是定量问题时,这种实验特别盛行。通常从一组现象中提出来的规范,用到其他密切有关的现象时就含糊不清了。于是,怎样才能把规范应用到人们所关心的新领域,实验就必须有所选择。例如,把热质说当作规范用,就是以混合和改变状态来加热或冷却。但热还是可以通过别的方式释放或吸收——例如化学化合、摩擦、气体的压缩或吸收——而且热质说也可以通过几种不同的方式应用到这里的任何其他现象。如果真空也有加热的能力,那么,压缩加热就可以解释为气体同虚空相互混合的结果。要么就是由于特种气体热因压力改变而发生变化。此外还有几种别的解释。许多实验,就是为了试探并辨别这许许多多不同的可能性;而所有这些实验都来自作为规范的热质说,都是利用规范来设计实验并解释实验结果的。⑤一旦压缩加热现象被证实了,这方面一切进一步的实验就都以同样方式依赖于规范了。给定了现象,阐明现象的实验还能有什么别的选择呢?

    ①J.H.帕印亭(Poynting)评论了1741年到1901年之间关于引力常数的二十四个测量,见《引力常数和地球平均密度》,《大英百科全书》,第11版,剑桥,1910~1911年;第Xll卷,第385~389页。

    ②关于液体静力学概念全部移植到气体力学之中;见《巴斯卡物理学论著》,I.H.B斯庇尔(SPiers)和A.G.H.斯庇尔(Spiers)译,载有F.拜雷(Barry)的介绍和注释(纽约;1937年)。托里拆里(Torricelli)最初的平行引进(“我们的生活淹没在空气元素的海洋底层”)见之于第164页。这两篇主要论文表现了引进的迅速发展。

    ③杜安·鲁勒和社安·H·D·鲁勒:《电荷概念的发展:电学从希腊人到库仑》(《哈佛实验科学案例史》,案例8;马萨诸塞州;坎布里奇,1954年);第66~80页。

    ④例如,见T.s.库恩:《现代物理学中测量的作用》,《爱西斯》杂志,第LII卷(1961年),第161~193页。

    ⑤T.S.库恩:《关于绝热压缩的热质说》,《爱西斯》杂志,第XLIX卷(1958年),第132~140页。

    再谈谈常规科学的理论问题,它也几乎要归到实验科学和观测科学同一类中。常规理论工作的一部分,尽管只是很小的一部分,就完全是一种现有理论的应用,即用来预测理论固有意义中所包含的关于事实的信息。编制天文历书,计算棱镜特征,绘制无线电广播曲线,都是这一类问题的实例。科学家们却一般都把这一些看成是舞文弄墨而扔给了工程师或技师。许多这类工作因而没有机会出现于科学刊物。但是,这些刊物所包含的大量问题讨论,对于非科学家来说,看起来却必然差不多都是一样的。人们所以要利用理论,并不是因为从中得出的预测本身有什么价值,而是因为可以直接对付实验。利用的目的在于表现这一规范的新应用,或者提高一种现有应用的精确性。

    扩大理论同自然界之间的接触点经常会遇到巨大困难,正是从这些困难中产生了对上述这一种研究工作的需要。查阅一下牛顿以后的科学史,就可以扼要地说明这种困难。直到十八世纪早期,从《原理》中发现规范的科学家们认为,这本书的结论理所当然地具有普遍意义,他们也有充分的理由这样做。一本著作竟然可以这样大幅度地同时扩大研究范围、提高研究的精确性,这在科学史上已知的著作中还是没有先例的。牛顿为天体推导出了开普勒行星运动定律,也解释了月亮在观察中并不遵守这些定律的几方面的问题。他为地球推导出了关于单摆、斜面和潮汐的一些零星观察结果。借助于外加的但又正是为此目的而作的假设,他本来也有可能推导出波义且定律和空气中声速的重要方程。就当时的科学状况说,这些证明的成就是极其令人难忘的。但从牛顿定律所假定的普遍性看,实际应用的数量就不怎么大,牛顿也几乎没有什么另外的发展。而且,同今天任何一个物理学毕业生用这些定律所能达到的成就相比,牛顿的这一点应用甚至也不精确。

    对精确性问题我们这里姑不多谈。我们已说过这个问题的经验方面。为了提供具体应用牛顿规范所要求的数据,需要有特殊的装置——象卡文迪什仪器、阿乌德机或改进的望远镜。要取得一致,在理论方面也存在同样的困难。例如,牛顿在应用摆的定律时为了给摆长下一个唯一的定义,就不得不把摆锤作为一个质点来处理。他的大部分理论,除了少数假说性的和预备性的以外,也都把空气阻力效应忽略不计。这是合理的物理学近似。但这些理论作为一种近似,又限制了牛顿的预测和实际实验之间所期望的一致。把牛顿理论应用到天体上,这个困难表现的更加明显。单纯定量的望远镜观测表明,行星并不完全遵循开普勒定律,而牛顿理论则表明,本来就不应该遵循。为了推导出这些定律,除了单个行星同太阳之间的引力,牛顿不得不忽略此外的全部吸引作用。而各行星之间却是互相吸引的,因而在所用理论同望远镜观测之间,人们也只能期望一种近似的符合。①

    ①沃尔夫,前引书,第75~81、96~101页;威廉·惠威尔(William   whewell);

    在摆的事例中,所达到的符合超过了得到这种符合的人满意的程度。任何别的理论都不能更符合了。没有一个怀疑牛顿研究工作有效的人能做到这一步,因为它只限于同实验、观察相符合。但这种局限性却为牛顿的后继者留下了很多令人入迷的理论问题。例如,必须有理论技巧才能确定一个重摆的“等效长度”。处理两个以上互相吸引物体的同时运动,也要技巧。这一些以及其他一些类似的问题,在整个十八世纪和十九世纪初叶,耗用了许多欧洲最好的数学家的精力。伯努里(Bernoullis)、欧拉(Euler)、拉格朗日(Comgrange)、拉普拉斯(CompComce)和高斯(Gauss),都为牛顿规范进一步同自然界相称而作出了某些各自最光辉的贡献。许多这样的人物都同时致力于发展牛顿从未想过的实际应用所需要的数学,例如,为解决液体力学和弦振动问题而出现了大量文献和某些非常有效的数学方法。这些实际应用问题占用了十九世纪中可能是最光辉也最耗费精力的那些科学工作。在热力学、光的波动说、电磁理论或者基本定律完全是定量的任何其他科学分支中,查阅一下它们的后规范时期的发展,还可以从中发现其他一些事例,至少在更加数学化的科学中,最理论性的工作还是属于这一种。

    但也不是都属于这一种,即使在数学科学中也有说明规范的理论问题。在科学发展主要还属于定性的时期中,这些问题已占主《归纳科学史》(修订版;伦敦,1847年);第II卷,第213~271页。要地位。在更加定量也更加定性的科学中,有些问题完全是为了通过重新表述而进行分类。例如,《原理》并不是一直证明应用是一件容易事,这部分是因为它保留了初次冒险中某些不可避免的拙劣,部分又因为只有在应用中才能显示出它的许多涵义。因此,从十八世纪的伯努里、达朗贝尔和拉格朗日到十九世纪的汉密尔顿(Hamnton)、雅可比(Jacobi)和赫芝(Hertz),许多欧洲最卓越的数学物理学家都努力以等效的、但逻辑上和美学上更令人满意的形式把牛顿理论加以重新表述。也就是说,他们想以逻辑上更紧凑的形式展示出《原理》中外在的和内含的训诫,把这种形式应用到新提出的力学问题上以减少一些模糊不清。①

    ①若内·杜加:《力学史》(细沙特尔[瑞土],1950年),第    IV~V册。

    所有科学中都一再发生过一种同规范类似的重新表述,但大多比《原理》的重新表述引起了规范更重要的变化。这变化来源于上述说明规范的经验活动。把那一类研究作为经验工作,这样的分类的确有些任意性。同其他任何一种常规研究相比,对规范的说明不但更有理论性,同时也更有实验基础;以前所举的例子这里也同样适用。库仑在制成他那个装置并用以进行测量以前,他必须先用电学理论确定怎样制造他的装置。他测量的结果就是那种理论的精心安排。再说,有些人设计了一些实验来区别不同的压缩生热的理论,他们一般也正是那些提出各种观点以进行比较的人。他们进行研究,不仅运用事实,也运用理论;他们的研究,不单单产生新的知识,还产生一种由于消除了他们据以工作的初始规范所残留的模糊不清而取得的更加精确的规范。在许多科学中,大多数常规研究都属于这一种。

    这三类问题——判定重大事实、理论同事实相配、说明理论——我认为充斥了常规科学的文献,不管是经验科学还是理论科学。当然,它们并没有充斥整个科学文献。也还有一些非常问题,可能正是为了解决这些问题,才使整个科学事业特别值得如此花费精力。但这些非常问题并不是为了提问而必需的。它们只是在常规研究进展所准备好的特殊时机中才涌现出来的。因此,即使是那些最好的科学家所提出的绝大部分问题,通常也总是不出上面所勾画的三大类之一。在规范的指导下研究工作只能这样进行,抛弃了规范就等于不再研究规范所规定的这一门科学。我们很快地就会发现人们的确抛弃过规范。这是科学革命所围绕的枢纽。但在开始研究这个革命之前,我们还需要对开辟道路的常现科学探索有一个更全面的看法。

    IV 常规科学即解难题

    但是,如果常规科学的目的并不在于什么真正重大的新发现——如果不能接近预期结果就是一个科学家的失败——那么为什么要完全接受这些问题呢?部分答案已经有了。至少对科学家来说,常规研究获得的结果是重大的,因为扩大了应用规范的可能范围,提高了应用的精确性。这当然还不足以说明科学家对常规研究问题所表现的热情和忠贞。比方说,仅仅为了即将获取的知识重要,没有人肯多年献身于发展更好的分光仪或改进振动弦问题的解法。利用现有工具计算星表或作进一步的测量,也往往同样重要,但科学家照例都拒绝这些活动,因为大都是重复以前经历过的程序。这就可以说明常规研究问题为什么那么令人入迷。尽管结果是可以预期的,并且常常详尽无遗,即使还有待于认识的东西也变得索然寡味了;但如何得出这一结果,却仍然很不确定。要使常规研究问题得出某一结果,也即以一种新的方式实现预期,就需要解决多种多样复杂的仪器上、观念上和数学上的难题。应功者证明自己是解难题的能手,而难题所提出的挑战又是不断推动他前进的重要力量。

    “难题”和“解难题者”的术语,突出了前几页显得愈来愈重要的几个论点。把难题在用到这种完全标准的意义上,就是可用以测验解题能力或技巧的特种问题。字典里的例子就是“拼板游戏”(jigsaw puzzle)和“纵横字谜”(crossword puzzle),这正是这些难题同这里需要加以区别的常规科学问题所共有的特征。上面刚刚说过的就是特征之一。难题好不好,标准并不在于其结果是不是本来就有趣或重要。相反,真正迫切的问题,象治疗癌症或谋求持久和平,却往往根本就不是什么难题,因为可能根本就不存在任何一个解。拿拼板游戏来看,从两个不同的木板盒中随意挑出一些木板来。这个问题很有可能(当然也可能不会)甚至使最有才能的人也无能为力,因而无法用来测验解法的技巧。它决不是一个通常意义上的难题。一个难题的固有意义虽然没有标准,但肯定有一个解。

    我们知道,科学界利用规范的一个收获是,只要接受了这种规范,就有了一个标准来选择那些可以肯定有解的问题。在很大程度上,这正是科学界承认它们合乎科学、或鼓励其成员从事研究的仅有问题。另外一些问题,包括许多以前曾经作为标准问题的,却被作为形而上学、作为其他学科的对象,或者有时只是因为太成问题,并不值得花费时间而被抛开了。就这一点说,一个规范甚至可以使科学界离开那些对社会很重要、可以化为难题形式的问题,因为它们不能用规范所提做的观念工具和实验工具来表述。这种问题,可以只是一种消遣,一种十七世纪培根主义某些方面和现代某些社会科学所卓越表明的教训。常规科学之所以看来进步得这么快,原因之一就是,常规科学工作者都集中到只要他们有能力就可以题决的问题上。

    但是,如果常规科学问题只是这种意义的难题,就不需要问科学家为什么这么热情而专心钻研这些问题了。一个人可以由于各种各样的原因被科学吸引过去。有实用的要求,有探索新领域的激情,有寻求秩序的希望,还有检验已有知识的动力。类似这样一些动机,也促使他选定了后来他自己也投了进去的特定问题。而且,尽管结果有时遇到挫折,仍有充分的理由说明,这样的动机为什么会首先吸引他,以后又引导他前进。①整个科学事业的确不断证明自己的作用:打开新的境界,显示秩序,检验长期公认的信念。不过,投到正常研究问题中去的人却几乎永远不会做这一类的事。一旦投了进去,他的动力就完全属于另外一种了。这时向他挑战的是这样一个信念:只要他有足够的能力,就可以成功地解决以前谁都没有解决过或没有解决得这么好的难题。许多最伟大的科学大师们都把他们专业方面的全副精力用到这一类亟需的难题上。在大多数情况下,任何一个专门领域都没有提出别的任务,这事实却一点也不会使醉心于此的人觉得它并无迷人之处。

    ①但是,由个人作用同科学走展整体模式之间的冲突所造成的挫折;有时也可以很严重。关于这个问题,见劳伦听·

    S·库比(Comwrenee S·Kubie),《科学事业的某些未解决的问题》,《美国科学家》,第XLI卷(1953年);第596~613页;第XLII卷(1954年),第104~112页。

    现在让我们再来谈谈在难题和常规科学问题之间另一个更困难也更有特征的共同点。作为难题进行分类,一个问题必须具有一个以上的确定解。还必须有这样的规则,既可以限制可接受解的性质,也可以限制获得这些解时所要通过的步骤。例如,要玩好拼板游戏,不仅要“凑成一幅图”。一个孩子或一个当代艺术家都可以做到这一点,就是把挑出来的木板作为没有意义的形状散到无色的地上。这样构成的图可能会比据以设计成这个游戏的图好得多,而且一定会更独到一些。不过,这样一幅图并不是一个解。要得到这个解,还必须把所有的木板都用上,把背面翻到下面,并把它们很自然地接合得不留一点空隙。这些都是支配着玩好拼板游戏的规则。纵横字谜、谜语、棋局问题等等,要得到可接受解都有类似限制,这也不难看出。

    如果我们大大扩展“规则”这个词的用法——有时会同“既定观点”或“先入之见”等同起来——那么,这些在已有研究传统范围内可以接受的问题,就会显示出某些十分类似于这一套难题的特征。造出一种工具以确定光波长度的人,一定不满足于一种只能找出某种光谱线的某一数值的装置。他并不只是一个探索者或测量者。相反,他必须根据既定的光学理论本身分析他的仪器,以表明他的工具所给出的数值正是上升到理论的波长数值。如果在理论中或者在未经分析的仪器部件中,仍然留下了一些含糊之处使他不能完全证明这一点,他的同事们就会得出结论说,他什么也没有测量。例如,电子散射的极限值后来成了电子波长的标志,而在最初观察到并记录下来时,却似乎并没有什么意义。在它成为某种量度以前,它必须先依附于一种已预见到的运动物质类波行为的理论。甚至在指明那种关系以后,也必须重新设计仪器,使实验结果可以毫不含糊地同理论结合起来。①只有满足了这些条件,问题才得以解决。

    理论问题的可接受解,也受到类似的限制。在整个十八世纪中许多科学家都想从牛顿运动定律和引力定律中推导出人们所观察的月球运动,但一直没有做到。于是,有的人就建议用一个短距离中反平方定律的定律取代之。但这么一来就必须改变规范,提出新难题,而不是解决老难题。结果,直到175O年有一位科学家发现可以成功地应用牛顿定律时,科学家们才不再维护这些规则。②具有改变了博奕的规则才可能有另一种选择。

    ①关于这些实验发展的简要说明,见C.J.戴维逊(Davisson)在《1937年诺贝尔奖金》(斯德哥尔摩,1938年)的讲演,第4页。

    ②W·惠威尔(Wb6W0ll:《归纳科学史》(修订版;伦敦,1847年);第II卷,第101~105、220~222页。

    对常规科学传统的研究揭示了许多附加的规则,这些规则提供了许多关于科学家从规范得来成规的信息。关于这些规则所属的主要范畴,我们能说些什么呢?①最明显而且也许是最简要的例子,可以举出刚刚提到的那几种命题。那是对于科学定律以及有关科学概念、理论的明确说法。只要这些说法还受重视,它们就促进提出难题,限制认可的解法。例如,牛顿定律就在十八和十九世纪中完成了这些作用。在这样的期间,“物质的量”对于物理学家是基本的本体论范畴,而作用于两块物质之间的力则是主要研究课题。②在化学中,定比和倍比定律在很长时期中都有一种完全一样的力——它提出了原子量的问题,联接了化学分析中可用的结果,并告诉化学家们原子、分子、化合物、混合物是什么。③麦克斯韦方程和统计热力学定律今天也具有同样的力量和作用。

    但是象这样一些规则既不是仅有的,也不是历史研究中出现的最有意思的变形。在比定律和理论更低,或更具体的水平上,例如对于优先采用的仪器设备类型以及合理使用所用仪器的方式,都有许多规定。人们改变了对火在化学分解中作用的态度,对十七世纪化学的发展就起了重要作用。④在十九世纪,赫姆霍兹(HeImholtz)遇到了生理学家们对物理实验用以说明他们专业的观念的顽强抵制。⑤在本世纪,化学色层分离法的古怪历史又一次表明,有关仪器的规定也同定律和理论一样持久,也给科学家以博弃规则。⑥分析一下X射线的发现,我们就可以知道为什么会有这样一种成规。

    ①我应当把这个问题归功于W·O·哈格斯冲(Hasstrom)他对科学社会学的研究工作有时同我的工作有交叉。

    ②对牛顿主义的这几方面的问题,见I·B.柯亨(Cohen):《富兰克林和牛顿:探索牛顿的思辨的实验科学以及由此而来的富兰克林的电学研究之例》(费城,1956年),第vii章,特别是第255~257、275~277页。

    ③这个例子最后在接近第X节的末尾讨论过。

    ④H.迈兹热:《法国从十七世纪开始到十八世纪结束的化学原理》(巴黎,1923年),第359~361页;玛丽·波瓦(Marie Boas):《罗勃特·波义耳和十七世纪化学》(剑桥,1958年),第112~115页。

    ⑤留·康尼斯伯(Leo Konigsberger):《赫曼·冯·赫姆霍兹》,弗朗西斯·A·威耳贝(Francis A.Welby)译(牛津,1906年),第65~66页。

    ⑥詹姆士·E·门哈德(James inhard):《色层分离法:一个展望》,《科学》;第CX卷(1949年),第387~392页。

    历史研究有规则地显示了更高级的、准形而上学的成规,尽管它们还不就是科学永恒不变的特征,却也并不那么有局部性和暂时性。例如,大约在1630年以后,特别是在笛卡儿影响巨大的科学著作出现以后,绝大多数物理学家都认为宇宙是由微小的粒子所组成,一切自然现象都可以按照粒子的形状、大小、运动和相互作用来解释。形成各种成规的这个温床,证明既合乎形而上学,也合乎方法论。作为形而上学,它告诉科学家宇宙包含什么样的和不包含什么样的实体:宇宙之内只有运动中所形成的物质。作为方法论,它告诉科学家终极定律和基本说明一定怎么样:定律一定要阐明粒子的运动和相互作用,说明则一定要把一切已知的自然现象都归结为这些定律支配下的粒子的作用。更加重要的是,宇宙粒子概念告诉科学家应当研究许多什么样的问题。例如,一个象波义耳那样信奉新哲学的化学家,就特别注意可视为嬗变的反应。这些反应比其他任何反应更加清楚地显示了粒子重新排列的过程,这种过程必然构成一切化学变化的基础。①在研究力学、光学、热学时,也可以看到粒子论的同样效力。

    最后,在更高级水平上,另外还有一套成规,离开它任何人也成不了科学家。例如,科学家必须力求了解世界,提高使世界有秩序的精确性,并扩大这种秩序的范围。这样,这套成规又一定会反过来引导科学家要么自己、要么通过他的同事以极其细致的经验深入分析自然界的某一方面。如果这种分析表面上看来有混乱之处,那就一定要求他的观测技术更加精致,或者要求他的理论更加明确。无疑还有别的象这样的一直为科学家们所遵守的规则。

    存在这样一种成规的牢固框架——概念、理论、仪器以及方法论方面的成规——就会产生一种把常现科学同解决难题联系起来的隐喻。因为成规提供的规则告诉一门成熟专业的工作者世界是怎样的,他的科学又是怎样的,他就可以很自信地集中到这些规则和现有知识为他规定好的深奥问题上去。于是,他向自己提出的挑战就是;怎样对留下的难题给出一个解。就这样一些方面讨论难题和规则,正好说明了常现科学实践的本质。但另一方面,这种说明也可能完全误入歧途。在一定时期内把某一科学专业的所有工作者都结合在一起的规则。尽管,显然是有的,但这些规则本身并不能表明这里的专家们所有共同的实践。常规科学是—种高度确定的活动,但不需要完全由规则来确定。正因为这样,我在本文开始时引进了共有的规范,而不是共有的规则、假定和观点,尽管它们都是结成常规科学传统的源泉。我认为,规则来自规范,即使没有规则,规范仍然能够指导研究工作。

    ①关于一般微粒说,见玛丽·波瓦:《机械论哲学的建立》,《奥西雷斯》(Osiris)杂志,第    X卷,(1952年),第412~541页。关于这种哲学对波义耳化学的作用,见T.S.库恩:《罗勃特·波义耳和十七世纪的结构化学》,《爱西斯》杂志,第    XLIII卷(1952年),第 12~36页。

    V 规范的优先性

    但确定共有的规范并不等于确定共有的规则。那还得再走一步,而且是多少有所不同的一步。走这一步时,历史学家必须把科学界的规范互相加以比较,并同它现在的研究报告作比较。这样做的目的是为了发现,科学界成员从更完整的规范中抽象出什么样的表面的或暗含的独立因素,又在他们的研究工作中安排了什么样的因素作为规则。任何人想要描述或分析这个特定科学传统的进化,一定会找到这样一种公认的原则和规则。如上一节所指出,几乎可以肯定,他总会得到一部分成功。但是,如果他的经验同我完全一样,他也会发现寻找规则不但比寻找规范更困难,而且更不容易满意。他用以描述科学界共有信息的某些命题,看上去毫无问题。但另外一些,包括上文某些作为例证的,却似乎阴影重重。不管他能想出什么措词来,某些科学界成员总要反对的。不过,只要研究工作传统的内部联系可以按照规则来理解,这方面的共同根据就需要有某种说明。于是,想寻找一套足以形成某一常规研究传统的规则,就会接连不断地碰到重大挫折。

    但只要认清这种挫折,就有可能找到根源。科学家们都会同意牛顿、拉瓦锡、麦克斯韦或爱因斯坦对一些突出的问题作出了似乎永恒的解答,他们却不会同意那种使解答具有永恒性的特有的抽象特征,尽管有时不一定意识到。就是说,科学家们在鉴别规范时可以一致,而在全面解释规范或使之合理化时意见不一致,甚至根本没有想去进行这样的解释或合理化。缺乏标准的解释,或没有一致同意归结为一些规则,就不能阻止规范指导研究。直接检查规范也能部分决定常规科学,但这个过程往往也要借助于而不依赖于规则和假设的形成。尽管一种规范的存在甚至并不一定意味着有什么整套规则的存在。①

    这些说法的第一个后果,是不可避免地提出了问题。没有一套强有力的规则,还有什么能够把科学家限制到特定的常规科学传统呢?“直接检查规范”这个短语可能意味着什么呢?近年来路德维希·维特根斯坦(Ludwig Wittgenstein)对这一类问题提出了部分答案,尽管是在一种十分不同的上下文中提出的。而这种上下文关系却更为基本,更为熟悉,从而可以首先考虑他的论证形式。维特根斯坦问道,为了毫不含糊而且不会挑起争论地使用“椅子”、“树叶”或“游戏”等词,我们必需了解些什么呢?②

    ①迈克耳·波朗依(Michael PoComnyi)曾天才地提出了一个非常类似的命题,证明科学家的许多成就都依赖于“不言而喻的知识”,也就是通过实践而获得的、不能明确分析的知识。见他的《个人知识》(芝加哥,1958年),特别是第V、VI章。

    ②路德维希·维特根斯坦:《哲学探讨》,G.E.M.安斯孔伯(Anscombe)译(纽约,1953年);第31~36页。但维特根斯坦对于那一种必然要支持他所勾画的命名方法的世界,他却简直什么也没有说。因此以下所说的不能全部归之于他。

    这个问题是很古老的,而且,只要说我们必然自觉地或直观地知道一张椅子、一片树叶或一场游戏是什么,这个问题一般也就得到了解答。这就是说,我们必须抓住全部的游戏和唯一的游戏所共有的某一组属性。但维特根斯坦的结论却说,只要有了我们使用语言的方式以及我们用来表述的那种世界,并不一定再有这样一套特征。讨论许多游戏或椅子或树叶所共有的某些属性,虽然常常可以帮助我们学会使用相应的词,但是并不存在一组既可以用到这一类的所有成分、同时也可以用到它的个别成分的特征。碰上一种前所未见的活动,我们就会用“游戏”这个词,因为这时我们所看到的活动同以前学会用这个名字来称呼的许多活动,很象是“一家人”。简言之,对维特根斯坦来说,游戏、椅子、树叶都是自然界的不同家族,每一个家族都有一张重选、交叉的相象之网。这张网充分说明,我们已成功地识别了有关的对象或活动。只要我们所说的家族互相重迭并且逐渐互相溶合起来——就是说,只要不是天生的家族——那么我们在识别和命名方面所获得的成功就会证实,相应于我们所使用的每一类名称都有一组共有的特征。

    对于各种从单一常规科学传统内部所产生的研究问题和研究技巧,有些同类的东西也很有效。这并不是说,这些共同性的东西就满足了某些表面的甚至完全可以揭示出来的整套规则和假设,它们赋予传统所具有的特点并使之在科学思想中不断加强起来。这只是说,它们可以通过这种相象,通过模拟抱有疑问的科学界已承认是成就的科学某一组成部分而联结起来。科学家总是按照在学习和后来接触的文献中得到的模型进行工作,但他们往往并不怎么了解或者不怎么需要了解,是些什么样的特征使这些模型具有科学界规范的地位。正因为这样,他们再也不需要整套规则了,他们参与其中的研究传统所显示的这种一致性,并不意味着下面还有一套基本规则和假设可以通过历史研究和哲学研究而揭示。科学家们通常并不去问,也不去争辩,某一个问题或解答是怎样合理的,这就很容易使我们以为,至少是直觉地以为他们知道答案。这只能表明,无论是问题还是答案同他们的研究工作都没有什么关系。研究工作可以明明白白地从一套规则中引出来,但规范却比任何一套这样的规则都要更为优先,更为适合,更加完整。

    到此为止,这一点还完全停留在理论上:如果不是发现不了的规则作梗,规范是能够规定常规科学的。为了使这个问题更清楚,更迫切,现在让我指出为什么我们相信规范正是这样起作用的一些理由。第一个理由已充分讨论过,即发现曾指导常规科学的规则,困难是很大的。这个困难,很象一个哲学家想说明一切游戏具有什么共同点时所遇到的困难一样。第二个——前一个其实就是它的必然结果——来源于科学教育的本质。已经很清楚,科学家决不会抽象地学习概念、定律和理论本身。相反,这些理性工具,在历史上和教学中,从一开始就是同应用一起并通过应用而优先显示出来的东西。一种新理论总是同它在某一具体自然现象领域的应用一起发表的,离开应用,理论不会有任何被接受的可能。被接受以后,这种以及其他应用就随着理论一起进入了教科书,未来的工作者即由此而学到他们的专业。在这里它们并不只是一种装璜,甚至也不只是一种证件。恰恰相反,学习理论的过程依存于应用研究,包括用纸和笔以及用实验室的工具实际解题。例如,如果学习牛顿力学的学生曾发现过“力”、“质量”、空间”、“时间”等术语的意义,那一定不是由于他从课本中不完善的,尽管有时也有所帮助的定义出发,而是由于他观察并参与了用这些概念解题的过程。

    这个自己动手或通过行动的学习过程,一直贯穿在整个创立专业的过程之中。随着学生们从大学一年级上到通过博士论文,给他的问题也愈来愈复杂,愈没有先例可援。但是他们继续机械模拟以前的成就,同样,他们在以后的独立科学生涯中也是按常规投身于这样的问题中,人们可以随意设想,科学家就是这样从什么地方为自己直观地抽象出博奕规则来的,但没有什么理由可以相信这一点。许多科学家们,虽然可以轻易而有把握地谈论某一已成为现有研究工作一个具体部分的个别假说,但对于说明这个领域的已有基础、合理问题和方法的特征,却未必会比外行更好一些。如果他们彻底学会了这样的抽象,他们就可以主要通过他们的研究能力来表明。而不求助于假定的博奔规则,也可以了解这种能力。

    科学教育的这些结果具有这样一个反面,即提供了第三个理由去设想:规范可以通过象抽象规则一样的直接模拟指导研究……只有在有关科学界已毫无问题地接受了某种问题解法时,常现科学才能没有规范而继续进行下去。因此,只要人们感到规范和模型不可靠,规则就重要,无关乎规则的特征也会消失。事实也正是这样。特别是前规范时期是以频繁而激烈地争论合理方法、问题和求解标准为标志的,尽管这些争论主要是促进学派的划分,而不是达到一致。我们已谈过光学和电学的一些争论,在十七世纪的化学和十九世纪的地质学中,这种争论所起的作用还要大。①而且,这样的争论也没有由于规范的出现而一劳永逸地消失掉。在常规科学时期绝大多数争论虽然并不存在,但在科学革命之前和革命期间却可以有规则地再现出来,这时规范先受冲击,以后又随时可以改变。从牛顿力学到量子力学的过渡激起了许多关于物理学的本质和准则的争论,有些争论直到现在仍在进行。②有些今天仍然在世的人还会记得由麦克斯韦电磁理论和统计力学所引起的类似辩论。③更早一些,伽里略和牛顿力学的同化分用,在科学的合理准则问题上同亚里士多德派、笛卡儿派、莱布尼茨派都发生了一系列特别著名的争论。④对于他们领域的基本问题是否已得到解决,当科学家们没有取得一致时,对规则的探求就获得了一种一般情况下所没有的作用。但只要规范仍然可靠,即使没有对合理化取得一致意见,甚至根本没有想过合理化问题,规范也能够发挥作用。

    ①关于化学,见凡梅兹热:《法国从十七世纪开始到十八世纪结束的化学原理》,(巴黎,1923年),第24-27、146~149页Z玛丽·波阿:《罗伯特·波义耳和十七世纪化学。(剑桥,1958年),第II章。关于地质学,见沃特·F·坎农(Walte    F.Cannon):《渐变论和突变论之争》《爱西斯》杂志,第LI卷(196O年),第38~55页;C.C.吉利斯庇(Gillispie):《发生和地质学》(马萨诸塞州,坎布里奇,1951年),第IV~V章。

    ②关于量子力学中的争论,见让·乌莫(Jean Ullmo〕:《量子物理学危机》(巴黎,1950年),第II章。

    ③关于统计力学;见伦尼·杜加(Rene    Dugas):《波耳兹曼关于感觉的物理学理论及其现代的发展》(纳沙特尔,1959年),第158~184、2O6~219页。关于麦克斯韦工作之被接受,见马克斯·普朗克(Max    PComnck):《麦克斯韦在德国的影响》,载《詹姆士·克拉克·麦克斯韦:纪念册,1831~1931》(剑桥,1931年),第45~65页;特别是第58~63页;西凡尼·P·汤普逊(Silvanus.Thompson):《拉格斯(Comrgd)的威廉·汤姆逊·开尔文男爵(William    Thomson Baron Kelvin)》(伦敦,1910年),第11卷,第1021~1O27页。

    ④关于同亚里士多德派战斗的实例,见A.柯依列:《关于从开普勒到牛顿的衰落问题的史实》,《美国哲学学会会报》,第XLV卷(1955年),第329~395页。关于同笛卡尔派和莱布尼茨派的争治,见庇尔·布鲁尼特(pierre    Brunet):《十八世纪牛顿理论的引进法国》巴黎,1931年);A.柯依列:《从封闭世界到无穷宇宙》(巴尔的摩;1957年),第XI章。

    本节最后论述:承认规范比共有的规则和假设具有优先地位,还有第四个理由。本文导言中曾提出,可以有大的革命,也可以有小的革命,有的只影响附属专业的成员,有的即使是发现一种出乎意外的新现象对这种集体也可以是革命。下一节将引进一种特定的革命,为什么会有那种革命还远远没有搞清楚。如果常规科学如上面所说的那么严密,如果科学界也那么紧密结合,一次规范的改变怎么会只影响一个小小的附属集体呢?上面已说过的似乎意味着,常规科学是一种唯一整体性的统一事业,必然同它所有的规范共存亡,也同其中任何一个规范共存亡。但科学显然很少是那样,甚至决不会那样。纵观整个科学领域;看来往往倒是一种各个不同部分之间结合松弛的结构。这一点同人们非常熟悉的观测没有任何冲突。恰恰相反,用规范代替规则会造成各不相同的科学部门以及更便于了解的专业。外在的科学规则只要有,一般就会广泛为科学集体所共有,但规范却不一定。有些科学部门彼此相距很远,比方天文学同植物分类学,这里的科学工作者们受教于非常不同的书中所描述的十分不同的成就。有些人即使处于同样或密切有关的部门中,一开头就研究了许多同样的书本和成就,他们却也会在专业专门化的过程中获得相当不同的规范。

    试以物理科学家所组成的又大又分歧的物理学界为例。这个集体中的每一个成员今天都学过,比方说,量子力学,其中绝大多数也在他们的研究和教学中从某一点上运用了夏子力学定律。但他们并没有都学过这些定律的同一应用,从而他们也没有以同一方式受到量子力学实践变化的影响。在专业专门化的道路上,只有少数物理学家接触到量子力学的基本原理。另外一些仔细研究了把这些原理作为规范应用于化学,还有一些则应用于固态物理学,等等。量子力学对他们每一个究竟意味着什么,这取决于他们听过什么课程,读过什么课本,还研究过哪些报刊。由此可见,量子力学定律的变化对所有这些集体虽然都是革命性的,但这种变化只表明量子力学作为规范的某一种应用,因而只是对特定的附属专业的成员才必然是革命的。对这个专业的其他部分以及研究其他物理科学的人来说,就完全不一定有这样的变化了。简言之,虽然量子力学(或者牛顿力学,或者电磁理论)是许多科学家集体的规范,但并不是对所有的人都是一样的规范。因此,它可以同时决定常规科学的某一些没有因共同扩展而相互重迭的传统。在这样一种传统之中所产生的革命并不一定也扩展到别的传统中去。

    对科学专门化的后果作一个简要说明,可能会加强这全部论点的说服力。有个研究者希望知道一点科学家们怎样看待原子论,就问一个著名的物理学家和一个卓越的化学家单个氦原子究竟是不是一个分子。两个人都毫不犹豫地作了回答,但回答得不一样。化学家认为氦原子是分子,因为它象一个分子一样按照气体运动理论行动。而物理学家则认为氦原子不是分子,因为它没有显出分子的光谱来。可以认为两个人都在谈论同一个粒子,但是各人又各自从自己所受的研究训练和自已的实践出发来看这个粒子。他们解决问题的经验告诉他们一个分子必然是什么。毫无疑问,他们的经验有许多是共同的,但在目前这种情况下,经验却无法告诉这两位专家同样的事情。当我们继续讨论下去就会发现,引出重大结果的规范有时可能具有怎样的差异。

    VI 反常和科学发现的涌现

    既然先是发现,即出现新的事实,后是发明,即出现新的理论,那么我们一定要问,这一类的变化究竟是怎样发生的。但发现和发明的区别,也即事实和理论的区别,可以马上证明完全是人为的。这种人为性对本文一些主要论点是一个重要线索。本节其他部分考察某些发现之后,我们很快就会看到,它们并不是孤立的事件,而是持续的事件具有一种按一定规则周期出现的结构。发现开始于感到反常,也即发觉自然界不知怎么违反了由规范引起并支配着常规科学的预期。接着是对这个反常区域或多或少地扩大进行探索。直到把规范理论调整到反常的东西成了预期的东西为止。吸收~类新事实要求更多地调整理论,直到调整好——科学家学会以另一种方式看待自然界——一新的事实才会真正成为科学事实。

    要知道新事实和新理论在科学发现中是怎样密切纠缠在一起的,可以看一个特别著名的例子:氧的发现。起码有三个人对此事拥有合法权利,而另外几个化学家在十八世纪七十年代早期也一定在试管中得到过这种浓缩的气体而不得知①。常规科学的进步,在这里也即气体化学的进步,准备好了彻底打开一条新的道路。最早一个取得这种气体的比较纯粹的样品是瑞典的药剂师C.W.舍勒(Scheele)。但我们可以忽略他的工作,因为直到到处都在反复宣布发现了氧以后他的工作才发表出来,从而没有对我们这里最为关心的历史模式产生什么影响。②第二个及时提出要求的是英国科学家和牧师约瑟夫·普里斯特利(Jpseph priestley),他把红色氧化汞加热所释放的气体收集起来,作为对大量固态物质所放“空气”的一项长期的正常研究。1774年他把这样产生出来的气体看成是一氧化二氮,1775年通过进一步的检验,又看成是所含燃素少于通常情况的普通空气。第三个要求优先权的是拉瓦锡,他是在1774年普里斯特利实验以后,而且很可能是受到普里斯特利暗示的结果,才开始他的关于氧的研究工作。1775年初拉瓦锡就报告过,红色氧化汞加热所得气体是“没有任何改变的空气本身入除了]

    ……变得更纯、更宜于呼吸。” ③到1777年拉瓦锡可能又利用普里斯特利的第二个暗示而得出结论说,这是另一种气体,是大气的两种主要成分之一,这是一个普里斯特利所永远不能接受的结论。

    ①关于氧的发现更经典的讨论,见A.N.梅耳专(Meldrum):《十八世纪的科学革命——第一阶段》(加尔各答,1930年),(第V章。最近有个不可少的评论,包括关于优先性争论的记载,即毛利斯·道玛(Maurice Daumas);《拉瓦锡——理论家和实验家。(巴黎,1955年),第ii~iii章。更完整的记载和目录,见T.S.库恩:《科学发现的历史结构》,《科学》,第CXXXVI卷(1962年6月1日),第760~764页。

    ②见乌诺·包克伦德(Uno Bocklund):《舍勒给拉瓦锡的一封遗失的信》,《里希诺》(Lychnos)杂志,1957~1958年,第39~62页,对舍勒的作用有不同的评价。

    ③J.B.柯南特:《燃素说的衰亡:1775~1789年的化学革命》(《哈佛实验科学案例史料》;案例2;马萨诸塞州,坎布里奇,1950年),第23页。这本很有用的小册子在许多有关文献中再版过。

    这一种发现模式提出了一个问题,这问题也可以向任何一种科学家所觉察的新现象提出。究竟是谁首先发现了氧呢,是普里斯特利还是拉瓦锡,如果确是他们两个人中间一个的话?不管是谁,又是什么时候发现的呢?即使只有一个人提出要求,仍然可以提出这样的问题。答案如要裁决优先权和日期,我们完全没有兴趣。但试图提出一个答案,这本身就很能说明发现的本质,因为根本就没有所要寻求的那种答案。发现并不是那种可以恰如其分地对它提出问题的过程。被询问的事实——从十八世纪八十年代以来发现氧的优先权一直在争夺不休——对科学观念有某种歪曲的迹象,而正是这种科学观念才使发现具有如此根本的作用。再看看我们的例子。普里斯特利要求氧的发现权,根据是他优先把那种后来认为正是氧的气体分离出来。但是普里斯特利的样品并不纯,如果一个人手里拿着不纯的氧就算发现了氧,那么任何一个曾经用瓶子装过空气的人都发现过氧。此外,如果普里斯特利是发现者,那么什么时候发现的呢?

    1774年他以为他得到了笑气,这是一种他已知的气体;1775年他又把这种气体看作是去燃素空气,仍然不是氧,对于燃索说化学家甚至仍然是一种完全出乎意料的气体。拉瓦锡的要求可能更有力一些,但也带来了同样的问题。如果我们不肯把棕榈叶给于普里斯特利,我们也就不能由于拉瓦锡1775年的工作而授给他,这项工作不过使他把这种气体鉴定为“空气本身”。我们也许可以等待一下拉瓦锡在1776年和1777年的工作,到那时他不但看到了这种气体,还看出了这种气体是什么。但即使这样来裁判也还是有问题,因为从1777年到他一生的结束,拉瓦锡一直坚持氧是一种原子“酸素”,氧气也只是这种“素”同热质即热的物质结合而成。①难道我们因此就可以说氧在1777年还没有发现吗?这可能会诱使一些人这样做。但是直到1810年以后才把酸素从化学中清除出去,而热质则一直拖到十九世纪六十年代才解决。氧在这两个日期以前早已成为一种典型的化学物质了。

    ①H.迈兹热:《拉瓦锡的物质哲学》(巴黎,1935年);道玛;前引书,第vii章。

    显然,我们需要有一套新词汇和新概念来分析象氧的发现这一类事件。“发现氧”这句话虽然确凿无疑,但又暗指:发现什么东西只不过是我们通常(也是大成问题的)用“看到”这个概念也能包含的那样一种简单活动,这也会使我们误入歧途。正因为这样,我们才乐于假定发现同看到或摸到一样,可以毫不含糊地归之于某一个人或某一时刻。但是归之于某一时刻永远不可能,归之于某一个人也经常不可能。撇开舍勒不谈,我们有把握说在1774年以前并没有发现氧,我们也有可能说到1777年或稍晚一些时候发现了氧。但在这样一些界限内,任何一种想确定发现日期的企图都不可避免是任意的,因为发现某一类新现象必然是一桩复杂的事件,里面既包括认清事物是那个东西,又包括认清它是什么东西。例如试看,如果我们认为氧是去燃素空气,我们就应当毫不动摇地坚持普里斯特利发现了氧,尽管我们仍然不大知道他是什么时候发现的。但是如果观察同观察的理论化,也即事实同事实被吸收进理论,都不可分割地结合于发现之中,那么发现就是个过程,必须花费时间。只有一切有关的观念范畴都事先准备好,也即现象根本不属于新类,发现那个东西和发现它是什么东西才会毫不费力地同时一起实现。

    现在我们承认发现包含一段延续的、虽然不一定很长的从观念上吸收的过程。我们也可以说这里面包含着规范的变化吗?这个问题还没有得出普遍的答案,但至少在这种情况下答案应当是肯定的。拉瓦锡在他1777年以来的论文中所公布的内容,关于氧的发现问题少于氧的燃烧理论。这个理论是化学重新表述的重大基石,因而通常都把它叫做化学革命。实际上,如果从氧的发现中并没有涌现出化学新规范的本质部分,那么我们从一开始所讨论的优先权问题就决不会显得这么重要了。既然这样,一种新现象及其发现者所具有的价值,将随着我们估计现象违反规范预见程度的大小而改变。但应注意,氧的发现后来虽然很重要,它本身却没有引起化学理论的变化。远在拉瓦锡在这个发现中还没有起什么作用很久以前,他就深信燃素说有点不对头,燃烧物体也吸收了大气中的一点什么。在一本密封的笔记里他记下了很多这方面的内容,

    1772年把它寄存在法国科学院的秘书那里。①对氧的这些研究工作从形式和结构上大大补充了对拉瓦锡早期看法的某些失误。这些工作告诉他一件他还在准备去发现的事情——从空气中烧掉的物质的性质。预感到的困难一定起过重要作用,使拉瓦锡能够在象普里斯特利一样的实验中看到了后者所看不到的一种气体。反过来说,必须有一次重大的规范修改才能看到拉瓦锡所看到的东西,这事实必然是普里斯特利在其漫长的一生中依然不能看到的主要原因。

    另外还有两个简明得多的事例,可以大为加强上述论点,同时也可以帮助我们阐明发现的本质,理解发现从科学中涌现出来的条件。为了表明有所发现的主要方式,我们所选择的这两个事例不但彼此不同,也和氧的发现不同。第一个事例是X射线,这是一个经典的通过偶然事件而发现的事例,这种类型的涌现,比那种我们更易于理解的科学公报中非个人完成的典型事例更为频繁。事情开始于物理学家伦琴中断了阴极射线的正常研究,因为他注意到,在放电过程中,从离开遮蔽好的仪器一定距离外,铂氰化钡屏幕在发光。再进一步的研究——经过了伦琴很少离开实验室的激动人心的七个星期——表明,光是从阴极射线管沿直线发出来的,射线投出的阴影不可能由磁铁或其他许多东西而偏转。在伦琴公布这个发现以来,他深信这种效应不是由于阴极射线,而是由于某种至少类似于光的作用。②

    ①关于拉瓦锡不满的原因最权威的叙述;是亨利·盖拉克(HenryGuerComc)的书:《拉瓦锡——关键的一年;他在1772年作燃烧实验的背景和起源》(纽约州,伊萨卡,1961年)。

    ②L.W.泰勒(Taylor):《物理学,先驱的科学》(波士顿,1941年);第790~794页;T.W.查莫斯(Chalmers):《历史研究》(伦敦,1949年)。第218~219页。

    这么一个简要的梗概也可以表明,它同氧的发现具有惊人的类似之处:在用红色氧化汞作实验以前,拉瓦锡已作过一些去燃素规范下没有得到预期结果的实验;伦琴的发现则开始于确认他的屏幕在不应当发光时发出光来。在这两种情况下所觉察到的异常——就是说,觉察到规范没有使研究者有所准备的现象——在准备以什么方式觉察新事物方面发挥了重大作用。但是,也是在这两种情况下觉察到出了点什么纰漏,则只是发现的前奏。没有进一步的试验和吸收的过程,无论是氧或者是X射线都不会出现。伦琴研究到什么时候才可以说他确实发现了X射线呢了无论如何并不是只看到一个发光屏幕的一瞬间。起码还有另外一个研究者看到过那种光,使他后来大为懊恼的是,他什么也没有发现。①同样清楚的是,发现的时间也不能推前到伦琴的研究工作最后一周,那时他已在探索他已经发现的新射线的特性了。我们只能说,X射线是在1895年11月8日到12月28日之间在维尔茨堡(Wurzburg)涌现出来的。

    ①E.T惠泰克(Whittaker):《以太和电的理论的历史》,第1卷(第2版;伦敦,1951年),第358员,注1。乔治·汤姆逊爵士(Sir George Thoomsom)曾告诉我第二件交臂失之的事。威廉·克鲁克斯爵士(Sir William Crookes)由难以辨别的模糊底片而引起注意,他也曾处在这个发现的思路上。

    但在第三个方面,存在于氧和X射线的发现之间的这种重要的相似之处,就远没有那么明显了。X射线的发现和氧不同,至少它并投有在以后十年中涉及理论上任何明显的激变。那么,在什么意义上可以说吸收这个发现也要求规范的变化呢?用这个事例否定这样一种变化到很有力。可以肯定,伦琴及其同时代人所赞成的规范并不曾用以预测出X射线来(当时麦克斯韦的电磁理论还没有普遍被接受,阴极射线的粒子理论还只是几种流行观点中的一种)。但是任何一种这样的规范,至少从任何明确的意义上说,都无法禁止X射线的存在,正象燃素说无法禁止拉瓦锡对普里斯特利气体所作的解释一样。相反,1895年公认的科学理论和实践承认了许许多多发光的形式——可见光、红外线、紫外线。为什么不能把X射线作为这一类自然现象的又一种形式而接受呢?为什么不能把它当作多发现一种化学元素一样地收下来呢?在伦琴的时代,还在继续寻求并找到新的元素以充实周期表上的空位。这样的追求是常规科学的标准课题,其成功只能使人祝贺,不能使人惊讶。

    但X射线不仅引起了惊讶,而且引起了震动。开尔文勋爵(Lord Kelv1n)宣称这是一场精心策划的骗局。①另外一些人虽然不能怀疑证据,但也显然摇摆不定。X射线虽然没有受到现成理论的阻挡,却也深深触犯了顽固的预想。这些预想,我认为都暗含在已有实验程序的设计和解释之中。到十九世纪九十年代许多欧洲的实验室中还在广泛布置阴极射线装置。如果伦琴的仪器产生了X射线,那么也一定有过许多实验家有时曾经产生过这种射线而不自知。这种射线也许还有其他未知来源,也许以前曾经把它解释为某种同X射线无关的行为。最低限度,有几种久已熟知的仪器未来必须用铝加以屏蔽。以前的正常研究已完成的工作,现在必须重新做过,因为先前的科学家们不曾掌握和控制一个有关的变量。可以肯定,X射线开拓了一个新的领域,从而为常规科学扩大了潜在的版图。但是X射线也改变了现已存在的领域,现在这一点尤为重要。在这个过程中它否定了以前作为合乎规范的仪器类型的资格。

    ①S.P.汤普逊:《拉格斯的威廉·汤姆逊·开尔文男爵的生平》(伦敦,1910年),第II卷,第1125页。

    总之,使用特定的仪器,又以特定的方式使用,结果不管自觉与否,只能容许某几种情况出现。这里既有理论上的预测,也有仪器作用的预测,它们对科学发展往往都有决定性作用。例如,氧发现得太迟的一部分经过情况,就是这样一种预测。在对“空气的良性”进行典型测试时,无论普里斯特利或者拉瓦锡都是把两份这种气体同一份笑气混合,把混合物放到水上振荡,再测量残余气体的体积。以前的经验形成了这个标准程序,这种经验使他们确信残余气体所含大气中的空气是一份,所含任何其他气体(或污染过的大气)则多一些。在氧的实验中他们二人都发现有一种残余物很接近于一份;接着又对这种气体作了鉴定。只是在很久以后而且部分是出于偶然,普里斯特利才放弃了这个标准程序,试图按别的比例把这种气体同笑气混合。后来他发现用四份笑气几乎就没有任何残余物了。他支持本来的试验程序——由大量过去的经验所形成的程序——也曾经同时就是否定存在一种可以象氧那样活动的气体。①

    如果说到象铀裂变为什么也鉴别得太迟,这样的事情可能就更多了。核反应为什么特别难于辨认,一个原因在于,已知轰击铀会产生什么结果的人主要是针对周期表上端的元素选择化学试验。②这样一种工具限制既然不断证明走了错路,我们是不是应当由此得出结论说科学要放弃各种标准试验和标准工具呢?那必然带来一种不可理解的研究方法。规范程序和应用,正象规范定律和理论一样,都是科学所需要的,都具有同样的作用。在任何既定时刻,它们都不可避免地要限制科学探索所容许的现象范围。对这一点认识清楚了,我们就会同时看到,对于科学界某一特定部门来说,象X射线这样的发现使规范必须发生变化的重大意义——因而也必须发生程序和预测方面的变化。由此我们也可以理解,X射线的发现为什么可能对许多科学家打开一个奇妙的新世界,为什么又可能有力地参与导致二十世纪物理学的危机。

    ①柯南特。前引书;第18~2O页。

    ②K.K.达罗(Darrow):《核裂变》,《贝尔公司技术期刊》,第XIX卷(1940年),第267~289页。裂变的两种主要产物之一的氪,看来只有在充分了解了这种反应以后才能用化学方法鉴别出来。另一产物钡几乎直到研究末尾才从化学上鉴别出来,因为这种元素碰巧必须加到放射性溶液中才能沉淀出这种核化学家正在寻找的重元素来。由于不能把追加的钡从放射性产物中分离出来;因而在对这种反应反复研究了差不多五年以后,才最后提出以下的报告:“作为化学家;这一研究使我们……改变了所有上述[反应]公式中的名称,以钡、镧、铯代替了镭、锕、锗。但是作为同物理学密切联系的‘核化学家’,我们无法使自己完成这个同以前的全部核物理学经验都有矛盾的飞跃。可能是一系列奇怪的偶然事件使我们的结果成了骗局。”(奥托.哈恩[Otto Hahn]和弗雷茨·斯特劳斯曼[Fritz Strassman])

    我们关于科学发现的最后一个事例,是莱顿瓶的发现,它可以归于理论推导那一类。起初这个术语似乎有点自相矛盾。以上所说很多都表明,理论事先预见到的发现都是常规科学的组成部分,不会产生新类型的事实。例如前面曾说过,十九世纪后半叶新化学元素的发现就是常规科学这样引起的。但并不是所有理论都是规范理论。不管是在前规范时期还是在引起规范巨大变化的危机过程中,科学家们通常总要提出许多思辨的、模糊的理论,以指明发现的途径。但发现却往往并不完全是这种思辨性和试探性的假设所预期的一个。只有当实验同试探性理论相互配合了,发现才会涌现出来,理论才会变成规范。

    莱顿瓶的发现象我们考察过的其他发现一样,也显示了所有这些特征。电学研究开始时一个规范也没有。从比较可以理解的现象中所得出的许多理论,倒是在进行竞争。它们之中任何一种理论都不能把多种多样的电学现象条理化。失败的原因就在于一些反常现象,正是它们促成了莱顿瓶的发现。参与竞争的一个电学家学派认为,电是一种流体,这个想法使好多人都想把这种流体盛起来,办法是一手拿一只盛满了水的玻璃小瓶,使水接触正在发电的静电发电机导线。另一只手从发电机那里移开小瓶使之接触水(或与之连接的导线)时,每个研究者都会体验到一记厉害的电击。但是另外一些实验却未能为电学家提供一只莱顿瓶。这种装置涌现得更慢了,也无法确切地说出这个发现是什么时候完成的。起初能够进行蓄集电流体的尝试,仅仅是因为研究者是站在地上手拿小瓶子进行的。电学家还必须学习到不但瓶子里面需要一层导体涂料,外面也需要,而电流体实际上根本就不是蓄集在瓶子里面的。在探索过程中他们偶而发现了这一点,还看到了某些其他的异常效应,于是我们称之为莱顿瓶的装置就涌现了。更进一步,导致莱顿瓶出现的实验,其中有很多都是富兰克林所完成的,也使流体说必须大大修改,从而为电提供了第一个全面的规范。①

    在或大或小的程度上(对应于从电击到预见结果的系列),上述三个事例所共有的特征,也是新类型现象所由以涌现的一切新发现的特征。这些特征有:事先觉察的反常,逐步而又同时涌现的观测上和概念上的认识,以及经常受到抵抗的规范范畴和规范程序的必然变化。甚至可以证明同一些特征已渗透到感知过程本身的性质之中。在专业以外理当了解得更好的心理学实验中,布伦纳(Bruner)和泡斯特曼(Postman)要求实验对象从短时间受控的出示中分辨出一系列的扑克牌来。许多牌合乎正常,但也有一些作得反常,例如有一张红色的黑桃六和一张黑色的红心四。在一系列逐步加多的出示中,每一次实验只给一个对象看一张牌。每次出示后问他看到了什么,实验总是以连续两次辨别正确而告结束。②

    ①关于莱顿瓶的不同发展阶段,见I.B.柯亨:《富兰克林和牛顿;思辨的牛顿实验科学以及由此而来的富兰克林电学研究之例》(菲拉德尔菲亚,1959年),第385~386、400~406、452~467、506一507页。惠泰克叙述过最后阶段,前引书,第50~52页。

    ②J.S.布伦纳和里欧·泡斯特曼:《论不快调感觉:一种规范》,《人格期刊》,第XVlll卷(1949年),第206~223页。

    即使出示的时间最短,许多对象也辨得清绝大多数牌,而稍微延长一点时间,所有的对象就把所有的牌都辨清了。对于正常的牌一般总是辨别得了,但对反常的牌则几乎总是表面上毫不犹豫或困惑地看成了正常牌。例如,黑色的红心四要么看成是黑桃四,要么看成是红心四。人们可以没有感到任何问题就立即把它归之于一个由先入为主的经验所准备好的概念范畴中。人们甚至不大会说实验对象看到同他所要辨别的东西有点什么异样。比方看到了红色的黑桃六,有的说那是黑桃六,但出了点纰漏——黑底上有红镶边。再拉长出示时间,就会引起更多的犹豫和混乱,直到最后,有时大多数对象会一下子毫不犹豫地辨别清楚了。而且,认过两三张这样的怪牌以后,他们再对付别的牌就没有更多困难了。

    但也有少数对象始终不能对他们的范畴作必要的调整。即使把辨明正常牌所需平均出示时间延长40倍,仍然有百分之10的怪牌认不出来。失败者往往自己感到十分苦恼。有一个叫了起来:“什么花色我也认不出来。那回简直不象是一张牌。我不知道现在它又是什么颜色,究竟是一张黑桃还是一张红心。我现在简直不能确定一张黑桃是什么样子了。我的天呀!”①下一节我们将看到科学家的行为也常常是这样。

    ①J.S.布伦纳和里欧·泡斯特曼:《论不协调感觉;一种规范》,《人格期刑》,第XVIII卷(1949年),第218页。我的同事泡斯特曼告诉我,即使事先知道一切纸牌及其表现她还是发现人们在看到这种自相矛盾的牌时所引起的严重不安。

    这个心理学实验,不管是作为隐喻,还是因为反映了思维本质,总是为科学发现的过程提供了一个异常简单而又异常有说服力的公式。科学也象扑克牌实验一样,新事物总是随同困难一起涌现出来,这种困难是通过由于违反了预期的根据所造成的障碍而表现的。起初,即使在后来发现有反常现象的情况下,也只能感受到预想的和通常的东西。但进一步的认识就会使人们觉察到有点什么不对头了,并把这种效应同以前曾经出过纰漏的事情联系起来。于是,对反常的觉察就开辟了一个调整理性范畴的时期,一直调整到最初的反常现象成为预期现象为止。到这时发现就完成了。我已强调过这种过程以及与之十分类似的过程,总是同科学上重大新事物的涌现纠缠在一起的。现在让我再指出,认清了这个过程我们最后就可以开始看到,常规科学的目的尽管并不在于寻求新事物,起初甚至还倾向于压制新事物,但也可以同样有效地引起新事物的产生。

    在任何一门科学的发展中,最初公认的规范经常令人感到,它已十分成功地说明了为什么绝大多数观察和实验易于为科学工作者所理解。因此,更进一步的发展一般总是要求制造精致的装置,也即发展深奥的词汇和技巧,并把概念加以精炼,不断地使它同它在一般常识中的原型区别开来。这个专门化的过程一方面使科学家的视野受到极大的限制,使规范变化也受到相当的阻碍。科学愈来愈严格了。另一方面,在科学界由于规范的引导而集中注意的领域中,常规科学也带来了知识的细节,带来了任何别的办法都达不到的观察与理论的精确配合。而且,这些细节和配合的精确性,价值超过了它本身所具有的并不总是很大的固有意义。如果没有那种主要为了达到预期作用而制造的特殊仪器,就不可能最终导致新事物的出现。而且,就是有了这种仪器,新事物一般也只能出现于这些人面前,他们确切知道他们应当期待什么,因而他们能够认清出了什么岔子。反常现象看来只是违反规范所提供的背景。规范愈是确切,愈是广泛,它对反常现象、从而也即对规范变化的时机提供愈是灵敏的指示器。在科学发现的正常方式中,即使是对变化的阻力也具有一种作用,下一节对此将作更全面的讨论。保护规范不会太容易遭到抛弃,因而阻力就可以保证科学家也不会轻易受到迷惑,使规范发生改变的反常现象也不会侵入现存知识的核心。科学上的重大新事物常常同时从几个实验室涌现出来,这个事实正是常规科学顽强的传统性标志,也是传统的探索为自己准备好了变化方式的标志。

    Vll 危机和科学理论的涌现

    已经论证过,在科学中,事实和理论、发现和发明并不是范畴上永远不同,因而可以料想这一节同上一节会有所重迭。(不能说普里斯特利首先发现氧,拉瓦锡以后又发明氧,但这种说法又很有吸引力。氧作为发现我们已碰见过了,我们马上又要把它作为发明来迎接。)在处理新理论的涌现时,我们必然也要扩大我们对发现的理解。重迭不就是同一。并不是、至少并不单单是由于上一节所考察的各种发现,才有这样一些规范变革,如哥白尼革命、牛顿革命、化学革命、爱因斯坦革命。也不是由于这些发现才有某些更专门从而也更小一些的规范改变,如光的波动理论、热力学理论或麦克斯韦电磁理论。这样的理论怎么可能从常规科学之中产生呢?这种常现科学活动更少是为了理论探索,更多是为了科学发现。

    觉察到反常如果确实对新类型现象的涌现起作用,那么谁也不会奇怪,这一类更深刻的觉察正是一切可接受理论变化的必要前提。对这一点,我想历臾的证据是绝不含糊的。托勒密天文学的情况是哥白尼宣言之前的一桩丑闻。①伽里略研究运动的贡献密切依赖于经院批评家仍在亚里士多德理论中所发现的困难。②牛顿关于光和色的新理论来源于没有一种现存前规范理论可以说明光谱长度的发现;而代替牛顿理论的是波动理论,在人们愈来愈关心衍射效应和极化效应对牛顿理论的关系中的反常现象时,这一理论正好公布。③热力学是从十九世纪并存的两种物理理论的冲突中产生的,量子力学是从黑体辐射、比热、光电效应周围的各种困难中产生的。④而且,除牛顿一例以外,在所有其他事例中都早就深深觉察到反常了,人们甚至可以把这些影响所涉及的领域恰如其分地说成是处于一种不断增长的危机状态。它要求大规模的规范破坏以及对常规科学的问题和技巧进行重大变革,因而新理论涌现之前一般都有一个专业显著不稳定的时期。不出人们所料,这种不稳定来源于常规科学长期解不开它所应当解开的难题。现有规则的失败,正是寻求新的规则的前奏。

    ①A.R.霍尔(Hall):《1500~18O0年的科学革命》(伦敦,1954年),第16页。

    ②马歇尔·克莱杰特(Marshall CComgett):《中世纪的力学科学》(威斯康辛州,梅迪逊,1959年},第II~III部。A.伽依列在他的《伽里略研究》(巴黎,1939年〕中指出了伽里略思想中的许多中世纪成分,特别见于该书第I卷中。

    ③关于牛顿,见T.S.库恩:《牛顿的光学论文》,载。伊萨克·牛顿自然哲学中的论文书信》,I·B·柯亨编(马萨诸塞州,坎布里奇, 1958年),第27~45页。关于波动理论的前奏,见E.T.惠泰克:《以太和电理论的历史》,第1卷(第2版;伦敦,1951年),第94~109页;W.惠威尔(Whewed):《归纳科学史》(修订版;伦敦;1847年);第II卷,第396~466页。

    ④关于热力学,见S.P.汤普逊:《拉格斯的威廉·汤姆逊·开尔文男爵的生平》(伦敦,1910年),第1卷,第266~281页。关于量子理论,见弗雷茨·雷舍(Fritz Reiche):《量子理论》,H.S.海特菲尔德(Hatfield)和H.L.布罗兹(Brose)译(伦敦;1922年),第i~ii章。

    先来看看规范变化的一个特别著名的事件,即哥白尼天文学的涌现。它的先驱托勒密体系先在公元前最后两个世纪和公元后最初两个世纪发展起来,那时这个体系在预言恒星和行星的位置变化方面取得了值得赞美的成功。任何一种其他古代理论都做不到这么好。对于恒星,托勒密天文学今天仍然作为一种技术上的近似而得到广泛应用;对于行星,托勒密的预测也同哥白尼的一样可靠。但是,对一种科学理论来说,值得赞美的成功决不是完美无缺的成功。托勒密体系不管是对行星位置还是对春分、秋分的岁差所作的预测,总是不能很符合最好的观测。进一步减少那些细小的误差,成了许多托勒密的后继者的许多常规天文学研究的首要问题,正象把天体观测同牛顿理论结合起来的同样的尝试,也为牛顿在十八世纪的后继者提出了正常研究问题。有时候天文学家完全有理由假定,这些尝试也可以同导出托勒密体系的尝试一样成功。对于某一误差,天文学家们总是可以通过调整托勒密体系中的复合圆环而消除。但随着时间的推移,人们只要注意一下许多天文学家正常研究活动的最后结果就可以发现,天文学的混乱性比精确性提高得要快得多,这里校正了一种误差,那里又会冒出另一种来。①

    因为天文学传统一再为外界所打断,又因为天文学家之间的联系受到没有印刷的限制,这些困难慢慢才被认识到。最后终于觉察了。到十三世纪阿耳丰叟十世(AIfonso X)宣称,上帝在创世时如果请教过他,一定会获致忠言。在十六世纪,哥白尼的合作者多米尼加·达·诺瓦拉(Domenico da Novara)坚持,决不会有一种象托勒密体系那么繁杂、那么不确切的体系,竟然可能符合真实的自然界。哥白尼本人在《天体运行论》一书的序言中也写过,他所继承的那种天文学传统最后造出来的只能是一个妖怪。到十六世纪初欧洲愈来愈多最优秀的天文学家都认识到,天文学规范已不能应用于它自己的传统问题了。这样的认识,正是哥白尼放弃了托勒密规范而另找新规范的必要前提。他这个著名的序言至今仍然是对一种危机状态的经典叙述。②

    ①J.L.E.德雷耶(Drerer)《天文学史从泰勒斯到开普勒》(第2版;纽约,1953年),第xi~Xii章。

    ②T.S库恩:《哥白尼革命》(马萨诸塞州;坎布里奇,1957年),第135~143页。

    从技术上按常规解决难题的活动中断了,当然这还不是哥白尼所面临的天文学危机的唯一因素。进一步的研究又考虑到改革日历的社会压力,这压力使岁差的难题更为迫切。还有,更全面的说明还要考虑中世纪亚里士多德派的批评、新柏拉图主义的复兴,以及其他一些重大的历史因素。但是技术上的中断仍然成了危机的核心问题。在成熟科学中——天文学在古代已经成熟了——象上面所引证的那些外界因素,主要的作用是确定了中断的时机,使中断更易于理解,还规定了中断因为受到特殊注意而最先出现的领域。这一类的问题虽然极其重要,但已超出了本文的界限。

    如果哥白尼革命的事例大致已经清楚了,让我们转到第二个情况不大一样的事例上,即以拉瓦锡的氧燃烧理论的涌现为前导的危机。十八世纪七十年代由于化学中许多因素的相互结合而产生了一次危机,历史学家无论是对这些因素的性质或是对它们的相对重要性都有不同看法。其中有两个因素一般都认为具有头等重要性:气体化学的兴起和重量关系问题。前者的历史开始于十七世纪空气泵的发展及其在化学实验中的应用。以后一个世纪中化学家们通过空气泵和其他许多气体装置愈来愈认识到,空气一定是化学反应中一种活泼的成分。但是化学家们借助于一些例外——简直含糊得可能根本不是例外——还是相信空气只是一种气体。直到1756年约瑟夫·布莱克表明可以明确地把“固定空气”(CO2)从普通空气中分离出来,人们仍然认为这两种气体的样品只是因为不纯才有区别。①

    ①J·R·帕亭顿(Partington):《化学简史》(第2版;伦敦,1951年)。第48~51、73~85、90~120页。

    布莱克的工作以后,气体研究进展迅速,在卡文迪什、普里斯特利、舍勒等人手里成绩尤为斐然,他们创造了一系列可以鉴别不同气体样品的新技术,所有这些人,从布莱克到舍勒,都相信燃素说,都经常用这个理论设计和解释实验。舍勒为了取得除去燃素的热质,实际上是第一次通过一连串精致的实验而获得了氧。但这些实验的最后结果出现了各种各样的气体样品和属性,复杂得使燃素说愈来愈应付不了实验室的经验。这些化学家们尽管都没有提出过应当取代这种理论,但再也不能始终如一地用它了。到十八世纪七十年代初拉瓦锡开始作空气实验时,几乎有多少气体化学家就有多少燃素说的变形。①一种理论的变形骤增,正是危机的一般迹象。在哥白尼的序言中也抱怨过这一点。

    ①虽然他们主要关心的是稍晚一些的时期,但许多有关材料部散见于I.R.帕丁顿和道格拉斯·麦启(DougComs Mckie)的《烧素说的历史研究》,《科学年鉴》,第11卷(1937年),第361~404页2第III卷(1938年),第1~58、337~371页;第II卷(1939年),第337~371页。

    燃素说对气体化学愈来愈模棱两可,用处也愈来愈少,这还不是拉瓦锡面临危机的唯一根源。他还很关心解释大多数物体燃烧或焙烧以后的重量增加,这又是一个具有一段长长史前期的问题。至少有几个穆斯林化学家早已知道某些金属在焙烧后可以增重。十七世纪有几个研究者从同一事实中得出结论说,焙烧过的金属从大气中搞来了一些成分。但在十七世纪大多数化学家似乎还不需要这个结论。如果化学反应可以改变各种成分的体积、颜色和质地,为什么不能改变重量呢?重量并不总是测量物质的量。而且,由焙烧而来的增重仍然是一种孤立的现象。大多数自然物(如水头),如燃素说后来所说的,焙烧后失去重量。

    但是经过十八世纪,原先对增重问题的满意回答就愈来愈难以维持了。一方面这是因为天平作为一种化学工具用得愈来愈多。另一方面因为气体化学的发展使之有可能也有需要保留气体反应物,化学家发现了愈来愈多的焙烧引起增重的实例。同时,由于化学家逐渐接受了牛顿的引力理论,也使他们坚持认为,重量的增加也必然是物质的量的增加。这些结论并不一定要放弃燃素说,因为还可以做各种各样的调整。也许燃素具有负重量,也许火粒子或者别的什么东西在燃素离开时进入了焙烧物。此外还有一些其他解释。但是,增量问题即使没有否定燃素说,它也一定会膨胀起来,引出愈来愈多的专题研究。其中的一个专题是:《关于把燃素作为一种同重量一起并按重量变化[分解]的实体在与之化合的物体中的产生》,1772年在法国科学院宣读,而这一年正好是以拉瓦锡向科学院秘书递交了他著名的密封短简而结束的。在写这张短简以前,化学家们多年来已接近觉察边缘的一个问题已成了一个突出的未解难题。①人们精心设计了燃素说的许多不同的说法来对付。象气体化学问题一样,增重问题也使燃素说愈来愈难以理解究竟是怎么回事了。人们虽然仍旧委托它作为一种研究工具,但这个十八世纪化学的规范却已在逐步失去独一无二的地位。在这个规范指导下的研究,已愈来愈类似于前规范时期在各个相互竞争的学派支配下的研究,这正是危机另一种典型的效应。

    现在再来看看第三个也是最后一个事例,即为相对论的涌现开辟道路的十九世纪末期物理学危机。这一次危机的一个根源可以追溯到十七世纪末,当时许多自然科学家,最著名的是莱布尼兹,都批判了经典绝对空间概念的最新变形中的牛顿痕迹。②他们已很有可能,尽管绝不是完全可能,表明绝对位置和绝对运动在牛顿体系中根本没有作用;他们又确实从值得重视的美学要求方面成功地暗示了,一种关于空间和运动的彻底相对性概念以后必将出现。但他们的批评是纯逻辑的。象早期的哥白尼派批评亚里士多德对地球静止的证明一样,他们作梦也没有想到向相对论体系过渡竟会得到观测的效果。他们绝没有把他们的观点同牛顿理论用于自然界所引起的任何问题联系起来。结果,他们的观点在十八世纪最初几十年中就同他们本人一起死去了,只是在十九世纪最后几十年中,当这些观点同物理学实践具有一种大不一样的关系时才重新复活起来。

    ①H.盖拉克:《拉瓦锡——关键的一年》(纽约州;伊萨卡;1961年)。全书证实了危机的发展和以及对危机的最初认识。关于拉瓦锡的处境的清晰说明,见该书第35页。

    ②马克斯·詹莫(Max Jammer):《空间概念:物理学空间理论的历史》(马萨诸塞州,坎布里奇;1954年);第114~124页。

    把空间的相对哲学最后加以叙述的技术问题,大约在1815年以后随着接受光的波动理论而开始进入常规科学,尽管直到十九世纪九十年代才激起危机来。如果光是牛顿定律支配下机械性以太中扩散的波动,那么无论是通过天体观测或是通过地球实验都应当能够探测出穿过以太的漂移。关于天体观测,只有观测光行差才有可能提供充分精确的有关信息,因此,通过测量光行差以探测以太漂移,就成了常规科学一个公认的问题。人们制造了许多特殊装置来解决这个问题。但这些装置没有探测出任何可见的漂移,于是这个问题就从实验家和观测家那里转移到理论家那里去了。在这个世纪的中叶,菲涅尔(Fresnel)、斯托克斯(Stokes)等人设想了许多企图解释为什么看不到漂移的以太理论说明。每一种说明都假定运动体拖曳了以太的某一部分。每一种都十分成功地解释了天体观测以及地球实验的否定结果,包括著名的迈克尔逊(Michelson)和莫雷(Morles)实验的结果。①除了各种不同说明之间的矛盾以外,仍然是没有什么矛盾的。若不是有了某种适当的实验技术,这种矛盾永远不会尖锐起来。

    只是由于十九世纪最后二十年中逐步接受了麦克斯韦的电磁理论,这种局势才又一次发生变化。麦克斯韦本人是个牛顿派,他相信光和电磁一般都是由于一种机械性以太粒子不断位移的结果。他的电磁理论的最初形式是直接运用这些他所赋予这种介质的假想的属性。他最后的理论已把这些属性抛掉了,但他仍然相信他的电磁理论同牛顿机械观的某种说明并无矛盾。②提出一种合适的说明,对他和他的后继者都是一个挑战。但是在实践中,正象科学发展中所一再经历的那样,要创造出那种所需要的形式是极其困难的。正象哥白尼天文学出现以后,不管作者是多么乐观,却造成对已有运动理论的不断加深的危机;同样,麦克斯韦理论也不管它是怎样来源于牛顿理论,最后也对它所由之出身的规范造成了一次危机。③不仅如此,这一次危机之所以最为严重,原因就在于我们正在研究的相对于以太的运动问题。

    ①约瑟夫·拉摩:《以太和物质……包括地球运动对光现象的影响的讨》(剑桥,1900年),第6~20、320~322页。

    ②R.T.格累兹布鲁克:《詹姆士·克拉克·麦克斯韦和现代物理学》(伦敦,1896年),第ix章。夫于麦克斯韦最后的看法,见他自己的书:《论电和磁》(第3版5牛津;1892年);第470页。

    ③关于天文学在力学发展中的作用,见库恩,前引书,第VII章。

    麦克斯韦讨论物体运动中的电磁行为,没有涉及以太的拖曳,这就证明很难把这种拖曳纳入他的理论之中。结果,探测穿越以太的漂移的全部早期观测都成了反常现象。因此,1890年以后的年代又目击了一长串实验方面和理论方面的努力,以探测相对于以太的运动并把以太拖曳纳入麦克斯韦理论。前者始终未能成功,尽管有些分析家认为结果模棱两可。后者提供了大量富有希望的开端,特别是洛仑兹(Lorentz)和菲茨杰拉德(Fitzgerald)的开端,但他们也揭出了更多的难题,最后又正好使进行竞争的理论激增,即我们前已明确的危机伴生物。②1905年涌现了爱因斯坦的狭义相对论,就违反了历史的安排。

    ②惠泰克,前引书;第I卷,第586~410页;第II卷(伦敦,1953年),第27~40页。

    这三个事例几乎都十分典型。在每个事例中,新理论都只能在常规解题活动已宣布失败以后才涌现。而且,除了在哥白尼一例中科学以外的因素起了特别巨大的作用,旧理论的破产以及各种理论的骤然激增作为一个信号,不会超过新理论发表前一、二十年。新理论就象是对危机的直接回答。但还要注意,尽管也许不那么典型,引起旧理论破产的那些问题也都属对早已知道的那些问题。常规科学以前的实践完全有理由认为。这些问题已经解决或接近解决了,这就可以说明,为什么当失败来临的时候失败的感觉会那么尖锐。一种新型的问题解决木了,常常使人失望,但从来不使人惊讶。问题也好,难题也好,往往不会屈服于第一次的进军。最后,这几个事例还共同具有另一个特点,使它们对危机的作用更为重要:每一次危机的解决在有关科学未发生危机时至少可以部分预见得到;但在没有危机的情况下却又总是忽视了这样的预见。

    有一个唯一完整的也是最有名的预见,即公元前三世纪的阿利斯塔克(Aristarehus)对哥白尼日心说的预见。人们常说,如果希腊科学的演绎性不那么厉害,不那么受教条的束缚,日心说天文学就可能早在实际提出的十七个世纪以前就开始提出了。①但这就忽视了全部历史的前后关系。当阿利斯塔克提出他的学说时,更为合理得多的地心系统并不需要日心说来满足它所能满足的任何需要。托勒密天文学的全部发展,它的成功和衰败,都发生在阿利斯塔克学说以后几个世纪里。而且,也没有什么明显的理由要特别重视阿利斯塔克。即使是哥白尼更为精致的学说,比托勒密系统既不更简单,也不更精确。有效的观察试验,如我们下面将看得更清楚的,并没有这二者之间提供什么选择的根据。在这些情况下,使天文学家们趋向哥白尼的因素之一(也是使他们不能趋向阿利斯塔克的因素之一)就是人们认识到了危机,首先是由于危机,才有新的创造。托勒密天文学未能解决问题,时间为一个竞争者提供了机会。我们另外的二个事例没有提供这样完整的预见。但可以肯定,吸收大气的燃烧理论——十七世纪由雷(Rey)、胡克(Hooke)和梅约(Mayow)所提出的理论——之所以未能使人们全力倾听,原因在于这种理论没有触及常规科学实践中人们认识到的难点。②十八~十九世纪的科学家们长期忽视从相对性观点对牛顿的批评,主要是由于它在竞争之中也未能取胜。

    科学哲学家们曾一再证明,根据同样一套材料总可以提出一种以上的理论构造。科学史表明,特别是在一种新规范的初期发展阶段上,发明这样一种替代的理论并不是很困难。但是,除非是在有关科学发展的前规范时期和后来进化中非常特殊的时机中,这种发明却正好是科学家所很少进行的。只要规范所提供的工具还能够解决它所规定的问题,科学就进展得最快,可以最深入地合理利用这些工具。理由是清楚的,科学象制造业一样——更换工具是一种浪费,只能留到需要的时候进行。危机的意义就在于它可以指示更换工具的时机已经到来。

    ①关于阿利斯塔克的工作,见T.L.希思(Health):《萨莫斯岛(Samos)的阿利斯塔克:古代的哥白尼》(牛津,1913年,第II部。关于对忽视阿利斯塔克成就的传统地位的极端说法,见阿瑟·郭斯特勒:《梦游者:人类对宇宙不断变化的认识历史》(伦敦,1959年),第50页。

    ②帕亭顿,同上书,第78~85页。

    VIII 对危机的反应

    此外,对科学家们因为面临反常现象或逆事例而抛弃规范抱怀疑态度还有第二条理由。在发挥这条理由时,我的论据本身将预示这篇论文的另一个主要论点。上述抱怀疑态度的理由纯粹是事实;那就是说,它们本身是一种流行的认识论的逆事例。因此,如果我的观点是正确的,它们最多只能有助于造成一种危机,或者更准确地说,有助于加强一种已经在很大程度上存在的危机。它们本身不能也不会证明那种哲学理论是错误的,它的辩护人会去做我们已经看到科学家们在面临反常情况时所做的事情。为了消除任何显而易见的冲突,他们会想出许多衔接方式和对他们的理论的特定限制。事实上,在文献中已经有许多恰当的限制。因此,如果这些认识论上的逆事例是要构成一种比较次要的刺激物,那就会因为他们的帮助而允许有一种新的不同的科学分析出现,在这个范围内,他们就不再是困难的来源。而且,如果有一种典型可以适用于这里,那么这些反常现象就不再被认为仅仅是事实了,我们以后将在科学革命中评述这种典型。在科学知识的一种新理论的范围内,他们似乎很象同义反复,对形势的陈述不能想象有另外的方式。

    例如,人们往往已经注意到,牛顿第二运动定律尽管承受了几个世纪,事实上和理论研究上的困难才达到,但对于那些交给牛顿理论的现象来说,却表现得很象一个纯逻辑的陈述,再多的观察也不能驳倒。①在第X节里,我们将看到,化学上的定比定律,在道尔顿(Dalton)以前,是一种偶然的实验上的发现,很含糊的概括,在道尔顿的工作以后,成了化学化合物的定义的组成部分、靠实验工作本身已不可能推翻了。这种概括很象科学家们面临反常现象或逆事例时不能抛弃规范那样也是会发生的。他们不能这样做,但仍然是科学家。

    虽然历史大概不会记录他们的名字,有些人因为他们不能容忍危机,无疑已经被迫抛弃科学。有创造性的科学家,象艺术家一样,必须能偶然在混乱的世界里生活,我在别处把这种必要性描述为科学研究中固有的“必要的压力”。②但是,我想,抛弃科学以支持另一种职业,是仅有的一种规范,靠逆事例本身就能导致抛弃这种规范。一旦发现了第一种并用来观察自然界的规范,就再也不会有那种缺乏任何规范的研究工作。抛弃一种规范而不同时以另一种去代替,就是抛弃科学本身。那种行动不仅在规范上,而且在人上都有反映。他不可避免地会被他的同伴着成是“责备他的工具的木匠。”

    ① 详见N.R.汉生(Hanson:《发现的模式》(剑桥,1958);第99~105页中的讨论。

    ② T.S.库恩:《必要的压力;科学研究的传统和创新》,犹太大学第三届(1959年)识别有创造性的科学人才研究会,卡尔文·W·泰勒(Calvin W.Taylor)编(盐湖城,1959年),第162~177页。对于艺术家中间的可以比较的现象,见弗蓝克·巴伦(Frank Barron):《想象的心理学》,《科学美国人》,第CXCIX卷(1958年9月);第151~166页;特别是 160页。

    相反,同样的论点至少可以是等效的;没有逆事例就不会有研究工作。因为把常规科学同处在危机状态中的科学区别开来的是什么?当然不是前者没有面临逆事例。正相反,我们前面所说的构成常规科学的难题,只是因为没有规范才存在,规范为科学研究提供基础,并完备地解决它的全部问题。曾经有很少数似乎是这样做的学科(例如,几何光学),不久就完全不再发生研究问题,而成为工程的工具。除了那些唯一起作用的问题外,常规科学观为难题的每一个问题都可以从另一种观点一种逆事例,因而是一种危机的来源。哥白尼看成是逆事例的,在托勒密的大多数其他继承者看来则是观察和理论之间相适合的难题。拉瓦锡看成是逆事例的,在普利斯特列看来则是在燃素说中成功地解决了的难题。爱因斯坦看成是逆事例的,在洛伦兹·菲茨杰拉德和其他人看来则是牛顿和麦克斯韦理论中的难题。而且,危机的存在本身并没有把一个难题转化为逆事例。并没有这样鲜明的分界线。而由于规范形式的激增,危机通过最终允许一种新规范的涌现而使正常的解题规则松弛。我认为,只有两种可能,或者是没有一种科学理论曾面临逆事例,或者是所有科学理论一直面临着逆事例。

    这种情况怎样才能被看成不是那样呢?那问题必然导致对哲学的、历史的和批判的解释,而那些题目在这里是被排斥在外的。但是我们至少能指出两条理由,为什么科学被认为如此易于为这个一般原则提供一种说明,即真理和谬误唯一地和明确地由陈述和事实的对抗决定的。常规科学务必而且必须不断地力求使理论和事实更紧密地一致起来,那种活动很容易被看成是检验,或寻求证实或证明是错误的。它的目的是要解一个难题,因为它的存在就必须假定规范有效。只有这个科学家而不是这种理论不相信不足以得到一个解。在这里,甚至比上面更可以用那句谚语。“蹩脚的木匠责备他的工具。”此外,科学教育把讨论一种理论同评论它的典型应用纠缠在一起,这种方式有助于加强一种主要是从其他来源证实了的理论。人们提出要这样做的最不重要的理由是,读科学教科书的人能容易地把这种应用理解为这个理论的证据,为什么应当相信它的理由。但是学科学的学生是因为教师和教科书的权威,而不是因为证据接受各种理论的。他们有什么选择余地呢了或者有什么能力呢?教科书中提出的应用并不是作为证据,而是因为学习它们是在流行的练习的基础上学习规范的一部分。如果应用是作为证据提出的,那么教科书的失败本身就使人想起另一个可供选择的解释,或者去讨论科学家们不能产生规范的各种问题,使他们的极端偏爱的作者相信各种解决办法。这样一种指控是一点道理也没有的。

    那么,怎样回到最初的问题呢?科学家们对意识到理论和自然界之间相适应方面的一种反常情况是否有反应呢?刚才所说的情况表明,即使不一致比理论的其他应用中经验到的大得多,也不需要引出很深刻的反应。始终有某些不一致。即使是最难对付的不一致,最后也会对正常的实践有反应。科学家们往往愿意等待,如果有许多问题在这领域的其他部分中有用时尤其如此。例如,我们已经注意到,在牛顿最初的计算以后六十年间,预言的月球近地点运动仍然只有观察到的一半。当欧洲最优秀的数学物理学家继续毫无成就地努力要解决这个著名的不一致时,偶而也有人建议修改牛顿的平方反比定律。但是没有一个人很认真地对待这些建议,而且实际上已经证明容忍一个严重的反常现象是正确的。克莱劳特(CComiraut)于1750年已能证明,反而是应用的数学错了,而牛顿的理论象以前一样仍然有效。①甚至在许多情况中似乎很可能没有一点错误(或许因为所包含的数学是比较简单的或者是熟悉的在别处是很成功的一种),坚持和认识反常,并不总是引起危机。没有一个人因为来自牛顿理论的预言和声速及水星运动两者之间的早已认识了的不一致而对牛顿的理论认真地表示怀疑的。第一个不一致最后几乎完全出乎意料地是因为根本不同的目的而进行的关于热的实验解决的;第二个不一致是在一次危机以后随着广义相对论消失的,它在创造中并没有作用。②显然两者都没有被看成足够根本去引起同危机—起起作用的不适。它们可能被认为是反例,并且在今后工作中仍旧被放在一边。

    ①W.惠威尔:《归纳科学的历史》(修订版;伦敦。1847年),第II卷。第220~221页。

    ②关于声速;见T.S.库恩,《绝热压缩的热理论》《爱西斯》;第XLIV卷(1958年)。第136~137页。关于水星近日点的长期移动,见E.T.惠泰克:《以太理论和电的历史》;第II卷;(伦敦,1953年),第151~179页。

    因此,如果一种反常现象是会引起危机的,它通常必须不仅是一种反常现象。而在适应规范性质方面总会有各种困难;其中大多数或早或迟常常是靠不能预见的办法弄姿的。科学家停止考查他所注意到的每一种反常现象,就很少会做成有影响的工作。因而,我们必须问,是什么使一种反常现象看来值得一致努力去考查,对于这个问题,可能没有完全一致的回答。我们已经考查过的情况是很独特的,但决不是根据传统获得的。有时,一种反常现象会清楚地使这规范的明确而基本的判断发生问题,就象以太阻力问题对于那些接受麦克斯韦理论的人们所做的那样。或者,象在哥白尼革命中那样,一种反常现象并没有明显的基本重要性,只要它所禁止的应用在实践中特别重要,在这种情况下,对日历设计和占星术,就会引起危机。或者,象在十八世纪的化学中,常规科学的发展会使以前仅仅是一种使人烦恼的反常现象改变成危机的源泉:重量关系问题,在气体化学技术发展起来以后,就具有十分不同的状况。大概还有其他情况能使一种反常现象特别紧迫,通常几种情况会互相结合。例如,我们已经注意到,哥白尼面临的危机的一个源泉是时间的长短,在此期间,天文学家们同减少托勒密体系中残留的不一致所作的斗争颇不成功。

    为了这些理由或其他类似的理由,当一种反常现象达到看来是常规科学的另一个难题的地步时,就开始转化为危机和非常科学。于是这种反常现象本身就这样被同行们更为普遍地认识了。这领域的越来越多的著名人物对它越来越注意。如果它仍然继续反抗,虽然通常它并不反抗,许多人就会认为它的解决是他们学科的主要问题。对于他们,这领域看来不再和早先一样了。它的部分不同的外表仅仅是科学考查的新的固定点。改变的一个甚至更为重要的来源是许多部分解的发散性质,使这问题已取得一致的注意。对反对问题的早期攻击会十分紧密地引起规范规则。但是随着连续不断的反对,对它的越来越多的攻击会包括某些小的或不那么小的规范的连接方式,它们中间没有两个是完全相象的,每一个有一部分成功,但是没有一个足以被这个集体当作规范来接受。由于这种发散的连接方式激增(他们会越来越频繁地被描述为特定的调正),常规科学的规则变得越来越模糊了。虽然仍然有一个规范,但只有少数实践者证明完全同意它是什么。甚至以前已经解决了的问题的标准解也成了问题。

    当尖锐化时,有关的科学家有时就认识了这种形势。哥白尼抱怨说,在他的时代,天文学家们“在天文学研究中是如此不一致……以致他们甚至不能解释或观察季节年的长度。”他继续说,“关于他们,就好象一个艺术家从不同的模特儿身上为他的象收集手、脚、头和其他部分,每一个部分都画得很好,但是与整个身体不符合,因此它们一点也不能互相协调,结果将是魔鬼,而不是人。”①爱因斯坦,由于受现在运用的不那么华丽的语言的限制,只是写道:“它好象地基已经从下面被抽掉了,无论哪里看到的都没有牢固的基础,人们能在它上面建设。”②沃尔夫干·鲍利(Wolfgang Pauli)在海森伯关于矩阵力学的论文指明新量子理论的道路前几个月,给一个朋友写道:“在这时刻,物理学又混乱得可怕。无论如何,它对我来说是太困难了,我希望,我曾是一个电影喜剧演员,或者某种类似的东西,而且从来没有听到过物理学。”如果同鲍利不到五个月以后的话对比,那种说明就给人以特别深刻的印象:“海森伯型的力学又一次给了我生活中的希望和快乐。当然它并没有提供谜底,但是我相信,它又有可能前进了。”③

    ①引自T.S.库恩,《哥白尼革命》(马萨诸塞州,坎布里奇;1957年),第138页。

    ②爱因斯坦:《自传》,载《爱因斯坦:哲学家-科学家》,P.A.希尔泼(Schilpp)编(依利诺斯州,伊文斯顿,1949年)。第45页。

    ③腊耳夫·克朗尼希(Ralph Kronig):《转折点》,载二十世纪的理论物理学:《沃尔夫干·鲍利纪念文集》,M·菲尔兹(Fierz)和V.F·韦斯科夫(Weisskorf)编(纽约;196O年),第22、25~26页。这篇文章的大部分在描述1925年以前几年量子力学中的危机。

    如此明确的认识上的崩溃是很少见的,但是危机的效应并不完全取决于对它的自觉的认识。我们能说这些效应是些什么呢?它们中只有两条看来是普遍的。一切危机都是从一种规范变模糊开始的,接着就使正常研究的规则松弛了。在这方商,危机时期的研究很象前规范时期的研究,但前者不同的地方比较小,而且是更清楚地规定了的。同时一切危机都随着规范的新的候补者出现。以及随后为接受它斗争而告终。这些都是以后几年要考虑的问题,但是为了完成关于这种危机状态的进化和解剖的评述,我们必须预先说一点在那儿要说的话。

    从一种处在危机中的规范过渡到一种新的规范,由此而能出现常规科学的一种新传统,远不是一个积累的过程,不是靠老规范的分析和推广而达到的。不如说它是这领域按新原理的一种重建,是一种改变这领域的某些最基本的理论推广,以及它的许多规范方法和应用的重建。在过渡时期,会有一大批问题,既能由老规范解决,也能由新规范解决,在这些问题之间决不会完全重迭。但是解决的方式也会有决定性的差别。当过渡完成时,同行会改变对这领域的观点、方法和目的。一个有洞察力的历史学家在考察由于规范改变而重定科学方向的经典情况时,最近把它描述为“拾起拐棍的另一头,”象以前一样处理同一堆数据的一种方法,但是,要给它们一个不同的框架,而使它们处在一个新的相互关系的体系中。①其他注意到科学进展的这个方面的人们强调了它在改变形象化方式方面的同一性:“纸上的这个符号最初看来象一只鸟,现在看来象一只羚羊,或者反过来也是这样”。②那种类似的事物可能是使人误解的。科学家们没有看到某些东西象其他一些东西;相反,他们仅仅看到它。我们已经考虑了某些由于说普里斯特利把氧看成非燃素气体而造成的某些问题。还有,科学家们并不保持这种方式的主体在各种观察方法上来回变换的自由。然而,方式的变换,特别因为它在今天是如此熟悉,因而对全面的规范变换中发生什么,是一个有用的基本的样板。

    ①赫柏特·勃特菲尔德(Herbert Butterfield):《现代科学的起源;1300~18O0年》(伦敦,1949年),第1~7页。

    ②汉生;前引书。第1章。

    前面的预期可以帮助我们认识危机是新理论涌现的一种适当的前奏,特别因为我们已经在讨论发明的出现中考察了同一过程的小型版本。正因为新理论的出现破除了科学实践的一种传统,并引进了一种在不同规则下和在不同论述领域中实施的新传统,很可能只有当第一种传统已经感到严重地走入迷途时才会发生。但是,那种议论仅仅是研究危机状态的前奏,而且,不幸它所导致的问题要求心理学家的能力甚至比要求历史学家的能力更多。非常研究象什么?反常现象是怎样成为定律似的东西的?当科学家们还只意识到某些东西已经不行了,在某个水平上根本错了,而他们的训练还没有使他们准备去讨论这个水平时,科学家们怎样继续前进呢了那些问题需要深远得多的研究,它应当不完全是历史的。随之发生的必然会是比以前所进行的更加有试探性和更加不完备。

    一个新规范出现,至少在酝酿时,常常在危机前已经发展到某种程度,或者已经被明确地认识到了。拉瓦锡的工作提供了一个恰当的例子。他的莫明其妙的笔记在第一次彻底研究燃素说中的重量关系以后和在普里斯特利的著作已经全面地揭示了气体化学中这次危机以前不到一年已经存放在法国科学院里了。或者再举一个例子,托马斯·扬(Thomas Young)关于光的波动理论的第一个报告,在光学危机发展的很早时期就已经问世了,这个问题,没有扬的帮助,人们几乎不会重视,只是在他写成以后的十年期间,它已经成长为国际性的科学上的流言。在这类情况下,人们只能说,规范的次要的瓦解和常规科学规则的最初的模糊,都足以促使某人用新方法去观察这领域。插在最初感到困难和认识到一个有用的候补者之间的必然是基本上无意识的。

    然而,在其他情况下,例如,哥白尼、爱因斯坦和现代核理论那些情况下,在最初意识到崩溃和新规范出现之间要经过相当长的时间。当那种情况发生时,历史学家至少可以抓住几个象非常科学那样的暗示。科学家们在理论上面临一种公认的根本反常现象时,最初的努力常常是把它更加明确地孤立出来,并给予它结构。虽然意识到它们不可能完全正确,他会更加努力地推进常规科学的规则,去观察在困难领域里,恰好在哪里和在什么范围内它们能做工作,同时他会寻求扩大崩溃的方法,使它比以往更显著,或许也更有启发,当它在实验中发挥作用时,其结果被认为是预先知道的。而在以后的努力中,比科学发展的有规范以后的其他任何部分,他会更象我们的科学家的最流行的形象,常常象一个随便探索的人,试做各种实验就是要看会发生什么,期待一种效应,它的性质则是他所不能完全猜到的。同时,由于没有实验能被没想为没有某种理论的,科学家们在危机中经常会试图导致各种思辩的理论,如果成功,就可以揭示通向新规范的道路,如果不成功,就能比较安逸。

    开普勒关于他同火星的运动所作的长期斗争的报告,和普里斯特利关于他对新气体激增的反应的描述,是意识到反常现象所产生的比较混乱的那种研究的经典例证。①但是,来自场论和基本粒于现代研究的一切也许是最好的说明。在危机不存在时,使它必须考察常规科学的规则能伸展得多远,探测中微子所需要的巨大努力会不会被认为已经证明是正确的?或者,如果这规则在某些未发现的点上还没有明显地崩溃,会不会提出或者检验宇称不守恒这个激进的假说?在过去的十年期间,象物理学中的其他许多研究一样,这些实验部分地试图把一组仍然在扩散的反常现象局部化和规定它的来源。

    ①开普勒关于火星的工作报告,见J.L.E.德莱伊(Dreyer):《从泰勒斯到开普勒的天文学史》(第2版;纽约,1953年),第38O~393页。偶尔的不准确并不妨碍德莱伊的摘要为这里提供所需要的资料。关于普里斯特利;见他自己的著作;特别是《对各种空气的实验和观察》(伦敦;1774~1775年)。

    这种非常研究,虽然并不一般地,而常常是伴随着另一种研究。我想,特别是在公认的危机时期,科学家们必须转向哲学分析,作为解开他们的领域中的谜的工具。科学家们并不一般地需要或希望成为哲学家。确实,常规科学通常同创造性的哲学保持一定距离,也许是有充分理由的。在正常的研究工作能用规范作为一个模型、规则和假设去处理的范围内,并不需要弄得很明确。在第V节中我们注意到,哲学分析所追索的一整套规则甚至用不着存在。但是,这不是说,寻求假设(甚至为不存在的一种传统)不可能是使思想上紧紧掌握的一种传统变弱并为一种新的传统打基础的一种有效方法。牛顿物理学在十七世纪出现以及相对论和量子力学在二十世纪出现,并不是意外事件,两者都以现代研究传统的哲学分析为先导和伴随。①这种所谓思想实验在这两个时期里应当在研究的进展中起批判性的作用。正如我在别处已经指出的,分析性的思想实验在伽利略、爱因斯坦、玻耳(BOhr)和其他人的著作中显得如此重要,完全是想要用把危机的根源同实验室中不能达到的明晰性分离开来的方法对现存的知识暴露出陈旧的规范。②

    ①关于伴随着十七世纪大学的哲学上的转折点,见雷奈·杜加思:《十七世纪的力学》(纳沙特尔,1954年);特别是第XI章。关于十九世纪类似的插曲,见同一作者的早期著作《力学史》(纳沙特尔,1950年),第419~443页。

    ②T.S库恩:《思想实验的作用》,见《亚历山大·咖依列杂文集》,R.塔顿(Taton)和I·B·柯亨编,1963年由海尔曼(巴黎)出版。

    随着这些非常程序单一地或集合地展开,另外一件事情也可能发生。由于把科学上的注意力集中在一个狭窄的困难地区上,和准备使科学上有才智的人去认识实验上的反常现象是什么,危机常常会产生出新的发明。我们已经注意到,对危机的意识怎样把拉瓦锡关于氧的工作同普里斯特利的工作区别开来;而且氧并不是意识到反常现象的化学家们在普里斯特利的著作中所能发现的仅有的一种新气体。或者再举一个例子,新的光学发现正好是在光的波动理论出现以前和出现期间迅速地积累起来的。某些象由反射造成的偏振问题,则是偶然事件的结果,那种偶然事件是把工作集中在一个困难地区上很可能引起的。(马勒斯[Malus]做出了这个发明,他正好开始在为科学院关于双折射的得奖论文工作,一个众所周知处在一种不能令人满意状态中的问题。)其他象在圆盘阴影中心上的光点等问题,则是来自新假说的预言,一旦成功就帮助把它转化成为以后工作的规范。还有其他一些问题,象乱涂的和厚底片的颜色,则是以前常常看到和偶然注意到的,但是,象普里斯特利的氧一样,已经成为和著名效应相同的东西,以各种方法阻碍它们被看出他们是什么。①大约从1895年起,可以提出这多重发明的一个类似的报告,那就是出现量子力学的经常的伴随物。

    非常研究还必须有其他表示和效应,但是在这种地区,我们很少发现那种需要问的问题。然而,也许在这一点上再也不需要了。前面的评述应当足以表明,危机如何同时打破了旧框框,并为规范的根本转移提供了必须的日渐增长资料。有时新规范的形式在非常研究给予反常现象的结构中是有预兆的。爱因斯坦写道,在他有经典力学的任何代替品以前,他已能看出黑体辐射、光电效应和比热等已知的反常现象之间的相互关系。②更经常的是预先没有自觉地看出这样的结构。相反,新的规范,或者以后环节容许的充分暗示,有时是在午夜,在深深地处于危机中的一个人的思想里突然出现的。那最后阶段的性质是什么?一个人是怎样发明(或者发现他已经发明了)一种新方法的?它给予那时聚集起来的全部资料以秩序,这一切在这里仍然是不可思议的,也许永远是这样。让我们在这里只注意有关它的一件事。达到一个新规范的这些基本发明的人们几乎总是很年轻的,或者对于他们改变规范的领域来说是很新的。③而且,也许那问题不需要加以明确,因为,很明显,这些人很少把以前的实践提交给常规科学的传统规则,而是特别想要看出那些规则已不再适用了,并设想另一套可以代替它们的规则。

    向新的规范过渡是科学革命,这是我们长期准备直接探讨的一个问题。然而,首先要江意一个最后的和显然难以捉摸的方面,在这方面,最后三章的材料已经准备了这条道路。直到第VI节,首先引进了反常现象这个概念,“革命”和“非常科学”这种术语可以看成等效的。更重要的是两个术语没有一个比“非正常的科学”有更多的含意,这种迂回性至少会使少数读者困扰。事实上不需要这样做。我们将要发现,类似的迂回性是科学理论的特征。然而,不论是否麻烦,迂回性不再是不受限制的了。这一节和前两节已经在常规科学活动中引出了崩溃的许多准则,这种准则根本不依赖于崩溃是不是继革命之后发生的。科学家们面临反常现象或危机时,对现有的规范采取不同的态度,而且他们的研究的性质也相应地改变了。产生竞争的连接方式,愿意尝试任何事情,表示明确的不满,求助于哲学和对基本原则开展争论,这一切都是从正常研究过渡到非常研究的征兆。常规科学的观念就依赖于它们的存在,而不是依赖于革命。

    ①关于新的光学发现,一般见V.隆契:《光学史》(巴黎,1956年);第VII章。关于这些效应的一个较早的说明,见J.普里斯特利:《有关视觉、光和颜色的发明史和现状》(伦敦,1772年),第498~52O页。

    ②爱因斯坦,前引文。

    ③关于青年在基础科学研究中的作用这种概括是如此普通以至于成了一种陈词滥调。而且,看一看对科学理论作出基本贡献的任何一张名单都会提供印象深刻的确证。然而,这种概括非常需要系统的研究。哈维·C·雷曼的《年龄和成就》[普林斯顿,1953年,英文版])提供了许多有用的资料;但是,他的研究并没有试图选出包括重新提出基本概念方面的贡献。他们也没有查问特殊情况,即使有;也伴随着科学上较晚的生产能力。

    IX 科学革命的性质和必然性

    对应的一个方面必须已经是明显的。政治革命是由于愈来愈感到,尽管常常限于政界的一部分,现有制度已不足以应付由它们造成的环境所提出的问题而开始的。大体上相同,科学革命也是由于愈来愈感到,尽管也常常限于科学界的一个狭小的部分,现有的规范在探索自然界的一个方面已不起作用而开始的,对这个方面规范本身以前是起带头作用的。在政治发展和科学发展中,机能失灵的感觉能导致危机,它是革命的先决条件。而且,虽然公认它曲解了这个隐喻,即对应不仅适合于可归因于哥白尼和拉瓦锡的那些主要的规范变化,而且也适用于小得多的规范变化,它是同吸收一种新现象象氧或X-射线等联系在一起的。正如我们在第五节末尾注意到的,科学革命需要只对那些现象看来好象是革命的,它们的规范是受他们影响的。对于局外人来说,他们也许象二十世纪初的巴尔干革命一样,看来好象是发展过程的正常部分。例如,天文学家们能把X-射线仅仅当作一种附加的知识来接受,因为,它们的规范是不受新辐射的存在影响的。但是,对于象开尔文、克鲁克斯(Crookes)和伦琴等人来说,他们的研究讨论了辐射理论

    ,或阴极射线管、X-射线的出现必然违背了一种规范,就象它创造了另一种规范一样。那就是为什么这些射线只有通过某些最初同正常研究不对头的东西才能发现。

    对政治发展和科学发展之间这种类似事件的遗传方面应当不再受怀疑。可是,这种类似还有第二和更意味深长的方面,第一方面的意义也依赖于这个方面。政治革命的目的是要用禁止那些制度的办法去改变政治制度。因而,它们的成功必须部分地消灭一套制度,以支持另一套制度,而在过渡期间,社会根本不是完全受制度支配的。最初只有危机减弱政治制度的作用,就象我们已经看到它减弱规范的作用一样。显然有越来越多的个人同政治生活日益疏远,并在其中表现出越来越离心离德。然而,随着危机深化,这些人中有许多人献身于在一种新制度的框架中改造社会的某些具体建议。这个社会在那些问题上分化为竞争的阵营或党派,一派力求保卫旧制度,其他派别则力求建立某些新制度。一旦两极分化已经出现,政治上求助就破产了。因为,他们对制度的模型意见不同,政治变革就是在这种制度模型内达到并予以评价的,因为他们承认并没有超制度的框架用以判断革命的分歧,各党派对革命的冲突最终必须诉诸大规模的说服方法,常常包括武力。虽然革命在政治制度的发展中曾经具有生死存亡的作用,那种作用依赖于它们部分地是在政治和制度以外的事件。

    这篇论文的剩余部分目的在于说明,规范变化的历史研究暴露了科学进展中的极为类似的特征。在竞争着的规范之间就象在竞争着的政治制度之间作出选择一样,原来只要在社会生活的不相容的方式之间作出选择。因为,这种选择的特征并不是而且也不能是仅仅由常规科学所特有的评价程序来决定,这些特征部分地依赖于一种特殊的规范,而那种规范是处在争论中的。当规范进入关于规范选择的争论时,它们的作用必然是循环的。每一个集团都用它自己的规范去为保卫那种规范辩护。

    当然,循环的结果不会使论据腊误或无效。不过以一种规范为前提的人在为这种规范辩护时,对那些采纳新自然观的人们会喜欢什么科学实践还是能提供一个清楚的说明的。那种说明可以是很有说服力的,常常也是令人不能不相信的。然而,不论它有多大力量,循环论据这种情况只是有说服力。它不能从逻辑上甚至从几率上迫使那些拒绝这种说明的人们进入这个集团。两派对一场关于规范的争论所具有的前程和价值是不够广泛的。在规范选择中就象在政治革命中一样,没有比有关团体的赞成更高的标准了。为了发现科学革命是怎样产生的,我们就不仅必须考察自然界的和逻辑的冲突,而且必须考察在相当专门的集团中生效的有说服力的辩论技巧,那种集团组成科学家的团体。

    为了发现为什么规范选择这个问题决不能单靠逻辑和实验明确地解决,我们必须简短地考察一下把传统规范的支持者同他们的革命的继承者分开的各种分歧的性质。这种考察是这一节和下一节的主要对象。可是,我们已经指出了这种分歧的许多例子,而且没有一个人会怀疑历史能提供其他许多例子。可能怀疑他们的存在的是什么?因而,必须首先考虑的是什么?那就是提供关于科学本性的主要资料的例子。同意抛弃规范已经是一种历史的事实,是否说明人类的轻信和混乱呢?为什么吸收一种新现象或者一种新的科学理论必须要求拒绝一种较陈旧的规范呢?是否有本质的理由呢?

    首先要注意,如果有这样的理由,他们也不是从科学知识的逻辑结构中引伸出来的。原则上,一种新现象出现应当对过去的科学实践的任何部分都没有破坏性。虽然在月球上发现生命对现存的规范是有破坏性的(这些规范告诉我们有关月球上的事物似乎同那儿有生命存在是不相容的),而在银河系的某些不大著名的部分发现生命就不会。由于同样的原因,一种新理论并不一定同它的先驱冲突。它唯一地应当讨论以前不知道的现象,就象量子理论讨论(意味深长地但不是唯一地)二十世纪以前未知的亚原子现象。或者,这种新理论只不过是比那些以前已知的更高水平的理论,一种把一整批较低水平的理论连在一起的理论,而没有从实质上改变任何一种理论。今天能量守恒理论正好把力学、化学、电学、光学和热理论等连接起来。在新旧理论之间还能设想出其他可以和谐共有的关系。他们全部应当由历史过程来说明,科学已经通过这种历史过程发展起来了。只要他们是这样,科学的发展就会是真正的积累。各种新现象只不过揭示自然界的一个方面的秩序,在那里以前什么也没有看到。在科学的进展中,新知识将代替无知而不是代替另一种不相容的知识。

    当然,科学(或者某些其他事业,也许效果较小)应当以那种完全积累的方式发展。许多人相信它是这样发展的,大多数人似乎仍然设想,积累至少是历史发展会发扬的一种理想,只要它不那么经常地被人类物质所歪曲。那种信念是有重要理由的。在第X节中我们将发现,科学是积累的这种观点同一种占优势的认识论多么紧密的纠缠在一起,那种认识论认为知识是由思维直接放在原始感觉资料上的一税结构。在第XI节中,我们将考察由有效的科学教育方法对同样的编史工作纲要提供的强有力的支持。不过,尽管那种理想的形象似乎很有理由,也有日益增长的理由怀疑它能不能是科学的一种形象。在前规范时期以后,吸收所有新理论和几乎所有新现象,事实上都要求破坏以前的规范,以及随后发生的科学思想的竞争着的各学派之间的冲突。由积累而获得没有预料到的新颖事物,对科学发展的规则来说已证明几乎是不存在的例外。认真对待历史事实的人,必然怀疑科学并不倾向于我们对它的积累形象所提示的理想。也许它是另外一种事业。

    可是,如果反对的事实能把我们推进得那么远,那末再看一看我们已经涉及的理由,就会暗示,由积累获得新颖事物不仅事实上很少,而且原则上未必会有。正常研究是积累的,它把它的成就归功于科学家们有规则地选择问题的能力,那种问题能用接近于那些已经存在的概念和仪器的技术去解决。(那就是为什么对有用问题的过分关心能如此容易地抑制科学发展,而不顾它们同现有知识和技术的关系。)可是,力求解决由现存知识和技术规定的问题的人,不只是东张西望。他知道,他想得到什么,他设计地的工具,并适当地指导他的思想。没有预料到的新颖事物,新的发明,只有在他对自然界的预期和他的仪器果然是错误的范围内才能出现。最终的发明的重要性本身常常是同它所预兆的反常现象的范围和难对付成正比的。于是,在揭示反常现象的规范和后来使反常现象类似规律的规范之间必然有冲突。在第VI节中考察的通过规范的破坏而发明的例子并不使我们只面临历史上的偶然事件。在这些例子中发明必然是引起的,也没有其他有效的方法。

    同样的论据甚至可以更清楚地应用于发现新理论。一种新理论可以提出的原则上只有三种类型的现象。第一种是由现存规范已经很好地说明了的现象组成的,而且这些现象很少为理论建设提供动机或出发点。当他们象第VII节末尾讨论过的用三种著名的预期去处理时,结果是理论很少被接受,因为自然界没有为辨别是非提供根据。第二类现象是由那些其性质为现存规范表明的现象组成的,但是它们的细节只有通过理论的进一步连接方式才能被理解。科学家们有许多时间把他们的研究对准这些现象,但是那种研究目的在于连接现有的规范,而不是发现新规范。只有当这些连接的企图失败时,科学家们才遭遇第三类现象,即已被认识的反常现象,其特征是它们顽固地拒绝被现有规范吸收。只有这类现象才引起新理论。除了各种反常现象以外,规范为科学家的视野中由理论决定的地方提供一切现象。

    但是,如果新理论要解决现有理论对自然界的关系中的反常现象,那么这个成功的新理论必须容许在某些地方有不同于来自前人的预见。如果两者在逻辑上是不相容的,就不可能发生那种不同。在被吸收的过程中,第二种理论必须取代第一种理论。甚至象能量守恒那样的理论,今天看来好象是一种合乎逻辑的上层结构,它仅通过独立建立的理论与自然界联系起来,没有规范破坏,历史上也不发展。相反,它是由一次危机产生的,其中一个主要因素是牛顿力学和某些新近形成的热的热质论结果之间的互不相容。只是在热质论已经被抛弃以后,能量守恒才能成为科学的组成部分。①而且也只有在它已经成为科学的组成部分若干时间以后,它才能被看成是一种逻辑上较高类型的理论,一种同前人不冲突的理论。在关于自然界的信念中没有这些破坏性的变化,就很难看出新理论是怎样兴起的。虽然逻辑上包括在内仍然是连续的科学理论之间的关系中的一个可以容许的观点,它从历史上看是难以置信的。

    ①锡儿凡努斯·P·汤普森;《拉格斯的开尔文男爵威廉·汤姆逊的一生》(伦敦1910年,第一卷,第266~281页)。

    我想,在一个世纪以前,让革命的必然性停留在这一点上是可能的。但是,今天,不幸已经不行了,因为,如果接受现代最流行的关于科学理论的本质和作用的解释,那就不可能保持上面提出的关于这个问题的观点。那种解释同早期的逻辑实证主义密切有关,并没有无条件地被它的后继者抛弃,它将限制一种已被接受的理论的范围和意义,以便使它不可能同任何后来的对某些同样的自然现象做出预言的理论冲突。关于科学理论的这种受限制的概念的最著名和最强有力的情况是在讨论现代的爱因斯坦力学同牛顿的《原理》传下来的较古老的力学方程之间的关系时出现的。按照本文的观点,这两种理论在由哥白尼和托勒密天文学的关系所说明的那种意义上是根本上互不相容的:只有承认牛顿的理论是错误的,爱因斯坦的理论才能被接受。今天,这仍然是少数人的观点。①因而,我们必须考察最流行的反对它的意见。

    ①例如,见P·P·维纳(Wiener)的意见,载《科学哲学》第XXV卷(1958年)第298页。

    这些反对意见的要点如下:相对论力学不能证明牛顿力学是错误的,因为牛顿力学仍然被大多数工程师极为成功地运用着并且被许多物理学家有选择地应用着。而且,运用这种旧理论的适当理由已经代替它的理论本身在其他应用中证明。爱因斯坦的理论能用来证明,来自牛顿方程的预言,同我们满足于少数限制性条件中应用的测量工具一样好。例如,牛顿理论要提供一个良好的近似解,被考察的物体的相对速度同光速比较必须是小的。在受这种条件和其他少数条件支配下,牛顿理论好象是可以从爱因斯坦理论中推导出来的,因而,它是爱因斯坦理论的一个特殊情况。

    但是,反对意见继续指出,没有一种理论有可能同它的特殊情况冲突。如果爱因斯坦的科学似乎使牛顿力学错了,那只是因为有些牛顿主义者是如此不小心,以致要求牛顿产生完全精确的结果,或者要求它在很高的相对速度上也有效。既然他们不可能有任何证据支持这样的要求,当他们提出这样的要求时,就背叛了科学的标准。就牛顿理论曾经是受到有效证据支持的真正的科学理论而论,它仍然是真正科学的理论。只是对这理论的过高要求——那种要求决不是科学的正确部分——才能被爱因斯坦证明是错误的。清除了这些人为的过高要求,牛顿理论从来没有而且也不可能受到挑战。

    这种论据的某些变种,完全可以使被一个著名的有能力的科学家集团运用过的任何理论免受攻击。例如,很有害的燃素说,使大量物理现象和化学现象有了秩序。它说明了为什么物质燃烧,是因为他们的燃素丰富,以及为什么金属和它们的矿石有这么多共同的性质。因为金属全部是由各种元素同燃素化合而成的,全部金属共有的燃素产生了共同的性质。另外,燃素说明了许多反应的原因,在这些反应中,酸是由象碳和硫那样的物质燃烧形成的。它也说明了,当燃烧在一份体积有限的空气中发生时体积的减少,因为空气吸收了由燃烧释放的燃素,“损坏了”空气的弹性,正如火“损坏了”钢制弹簧的弹性一样。①如果这些是燃素理论家对他们的理论所要求的仅有的现象,那种理论就决不可能受到挑战。同样的论据将满足曾经完全成功地应用于任何现象范围的任何理论。

    但是,要用这种方法来拯救各种理论,它们的应用范围必然受到那些现象和观察的精确性的限制,手头的实验证据已经讨论了这个问题。②只要再前进一步(一旦迈出了第一步,就很难避免这一步),这样一种限制就会禁止科学要求“科学地”谈论任何不是已经观察到的现象。这种限制即使在它的现代形式中也禁止科学家在自己的研究中依靠一种理论,再当研究进入一个领域,或者追求某种程度的精确时,过去的实践和理论都没有为这种研究提供先例。这种禁令在逻辑上是不能排除的。但是,接受这些禁令的结果便会是研究的终结,通过这种研究,科学可以进一步发展。

    ①詹姆斯·B·柯南:《推翻燃素说》(剑桥,1950年,第13~16页);以及J.R.巴丁:《化学简史》(第2版;伦敦,1951年,第85~88页),H.迈兹热:《牛顿、斯塔尔、波尔哈夫和化学学说》(巴黎,1930年)第II部分中,对燃素说的成就作了最充分的和最有好感的说明。

    ②比较由R.B.勃雷斯韦(Braithewaite):《科学说明》,(剑桥;1953年),第50~87页;特别是第76页,通过一种很不相同的分析所达到的结论。

    事实上那问题此刻已经是一种同义反复。不信奉某一种范围就不可能有常规科学。而且那种信奉必须延伸到没有先例的领域和精确程度。如果它不延伸,这规范就不能提供还没有解决的谜。而且,不只是常规科学依赖于信奉一种规范。如果现有的理论只是使科学家受现有的应用约束,那就不可能有意外事件、反常现象或危机。但是,这些只不过是指出通向非常科学之路的路标。如果对一种理论的合法应用范围照字义采纳实证主义者的限制,告诉科学界什么问题可以导致根本改变的机理必须停止起作用。当这种情况发生时,科学界不可避免地会回到某种很象它的前规范状态,在这种条件下,所有成员都讲究科学,但是在这种条件下,他们的总产品简直不象科学。是否真有人对重大科学进展的代价是赞成冒风险犯错误呢?

    更重要的是,在实证主义者的论据中展现了逻辑上的空隙,这种空隙会立刻把我们重新引向革命变革的本质。牛顿力学真能从相对论力学推导出来吗?这样一种推导看来象什么?设想有一组陈述,E1,E2,…,En,他们体现相对论的定律。这些陈述包含各种变量和参数,表示空间位置、时间、静止质量等等。从这些陈述出发,同逻辑装置和数学一起,可以推导出一整套进一步的陈述,包括某些可以由观察检验的陈述在内。为了证明牛顿力学作为一种特殊情况是适当的,我们必须给从增添附加的陈述,如(v/e)2

    X 革命是世界观的改变

    视觉形态中这种熟悉的转化表演对于科学界的这些转变来说作为基本原型是很有启发性的。在革命以前在科学界中的鸭子在革命以后成了兔子。这个人第一次从上面看到了匣子的外部,后来则从下面看见了它的内部。象这些转变,虽然通常比较逐渐,并且几乎总是不可逆的。却是科学训练的普通伴随物。看一张等高线地图,学生看到的是纸上的线条,制图学家看到的是一张地形图。看一张气泡室照片,学生看到的是混乱而屈折的线条,物理学家看到的是熟悉的亚核事件的记录。只有在许多次这样的视觉转换以后,学生才成为科学家世界的一个居民,见科学家之所见,行科学家之所行。可是,学生当时进入的世界并不是一劳永逸的,一方面由环境的本质,另一方面由科学的性质确定的。不如说,它是由环境和训练学生在追求的常规科学的传统决定的。因此,在革命的时代,当常规科学的传统改变时,科学家对他的环境的知觉必须再教育,在某些熟悉的处境中,他必须学习去看到一种新的形态。在他已经这样做以后,他的研究世界似乎各处都会同他以前栖息的世男不能相提并论。这是另一个理由,为什么由不同规范指导的学派总是有点矛盾。

    当然,格式塔实验通常只说明知觉转变的本性。他们并不告诉我们关于规范的作用或以前在知觉过程中吸收的经验。但是,关于这个问题有一大堆心理学文献,其中有许多都导源于汉诺威学院的开创性工作。一个实验对象,他戴上黑眼镜,装上倒置镜头,最初从上到下着整个世界。开始时,他的知觉装备象他没有戴上黑眼镜受训练时那样起作用,结果是极端的迷失方向,严重的个人危机。但是在这个对象已经开始学习去同他的新世界打交道时,他的整个视野突然改变,通常要在一段时间以后,在此期间视觉混乱了。此后,对象又重新被看到了,就象它们被戴上黑眼镜以前一样。吸收以前不规则的看得见的领域已经作用于并且改变了这个领域本身。①人习惯于倒置镜头已经从字面上也从隐喻上经历了视觉的革命转化。

    在第六章中讨论过的不规则纸牌游戏问题经历了完全相同的转化。直到延长亮牌使人们认识到,宇宙包含不规则的牌为止,他们只看到以前的经验已经为他们准备好的牌型。然而,一旦经验已经提供了必要的附加范畴,他们就能在容许完全辨认的第一次足够长的检查中看出所有不规则的牌。还有其他各种实验说明,在实验中显示的物质的大小、颜色等等也随着对象以前的训练和经验在变化。②看看这些例子从中提出的丰富实验文献就使人们怀疑,有些东西象规范一样是知觉本身的前提。一个人所看到的不仅依赖于他在看什么,而且也依赖于他以前的视觉概念的经验已经教会他去看什么。没有这样的训练,用威廉·詹姆士的话来说,只能是“十足的混乱”。

    ①原来的实验是由乔奇·M·斯特拉顿做的:《没有视网膜象倒置的视觉》,《心理学评论》,第IV卷;(1897年),第341~36O页;463~481页。一篇更时髦的评论是由哈维·A·卡尔提出的:《空间知觉引论》,(纽约,1935年;英文版),第18~57页。

    ②例如,艾伯特·H·海斯托夫:《暗示对刺激物的大小和知觉的距离人间的关系的影响》,《心理学杂志》,第XXIX卷(195O年),第195~217页;和季洛姆·S·布鲁纳李奥·波斯特曼和约翰·罗德里格斯:《预期和色的知觉》《美国心理学杂志》;第LXIV卷(1951年);第216~227页。

    近年以来,几本涉及科学史的著作已经发现上面描述的几种实验的启发性很大。特别是N.R.汉生已经用格式塔论证来详尽阐述我在这里关心的某些科学信念的相同的结果。①其他同事已经反复地注意到,如果谁能假定科学家偶然经验到象上面描述的那些知觉转移,科学史就会写得更好和更有条有理。然而,尽管心理学实验是有启发性的,由于这种情况的本质,这些实验不可能有更大的意义了。这些实验确实表现了知觉的特征,这可能是科学发展的核心,但是,这些实验并没有证明,所有从事研究工作的科学家所运用的小心的和受控制的观察都分享那些特征。而且,正是这些实验的本质使那个问题不可能有任何直接的证明。如果历史的例子是要使这些心理学实验似乎很适当,我们首先必须注意我们可以和不可以期望历史提供的各种证据。作格式塔示范表演的对象知道,他的知觉已经转移,因为当他手里拿着同样的书或纸张时,他能使它反复地来回移动。他意识到在他的环境里什么也没有改变,他的注意力越加不是针对图象(鸭子或兔子),而是针对他正在看着的这张纸上的线条.最后,他甚至可以学会看出那些线条而不着任何一个图象,然后,他可以说(他早先不可能已经合理地说了的)他真的看出了这些线条,但是交替地把它们看成是一只鸭子和是一只兔子。由于同样的理由,不规则纸牌实验的主体知道(或者,更准确些,能被说服),他的知觉必然已经转移,因为一个外部权威,这个实验工作者使他确信,不管他看过什么,他总是在看一张黑桃五。在这些场合下,就象在所有类似的心理学实验里一样,论证的有效性依赖于它用这种方法是可以分析的。除非有一种外部标准,能说明一种视觉开关,而且不能引出关于交替知觉的可能性的结论。

    ① N.R:汉生:《发现的模式》(剑桥,1958年,英文版);第i章。

    可是,对于科学观察,情况恰好相反。科学家除了用他的眼睛和工具看到的以外,没有什么可以依靠的。如果有更高的依据,只要求助于它,就可以证明他的视觉已经转变,那么,这种依据本身就会成为他的资料的来源,他的视觉行为就会成为各种问题的来源(就象实验的主体对于心理学家那样)。如果科学家能象形态实验的主体那样来回转移,就会引起各种同类型的问题。一段时期光“有的时候是波和有的时候是粒子”,这个时期是一个危机时期,是有些什么错了的时期,这个时期只是随着波动力学的发展而告终的,并且证明了光是自相一致的实体,既不同于波也不同于粒子。因此,在科学中,如果知觉转换伴随着规范改变,我们就不可以期望科学家们直接证明这些改变。这位皈依于哥白尼主义的人在看月亮时不会说,“我习惯于看见一个行星,但是我现在看见的是一个人造卫星。”那种说法含有托勒密体系从前曾经是正确的这种意思。一位皈依于新天文学的人则说,“我从前认为这个月亮是(或者把这个月亮着成是)一个行星,但是我错了。”那种陈述在科学革命的后果中确实重新出现了。如果它通常用同样的效应来隐瞒科学眼光的转变或其他一些精神上的转化,我们也许不能期望直接证明那种转变。倒不如说我们必须寻求简接的行为证据证明有新规范的科学家看问题的方法不同他以前看问题的方法。

    于是,让我们回到这种资料,并且相信有这样一些改变的史学家在科学界中能发现哪几种转变。威廉·赫舍尔爵士发现天王星提供了第一个例子,而且与不规则的纸牌实验很相适应。在1690年到1781年间,至少有十七个不同场合,许多科学家,包括几位欧洲最著名的观察者,在我们现在猜想那时必然由天王星占领的位置上看到了一颗星。这个集团中一位最好的观察者在1769年事实上已经连续四夜看到了这颗星,但没有注意到这种运动能提出另一种鉴别。十二年后,赫舍尔用他自己制造的一架大大改进了的望远镜这样做时,他第一次观察到了同样的对象。结果,他已能注意到一个明显的圆盘大小的东西,至少对恒星来说是异乎寻常的。什么东西搞错了,因而,他把鉴别推迟到进一步考查以后。那种考查揭示了天王星在恒星之间的运动,因此,赫舍尔宣布他已经看到了一个新的彗星!只是在几个月以后,在试图把观察到的运动纳入一个彗星轨道毫无成效以后,莱克塞尔才提出,这轨道可能是行星的轨道。①当这个建议被接受以后,在专业天文学家的世界里已经有少数几个恒星和又一个行星。一个天体已经连续不断地被观察了将近一个世纪,在1781年以后,又以不同的方式被看到了,因为,象一张不规则的纸牌一样,它不再能适应由以前流行的规范提供的知觉范畴(恒星或彗星)了。

    目光的转移使天文学家们去观察天王星,可是,这个行星似乎不仅影响到对以前观察到的对象的了解。它的后果是更为深远的。也许,尽管证据不可靠,由赫舍尔逼出来的比较不重要的规范改变,在1801年以后,帮助天文学家们准备好迅速发现大量小行星或小游星。因为它们很小,这些小行星就没有显示出使赫舍尔留心的反常的放大率。可是,准备要发现外加行星的天文学家们在十九世纪前五十年中用标准的仪器是可以认出其中二十个的。②天文学史提供了科学知觉中由规范引起的改变的其他许多例子,其中有些例子不那么模棱两可,例如,西方天文学家们在哥白尼的新规范第一次提出以后的半个世纪期间,首先看到了以前不可变的天空中的变化,能认为这是偶然事件吗?中国人的宇宙信念并不“排除天上的变化,在早得多的时代里已记录了天上出现的许多新星。即使没有望远镜的帮助,中国人在伽利略和他的同时代人看到这些现象前几个世纪也已经系统地记录了太阳黑子的出现。③紧接在哥白尼以后西方天文学的天空中出现的天象变化的仅有例证也是太阳黑子和一个新星。十六世纪未的天文学家们,用某些象一段线那么简单的传统工具,发现了替星通过以前留给不变的行星和恒星的空间在任意漫游。④当天文学家们用古老的工具观察古老的对象时迅速而又毫不费力地看到了新东西,会使我们想要说,在哥白尼以后,天文学家们生活在一个不同的世界里。总之,他们的研究所作的回答好象就是那么回事。

    ①彼特·多阿;《天文简史》〔伦敦,1950年,英文版),第115~116页。

    ②鲁道夫·沃尔夫:《天文学史》(慕尼黑,1877年,德文版),第513~515,683~693页。特别要注意沃尔夫的叙述使它多么难以说明这些发现是波德定律的结果。

    ③李约瑟;《中国科学技术史》,第三卷,(剑桥,1959年,英文版);第423~429,434~436页。

    ④T·S·库恩;《哥白尼革命》(剑桥,麻省,1957年,英文版),第2O6~209页。

    前面的例子是从天文学中选出来的,因为天象观测报告经常是用一种由比较纯粹的观测术语组成的词汇表达的。只有在这样的报告中我们才能希望发现科学家的观测和心理学家的实验主体之间的完全对应。但是我们不需要坚持这样完全的对应,只要放松我们的标准,我们就有许多东西可以获得。如果我们能同意“看到”这个动词的日常应用,我们就可以很快地认识到,我们已经遇到了其他许多科学知觉中发生转变的例子,它们都是伴随着规范改变而来的。“知觉”和“看”的引伸的用法,需要简短明确的答辩,但是让我们首先说明它在实践中的应用。

    再看一看我们前面从电学史引用的两个例子。在十七世纪期间,当电学研究是受一种以太理论指导时,电学家们反复地看到了细袜子从吸引它们的带电物体上反跳出来或跌落下来。至少那是十七世纪的观察家们说过他们看到了的事情,同我们没有理由怀疑我们自已的知觉报告一样也不能怀疑他们的知觉报告。在同样的仪器面前,现代的观察者会看到静电排斥(而不是机械的或引力的反跳),但是在历史上,有一种普遍忽略了的例外,直到豪克斯比的大规模装置已经大大地放大了它的效应为止,静电排斥本身并没有被看到。可是,在接触超电以后的排斥是豪克斯比所看到的许多新的排斥效应中的唯一的一个。通过他的研究,更确切地说,就象在形态转换中一样,排斥突然成为超电的基本表现形式,于是吸引就需要说明了。②十八世纪初期可以看到的电现象比十七世纪的观察者们所看到的那些电现象更难以捉摸、更变化多端。或者,再举一个例子,在吸收了弗兰克林的规范以后,有一个莱顿瓶的电学家们就看到了某种不同于他以前看到的东西。这种装置是一个电容器,既不需要瓶的形状,也不需要玻璃。而是突出地出现了两片导电的云层,其中一片已经不是原来装置的组成部分。就象各种成文的讨论和图象表示逐渐表明的,两片金属片中间夹一个非导体已经成为这类装置的典型。①同时,其他感应效应得到了新的描述,还有其他~些效应则第一次受到注意。

    ②杜恩·罗勒和社恩,H.D.罗勒:《电荷概念的发展》(剑桥,麻省,1954年,英文版),第21~29页。

    ①参看第七章中的讨沦以及该章注9中引用的参考文献。

    这种转变并不限于天文学和电学。我们已经评述了某些类似的可以从化学史中抽提出来的洞察力的转变。我们说过,拉瓦锡在普里斯特利看到去燃素空气的地方和其他人根本什么也没有看到的地方看到了氧。可是,拉瓦锡在学会看到氧的过程中,也必须改变他对其他许多更熟悉的实物的观点。例如,在普里斯特利和他的同时代人看到一种原始的土的地方,拉瓦锡却看到了化合物矿石,此外还有其他许多这样的改变。至少,作为发现氧的一种结果,拉瓦锡是以不同的方式看自然界的。同时在不求助于他以不同方式去看的被假定为不变的自然界时,经济原理会极力要求我们说,在发现氧以后,拉瓦锡是在一个不同的世界里工作。

    我立刻想问一下避免这种古怪的表达方式的可能性,但是,我们首先要问一个外加的例子,这个例子是从伽利略的著作的最著名的部分得来的。从远古以来许多人都已经看到一个重物体在一根绳子或链条上来回摆动直到它最终静止为止。对于亚里士多德学派的人来说,他相信,一个重物体是靠它自已的本性,从较高的位置运动到较低的位置上的一种自然静止状态。这个摆动的物体只不过降落有困难。它受到这根链条的约束,只有在一段曲折的运动和一段相当长的时间以后,才能在它的低点上达到静止。另一方面,伽利略观察这个摆动的物体时,却看到了一个摆,这个物体,几乎是连续不断地重复同样的运动,一次又一次以至于无穷。伽利略在看到这个重要事物的同时,也考察了摆的其他各种性质,围绕着它们建立了他的新力学的许多最著名的和有独到见解的部分。例如,伽利略从摆的性质为重量和降落速度的独立性,以及为斜面上向下运动的垂直高度和终点速度之间的关系,导出了他的唯一充分而又完备的论据。①所有这些自然现象,他都是以不同于他们以前已经看到的方式去看待的。

    洞察力的转移为什么会发生呢?当然是由于伽利略的个人天才。但是要注意,在这里,那种天才并不是以对摆动物体的更准确或客观的观察来显示自己的。形象地说,亚里士多德学派的感觉一样准确。当伽利略报告了摆的周期不依赖于振幅,因为振幅是90度。他对摆的观点使他看得比我们现在在那里能发现的更有规律得多。②不如说这里已经涉及的似乎是天才利用知觉的可能性使一个中世纪的规范转变有了价值。伽利略不是完全作为一个亚里士多德学派的人出现的。相反,他是被培养为用原动力理论去分析运动的,这是一种中世纪末期的规范,这种规范认为,一个重物体的连续运动是由发动这种运动的发起人注入其中的一种内在力量引起的。琼·布里坦和尼古拉·奥斯姆,这两位十四世纪的经院哲学家使原动力理论具有最完备的形式,他们是已知已经看到伽利略所看到的那部分摆动运动的第一批人。布里坦把一根摆动的绳的运动描写为当这根绳受冲击时原动力首先被注入其中的一种运动,其次,在这根绳对着它的张力的阻力转移时,这种原动力就被消耗了;然后张力把这根绳带回,直到到达运动的中点,注入增加的原动力;此后,这种原动力使这根绳向相反方向转移,重新对着这根绳的张力等等,这个对称的过程可以无限地继续下去。后来,奥斯姆在这个世纪里对摆动的石块作了类似的分析,现在看来是这种摆的最初的探讨。③他的观点显然很接近伽利略最初探讨摆的观点。至少,在奥斯姆的情况下,而且在伽利略的情况下几乎也—样,是从原来的亚里士多德学派的运动规范转变到经院哲学的原动力规范所可能有的一种观点。直到经院哲学的规范被发现以前,科学家看到的并没有摆,而只有摆动的石块。摆的产生很象一种规范引起的形态变换。

    ①伽利略:《关于两门新科学的对话》H.克鲁和A·德·塞尔维欧译(伊文斯顿,伊利诺斯州,1946年,英文版),第8O~81,162~166页。

    ②同上,第91~94,244页。

    ③M.克拉吉特:《中世纪的力学科学》(麦迪逊·威斯康辛,1959年;英文版),第537~538页,570页。

    可是,我们真的需要把区分伽利略和亚里士多德,或者把区分拉瓦锡和普里斯特利的描述为洞察力的转变吗?当这些人在观察同类对象时真的看到不同的东西吗?有没有任何合理的观念使我们能说,他们是在不同的世界里从事他们的研究呢?这些问题不能再推迟了,因为显然有另一种普通得多的方法去描述上面略述过的所有历史上的例子。许多读者一定会想要说,有规范的改变仅仅是科学家对观察的解释,它本身是由环境和感觉装置一劳永逸地确定的。按照这种观点,普里斯特利和拉瓦锡两人都看到了氧,但是他们对他们的观察有不同的解释;亚里士多德和伽利略两人都看到了摆,但是他们对他们两人已经看到的东西的解释不同。

    让我们立刻说明,当科学家们改变他们关于基本物质的见解时所发生的这种最普通的观点既不是完全不适当的,也不仅是一种错误。不如说这是笛卡儿提出的一种哲学规范的主要部分,同时已发展成为牛顿力学。那种规范为科学和哲学两者都服务得很好。利用那种规范,象力学本身一样在基本理解方面已经是富有成效的,这种基本理解用另一种方法也许不能获得。但是正如牛顿力学这个例子也指出,甚至过去最惊人的成就也不能保证,危机能无期地被推迟。今天,在哲学、心理学。语言学、甚至艺术史等部门中的研究,全都集中到使人想起传统的规范是不知怎么地歪了。科学史研究也使这种不适应日益明显,我们的主要注意力在这里必然指向这个问题。

    这些引起危机的问题还没有为传统的认识论规范产生一个可行的代替方案,但是,这些问题确实开始使人想起那种规范所会有的某些特征。例如,我尖锐地意识到,说什么当亚里士多德和伽利略着摆动的石块时,前者看到了受约束的降落,而后者看到了一个摆所造成的困难。这一章开头几句话甚至以更基本的形式提出了同样的困难:虽然这个世界并没有随着规范的改变而改变,此后科学家却在一个不同的世界里工作。不过,我确信,我们至少必须学会弄懂类似这些陈述的意思。在一次科学革命期间所发生的事情是不可以完全归结为重新解释个别的和不变的资料的。首先,这种资料并不是明确不变的。一个摆并不是一块降落的石块,氧也不是排除了燃素的空气。因此,正如我们不久就会看到的,科学家们从形形色色的对象中收集的这种资料本身是不同的。更重要的是,不论是个人还是团体造成的从受约束的降落到摆,或者从排除了燃素的空气到氧的转化过程,并不是一个类似解释的过程。在没有确定的资料可供科学家作解释的情况下,怎么能这样做呢?倒不如说科学家是一个解释者,他接受一种新规范就象一个戴上了反向的透镜的人。象以前一样,面对同样的星座,并且知道他在这样做,可是,他发现有许多细节彻头彻尾地改变了。

    这些话都不是想要指出科学家们并不对观察和资料作独特的解释。相反,伽利略解释了对摆的观察,亚里士多德解释了对降落的石块的观察,莫兴布鲁克解释了对一个充满电荷的瓶的观察,弗兰克林则解释了对一个电容器的观察。但是这些解释都以一个规范为先决条件。它们是常规科学的组成部分,正如我们已经看到的,这种事业的目的在于精炼、扩大和连接已经存在的规范。第三章提供了许多例子,解释在其中起了核心作用。那些例子代表了绝大多数研究工作。科学家在每一个例子中依靠一个已被接受的规范,知道一种资料是什么,应当用什么工具来重新得到它,是什么概念适合于解释它。规范已给定,对研究它的事业来说,对资料的解释就是核心。

    但是,那种解释事业只能连接一个规范,而不是改正它,这是这一节在结尾前的包袱。各种规范根本不是常规科学所能改正的。相反,正如我们已经看到的,常规科学最终只能导致对反常现象的认识和危机。而且这些常规科学不是靠审议和解释,而是靠形态转换之类比较突然和没有结构的事件结束的。而且科学家们常常谈到“从眼睛里掉下来的障眼物”或“充满着”以前难解的难题的“闪电”,使它的组成部分以新的方式被看到,并第一次允许有它的解。在其他各种场合,这种适当的说明来自睡眠。①“解释”这个词的通常意义都不适用于这些直觉的闪光,新规范就是通过它们产生的。虽然这样的直觉依赖于由老规范得到的经验,反常的和合适的两种都有,它们却不是象一种解释那样,同经验的特殊项目合乎逻辑地或一件一件地联系在一起。相反,它们集中了大部分经验,并使它们转化为一堆颇为不同的经验,此后会同新规范而不是老规范一件一件地联系在一起。

    为了更好地了解经验中的这些差别能是什么,我们暂时回到亚里士多德、伽利略和摆。是什么资料使不同规范的相互作用和它们的共同环境对每一种规范都成为可以接受的?亚里土多德学派的人在着受约束的降落时会测量(或者至少会讨论,亚里士多德学派的人很少测量)石块的重量,它已经提高的垂直高度,它达到静止所需要的时间。这些资料同介质的阻力在一起就是亚里士多德学派的科学在讨论落体时应用的概念范畴。②由他们指导的正常研究不可能产生伽利略发现的定律。它只能——并且由另一条道路它确实——导致一系列危机,由此出现了伽利略的摆动着的石块的观点。作为那种危机和其他智力变化的结果,伽利略还以完全不同的方式看到了摆动着的石块。阿基米德关于浮体的工作使介质成为不重要的东西;原动力理论使运动对称而持久;而拿破仑主义则使伽利略的注意力指向运动的圆形。③因此,他测量了每一次摆动的重量、半径、角位移和时间,这些恰好就是能解释伽利略关于摆的定律的资料。在这件事上解释已被证明几乎是不必要的。已知的伽利略规范,象摆的规则性是很容易为检验所理解的。伽利略发现,摆垂的周期完全不依赖于振辐,这个发现是导源于伽利略的常规科学必须破除的,也是我们今天完全无法用文件证明的,此外我们怎样去说明伽利略的这个发现呢?对于亚里士多德学派不可能存在的规则性(事实上,自然界在任何地方都举不出确切的例子来说明)是直接经验的结果,这种人象伽利略做过的那样看到了摆动着的石块。

    ①[雅克]哈达玛:《下意识的直觉和科学研究的逻辑》(1946年12月8日发明宫会议[阿冷松,无日期,法文版]),第7~8页。同一作者的《数学领域中的发明的心理学》(普林斯顿,1949年,英文版)。虽然完全局限于数学发明。却是一个充分得多的报告。

    ②T.S.库恩:《思想实验的作用》见R·塔顿和I·B·柯亨编:《亚历山大·柯依尔论丛》,1963年由海尔曼出版社(巴黎)出版。

    ③A.柯依尔:《伽利略研究》(巴黎,1959年,法文版)第I卷;第46~51页;《伽利略和柏拉图》《思想史杂志》第IV卷,(1943年),第400~428页。

    这个例子也许是想象出来的,因为亚里士多德学派设有纪录关于摆动着的石头的讨论。但是,亚里士多德学派确实讨论了比较简单的情况,如石头没有显著约束而降落,这里显然有洞察力方面的差别。亚里士多德在凝视一块降落的石头时看到了状态的变化,而不是一个过程。因而对他来说运动的有关测量是经过的总距离和过去的总时间,所产生的参数我们现应说不叫做速度,而是平均速度。①同样,因为石头是受它的本性的驱使达到它最终的静止点,亚里士多德看到了这种运动期间的任何时刻有关距离的参数是到最后终点距离,而不是离运动起点的距离。②那些概念上的参数构成他的著名的“运动定律”的基础,并赋予意义。可是,部分由于原动力规范,以及部分由于一种形式范围学说,经院哲学的批评改变了这种观察运动的方法。由原动力推动的一块石头,在从它的起点降低时得到了越来越多的原动力;因而从哪儿来的距离而不是到哪儿去的距离成了适当的参数。此外,亚里士多德的速度观念被经院哲学家分化为两种概念,在伽利略以后立刻成了我们的平均速度和瞬时速度。但是当人们通过这种规范看到这些概念时,只是一部分如降落的石块,摆等,几乎是靠检验才显示出它的起支配作用的定律。伽利略并不是提出石头以等加速运动降落的第一批人中的一个。③而且,在他用一个斜面做实验以前已经提出了他的关于这个问题的定理及其许多结果。这种定理是新的规律性的另一种网络,易于为这个世界里的天才所理解,共同取决于自然界和各种规范,伽利略和他的同时代人根据这些规范已经提出了这种定理。生活在那个世界里,伽利略只要愿意,仍然能说明为什么亚里士多德已经看到了它所做的事情。可是,伽利略关于降落的石头的经验的直接内容并不是亚里士多德的经验所已经有的。

    ①T.S.库恩,《思想实验的作用》;《亚历山大·柯依尔论丛》(参看注14的全部引文)。

    ②A.柯依尔,《伽利略研究》第II卷,第7~11页。

    ③克拉齐特,同上,第iv,vi和ix章。

    当然,我们需要如此关心“直接经验”即感性特征,是不清楚的,一种规范是如此精彩,它们几乎总是根据检验才放弃它们的规律性。那些特征必须随着科学家们对各种规范所承担的义务而明显地改变,但是,当我们谈到原始资料或者粗糙的经验时,它们还远不是我们心目中已经有的东西,科学研究被认为是从这些经验出发的。也许直接经验应当象流体那样搁在一边,而且我们应当用讨论来代替科学家们在他的实验室里完成的操作和测量。也许这种分析应当从直接给予的东西进一步向前推进。例如,这种分析应当用某中性的观察语言来处理,也许一个人想要同视网膜的印象一致起来,作为引起科学家们所看到的东西的媒介。只有用这些方法中的某一种,我们才能希望恢复一个领域,在这个领域里,经验重新是一劳永逸地稳定的,在这个领域里,摆和降落的石头不是不同的感觉,而是观察一块摆动的石头所提供的明确的资料的不同解释。

    但是,感性经验是固定的和中性的吗?理论只不过是对给定资料的人为解释吗?三个世纪以来经常指引西方哲学的认识论观点是一种直接而明确的,是的!在没有已经提出的可供选择的方案时,我发现它不可能完全消灭那种观点。然而,它不再有效地起作用了,而且现在在我看来,通过引进中性的观察语言使它这样做的企图是没有希望的。

    一个科学家在实验室里进行的操作和测量并不是经验“给定的”,而是“艰难地收集到的”。它们并不是科学家看到的东西,至少在他的研究工作很好地进展和他的注意力集中以前不是。不如说,它们是更基本的感性内容的具体标志,而且它们本身就是为仔细研究正常研究工作选择的,只是因为它们答应有机会富有成效地精心制作一种已被接受的规范。它们在某种程度上是从直接经验引伸出来的,比直接经验清楚得多,而操作和测量则是规范决定的。科学并不处理一切可能的实验操作。在摆上完成的测量是不适用于受约束的降落的场合的。适用于解释氧的性质的作用同那些在研究去燃素空气的特征时所需要的作用也不相同。

    至于纯粹的观察语言,也许有人会设计出来。但是,在笛卡儿以后三个世纪,我们对这样一种可能发生的事情的希望仍然完全依赖于一种感觉和思维的理论。现代心理学实验在迅速地增加各种理论几乎不能处理的现象。鸭子-兔子表明,视网膜印象相同的两个人能看到不同的事物;倒装透镜表明,视网膜印象不同的两个人能看到相同的事物。心理学对相同的效应提供了大量其他证据,由此而生的怀疑已经很快就被企图显示一种真正的观察语言的历史加强了。现在要达到那种目标的企图还没有接近于一种可以普遍应用的纯感觉的语言。那些最近出现的企图都具有一种特征,他们有力地加强这本书的几个主要论点。从一开始,他们就预先假定一种规范,或者取自一种流行的科学理论,或者取自日常谈话的某些部分,然后,他们试图从中消除一切不合逻辑的和非感知的术语。在少数谈话范围内,这种努力已经推进得很远,而且有了有趣的结果。毫无问题这种努力是值得追溯的。但是,它们的结果是一种语言,就象在科学中应用过的那些语言一样,包含着许多关于自然界的预期,违反这些预期的时刻就不起作用了。奈尔逊·古德曼在描术他的《现象的结构》的目的时所证明的恰好就是这个论点:“那就很幸运,[除存在的现象外]再也没有什么是有问题的了;对于‘可能的’情况来说还很不清楚,这些情况并不存在,但应当是存在过的。”①因此,没有一种语言局限于报告一个领先完全已知的世界,而且只能产生关于“现实的东西”的中性的和客观报告。哲学研究甚至还没有对一种语言能做什么想要做的提供暗示。

    ①N.古德曼:《现象的结构》(剑桥,麻省,1951年,英文版);第4~5页。这一段值得更广泛地引用:“如果1947年威灵顿的居民中只有那些重量在175和180磅之间的有红头发,那末‘1947年威灵顿的红头发居民’和1947年重量在175和180磅之间的威灵顿居民,就可以连结成一个结构定义…这些属性之一而不是其他是否已经适用于某人这个问题并没有关系…一旦我们已经确定没有这样的人,…那就很幸运,再也没有什么是有问题的了;对于‘可能的’情况来说还很不清楚,这些情况并不存在;但应当是存在过的。”

    在这些情况下,我们至少可以怀疑,当科学家们把氧和摆(也许原子和电子也是一样)当作他们的直接经验的基本组成部分来处理时,他们在原理上以及在实践上都是正确的。民族、文化以及行业等等都是规范包含的经验的结果,此外,行星和摆,电容器和矿石化合物以及其他类似的物体,都已经在科学界占有一席地位。同这些感觉的对象相比较,米尺的读数和视网膜的印象两者都是精心制作的构成物,只有当科学为了他的研究的特殊目的而安排这个或那个这样做时,经验已经直接进入这些构成物。这并不是暗示,例如,摆是科学家在看一块摆动的石头时可能看到的唯一的东西。(我们已经指出,另一个科学团体能看到受约束的降落。)而是暗示,看一块摆动的石头的科学家不可能有原则上比看一个个摆更基本的经验。可供选择的方案并不是某种假设为“固定的”理解力,而是通过另一种规范的理解力,使这块摆动的石头成为另外种东西。

    只要我们回想起科学家和工匠都不是一件一件地学会去看这个世界的,这一切就会更加合理。除非全部概念上的和操作上的范畴都是预先准备了的。例如,发现一种增补的超铀元素,或者看到一座新房屋,科学家和工匠两者都得从不断变动的经验中清理整个领域。儿童把“妈妈”这个字从全体人类转给所有女性,然后转移给他的母亲,恰恰不知道“妈妈”的含义是什么或者他的妈妈是谁。同时他认识到在男性和女性之间有某些差别以及所有女性中只有一个人会对他采取的方法。他的反应,期望和信念,确实,他的理解了的世界,也相应地改变了。根据同样的理由,哥白尼学派否定了太阳的传统名称“行星”,并没有认识到“行星”意味着什么,或者太阳是什么。相反,他们是在改变“行星”的意义,以便使它能继续对全部大体而不只是太阳作出有用的区别,他们是用不同于他们以前已经看到的方法去看这个世界的。对于早先我们提出的例子都可以提出同样的论点。看到氧而不是排除了燃素的空气,看到电容器而不是莱顿瓶,或者看到摆而不是受约束的降落,仅仅是科学家对大量有关化学、电学和力学的理解力的一种整体转移中的一个组成部分。同时规范决定着巨大的经验领域。

    可是,只有在经验已经这样被确定以后,才能开始寻求一个操作定义或者一种纯粹的观察语言。科学家或哲学家在看到一个摆时,必须已经能认识到这个楼是什么,并问是什么尺寸或视网膜印象组成这个摆。如果他看到的是受约束的降落,甚至就不可能提出他的问题了。而如果他看到的是一个摆,但是他是用看一个意义或者一台摆动的天平同样的方法去看这个摆的,他的问题就不可能得到回答。至少它不会是同样的问题。因此,虽然他们始终是合理的而且有时是非常富有成效的,关于视网膜印象或者关于特定的实验室操作的结果的各种问题都以某种方式从感觉上和概念上把一个世界区分开来为先决条件。在某种意义上这样一些问题是常规科学的组成部分,因为他们取决于一种规范的存在,而且作为规范改变的一种结果,他们得到的是不同的回答。

    为了结束这一章,今后让我们忽略视网膜印象,而重新把注意力局限于实验操作,它为科学家提供他所已经看到的尽管零碎却很具体的标志。这样一些实验操作随规范改变的方式我们已经反复地观察过了。在一次科学革命以后,许多陈旧的量度和操作成为不适当的而代之以其他。一个人并不把用于氧的全部同样的试验用于排除了燃素的气体。但是这种改变决不是全体的。因此,不论他会看到什么,在一次革命以后,科学家还是在看这个相同的世界。而且,虽然以前他曾以不同的方式用过他们,他的许多语言和他的大多数实验室仪器同以前仍然是同样的。结果,革命后的科学总是包括许多相同的操作,用同样的仪器完成,并用同样的术语描述,就象他的革命前的先驱一样。只要这些持久的操作完全改变了,这种改变必须在它们同规范的关系中或者在它们的具体结果中展现。现在我提出,用引进最后一个新例子的办法使这两种改变都会出现。我们在考察道尔顿和他的同时代人的工作时将发现,同一种操作,当它通过一个不同的规范同自然界相联系时,就能成为自然界的规律性的完全不同方面的标志。还有我们有时将看到老操作的新作用会产生不同的具体结果。

    整个十八世纪和进入十九世纪以后,欧洲化学家几乎普遍相信,基本的原子是靠相互的亲和力结合在一起的,全部化学品都是由这种基本的原子组成的。因此一块银子是因为银粒子之间的亲和力而粘合的(直到拉瓦锡以后这些粒子本身被认为是由更基本的粒子化合成的)。按照同样的理论,银在酸中分解(或者盐在水中)是因为酸的粒子吸引了银的粒子(或者水的粒子吸引了盐的粒子)而且比这些溶解物的粒子的相互吸引更加强有力。或者再举一个例子,铜会在银的溶液里分解,并沉淀出银,是因为铜和酸的亲和力比酸对银的亲和力大。许多其他现象都是以同样的方式解释的。在十八世纪这种有选择的亲和力理论是一种令人钦佩的化学规范,广泛地有时颇富成效地被用于设计和分析化学实验。①

    ①H.梅茨格:《牛顿,斯塔,玻希夫和化学学说》(巴黎,1930年,法文版);第 34~38页。

    可是,自从吸引了道尔顿的工作,亲和力理论划分物理学上的混合物和化学上的化合物的界线在某种程度上已经成为不熟悉的了。十八世纪的化学家们确实认识两种过程。当混合时产生热、光、起泡沫或者其他类似的东西,就可以看到发生了化学上的化合。另一方面,如果混合物中的粒子能用肉眼区别,或用机械分开,那就只有物理学上的混合物。但是在大量中间情况中,如水中的盐,合金,玻璃,空气中的氧,等等,这些粗糙的标准用处很小。

    大多数化学家在他们的规范指引下,把整个中间范围看成是化学的范围,因为它组成的这些过程全部受同类力的支配。水中的盐或氮中的氧恰好象把铜氧化所产生的组合一样是化学组合的一个例子。把溶液看成是化合物的论据是很强有力的。亲和力理论本身是很好地被证明了的。此外,形成化合物的原因被认为是溶液的被观察均匀性。例如,如果氧和氮只是混合,而不在大气中化合,那么,较重的气体氧就应当沉到底。道尔顿认为大气是一种混合物,从来没有能令人满意地说明氧为什么没有能这样做。吸收了他的原子理论才最终于造成了以前没有的反常现象。①

    有人想要说,化学家把溶液看成是化合物同他们的后继者的区别仅在于定义问题。在一种意义上可以说情况就是这样。但是,那种意义不仅是使定义习用方便。在十八世纪,混合物用操作试验并没有同化合物完全区分开来,也许他们不可能已被区分开来。即使化学家们已经寻找过这样的实验,他们会找出使溶液成化合物的标准。混合物和化合物的区别是他们的规范的组成部分,也是他们观察他们的整个研究领域的那种方法的组成部分,而且它本身是先于任何实验室试验的,虽然并不先于整个化学积累起来的经验。

    但是,用这种方式来观察化学时,化学现象则是区别于那些随着吸收道尔顿新规范而出现的定律的例证。特别是,当溶液仍旧是化合物时,再多的化学实验本身也不能产生定比定律。在十八世纪末,大家都知道,某些化合物通常它们的组分的重量有固定的比例。德国化学家李希特对某几类反应是即已经注意到进一步的规律性,现在已被包括在化学当量定律里了。②但是,除了处方以外,没有化学家用过这些规律性,而且几乎直到这个世纪末还没有一个人想到要把它们概括出来。提出象玻璃,或者象水中的盐之类明显的相反的例子,而不抛弃亲和力理论并重新划定化学家的领域的概念上的界限,就不可能有概括。这个世纪末在法国化学家普罗斯特和伯索利特之间的著名的争论使那种结果显得很清楚了。前者断定,所有化学反应都按确定的比例发生,而后者则认为,它们不是这样的。然而,这两个人必定相互讨论过了,而且他们的争论是完全没有说服力的。在伯索利特看到一个比例能变化的化合物的地方,普罗斯特只看到一种物理学上的混合物。③既不是实验也不是改变定义能适用于这个问题。这两个人就象伽利略和亚里士多德一样在根本上互相误解。

    ①H·梅茨格:《牛顿,斯塔,玻希夫和化学学说》(巴黎,193O年,法文版)第124~129,139~148页。关于道尔顿,参见伦纳德·K·纳什:《原子-分子理论》(《哈佛大学实验科学史案卷》第四案卷;剑桥,麻省;1950年;英文版)第14~21页。

    ②J.R.巴丁顿:《化学简史》第二版;伦敦;1951年,英文版);第161~163页。

    ③A.N.梅尔德腊姆:《原子理论的发展》;(1)伯索利特的可变比例学说,《曼彻斯特论文集》,第LIV卷,(1910年),第1~16页。

    这就是约翰·道尔顿从事研究工作的那些年代里的形势,最终导致了他的著名的化学原子理论。但是,直到那些研究的最后阶段,道尔顿并不是一位化学家,对化学也没有兴趣。相反,他是一位气象学家,研究水吸收气体和大气吸收水等物理学问题。部分地因为他是在不同的专业里培养出来的,部分地因为他自己在那个专业里的工作,他用不同于现代化学家的规范探讨了这些问题。特别是,他把气体的混合物或者水中吸收一种气体看成是一种物理过程,一种亲和力在其中不起作用的过程。因而,对他来说,各种溶液被观察到的均匀性是一个问题,但是他认为,只要他能确定他的实验混合物中各种原子粒子的有关大小和重量,他就能解决的一个问题。道尔顿为了要确定这些大小和重量,最终转向了化学,他一开始就假定,在他认为是化学反应的有限范围内,原子只能一对一或者按其他一些简单的整数比化合。②这个自然的假定确实使他能确定基本的粒子的大小和重量,但是它也使定比定律成了同义反复。对于道尔顿来说,在任何反应中,如果成分不按确定的比例进行,根据这个事实,就不是一个纯化学的过程。在道尔顿的工作以前,实验不能确立的一条定律,在那项工作一旦被接受以后,就成了一个基本原理,不是一套化学测量法所能推翻的了。作为一次科学革命的也许是我们的最完备的例子的一个结果,同样的化学操作对化学概括的关系呈现了极其不同于它们以前所具有的形式。

    ②L.K. 纳什:《道尔顿的化学原子理论的起源》,《Isis》,第XLVII卷,(1956年);第101~116页。

    无需多说,道尔顿的结论在最初宣布时受到了广泛的攻击。特别是伯索利特决不相信。但是,对大多数化学家来说,道尔顿的新规范已被证明是令人信服的,而普罗斯的论点就没有做到这样。因为这个规范所具有的含意,远比区分混合物和化合物的一个新标准要更广泛和更重要。例如,如果原子在化学上只能按简单的整数比化合,那么,重新考查现有的化学资料就应当揭示出倍比和定比的例子。化学家们不再写,比方说这两种碳的氧化物按重量含有百分之五十六和百分之七十二的氧;相反他们写道,一份碳的重量或者同1.3或者同2.6份氧的重量化合。当古老的操作结果以这种方式记录下来,2与1之比就涌现在眼面前了;而且这在分析许多著名的反应以及其他新反应中都出现了。道尔顿的规范还使它有可能吸收李希特的工作并看到它的一般原则。它也提出了新实验,特别是盖吕萨克关于化合容量的那些实验,而这些实验又产生了其他的规律性,那是化学家们以前没有梦想到的。化学家们从道尔顿得到的不是新的实验定律,而是一种研究化学的新方法(他自己把它叫做“化学哲学的新体系”),而且这种新方法已经如此迅速地被证明是富有成效的,只有在法国和英国的少数较老的化学家能反对它。①结果,化学家们达到一个境界,在那儿各种反应是以完全不同于它们以前所具有的方法运转的。

    ①A·N·梅尔顿腊姆:《原子理论的发展:(6)接受道尔顿鼓吹的理论》,《曼彻斯特论文集》,第LV卷;(1911年),第1~10页。

    随着这一切继续下去,发生了另外一个很重要的改变。化学的数据本身到处开始变动。当道尔顿第一次从化学文献中找数据来支持他的物理学理论时,他发现,各种反应的某些记录是适用的,但是,他几个不能避免发现其他一些不适用的记录。普罗斯特自己对铜的两种氧化物的测量产生了,例如,一种氧的重量比是1.47:1,而不是原子论所要求的2:1;而普罗斯特恰好那个是已经期望达到道尔顿比例的人。这就是说,他是一个很好的实验工作者,关于混合物和化合物之间的关系问题,他的观点同道尔顿的观点接近。但是,很难使自然界去适应一种规范。这就是为什么常规科学之谜是如此引起争论的问题,以及为什么没有一种规范所进行的量度,几乎根本不能导致任何结论。因此,化学家们不能凭证据简单地接受道尔顿的理论,因为许多证据仍然是否定的。相反,甚至在接受了这种理论以后,他们仍然必须在自然界中开辟道路,结果这个过程见乎花费了一个世纪。当他完成时,著名化合物的百分比组成是不同的。资料本身已经改变了。那就是最后的意义,我们想要说,在一次革命以后,科学家是在一个不同的世界里工作。

    XI 革命是无形的

    至于权威的来源,我心目中主要有科学教科书以及模仿它们的普及读物和哲学著作。所有这三类书籍有一件事是共同的,直到最近,除了通过研究工作的实践以外,关于科学的情报还没有其他重要来源可以得到。他们致力于一批已经表达得很清楚有力的问题,资料和理论,大多数常常是一套特殊的规范,在他们写作时就把这套规范交给科学团体。教科书本身的目的是要传达现代科学语言的词汇和句法。普及读物企图用比较接近日常生活的语言来描述同样的应用。而科学的哲学,特别是在说英语的世界里,则分析科学知识的同样完备的主体的逻辑结构。尽管更充分的处理必然会涉及这三类之间的真正区别,但在这里我们最关心的却是它们的相似点。三者全都记录着过去的革命的稳定的结果,并因此表现当前的常现科学传统的基础。为了实现它们的作用,他们并不需要提供关于那些基础首先被这个行业承认然后被信奉的道路的可靠情报。至少,就教科书来说,甚至有很好的理由表明,为什么在这些问题上,他们应当故意使人误解。

    我们在第二章中指出了,对教科书或者它们的相当读物的增长着的信赖,是任何科学领域中出现第一个规范的不变的伴随物。这本书的最后一章将证明,一门成熟的科学靠这样一些教科书处于支配地位会从其他领域有效地分化出它的发展形态。目前让我们简单地认为在其他领域中没有先例的范围内,外行和医生两者的科学知识都是以教科书和源自教科书的其他少数文献为基础的。可是,教科书是使常规科学永久存在的教育工具,每当常现科学的语言,问题结构或标准改变时,必须全部或部分重写。总之,它们在每一次科学革命以后必须重写,而且,一旦重写,它们就不可避免地不仅要掩饰革命的作用,而且要隐瞒产生它们的这一次革命的存在本身。除非他在他自己的一生中亲自经验过一次革命,教科书的读者,不论是科学家还是外行的历史感觉只能扩展到这个领域中最近的革命的结果。

    因而,教科书开始时除去科学家对学科更为意识,然后开始为他们已经清除的东西提供代替物。科学教科书的特点是只含有一点儿历史,或者是在序言里,或者更常见的是在早期的伟大英雄的零散的参考书里。学生和专业人员从这样一些参考书中感到象一种长期存在的传统的参加者。然而,科学家们从教科书得到的传统中感到他们所参与的传统事实上从来没有存在过。科学教科书(以及许多比较陈旧的科学史)只涉及过去的科学家的部分工作,这些工作可以很容易地被看成是对说明和解决教科书的规范问题的贡献,理由既是明显的也是很起作用的。部分由于选择,部分由于歪曲,早期的科学家们盲目地声称是对同一组确定的问题发生作用,并符合于同一组准则,而且似乎已经使科学理论和方法中的最新革命成为科学的。毫不奇怪,在每一次科学革命以后,教科书和它们提出的历史传统必需重写。而且也用不到奇怪,随着教科书被重写,科学又一次被归结为似乎主要是积累起来的。

    当然,科学家们并不是倾向于把他们的学科的过去理解为直线式地向它现存的占优势地位发展的唯一团体。回过头来写历史的诱惑既是普遍存在的,也是持续不断的。但是,科学家们更受重写历史这种诱惑的影响,部分是因为,科学研究的结果表明,并不明显地依赖于探究历史的来龙去脉,部分是因为,除了在危机和革命时期以外,科学家现在的立场似乎是如此地牢固。不论是科学的现在还是过去,历史细节愈多,或者对历史细节所负的责任越大,只能把人为的成分给予人类的癖性,错误和混乱。为什么要推崇科学的最好的和最持久的努力已经使科学有可能抛弃的东西呢?藐视历史事实在科学界的意识形态中是根深蒂固的,而且可能还在起作用。这同一个行业却给其他各种事实上的细节以最高的价值。怀德海写道:“对忘掉它的缔造者犹豫不决的科学已不再为人所知了。”这句话抓住了科学团体的非历史精神。然而,他并不是完全正确的,对科学来说,象其他事业一样,确实需要他们的英雄,而且确实铭记着他们的名字。幸而科学家们不再忘记这些英雄,而是已经能忘记或者修正了他们的工作。

    结果是一种持久的倾向,使科学史看起来是直线式的或者积累起来的,这种倾向甚至影响到科学家们在回顾他们自己的研究工作。例如,道尔顿关于他的化学原子论的发展的三个不一致的报告使他看来似乎他很早就对那些化学上的化合比例问题感兴趣了,后来他是由于解决了这些问题而著名的。事实上,这些问题看来是有了解他才发现的,因而在他自己的创造性工作以前已经很接近于完成了。①所有道尔顿的报告忽略的是把一整套以前局限于物理学和气象学的问题和概念用于化学的革命影响。这就是道尔顿所做的,结果是这个领域改变方向,这种改变了的方向引导化学家从旧资料提出新问题和引出新结论。

    再举一个例子,牛顿写道,伽利略已经发现了引力产生一种运动,与时间的平方成正比。事实上,当伽利略的动力学定理被纳入牛顿自己的动力学概念的公式时确实采取了那种形式。但是。伽利略并没有说过这种事情。他讨论落体很少提到力,更不必说引起物体降落的一种均匀的引力了。②由于对伽利略的信任,回答一个问题不允许问伽利略的规范,牛顿的叙述在科学家们问过的有关运动问题,以及在他们感到能够接受的回答中掩盖了重新阐述的小而革命的作用、但是,恰好是在对问题的阐述和回答方面,这种改变远比新颖的经验上的发现更能说明从亚里士多德的力学到伽利略的力学和从伽利略的力学到牛顿力学的过渡。由于掩盖了这样一些改变,教科书倾向于把科学的发展说成直线式的,并掩盖着一个处在科学发展的最有意义的插曲中心的过程。

    L·K.纳什:《道尔顿的化学原子论的起源》,《Isis》,第XLVII卷;(1956年);第101~116页。

    ②关于牛顿的意见,参看弗洛里安卡乔里编:《牛顿爵士的自然哲学的数学原理和他的世界体系》,(贝克莱,加利福尼亚,1946年,英文版),第21页。这一段应当同伽利略在他自己的《关于两门新科学的对话》中的讨论相比较。H.克鲁和A.德·塞尔维欧译,(伊文思顿,伊利诺斯,1946年;英文版)第151~176页。

    前面的例子,每一个都在一次革命前后表现出重建历史的开端,这种历史一般都由革命后的科学教科书完成的。但是,在完成时都包含了比上述更多得多的对历史的曲解。那些曲解使革命看不见了,安排教种书中仍然可以看得见的材料暗含着一个过程,只要它存在,就会否定革命的作用。因为他们的目的在于使学生很快地了解现代科学团体认为它所知道的东西,教科书把现代常规科学的各种实验、概念、定律和理论尽可能处理成分离的和几乎是连续的。作为教育,这种描述技巧是无可指责的。但是,当它同一般科学著作的非历史的气氛以及同上面讨论的有时是故意的曲解相结合时。就不可抗拒地多半会产生一种强烈的印象:通过一系列个人的发现和发明,科学达到了它现在的状态,当集中在一起时,就构成现代技术知识的主体。教科书的描述包含着,从科学事业开始时起,科学家们就已经为今天的规范中包含的特殊目的奋斗了。科学家们在一个可以同给建筑物上加砖块相比较的过程中,一个一个地,给现代科学教科书中提供的知识主体上加上另一个事实、概念、定律或理论。

    但是,这不是科学发展的道路。现代常规船的许多难题,直到最近的科学革命为止还不存在。它们很少能追溯到科学史的开端,他们现在就是在这个范围内发生的。前几代用他们自己的仪器和他们自己解决问题的准则研究他们自己的问题。也不只是那些问题已经改变了。倒不如说教科书中适合于自然界的规范的整个事实和理论的网络已经变了。例如,化李组成的及培不变仅仅是一个化学家们能用实验在任何一个世界里都能发现的经验事实吗?化学家们就是在这个世界范围内做实验的。或者倒不如说它是事实和理论联系起来的新结构中的一种不容置疑的因素。道尔顿适应过整个早期化学经验,在这个过程中改变着那种经验。或者由于同样的理由,不变的力所产生的不变的加速度仅仅是力学的学生们总归找得到的事实吗?或者倒不如说这是要回答最初仅仅在牛顿力学的范围以内引起的一个问题,那种理论能根据提出这个问题以前有效的知识主体来回答。

    这些问题在这里是问教科书描述的一件一件地发现的事实表现为什么。但是,很明显他们也含有教科书所提出的是理论的意思。当然,那些理论确实“适合于这些事实”,但是由于把以前可以接受的资料转化为对在先的规范根本不存在的事实。而这就意味着那些理论也不是一件一件地发展成为适应于始终在那儿的事实的。不如说,他们从革命地重新阐述以前的科学传统开始同他们适应的事实一起出现,在这种传统范围以内,科学家们和自然界之间的以知识为媒介的关系并不是完全相同的。

    最后一个例子可以澄清教科书描述对我们的科学发展的印象的冲击。每一本初等化学教科书都必须讨论化学元素概念。当引进这个概念时,几乎总是认为它的起源于十七世纪的化学家罗柏特·波义耳,和他的《怀疑的化学家》,注意的读者会发现“元素”的定义十分接近于今天所用的定义。提到波义耳的贡献,帮助初学者认识到,化学并不是从横胺药物开始的;另外,它告诉初学者,科学家的传统任务之一就是要发明这种概念。作为教育宝库的一部分,它使一个人成为一个科学家,这种归因是很成功的。然而,它又一次表明,历史上错误的方式,给学生和外行两者对科学事业的本质以错误的印象。

    按照波义耳,他是完全正确的,他对一个元素的“定义”不过是传统的化学概念的抽象;波义耳提出这个定义只是为了证明,根本不存在化学元素这样的东西,作为历史,教科书对波义耳的贡献的说法是完全错误的。①当然,那种错误虽然同其他任何对资料的歪曲一样是无足轻重的。可是,当这种错误首先混合起来,然后进入教科书的技术结构,并促成了对科学的印象,就不是无足轻重的了。象“时间”、天能量”、“力”或者“粒子”、元素的概念等都是教科书的组成成分,往往根本不是“发明”或“发现”的。尤其是波义耳的定义,至少能追溯到亚里士多德,往前通过拉瓦锡,进入现代教科书。然而,那不是说,科学自古以来已经具有现代的元素概念。象波义耳那种词句上的定义,就它们本身考虑时,科学內容很少。它们并不是对意义(如是有这样的意义)完全合乎逻辑的详细说明,而更近似教育上的辅助物。科学概念在一本教科书或者其他有系统的描述范围内,只有当它们所指的同其他科学概念,同操作程序以及同规范应用相联系时,才获得充分的意义。所以说象元素那样的概念不依赖于上下文几乎是不能被发现的。它们很少需要发现,因为它们已经在手边了。波义耳和拉瓦锡两人都使“元素”的化学意义有了重要改变。但是,他们都没有提出这个观念,甚至没有改变作为它的定义的词句上的公式。正如我们已经看到的,爱因斯坦为了在他的工作范围以内给予“空间”和“时间”以新的意义,也不一定要发明,或者明确地重新给它们下定义。

    ①T.S.库恩:《罗柏特.波义耳和十六世纪的结构化学》,《Isis》,第XLIII卷,(1952年),第26~29页。

    那么波义耳在他的那部分工作中包括这个著名的“定义”在内,其历史作用是什么呢?他是一次科学革命的领袖,通过改变“元素”同化学操作和化学理论的关系,把这种观念改变成为完全不同于它以前的一种工具,同时在这过程中改造了化学和化学家的世界。其他革命,包括以拉瓦锡为中心的那一次革命,需要给予这概念以现代的形式和作用。但是,波义耳对这个过程的每一阶段以及当现有知识被包括在教科书中时这个过程所发生的事情都提供了典型的例子。教育的形式比科学的其他任何一个方面更多地决定着我们对科学本质的形象以及发明和发现在科学发展中的作用。

    XII 革命的解决

    要看到那些问题的迫切性,就请记住,他们是历史学家为哲学家对确立了的科学理论进行检验,证实和证明为错误等调查所能提供的唯一的重新构成的东西。在他从事常规科学的范围内,研究工作者是解难题的,不是检验规范的。虽然他可以在寻找特定的难题的解时,试验许多可供选择的途径,拒绝那些不能产生理想结果的途径,当他这样做时,他并不检验这种规范。他倒反象下棋的,在他面前有从物质上和精神上规定的问题和这个棋盘,在求解中检验各种各样可供选择的一着棋。这些试验的企图,不论是下棋的,还是科学家,只是试验他们自己,而不是试验比赛规则。只有这种规范本身被认为是不成问题的,他们才有可能。因此,检验规范只有在解一个值得注意的难题总是失败已经引起危机以后才产生。而且即使那时也只有在这种危机的感觉已经引起了一种可以代替的候补规范时它才产生。在科学中,检验的形势决不在于把个别规范同自然界作比较,就象解难题所做的那样。相反检验是作为两种对抗的规范为忠于这个科学团体而竞争的一部分产生的。

    仔细考查以后,这种阐述显示出关于证明两种最著名的现代哲学理论的没有预料到的也许是重要的类似的东西。少数科学哲学家仍然在为证明科学理论寻找绝对的标准。请注意,没有一种理论能由一切可能有关的试验揭示出来,他们不同一种理论是否已被证实,而是问根据实际存在的论据,这种理论的可能性。并回答驱使一个重要学派在比较不同理论说明手头资料的能力等问题。坚持比较各种理论也表征出接受一种新理论的历史形势。很可能它指出了将来讨论证明中应当遵循的方向。

    可是,概率证明的理论在它们的最普通的形式中全都求助于第十章中讨论过的一种或另一种纯粹的或中性的观察语言。一种概率理论要求我们把特定的科学理论同所有其他可以想象为适应于同样收集到的观察资料相比较。另一种概率理论要求特定的科学理论被想象为需要通过一切可以想到的试验这种解释。①显然,为了估计特定的可能性,相对的或绝对的,这样一些解释是必要的,而且很难看出这样一种解释怎样才有可能达到。正如我已经强调过的,如果不可能有科学上或经验上中性的语言体系或概念体系,那么,提出交替的试验和理论的解释就必须从一种或另一种以规范为基础的传统着手。因而,限制它将不易接近一切可能的经验或一切可能的理论。结果,概率理论掩盖了这种证明情况,就象他们说明这种证明情况一样。虽然,那种情况,正如他们坚持的,并不依赖于把各种理论和广泛流传的证据作比较,在争论中的各种理论和观察始终同已经存在的理论和观察密切有关。证明就象自然选择;它在一种特定的历史情况下在实际上可供选择的对象中间选出最可行的。如果还有其他可供选择的对象是有效的,或者还有另一种资料,这种选择是不是已经作出了最好的选择并不是一个可以有效地提出的问题。在对这个问题寻求回答时没有可用的工具。

    ①关于概率证明理论的主要路线的简要梗概,清参阅恩斯特·奈格尔:《概率理论的原理》,《统一的科学国际百科全书》第一卷,第六册,第6O~75页。

    卡尔·R·鲍勃对整个问题作出了一种很不相同的探索,他完全否定任何证明程序的存在。①相反,他强调证明这试验是错误的重要性,因为其结果是否定的,就需要抛弃一种已经确立的理论。很清楚,这样赋予证明为错误的作用很象这本书指定给反常经验,即引起范例的经验的作用,并为一种新理论准备了道路。然而,反常的经验不可以同错误的经验等同起来。确实,我怀疑后者的存在。正如前面已经反复地强调了的,没有一种理论曾解决它在特定时期面临的一切难题;已经得到的解也不常是完备的。相反,正是现有资料和理论的这种不完备和不完善,在任何时候都适合于解释许多表示常规科学特点的难题。每一次不适应都是抛弃理论的理由,所有理论总是应当被抛弃。另一方面,如果只有严重不适应才证明理论应当被抛弃,那么鲍勃主义者就需要某些“不可能性”或者“证明为错误的程度”的标准。他们在提出一个标准时,几乎肯定会遇到同样的困难,这些困难时常索绕着各种概率证明理论的拥护者。

    ①K.R.鲍勃:《科学发现的逻辑》(纽约;1959年,英文版),尤其是第1~4章。

    认识到关于科学探索的根本逻辑的两种盛行的和对立的观点已经试图把两种基本上分开的过程压缩成为一个过程,就能避免前述许多困难。鲍勃的反常经验对科学是重要的,因为它为现存的一种规范引起竞争者。但是,证明为错误,即使确实产生了,却并没有发生或者只不过是因为出现了反常现象或错误例子。这是以后分开的过程,同样可以称为证明,因为它是新规范对旧规范的胜利。而且,在那种证明和证明为错误的共同过程中,概率论者对各种理论的比较起着核心的作用。我认为,这样一种分两阶段的阐述具有很逼真的优点,也可以使我们开始详细地阐明在证明过程中事实和理论之间的一致(或者不一致)的作用。至少,对于历史学家来说,证明确立了的事实同理论相一致的意义不大。所有历史上有意义的理论都同事实一致,只不过或多或少而已。一种理论是否适合于这事实,或行适合得多么好,对于这个问题并没有确切的回答。但是,这些问题很象是把各种理论集体地或者成对地提出时所能问的问题。问两种事实上在竞争着的理论中哪一种适应这事实更好是有重要意义的。例如,尽管同已有观察恰好一致,既不是普里斯特利的理论,也不是拉瓦锡的理论,少数同时代人犹豫了十年才作出结论说,拉瓦锡的理论是两种理论中适应得更好的一种。

    可是,这种阐述使得在各种规范之间作出选择这个任务显得更加容易也更加随便了。如果只有一套科学问题,在一个世界范围内对这些问题做工作,而已只有一套解这些问题的标准,规范竞争就可以或多或少地按常规用数每一种规范解决了的问题的数目之类的过程来解决。但是,事实上,这些条件从来没有完全具备。竞争着的规范的支持者至少总是有点矛盾。为了证明自己有理由,双方都不会同意别人需要的一切非经验的假设。象普罗斯特利偖索里将关于化学化合物组成的争论,部分是由于他们决心要讨论。虽然每一方都希望别人转变他了解科学及其问题的方法,但双方都不会想要检验他的问题。各种规范之间的竞争不是那种可以山实验解决的战斗。

    我们已经了解到为什么竞争着的规范的支持者要使彼此的观点完全联系起来的总是失败的一些理由。这些理由集中起来已描述为革命前后常规科学的传统是不能比较的,在这里我们只需要扼要地加以重述。首先,竞争着的规范的支持者对于任何候补规范必须解决的问题清单往往会不一致。他们关于科学的标准和定义是不同的。运动理论是否必须说明物质粒子之间的引力的原因,或者它可以只注意到这种力的存在呢?牛顿力学被普遍抛弃是因为不象亚里士多德和笛卡儿的理论,它暗示了后者对这问题的回答。当牛顿的理论已被接受时,一个问题因此就从科学中排除了。可是,那个问题是广义相对论可以骄傲地声称已经解决了的一个问题。再举一个例子,在十几世纪传播过的拉瓦锡的化学理论,禁止化学家们问为计么金属是这样现象,这是燃素论化学已经问过和回答过的一个问题。过渡到拉瓦锡的规范,就象过渡到牛顿的规范一样,意味着不仅损失了一个可以允许的问题,而且损失了一个已经得到的解。可是,那种损失都不是永久性的。在二十世纪,关于化学物质的性质问题,同对他们的某些回答一样,重新进入了科学。

    可是,还包含了比标准不可比较更多的东西。因为,新规范是从旧规范产生的,他们通常混合着传统规范以前用过的许多概念上和操作上的语汇和注解。但是,他们很少以完全是传统的方式用这些借来的因素。在新规范的范围以内,老的术语、概念和实验同其他东西开始了新的关系。虽然术语并不完全正确,不可避免的结果是我们必须称之为两个竞争着的学派之间的误解。外行嘲笑爱因斯坦的广义相对论,因为空间不可能是“弯曲的”,它不是那种东西,这不只是不适当或错误。数学家们、物理学家们和哲学家们试图提出爱因斯坦理论的欧几里德说法也不适当也是错误的。①以前所说的空间必须是平直的,均匀的,各向同性的,而且不受物质存在的影响。如果不曾这样,牛顿的物理学就不会起过作用。要完成向爱因斯坦的宇宙过渡,整个概念网必须转变并重新落实到整个自然界。概念网的要素是空间、时间、物质和力等等。只有一起经历或者不能经历那种转变的人们,才有可能发现,他们恰好在什么问题上是一致的或者不一致的。越过分界线的交通不可避免地是局部的。另外还有一个例子,请考虑那些称哥白尼为疯子的人,因为哥白尼宣传地球是运动的。他们不是正好错了,就是完全错了。他们所说的“地球”这个字有一部分意思就是固定的位置。至少,他们的地球不可能是运动的。相应地,哥白尼的发明不只地球是运动的。不如说,它是关于物理学和天文学问题的一种完全新的方法,这种方法必需改变“地球”和“运动”两者的意义。②没有那些改变,一个运动着的地球的概念就是发疯。另一方面,一旦它们已经完成和被理解了,笛卡儿和惠根思两人就能认识到,地球的运动对科学来说是一个没有内容的问题。③

    ①关于改行对弯曲空间概念的反应,请参看菲列音·弗兰克:《爱因斯坦,他的生平和时代》,G.罗申和S.库萨加编译(纽约,1947年,英文版),第142~146页,关于少数人企图在欧几里得空间范围内保持广义相对论的收获;请参看C.诺得曼:《爱因斯坦和宇宙》,J.马卡勃译(纽约,1922年,英文版),第九章。

    ②T.S.库恩:《哥白尼的革命》(剑桥,麻省,1957年,英文版),第三、四和七章,同心说不只是一个严格的天文学问题,就这个范围说,它是全书的主题。

    ③马克思·詹默:《空间概念》(剑桥,麻省,1954年,英文版),第118~124页。

    这些例子指出了竞争着的规范不可比较的第三个最基本的方面。在某种意义上说,我不能进一步阐述了,竞争着的规范的支持者通常是在不同的世界里从事他们的事业的。一方面有慢慢地降落的受约束的物体,其他方面一次又一次重复地运动的摆。在一方面看来,溶液是化合物,在其他方面看来,是混合物。一方是嵌在平直空间模型里的东西,他方是嵌在弯曲空间模型里的东西。两组科学家在不同的世界里实践着,当他们从相同的问题出发按相同的方向看时看到的是不同的东西。而且,那不是说他们能看到他们喜欢的任何东西。两者都在看这个世界,而且他们所看的东西并没有改变。但是,在某些领域里,他们看到了不同的东西,而且他们是在不同的相互关系中去看这些东西的。那就是为什么一条定律对一组科学家甚至不能说明,而对另一组科学家有时好象直观那样显而易见。同样,这就是为什么在他们能希望充分地传播以前,这一组成其他组科学家必须经验到我们已经称之为规范转移的惯例。正因为它是一种不可比较的东西之间的转化,竞争着的规范之间的转化,由于逻辑的和中性的经验逼迫,不可能一次完成一个步骤。象形态转变那样,它必须立刻产生(尽管不必要在一个瞬间)或者根本不产生。

    那么,科学家们怎样导致完成这种变换呢?部分回答是,他们常常不能完成这种变换。哥白尼主义在哥白尼死后几乎一个世纪只作出了少数转换。牛顿的工作在《原理》出版以后的半个世纪里,特别是在大陆上,并没有被普遍接受。①普里斯特利从来没有接受过氧的理论,开尔文勋爵也没有接受电磁理论,等等。科学家本身往往已经注意到转变的困难。达尔文在他的《物种起源》的末尾在特别富有洞察力的一段中写道:“虽然我完全相信在这一卷中提出的观点的真理性……,我决没有期望使有经验的博物学家们信服,他们的心目中备有许多事实,多年以来,这一切都是从直接与我对立的观点去观察的。……但是,我满怀信心地展望着未来,对于年青的正在上升的博学家们来说,他们将有可能毫无偏见地看到这个问题的两个方面。”②而马克思·普朗克在他的《科学自传》中检查他自己的生涯时,悲伤地表示:“一种新的科学真理并不是靠使他的反对者信服,并且使他们同情而胜利的,不如说是因为他的反对者终于死了,而在成长的新的一代是熟悉它的。”③

    ①I.B.柯享:《弗兰克林和牛顿:思辨的牛顿主义实验科学初探以及它的一个例子弗兰克林在电学方面的工作》(费城,1956年,英文版);第93~94页。

    ②查理·达尔文;《物种起源》(审定版;英文第六版,纽约,1889年),第二卷;第295~296页。

    ③马克思·普朗克:《科学自传和其他论文》,F.给纳泽(纽约,1949年,英文版)第33~34页。

    这些事实和其他类似的事实是众所周知的,不需要进一步强调了。但是,他们确实需要重新评价。在过去,他们曾经经常指出,科学家也是人,即使面临严格的考验,也不能总是承认他们的错误。我宁愿争辩说,在这些问题上意见不一致的既不是证明,也不是错误。从忠于一种规范转到忠于另一种规范是一种不能强迫的转变经历。特别是来自那些人的终生抗拒,并不违背科学的标准,而是科学研究本身的本质的一种标志。他们的多产经历已经使他们信守常现科学的一种比较古老的传统。抗拒的根源在于确信老规范最终将解决它的~切问题,自然界可以挤进这规范提供的盒子。在革命时期,那种信念不可避免地显得很顽固,很愚蠢,正如它有时确实变成的那样。但是,它也是更重要的东西。同样的信念使常规科学或者解难题的科学成为可能。而且科学家们的专业团体只有通过常规科学,首先成功地利用老规范的可能的范围和正确性,然后把困难孤立起来,通过研究这种困难,就可以出现一种新规范。

    可是,说那种抗拒是不可避免的和合法的,规范改变不可能由证明来判断的,并不是说没有适当的论据,或者不能劝科学家们改变他们的思想。尽管有时需要一代人来引起这种改变,科学团体还是再三转向新规范。而且,这些转变并不轻视科学家们是人这个事实,而正因为他们是人才产生的。虽然有些科学家,特别是那些比较老的和有经验的科学家会含糊地拒绝,他们中间大多数可以通过这种或那种道路达到。每次只有几个会转变,直到最后一个坚持不让步的人死了,整个行业就会重新在一个单一的但现在已是一个不同的规范下做实验了。因此,我们必须问转变是怎样引起的和怎样被拒绝的。

    对这个问题,我们可以期望怎样一种回答呢?正因为问的是说服的技巧,或者是在不可能有证明的情况下的论据和反论据,我们的回答是一个新问题,要求一种以前没有做过的研究。我们必须安排一个很局部的和印象主义的调查。此外,我们已经说过的和那种调查的结果相结合表明,当问的是说服而不是证明时,科学论据的本质问题就没有单一的或始终如一的回答。个别科学家由于各种理由而信奉一种新规范,而通常只是由于几种理由,有些理由完全是在显而易见的科学领域以外的,例如,太阳崇拜帮助刻卜勒成为一个哥白尼主义者。①其他人必须取决于自传和人物的特性。甚至发明家的国籍或者以前的荣誉以及他的导师有时也能起重要作用。②因此,最后我们必须学会以不同的方式来问这个问题。于是,我们关心的不是事实上使这个或那个个人转变的论据,而不如说是使这种团体转变的论据,它们或早或迟总会重新形成一个单一的集体。可是,我们把这个问题推迟到最后一章。同时考查某些在改变规范的斗争中已被证明特别有效的论据。

    ①关于太阳崇拜在刻卜勒思想中的作用,请参看E.A.勃特:《现代物理科学的形而上学基础》(修订版,纽约,1932年,英文版),第44-49页。

    ②关于荣誉的作用,请想一想下面这件事:瑞利勋爵在他的荣誉已经建立以后,有一次向英国协会提交了一篇关于电动力学的某些佯谬的论文。当这篇论文最初送出时,他的名字由于疏忽而遗漏了,这篇论文本身最初被当作某些“反论家”的工作而被拒绝了。不久以后,这篇文章署了作者的名字,就以过分的辩解被接受了(R.J.斯特鲁特,瑞利男爵第四:约翰·威廉·斯特鲁特,瑞利男爵第三[纽约,1924年」;第228页)。

    由于新规范的支持者提出的唯一最流行的要求,也许是他们能解决使老规范导致危机的各种问题。当这种要求能合法地提出时,往往可能是最有效的一个。在提出这种规范的领域中已经知道有困难。人们已经反复地探讨过那种困难,并且企图排除它,而一再被证明是徒劳的。那些能特别鲜明地区别两种规范的“决定性实验”,甚至在新规范发现以前就已经被认识和证明了。因此,哥白尼声称,他已经解决了日历年的长度这个长期令人烦恼的问题。牛顿声称他已经使大地的力学和天上的力学一致起来了,拉瓦锡声称,他已经解决了气体识别和重量比例的问题,而爱因斯坦则声称,他已经使电动力学和一种修正了的运动科学一致起来了。

    如果新规范在表现量的精确性方面比它的老的竞争者好得多,这种要求就特别有希望成功,刻卜勒的鲁道尔芬表比所有根据托勒密理论计算出来的那些表在定量上的优越性是天文学家们转向哥白尼主义的主要因素。牛顿在预言定量的天文观测上的成功,也许是他的理论战胜更合理但一律是定性的竞争者的一个最重要的理由。而在本世纪,普朗克的辐射定律和玻尔的原子这两项惊人的定量的成就,很快就说服了许多物理学家去采纳他们。虽然从整个物理科学来看,这两项贡献所造成的问题比它们解决的问题要多得多。①

    ①关于量子理论造成的问题;请参看F.雷喜:《量子理论》(伦敦,1922年,英文版),第二、四至九章。关于这一段里的其他例子,请参看这一章前面的参考文献。

    可是,已经解决了引起危机的问题这种要求本身很少是充分的。它也不能始终合法地提出。事实上,哥白尼的理论并不比托勒密的理论更准确,而且也没有直接导致日历上的任何改进。还有光的波动理论,在它首先被宣布以后有好几年,在分辨偏振效应方面,甚至不如它的对手光的粒子理论那样成功,而这就是光学危机的主要原因。有时标志非常研究特点的不严谨的实验会产生规范的候补者,最初对已经引起危机的问题根本没有帮助。当这种情况发生时,证据必须从这个领域的其他部分提出,它往往是随随便便的。只要这种新规范允许预言老规范流行时完全没有意料到的现象,就能在那些领城里提出特别有说服力的论据。

    例如,哥白尼的理论使人联想到行星应当象地球一样,金星应当显示出相,而且宇宙应当比以前曾经设想的要巨大得多。结果,在他死后六十年,望远镜突然显示了月亮上的山脉,金星的相,以及大量的以前没有料想到的恒星,那些观察特别是在非天文学家中间为新理论带来了大量改变信仰的人。①至于波动理论,专业人员改变信仰的一个主要根源更富有戏剧性。当弗雷内尔能说明圆盘的阴影中心上有一个白点存在时,法国的抵抗相对地说突然完全瓦解了。甚至他也没有预料到这种效应,而他的反对者之一泊松一开始就已经证明,只要弗雷内尔的理论是荒谬的,这种效应就是必然的。②因为它们的冲击价值,以及因为它们从一开始就如此明显地没有“纳入”新理论,象这些论据证明是特别有说服力的。有时即使有问题的现象在说明它的理论第一次被引进以前很久就已经观察到了也能利用额外的力量。例如,爱因斯坦看来没有预料到广义相对论会精确地说明水星近日点的运动中这种著名的反常现象,当这样做时,爱固斯坦体会到了相应的胜利。③

    ①T.S.库恩,前引书第219~225页。

    ②且T.惠特克:《以太和电的理论的历史》,第一卷(第二版,伦敦;1951年,英文版),第108页。

    ③请参看同上,第二卷(1953年,英文版),第151~18O页,关于广义相对论的发展。关于爱因斯坦对这种理论同观察到的水星近日点的运动精确一致的反应,请参看在P.A.希耳泼编的:《阿尔伯特·爱因斯坦,哲学家-科学家》(伊凡斯顿,伊利诺斯;1949年,英文版),第101页。

    迄今讨论过的关于一种新规范的一切论据,是以竞争者有较好的解决问题的能力为基础的。对于科学家来说,那些论据通常是最有意义和最有说服力的。前面的例子对于它们的巨大号召力的根源应当没有怀疑。但是,我仍将有理由短暂地回到那些论据,这些论据不论是个别地还是集体地都不是使人非相信不可的。幸而,也还有另一种考虑,能导致科学家们拒绝一种老规范和支持一种新规范。这些论据很少弄得非常明确,要求个人有适当的或者美的感觉,新理论被说成比旧理论‘更美”,“更适当”,或者“更简单”。很可能这样一些论据在科学中不如在数学中有效。大多数新规范的早期说法是不成熟的。随着时间的推移,才能提出充分的美的要求,大多数团体已经用其他方法被说服了。然而,美的考虑的重要性有时可以是决定性的。虽然,美的考虑往往只能把少数科学家吸引到一种新理论方面来,它的最后胜利也许就依赖于那些科学家。如果他们没有因为和个人的理由很快接受它,规范的新的候补者也许决不会得到充分发展,以吸引整个科学团体的忠诚。

    为了看到这些比较主观的和美的考虑的重要性,请记住规范争论的是什么?当规范的候补者首先提出来的时候,它很少解决得了它所面临的几个问题,那些解大多数是不完备的。直到刻卜勒、哥白尼的理论几乎没有改进由托勒密做出的行星位置的预言。当拉瓦锡把氧看成“完全是空气本身”的时候,他的新理论完全不能应用于新气体激增所提出的各种问题,普里斯特利在他的反攻中以巨大的成功提出了这一点。象弗雷内尔的日点那样的情况是很少的。通常,只有在新规范已经提出,接受和利用以后很久才提出显然是决定性的论据——佛科摆以解释地球的自转或者斐索实验以证明光在空气中比在水中运动得更快。产生这些论据是常规科学的一部分,而且它们的作用不是在规范争论中而是在革命以后的教科书中。

    在那些教科书写成以前,当争论在继续时,情况是很不相同的。通常新规范的反对者能合法地要求,甚至在有危机的领域里,比它的传统的对手更优越一点。显然,它处理某些问题比较好,已经揭示了某些新的规律性。但是老规范大概能象它以前应付其他挑战一样去应付这些挑战。弟卡·布拉埃的地心天文学体系和燃素理论的后来的说法,是对规范的新的候补者提出的挑战的回答。而且两者都是相当成功的。①此外,传统理海和程序的捍卫者几乎总是指向它的新对手还没有解决的问题……但是就他们的观点来看根本不是问题。直到发现水的组成为止,氢的燃烧是支持燃素理论,反对拉瓦锡的理论的一个强有力的论据。而且在氧气理论已经胜利以后,它仍然不能解释由碳制备一种可燃气体,燃素论者曾指出这个现象作为他们的观点的强有力的支持者。②甚至在这种危机领域里,有时确实可以很接近于论据和反论据的平衡。而且在这个领域以外,这种平衡往往会明确地有利于这种传统。哥白尼摧毁了地球运动的一种历史悠久的解释,而没有代替它,牛顿对引力的一种比较古老的解释做了同样的事情,拉瓦锡对金属的共同性质做了同样的事情;等等。总之,如果规范的新的候补者必须从一开始就由精确而讲实际的人们来作出判断,他们只检查了有关的解决问题的能力,科学所经历的主要的革命是很少的。加以我们以前的叫做规范的不可比较性所产生的反论据,科学也许完全没有经历革命。

    ①关于布拉埃的体系,它同哥白尼的体系在几何学上完全是等效的;请参看J.L.E.德莱叶:《从泰勒斯到刻卜勒的天文学史》

    第二版;纽约,1953年,英文版)第359~371页。关于燃素理论的最后的说法和它们的成就,请参看J.R.派丁顿和D.马基:《燃素理论的历史研究》,《科学记事》,第IV卷,(1939年),第113~149页。

    ②关于由氢提出的问题,请参看J.R.派丁顿:《化学简史》(第二版:伦敦,1951年,英文版),第134页。关于一氧化碳;请参看H.柯泼:《化学史》,第三卷,(布朗斯威克,1845年,德文版)第294~296页。

    但是,规范争论并不真正是关于相对的解决问题的能力的,虽然他们通常用那些术语来表达是有充分理由的。问题是哪一种规范在将来应当指导对各种问题的研究,其中有许多问题竞争者都还不能声称完全解决了。需要在交替的检验科学方面之间作出抉择,而且在这种情况下,抉择必须以未来的希望为基础,而更少以过去的成就为基础。信奉新规范的人在早期阶段往往必须不管由解决问题提出的证据而这样做。那就是说,他必须相信新规范在它所面临的许多大问题上会成功,只知道老规范在几个问题上已经失败了。只能根据信念作出那种决定。

    这就是为什么危机以前果然是如此重要的理由之一,科学家们并没有经历危机以前,很少会否认解决问题的过硬的证据,而去信奉很容易证明,并被广泛地认为是一种捉摸不定的东西。但是单有危机还是不够的。也必须有基础,虽然为了相信选中的特殊候补者它所需要的既不是合理的,也不是最终正确的。有些东西至少必须使一些科学家感到新建议是在正确的轨道上,有时只有个人的说不出的美学上的考虑不能做到那样。当大多数可以说得出的技术上的论据指向其他方向时,人们有时就会由于它们而改变信念。当最初提出时,哥白尼的天文学理论和德布洛意的物质理论两者都没有其他许多有吸引力的主要理由。爱因斯坦的广义相对论甚至今天主要是由于美学上的理由吸引着人们,在数学范围以外只有少数人能感受到的一种吸引力。

    这并不是暗示,新规范的最终胜利是由于某种神秘的美学。相反,很少有人单为这些理由而抛弃一种传统。那些人往往被证明是误入歧途了。但是,只要一种规范曾经取得胜利,它就必须得到一些最初的支持者,这些人会把它推进到能产生和增加精确而实际的论据的地步。即使那些论据,当它们出现时,也不是各自具有决定意义的。因为科学家们是有理性的人,这样那样的理由最终会说服他们中间的许多人。但是没有一个理由能够或应当说服他们全体。与其说一个集体的转变,不如说发生的是专业人员的忠诚分布状态中有日益增长的转变。

    规范的新的候补者一开始可以有少数支持者,有时这种支持者的动机也许是可以怀疑的。可是,只要他们是有能力的,他们就会改进它,探索它的可能性,并证明它将属于由它引导的团体。照这样继续下去,只要这种规范是一种注定要获胜的,对它有利的有说服力的论据的数量和力量就会增加。于是更多的科学家们就会转变,对新规范的探索就会继续。以这种规范为基础的实验、仪器、论文和书籍的数量就会逐渐增加。还有更多的人们相信这种新观点不会有成果,就会采取新的方式去检验常规科学,直到最后只有几个比较老的坚持者留下来。即使是他们,我们也不能说,是错误的。虽然历史学家们总能发现几个人,例如,普里斯特利,象他们所做的那样长期抗拒是不合理的,也不愿发现在某一点上抗拒是不合乎逻辑的和不科学的。他最多也许希望说,在他的整个专业已经转变以后继续抗拒的人,就根据这一事实已经不再是一个科学家了。

    XIII 由于革命而进步

    我们马上注意到,这个问题有一部分完全是语言学的。“科学”这个名词在很大范围内是留给确实明显地进步的那些领域的。这一点什么地方都没有关于这一门或者另一门现代社会科学是不是真正的一门科学这种经常发生的争论表现得更加清楚的了。这些争论在今天毫不犹豫地贴上了科学标签的各个领域的前规范时期中都有类似的情况。它们表面上的问题始终是那个使人烦恼的术语的定义。例如,人们争辩说,心理学是一门科学,因为它具有这种那种特征。其他人反对说,要使一个领域成为一门科学,那些特征或者是不必要的,或者是不充分的。往往是投入了巨大的精力,引起了巨大的热情,而局外人简直不知道是为什么?能在很大程度上取决于“科学”的定义吗?一个定义能告诉人们他是不是一个科学家吗?如果是这样,为什么自然科学家或者艺术家并不对这个术语的定义发愁呢?任何人不可避免地要怀疑,这个问题是更为基本的问题。可能真的已经提出过如下一些问题:为什么我的领域不能象比方说物理学所做的那样向前进展呢,在技术上或者方法上或者意识形态上有什么变化会使它这样做呢?可是,这些都不能答复定义上一致的问题。而且,只要来自自然科学的先例是适用的,这些先例就不再是忧虑的来源,不是在找到一个定义的时候,而是当这个集体怀疑它们自己的状况,对它们过去和现在的成就达到。效的时候。例如,经济学家们对他们的领域是不是一门科学出社会科学其他一些领域的工作者争论得比较少,这也许是重要的。是不是因为经济学家们懂得什么是科学?或者倒不如说他们对经济学的看法是一致的呢?

    那个问题有一个反题,虽然不再只是语言学的,却可能有助于显示我们的科学观和进步观之间的无法摆脱的关系。许多世纪以来,在古代和在近代欧洲的初期,绘画被认为是一种积累的学科。在那些年代里,艺术家的目的被设想为描写。象普里尼和范萨里那样的批评家和历史学家,那时以崇敬的心情记录了一系列发明,从按照透视法缩短起,通过明暗对照法,已经有可能比较完备地描述自然界了。①但是,那些年代特别是在文艺复兴时期,也是科学和艺术之间感到了一点分裂的时期。列奥纳多是许多人中唯一的一个能在各领域之间自由地来往的人,这些领域只是在后来才明确地加以区分的。②而且,即使在这种稳定的交换已经停止以后,“艺术”这个术语继续同样地用于技术和工艺,它们象绘画和雕刻一样,也被看成是向前进步的。只有当后者明确地抛弃了以艺术作品作为它们的目的,并开始重新学习原始模型时,这种分裂才呈现象它现在这样的深度,我们现在已经认为这是当然的事了。即使在今天,要再一次变换领域,我们的部分困难就在于要看出科学和技术之间的深刻的差别,必然与进步是这两个领域的明显属性有关。


    E·H.戈姆勃列希:《艺术和幻想:绘画艺术作品的心理学研究》(纽约,196O年,英文版),第

    11~ 12页。

    ②同上,第97页;以及乔治·桑蒂兰纳:《艺术在科学的文艺复兴时期中的作用》;见《科学史的重要问题》;M.克拉克将编(麦迪逊,威斯康辛,1959年,英文版);第33~65页。

    可是,认识到我们倾向于看出进步是科学的任何领域的标志。只能澄清,而不能解决我们的困难。为什么进步竟会是这本书已经描述的用这种技术和目标处理的一种事业的如此值得注意的一种特征呢,这个问题仍然有待理解。这个问题证明是几合一的,而且我们必须分别考察它们中间的每一个问题。可是,归根到底,它们的解决将部分地依赖于改变我们对科学活动和从事科学的团体之间的关系有正常的观点。我们必须学会认清通常被看成是效果的原因。只要我们能做到这一点,“科学进步”,甚至“科学的客观性”这类空话也许看来好象在某种程度上是多余的。事实上,这种多余的一个方面刚才已经说明过了。是不是一个领域获得进步就因为它是一门科学,或者它是一门科学就因为它获得进步?

    现在,请问为什么象常规科学那样一种事业竟会进步,并从回想它的一些最明显的特征开始。按正规,一个成熟的科学团体的成员,都按一个单一的规范或者按一套密切有关的规范工作。不同的科学团体研究同样的问题是很少的。这种团体同时持有几种主要规范是例外。可是,从任何一个团体内部来看,无论是科学家也好,不是科学家也好,成功的创造性工作的结果是进步的。它怎么可能是别的什么东西呢?例如,我们刚才已经注意到,当艺术家的目的在于他们的艺术作品时,评论家和历史学家两者都记述了这种明显地统一了的团体的进步。其他创造性的领域显示出同类的进步。神学家明确地讲教条,哲学家推敲康德主义者献给进步的规则。只要这个团体共同利用他的前提。有创造性的学派不承认一种工作一方面是一个创造性的成就,但另一方面又没有增加这个集体的成就。如果我们象许多人所做的那样,怀疑和科学的领域获得进步,那就不可能是因为个别学派没有获得任何东西。倒不如说,这必然是因为总是有一些竞争着的学派,每一个学派都经常不断地分析其他学派的真实的基础。例如,有人争辩说,哲学就没有获得进步,这种人强调,还是有亚里士多德主义者,而不是强调,亚里士多德主义已经不能进步了。

    可是,对进步的这些怀疑,在科学中也出现了。整个前规范时期有大量竞争着的学派,除了在学派范围以内,进步的证据是很难找到的。这是在第二章中描述过的时期,在这种时期里,个人从事科学,但是,正如我们知道的,他们从事的事业的结果并不就意味着科学。还有,在革命时期,当一个领域的基本原则再一次成为问题时,只要采纳了这种或者那种相反的规范,对继续进步的可能性本身就会反复地表示怀疑。那些抛弃牛顿主义的人们声称,牛顿主义依靠固有的人会使科学回到黑暗时代。那些反对拉瓦锡的化学的人们主张,抛弃化学“原理”,以支持实验室元素,就是抛弃那些人已经获得的化学解释,他们宁愿仅仅用名字来退避问题,反对爱因斯坦,波姆和其他人反对量子力学的占统治地位的几率解释,似乎都是以类似的感情为基础的,只是表达得比较温和而已。总之,只有在常规科学期间,进步才好象既是明显的,又是有保证的。可是,在那些时期,科学团体没有其他方法能观察它的工作成果。

    因此,关于常规科学,对进步问题的部分回答仅仅在于注视者的观察力。科学的进步同其他领域里的进步在种类上并不是不同的,也是在多数时间里没有竞争着的学派互相询问各自的目的和标准,使得要观察常规科学团体的进步要容易得多。可是,那只是部分回答,而且决不是最重要的部分。例如,我们已经注意到,一旦接受了一个共同的规范,就已经从经常要重新考查它的最初原理这种需要中解放了这个科学团体,这个科学团体才能专一地集中注意与它有关的最微妙和最奥秘的现象。那就不可避免地确实会增加整个团体解决新问题的有效性和效率。科学生活的其他方面进一步丰富着这种很特殊的效率。

    其中有些是成熟的科学团体同外行和日常生活的要求空前未有的绝缘的结果。那种绝缘从来不是完备的,我们现在讨论的是程度问题。然而,其他专业团体中个人的创造性的工作没有一个是这样专一地向这个专业的其他成员提出,并由这个专业的其他成员评价的。最奥妙的诗人和最抽象的神学家比科学家更关心他的创造性的工作是否受欢迎,尽管一般说来,他对是否受欢迎也许并不那么关心。那种差别证明是很重要的。正因为他的听众都是同事,这是一种分享他自已的价值和信念的听众,他仅仅是为这种听众在工作。因此,科学家能认为单一的一套标准是当然的。他不需要担心其他某些团体或学派会想到,因而能解决一个问题,并且比那些为比较不合于公认标准的团体立作人们更快地识破下一个问题。甚至更为重要的是,科学团体同社会绝缘允许个别科学家把他的注意力集中于他有充分理由相信他会有可能去解决的那些问题。科学家不象工程师和许多医生,以及大多数神学家,他们不需要选择问题,因为他们迫切需要解答而且不注意对解决问题有效的工具。在这方面,自然科学家和社会科学家之间的对照也是有教益的。社会科学家常常倾向于主要用获得一个解答的社会重要往来为他们选择一个研究课题辩护。例如,种族歧视的结果或者商业循环的原因,等等,而自然科学家几乎从来不这样做。那么人们将期望哪一个团体以较快的速度解决问题呢?

    同较大的社会绝缘的结果是大大强化了专业科学团体的另一个特征,即它在教育上传授的性质。在音乐,绘画艺术和文学中,从专者靠接受其他艺术家的作品,主要是较早的艺术家的作品的影响获得他的教育。除了原始创作简编或手册以外,教科书是有第二位的作用。在历史、哲学和社会科学中,教科书有较大的意义。但是,即使在这些领域里,学院的基础课程也用类似原始资料方面的读物,其中有些是这个领域的“经典著作”,其他是科学工作者写的现代研究报告。结果是在这些学科的任何一门中,学生经常认识到有一大堆各种各样的问题,是他未来的集体成员企图经过一定时间要解决的。甚至更为重要的是,他经常面临着这些问题的许多竞争着的和不能比较的解答,他最终必须为自己评价这些解答。

    把这种形势同现代自然科学中的形势相对照。在这些领域里,学生主要依靠教科书,直到他第三或第四年做毕业论文时,他才开始他自己的研究工作。许多科学课程甚至并不要求毕业生去读不是专门为学生写的著作。少数课程确实在研究论文和专题著作中指定了补充读物,这样指定的作业局限于最先进的课程和通用的教科书不再采用的材料。直到科学家教育的最后阶段,教科书才有可能系统地由创造性的科学文献来代替。相信他们的规范,才使这种教育方法成为可能,少数科学家会希望要改变它。总之,例如,为什么学物理学的学生竟会要读牛顿、法拉弟。爱因斯坦和薛定谔的著作呢?关于这些著作,他所需要知道的一切,在许多现代的教科书中已经以简单得多的,而且以更加准确、更加系统的形式扼要地说明了。

    我并不想要为这种类型的教育偶然带来的过多的时间辩护,但是,人们不得不注意到,一般说它是很有效的。当然,这是一种狭隘而且僵化的教育,也许除正教神学以外,可能比其他任何教育都更狭隘而僵化。但是,在教科书明确表示的传统范围内,科学家对常规科学工作和解难题几乎是完全训练有素的。而且,他对另一种任务通过常规科学产生重大危机,也有充分准备。当危机出现时,科学家当然不是同样有充分准备的。虽然在不那么僵化的教育实践中也有可能反映出延长了的危机,科学的训练却没有事先计划好要产生这种人,他很容易发现一条新的途径。但是,只要有人同规范的新的候补者一起出现——通常是一位年青人或者对这个领域来说是一位新手——只会给个人带来由于僵化而造成的损失。在特定的一代人中产生这种改变,个人的僵化同一个情况需要时能从一种规范转移到另一种规范的团体是不相容的。当极端僵化给这个团体提供了一个敏感的指示器,表明什么事出了毛病时,就特别不相容了。

    因此,在正常情况下,一个科学团体是解它的规范规定的问题或难题的一个很有效的工具。而解那些问题的结果,不可避免地必须是进步的。这里没有问题。可是,只要集中注意力于科学中的进步问题的第二个主要部分,就可以看到那些问题。因此,让我们转向这个部分,并了解通过非常科学所取得的进步。为什么进步也会是科学革命的显而易见很普遍的伴随物呢?再问一问一次革命的结果能是什么,还可以学到许多东西。革命是以两个对立的阵营之一的完全胜利而告终的。这种团体可曾说过,它的胜利的结果不那么进步吗?那倒不如说就象承认他们已经错了,而他们的反对者是对的。对于他们来说,至少,革命的结果必须是进步的,而且他们处于一种优越的地位,可以确实科学团体的未来成员将以同样的方式看待过去的历史。第十一章详细地描述了完成这件事的技巧,而且我们刚才已经回到了与专业科学生涯密切有关的一个方面。当一个科学团体否认过去的一种规范时,他同时抛弃大多数书籍和论文,其中曾包含这种规范,这是专业检查的一个恰当的题目。科学教育所用的不是艺术博物馆或考古典著作图书馆的等价物,结果是科学家对他的学科过去的观念有时有严重的歪曲。他比其他创造性领域的实践者更多地把科学看成是按一条直线通向这学科的现在的优越地位的。总之,他把它看成是进步。当他留在这个领域时,对他来说没有合用的替换物。

    这些议论将不可避免地暗示,一个成熟的科学团体的成员,象奥威尔的1984年的典型特征一样,是由当局重写的历史的牺牲品。而且,那种暗示并不是完全不适当的。在科学革命中既有损失也有收获,科学家们对前者特别盲目。①另一方面,对通过革命取得进步的说明不可以停留在这一点上。要这样做就意味着在这种科学中也许有权作出一种阐述,只要它不隐瞒在规范之间作出选择的过程和权威的性质,就不会是完全错的。如果只有权威,特别是如果只有非专业的权威是规范争论的仲裁人,这些争论的结果仍然可以是革命,但它不会是科学的革命。科学的存在本身依赖于在一种专门的团体成员中授予在各种规范之间作出选择的能力。如果科学要生存和成长,这种团体必须多么专门可以由人类抓住科学事业的微妙性本身来表示。我们已有记录的每一种文明已经具有技术、艺术、宗教、政治体系、法律,等等。在许多情况下,文明的那些方面就象我们自己那样去发展。但是,只有从古希腊传下来的文明拥有不止是最初步的科学。大量科学知识是最近四个世纪以来欧洲的产物。没有其他地方和时代支持过这种非常专门的团体,科学的生产率就来自这种非常专门的团体。

    ①科学史往往以一种特别惊人的形式遇到这种盲目性。这组从科学到盲目性的学生往往是他们所教的最值得奖赏的一组学生。但是;在开始时,通常也是最受挫折的。因为,学科学的学生“知道正确的回答”;要他们用自己的术语去分析一种比较古老的学科是特别困难的。

    这些团体的本质特征是什么?显然,它们需要非常多的研究。在这个领域里,只有最富有试探性的概括才是可能的。然而,一个专业科学团体中的成员有许多必要条件是非常清楚的。例如,科学家必须关心去解决自然界的行为问题。此外,虽然他对自然界的关系也许在地球范围以内,可是他所研究的问题,必须是详细的问题。更重要的是,使他满意的解也许不仅是个人的,而必须是许多人都接受的解。可是,接受这种解的团体,可不是从整个社会中随便地得到的,倒不如说是科学家的专业相同的人们的有明确界限的团体。科学生活的最坚定的虽然还没有写出来的规则之一是一般科学问题禁止向国家首脑或者平民大众提出呼吁。承认有独一无二的有能力的专业团体存在,并接受它作为专业成就的唯一的仲裁者的角色,还有更深刻的含意。这种团体的成员,作为个人,依靠他们所具有的训练和经验,必须被看成是这种游戏规则或者明确判断某些等价基础的唯一拥有者。怀疑他们有这样一些评价的基础就要承认科学成就有不一致的标准存在。承认这些就不可避免地会引起在科学中真理是否能一致的问题。

    科学团体其所有的这种特征的一小张清单完全是从常规科学的实践中提出来的,而且它应当有这些特征。科学家通常受过这种活动的训练。可是,请注意,虽然这张清单很小,已经是以把这样的团体同所有其他专业团体分开。此外,还要注意,尽管这张清单来自常规科学,它却说明了这个团体在革命期间、特别是在规范争论期间的回答的许多特征。我们已经观察到这种团体必须把规范改变看成是进步的。现在我们也许认识到,这种观念的重要方面是自动实现的。科学团体是通过规范改变使解决了的问题的数量和精确性达到最高的最有效的工具。

    因为,科学成就的单位是解决了的问题,而且因为这种团体很好地知道,哪些问题已经解决了,少数科学家将很容易被说服去采取一种观点,并且重新开始探索以前已经解决了的许多问题。自然界本身必须首先使以前的成就看来好象是成问题的,以削弱专业可靠性的基础。甚至当这一点已经出现,而且已经引起了规范的新的候补者时,除非相信已经遇到了两种全都很重要的条件,科学家们将不愿意信奉它。首先,新的候补者必须似乎要解决某些不能以其他方式遇到的著名的和普遍承认的问题。第二,新规范必须允许保持比较大的一部分具体解决问题的能力,这种能力对于科学来说由于它的先驱者已经增长了。在科学中就象在其他许多创造领域中一样,为了他们自已,新事物并不是一种感到需要的东西。结果,尽管新规范很少或者从来不拥有他们的先驱者的全部能力,他们通常保持着过去的成就的许多最具体的部分,而且他们总是允许具体问题的附加的解。

    这个问题说了许多并不是暗示解决问题的能力对规范选择来说是唯一的或者明确的基础。我们已经注意到许多理由,为什么不能有那种标准。但是它确实使人想起,一个科学专家的团体会做它所能做的一切,以保证调集起来的资料的继续增长,而且它能精确而细致地处理它。在这种过程中,这个团体会蒙受损失。有些老问题往往必须排除。此外,革命常常使这种团体在专业上关心的范围变得狭隘,使它专门化的范围增加,并且使它同其他科学团体和外行的交往都减少。虽然科学在深度上一定增加,它在广度上也许并不增加。如果它确实是这样,那么这种广度主要表现在科学专业的激增上,而不只是表现在任何一个专业的范围上。然而,对个别团体来说,尽管有这样那样的损失,这些团体的性质对于已由科学解决了的问题的清单和个别问题的解的精确性将日益增长两者都提供了事实上的保证。至少,无论如何只要它能提供,这种团体的性质是会提供这样一种保证的。还有什么是比料学团体的决定更好的标准呢?

    最后几节指出了方向,我相信一定会在科学中找到进步问题的一个更精确的解。也许他们表明,科学的进步完全不是我们对它理解的那样。但是,他们同时表明,一种进步不可避免地会表示科学事业的特征,只要这样一种事业存在的话。在科学中不需要另一种进步。为了更加精确,我们也许必须放弃这种明确的或含蓄的观念。规范的改变使科学家和向他们学习自那些人越来越接近真理。

    直到这最后很少几页,“真理”这个名词仅仅在弗兰西斯·倍根的一处引文中才进入了这本小册子,现在是注意这一点的时候了。甚至在那几页里,它也只是作为科学家的信念的一种来源进入的,当这种专业的主要任务是要淘汰一切而只留一套规则时,除了革命时期以外,对于做科学工作来说,不相容的规则是不能共存的。在这本小册子里描述过的发展过程,是一个从原始开端的进化过程,这个过程的相继阶段是由对自然界的日益详尽细致的理解来表示的。但是,对无论什么来说,使它成为一个进化过程,并没有也不会说出什么。那种空隙不可避免会打扰许多读者。我们全都深深地习惯于把科学看成是一种不断地接近于自然界预先安排的某些目的的事业。

    但是,需要有这样的目的吗,我们能不能根据这种团体在任何时期的知识状况用进化来说明科学的存在及其成就呢?它是否确实有助于设想:有一种对自然界的完备,客观而又真实的说明呢?以及科学成就的特有标准是它把我们引向那最终目的的程度吗?如果我们能学会用根据我们确实知道的进化来代替我们想要知道的进化,许多令人烦恼的问题也许会在这种过程中消失。例如,在这种迷宫的某个地方必然会有归纳的问题。

    我还不能详细说明这种候补的科学进步观的结果。但是,它有助于认识这里介绍过的概念变换,非常接近于西方人在一个世纪以前采取的那种概念变换。当达尔文在1859年第一次发表了他的由于自然选择的进化理论时,使许多专业人员最伤脑筋的既不是物种变化的观念,也不是人可能有来自猿的血统。指明进化的论据,包括人的进化在内,已经积累了几十年了,进化思想在以前就已经提出并广泛地传播了。虽然进化本身确实遇到了特别是来自某些宗教团体的抵抗,但它决不是达尔文主义面临的最大的困难。那种困难堵住了一种更加接近达尔文自已的思想。达尔文主义以前的所有著名的进化理论——拉马克,钱伯斯,斯宾塞和德国的自然哲学——已经认为进化是一个有目的的过程。人和动植物群的“思想”被斯为是从生命最初创造时起也许在上帝的心里就已经有了。那种思想或计划为整个进化过程提供了方向和指导力量。进化发展的每一个新阶段是一开始就已经有了的一种计划的比较完善的实现。①

    对于许多人来说,废除这种神学的进化是最重要的,至少是合乎达尔文的建议的趣味的。②《物种起源》不承认有上帝或者自然界安排的目的。而是在既定环境中并且有现在近在手边的有机体在起作用的自然选择对逐渐地但是稳定地出现更为复杂的、进一步明确表达了的、非常专门化的有机体负责。甚至象人的眼睛和手这样惊人适应的器官——设计这些器官以前已经为有最高级的设计家和一个先进计划的存在提供了强有力的论据——也是一种过程的产物,它从原始的开端向无目的稳定地前进。仅仅由有机体之间的生存竞争发生的自然选择,能产生人以及高等动物和植物这种信念,是达尔文理论的最困难和恼人的方面。在没有一个特殊“目的”时,“进化”、“发展”和“进步”能意味着什么呢?对于许多人来说,这样一些名词似乎是自相矛盾的。

    ①洛伦·艾斯利:《达尔文的世纪:进化和发现了它的人》(纽约,1968年,英文版),第二、四、五章。

    ②关于达尔文主义同这个问题的一次著名的斗争的特别敏锐的说明,请参看A.亨特杜泼利;阿萨·格雷,1810~1888年(剑桥,麻省;1959年,英文版),第295~306.355~383页。

    把有机体的进化同科学思想的进化联系起来类比很容易推进得太远。但是,对于结尾这一章的问题来说,它是非常近乎完善的。这种过程在第十二章中被描述为革命的解决,它是由科学团体内部冲突所选择的实现未来科学的最适的方式。一连串这样的革命选择的最后结果,由正常研究的各个时期分开;是一套我们称之谓现代科学知识的适应得很好的工具。这种发展过程的相继阶段,是以连接方式和专门化的增加为标志的。而且整个过程也许已经发生了,就象我们现在设想生物进化现在所做的那样,但没有受益于一种预先准备好的目的,一种永恒不变的科学真理,它在科学知识的每一个发展阶段上只是一个比较好的典型。然而,迄今为止,注意这场争论的任何人都会感到需要问,为什么进化过程竟然会起作用。为了使科学成为可能,自然界,包括人在内必须是怎么样的,为什么科学团体竟然会达到在其他领域中不能达到的牢固的一致?为什么一致竟然能忍受一个接一个的规范改变?以及为什么规范改变竟会总是产生比以前已知的那些在任何意义上都更加完善的工具?按照一种观点,这些问题,除了第一个,已经回答了。但是,按照另一种观点,这些问题就象这本小册子开始时那样还没有解决。不仅这种科学团体必须是专门的。那种团体也是这个世界的一部分,这个世界也具有非常专门的特征,这些特征是什么,我们并不比开始时知道得更准确。可是,为了使人可以了解这个世界,这世界必须是怎么样的这个问题并不是由这本小册子创造的。相反,它象科学本身一样古老,而且它仍然没有得到回答。但是,在这里不需要回答它。关于自然界的任何概念已经证明同科学的成长相一致,是同这里提出的科学的进化观点相一致的。因为这种观点同仔细观察科学生活也是一致的,在企图解决许许多多仍然存在的问题时运用这种观点是强有力的论据。

  • PNAS:数以亿计的论文,正在成为科学创新的阻力

    美国西北大学凯洛格商学院的Johan S. G. Chu和芝加哥大学社会学系的James A. Evans合作研究了241个学科9000万篇论文的18亿次引用数据,发现大规模的论文发表不会导致某个领域的中心思想更替,而是会导致经典思想范式的僵化。该研究指出当前科研创新需要颠覆式的学术创新和对新思想的关注。

    论文题目:Slowed canonical progress in large fields of science

    论文地址:https://www.pnas.org/content/118/41/e2021636118

    1. 科研界的马太效应

    大多数研究领域,每年发表的论文数量随着时间的推移显著增加。科学界的诸多激励措施,例如增加科学家的数量及研究经费,其最终产出,都是以论文的数量来衡量的。发表的论文数量,决定了学者的职业轨迹,以及对学术机构及国家层面科研能力的评价。

    然而,科学家和论文数量的增加是否能够转化为认知边界的扩大?如果能够,其过程又是怎样的?之前的观点,认为科研进程可用沙堆模型描述,即使不是每一篇论文都能改写教科书,但新的论文,可以看成在沙堆中添加一粒沙子,增加了发生雪崩的可能性。雪崩发生后,新的科学范式出现,就如同人类的认知从牛顿力学升级到相对论。

    在这一假设下,在规定时间内发表更多的论文,便成为获得终身职位和晋升的最可靠途径。引用数成为了用来衡量一个领域内个人、团队和期刊的重要性的最核心指标,数量越多越好,被引用的也越多越好。

    然而,上述标准,依据的假设被证明是错误的。先看一个有代表性的例子,当电气与电子工程领域每年发表约10,000篇论文,被引用次数最多的0.1% 论文,总引用数占1.5% ,被引用次数最多的1% 论文占8.6% 。而当这个领域增长到每年发表50,000篇论文时,前0.1% 的论文获得了3.5% 的引用,前1% 的论文获得了11.9% 的引用。等到该领域扩大到每年发表10万篇论文时,前0.1% 的论文获得了该领域5.7% 的引用,前1% 的论文获得了16.7% 的引用。相比之下,排名最后的50% 被引用次数最少的论文的比例则随着领域的扩大而下降,从每年10,000篇论文的43.7%,下降到每年100,000篇论文时的略高于20% 。

    图 1

    图1:不同领域的发表论文的多少(横轴)和论文引用数的衰减系数(纵轴),不同颜色代表了不同类型的引用数,纵轴的值越高,说明这项研究每年获得的引用逐年下降的趋势越弱,例如在被引用次数最多的前1% 以外的论文,平均每年减少约17% 的引用次数,而那些排前5%以下的论文,其引用次数有逐年减少四分之一的趋势。这说明新论文的泛滥,可能会剥夺读者理解新观点所需的认知空缺(cognitive slack)。就如同必需先清空大脑,才能够学到新知;研究者必须有空闲,才会去关注非主流的研究。当每年发表的论文数量非常大时,新论文的快速涌现可能会迫使学术界关注那些已经被广泛引用的论文,从而限制对那些知名度较低的论文的关注——即使这些知名度低的论文,事后被证明是具有新颖性且有变革性想法。

    回到前文提到的沙堆模型。当沙子以过快的速度下落时,邻近的小型雪崩会相互干扰,反而造成没有一粒沙子可以触发整个沙堆的移动。即每一粒新的沙子落下的速度越快,所能影响的区域就越小。对应科研界,如果论文的发表速度太快,没有新的论文可以通过扩散和优先连接的局部过程,积累影响力,从而改变科研界的全局范式。

    当一个领域每年发表的论文数量增加时,引用量不成比例地流向已经被引用很多的论文,这就如同马太效应,富者越富而贫者越贫。大量新发表的论文没有加快领域范式的更替,而是巩固了被引用次数最多的论文的学术地位。这意味着科学进展可能会放慢,受困于现有的研究范式。随着大多数领域,每年发表论文呈现持续增长,科研保守化将会是大势所趋,本文在论述了对数据的分析后,会讨论如何采取政策措施,重组科学生产价值链,以使大众的注意力集中在有希望的、新颖的想法上。

    2. 论文过多让科学界越发保守

    基尼系数是经济学中用来评价收入平等的,越高说明收入不平等越严重。该文用其来评价论文每年获得的新引用数目上的不平等。图2A说明了,科学界中引用数越高的论文,其获得的引用的过程,也越发不均等,当一个领域有更多的论文发表时,特定论文,尤其是那些高引用论文拿到了相对更多的新增引用;而B指出,当某领域发表更多的论文后,该领域论文引用数的排名变的更加稳定(从而相关性更高),每一篇新论文的发表都不成比例地增加了已经被引用最多的论文的引用。

    图 2

    图2:图中的每个点代表一篇论文,左图指对数处理的某领域该年的总论文数(横轴),与每年特定论文获得引用数所占比例的基尼系数(纵轴)之间的散点图;右图展示了特定论文年与年之间,新获得的引用数量,与当年该领域总引用数之间的斯皮尔曼相关系数(纵轴),不同颜色的线代表了论文数量最多的十个学科的拟合曲线。如果按照之前的认知, 论文被引用,是一个通过逐渐累积影响力,使得学术圈内的人集中注意力的过程,其每年新增引用数也相对平等。研究如在某一年内被大量引用,是由于人们认识到了其创新价值,之后更新的研究替代了这项研究,使得其引用增长在年与年之间会出现不均等,和所在领域该年总共发表了多少论文无关。一篇论文即使再有颠覆性,在现代科学枝繁叶茂的情况下,也不太可能引起该领域这一年发表的论文数目显著增加,即使有也只是特例而非趋势。

    但事实推翻了传统观念对论文被引用这一现象的描述,更合理的描述是:那些不引用已有经典高引用论文者,很难获得新的引用,成为经典。当许多论文在短时间内发表时,学者们被迫采用启发式方法来理解这个领域。认知负荷过重的读者,只处理与现有范式吻合的新研究,而不是根据特定研究的自身优点去评价其价值。一个新颖的想法,如果不符合现存的模式,将不太可能被出版,阅读或引用。

    进一步支持上述解释的事实是,某领域发表的论文越多,新论文越难以成为该领域被引用次数最多、广为人知的经典。新发表的论文,成为引用最高的千分之一那部分的概率,所需的时间,都随着领域发表论文总量降低。如图3所示:

    图 3

    图3:领域发表论文数(横轴)和发表论文成为引用数最高的千分之一的概率(a纵轴)及所需年份(b纵轴)的散点图当一个领域很小的时候,论文随着时间的推移缓慢地上升到前0.1% 的最常被引用,这对应的是科研共同体,缓慢聚集注意力的过程。相比之下,那些在论文发表量很高的领域,属于主流研究范式的论文,很快就登上顶峰,这与学者们通过阅读他人研究中引用的参考文献,而发现新作品的累积过程不一致。

    图 4

    图4:图a红色/蓝色分别对应继承性/颠覆性所占比例(纵轴)和该领域该年发表论文总数(横轴)的散点图。图b是每年发表的论文,其颠覆性指数能达到平均来看最大的5%的概率(纵轴)和该领域该年发表论文总数(横轴)的散点图。根据吴令飞、王大顺、James Evans等人2019年的论文[1],可以针对每篇论文,计算其颠覆性指数。图4指出,当每年1,000篇论文发表时,颠覆性论文(D>0)所占比例为49%。当发表10,000篇论文时,颠覆性论文的预测比例下降到27% ,100,000篇论文则下降到13%。当每年发表10000篇论文时,论文是最具颠覆性的5%的比例从1000篇时的8.8% 降至3.6% ,而每年发表10万篇论文时没,该比例则只有0.6% 。

    3. 总结和展望可能的改进方法

    最近的证据表明[2],现在需要更多的研究努力和资金才能产生类似的科学收益ーー生产率正在急剧下降。我们是否因为陷入过度内卷的研究领域,而错过了有潜力的新科研范式?对于这些问题,该研究的发现可以给出部分回答,具体可总结为以下六点:

    与一个领域每年只发表很少的论文相比,当这个领域每年发表很多新论文时:

    1) 新的引用更有可能引用被引用次数最多的论文,而不是引用次数较少的论文;

    2) 被引用次数最多的论文的名单每年都会发生很小的变化ーー经典僵化;

    3) 一篇新论文最终成为经典的可能性会下降;

    4) 确实进入被引用次数最多的论文的新论文不会通过逐渐累积的传播过程进入这个行列;

    5) 发展现有科学思想的新论文的比例会增加,破坏现有思想的比例会减少;

    6) 一篇新论文成为高度破坏性论文的可能性会下降。

    这些发现,对于当前科学的发展方向,是令人不安的。如果在短时间内发表了太多的论文,新的想法就不能与旧的想法进行仔细的比较,累积优势的过程就不能选择有价值的创新。具有讽刺意味的是,当今科学事业的“越多越好”、“量化评估”的本质,可能会阻碍已成熟领域的革命性变革。期刊数量的激增,论文预印和在线开放阅读的流行,导致期刊层次结构的模糊可能会加剧这一问题。

    需要注意的是,由于知名学者通过以领域为中心的阅读清单、教学大纲和课程顺序,将他们对世界的认知观传递给学生,领域界限通过晋升和奖励的职业塑造模式,会自然而然的得到强化。这意味着该研究的结论,不应该被过渡推广。例如即使某领域被引用次数最多的文章保持不变,进步可能依然存在。就像尽管《分子生物学》中被引用次数最多的文章发表于1976年,并且自1982年以来,每年都是被引用次数最多的文章,但人们很难说这个领域已经停滞不前了。

    减少论文数量,出版物的数量,关闭期刊,关闭研究机构,减少科学家的数量,这些都是不可行的措施。在不改变其他激励措施的情况下限制文章数量,可能会阻碍新颖、重要的新观点的出版,从而有利于低风险、属于现有研究范式的论文。

    而在学术如何进行、传播、消费和奖励方面的一些改变,可能会有所帮助。一个更清晰的期刊等级结构,以及最有声望、最受欢迎的出版社,将版面专注于那些不那么主流的研究,可以培养颠覆性的学术研究,并将注意力集中在新颖的想法上。改变奖励和晋升制度,避免采用基于数量的衡量标准,重视更少、更深入、更新颖的贡献,可以减少争夺某个领域注意力的论文数量,同时鼓励不那么符合现有研究范式、更具创新性的工作。

    一个被广泛采用的衡量新颖性的标准,相对于传统的h-index,可以被用来衡量研究者的学术水平。新指标会促使未来的研究人员更好地理解那些不那么扎根于既定准则的令人不安的新奇想法。例如圣塔菲研究院的Stefani提出的Epsilon 指数,其中的希腊字母 ε 象征统计学中的残差[3]。

    这个新的指标考虑了研究领域中的许多差异,以提供一个更公平的比较。作为一个现成的应用程序,可以免费使用ーー只需为来自谷歌学术等开源数据库的研究人员样本输入一些数据,就可以得出结果。这样就可以对处在职业生涯的任何阶段的研究人员,在同等规模的各个学科(包括跨学科研究)进行更加公平比较,以激励更多的颠覆性创新。

    参考文献:

    [1] Wu, Lingfei, Dashun Wang, and James A. Evans. “Large teams develop and small teams disrupt science and technology.” Nature 566.7744 (2019): 378-382.

    [2] Bloom, Nicholas, Charles I. Jones, John Van Reenen, and Michael Webb. 2020. “Are Ideas Getting Harder to Find?” American Economic Review, 110 (4): 1104-44.

    [3] Bradshaw C J A, Chalker J M, Crabtree S A, et al. A fairer way to compare researchers at any career stage and in any discipline using open-access citation data[J]. Plos one, 2021, 16(9): e0257141.