您的购物车目前是空的!
作者: deepoo
林辉煌:贫困的能力结构——一个解释框架
中国的脱贫攻坚战,到2020年已经进入尾声。但是,作为一个社会问题,贫困尤其是相对贫困依然会以各种形态存在于2020年之后的中国社会。如何巩固脱贫攻坚战的既有成果、预防返贫及新型贫困形态的产生、有效治理相对贫困,是2020年之后贫困治理工作的关键所在。为此,我们必须从既有的扶贫经验出发,进一步在理论层面上厘清贫困的属性与生产机制。
一、收入、消费与贫困
学界在界定贫困问题的时候,一般都是围绕收入展开的。然而因为被调查者倾向于隐藏自身的真实收入,导致收入的测算有可能被低估。因此一些学者提出,采用消费/支出变量来测量贫困状况更为真实可靠。以消费为变量,可以对贫困进行不同的分类:在所有时间内都保持低消费的是持久性贫困,由于消费的跨期变动而导致的贫困为暂时性贫困,由于平均消费持续低迷的是慢性贫困。也有学者结合收入和消费两个变量重新理解贫困的类型,将家庭的收入和消费都低于贫困线标准的状态称为持久性贫困,将家庭的收入低于贫困线而消费高于贫困线的状态称为暂时性贫困,而将家庭收入高于贫困线、但是消费低于贫困线的状态称为选择性贫困。根据消费来测量贫困可能存在两个问题:第一,收入低于贫困线而消费高于贫困线的家庭,不一定是因为既有资产较多,也有可能是通过举债来消费,其自身的真实消费能力不一定很高;第二,收入高于贫困线而消费低于贫困线的家庭,如果消费是可以自行控制的,仅仅是因为生活习惯或宗教习惯而保持低消费水平,那么就没有理由将其视为贫困户。
以收入指标为基础,我们可以进一步讨论贫困的属性。绝对贫困理论认为,贫困是一种客观的存在,而不仅仅是比较(相对)的产物或想象(主观)的产物。当家庭的可支配收入不足以维持家庭成员身体正常功能所需的“最低”或“基本”数量的生活必需品集合(主要包括食品、衣服等),这种生计资源的匮乏状态就是一种典型的绝对贫困,亦即生计贫困。生计贫困的概念始于20世纪初期,用来描述一个家庭难以生存的绝对困境。从生物学的角度来看,维持生存需要最基本的营养条件,而这些营养条件是可以精准测量并转化为基本的收入指标。到20世纪中期,考虑到贫困家庭的社会需求和人力资本积累的需要,诸如公共卫生、教育和文化设施等社会保障内容被加入绝对贫困的收入测度中,由此产生了基本需求的概念。所以,作为真实存在、触手可及的贫困,一般被描述为家庭基本需求的匮乏,人们可以利用绝对贫困线来测度贫困的广度和深度。大致而言,家庭基本需求包括食物、穿戴等基本生存需求,以及基础教育、基本医疗、基本住房等基本社会需求;贫困所描述的正是家庭可支配收入低于家庭基本需求成本的一种状态。
根据家庭基本需求的成本,可以合理确定贫困线的水平,具体方法包括预算标准法、食物支出份额法、马丁法和食物-能量摄取法等。从现有贫困线的确定方法来看,主要依据的是食物支出,强调食物在维持家庭成员身体能量的作用是贫困线确定的基础。虽然非食物支出在贫困线的确定过程也被考虑进去,但是基本上都属于家庭基本生存需求,至于教育、医疗、住房等基本社会需求的成本则较少在贫困线的确定中得到充分反映。换言之,官方的绝对贫困线标准常常低于实际的家庭基本需求成本。
如果说绝对贫困测量的主要是家庭收入无法满足基本需求的一种匮乏状态,那么相对贫困测量的主要是社会的不平等;相对贫困不再基于基本需求,而是基于社会比较。如果所有家庭都能够实现其基本需求,那么还存在贫困问题吗?相对贫困理论要回答的就是这个问题。根据该理论,那些在物质和生活条件上相对于他人匮乏的状态就是相对贫困。相对贫困关注的不仅仅是物质条件在客观上的差异,还有因为这种差异所可能带来的社会排斥与相对剥夺感。经济发展所带来的贫富差距的扩大,以及这一差距所带来的严重的社会和政治紧张局面,对社会凝聚力具有极大的破坏性。贫富差距剧增以及相对贫困的形成,实质上是整个社会资源分配不平等所导致的相对窘迫状态。
相对贫困的测量,一般以相对贫困线为标准。而相对贫困线的制定方法主要有以下四种:第一种是预算标准法,即由专家所研究的贫困群体的代表根据社会认可的生活水平制定的收入贫困线;第二种是社会指标法,即通过计算群体成员的剥夺程度、依据收入和剥夺程度的关系来计算贫困线;第三种是ELE法(extended linear expenditure system),即以拓展线性支出系统为理论基础制定的贫困线;第四种是收入法,即以社会收入集中趋势的一定比例作为相对贫困线,如均值和中位数,比如世界银行认为只要是低于平均收入1/3的社会成员即可视为相对贫困人口,欧盟则将收入水平位于中位收入60%之下的人口归入相对贫困人口。
前文的讨论主要涉及贫困问题的两个层面,即贫困的客观性问题和贫困的测量指标问题。关于贫困第三个层面的讨论是如何测量总体贫困,即如何对穷人进行“加总”,这是制定减贫政策的必要前提。
对穷人的“加总”,就是把对个别穷人的描述变成某种贫困的测量。流行的做法是,先计算穷人人数,再计算穷人人数相对于社会总人数的比率。这种数人头的方法(head-count measure)实际上测度的是贫困发生率,这在阿玛蒂亚·森看来至少存在两大缺陷:第一,没有考虑穷人收入低于贫困线的程度(贫困深度),在不影响富人收入的情况下,整体穷人的收入减少并不会改变对穷人的人数度量;第二,对穷人之间的收入分配不敏感,尤其是当收入从一个穷人向富人转移时,穷人的人数度量也不会增加。以贫困发生率为基础制定出来的减贫政策,往往导致扶贫资源分配上的“劫贫济富”效应。因为这一类减贫政策的评价标准主要是降低贫困发生率(减少贫困人口数量),而实现该目标最有效的方式就是集中资源优先扶助那些收入接近贫困线的较“富裕”的贫困人口,忽视最贫困的人口。
为避免上述问题,总体贫困的测度应当包含三个维度,即贫困广度(贫困人口数相对于总人口数的比率)、贫困深度(贫困人口收入与贫困线之间的差距)、贫困强度(收入在贫困人口间的分配)。利用森构建的公式,即为P=H{I+(1-I)G},P是总体贫困度量,H是贫困人口比率,I是收入缺口比率,G是穷人之间收入分配的基尼系数。Sen指数确立了贫困指数研究的基本框架,后续的研究者虽然提出很多其他指数,但是除了SST指数(Sen-Shorrocks-Thon)和FGT指数(Foster、Greer & Thorbecke)外,在测量性能上明显超越Sen指数的几近于无。SST指数克服了Sen指数在连续上的不足并消除了Sen指数在转移公理上的局限性,而FGT指数对贫困深度的反映更直接、更细致,且拥有Sen指数和SST指数所没有的加性分解性(Additive decomposability axiom)。
无论是Sen指数,还是SST指数和FGT指数,都是在一个特定时间点静态地度量家庭的贫困状况,而没有将家庭的未来福利或风险因素考虑进去。针对这个问题,近年来兴起了有关贫困脆弱性的研究,揭示了非贫困家庭陷于贫困的风险可能性。从这个意义上讲,贫困脆弱性是一种前瞻性的测量,测度的是家庭暴露于未来风险而给家庭生存发展可能带来的影响。
实际上,贫困脆弱性的理论需要解决两个层面的问题。第一是贫困的本质问题,即回答未来的贫困是什么?在这一点上,贫困脆弱性与收入贫困并无二致,都是将贫困界定为家庭收入无法充分满足家庭基本需求的一种匮乏状态或相较于其他社会成员的相对匮乏状态。第二层面的问题,就是研究可能导致未来家庭陷于贫困的风险因素,本质上就是对致贫因素的研究。在这一点上,贫困脆弱性的研究开启了下一节有关资产和能力的研究。
二、资产、能力与贫困
上一节主要讨论贫困的属性问题,即个体贫困的识别指标、贫困的客观性以及总体贫困的测度。这一节将从既有的资产理论和能力理论入手,讨论贫困生产的机制。
资产理论认为,资产的匮乏是贫困之所以发生的根源。我们应当超越以前那种将减贫政策集中在收入和消费基础上的做法,更多关注储蓄、投资和资产的积累,建立以资产为基础的福利政策,寻求社会政策与经济发展的有效整合。以资产为基础的政策设计,不仅仅是针对家庭,而且也针对社区。
资产理论相信,建立以资产积累为核心的社会政策,比紧紧盯着收入的政策更有利于促进经济社会的发展,从长期来看,一种投资驱动的经济要远优于消费驱动的经济。拥有资产被认为能够改善经济稳定性,将人们与可行有望的未来相联系,有助于中产阶级的形成和壮大,培育能够进行财富积累、长期思维、具备积极的公民性的现代家庭。英国于2005年建立了儿童信托基金,赋予所有在英国出生的新生儿一份个人存款账户,而且对低收入家庭给予了更多的补助,这是全球第一个全民性的(所有儿童)、进步性的(穷人获得更多补助)、以资产为基础的社会政策。新加坡的中央公积金则是全世界内容最丰富的以资产为基础的社会政策。
我们可以将收入和资产置于同一个连续统的两端,收入的关键尺度是稳定性,资产的关键尺度是限定性,收入和资产在连续统的中间几乎会合——一种稳定的权利收入在很大程度上相当于一种完全限定性资产。私人或公共来源的权利收入是最稳定的收入,比如基于残疾或孤寡的补贴。完全限定性资产由个人拥有,但是个人不能直接占有这些资产,比如退休养老金。个人退休账户,则属于部分限定性资产。对所有形式的金融证券、房地产和其他资产的投资,属于非限定性资产。(见图1)
图1 收入与资产的连续统 资产在形态上包括有形资产和无形资产,它们共同构成了家庭收入的来源。有形资产主要包括货币储蓄、不动产、机器、家庭耐用品等。无形资产主要包括享有信贷、人力资本、文化资本、非正式社会资本或社会网络等。
作为影响收入的关键因素,资产的分布状况在很大程度就决定了贫困的分布状况。一般来说,资产不平等的国家,其收入不平等的情况通常也比较严重。在发展中国家,收入不平等的一种重要关联因素是土地分配的不平等。自然资源的贫乏或开发利用不足,在很大程度上造成了区域性的贫困;低水平的人力资本,则使得贫困人口几乎被锁定在一个经济社会低度发展甚至停滞的恶性循环之中。
由此可见,资产的多寡可以解释家庭可支配收入的来源。但是,资产理论作为贫困生产的解释机制,也存在不足之处。经验表明,对于权利和能力缺失的人群而言,即使拥有房子和土地等资产也不一定能够确保其过上富足的生活。这意味着存在一个权利结构和能力结构的问题,它们的缺失很可能会影响资产的收入转化率。所谓“能力”,看起来似乎与资产理论中的政治资本和部分人力资本、社会资本类同,然而在阿玛蒂亚·森看来,这些都属于个人资源的范畴。森的能力理论认为,所有资源都还存在一个转化的问题,而转化率受到权利和能力整体设置的影响。也就是说,资源和能力应作为两个理论范畴区分开来。按此分析,对资产与贫困关系的解释并不具有必然性,最后往往要回到能力的问题上。
正是基于对以资源(尤其是收入)为基础的减贫政策的不满,森提出了能力贫困的概念。在他看来,贫困必须被视为是一种对基本能力的剥夺,而不仅仅是收入低下;贫困应当被视为达到某种最低可接受的目标水平的基本能力的缺失;换言之,贫困并不是个体福利少,而恰恰是缺少追求个体福利的能力;如果我们只关注收入的多少,那么剥夺的程度就可能被低估,因此有必要明确引入能力缺失的概念。如果我们将能力作为贫困的属性来理解森的能力理论,很容易陷入过度抽象化以致于难以测量贫困的困境之中;在这里,森的能力理论存在解释层次错位的问题。为避免这一问题,我们可以从贫困生产的角度来从新解读森的能力理论,即把能力的匮乏视为贫困产生的原因而非贫困的属性。这样一种解读方法不仅不会减损森的理论贡献,而且能够使其能力理论的论述层次更为清晰。
森的能力理论包含着一对关系紧密的概念,“生活内容”和“能力”。“生活内容”既包括最基本的生活内容,如获得良好的营养供应、避免那些本可避免的死亡和早夭等;也包括更为复杂的成就,如获得自尊、能够参与到社会活动中等等。而与“生活内容”概念密切相连的是可实现生活内容的“能力”概念,它表示人们能够获得的各种生活内容(包括某种生存状态与活动)的不同组合,反映了人们能够选择过某种类型的生活的自由。这些“生活内容”,在很大程度上可以视为“家庭基本需求”;而“能力”则是家庭基本需求能否得到满足的原因。
受到森的能力贫困理论的影响,联合国在1997年《人类发展报告》中提出一个度量贫困的新指标,即“人类贫困指数(HPI:Human Poverty Index)”。根据人类贫困指数,在发展中国家,贫困是由未存活到40岁的人的百分比、文盲率、缺乏保健服务和安全饮用水的人所占的百分比,以及5岁以下的儿童体重不足的人所占的百分比来衡量的;发达国家则是由未存活到60岁的人的百分比,功能性文盲率、收入低和长期失业来衡量。2000/2001年世界银行的《世界发展报告》也吸收了能力贫困概念,将贫困定义为福利被剥夺的状态,它不仅指收入地位和人力发展不足,还包括人对外部冲击的脆弱性,以及缺乏发言权、权利被社会排斥在外。
从相对贫困的角度来看,贫困的本质是一个不平等的问题,贫困的治理则是对平等的合理恢复。在很大程度上,收入和资产的平等分配都可以归结为德沃金的资源平等问题,与此相对应的则是森的能力平等,这是针锋相对的两种平等理论。两种平等理论的分歧在于:第一,资源平等关注的是个人所拥有的资源是否平等,而能力平等关注的则是资源转化能力是否平等。第二,资源平等主张排除原生运气对分配的影响,使人们在非人格资源(如土地、房屋等)上达到平等,并对人格资源(健康、才能等)处于不利地位者进行补偿;能力平等认为不仅应该关注资源的分配问题,更应注重由社会环境以及偏见等因素所造成的不平等。第三,资源平等对人际相异性的问题视而不见,而能力平等则强调人际相异性的重要。大略而言,资源平等更为关切的是程序上的平等,只要对资源进行最大限度的平等配置(包括对初始条件不平等的弥补)即可,至于资源本身的使用效果则无需予以考虑;能力平等则更强调实质平等,因此要关注资源转化(为自由)的能力是否平等,以及由于社会结构本身的问题所可能造成的不平等。
能力理论对贫困产生的原因做出了深刻的分析,贫困的治理不仅仅是资源能否平等配置的问题,更是资源能否平等转化为“生活内容”亦或“自由”的问题。但是,森的能力理论也存在自身的困境。第一,能力的概念过于抽象,没有明确具体的内容,这在一定程度上降低了该理论对具体贫困问题的解释力以及在具体政策制定中的指导意义。第二,森的能力理论不能有效解释家庭基本需求成本,因而无法全面解释贫困生产的机制。
三、贫困的能力结构
对于贫困生产的讨论,能力是一个关键的概念。为了克服森的可行能力理论所存在的问题,我们需要重构能力的理论框架,将能力概念操作化,同时引入社区和国家的视角,从而尝试对家庭基本需求成本的产生和控制作出解释。我们将改造后的理论称为“贫困的能力结构”,它不否定在贫困生产过程中个体主观能动性的作用,但是更为强调结构本身的决定性作用。引入新的主体之后,能力结构理论被操作为家庭能力、社区能力和国家能力三个层面,他们共同作用于家庭可支配收入和家庭基本需求成本,从而形塑了贫困的生产机制。之所以不把个体因素纳入能力结构体系之中,是因为个体因素在很大程度上取决于家庭能力的影响,个体是否聪明、健康、努力,最终都可以归因于家庭、社区和国家的结构性作用。
贫困的形成,首要原因在于家庭能力的匮乏,无法获得足够的收入来满足家庭基本需求。家庭能力主要包含知识能力、健康能力和交往能力等;家庭能力水平越高,家庭可支配收入越高。知识能力可以用家庭平均受教育水平(或家庭成员受教育的最高水平)来衡量。健康能力可以用家庭平均健康水平(营养、身高、寿命、患病情况等)来衡量。交往能力可以用家庭社会网络的规模来衡量。社会网络的规模越大,家庭的社会支持度越高,可以获得的资源(经济救济、工作机会)越多。知识能力、健康能力、交往能力既可能相互强化,在家庭资源有限的约束下,三者也存在竞争关系。例如,在家庭资源匮乏的情况下,投入教育的资源增多,意味着投入健康和社会交往的资源就会减少。
在现代国家建设中,社区能力的本质在于实现社区需求与国家资源的有效对接,从而为社区成员提供公共服务和公共品的能力。社区能够提供越多、越好的公共品,家庭的可支配收入就有可能得到提升,而家庭基本需求成本则有可能得以降低,从而减少贫困发生的可能性。社区能力可以进一步分解为三种能力,即表达能力、整合能力和执行能力。表达能力是指社区作为一个整体表达意见和需求的能力,可以通过表达人数和表达渠道来衡量表达能力的强弱。整合能力是指社区作为一个整体对不同意见、不同利益进行协商并使之达成一致的能力,可以通过协商次数和协商达成一致的次数来衡量整合能力的强弱。执行能力是指社区作为一个整体将社区公共意志落到实处的能力,可以通过治理钉子户的效果和公共品建设是否如期完成来衡量执行能力的强弱。社区的表达能力、整合能力、执行能力环环相扣,互相渗透。在社区公共意志的整合、执行过程中,实际上也离不开表达能力的基础性作用;而充分的社区表达,实际上也能起到一定的整合功能,社区执行能力的有效实现,在本质上就是对不同意见的再整合;充分的社区表达与有效的社区整合,最终将有利于推动社区公共意志的执行。
与社区能力类似,国家能力的核心功能在于有效提供公共产品,区别在于,在现代社会,由国家提供的公共品更为广泛、更具基础性。国家能力越强,能够提供越多、越好的公共品,一方面可以提高家庭可支配收入,另一方面可以降低家庭基本需求的成本。国家能力还可以具体细分为四种能力,即渗透能力、动员能力、统筹能力和治理能力。渗透能力是指政府自上而下投入人力、财力的能力,衡量标准是人力、财力的投入量和效果。动员能力是指政府动员人力、财力的能力,衡量标准是因政府动员而新增的人力、财力的数量和效果。统筹能力是指政府对既有资源进行优化配置、公平分配的能力,衡量标准是政府统筹既有资源的数量、效果以及统筹层级与统筹需求的匹配程度。治理能力是指政府与社会对接的能力,衡量标准是政府与社会互动的频率和效果。渗透能力、动员能力、统筹能力、治理能力构成统一的国家能力体系,缺少哪一方面,国家的公共品建设都不容易实现。渗透能力、动员能力、统筹能力分别涉及政府对资源的投放、筹集和配置,而这三个方面都离不开治理能力来沟通国家与社会的关系;而国家与社会良性互动的能力,则是在政府投放、筹集和配置资源的过程中逐渐形成与强化的。
贫困往往不是哪一种能力的匮乏单独造成的,而是在家庭能力、社区能力和国家能力的共同作用下产生的。因此有必要仔细分析这三种能力之间的相互作用。
家庭的教育水平、健康水平越高,交往能力越强,社区作为一个整体越有可能充分表达和整合不同意见,并且将形成的合作方案落到实处,从而推动社区公共品的建设。社区能力越强,越有可能将国家资源引入社区、形成公共产品,从而为提升家庭的教育、健康和交往水平提供条件。有些政府项目虽然已经到达村口,但是因为村民无法达成一致意见或者无法有效治理钉子户,结果导致项目进不了村,农民享受不了相应的国家资源。良好的社区能力,不仅能够带来公共产品的有效落地,还有助于抑制不合理的社会交往成本,使人情不至于异化。
家庭能力越强,越有可能与国家形成良好的互动,准确表达家庭发展的内在需求,使国家资源的投放更具针对性。换言之,现代化的国家建设,离不开现代化的家庭基础。而家庭能力的发展与积累,更离不开国家能力的支撑。国家对资源的筹集、配置与投放,是家庭享受良好教育和医疗条件的重要保障;减少医疗和教育方面的“非收入贫困”,公共部门进行有针对性的干预具有关键性的作用。从这个意义上讲,家庭能力的匮乏,本质上是国家能力不足的后果。
国家资源的投放要最大程度发挥效用,需要准确回应社会需求,这就离不开社区能力的作用。社区能力的本质在于搜集、整合、执行分散农户的需求,只有当社区能力足够强,方能将这些分散的需求整合起来并实现与国家资源的有效对接。离开社区,让国家直接与个体家庭打交道,既无效率也不现实。社区能力的发展与积累,也离不开强有力的国家支持。社区的功能就在于实现国家资源与社会需求的有效对接,如果没有国家资源的持续性输入,社区能力往往会逐渐萎缩。
作为能力结构的三个维度,家庭能力、社区能力、国家能力在贫困生产与治理过程中共同发挥作用。家庭能力的积累,很大程度上取决于家庭资源的配置模式。若家庭资源只够维持基本的生存需求,而没有更多的资源投入到教育、健康和社会交往上,那么家庭能力就不可能得到发展。因此,发展家庭能力,需要国家资源的有效介入,比如建立良好的教育系统、医疗系统、水利系统、社保系统等,将国家投放的教育资源、医疗资源、水利资源、社保资源等转化为家庭能力发展的资源,从而降低风险和冲击带来的影响、防止贫困的发生。然而,国家资源不可能直接渗透到家庭,这些资源需要通过社区这一中介发挥作用。换言之,家庭发展需要什么样的资源,只能借助社区的整合得以表达,从而实现需求与资源的对接;国家资源往往以公共品的形式发挥作用,而这些公共品要真正落地,也离不开有效的社区支持。
四、贫困治理与现代国家转型
贫困的形成,直接原因是家庭可支配收入不足以支付家庭基本需求成本。而低收入水平和高昂的家庭基本需求成本,从根本上讲是能力结构的缺陷造成的。国家能力、社区能力和家庭能力的不足,导致家庭成员一方面没有能力获得好的工作机会(从而获得稳定的收入),另一方面却要支付不合理的基本需求成本。从这个意义上讲,贫困治理应当聚焦于能力结构的进一步完善,从国家能力、社区能力、家庭能力三个维度出发,巩固既有的减贫成果,构建一套预防贫困、治理相对贫困及返贫问题的有效制度。
完善能力结构的过程,实际上也是现代国家的转型过程。现代国家的主要特征是,第一,国家能够提供有效的公共品建设;第二,良好的社会自治水平;第三,公民较高的国家认同。这三个特征分别反映了国家、社区和家庭的能力发展水平。
现代国家被要求承担越来越多的公共品建设职能,实现公共资源的有效配置和公平配置。配合这一职能的改革,是财税制度的集权化,越来越多的财税资源由政府(中央政府)掌控。这些资源的有效、公平配置,离不开强有力的国家能力。可以认为,国家能力是整个能力结构的核心,恰似整个经济社会建设的发动机。通过国家能力这一发动机,各项公共资源不断输入到社区和家庭,逐渐转化为社区能力和家庭能力。因此,贫困治理关键就看国家资源是否有效提升了社区能力和家庭能力。
现代国家不应是简单的、全盘官僚化的国家,更不是警察国家,由国家完全控制和按计划分配所有资源;现代国家的核心标志应当是国家资源(意志)与社会需求的有效对接。要实现这一对接,离不开社区的中介作用。如果说现代国家建设的宗旨是更好地造福于民众,那么国家能力的意义就在于将国家资源转化为家庭可持续发展的内生能力。而实现这一转化的重要媒介就是社区,通过社区能力这一转化器,分散的家庭需求可以整合起来对国家资源提出要求,国家资源也能够通过社区来准确回应家庭的需求。社区能力的积累,一方面要借助国家的资源,回应民众需求,另一方面也需要保持自身的主体性,而不至于演变成为国家官僚层级的一部分,或者是民众需求的简单传输器。社区能力建设的关键就在于能够实现民众与国家的有效对话,通过对话使双方学会合理妥协与良性合作的技能,共同完成公共品的建设。
现代国家,说到底就是现代家庭和现代公民。这意味着家庭应具备内生发展的能力,能够利用国家提供的各项公共品,提升家庭成员的受教育水平、健康水平和社会交往水平,并在这个过程中形成良好的现代国家认同。换言之,现代家庭不是简单地接受国家资源(等靠要),而是具备将这些资源转化为发展的能力。需要指出的是,家庭能力的积累,除了发挥主观能动性之外,更需要国家层面的政策制度设计和社区层面的有效整合机制。可以认为,贫困的生产首先源于家庭能力的不足,而家庭能力的不足则根源于社区能力和国家能力的不足。
总言之,贫困治理不应是简单的国家资源输入(到家庭),而需要建立家庭能力的积累机制;而家庭能力的有效积累,则离不开社区能力和国家能力的支持。减贫政策,不应简单地着眼于家庭收入表面的提升,而应当直接回应贫困的生产机制,致力于解决致贫的根本原因。换言之,减贫政策只有解决了贫困的原因,即推动家庭、社区和国家三层能力的持续积累,才能真正减少贫困、预防贫困。传统的减贫政策很大程度上只是一种临时性的、事后的补偿机制,无法通过能力建设来抵御贫困的风险。从这个意义上讲,能力结构的理论框架作为一个整体,既是理解贫困生产的关键,也是制定减贫政策的理论基础。当然,三种能力的水平在很大程度上受制于国家和地区的经济社会发展状况,能力建设本身也需要大量的资源投入。因此,应当历史地看待能力结构的问题,而不应急于求成;如何科学合理地布局家庭能力、社区能力和国家能力的发展,是另外一项值得深入探讨的课题。
本文转自《乡村治理评论》2024年第2期
R C Dieter:为了选票的杀戮:美国死刑存废背后的政法逻辑
我们不应该赞同承担着公正司法任务的人为竞选活动提供资金;也不应该认可那种仅为了讨好选民,就预测尚未走完流程的案件的结果或承诺裁决方式的行为。在竞选中承诺“严厉打击犯罪”或“执行死刑”是竞选人存在偏见的证据,应该使他们失去对刑事案件的审理资格。
美国联邦最高法院大法官
约翰·保罗·史蒂文斯
1996年
引言
死刑问题在政治选举中的渗透已达到新的极端,并扭曲了刑事司法系统。尽管利用死刑判决来获取政治优势并非新鲜事,但旨在加速处决的煽动性言论却变得更为普遍。不仅立法职位的候选人在竞选中高调谈论死刑,甚至法官和地方检察官也在竞选中提及他们送多少人上了刑场。这些负责解释和实施法律的人对死刑的政治化推广,干扰了公正听证的权利,并增加了无辜被告被处决的可能性。
许多挥舞反犯罪旗帜的人不仅主张死刑,还试图在扩大死刑适用范围、减少上诉和撤销对死刑犯辩护这些至关重要的方面据理力争。所以,尽管法官经常决定被告的生死,但只有在他们面临选举、任命或确认程序之前,不判处死刑的裁决才会被攻击为“对犯罪行为的软弱”。同时,检察官在追求死刑方面几乎拥有无限的裁量权,这使得他们有机会通过寻求死刑判决来展示自己“对犯罪行为的强硬”。
如果法官的裁决可能决定其在下次选举中的命运,那么即便他的裁决被认可且毫无疑问是正确的,宪法权威也必将受到严重侵蚀。
——美国大法官拜伦·怀特
死刑政治化对美国公民造成了巨大损害。本认为死刑无效的候选人不敢在竞选中发声;受人尊敬的法官在正确裁定某些死刑案件后因违宪被迫下台;死刑审判了成为法官和检察官的竞选表演。而死刑犯,虽有一些被证明是无辜的,但也有一些因被剥夺了听证或辩护的权利而丧失生命,可他们如果能接受公正审判是绝不会被判死刑的,这种现象的原因正是公正的上诉无法成为有力的竞选口号。
一、政治、法官与死刑判决
在美国,有38个州支持死刑,其中32个州的法官需要经过选举。(美国1996年数据)令人不安的是,遵循法律并推翻死刑判决的法官经常被认为是“对犯罪的软弱”。公众被鼓动的认知中,似乎任何妨碍死刑判决的行为都是一种侵害正义的“技术性”说辞。法官若遵循法律和宪法判决,可能会面临不利后果。
(一)选举法官被“一票”出局
在田纳西州,最高法院大法官彭妮·怀特是当时该法院唯一的女性,在1994年由民主党州长内德·麦克沃特任命。她在下级法院出色地任职了两年,她审理的绝大多数刑事定罪得到了认可。但在她审理的第一个死刑案件中,她与其他法官投票推翻了对理查德·奥多姆的死刑判决,因为根据她和其他三名法官的意见,根据田纳西州的法律,没有足够的证据支持奥多姆因强奸和谋杀被判死刑。
这给了田纳西保守联盟(Tennessee Conservative Union,田纳西州最大、历史最悠久的保守派组织,致力于影响税收和宪法问题)在1996年8月的司法选举中攻击她为死刑反对者的机会。怀特的对手,包括该州的共和党领导人,指责她“从未投票支持死刑定罪”(尽管这是她审理的第一个死刑案件),并声称她“想释放越来越多的罪犯,还嘲笑犯罪过程中的受害者”。田纳西州的两名共和党参议员公开宣布他们因怀特在这一案件中的死刑立场而反对她。共和党州长唐·桑德奎斯特在选举前宣布,除非他确定提名人支持死刑,否则他永远不会任命任何人担任刑事法院法官。在整个竞选期间,根据有关规定,怀特法官被禁止讨论奥多姆案以及发表个人法律观点。最终,她竞选失败,不再担任法官一职。显然,如果她违背初衷,投票支持处决理查德·奥多姆,她今天或许仍是法官。
在密西西比州,最高法院大法官詹姆斯·罗伯逊在1992年的一场罢免选举中被免职,其对手在选举中攻击罗伯逊在死刑案件中的裁决。罗伯逊甚至因认为强奸罪不适用死刑而受到批评,尽管这一立场是美国最高法院长期以来的既定裁决。针对罗伯逊大法官的宣传中,“投票反对罗伯逊,因为他反对死刑,还想放走罪犯。”
在德克萨斯州,法官查尔斯·坎贝尔在1994年因推翻一起死刑谋杀案而被投票赶出德克萨斯刑事上诉法院。坎贝尔法官在任12年,此前曾是一名保守的检察官。他的继任者斯蒂芬·曼斯菲尔德,一个曾因无证执业被罚款、几乎没有刑事法律经验的人,却因承诺支持更多的死刑判决,成为负责审查每一起死刑案件的法官之一,这使得得克萨斯州被处决的人数超过美国其他州。此外,法官诺曼·兰福德在1992年,因建议搁置一宗检察官办案程序违法的死刑案件被投票赶出州法院,而击败他的死刑检察官卡普里斯·科斯珀,曾在担任检察官期间,在办公室门上悬挂绞刑绳。
在华盛顿州,最高法院的一名高级大法官于1995年选择辞职,因为他“不愿再参与到一个在死刑案件中故意剥夺生命权的司法系统”。在辞职时,大法官罗伯特·乌特警告了法官选举过程中的政治化,由此,华盛顿州失去了一位在最高法院任职23年的受人尊敬的大法官。
在北卡罗来纳州,最高法院前首席大法官詹姆斯·埃克萨姆不得不参与一场竞选活动,以反击针对他死刑观点的抹黑行为。首席大法官埃克萨姆在确认死刑判决的裁决中明确表示,他不会让个人对死刑的看法干扰他维护宪法的义务。埃克萨姆首席大法官在选举中幸存下来,但表示“公众对死刑的呼声变得越来越尖锐”,即使偶尔推翻死刑判决,也会越来越难以生存。他宣布他不会在1998年连任,并表示他“很高兴不必再竞选”。他最终在任期结束前辞职。
(二)任命法官也面临压力
即使在法官任命不受选举约束的地方,政治也会将那些没有盲目效忠死刑的司法候选人排除在外。在克林顿总统任期初期,参议院共和党人就发出通知,他们将挑战其提名的司法候选人,因为这些人对死刑的投入不足。例如,佛罗里达州最高法院首席大法官罗斯玛丽·巴克特被提名为美国上诉法院法官时,她遭到了相当大的反对。尽管其在200多起案件中维持了死刑判决,但参议员奥林·哈奇仍想看看她“对死刑是否足够认真”。
巴克特虽然成功被任命为首席大法官,但死刑政治化仍在继续,那些曾经投票给她的人被指责对犯罪软弱。公开支持死刑的参议员黛安·范斯坦、爱德华·肯尼迪、吉姆·萨瑟和查尔斯·罗伯在竞选连任时因投票支持巴克特法官而受到攻击。萨塞尔失去了比尔·弗里斯特的席位,后者后来在将大法官彭妮·怀特从田纳西州最高法院赶下台的竞选活动中发挥了重要作用。
候选人迈克尔·赫芬顿用一则误导性广告抨击参议员范斯坦,广告上写着“范斯坦在受害者死后让杀手活着”。他的整版广告描述了三起案件中谋杀案的可怕细节,在这些案件中,巴克特大法官投票推翻了死刑,但没有给出需要推翻死刑的法律依据。
一个不祥的迹象表明,这种针对法官的政治攻击可能会在这个选举年尤甚,这发生在曼哈顿联邦地区法院法官小哈罗德·贝尔的裁决争议中。虽然不是死刑案件,但贝尔法官决定排除一些针对毒品被告的证据引发的愤怒引起了参议员罗伯特·多尔的弹劾呼声和克林顿总统要求辞职的暗示。贝尔法官最终改变了他对证据的裁决,然后完全退出了此案。
多尔参议员还抨击克林顿总统任命的两位最高法院大法官露丝·巴德·金斯伯格和斯蒂芬·布雷耶,称他们愿意利用“技术性问题”来推翻死刑判决。尽管多尔努力将这些大法官定位为处于死刑判例的极端,但法院大多数死刑案件都是一致裁决的。在刑事案件中,金斯伯格大法官在80%的时间里站在伦奎斯特、托马斯和苏特大法官一边。
(三)法官对自己地位的保护
由于法官受到政治攻击,一些法官不遗余力地表明他们“对犯罪并不软弱”。阿拉巴马州最高法院的民选法官不敢让公众误解他们的观点。他们最近自行实施了措施,以加快对死刑犯的处决。他们说,即使是那些还没有完成上诉的人,也会设定处决日期。然而,根据阿拉巴马州资源中心前主任布莱恩·史蒂文森的说法,这些囚犯中没有提出进一步上诉的原因是他们没有律师。
在处决人数第三多的弗吉尼亚州,法院还在迅速确定处决日期。定罪后的申请现在必须直接提交给弗吉尼亚州最高法院,自恢复死刑以来,该法院已经100%驳回了它在死刑案件中收到的人身保护令申请。以前,申请是向初审法院提交的,在那里可以举行证据听证会。现在,驳回上诉的决定是在提交申请书几周后发布的,没有听证会,没有口头辩论,也没有专家意见。提交的大量内容涉及复杂的法律问题,但法院在每个案件中都会迅速发出相同的驳回。弗吉尼亚资源中心现在没有联邦资金,但面临着大量等待执行的案件。由于工作人员耗尽,它必须赶紧向联邦法院提交申请,否则处决将在短时间内进行。
州法院不对死刑案件进行复核是不负责任的。过去20年中发现的大量无辜死刑犯和联邦法院发现的错误案件比例很高,这有力地表明死刑审判中正在犯下严重错误。今年通过的立法削弱了联邦法院在审查死刑案件中的作用。这使得州法院变得更加重要。否则,这些错误将永远不会得到纠正。
在加利福尼亚州,州最高法院颁布的死刑决定发生了彻底的转变,而死刑有关的法律没有发生任何变化。他们没有修改法律,而是发起了一场政治运动,以罢免最高法院首席大法官罗斯·伯德和两名助理大法官。在法院因法律缺陷推翻了一系列死刑判决后,他们被投票罢免。随着新任首席大法官的上任,加州迅速实现了全国最高的死刑案件确认率,在上诉法院审理的死刑案件中,维持了惊人的97%。相比之下,全国约35%的死亡案件在上诉中被推翻,是加州最高法院的10倍。
然而,在为加州的死刑犯寻找律师时,这个法院的记录是全国最糟糕的法院之一。该州超过四分之一的死刑犯,即128名囚犯,甚至在他们的第一次上诉中都没有得到律师辩护。
在北卡罗来纳州,由一位新任首席大法官和两名新任共和党大法官领导的该州最高法院对死刑案件置若罔闻。在1995年审查的24起死亡案件中,法院维持了所有定罪,只将一起案件发回重判。相比之下,在1993-1994年,同一法院下令对大约10%的死刑案件进行新的审判,对四分之一的案件下令重新判刑。
美国上诉法院第五巡回法院审理德克萨斯州、路易斯安那州和密西西比州这三个主要死刑州的案件。近年来,该法院一直由极端保守的任命人员主导。因此,虽然全国授予联邦人身保护令的比率约为40%,但第五巡回法院在其死刑案件中授予救济的比例不到5%。
二、民选法官通过推翻陪审团建议死刑判决
毫不奇怪,考虑到法官面临的政治压力,其判处死刑的概率远高于陪审团。这一现象长期存在,近期司法否决权的实践亦证实此点。
——约翰·保罗·史蒂文斯大法官
在九个保留死刑的司法辖区中,当死刑判决的终局裁量权由法官而非陪审团行使时,法官所承受的死刑决策政治压力尤为显著。其中八个辖区的法官须通过选举程序保持职位。
在四个由法官行使量刑权的司法辖区中,陪审团虽可先行提出量刑建议(体现最接近证据的公民群体对刑罚的判断),但该建议可被法官否决。具有显著政治倾向的民选法官往往更倾向于推翻陪审团的终身监禁建议而改判死刑,鲜有推翻陪审团死刑建议改判终身监禁之例。在佛罗里达、阿拉巴马和印第安纳三个实行法官再选制度的州,法官已在189起陪审团建议终身监禁的案件中改判死刑,而推翻陪审团死刑建议仅60例。阿拉巴马州尤为突出,民选法官推翻终身监禁建议改判死刑的比率是推翻死刑建议的十倍。唯一例外是特拉华州(该州法官不实行选举制),其七次陪审团建议否决均维持终身监禁。
在哈里斯诉阿拉巴马州案中,联邦最高法院以多数意见维持了法官无说明义务即可否决陪审团建议的司法实践。持异议意见的史蒂文斯大法官指出,民选法官易受公众复仇情绪影响,警告司法官员为谋求连任可能屈从于要求“严厉打击犯罪”的政治压力。当法官被赋予推翻陪审团终身监禁建议改判死刑的权力时,实质上破坏了美国宪政体制中精心设计的司法权制衡机制。史蒂文斯撰文强调:“考虑到法官面临的政治压力,其判处死刑的概率远高于陪审团。这一现象长期存在,近期司法否决权的实践亦证实此点。”
在分析民选法官偏好死刑的动因时,史蒂文斯提出“高阶权威”理论:“当代死刑案件法官可能过度响应的‘高阶权威’,实为一种迫使觊觎更高职位或仅求留任的法官不断宣誓效忠死刑制度的政治气候……在备受瞩目的死刑案件中屈从政治压力的危险,与效忠乔治三世的法官面临的危险如出一辙。”
(一)法院树上的绞刑索
佛罗里达州法官威廉·拉马尔·罗斯以死刑议题政治化著称。1972年联邦最高法院暂缓死刑执行期间,其通过在法院草坪树木悬挂绞刑索的具象化方式公开抗议该司法决定。当佛罗里达州恢复死刑制度后,罗斯法官迅速行使裁量权推翻陪审团一致建议——对存在饮酒后失忆症状的优等生兼运动员道格·麦凯改判死刑,该判决后被州最高法院撤销。
另一佛州法官理查德·斯坦利在雷利·波特死刑案审理期间,当庭展示指虎与枪械等暴力象征物。被问及能否亲自执行电刑时,其宣称:“只要获准在宣判后立即拔枪射其眉心,本人完全赞同该程序。”尽管陪审团基于被告人年轻且无重大犯罪记录全票建议终身监禁,斯坦利法官径行改判死刑。需特别指出,该法官在宪法要求的量刑听证程序(即展示量刑相关证据的法定环节)前已形成预判:“当陪审团作出有罪裁决时,本人已形成内心确信并据此量刑。”斯坦利近期更直言不讳:“坦率而言,本人对此毫不在意。”
法庭书记官杰里贝克近期作证称,斯坦利法官在波特被定罪前即预谋变更管辖至格莱兹县,其理由为:“此地民众公正开明……将依据证据定罪那个混蛋”,继而“送他上电椅”。该证据披露导致波特死刑执行令暂缓,再审程序现处待决状态。
阿拉巴马州法官罗伯特·李·凯在沃尔特·麦克米兰案中,推翻陪审团基于证据薄弱提出的终身监禁建议,直接判处死刑。该案关键证人六年后承认伪证,若非阿拉巴马资源中心介入证明其无罪,麦克米兰恐怕已遭误杀。此案凸显了当黑人男性在南方小镇被控谋杀白人女性时,民选法官通过死刑判决进行政治表态蕴含的重大程序风险。
阿拉巴马州法官布拉克斯顿·基特里尔近期推翻陪审团对17岁边缘智力障碍者迈克尔·肖恩·巴恩斯的不得假释终身监禁建议,斥责其“凶残冷血,应与被害人遭受同等对待”。佛州塞米诺尔县法官罗伯特·麦格雷戈则通过“爆炸性指示”(即强制要求达成裁决的补充性陪审团指令)迫使陷入僵局的陪审团作出有罪裁决,继而推翻其终身监禁建议改判死刑。该案关键证人为求减刑的吸毒青少年,其证言经催眠引导“恢复”与被告关于抛尸地点的对话记忆。1996年因证人翻供导致定罪被撤销后,已退休的麦格雷戈竟欲重掌该案审理权。
(二)死刑导向的司法生态
即便在陪审团制框架下,主审法官仍可通过多重程序机制实质影响死刑结果:包括指定贫困被告辩护律师(如德克萨斯州频繁任命15案中12遭死刑判决的罗恩·莫克,以及当庭瞌睡的“闪电式”律师乔·弗兰克·坎农)、控制专家证人预算、限制审前动议等。休斯顿法官威廉·哈蒙更当庭宣称“处决被告系践行神旨”,并在法庭悬挂绞刑场照片,公然贬斥刑事上诉法院为“自由派混蛋”。部分法官以签署“笑脸”死刑令、将执行日设为书记员生日“礼物”等方式展现司法恣意。
加州“犯罪受害者联合体”等组织通过政治行动委员会资金推动罢免“低效”法官,其领导人哈丽雅特索拉诺强调:“法官应强制推进死刑审判进程”。司法选举中,候选人公然以“送多少杀手进死囚牢”(加州候选人约翰·奎特曼)、“刑事司法零容忍”(阿拉巴马法官鲍勃·奥斯汀)作为竞选纲领,路易斯安那最高法院大法官杰克·沃森更将死刑立场写入竞选文宣。
里州法官厄尔·布莱克威尔在审理非裔失业被告死刑案期间,通过签署新闻稿宣布转投共和党,称“民主党过度代表少数族裔、懒汉与非白人群体”,拒绝回避申请后判处被告死刑。阿拉巴马州法官迈克·麦考密克在司法选举前两周受理死刑案件,拒绝延期审理、回避申请及变更管辖请求,利用庭审曝光度赢得选举后立即作出死刑判决。
《1996反恐与有效死刑法案》通过强化州法官裁量权、限制联邦法院合宪性审查,使民选法官更易受政治周期影响。死囚申请人现难以获得非选举制联邦法官的独立司法审查,州司法程序的宪法性保障机制遭到系统性削弱。
三、以生命为筹码的政治博弈
我屈服于职位带来的威望与权力。我深知州长诉求:任何死刑案件不得提出宽宥建议。
——路易斯安那州赦免委员会前主席霍华德·马塞勒斯
死刑制度提供的政治机遇不仅作用于民选法官群体,更延伸至司法部长、检察官及州赦免委员会成员。此类政治竞争常导致灾难性后果。
(一)死刑执行的政治边缘策略
1996年1月,死囚罗伯特·比尔尚未提交联邦人身保护令申请。俄亥俄州政府却径行设定执行日期,联邦法官以”申请未正式递交”为由拒绝签发暂缓执行令。联邦第六巡回上诉法院于预定执行日前两日签发紧急暂缓令以保障程序权利。司法部长贝蒂·蒙哥马利却在执行前数小时向联邦最高法院提起紧急动议,蓄意制造“最后时刻危机”,动员全州筹备30年来首次死刑执行。
尽管本案尚未完成常规司法审查,蒙哥马利仍召开新闻发布会谴责“死刑执行迟滞”,坦承辩护律师极可能成功获得暂缓令。其甘愿以被告生命为赌注推行制度极限测试,实质系政治姿态展演。
司法部发言人马克·韦伯展现对正当程序与心理创伤的漠视:“该犯理当伏法,故执行判决无需顾虑。”其承认推动执行实属政治表演:“我们清楚制度现实——比尔极可能通过联邦上诉。”(前司法部长李·费舍尔1994年对约翰·伯德案采用相同“懦夫博弈”策略,两案被告至今仍在死囚监区)蒙哥马利在最高法院驳回其虚构上诉后坦言:”我们实现了传递政治信号的目标——将制度博弈空间压缩至极限。”
蒙哥马利进一步介入死刑上诉程序(打破俄亥俄恢复死刑16年来司法部长不干预传统),直接致电检察官称可代行死刑案件答辩职责。其推动的立法草案规定:凡被法院认定存在辩护失职的律师,终身不得承接死刑案件。俄亥俄最高法院首席大法官托马斯·莫耶斥之为“无的放矢的解决方案”——该州自恢复死刑以来尚无因辩护失职推翻定罪的先例。
前精神病患者莱昂·莫瑟虽表达伏法意愿,但其司法行为能力存疑。联邦法官签发行为能力听证暂缓令后,州司法部长成功上诉撤销暂缓令并抢在听证前执行。当法官试图通过监狱电话评估莫瑟精神状态时,州政府隐瞒死刑室座机存在,致电接通时致命药物已注入其体内。
蒂莫西·鲍德温案凸显赦免程序的系统性失灵。赦免委员会主席马塞勒斯在闭门审议中向州长法律顾问比尔·罗伯茨痛陈:“若赦免旨在施行仁慈,此案堪称最佳范例。”却被告知“州长不愿直面此类案件”。委员会最终全票维持死刑判决。马塞勒斯事后忏悔:“我缺乏依循良知的勇气,向职位附带的权力光环屈服。我深谙任命者的政治需求:所有死刑案件必须拒绝宽宥。”
(二)不惜一切代价执行死刑
尽管财政紧缩常为有效竞选策略,各州在死刑议题上却挥霍无度:
● 得克萨斯州单案成本超200万美元,休斯顿地区检察官约翰尼·霍姆斯公开宣称“成本与时间非追诉考量”;
● 加州拟追加年度预算2300万美元加速处决,叠加现有每年9000万美元死刑系统维护费;
● 佐治亚州科布县对已获四项终身监禁的弗雷德·托克斯再启死刑程序,预估耗资百万美元。
德克萨斯州2016年通过缩短上诉期限立法却拒付律师费,致全年处决数从19例骤降至3例(含2例放弃上诉者)。贝克萨尔县助理检察官埃德·肖内西批判:“立法者企图构建不支付对价的死刑制度。”
四、民选检察官在死刑案件中的关键作用
本判决认定:警方与检察官的行为系故意为之,具有恶意且令人发指。
——联邦法官肯尼思·霍伊特
检察官在死刑案件中享有广泛的自由裁量权:可决定是否寻求死刑或终身监禁、是否接受辩诉交易、是否动用全部政府资源支持特定起诉。民选检察官深知死刑审判将获得媒体高度关注,在选举临近时,死刑案件更成为获取免费宣传、塑造强硬形象的绝佳政治资本。
此类裁量权通常不受司法审查。只要案件符合最低标准,法院不得质疑检察官将特定谋杀案定性为死刑案件的决定。且一旦公开宣布寻求死刑,即便出现强有力的无罪证据,亦难以逆转程序。
(一)“枪上的权力标记”
部分检察官将死刑定罪数量作为权力象征进行标榜,其参与选举时深谙“打击犯罪过度严苛”的公众认知几乎无法形成。例如俄克拉荷马城地区检察官鲍勃·梅西在其竞选文宣中将”成功将44名谋杀犯送入死刑待决区列为首要政绩。
得克萨斯州哈里斯县地区检察官约翰尼·霍姆斯以死刑适用构建职业声誉。自1976年以来,其主导的死刑执行数量超过除得州外全美各州总和。该检察官办公室设有命名为“银针协会”的公示栏,详尽记录哈里斯县通过注射死刑处决的个案。
然而联邦法院近期一项死刑判决对霍姆斯办公室检察官的恣意裁量提出严厉司法批评。在撤销休斯顿市里卡多·格拉死刑定罪的裁决中,肯尼斯·霍伊特法官指斥执法机关与公诉部门:“调查所揭示的警察与检察官行为具有主观故意,存在恶意渎职,其性质构成严重司法失范。”其特别强调该公诉滥权行为的政治工具性,称其“系为实现定罪率提升与权力符号积累而进行的制度性设计”。
基于前乔治亚州地区检察官(现任法官)道格拉斯·普伦主导的死刑公诉策略,查塔胡奇司法区死刑待决人数居全州之首。但普伦通过程序异化实现定罪目标。其办公室近期被揭露不当干预乔治亚州哥伦布市刑事案件的法官分配机制。死刑案件被系统分配至普伦前任检察官出身的法官审理。此外,普伦任哥伦布市检察官期间,该办公室在死刑案件中83%的任意回避权针对非裔陪审员行使。当乔治亚州最高法院首席大法官提出强化死刑案件贫困被告人法律援助计划时,普伦将其斥为“对死刑制度的系统性破坏”。
普伦就任法官后持续推行死刑扩张政策。亚特兰大奥运会前接受采访时,普伦法官宣称:“伤害我治下民众者必遭严惩。不得假释的终身监禁是司法软弱的象征,是制度性缺陷的体现。”
担任检察官期间,普伦成功对智障非裔被告人杰罗姆·鲍登求处死刑。智力障碍者在自我辩护中常常表现出能力缺失、庭审中情绪表达失当,且对公诉机关表现出非常规配合,此类因素系统性的提升了死刑定罪概率。IQ值59的鲍登被处决引发乔治亚州司法声誉危机,促使该州通过立法禁止对智障者适用死刑。但普伦明确表示若再遇同类案件仍将坚持死刑诉求。
普伦近期获任乔治亚州高等法院新设法官职位。查塔胡奇司法区四位高等法院法官中,穆林斯·惠森特与威廉·史密斯均通过办理重大死刑案件获得司法任命。史密斯竞选法官期间,其最大单笔政治献金(5000美元)来自其经办死刑案件中被害者家属。
肯塔基州联邦检察官欧内斯特·贾斯敏因对三一高中双尸案凶手成功求处死刑确立职业声望。其以“三一检察官”名义开展竞选活动,在中学报刊投放广告并频繁携被害者家属参与造势。
内布拉斯加州总检察长唐·斯坦伯格采取非惯例操作,在最高法院案情摘要中附加个人信函,要求处决其称为“持续对受害人家属显露蔑笑的残暴凶手”哈罗德·奥特伊。在公开推动奥特伊死刑执行的同时,斯坦伯格以决策者身份参与赦免听证会,其幕僚向听证会陈述官方版犯罪事实。
(二)不受制约的裁量权
系统性推进死刑公诉的检察官鲜少遭遇制度性制约。马里兰州巴尔的摩县州检察官桑德拉·奥康纳与费城地区检察官林恩·亚伯拉罕均声明对符合形式要件的案件一律适用死刑。但相应州长均未对其法律滥用或死刑激进主义采取问责机制。而当纽约布朗克斯地区检察官罗伯特·约翰逊对重大袭警案死刑适用持审慎态度时,州长以其“违反死刑法强制性规定”为由启动公诉权紧急接管程序。
约翰逊虽未明示绝对死刑废止立场,但认为此类公诉蕴含不可接受的误判风险。纽约州立法未设定死刑强制适用条款,裁量权完全赋予检察官。约翰逊在选区民众充分知晓其死刑立场情况下高票连任。州长指定狂热支持死刑的总检察长丹尼斯·瓦科接管案件并决定是否对凯文·吉莱斯皮警官遇害案适用死刑。瓦科选择死刑求刑的决定符合预期。
该案以悲剧告终:被告安赫尔·迪亚兹在赖克斯岛拘留所疑似自杀身亡,未及进入审判程序。州长帕塔基在获悉被推定无罪且处于国家监护的个体死亡后,作出冷酷表态:“安赫尔·迪亚兹系暴力罪犯,其死亡方式与犯罪本质相符。我为凯文·吉莱斯皮之死致哀。”
伊利诺伊州助理总检察长玛丽·肯尼因拒绝推动对无辜者执行死刑而辞职。总检察长要求其继续抗辩罗兰多·克鲁兹的上诉,尽管存在他者认罪及大量无罪证据。肯尼选择离职,而两次在压倒性无罪证据前坚持起诉克鲁兹的詹姆斯·瑞安晋升州总检察长。伊利诺伊州最高法院最终撤销克鲁兹定罪,重审宣告无罪。(其同案被告亚历杭德罗·埃尔南德斯亦经死刑判决后被撤销定罪释放)。
五、围绕犯罪议题的政治煽动加剧死刑滥用
犯罪议题的政治修辞遮蔽了理性辩论空间,围绕死刑的夸张表述突破了基本限度。作为《美利坚契约》中“有效死刑法案”的原始提案者,纽特·金里奇近期重返佐治亚州推动毒品走私者强制死刑立法。任何走私商业数量级毒品入境者将面临死刑。金里奇设想象征性处决——单次集体处刑35人,以形成威慑效应。其在雅典市筹款晚宴宣称:“出于对儿童的充分保护,我作出决策:实施此类犯罪者必处极刑。”为实现程序简化,其同时主张废除此类案件多数上诉权。
新墨西哥州长加里·约翰逊近期提出将死刑适用年龄降至13岁。其同时向慎用死刑的法官发出隐性警示,称死刑裁量权虽属司法范畴,“但需由选民对法官履职表现进行政治评估”。
部分政客将死刑作为攻击政治对手的工具,即便对方坚持强硬死刑立场。阿拉巴马州总检察长杰夫·塞申斯以支持死刑著称,但共和党参议员候选人西德·麦克唐纳仍借塞申斯认同州刑事上诉法院正确裁决之机发动攻势。该院认定初审法院适用死刑的标准超出本州死刑法定要件,一致裁决要求撤销死刑判决。麦克唐纳在竞选广告中无视法律逻辑:“谋杀即谋杀,任何法律技术细节无法改变本质。作为参议员我将捍卫被害人权利而非罪犯权利。”
内华达州总检察长弗兰基·休·德尔帕帕指责联邦上诉法院“对死刑存有制度性偏见”,理由是本州案件审查耗时过长。但其刻意回避司法责任——总检察长办公室因未及时回应诉状导致程序迟延。迈克尔·格里芬法官指出托马斯·内维厄斯案中,“1989至1994年间总检察署完全未履行职责”。
加州总检察长丹·伦格伦将死刑作为政治募资工具,其赴华盛顿推动立法压缩死刑案件上诉程序。使用官方信笺的募款函将上诉制度称为“刑事司法体系漏洞”。伦格伦为展示死刑立场不择手段,近期发布失实新闻稿谴责公设辩护人向死囚赠送饼干与运动鞋,实则担忧本已放弃上诉权的被告可能启动联邦司法审查程序脱离州司法控制。
南卡罗来纳州总检察长查尔斯·康登通过死刑议题介入国家政治。其主导国会撤销死刑案件资源中心全部拨款,既剥夺法庭对手的辩护资源,又塑造反对死刑上诉的斗士形象。尽管资源锐减可能导致司法系统迟滞与政府成本激增,康登等人仍以牺牲司法秩序为代价攫取政治资本。
政客深谙利用公众恐慌巩固支持之道。亚利桑那州众议员莱斯利·约翰逊(梅萨市共和党籍)在尤马市恶性犯罪后立即提议对儿童性侵者适用死刑。其在议会宣称速效方案:“通过死刑彻底清除性犯罪者。即使存在误判,我愿承受比例代价——毕竟儿童安全高于一切。”
犯罪议题政治化导致政府各层级(尤其司法系统)系统性排斥死刑反对者。单一立场即可引发政治放逐,即便候选人资质卓越。当今若小马丁·路德·金、大法官布伦南、马歇尔与布莱克门在世,恐难获联邦司法任命。司法机构与民选官员体系几乎彻底清除少数派观点持有者。全国公共广播电台甚至因参议员罗伯特·多尔与执法团体施压,撤销死刑犯视角的系列节目。
1988年威利·霍顿事件引发社会恐慌后,比尔·克林顿1992年暂停竞选活动,亲自主持阿肯色州脑损伤囚犯注射死刑,清晰表达了死刑立场。入主白宫后推动联邦死刑适用范围扩至六十项罪名(含非致死性犯罪),签署预算案撤销死刑资源中心资助,支持可能阻断死囚联邦司法救济的”反恐法案”。克林顿总统确立亲死刑政策框架后,鲍勃·多尔通过加州圣昆廷监狱(全美最大死囚区)摆拍造势,呼吁弹劾联邦法官哈罗德·贝尔并加速死刑执行。克林顿发言人即刻回应称总统同样支持大幅削减死囚联邦上诉权,避免在犯罪议题上示弱。
死刑上诉制度整体沦为政治表演舞台。最新操作模式表现为:借反恐之名组织俄克拉荷马城爆炸案幸存者及家属,为限制死刑案件联邦审查造势。当法案中更具争议性的反恐条款遭弃后,连支持者都承认“死刑制度改革才是法案核心”。
未明言的是:人身保护令制度修改与反恐毫无关联。且俄城爆炸案属联邦管辖,本不涉及联邦法院审查州法院裁决。经精心策划的立法推动运动,媒体选择性忽略部分爆炸案家属反对仓促行刑的立场。
六、宽恕:州长在罪犯垂死前的姿态
死刑程序的最后一步是由州长考虑是否给予宽恕。然而,由于近年来这一程序变得高度政治化,宽恕的授予变得极为罕见。在过去四年中,全国范围内每年仅有一次减刑。在本世纪早期,大约有20%的死刑案件会获得宽恕。但近年来,很少有州长在任期内有勇气批准哪怕一次宽恕。
近年来,支持死刑的州长们没有选择宽恕,而是采用了一种最受欢迎的技术——人为加速签署死刑执行令。对于一个渴望更快执行死刑的选民群体来说,签署执行令的方案有几个好处。首先,它给人一种死刑程序正在加速的印象。其次,它使州长能够在“强硬程度”上与前任进行数字上的比较。第三,当死刑执行令不可避免地无法以签署的速度执行时,州长可以将责任归咎于法院或辩护律师,称其为“真正的问题”。
这种对刑事司法系统的操纵不仅仅具有政治影响。死刑执行令会使法律系统陷入混乱。即使在提出上诉之前,也必须争取暂缓执行。这在一个已经复杂的过程中增加了更多的层次。如果执行令的数量过多,可能没有足够的律师来处理突然激增的诉讼。没有律师代表的被告很容易被忽视,并在没有法律代表的情况下被执行死刑。1989年,由首席大法官伦奎斯特任命的委员会在研究死刑上诉时强烈建议,此类审查“应不受即将执行的时间压力影响,并应在有能力的律师协助下进行……”
佛罗里达州的鲍勃·马丁内斯擅长以执行死刑相威胁,他在四年内签署了139份死刑执行令,是其前任鲍勃·格雷厄姆的两倍,也是下一任州长劳顿·奇利斯的许多倍。马丁内斯经常一次签署五份执行令,且常常不按时间顺序。他在自己送上电椅的死囚形象前进行竞选活动。然而,在这三位州长的任期内,实际执行死刑的速度大致相同——只有签署死刑执行令的速度加快了。尽管如此,这一过程给法院和那些被指派为死囚辩护的人带来了巨大的负担。
宾夕法尼亚州州长汤姆·里奇上任时也承诺加快死刑的执行。自1995年担任州长以来,他至少签署了41份死刑执行令。宾夕法尼亚州有两起死刑执行,但这两起案件的囚犯都放弃了上诉。同样,这些执行令给人留下了里奇强硬无情的印象,并成功地压垮了已经严重资源不足的贫困辩护系统,该系统不得不应对每一次死刑执行的威胁。
结论
尽管犯罪问题常常是政治演讲的主要内容,但最近对死刑的强调干扰了司法系统的基本公正性。当那些将决定被告生死的法官——他们甚至有权否决陪审团的一致裁决——通过宣称自己对罪犯的强硬态度来竞选公职时,公正性就受到了威胁。当那些将决定是否以及针对谁寻求死刑的检察官凭借他们的死刑记录竞选公职时,这便助长了滥用权力的可能性。
政客们通过将对死刑的忠诚作为担任公职的试金石,煽动了这种寻求更多死刑判决和更快执行的螺旋式努力。这一问题正在将高度合格的候选人排除在竞选或获得公职之外。当对死刑的丝毫犹豫都会让人被贴上“对犯罪软弱”的标签时,关于死刑价值的理性辩论变得越来越困难。最终,死刑损害了司法系统本身的完整性,因为个人权利被牺牲以换取政治利益。
翻译:汪秉均,中央民族大学法学院2022级本科生。
戴鑫:纸草档案与托勒密埃及的社会经济史研究
纸草学诞生于19世纪末20世纪初的欧洲,是一门主要研究希腊罗马时代埃及(约公元前4世纪至公元7世纪中叶)纸草及纸草文本的学科。19世纪80年代,埃及考古学之父弗林德斯·皮特里在埃及法雍地区的考古活动,以及英国牛津大学古典系伯纳德·格伦菲尔和阿瑟·洪特在奥克西林库斯的发掘,使得包含希腊罗马时代埃及行政文本在内的大量纸草在千年之后重见天日。埃及源源不断的出土文献令欧洲学术界大为震撼,德国的罗马史家特奥多尔·蒙森曾预言“20世纪将是纸草学的世纪”。他的学生乌尔里希·威尔肯投身纸草研究,于1900年创建第一个纸草学期刊《纸草档案研究》,成为纸草学诞生的标志之一。
纸草学家将同一个人、家庭、社区保存的一系列纸草整理为档案,便于开展史学研究。纸草档案兼指官方文书和私人书信,因保存者来自社会各阶层,可能将官方通信、行政文书和私人家书混杂存放。芝诺档案是现存托勒密埃及时期(公元前305至公元前30年)数量最大的档案(总计2063份纸草文本,其中1800余件为希腊语文本),所有者为考诺斯的芝诺,他曾担任托勒密二世时期财政大臣阿波罗尼奥斯的秘书,还受命为后者管理地产,负责组织灌溉近2750公顷土地。芝诺收藏了工作与生活相关的各种官方文件和私人通信,时间跨度为公元前263年至公元前229年,在近代学者重现和探讨托勒密埃及经济制度中扮演至关重要的角色。1911年,芝诺档案中的部分文本首次出现在伦敦和斯特拉斯堡。1914年冬,大量芝诺档案文本分批次流入古物市场,先后为埃及开罗博物馆、大英博物馆以及其他欧美博物馆、科研机构或私人等收藏。
20世纪20年代,俄裔美国纸草学家迈克尔·罗斯托夫采夫利用新整理的部分芝诺档案撰写《公元前3世纪的埃及大地产》,是为托勒密埃及社会经济史研究的发端。早期研究即以希腊语纸草档案为核心史料,重点关注托勒密家族的王室经济。1939年,比利时纸草学家克莱尔·普雷欧出版专著《拉吉德王室经济》,详尽而细致地描述了托勒密王室对经济的高度控制或“垄断”。不久,罗斯托夫采夫在《希腊化世界社会经济史》(1941年)中,进一步强调埃及的“国家垄断”和“计划经济”色彩。他指出托勒密二世实施经济和社会改革,从而在埃及确立了希腊化经济体系。某种意义上来说,罗斯托夫采夫和普雷欧依靠纸草档案,共同奠定了欧美学术界关于托勒密埃及社会经济史研究的基础。
20世纪70年代以来,纸草学家们将工作重心转向早期研究中忽视的地方经济。除了希腊语纸草档案之外,他们还着手收集、整理不同时期个别村庄或地产的相关埃及语纸草文本,按专题重新分类汇编。门西斯档案在格伦菲尔和洪特发掘的纸草文献中最为著名,保存者为公元前2世纪法雍地区科尔克奥西里斯的书吏门西斯,他详细记录了当地农业经济和行政管理情况。由于这些纸草文书出土时混杂在鳄鱼木乃伊中,门西斯档案的重建工作颇为不易。1971年,英国剑桥大学的多萝茜·克劳福德利用该档案重点分析科尔克奥西里斯的行政、土地、人口和农业状况,揭示古埃及政府试图对该地区的人口、税收、土地和农业生产进行精准测算、记录和管控,建立了一套复杂而严密的土地登记系统。
随着纸草档案编辑重心的偏移与研究视野的拓宽,埃及社会经济史的研究被赋予新的生命力。学者们的关注点不再仅限于地方行政与经济层面,还广泛涉及个体社会生活的方方面面。比利时纸草学家威利·克拉瑞斯搜索和整理一些分散于世界各地的皮特里纸草(由英国考古学家皮特里发掘于法雍附近的古罗布,也称为古罗布纸草),出版了其中53份遗嘱类文本,展现了托勒密埃及法雍地区封地军人的家庭关系、身份、财产以及当地的农业和地产信息。美国纸草学家纳夫塔利·路易斯以特定群体为研究对象,整理汇编了兼具官方与私人性质的个人文本,以个案研究的形式再现不同职业和社会身份的希腊移民在埃及的社会生活。1998年,荷兰纸草学家阿瑟·维胡格特也以门西斯档案为研究对象,描述了更为微观的社会生活场景,关注门西斯本人的社会身份认同、工作、生活,通过信件的格式规范推测门西斯和通信人的等级关系。
纸草学数据库建设则引领了计量分析和利用计算机进行研究的潮流,也加快了跨学科进行社会经济史专题研究的进程,增加了对人口统计、社会结构、城市化、社会关系等领域的关注。耶鲁大学和密歇根大学最先开始对收藏的纸草进行电子编目。杜克大学于1982年开始建立杜克纸草文本数据库,收录已经出版的纸草文本。20世纪90年代中期开始,欧美一些高校和科研机构开始大规模扫描纸草文本,通过互联网建立起世界范围的纸草档案库,纸草文献得以通过数字化信息的形式在网络上被查阅和检索。比利时鲁汶大学的纸草学家重视结合数据分析,探究希腊罗马时代埃及个人与社会的关系。截至2019年,鲁汶的特里斯迈吉斯托斯数据库(Trismegistos,缩写为TM)已收录680123份纸草数据,其中370086份文本记录了496702个人的信息。
进入新世纪,托勒密埃及的社会经济史研究迎来一个新的高峰。2006年,克拉瑞斯和剑桥大学纸草学家多萝茜·汤普森历时十五年的合作,共同出版了《计算希腊化埃及的人口》。该书重点收集、编辑了从法雍至中部埃及吕克波利斯州(诺姆)一百年间(公元前250年至公元前150年)的税收类纸草文本,按照区域和税收类型划分为54组,对上述地区的人口、家庭、婚姻、职业、族群以及财产等情况进行量化分析,展现出王朝中期社会经济发展的动态图景。基于这一研究成果,鲁汶大学研究员卡嘉·穆勒尝试用社会网络分析以及地理学理论研究托勒密埃及国内外新定居点的分布情况,认为它们构成了支撑国家权力的网络,对托勒密埃及国家经济稳定发挥了重要作用。鲁汶数据库TM也于2012年建立网络分析系统,极大地推动了托勒密埃及人物志研究,可以用于分析个人、家庭、地点、人名甚至埃及语书信的关联。目前,帕许里斯档案、法雍档案、上埃及档案等多个项目仍持续进行。
欧美学术界关于托勒密埃及的社会经济史研究在很大程度上依托于纸草文本的收集整理、档案编辑方式、技术方法的革新等,伴随着纸草学研究的开拓而延展。数量庞大且不断新增的纸草文书使这一研究领域具有独特的优势。鲁汶大学TM收录公元前6世纪至公元7世纪的档案超过500份,共计近2万件文本。据美国纸草学家范·明宁估算,到2030年时,出版的纸草文本将不少于10万件。尽管纸草文献的编辑、整理工作漫长而艰苦,但纸草学经过一百余年的沉淀、累积和更新,逐渐克服技术困难(如文献残损、勘误、确定年代和地点等)和文献内容庞杂且零碎等缺陷,档案的整理也已取得长足进展。在跨学科合作和计算机网络技术的助推下,无论是综合研究还是微观考察,都将进一步完善研究者们对托勒密埃及的社会经济和文化图景的绘制。
本文转自《光明日报》( 2025年02月24日 14版)
陈志武,林展,彭凯翔:海洋贸易与中国南方的兴起(671-1371年)
今天中国的经济重心显然在南方,特别是在包括广州、深圳、杭州、上海等特大城市的南方沿海省份。然而,在唐代(618-907)之前的数千年里,中国的社会、经济和政治中心一直位于北方。正是在唐、宋(960-1279)和元(1279-1368)三个朝代,南方才崭露头角。那么,是什么促成了这一转型?是谁推动了这一根本改变中国经济社会地理的转型?陈志武、林展和彭凯翔在Asia-Pacific Economic History Review 2025年最新一期的论文发现,阿拉伯-波斯商人触发并主导的海上贸易,特别是瓷器贸易,是唐宋元时期南方崛起的重要原因。
中国大概在9千至1万年前进入定居农耕。在接下来的数千年里,许多地区出现了人类定居点,包括南方沿海地区,但代表当时先进发展水平的防御性城邑(由城墙或壕沟所包围),仅出现在长江流域沿线及其以北的地区。目前,已发掘的城邑遗址,新石器早期(公元前8000年-前5000年)有13个,新石器中期(公元前5000年-前3000年)有56个,新石器晚期(公元前3000年-前1700年)有128个。这些小型城邑,虽然按现代标准是面积较小(通常小于一平方公里),但它们是中华文明的早期摇篮。
在解释为什么中国的史前发展及早期发展未在南方发生时,陈志武、Peter Turchin和王万达(2023)指出,北方地势较为平坦,缺乏自然屏障,使得当地居民更容易受到武力攻击,因此不得不推出人工防御措施,尤其是建设防御性城墙,并引发早期城邑的诞生;因为这种较高的战争威胁迫使北方建立城墙城邑,让北方起先建立并治理高人口密度的复杂社会,开启文明化发展进程,而南方因山区多、易守难攻,故战争威胁少,就无必要建立城墙城邑,错失发展早期复杂社会的机会。因此,战争驱动型增长是北方史前和早期历史时期的特点,这可以称之为北方发展模式。(这里的北方与南方大致以长江为分界线,文章还考察了南方沿海的府,见图1)。
图1 1820年清朝的南方沿海、南方和北方 然而,从公元8世纪南方开始崛起,表现为其人口占比从742年时的24.6%增长到1393年时的58.3%(南方沿海府的比例在同一时期从5%增至18.5%),这彻底改变了中国的社会经济格局,使经济与社会重心转移至南方(见图2)。
图2 中国本土(相当于清代的内地十八省)南方(红色)及南方沿海(蓝色)的人口占比 注:对于公元前5000年至公元2年之间的时间点,使用每个地区的考古遗址数量作为人口的代理度量,数据来源于香港大学量化历史中心的中国考古数据库(CADB)。对于公元2年后的时间点,每个地区的人口估算来自《中国人口史》和国家统计局。
从唐代初期(618年-907年)到明代初期(1368年-1644年)的七个世纪,历史学家称之为唐宋元(或简称唐宋)转型,因为它涵盖了唐、宋(960年-1279年)和元(1279年-1368年)三个朝代。自新石器时代早期以来,南方一直是中国的边陲地区,因此南方常被称为“南蛮”,但在转型的高潮时期,南方出现了许多繁荣城市。当马可·波罗在13世纪后期访问中国时,他对泉州——一个在唐代之前并无太多人烟的港口城市——印象深刻,称其为“世界上两个最大商贸港口之一”,并称之为“东方的亚历山大”。另一个例子是,广州的户数从713年-741年时的64,250户增加到1174年-1189年时的195,713户。
从14世纪末开始,尽管南方在明清时期经历了绝对人口的增长(除了太平天国时期 ),但相对占比逐渐衰退,其人口比例从1393年时的58.3%下降到1953年时的38.1%(见图2)。在1393年至1953年间的每个分时期,北方的人口增长率始终超过南方和南方沿海地区(见图3)。因此,到明代晚期,社会经济重心再次回归北方(至少在中国本土范围内)。
图3 中国本土(相当于清代的内地十八省)南方、南方沿海和北方的年人口增长率 注:蓝色、红色和黄色线条分别表示南方沿海、南方和北方各时期的年人口增长率。数据来源与图2相同。
唐宋元时期发生了什么?
那么,到底是谁、什么事促成了唐宋元大转型?现有文献强调了(1)农业技术进步的作用,如占城稻的引进,(2)水道和河流网络的改善,(3)战争引发的从北向南大移民,以及(4)国内商业的增长。关于海上贸易是否在唐宋转型中起到了关键作用,学术界也存在争议。有学者认为,海上贸易推动了宋代南方的商业革命,也有学者认为海上贸易的影响不应被过分高估,因为关税收入仅占财政收入的一小部分。而关于阿拉伯波斯穆斯林商人发挥的作用,就更是研究甚少。
本文指出,推动南方崛起的正是从7世纪末开始逐步进入广东及其他沿海地区的阿拉伯波斯穆斯林商人(以下统称阿拉伯商人),他们引发了海上贸易的繁荣,并使海洋贸易在南宋至元代期间达到顶峰,推动了南方中国的崛起。从这个意义上,这种由市场驱动的斯密式增长,通过对外开放和远程国际贸易,创造了南方。
正因为南方的崛起是由贸易和商业推动的,而北方早期的社会经济发展是由战备驱动的,所以,南方文化明显偏向商业和市场(南方重商、志在经商),而北方文化则倾向于政治权力和等级制度(北方重权、志在做官);南方和北方发展的驱动力差异带来了新的城市类型——北方发展出了“城”(突出防御功能的城墙),而南方发展出来的是贸易“市”镇(market towns),虽然现代中文里把两类高人口密度的聚集地合在一起叫“城市”。南方兴起的市镇与北方的防御性城邑之鲜明对比,也在于南方市镇更加开放,专注于商业和民生,而非防御性战备的军力建设。
证据何在?
为了验证以上假说,文章聚焦到海上瓷器贸易。在明代之前,瓷器是中国最主要的出口商品之一。尽管并非唯一的出口商品,但却是海上贸易的代表性商品。
本文展示了海上瓷器贸易的三组宏观数据。首先,从生产方面看,从7世纪末到14世纪末,南方生产瓷器的主要窑址数量增加许多,尤其是在宋元时期达到顶峰;在唐宋时期,主要陶瓷窑址多半在北方,而到宋元时期,61.9%的主要窑址在南方,特别是沿海。但,从15世纪开始,南方的陶瓷窑址数量和占比都急剧下降(因为朱元璋开始实施的海禁)(见图4)。
图4 隋唐、宋元和明清时期主要窑址及位于南方的百分比 注:左侧和右侧纵轴分别表示每个时期(隋唐、宋元、明清时期)主要窑址的总数和位于南方的主要窑址百分比。
其次,从陶瓷消费端——出口目的地:中东、西亚、东非、北非——来看,在那里已经考古发掘出的中国陶瓷碎片总数,自公元9世纪以来逐年上升,也在14世纪达到顶峰,随后显著下降(见图5)。如果将这些当年陶瓷出口目的地挖出的中国陶瓷碎片总数视为衡量中国每个世纪瓷器出口量的代理指标,那么,瓷器出口也应在14世纪达到巅峰,这跟图4反映的瓷器生产端的起伏情况高度吻合,也跟图2反映的南方人口占比的起伏高度一致:从唐朝中期开始上升,到元末、明初达到峰值,然后因朱元璋海禁而逐步下滑。这表明,海上贸易,尤其是瓷器贸易,在推动南方崛起的过程中发挥了关键作用。
图5 西亚和非洲出土的中国瓷器碎片与南中国出口瓷器的百分比,按世纪划分 注:左侧和右侧纵轴分别表示“在西亚及东非和南非出土的中国瓷器碎片总数”和“从南中国窑址出口到西亚和非洲的瓷器百分比”。本图使用的数据来自张(2024),涵盖了来自170个遗址的27,729件瓷器碎片。
为了正式检验上述假说,文章以覆盖清代中国的269个府为基本分析单位,基于三个不同时期的面板数据集做具体量化验证:742年–976年(唐代)、976年–1393年(宋元)和1393年–1851年(明清),每一分期为面板分析的基本时间单位。由于数据的限制,尤其是古代窑址和府级人口的数据,这些时间段并不完全对应各个朝代的始末年份。由于历史上府的边界变化频繁,他们采用已有文献中一贯做法,将各时期的数据调整到以清代1820年的府为基准。
(A)隋唐时期 (B) 宋元时期 (C) 明清时期 图6 各时期的海关位置(星)、主要窑址(蓝点)和年人口增长率(橘红深浅)的分布
分析中,被解释的结果变量为每个府在一个时期的年人口增长率。在文献中,人口密度常常被视为度量经济发展水平的代理变量,因为在工业化之前的马尔萨斯经济中,繁荣的地区能够支持较高的人口密度。然而,由于文章中的面板数据涉及不同年数的分时期,作者采用各期的年化人口增长率,以确保结果变量的跨期可比性。
核心解释变量(原因变量)是每个府到最近海关的距离。这一指标的设计是基于这样一个理论:离海关越近的地区应当具备更低的海贸成本、更强的市场信息优势和更便利参与海上贸易的条件,因此,他们更会参与海上贸易,其地方经济和人口增长应从海上贸易受益更多。唐代之前并未设立正式的海关。大致自公元713年起,唐代在广州设立了专门管理海上贸易的官员——“市舶使”。宋代至明代的海上贸易管理机构为“市舶司”,清代改名为“海关”(其各时期的分布,见图6)。为行文方便,这里统一称为“海关”。
实证分析表明,在研究期内,越是靠近海关的地区,其人口增长率就显著高于远离海关的地区。具体来说,如果一个府在各方面与一般地区相同,但其到海关的最短距离是后者的两倍,那么,该府的年化人口增长率会低于一般府,仅为后者增长速度的一半。因此,海上贸易对742年至1851年间地方社会经济发展的影响是显著的;尤其在唐宋元时期,海上贸易带来的经济与人口增长最为凸显,成为南方崛起的主要推动力,但从明初开始,这一效果就逐渐式微。
为了将海上贸易的影响与其他混杂因素区分开来,文章在稳健性检验中加入了若干控制变量,如地区的地形崎岖度和水稻、小麦宜种指数(以排除农业生产条件的影响)。作者还控制了每个时期各府经历的战争数以及战争移民的影响,以排除战争和大规模迁徙的影响。此外,还控制了河流网络密度,以消除国内商业活动对检验结果的影响。在考虑了这些其它效应之后,基本结果仍然成立:海洋贸易参与度越高的地区,在唐宋元期间的人口增长速度显著越快。
是陶瓷贸易吗?
以上分析表明,接近海关代表着较高的海上贸易参与潜力。但潜力不等于现实。为了深入挖掘一个地区的实际出口贸易参与水平,文章使用各府主要瓷器窑址的数量作为代理变量,以衡量该地区在一时期内的出口贸易参与程度。因为在十五世纪之前,瓷器和丝绸是中国主要的出口商品,茶叶还没唱主角。根据考古发掘,南方沿海地区自唐代起就有窑址,但起初,大多数窑址位于北方,远离海岸(见图6A);但在宋元时期,由于海上贸易的蓬勃发展,沿海地区兴建瓷窑,许多主要窑址就位于更接近海岸的地区(见图6B);1371年海禁政策出台后,许多沿海窑址在明清时期(1644–1911年)被废弃(见图6C)。文章的分析显示,在742年–1393年(唐宋元时期),靠近海关的地区拥有显著更多的窑址,这些地区的人口增长率也显著更高,而这一效应在明清时期则明显减弱。这些结果在控制了多个协变量的影响后仍然成立。
与实证结果密切相关的一个问题是:为什么阿拉伯商人能够长期主导远洋贸易?值得注意的是,南方沿海的海上贸易至少可以追溯到战国时期(公元前475年–前221年),而陶瓷窑址的历史则更早。但在公元7世纪之前,海上贸易的规模和范围是有限的。转折发生在7世纪,伊斯兰教在中东兴起,并很快在西亚、东非和北非扩散传播,带来了以下变化。
首先,伊斯兰教的圣训禁止使用黄金和白银作为饮食器皿,因此瓷器成为穆斯林精英以及后来的中产阶级的良好替代品。早期的瓷器如陶碗、杯子、罐子和瓷壶占据了商船的大部分空间。其次,伊斯兰艺术和建筑必须避免描绘人类和动物形象,因为教义禁止偶像崇拜,这促使采用抽象的几何和植物图案以及书法来进行装饰、绘画,如清真寺、建筑、家居、装饰、坟墓等场景所见。瓷器的非具象特性使其成为同时满足宗教和装饰功能的理想媒介。正因为如此,瓷器成为了伊斯兰艺术的标志性元素,结合了功能性、宗教规则和美学。尤其是,伊斯兰艺术和装饰偏好重复使用同样的形状图案,需要重复使用大量一模一样的瓷片,这就要有大量劳动力,而唐宋元时期的中国是同时期人口最多的国家,加上中国有悠久的精良陶瓷工艺传统;于是,随着伊斯兰教的成功传播,也由于伊斯兰艺术的特殊要求,通过阿拉伯商人作为贸易中介,创造了对中国瓷器的巨大需求,让中国在宋元时期就成为“世界工厂”(当然,制造的是陶瓷),促成了本文所研究的海上贸易繁荣并造就中国的南方。
总结来说,从唐代到元代,中国南方的崛起是由于阿拉伯和波斯商人唐初来到中国,带来对瓷器和其它商品的巨大需求,并在宋代中期以前主导了远程海洋贸易;为了配合长程贸易的陶瓷等商品需求,不仅沿海地区的经济和社会得以发展,而且也带动了离海岸线较近的南方各地的商业、手工业和农业,这种外溢辐射效应就跟1980年代的对外开放贸易不仅带动沿海,也带动了南方其它地区的发展一样。阿拉伯波斯商人催生的这一变化促使南方成为中国经济和社会的中心,并将中国的市场经济进一步融入到全球网络中。与此同时,北方的传统发展模式依旧与战争和防御相联系,形成了南北两种截然不同的经济文化模式,分别代表了北方与南方的历史发展轨迹。
总 结
本文的贡献涉及三方面。首先,它加深了我们对海上贸易和斯密增长影响的理解。工业革命之前,斯密增长主要是由市场扩展带来的专业化增加推动的,是社会经济发展的主要原因。本研究强调了海上贸易在唐宋元时期推动斯密增长的关键作用。此前,斯密增长被认为是宋代收入增长的重要因素,但阿拉伯商人主导的海上贸易并未被视为其主要驱动力。此外,根据本文的发现,斯密增长在中国的开始时间应追溯到唐代,而非宋代,因此比现有文献中所述的时间要早得多。这一研究也补充了Acemoglu等(2005)的工作,后者将大西洋贸易确立为现代欧洲沿海国家社会经济发展的主要驱动力,然而,本文的研究重点是中世纪时期印度洋和西太平洋的海上贸易,比西方大航海时代要早九个世纪。
其次,本文的研究为唐宋变革的讨论做出了贡献。特别是,文章不仅描述了中国社会经济中心从北方向南方的转移,而且实证性地展示了是谁(阿拉伯-波斯商人)和是什么(海上贸易,尤其是瓷器贸易)触发了这一转变,丰富了我们对中国历史从7世纪末到14世纪末的理解,阐明了南方崛起的原因。尽管以往的研究侧重于农业技术进步、水路改善、战争引起的大迁徙以及国内商业发展在解释这一转型中的作用,但它们大多忽视了阿拉伯-波斯商人对海上贸易的影响以及海上贸易对唐宋变革的催化作用,尤其是由阿拉伯-波斯商人建立的远距离跨国信任网络,这些网络根植于他们共同的伊斯兰信仰。
第三,本研究为应用考古学和历史数据研究中国历史做出了贡献。正如王庚武(2003)所强调的,历史记录的编纂者大多数来自北方,尤其是在唐代之前,他们并不了解南方,特别是不知悉沿海地区的情况,因此无法将许多关于南方发展的事件和进展纳入早期的历史档案。由于传统的历史学家在研究这些早期王朝时主要依赖历史档案,他们的研究深度和广度因此受到了限制。然而,近年来,中国、西亚、西南亚、东南亚、东亚和非洲的陆地及沉船遗址的考古发掘出版了大量文献,为研究海上贸易史的全貌及其社会经济影响提供了丰富的数据集。通过将考古数据与历史数据相结合,本文为揭示唐宋元变革的触发因素提供了新的视角,进一步阐明了南方崛起的过程。
Chen, Zhiwu, Zhan Lin, and Kaixiang Peng. “Rise of the south: How Arab‐led maritime trade transformed China, 671–1371 CE.” Asia‐Pacific Economic History Review (2025).
杜润生:对深化改革的一点看法
关于农村经济政策问题的一些意见
今年(1981年)元月一日至八日,我随紫阳同志到鄂豫鲁三省的宜吕、荆州(重灾区)、南阳、开封和菏泽(困难地区)五个专区,对农村情况进行了考察,听取了地方干部的汇报,访问了一些农户。据一路所见所闻,深感农村形势比我们所想象的还要更好一些。在生产方面、党群关系方面、干部工作作风方面,都出现了好的势头。这就进一步证明了党的三中全会以来,中央关于农村的重要决策都是完全正确的。坚持下去,必然会推动农村事业更加蓬勃地向前发展。
一、困难地区实行包产到户稳定几年,大有好处。
河南省的兰考县和山东省的东明县,属于长期落后、贫困的地区,是生产靠贷款、吃粮靠返销、生活靠教济的“三靠”穷县。这两个县都是实行了包产到户和大包干到户。从一九七八年开始试行至今,兰考县已占生产队数的百分之八十,东明县占百分之九十以上,经济效果显著。兰考县粮食总产量,近十几年在二亿斤上下徘徊,一九八〇年达到三亿一千万斤,全县一九七八年还净吃返销粮八百万斤,一九七九年转缺为余,一九八〇年净交售三千二百万斤。棉花、花生也大幅度增长。社员人均集体分配收入,由一九七九年的四十九元七角,增至八十元,如将超产部分的个人收入计算在内,可达一百几十元。有个最穷的生产队,社员常年在外要饭棚口,包产到户后,一年人均口粮即达五百八十六斤,最困难户收入亦达三、四百元,还出现不少千元以上的“富裕户”。一九八〇年全县累计社队陈欠国家贷款一千五百万元,当年增产增收后,农民立即偿还陈欠贷款一百八十万元。东明县一九五八至一九七八年二十年间,净吃国家返销粮四亿五千万斤,花国家救济款和累欠国家贷款达七千八百万元。现在也由缺粮县变为余粮县。到目前为止,国家已收购粮食六千万斤,棉花三百万斤,花生七百四十万斤,芝麻四百七十万斤。社员人均集体分配收入一九七九年为三十一元,一九八〇年连超产部分的收入计算在内,超过百元。全县农村的人均储蓄存款,一九七九年为三元,一九八〇年达十七元。
开封地区的登封县和菏泽地区所属各县均实行了包产到户,与兰考、东明的变化情况大体相同。
目前,这些地区社员的温饱问题已大体解决。农民喜气洋洋说:“过去愁着没饭吃,现在愁着粮食没处放,再不用出门要饭了。”“联产联住心,一年大翻身。红薯换蒸馍,光棍娶老婆。”农村市场上,手表、自行车、缝纫机、收音机,的确良等消费品供不应求。有百分之十的农户盖起了新砖瓦房。同时,对生产资料的需求量也大大增长,大牲畜、架子车、双犁、轧花机、小型脱粒机、高质量的手扶拖拉机等添置不少。他们说:“二十多年了,可熬到自己能当家了”。现在是“既有自由,又能使上劲。”“戏没少看,集没少赶,亲戚没少串,活没少干,粮没少收”。到处听到同样的呼声,希望能三几年不变,“一年不变有饭吃,二年不变有钱花,三年不变小康家,国家赶快盖粮仓。”
这些长期落后,贫困的地区,在短短一两年内发生了如此显著的变化,原因是多方面的。气候好,“天帮忙”固然是一个重要因素,但是在极左路线下也有天时好的时候,并未见引来象去年的这种变化。看来起主导作用的,还是党的政策。据菏泽地委谈,三中全会以来,他们根据中央文件精神落实了十一项政策,其中主要的有三条:
(一)尊重社队自主权,因地种植(过去沙壤地不准种花生,盐碱地不准种棉花,淤地不准种大豆)。
(二)收购价格优惠(这些穷困地区没有征购任务,或基数很低。现在交售的粮、棉、油多按超、议购价格收进)。
(三)生产队建立了各种生产责任制,并允许包产到户。包产到户激发了农民的生产积极性,这是一个不容置疑的事实。过去一个相当长的时期内,把集中劳动和平均分配当作集体经济的优越性来提倡,大呼隆加上吃大锅饭,把农民的主动性和积极性都搞掉了。社员在干部的监督下进行“集体劳动”,干多干少、干好干坏一个样,一年干到头,分到的东西还不足棚口。农民穷得活不下去,想自己谋点生路,又被当作资本主义行为来批判、斗争、限制,一点自由都不给。社员出工不出力,搞低效劳动或无效劳动。干部管得越紧,群众应付办法越多:“队长在,我就磨,队长走,我就站。”人们把这种情形概括为三个字:“摽、穷、靠”。摽在一起受穷,穷得没饭吃,就靠国家救济。干群关系越来越坏。一个支书说:“一年之内,春、夏、秋拿龙提虎,冬天当狗熊。”意思是平时想法儿整治社员,得罪了人,一到冬天搞运动时,就成了斗争对象。上级领导看到集体办不好,总认为是“资本主义作怪”,连年整顿,越整越“左”,离群众也就越远。集体经济本来是为了解放生产力,可是由于采取了上述过左做法,压抑了社员积极性,就走向反面,变成了生产力发展的桎梏。了解了这些情况,就不难理解包产到户为什么在贫困、落后地区有那么大的吸引力。对于包产到户,群众热烈欢迎,干部冒险倡导,这正表明,生产关系一定要适合生产力性质这个法则,在背后起着不可抗拒的作用。在与干部谈话中,紫阳同志说:“包产到户,堵是堵不住的,只能导,不能堵。群众要求政策三年不变,我们就按群众意愿办。在这些地方,包产到户的办法要稳定一个时期。”只有这样,符合当地实际,有利于大局。
类似兰考、东明这样的穷困地区,全国大约有一亿五千万人口。退到包产到户,搞它三、五年,使这里的社队转变穷困面貌,使每个农民平均收入达到一百元上下(集体收入和家庭收入),并减轻国家每年返销儿十亿斤粮食的负担,是完全有可能的。包产到户,特别是包干到户这种形式,虽然带有个体经营性质,但由于它是处在社会主义经济条件下,不同于历史上封建社会时期的小农经济,今后一个时期还会有相当大的生产潜力可以发挥,这是可以肯定的。以两千年搞小农经济受穷为理由,来否定包产到户有增产可能性,是缺乏根据的。当然,包产到户也有它不容否认的局限性和消极因素。在这些地方,包产到户和大包干到户带来的各种矛盾和问题,如计划种植、农机利用、水利设施的维护和使用、地块零散、军属和五保户的优抚、民办教师赤脚医生的待遇等等问题,已经遇到了,也提出来了。但据已有经验,凡是生产队组织和领导能继续下去(这点至为重要)的地方,都能找到某种解决办法。如:农机具可以包给机耕承包组或户,实行计费代耕:民办教师包了一份田,又补口粮几百斤,加上每年公助费一百八十元,收入不算太低,军烈属也有照顾办法。而且,对于包产到户,应当作为一种过渡形式来评价其作用。随着生产的发展,农民对扩大再生产的要求必然会提出来,那时就会重新走向新的联合。一些农民也很清楚:“包产到户是个穷法儿。三几年后,叫俺咋办就咋办,俺还要集体的。”听说实行包产到户较早的社队,社员之间由于各种条件不同,已出现了收入差距;一部分农民为了克服生产上的困难,又开始了小规模的合作,如简单的牲口插犋、换工、调整地块等等。有些资金较充裕的人,三、五联合起来,自负盈亏,搞打井、机耕、育种、粮米加工等专业性的技术服务业务。预计今后承包土地会逐渐向务农能手集中,副业向另一些能工巧匠集中,逐步形成专业化分工。然后在这个基础上扩大联合范围。可以看出,包产到户走向联合是必然的,但不一定再走过去的路子-一声令下,全面组织起来,而将根据经济上的需要,通过各种自愿的小型合作,走上逐步扩大的道路。这是后话。现在应当先稳定下来。在稳中求变,不要急忙图进。
本文来源:农业集体化重要文件汇编,中共中央党校出版社1981年10月第一版
对深化政治体制改革的几点看法
一、当前中国要过好“市场关”与“民主关”
在加入 WTO 以后,中国承诺了,而且国际认同了中国将按WTO的规则,即全球化贸易规则,重新修订中国的有关法律、规章。包括总结历史经验,需要在《宪法》中规定市场经济和私有经济的合法性,并接受工商联的建议,进一步确认在现阶段,和公有财产一样,应“保护私有财产不受侵犯”。
过“市场关”,必须同时过好“民主关”,两者密不可分,不能只接受市场,不接受民主。经济上所有制多元化,反映到政治上必然出现多种经济主体参与的新格局,他们分别代表不同所有制与不同阶层的经济利益,提出不同的要求。为使这些不同声音、不同要求得以充分表达,作为执政党,必须发扬民主,尽可能地从多方面集中群众意见,避免决策的失误。这就是在过“市场关”的同时,还要过“民主关”的经济动因。那些不利于经济发展的体制性障碍,实质上是当前深化改革、稳定社会的主要桎梏,也是对于执政党,地位的一种潜在的威胁。江泽民同志提出加强民主法制,进行具有中国特色的,而不是形式上照搬西方的深入的政治体制改革,是一项正确决策。
二、过好“民主关”,必须确立相应的制度框架
(一)政府主要官员经民主选举,候选人实行差额选举法,行政司法立法,相互分工,相互制衡,防止政府过度集权。
(二)给农民以国民待遇。从制度上、体制上、法律上废除歧视农民的分割城乡的户籍制,让农民享有自由迁徙权和《宪法》给予的其他公民权利。除土地税外,免除其他附加税,经营服务业按城市居民一样收取所得税。
(三)根据江泽民同志“七一讲话”精神,加强执政党的建设。建设有中国特色的社会主义,必须坚持“四项基本原则”不动摇。鉴于市场经济包含多元化的经济成分,极为分散的独立的企业,复杂的对内对外的经济联系,以及频繁的社会交往,党的一元化领导应主要依靠制定方针政策和党员模范作用来实现。不可以党代政,干涉政府、社团、企业、事业单位的具体业务。党要管党,特别是管好在不同岗位上担负领导工作的干部,要求他们以身作则,凭本人道德品质和优良业务水平,以及贯彻执行党的方针政策的坚定性,密切联系群众,从整体上推动社会进步。要发动群众实行民主监督,防止公务人员违法乱纪,贪污腐败,蜕化变质。
(四)加强全国人大、政协的民主功能。建国前后,毛泽东、周恩来极其重视政治协商会议,拟订政协《共同纲领》,实行共产党领导下的多党合作制,通过民主讨论,集思广益,共商国是,提倡从团结的愿望出发,经过批评自我批评达到新的团结,以利于发挥各阶层、各界人民的建设积极性。关于政府组成,早在抗日战争时期,毛泽东就规定了“三三制”的权力结构。放手使用、信任非党民主人士参加政府工作。今天,党具有崇高威望和掌握政治上、军事上及组织上不可替代的实力,应当更充分地发挥人大、政协的作用。党不宜既当“运动员”,又当“裁判员”,要从直接干预经济事务中退出,以便发挥好领导作用。
民主的实质,首先是一种办事秩序,重大的问题要经过当事人、有关者,特别是法定协商机构,表达意见,体现决策民主化与科学化。人大是最高权力机构,应充分发挥《宪法》赋予人大代表的神圣的民主权利。对于人大代表提出的问题以及批评、建议,党组织应采取热情支持、鼓励的态度。由人大、政协承担部分民意的反馈作用,对全局和长远的稳定是极为必要的,不可或缺的。
(五)要消除民主“恐惧症”。一个民主国家发生一点小乱子不可避免,不必害怕。中国不会由于民主而出现大规模的动乱,只会由于不民主而出现暴力闹事局面。
有13亿人口,占地960万平方公里的大国,出点小乱子有利于暴露出隐患和潜在矛盾,及时研究对策,改正错误,有利于防止小病酿成大病。因此,对个别地方群众集体反映意见,无需惊慌失措,但要有充分的思想准备和预警方案、对策。在和平建设时期,人民内部矛盾是客观存在,甚至会突出起来,解决矛盾的惟一办法是根据毛泽东同志倡导的正确处理人民内部矛盾的指导方针,发扬民主,建立民主制度。全球化,不只是经济全球化,也伴随民主政体全球化。“民主关”必须过,中国一定会在这一进程中走在前列。
本文为2002年6月11日,杜润生谈话记录整理稿,选自《 杜润生文集》下册,山西出版集团2008年7月第1版第1283—1286页
韩建业:论五帝时代
“五帝时代”指古史传说中夏代以前的中国上古时代,其历史真实性在古代原不成问题。但自晚清民国以来,中西文化激烈碰撞下疑古之风盛行,五帝时代因之基本被否定,极端者甚至有“东周以上无史说”。虽然因晚商都邑殷墟、早商都邑郑州商城等考古学发现,此说宣告破产,但对商代以前的夏代乃至五帝时代,学术界的质疑声至今仍未断绝。五帝时代的真实情况究竟如何?只有紧密结合文献史学和现代考古学,并以适当的方法展开研究,才有希望逼近答案。
一、文献记载中的五帝时代
《周礼·春官·宗伯》:“外史掌书外令,掌四方之志,掌三皇五帝之书。”其中“三皇五帝”显然指人而非神,且“五帝”晚于“三皇”。《周礼》所载官制等基本符合西周或者春秋时期的实际情况,可知“三皇五帝”的提法也当出自西周或春秋,而非战国以后的发明。战国时期出现“五帝”的情况增多,《荀子》《战国策》中各3处,且多与三王、五伯并举,《吕氏春秋》中有14处之多,一般连称“三皇五帝”或“五帝三王”。和“三皇”有多种组合的情况不同,严格来说“五帝”说其实只有一种,就是出自《大戴礼记·五帝德》《帝系》当中的黄帝、颛顼、帝喾、尧、舜,在《国语》中也有同样的排列顺序,很可能是至迟在春秋时期已有的说法,后被《史记·五帝本纪》采用。其他一些曾被称为“五帝”者其实并非确指,或者属于神圣而非人王。即便真正的“五帝”就一种说法,那也应该是从众多古人中挑选的结果,同时期还存在很多其他杰出人物。在这个意义上,我们就可以使用“五帝时代”这个概念,指称以“五帝”为代表的那个时代。有关五帝时代的记述,目前只能在商周及以后的文献中见到,被认为部分可能是“口耳相传”的结果,五帝时代一般也就被划到“传说时代”的范畴,相当于西方学术界所谓“原史”时期。
疑古学者多视“五帝”为神话人物,基本否定五帝时代的历史真实性。顾颉刚在1926年出版的《古史辨》第一册中明确提出“层累地造成古史说”,认为东周初年《诗经》里有天神禹,东周末年《论语》里出现尧、舜,战国至西汉伪造了许多尧、舜之前的古“皇帝”,结论是“东周以上只好说无史”,“自三皇以至夏商……都是伪书的结晶”。更早的时候,胡适也主张“中国东周以前的历史,是没有一个字可以信的”。但1928年开始的对殷墟的发掘,发现甲骨文、宫殿、王陵等大量证据,确凿无误地证实晚商属于信史。这不但推翻了“东周以上无史说”,而且证明“层累地造成古史说”逻辑难以自洽。又因晚商史业已被证为信史,早商、夏代甚至五帝时代的历史真实性也理应重新加以考虑。
其实早在1917年王国维就发表《殷卜辞中所见先公先王考》,论定《史记·殷本纪》所记载的商殷世系几乎完全合于甲骨卜辞所见商人世系。王氏明确认为尧、舜、禹属于历史人物,不应疑古太过。之后蒙文通于1927年出版《古史甄微》,提出中国上古民族可以分为江汉、海岱、河洛三系。徐旭生在1943年出版的《中国古史的传说时代》一书中提出中国古代部族可以分为华夏、东夷、苗蛮三大集团。1935年傅斯年则提出“夷夏东西说”。这些研究虽与传统的中华一脉古史观有别,但却都是在承认五帝时代真实历史背景的基础上做出的综合研究。
五帝时代的诸多人物并非出于战国西汉以后的杜撰,这在晚商、西周和春秋时期的出土文献中也有所证明。殷墟甲骨文中的“四方”“四方风”,见于《山海经》和《尚书·尧典》。殷墟甲骨文中商人将帝喾(高辛氏)作为高祖,这也和传世文献吻合。刻有“天鼋”或“天”族徽的先周和周代青铜器主要分布在陕西,或与轩辕黄帝的名号有关。西周图片公图片记载禹敷土浚川,春秋秦公簋记载“鼏宅禹迹”,春秋晚期的秦公一号大墓石磬上秦人将高阳(颛顼)作为高祖。战国时期金文简牍上关于五帝时代的记载就更多了。比如齐侯因图片敦铭文记载田齐的高祖为“黄帝”,长沙子弹库楚帛书关于炎帝、祝融、帝俊、共工等的记载,清华简《五纪》关于黄帝、蚩尤等的记载,以及其他简牍上有关于尧、舜的记载。
但需要承认的是,不管传世还是出土,目前尚不见晚商以前的相关文献。换句话说,所有关于五帝时代的记载都见于至少七八百年之后的文献中,它们的说服力因此大打折扣。但学人很早就提出新的解决途径:“要想解决古史,唯一的方法就是考古学。”即便顾颉刚也认为,地下出土的古物既可以用来破坏旧古史,也可以用来建设新古史。李学勤则从文献和考古结合的角度,提出要“走出疑古时代”。显而易见,探索古史真相不能仅依靠文献记载,还得和考古学结合。
二、五帝时代考古学探索的方法
利用考古学探索并一定程度上实证古史,最重要的是达成传说和考古资料这两个古史系统之间的互证互释。考古资料是传说史料最可靠的参照系,经过百余年的工作,这个参照系已经以中国史前(原史)考古学文化谱系为主要内容基本建立起来。假设五帝时代为真,那么当时不同族群集团的遗存及其时空框架也应包含在其中,只待与传说史料相印证。
早在20世纪30年代,徐中舒就提出虞夏对应彩陶文化(仰韶文化),太昊少昊对应黑陶文化(龙山文化)。到了50年代,范文澜又推测仰韶文化可能为黄帝时代文化。七八十年代以来,关于五帝时代的考古学探索更多。既有对炎黄、三苗、东夷、有虞氏、陶唐氏、共工氏 等族群所对应的考古学文化的探索,有对“大禹治水”等个案的研究,也有从宏观上对五帝时代的把握,并主要形成两类意见。第一类意见认为,五帝时代大体可以与仰韶文化和龙山文化时期对应。如严文明、苏秉琦等认为仰韶文化后期(铜石并用时代前期)对应炎黄时期,龙山时代(铜石并用时代后期)对应尧舜禹时期,笔者等进一步提出仰韶文化前期已进入炎黄时期;许顺湛认为仰韶文化对应炎黄文化,仰韶文化末期到龙山时代早期为颛顼时代,中原龙山文化早期对应帝喾时代,中原龙山文化晚期对应尧舜时代。第二类意见认为,五帝时代和龙山时代大体对应。如童恩正认为中原龙山文化和“五帝”符合,沈长云、江林昌认为五帝时代大致对应龙山文化时期,李先登等具体提出五帝时代早期的黄帝、颛顼、帝喾时期相当于龙山时代早期,五帝时代晚期的尧舜禹时期相当于龙山时代晚期,徐义华认为龙山时代城址的大量出现可能与黄帝时代的战争背景相关。
总体来看,上述关于五帝时代的宏观认识,时间上不出仰韶文化时期和龙山时代,空间上集中在黄河中下游,涉及长江中下游和西辽河流域。空间范围的框定基本就是根据文献传说,时间范围则是从夏商所对应的考古学文化前溯,大致符合“从已知推未知”的逻辑思路。殷墟和郑州商城遗址的发掘,确证殷墟文化和二里岗文化分别为晚商文化和早商文化,二里头遗址的发掘基本确定二里头文化为夏文化或晚期夏文化,则五帝时代只能在之前的龙山时代甚至更前,但到底“前”到何时则不好确定。有些学者在基本信任文献传说的前提下,以神农氏“教民稼穑”为依据,设想当时应为农业社会,认为应该从仰韶文化开始,但实际上中国农业在距今8000多年的前仰韶时期已有初步发展。不少学者以《史记·五帝本纪》所记轩辕黄帝征战四方、统一天下、置官监国为根据,设想其社会应该比较复杂高级,但到底高级到何种程度,是初步开始社会复杂化,还是即将进入或已经进入国家社会?这些其实都难以遽断。考古学上对农业起源发展和社会复杂化进程的认识本身就存在不同意见。还有就是这种“比附”式宏观观察方式,很依赖于文献记载细节的真实性——而这本身是需要验证的。也有不少人想当然地以为,既然关于五帝时代的记载比较模糊,那么与考古学的对应也自当比较宏观笼统才对,但问题是如果每一个细节和局部都得不到证实,又如何能保证整体和宏观的真实性?因此,对五帝时代的考古学探索,最终还需从细节和局部入手,而且必须遵循严格的论证逻辑,找到有效的研究方法。
“由已知推未知”的思路建立在考古学文化一定程度上可以对应于族群、国族的前提之上。我们可以将族群分成三种情况:一是具有相同文化传统、文化习俗和语言的事实上的族群,一般和考古学文化有较好的对应关系;二是当时人所认同甚至包含一定程度建构成分在内的族群,最容易在民族志中找到案例;三是文献记载中的族群。这三种族群多数情况下其主体部分应该是重合的,是以第一种情况作为基础的。国族指国家层面的族群共同体,由一个族群扩展或多个族群融合而成,因国家力量整合形成血缘、文化、语言、历史等方面的共性。因为文化等共性的存在,国族也会和考古学文化有一定程度的对应关系,但情况更为复杂。族群和国族的复杂性,提醒我们考古学文化和族群不宜做简单对应,已进入早期国家阶段的五帝时代尤其如此。但从商周二代国家范围和考古学文化圈存在一定程度的对应关系来看, 考古学文化和国族的对证研究并非不可行,与一般族群的对证研究理应更有可能。
尽管如此,古史传说中关于特定族群的记载往往存在模糊或歧异之处,加之很难对族群和国族进行区分,而考古学文化本身通常也并非毫无异议,这就使得考古学和古史的对证很容易导向诸多难以验证的推论,对五帝时代的考古学对证尤其如此。这也是很多人质疑古史和考古学能否对证研究的主要原因。但如果我们遵照严谨的逻辑,找到若干比较确定的关键点,再将这些关键点串联成面,而且和古基因、古语言谱系研究结合起来,就有可能增强古史对证的准确性和有效性。为此,笔者有针对性地提出两种研究方法,即变迁法和谱系法。
“变迁法”就是以考古学上观察到的巨大变迁来一定程度上证实文献传说中的重要战争或迁徙事件的方法。考古学上的巨大变迁,包括考古学文化巨变和中心聚落巨变两个方面,前者指考古学文化面貌格局发生大范围的剧烈变化,后者指中心聚落、古城等突然毁弃或者出现破坏、暴力现象,两者通常互有关联。而这些在考古学上都是相对容易识别到的。巨变往往是大规模战争和迁徙事件的产物,推测也应当是古人最倾向于记载、传承下来的内容。因此,用考古学上的巨大变迁对古史加以验证,相对容易且确定性也较高。而用这种方法所获得的关键认识,又可以进一步作为其他相关研究的基点。
“谱系法”则是将文化谱系、基因谱系、语言谱系和族属谱系相互结合的方法。族群既然和血缘、语言、文化都密切相关,那么如将它们都结合起来进行研究,推论的确定性一定会增加。如果再将四个谱系结合起来,就会形成更加确定的推论。目前中国新石器时代考古学文化谱系的基本框架和基本内容已经确立,只是需要不断完善。对古代人群基因和语言谱系的建立方兴未艾,目前已经在揭示东亚现代人基因组、中国南北方史前人群迁徙与融合过程,以及汉藏、南岛和阿尔泰语系等人群的基因和语言谱系等方面取得了初步成果。族属谱系则需要对涉及五帝时代的传世文献和出土文献进行整理分析,最终构建出上古时期族群谱系的基本框架,允许有几套可能性框架,最终以文化、基因和语言谱系来验证。当然,这里的关键是对“四谱”的互释,最佳的办法依然是结合重大历史变迁,由点及面逐渐展开。
三、考古学视野下的五帝时代
五帝时代有文献记载的重要战争事件,首先要数五帝时代之末的“禹征三苗”;与其大略同时的“稷放丹朱”事件,可能也有军事暴力发生;还有一个就是五帝时代之初轩辕黄帝和蚩尤之间爆发的“涿鹿之战”。考古资料显示,这些战争事件可能都真实发生过。
(一)禹征三苗与黄河流域文化的南下
“禹征三苗”事件在《墨子·非攻下》有详细记载:“昔者三苗大乱,天命殛之。日妖宵出,雨血三朝……五谷变化,民乃大振……禹亲把天之瑞令,以征有苗……禹既已克有三苗,焉磨为山川,别物上下,卿制大极,而神民不违,天下乃静。”古本《竹书纪年》对三苗灭亡前夕的天灾有类似记载:“三苗将亡,天雨血,夏有冰,地坼及泉,青龙生于庙,日夜出,昼日不出。”可见,“禹征三苗”应是趁后者发生天灾内乱之际发动的一场有计划的征服战争。
从文献记载来看,禹或夏禹主要活动在黄河流域,但具体地点不好遽定。史载“禹兴于西羌”、“禹会诸侯于涂山”、“禹都阳城”或“平阳”。禹的兴起或诞生地被认为在中国西部,禹会诸侯的“涂山”有被认为是在江淮地区,禹所都的阳城或平阳有晋南、豫西、豫东等不同说法。“大禹治水”“禹画九州”传说中禹的活动范围更广。禹是夏人首领,夏人主要的活动区域多被认为在晋南和豫中西地区,但也有其他观点。比较而言,三苗的居地更好确定。三苗属于徐旭生所说苗蛮集团,其活动地区虽然涉及黄河下游、长江中下游广大地区,但到和尧舜禹发生冲突的时候,基本就是在江汉两湖地区。《战国策·魏策》:“昔者三苗之居,左彭蠡之波,右洞庭之水,文山在其南,而衡山在其北。恃此险也,为政不善,而禹放逐之。”据考证,这个范围大抵东至鄱阳湖、西以洞庭湖为界、向北及于桐柏山。
夏禹作为夏王朝的创建者,其主要活动年代当在距今4000年左右。距今约4100年之前,在豫西南、豫东南和江汉两湖地区分布着范围广大的石家河文化,但之后发生文化巨变:石家河文化特色鲜明的陶器群大范围快速消失,新出矮领瓮、细高柄豆、侧装足鼎等与王湾三期文化煤山类型接近的陶器,出现鬶、盉等龙山文化或造律台文化因素,致使豫东南、豫西南、鄂西、鄂北等地都突变为王湾三期文化,江汉平原及附近地区突变为和王湾三期文化接近的肖家屋脊文化;聚落遗址急剧减少,如大洪山南麓由石家河文化时期的63处遗址锐减到14处;从屈家岭文化延续至石家河文化的大约20个古城,此时基本都遭到毁弃,包括石家河文化的中心天门石家河古城;最保守的祭祀方式也发生突变,石家河文化大量用首尾相套的陶缸祭祀的现象消失,数以十万计的红陶小动物、小人、红陶杯等祭品祭器也基本消失或者数量剧减;在肖家屋脊文化当中出现前所未见的浅浮雕、透雕的小件玉器,此类玉器在更早的龙山前期晚段就出现在山东临朐西朱封、山西襄汾陶寺、河南禹州瓦店等遗址。如此大规模的黄河流域文化南下引起的文化和聚落巨变,只能是大规模战争的结果,和“禹征三苗”事件吻合。此前曾有人将“禹征三苗”解释为二里头文化向江汉地区的渗透,但此说在年代上似有抵牾之处,因为二里头文化已经是晚期夏文化了,和夏禹不能对应。
(二)稷放丹朱与北方文化的南下
古本《竹书纪年》:“后稷放帝朱于丹水。”后稷指周人的始祖弃,《诗经·大雅·生民之什》:“厥初生民,时维姜嫄,生民如何,克禋克祀,以弗无子,履帝武敏歆,攸介攸止,载震载夙,载生载育,时维后稷……即有邰家室。”《国语·鲁语上》:“周人禘喾而郊稷。”记载中他是帝喾的嫡长子,理应最有资格成为帝喾的继承人,但他勤于农事而被封为后稷,就是当时的农官,实际继承人是和他同代的尧,这或许为后来的矛盾埋下了伏笔。关于后稷的诞生地“有邰”,汉代以来流行泾渭说,近世有晋南说。尧子丹朱的居地被认为是在豫西南丹水,其实当为被流放后的结果,之前应与尧居于一地。尧的居地又有山东、河北、山西诸说,山西说本身又有“平阳”说和“晋阳”说的分歧,还有晋阳徙平阳说。虽然后稷和丹朱—尧的居地有多种说法,但他们发生交集的地方却只有晋南。文献记载尧时已在丹水流域征服苗蛮, 《吕氏春秋·召类》:“尧战于丹水之浦,以服南蛮。” 丹水附近的陶斝极似晋南者,晋南的丹砂也可能来自丹水地区,后稷逐放丹朱于丹水比较符合情理。
按《尚书·尧典》所载,稷和禹所处时代大致相同,则“稷放丹朱”发生时间应也与“禹征三苗”接近,在距今4100年前后。从考古学上来看,当时晋南地区确实发生了一次文化和聚落巨变:大量双鋬陶鬲出现在原本有斝无鬲的临汾盆地,致使本地陶寺文化剧变为陶寺晚期文化;陶寺遗址甚至附近的临汾下靳、芮城清凉寺等地大中型墓葬,几乎都被挖毁;陶寺遗址还有宫殿废弃、暴力屠杀、摧残女性等现象。双鋬鬲是老虎山文化的典型陶器,其分布范围主要在今内蒙古中南部、陕北、晋中北和冀西北一带。在陕西神木石峁、内蒙古清水河后城嘴、山西兴县碧村遗址都发现了距今4000年多年前的充满军事气氛的大型石城聚落,尤以400万平方米的石峁石城最为瞩目,显示其具有强大实力。考古学上的晋南巨变应当同老虎山文化南下密切相关,和“稷放丹朱”事件能够吻合。
“稷放丹朱”的考古学实证,证明陶寺古城在该事件发生前至少有一段时间应当是陶唐氏尧的都邑,而老虎山文化人群中至少有一支参与了后稷对丹朱的战争放逐事件。据记载,后稷是轩辕黄帝的直系姬姓后裔,北狄也是,而石峁古城很可能为北狄故城,则以后稷名义发起的这起事变,有石峁人群参与也是有可能的。至于《竹书纪年》等有关舜囚尧和阻丹朱的记载,似乎和儒家历来所称道的尧舜禅让之说相去甚远,其实有相通之处,即尧、舜更迭必然是因某一重大变故而发生,这一变故很可能就是“稷放丹朱”事件,“稷放丹朱”或许还有舜的参与。
(三)涿鹿之战与黄土高原文化的东进
《逸周书·尝麦》记载:“蚩尤乃逐帝,争于涿鹿之河(或作阿),九隅无遗。赤帝大慑,乃说于黄帝,执蚩尤,杀之于中冀,以甲兵释怒。”似乎蚩尤和炎帝(此记载中误作赤帝)、蚩尤和黄帝之间的战争都发生在涿鹿,蚩尤曾一度侵凌炎帝,黄帝应炎帝所请而击杀蚩尤。但在《史记·五帝本纪》中,黄帝和蚩尤之间的才是涿鹿之战,另有炎黄之间的阪泉之战,没有提到蚩尤和炎帝之间战争的具体情况:“炎帝欲侵陵诸侯,诸侯咸归轩辕。轩辕乃修德振兵……以与炎帝战于阪泉之野。三战,然后得其志。蚩尤作乱,不用帝命。于是黄帝乃征师诸侯,与蚩尤战于涿鹿之野,遂禽杀蚩尤。而诸侯咸尊轩辕为天子,代神农氏,是为黄帝。” 《战国策》《庄子》等都有黄帝、蚩尤战于涿鹿的记载。至于炎黄间的“阪泉之战”,在《大戴礼记·五帝德》《左传》《列子》等中也都有记载。但先秦汉晋以来文献记载中两场战争就已有混淆,除上述《逸周书·尝麦》记载蚩尤逐炎帝也在涿鹿,《逸周书·史记解》、《水经注》也有类似记载,近世学者也多将二者混同,不过尚不足以否定《史记》的说法。
上述文献所记涿鹿之战中的轩辕黄帝、炎帝和蚩尤,显然都是具体的个人,也有不少记载中的黄帝、炎帝和蚩尤只是部族首领的统称。当然无论是个人还是部族,都应有个大致的活动范围,只是炎、黄等的传说遍及大江南北,自汉代以来就众说纷纭。《国语·晋语》:“昔少典娶于有蟜氏,生黄帝、炎帝。黄帝以姬水成,炎帝以姜水成。成而异德,故黄帝为姬,炎帝为姜。”徐旭生据此并结合其他材料考证认为,黄帝部族发祥于偏北的陇东陕北地区,炎帝部族则发祥于偏南的渭河上游地区,二者都属于华夏集团。此后他们向东迁徙,在路线上同样是前者偏北而后者偏南。徐旭生还认为蚩尤属于东夷集团,是九黎的首领,九黎的活动范围从晋东南一直延伸到河北、河南、山东三省交界之处。但从《尚书》《国语》等相关记载看,蚩尤还是苗蛮集团的先祖,将之归入苗蛮集团也未尝不可,可见蚩尤部族活动范围很大。关于黄帝和蚩尤发生交集的“涿鹿”虽也有不同说法,但大致都在华北一带,尤其今冀西北涿鹿一带为涿鹿古战场的观点被更多人认可。黄帝部族从陕北东向经内蒙古中南部到达冀西北也是顺理成章的事。至于炎帝部族,按照徐旭生的说法,是偏南沿着渭河流域东向发展,应该是抵达晋、陕、豫交界地带才更合情理,与冀西北相距较远,炎黄之间的阪泉之战也就更有可能发生在晋南附近。
轩辕黄帝早于后稷、夏禹的时代。从大约距今4100年往前追溯,直到距今4700多年,就能看到在陇东陕北至华北这一大片地方,曾经发生过一次考古学文化格局的巨变。黄土高原大部分地区在仰韶晚期向庙底沟二期转变的过程中,文化仍连续发展,而内蒙古中南部、河北大部和豫中地区则不然:内蒙古中南部老虎山文化代替仰韶文化海生不浪类型,冀西北地区老虎山文化替代雪山一期文化,冀南豫北和郑洛等地的仰韶文化大司空类型、秦王寨类型衰亡,西辽河流域的红山文化消亡,海岱地区的大汶口文化当中新增不少横篮纹。这种突变当和黄土高原文化的东进有关。与此同时,在陕北、内蒙古中南部地区突然涌现出许多军事性质突出的石城。这些变化可能是由黄土高原人群在大规模战争事件中的胜利而导致,很可能对应文献记载中的涿鹿之战。尤其是在冀西北张家口贾家营遗址明确存在老虎山文化前期遗存,文化面貌和陕北、内蒙古中南部同期遗存近似,上限有可能早到庙底沟二期。崇礼邓槽沟梁甚至还发现老虎山文化的城址。冀西北被认为有可能是古涿鹿之地,张家口的这些发现为涿鹿之战的实证增加了新的线索。
特别值得一提的是,冀西北等地在庙底沟二期之前是雪山一期文化,其与海岱地区的大汶口文化有着密切关系。海岱地区是蚩尤或东夷部族的大本营,大汶口文化很可能是以蚩尤等为首的东夷部族的文化。大汶口文化和江汉两湖地区的屈家岭文化的形成有很多共性,屈家岭文化被认为是三苗或苗蛮的文化,而记载中蚩尤又是苗民的领袖,可见东夷和苗蛮关系非常密切。距今5000年左右的仰韶文化晚期,中期大汶口文化和早期屈家岭文化分别强烈向西向北影响,很多文化因素渗透到郑洛、晋南、关中东部各地,这或可视为蚩尤所代表的东夷和苗蛮集团大力扩张并侵凌黄河中游各部族的考古学证据。这种情况从庙底沟二期开始发生重要转变。距今4700多年恰好是中国考古学上一个重要时代——庙底沟二期的开启年代,不少人认为庙底沟二期已属于广义龙山时代的早期;传承下来的黄帝纪元元年为公元前2698年,也正在这个年代范围之内。
(四)五帝时代的基本时空格局
从考古学上大致实证禹征三苗、稷放丹朱、涿鹿之战事件,建立了进一步探索五帝时代的三个基点,其基本时空格局也可由此初步推定。
禹征三苗事件的实证,进一步确定了夏禹的历史真实性和夏代的上限,证明以王湾三期文化后期为代表的中原龙山文化后期属于早期夏文化,石家河文化及其前身屈家岭文化等属于三苗文化。禹征三苗之后,黄河、长江流域文化融为一体,奠定了夏王朝版图的基础,因此,《尚书·禹贡》的“九州”很可能记载的是距今4000年左右的真实状况,基本等同于夏初疆域,而非出于战国时人的想象。
稷放丹朱事件的考古学探索,说明尧、丹朱、后稷可能确为真实历史人物,由此可推知《尚书·尧典》等文献记载的舜等其他人物也应当基本属实,证明晋南的陶寺文化至少有一段时间和陶唐氏尧有关。
涿鹿之战事件的考古学探索,说明轩辕黄帝、蚩尤、末代炎帝,以及文献所载同时期人物,都可能有一定的历史真实性,推测黄土高原的仰韶文化后期至龙山文化早期可能属于黄帝部族文化,以东华北平原直至黄河下游地区的仰韶文化后期、雪山一期文化、大汶口文化等,可能与蚩尤部族有关。这两大区域之间的晋南、豫西和关中东部等地区,可能就是炎帝部族的核心分布区。
由此可见五帝时代人物的活动范围主要是黄河和长江流域,尤以黄河流域为主,时间上则从4700多年前延续至约4100年前。又可归纳为早、中、晚三期,其中轩辕黄帝、蚩尤和末代炎帝等最早,距今4700多年;帝喾、尧、舜、稷、丹朱、禹等属于晚期,距今4100年左右;颛顼在中期,年代介于二者之间。《大戴礼记·五帝德》《史记·五帝本纪》记载颛顼、帝喾分别为黄帝的孙和曾孙,之后紧接着就是尧、舜,似乎五帝时代不过五六代人,充其量也就100多年,现在看来应当存疑。如果承认颛顼为黄帝之孙,帝喾为后稷之父,则颛顼和帝喾之间就可能间隔了20多代、500多年。
早于距今4700多年的前五帝时代的文化,在考古学上也是有线索可循的。既然距今4700多年的黄土高原地区的仰韶文化晚期有可能为黄帝部族文化,那么黄土高原或者渭河流域更早的仰韶文化理应与更早的黄帝部族有关。仰韶文化初期开始于距今7000年左右,当时分布在关中和汉中地区的零口类型诞生不久,即东向扩展至晋南豫西地区,形成与零口类型大同小异的仰韶文化枣园类型。联系《国语·晋语》黄炎同源而分道的记载,零口类型有可能是最早的黄炎共同的文化,此后的零口类型中晚期和半坡类型则可能是黄帝部族文化;而晋南豫西的枣园类型,以及后续的东庄类型、庙底沟类型,则主要为东迁后的炎帝部族文化。黄炎之外其他部族的文化也可以循此逻辑向前追溯。
以上对五帝时代时空框架的建构主要是根据几个关键点做出的,如果能在此基础上将文化、基因、语言和族属谱系结合起来进行全面深入的研究,相信会得到更加令人信服的结论。
四、五帝时代与中华文明的初步发展
从现在的考古学研究来看,中华文明起源于距今8000多年,形成于距今5100年左右。因此五帝时代并非中华文明的起源和形成时期,而是已经进入初步发展时期。
距今5100年左右中华文明形成的最重要的标志,就是良渚和南佐两个超大型聚落遗址的发现。浙江余杭良渚遗址内城面积近300万平方米,计入外城则达630万平方米,内城中部有30万平方米的人工堆筑的“台城”和宫殿建筑,有随葬600多件玉器的豪华大墓,出土了大量玉器、水稻等,外围更有高低坝、沟壕等构成的大规模水利系统。甘肃庆阳南佐遗址面积600万平方米左右,遗址核心区由两重环壕和九座大型夯土台围成,面积达30多万平方米;其中央偏北处围出数千平方米的“宫城”,主殿夯筑而成,占地700多平方米,出土了大量精美白陶、黑陶和水稻。这两个规模超大的中心聚落,宫殿建筑、壕沟水利等工程浩大,玉器、白陶、黑陶等的制作都有很高的专业化水准,说明已出现强大的公共权力或王权。两个聚落都在继承原有聚落(社会)的基础上实现了跃进式发展,超常的规模依赖于对较大范围内人力物力的统一调配,这无疑指向地缘关系对早先区域性氏族社会格局的重塑。笔者认为,王权和地缘关系的同时出现,显示两地业已迈入早期国家行列,中华文明正式形成。但两处早期国家的统治范围基本不出太湖周边或黄土高原地区,称之为“古国”或“邦国”比较合适,属于“古国文明”阶段。
距今4700多年是中华文明初步发展的关键节点。黄土高原文化的东向强烈拓展,很可能已将内蒙古中南部、河北大部和河南中部等地区纳入一个更大的国家组织之内,甚至黄河下游的大汶口文化区可能也属于这个早期国家的统治范围。而按照《史记·五帝本纪》的记载,通过涿鹿之战和阪泉之战,轩辕黄帝已经统一天下,置官设监,监于万国。不但统治黄河流域,还“南至于江”。考古发现和文献记载大致可以吻合。距今约4500年以后,面积达三四百万平方米的襄汾陶寺都邑和神木石峁石城先后在晋南和陕北地区出现,黄土高原的文化中心地位得以延续。
距今约4100年是中华文明早期发展的关键节点。此时至少长江中游地区已经通过“禹伐三苗”事件被纳入华夏集团版图。《尚书·禹贡》等记载的夏禹划分“九州”,很可能即真实发生在这一背景之下。据此可以说,至迟在夏朝初年夏王已经初步建立起“大一统”的天下王权。其统治特色是由夏后氏及许多其他族氏共同构成统治集团,从而建立起“血缘组织基础之上的政治组织”,而所谓“九州”即统治天下“万国”的结果。这些标志着“王国文明”阶段的到来。
结语
通过对文献传说和考古学的对证研究,我们现在可以说,文献传说中的五帝时代应该是真实存在过的,其年代大抵从约4700年前延续至约4100年前。前后可划分为三个时期,大体自轩辕黄帝、蚩尤和末代炎帝等起,继以颛顼和其后诸帝,最后为帝喾、尧、舜、稷、丹朱、禹等。五帝时代,中华文明已经过起源和形成的时期,进入初步发展阶段。经过长期兼并融合,跨区域的王权国家在此时萌芽,早期时已至少形成对黄河流域大部的统治,晚期时更以“禹征三苗”为契机,将长江流域也纳入国家版图,夏王朝初步“一统”的格局正是在此基础上建立的。
五帝时代是古代中国人心目中信史的头一篇章。以五帝为代表的上古祖宗先圣,其后更成为历代敬仰效法的对象,奠定了中华民族数千年来追求文化“一体”、政治“一统”的基础,也成为延续中华文明的重要原因之一。可以说,百年来对五帝时代的质疑和否定,一定程度上就是对中华历史根脉的质疑和否定。虽然考古学为复原、重建中华上古史带来了新的途径和方法,但考古学的局限性又决定了它并不能独立解决上古时代的精神创造、制度创造、族群认同、历史记忆等重大问题,而精神创造和制度创造才是中华文明之所以区别于其他文明、之所以伟大长存的核心所在,族群认同和历史记忆更是中华民族凝聚发展的关键。因此在缺乏深入论证的情况下,不应轻易否定五帝时代,更不该轻率地把结合古史传说的研究看作考古学发展的障碍和误区。
当然,从考古学出发探索五帝时代古史并不容易,它要求研究者必须熟谙相关文献记载和考古学知识系统,必须掌握严谨可靠的研究方法,而不是盲目比附。它更要求研究者必须认真辨析后世文献对五帝时代真假杂糅的记载;根据新的发现不断完善仍比较粗糙的考古学文化谱系;大力加强基因和语言谱系的建设工作;以及完善创新进行古史和考古学对证的理论方法。唯有如此,我们才有机会逐渐接近五帝时代的真相。
本文转自《中国社会科学》2024年第12期
周天勇:1978年中国为什么选择改革开放?
一个社会的变革,总是来自于生存面临的危机,需要通过改革和开放,走出发展的困境。我们应当实事求是地重新回顾1978年文化大革命结束时,我们在经济、技术、建设等方面的发展水平和境地,评价建国后三十年经济建设方面的功与过,才有可能在30年后的今天理解当时必须改革开放的真正原因。
1949年建国以后,从经济体制上看,对资源、产品和劳动力,甚至许多消费资料,我们采取了计划分配的方式,生产资料所有制方面实行了国有和集体所有制;农村,在公社、生产大队、生产小队之间,调动资源和分配利益的层次多次上下调整,留去自留地也多次变动。从对外经济关系、科学技术等方面看,我们采取了关门发展的方式。从经济学的角度看,财产,甚至消费资料的制度上,我们实行,或者力图实行高度公有的体制;资源配置方式上,我们试图国家大一统来分配生产资料和消费资料;对外经济战略上,我们走了一条进口替代和自我封闭循环的道路。这样的体制和道路使我们建国后到改革开放初的经济社会发展成功了吗?回答是否定的。
评价一国经济社会发展如何,应当以一些国际上已经研究成熟,并且为统计和经济学界通用的一系列指标,综合地进行衡量。首先,建国后到改革开放初,由于左的思潮干扰经济建设,使我们的经济总量和人均水平在世界各国的位次上不断后移,而且与许多国家发展的差距也越来越大。不论现在学术界怎样批判发展的唯GDP论,但是,GDP总量和人均GDP水平是衡量一个国家发展的最核心的指标,它代表着一国发展的生产力水平,而且是一个国家一切社会、政治、文化、国防等等事业的物质和财富基础,没有GDP持续和有效的增长,其他方面的发展便无从谈起。从经济总量和人均GDP水平看,1952年,中国GDP总量占世界GDP的比例为5.2%,1978年下降为5.0%。人均GDP水平按当时官方高估的汇率计算,也只有224.9美元。1948年,中国人均GDP排世界各国第40位,到了1978年中国人均GDP排倒数第2位,仅是印度人均GDP的2/3。从人民生活水平看,1976年全国农村每个社员从集体分得的收入只有63.3元,农村人均口粮比1957年减少4斤;1977年全国有1.4亿人平均口粮在300斤以下,处于半饥饿状态;1978年全国居民的粮食和食油消费量比1949年分别低18斤和0.2斤;当年全国有139万个生产队(占总数的29.5%),人均收入在50元以下。
1978年全国有2.5亿绝对贫困人口。当年,失业的城镇青年2000万人,实际城镇失业率高达19%左右,居民食品消费占总其支出的比重,即恩格尔系数,城乡分别高达56.66%和67.71%。1980年时,城乡居民家庭的耐用消费品,主要是缝纫机、自行车、手表、收音机,每百户的拥有率也只有5.5%、11.2%、15.7%、14.9%;黑白电视机的每百户拥有率也仅为1.6%;家庭电话非常少,即使按当时的公用电话计算,每百户普及率只有0.64部;而洗衣机还很少有,家庭轿车普及率几乎为零。居住方面,1978年时,城镇居民人均居住面积仅为3.6平方米,农村居民每户平均居住面积仅为8.1平方米。据世界权威的经济增长学家麦迪森研究计算,1952年到1978年中国GDP的实际平均增长率只有4.7%。整个国家和人民的发展和生活水平,大多数发展和生活指标排在世界国家和地区170位以外,处于联合国有关部门和世界银行等组织划定的贫困线之下。
其次,发展经济学的理论认为,一个国家的发展,其现代化,核心是从农业社会到城市社会的结构转型。解放以后到改革开放初,中国人口城乡结构转型先是大起大落,后是几乎停滞。中国城乡人口的比例:1949年为10.6﹕89.4;1958—1960年大跃进,人口向城市转移过多过快,1960年时城乡人口比例为19.7﹕80.3;三年经济困难,1962年时,人口又从城市向农村逆转移,比例大幅度下降到了17.3:82.7,到文化大革命结束时的1978年,城乡人口比例为17.9﹕82.1。1952-1978年,中国工业生产增长了16.5倍,城镇人口比重仅上升了5.5个百分点,产业结构与城乡结构之间严重扭曲。1980年时,世界城市化水平为42.2%,发达国家为70.2%,发展中国家为29.2%,而中国城市化水平仅为19.4%,比发展中国家平均水平还要低近10个百分点。1950年时,韩国城市化水平为27%,1980年时,上升到48%,中国在城市化方面比韩国的差距拉大了20个百分点。从全国的人口城乡结构看,改革开放初时,82%的人口为农民,发展水平基本上还处于传统农业社会的状态。
GDP和劳动力就业的产业结构,也是一国现代化进程的重要标志。从产业结构看,建国三十年中,农业生产总值下降缓慢,农业剩余劳动力的产业转移更加缓慢。1950年中国GDP的三次产业结构为29﹕29﹕42,1980年时为21.6﹕57.8﹕20.6。纵向相比,农业份额下降速度较慢,第三产业比例大幅度萎缩。横向相比,1980年时,发展中国家的GDP结构平均为24﹕34﹕42,中国的工业化超前,第三产业的发展严重滞后。而从劳动力三次产业就业结构看,1950年为86﹕6﹕8,1962年为82﹕8﹕10,1980年为68﹕19﹕12;同期,韩国的劳动力就业结构从1960年的66﹕9﹕25,转型到1980年的34﹕29﹕37;发展中国家的劳动力就业结构从1960年的71﹕11﹕18转型到1980年的56:16:28。从GDP和劳动力在农业和服务业上的分布看,我国除了工业化超前外,1980年的水平低于世界发展中国家平均水平,仍然是一个落后和传统的农业国家。
再次,建国后的30年,除了军事工业技术某些方面有一些进展外,其他各方面的自主的科学技术进步步伐缓慢,与世界发达国家,包括一些新兴的发展中国家科学技术水平的差距越来越大,落后于发达国家40年左右,落后于韩国、巴西等发展中国家20年左右。
导致我国建国以来科学技术进步缓慢的主要原因是:1、正规的知识教育受到冲击。特别是文化大革命十年中,中等高等教育搞革命,中高等教育的考试被废除,一般的知识课程设置被打乱,中高等基础和专业知识被大量删减和简单化,耽误了一代人知识的教育的培养,科学技术人才匮乏。2、科技人员没有应有的社会地位,并受到歧视。知识分子排为臭老九,有专业知识的人往往被指责走白专道路;许多留洋回国的知识分子,在50年代被打成右派,在文化大革命中受到压制;特别是1966年后大规模动员城镇知识青年上山下乡,城市中的知识分子走五七道路,接受贫下中农再教育,荒芜了一代人的学业,耽误了一代人的事业。3、当时的环境中很难学习国外较为先进的科学技术知识。学习国外前沿的科学知识,包括学习国外先进的科学技术,很容易被认为是搞资本主义和修正主义;因为要通过外语才能看到国外科学技术方面的文献,当时的环境中会当成里通外国,被认为是敌特分子。实事求是地讲,建国后的30年,特别是文化大革命十年,科学技术进步的政治和社会环境是不堪回首的。
因此,建国后三十年的科学技术进步,有这样一些特点:1、国防先行,民用落后。上世纪60年代以来,我国在原子弹、氢弹和发射卫星等方面取得了进展,这对于奠定我们当时的国际地位,起了重要的作用。但是,在民用制造业、农业等领域,新技术新工艺的进展很慢,特别是东北一些老工业基地,有些工厂使用的还是日伪时留下的技术十分落后的机器设备。2、研究立项可能不少,能产业化应用的不多。在计划经济体制下,由于对科技人员发明创造没有激励政策,院所和大学的科学研究与生产实际相脱节,一些科学技术发明创造不能应用于实际,不能大规模产业化,不能变成现实的生产力。3、虽然对外交流方面比较封闭,但还是进行了三次技术设备的引进,对我国工业体系的技术进步起了重要的作用。第一次技术设备引进是1952-1959年。我们从愿意为新中国提供帮助的原苏联和其他社会主义国家引进技术设备,集中在冶金、动力、石油化工、矿山、机械、电子、汽车、拖拉机、飞机和军工等重工业部门。
第二次技术引进是1963—1966年。这次引进是在我国与原苏联关系非常紧张,国家经济还很困难的情况下进行的,我国开始从资本主义国家引进,主要引进补缺门的关键性生产技术,引进规模小,但影响大,引进重点开始由重工业转向解决“吃、穿、用”的工业项目上,而且引进了一些中小型项目用于企业的技术改造。第三次技术设备引进是1973—1977年,这次引进发生在文化大革命的后期,其背景是建国二十多年来,国民经济中的许多问题暴露出来,有从国外引进有关先进技术设备的必要性和迫切性,引进国仍然是资本主义国家。第三次技术设备引进的特点是:解决人民吃饭穿衣问题的项目占首位;引进规模是前几次中最大的;所引进的技术装置,具有大机组、大系统、高速、高效、自动控制、热能综合利用程度高等特点。在20世纪国外新一轮的电子信息、航空航天、化学合成、核能利用、激光、新材料、生物工程等科学技术步中,1978年时,除了较少的项目,中国在各个方面都处于空白。虽然建国后,我们也有一些重大的科学技术进步成果,但是与世界科学技术在战后的突飞猛进相比,我国科学技术水平仍然处于非常落后的状态。
20世纪50年代到70年代,各发达国家科学技术进步对经济增长的贡献率,分别从20世纪初的10%提升到了50—70%。而根据专家们的计算,我国科学技术进步对经济增长的贡献率,1952—1957年为27.78,1957—1965年只为8.24%,1965—1976年间更是仅为4.12%。因此,与世界科学技术进展相比,建国后到文化大革命结束,我国科学技术进步非常缓慢,对国民经济增长和社会发展的推动作用十分有限。
第四,交通和工业体系的建设和规模,反映一国的综合实力。20世纪70年代末,虽然我国工业体系中的重工业有一定的发展,但是,轻工业、交通、城市等等的建设与世界上发展较快的发展中国家相比,还十分落后;即使重工业,在技术工艺方面,差距依然较大。交通通信体系落后于印度。1980年时,建成通车铁路里程55321公里,平均时速只有40公里左右;公路通车里程88.8万公里,其中硬化路面公路里程为66.1万公里,没有一条高速公路;人均铁路和公路里程为0.5公尺和8公尺,铁路、公路、水运和管道等运输线路密度为1229公里/万平方公里。1980年印度铁路里程为6.13万公里,公路163万公里,人均铁路和人均公路里程0.9公尺和23公尺,分别是中国的近1倍和4倍,铁路、公路、水运和管道等运输线路密度为5715公里/万平方公里,是中国的4.65倍。
通讯方面,1980年中国每百人拥有的固定电话只有0.19部,印度则为0.43部,是中国的1倍多。
工业体系方面,建国后纵向比较,有长足的发展。整体上看,到1980年,全国工业总产值4703亿元,比1949年增长46.3倍,工业收入在国民收入的比重由1949年的12.6上升到1980年的45.8%;从1949年到1980年,主要工业品产量在世界的排位,钢由第26位上升到第5位,煤炭从第9位上升到第3位,发电量由第25位上升到第6位;化纤和电视机,1949年我国根本没有产量,1980年这两项在世界上的位次是第5位。但是,由于人口众多,人均工业品产量在世界各国比较看水平还是很低。如1980年时,与世界一些发展中国家相比,巴西人均钢铁产量121公斤,人均发电量1880度,印度人均煤炭产量为168公斤,墨西哥人均原油产量1369公斤;而中国人均钢铁产量为36.7公斤,发电量297度,煤炭66公斤,原油105公斤,仍然低于这些发展中国家的发展水平。
20世纪50年代,通过第一次技术设备引进,我国的机械工业在短期内,就建设起了一批重型机械、矿山机械、发电设备、化工机械、炼油、采油设备,机床、汽车、拖拉机、飞机、坦克、船舶以及轴承、风动工具、电器、电缆、绝缘材料等制造工厂;60年代,在第一次引进的基础上,填平补齐,引进了一批新的技术设备,使我国的制造水平进一步提高,制造出发展原子弹、导弹和新型飞机所需要的新材料、新仪器和新设备,经过70年代的引进建设,我国基本上建立了一个比较独立、完整的工业体系和国民经济体系。如经过几次引进,我国建立起了石油化工、无线电、汽车、拖拉机、飞机、军工、化纤、电子计算机和彩色电视机等新兴工业部门。但是,从技术层次、装备状况、产业结构、生产规模,以及所处时段看,当时我国工业发展的整体水平,与世界各发达和新兴工业化国家的进程比较,实事求是地讲,总体上也只是在处在工业化的初级阶段。
建国后,如果党的中心工作集中在经济建设上,如果没有频繁的政治运动对科学技术的冲击,如果体制适应生产力的发展,如果国民经济象东亚一些新兴发展中国家和地区,象改革开放后每年以9.5%的速度增长,到1978年时,按1950年不变价格,我国经济总量将会达到7367亿元人民币,比当年实际的3645亿要多出3722亿元,人民币人均GDP将达到450美元左右,在世界各国中中国的发展程度就会排在下中等收入国家的行列中。如果在1978年7367亿人民币的规模上,即使改革开放以来每年以7.5%的速度再增长29年,2007年我国GDP总量,就会为401267亿元,人均GDP为30369元人民币,高于实际的人均18845元人民币。东亚发展中国家的货币币值,在战后高速增长的几十年中,由于经济对外依存度上升、商品价格差别缩小,以及生产力水平提高,即使扣除亚洲金融风暴时各国的货币贬值因素,相对美元也普遍升值了100%到200%不等。我们取中值按照150%的升值率衡量,如果没有建国后左的思潮对经济发展的干扰,2007年我们的人均GDP将达到11000美元,在2000年时,已经完成第一次现代化进程,现在已经进入了世界新兴工业化国家的行列。计算到这里,我们不能不为建国后三十年中,工作中心选择方面的重大失误,感到深深的痛心和惋惜。
总之,建国后到1978年的30年中,中国共产党人有着将中国建设成为世界现代化强国的强烈愿望,并为此进行了艰苦的努力和探索。但是,由于革命胜利后,党没有从一个工作中心为阶级斗争的革命党转变为一个工作中心为搞经济建设的执政党,对怎样搞社会主义经济建设并不熟悉,榜样上学习了苏联模式,而且在资源配置方式上实行了计划经济,生产资料所有上采取了一大二公的国有制、城镇集体所有制和农村人民公社社队体制,对外关系上走了自我封闭的道路,发展上倾斜于国防工业和重工业。其结果是:劳动生产效率较低,科技人员和企业没有创新和技术进步的动力来源,技术进步缓慢,投资建设浪费较大,三次产业结构和二次产业内部结构失调,二元结构转型进程停滞,与整个世界各国经济社会发展的差距越来越大。可以这样评价:建国后的三十年里,在全球经济社会发展的竞争中,我们走了弯路,延误了时机,可以说,成绩为三,问题为七。
回首当年,如果没有三十年以来的发展道路的调整,没有对三十年来对一大二公和计划经济的低效率体制的改革,如果不对外开放学习国外先进的技术和管理知识及经验,我们今天的经济和社会发展水平,毫无疑问,仍然会处在世界最贫穷国家的行列。1978年时,要不要改革开放,关系到占世界1/5人口中华民族走向繁荣富强,还是贫困没落之大事。这就是中国共产党人和中国人民,为什么在三十年前依然决然地选择改革开放这一决定中国命运的伟大事业,将其坚持了三十年之久,并且还要继续坚持下去的主要原因。
本文原发《学习时报》2008 年 09 月 01 日
何芊:游戏还是工具——生成式人工智能与历史模拟
一
“历史模拟”并不是一个新奇的概念。在教学中鼓励学生依照历史记录,重演历史角色或主要行为体的决策与行动,培养共情与同理心,体会历史中的能动性与复杂性,已是较为常见的模拟设计。不少以历史为素材的游戏同样作为历史模拟被引入课堂。历史游戏学者亚当·查普曼区分了两类历史游戏的模拟方式。其一是以《刺客信条》和《荒野大镖客》为代表的现实主义模拟。它们以精良的视觉效果还原了历史事件的节选片段与历史场景的局部空间,通过细节的仿真与过往的重现为玩家营造身临其境的参与式体验。其二是以《文明》系列为代表的概念化模拟。这种策略类游戏通过将历史对象、概念、进程以及历史观念写入游戏规则来模拟历史,比如《文明》系列的设计逻辑就出自保罗·肯尼迪的《大国的兴衰》。这种模拟允许玩家在规则之内自由发挥,组合出架空的历史,演绎开放式的走向。
无论是让学生扮演历史中的行为体,还是在游戏中“亲历”虚拟的历史场景,抑或是通过玩法与规则理解历史阐释的逻辑,教学中的模拟设计都无可避免地存在着简化和泛化历史的倾向。虽然游戏化的历史与历史本身之间的关系存有较大争议,但这并未妨碍游戏化的历史模拟进入到课程教学之中。游戏与模拟的边界模糊,或者说是历史模拟的游戏化,默认了事实与假设、历史与仿历史之间不可逾越的鸿沟,这恰恰是历史课堂中接纳模拟的前提。
将模拟视为研究工具的历史学家更多集中在计量史学及其他交叉领域,这些研究方向往往拥有丰厚的理论与数据资源。20世纪60年代,伴随着计量史学的诞生,模拟方法进入到史学研究当中。第一代计量史家罗伯特·福格尔和约翰·迈耶等人奠定了反事实推演的基础方法。这一时期模拟与历史的结合还有两种形式:一是利用文献记录为模型设计变量、提供参数设定的佐证。二是通过模拟结果与真实历史的比对来验证模型。从20世纪90年代开始,新一代计量史家进一步将反事实推演与蒙特卡罗模拟相结合,通过模拟实验,发现关键的因果关系,检验既有研究结论。历史模拟在计量史学中自证了其工具价值。历史事件没有简单重复,史学研究只能从已知过去的观察中抽丝剥茧、考镜源流,研究成果往往自成一说,高下难辨。如果真能对历史学的研究对象,比如经济发展的变化趋势、重大事件的爆发过程以及复杂系统的演化发展进行多次模拟观测,应当能帮助我们更客观地理解前人结论,更精准地揭示人类历史中复杂交错的因果关系。
二
即便集成了大量历史信息,结合了既有理论与统计学方法,传统模拟依然只能构造对现实世界的简化近似。传统模拟依赖于计算机随机过程的重复实现,以此生成特定条件下针对同一对象的多种可能结果。传统模拟的特点表现为系统内的信息交互以抽象数字为表征,模型的诸多参数由研究者结合前人成果自行决定。简言之,以数理逻辑为运行基础的模拟系统仍比较简单。而牵引历史变化发展的,不仅有数据指标所揭示的机械规律,还有弥散分布的大量非理性因素。历史情境内人的情感、好恶、偏见、道德、迷信,以及这些因素以语言为载体在群体与个体之间反复的交糅共振,都在左右着人的行动与选择。非理性因素错综晦暗,难以融入相对简化的数学模型。
生成式人工智能为传统模拟的不足带来了新的改进工具。首先,大模型具有繁复的计算结构,庞大的参数规模与海量的训练语料,足以支撑更复杂的仿真模拟设计。其次,大模型的行为选择由预训练和微调所决定,相较于原本由研究人员对参数赋值并结合随机过程而产生的模拟结果,更贴合现实。再次,大模型的模拟系统内部,信息交流可以用自然语言代替数字表征,与人类社会的语言交互模式更为接近。此外,大模型还通过对齐技术进一步向人类价值取向靠近。大模型在完成预训练之后,通过基于人类反馈的强化学习,实现与人类偏好、道德准则和价值观念的对齐。如果说传统模拟尚且是简化后的仿真,那么当下大模型对人类的模仿已几近“乱真”。比如由大模型合成的模拟受访者复现了人类被试在行为经济学和社会心理学等领域的部分经典实验结果。大模型的类人化智能在交互环境中也得到了印证。以外交谈判为核心的策略类语言桌游《外交》,讲求多人博弈之中的意图识别、谎言洞察、信任获取以及协商合作等综合能力,经过特别训练的大模型已能在网络对战中达到优秀的人类玩家水平。
不仅如此,大模型还可以驱动多智能体的仿真模拟系统(Multi-Agent Modeling, MAS),这也是近来历史模拟所采用的方法。智能体仿真模拟原本是社会学家用来探索个体与系统、微观与宏观之间互动关联的路径:通过创建多个自主智能代理,在计算机的模拟环境中观察智能体之间、智能体与环境之间基于给定规则的相互作用,从而解释微观个体行动如何导致复杂系统演变的“涌现”现象。大模型的能力跃升,对人类智能的趋近,同人类价值观念的对齐,都进一步提升了智能体模拟对人类社会的仿真度。在此基础上,原本因化约而备受批评的历史模拟也展现出新的可能性。新一代的历史模拟将重大事件的主要参与方构建为多个智能体,利用真实的历史情境设定智能体的参数,制定智能体之间的行动规则,并通过大模型的运行环境来模拟多智能体之间的交互过程,从而分析历史事件爆发的因果机制。
新的历史模拟在外交史和战争史领域已有初步展现。罗格斯大学与密歇根大学的联合团队以一战前夕的英、法、德、奥匈、塞、俄、美、奥斯曼等国为原型创建了多智能体系统,其中,代表各国的多智能体在结盟、备战与宣战的行为中较为准确地复现了历史中的国际关系。类似的方法还被用来模拟第一次英法百年战争期间的重要战役,以证明由智能体所演绎的将军与军士可还原战役的主要结果。从这些尝试看,历史模拟与侧重理论探索的试验性模拟不同:其一,模拟系统的有效性需比对真实历史来验证;其二,模拟对象应当采取匿名化处理,以避免大模型调用历史知识,干扰模拟系统。不过,所谓复现历史,标准尚无定论,仍由研究者自行设定。比如在战役模拟中,研究人员利用英法最终伤亡率的高低比值,与史载对照,以此判断仿真是否成功。史实与模拟之间的拟合误差,也缺乏公认的基准。在一战模拟中,国家间结盟、宣战与备战的复现,最高准确度分别为77.78%、54.6%以及92.09%。这些数值能否证明模拟成功,可能还需更多讨论。
三
当然,依托于大模型的历史模拟仍然存在不少局限。首先,模拟依旧是对历史情境的抽象和简化。智能体的行动范围局限于研究者指定的有限选项,而选项设计往往紧扣论题,容易出现简化后的偏移。比如围绕战争爆发设计模拟,国家智能体的行动选项中,导向冲突的选项更多,而和平类行为不足,若是设计逻辑缺乏其他依据,那么由模拟结果得出战争不可避免的推论难以令人信服。其次,语言对模拟结果的诱导作用无法被排除。模拟的主要环节,包括智能体的参数设定,智能体之间的互动方式,以及触发行动的事件本身,都要通过自然语言的描述来实现。模拟中的智能体行为究竟是复现了决策,还是停留在语言关系推断,实难分辨。再次,通用大模型的预训练语料主要来自移动互联网时代,本就存在“近因偏见”,如果不在微调环节令模型接受历史语义训练,模拟可能难向近代以前延展。除此之外,大模型的幻觉文本、价值偏见,以及模型不定期更新导致的实验结果无法重复,这些固有疑难同样也在挑战着历史模拟作为研究方法的可靠性。
尽管有种种不足,但新一代的历史模拟依然具有不容忽视的发展潜力。作为一种研究工具,大模型驱动的历史模拟需要更多的检视与讨论。有一部分问题可以改进:比如通过消融实验,或结合史学研究成果,能衡量或优化模拟系统中的组件设计;采用开源模型,进行本地部署,并介入微调环节,能提升大模型生成内容的稳定性,也能令模拟更贴合历史语境。即便新的模拟方法仍远不足以还原复杂历史情境,但简化的历史模拟设计已足够在教学场景中迭代传统的课堂模拟。大模型不仅可以实现原本由学生扮演的模拟,还能翻转学生的参与方式,让他们从角色扮演者变成模拟设计者。学生利用提示词,描述具体场景,拟定大模型的“人设”,并同其他同学驱动的大模型角色展开对话,完成一场基于历史的语言游戏,这无疑能激发学生主动求知的热情。总之,无论作为游戏还是工具,生成式人工智能都带来了全新的增量。
本文转自《光明日报》( 2025年02月10日)
李金操:“里斯本丸”沉船事件的本事、记忆与纪念[节]
1942年10月1日,日本政府运送盟军战俘的船只“里斯本丸”沉没【1】。二战期间,随着侵略范围的不断扩大,日本国内众多劳动力被征召入军。为解决本土劳力资源短缺问题,日本政府派遣船只将大批盟军战俘运往日本充当苦力。因运输环境极其恶劣,不少战俘在运输过程中死亡,美国学者米切诺将此类船只表述为“地狱航船”【2】。“里斯本丸”是众多“地狱航船”中既普通又特殊的一艘:说其普通,是因为该船仅是日本陆军省征召之众多民用商船中的一艘【3】,在型制功能和任务执行方面并无特别之处;说其特殊,主要在于船只沉没之际,日方负责人曾欲屠杀全部战俘,此举可谓相当匪夷所思。沉船事件不仅将英、日、中等国卷入其间,更是引发了一场持续数十年的史实论争与记忆重塑。
……
一、虚假记忆的建构
“里斯本丸”原是日本邮船株式会社名下的民用货船,该船总长445英尺(135.6米),实测排水量7053吨,净排水量4308吨,运输规模尚称可观。抗战前后,该船主要在东亚、东南亚、南亚海域执行运输任务【8】。1942年9月,伪“港督”矶谷廉介在日本政府要求下,开始着手向日本本土运送羁押在香港战俘营内的白人战俘。“里斯本丸”号承载人员于当月26日集结完毕,共计有日本军人、乘客778名,英俘1816人,此外还有1676吨战略物资【9】。
9月27日,“里斯本丸”正式起航,是当月离港的第二艘战俘运输船【10】。未料几日后的10月1日,船只在航行至舟山列岛附近时,因遭美国潜艇攻击而沉没。消息一出,引发舆论关注。最先报道“里斯本丸”沉船事件的是日本媒体,10月8日,日本官方喉舌——《朝日新闻》刊登两则相关报道。第一则报道中,日方强调该船是“载有1800名英俘及少量日军官兵的陆军运输船”,凸显船只“战俘运输船”身份的同时,隐瞒该船运送大量日军,即具备军用船功能的事实。日方首先披露,该船遇难并非因自身或环境原因,而是“遭美潜艇袭击而沉没”。事故发生后,日军“立刻派船前往现场救援,救起了数百名英军”。在此基础上,第二则报道意在论证“英美敌军”的不人道。论者旁征博引,结合“里斯本丸”“哈尔滨丸”“朝日丸”以及停靠在马来海岸哥打巴鲁海边的医疗船等一系列所谓非军事船只被英美军队袭击的事件,在充分“证实”英美军把“国际法如同草鞋一样丢弃”之观点的基础上,深入“印证”英美军“非法不人道”的结论【11】。
与此同时,为日方掌控之中国沦陷区媒体也在借“里斯本丸”沉船事件大作文章。奉天(今沈阳)的《盛京时报》声称“英美现在已漏出了图穷匕现的情况,唯以其穷途末路,所以竟而不择手段,不辨识清楚,莽撞地把搭载自己方面俘虏的日本船只给击沉”的行为实在“滑天下大稽”,同时不忘强调“日船载送英俘虏兵,原为使之居于安全所在”,嘲讽盟军的同时彰显日方的“光辉”形象【12】。北平的《晨报》在讥讽美方潜艇“盲目妄为之行动,终于引起将自己联合国之俘虏葬入海底之可讥事态”之余,结合当时美国出动军队帮助英国守戍英属殖民地的背景,将装载英俘之“里斯本丸”被美潜艇袭击一事视为美军对英属殖民地“暴行”的延伸,并意味深长地表示“此美潜水艇击沉英兵俘虏事件,所予英国民之影响,极堪注目”【13】;张家口的《蒙疆新报》也有“其(美潜艇)盲目行动,遂惹起使自己联合国之俘虏葬于海底之事态”,以及“将英兵俘虏收容船击沉,因此与英国民之影响,殊惹注目云”等语【14】,离间英美同盟的图谋跃然纸上。
显然,在沉船事件发生后,日本政府很快主导其所掌控下的舆论,刻意塑造出一段有利于日本国家形象和国际地位的历史记忆。纵观日方关于“里斯本丸”沉没事件的报道,主观性宣泄较多而对事件本身的客观性记述乏善可陈,尤其是隐瞒了该船运送战俘的主要目的,并在关键节点上语焉不详。可以想见,其宣传并不能令反法西斯阵营,特别是英国满意。侵华期间日本对占领区舆论的管控十分严格,周边报纸均无刊登对日方不利言论之条件,故日方想当然地认为可以独享该事件的叙述权和解释权。由于反法西斯阵营各国仅能基于日方提供的只言片语了解和跟进“里斯本丸”事件,故而很难明晰事件全貌。
鉴于所知讯息有限,英国在最初围绕沉船事件与日方展开交涉时,一直秉持措辞谨慎的态度。得知“里斯本丸”沉没导致千名英俘溺亡后,英国政府迫切想了解幸存英俘的消息,于是委托中立国瑞士代为咨询。10月13日,瑞士驻东京公使致电日本外务省,代英方表达了“希望能够尽快向英国政府报告相关信息”的意愿【15】,但日方却置之不理。10月19日,英方又通过国际红十字委员会向日本政府发送电文,希望相关机构“将船上所有俘虏的姓名写封电报发还”【16】,日本仍不予理会。英国政府见状,于10月下旬再次通过瑞士向日本政府传递消息,希望瑞士驻日本公使代替英国“访问拘留在收容所中的俘虏”【17】。但日本似乎心中有鬼,不仅不敢让战俘与外界接触,甚至拖延一个多月才勉强答复,且给出了完全否定的答案——“根据情况,此次许可是难以实现的”【18】。显然,日方不愿给他国了解真相的机会。日本欲盖弥彰的行为引起当事国英国的警觉,但英国政府苦于所掌握信息有限,难以采取进一步措施。
事情很快发生转机。三位被中国渔民营救的英俘被成功护送至安全区域后,日方极力隐藏的真相被初步揭露。12月5日,《中央日报扫荡报联合版》提到有船只运送大量英俘,在北上途中因潜艇袭击而沉没,英俘伊文斯等三人艰难“脱险”,正在中国游击队帮助下“赴渝”【19】。该报道暗示,日方相关宣传是否属实,可得以验证。12月19日,《中央日报扫荡报联合版》再次刊登一则相关通讯,指出“里斯本丸”英俘“华莱士、尹士等数人”在中国民众帮助下逃出日本封锁,正在向安全地带转移。该通讯还提到驻港日军在香港集中营“对待英俘,极为残酷”,强令“不得一饱”之英俘“均次服苦役”,并时常实施“侮辱”或“枪杀”。此外,该通讯还首次提到日方此次运送英俘是为将他们“送入工厂,罚充苦役”【20】。虽然该通讯未对日方前期报道进行针对性批驳,且未描述沉船经过,但它首次揭露了日方对“里斯本丸”所载英俘政策宣传的虚伪,不失为一有分量的质疑。
伊文斯等战俘抵达重庆后,英方大使馆相关人员通过三人口述了解到“里斯本丸”沉船事件的经过,并通过重庆军事参战处,于12月22日将有关信息传递至英国【21】。依据三位英俘传递回来的讯息,《泰晤士报》于次日刊登一则通讯,重点强调以下信息:其一,“里斯本丸”受袭当天傍晚,日方下令封闭战俘所在船舱,导致若干战俘在船只沉没前非正常死亡;其二,日本弃船离开后并未打开封闭的船舱,战俘们自行撕开密封帆布,才为获救争取到一线生机;其三,包括伊文斯等三人在内,不少战俘在游至日方救助船只时,日方并未理会;其四,一些本可以获救的战俘在落水后被日本无故射杀;其五,有不少英俘在中国渔民的帮助下获救;其六、日方救助船虽然也救起一些人,但并未全力施救。此外,英方通讯还首次公布了获救英俘的姓名和被俘前的职务,以便向国际舆论明确通讯确实来源于当事人,且内容真实可靠【22】。自此,英国政府终于通过英方当事人,掌握到关于沉船事件的可靠讯息。
既已明了事情经过,英国政府一改往日交涉时的谨慎态度,开始借沉船事件抨击日方的卑劣行径。1943年3月26日,英国政府再次通过瑞士向日本政府传达外交文件,强烈谴责日方在船体受损后“不顾战俘,任其自生自灭”的行为,以及封闭船舱等促使战俘处境急剧恶化的行径,要求日本政府对沉船事件展开调查,将有关结果尽快通报,对相关负责人进行处罚,并承诺此后不再发生类似事件【23】。收到抗议后,包括日本驻瑞士公使铃木、日本陆军省次官富永恭次和外务省次官松本俊一殿在内的一批高层官员着手研究解决方案,在此期间,他们都极尽可能为日本相关人员进行开脱。铃木声称日方已在救助问题上“尽了最大努力”,因而“不应对参加行动者有任何批评”,同时强调其本人“很难认同英国政府所提抗议理由”【24】。富永恭次、松本俊一殿认为英方抗议“完全就是捏造的”,其目的便是“意图诽谤我们帝国的正义之姿”;他们还强调“遇难时,护送人员,船长及下属船员都跟着俘虏行动到了最后一刻,其中还有一部分人员壮烈牺牲”,并附言“遇难时的具体细节只有当时担负任务的人知道”,英国无权质疑【25】。
日本外务省于5月20日通过瑞士驻东京公使馆,对英国政府的抗议文书进行正式外交答复,声称“英国政府以毫无事实依据的情报为基础,对帝国当事人采取的妥当措施进行毁谤”,并强调日方全体人员已为英军战俘的人身安全“战斗到了最后一刻,甚至牺牲”,被救助的900多名俘虏就是“对英国政府抗议中捏造事实的最好回击”【26】。在外务省给予正式书面答复的同时,陆军省俘虏情报局也出台文件,对英方抗议声明所提内容逐条批驳,诡称日方是为避免战俘骚乱才不得已将英俘关押于船舱内(实际是封闭船舱)【27】。为应对英方驳斥,俘虏情报局还向外务省提出三点“建议”:其一,英方抗议“完全是捏造事实”,是为“毁谤我们帝国的正义之姿”,外务省需“以强硬的态度对此予以反驳”;其二,推断英国是通过俘虏患者与外国代表之间的邮件往来而取得相关“歪解”,建议“相关管理者有必要注意”;其三,虽然此次事件经过已在适当时间正确处理,但今后类似事件很可能成为“敌方外交战略宣传上的手段”,日方当事人“需要将足以粉碎反击的资料尽早送至相关当局”【28】。陆军省俘虏情报局等机构似已沉浸在“日方在拯救‘里斯本丸’运载英俘上展示出了正义且光辉的帝国形象,英方对日方的诋毁讯息纯属捏造”的认知中难以自拔。
王明珂指出,对于已发生的事情,人们的记忆“常常是选择性的、扭曲的或是错误的”【29】,其主要原因是一个族群往往通过塑造或强化集体记忆的方式来与“其他群体的社会记忆相抗衡”【30】。“里斯本丸”沉船事件发生后,日本政府凭借信息垄断的优势,通过舆论媒体,对外传递“美国潜艇不顾国际公约,无故攻击日本战俘运输船”,以及事故发生后“日本方面竭尽全力拯救数百名英俘”等讯息,迅速构建起对日本形象绝对有利的社会记忆,借此对抗美英等国的反法西斯同盟。当英方通过伊文斯等三位英俘了解到事情经过后,立即着手批驳日方虚假宣传,希望通过澄清事实等方式打破日方宣传的影响,但从以驻瑞士公使铃木、陆军省次官富永恭次和外务省次官松本俊一殿为代表的日本政府高层官员对英方外交诉求的驳斥可窥知,日本精心构建之扭曲记忆对日本社会的影响业已根深蒂固。
在日本有意建构扭曲记忆以对抗反法西斯同盟的情况下,单凭外交手段,很难达成重塑相关记忆的目的。暴行暴露后,日本非但没有迷途知返,反而竭力扭转事件走向。1943年,日本大阪出版社出版发行的《大东亚战争记录画报》后篇收录了三篇与“里斯本丸”事件有关的文章。第一篇题为《美国潜艇在东支那海的暴举》,内容与《朝日新闻》第一则报道类似,唯在用词、叙事上更为考究。文章将“里斯本丸”运送的陆军官兵美化为英方战俘的护送者,为该船搭载军队谋求一合理解释。此外,该文在描述日方“立刻派出救助船”的同时,强调他们“经过努力”才“成功救助数百名英国俘虏”,进一步凸显日方“英俘拯救者”的形象【31】。而题名为《揭露美军之凶恶,连友军也屠杀的背信弃义行为》的文章则与《朝日新闻》第二则报道有一定区别,主要表现为日方已不再用“英美敌军”等将英美视为牢固同盟的表述,转而单独攻讦美国。日方称“美国终于露出了其凶恶的獠牙”,贬斥“将道义挂在嘴边,时常自我宣扬为正义的拥护者”的美国是一个“连至今一起扛枪的战友英国也无情打击”的“背信弃义”国家,同时将美国保护英国海外殖民地——爱尔兰岛、格陵兰岛的举措描述成“强行派兵入侵英国领地”。该文预言美国还会“不断采取手段谋取英国的澳大利亚、印度等殖民地”,进而“夺取过去几百年来英国的世界霸主地位”。与此同时,日本将所谓日方不念旧恶、救敌性命的行为与美方之“背信弃义行径”进行对比,借此彰显所谓的“大日本帝国的正义身姿”【32】。显然,此时日本政府的主要宣传目的已由最初的凸显“英美敌军的不仁道”转变为“尽可能孤立、打击美国”。最后一篇题名为《天罚》的英日文对照文章是上篇内容的延续,有“此次事件在敌方阵营中会掀起怎样的风浪,就让他们自己解决吧”之表述。英日对照的形式显示出日方希望该文内容能影响到西方世界【33】。
至此,日本社会对“里斯本丸”沉船事件的认知并没有因英方交涉而有丝毫改变,沉船事件依旧是不同国家各执一词的罗生门。
二、沉船事件本事
在日本传统文化中,存在一种根深蒂固的“对名誉的义理”理念:“即使做错了,只要别人不知道,名誉就不算受到损害。”【34】日本政府在“里斯本丸”沉船事件发生后所做的一系列虚假宣传,都可视为此理念的具体实践。不仅顽固坚称英方关于“里斯本丸”沉船事件的宣传属恶意捏造,此后每当反法西斯阵营抨击日方战俘政策时,日方都不忘以其在“里斯本丸”遭遇潜艇袭击后的“卓越表现”予以驳斥【35】,似乎只有日方构建的历史记忆才契合事情本源。
直到日本无条件投降,英国政府主导的香港军事法庭对相关战犯的审判工作宣告完成以后,“里斯本丸”沉船事件的全貌才第一次较为完整地呈现在公众面前【36】。在这次审判中,多位英方当事人出庭或提供宣誓证书,船长经田茂、翻译新森源一郎等战犯为了脱罪,也向法庭提供不少书面文件或口头陈述,这些材料包含诸多被掩盖的信息。实际上,“里斯本丸”共有7个货舱。在包括负责押运之日方成员在内的绝大多数当事人看来,战俘被集中安置在第1至3号三个船舱【37】,但根据经田茂出庭时对法官疑问的回答可知,英军战俘被集中安置在前4个货舱,之所以造成这种误解,主要是由于“2号舱和3号舱之间没有隔断”,导致它们被误认为是一个船舱【38】。
1942年10月1日凌晨2时45分,在“里斯本丸”航行至距离中国舟山列岛之东汀岛8海里海域时,天气骤变似欲降雨,海面能见度极低。为防止触礁,船长经田茂向东偏北60度方向调整航向,船只驶向离海岸线较远的深水区。5时42分,在航行27海里后,航向又向东偏北调整10度,稍稍向海岸线靠拢,以防敌袭【39】。早7时10分,身为船长的经田茂“稍稍打了个盹”,恰在此时,早已埋伏在附近海域的美军潜艇“鲈鱼号”向“里斯本丸”发射鱼雷,经田茂“错过了命令大副进行曲折航行的机会”【40】。船身被数枚鱼雷击中,其中有两枚发生爆炸,使船只失去继续航行的能力【41】。值得一提的是,日方不仅未在船身添加任何战俘运输标志,还在船首、船尾甲板上分别加装一门本不该出现在非军事船只上的火炮,加上日军频繁在甲板上活动,极易让观察者误认为该船是在执行军事命令,为“里斯本丸”被美军潜艇击沉预设了伏笔。
“里斯本丸”遇袭后,相关人员很快向外传递求援信号,并以船首火炮还击【42】。收到求援信号后,负责警戒舟山附近海域的上海方面根据地队(下简称上根队)第6警戒队(原第13炮舰队,下简称6警队)迅速组织救援。紧接着,第1、7、8警戒队也在上根队司令部的要求下加入救援行动【43】。最先抵达出事海域的救援军机迅速拱卫“里斯本丸”,向“鲈鱼”号可能出没海域投放深水炸弹,“鲈鱼”号难以发动进一步袭击,如此,“里斯本丸”避免被即刻击沉,得以又在海上漂浮约一天。由于受损严重,即便关闭船尾舱门,依旧不能阻止船身进水、下沉。15时20分,经田茂向最先抵达的救援船只——“栗”驱逐舰【44】发出“船尾正以每小时10英寸速度进水,6小时后水就会到达甲板”的信号;17时10分,该信号又被修正为“船尾正以每小时8英寸速度下沉,7小时后水会到达甲板”【45】。得知情况后,“栗”舰长于17时30分致电上根队6警队最高指挥官,指出紧急情况下应考虑先行转移全部日军;对于战俘,或是由于当时在场船只运载能力不足之故,“栗”舰长仅建议救助“半数”【46】。
据经田茂事后回忆,“17点左右”他通过旗语接到一个“用‘里斯本丸’上救生筏将船上所有日军转移至‘栗’驱逐舰上”的命令【47】,这当是“栗”舰长在传达上根队指挥官对其前所提营救建议的答复。该命令未涉及战俘群体,表明上根队最高指挥官在一开始就未有救助战俘之打算。在用救生艇运送三次日军后,6警队最高指挥官矢野美年大佐乘该舰队旗舰“丰国丸”抵达,从“栗”舰长手中接过现场最高指挥权。矢野美年并未改变此前所接命令,8时左右将剩余日本部队和乘客转移到附近舰只后,日方仍未将救护战俘纳入考虑范围,而是着手用牵引绳连接“丰国丸”和“里斯本丸”,意欲将“里斯本丸”拖拽至岸边浅水区【48】。以上信息表明,无论是统筹救援行动的最高指挥官——上根队司令,还是在场最高指挥官——6警队司令官矢野美年,对战俘生命均持漠视态度。这无形中助长了留在船上的两位日本军官——杉山中尉和和田少尉的虐俘气焰【49】。
当晚19时多,在“里斯本丸”上与经田茂、杉山、和田商议解决方案的矢野美年刚一离开,和田秀男便在大副陪同下找到经田茂,要求封闭战俘所在船舱,被经田茂劝阻【50】。第一次封舱要求被拒后,和田仍不死心,于21时纠合船上最高指挥官杉山,再次找到经田茂,以指挥警卫看管战俘是其职务,船长无权干涉为由命令封舱。因有杉山支持,经田茂命令大副执行了封舱命令——将木板在舱口铺齐,盖上防水油布,钉上楔子,并捆上绳索【51】。封舱之举可谓是丧心病狂【52】,战俘们本已超过24小时未补充食物、水及正常如厕,一旦封舱,缺少正常空气流通,战俘生命将危在旦夕【53】。当时即便是人数较少、关押战俘条件最好的1号舱,也有至少两位战俘因身体虚弱、缺少新鲜空气等原因死亡【54】,更遑论其他几个船舱【55】。是夜,战俘最高指挥官斯图尔特上校命令稍懂些日语的波特中尉不断向日本警卫和船员哀告,但日方人员毫不理会【56】。
如果说封舱之举是泯灭人性,残忍杀害努力自救以求一线生机之战俘的行径则称得上是丧尽天良。10月2日8时10分,“里斯本丸”船体向左倾斜7度即将下沉,经田茂向“丰国丸”打出“‘里斯本丸’即将沉没,我建议船上所有人员弃船”的旗语。8时20分时,“丰国丸”回复的指令还是“船上所有人员准备弃船”。但到了8时45分,该指令被修改为“把警卫和船员转移到即将开过去的一艘船上”【57】。显然,日方负责人刻意规避了战俘群体。在船只即将沉没的危急关头,2号舱几个战俘拼尽全力破开封舱口逃到甲板【58】,准备进一步打开其他3个船舱的封舱口,解救同伴逃生,但在船桥的和田秀男向卫兵“下达了开枪的命令”【59】,绝大部分战俘被压制回船舱【60】。万幸的是,冲上甲板的几个战俘中,有“一两个人躲在了甲板上的绞车后面”【61】,他们趁机打开几个船舱的舱口(第4号舱仅打开了舱门,舱口未及打开)【62】,为战俘们逃出舱体创造了条件。随着船只倾斜愈发严重,再不作为等同送死,1号舱战俘法瑞斯怒吼道:“我们必须死的像人一样,而不是像老鼠一样!”在其精神感染下,几位勇敢的战俘冲上甲板。此时船身即将沉没,2、3号舱的许多人“正在逃生”【63】。战俘们在帮助舱内战友逃出船舱后迅速跳海,如此才使得千名左右的英俘免于随船淹没。
“里斯本丸”上的英俘是运往日本的重要劳力资源,即便是出于该方面考虑,日方也应积极施救,更遑论国际人道主义理念的约束。但让人遗憾的是,10月1日17时左右通过“栗”舰长传达的将“所有日本部队转移至‘栗’驱逐舰”上的指令表明,上根队司令官并无救助战俘之意【64】。18时左右,矢野美年率领“丰国丸”“百福丸”等日舰抵达出事海域后,“里斯本丸”附近的船只运载量已足以救护全部英俘,但矢野美年仍未更改前令,亦证明救援行动指挥高层内部已达成“不用顾及战俘安危”的共识。正因如此,负责船上警卫工作的和田秀男才胆敢纠集杉山中尉向经田茂施压封仓,亦敢悍然在2号舱战俘第一次冲上甲板时命令警卫开枪。如果说封舱、射杀第一次出舱英俘的举措只代表和田秀男等少数在场底层日本军官的意见,那后来战俘跳海后的遭遇足以证明,将所有英俘葬身大海本就是日方最高指挥官的本意。
“里斯本丸”即将沉没之际,预感危机将至的战俘们协力逃出船舱,跳海求生。当时有至少20艘救援船只围绕“里斯本丸”【65】,且从战俘跳海至船完全沉没期间至少有一个半小时可以“在没有危险的情况下进行救援工作”【66】,泅水战俘本应轻松获救。但据战俘回忆,日方人员不仅不主动施救,当他们好不容易靠着救援绳索爬上日舰时,日本士兵迅速将他们“踢进水里”【67】。事实上,日方采取的最普遍做法并不是“踢”而是开枪射杀,这在幸存战俘的回忆中有充分表述:伊文斯在描述沉船细节时指出,有部分战俘跳海后“被日本人射杀”【68】;迈尔斯在回忆落水后的经历时指出,日军曾用步枪对在水中挣扎的英俘实施“持续射击”【69】;豪威尔在落水后曾听到附近有持续数分钟的枪击声,并亲眼目睹一位离他约2码距离的同伴被日军射中【70】;查利斯等人在跳海后的第一反应是“向船只游去”,但他们很快便遭到日方射击【71】;希尔在落水后发现在其游往岛屿的路线上“有一些日本巡逻艇”,艇上的日军在“用机枪和步枪向水中的人射击”【72】;克拉克森跳海后周边有数艘日本船只,但上面的士兵“丝毫没有要救我们的意思”,且只要战俘们靠近日船,便会“被射杀在水中”【73】。战俘们的回忆印证了射杀举动不是个人行为,而是集体行径,日本士兵显然是在执行上级命令。
“里斯本丸”沉没的地点位于浙江省舟山市定海县东极乡,这里的渔民有救助落水者的传统。船只沉没的动静很大,惊动了岛上居民。当渔民发现落水英俘后,果断实施救助,与正在实施射杀的日本官兵形成鲜明对比。在2021年12月17日中国中央电视台“国防军事”频道播出的纪录片《亚太战争审判》第3集《活着回家(上)》中,幸存英俘丹尼斯·莫利回忆到:“是中国渔民的出现改变了一切,当他们出现,日本人看到他们,就停止了射击”;“如果不是看见中国帆船里的中国人救了很多战俘,日本是不会改变主意来接走战俘的”,汉密尔顿在香港军事法庭上提供的证词中也有类似表述【74】。中国渔民的加入超出日方预期,使现场局面愈发复杂。
抗战期间日本极力宣扬由其为主体的“大东亚共荣圈”,诡称其发动的是一场肩负“东亚全体民族兴废”“为要确立大东亚永远的和平”“决然而起对于中日共同敌人英美”的必胜战争。在其宣传口径中,“日本就是因为要救东亚而与敌人交战”,所以“友邦日本的敌人”就是“中国的敌人也就是全东亚民族的敌人”【75】。日本军人政客对于英国俘虏的极端仇视心理,与上述军国主义宣传不无关系。而中国渔民救助英俘的行为,不仅与日本所谓黄种民族共同抗击白种民族的宣传相悖,更无形中映射出日方的卑劣。由于中国渔民的干预,日方负责人出于控制局面等因素考虑,下令停止射击。在离“里斯本丸”约一英里远的一艘日舰发出“停止射杀英俘的”信号后,射击行为很快停止【76】。日本士兵听从官长指令停止射击一事同样从侧面证实,之前的射击是在执行上级命令。此后,日本方面停止了对英俘攀靠日本舰只的阻拦,并逐渐开始主动解救泅水战俘【77】。根据当日13时51分矢野美年发送给上根队指挥官的电报,日方最终救起644名英俘【78】。
当时东极乡渔民没有现代化船只,只能依靠平时打渔的小木船,运载能力有限。为最大限度实施拯救,不少船只往返多次,救助行动一直持续到深夜。由于地理位置荒僻、物资匮乏,加上战争影响,渔民生活相当拮据,但他们尽最大努力照顾获救战俘,无偿为他们提供衣物、饭食、沸水和住处【79】。根据《亚太战争审判》第3集《活着回家(上)》播出的幸存英俘查尔斯·佐敦口述资料(藏于伦敦英国战争博物馆),佐敦与十几位同伴被中国渔民救起后,渔民们对他们“非常非常好”,还给了他们米饭和红薯。中国渔民的勇敢无畏和真诚无私给幸存英俘留下了极为深刻的印象,以致70余年后,对过往很多事情都已遗忘的幸存英俘贝宁菲尔德在面对纪录电影《里斯本丸沉没》制作团队采访时,还清晰记得他“一生中吃到的最美味的食物”,是被救起后中国渔民给他的“半块萝卜”。贝宁菲尔德还感叹:“他们冒着生命危险救了我们,日本人有可能因此摧毁他们的整个村庄。他们是真正的英雄!”
根据10月3日晚21时45分矢野美年发给上根队指挥部的电报,沉船次日,日方在青浜、庙子湖等岛屿上共搜捕英俘414人【80】,连同被中国渔民隐藏且最终被成功送至大后方重庆的伊文斯等3人,以及日方在中国渔民影响下救起的644人,共有1061名英俘因中国渔民的出现而免于随船湮没。这便是“里斯本丸”沉船事件的真相。
三、中英对沉船事件的纪念
反法西斯战争胜利后,各国人民沉浸在劫后余生的喜悦中,暂时忘却战争带来的苦痛。受大环境影响,“里斯本丸”事件幸存者最先想到的并不是开展对逝者的缅怀,而是践行对恩人的答谢。自1946年9月王继能赴港后,伊文斯等人又先后多次邀请唐如良、翁阿川等人到上海或香港会晤,不仅设宴款待,赠送钱财、衣物,还设法帮助恩人寻找合适的工作【81】。
香港军事法庭审判结束后,英国政府也很快将如何答谢中国渔民提上日程。1948年4月12日,英国驻华大使特意致函中国外交部次长叶公超,商议答谢事宜。英国政府感谢了中国渔民的营救及其“以最大爱心给幸存者们食物、衣物和照看”的善行,并特地为渔民筹备专款。赠款形式颇为隆重,“国王陛下的‘康姆斯’号将于5月7日带着这笔款项前往东渔父岛访问,正式授予此项赠款”,为防止国民政府多心,英国政府特意强调“康姆斯”号驱逐舰“不带任何飞机”【82】。赠款仪式的落实有利于提升中国的国际形象,对坚固中英当事群体间的友谊亦大有裨益,这一建议本应得到鼓励,但相关文件转送至国民政府国防部审核时却遭否决。
国防部认为,国民政府正在舟山群岛筹建海军基地,英方的访问虽然名义上是为赠谢中国渔民,但暗地里很可能是为窥探海防虚实【83】。1948年国民政府深陷国共内战的泥淖,英国访问东渔父岛的行为难免会触动当局者敏感的神经,故其并不愿意节外生枝。稳妥起见,国民政府提议委派浙江省政府委员周向贤代表渔民赴上海英国舰队司令部领取赠款。对英国而言,抗战胜利后国民政府在接收沦陷区时掀起的劫收风潮“闻名当世”,贪腐形象早已深入人心,英国政府不放心将此款项交给其官员。加之如果不能当面向渔民致谢,赠款仪式的纪念意义便会大打折扣,故英国政府未再回复国民政府,英舰造访一事不了了之【84】。
但在英国政府影响下,国民政府也于1948年10月25日下发对东极渔民的褒奖令。其实早在1946年12月,当年参与组织救助行动的本地乡民沈品生当选为东极乡长后,便曾提议将营救英俘一事“呈报政府备案”,但由于多数当事人以营救“为吾人应有之天职,罔求邀功”为由推辞,报备方案未得落实【85】。直至英国驻华大使致函叶公超,南京国民政府才开始重视此事,并立即着令浙江省政府查验事情真伪【86】。经层层落实,东极乡乡公所如数告知上级营救经过,并对当年参与救助的渔民登记造册【87】。下令调查时,国民政府已顺带告知沈品生英舰拟答谢渔民并赠款一事,故在沈品生上呈县政府的文件中列有赠款分配方案:“拟分别以两山(岛)发起救护赵筱如、吴其生等10人,及参与动员各船户暨冒险护送3英人至内地之唐品根等6人列为甲等,凡献衣供饭者列为乙等,其各帮同送衣服送饭者列为丙等,用示大公,以励将及义务来兹。”【88】
后来,英舰造访一事不了了之,为避免尴尬,国民政府要求“希酌定政府褒奖办法”【89】。10月11日,国民政府行政院内政部根据浙江省政府所呈当受褒奖人名册,发布褒奖令198件【90】。25日,定海县政府正式拿到由行政院内政部下发、浙江省政府转领的有关褒奖本县东极乡渔民的褒奖令,并将其发放给渔民。次日,《定海民报》对此事予以报道:“英人追怀旧德,尝有派舰至东极慰问及赉致谢金之说,嗣又有改由中央转发奖金之说,且一度层饬县府查复,案悬经年。今始奉到荣誉奖令,亦可谓久矣。”【91】虽然南京国民政府腐败无能,昏招频出,将英舰“至东极慰问及赉致谢金”这一简单事情神秘化、复杂化,导致本该大力宣传的善举“悬案经年”,但最终救助者也算“奉到荣誉奖令”,扩大了东极渔民营救英俘一事在地方上的影响。
派使者至东极乡当面赠予渔民专款的方案既不能实施,英国政府只能另想他法。1949年2月17日,英国政府在香港举行悼念“里斯本丸”英俘官兵遇难仪式,英港当局决定借机在香港皇后码头举行答谢舟山渔民典礼。答谢仪式由港督葛洪亮亲自主持,英国政府的重视程度可见一斑。典礼开始后,先由港督葛洪亮代表英国政府致答谢辞,简要陈述中国渔民营救英俘之经过,继而举行颁发答谢奖品仪式。奖品主要包括“海安”号机动渔轮一艘,以及为在营救过程中做出突出贡献者准备的奖金、奖状。在仪式最后,葛洪亮亲自为“海安”号剪彩,并示意该渔轮搭载来宾解揽出海,绕海面环驶一周后才返回码头【92】。客观来看,这次酬谢仪式存在很多不足:未邀请渔民代表参加;向渔民转赠奖金、证书的中间人胡栋林与舟山渔民并无太多交集;所赠“海安”号是汽油船,以当时东极乡的条件,根本无力维持其正常运转【93】。即便存在诸多不足,港督葛洪亮在现场千余人面前亲自宣扬中国渔民的正义形象,并通过隆重仪式表达英港当局感戴渔民救护英俘情谊的举措,依旧能在寄托幸存战俘情感、巩固幸存战俘与渔民间的情谊上发挥积极作用。
抗战胜利后,幸存英俘及英国政府主导下的答谢中国渔民行动很快成为这一时期中英两国纪念“里斯本丸”沉船事件的主流。英国政府为此特意策划一场造访赠款仪式,只是由于国民政府处理不当不了了之。为缓解“英舰恐不来”的尴尬,在“一度层饬县府查复,案悬经年”后,南京国民政府最终也下达了对渔民的褒奖令,从国家层面对营救义举给予了肯定。因不能成行东极乡,英国政府最终选择在香港举行答谢典礼,此举扩大了对中国渔民营救英俘义举的宣传,但也因缺乏渔民代表在场而留有历史遗憾。让人颇感无奈的是,南京国民政府未认识到“里斯本丸”沉船事件在宣传中国国家形象和巩固中英友好关系层面上的积极意义因而始终未有主动挖掘该事件纪念价值的举措。
1949年10月新中国成立,以美国为首的西方国家奉行孤立、封锁新生人民政权的政策,新生政权不得已采取“一边倒”的外交方针,加入以苏联为首的社会主义阵营。在此后相当长一段时间内,两大阵营意识形态的对立极其尖锐,中英关系难以融洽,这也影响了两国官方、民间交流活动的开展,进而影响到“里斯本丸”沉船纪念活动的深入推进。故新中国成立后,中英两国有关“里斯本丸”沉船事件的记忆长期处于尘封状态,未被全面唤醒【94】。
东欧剧变和苏联解体宣告世界两极格局的结束,开展“里斯本丸”纪念活动的外部条件初步具备。1991年12月,港英政府举办抵抗日本侵占香港50周年纪念活动,邀请参加过香港保卫战的250名老兵出席,成功出逃大后方的三名英俘之一的法勒斯也在受邀之列。法勒斯到达现场后“多次谈及他在浙江省定海县东霍洋遇救的经历,亟盼与舟山群岛昔日救命恩人重聚”,并在报纸上刊登“阔别香港四十载,亟寻救命恩人”的启事【95】。与此同时,浙江省舟山市部分政府工作人员也逐渐重视并开始着手挖掘“里斯本丸”事件背后蕴含的深层价值【96】。
2004年中英建立战略伙伴关系……为“里斯本丸”沉船纪念活动的逐步开展奠定良好基调。2005年是世界反法西斯战争胜利60周年,8月15日至9月5日,中共浙江省委宣传部、省政府新闻办公室等部门通过联合举办纪念反法西斯胜利60周年大型图片展,扩大对“里斯本丸”沉船事件的宣传,确保不少舟山以外的民众了解到东极渔民的英勇事迹【98】。除此之外,在浙江舟山和中国香港等地还举行多次有当年在场人士参加的“里斯本丸”沉船纪念活动。无论是当年参与营救的东极渔民代表应香港“二战退役军人会”邀请访问香港【99】,还是幸存英俘携家人来到浙江舟山东极海岛感谢恩人【100】,均使久被尘封的“里斯本丸”沉船记忆愈加清晰。
此后十年间,“里斯本丸”沉船事件受到越来越多的关注。在学术领域,以中国学者唐洪森、田庆华和英国学者托尼·班纳姆为代表的文史工作者开展了一系列卓有成效的研究,为学界了解沉船事件作出卓越贡献。在艺术领域,以“里斯本丸”沉船事件为主题的歌曲、影视作品和戏剧被创作出来并呈现给中英两国民众,客观上扩大了该事件在两国民间的影响力【101】。社会各界人士对沉船事件的关注推动了“里斯本丸”纪念活动的深入推进。2015年10月2日,浙江海洋学院隆重举行“里斯本丸”英军士兵遇难73周年暨中国人民抗日战争胜利70周年纪念活动,不仅中方相关人士积极参与,英国驻香港领事馆和退伍军人协会等组织机构也给予大力支持【102】,足见该事件的纪念意义及其背后蕴含的精神价值,已为两国人民高度重视。……
如今中英两国人民围绕“里斯本丸”沉船事件开展的纪念活动仍在不断推进,舟山本地热心人士与幸存英俘及其后人间的书信往来不断,并相约让双方下一代延续这份宝贵情感,使新生一代成长为“情感维系的传承者”,以确保“这份跨越中英两国的友谊长存”【104】。……
四、结语
“里斯本丸”事件是日本所制造的战时悲剧,若非中国渔民及时出现,船上1800多名英俘很可能会全部葬身大海。事件发生后,日本政府曾主导构建出关于“里斯本丸”沉船事件的虚假记忆,在掩盖运送大量英俘赴日做苦力及枪杀泅水英俘等真相的同时,借虚构日军是“英俘拯救者”来鼓吹所谓的“大日本帝国的正义身姿”。后来,英国政府通过中方护送至大后方的幸存英俘了解到事情经过,开始要求日本政府调查并公布事情真相。但由于此时日方建构的记忆已成功主导日本政府各机关工作人员的思维和意识,英国政府并未达成对事件正本清源的目的。直到世界反法西斯战争取得胜利,对相关战犯的审判结果公之于众后,笼罩在日方谎言迷雾中的真相才为世人所知,英方重塑相关记忆的工作才宣告完成。稍显遗憾的是,不仅重要历史事件的发生会受政治影响改变走向,记忆的修正亦会因政治力量的介入而有所迟滞。
中国渔民在营救英俘过程中表现出英勇无畏、无私奉献且不图回报的品质,受到获救战俘的高度肯定和赞扬。抗战结束后,幸存英俘和英国政府迅速着手对中国渔民实施答谢,两国围绕“里斯本丸”事件开展的纪念活动发轫颇早,但国民政府并未对中国渔民救助英俘的国际人道主义行为大力宣扬,错失了在国际舞台上展示中国国家形象的宝贵机会。新中国成立后,受冷战格局下东西方两大意识形态对峙的影响,相关纪念活动并未持续开展,与该事件有关的历史记忆也长期封存在当事者的脑海中,未被全面唤起。直至2004年中英全面战略伙伴关系确立后,借着两国关系步入“黄金时代”的春风,该事件背后蕴含的深刻价值才逐渐被两国政府和人民挖掘而重视,“里斯本丸”事件纪念活动才再次活跃起来。相比于官方路径,“里斯本丸”沉船事件的民间路径,即被救英俘与中国渔民之间的情谊自始及今,它在修正被政治力量遮蔽的历史真相之余,揭示出人性的温度和善意,这或许也是沉船事件至今仍为两国人民纪念的原因所在。
本文转载自《史学月刊》2025年第2期
侯卫东:中国古代理想城市规划理念探源
城市的出现是人类文明史上一座关键里程碑,古人通过营造城市而构建了全新的社会秩序、塑造了城市生活方式。城市自诞生以来就成为人群聚居之地、资源汇集之处,在古人身份构建中发挥了关键作用。以城墙为界限的地缘关系与以血缘为纽带的宗族关系深度融合,居住形态和社会组织之间高度耦合,共同形成了中国古代社会治理和宗族生活交织在一起的人文景观。
中国古代理想城市规划理念
学界一般认为战国时期成文的《周礼·考工记》,是现存中国古代最早对以王城为代表的城市规划进行理想化描述的文献,其核心文本为:“匠人营国,方九里,旁三门,国中九经九纬,经涂九轨。左祖右社,面朝后市,市朝一夫。”这种理想的王城由两重城垣相套构成,大城为边长九里的城墙围合的方形城池,每面设三座城门,四面环抱位居中央的宫城。这样理想的城市规划以大一统王朝的王城为基准,诸侯国都城、卿大夫采邑的规格则按照等差进行削减。在周王朝的天下秩序中,古人是否践行过这些理想城市规划理念,是追溯其历史渊源的关键环节。
(一)理想城市规划理念与鲁国营造实践
根据浙江大学陈筱博士的研究,可将《周礼·考工记》理想城市规划的核心内容提炼为:①王城由内外两重城垣相套构成,外城四面环抱着中央的宫城。②外城为边长9里(约合3750米)的正方形,每面设三座城门,城门内通城市干道而构成井字形路网,城内可能还有若干次干道。③城内的功能区有王宫、祖庙、社稷、朝堂和市场等,不论它们位于宫城之内还是散布在外城中,其相对空间关系不变。④王城有明确的南北中轴线,形成了显著的几何中心点,不同功能区的规模存在整数倍的比例关系,很可能采用了模数制进行设计。
陈筱博士认为《周礼·考工记》不是对既有城市模式的记录,而是在成书阶段并未完全实现的理想城市规划,描述的是周王朝理想王城的边界与规模,城门、干道、城市主要功能构成及布置,应视作中国古代理想城市的文本渊源。宋代以来的学者根据自己对《周礼·考工记》文本的理解,绘制有多种王城布局推测图,图中都有贯通全城的南北向中轴线,轴线南部通过穿越城门的主干道、北部指向宫城。中轴线控制着城市功能单元和道路的空间布局,轴线东西两侧的城区结构对称、功能元素彼此呼应。这种中轴线控制全城布局的推断,在周代都邑考古资料中也有与之相应的案例,比如曲阜鲁城的布局就有此类现象。
田野考古和研究工作确认的曲阜鲁城城墙,始建于西周晚期,鲁国是西周初年周公的封地,鲁城应当有更早的城市建置基础。陈筱博士通过对鲁城路网结构和地貌的勘探复原,将南北向纵贯全城、大致居中的8号道路指认为控制全城布局的中轴线,这条道路通过城内自然高地中部,其延长线连接城南礼制建筑舞雩台。曲阜师范大学徐团辉博士认为鲁城中部偏东的南北向9号道路连接周公庙宫殿区和都城正门南墙东门,共同构成一条南北向的宫城中轴线,这条中轴线很可能在鲁城最初营建之时就已设计;春秋晚期在周公庙宫殿区增筑了一座横长方形小城,南门设于南墙正中并与9号道路相连,更加凸显了9号道路的宫城中轴线地位。
曲阜鲁城8号道路及其延长线贯通的全城南北中轴线,控制着宫城及各类功能区划的方位、道路网络的布局、礼仪性建筑的选址、冶铸工业区的分布,将城市内外空间紧密连接起来,使整座城市秩序井然。9号道路贯通的是以鲁城宫城为核心的南北中轴线,控制着宫殿、宗庙、衙署等高规格建筑的布局,使鲁城的核心日常运转整肃有序。
可见,《周礼·考工记》理想城市规划理念在曲阜鲁城的营造实践中有很多体现,因为鲁国的始封君周公是周王朝制礼作乐的主要负责人,曲阜鲁城应当是按照周王朝诸侯国都城规制营造的典范,其布局应是《周礼·考工记》理想城市规划文本的重要依据之一。
(二)周王朝都邑制度的郑国营造实践
在周王朝及诸侯国的城市营造实践中,《周礼·考工记》理想城市规划理念是否按照等差体现在不同规格的都邑建置上?我们可以通过考察来判断这种理念践行的历史纵深。
文献上最早关于周王朝都邑营造制度的描述是《左传·隐公元年》记载的祭仲规劝郑庄公的话:“都,城过百雉,国之害也。先王之制:大都,不过叁国之一;中,五之一;小,九之一。今京不度,非制也,君将不堪。”这里的“先王之制”指周王朝早期就厘定的都邑营建制度,郑国这样的诸侯国从国都到最基层的城邑分为四个层级,可根据周代尺度转换成通行的表述方式:1.国都的城垣规制是三百雉,相当于“方五里”即每边城墙长约2079米的方城,面积约432万平方米;2.大都的城垣规制是百雉,相当于“方三分之五里”即每边城墙长约693米的方城,面积约48万平方米;3.中都的城垣规制是六十雉,相当于“方一里”即每边城墙长约415.8米的方城,面积约17.2万平方米;4.小都的城垣规制约三十三雉,相当于“方九分之五里”即每边城墙长约231米的方城,面积约5.3万平方米。
郑国是否实施过祭仲所说的都邑营造制度,是检验这种理想的都邑制度是否为历史事实的关键。
荥阳京襄城村一带的春秋时期古城就是祭仲所说的郑国京城遗址,该城平面呈纵长方形,南北长约1820米、东西宽约1460米,面积约266万平方米。京城平均边长约1640米,约合3.94里、237雉,其规模远超“大都不过百雉”的标准。《左传·庄公二十八年》说:“凡邑,有宗庙先君之主曰都,无曰邑,邑曰筑,都曰城。”公子段被称为“京城大叔”,可知京城最初营建时是一座“有宗庙先君之主”的郑国“大都”,其宗法和政治地位都很高,作为国都新郑西北方向国君直辖的“大都”应当符合制度,并不存在“不度”和“非制”的问题,只是后来作为公子段的“都城”才“不度”并“非制”。
荥阳南城村南的春秋时期古城是郑国境内的古城遗址,该城平面呈横长方形,东西长约770米、南北宽约675米,面积约52万平方米,是一座约合边长为721米的方城,城垣规格约合1.73里、104雉,相当于“大都”的规制。
新密古城寨古城内有丰富的龙山时期至汉代遗存,城墙至今在地面仍可见,春秋时期郑国境内显然也能看到这座古城的城垣。该城平面近横长方形,南城墙和北城墙均长约460米、东城墙长约345米、西城墙复原长度约370米,面积约16.5万平方米,是一座约合边长为407米的方城,城垣规格约合1里、60雉,相当于“中都”的规制。
荥阳娘娘寨内城营建于两周之际,后来又营建了外城。内城平面近方形,边长约210米,面积约 4.41万平方米。外城南墙长约1200米且西接索河,东墙长约800米且北接索河,南城墙和东城墙呈直角曲尺形连接在一起,与索河共同形成相对封闭的围合空间,北墙和西墙未找到。娘娘寨内城城垣规格约合0.5里、30雉,接近“小都”的规制,说明春秋早期郑国境内应当存在祭仲所说的“小都”。
上述案例表明,田野考古发现的春秋时期郑国城邑与《左传》里祭仲所讲的都邑制度有高度的对应关系,郑国境内符合“先王之制”的“大都”“中都”“小都”是存在的,周王朝这种理想的都邑制度至少在一定范围内实施过,是一定时空范围内的历史事实,并非没有实践的理想制度设计。
中国古代理想城市规划的渊源
《汉书·礼乐志》载:“故象天地而制礼乐,所以通神明、立人伦、正情性、节万事者也。”“王者必因前王之礼,顺时施宜,有所损益,即民之心,稍稍制作,至太平而大备。”在古人的认知中,礼制的核心是维护社会秩序,既强调对前代礼制的继承,又注重顺时施宜、因地制宜。以曲阜鲁城及郑国城邑为代表的周王朝诸侯国城市规划与营造实践,是《周礼·考工记》理想城市规划的直接实践渊源,也是对此前夏商王朝政治文化遗产的继承和发展,可以鲁城为基点向前追溯理想城市规划理念更早的历史渊源。
周王朝在武王、周公带领下追寻“地中”“土中”“天下之中”的过程中,舍弃了前朝故都“大邑商”,选择了更早的夏都故地二里头一带。西周初年青铜器何尊的铭文记载了成王追述武王的话:“余其宅兹中或(国),自之乂民”,把营建于夏都故地二里头附近的东都成周称为“中国”,即周公“乃作大邑于土中”的中央之城,体现了“择中立都”“建中立极”的政治观念。以二里头夏都为中心的中原腹地,在西周初年已经明确成为观念上的“地中”“土中”“中国”等四方仰慕的中央神圣空间,中国古代逐渐形成“居中而治”的传统政治观。
二里头夏都的营造以及中原腹地作为中央神圣空间的形成,有着深厚的历史文化积淀。4000多年前的龙山文化时代,出现了一次广泛筑城的浪潮。在中原腹地临近水源的高阜平坦之地,用黄土夯筑城墙;在城内居高居中之地营造贵族宫室和公共活动空间,民居、作坊和墓地有序安排;干道连接城门,地下陶水管、暗渠或明渠构成完善的给排水系统。龙山时代的筑城和宫室营造技术,为夏商王朝城市规划和营造实践提供了技术积累,成为中国古代城市营造技术的主流,也是重要的中华文明基因。
公元前1800年前后,中原腹地形成以二里头夏都为代表的二里头文化,是对此前中华文明肇始阶段文化的凝聚和升华。纵横多条十字正交的路网结构,将二里头夏都区划成网格状多宫格“里坊式”布局,宫城位居中部偏东南。每个网格单元都是面积10万平方米左右的纵长方形,并且长宽比例接近,路网形成之后不久又分别在多个网格单元的道路内侧营造夯土围墙。二里头夏都宫城内10余座大型宫殿宗庙建筑排列有序,采用回廊庭院式布局,即是其后数千年官式建筑四合院式布局的渊源。二里头夏都的规划理念和营造实践已有建筑模数的意识,体现了王都规划“模写天下”的宇宙观。
新郑望京楼二里头文化城邑(夏城)及二里岗文化城邑(商城)的选址和规划理念与二里头夏都最为接近,其城垣围合的面积约37万平方米、平面近菱形,商城内由道路及其延长线界隔成九宫格式布局,每个单元格的面积约4万平方米,相当于二里头夏都的缩略版。
二里头夏都以宫城为中心的“多宫格”布局、中轴线理念、四合院式宫室制度,以青铜礼器为核心的多材质组合的器用制度,以宴享、祭祀、丧葬为代表的礼仪制度等,创造了新的空间秩序和价值秩序,体现了更加成熟的王朝礼制。
商王朝早期以郑州商城和偃师商城两座王都的营造为引领,也出现了一次广泛筑城的浪潮。郑州商城营建在丘陵与平原过渡地带的高阜平坦之地,临近河湖等充足的水源,300万平方米左右的大城(内城)平面为纵长方形,东北角受紫荆山自然土岗的影响形成一个折角。郑州商城大城东北部发现的垣墙及其延长线,可将宫殿宗庙建筑界隔成多个“宫城单元”。也有学者结合夏商王朝都城布局特征和规划理念,提出“宫城”应在大城中部一带。根据目前的考古发现情况,郑州商城大城中南部很可能存在多个重要的功能单元。
郑州商城与历代郑州城重叠,很难对“宫城单元”或“网格单元”进行清晰识别,也无法确认其是否存在如二里头夏都一样的网格状“里坊式”布局。但这种将都城按功能区划分成若干单元的方式,无疑继承了二里头夏都的规划理念。在郑州商城大城之外,又结合周围岗地及河湖水系,因地制宜营建了防护范围达到1000万平方米以上的外城,实现了中原王朝都城的第一次超大型建设。郑州商城作为商王朝取代夏王朝前后营建的都城,继承了二里头夏都的营造技术和规划理念,又有很多创新和突破,比如上文提及的因地制宜营建了面积达到1000万平方米以上的外城,给排水设施更加复杂完善等,其都城规划和营造实践体现了商王朝建立者们的理想和追求。
偃师商城是在二里头夏都附近选择理想之地平地起建的,既有近在咫尺的二里头夏都作为模本,又有营造郑州商城最早一批宫殿宗庙建筑和宫城的实践经验,因而其营造可以更好地体现商王朝初年的建城理想。偃师商城首先营造了面积4万平方米左右的近方形宫城,宫城居于其中部偏南的位置,之后向外营造面积约81万平方米的纵长方形大城(早期大城,即考古报告中所说的“小城”),从而形成重城相套的结构。早期大城与宫城大体是同一条南北中轴线,且以此对称有序、布局严整地营造了多个近方形功能单元,每个功能单元约4万平方米。偃师商城西南角有一个约3.5万平方米的府库类封闭单元,西北角有一个约4万平方米的仓储类功能单元,而东南角、东北角的城墙都有与西南角、西北角相似的拐折,由此推测这两个位置也应有相对独立的功能单元。虽然目前还无法确认81万平方米的大城是否都用垣墙和道路界隔成“里坊式”的功能单元,但可以明确的是,其继承了二里头夏都网格状“里坊式”布局的规划理念,并且进一步发展了建筑模数意识。偃师商城功能单元的建筑模数明显小于二里头夏都的宫城,表明其规格低于真正的王都。偃师商城宫城内营建的东西两组建筑,每组建筑也依然遵循始于二里头夏都的南北向中轴对称原则。
郑州商城和偃师商城的城市规划,体现了商王朝“模写天下”的宇宙观和对都城秩序的追求,影响后世数千年的都城规划和城市营造。商王朝中期营建的安阳洹北商城,总体布局更加追求方正规矩、重城相套、中轴对称、四合院式建筑等,把“模写天下”的都城规划理念推向新高度。
这些自二里头夏都以来的营造实践积累的城市规划理念,包括城圈方正规矩、重城相套、中轴线控制全城、网格化分区规划、四合院式宫室建筑等,与后来曲阜鲁城代表的理想城市的早期实践有明显的渊源关系,当为《周礼·考工记》所载理想城市规划理念的历史渊源。
中国古代理想城市规划理念的赓续
中国古代理想城市规划文本形成之后不久,秦统一六国,建立了大一统王朝。《史记·秦始皇本纪》《三辅黄图》等文献记载表明,秦始皇重新营造都城咸阳的原则是“法象上天”,与理想城市规划“模写天下”的理念不是一个传统。西汉帝都长安城按功能区划营造多个宫城的方式,虽与理想城市规划理念有接近之处,但比起二里头夏都、偃师商城的布局,仍然因地制宜有余、规划严整不足。
后世都城营造实践中,在东汉魏晋帝都洛阳城基础上重新营造的北魏帝都洛阳城,是遵循中国古代理想城市规划理念的一个关键节点。洛阳城内,铜驼街北端连接宫城、南端延伸至礼制建筑圜丘,这条线就是控制全城布局的南北向中轴线,与曲阜鲁城的南北向中轴线非常相似;宫城和衙署之外,北魏洛阳城还有纵横交错的道路网络界隔的大量里坊空间,与二里头夏都、偃师商城的规划理念遥相接应。这些应当反映了从北方迁入中原的魏孝文帝竭力追求正统王朝理念的迫切心情。
北魏王朝的后继者东魏北齐在北魏洛阳城规划理念和营造实践的基础上,重新规划并营造了东魏北齐帝都邺城,新邺城与北魏洛阳城的形制相仿,其布局更加方正规矩、中轴线更加突出。整座城市以宫城为中心,围绕全城中轴线对称布局,城内分布着数量众多的里坊。东魏北齐邺城的布局,体现了对中国古代理想城市规划理念的继承与创新,对后世的隋唐长安城、洛阳城的“棋盘式”里坊布局产生了直接影响。
北宋东京城从州桥经天街到宣德门一直纵贯至大内,有一条明确的南北向城市中轴线;东西向穿城而过的汴河以象天汉,州桥也称为天汉州桥。因此,北宋东京城的布局理念“象天法地”,对中国古代理想城市规划理念既有继承、又有创新,也形成了新的开放式城市空间。起家于北方草原地带的元世祖忽必烈营造帝都元大都时,在金中都的基础上采用《周礼·考工记》的理想王城规划理念设计并营造,与魏孝文帝营造北魏洛阳城时竭力追求正统的心情非常接近。元大都受原有建筑和地形地势的影响,营造时并不能很好地实现理想城市规划理念,此后平地起建的元中都、明中都是更贴近《周礼·考工记》规划理念的城市。明清北京城继承了元大都的城市规划理念并拓展创新,中国古代理想城市规划理念融入明清北京城的营造实践中,也成为赓续至今的中华文明基因。
本文转自《光明日报》( 2025年02月08日 10版)
俞可平: “奴婢贱人,律比畜产” —— 中国古代贱民的政治学分析
对贱民阶层的专门研究源自民国时期。瞿同祖根据历代的法律制度对中国历史上的良贱阶层做了明确的分类,陈序经、王书奴等则对疍户和娼妓等贱民群体进行了比较系统的考察。但总体而言,民国时期对贱民群体的研究非常稀少。对贱民阶层真正系统而专业的研究,是1978年改革开放以后开始的。一批历史学者,特别是经济史学者从不同的层面对贱民群体进行了分门别类的专门研究,如对奴婢、娼妓、乐户、堕民、疍户、官户、杂户、田仆的专门研究。不少学者对贱民的来龙去脉、生活方式、人际关系、社会地位和法律规定等各个方面都做了非常出色的探究,如对徽州田仆的研究。不过,迄今学界对贱民的关注,多偏于具体的专门论述,而缺少综合性的宏观分析。此外,已有的贱民研究,几乎没有政治学者的参与。而从根本上说,贱民首先是一个政治等级或政治阶层,只有深刻揭示贱民的政治意义,才能真正认识贱民的本质及其在中国传统社会中的实质性功能。本文将首先对贱民的定义、性质、特征、类别和历史演变做一简要的宏观考察,在此基础上着重从政治学的角度分析贱籍制度与中国传统专制政治的内在联系及其本质功能。
一、“四民”之外的贱民
“明贵贱,辨等列”(《左传·隐公五年》)是中国传统等级秩序的根本法则,“编户齐民”是贯彻这一根本法则的社会管理制度。“编户齐民”即是通过户籍制度将普遍平民进行分类管理,它把广大民众分为士、农、工、商四类。春秋时期的管仲说:“士农工商四民者,国之石民也”(《管子·小匡》)。战国时期的谷梁赤也说:“古者有四民:有士民,有商民,有农民,有工民”(《春秋谷梁传·成公元年》)。《汉书·食货志》曰:“士农工商,四民有业。学以居位曰士,辟土殖谷曰农,作巧成器曰工,通财鬻货曰商”(《汉书·食货志》)。后晋刘昫等撰的《旧唐书》进一步延续了古代的“士农工商”四民说:“凡习学文武者为士,肆力耕桑者为农,巧作器用者为工,屠沽兴贩者为商”(《旧唐书·职官志》)。直至明清,“士农工商”四民依然是对国民的基本分类,但明清两代的户籍制度则分别将居民的户籍进一步细分为“军民匠灶”和“军民商灶”四类,将从军的“军户”、从事手工业的“匠户”和从事盐业的“灶户”单列,并明文规定上述“四民为良”(《大清会典》卷十七)。
然而,自正式确立“四民”体系以来的漫长历史进程中,无论在哪个朝代,在上述“士农工商”或“军民商灶”法定的“良籍”之外,还有一个被列入“贱籍”的特殊群体,他们的社会政治地位比普通“四民”更低,不能享受普通平民的法定权利,甚至不属于普通的“庶民”“百姓”范畴。这个被排斥于“士农工商”四民之外而处于社会最底层的特殊社会群体,就是本文所说的“贱民”,亦称“贱人”“贱口”或“贱色”。之所以称这一特殊群体为贱民,一方面,是因为无论就其从事的职业还是就其所处的社会地位而言,这一群体都处于最低劣和卑微的社会末端;另一方面,无论从国家的法律规定还是从社会的伦理评价来看,这一被打入“贱籍”的特殊群体,都与属于“良籍”的平民有着本质的区别。贱民在不同的历史时期和不同的地区,各有不同的称呼,如奴婢、部曲、客女、佃客、番户、杂户、乐户、堕民、娼优、丐户、疍户、世仆、伴当、九姓渔户等等,这些不同的称谓大体上反映了贱民群体的构成。
在传统中国政治语境中,“贱”实质上是一个等级关系概念,即所谓的“贵贱有等”(《荀子·王制》)。一是从官民关系上说,官贵民贱;二是在平民之间,还有良贱之分。普通的黎民百姓是“良民”,可以享受基本的法定权利,而“良民”之外还有“贱民”,他们连最基本的平民权利也被无情剥夺。“贱”的第一种含义是以官为贵,以民为贱,贵贱有别,以强调名器之尊。这里的“贱”,是指普通平民,是相对意义上的“贱”。另一种平民关系上的“贱”,则是绝对意义上的“贱”,“是指在社会上处于特别低下的法律地位和社会地位、没有独立人格的个人,以及由这些人构成的等级。这个意义上的‘贱’或‘贱民’,就不仅相对贵族、缙绅,即使相对一般百姓而言,他们的地位也是卑下的”。进而言之,这个处于社会等级最末端的贱民群体,鉴于其连最普通的平民身份也被法律所剥夺,他们实质上已经不是正常意义上的人,而被贬低到其他动物和财产的地步。正如《唐律》所毫不隐晦地宣示的,“奴婢贱人,律比畜产”(《唐律疏议·名例六》)。贱民之“贱”体现在其政治地位、生产劳动、社会交往、教育科举、日常生活、荣誉奖励等各个方面,并且以国家的法律制度和社会的礼仪习俗加以规约和维系。
贱民不得拥有正常的户籍,没有独立的身份,更无独立的人格,从而也不享有普遍平民的基本法定权利。将每一户人家以及家庭的每一成员编籍入册,是中国历代王朝的强制性要求,违犯者会受到法律的惩罚。唐律规定:家长若不如实登记户籍信息,将受到刑事处罚,面临牢狱之灾:“诸脱户者,家长徒三年……脱口及增减年状以免课役者,一口徒一年”(《唐律疏议·户婚一》)。《清会典》也规定,凡民必须入籍:“凡民之著于籍,其别有四:一曰民籍,二曰军籍,三曰商籍,四曰灶籍,察其祖籍,辩其宗系,区其良贱。”“凡民”之中的“民”不包括贱民,列入贱籍的贱民根本就没有独立的户籍权,他们必须寄身或依附于主人的户籍。上引唐律同时规定,“奴婢、部曲亦同不课之口”,必须登记在户主名下,不许自主为户。不仅私奴不得拥有正常的户籍,即便官奴也同样如此。官奴必须隶属于所服役的衙门,不得在地方自立户籍。唐律对此有诸多详细的规定:“官户隶属司农,州、县元无户贯”(《唐律疏议·名例六》),“杂户者,前代犯罪没官,散配诸司驱使,亦附州县户贯……官户亦是配隶没官,唯属诸司,州县无贯”(《唐律疏议·户婚上》),“工、乐及官户、奴,并谓不属县贯。其杂户、太常音声人有县贯,仍各于本司上下”(《唐律疏议·贼盗二》)。《大明律》也以“军、民、匠、灶”四民分籍,严格限制贱民进入正常的民籍,并将所有贱民列入“丐籍”。但此“丐”并非通常意义上的“乞丐”,列入“丐籍”的贱民其地位连乞丐也不如:贱民的“丐籍表示身份,同没有职业的乞丐相比,在户籍分类上截然不同:一属贱民,一属良民,不可混淆”。
贱民的生命安全没有基本的法律保障,其生存权和人身自由随时可能被主人或其他“良民”所剥夺。“杀人偿命”这一古典法律通则,并不适用于贱民。主人可以对奴婢施加各种人身伤害而不受惩罚,对男女奴仆的体罚、残害以及对女仆的奸污,只要不出人命,几乎都不会受到法律制裁。有学者指出,在唐律中没有发现任何条文用以约束主人对奴婢的虐待和残害行为。“除了擅杀一事,主人控制下私奴婢生命、身体的安全无法受到保障,主人对奴婢的权力几近绝对。”即使是故意虐杀奴婢,主人也不用偿命,而只需受到轻微的处罚。唐律规定:“诸奴有罪,其主不请官司而杀者,杖一百。无罪而杀者,徒一年”(《唐律疏议·斗讼二》);“诸主殴部曲至死者,徒一年。故杀者,加一等。其有愆犯决罚致死,及过失杀者,各勿论”(《唐律疏议·斗讼二》)。清律也有类似的规定:“若奴婢有罪,其家长及家长之期亲,若外祖父母,不告官司而殴杀者,杖一百;无罪而杀者,杖六十,徒一年……若违犯教令而依法决罚邂逅致死及过失杀者,各勿论。凡官员将奴婢责打身死者,罚俸二年;故杀者,降二级调用;刃杀者,革职……”(《大清会典事例》卷八一《刑部》)。对贱民生命安全的保障,有时甚至还不如对动物生命的保障。例如,清律规定,“凡私宰自己马牛者,杖一百”(《大清律例》卷二十一);而官员残杀奴婢只需“罚俸二年”或“降二级调用”。由于历朝对贱民的生命安全几无法律保障,发生在贱民身上的种种惨绝人寰的虐害行径,可谓罄竹难书。
贱民的自由权、平等权和人格权被剥夺,不享有基本的人权。贱民虽是人类,但他们仅是生物学意义上的人,而非社会学和政治学意义上的人,在本质上,他们并不被当作正常的人类,而是当作主人的工具和财产。虽然贱民群体内部还有不同的差别,奴婢是最低下的贱民,是贱民中的贱民,但是所有贱民,无论是奴婢还是部曲、堕民、乐户、佃客,都没有独立的人格,而是附属于主人的工具,从而没有起码的人身自由权和人格平等权。贱民必须绝对听从主人的使唤和遣差,不得有违主人的意愿,否则主人可对其进行任意处罚。贱民也没有职业、迁徙、婚姻和交往的自由,没有任何隐私权和人格尊严。例如,贱民不仅自己须由主人决定其婚配,甚至其子女的婚配权也得由主人决定,否则,也将受到法律的惩罚。清律规定:“凡家仆将女子私嫁与人,不问本主者,鞭一百。无论年份远近,生子与未生子,俱离异,给予本主。”与剥夺贱民基本自由相伴随的,是历代法律明文规定贱民与主人、良民的极度不平等。以斗殴、杀人及强奸为例,主人殴伤、奸淫,甚至杀死贱民可以不承担任何法律责任,普通平民(良民)殴伤、奸淫和杀死贱民也只需承担轻微的刑事惩罚;反之,若贱民殴伤、奸淫和杀死主人或良民,则要受到法律的最严厉惩罚。唐律规定:主人杀死奴婢部曲,只要杖一百,至多徒一年;良民殴伤贱民者,其罪“减凡人一等,奴婢又减一等”(《唐律疏议·斗讼二》)。然而,若贱民殴打主人,则“伤者绞,杀者皆斩”;若贱民殴打良民,则罪“加凡人一等,奴婢又加一等”。主人强奸女性贱民,则不受惩罚;良民强奸女性贱民,也只需受到轻微惩罚:“奸他人部曲妻、杂户、官户妇女者,杖一百;强者加一等……明奸己家部曲妻及客女,各不坐”(《唐律疏议·杂律上》)。反之,若贱民奸淫主人或良民,则面临极刑的处罚:“其部曲及奴奸主及主之期亲,若期亲之妻者绞,妇女减一等,强者斩”;“诸奴奸良人者,徒二年半,强者流,折伤者绞”(《唐律疏议·杂律上》)。明清两代几乎完全继承了历朝对贱民在法律上的非人性歧视,在某些方面甚至比前朝更严厉。例如,洪武《大明律》规定:“凡奴婢骂家长者,绞。骂家长之期亲及外祖父母者,杖八十,徒三年。大功,杖八十;小功,杖七十;缌麻,杖六十。”“凡奴婢殴家长者,皆斩;杀者,皆凌迟处死;过失杀者,绞;伤者,杖一百,流三千里。若殴家长之期亲及外祖父母者,绞;伤者,皆斩;过失杀者,减殴罪二等;伤者,又减一等;故杀者,皆凌迟处死”(《大明律》)。清律规定:奴婢对主人的辱骂和殴打,均要受到极刑的处罚:“凡奴婢殴家长者(有伤;无伤。予殴之奴婢不分首从),皆凌迟处死”;“凡奴婢骂家长者,绞”(《大清律例》卷二十八、二十九)。
人以役贱,也是历代贱民的基本特征。贱民从事的职业都是社会中最低劣的行业,欲称“贱业”;反过来说,最低贱的工作非贱民莫属。除了侍候主人或官员的各类仆役,以及各种最辛苦的劳役外,凡是被当时的社会舆论视为最下贱的各种职业,均由贱民群体承担,例如唱戏、卖淫、行刑、埋尸、抬轿、剃头、阉割、丧葬等等。以宋以后浙东的“堕民”为例,男女贱民从事的各类“贱业”竟多达数十种。清律明文规定“奴仆及倡优隶卒为贱”:“凡衙门应役之人……其皂隶、马快、步快、小马、禁卒、门子、弓兵、仵作、粮差及巡捕营番役,皆为贱役。长随亦与奴仆同”[《大清会典》(光绪)卷十七]。因此,“清代的贱民首先是指奴婢和娼优。长随跟奴仆同等;开豁以前的乐户隶属‘乐籍’,与娼优是一样的。为官府服役的皂等所干的各种差事,被认为是侍候官老爷的‘贱役’;人以役贱,所以凡应承这种差役的人都被划进贱民的圈子里”。明清时期徽州的佃仆,是等级高于奴婢的贱民群体,其服役的范围,“主要是冠婚祭喜庆,以及属于地主生活方面的一些劳役。但也有一些是属于生产性的劳动,如看守树木、除草、修路、建筑仓库、搭桥、春渡等。还应指出,如抬轿、奏乐、丧葬杂役,等等所谓‘贱役’,也是由佃仆承担的,而且成为佃仆的一种标志”。
作为“四民”之外的一个特殊群体,贱民被强制要求赋有某种侮辱性的身体标识和社会符号。历朝对贱民的服饰、出行等均有明确规制。违犯贵贱的规制,即要受到法律的惩罚。首先是服饰的穿戴必须有别于良民而凸显其贱民身份。如《大明会典》载明:“正德元年,禁商贩吏典、仆役、倡优、下贱,皆不许服用貂裘。僧道隶卒下贱之人,俱不许服用纻丝纱罗绵”(《大明会典》卷六十一)。清律也规定:“只许奴仆穿茧绸、毛褐、葛布、梭布、貂皮、羊皮;不准穿纺丝、绸绢、缎纱、绫罗、各种细毛、狼皮以及石青色衣。只许戴狐皮、沙狐皮、貂子皮帽;不许戴貂帽。乐户只准穿戴本色黄骚鼠皮帽。凉帽用绿绢裹,绿绢沿边。不许穿各项绫缎及狼皮衣。”据明代徐渭记载:浙江的堕民,“四民中即所常服,彼亦不得服”。其服饰的典型特征是:“帽以狗头状,裙布以横,不长衫”(《徐文长集》卷十八《风俗论》)。其次,在出行、就餐、称谓等社会生活的许多方面,历代都有关于贱民的特殊定制。贱民不能走道路的中间,不能与主人同桌共餐,与良民相逢必须主动避让。如浙东堕民,其出行“不得乘坐车马,只能步行。路遇平民,堕民必须让路。绍兴乃是水乡,出行的主要工具是船。然而,如果有堕民同行,即便是冰天雪地,北风呼啸,平民也不允许堕民入舱……堕民外出时总是低着头,迈着碎步,靠右急速而行。如果双方相向而行,堕民得给平民让路”。
对贱民最为残酷的制度,就是贱籍的世袭性。在中国传统社会,历代的规制是,除了极其特殊的例外,贱民自己及子孙后代均不能脱贱为良。换言之,一日为贱,不仅终身为贱,而且世代为贱。尤其是贱民及其子孙永世不得参加科举考试,不能进入朝廷官僚体系,成为朝廷官员。在中国传统社会,由贱入贵的主要制度性途径,便是通过科举考试进入官僚体系。这一选拔精英的道路对于普通平民而言,是转变其身份的主要通道,而这条通道对于贱民而言则是完全关闭的。唐律对科举取士的资格要求很高,普通的工商阶层都被排除在外,更何况贱民阶层。到了明清时期,法律已明确规定贱民不得参与科举考试,不得进入仕籍。如清律明文规定:“凡出身不正,如门子、长随、番役、小马、皂隶、马快、步快、禁卒、仵作、弓兵之子孙、倡优、奴隶、乐户、丐户、胥户、吹手,凡不应应试者混入,从重治罪。认保、派保互结之五童互相觉察,容隐五人连坐,禀报黜革治罪”[《大清会典》(光绪)卷十二]。“其八旗户下人及汉人家奴、长随、倡优、隶卒子孙,概不准冒入仕籍。步军统领衙门番役缉捕勤奋者,止准该衙门酌加奖赏,毋许奏给顶戴,其子孙概不准应试出仕”[《大清会典》(光绪)卷十]。在贱民群体中地位稍高一些的佃仆子弟,即使因为特殊的机遇,其经济地位足以供养子弟上学读书,也同样因贱民身份的限制而“不准应试出仕”。
婚姻是传统社会中人们改变身份的重要途径之一,为了阻止贱民通过婚姻变更贱籍,历代均对贱民的婚姻做了严厉的限制,禁止贱民与良民之间的通婚。唐律认为,各色人等各有自己匹配的婚姻,良贱之间尤其不能婚配。违犯良贱之间的婚配关系,就打乱了既定的等级秩序,必须受到法律的严惩。“人各有耦,色类须同。良贱既殊,何宜配合。”故此,“诸与奴娶良人女为妻者,徒一年半,女家减一等。其奴自娶者亦如之。主知情者,杖一百;因而上籍为婢者,流三千里”(《唐律疏议·户婚律》)。“工、乐、杂、官户及部曲、客女、公私奴脾,皆当色为婚。若异色相娶,律无罪名,并当违令,各改正”(《唐律疏议·诸杂户不得与良人为婚》)。明清两代不仅沿袭了唐律关于良贱禁止通婚的规定。明律专门辟有“良贱为婚姻”的条文,良贱通婚不仅贱民本人要受罚,主人若有责同样要治罪。“凡家长与奴娶良人者,杖八十。女家减一等。不知者不坐。其奴自娶者,罪亦如之。家长知情者,减二等。因而入籍为婢者,杖一百。妄以奴婢为良人,而以良人为夫妻者,杖九十。各离异改正”(《大明律·婚姻》)。《娶乐人为妻妾》条规定:“凡官吏娶乐人为妻、妾者,杖六十,并离异;若官员子孙娶者,罪亦如之”(《大明律·婚姻》)。清律也认为,良贱通婚有辱良民,“婚姻配偶义取敌体,以贱娶良,则良者辱也”。因此,“凡家长与奴娶良人为妻者,杖八十;女家减一等。不知者不坐。其奴自娶者,罪亦如之。家长知情者,减二等。因而入籍为婢者,杖一百。若妄以奴婢为良人而与良人为夫妻者,杖九十(妄冒,由家长,坐家长;由奴婢,坐奴婢)。各离异改正”(《大清律例》卷十《户律·婚姻》)。
历代统治者之所以对贱民有如此苛刻、侮辱和非人的法律规定,归根到底是因为不把贱民当作人看待,而视其为工具、物产和资财。唐律明言的“奴婢贱人,律比畜产”,道出了中国历史上贱民群体的共同本质。因为本质上没有把贱民当作人,而是把他们视作“会说话的工具”,因而贱民的人身自由、生命安全和人格尊严等基本人权便被残酷地剥夺。正因为实质上被当作是所有者的工具、物产和资财,所以贱民便可以被主人合法地买卖、转让、没收:“奴婢皆同资财,即合由主处分”(《唐律疏议·户婚三》)。一旦主人犯罪,其奴仆因视为财物反而不用受到连坐,可以像其他财物一样被籍没分配。“诸谋反及大逆者,皆斩……若部曲、资财、田宅并没官”(《唐律疏议·贼盗一》)。
二、历史上的各类贱民
贱民的历史在中国源远流长,从文字记载和考古发现来看,贱籍制度几乎与早期国家同步。这一点符合马克思主义史学的主流理论,即人类在进入文明社会之前,经历了原始社会和奴隶社会。最早的贱民脱胎于奴隶,贱民制本质上是奴隶制的残余。
夏商周三代是中国历史上文字记载的最早王朝,也是中国的早期国家形态。分别记载夏朝和商朝政治军事制度的《甘誓》和《汤誓》中均出现了“孥戮”的概念,据训诂学家考证,这里的“孥”同“奴”,说明夏商时期已存在“奴婢”。清代学者江声注释《甘誓》曰:“‘孥’或为‘奴’,当从‘奴’,谓有罪而没为奴也。或奴,或戮,视其所犯”(《尚书集注音疏》卷三《夏书》)。另一位清代学者段玉裁也认为“孥”与“奴”在上古时代是通假的:古“奴婢”“妻孥”字,皆作“奴”。“孥”字是俗称,《尚书》原文只作“奴”。“其实‘孥子之孥’两‘孥’字,亦当正为‘奴’,古子女奴婢统称奴,其既也假‘帑’为‘奴’字,其后又制‘孥’为之”(段玉裁:《古文尚书撰异》)。孔子在论及商代的三位杰出“仁”者时,提到了其中的箕子曾经为“奴”,这也间接证明商代奴婢的存在:“微子去之,箕子为之奴,比干谏而死,殷有三仁焉”(《论语·微子》)。《周礼》关于奴婢的记载相当多:《秋官》曰,“其奴,男子入于罪隶,女子入于舂槀。凡有爵者,与七十者,与未乱者,皆不为奴”(《秋官司寇·司民/掌戮》)。《大宰》曰,“八曰臣妾,聚敛疏材”,东汉经学家郑玄说,“臣妾,男女贫贱之称者,或奴戮之余允,或背德之质子,晋惠之男女皆是”(《周礼注疏·正义序》)。《周礼》在详细分述“治官”“宫正”“宫伯”“膳夫”“庖人”等50余种职业时,包含了大量的“胥”“徒”等奴仆群体,甚至其中提及的“女酒”“女浆”“女幂”“女祝”“女工”等,据专家考证也均为女奴。
春秋战国时代,中国政治逐渐进入绝对的君主专制时期;到了秦汉时期,这种绝对的君主专制政治得到逐渐稳固。与此相一致,中国的贱民制度大约在春秋战国至秦汉时期正式形成,并且成为国家法定的重要政治制度。《左传》论及春秋时期鲁国的社会等级时,就出现了“隶”“僚”“仆”“台”等贱民群体:“天有十日,人有十等,下所以事上,上所以共神也。故王臣公,公臣大夫,大夫臣士,士臣皂,皂臣舆,舆臣隶,隶臣僚,僚臣仆,仆臣台,马有圉,牛有牧,以待百事”(《左传·昭公七年》)。西汉王莽说,“秦为无道,置婢奴之市,与牛马同栏”(《汉书·王莽传》)。这说明,在秦王朝时,已经把奴婢视作牛马般的贱民,这一点已为后世出土的秦律等文献所证明。抄录于秦王政时期的《睡虎地秦墓竹简》中的《秦律十八种》就有关于“隶臣妾”和“人奴妾”的专门条款;而形成于秦统一后的《岳麓书院藏秦简》中所载的秦律,则不仅有“隶臣妾”的条款,而且首次在法律条文中出现了“人奴婢”的用语。到了汉代以后,奴婢作为主要的贱民群体已经大量存在,并且以法律制度的形式加以明确规定。例如张家山汉简《二年律令·告律》就明文规定,奴婢不是正常的人而属于财物的范畴:“民欲先令分田宅、奴婢、财物,乡部啬夫身听其令,皆参办券书,辄上如户籍。”奴婢向官方诉讼主人不仅不得受理,而且还要受到“弃市”的极刑:“子告父母,妇告威公,奴婢告主、主父母妻子,勿听而弃告者市。”汉以后的唐宋明清历代大体沿用了秦汉的良贱律,以国家法律的形式将贱民群体打入另类,被剥夺基本的人权。从此以后,贱民群体一直伴随着中国传统的专制政治而长期存在,但其表现形式及构成在历史上却有所不同。中国历史上出现过的贱民群体主要有奴婢、部曲、娼优、佃仆、乐户、丐户、疍户、皂隶、堕民等。
1.奴婢。在中国的贱民演化史上,奴婢是典型的贱民,也是出现最早、数量最庞大、存续时间最长、分布范围最广的贱民群体。奴婢是“男奴女婢”的通称,又常常被称为“奴仆”“家仆”“家奴”“人臣”“人妾”“家僮”“丫鬟”“丫头”“使女”“苍头”“驱口”“驱奴”等。根据其隶属或所有关系,奴婢又可分为官私两类,为朝廷官衙所拥有的为官奴,为家庭私人所有的则是私奴,官奴和私奴在一定条件可相互转换。“如官奴婢往往被皇家或官府当作赏赐品赐予下属官吏,从而变成了私奴婢;原是私奴婢者,也有因主人犯罪,其家属和奴婢没官,而转弯成为官奴婢者。”一般认为,奴婢是奴隶制度的残余,因而在战国后期和秦汉早期奴婢就作为一个特殊群体而大量存在了。史载,战国末期秦国大臣吕不韦和嫪毐的私奴婢就数以万千计:“不韦家僮万人,嫪毐家僮数千人”(《史记·吕不韦传》)。秦汉之后,官私奴婢的数量不断增加。汉代的“官奴婢十万余人”(《汉书·贡禹传》),唐代仅宫廷的官奴婢就有10万多人,私奴婢的数量则更为庞大。唐太宗的儿子越王李贞,“家僮千人”(《旧唐书·越王贞传》),大臣冯盎更甚,拥有“奴婢万余人”(《旧唐书·冯盎传》)。地方官僚和豪富巨贾蓄奴成风。如,广州刺史胡证,“善蓄积,务华侈,厚自奉养,童奴数百”(《旧唐书·胡证传》),京师巨富王宗,“侯服玉食,僮奴万指”(《旧唐书·王处存传》)。历史上不少朝代对奴婢的数量曾经做出过各种限定,因为奴婢规模过大,在一定程度上会削弱社会生产力并减少政府的税收。例如,汉时曾规定:“诸侯王奴婢二百人,列侯公主百人,关内侯吏民三十人”(《汉书·哀帝记》)。唐代规定得更为详细:“王公之家不得过二十人;其职事官,一品不得过十二人,二品不得过十人,三品不得过八人,四品不得过六人,五品不得过四人,京文武清官,六品不得过二人,八品九品不得过一人”(《唐会要》卷八六《奴婢》)。清朝亦有蓄奴的定制:“旗下督抚家口,不得过五百名,其司、道以下等官视汉官所带家口,准加一倍”(《清圣祖实录》卷二〇八)。然而,是否拥有奴婢,以及拥有多少奴婢,是专制政治下等级特权的体现,一般的制度规定难以有效约束权贵家庭的蓄奴之风,历代关于蓄奴的限定很大程度上形同虚设。例如,直至中国历史上最后一个存在合法贱民的清朝,权贵家庭成百上千地蓄奴仍是十分普遍的现象。有清一代,“仕宦之家,僮仆成林”。乾隆宠臣和珅,“供厮役者,竟有千余名之多”(《清仁宗实录》卷三七)。不仅督抚大员奴婢成群,甚至七品州县之官也“多置僮仆以逞豪华,广引交游以通声气,亲戚往来,仆从杂沓,一署之内几至百人”。
2.部曲。作为贱民群体的部曲,源于南北朝,主要盛行于唐代。部曲原泛指军队士兵,后来则专指私家军队。“部曲”一词在东汉末、三国、西晋时代的历史文献中已经常出现,泛指部队、军队、队伍和士兵。但在当时,“无论是官方部队还是私家士兵,都可以用部曲一词表示”。然而,随着历史的演进,部曲一词逐渐更多指私家军队,再从私兵进而蜕变成为私家仆人,成为有别于“良人”的“贱人”。到了唐代,部曲已成正式制度规定的贱民群体。清末民初的沈家本和何士骥等曾对部曲做过专门的考证。沈家本认为,从三国至周、隋三百多年间,兵祸战乱不绝,地方将吏纷纷拥私兵以自重。“第其初,部曲虽供役私家而尚未沦于卑贱,故别于奴婢,而不混为一等。洎乎朝移代易,荣悴不齐,此等人不供役公家,不系户籍,其妻儿衣食仍仰给私门,而部曲之称犹袭畴昔,于是杂户、官户之外遂有一项名目矣。”何士骥也认为,部曲源自东汉三国时期的私兵,并逐渐从私兵蜕变成为供主人役使的贱人。但何士骥和浜口重国都认为,在南北朝时部曲已经完成了从私兵向贱人的转变。部曲的女性眷属则称为“客女”,“客女,谓部曲之女”(《唐律疏议》卷二),从事“典型的奴隶劳动”,在《唐律》中亦被列入“贱人”。宋代关于部曲的文献记载已经不多,因而也有专家断定,“部曲作为一个贱民阶层,在宋代已不存在”。虽然部曲在宋代最后逐渐消亡,但至少从法律制度来看,宋初仍然存在作为贱民群体的部曲。《宋刑统》沿袭《唐律疏议》仍有不少关于部曲的条款,例如,宋初的《户婚律》也如唐律一样规定:“诸奴婢诈称良人,而与良人及部曲、客女为夫妻者所生男女并从良,及部曲、客女知情者,从贱。即部曲、客女诈称良人,而与良人为夫妻者,所生男女亦从良;知情者从部曲、客女。皆离之。其良人及部曲、客女被诈为夫妻,所生男女经一载以上不理者,后虽称不知情,各同知情法”(《宋刑统》卷十四《户婚律》)。
3.杂户。杂户是四民之外从事“百工伎巧”等各类社会贱业的贱民群体之一,通常认为源自北朝,而特别盛行于唐代,是唐代贱民阶层的重要组成部分。虽然学界对作为贱民阶层的“杂户”何时形成尚有争议,但通常认为,“北魏时期存在一种专门服务于官府不同部门的杂户,它主要由隶户、屯户、兵户、营户、牧户、乐户及佛图户诸户构成。北魏杂户不是某一特定人口,而是一种社会群体或社会阶层的专称,且相对于当时的编户齐民,他们处于社会的底层,身份和地位近似于奴隶”。据一些专家考证,杂户之名北魏之前就出现于典籍律令之中,但通常是指“杂役之户”,从事官府的各项劳役;也指“异族”“部族”等繁多的含义,其地位低于一般庶民,但仍属于良民群体。但在北魏分裂后的西魏和北周年间,“杂户”一词的含义发生了重大变化,从良民阶层变为贱民阶层了。北魏以后,“杂户”作为贱民群体正式形成,恰如其称谓所示那样,其含义确实十分庞杂。有些专家将魏晋南北朝时期的杂户、营户、盐户、金户、乐户、僧祗户、屯户、牧户、新民、府户、城民、驿户、伎作户、百工技巧、绫罗户、丝绸户、匠户等通称为“杂户”。按魏律和唐律的规定,杂户属于官贱民的一类,非为私属,不得列为普通民籍,而由州县单列贱籍。“杂户者,前代犯罪没官,散配诸司驱使,亦附州县户贯”(《唐律疏议·户婚上》)。“杂户者,谓前代以来,配隶诸司,职掌课役,不同百姓。依令老免、进丁、受田,依百姓例,各于本司上下”(《唐律疏议·名例三》)。
4.官户。官户是籍没的官奴婢,是官贱人的一类。与杂户不同的是,官户仅限于朝廷衙司,不属地方州县。唐律载:“官户者,亦谓前代以来,配隶相生,或有今朝配没,州县无贯,唯属本司”(《唐律疏议》)。官户主要从事各种苦力型的劳作,因其“分番输作,又称番户”。“诸律令格式有言官户者,是番户之总号,非谓别有一色”(《唐六典·刑部尚书》)。据考证,作为贱民群体的官户,最早出现于隋朝。在隋朝,官贱人中已正式确立了“官户”的类别,并在某种程度上承担了杂户的义务,而隋朝的“官户”之名又沿袭自陈朝。到了唐朝开元年间,法律已将官户与奴婢、工户、乐户、杂户和太常声人等六类人一同列为“官贱人”。作为唐代重要的贱民群体,官户归属刑部都官曹管辖,但其劳作则主要分配到司农寺。“凡诸行宫与监、牧及诸王、公主应给者,则割司农之户以配”(《唐六典·刑部尚书》)。官户女奴主要给达官贵人家庭提供侍役,“官户奴婢有技能者配诸司,妇人入掖庭,以类相偶,行宫、监牧及赐王公、公主皆取之。凡孳生鸡彘,以户奴婢课养”(《新唐书·百官志三》)。而官户男奴则主要从事农业生产和放牧业,并配给一定数量的农田和牲口,“诸官户受田,随乡宽狭,各减百姓口分之半。其在牧官户、奴,并于牧所各给田十亩。即配戍镇者,亦于配所准在牧官户、奴例”(《天圣令·田令》)。上述律令提到的“官户、官奴都是唐代的贱民”,两者的区别在于“丁、官户是分番的,而官奴则无番”。作为重要贱民群体的官户,唐代之后基本上不复存在。到了宋代,“官户”之名仍在,但其意义却发生了颠覆性的变化,从原先的下层贱民变成了上层权贵。北宋中期的“官户”指的是“品官之家,谓品官父祖子孙及同居者”,且唯有以军功入仕或“至士大夫以上方有资格作官户”。
5.乐户。顾名思义,乐户就是从事音乐舞蹈职业的群体,故又称“乐工”“乐人”“乐籍”。音乐舞蹈是人类生活不可或缺的内容,伴随着有文字记载的整个人类历史。商周、春秋、战国和秦汉时期,已有大量关于礼乐舞蹈的文献,但尚无将乐舞当作贱业的记载。法律条文明确将“乐户”列入贱籍始于北魏,魏律载:“有司奏立严制:诸强盗杀人者,首从皆斩,妻子同籍,配为乐户;其不杀人,及赃不满五匹,魁首斩,从者死,妻子亦为乐户”(《魏书·刑法志》)。北魏后,中国历史上的绝大多数时间中乐户便作为贱民阶层而存在,成为存续时间最长的贱民群体之一。乐户以“贱民”身份活跃在宫廷、军旅、地方官府、寺庙和民间,“从北魏时期发端,到清代雍正年间被禁除,前后经历了一千四百余载”。唐代作为贱民的乐舞职业者分为两个群体,即“乐户”和“太常音声人”,前者籍在朝廷的太常寺,后者籍属州县。“工乐及官户奴,并谓不属县贯,其杂户太常音声人有县贯”(《唐律疏议·贼盗一》)。但“乐户”和“太常音声人”两者本质相同,均属贱民:“工、乐者,工属少府,乐属太常……‘太常音声人’,谓在太常作乐者,元与工、乐不殊”(《唐律疏议·名例三》)。总之,音声人作为单独的一类,与官户、杂户是有区别的,但“其地位绝对低于良人”。有些研究者认为,乐户的地位在宋元时有明显提升,甚至在宋代已不属于贱民阶层。而在元代,出现了一个不属于贱民阶层的“庶民乐户”,即“礼乐户”。“他们不仅享受着正常人的权利,可以应试、做官,甚至还有免除赋役的特权。”不过,更多的研究表明,“乐户”在北魏以后的中国传统社会中长期属于“四民”之外的贱民阶层,特别是在明代,“乐户”的数量剧增,而其社会地位则极其低下,“没有哪个时代的乐户比明代更为低贱”。
6.倡优。中国古代作为贱民阶层的乐户,在相当程度上与娼妓是重合的。在中国最早的古代典籍没有“娼”只有“倡”,而“倡”与“乐”相通。如“《说文》没有‘娼’字,梁顾野王《玉篇》上始有‘娼’字,并说:‘娼,也’。字作何解?《说文》说:‘,放也,一曰淫戏’。宋丁度《集韵》说:‘倡,乐也,或从女’。明人《正字通》说:‘倡,倡优女乐,别作娼’”。由此可见,“古代娼女起源于音乐。所以后世娼女虽以卖淫为生,而音乐歌舞,仍为她的主要技术”。从语源学上看,娼妓与乐舞这两种职业有着内在的联系,林语堂甚至认为,中国的娼妓继承着音乐的传统,没有娼妓就没有音乐。娼妓以出卖自己的肉体为职业,无疑属于中国传统社会最低贱者的行列,毫无例外地被历朝的法律制度打入贱籍。然而,中国历代的法律条文中,很少明确将娼妓单独列为贱籍。之所以这样,主要原因应该就是如上述所言,中国古代法律语境中的“乐户”很大程度上包含了“娼妓”。王书奴说,“‘女乐’这种人物,一方面牺牲色相,他方面也可谓出卖肉体,实为‘巫娼’演进之产物”。《魏书》所谓“‘乐户’,即‘女乐’的化名”,“女乐”与“娼妓”实为“一途”。另据一些专家考证,古代娼妓与专业歌舞女艺人名称上通用。“如对‘妓籍’‘伎籍’‘娼籍’‘倡籍’‘花籍’检索,发现其与‘乐籍’相通,吴梅说‘伎女’从良,则脱‘乐籍’;从四库全书检索‘妓乐’一词的数量结果占‘妓’字检索结果的22%,说明中国古代传统社会的娼妓是专业歌舞女艺人。”根据经君健的研究,在明清两代,“乐户”与“娼妓”同类。例如,明景泰八年有议:“凡良家妇女不许教坊司买作倡优,民户为乐户者皆令改正。”而在清代,朝廷废除教坊司的乐籍后,山西等地仍保留不少“乐户”户籍,这些“乐户”仍是“娼妓”,被当地视为“贱之甚者”,“不齿于齐民”。
7.胥吏。作为贱民群体的胥吏,是官贱人的一种,主要在衙门和高官家庭从事低贱的劳役,其主体是各类衙役、差役、隶卒、皂隶、长随和家人。胥吏、隶卒是国家政权不可缺少的组成部分,因此这一阶层随国家政权而产生,具有悠久的历史。《左传》所描绘的鲁国昭公时期的胥吏阶层就已经十分复杂:“士臣皂,皂臣舆,舆臣隶,隶臣僚,僚臣仆,仆臣台”(《左传·昭公七年》)。沈家本在总结历代刑法时,对属于胥吏阶层的隶卒做过详尽的分类,从先秦的司隶、罪隶、蛮隶、奚隶、臣隶、臣妾等,到汉魏至唐宋明清的皂隶、民隶、徒隶、胥隶等,虽名称各异,但内容大体相同:“隶,贱官”也;“隶,贱臣”也;“隶,奴也,贱也,役也”。作为在中央与地方政府机关中从事衙役的这个胥吏阶层,在中国历史上的各个朝代中都处于非常低贱的地位,大体上均属于“四民”之外的贱民阶层。有学者指出,虽然这个阶层在今天看来属于“公务员”的范畴,但在历史上实际履行着“官奴婢”的职能。“官署中的低级公务员由官奴婢担任,其工作受到歧视,列为贱业,变成中国历史上的特殊传统,残留了几千年之久。这些工作统称为‘吏’的工作。吏又称‘皂吏’‘隶吏’‘青吏’,都表示其职业之卑贱及其从业者身份之低下。皂、隶直接点明其奴隶身份。”衙门中的胥吏、役差虽然地位类同贱民,但不少研究者认为在明清之前的历朝法律制度中,很少有明确的条款将其列入贱籍的。但明清之后,胥吏衙役群体被列入制度性的贱民阶层则是明确无误的。例如《清会典》明确规定,衙门中的“隶卒为贱”。“衙门应役之人,除库丁、斗级、民壮仍列为齐民外,皂隶、马快、步快、小马、禁卒、门子、弓兵、仵作、粮差,及巡捕番役,皆为贱役。”
8.佃仆。佃仆是一种区域性的贱民,分布于明清时期的安徽、江苏、浙江、江西、湖南、湖北、福建、广东、河南等地。佃仆制源于何时,历史学家并无明确答案,但多数研究者认为,佃仆制至少在明代以前就存在了,明清时期已在许多地方流行。有些认为源自东晋南朝,有些认为源于唐宋时期。有人考证,“佃仆”的称呼在北宋时就出现了,盛行于南宋并且一直延续到元明清以后,“累世相承,遂不得自齿于齐民”。佃仆在不同区域和不同时期,有各种不同的称呼,如佃民、地仆、庄仆、庄人、住佃、火佃、庄佃、细民、伴当、世仆等。一般认为,安徽的徽州是佃仆制流行的典型地区,以致对徽州佃仆的研究成为中国历史学界,特别是中国经济史研究界的一个引人注目的领域。但也有人认为,作为明代独具特色的土地占有关系,佃仆制虽盛行于南方各省,“而江西尤为突出和盛行”。作为贱民群体的佃仆,其本质特征即是其奴仆身份,不得与四民相齐,从而不享有普通民众的基本权利。佃仆首先是主人的奴仆,同时也是主人的佃农。如清律明确规定,佃仆是“奴而兼佃户者,即退佃而名分永存”。“佃仆和地主具有主仆名分,是人身依附强固的标志,也是佃仆区别于一般佃户的重大特征。主仆名分是终身的关系,而且延及子孙,世代相承,经‘数十世不改’。”这种双重的人身依附关系常常以佃仆与主人之间的契约形式得以确立,并且由国家的法律条文加以保障,永世不得改变。作为奴仆,为主人服役是佃仆分内的工作,从服侍主人的衣食住行,到服务主人家的婚丧嫁娶;作为佃农,佃仆还要为主人家从事生产劳动,从耕种田地到经商买卖等。鉴于佃仆身份和劳役的这种双重性,有的专家认为这是由于将大量奴仆用于农业生产,从而使“佃农奴仆化”的结果。因此,佃仆是一个不同于奴婢而接近奴婢,不同于佃户和雇工人,但又不属于良人的特殊贱民阶层。
区域性的贱民除了佃仆外还有很多,比较有代表性有江浙的“堕民”或“丐户”、浙江的“九姓渔户”和广东沿海一带的“疍户”。堕民又称堕贫、惰民、惰贫、大贫、小姓、轿夫、丐头、丐户等,最早出现于南宋,盛于元明清的浙江和江苏部分地区。堕民的服侍对象称“主顾”或“脚埭”,两者之间形成人身依附性的主仆关系。“九姓渔户”或“九姓渔民”亦称“江山船”,自称“船浪人”,主要存在于浙江和江西的水乡,尤其是聚居于浙江的衢江、东阳江、桐江以及富春江流域,这些船户因陈、钱、林、李、袁、孙、叶、许、何九姓得名。九姓渔户以捕鱼为业,女子也常兼以卖淫为生。疍户或疍民,亦作蜑户、蛋户。“疍”,古时又作为“蜑”“蛋”“蜒”,因而疍户又有别称蜑族、蛋民、蜒户等。主要分布在广东、福建、广西沿海地区,台湾和浙江也有分布。与江浙的九姓渔户非常类似,疍户也主要从事水上的捕捞业和采珠业等,不少疍户女子亦被迫卖淫为生。一方面,堕民、疍户和九姓渔户被社会排斥于“四民”之外,他们与其他贱民一样被粗暴剥夺作为普通民众的基本权利;另一方面,从制度层面上说,他们又不像其他贱民群体那样有明确的法律条文规定,因而,有些专家亦称这类区域性贱民为“习惯型贱民”。
三、贱民制度与中国专制政治
贱籍制度与中国传统专制政治有着内在的联系,对巩固绝对君主专制发挥着特殊的功能。作为一种特殊政治存在的贱民等级,不仅是中国君主专制不可缺少的政治基础,而且是中国专制政治体系中超稳定的结构性要素。
贱籍制度是专制社会等级秩序的产物,是专制政治结构不可缺少的组成部分。专制政治的结构基础就是等级秩序,专制政治越发达,等级结构就越复杂。中国传统政治的本质,是绝对的君主专制,或称王权政治。王权政治也是一个社会结构体系,君主处于整个社会结构的顶端;王权是至高无上的权力,王权体系在社会结构体系中占据主导地位。“臣民在社会与历史上只能为子民、为辅、为奴、为犬马、为爪牙、为工具。”相对于皇帝而言,其他所有子民都是“臣仆”或“奴才”。中国传统社会中作为皇帝“子民”的主体,即是所谓的“士农工商”四民,这些“子民”自身也构成一个庞大复杂的等级结构体系,其中“士”居于“子民”结构体系的顶端。作为中国士大夫阶层主体的各级官僚,自身也是一个复杂的等级体系,即所谓“九品中正”制,拥有朝廷品秩的官员就多达十八个层级。士尚且如此,其他子民自无可逃遁于等级秩序体系之外。政治等级在传统社会意味着政治秩序,在子民中间划分等级,根本目的就是为了便于统治。对此,西周和先秦的文献就已有明确表述。例如,《逸周书》就认为,如果没有必要的等级秩序,不仅社会的正常生活无法维持,人们之间也必然会发生各种利益冲突,最终导致相互残杀。如果人群之间为了争夺利益而发生战乱,那么,人们就不可能安居乐业,统治者也无法驾驭民众。“凡民不忍好恶,不能分次。不次则夺,夺则战;战则何以养老幼,何以救痛疾死丧,何以胥役也”(《度训解第一》)。荀子也说得很明白,先王之所以区分贵贱富贵,就是为了防止混乱失控:“先王恶其乱也,故制礼义以分之,使有富贵贫贱之等”(《荀子·王制篇》)。《左传》所描述的王权体系,实际上就是一个复杂而完备的等级秩序体系,它建立在君王为顶端、贱民为低端的结构体系之上:“封略之内,何非君土。食土之毛,谁非君臣?故《诗》曰:‘普天之下,莫非王土。率土之滨,莫非王臣。’天有十日,人有十等,下所以事上,上所以共神也。故王臣公,公臣大夫,大夫臣士,士臣皂,皂臣舆,舆臣隶,隶臣僚,僚臣仆,仆臣台,马有圉,牛有牧,以待百事”(《左传·昭公七年》)。
贱籍制度的存在,是中国传统特权政治的社会等级结构基础。从上面《左传》的这段引文和其他记载中可以清楚地看到,不仅普通民众之间须“明贵贱,辨等列,顺少长”(《左传·隐公五年》),而且贱民之间也还有不同的等级之分。为便于政治统治,在贱民这个最低端的社会阶层中再划分出不同的等级,贱人中间还有“高级贱人”与“低级贱人”之分,这正是从先秦至明清的贱籍制度的共同特征。如果“皂”以下为奴仆的话,那么《左传》所列的先秦奴仆便有五个等级。唐律的相关规定同样清楚地表明,不同的贱民群体之间存在着严格的等级差别:“诸部曲殴伤良人者(官户与部曲同),加凡人一等。奴婢,又加一等。若奴婢殴良人折跌支体及瞎其一目者,绞;死者,各斩”(《唐律疏议·斗讼二》);又规定官贱人升为良人须经过几个等级:“一免为番户,再免为杂户,三免为良人”(《唐六典·刑部尚书》)。直到清王朝,贱民阶层内部的等级差别依然十分明显。据经君健的研究,从法律地位、政治地位、社会地位和经济地位的综合考察来看,清代的贱民可分为四个等级:奴婢、娼优和乐户是最低级的贱民群体,是“贱民中的贱民”;堕民、丐户、疍户和九姓渔户是比奴婢地位稍高的倒次第二个贱民等级;佃仆虽没有独立的人格,却因从事生产劳动而接近佃户,因而地位比前两个贱民群体更高些;隶卒和衙役、家人、长随直接服侍官府,是官僚的爪牙,其地位在贱民中最高,属于贱民中的“统治阶级”。从政治文明的角度看,社会的进步程度直接体现为政治上的平等程度。政治上的等级差别越大,表明社会的专制程度越高,而政治文明的程度则越低。在中国传统的专制政治条件下,处于等级秩序顶端的君主不仅拥有至高无上的王权,而且以皇帝为代表的统治阶级还拥有超常的政治经济特权。从某种意义上说,皇帝为代表的统治阶级的超常特权,正是建立在剥夺大量贱民群体的基本权利这一基础之上的。换言之,统治阶级的超级特权体制,是以贱民阶层完全丧失其基本人权为代价的。
贱民群体的产生是政治镇压的结果,贱籍制度本身就是赤裸裸的国家暴力制度。按照马克思主义的国家理论,国家本质上是一种暴力机器,是一个阶级统治另一个阶级的暴力工具。“到目前为止,一切社会形式为了保存自己都需要暴力,甚至有一部分是通过暴力建立的。这种具有组织形式的暴力叫做国家。”从国家的历史发展进程来看,这一判断无疑是极为深刻的。为了夺取和巩固国家政权,历史上的各种政治势力集团最终都会毫无例外地使用军队等暴力工具,对敌对势力进行残酷的镇压和杀戮,并运用暴力手段将被统治阶级牢牢控制在既定的政治秩序之下。中国历史上贱民群体的形成,有力地证明了马克思主义的上述论断。大量可靠的历史文献记录表明,贱民群体的来源虽然多种多样,但贱民阶层的主体来源就是国内外战争中被战败的俘虏、国内政治斗争中被镇压的敌对集团成员,以及受到统治阶级法律惩罚的形形色色罪犯。
历代的文献记载表明,将大量的俘虏分赏给将帅大臣为奴,是王朝征服敌人的常用手段。恩格斯说:“战争提供了新的劳动力,俘虏变成了奴隶。”把战争中的俘虏当作法定的奴仆,既可以增加战胜方的初级劳动力,又可有效防止这些昔日敌对力量的反抗。因此,将战争中的俘虏当作奴仆,是世界历史上早期国家的通例,中国当然也不在例外。现代汉字中的“虏”源自甲骨文,本意即是战争中的俘虏:“虏,获也”(《说文》),后引申为“奴隶”和“奴仆”。俘虏是奴婢等贱民群体的最早来源,这一点在先秦时代是十分清楚的。睡虎地秦简的法律就有明确的条文:“寇降,以为隶臣”(《睡虎地秦墓竹简》,第89页)。从甲骨文、金文和竹简关于降寇的大量记载表明,战争中的俘虏是奴婢隶臣等贱民群体的主要来源。汉唐以后国家政权日益稳定,战争俘虏不像先秦时代那样众多,但仍是贱民的重要来源。班固在《汉书》中还把“奴”与“虏”并连在一起:“齐俗贱奴虏,而刁间独爱贵之。桀黠奴,人之所患,唯刁间收取,使之逐鱼盐商贾之利”(《汉书·货殖传》)。别人都怕凶狠狡黠的“奴虏”,但齐地的刁间却善于使用“奴虏”来发财致富。有的专家认为,在唐朝的对外战争中,“有关俘虏对方人口的记录虽然很多,但除了少数是用以‘献俘’,一部分予以释放外,只有在某些战役中的俘虏才被成奴隶,而其中的绝大多数俘虏,究竟如何处理,往往并无明确交待。这说明唐代的对外战争,已经不以掠夺奴隶为其主要目的。因此说,俘虏只是唐代官属奴婢的来源之一,而不是其主要来源”。尽管如此,还是有不少的文献明确记载,即使在唐代,战争中的大部分俘虏仍是贱民的重要来源。历次对外战争中抓获的众多俘虏,有些转为奴婢成为官贱民,有些分赐给大臣成为私贱民。唐律规定“凡俘馘,酬以绢,入钞之俘,归于司农”(《新唐书·兵志》)。俘虏成为农奴,是王朝的常态;而战俘赦为良民,恰恰是少数的例外。《旧唐书》的一则记载即是明证:“初,攻陷辽东城,其中抗拒王师,应没为奴婢者一万四千人,并遣先集幽州,将分赏将士。太宗愍其父母妻子一朝分散,令有司准其直,以布帛赎之,赦为百姓。其众欢呼之声,三日不息”(《旧唐书·高丽传》)。明清两代在这一点上更是有过之而无不及。例如,明灭元,凡蒙古部落子孙流寓中国者,另所在编入户籍。其在京省,谓之乐户,在州邑,谓之丐户。又如,顺治帝将满清入关时俘获的近百万青壮年称为“血战所得人口”,作为犒赏将其中部分俘虏分赐给将帅为奴:“或有因父战殁而以所俘赏其子者;或有因兄战殁而以所俘赏其弟者”(《清实录》第3册)。
将敌对政治集团成员贬为贱民,剥夺其基本的尊严和权利,防止敌对力量的复辟和反抗,是传统社会中政治镇压最常用的残忍手段。从传说中的“三代”原始国家政权到宋元明清的中国历代王朝,都毫无例外地将直接针对君主政权的反抗行为称为“谋反”“大逆”,列为“十恶不赦”的重罪之首。除了主犯处斩处绞之外,其余家属则籍没为奴,成为历代贱民群体的主要来源之一。《隋书》载:“其谋反、降叛、大逆以上皆斩。父子同产男,无少长,皆弃市。母妻姊妹及应从坐弃市者,妻子女妾同补奚官为奴婢”(《隋书·刑法志》)。《魏书》载:“大逆不道腰斩,女子没县官”(《魏书·刑法志》)。唐律载:“诸谋反及大逆者,皆斩;父子年十六以上皆绞,十五以下及母女、妻妾(子妻妾亦同)、祖孙、兄弟、姊妹若部曲、资财、田宅并没官,男夫年八十及笃疾、妇人年六十及废疾者并免”(《唐律疏议》卷十七)。后来的宋元明清历朝法典,基本都沿袭了上述规定,将被镇压的敌对政治集团成员或直接处死,或籍没为贱民。即使被誉为“盛世”的唐朝,也同样需要运用残酷的贱民政治来巩固和维护政权。滨口重国在详细梳理唐武德至开元年间包括“玄武门之变”“房遗爱事件”“长孙无忌事件”“越王贞事件”和“太平公主事件”等上百起“谋反”与“大逆”事件后指出,这些事件中被籍没为“官贱人”等奴仆的被镇压政治集团成员,数量最多估计有20万人左右,中位数也在10万人左右。浙江堕民的来源相传有五种不同说法,即“宋焦光赞部曲说”“蒙古后裔说”“赵宋皇室后裔和忠臣说”“反抗洪武的忠臣义士说”以及“项羽余部说”。明朝的徐渭说,“丐以户称,不知其所始,相传为宋罪俘之遗,故摈之,为堕民。丐自言则曰,宋将焦光赞部落,以叛宋投金故被斥”。鲁迅也说,小时候听说堕民是宋朝降将后代,但后来他怀疑了:“他们的祖先,倒是明初的反抗洪武和永乐皇帝的忠臣义士也说不定。”不难发现,上述五种观点中无论哪一种,都与政治斗争和政治镇压相关。
在利用贱民政治来无情摧毁敌对政治力量方面,明朝堪称典范。大明律规定:“凡谋反及大逆,但共谋者,不分首从,皆凌迟处死。祖父、父、子、孙、兄弟及同居之人,不分异姓,及伯叔父、兄弟之子,不限籍之异同,年十六以上,不论笃疾、废疾皆斩;其十五岁之下,及母女、妻妾、姊妹,若子之妻妾,给付功臣之家奴”(《大明律·刑律》)。不仅如此,为了防止可能出现的政治反抗,《大明律》还专门增设奸党条,运用连坐与贱民制度严厉禁止臣下结党和内外官员交结。吏律规定,“若在朝官员,交结盟党紊乱朝政者,皆斩,妻女为奴,时产入官”,“内外官员相互勾结者,皆斩,妻子流二千里安置”(《大明律·吏律》)。为了削弱相权,消除可能出现的政治威胁,朱元璋制造了一系列令人发指的政治迫害事件,其中尤以“胡惟庸案”和“李善长案”为甚,创造了中国历史上连坐之最。胡惟庸案连坐人数高达3万余人,除了丞相胡惟庸本人及其成年亲属被处死外,其余均被籍没为奴。民间相传,江浙贱民“九姓渔户”最初也是朱元璋对敌对势力政治镇压的产物,“九姓渔户为明初与朱元璋争天下的陈友谅的部属,明朝建立之后,其子孙九族贬入舟居,以渔为生,改而业船”。明成祖朱棣全面继承了其父的血腥传统,在发动靖难之役夺得皇位后,对建文帝旧部进行无比残酷的政治清算。《明史》有载:“成祖起靖难之师,悉指忠臣为奸党,甚者加族诛、掘冢,妻女发浣衣局、教坊司,亲党谪戍者至隆、万年间犹勾伍不绝也。”朱棣不仅处死建文帝的所有干将,将建文帝其余旧部贬为贱民,而且对其极尽羞辱,将其妻女统统贬为倡优,或被送入教坊司、浣衣局,或被充宫廷乐户成为官贱人。
将罪犯及其连坐的家属籍没为奴婢贱民,是中国最早的政治法律制度之一,并贯穿于整个中国传统社会。《周礼》就有罪犯为奴的条款:“其奴,男子入于罪隶,女子入于舂槀。凡有爵者,与七十者,与未乱者,皆不为奴”(《周礼·司寇》)。汉郑玄对此的注释则更加清楚:“谓坐为盗贼而为奴者,输于罪隶、舂人、槁人之官也。由是观之,今之奴婢,古之罪人也”(郑玄:《周礼注疏》卷三十六)。汉律也规定:“罪人妻子没为奴婢,黥面”(《三国志·魏志·毛玠传》)。从历代法律的成文规定来看,贱民的主要来源是朝廷的罪犯,许多专家也据此认定贱民群体主要源于各类罪犯。从表面上看,这样的判断无疑是对的。一是因为国家的法律本质上体现了统治阶级的意志,掌握政权的统治者总会尽量运用法律的手段,首先将其镇压对象的行为列为“谋反”“谋叛”“大逆”等罪行,再判以重罪,从而使其政治镇压行为具有“合法”的外衣;进而将失败的政治对手打入贱籍,使其永世不得翻身。二是因为国家的统治者要有效维护政权,除了维护政治秩序外还必须维护基本的社会公共秩序,这就需要严厉打击杀人盗窃等普遍的犯罪行为,将罪犯打入贱籍便是一种十分有效的手段。由此之故,一方面,所有被镇压的政治集团成员除被处死者外都会被作为罪犯而籍没为奴婢倡优等贱民,历代官修的史书对此都有相当详细的记录;另一方面,除了政治罪犯外,也确实有大量普通的刑事罪犯及其缘坐亲人被籍没为贱民。例如,籍没罪犯为奴贯穿于整个唐代,但由于政治斗争的原因,在初唐和后唐时有大量达官贵人的“家口”以谋反或叛逆罪而被籍没为奴婢。此外,“也有的本无‘反逆’之实,只以酷吏所陷,或因事触犯刑律,或因坐赃、逃亡等等原因,而家口被籍没为奴婢的,在唐代也大有人在”。又如,罪犯及其家口入奴的数量在清朝极大地增加,清朝在继承历代“罪奴”的基础上,又增加了“发奴”这一新贱民群体。清初,入“发遣为奴”的罪行约30多条,到了同治年间增多至103条,诸如“给付功臣之家为奴”“发黑龙江给披甲人为奴”“发新疆给官兵为奴”“发各省驻防官兵为奴”等等。与历代王朝的贱民制度一样,这些罚为奴仆的罪犯分为两类,一类是政治犯,另一类则是普通刑事犯。“给付功臣之家”之奴,多为政治犯:犯谋反、大逆、谋叛、“谋危社稷”和“不利于君”等死罪的连坐家口,包括母女、妻妾、姊妹、儿媳及15岁以下的男性家人。其他“发遣之奴”则为普通刑事罪犯及其连坐的家人。
作为中华民族政治解放过程的重要内容,废贱为良经历了极其漫长而艰难的历程。从历史文献的记载来看,从贱民群体形成之日起,就产生了反对贱民政治的努力。早在西周,就出现了反对将罪犯家属籍没为奴的呼声。《康诰》曰:“父不慈,子不祗,兄不友,弟不共,不相及也”(《左传·僖公三十三年》),周文王则被认为是“罪人不孥”的代表性人物。孟子说:“昔者文王之治岐也,耕者九一,仕者世禄,关市讥而不征,泽梁无禁,罪人不孥”(《孟子·梁惠王下》)。东汉的毛玠甚至当着皇帝的面说:“将妻子没为官奴婢”是“使天不雨者”的行径,他为此触犯龙颜而遭受了牢狱之灾(《三国志·魏志·毛玠传》)。历史上不仅时有反对贱民制度的呼声,更有一些统治者将废贱为良付之行动。沈家本详细列举了历代废奴为良的各种尝试,比较重要的有:汉代高祖、文帝、光武、建武均有过免贱为良的举措,如高祖五年诏曰“民以饥饿自卖为人奴婢者,皆免为庶人”,文帝四年“免官奴婢为庶人”;晋、魏、唐、宋、辽、金、元、明亦偶见免贱为良的实例,如唐显庆二年“敕放诸奴婢为良及部曲客女者听之”,宋开宝四年“诏广南有买人男女为奴婢转佣利者,并放免”,金天辅六年“诏奴婢先其主降,并释为良”,辽世宗大定二十九年“诏诸饥民卖身已赎放为良,复与奴生男女,并听为良”,明洪武五年诏“诸遭乱为人奴隶者复为民”,明英宗时“谕吏部曰:教坊乐工数多,其择堪用者量留,余悉发为民。凡释教坊乐工三千八百余人”。然而,所有上述这些免贱为良的事例,均是零星而偶发的皇帝“善举”。有些是出于饥荒的原因,有些是为了收买人心,还有一些是为了增加朝廷的税收,而都不是制度性的废贱为良。
在中华民族废贱为良的政治解放历史进程中,有过三次里程碑式的改革与突破,第一次是清朝雍正年间首次从正式制度层面推行“豁贱为良”;第二次是民国时期,从国家法律上全面废除贱民制度;第三次就是中华人民共和国的成立,不仅从法律上而且从社会经济的现实基础上彻底铲除贱民制度,终结了盛行中国数千年的贱民政治。
清廷统治中国后,一方面沿袭了中国传统的贱民制度,将大量的战俘和罪犯变为朝廷和贵族的奴仆,另一方面也对贱民制度实行了不少重大改革。例如允许奴婢独立开户,逐步解除开户奴婢出旗为民的禁令,顺治八年废除了教坊司乐户,康熙十二年又下诏裁撤地方乐户,等等。清朝关于贱民制度的突破性改革,则是雍正年间一系列的“豁贱为良”政策。这一重大政治改革,首先从废除山西和陕西的乐户开始。雍正元年(1723)三月,监察御史年熙上奏曰:“山、陕两省乐户另编籍贯,世代子孙勒令为娼。绅衿地棍呼召即来侑酒。间又一二知耻者,必不相容。查其祖先,原是清白之臣。因明永乐起兵不从,遂将子女编入教坊,乞赐削除。”雍正十分赞同此奏,立即批转交由部议,部议结果认为:“压良为贱”,乃“前朝弊端”,“亟易革除”。雍正随即同意部议结果,下旨在全国范围内废除所有乐户的贱籍:“各省乐户皆令确查削籍,改业为良。若土豪地棍仍前逼勒凌辱及自甘污贱者,依律治罪。”同年七月,两浙巡盐御史噶尔泰上奏请豁除丐户贱籍,在部议不同意的情况下,雍正仍下旨废除丐户的贱籍。雍正五年(1727)四月,又主动下诏豁除“佃仆”“伴当”和“世仆”的贱籍。雍正皇帝说:“近闻江南徽州府则有伴当,宁国府则有世仆,本地呼为细民。其籍业下贱,几与乐户、惰民相同。又其甚者,如二姓丁户村庄相等,而此姓乃系彼姓伴当、世仆……若果有之,应予开豁为良。俾得奋兴向上,免至污贱终身,累及后裔。”雍正七年(1729)后,又相继发布上谕豁除疍户和九姓渔户等的贱籍。对雍正帝的豁贱为良政策,清史官方文献有如下记载:“雍正元年,直隶巡抚李维钧言,请将直隶丁银摊入地粮内征收,嗣是各省计人派丁者,以次照例更改,不独无业之民无累,即有业民户亦甚便之。二年,天下人丁共二千四百八十五万四千八百一十八口。时山西省有曰乐籍,浙江绍兴府有曰惰民,江南徽州府有曰伴儅,宁国府有曰世仆,苏州之常熟、昭文二县有曰丐户,广东省有曰蜑户者,该地方视为卑贱之流,不得与齐民同列甲户。上甚悯之,俱令削除其籍,与编氓同列。而江西、浙江、福建又有所谓棚民,广东有所谓寮民者,亦令照保甲之法案户编查。”
虽然雍正的“免贱为良”也有扩大户籍人数从而增加税收的经济目的,但却是对传统贱民制度的一次全面改革从而伴有某些政治因素,因而遭到保守势力的竭力反对。最初对废除丐户贱籍的“部议”就没有通过,但拥有绝对权力的皇帝仍可排除阻力强制推行。然而,即使皇帝运用其至高无上的君权推出新政,若执行过程中遇到大批官僚的抵制,新政实际上仍然无法有效运行。雍正帝“豁贱为良”的新政也遭遇了中国历代政治改革同样的困境,在其强行推出一系列废贱为良的政策后,同时在中央与地方两个层面均遭到了强烈的抵制,以致在他去世后这一新政很大程度上被实质性地否定了,其标志性事件便是乾隆三十六年(1771年)重新限定贱民群体“报官改业”的资格。在官本主义的传统中国,对于普通民众来说,科举入仕是其人生价值的最高体现。同样,对于贱民群体而言,还其良民身份最实质性的体现,就是允许其与良民一样参加科举考试,进而入仕为官。然而正是在“豁贱为良”这一关键环节,雍正帝的政策遭遇了保守势力的顽固抵制。乾隆三十六年,陕西学政刘墫上奏曰:已经豁贱为良的乐户丐户,“应请以报官改业之人为始,下逮四世本族亲支皆系清白自守,方准报捐应试”。换言之,贱民正式豁免贱籍后,再要经过子孙四代及直系亲属被证明“清白自守”,不再从事“贱业”,方能应试捐官。这其实就是在最关键点上剥夺了从良贱民的权利,实质上也就是否定了雍正帝的豁贱为良新政。然而,刘墫的这一上奏不仅获得“部议”同意,而且为乾隆钦准,成为清朝的律令:“凡开豁为良之乐籍、堕民、丐户及已经改业之疍户、九姓渔户人等,耕读工商听其便。仍以报官改业之人为始,下逮四世,必其本族亲支系清白自守者,方准应试报捐。若豪棍借端攻讦,欺压讹诈,依律治罪”(《大清律例汇辑便览》卷八《户部则例》)。显而易见,乾隆三十六年条例,是一次严重的政治倒退:“如果说雍正时期贱民已因豁贱为良获得凡人等级地位,到将近半个世纪之后的乾隆中叶却又对这部分凡人的部分政治权利中以剥夺,给以新的侮辱。堕民、疍户等过去为贱民,法无所据;开豁以后不同于良民却定例在案了。”因而可以说,“乾隆三十六年条例”是中国贱民解放史上的最后一次反动,也标志着雍正“废贱”改革的最终失败。
四、结论
贱民是中国传统社会中一个数量庞大的特殊群体,是士农工商“四民”之外的一个特殊阶级,处于中国社会等级结构体系的最底层。以往的研究者通常把贱民视为传统社会中的一个低贱等级,严格地说,这是不确切的。按照“地主阶级”和“农民阶级”这样的类型学标准,无论是从经济地位,还是从社会地位和政治地位的标准看,贱民不是一般意义的等级或阶层,而是一个相对独立而且极其特殊的阶级,是中国传统社会阶级结构中一个不可缺少的组成部分。中国历代究竟有多少贱民人口?至今没有,实际上也不可能有答案,但从历代典籍档案的相关记载中,大体可以推算出这是一个数量不小的群体。从贱民的来源看,由于贱民的世袭性,一日为贱不仅终身为贱,而且子子孙孙永世为贱,除了极个别的特赦、军功和赎身外,即使改朝换代也无法改变贱民的身份。在世传的贱民群体之外,历代都会有罪犯、俘虏等大批新的贱民产生。因此,无论中国社会发生什么样的变化,总有一个庞大的贱民群体始终存在着。
据《隋书》载,隋炀帝时“异技淫声咸萃乐府,皆置博士弟子,递相教传,增益乐人至三万余”(《隋书·裴蕴传》)。唐时有所收敛,但宫廷乐户贱人也少则“音声人一万二七人”(《新唐书·百官志三》),多则“总号音声人,至数万人”(《新唐书·礼乐志十三》)。皇帝和朝廷拥有的奴婢乐户等官贱民数量众多自不待言,达官贵人家庭拥有的私贱民数量则更多,传统中国从中央的政要到地方的土豪,几乎每家都会使用各色贱民。汉武帝时,“治郡国缗钱,得民财物以亿计,奴婢以千万数”(《汉书·食货志》);三国时糜竺“祖世货殖,僮客万人”(《三国志·蜀志·糜竺传》);东晋的陶侃,拥有“家僮千余”(《晋书·陶侃传》);唐代一个都督,可以“家僮数千”(《新唐书·李谨行传》);北宋时有些地方豪富,“家饶于财,僮奴数千指”(《宋史·吴延祚传》);明代仕宦之家的奴仆,“有至一二千人者”(《日知录·奴仆》);清朝乾隆年间徽州六邑总人口20多万,仅一次性开豁的佃仆就达“数万丁”(《大清会典事例》卷七五二)。即使在法律正式废除贱民制度的民国初年,仅绍兴一县的堕民竟还有“三万余人”之多。与全国的总人口相比,贱民群体当然只占一个较小的比例,但从历代的各种记录可以窥见,中国历代贱民群体的数量总规模却超乎想象地庞大。唐长孺曾整理过贞观盛世的一份详细户籍资料,该材料记载:唐西州某乡总人口为2064人,其中奴婢为116人,占总人口比例的5.6%。王天石也整理过另外两份唐贞观和永徽年间的户籍档案,贱口的比例则更高。一份材料记载,全乡总人口为1200人,奴婢人口140人左右,贱口比例为12%;另一份材料记载,全乡人口2300人,奴婢337人,贱民比例为14%。可见,唐贞观永徽年间平均贱民比例高达10%以上。唐代的这个户籍数字,也许接近于中国传统社会贱民阶级在全国总人口中的比例。
贱籍制度将非人性和反人道的行为合法化,它本质上是一种政治奴役和社会奴役。作为处于社会等级结构最底层的特殊阶级,中国的贱民实质上是一个被全社会奴役的群体。在生物学和人类学意义上,贱民毫无疑问是人类的一部分,是中华民族的同胞,但在社会学意义上,贱民并不被视为正常的人类和同胞,而被视作动物与财产,即所谓“律比畜产”。他们同时被国家的法律和社会的礼仪剥夺了作为平民的基本人权,不仅受到享有权力与财富的统治阶级的奴役,而且也被普通的平民百姓所歧视,不仅没有独立的经济地位,而且也毫无社会政治地位。在国家制度的层面,历代王朝均将贱民群体打入“士农工商”四民之外的贱籍,被无情剥夺基本的人身自由和人格尊严,他们不能像普通平民那样开户立籍和成家立业,不能自由迁徙,不能应试入学和入仕为官,不能与其他阶层子女通婚,一旦触犯法律,他们就要受到比普通民众严厉得多的惩罚。在法律的层面,贱民群体因为被当作“畜产”和“资财”,因而可以被主人买卖,其市场价格有时甚至不如牛马;他们是主人的奴仆,不仅人身依附于主人,而且可以被主人随意处置,包括任意的人格侮辱、人身虐待、性侵害,直至被主人虐杀。在社会的层面,贱民没有正常的社会生活,他们不能从事一般的职业,而被严格限定于各类最低劣的“贱业”;奴婢、佃仆、乐户、部曲等官私贱民不仅要受到历代官僚阶级和地主阶级的奴役,而且也要受到普通民众阶层的严重歧视和欺压。他们不能与普通平民居住在一起,而常常被限定在特定的贱民居住区域;他们的穿着打扮和出行交往,都不能同于常人,而有特定的贱口标识;即使他们的祖先也曾跻身名门豪族,一旦沦为贱口便要被家族除籍。总之,贱民的“一切权利被剥夺,使之处于最卑下最受奴役的地位。倘若奴婢设法去奴籍为良,或以逃亡等方式试图摆脱所受的各种压迫和虐待时,则又要受到严酷的刑律处罚”。因此,贱民受到的不是一般贫民阶级的经济剥削与政治压迫,而是被残酷地剥夺人之所以为人的基本权利,是被中国传统的礼法体系彻底非人化和奴化的特殊群体。
贱民制度是中国专制政治条件下政治奴役与政治压迫的集中体现,贱民的解放程度是中国政治解放的重要尺度。历代贱民的种类、称号和来源多种多样,然而,无论哪个朝代,贱民最重要的来源都与政治压迫和政治镇压直接或间接相关,各种不同种类和称呼的贱民本质上都被剥夺基本人权,并受到非人道的对待。贱民作为中国传统社会最低贱的阶级,不仅仅是由于其经济地位,更是由于其社会和政治地位。在主人眼中,贱民与可供自己随意使唤的牲口并无实质差别,为了使贱口更好地服侍自己,主人反而必须像饲养牲口那样维系贱民的生命和体力。因而,纯粹从物质生活方面看,在经济极度困难以至威胁到生死存亡的某些特殊情况下,贱民的生存条件甚至可能比普通贫民要更好。这也是为什么在一些饥荒和灾难时期,平民会自甘出卖为奴的主要原因。然而,统治者和主人之所以要为贱民提供必需的物质生活条件,仅仅是为了使其维系生命以更好地被主人役使。
在中国传统专制政治的条件下,贱民阶级存在的真实意义,就在于供统治集团奴役;贱民以牺牲基本的人权,来满足统治阶级的特权需要。在漫长的中国专制政治历史上,在所有的社会阶级群体中,贱民是受奴役和压迫最深重的群体。他们不仅受到以君主为代表的统治阶级的奴役和欺压,而且还要受到被统治阶级中其他平民阶层的歧视和侮辱,贱民阶级的政治解放超乎想象的艰难。即使国家的政治法律制度正式废除了贱民的卑贱身份,即使经济收入和物质生活条件已经不再处于社会的最底层,社会对贱民群体根深蒂固的歧视以及贱民群体的自我鄙视也难以在短时期内消除。一位研究浙江堕民历史的学者回顾了从明初设立“禁止再呼堕民碑”开始的极其漫长的堕民解放历程,最后不无感慨地说,直到改革开放后,堕民的政治、经济和文化障碍才完全消除,而成为国家的正常公民:“中华人民共和国成立后,堕民被列入劳动人民的行列,特别是改革开放以后,堕民发家致富,平民消除了歧视堕民心理,堕民也不再有自卑心理,平民与堕民的界线得于泯灭,堕民作为一个贱民群体被彻底消融。”鉴于妇女在历史上被更多地剥夺作为人的基本权利,比起男性来受压迫更加深重,马克思和恩格斯曾引述傅立叶的话说,“妇女解放的程度是衡量普遍解放的天然标准”。据此我们可以说,在中华民族的政治进步史上,贱民解放的程度是衡量中国政治进步的重要尺度。
贱民制度在中国持续存在数千年,是中国专制政治的结构性要素之一,给中华民族留下了沉重的政治和社会遗产。中国历史上贱民群体的形成,并非“物竞天择,优胜劣汰”的自然竞争结果,而更多的是内外战争和政治斗争的产物。贱民虽然从事社会最低贱的职业,处于社会的最底层,受到最残酷的奴役,但这并不等于贱民群体是中华民族的“糟粕”。恰恰相反,大量的贱民源于残酷的政治镇压,昔日万人之上的皇亲国戚和达官贵人,完全可能一夜之间变成众人唾弃的奴仆罪隶。因此,数千年的贱民制度和数量庞大的贱民阶级的长期存在,深刻地影响了中华民族的国民性,依附性、不平等、对权力的崇拜和对人格尊严的忽视成为国民性中严重的负面遗产。
贱民政治即是奴性政治,奴性的形成与专制政治和贱籍制度有着内在的联系。鲁迅对中华民族的国民性有过极其深刻的分析和批判,他认为中国的国民性中有着浓厚的“奴性”。他说:中国人在历史上虽然经历过许多朝代,但实质上就是两个时代,即“想做奴隶而不得的时代”和“暂时做稳了奴隶的时代”。因此,“中国人向来就没有争到过‘人’的价格,至多不过是奴隶”。中国传统的专制政治环境,导致了严重的人身依附关系,使得许多人身上带有深深的奴性:“专制者的反面就是奴才,有权时无所不为,失势时即奴性十足……做主子时以一切别人为奴才,则有了主子,一定以奴才自命。”
等级特权本来就是专制政治的内在属性,而贱民制则将等级特权从官僚阶级的价值转变成全民的价值,对等级特权的追求成为一般民众的内在精神。特级特权是官僚政治的产物,官员的权利与其官爵紧密相连。然而在中国,由于士农工商这些普通民众之下还存在着一个更低下的贱民阶级,在贱民群体面前庶民百姓也有强烈的优越感。不仅如此,贱民阶级内部还有三六九等,从而使得贱民群体自己也拥有等级意识。因而,在中国的传统国民精神中,存在着一种强烈的等级意识,使自己或自己的子孙成为高于别人的等级,成为传统中国人的普遍追求和内在激励。“吃得苦中苦,方为人上人”,成了许多人的励志语和座右铭。
中国的传统社会是一个典型的官本主义国家。“官本主义就是以权力为本位的政治文化和社会政治形态,在这种政治文化和社会政治形态中,权力关系是最重要的社会关系。在各种类型的社会权力中,政治权力处于支配地位,是官本主义的核心要素。因此,权力本位通常也表现为官本位。在官本主义条件下,权力成为衡量人的社会价值的基本标准,也是影响人的社会地位和社会属性的决定性因素。权力支配着包括物质资源和文化资源在内的所有社会资源的配置,拥有权力意味着拥有社会资源。”传统中国的官本主义与贱民制度是一种互为增益的关系,正是政治权力催生了大量的贱民群体,贱民群体的存在本身就是政治特权的宣示。剥夺贱民的基本权利,最实质性的就是剥夺其通过科举考试或捐官的途径成为朝廷官员的权利。官本主义与贱民制度的相互增益,导致了传统中国人对政治权力无以复加的崇拜。在相当程度可以说,在权力面前不仅贱民是奴婢,其他普通民众也同样是奴婢。
贱民制度彻底剥夺了人的尊严,极大地遏制了中国人对尊严的追求。在现代社会,人的最高价值就是人的尊严,“人人生而自由,在尊严和权利上一律平等”成为全人类的共识。然而,在中国的传统政治文化中,尊严与权力相辅相成,权力而非德性和理性成为尊严的基础。谁拥有权力,请就拥有尊严;谁拥有多大的权力,谁就拥有多大的尊严。皇帝拥有最高的政治权力,他也因此而成为最有尊严的人。反之,没有权力就没有尊严,处于最底层的贱民没有任何权力可言,也就没有任何尊严可言。贱民制度的长期存在,不仅彻底泯灭了贱民群体的尊严意识,也在很大程度上泯灭了普通中国人的尊严意识。即使强调德行的儒家本身,其主流观点也把最高的尊严给予了皇帝,例如朱熹就说“人主极尊严”。
总之,数量庞大的贱民群体是中国历史上一个重要的政治存在,是士农工商四民之外一个特殊的阶级,处于中国传统社会最低贱的地位。贱籍制度是中国历史最悠久的政治制度之一,是中国绝对君主专制主义的重要制度基础。从根本上说,贱民阶级的产生,是专制政治统治的需要。贱民具有世袭性,最早的贱民群体源自俘虏和罪犯,是战争和政治镇压的产物。贱民被当作是牲口和财物,完全剥夺了基本的人权,没有起码的人身自由、人格尊严和生命保障。贱民制度是一种极端非人道的政治奴役,与人类的政治文明完全背道而驰,贱民解放的程度是中华民族政治文明进步和政治解放的重要尺度。
本文载于《学术月刊》2025年第1期。
余少祥:论社会法的本质属性[节]
一、体现社会法本质的基本范畴
范畴及其体系是衡量人类在一定历史时期理论发展水平的指标,也是一门学科成熟的重要标志。社会法的基本范畴是社会法的概念、性质及结构体系等内容的本质体现,这是当前学术界研究相对薄弱的环节。社会法的基本范畴经历了从社会保护、社会保障到社会促进,从生存性公平到体面性公平的演变,体现了社会法不同于其他部门法的本质特征。
(一)国内立法史视角
一直以来,我国社会法的基本范畴都是社会保护,主要体现为对特定弱势群体的生活救济和救助。到了近代,开始探索社会保障制度。新中国成立尤其是新时代以来,社会促进逐渐成为社会法的新追求。
在我国古代,虽然没有系统的社会法制度体系,但很早就有关于社会救济的思想和行为记载,如《礼记·礼运》提出“使老有所终,壮有所用,幼有所长,鳏寡孤独废疾者,皆有所养”;《墨子》主张“饥者得食,寒者得衣,劳者得息”。在制度方面,《礼记·王制》言及夏、商、周各代对聋、哑等残障人士“各以其器食之”。在西周,六官中地官之下设大司徒,专门负责灾害救济。春秋战国时期,增加了“平籴、通籴”等措施。两宋之后,居养机构发展较为完善,有福田院、居养院等多种形式。此外,还有用于赈灾的名目众多的仓储体系,如汉有常平仓,唐有义仓,两宋有惠民仓、社仓,元有在京诸仓、御河诸仓,明有预备仓等。但总体上看,这些救助措施均非法定义务。统治者赈灾济困乃是一种怀柔之术,是为巩固皇权的收买人心之举,与现代意义的社会法相距甚远。
我国真正开启社会立法的是北洋政府。清末搞得沸沸扬扬的修宪和制订法律的活动,催生了民法、刑法等一批法律法规,却没有一部关于社会救济和保障民众生活的法律。1923年,北洋政府颁布《矿工待遇规定》,首次引入“劳动保险”概念,可谓我国社会法的破壳之作。可惜,这些法令因战乱和时局动荡刚实施便很快夭折。南京国民政府建立后,先后颁布《慈善团体监督法》《救灾准备金法》《最低工资法》等。从抗日战争起,以国民政府社会部成立为标志,社会立法渐趋完备。1943年《社会救济法》颁布,奠定了民国社会法的基石。这一时期,《社会保险法原则》《职工福利社设立办法》等先后公布,为探索社会保障进行了有益尝试,社会法发展开始迈入现代化门槛。但由于内战不断、政局不稳、政令不畅,加上官僚买办资本的抵制,这些法令并没有得到有效实施。
新中国成立后,我国实行的是计划经济体制和单位对职工生老病死全包的政策。直到20世纪80年代,民众的基本生活保障仍是由国家和集体组织承担。90年代起,随着向市场经济转型,一部分群体开始从单位人向“社会人”转变。为确保这部分民众的基本生活来源,我国开始建立社会保障制度,先后颁布《残疾人保障法》(1990)、《劳动法》(1994)、《城市居民最低生活保障条例》(1999)等社会法规。进入21世纪后,相继出台了《劳动合同法》(2007)、《社会保险法》(2010)等社会立法。新时代以来,又陆续推出《慈善法》(2016)、《法律援助法》(2021)等,加上之前的《红十字会法》(1993)、《就业促进法》(2007),社会促进逐渐成为立法的关键词。从总体上看,我国当代社会立法是制度变迁的产物,而非在市场发展中形成的,因此与西方国家有所不同。
(二)国外立法史视角
社会法是舶来品,深受欧美日等工业国家影响,因此探求社会法的概念、范畴与体系等,离不开对外国法制的比较观察。从总体上看,国外社会法范畴也经历了社会保护、社会保障和社会促进的演进。
英国是世界上最早实行社会立法的国家,其目的是为脆弱群体提供社会保护。1388 年,金雀花王朝制定了一部《济贫法案》。1531年,亨利八世又颁布了一部《名副其实救济法》,规定老人和缺乏能力者可以乞讨,地方当局将根据良心从事济贫活动。这两个法案与1601年伊丽莎白《济贫法》相比,影响较小。后者诞生于“羊吃人”的圈地运动时期,旨在“将不附任何歧视性的工作给有工作能力的人”,后为很多国家效仿。1563年,英国颁布了历史上第一部《劳工法》,1802—1833年又颁布5个劳动法案,覆盖了几乎所有工业部门,确立了现代劳动保护体系及基本原则。1834年,英国政府出台《济贫法修正案》,史称“新济贫法”。这些立法孕育着社会法的丰富遗产,具有鲜明的时代性、体系性和结构性特征。此后欧洲其他工业化国家纷纷仿效英国,建立起自己的社会保护制度。
世界上最早实行社会保险立法的是德国。19世纪中后期,俾斯麦政府采取“胡萝卜加大棒”政策,一面对工人阶级反抗实施残酷镇压,一面通过社会保险对其安抚,相继出台了《疾病保险法》(1883)、《工伤保险法》(1884)等法规。由于社会保险法适应了工业化对劳动力自由流动的需求,解决了劳动者生活的后顾之忧,在社会法体系中占有重要地位。但西方社会法真正完成的标志是1935年美国《社会保障法》施行,这是社会保障概念在世界上首次出现。之后,社会法的发展开始进入一个新的历史阶段——为社会成员提供普遍福利,其典型标志是英国“贝弗里奇计划”实施。由于该计划被逐步纳入立法,标志着英国社会法走向完备和成熟。第二次世界大战后西方各国在推行社会立法时,不同程度借鉴了《贝弗里奇报告》模式,使得西方社会法的福利化转型最终完成。
20世纪60年代,西方国家普遍解决了生存权问题,社会促进开始成为立法的重要权衡。除了传统的慈善法大量兴起外,扶贫法和反歧视法逐渐形成新的热潮。以美国为例,1964年约翰逊政府通过《经济机会法》,宣布“向贫困宣战”,此外还实施了社区行动计划、学前儿童启蒙教育计划等。其他国家如英国的《儿童扶贫法案》、法国的“扶贫计划”和德国的《联邦改善区域结构共同任务法》等在促进落后地区经济社会发展方面也起到了重要作用。在反歧视方面,美国、英国、欧盟和日本都有完备的立法。尤其是美国,仅反就业歧视法就多达十余部,且有大量判例具有重要立法价值。这一时期,日本的《反对性别歧视法》(1975)、瑞典的《男女机会均等法》(1980)等纷纷出台。根据反歧视法的差别待遇原则,都是为了促进国民获得实际平等地位,实现社会实质公平。
(三)学术研究史视角
我国社会法研究肇始于民国初期。1949年以后,又分为“大陆”和“台湾地区”两个支系,前者的探索早于后者,而且在一定程度上沿袭了民国的传统。从学术史上看,学术界在某些观点上取得了较大共识,但核心范畴略有差异。
民国的社会保护和社会幸福说。多数民国学者认为,社会法是救济和保护社会弱者之法。如李景禧提出,社会法是“为防止经济弱者地位的日下,调整了暂时的矛盾”。陆季藩指出,社会法是“以保护劳动阶级或社会弱者为目标”的法。林东海认为,凡是“解决社会上之经济的不平等问题”的立法,都是社会法。杨智提出,社会法是“以增进及保护社会弱者之利益为目的”的法。也有学者主张,社会法包含一般社会福利。如张蔚然提出,社会法是“关于国民经济生活之法”。卢峻认为,社会法的目标是“使社会互动关系或社会连立关系”达到最高目标。黄公觉则明确提出,广义社会法“指一切关于促进社会幸福的立法”,狭义社会法仅指“为促进社会里的弱者或比较不幸者的利益或幸福之立法”。
大陆的劳动保护与社会保障说。1993年,中国社会科学院法学研究所在一份报告中将社会法解释为“调整因维护劳动权利、救助待业者而产生的各种社会关系的法律规范的总称”。这是新中国学术界首次系统阐述这一概念。最高人民法院2002年编纂的《社会法卷》认为,“坚持社会公平、维护社会公共利益、保护弱势群体的合法权益”是“社会法的主要特点”。在学术界,多数学者将社会法定义为调整劳动与社会保障关系的法律。如张守文认为,社会法“具有突出的保障性”,主要是“防范和化解社会风险和社会危机,保障社会安全和社会秩序”;赵震江等认为,社会法是“从整个社会利益出发,保护劳动者,维护社会稳定”,包括“社会救济法、社会保障法和劳动法等”。从中国社会法学研究会历次年会讨论的情况来看,劳动法、社会保障法、慈善法属于社会法的观点已被普遍接受。
台湾地区的社会安全和生活安全说。很多台湾学者从社会保护出发,将社会法称为社会安全法。如王泽鉴认为,社会法“系以社会安全立法为主轴所展开的”。钟秉正认为,社会法是“以社会公平与社会安全为目的之法律”,“以消除现代工业社会所产生的各种不公平现象”。也有学者明确提出社会法是生活安全法。如郝凤鸣认为,社会法是“以解决与经济生活相关之社会问题为主要目的”,“藉以安定社会并修正经济发展所造成的负面影响”;陈国钧认为,社会法旨在保护某些特殊人群的“经济生活安全”,或用以促进“社会普遍福利”,这些法规的集合被称为社会法或社会立法。总之,在台湾学术界,社会法集中指向与社会保护、社会保障和社会福利等相关的社会安全或生活安全法。
二、决定社会法本质的要素分析
事物的本质和发展方向是由核心要素决定的,在讨论社会法的本质之前,我们先分析决定其本质的核心要素。如前所述,社会法产生的根源是社会的结构性矛盾,尤其是市场化带来诸多社会问题,使得国家不得不运用公权力干预私人经济,达到保障民众生存权、化解社会矛盾的目的。在一定意义上,政治国家、经济社会和历史文化等要素在社会法本质形成过程中起到了决定性作用。
(一)政治国家要素
作为国家在干预私人领域过程中形成的全新法律门类,社会法与传统的自由权、自由市场经济体制以及民主法治国家理念存在一定冲突。正是国家职能的转变决定了社会法的内在精神和本质,使人民受益于国家的关照。
1.从消极国家到积极国家
在古典自由主义时期,政府主要承担“守夜人”角色。资本主义发展到垄断阶段以后,不但造成市场机制失灵,而且难以维持社会稳定。于是,社会上层开始形成一种共识,即通过国家干预,改良资本主义制度,以消除暴力革命的隐患。正如马克思和恩格斯指出,“资产阶级中的一部分人想要消除社会弊病”,“但是不要由这些条件必然产生的斗争和危险”。按照黑格尔的阐述,国家的目的在于“谋公民的幸福”,否则它“就会站不住脚的”。在这种情形下,国家这只“看得见的手”开始不断发挥作用,以平衡不同社会群体的需求,积极国家随之诞生。因此,国家干预并非理论家的发明,而是在历史进程中实际发生的,即对抗已重新采取直接的国家干涉主义形式,国家进一步成为社会秩序的干预者。
国家干预社会生活是通过社会立法实现的,直接决定了社会法的性质和宗旨。由于国家不得不采取干涉主义的社会立法来做社会救济的工具,于是在法律上体现为,国家对于任何人都有保障其基本生活的义务。从立法宗旨来看,旨在打破弱肉强食的丛林法则,将社会贫富分化控制在一个可以承受的动态合理范围之内。比如,通过劳资立法,克服自由资本主义无节制地追求高额利润造成的社会分裂等严重后果。事实上,国家实行经济社会干预,不是否认私人利益和个人需求,而是将其重整到更高的全社会层面,即运用国家的力量实现个人的特殊利益与社会整体利益的统一。因此,社会法表面上是社会性的,实质上是政治性的,是一种典型的政治法学,它发轫于人对国家的依附性,发生于国家对共同体内每个人的幸福所负有的法律责任,使国民的生活安全得到有效保障。
2.从社会国到福利国家
积极国家进一步引发从消极自由到积极自由的发展。也就是说,国家不仅有保障公民基本自由不受侵犯的消极义务,更有保障公民基本生存与安全的积极义务,这也是社会发展进步的重要标志。在这一背景下,政府不再像以前一样仅仅囿于维护社会秩序,或对出现的问题进行决策干预,而是更进一步转换为保障人民具有人格尊严和最低生存条件的给付行政。通过给付行政,政府承担了涵盖广泛的计划性的行为、社会救济与社会保障等任务。尤其是在工业社会条件下,国民享有基本权利和事实自由的物质基础并不在于他们为社会作过什么贡献,而根本上依赖于政府的社会给付。正是给付行政成就了今天的社会国,即一个关照社会安全与民生福祉的国家。社会法便是为实现社会国的目标任务形成的法律体系,而社会国原则又为立法者干预私人领域提供了合法性依据。
19世纪末20世纪初,随着垄断资本主义发展,社会本位的法理念开始取代个人本位的法思想并居于支配地位。这一时期,政治国家与市民社会的矛盾在法律上体现的结构也发生了新变化,使得国家在向国民承诺下不断增加福利范围。1942年,英国“贝弗里奇计划”首次采用福利国家称谓,通过财产重新配置,为公民提供基本生活保障。二战之后,这一思想主宰了西方的正统观念,很多国家确认促进民生幸福是公民的重要社会权利,对广泛和普遍的社会福利而言同样如此,国家承担了民众直接或间接的生活责任。可见,政治国家不但有力地推动了社会法的发展,而且决定了其福利化方向,最大限度地消除了各阶级之间的对抗冲突以及社会革命的危险,促进了社会公正公平,有效维护了社会稳定。
(二)经济社会要素
工业革命以后,资本主义的新信念是唯物质主义的,即只要物质财富足够多,一切社会问题都会自动消失。事实上,纯粹的市场机制无法解决社会公平、效率以及经济长期稳定等重要问题。由于市场体系造成了巨大的社会混乱,如果不深刻调整,市场机制也将被摧毁。因此,资产阶级国家被迫用法律来防止资本主义剥削过度的现象,通过社会立法去收拾资本和市场留下的烂摊子,出现了以社会法为核心、旨在对冲和矫治市场化不利后果的社会保护运动,结果连最纯正的自由主义者也承认,自由市场的存在并不排斥对政府干预的需要。正如罗斯福在1938年向国会提交的一份“建议”中指出:“我们奉行的生活方式要求政治民主和以营利为目的的私人自由经营应该互相服务、互相保护——以保证全体而不是少数人最大程度的自由。”
经济民主理论认为,经济问题与伦理问题密切相关,人类经济生活应满足高尚、完善的伦理道德方面的欲望。社会法倡导社会保险、社会救济、劳工保护等社会权利,以解决资本主义发展中日益严峻的社会问题。一方面,要保障每个人拥有获取扩展其能力的物质条件和自我实现的机会;另一方面,要在支持扩大国家给付的理由与加重政府财政负担的结果之间进行权衡。可见,社会法的产生不单纯是对民众生活的保护,也是产业制度有效运行和社会存续的必需。因此,社会法在本质上是由资本主义的结构性矛盾决定的,是这一矛盾在法学层面的反映。因此,社会法与市民法同属资本主义的法,它不否认市场经济。
与此同时,社会要素也深刻地影响着社会法的本质。随着工业革命深入发展,市场为社会创造了巨额财富,也制造了大量贫困。正如马克思恩格斯所说,“劳动生产了宫殿,但是给工人生产了棚舍”。1848年,《共产党宣言》发表,整个欧洲为之震动。恩格斯明确指出:平等不仅应“在国家的领域中实行”,还应当“在社会的、经济的领域中实行”。这一时期,各种社会主义思潮如德国的社会民主党运动、法国的工团社会主义、巴枯宁与蒲鲁东的无政府主义等纷纷发出社会改革的呼吁。由此看来,近现代社会实际上受到了一种双向运动支配,其一是经济自由主义原则,其二是社会保护原则,二者交互作用。应该说,社会法的产生正是对社会无序发展及其大量不良后果进行矫正的反向运动。
从本质上看,社会保险、社会救助等均是由社会再分配决定的,其目的是使社会上的富人与穷人达成一种建立稳定秩序的合作。如德国当时的社会保险立法受到普遍赞成,资方认为可以抵消暴力革命,劳方则视其为实现社会主义的第一阶段。这一共识不断巩固和积累,成为重要的社会支持手段。美国学者卡尔多等在社会福利的基础上,还提出一种社会补偿理论,认为从受益者新增收益中拿出一部分补偿受损者,就实现了帕累托改进。总之,社会再分配是以生存权和社会公平为法理基础,这是社会法最重要的价值理念,体现了生产关系变革和社会法的发展进步。而且,社会法的发达程度是由经济社会发展水平决定的。一方面,所有的社会权利实现都依赖于经济发展指数和财政状况;另一方面,它限制资本主义的非人道压榨和剥削,却使资本家在所谓合法范围内得以充分发展。
(三)历史文化要素
社会是由历史事实的总和所规定的、经验地形成的人类质料,作为最具解释力的最新法理范式,社会法标志着人类政治文明、法治文明和社会现代化达到了空前高度,历史意义深远。历史法学派明确指出,法是以民族的历史传统为基础生成的事物,是从特殊角度观察的人类生活。萨维尼详细考察了德国法,认为法的素材“发源于国民自身及其历史的最内在本质”,因而受历史决定。马克思认为,历史意味着现实的个人通过生产实践活动进行物质创造,并逐渐认识世界、改造世界;而“表现在某一民族的政治、法律、道德、宗教”等“语言中的精神生产”也是“人们物质行动的直接产物”。因此,法律是历史的产物,是世世代代的人活动的结果。可见,马克思历史观的内核在于,从历史和现实出发考察法律的形成和本质,并将市民社会理解为整个历史和社会立法的基础。
德国是现代社会法的发源地,其社会立法极大地丰富、发展和完善了现代法律体系。从实践中看,德国社会法受历史因素的影响是广泛而深远的。如1794年《普鲁士普通邦法》规定,国家有义务对那些为了共同利益而被迫牺牲其特殊权利和利益的人进行补偿。以此为源头,德国逐渐孕育出公益牺牲原则,成为社会补偿法的理论渊源。为了应对二战受害人及其遗属的供养问题,德国出台了《联邦供养法》,并逐步演变为对各类暴力行为受害人的补偿。再如,德国法律有一个苛情救济制度,主要是为恐怖和极端犯罪受害人提供人道主义款项,但受害人无法主动主张这一权利。2013年,第十八届议会提出,要制订新的受害人补偿和社会补偿法。不久,柏林恐怖袭击案发生,使得改革进程急剧加速。如今,服民役者、因接种疫苗身体受损者均被纳入社会补偿范围,使其社会法体系日臻完备。
文化也是社会法本质形成的重要决定因素。马克思指出,“权利决不能超出社会的经济结构以及由经济结构制约的社会的文化发展”,因为文化是现代社会思想的特殊元素,奠定了一整套理解和解释人类行为的规则。社会文化决定论甚至认为,人类及社会制度的形成,由各种文化价值和社会机构决定。尤其是法律文化,决定了一国法律的内在逻辑,以及历史进程中积累下来并不断创新的群体性法律认知、价值体系、心理态势和行为模式。客观地说,很多法律特性只有通过法律文化才能得到解释,如德国、英国、美国和法国法的不同。因此,法律既存在于一个与传统相通的整体之中,又存在于一个与他物相关联而形成的民族精神的整体之中,他们共同构成了法律的文化意义的经纬。
决定社会法本质的文化要素有法律观念、传统和制度等,如俾斯麦立法是德国留给世界最宝贵的政治遗产,是法律文化的最高层次。此外,法律理论的影响也是不言而喻的。一是社会连带理论。如社会连带主义法学提出,连带关系要求个人对其他人负有义务,每个人都依靠与他人合作才可能过上满意的生活成为社会保险法的理论基础。二是公民权利理论。如马歇尔提出,公民权利“是福利国家核心概念”,成为福利立法的理论基石。三是差别平等理论。这一理论认为,财富和权力的不平等,只有最终能对每个人的利益,尤其是在对地位最不利的社会成员的利益进行补偿的情况下才是正义的。这些文化元素对社会法本质形成起到了重要的决定作用。因此,如果剥夺了文化要素,社会法就不是今天的样子,也不可能实现生活安全的社会化和国家化。
三、社会法本质的理论证成
作为独立的学科名称和专门法学术语,社会法有特定的语意内涵、独立的研究对象和独特的法律本质,应立足于中国的历史和现实文化,借鉴国外经验,构建具有中国特色的社会法理论。并非所有与社会或社会问题相关的法律都是社会法,它以为每一个社会成员提供适当的基本生活条件为使命,因此不仅仅是现代社会场域的法,也是应对现代社会的法。
(一)社会法是弥补私法不足的法律体系
私法和市场竞争必然孕育着贫富分化与社会危机。为了挽救资产阶级统治秩序,资本主义国家遂通过社会立法来修正某些私法原则,限制完全的自由竞争,矫正私法和自由放任的市场经济带来的负面后果。
1.私法公法化与公法私法化
近代私法推定法律关系发生在身份平等且充分自由的人们之间,对市场经济的保障是十分必要的,至少对于市场主体来说形成了私人平等。所谓私人平等,就是人格与资格平等、机会均等。因此,在经济交往中,只要不采取欺诈、强迫等手段,各方都可以自由地追求利益最大化,国家作为中介人和社会契约的执行者只有保护个体权利不受侵害的消极义务,没有促进个体利益的积极义务。但是,这种抽象平等忽略了人们在天赋能力、资源占有、社会地位等方面的实际差异,结果产生了事实上的不自由、不平等,不可避免地出现“贫者愈贫,富者愈富”的马太效应。正是私法调整机制的不足以及所有权绝对和个人本位法思想泛滥,导致社会弱者生存困难、劳动者生存状况不断恶化和劳资对立等严重社会后果,迫切需要对私法意思自治、形式平等、契约自由等原则进行修正。
由于私法和市场机制不能自动解决社会贫困、失业等问题,在法律发展中出现了私法公法化和公法私法化现象,逐渐形成社会法这一以实现社会实质公平为目的、以公私法融合为特征的新型法律部门。这是因为,单纯的公法容易导致过多限制经济自由的危险,单纯的私法又无法影响经济活动的全部结构。所谓私法公法化,是国家运用公共权力调整一些原本属于私法的社会关系,使私法带有公法的色彩和性质;所谓公法私法化,是国家以私人身份出现在法律关系中,将私法手段引入公法关系,使国家成为私法的主体和当事人。这种公共权力介入私人领域的做法就是公私法融合,并随之产生与公私法并列的第三法域。按照共和主义的观点,在私人对个人基本权利产生实质性支配关系时,国家有义务帮助个人对抗这种支配,此时基本权利经由国家介入得以保全。
2.社会法对市民法的修正
如前所述,市民法(即民法)有益于资源有效配置与财富公正分配,但由于各主体掌握的信息、谈判能力和经济力量等不同,交易结果不一定公平。在现实中,很多人认识到法律的基本精神是有利于强者而非弱者,市民法确立的平等协商、契约自由等原则在实践中形同虚设。一方面,它忽视了个体的现实差异;另一方面,市民法上的“人”是一种超越实际存在、拟制化的抽象人,已逐渐丧失伦理性与社会正当性基础。从法史可知,对人的看法在很大程度上决定着法律的发展趋势和方向。20世纪下半叶起,新的利益前所未有地逼迫着法律,要求以社会立法的形式得到承认,法律也越来越多地确认其存在,将空前大量的权利提高到受法律保护的地位。正是源于此种法理论的立法被称为社会法,这一变化也体现了从市民法到社会法、从近代法到现代法原理的重大转换。
与市民法不同,社会法更关注人的具象性与实力差异,由此很多学者从市民法修正角度来阐释社会法,将社会矫正思想置于自由主义的平等思想之上。如沼田稻次郎提出,社会法是以“对建立在个人法基础上的个人主义法秩序所存在弊端的反省”为特征的法。事实上,社会法对市民法的修订主要体现为生存权保障,具体而言就是对财产权绝对、契约自由、平等协商等原则的限制,一些学者称之为民法社会化或现代化,是不准确的。社会法对民法的修正是系统化的,在法律理念、原则、方法和调整的法律关系上有显著不同。总之,社会法是传统市民法不足的产物,正如马克思所说,立法者“不是在创造法律,不是在发明法律,而仅仅是在表述法律,他用有意识的实在法把精神关系的内在规律表现出来”。
(二)社会法调整的是实质不平等的社会关系
由于私法本身无法推动不平等的社会关系向实质平等转变,以公权力矫正不平等就成为必然选择。社会法正是通过对不平等的社会关系实行区别对待和差异化调整,增强弱者与强者抗衡的力量,实现实质意义的平等和公平。
1.从形式平等到实质不平等
私法的形式平等旨在确立绝对财产权和缔约自由权,使个人通过市场机制选择追逐利益最大化,并承担由此带来的后果。但是,这种平等作为近代民主政治的理念不是实质性的,而是舍弃了当事人不同经济社会地位的人格平等和机会均等,并非事实上的平等。恩格斯说:“劳动契约仿佛是由双方自愿缔结的”,这种“只是因为法律在纸面上规定双方处于平等地位而已”,“这不是一个普通的个人在对待另一个人的关系上的自由,这是资本压榨劳动者的自由”。拉德布鲁赫在《法学导论》中写道: “这种法律形式上的契约自由,不过是劳动契约中经济较强的一方——雇主的自由”,“对于经济弱者……则毫无自由可言”。因此,所谓契约自由和所有权绝对,事实上已成为压迫和榨取的工具。
尽管私法形式正义要求按照法律规定分门别类以后的平等对待,但它并未告诉人们,应该怎样或不该怎样分类及对待,如果机械地贯彻形式平等原则,就容易产生许多弊病。一方面,总会有一些人处于强势地位,一些人居于劣势地位;另一方面,强者常常利用优势地位欺压弱者,形成实际上的不平等关系。以劳动关系为例,如果不对契约双方进行一定干预,劳动者通常被迫同意雇主的苛刻条件而建立不平等劳动关系。由于市场本身无法克服这一现象,必然带来一系列社会利益冲突,甚至导致严重的社会危机。正是自由主义无序发展导致19世纪出现垄断与无产、奢侈与赤贫、餍饫与饥馑的严重对立现象,因此必须对形式平等导致的实质不平等进行矫正,通过社会法规制,平衡各种社会矛盾和利益冲突。
2.从实质不平等到实质平等
为了达到实质平等,资产阶级国家开始通过社会立法适当保护社会弱者,抑制社会强者。与民法不同,社会法既有私法调整方法,也有公法调整方法,因为单靠私法规范不能达到目的,必须运用公法的强制性规范予以支持才能实现权利的真正保障。作为反思法律形式平等的必然结果,社会法主要是以社会基准法和倾斜保护的方式对平等主体间不平衡的利益关系予以适度调节,设定一些法律禁止或倡导的方面,体现了马克斯·韦伯所称“现代法的反形式主义”趋势,是一种“回应型法”或称“实质理性法”。其法理基础是,为了校正形式平等所造成的实质不平等,对个人生存和生活条件进行实际保障。当然,这种积极义务是辅助性的,只是对形式平等的缺陷和不足进行必要修正和补充,并没有取代和全面否定形式平等,正如社会法没有取代和完全否定民法一样。
由此可见,社会法调整的乃是实质不平等的社会关系,旨在纠正市场经济所导致的必然倾斜。所谓实质平等,是国家针对不同人群的事实差异,采取适当区别的对待方式,以缩小由于形式平等造成的社会差距。为了实现这一目标,立法者一方面关注平等人格背后人们在能力、条件、资源占有等方面的不平等,并以倾斜保护方式实现人与人之间的和谐;另一方面重视为人们提供必需的基本生活保障,使得立法的目标变成了结果的平等。有鉴于此,社会法上的社会保障并非临时性救济,也不是政府“信意”为之,而是法律赋予的强制性义务。总之,社会法是近现代社会实质不平等的产物和反映,以应对私法产生的“市场失灵”和过度社会分化等问题。马克思说:“人们按照自己的物质生产率建立相应的社会关系,正是这些人又按照自己的社会关系创造了相应的原理、观念和范畴。”
(三)社会法通过基准法机制发挥作用
与民法不同,社会法有一个基准法机制即最低权利保障,它提供了一种在社会的基本制度中分配权利和义务的办法,即将弱者的部分权利规定为强者或国家和社会的义务,以矫正实质意义的不平等,缩小社会差距。
1.以基准法保障底线
所谓社会基准法,是将弱者的部分利益,抽象提升到社会层面,以法律的普遍意志代替弱者的个别意志,实现对其利益的特殊保护。具体就是,以立法形式规定过去由各方约定的某些内容,使弱者的权利从私有部门转移到公共部门,实现这部分权利法定化和基准化。比如,国家规定最低工资、最低劳动条件、最低生活保障标准等都是基准法,因其具有公法的法定性和强制性,任何团体和个人契约都不能与之相违背或通过协议改变。社会基准法在初次和再次分配中都有体现,如最低工资法属于初次分配,最低生活保障法属于再次分配。在一定程度上,社会基准法是对私法所有权绝对、等价有偿、契约自由等原则的限制和修正,通常被认为是推行某种“家长制”统治的结果,因为要实现从社会的富有阶层向贫困阶层进行资源再分配,将不可避免地侵犯到财产权的绝对性。
社会基准法克服了弱者交易能力差、其利益常被民法意思自治方式剥夺的局限,在一定程度上改变了强弱主体力量不均衡状态。但是,它没有完全排除私法合意,即在基准法之上仍按契约自由原则,由市场和社会调节,这是社会法与其他部门法的显著不同。也就是说,当事人的约定只要不违反基准法,国家并不干预,个人和团体契约可以继续发挥作用。因此,社会法规范既有公法的强制性,也有私法的任意性,通过基准法限制某种利己主义的表达,通常被视为一种由统治权力强加于个人的必要。社会法与行政法的共同点在于,都实行强制性规范,但社会法是一种底线控制,没有完全排除契约自由。社会法与民法的共同点在于都尊重契约自由,但前者对契约自由作用有所限制,后者是当事人完全意思自治,任何外力干预都被视为违法或侵权。
2.以义务规范体现权利
社会基准法的另一种表现形式是,以义务规范体现权利。这也是社会法的显著特征之一,即立足于强弱分化人的真实状况,用具体的不平等的人和团体化的人重塑现代社会的法律人格,用倾斜保护方式明确相对弱势一方主体的权利,严格规定强势一方主体的义务,实现对社会弱者和民生的关怀。因此,社会法重在对私权附以社会义务,授予权利也是使相对人承担义务的手段。以社会保障法为例,社会救助、社会优抚、社会福利等主要由国家提供,社会保险则由雇主、雇员和国家共同负担,并规定为国家和社会义务,以保障民众的基本生活权利。由此,现代国家已成为新的财产来源之一,民众的生存权不再建立在民法传统意义上的私人财产所有权之上,而是立足于国家提供的生存保障与社会救济的基础之上。
社会法上的权利义务之所以不一致,是因为社会生活中客观存在一种不对等性,法律对当事人的权利义务设定就有所不同。具体就是,通过后天弥补,以法律形式向弱者适当倾斜。因此,社会法不关心穷人对自己的困境负多大责任,赋予其社会保障权也不以承担义务为前提条件。其实质是,将民众和社会弱者的基准权利规定为国家和社会的义务,因此与一些学者所谓义务本位不同。如欧阳谿认为,社会法“在于促进社会生活之共同利益”,“必以社会为本位”。事实上,封建主义和资本主义以义务为本位的法律,只不过是多数人尽忠于少数人的义务而已。不仅如此,社会法对所有权设定义务并不以权利滥用或过错为条件,限制的也不是个体而是类权利,限制方式包括使所有权负有更多义务,向弱者适当倾斜等,与民法的禁止权利滥用原则并不相同。
(四)社会法的根本目标是生活安全
不同于民法维护交易安全、刑法维护人身和财产安全、行政法维护国家安全,社会法旨在维护民众的生活安全,保障其社会性生存。它基于保护社会脆弱群体而产生,形成了不同类型、内容丰富、功能互补的制度体系。
1.社会法:维系民生之法
社会法的内在精神是保护民生福祉,也就是保障人民的生活、群众的生计和社会安全。马克思指出:“人们为了能够‘创造历史’,必须能够生活,但是为了生活,首先就需要吃喝住穿以及其他一些东西。”从本质来看,社会法的终极目标是,确保每个公民都能过上合乎人的尊严的生活,保障民众免于匮乏的自由。其核心在于,保护某些特别需要扶助人群的经济生活安全,促进社会大众的普遍福利;其实质是,对市场经济中的失败者以及全体国民予以基本的生存权保障,以此促进整个社会的和谐稳定。笔者曾将理解社会法的关键词概括为“弱者的生活安全”“提供社会福利”“国家和社会帮助”,极言之即“生活安全”。由于社会法建立了一种弱者保护机制和利益分配的普遍正义立场,通常称为民生之法。
社会法保障民众的生活安全有一个从部分社会到全体社会的发展过程。早期社会法仅仅是维护特殊群体的生活安全,认为社会法保护的是经济上处于从属地位的劳动者阶级这一特殊具体的主体。随着社会的发展,社会法的调整范围从弱者的生存救济拓展到普遍社会福利,实现了从部分社会到全体社会的转换。汉斯·F.察哈尔对此有过精辟总结,认为狭义社会法是“以保护处于经济劣势状况下的一群人的生活安全所”;广义社会法是“以改善大众生活状况促进社会一般福利”。从功能学上看,社会法有利于消融社会对抗、冲突,实现国家和社会安全,即通过保障民众的基本生存权利,扩大社会福利范围,增加公共服务数量,使每一个人都能获得某种程度的生活幸福感。
2.社会法的最高本体和逻辑结构
社会法主要通过行政给付保障民众的生活安全,这就要求国家直接提供诸如食品、救济金、补贴等基本条件,使人们在任何情况下都能维持起码的生活水准,这是社会法的最高本体。社会法上的给付分为间接给付和直接给付,如政府在工资、工时、工作条件等方面对企业进行规制,是一种间接给付;国家为保障民众生存而进行社会救助、社会保险、社会优抚补偿等,是直接给付。二者均指向国家积极义务所蕴含的实质平等。一方面,社会法上的给付是法定的,其依据必须是国家所颁布的实在法,而不能单纯地依靠宪法,因此无法律则无社会给付;另一方面,在社会给付法律关系中,国家事实上是给付主体和“财产的公众代理人”,这既是一种公共职能,也是一种国家义务。
通过行政给付,社会法确认和保护民众的生存权、社会保险权与福利权等,最终形成系统化、不同类型的结构体系。一是社会保护法,即保护妇女、未成年人、残疾人、老年人、劳工等脆弱群体的法规概称。目前,国际社会普遍将社会保护的重点确定为在社会保障体系中得不到充分保护的人。二是社会保障法,即国家用来应对全体社会成员因疾病、生育、工伤、失业和年老等引起收入减少或中断后造成经济和社会困境的法规总称,包括社会保险、社会救助、社会优抚与补偿法等。三是社会促进法,即某一类社会立法,能够促进社会实质正义、社会效用和福利等普遍提升,使公民的生活更加富足、便捷、安定,如慈善法、反歧视法、扶贫法等。这是社会法的三个基本类型,都蕴含行政给付,也都以保障民众的生活安全为目标,在本质上是一致的。
四、围绕社会法本质的体系建构
自新中国成立尤其是改革开放后,我国社会法建设取得了很大成就,但相比之下仍然是最为落后的法律部门。由于起步较晚,研究还不充分,至今没有形成相对系统的社会法体系。如何从本质上对社会法以概念清晰、理论坚实、结构严整、逻辑缜密的方式进行体系化建构,并外化为全面有序的法规系列,是推动我国社会法实践和经济社会稳定发展必须解决的重要问题。
(一)加强社会法科学民主立法
参照发达国家经验,一方面,我国社会法最大的问题是基本法律缺失,本应是“四梁八柱”的社会救助法、医疗保障法、社会福利法、社会补偿法等仍不见踪影。在社会法分支领域,亦存在诸多盲点,如集体协商与集体合同法、反就业歧视法等尚未出台,涉及平台劳动者保护的法规亦鲜有问世。另一方面,一些法规存在矛盾和冲突。
针对上述问题,宜在现有法规基础上,以保障民生和共同富裕为导向,进一步完善社会法体系。当前,我国民众在就业、养老、医疗、居住等方面仍存在很多困难,亟待通过立法解决。而且,要促进社会法规范和制度衔接。以社会救助和社会保险为例,我国和美国都实行分立模式,但美国没有社会保险的居民可以得到相应社会救助保障。在英国,1909 年的《扶贫法》要求政府在实行社会救助的同时,通过强制性社会保险使失业人员得到生活救济。在解决法规冲突方面,我国《立法法》确立了两项制度:一是直接解决机制,即“新法优于旧法”“上位法优于下位法”“特别法优于一般法”;二是间接解决机制,即将无法适用处理规则的冲突纳入送请裁决范围,区分法定和酌定情形,由有权机关裁决。此外,也可以运用利益衡量方法化解法律规范冲突,填补法律漏洞。
同时,提高立法质量。由于种种原因,我国社会法普遍存在立法质量不高问题,主要表现为立法层级低、碎片化严重、落后于实践发展等。以社会保障法为例,除了《社会保险法》,其他都是行政法规和部门规章。由于法规权威性不足,我国社会保障发展明显受限。因此,提高立法层级,建立覆盖面广的法规体系非常重要。从《社会保险法》来看,也存在很多问题。一是占全国人口一半的农民、没有就业的城镇居民、公务员和军人等保险都是“由国务院另行规定”,没有体现全民性;二是其内容远远落后于实践,如城居保与新农合、生育保险与医疗保险已合并,机关事业单位已纳入社会保险,社会保险费明确由税务部门征收,但《社会保险法》均没有体现。由于社会法立法质量不高,不仅没有解决好贫富差距问题,而且在某种意义上使贫富差距逐渐扩大。
要改变这种状况,必须深入推进社会法科学立法、民主立法。科学立法的核心在于根据社会发展需要,制定符合实际情况的社会法制度。事实上,一项法律只有切实可行,才会产生效力。以最低生活保障法为例,对救济款实行“一刀切”是不科学的,一些发达国家通常采用一种负所得税法,即按照被保障人收入实行差额补助,可以借鉴。所谓民主立法,就是在立法决策、活动中,坚持人民主体性地位,“要把体现人民利益、反映人民愿望、维护人民权益、增进人民福祉落实到依法治国全过程”。需要说明的是,我国社会法意在保障民众的基本生存权,将贫富分化控制在一定范围内,并非“福利超赶”或“泛福利化”,否则会“导致社会活力不足”,阻碍人们的积极性和创造性。
(二)提升社会法行政执法效能
社会法行政执法分为两项:一是行政给付,二是行政监察。前者为积极执法,由政府主动履行法定义务;后者为消极执法,实行不告不理原则。在行政执法中,如果当事人违法,还会产生相应的行政、民事和刑事责任。
1.充分发挥行政给付功能
社会法行政执法的主要内容是行政给付,这是社会法与传统部门法最显著的区别,体现了法律思想从形式正义到实质正义的追求。但从我国行政给付情况看,重视和保障弱势群体利益的特征并不明显。党的二十届三中全会明确提出,要加强普惠性、基础性、兜底性民生建设。近年来,尽管国家采取了大量措施解决民生问题,但相对贫穷问题依然存在,民生保障还存在薄弱环节。一方面,行政给付中社会保护和社会促进支出很少;另一方面,城乡和地区之间差异较大。在经济发达地区和效益好的单位,给付标准高,在落后地区和效益不好的单位,给付标准低,形成一种反向歧视。不仅如此,有的地方仍存在“人情保”“关系保”等现象,使得法定的行政给付和社会保障功能大打折扣。
社会法上的行政给付有一个重要特点是,社会化程度越高,保障功效越好,体现的管理制度越公平。我国正处于社会转型期,为更好防范和化解新的社会矛盾,亟待建立公平的行政给付制度体系。一是政府积极主动执法。社会法所保障的社会权利与政治权利不同,政府不积极作为就很难实现。以残疾人保障为例,他们有着特殊的生理和社会需求,需要额外帮助和政府主动作为。当然,社会保护给付并不否定NGO和私人机构的作用,因为政府也会失灵。二是建立行政给付统筹与协调制度。以社会救助为例,目前最低生活保障和临时救助由民政部门负责,特定失业群体救助由人社部门负责,教育类救助由教育部门负责,且救助给付审批程序烦琐,耗时过长,有待改进。三是坚决惩治行政给付中的腐败行为,真正建立群众满意的阳光下的给付制度。
2.减少行政立法,加强监察职能
我国社会法有一个重要特点是,法律条文多是原则性、指导性规定,软法性质明显,在立法中授权政府部门另行制定法规或规章的情况很常见。由此,行政部门实际上扮演了执法和立法主体的双重角色。以劳动法为例,由于没有处理好原则与规则的关系,很多规范仍以行政法规和部门规章的形式出台。以社会保险法为例,很多现行制度没有在法律中体现,而是由国务院及其部委的“决定”“通知”等规定。例如,有关养老保险费缓缴、基本养老保险待遇、工伤和医疗保险先行支付与追偿等,都是由国务院文件规定,没有法定标准。甚至一些体制性问题如社保转移接续、社保费征缴主体等都是由行政机关协调解决。
在我国社会法执法中,应“去行政化”,使其回归监察定位。一是建立健全的监察体制。目前,劳动和社会保障监察已进入实操,但仍存在机构名称设置不规范不统一、规格不一致等问题。二是执法必严。社会法执法不严现象也应纠正,如基本养老保险全国统筹是《社会保险法》明文规定的,但至今省级统筹的目标仍未实现。为此,要大力推动执法权限和力量下沉,以适应社会法执法的实际需要。三是改进执法方式,逐步解决执法中的不作为、乱作为问题,将权力关进制度的笼子。
(三)推进社会法司法化
我国社会法在司法机制上仍存在很多空白,例如,社会保护和社会促进法体现的主要是宣示性权利,很少在法院适用。事实上,只有在社会权利受到法院或准司法机构保护的时候,社会法才能真正发挥稳定器的作用。
1.社会法司法化的限度
社会法上的诉权并非完全的权利,而是受到了一定限制。一方面,有关社会权的诉讼不可能扩展到尚未纳入法律保护的领域;另一方面,即便有些权利已经纳入法律保护,也不是完全可诉的。这也是社会法区别于其他部门法的显著特征。首先,社会权与自由权有很大区别。社会权需要国家采取积极措施才能实现,自由权只要国家不干预即能实现。其次,国家对国民的责任有一定限度。社会法上的国家责任是由法律明确规定的,是一种有限责任。再次,由司法决定行政给付有违权力分立理念。社会法的行政给付传统上都是由立法和行政机关作出裁量,如果司法过度侵入,会被认为危及民主制度和权力分工体系。最后,由立法和行政机关决定公共资源分配有现实合理性。由于社会法上的权利保护与大量资金投入有关,请求权客体(财政资源)的有限性直接决定了其诉讼的限制性。
但是,这并不意味着社会法上的权利是不可诉的,承认一部分权利的可诉性,可以促进国家履行其承诺的积极义务。以社会保障权为例,对于公民依法享有的社会保险、社会福利等待遇,当事人可以起诉;对于基准法和约定权益受到侵犯,也可以起诉。如1970年的戈德伯格诉凯利案中,美国联邦最高法院明确指出,社会福利可以请求法院救济。在英国和法国,社会法诉讼由社会保障法庭解决,德国则设立了专门的社会法院。但是,对政府确立的给付标准、最低工资标准等不满意,则不能起诉,因其在很大程度上是由政治而非司法决定。这也是社会法与其他部门法最重要的区别之一。如在1956年日本朝日诉讼案中,原告认为每月600日元不符合宪法规定的最低生活条件,但由于被告日本政府的解释理由更充分,导致“原告的诉讼请求无疾而终”。
2.社会法司法化的实践进路
确立公益诉讼和诉讼担当人制度。由于社会权益被侵害的后果不限于某个当事人,而是包含不特定多数人甚至公共社会,非利害关系人亦可起诉。比如,印度建立了一种公益诉讼模式,即只要是善意的,任何人都可以为受害人起诉。在社会法诉讼中,还有诉讼担当人和集团诉讼概念,也是对民事诉讼主体资格的突破和超越。如在集体合同争议中,工会是诉讼担当人和唯一主体,其他任何组织和个人都无权起诉。诉讼担当人与民法上的委托代理人不同,当事人不能解除其担当关系。此外,集团诉讼也是社会法的另一种诉讼机制。20世纪90年代,利用集团诉讼处理劳动保护、社会保险等纠纷成为潮流。对于诉讼请求较小的当事人来说,如果起诉标的比诉讼费用少,当事人就倾向于集团诉讼。
实行举证责任倒置制度。社会法司法机制同样体现了向弱者倾斜的理念。20世纪以来,在大量司法实践中,诞生了社会法另一个独特的司法机制——举证责任倒置。以工伤事故为例,法律明确规定由雇主承担举证责任;在欠薪案中,劳动者对未付工资的事实不负举证责任,都体现了对劳动者的特殊保护。这一点从工作场所中雇员给雇主造成损失和雇主给雇员造成损失承担责任以及举证责任的“非对等性”也可以看出。再如,就业歧视在美国等国家是违法的,当事人只要表明歧视发生时的情况即可,此后举证责任就转移到雇主那里,否则就构成歧视,在行政给付、社会保护等案例中也是如此。举证责任倒置主要是对弱者实行最大限度的司法保护,应确立为我国社会法基本的司法制度。
设置专门法庭或适用简易程序。在司法程序上,社会法争议亦有别于一般民事诉讼。以劳动司法为例,很多国家设置了行政裁判前置程序,以及两项重要原则:一是缩短劳动争议审限,二是劳资同盟介入。因此,社会法司法一般审限较短,程序也简单。由于当事人的诉讼请求与生存权和健康权等息息相关,如果像债权、物权一样按照民事案件审理,期限都在半年或一年以上,这种马拉松式的诉讼显然与权利人生存的现实需要是不相容的,很可能危及其生存。因此,对于社会法诉讼中一些耗时长、成本高的案件,为了节省社会成本和当事人的开支,应当使争议得到迅速和经济的处理,因此,可以借鉴一些国家的成功经验,设置专业裁判所或专门法庭,适用简易程序审理。
本文转自《中国社会科学》2024年第11期
John D. Kelleher 《Deep Learning》
1 Introduction to Deep Learning
2 Conceptual Foundations
3 Neural Networks: The Building Blocks of Deep Learning
4 A Brief History of Deep Learning
5 Convolutional and Recurrent Neural Networks
6 Learning Functions
7 The Future of Deep Learning1 Introduction to Deep Learning
Deep learning is the subfield of artificial intelligence that focuses on creating large neural network models that are capable of making accurate data-driven decisions. Deep learning is particularly suited to contexts where the data is complex and where there are large datasets available. Today most online companies and high-end consumer technologies use deep learning. Among other things, Facebook uses deep learning to analyze text in online conversations. Google, Baidu, and Microsoft all use deep learning for image search, and also for machine translation. All modern smart phones have deep learning systems running on them; for example, deep learning is now the standard technology for speech recognition, and also for face detection on digital cameras. In the healthcare sector, deep learning is used to process medical images (X-rays, CT, and MRI scans) and diagnose health conditions. Deep learning is also at the core of self-driving cars, where it is used for localization and mapping, motion planning and steering, and environment perception, as well as tracking driver state.
Perhaps the best-known example of deep learning is DeepMind’s AlphaGo.1 Go is a board game similar to Chess. AlphaGo was the first computer program to beat a professional Go player. In March 2016, it beat the top Korean professional, Lee Sedol, in a match watched by more than two hundred million people. The following year, in 2017, AlphaGo beat the world’s No. 1 ranking player, China’s Ke Jie.
In 2016 AlphaGo’s success was very surprising. At the time, most people expected that it would take many more years of research before a computer would be able to compete with top level human Go players. It had been known for a long time that programming a computer to play Go was much more difficult than programming it to play Chess. There are many more board configurations possible in Go than there are in Chess. This is because Go has a larger board and simpler rules than Chess. There are, in fact, more possible board configurations in Go than there are atoms in the universe. This massive search space and Go’s large branching factor (the number of board configurations that can be reached in one move) makes Go an incredibly challenging game for both humans and computers.
One way of illustrating the relative difficulty Go and Chess presented to computer programs is through a historical comparison of how Go and Chess programs competed with human players. In 1967, MIT’s MacHack-6 Chess program could successfully compete with humans and had an Elo rating2 well above novice level, and, by May 1997, DeepBlue was capable of beating the Chess world champion Gary Kasparov. In comparison, the first complete Go program wasn’t written until 1968 and strong human players were still able to easily beat the best Go programs in 1997.
The time lag between the development of Chess and Go computer programs reflects the difference in computational difficulty between these two games. However, a second historic comparison between Chess and Go illustrates the revolutionary impact that deep learning has had on the ability of computer programs to compete with humans at Go. It took thirty years for Chess programs to progress from human level competence in 1967 to world champion level in 1997. However, with the development of deep learning it took only seven years for computer Go programs to progress from advanced amateur to world champion; as recently as 2009 the best Go program in the world was rated at the low-end of advanced amateur. This acceleration in performance through the use of deep learning is nothing short of extraordinary, but it is also indicative of the types of progress that deep learning has enabled in a number of fields.
AlphaGo uses deep learning to evaluate board configurations and to decide on the next move to make. The fact that AlphaGo used deep learning to decide what move to make next is a clue to understanding why deep learning is useful across so many different domains and applications. Decision-making is a crucial part of life. One way to make decisions is to base them on your “intuition” or your “gut feeling.” However, most people would agree that the best way to make decisions is to base them on the relevant data. Deep learning enables data-driven decisions by identifying and extracting patterns from large datasets that accurately map from sets of complex inputs to good decision outcomes.
Artificial Intelligence, Machine Learning, and Deep Learning
Deep learning has emerged from research in artificial intelligence and machine learning. Figure 1.1 illustrates the relationship between artificial intelligence, machine learning, and deep learning.
Deep learning enables data-driven decisions by identifying and extracting patterns from large datasets that accurately map from sets of complex inputs to good decision outcomes.
The field of artificial intelligence was born at a workshop at Dartmouth College in the summer of 1956. Research on a number of topics was presented at the workshop including mathematical theorem proving, natural language processing, planning for games, computer programs that could learn from examples, and neural networks. The modern field of machine learning draws on the last two topics: computers that could learn from examples, and neural network research.
Figure 1.1 The relationship between artificial intelligence, machine learning, and deep learning. Machine learning involves the development and evaluation of algorithms that enable a computer to extract (or learn) functions from a dataset (sets of examples). To understand what machine learning means we need to understand three terms: dataset, algorithm, and function.
In its simplest form, a dataset is a table where each row contains the description of one example from a domain, and each column contains the information for one of the features in a domain. For example, table 1.1 illustrates an example dataset for a loan application domain. This dataset lists the details of four example loan applications. Excluding the ID feature, which is only for ease of reference, each example is described using three features: the applicant’s annual income, their current debt, and their credit solvency.
Table 1.1. A dataset of loan applicants and their known credit solvency ratings
ID Annual Income Current Debt Credit Solvency 1 $150 -$100 100 2 $250 -$300 -50 3 $450 -$250 400 4 $200 -$350 -300 An algorithm is a process (or recipe, or program) that a computer can follow. In the context of machine learning, an algorithm defines a process to analyze a dataset and identify recurring patterns in the data. For example, the algorithm might find a pattern that relates a person’s annual income and current debt to their credit solvency rating. In mathematics, relationships of this type are referred to as functions.
A function is a deterministic mapping from a set of input values to one or more output values. The fact that the mapping is deterministic means that for any specific set of inputs a function will always return the same outputs. For example, addition is a deterministic mapping, and so 2+2 is always equal to 4. As we will discuss later, we can create functions for domains that are more complex than basic arithmetic, we can for example define a function that takes a person’s income and debt as inputs and returns their credit solvency rating as the output value. The concept of a function is very important to deep learning so it is worth repeating the definition for emphasis: a function is simply a mapping from inputs to outputs. In fact, the goal of machine learning is to learn functions from data. A function can be represented in many different ways: it can be as simple as an arithmetic operation (e.g., addition or subtraction are both functions that take inputs and return a single output), a sequence of if-then-else rules, or it can have a much more complex representation.
A function is a deterministic mapping from a set of input values to one or more output values.
One way to represent a function is to use a neural network. Deep learning is the subfield of machine learning that focuses on deep neural network models. In fact, the patterns that deep learning algorithms extract from datasets are functions that are represented as neural networks. Figure 1.2 illustrates the structure of a neural network. The boxes on the left of the figure represent the memory locations where inputs are presented to the network. Each of the circles in this figure is called a neuron and each neuron implements a function: it takes a number of values as input and maps them to an output value. The arrows in the network show how the outputs of each neuron are passed as inputs to other neurons. In this network, information flows from left to right. For example, if this network were trained to predict a person’s credit solvency, based on their income and debt, it would receive the income and debt as inputs on the left of the network and output the credit solvency score through the neuron on the right.
A neural network uses a divide-and-conquer strategy to learn a function: each neuron in the network learns a simple function, and the overall (more complex) function, defined by the network, is created by combining these simpler functions. Chapter 3 will describe how a neural network processes information.
Figure 1.2 Schematic illustration of a neural network. What Is Machine Learning?
A machine learning algorithm is a search process designed to choose the best function, from a set of possible functions, to explain the relationships between features in a dataset. To get an intuitive understanding of what is involved in extracting, or learning, a function from data, examine the following set of sample inputs to an unknown function and the outputs it returns. Given these examples, decide which arithmetic operation (addition, subtraction, multiplication, or division) is the best choice to explain the mapping the unknown function defines between its inputs and output:
Most people would agree that multiplication is the best choice because it provides the best match to the observed relationship, or mapping, from the inputs to the outputs:
In this particular instance, choosing the best function is relatively straightforward, and a human can do it without the aid of a computer. However, as the number of inputs to the unknown function increases (perhaps to hundreds or thousands of inputs), and the variety of potential functions to be considered gets larger, the task becomes much more difficult. It is in these contexts that harnessing the power of machine learning to search for the best function, to match the patterns in the dataset, becomes necessary.
Machine learning involves a two-step process: training and inference. During training, a machine learning algorithm processes a dataset and chooses the function that best matches the patterns in the data. The extracted function will be encoded in a computer program in a particular form (such as if-then-else rules or parameters of a specified equation). The encoded function is known as a model, and the analysis of the data in order to extract the function is often referred to as training the model. Essentially, models are functions encoded as computer programs. However, in machine learning the concepts of function and model are so closely related that the distinction is often skipped over and the terms may even be used interchangeably.
In the context of deep learning, the relationship between functions and models is that the function extracted from a dataset during training is represented as a neural network model, and conversely a neural network model encodes a function as a computer program. The standard process used to train a neural network is to begin training with a neural network where the parameters of the network are randomly initialized (we will explain network parameters later; for now just think of them as values that control how the function the network encodes works). This randomly initialized network will be very inaccurate in terms of its ability to match the relationship between the various input values and target outputs for the examples in the dataset. The training process then proceeds by iterating through the examples in the dataset, and, for each example, presenting the input values to the network and then using the difference between the output returned by the network and the correct output for the example listed in the dataset to update the network’s parameters so that it matches the data more closely. Once the machine learning algorithm has found a function that is sufficiently accurate (in terms of the outputs it generates matching the correct outputs listed in the dataset) for the problem we are trying to solve, the training process is completed, and the final model is returned by the algorithm. This is the point at which the learning in machine learning stops.
Once training has finished, the model is fixed. The second stage in machine learning is inference. This is when the model is applied to new examples—examples for which we do not know the correct output value, and therefore we want the model to generate estimates of this value for us. Most of the work in machine learning is focused on how to train accurate models (i.e., extracting an accurate function from data). This is because the skills and methods required to deploy a trained machine learning model into production, in order to do inference on new examples at scale, are different from those that a typical data scientist will possess. There is a growing recognition within the industry of the distinctive skills needed to deploy artificial intelligence systems at scale, and this is reflected in a growing interest in the field known as DevOps, a term describing the need for collaboration between development and operations teams (the operations team being the team responsible for deploying a developed system into production and ensuring that these systems are stable and scalable). The terms MLOps, for machine learning operations, and AIOps, for artificial intelligence operations, are also used to describe the challenges of deploying a trained model. The questions around model deployment are beyond the scope of this book, so we will instead focus on describing what deep learning is, what it can be used for, how it has evolved, and how we can train accurate deep learning models.
One relevant question here is: why is extracting a function from data useful? The reason is that once a function has been extracted from a dataset it can be applied to unseen data, and the values returned by the function in response to these new inputs can provide insight into the correct decisions for these new problems (i.e., it can be used for inference). Recall that a function is simply a deterministic mapping from inputs to outputs. The simplicity of this definition, however, hides the variety that exists within the set of functions. Consider the following examples:
- • Spam filtering is a function that takes an email as input and returns a value that classifies the email as spam (or not).
- • Face recognition is a function that takes an image as input and returns a labeling of the pixels in the image that demarcates the face in the image.
- • Gene prediction is a function that takes a genomic DNA sequence as input and returns the regions of the DNA that encode a gene.
- • Speech recognition is a function that takes an audio speech signal as input and returns a textual transcription of the speech.
- • Machine translation is a function that takes a sentence in one language as input and returns the translation of that sentence in another language.
It is because the solutions to so many problems across so many domains can be framed as functions that machine learning has become so important in recent years.
Why Is Machine Learning Difficult?
There are a number of factors that make the machine learning task difficult, even with the help of a computer. First, most datasets will include noise3 in the data, so searching for a function that matches the data exactly is not necessarily the best strategy to follow, as it is equivalent to learning the noise. Second, it is often the case that the set of possible functions is larger than the set of examples in the dataset. This means that machine learning is an ill-posed problem: the information given in the problem is not sufficient to find a single best solution; instead multiple possible solutions will match the data. We can use the problem of selecting the arithmetic operation (addition, subtraction, multiplication, or division) that best matches a set of example input-output mappings for an unknown function to illustrate the concept of an ill-posed problem. Here are the example mappings for this function selection problem:
Given these examples, multiplication and division are better matches for the unknown function than addition and subtraction. However, it is not possible to decide whether the unknown function is actually multiplication or division using this sample of data, because both operations are consistent with all the examples provided. Consequently, this is an ill-posed problem: it is not possible to select a single best answer given the information provided in the problem.
One strategy to solve an ill-posed problem is to collect more data (more examples) in the hope that the new examples will help us to discriminate between the correct underlying function and the remaining alternatives. Frequently, however, this strategy is not feasible, either because the extra data is not available or is too expensive to collect. Instead, machine learning algorithms overcome the ill-posed nature of the machine learning task by supplementing the information provided by the data with a set of assumptions about the characteristics of the best function, and use these assumptions to influence the process used by the algorithm that selects the best function (or model). These assumptions are known as the inductive bias of the algorithm because in logic a process that infers a general rule from a set of specific examples is known as inductive reasoning. For example, if all the swans that you have seen in your life are white, you might induce from these examples the general rule that all swans are white. This concept of inductive reasoning relates to machine learning because a machine learning algorithm induces (or extracts) a general rule (a function) from a set of specific examples (the dataset). Consequently, the assumptions that bias a machine learning algorithm are, in effect, biasing an inductive reasoning process, and this is why they are known as the inductive bias of the algorithm.
So, a machine learning algorithm uses two sources of information to select the best function: one is the dataset, and the other (the inductive bias) is the assumptions that bias the algorithm to prefer some functions over others, irrespective of the patterns in the dataset. The inductive bias of a machine learning algorithm can be understood as providing the algorithm with a perspective on a dataset. However, just as in the real world, where there is no single best perspective that works in all situations, there is no single best inductive bias that works well for all datasets. This is why there are so many different machine learning algorithms: each algorithm encodes a different inductive bias. The assumptions encoded in the design of a machine leanring algorithm can vary in strength. The stronger the assumptions the less freedom the algorithm is given in selecting a function that fits the patterns in the dataset. In a sense, the dataset and inductive bias counterbalance each other: machine learning algorithms that have a strong inductive bias pay less attention to the dataset when selecting a function. For example, if a machine learning algorithm is coded to prefer a very simple function, no matter how complex the patterns in the data, then it has a very strong inductive bias.
In chapter 2 we will explain how we can use the equation of a line as a template structure to define a function. The equation of the line is a very simple type of mathematical function. Machine learning algorithms that use the equation of a line as the template structure for the functions they fit to a dataset make the assumption that the model they generate should encode a simple linear mapping from inputs to output. This assumption is an example of an inductive bias. It is, in fact, an example of a strong inductive bias, as no matter how complex (or nonlinear) the patterns in the data are the algorithm will be restricted (or biased) to fit a linear model to it.
One of two things can go wrong if we choose a machine learning algorithm with the wrong bias. First, if the inductive bias of a machine learning algorithm is too strong, then the algorithm will ignore important information in the data and the returned function will not capture the nuances of the true patterns in the data. In other words, the returned function will be too simple for the domain,4 and the outputs it generates will not be accurate. This outcome is known as the function underfitting the data. Alternatively, if the bias is too weak (or permissive), the algorithm is allowed too much freedom to find a function that closely fits the data. In this case, the returned function is likely to be too complex for the domain, and, more problematically, the function is likely to fit to the noise in the sample of the data that was supplied to the algorithm during training. Fitting to the noise in the training data will reduce the function’s ability to generalize to new data (data that is not in the training sample). This outcome is known as overfitting the data. Finding a machine learning algorithm that balances data and inductive bias appropriately for a given domain is the key to learning a function that neither underfits or overfits the data, and that, therefore, generalizes successfully in that domain (i.e., that is accurate at inference, or processing new examples that were not in the training data).
However, in domains that are complex enough to warrant the use of machine learning, it is not possible in advance to know what are the correct assumptions to use to bias the selection of the correct model from the data. Consequently, data scientists must use their intuition (i.e., make informed guesses) and also use trial-and-error experimentation in order to find the best machine learning algorithm to use in a given domain.
Neural networks have a relatively weak inductive bias. As a result, generally, the danger with deep learning is that the neural network model will overfit, rather than underfit, the data. It is because neural networks pay so much attention to the data that they are best suited to contexts where there are very large datasets. The larger the dataset, the more information the data provides, and therefore it becomes more sensible to pay more attention to the data. Indeed, one of the most important factors driving the emergence of deep learning over the last decade has been the emergence of Big Data. The massive datasets that have become available through online social platforms and the proliferation of sensors have combined to provide the data necessary to train neural network models to support new applications in a range of domains. To give a sense of the scale of the big data used in deep learning research, Facebook’s face recognition software, DeepFace, was trained on a dataset of four million facial images belonging to more than four thousand identities (Taigman et al. 2014).
The Key Ingredients of Machine Learning
The above example of deciding which arithmetic operation best explains the relationship between inputs and outputs in a set of data illustrates the three key ingredients in machine learning:
1. Data (a set of historical examples).
2. A set of functions that the algorithm will search through to find the best match with the data.
3. Some measure of fitness that can be used to evaluate how well each candidate function matches the data.All three of these ingredients must be correct if a machine learning project is to succeed; below we describe each of these ingredients in more detail.
We have already introduced the concept of a dataset as a two-dimensional table (or n × m matrix),5 where each row contains the information for one example, and each column contains the information for one of the features in the domain. For example, table 1.2 illustrates how the sample inputs and outputs of the first unknown arithmetic function problem in the chapter can be represented as a dataset. This dataset contains four examples (also known as instances), and each example is represented using two input features and one output (or target) feature. Designing and selecting the features to represent the examples is a very important step in any machine learning project.
As is so often the case in computer science, and machine learning, there is a tradeoff in feature selection. If we choose to include only a minimal number of features in the dataset, then it is likely that a very informative feature will be excluded from the data, and the function returned by the machine learning algorithm will not work well. Conversely, if we choose to include as many features as possible in the domain, then it is likely that irrelevant or redundant features will be included, and this will also likely result in the function not working well. One reason for this is that the more redundant or irrelevant features that are included, the greater the probability for the machine learning algorithm to extract patterns that are based on spurious correlations between these features. In these cases, the algorithm gets confused between the real patterns in the data and the spurious patterns that only appear in the data due to the particular sample of examples that have been included in the dataset.
Finding the correct set of features to include in a dataset involves engaging with experts who understand the domain, using statistical analysis of the distribution of individual features and also the correlations between pairs of features, and a trial-and-error process of building models and checking the performance of the models when particular features are included or excluded. This process of dataset design is a labor-intensive task that often takes up a significant portion of the time and effort expended on a machine learning project. It is, however, a critical task if the project is to succeed. Indeed, identifying which features are informative for a given task is frequently where the real value of machine learning projects emerge.
The second ingredient in a machine learning project is the set of candidate functions that the algorithm will consider as the potential explanation of the patterns in the data. In the unknown arithmetic function scenario previously given, the set of considered functions was explicitly specified and restricted to four: addition, subtraction, multiplication, or division. More generally, the set of functions is implicitly defined through the inductive bias of the machine learning algorithm and the function representation (or model) that is being used. For example, a neural network model is a very flexible function representation.
Table 1.2. A simple tabular dataset
Input 1 Input 2 Target 5 5 25 2 6 12 4 4 16 2 2 04 The third and final ingredient to machine learning is the measure of fitness. The measure of fitness is a function that takes the outputs from a candidate function, generated when the machine learning algorithm applies the candidate function to the data, and compares these outputs with the data, in some way. The result of this comparison is a value that describes the fitness of the candidate function relative to the data. A fitness function that would work for our unknown arithmetic function scenario is to count in how many of the examples a candidate function returns a value that exactly matches the target specified in the data. Multiplication would score four out of four on this fitness measure, addition would score one out of four, and division and subtraction would both score zero out of four. There are a large variety of fitness functions that can be used in machine learning, and the selection of the correct fitness function is crucial to the success of a machine learning project. The design of new fitness functions is a rich area of research in machine learning. Varying how the dataset is represented, and how the candidate functions and the fitness function are defined, results in three different categories of machine learning: supervised, unsupervised, and reinforcement learning.
Supervised, Unsupervised, and Reinforcement Learning
Supervised machine learning is the most common type of machine learning. In supervised machine learning, each example in the dataset is labeled with the expected output (or target) value. For example, if we were using the dataset in table 1.1 to learn a function that maps from the inputs of annual income and debt to a credit solvency score, the credit solvency feature in the dataset would be the target feature. In order to use supervised machine learning, our dataset must list the value of the target feature for every example in the dataset. These target feature values can sometimes be very difficult, and expensive, to collect. In some cases, we must pay human experts to label each example in a dataset with the correct target value. However, the benefit of having these target values in the dataset is that the machine learning algorithm can use these values to help the learning process. It does this by comparing the outputs a function produces with the target outputs specified in the dataset, and using the difference (or error) to evaluate the fitness of the candidate function, and use the fitness evaluation to guide the search for the best function. It is because of this feedback from the target labels in the dataset to the algorithm that this type of machine learning is considered supervised. This is the type of machine learning that was demonstrated by the example of choosing between different arithmetic functions to explain the behavior of an unknown function.
Unsupervised machine learning is generally used for clustering data. For example, this type of data analysis is useful for customer segmentation, where a company wishes to segment its customer base into coherent groups so that it can target marketing campaigns and/or product designs to each group. In unsupervised machine learning, there are no target values in the dataset. Consequently, the algorithm cannot directly evaluate the fitness of a candidate function against the target values in the dataset. Instead, the machine learning algorithm tries to identify functions that map similar examples into clusters, such that the examples in a cluster are more similar to the other examples in the same cluster than they are to examples in other clusters. Note that the clusters are not prespecified, or at most they are initially very underspecified. For example, the data scientist might provide the algorithm with a target number of clusters, based on some intuition about the domain, without providing explicit information on relative sizes of the clusters or regarding the characteristics of examples that belong in each cluster. Unsupervised machine learning algorithms often begin by guessing an initial clustering of the examples and then iteratively adjusting the clusters (by dropping instances from one cluster and adding them to another) so as to improve the fitness of the cluster set. The fitness functions used in unsupervised machine learning generally reward candidate functions that result in higher similarity within individual clusters and, also, high diversity between clusters.
Reinforcement learning is most relevant for online control tasks, such as robot control and game playing. In these scenarios, an agent needs to learn a policy for how it should act in an environment in order to be rewarded. In reinforcement learning, the goal of the agent is to learn a mapping from its current observation of the environment and its own internal state (its memory) to what action it should take: for instance, should the robot move forward or backward or should the computer program move the pawn or take the queen. The output of this policy (function) is the action that the agent should take next, given the current context. In these types of scenarios, it is difficult to create historic datasets, and so reinforcement learning is often carried out in situ: an agent is released into an environment where it experiments with different policies (starting with a potentially random policy) and over time updates its policy in response to the rewards it receives from the environment. If an action results in a positive reward, the mapping from the relevant observations and state to that action is reinforced in the policy, whereas if an action results in a negative reward, the mapping is weakened. Unlike in supervised and unsupervised machine learning, in reinforcement learning, the fact that learning is done in situ means that the training and inference stages are interleaved and ongoing. The agent infers what action it should do next and uses the feedback from the environment to learn how to update its policy. A distinctive aspect of reinforcement learning is that the target output of the learned function (the agent’s actions) is decoupled from the reward mechanism. The reward may be dependent on multiple actions and there may be no reward feedback, either positive or negative, available directly after an action has been performed. For example, in a chess scenario, the reward may be +1 if the agent wins the game and -1 if the agent loses. However, this reward feedback will not be available until the last move of the game has been completed. So, one of the challenges in reinforcement learning is designing training mechanisms that can distribute the reward appropriately back through a sequence of actions so that the policy can be updated appropriately. Google’s DeepMind Technologies generated a lot of interest by demonstrating how reinforcement learning could be used to train a deep learning model to learn control policies for seven different Atari computer games (Mnih et al. 2013). The input to the system was the raw pixel values from the screen, and the control policies specified what joystick action the agent should take at each point in the game. Computer game environments are particularly suited to reinforcement learning as the agent can be allowed to play many thousands of games against the computer game system in order to learn a successful policy, without incurring the cost of creating and labeling a large dataset of example situations with correct joystick actions. The DeepMind system got so good at the games that it outperformed all previous computer systems on six of the seven games, and outperformed human experts on three of the games.
Deep learning can be applied to all three machine learning scenarios: supervised, unsupervised, and reinforcement. Supervised machine learning is, however, the most common type of machine learning. Consequently, the majority of this book will focus on deep learning in a supervised learning context. However, most of the deep learning concerns and principles introduced in the supervised learning context also apply to unsupervised and reinforcement learning.
Why Is Deep Learning So Successful?
In any data-driven process the primary determinant of success is knowing what to measure and how to measure it. This is why the processes of feature selection and feature design are so important to machine learning. As discussed above, these tasks can require domain expertise, statistical analysis of the data, and iterations of experiments building models with different feature sets. Consequently, dataset design and preparation can consume a significant portion of time and resources expended in the project, in some cases approaching up to 80% of the total budget of a project (Kelleher and Tierney 2018). Feature design is one task in which deep learning can have a significant advantage over traditional machine learning. In traditional machine learning, the design of features often requires a large amount of human effort. Deep learning takes a different approach to feature design, by attempting to automatically learn the features that are most useful for the task from the raw data.
In any data-driven process the primary determinant of success is knowing what to measure and how to measure it.
To give an example of feature design, a person’s body mass index (BMI) is the ratio of a person’s weight (in kilograms) divided by their height (in meters squared). In a medical setting, BMI is used to categorize people as underweight, normal, overweight, or obese. Categorizing people in this way can be useful in predicting the likelihood of a person developing a weight-related medical condition, such as diabetes. BMI is used for this categorization because it enables doctors to categorize people in a manner that is relevant to these weight-related medical conditions. Generally, as people get taller they also get heavier. However, most weight-related medical conditions (such as diabetes) are not affected by a person’s height but rather the amount they are overweight compared to other people of a similar stature. BMI is a useful feature to use for the medical categorization of a person’s weight because it takes the effect of height on weight into account. BMI is an example of a feature that is derived (or calculated) from raw features; in this case the raw features are weight and height. BMI is also an example of how a derived feature can be more useful in making a decision than the raw features that it is derived from. BMI is a hand-designed feature: Adolphe Quetelet designed it in the eighteenth century.
As mentioned above, during a machine learning project a lot of time and effort is spent on identifying, or designing, (derived) features that are useful for the task the project is trying to solve. The advantage of deep learning is that it can learn useful derived features from data automatically (we will discuss how it does this in later chapters). Indeed, given large enough datasets, deep learning has proven to be so effective in learning features that deep learning models are now more accurate than many of the other machine learning models that use hand-engineered features. This is also why deep learning is so effective in domains where examples are described with very large numbers of features. Technically datasets that contain large numbers of features are called high-dimensional. For example, a dataset of photos with a feature for each pixel in a photo would be high-dimensional. In complex high-dimensional domains, it is extremely difficult to hand-engineer features: consider the challenges of hand-engineering features for face recognition or machine translation. So, in these complex domains, adopting a strategy whereby the features are automatically learned from a large dataset makes sense. Related to this ability to automatically learn useful features, deep learning also has the ability to learn complex nonlinear mappings between inputs and outputs; we will explain the concept of a nonlinear mapping in chapter 3, and in chapter 6 we will explain how these mappings are learned from data.
Summary and the Road Ahead
This chapter has focused on positioning deep learning within the broader field of machine learning. Consequently, much of this chapter has been devoted to introducing machine learning. In particular, the concept of a function as a deterministic mapping from inputs to outputs was introduced, and the goal of machine learning was explained as finding a function that matches the mappings from input features to the output features that are observed in the examples in the dataset.
Within this machine learning context, deep learning was introduced as the subfield of machine learning that focuses on the design and evaluation of training algorithms and model architectures for modern neural networks. One of the distinctive aspects of deep learning within machine learning is the approach it takes to feature design. In most machine learning projects, feature design is a human-intensive task that can require deep domain expertise and consume a lot of time and project budget. Deep learning models, on the other hand, have the ability to learn useful features from low-level raw data, and complex nonlinear mappings from inputs to outputs. This ability is dependent on the availability of large datasets; however, when such datasets are available, deep learning can frequently outperform other machine learning approaches. Furthermore, this ability to learn useful features from large datasets is why deep learning can often generate highly accurate models for complex domains, be it in machine translation, speech processing, or image or video processing. In a sense, deep learning has unlocked the potential of big data. The most noticeable impact of this development has been the integration of deep learning models into consumer devices. However, the fact that deep learning can be used to analyze massive datasets also has implications for our individual privacy and civil liberty (Kelleher and Tierney 2018). This is why understanding what deep learning is, how it works, and what it can and can’t be used for, is so important. The road ahead is as follows:
• Chapter 2 introduces some of the foundational concepts of deep learning, including what a model is, how the parameters of a model can be set using data, and how we can create complex models by combining simple models.
• Chapter 3 explains what neural networks are, how they work, and what we mean by a deep neural network.
• Chapter 4 presents a history of deep learning. This history focuses on the major conceptual and technical breakthroughs that have contributed to the development of the field of machine learning. In particular, it provides a context and explanation for why deep learning has seen such rapid development in recent years.
• Chapter 5 describes the current state of the field, by introducing the two deep neural architectures that are the most popular today: convolutional neural networks and recurrent neural networks. Convolutional neural networks are ideally suited to processing image and video data. Recurrent neural networks are ideally suited to processing sequential data such as speech, text, or time-series data. Understanding the differences and commonalities across these two architectures will give you an awareness of how a deep neural network can be tailored to the characteristics of a specific type of data, and also an appreciation of the breadth of the design space of possible network architectures.
• Chapter 6 explains how deep neural networks models are trained, using the gradient descent and backpropagation algorithms. Understanding these two algorithms will give you a real insight into the state of artificial intelligence. For example, it will help you to understand why, given enough data, it is currently possible to train a computer to do a specific task within a well-defined domain at a level beyond human capabilities, but also why a more general form of intelligence is still an open research challenge for artificial intelligence.
• Chapter 7 looks to the future in the field of deep learning. It reviews the major trends driving the development of deep learning at present, and how they are likely to contribute to the development of the field in the coming years. The chapter also discusses some of the challenges the field faces, in particular the challenge of understanding and interpreting how a deep neural network works.2 Conceptual Foundations
This chapter introduces some of the foundational concepts that underpin deep learning. The basis of this chapter is to decouple the initial presentation of these concepts from the technical terminology used in deep learning, which is introduced in subsequent chapters.
A deep learning network is a mathematical model that is (loosely) inspired by the structure of the brain. Consequently, in order to understand deep learning it is helpful to have an intuitive understanding of what a mathematical model is, how the parameters of a model can be set, how we can combine (or compose) models, and how we can use geometry to understand how a model processes information.
What Is a Mathematical Model?
In its simplest form, a mathematical model is an equation that describes how one or more input variables are related to an output variable. In this form a mathematical model is the same as a function: a mapping from inputs to outputs.
In any discussion relating to models, it is important to remember the statement by George Box that all models are wrong but some are useful! For a model to be useful it must have a correspondence with the real world. This correspondence is most obvious in terms of the meaning that can be associated with a variable. For example, in isolation a value such as 78,000 has no meaning because it has no correspondence with concepts in the real world. But yearly income=$78,000 tells us how the number describes an aspect of the real world. Once the variables in a model have a meaning, we can understand the model as describing a process through which different aspects of the world interact and cause new events. The new events are then described by the outputs of the model.
A very simple template for a model is the equation of a line:
In this equation
is the output variable,
is the input variable, and
and
are two parameters of the model that we can set to adjust the relationship the model defines between the input and the output.
Imagine we have a hypothesis that yearly income affects a person’s happiness and we wish to describe the relationship between these two variables.1 Using the equation of a line, we could define a model to describe this relationship as follows:
This model has a meaning because the variables in the model (as distinct from the parameters of the model) have a correspondence with concepts from the real world. To complete our model, we have to set the values of the model’s parameters:
and
. Figure 2.1 illustrates how varying the values of each of these parameters changes the relationship defined by the model between income and happiness.
One important thing to notice in this figure is that no matter what values we set the model parameters to, the relationship defined by the model between the input and the output variable can be plotted as a line. This is not surprising because we used the equation of a line as the template to define our model, and this is why mathematical models that are based on the equation of a line are known as linear models. The other important thing to notice in the figure is how changing the parameters of the model changes the relationship between income and happiness.
Figure 2.1 Three different linear models of how income affects happiness. The solid steep line, with parameters
, is a model of the world in which people with zero income have a happiness level of 1, and increases in income have a significant effect on people’s happiness. The dashed line, with parameters
, is a model in which people with zero income have a happiness level of 1 and increased income increases happiness, but at the slower rate compared to the world modeled by the solid line. Finally, the dotted line, parameters
, is a model of the world where no one is particularly unhappy—even people with zero income have a happiness of 4 out of 10—and although increases in income do affect happiness, the effect is moderate. This third model assumes that income has a relatively weak effect on happiness.
More generally, the differences between the three models in figure 2.1 show how making changes to the parameters of a linear model changes the model. Changing
causes the line to move up and done. This is most clearly seen if we focus on the y-axis: notice that the line defined by a model always crosses (or intercepts) the y-axis at the value that
is set to. This is why the
parameter in a linear model is known as the intercept. The intercept can be understood as specifying the value of the output variable when the input variable is zero. Changing the
parameter changes the angle (or slope) of the line. The slope parameter controls how quickly changes in income effect changes in happiness. In a sense, the slope value is a measure of how important income is to happiness. If income is very important (i.e., if small changes in income result in big changes in happiness), then the slope parameter of our model should be set to a large value. Another way of understanding this is to think of a slope parameter of a linear model as describing the importance, or weight, of the input variable in determining the value of the output.
Linear Models with Multiple Inputs
The equation of a line can be used as a template for mathematical models that have more than one input variable. For example, imagine yourself in a scenario where you have been hired by a financial institution to act as a loan officer and your job involves deciding whether or not a loan application should be granted. From interviewing domain experts you come up with a hypothesis that a useful way to model a person’s credit solvency is to consider both their yearly income and their current debts. If we assume that there is a linear relationship between these two input variables and a person’s credit solvency, then the appropriate mathematical model, written out in English would be:
Notice that in this model the
m
parameter has been replaced by a separate weight for each input variable, with each weight representing the importance of its associated input in determining the output. In mathematical notation this model would be written as:where
represents the credit solvency output,
represents the income variable,
represents the debt variable, and
represents the intercept. Using the idea of adding a new weight for each new input to the model allows us to scale the equation of a line to as many inputs as we like. All the models defined in this way are still linear within the dimensions defined by the number of inputs and the output. What this means is that a linear model with two inputs and one output defines a flat plane rather than a line because that is what a two-dimensional line that has been extruded to three dimensions looks like.It can become tedious to write out a mathematical model that has a lot of inputs, so mathematicians like to write things in as compact a form as possible. With this in mind, the above equation is sometimes written in the short form:
This notation tells us that to calculate the output variable
y
we must first go through all
inputs and multiple each input by its corresponding weight, then we should sum together the results of these
multiplications, and finally we add the
intercept parameter to the result of the summation. The
symbol tells us that we use addition to combine the results of the multiplications, and the index
tells us that we multiply each input by the weight with the same index. We can make our notation even more compact by treating the intercept as a weight. One way to do this is to assume an
that is always equal to 1 and to treat the intercept as the weight on this input, that is,
. Doing this allows us to write out the model as follows:Notice that the index now starts at 0, rather than 1, because we are now assuming an extra input,
input0=1
, and we have relabeled the intercept
weight0.Although we can write down a linear model in a number of different ways, the core of a linear model is that the output is calculated as the sum of the n input values multiplied by their corresponding weights. Consequently, this type of model defines a calculation known as a weighted sum, because we weight each input and sum the results. Although a weighted sum is easy to calculate, it turns out to be very useful in many situations, and it is the basic calculation used in every neuron in a neural network.
Setting the Parameters of a Linear Model
Let us return to our working scenario where we wish to create a model that enables us to calculate the credit solvency of individuals who have applied for a financial loan. For simplicity in presentation we will ignore the intercept parameter in this discussion as it is treated the same as the other parameters (i.e., the weights on the inputs). So, dropping the intercept parameter, we have the following linear model (or weighted sum) of the relationship between a person’s income and debt to their credit solvency:
The multiplication of inputs by weights, followed by a summation, is known as a weighted sum.
In order to complete our model, we need to specify the parameters of the model; that is, we need to specify the value of the weight for each input. One way to do this would be to use our domain expertise to come up with values for each of the parameters.
For example, if we assume that an increase in a person’s income has a bigger impact on their credit solvency than a similar increase in their debt, we should set the weighting for income to be larger than that of the debt. The following model encodes this assumption; in particular this model specifies that income is three times as important as debt in determining a person’s credit solvency:
The drawback with using domain knowledge to set the parameters of a model is that experts often disagree. For example, you may think that weighting income as three times as important as debt is not realistic; in that case the model can be adjusted by, for example, setting both income and debt to have an equal weighting, which would be equivalent to assuming that income and debt are equally important in determining credit solvency. One way to avoid arguments between experts is to use data to set the parameters. This is where machine learning helps. The learning done by machine learning is finding the parameters (or weights) of a model using a dataset.
Learning Model Parameters from Data
Later in the book we will describe the standard algorithm used to learn the weights for a linear model, known as the gradient descent algorithm. However, we can give a brief preview of the algorithm here. We start with a dataset containing a set of examples for which we have both the input values (income and debt) and the output value (credit solvency). Table 2.1 illustrates such a dataset from our credit solvency scenario.2
The learning done by machine learning is finding the parameters (or weights) of a model using a dataset.
We then begin the process of learning the weights by guessing initial values for each weight. It is very likely that this initial, guessed, model will be a very bad model. This is not a problem, however, because we will use the dataset to iteratively update the weights so that the model gets better and better, in terms of how well it matches the data. For the purpose of the example, we will use the model described above as our initial (guessed) model:
Table 2.1. A dataset of loan applications and known credit solvency rating of the applicant
ID Annual income Current debt Credit solvency 1 $150 -$100 100 2 $250 -$300 -50 3 $450 -$250 400 4 $200 -$350 -300 The general process for improving the weights of the model is to select an example from the dataset and feed the input values from the example into the model. This allows us to calculate an estimate of the output value for the example. Once we have this estimated output, we can calculate the error of the model on the example by subtracting the estimated output from the correct output for the example listed in the dataset. Using the error of the model on the example, we can improve how well the model fits the data by updating the weights in the model using the following strategy, or learning rule:
• If the error is 0, then we should not change the weights of the model.
• If the error is positive, then the output of the model was too low, so we should increase the output of the model for this example by increasing the weights for all the inputs that had positive values for the example and decreasing the weights for all the inputs that had negative values for the example.
• If the error is negative, then the output of the model was too high, so we should decrease the output of the model for this example by decreasing the weights for all the inputs that had positive values for the example and increasing the weights for all the inputs that had negative values for the example.To illustrate the weight update process we will use example 1 from table 2.1 (income = 150, debt = -100, and solvency = 100) to test the accuracy of our guessed model and update the weights according to the resulting error.
When the input values for the example are passed into the model, the credit solvency estimate returned by the model is 350. This is larger than the credit solvency listed for this example in the dataset, which is 100. As a result, the error of the model is negative (100 – 350 = –250); therefore, following the learning rule described above, we should decrease the output of the model for this example by decreasing the weights for positive inputs and increasing the weights for negative inputs. For this example, the income input had a positive value and the debt input had a negative value. If we decrease the weight for income by 1 and increase the weight for debt by 1, we end up with the following model:
We can test if this weight update has improved the model by checking if the new model generates a better estimate for the example than the old model. The following illustrates pushing the same example through the new model:
This time the credit solvency estimate generated by the model matches the value in the dataset, showing that the updated model fits the data more closely than the original model. In fact, this new model generates the correct output for all the examples in the dataset.
In this example, we only needed to update the weights once in order to find a set of weights that made the behavior of the model consistent with all the examples in the dataset. Typically, however, it takes many iterations of presenting examples and updating weights to get a good model. Also, in this example, we have, for the sake of simplicity, assumed that the weights are updated by either adding or subtracting 1 from them. Generally, in machine learning, the calculation of how much to update each weight by is more complicated than this. However, these differences aside, the general process outlined here for updating the weights (or parameters) of a model in order to fit the model to a dataset is the learning process at the core of deep learning.
Combining Models
We now understand how we can specify a linear model to estimate an applicant’s credit solvency, and how we can modify the parameters of the model in order to fit the model to a dataset. However, as a loan officer our job is not simply to calculate an applicant’s credit solvency; we have to decide whether to grant the loan application or not. In other words, we need a rule that will take a credit solvency score as input and return a decision on the loan application. For example, we might use the decision rule that a person with a credit solvency above 200 will be granted a loan. This decision rule is also a model: it maps an input variable, in this case credit solvency, to an output variable, loan decision.
Using this decision rule we can adjudicate on a loan application by first using the model of credit solvency to convert a loan applicant’s profile (described in terms of the annual income and debt) into a credit solvency score, and then passing the resulting credit solvency score through our decision rule model to generate the loan decision. We can write this process out in a pseudomathematical shorthand as follows:
Using this notation, the entire decision process for adjudicating the loan application for example 1 from table 2.1 is:
We are now in a position where we can use a model (composed of two simpler models, a decision rule and a weighted sum) to describe how a loan decision is made. What is more, if we use data from previous loan applications to set the parameters (i.e., the weights) of the model, our model will correspond to how we have processed previous loan applications. This is useful because we can use this model to process new applications in a way that is consistent with previous decisions. If a new loan application is submitted, we simply use our model to process the application and generate a decision. It is this ability to apply a mathematical model to new examples that makes mathematical modeling so useful.
When we use the output of one model as the input to another model, we are creating a third model by combining two models. This strategy of building a complex model by combining smaller simpler models is at the core of deep learning networks. As we will see, a neural network is composed of a large number of small units called neurons. Each of these neurons is a simple model in its own right that maps from a set of inputs to an output. The overall model implemented by the network is created by feeding the outputs from one group of neurons as inputs into a second group of neurons and then feeding the outputs of the second group of neurons as inputs to a third group of neurons, as so on, until the final output of the model is generated. The core idea is that feeding the outputs of some neuron as inputs to other neurons enables these subsequent neurons to learn to solve a different part of the overall problem the network is trying to solve by building on the partial solutions implemented by the earlier neurons—in a similar way to the way the decision rule generates the final adjudication for a loan application by building on the calculation of the credit solvency model. We will return to this topic of model composition in subsequent chapters.
Input Spaces, Weight Spaces, and Activation Spaces
Although mathematical models can be written out as equations, it is often useful to understand the geometric meaning of a model. For example, the plots in figure 2.1 helped us understand how changes in the parameters of a linear model changed the relationship between the variables that the model defined. There are a number of geometric spaces that it is useful to distinguish between, and understand, when we are discussing neural networks. These are the input space, the weight space, and the activation space of a neuron. We can use the decision model for loan applications that we defined in the previous section to explain these three different types of spaces.
We will begin by describing the concept of an input space. Our loan decision model took two inputs: the annual income and current debt of the applicant. Table 2.1 listed these input values for four example loan applications. We can plot the input space of this model by treating each of the input variables as the axis of a coordinate system. This coordinate space is referred to as the input space because each point in this space defines a possible combination of input values to the model. For example, the plot at the top-left of figure 2.2 shows the position of each of the four example loan applications within the models input space.
The weight space for a model describes the universe of possible weight combinations that a model might use. We can plot the weight space for a model by defining a coordinate system with one axis per weight in the model. The loan decision model has only two weights, one weight for the annual income input, and one weight for the current debt input. Consequently, the weight space for this model has two dimensions. The plot at the top-right of figure 2.2 illustrates a portion of the weight space for this model. The location of the weight combination used by the model
is highlighted in this figure. Each point within this coordinate system describes a possible set of weights for the model, and therefore corresponds to a different weighted sum function within the model. Consequently, moving from one location to another within this weight space is equivalent to changing the model because it changes the mapping from inputs to output that the model defines.
Figure 2.2 There are four different coordinate spaces related to the processing of the loan decision model: top-left plots the input space; top-right plots the weight space; bottom-left plots the activation (or decision) space; and bottom-right plots the input space with the decision boundary plotted. A linear model maps a set of input values to a point in a new space by applying a weighted sum calculation to the inputs: multiply each input by a weight, and sum the results of the multiplication. In our loan decision model it is in this space that we apply our decision rule. Thus, we could call this space the decision space, but, for reasons that will become clear when we describe the structure of a neuron in the next chapter, we call this space the activation space. The axes of a model’s activation space correspond to the weighted inputs to the model. Consequently, each point in the activation space defines a set of weighted inputs. Applying a decision rule, such as our rule that a person with a credit solvency above 200 will be granted a loan, to each point in this activation space, and recording the result of the decision for each point, enables us to plot the decision boundary of the model in this space. The decision boundary divides those points in the activation space that exceed the threshold, from those points in the space below the threshold. The plot in the bottom-left of figure 2.2 illustrates the activation space for our loan decision model. The positions of the four example loan applications listed in table 2.1 when they are projected into this activation space are shown. The diagonal black line in this figure shows the decision boundary. Using this threshold, loan application number three is granted and the other loan applications are rejected. We can, if we wish, project the decision boundary back into the original input space by recording for each location in the input space which side of the decision boundary in the activation space it is mapped to by the weighted sum function. The plot at the bottom-right of figure 2.2 shows the decision boundary in the original input space (note the change in the values on the axes) and was generated using this process. We will return to the concepts of weight spaces and decision boundaries in next chapter when we describe how adjusting the parameters of a neuron changes the set of input combinations that cause the neuron to output a high activation.
Summary
The main idea presented in this chapter is that a linear mathematical model, be it expressed as an equation or plotted as a line, describes a relationship between a set of inputs and an output. Be aware that not all mathematical models are linear models, and we will come across nonlinear models in this book. However, the fundamental calculation of a weighted sum of inputs does define a linear model. Another big idea introduced in this chapter is that a linear model (a weighted sum) has a set of parameters, that is, the weights used in the weighted sum. By changing these parameters we can change the relationship the model describes between the inputs and the output. If we wish we could set these weights by hand using our domain expertise; however, we can also use machine learning to set the weights of the model so that the behavior of the model fits the patterns found in a dataset. The last big idea introduced in this chapter was that we can build complex models by combining simpler models. This is done by using the output from one (or more) models as input(s) to another model. We used this technique to define our composite model to make loan decisions. As we will see in the next chapter, the structure of a neuron in a neural network is very similar to the structure of this loan decision model. Just like this model, a neuron calculates a weighted sum of its inputs and then feeds the result of this calculation into a second model that decides whether the neuron activates or not.
The focus of this chapter has been to introduce some foundational concepts before we introduce the terminology of machine learning and deep learning. To give a quick overview of how the concepts introduced in this chapter map over to machine learning terminology, our loan decision model is equivalent to a two-input neuron that uses a threshold activation function. The two financial indicators (annual income and current debt) are analogous to the inputs the neuron receives. The terms input vector or feature vector are sometimes used to refer to the set of indicators describing a single example; in this context an example is a single loan applicant, described in terms of two features: annual income and current debt. Also, just like the loan decision model, a neuron associates a weight with each input. And, again, just like the loan decision model, a neuron multiplies each input by its associated weight and sums the results of these multiplications in order to calculate an overall score for the inputs. Finally, similar to the way we applied a threshold to the credit solvency score to convert it into a decision of whether to grant or reject the loan application, a neuron applies a function (known as an activation function) to convert the overall score of the inputs. In the earliest types of neurons, these activation functions were actually threshold functions that worked in exactly the same way as the score threshold used in this credit scoring example. In more recent neural networks, different types of activation functions (for example, the logistic, tanh, or ReLU functions) are used. We will introduce these activation functions in the next chapter.
3 Neural Networks: The Building Blocks of Deep Learning
The term deep learning describes a family of neural network models that have multiple layers of simple information processing programs, known as neurons, in the network. The focus of this chapter is to provide a clear and comprehensive introduction to how these neurons work and are interconnected in artificial neural networks. In later chapters, we will explain how neural networks are trained using data.
A neural network is a computational model that is inspired by the structure of the human brain. The human brain is composed of a massive number of nerve cells, called neurons. In fact, some estimates put the number of neurons in the human brain at one hundred billion (Herculano-Houzel 2009). Neurons have a simple three-part structure consisting of: a cell body, a set of fibers called dendrites, and a single long fiber called an axon. Figure 3.1 illustrates the structure of a neuron and how it connects to other neurons in the brain. The dendrites and the axon stem from the cell body, and the dendrites of one neuron are connected to the axons of other neurons. The dendrites act as input channels to the neuron and receive signals sent from other neurons along their axons. The axon acts as the output channel of a neuron, and so other neurons, whose dendrites are connected to the axon, receive the signals sent along the axon as inputs.
Neurons work in a very simple manner. If the incoming stimuli are strong enough, the neuron transmits an electrical pulse, called an action potential, along its axon to the other neurons that are connected to it. So, a neuron acts as an all-or-none switch, that takes in a set of inputs and either outputs an action potential or no output.
This explanation of the human brain is a significant simplification of the biological reality, but it does capture the main points necessary to understand the analogy between the structure of the human brain and computational models called neural networks. These points of analogy are: (1) the brain is composed of a large number of interconnected and simple units called neurons; (2) the functioning of the brain can be understood as processing information, encoded as high or low electrical signals, or activation potentials, that spread across the network of neurons; and (3) each neuron receives a set of stimuli from its neighbors and maps these inputs to either a high- or low-value output. All computational models of neural networks have these characteristics.
Figure 3.1 The structure of a neuron in the brain. Artificial Neural Networks
An artificial neural network consists of a network of simple information processing units, called neurons. The power of neural networks to model complex relationships is not the result of complex mathematical models, but rather emerges from the interactions between a large set of simple neurons.
Figure 3.2 illustrates the structure of a neural network. It is standard to think of the neurons in a neural network as organized into layers. The depicted network has five layers: one input layer, three hidden layers, and one output layer. A hidden layer is just a layer that is neither the input nor the output layer. Deep learning networks are neural networks that have many hidden layers of neurons. The minimum number of hidden layers necessary to be considered deep is two. However, most deep learning networks have many more than two hidden layers. The important point is that the depth of a network is measured in terms of the number of hidden layers, plus the output layer.
Deep learning networks are neural networks that have many hidden layers of neurons.
In figure 3.2, the squares in the input layer represent locations in memory that are used to present inputs to the network. These locations can be thought of as sensing neurons. There is no processing of information in these sensing neurons; the output of each of these neurons is simply the value of the data stored at the memory location. The circles in the figure represent the information processing neurons in the network. Each of these neurons takes a set of numeric values as input and maps them to a single output value. Each input to a processing neuron is either the output of a sensing neuron or the output of another processing neuron.
Figure 3.2 Topological illustration of a simple neural network. The arrows in figure 3.2 illustrate how information flows through the network from the output of one neuron to the input of another neuron. Each connection in a network connects two neurons and each connection is directed, which means that information carried along a connection only flows in one direction. Each of the connections in a network has a weight associated with it. A connection weight is simply a number, but these weights are very important. The weight of a connection affects how a neuron processes the information it receives along the connection, and, in fact, training an artificial neural network, essentially, involves searching for the best (or optimal) set of weights.
How an Artificial Neuron Processes Information
The processing of information within a neuron, that is, the mapping from inputs to an output, is very similar to the loan decision model that we developed in chapter 2. Recall that the loan decision model first calculated a weighted sum over the input features (income and debt). The weights used in the weighted sum were adjusted using a dataset so that the results of the weighted sum calculation, given an loan applicant’s income and debt as inputs, was an accurate estimate of the applicant’s credit solvency score. The second stage of processing in the loan decision model involved passing the result of the weighted sum calculation (the estimated credit solvency score) through a decision rule. This decision rule was a function that mapped a credit solvency score to a decision on whether a loan application was granted or rejected.
A neuron also implements a two-stage process to map inputs to an output. The first stage of processing involves the calculation of a weighted sum of the inputs to the neuron. Then the result of the weighted sum calculation is passed through a second function that maps the results of the weighted sum score to the neuron’s final output value. When we are designing a neuron, we can used many different types of functions for this second stage or processing; it may be as simple as the decision rule we used for our loan decision model, or it may be more complex. Typically the output value of a neuron is known as its activation value, so this second function, which maps from the result of the weighted sum to the activation value of the neuron, is known as an activation function.
Figure 3.3 illustrates how these stages of processing are reflected in the structure of an artificial neuron. In figure 3.3, the Σ symbol represents the calculation of the weighted sum, and the φ symbol represents the activation function processing the weighted sum and generating the output from the neuron.
Figure 3.3 The structure of an artificial neuron. The neuron in figure 3.3 receives n inputs
on n different input connections, and each connection has an associated weight
. The weighted sum calculation involves the multiplication of inputs by weights and the summation of the resulting values. Mathematically this calculation is written as:
This calculation can also be written in a more compact mathematical form as:
For example, assuming a neuron received the inputs
and had the following weights
, the weighted sum calculation would be:
z=(3X-3)+(9×1)
=0The second stage of processing within a neuron is to pass the result of the weighted sum, the
value, through an activation function. Figure 3.4 plots the shape of a number of possible activation functions, as the input to each function,
ranges across an interval, either [-1, …, +1] or [-10, …, +10] depending on which interval best illustrates the shape of the function. Figure 3.4 (top) plots a threshold activation function. The decision rule we used in the loan decision model was an example of a threshold function; the threshold used in that decision rule was whether the credit solvency score was above 200. Threshold activations were common in early neural network research. Figure 3.4 (middle) plots the logistic and tanh activation functions. The units employing these activation functions were popular in multilayer networks until quite recently. Figure 3.4 (bottom) plots the rectifier (or hinge, or positive linear) activation function. This activation function is very popular in modern deep learning networks; in 2011 the rectifier activation function was shown to enable better training in deep networks (Glorot et al. 2011). In fact, as will be discussed in chapter 4, during the review of the history of deep learning, one of the trends in neural network research has been a shift from threshold activation to logistic and tanh activations, and then onto rectifier activation functions.
Figure 3.4 Top: threshold function; middle: logistic and tanh functions; bottom: rectified linear function. Returning to the example, the result of the weighted summation step was
. Figure 3.4 (middle plot, solid line) plots the logistic function. Assuming that the neuron is using a logistic activation function, this plot shows how the result of the summation will be mapped to an output activation:
. The calculation of the output activation of this neuron can be summarized as:
Notice that the processing of information in this neuron is nearly identical to the processing of information in the loan decision model we developed in the last chapter. The major difference is that we have replaced the decision threshold rule that mapped the weighted sum score to an accepted or rejected output with a logistic function that maps the weighted sum score to a value between 0 and 1. Depending on the location of this neuron in the network, the output activation of the neuron, in this instance
, will either be passed as input to one or more neurons in the next layer in the network, or will be part of the overall output of the network. If a neuron is at the output layer, the interpretation of what its output value means would be dependent on the task that the neuron is designed to model. If a neuron is in one of the hidden layers of the network, then it may not be possible to put a meaningful interpretation on the output of the neuron apart from the general interpretation that it represents some sort of derived feature (similar to the BMI feature we discussed in chapter 1) that the network has found useful in generating its outputs. We will return to the challenge of interpreting the meaning of activations within a neural network in chapter 7.
The key point to remember from this section is that a neuron, the fundamental building block of neural networks and deep learning, is defined by a simple two-step sequence of operations: calculating a weighted sum and then passing the result through an activation function.
Figure 3.4 illustrates that neither the tanh nor the logistic function is a linear function. In fact, the plots of both of these functions have a distinctive s-shaped (rather than linear) profile. Not all activation functions have an s-shape (for example, the threshold and rectifier are not s-shaped), but all activation functions do apply a nonlinear mapping to the output of the weighted sum. In fact, it is the introduction of the nonlinear mapping into the processing of a neuron that is the reason why activation functions are used.
Why Is an Activation Function Necessary?
To understand why a nonlinear mapping is needed in a neuron, it is first necessary to understand that, essentially, all a neural network does is define a mapping from inputs to outputs, be it from a game position in Go to an evaluation of that position, or from an X-ray to a diagnosis of a patient. Neurons are the basic building blocks of neural networks, and therefore they are the basic building blocks of the mapping a network defines. The overall mapping from inputs to outputs that a network defines is composed of the mappings from inputs to outputs that each of the neurons within the network implement. The implication of this is that if all the neurons within a network were restricted to linear mappings (i.e., weighted sum calculations), the overall network would be restricted to a linear mapping from inputs to outputs. However, many of the relationships in the world that we might want to model are nonlinear, and if we attempt to model these relationships using a linear model, then the model will be very inaccurate. Attempting to model a nonlinear relationship with a linear model would be an example of the underfitting problem we discussed in chapter 1: underfitting occurs when the model used to encode the patterns in a dataset is too simple and as a result it is not accurate.
A linear relationship exists between two things when an increase in one always results in an increase or decrease in the other at a constant rate. For example, if an employee is on a fixed hourly rate, which does not vary at weekends or if they do overtime, then there is a linear relationship between the number of hours they work and their pay. A plot of their hours worked versus their pay will result in a straight line; the steeper the line the higher their fixed hourly rate of pay. However, if we make the payment system for our hypothetical employee just slightly more complex, by, for example, increasing their hourly rate of pay when they do overtime or work weekends, then the relationship between the number of hours they work and their pay is no longer linear. Neural networks, and in particular deep learning networks, are typically used to model relationships that are much more complex than this employee’s pay. Modeling these relationships accurately requires that a network be able to learn and represent complex nonlinear mappings. So, in order to enable a neural network to implement such nonlinear mappings, a nonlinear step (the activation function) must be included within the processing of the neurons in the network.
In principle, using any nonlinear function as an activation function enables a neural network to learn a nonlinear mapping from inputs to outputs. However, as we shall see later, most of the activation functions plotted in figure 3.4 have nice mathematical properties that are helpful when training a neural network, and this is why they are so popular in neural network research.
The fact that the introduction of a nonlinearity into the processing of the neurons enables the network to learn a nonlinear mapping between input(s) and output is another illustration of the fact that the overall behavior of the network emerges from the interactions of the processing carried out by individual neurons within the network. Neural networks solve problems using a divide-and-conquer strategy: each of the neurons in a network solves one component of the larger problem, and the overall problem is solved by combining these component solutions. An important aspect of the power of neural networks is that during training, as the weights on the connections within the network are set, the network is in effect learning a decomposition of the larger problem, and the individual neurons are learning how to solve and combine solutions to the components within this problem decomposition.
Within a neural network, some neurons may use different activation functions from other neurons in the network. Generally, however, all the neurons within a given layer of a network will be of the same type (i.e., they will all use the same activation function). Also, sometimes neurons are referred to as units, with a distinction made between units based on the activation function the units use: neurons that use a threshold activation function are known as threshold units, units that use a logistic activation function are known as logistic units, and neurons that use the rectifier activation function are known as rectified linear units, or ReLUs. For example, a network may have a layer of ReLUs connected to a layer of logistic units. The decision regarding which activation functions to use in the neurons in a network is made by the data scientist who is designing the network. To make this decision, a data scientist may run a number of experiments to test which activation functions give the best performance on a dataset. However, frequently data scientists default to using whichever activation function is popular at a given point. For example, currently ReLUs are the most popular type of unit in neural networks, but this may change as new activation functions are developed and tested. As we will discuss at the end of this chapter, the elements of a neural network that are set manually by the data scientist prior to the training process are known as hyperparameters.
Neural networks solve problems using a divide-and-conquer strategy: each of the neurons in a network solves one component of the larger problem, and the overall problem is solved by combining these component solutions.
The term hyperparameter is used to describe the manually fixed parts of the model in order to distinguish them from the parameters of the model, which are the parts of the model that are set automatically, by the machine learning algorithm, during the training process. The parameters of a neural network are the weights used in the weighted sum calculations of the neurons in the network. As we touched on in chapters 1 and 2, the standard training process for setting the parameters of a neural network is to begin by initializing the parameters (the network’s weights) to random values, and during training to use the performance of the network on the dataset to slowly adjust these weights so as to improve the accuracy of the model on the data. Chapter 6 describes the two algorithms that are most commonly used to train a neural network: the gradient descent algorithm and the backpropagation algorithm. What we will focus on next is understanding how changing the parameters of a neuron affects how the neuron responds to the inputs it receives.
How Does Changing the Parameters of a Neuron Affect Its Behavior?
The parameters of a neuron are the weights the neuron uses in the weighted sum calculation. Although the weighted sum calculation in a neuron is the same weighted sum used in a linear model, in a neuron the relationship between the weights and the final output of neuron is more complex because the result of the weighted sum is passed through an activation function in order to generate the final output. To understand how a neuron makes a decision on a given input, we need to understand the relationship between the neuron’s weights, the input it receives, and the output it generates in response.
The relationship between a neuron’s weights and the output it generates for a given input is most easily understood in neurons that use a threshold activation function. A neuron using this type of activation function is equivalent to our loan decision model that used a decision rule to classify the credit solvency scores, generated by the weighted sum calculation, to reject or grant loan applications. At the end of chapter 2, we introduced the concepts of an input space, a weight space, and an activation space (see figure 2.2). The input space for our two-input loan decision model could be visualized as a two-dimensional space, with one input (annual income) plotted along the x-axis, and the other input (current debt) on the y-axis. Each point in this plot defined a potential combination of inputs to the model, and the set of points in the input space defines the set of possible inputs the model could process. The weights used in the loan decision model can be understood as dividing the input space into two regions: the first region contains all of the inputs that result in the loan application being granted, and the other region contains all the inputs that result in the loan application being rejected. In that scenario, changing the weights used by the decision model would change the set of loan applications that were accepted or rejected. Intuitively, this makes sense because it changes the weighting that we put on an applicant’s income relative to their debt when we are deciding on granting the loan or not.
We can generalize the above analysis of the loan decision model to a neuron in a neural network. The equivalent neuron structure to the loan decision model is a two-input neuron with a threshold activation function. The input space for such a neuron has a similar structure to the input space for a loan decision model. Figure 3.5 presents three plots of the input space for a two-input neuron using a threshold function that outputs a high activation if the weighted sum result is greater than zero, and a low activation otherwise. The differences between each of the plots in this figure is that the neuron defines a different decision boundary in each case. In each plot, the decision boundary is marked with a black line.
Each of the plots in figure 3.5 was created by first fixing the weights of the neuron and then for each point in the input space recording whether the neuron returned a high or low activation when the coordinates of the point were used as the inputs to the neuron. The input points for which the neuron returned a high activation are plotted in gray, and the other points are plotted in white. The only difference between the neurons used to create these plots was the weights used in calculating the weighted sum of the inputs. The arrow in each plot illustrates the weight vector used by the neuron to generate the plot. In this context, a vector describes the direction and distance of a point from the origin.1 As we shall see, interpreting the set of weights used by a neuron as defining a vector (an arrow from the origin to the coordinates of the weights) in the neuron’s input space is useful in understanding how changes in the weights change the decision boundary of the neuron.
Figure 3.5 Decision boundaries for a two-input neuron. Top: weight vector [w1=1, w2=1]; middle: weight vector [w1=-2, w2=1]; bottom: weight vector [w1=1, w2=-2]. The weights used to create each plot change from one plot to the next. These changes are reflected in the direction of the arrow (the weight vector) in each plot. Specifically, changing the weights rotates the weight vector around the origin. Notice that the decision boundary in each plot is sensitive to the direction of the weight vector: in all the plots, the decision boundary is orthogonal (i.e., at a right, or 90°, angle) to the weight vector. So, changing the weights not only rotates the weight vector, it also rotates the decision boundary of the neuron. This rotation changes the set of inputs that the neuron outputs a high activation in response to (the gray regions).
To understand why this decision boundary is always orthogonal to the weight vector, we have to shift our perspective, for a moment, to linear algebra. Remember that every point in the input space defines a potential combination of input values to the neuron. Now, imagine each of these sets of input values as defining an arrow from the origin to the coordinates of the point in the input space. There is one arrow for each point in the input space. Each of these arrows is very similar to the weight vector, except that it points to the coordinates of the inputs rather than to the coordinates of the weights. When we treat a set of inputs as a vector, the weighted sum calculation is the same as multiplying two vectors, the input vector by the weight vector. In linear algebra terminology, multiplying two vectors is known as the dot product operation. For the purposes of this discussion, all we need to know about the dot product is that the result of this operation is dependent on the angle between the two vectors that are multiplied. If the angle between the two vectors is less than a right angle, then the result will be positive; otherwise, it will be negative. So, multiplying the weight vector by an input vector will return a positive value for all the input vectors at an angle less than a right angle to the weight vector, and a negative value for all the other vectors. The activation function used by this neuron returns a high activation when positive values are input and a low activation when negative values are input. Consequently, the decision boundary lies at a right angle to the weight vector because all the inputs at an angle less than a right angle to the weight vector will result in a positive input to the activation function and, therefore, trigger a high-output activation from the neuron; conversely, all the other inputs will result in a low-output activation from the neuron.
Switching back to the plots in figure 3.5, although the decision boundaries in each of the plots are at different angles, all the decision boundaries go through the point in space that the weight vectors originate from (i.e., the origin). This illustrates that changing the weights of a neuron rotates the neuron’s decision boundary but does not translate it. Translating the decision boundary means moving the decision boundary up and down the weight vector, so that the point where it meets the vector is not the origin. The restriction that all decision boundaries must pass through the origin limits the distinctions that a neuron can learn between input patterns. The standard way to overcome this limitation is to extend the weighted sum calculation so that it includes an extra element, known as the bias term. This bias term is not the same as the inductive bias we discussed in chapter 1. It is more analogous to the intercept parameter in the equation of a line, which moves the line up and down the y-axis. The purpose of this bias term is to move (or translate) the decision boundary away from the origin.
The bias term is simply an extra value that is included in the calculation of the weighted sum. It is introduced into the neuron by adding the bias to the result of the weighted summation prior to passing it through the activation function. Here is the equation describing the processing stages in a neuron with the bias term represented by the term b:
Figure 3.6 illustrates how the value of the bias term affects the decision boundary of a neuron. When the bias term is negative, the decision boundary is moved away from the origin in the direction that the weight vector points to (as in the top and middle plots in figure 3.6); when the bias term is positive, the decision boundary is translated in the opposite direction (see the bottom plot of figure 3.6). In both cases, the decision boundary remains orthogonal to the weight vector. Also, the size of the bias term affects the amount the decision boundary is moved from the origin; the larger the value of the bias term, the more the decision boundary is moved (compare the top plot of figure 3.6 with the middle and bottom plots).
Figure 3.6 Decision boundary plots for a two-input neuron that illustrate the effect of the bias term on the decision boundary. Top: weight vector [w1=1, w2=1] and bias equal to -1; middle: weight vector [w1=-2, w2=1] and bias equal to -2; bottom: weight vector [w1=1, w2=-2] and bias equal to 2. Instead of manually setting the value of the bias term, it is preferable to allow a neuron to learn the appropriate bias. The simplest way to do this is to treat the bias term as a weight and allow the neuron to learn the bias term at the same time that it is learning the rest of the weights for its inputs. All that is required to achieve this is to augment all the input vectors the neuron receives with an extra input that is always set to 1. By convention, this input is input 0 (
), and, consequently, the bias term is specified by weight 0 (
).2 Figure 3.7 illustrates the structure of an artificial neuron when the bias term has been integrated as
.
When the bias term has been integrated into the weights of a neuron, the equation specifying the mapping from input(s) to output activation of the neuron can be simplified (at least from a notational perspective) as follows:
Notice that in this equation the index
goes from
to
, so that it now includes the fixed input,
, and the bias term,
; in the earlier version of this equation, the index only went from
to
. This new format means that the neuron is able to learn the bias term, simply by learning the appropriate weight
, using the same process that is used to learn the weights for the other inputs: at the start of training, the bias term for each neuron in the network will be initialized to a random value and then adjusted, along with the weights of the network, in response to the performance of the network on the dataset.
Figure 3.7 An artificial neuron with a bias term included as w0. Accelerating Neural Network Training Using GPUs
Merging the bias term is more than a notational convenience; it enables us to use specialized hardware to accelerate the training of neural networks. The fact that a bias term can be treated as the same as a weight means that the calculation of the weighted sum of inputs (including the addition of the bias term) can be treated as the multiplication of two vectors. As we discussed earlier, during the explanation of why the decision boundary was orthogonal to the weight vector, we can think of a set of inputs as a vector. Recognizing that much of the processing within a neural network involves vector and matrix multiplications opens up the possibility of using specialized hardware to speed up these calculations. For example, graphics processing units (GPUs) are hardware components that have specifically been designed to do extremely fast matrix multiplications.
In a standard feedforward network, all the neurons in one layer receive all the outputs (i.e., activations) from all the neurons in the preceding layer. This means that all the neurons in a layer receive the same set of inputs. As a result, we can calculate the weighted sum calculation for all the neurons in a layer using only a single vector by matrix multiplication. Doing this is much faster than calculating a separate weighted sum for each neuron in the layer. To do this calculation of weighted sums for an entire layer of neurons in a single multiplication, we put the outputs from the neurons in the preceding layer into a vector and store all the weights of the connections between the two layers of neurons in a matrix. We then multiply the vector by the matrix, and the resulting vector contains the weighted sums for all the neurons.
Figure 3.8 illustrates how the weighted summation calculations for all the neurons in a layer in a network can be calculated using a single matrix multiplication operation. This figure is composed of two separate graphics: the graphic on the left illustrates the connections between neurons in two layers of a network, and the graphic on the right illustrates the matrix operation to calculate the weighted sums for the neurons in the second layer of the network. To help maintain a correspondence between the two graphics, the connections into neuron E are highlighted in the graphic on the left, and the calculation of the weighted sum in neuron E is highlighted in the graphic on the right.
Focusing on the graphic on the right, the
vector (1 row, 3 columns) on the bottom-left of this graphic, stores the activations for the neurons in layer 1 of the network; note that these activations are the outputs from an activation function
(the particular activation function is not specified—it could be a threshold function, a tanh, a logistic function, or a rectified linear unit/ReLU function). The
matrix (three rows and four columns), in the top-right of the graphic, holds the weights for the connections between the two layers of neurons. In this matrix, each column stores the weights for the connections coming into one of the neurons in the second layer of the network. The first column stores the weights for neuron D, the second column for neuron E, etc.3 Multiplying the
vector of activations from layer 1 by the
weight matrix results in a
vector corresponding to the weighted summations for the four neurons in layer 2 of the network:
is the weighted sum of inputs for neuron D,
for neuron E, and so on.
To generate the
vector containing the weighted summations for the neurons in layer 2, the activation vector is multiplied by each column in the matrix in turn. This is done by multiplying the first (leftmost) element in the vector by the first (topmost) element in the column, then multiplying the second element in the vector by the element in the second row in the column, and so on, until each element in the vector has been multiplied by its corresponding column element. Once all the multiplications between the vector and the column have been completed, the results are summed together and the stored in the output vector. Figure 3.8 illustrates multiplication of the activation vector by the second column in the weight matrix (the column containing the weights for inputs to neuron E) and the storing of the summation of these multiplications in the output vector as the value
.
Figure 3.8 A graphical illustration of the topological connections of a specific neuron E in a network, and the corresponding vector by matrix multiplication that calculates the weighted summation of inputs for the neuron E, and its siblings in the same layer.5 Indeed, the calculation implemented by an entire neural network can be represented as a chain of matrix multiplications, with an element-wise application of activation functions to the results of each multiplication. Figure 3.9 illustrates how a neural network can be represented in both graph form (on the left) and as a sequence of matrix operations (on the right). In the matrix representation, the
symbol represents standard matrix multiplication (described above) and the
notation represents the application of an activation function to each element in the vector created by the preceding matrix multiplication. The output of this element-wise application of the activation function is a vector containing the activations for the neurons in a layer of the network. To help show the correspondence between the two representations, both figures show the inputs to the network,
and
, the activations from the three hidden units,
,
, and
, and the overall output of the network,
.
Figure 3.9 A graph representation of a neural network (left), and the same network represented as a sequence of matrix operations (right).6 As a side note, the matrix representation provides a transparent view of the depth of a network; the network’s depth is counted as the number of layers that have a weight matrix associated with them (or equivalently, the depth of a network is the number of weight matrices required by the network). This is why the input layer is not counted when calculating the depth of a network: it does not have a weight matrix associated with it.
As mentioned above, the fact that the majority of calculations in a neural network can be represented as a sequence of matrix operations has important computational implications for deep learning. A neural network may contain over a million neurons, and the current trend is for the size of these networks to double every two to three years.4 Furthermore, deep learning networks are trained by iteratively running a network on examples sampled from very large datasets and then updating the network parameters (i.e., the weights) to improve performance. Consequently, training a deep learning network can require very large numbers of network runs, with each network run requiring millions of calculations. This is why computational speedups, such as those that can be achieved by using GPUs to perform matrix multiplications, have been so important for the development of deep learning.
The relationship between GPUs and deep learning is not one-way. The growth in demand for GPUs generated by deep learning has had a significant impact on GPU manufacturers. Deep learning has resulted in these companies refocusing their business. Traditionally, these companies would have focused on the computer games market, since the original motivation for developing GPU chips was to improve graphics rendering, and this had a natural application to computer games. However, in recent years these companies have focused on positioning GPUs as hardware for deep learning and artificial intelligence applications. Furthermore, GPU companies have also invested to ensure that their products support the top deep learning software frameworks.
Summary
The primary theme in this chapter has been that deep learning networks are composed of large numbers of simple processing units that work together to learn and implement complex mappings from large datasets. These simple units, neurons, execute a two-stage process: first, a weighted summation over the inputs to the neuron is calculated, and second, the result of the weighted summation is passed through a nonlinear function, known as an activation function. The fact that a weighted summation function can be efficiently calculated across a layer of neurons using a single matrix multiplication operation is important: it means that neural networks can be understood as a sequence of matrix operations; this has permitted the use of GPUs, hardware optimized to perform fast matrix multiplication, to speed up the training of networks, which in turn has enabled the size of networks to grow.
The compositional nature of neural networks means that it is possible to understand at a very fundamental level how a neural network operates. Providing a comprehensive description of this level of processing has been the focus of this chapter. However, the compositional nature of neural networks also raises a raft of questions in relation to how a network should be composed to solve a given task, for example:
• Which activation functions should the neurons in a network use?
• How many layers should there be in a network?
• How many neurons should there be in each layer?
• How should the neurons be connected together?Unfortunately, many of these questions cannot be answered at a level of pure principle. In machine learning terminology, the types of concepts these questions are about are known as hyperparameters, as distinct from model parameters. The parameters of a neural network are the weights on the edges, and these are set by training the network using large datasets. By contrast, hyperparameters are the parameters of a model (in these cases, the parameters of a neural network architecture) and/or training algorithm that cannot be directly estimated from the data but instead must be specified by the person creating the model, either through the use of heuristic rules, intuition, or trial and error. Often, much of the effort that goes into the creation of a deep learning network involves experimental work to answer the questions in relation to hyperparameters, and this process is known as hyperparameter tuning. The next chapter will review the history and evolution of deep learning, and the challenges posed by many of these questions are themes running through the review. Subsequent chapters in the book will explore how answering these questions in different ways can create networks with very different characteristics, each suited to different types of tasks. For example, recurrent neural networks are best suited to processing sequential/time-series data, whereas convolutional neural networks were originally developed to process images. Both of these network types are, however, built using the same fundamental processing unit, the artificial neuron; the differences in the behavior and abilities of these networks stems from how these neurons are arranged and composed.
4 A Brief History of Deep Learning
The history of deep learning can be described as three major periods of excitement and innovation, interspersed with periods of disillusionment. Figure 4.1 shows a timeline of this history, which highlights these periods of major research: on threshold logic units (early 1940s to the mid 1960s), connectionism (early 1980s to mid-1990s), and deep learning (mid 2000s to the present). Figure 4.1 distinguishes some of the primary characteristics of the networks developed in each of these three periods. The changes in these network characteristics highlight some of the major themes within the evolution of deep learning, including: the shift from binary to continuous values; the move from threshold activation functions, to logistic and tanh activation, and then onto ReLU activation; and the progressive deepening of the networks, from single layer, to multiple layer, and then onto deep networks. Finally, the upper half of figure 4.1 presents some of the important conceptual breakthroughs, training algorithms, and model architectures that have contributed to the evolution of deep learning.
Figure 4.1 provides a map of the structure of this chapter, with the sequence of concepts introduced in the chapter generally following the chronology of this timeline. The two gray rectangles in figure 4.1 represent the development of two important deep learning network architectures: convolutional neural networks (CNNs), and recurrent neural networks (RNNs). We will describe the evolution of these two network architectures in this chapter, and chapter 5 will give a more detailed explanation of how these networks work.
Figure 4.1 History of Deep Learning. Early Research: Threshold Logic Units
In some of the literature on deep learning, the early neural network research is categorized as being part of cybernetics, a field of research that is concerned with developing computational models of control and learning in biological units. However, in figure 4.1, following the terminology used in Nilsson (1965), this early work is categorized as research on threshold logic units because this term transparently describes the main characteristics of the systems developed during this period. Most of the models developed in the 1940s, ’50s, and ’60s processed Boolean inputs (true/false represented as +1/-1 or 1/0) and generated Boolean outputs. They also used threshold activation functions (introduced in chapter 3), and were restricted to single-layer networks; in other words, they were restricted to a single matrix of tunable weights. Frequently, the focus of this early research was on understanding whether computational models based on artificial neurons had the capacity to learn logical relations, such as conjunction or disjunction.
In 1943, Walter McCulloch and Walter Pitts published an influential computational model of biological neurons in a paper entitled: “A Logical Calculus of the Ideas Immanent in Nervous Activity” (McCulloch and Pitts 1943). The paper highlighted the all-or-none characteristic of neural activity in the brain and set out to mathematically describe neural activity in terms of a calculus of propositional logic. In the McCulloch and Pitts model, all the inputs and the output to a neuron were either 0 or 1. Furthermore, each input was either excitatory (having a weight of +1) or inhibitory (having a weight of -1). A key concept introduced in the McCulloch and Pitts model was a summation of inputs followed by a threshold function being applied to the result of the summation. In the summation, if an excitatory input was on, it added 1; if an inhibitory input was on, it subtracted 1. If the result of the summation was above a preset threshold, then the output of the neuron was 1; otherwise, it output a 0. In the paper, McCulloch and Pitts demonstrated how logical operations (such as conjunction, disjunction, and negation) could be represented using this simple model. The McCulloch and Pitts model integrated the majority of the elements that are present in the artificial neurons introduced in chapter 3. In this model, however, the neuron was fixed; in other words the weights and threshold were set by han.
In 1949, Donald O. Hebb published a book entitled The Organization of Behavior, in which he set out a neuropsychological theory (integrating psychology and the physiology of the brain) to explain general human behavior. The fundamental premise of the theory was that behavior emerged through the actions and interactions of neurons. For neural network research, the most important idea in this book was a postulate, now known as Hebb’s postulate, which explained the creation of lasting memory in animals based on a process of changes to the connections between neurons:
When an axon of a cell A is near enough to excite a cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that A’s efficiency, as one of the cells firing B, is increased. (Hebb 1949, p. 62)This postulate was important because it asserted that information was stored in the connections between neurons (i.e., in the weights of a network), and furthermore that learning occurred by changing these connections based on repeated patterns of activation (i.e., learning can take place within a network by changing the weights of the network).
Rosenblatt’s Perceptron Training Rule
In the years following Hebb’s publication, a number of researchers proposed computational models of neuron activity that integrated the Boolean threshold activation units of McCulloch and Pitts, with a learning mechanism based on adjusting the weights applied to the inputs. The best known of these models was Frank Rosenblatt’s perceptron model (Rosenblatt 1958). Conceptually, the perceptron model can be understood as a neural network consisting of a single artificial neuron that uses a threshold activation unit. Importantly, a perceptron network only has a single layer of weights. The first implementation of a perceptron was a software implementation on an IBM 704 system (and this was probably the first implementation of any neural network). However, Rosenblatt always intended the perceptron to be a physical machine and it was later implemented in custom-built hardware known as the “Mark 1 perceptron.” The Mark 1 perceptron received input from a camera that generated a 400-pixel image that was passed into the machine via an array of 400 photocells that were in turn connected to the neurons. The weights on connections to the neurons were implemented using adjustable electrical resistors known as potentiometers, and weight adjustments were implemented by using electric motors to adjust the potentiometers.
Rosenblatt proposed an error-correcting training procedure for updating the weights of a perceptron so that it could learn to distinguish between two classes of input: inputs for which the perceptron should produce the output
, and inputs for which the perceptron should produce the output
(Rosenblatt 1960). The training procedure assumes a set of Boolean encoded input patterns, each with an associated target output. At the start of training, the weights in the perceptron are initialized to random values. Training then proceeds by iterating through the training examples, and after each example has been presented to the network, the weights of the network are updated based on the error between the output generated by the perceptron and the target output specified in the data. The training examples can be presented to the network in any order and examples may be presented multiple times before training is completed. A complete training pass through the set of examples is known as an iteration, and training terminates when the perceptron correctly classifies all the examples in an iteration.
Rosenblatt defined a learning rule (known as the perceptron training rule) to update each weight in a perceptron after a training example has been processed. The strategy the rule used to update the weights is the same as the three-condition strategy we introduced in chapter 2 to adjust the weights in the loan decision model:
1. If the output of the model for an example matches the output specified for that example in the dataset, then don’t update the weights.
2. If the output of the model is too low for the current example, then increase the output of the model by increasing the weights for the inputs that had positive value for the example and decreasing the weights for the inputs that had a negative value for the example.
3. If the output of the model is too high for the current example, then reduce the output of the model by decreasing the weights for the inputs that had a positive value and increasing the weights for the inputs that had a negative value for the example.Written out in an equation, Rosenblatt’s learning rule updates a weight
(
) as:In this rule,
is the value of weight i after the network weights have been updated in response to the processing of example t,
is the value of weight i used during the processing of example t,
is a preset positive constant (known as the learning rate, discussed below),
is the expected output for example t as specified in the training dataset,
is the output generated by the perceptron for example t, and
is the component of input t that was weighted by
during the processing of the example.
Although it may look complex, the perceptron training rule is in fact just a mathematical specification of the three-condition weight update strategy described above. The primary part of the equation to understand is the calculation of the difference between the expected output and what the perceptron actually predicted:
. The outcome of this subtraction tells us which of the three update conditions we are in. In understanding how this subtraction works, it is important to remember that for a perceptron model the desired output is always either
or
. The first condition is when
; then the output of the perceptron is correct and the weights are not changed.
The second weight update condition is when the output of the perceptron is too large. This condition can only be occur when the correct output for example
is
and so this condition is triggered when
. In this case, if the perceptron output for the example
is
, then the error term is negative (
) and the weight
is updated by
. Assuming, for the purpose of this explanation, that
is set to 0.5, then this weight update simplifies to
. In other words, when the perceptron’s output is too large, the weight update rule subtracts the input values from the weights. This will decrease the weights on inputs with positive values for the example, and increase the weights on inputs with negative values for the example (subtracting a negative number is the same as adding a positive number).
The third weight update condition is when the output of the perceptron is too small. This weight update condition is the exact opposite of the second. It can only occur when
and so is triggered when
. In this case (
), and the weight is updated by
. Again assuming that
is set to 0.5, then this update simplifies to
, which highlights that when the error of the perceptron is positive, the rule updates the weight by adding the input to the weight. This has the effect of decreasing the weights on inputs with negative values for the example and increasing the weight on inputs with positive values for the example.
At a number of points in the preceding paragraphs we have referred to learning rate,
. The purpose of the learning rate,
, is to control the size of the adjustments that are applied to a weight. The learning rate is an example of a hyperparameter that is preset before the model is trained. There is a tradeoff in setting the learning rate:
• If the learning rate is too small, it may take a very long time for the training process to converge on an appropriate set of weights.
• If the learning rate is too large, the network’s weights may jump around the weight space too much and the training may not converge at all.One strategy for setting the learning rate is to set it to a relatively small positive value (e.g., 0.01), and another strategy is to initialize it to a larger value (e.g., 1.0) but to systematically reduce it as the training progresses
(e.g.,
).
To make this discussion regarding the learning rate more concrete, imagine you are trying to solve a puzzle that requires you to get a small ball to roll into a hole. You are able to control the direction and speed of the ball by tilting the surface that the ball is rolling on. If you tilt the surface too steeply, the ball will move very fast and is likely to go past the hole, requiring you to adjust the surface again, and if you overadjust you may end up repeatedly tilting the surface. On the other hand, if you only tilt the surface a tiny bit, the ball may not start to move at all, or it may move very slowly taking a long time to reach the hole. Now, in many ways the challenge of getting the ball to roll into the hole is similar to the problem of finding the best set of weights for a network. Think of each point on the surface the ball is rolling across as a possible set of network weights. The ball’s position at each point in time specifies the current set of weights of the network. The position of the hole specifies the optimal set of network weights for the task we are training the network to complete. In this context, guiding the network to the optimal set of weights is analogous to guiding the ball to the hole. The learning rate allows us to control how quickly we move across the surface as we search for the optimal set of weights. If we set the learning rate to a high value, we move quickly across the surface: we allow large updates to the weights at each iteration, so there are big differences between the network weights in one iteration and the next. Or, using our rolling ball analogy, the ball is moving very quickly, and just like in the puzzle when the ball is rolling too fast and passes the hole, our search process may be moving so fast that it misses the optimal set of weights. Conversely, if we set the learning rate to a low value, we move very slowly across the surface: we only allow small updates to the weights at each iteration; or, in other words, we only allow the ball to move very slowly. With a low learning rate, we are less likely to miss the optimal set of weights, but it may take an inordinate amount of time to get to them. The strategy of starting with a high learning rate and then systematically reducing it is equivalent to steeply tilting the puzzle surface to get the ball moving and then reducing the tilt to control the ball as it approaches the hole.
Rosenblatt proved that if a set of weights exists that enables the perceptron to properly classify all of the training examples correctly, the perceptron training algorithm will eventually converge on this set of weights. This finding is known as the perceptron convergence theorem (Rosenblatt 1962). The difficulty with training a perceptron, however, is that it may require a substantial number of iterations through the data before the algorithm converges. Furthermore, for many problems it is unknown whether an appropriate set of weights exists in advance; consequently, if training has been going on for a long time, it is not possible to know whether the training process is simply taking a long time to converge on the weights and terminate, or whether it will never terminate.
The Least Mean Squares Algorithm
Around the same time that Rosenblatt was developing the perceptron, Bernard Widrow and Marcian Hoff were developing a very similar model called the ADALINE (short for adaptive linear neuron), along with a learning rule called the LMS (least mean square) algorithm (Widrow and Hoff 1960). An ADALINE network consists of a single neuron that is very similar to a perceptron; the only difference is that an ADALINE network does not use a threshold function. In fact, the output of an ADALINE network is the just the weighted sum of the inputs. This is why it is known as a linear neuron: a weighted sum is a linear function (it defines a line), and so an ADALINE network implements a linear mapping from inputs to output. The LMS rule is nearly identical to the perceptron learning rule, except that the output of the perceptron for a given example
is replaced by the weighted sum of the inputs:
The logic of the LMS update rule is the same as that of the perceptron training rule. If the output is too large, then weights that were applied to a positive input caused the output to be larger, and these weights should be decreased, and those that were applied to a negative input should be increased, thereby reducing the output the next time this input pattern is received. And, by the same logic, if the output is too small, then weights that were applied to a positive input are increased and those that were applied to a negative input should be decreased.
If the output of the model is too large, then weights associated with positive inputs should be reduced, whereas if the output is too small, then these weights should be increased.
One of the important aspects of Widrow and Hoff’s work was to show that LMS rule could be used to train network to predict a number of any value, not just a +1 or -1. This learning rule was called the least mean square algorithm because using the LMS rule to iteratively adjust the weights in a neuron is equivalent to minimizing the average squared error on the training set. Today, the LMS learning rule is sometimes called the Widrow-Hoff learning rule, after the inventors; however, it is more commonly called the delta rule because it uses the difference (or delta) between desired output and the actual output to calculate the weight adjustments. In other words, the LMS rule specifies that a weight should be adjusted in proportion to the difference between the output of an ADALINE network and the desired output: if the neuron makes a large error, then the weights are adjusted by a large amount, if the neuron makes a small error, then weights are adjusted by a small amount.
Today, the perceptron is recognized as important milestone in the development of neural networks because it was the first neural network to be implemented. However, most modern algorithms for training neural networks are more similar to the LMS algorithm. The LMS algorithm attempts to minimize the mean squared error of the network. As will be discussed in chapter 6, technically this iterative error reduction process involves a gradient descent down an error surface; and, today, nearly all neural networks are trained using some variant of gradient descent.
The XOR Problem
The success of Rosenblatt, Widrow and Hoff, and others, in demonstrating that neural network models could automatically learn to distinguish between different sets of patterns, generated a lot of excitement around artificial intelligence and neural network research. However, in 1969, Marvin Minsky and Seymour Papert published a book entitled Perceptrons, which, in the annals of neural network research, is attributed with single-handedly destroying this early excitement and optimism (Minsky and Papert 1969). Admittedly, throughout the 1960s neural network research had suffered from a lot of hype, and a lack of success in terms of fulfilling the correspondingly high expectations. However, Minsky and Papert’s book set out a very negative view of the representational power of neural networks, and after its publication funding for neural network research dried up.
Minsky and Papert’s book primarily focused on single layer perceptrons. Remember that a single layer perceptron is the same as a single neuron that uses a threshold activation function, and so a single layer perceptron is restricted to implementing a linear (straight-line) decision boundary.1 This means that a single layer perceptron can only learn to distinguish between two classes of inputs if it is possible to draw a straight line in the input space that has all of the examples of one class on one side of the line and all examples of the other class on the other side of the line. Minsky and Papert highlighted this restriction as a weakness of these models.
To understand Minsky and Papert’s criticism of single layer perceptrons, we must first understand the concept of a linearly separable function. We will use a comparison between the logical AND and OR functions with the logical XOR function to explain the concept of a linearly separable function. The AND function takes two inputs, each of which can be either TRUE or FALSE, and returns TRUE if both inputs are TRUE. The plot on the left of figure 4.4 shows the input space for the AND function and categorizes each of the four possible input combinations as either resulting in an output value of TRUE (shown in the figure by using a clear dot) or FALSE (shown in the figure by using black dots). This plot illustrates that is possible to draw a straight line between the inputs for which the AND function returns TRUE, (T,T), and the inputs for which the function returns FALSE, {(F,F), (F,T), (T,F)}. The OR function is similar to the AND function, except that it returns TRUE if either or both inputs are TRUE. The middle plot in figure 4.4 shows that it is possible to draw a line that separates the inputs that the OR function classifies as TRUE, {(F,T), (T,F), (T,T)}, from those it classifies as FALSE, (F,F). It is because we can draw a single straight line in the input space of these functions that divides the inputs belonging to one category of output from the inputs belonging to the other output category that the AND and OR functions are linearly separable functions.
The XOR function is also similar in structure to the AND and OR functions; however, it only returns TRUE if one (but not both) of its inputs are TRUE. The plot on the right of figure 4.2 shows the input space for the XOR function and categorizes each of the four possible input combinations as returning either TRUE (shown in the figure by using a clear dot) or FALSE (shown in the figure by using black dots). Looking at this plot you will see that it is not possible to draw a straight line between the inputs the XOR function classifies as TRUE and those that it classifies as FALSE. It is because we cannot use a single straight line to separate the inputs belonging to different categories of outputs for the XOR function that this function is said to be a nonlinearly separable function. The fact that the XOR function is nonlinearly separable does not make the function unique, or even rare—there are many functions that are nonlinearly separable.
Figure 4.2 Illustrations of the linearly separable function. In each figure, black dots represent inputs for which the function returns FALSE, circles represent inputs for which the function returns TRUE. (T stands for true and F stands for false.) The key criticism that Minsky and Papert made of single layer perceptrons was that these single layer models were unable to learn nonlinearly separable functions, such as the XOR function. The reason for this limitation is that the decision boundary of a perceptron is linear and so a single layer perceptron cannot learn to distinguish between the inputs that belong to one output category of a nonlinearly separable function from those that belong to the other category.
It was known at the time of Minsky and Papert’s publication that it was possible to construct neural networks that defined a nonlinear decision boundary, and thus learn nonlinearly separable functions (such as the XOR function). The key to creating networks with more complex (nonlinear) decision boundaries was to extend the network to have multiple layers of neurons. For example, figure 4.3 shows a two-layer network that implements the XOR function. In this network, the logical TRUE and FALSE values are mapped to numeric values: FALSE values are represented by 0, and TRUE values are represented by 1. In this network, units activate (output +1) if the weighted sum of inputs is
; otherwise, they output 0. Notice that the units in the hidden layer implement the logical AND and OR functions. These can be understood as intermediate steps to solving the XOR challenge. The unit in the output layer implements the XOR by composing the outputs of these hidden layers. In other words, the unit in the output layer returns TRUE only when the AND node is off (output=0) and the OR node is on (output=1). However, it wasn’t clear at the time how to train networks with multiple layers. Also, at the end of their book, Minsky and Papert argued that “in their judgment” the research on extending neural networks to multiple layers was “sterile” (Minsky and Papert 1969, sec. 13.2 page 23).
Figure 4.3 A network that implements the XOR function. All processing units use a threshold activation function with a threshold of ≥1. In a somewhat ironic historical twist, contemporaneous with Minsky and Papert’s publication, Alexey Ivakhnenko, a Ukrainian researcher, proposed the group method for data handling (GMDH), and in 1971 published a paper that described how it could be used to learn a neural network with eight layers (Ivakhnenko 1971). Today Ivakhnenko’s 1971 GMDH network is credited with being the first published example of a deep network trained from data (Schmidhuber 2015). However, for many years, Ivaknenko’s accomplishment was largely overlooked by the wider neural network community. As a consequence, very little of the current work in deep learning uses the GMDH method for training: in the intervening years other training algorithms, such as backpropagation (described below), became standardized in the community. At the same time of Ivakhnenko’s overlooked accomplishment, Minsky and Papert’s critique was proving persuasive and it heralded the end of the first period of significant research on neural networks.
This first period of neural network research, did, however, leave a legacy that shaped the development of the field up to the present day. The basic internal structure of an artificial neuron was defined: a weighted sum of inputs fed through an activation function. The concept of storing information within the weights of a network was developed. Furthermore, learning algorithms based on iteratively adapting weights were proposed, along with practical learning rules, such as the LMS rule. In particular, the LMS approach, of adjusting the weights of neurons in proportion to the difference between the output of the neuron and the desired output, is present in most modern training algorithms. Finally, there was recognition of the limitations of single layer networks, and an understanding that one way to address these limitations was to extend the networks to include multiple layers of neurons. At this time, however, it was unclear how to train networks with multiple layers. Updating a weight requires an understanding of how the weight affects the error of the network. For example, in the LMS rule if the output of the neuron was too large, then weights that were applied to positive inputs caused the output to increase. Therefore, decreasing the size of these weight would reduce the output and thereby reduce the error. But, in the late 1960s, the question of how to model the relationship between the weights of the inputs to neurons in the hidden layers of a network and the overall error of the network was still unanswered; and, without this estimation of the contribution of the weight to the error, it was not possible to adjust the weights in the hidden layers of a network. The problem of attributing (or assigning) an amount of error to the components in a network is sometimes referred to as the credit assignment problem, or as the blame assignment problem.
Connectionism: Multilayer Perceptrons
In the 1980s, people began to reevaluate the criticisms of the late 1960s as being overly severe. Two developments, in particular, reinvigorated the field: (1) Hopfield networks; and (2) the backpropagation algorithm.
In 1982, John Hopfield published a paper where he described a network that could function as an associative memory (Hopfield 1982). During training, an associative memory learns a set of input patterns. Once the associate memory network has been trained, then, if a corrupted version of one of the input patterns is presented to the network, the network is able to regenerate the complete correct pattern. Associative memories are useful for a number of tasks, including pattern completion and error correction. Table 4.12 illustrates the tasks of pattern completion and error correction using the example of an associative memory that has been trained to store information on people’s birthdays. In a Hopfield network, the memories, or input patterns, are encoded in binary strings; and, assuming binary patterns are relatively distinct from each other, a Hopfield network can store up to 0.138N of these strings, where N is the number of neurons in the network. So to store 10 distinct patterns requires a Hopfield network with 73 neurons, and to store 14 distinct patterns requires 100 neurons.
Table 4.1. Illustration of the uses of an association memory for pattern completion and error correction
Training patterns Pattern completion John**12May
Liz***?????
→ Liz***25Feb
Kerry*03Jan
???***10Mar
→ Des***10Mar
Liz***25Feb
Error correction Des***10Mar
Kerry*01Apr
→ Kerry*03Jan
Josef*13Dec
Jxsuf*13Dec
→ Josef*13Dec
Backpropagation and Vanishing Gradients
In 1986, a group of researchers known as the parallel distributed processing (PDP) research group published a two-book overview of neural network research (Rumelhart et al. 1986b, 1986c). These books proved to be incredibly popular, and chapter 8 in volume one described the backpropagation algorithm (Rumelhart et al. 1986a). The backpropagation algorithm has been invented a number of times,3 but it was this chapter by Rumelhart, Hinton, and Williams, published by PDP, that popularized its use. The backpropagation algorithm is a solution to the credit assignment problem and so it can be used to train a neural network that has hidden layers of neurons. The backpropagation algorithm is possibly the most important algorithm in deep learning. However, a clear and complete explanation of the backpropagation algorithm requires first explaining the concept of an error gradient, and then the gradient descent algorithm. Consequently, the in-depth explanation of backpropagation is postponed until chapter 6, which begins with an explanation of these necessary concepts. The general structure of the algorithm, however, can be described relatively quickly. The backpropagation algorithm starts by assigning random weights to each of the connections in the network. The algorithm then iteratively updates the weights in the network by showing training instances to the network and updating the network weights until the network is working as expected. The core algorithm works in a two-stage process. In the first stage (known as the forward pass), an input is presented to the network and the neuron activations are allowed to flow forward through the network until an output is generated. The second stage (known as the backward pass) begins at the output layer and works backward through the network until the input layer is reached. This backward pass begins by calculating an error for each neuron in the output layer. This error is then used to update the weights of these output neurons. Then the error of each output neuron is shared back (backpropagated) to the hidden neurons that connect to it, in proportion to the weights on the connections between the output neuron and the hidden neuron. Once this sharing (or blame assignment) has been completed for a hidden neuron, the total blame attributable to that hidden neuron is summed and this total is used to update the weights on that neuron. The backpropagation (or sharing back) of blame is then repeated for the neurons that have not yet had blame attributed to them. This process of blame assignment and weight updates continues back through the network until all the weights have been updated.
A key innovation that enabled the backpropagation algorithm to work was a change in the activation functions used in the neurons. The networks that were developed in the early years of neural network research used threshold activation functions. The backpropagation algorithm does not work with threshold activation functions because backpropagation requires that the activation functions used by the neurons in the network be differentiable. Threshold activation functions are not differentiable because there is a discontinuity in the output of the function at the threshold. In other words, the slope of a threshold function at the threshold is infinite and therefore it is not possible to calculate the gradient of the function at that point. This led to the use of differentiable activation functions in multilayer neural networks, such as the logistic and tanh functions.
There is, however, an inherent limitation with using the backpropagation algorithm to train deep networks. In the 1980s, researchers found that backpropagation worked well with relatively shallow networks (one or two layers of hidden units), but that as the networks got deeper, the networks either took an inordinate amount of time to train, or else they entirely failed to converge on a good set of weights. In 1991, Sepp Hochreiter (working with Jürgen Schmidhuber) identified the cause of this problem in his diploma thesis (Hochreiter 1991). The problem is caused by the way the algorithm backpropagates errors. Fundamentally, the backpropagation algorithm is an implementation of the chain rule from calculus. The chain rule involves the multiplication of terms, and backpropagating an error from one neuron back to another can involve multiplying the error by a number terms with values less than 1. These multiplications by values less than 1 happen repeatedly as the error signal gets passed back through the network. This results in the error signal becoming smaller and smaller as it is backpropagated through the network. Indeed, the error signal often diminishes exponentially with respect to the distance from the output layer. The effect of this diminishing error is that the weights in the early layers of a deep network are often adjusted by only a tiny (or zero) amount during each training iteration. In other words, the early layers either train very, very slowly or do not move away from their random starting positions at all. However, the early layers in a neural network are vitally important to the success of the network, because it is the neurons in these layers that learn to detect the features in the input that the later layers of the network use as the fundamental building blocks of the representations that ultimately determine the output of the network. For technical reasons, which will be explained in chapter 6, the error signal that is backpropagated through the network is in fact the gradient of the error of the network, and, as a result, this problem of the error signal rapidly diminishing to near zero is known as the vanishing gradient problem.
Connectionism and Local versus Distributed Representations
Despite the vanishing gradient problem, the backpropagation algorithm opened up the possibility of training more complex (deeper) neural network architectures. This aligned with the principle of connectionism. Connectionism is the idea that intelligent behavior can emerge from the interactions between large numbers of simple processing units. Another aspect of connectionism was the idea of a distributed representation. A distinction can be made in the representations used by neural networks between localist and distributed representations. In a localist representation there is a one-to-one correspondence between concepts and neurons, whereas in a distributed representation each concept is represented by a pattern of activations across a set of neurons. Consequently, in a distributed representation each concept is represented by the activation of multiple neurons and the activation of each neuron contributes to the representation of multiple concepts.
In a distributed representation each concept is represented by the activation of multiple neurons and the activation of each neuron contributes to the representation of multiple concepts.
To illustrate the distinction between localist and distributed representations, consider a scenario where (for some unspecified reason) a set of neuron activations is being used to represent the absence or presence of different foods. Furthermore, each food has two properties, the country of origin of the recipe and its taste. The possible countries of origin are: Italy, Mexico, or France; and, the set of possible tastes are: Sweet, Sour, or Bitter. So, in total there are nine possible types of food: Italian+Sweet, Italian+Sour, Italian+Bitter, Mexican+Sweet, etc. Using a localist representation would require nine neurons, one neuron per food type. There are, however, a number of ways to define a distributed representation of this domain. One approach is to assign a binary number to each combination. This representation would require only four neurons, with the activation pattern 0000 representing Italian+Sweet, 0001 representing Italian+Sour, 0010 representing Italian+Bitter, and so on up to 1000 representing French+Bitter. This is a very compact representation. However, notice that in this representation the activation of each neuron in isolation has no independently meaningful interpretation: the rightmost neuron would be active (***1) for Italian+Sour, Mexican+Sweet, Mexican+Bitter, and France+Sour, and without knowledge of the activation of the other neurons, it is not possible know what country or taste is being represented. However, in a deep network the lack of semantic interpretability of the activations of hidden units is not a problem, so long as the neurons in the output layer of the network are able to combine these representations in such a way so as to generate the correct output. Another, more transparent, distributed representation of this food domain is to use three neurons to represent the countries and three neurons to represent the tastes. In this representation, the activation pattern 100100 could represent Italian+Sweet, 001100 could represent French+Sweet, and 001001 could represent French+Bitter. In this representation, the activation of each neuron can be independently interpreted; however the distribution of activations across the set of neurons is required in order to retrieve the full description of the food (country+taste). Notice, however, that both of these distributed representations are more compact than the localist representation. This compactness can significantly reduce the number of weights required in a network, and this in turn can result in faster training times for the network.
The concept of a distributed representation is very important within deep learning. Indeed, there is a good argument that deep learning might be more appropriately named representation learning—the argument being that the neurons in the hidden layers of a network are learning distributed representations of the input that are useful intermediate representations in the mapping from inputs to outputs that the network is attempting to learn. The task of the output layer of a network is then to learn how to combine these intermediate representations so as to generate the desired outputs. Consider again the network in figure 4.3 that implements the XOR function. The hidden units in this network learn an intermediate representation of the input, which can be understood as composed of the AND and OR functions; the output layer then combines this intermediate representation to generate the required output. In a deep network with multiple hidden layers, each subsequent hidden layer can be interpreted as learning a representation that is an abstraction over the outputs of the preceding layer. It is this sequential abstraction, through learning intermediate representations, that enables deep networks to learn such complex mappings from inputs to outputs.
Network Architectures: Convolutional and Recurrent Neural Networks
There are a considerable number of ways in which a set of neurons can be connected together. The network examples presented so far in the book have been connected together in a relatively uncomplicated manner: neurons are organized into layers and each neuron in a layer is directly connected to all of the neurons in the next layer of the network. These networks are known as feedforward networks because there are no loops within the network connections: all the connections point forward from the input toward the output. Furthermore, all of our network examples thus far would be considered to be fully connected, because each neuron is connected to all the neurons in the next layer. It is possible, and often useful, to design and train networks that are not feedforward and/or that are not fully connected. When done correctly, tailoring network architectures can be understood as embedding into the network architecture information about the properties of the problem that the network is trying to learn to model.
A very successful example of incorporating domain knowledge into a network by tailoring the networks architecture is the design of convolutional neural networks (CNNs) for object recognition in images. In the 1960s, Hubel and Wiesel carried out a series of experiments on the visual cortex of cats (Hubel and Wiesel 1962, 1965). These experiments used electrodes inserted into the brains of sedated cats to study the response of the brain cells as the cats were presented with different visual stimuli. Examples of the stimuli used included bright spots or lines of light appearing at a location in the visual field, or moving across a region of the visual field. The experiments found that different cells responded to different stimuli at different locations in the visual field: in effect a single cell in the visual cortex would be wired to respond to a particular type of visual stimulus occurring within a particular region of the visual field. The region of the visual field that a cell responded to was known as the receptive field of the cell. Another outcome of these experiments was the differentiation between two types of cells: “simple” and “complex.” For simple cells, the location of the stimulus is critical with a slight displacement of the stimulus resulting in a significant reduction in the cell’s response. Complex cells, however, respond to their target stimuli regardless of where in the field of vision the stimulus occurs. Hubel and Wiesel (1965) proposed that complex cells behaved as if they received projections from a large number of simple cells all of which respond to the same visual stimuli but differing in the position of their receptive fields. This hierarchy of simple cells feeding into complex cells results in funneling of stimuli from large areas of the visual field, through a set of simple cells, into a single complex cell. Figure 4.4 illustrates this funneling effect. This figure shows a layer of simple cells each monitoring a receptive field at a different location in the visual field. The receptive field of the complex cell covers the layer of simple cells, and this complex cell activates if any of the simple cells in its receptive field activates. In this way the complex cell can respond to a visual stimulus if it occurs at any location in the visual field.
Figure 4.4 The funneling effect of receptive fields created by the hierarchy of simple and complex cells. In the late 1970s and early 1980s, Kunihiko Fukushima was inspired by Hubel and Wiesel’s analysis of the visual cortex and developed a neural network architecture for visual pattern recognition that was called the neocognitron (Fukushima 1980). The design of the neocognitron was based on the observation that an image recognition network should be able to recognize if a visual feature is present in an image irrespective of location in the image—or, to put it slightly more technically, the network should be able to do spatially invariant visual feature detection. For example, a face recognition network should be able to recognize the shape of an eye no matter where in the image it occurs, similar to the way a complex cell in Hubel and Wiesel’s hierarchical model could detect the presence of a visual feature irrespective of where in the visual field it occurred.
Fukushima realized that the functioning of the simple cells in the Hubel and Wiesel hierarchy could be replicated in a neural network using a layer of neurons that all use the same set of weights, but with each neuron receiving inputs from fixed small regions (receptive fields) at different locations in the input field. To understand the relationship between neurons sharing weights and spatially invariant visual feature detection, imagine a neuron that receives a set of pixel values, sampled from a region of an image, as its inputs. The weights that this neuron applies to these pixel values define a visual feature detection function that returns true (high activation) if a particular visual feature (pattern) occurs in the input pixels, and false otherwise. Consequently, if a set of neurons all use the same weights, they will all implement the same visual feature detector. If the receptive fields of these neurons are then organized so that together they cover the entire image, then if the visual feature occurs anywhere in the image at least one of the neurons in the group will identify it and activate.
Fukushima also recognized that the Hubel and Wiesel funneling effect (into complex cells) could be obtained by neurons in later layers also receiving as input the outputs from a fixed set of neurons in a small region of the preceding layer. In this way, the neurons in the last layer of the network each receive inputs from across the entire input field allowing the network to identify the presence of a visual feature anywhere in the visual input.
Some of the weights in neocognitron were set by hand, and others were set using an unsupervised training process. In this training process, each time an example is presented to the network a single layer of neurons that share the same weights is selected from the layers that yielded large outputs in response to the input. The weights of the neurons in the selected layer are updated so as to reinforce their response to that input pattern and the weights of neurons not in the layer are not updated. In 1989 Yann LeCun developed the convolutional neural network (CNN) architecture specifically for the task of image processing (LeCun 1989). The CNN architecture shared many of the design features found in the neocognitron; however, LeCun showed how these types of networks could be trained using backpropagation. CNNs have proved to be incredibly successful in image processing and other tasks. A particularly famous CNN is the AlexNet network, which won the ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) in 2012 (Krizhevsky et al. 2012). The goal of the ILSVRC competition is to identify objects in photographs. The success of AlexNet at the ILSVRC competition generated a lot of excitement about CNNs, and since AlexNet a number of other CNN architectures have won the competition. CNNs are one of the most popular types of deep neural networks, and chapter 5 will provide a more detailed explanation of them.
Recurrent neural networks (RNNs) are another example of a neural network architecture that has been tailored to the specific characteristics of a domain. RNNs are designed to process sequential data, such as language. An RNN network processes a sequence of data (such as a sentence) one input at a time. An RNN has only a single hidden layer. However, the output from each of these hidden neurons is not only fed forward to the output neurons, it is also temporarily stored in a buffer and then fed back into all of the hidden neurons at the next input. Consequently, each time the network processes an input, each neuron in the hidden layer receives both the current input and the output the hidden layer generated in response to the previous input. In order to understand this explanation, it may at this point be helpful to briefly skip forward to figure 5.2 to see an illustration of the structure of an RNN and the flow of information through the network. This recurrent loop, of activations from the output of the hidden layer for one input being fed back into the hidden layer alongside the next input, gives an RNN a memory that enables it to process each input in the context of the previous inputs it has processed.4 RNNs are considered deep networks because this evolving memory can be considered as deep as the sequence is long.
An early well-known RNN is the Elman network. In 1990, Jeffrey Locke Elman published a paper that described an RNN that had been trained to predict the endings of simple two- and three-word utterances (Elman 1990). The model was trained on a synthesized dataset of simple sentences generated using an artificial grammar. The grammar was built using a lexicon of twenty-three words, with each word assigned to a single lexical category (e.g., man=NOUN-HUM, woman=NOUN-HUM, eat=VERB-EAT, cookie=NOUN-FOOD, etc.). Using this lexicon, the grammar defined fifteen sentence generation templates (e.g., NOUN-HUM+VERB-EAT+NOUN-FOOD which would generate sentences such as man eat cookie). Once trained, the model was able to generate reasonable continuations for sentences, such as woman+eat+? = cookie. Furthermore, once the network was started, it was able to generate longer strings consisting of multiple sentences, using the context it generated itself as the input for the next word, as illustrated by this three-sentence example:
girl eat bread dog move mouse mouse move book
Although this sentence generation task was applied to a very simple domain, the ability of the RNN to generate plausible sentences was taken as evidence that neural networks could model linguistic productivity without requiring explicit grammatical rules. Consequently, Elman’s work had a huge impact on psycholinguistics and psychology. The following quote, from Churchland 1996, illustrates the importance that some researchers attributed to Elman’s work:
The productivity of this network is of course a feeble subset of the vast capacity that any normal English speaker commands. But productivity is productivity, and evidently a recurrent network can possess it. Elman’s striking demonstration hardly settles the issue between the rule-centered approach to grammar and the network approach. That will be some time in working itself out. But the conflict is now an even one. I’ve made no secret where my own bets will be placed. (Churchland 1996, p. 143)5Although RNNs work well with sequential data, the vanishing gradient problem is particularly severe in these networks. In 1997, Sepp Hochreiter and Jürgen Schmidhuber, the researchers who in 1991 had presented an explanation of the vanishing gradient problem, proposed the long short-term memory (LSTM) units as a solution to this problem in RNNs (Hochreiter and Schmidhuber 1997). The name of these units draws on a distinction between how a neural network encodes long-term memory (understood as concepts that are learned over a period of time) through training and short-term memory (understood as the response of the system to immediate stimuli). In a neural network, long-term memory is encoded through adjusting the weights of the network and once trained these weights do not change. Short-term memory is encoded in a network through the activations that flow through the network and these activation values decay quickly. LSTM units are designed to enable the short-term memory (the activations) in the network to be propagated over long periods of time (or sequences of inputs). The internal structure of an LSTM is relatively complex, and we will describe it in chapter 5. The fact that LSTM can propagate activations over long periods enables them to process sequences that include long-distance dependencies (interactions between elements in a sequence that are separated by two or more positions). For example, the dependency between the subject and the verb in an English sentence: The dog/dogs in that house is/are aggressive. This has made LSTM networks suitable for language processing, and for a number of years they have been the default neural network architecture for many natural language processing models, including machine translation. For example, the sequence-to-sequence (seq2seq) machine translation architecture introduced in 2014 connects two LSTM networks in sequence (Sutskever et al. 2014). The first LSTM network, the encoder, processes the input sequence one input at a time, and generates a distributed representation of that input. The first LSTM network is called an encoder because it encodes the sequence of words into a distributed representation. The second LSTM network, the decoder, is initialized with the distributed representation of the input and is trained to generate the output sequence one element at a time using a feedback loop that feeds the most recent output element generated by the network back in as the input for the next time step. Today, this seq2seq architecture is the basis for most modern machine translation systems, and is explained in more detail in chapter 5.
By the late 1990s, most of the conceptual requirements for deep learning were in place, including both the algorithms to train networks with multiple layers, and the network architectures that are still very popular today (CNNs and RNNs). However, the problem of the vanishing gradients still stifled the creation of deep networks. Also, from a commercial perspective, the 1990s (similar to the 1960s) experienced a wave of hype based on neural networks and unrealized promises. At the same time, a number of breakthroughs in other forms of machine learning models, such as the development of support vector machines (SVMs), redirected the focus of the machine learning research community away from neural networks: at the time SVMs were achieving similar accuracy to neural network models but were easier to train. Together these factors led to a decline in neural network research that lasted up until the emergence of deep learning.
The Era of Deep Learning
The first recorded use of the term deep learning is credited to Rina Dechter (1986), although in Dechter’s paper the term was not used in relation to neural networks; and the first use of the term in relation to neural networks is credited to Aizenberg et al. (2000).6 In the mid-2000s, interest in neural networks started to grow, and it was around this time that the term deep learning came to prominence to describe deep neural networks. The term deep learning is used to emphasize the fact that the networks being trained are much deeper than previous networks.
One of the early successes of this new era of neural network research was when Geoffrey Hinton and his colleagues demonstrated that it was possible to train a deep neural network using a process known as greedy layer-wise pretraining. Greedy layer-wise pretraining begins by training a single layer of neurons that receives input directly from the raw input. There are a number of different ways that this single layer of neurons can be trained, but one popular way is to use an autoencoder. An autoencoder is a neural network with three layers: an input layer, a hidden (encoding) layer, and an output (decoding) layer. The network is trained to reconstruct the inputs it receives in the output layer; in other words, the network is trained to output the exact same values that it received as input. A very important feature in these networks is that they are designed so that it is not possible for the network to simply copy the inputs to the outputs. For example, an autoencoder may have fewer neurons in the hidden layer than in the input and output layer. Because the autoencoder is trying to reconstruct the input at the output layer, the fact that the information from the input must pass through this bottleneck in the hidden layer forces the autoencoder to learn an encoding of the input data in the hidden layer that captures only the most important features in the input, and disregards redundant or superfluous information.7
Layer-Wise Pretraining Using Autoencoders
In layer-wise pretraining, the initial autoencoder learns an encoding for the raw inputs to the network. Once this encoding has been learned, the units in the hidden encoding layer are fixed, and the output (decoding) layer is thrown away. Then a second autoencoder is trained—but this autoencoder is trained to reconstruct the representation of the data generated by passing it through the encoding layer of the initial autoencoder. In effect, this second autoencoder is stacked on top of the encoding layer of the first autoencoder. This stacking of encoding layers is considered to be a greedy process because each encoding layer is optimized independently of the later layers; in other words, each autoencoder focuses on finding the best solution for its immediate task (learning a useful encoding for the data it must reconstruct) rather than trying to find a solution to the overall problem for the network.
Once a sufficient number8 of encoding layers have been trained, a tuning phase can be applied. In the tuning phase, a final network layer is trained to predict the target output for the network. Unlike the pretraining of the earlier layers of the network, the target output for the final layer is different from the input vector and is specified in the training dataset. The simplest tuning is where the pretrained layers are kept frozen (i.e., the weights in the pretrained layers don’t change during the tuning); however, it is also feasible to train the entire network during the tuning phase. If the entire network is trained during tuning, then the layer-wise pretraining is best understood as finding useful initial weights for the earlier layers in the network. Also, it is not necessary that the final prediction model that is trained during tuning be a neural network. It is quite possible to take the representations of the data generated by the layer-wise pretraining and use it as the input representation for a completely different type of machine learning algorithm, for example, a support vector machine or a nearest neighbor algorithm. This scenario is a very transparent example of how neural networks learn useful representations of data prior to the final prediction task being learned. Strictly speaking, the term pretraining describes only the layer-wise training of the autoencoders; however, the term is often used to refer to both the layer-wise training stage and the tuning stage of the model.
Figure 4.5 shows the stages in layer-wise pretraining. The figure on the left illustrates the training of the initial autoencoder where an encoding layer (the black circles) of three units is attempting to learn a useful representation for the task of reconstructing an input vector of length 4. The figure in the middle of figure 4.5 shows the training of a second autoencoder stacked on top of the encoding layer of the first autoencoder. In this autoencoder, a hidden layer of two units is attempting to learn an encoding for an input vector of length 3 (which in turn is an encoding of a vector of length 4). The grey background in each figure demarcates the components in the network that are frozen during this training stage. The figure on the right shows the tuning phase where a final output layer is trained to predict the target feature for the model. For this example, in the tuning phase the pretrained layers in the network have been frozen.
Figure 4.5 The pretraining and tuning stages in greedy layer-wise pretraining. Black circles represent the neurons whose training is the primary objective at each training stage. The gray background marks the components in the network that are frozen during each training stage. Layer-wise pretraining was important in the evolution of deep learning because it was the first approach to training deep networks that was widely adopted.9 However, today most deep learning networks are trained without using layer-wise pretraining. In the mid-2000s, researchers began to appreciate that the vanishing gradient problem was not a strict theoretical limit, but was instead a practical obstacle that could be overcome. The vanishing gradient problem does not cause the error gradients to disappear entirely; there are still gradients being backpropagated through the early layers of the network, it is just that they are very small. Today, there are a number of factors that have been identified as important in successfully training a deep network.
In the mid-2000s, researchers began to appreciate that the vanishing gradient problem was not a strict theoretical limit, but was instead a practical obstacle that could be overcome.
Weight Initialization and ReLU Activation Functions
One factor that is important in successfully training a deep network is how the network weights are initialized. The principles controlling how weight initialization affects the training of a network are still not clear. There are, however, weight initialization procedures that have been empirically shown to help with training a deep network. Glorot initialization10 is a frequently used weight initialization procedure for deep networks. It is based on a number of assumptions but has empirical success to support its use. To get an intuitive understanding of Glorot initialization, consider the fact that there is typically a relationship between the magnitude of values in a set and the variance of the set: generally the larger the values in a set, the larger the variance of the set. So, if the variance calculated on a set of gradients propagated through a layer at one point in the network is similar to the variance for the set of gradients propagated through another layer in a network, it is likely that the magnitude of the gradients propagated through both of these layers will also be similar. Furthermore, the variance of gradients in a layer can be related to the variance of the weights in the layer, so a potential strategy to maintain gradients flowing through a network is to ensure similar variances across each of the layer in a network. Glorot initialization is designed to initialize the weight in a network in such a way that all of the layers in a network will have a similar variance in terms of both forward pass activations and the gradients propagated during the backward pass in backpropagation. Glorot initialization defines a heuristic rule to meet this goal that involves sampling the weights for a network using the following uniform distribution (where w is the weight on a connection between layer j and j+i that is being initialized, U[-a,a] is the uniform distribution over the interval (-a,a),
is the number of neurons in layer
, and the notation w ~ U indicates that the value of w is sampled from distribution U)11:
Another factor that contributes to the success or failure of training a deep network is the selection of the activation function used in the neurons. Backpropagating an error gradient through a neuron involves multiplying the gradient by the value of the derivative of the activation function at the activation value of the neuron recorded during the forward pass. The derivatives of the logistic and tanh activation functions have a number of properties that can exacerbate the vanishing gradient problem if they are used in this multiplication step. Figure 4.6 presents a plot of the logistic function and the derivative of the logistic function. The maximum value of the derivative is 0.25. Consequently, after an error gradient has been multiplied by the value of the derivative of the logistic function at the appropriate activation for the neuron, the maximum value the gradient will have is a quarter of the gradient prior to the multiplication. Another problem with using the logistic function is that there are large portions of the domain of the function where the function is saturated (returning values that very close to 0 or 1), and the rate of change of the function in these regions is near zero; thus, the derivative of the function is near 0. This is an undesirable property when backpropagating error gradients because the error gradients will be forced to zero (or close to zero) when backpropagated through any neuron whose activation is within one of these saturated regions. In 2011 it was shown that switching to a rectified linear activation function,
, improved training for deep feedforward neural networks (Glorot et al. 2011). Neurons that use a rectified linear activation function are known as rectified linear units (ReLUs). One advantage of ReLUs is that the activation function is linear for the positive portion of its domain with a derivative equal to 1. This means that gradients can flow easily through ReLUs that have positive activation. However, the drawback of ReLUs is that the gradient of the function for the negative part of its domain is zero, so ReLUs do not train in this portion of the domain. Although undesirable, this is not necessarily a fatal flaw for learning because when backpropagating through a layer of ReLUs the gradients can still flow through the ReLUs in the layers that have positive activation. Furthermore, there are a number of variants of the basic ReLU that introduce a gradient on the negative side of the domain, a commonly used variant being the leaky ReLU (Maas et al. 2013). Today, ReLUs (or variants of ReLUs) are the most frequently used neurons in deep learning research.
Figure 4.6 Plots of the logistic function and the derivative of the logistic function. The Virtuous Cycle: Better Algorithms, Faster Hardware, Bigger Data
Although improved weight initialization methods and new activation functions have both contributed to the growth of deep learning, in recent years the two most important factors driving deep learning have been the speedup in computer power and the massive increase in dataset sizes. From a computational perspective, a major breakthrough for deep learning occurred in the late 2000s with the adoption of graphical processing units (GPUs) by the deep learning community to speed up training. A neural network can be understood as a sequence of matrix multiplications that are interspersed with the application of nonlinear activation functions, and GPUs are optimized for very fast matrix multiplication. Consequently, GPUs are ideal hardware to speed up neural network training, and their use has made a significant contribution to the development of the field. In 2004, Oh and Jung reported a twentyfold performance increase using a GPU implementation of a neural network (Oh and Jung 2004), and the following year two further papers were published that demonstrated the potential of GPUs to speed up the training of neural networks: Steinkraus et al. (2005) used GPUs to train a two-layer neural network, and Chellapilla et al. (2006) used GPUs to train a CNN. However, at that time there were significant programming challenges to using GPUs for training networks (the training algorithm had to be implemented as a sequence of graphics operations), and so the initial adoption of GPUs by neural network researchers was relatively slow. These programming challenges were significantly reduced in 2007 when NVIDIA (a GPU manufacturer) released a C-like programming interface for GPUs called CUDA (compute unified device architecture).12 CUDA was specifically designed to facilitate the use of GPUs for general computing tasks. In the years following the release of CUDA, the use of GPUs to speed up neural network training became standard.
However, even with these more powerful computer processors, deep learning would not have been possible unless massive datasets had also become available. The development of the internet and social media platforms, the proliferation of smartphones and “internet of things” sensors, has meant that the amount of data being captured has grown at an incredible rate over the last ten years. This has made it much easier for organizations to gather large datasets. This growth in data has been incredibly important to deep learning because neural network models scale well with larger data (and in fact they can struggle with smaller datasets). It has also prompted organizations to consider how this data can be used to drive the development of new applications and innovations. This in turn has driven a need for new (more complex) computational models in order to deliver these new applications. And, the combination of large data and more complex algorithms requires faster hardware in order to make the necessary computational workload tractable. Figure 4.7 illustrates the virtuous cycle between big data, algorithmic breakthroughs (e.g., better weight initialization, ReLUs, etc.), and improved hardware that is driving the deep learning revolution.
Figure 4.7 The virtuous cycle driving deep learning. Figure inspired by figure 1.2 in Reagen et al. 2017. Summary
The history of deep learning reveals a number of underlying themes. There has been a shift from simple binary inputs to more complex continuous valued input. This trend toward more complex inputs is set to continue because deep learning models are most useful in high-dimensional domains, such as image processing and language. Images often have thousands of pixels in them, and language processing requires the ability represents and process hundreds of thousands of different words. This is why some of the best-known applications of deep learning are in these domains, for example, Facebook’s face-recognition software, and Google’s neural machine translation system. However, there are a growing number of new domains where large and complex digital datasets are being gathered. One area where deep learning has the potential to make a significant impact within the coming years is healthcare, and another complex domain is the sensor rich field of self-driving cars.
Somewhat surprisingly, at the core of these powerful models are simple information processing units: neurons. The connectionist idea that useful complex behavior can emerge from the interactions between large numbers of simple processing units is still valid today. This emergent behavior arises through the sequences of layers in a network learning a hierarchical abstraction of increasingly complex features. This hierarchical abstraction is achieved by each neuron learning a simple transformation of the input it receives. The network as a whole then composes these sequences of smaller transformations in order to apply a complex (highly) nonlinear mapping to the input. The output from the model is then generated by the final output layers of neuron, based the learned representation generated through the hierarchical abstraction. This is why depth is such an important factor in neural networks: the deeper the network, the more powerful the model becomes in terms of its ability to learn complex nonlinear mappings. In many domains, the relationship between input data and desired outputs involves just such complex nonlinear mappings, and it is in these domains that deep learning models outdo other machine learning approaches.
An important design choice in creating a neural network is deciding which activation function to use within the neurons in a network. The activation function within each neuron in a network is how nonlinearity is introduced into the network, and as a result it is a necessary component if the network is to learn a nonlinear mapping from inputs to output. As networks have evolved, so too have the activation functions used in them. New activation functions have emerged throughout the history of deep learning, often driven by the need for functions with better properties for error-gradient propagation: a major factor in the shift from threshold to logistic and tanh activation functions was the need for differentiable functions in order to apply backpropagation; the more recent shift to ReLUs was, similarly, driven by the need to improve the flow of error gradients through the network. Research on activations functions is ongoing, and new functions will be developed and adopted in the coming years.
Another important design choice in creating a neural network is to decide on the structure of the network: for example, how should the neurons in the network be connected together? In the next chapter, we will discuss two very different answers to this question: convolution neural networks and recurrent neural networks.
5 Convolutional and Recurrent Neural Networks
Tailoring the structure of a network to the specific characteristics of the data from a task domain can reduce the training time of the network, and improves the accuracy of the network. Tailoring can be done in a number of ways, such as: constraining the connections between neurons in adjacent layers to subsets (rather than having fully connected layers); forcing neurons to share weights; or introducing backward connections into the network. Tailoring in these ways can be understood as building domain knowledge into the network. Another, related, perspective is it helps the network to learn by constraining the set of possible functions that it can learn, and by so doing guides the network to find a useful solution. It is not always clear how to fit a network structure to a domain, but for some domains where the data has a very regular structure (e.g., sequential data such as text, or gridlike data such as images) there are well-known network architectures that have proved successful. This chapter will introduce two of the most popular deep learning architectures: convolutional neural networks and recurrent neural networks.
Convolutional Neural Networks
Convolution neural networks (CNNs) were designed for image recognition tasks and were originally applied to the challenge of handwritten digit recognition (Fukushima 1980; LeCun 1989). The basic design goal of CNNs was to create a network where the neurons in the early layer of the network would extract local visual features, and neurons in later layers would combine these features to form higher-order features. A local visual feature is a feature whose extent is limited to a small patch, a set of neighboring pixels, in an image. For example, when applied to the task of face recognition, the neurons in the early layers of a CNN learn to activate in response to simple local features (such as lines at a particular angle, or segments of curves), neurons deeper in the network combine these low-level features into features that represent body parts (such as eyes or noises), and the neurons in the final layers of the network combine body part activations in order to be able to identify whole faces in an image.
Using this approach, the fundamental task in image recognition is learning the feature detection functions that can robustly identify the presence, or absence, of local visual features in an image. The process of learning functions is at the core of neural networks, and is achieved by learning the appropriate set of weights for the connections in the network. CNNs learn the feature detection functions for local visual features in this way. However, a related challenge is designing the architecture of the network so that the network will identify the presence of a local visual feature in an image irrespective of where in the image it occurs. In other words, the feature detection functions must be able to work in a translation invariant manner. For example, a face recognition system should be able to recognize the shape of an eye in an image whether the eye is in the center of the image or in the top-right corner of the image. This need for translation invariance has been a primary design principle of CNNs for image processing, as Yann LeCun stated in 1989:
It seems useful to have a set of feature detectors that can detect a particular instance of a feature anywhere on the input plane. Since the precise location of a feature is not relevant to the classification, we can afford to lose some position information in the process. (LeCun 1989, p. 14)CNNs achieve this translation invariance of local visual feature detection by using weight sharing between neurons. In an image recognition setting, the function implemented by a neuron can be understood as a visual feature detector. For example, neurons in the first hidden layer of the network will receive a set of pixel values as input and output a high activation if a particular pattern (local visual feature) is present in this set of pixels. The fact that the function implemented by a neuron is defined by the weights the neuron uses means that if two neurons use the same set of weights then they both implement the same function (feature detector). In chapter 4, we introduced the concept of a receptive field to describe the area that a neuron receives its input from. If two neurons share the same weights but have different receptive fields (i.e., each neuron inspects different areas of the input), then together the neurons act as a feature detector that activates if the feature occurs in either of the receptive fields. Consequently, it is possible to design a network with translation invariant feature detection by creating a set of neurons that share the same weights and that are organized so that: (1) each neuron inspects a different portion of the image; and (2) together the receptive fields of the neurons cover the entire image.
The scenario of searching an image in a dark room with a flashlight that has a narrow beam is sometimes used to explain how a CNN searches an image for local features. At each moment you can point the flashlight at a region of the image and inspect that local region. In this flashlight metaphor, the area of the image illuminated by the flashlight at any moment is equivalent to the receptive field of a single neuron, and so pointing the flashlight at a location is equivalent to applying the feature detection function to that local region. If, however, you want to be sure you inspect the whole image, then you might decide to be more systematic in how you direct the flashlight. For example, you might begin by pointing the flashlight at the top-left corner of the image and inspecting that region. You then move the flashlight to the right, across the image, inspecting each new location as it becomes visible, until you reach the right side of the image. You then point the flashlight back to the left of the image, but just below where you began, and move across the image again. You repeat this process until you reach the bottom-right corner of the image. The process of sequentially searching across an image and at each location in the search applying the same function to the local (illuminated) region is the essence of convolving a function across an image. Within a CNN, this sequential search across an image is implemented using a set of neurons that share weights and whose union of receptive fields covers the entire image.
Figure 5.1 illustrates the different stages of processing that are often found in a CNN. The
matrix on the left of the figure represents the image that is the input to the CNN. The
matrix immediately to the right of the input represents a layer of neurons that together search the entire image for the presence of a particular local feature. Each neuron in this layer is connected to a different
receptive field (area) in the image, and they all apply the same weight matrix to their inputs:
The receptive field of the neuron
(top-left) in this layer is marked with the gray square covering the
area in the top-left of the input image. The dotted arrows emerging from each of the locations in this gray area represent the inputs to neuron
. The receptive field of the neighboring neuron
is indicated by
square, outlined in bold in the input image. Notice that the receptive fields of these two neurons overlap. The amount of overlap of receptive fields is controlled by a hyperparameter called the stride length. In this instance, the stride length is one, meaning that for each position moved in the layer the receptive field of the neuron is translated by the same amount on the input. If the stride length hyperparameter is increased, the amount of overlap between receptive fields is decreased.
The receptive fields of both of these neurons (
and
) are matrices of pixel values and the weights used by these neurons are also matrices. In computer vision, the matrix of weights applied to an input is known as the kernel (or convolution mask); the operation of sequentially passing a kernel across an image and within each local region, weighting each input and adding the result to its local neighbors, is known as a convolution. Notice that a convolution operation does not include a nonlinear activation function (this is applied at a later stage in processing). The kernel defines the feature detection function that all the neurons in the convolution implement. Convolving a kernel across an image is equivalent to passing a local visual feature detector across the image and recording all the locations in the image where the visual feature was present. The output from this process is a map of all the locations in the image where the relevant visual feature occurred. For this reason, the output of a convolution process is sometimes known as a feature map. As noted above, the convolution operation does not include a nonlinear activation function (it only involves a weighted summation of the inputs). Consequently, it is standard to apply a nonlinearity operation to a feature map. Frequently, this is done by applying a rectified linear function to each position in a feature map; the rectified linear activation function is defined as:
. Passing a rectified linear activation function over a feature map simply changes all negative values to 0. In figure 5.1, the process of updating a feature map by applying a rectified linear activation function to each of its elements is represented by the layer labeled Nonlinearity.
The quote from Yann LeCun, at the start of this section, mentions that the precise location of a feature in an image may not be relevant to an image processing task. With this in mind, CNNs often discard location information in favor of generalizing the network’s ability to do image classification. Typically, this is achieved by down-sampling the updated feature map using a pooling layer. In some ways pooling is similar to the convolution operation described above, in so far as pooling involves repeatedly applying the same function across an input space. For pooling, the input space is frequently a feature map whose elements have been updated using a rectified linear function. Furthermore, each pooling operation has a receptive field on the input space—although, for pooling, the receptive fields sometimes do not overlap. There are a number of different pooling functions used; the most common is called max pooling, which returns the maximum value of any of its inputs. Calculating the average value of the inputs is also used as a pooling function.
Convolving a kernel across an image is equivalent to passing a local visual feature detector across the image and recording all the locations in the image where the visual feature was present.
The operation sequence of applying a convolution, followed by a nonlinearity, to the feature map, and then down-sampling using pooling, is relatively standard across most CNNs. Often these three operations are together considered to define a convolutional layer in a network, and this is how they are presented in figure 5.1.
The fact that a convolution searches an entire image means that if the visual feature (pixel pattern) that the function (defined by shared kernel) detects occurs anywhere in the image, its presence will be recorded in the feature map (and if pooling is used, also in the subsequent output from the pooling layer). In this way, a CNN supports translation invariant visual feature detection. However, this has the limitation that the convolution can only identify a single type of feature. CNNs generalize beyond one feature by training multiple convolutional layers in parallel (or filters), with each filter learning a single kernel matrix (feature detection function). Note the convolution layer in figure 5.1 illustrates a single filter. The outputs of multiple filters can be integrated in a variety of ways. One way to integrate information from different filters is to take the feature maps generated by the separate filters and combine them into a single multifilter feature map. A subsequent convolutional layer then takes this multifilter feature map as input. Another other way to integrate information from different filter is to use a densely connected layer of neurons. The final layer in figure 5.1 illustrates a dense layer. This dense layer operates in exactly the same way as a standard layer in a fully connected feedforward network. Each neuron in the dense layer is connected to all of the elements output by each of the filters, and each neuron learns a set of weights unique to itself that it applies to the inputs. This means that each neuron in a dense layer can learn a different way to integrate information from across the different filters.
Figure 5.1 Illustrations of the different stages of processing in a convolutional layer. Note in this figure the Image and Feature Map are data structures; the other stages represent operations on data. The AlexNet CNN, which won the ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) in 2012, had five convolutional layers, followed by three dense layers. The first convolutional layer had ninety-six different kernels (or filters) and included a ReLU nonlinearity and pooling. The second convolution layer had 256 kernels and also included ReLU nonlinearity and pooling. The third, fourth, and fifth convolutional layers did not include a nonlinearity step or pooling, and had 384, 384, and 256 kernels, respectively. Following the fifth convolutional layer, the network had three dense layers with 4096 neurons each. In total, AlexNet had sixty million weights and 650,000 neurons. Although sixty million weights is a large number, the fact that many of the neurons shared weights actually reduced the number of weights in the network. This reduction in the number of required weights is one of the advantages of CNN networks. In 2015, Microsoft Research developed a CNN network called ResNet, which won the ILSVRC 2015 challenge (He et al. 2016). The ResNet architecture extended the standard CNN architecture using skip-connections. A skip-connection takes the output from one layer in the network and feeds it directly into a layer that may be much deeper in the network. Using skip-connections it is possible to train very deep networks. In fact, the ResNet model developed by Microsoft Research had a depth of 152 layers.
Recurrent Neural Networks
Recurrent neural networks (RNNs) are tailored to the processing of sequential data. An RNN processes a sequence of data by processing each element in the sequence one at time. An RNN network only has a single hidden layer, but it also has a memory buffer that stores the output of this hidden layer for one input and feeds it back into the hidden layer along with the next input from the sequence. This recurrent flow of information means that the network processes each input within the context generated by processing the previous input, which in turn was processed in the context of the input preceding it. In this way, the information that flows through the recurrent loop encodes contextual information from (potentially) all of the preceding inputs in the sequence. This allows the network to maintain a memory of what it has seen previously in the sequence to help it decide what to do with the current input. The depth of an RNN arises from the fact that the memory vector is propagated forward and evolved through each input in the sequence; as a result an RNN network is considered as deep as a sequence is long.
The depth of an RNN arises from the fact that the memory vector is propagated forward and evolved through each input in the sequence; as a result an RNN network is considered as deep as a sequence is long.
Figure 5.2 illustrates the architecture of an RNN and shows how information flows through the network as it processes a sequence. At each time step, the network in this figure receives a vector containing two elements as input. The schematic on the left of figure 5.2 (time step=1.0) shows the flow of information in the network when it receives the first input in the sequence. This input vector is fed forward into the three neurons in the hidden layer of the network. At the same time these neurons also receive whatever information is stored in the memory buffer. Because this is the initial input, the memory buffer will only contain default initialization values. Each of the neurons in the hidden layer will process the input and generate an activation. The schematic in the middle of figure 5.2 (time step=1.5) shows how this activation flows on through the network: the activation of each neuron is passed to the output layer where it is processed to generate the output of the network, and it is also stored in the memory buffer (overwriting whatever information was stored there). The elements of the memory buffer simply store the information written to them; they do not transform it in any way. As a result, there are no weights on the edges going from the hidden units to the buffer. There are, however, weights on all the other edges in the network, including those from the memory buffer units to the neurons in the hidden layer. At time step 2, the network receives the next input from the sequence, and this is passed to the hidden layer neurons along with the information stored in the buffer. This time the buffer contains the activations that were generated by the hidden neurons in response to the first input.
Figure 5.2 The flow of information in an RNN as it processes a sequence of inputs. The arrows in bold are the active paths of information flow at each time point; the dashed arrows show connections that are not active at that time. Figure 5.3 shows an RNN that has been unrolled through time as it processes a sequence of inputs
. Each box in this figure represents a layer of neurons. The box labeled
represents the state of the memory buffer when the network is initialized; the boxes labeled
represent the hidden layer of the network at each time step; and the boxes labeled
represent the output layer of the network at each time step. Each of the arrows in the figure represents a set of connections between one layer and another layer. For example, the vertical arrow from
to
represents the connections between the input layer and the hidden layer at time step 1. Similarly, the horizontal arrows connecting the hidden layers represent the storing of the activations from a hidden state at one time step in the memory buffer (not shown) and the propagation of these activations to the hidden layer at the next time step through the connections from the memory buffer to the hidden state. At each time step, an input from the sequence is presented to the network and is fed forward to the hidden layer. The hidden layer generates a vector of activations that is passed to the output layer and is also propagated forward to the next time step along the horizontal arrows connecting the hidden states.
Figure 5.3 An RNN network unrolled through time as it processes a sequence of inputs [x1,x2,……,xt] Although RNNs can process a sequence of inputs, they struggle with the problem of vanishing gradients. This is because training an RNN to process a sequence of inputs requires the error to be backpropagated through the entire length of the sequence. For example, for the network in figure 5.3, the error calculated on the output
must be backpropagated through the entire network so that it can be used to update the weights on the connections from
and
to
. This entails backpropagating the error through all the hidden layers, which in turn involves repeatedly multiplying the error by the weights on the connections feeding activations from one hidden layer forward to the next hidden layer. A particular problem with this process is that it is the same set of weights that are used on all the connections between the hidden layers: each horizontal arrow represents the same set of connections between the memory buffer and the hidden layer, and the weights on these connections are stationary through time (i.e., they don’t change from one time step to the next during the processing of a given sequence of inputs). Consequently, backpropogating an error through k time steps involves (among other multiplications) multiplying the error gradient by the same set of weights k times. This is equivalent to multiplying each error gradient by a weight raised to the power of k. If this weight is less than 1, then when it is raised to a power, it diminishes at an exponential rate, and consequently, the error gradient also tends to diminish at an exponential rate with respect to the length of the sequence—and vanish.
Long short-term memory networks (LSTMs) are designed to reduce the effect of vanishing gradients by removing the repeated multiplication by the same weight vector during backpropagation in an RNN. At the core of an LSTM1 unit is a component called the cell. The cell is where the activation (the short-term memory) is stored and propagated forward. In fact, the cell often maintains a vector of activations. The propagation of the activations within the cell through time is controlled by three components called gates: the forget gate, the input gate, and the output gate. The forget gate is responsible for determining which activations in the cell should be forgotten at each time step, the input gate controls how the activations in the cell should be updated in response to the new input, and the output gate controls what activations should be used to generate the output in response to the current input. Each of the gates consists of layers of standard neurons, with one neuron in the layer per activation in the cell state.
Figure 5.4 illustrates the internal structure of an LSTM cell. Each of the arrows in this image represents a vector of activations. The cell runs along the top of the figure from left (
) to right (
). Activations in the cell can take values in the range -1 to +1. Stepping through the processing for a single input, the input vector
is first concatenated with the hidden state vector that has been propagated forward from the preceding time step
. Working from left to right through the processing of the gates, the forget gate takes the concatenation of the input and the hidden state and passes this vector through a layer of neurons that use a sigmoid (also known as logistic)2 activation function. As a result of the neurons in the forget layer using sigmoid activation functions the output of this forget layer is a vector of values in the range 0 to 1. The cell state is then multiplied by this forget vector. The result of this multiplication is that activations in the cell state that are multiplied by components in the forget vector with values near 0 are forgotten, and activations that are multiplied by forget vector components with values near 1 are remembered. In effect, multiplying the cell state by the output of a sigmoid layer acts as a filter on the cell state.
Next, the input gate decides what information should be added to the cell state. The processing in this step is done by the components in the middle block of figure 5.4, marked Input. This processing is broken down into two subparts. First, the gate decides which elements in the cell state should be updated, and second it decides what information should be included in the update. The decision regarding which elements in the cell state should be updated is implemented using a similar filter mechanism to the forget gate: the concatenated input
plus hidden state
is passed through a layer of sigmoid units to generate a vector of elements, the same width as the cell, where each element in the vector is in the range 0 to 1; values near 0 indicate that the corresponding cell element will not be updated, and values near 1 indicate that the corresponding cell element will be updated. At the same time that the filter vector is generated, the concatenated input and hidden state are also passed through a layer of tanh units (i.e., neurons that use the tanh activation function). Again, there is one tanh unit for each activation in the LSTM cell. This vector represents the information that may be added to the cell state. Tanh units are used to generate this update vector because tanh units output values in the range -1 to +1, and consequently the value of the activations in the cell elements can be both increased and decreased by an update.3 Once these two vectors have been generated, the final update vector is calculated by multiplying the vector output from the tanh layer by the filter vector generated from the sigmoid layer. The resulting vector is then added to the cell using vector addition.
Figure 5.4 Schematic of the internal structure of an LSTM unit: σ represents a layer of neurons with sigmoid activations, T represents a layer of neurons with tanh activations, × represents vector multiplication, and + represents vector addition. The figure is inspired by an image by Christopher Olah available at: http://colah.github.io/posts/2015-08-Understanding-LSTMs/. The final stage of processing in an LSTM is to decide which elements of the cell should be output in response to the current input. This processing is done by the components in the block marked Output (on the right of figure 5.4). A candidate output vector is generated by passing the cell through a tanh layer. At the same time, the concatenated input and propagated hidden state vector are passed through a layer of sigmoid units to create another filter vector. The actual output vector is then calculated by multiplying the candidate output vector by this filter vector. The resulting vector is then passed to the output layer, and is also propagated forward to the next time step as the new hidden state
.
The fact that an LSTM unit contains multiple layers of neurons means that an LSTM is a network in itself. However, an RNN can be constructed by treating an LSTM as the hidden layer in the RNN. In this configuration, an LSTM unit receives an input at each time step and generates an output for each input. RNNs that use LSTM units are often known as LSTM networks.
LSTM networks are ideally suited for natural language processing (NLP). A key challenge in using a neural network to do natural language processing is that the words in language must be converted into vectors of numbers. The word2vec models, created by Tomas Mikolov and colleagues at Google research, are one of the most popular ways of doing this conversion (Mikolov et al. 2013). The word2vec models are based on the idea that words that appear in similar contexts have similar meanings. The definition of context here is surrounding words. So for example, the words London and Paris are semantically similar because each of them often co-occur with words that the other word also co-occurs with, such as: capital, city, Europe, holiday, airport, and so on. The word2vec models are neural networks that implement this idea of semantic similarity by initially assigning random vectors to each word and then using co-occurrences within a corpus to iteratively update these vectors so that semantically similar words end up with similar vectors. These vectors (known as word embeddings) are then used to represent a word when it is being input to a neural network.
One of the areas of NLP where deep learning has had a major impact is in machine translation. Figure 5.5 presents a high-level schematic of the seq2seq (or encoder-decoder) architecture for neural machine translation (Sutskever et al. 2014). This architecture is composed of two LSTM networks that have been joined together. The first LSTM network processes the input sentence in a word-by-word fashion. In this example, the source language is French. The words are entered into the system in reverse order as it has been found that this leads to better translations. The symbol
is a special end of sentence symbol. As each word is entered, the encoder updates the hidden state and propagates it forward to the next time step. The hidden state generated by the encoder in response to the
symbol is taken to be a vector representation of the input sentence. This vector is passed as the initial input to the decoder LSTM. The decoder is trained to output the translation sentence word by word, and after each word has been generated, this word is fed back into the system as the input for the next time step. In a way, the decoder is hallucinating the translation because it uses its own output to drive its own generation process. This process continues until the decoder outputs an
symbol.
Figure 5.5 Schematic of the seq2seq (or encoder-decoder) architecture. The idea of using a vector of numbers to represent the (interlingual) meaning of a sentence is very powerful, and this concept has been extended to the idea of using vectors to represent intermodal/multimodal representations. For example, an exciting development in recent years has been the development of automatic image captioning systems. These systems can take an image as input and generate a natural language description of the image. The basic structure of these systems is very similar to the neural machine translation architecture shown in figure 5.5. The main difference is that the encoder LSTM network is replaced by a CNN architecture that processes the input image and generates a vector representation that is then propagated to the decoder LSTM (Xu et al. 2015). This is another example of the power of deep learning arising from its ability to learn complex representations of information. In this instance, the system learns intermodal representations that enable information to flow from what is in an image to language. Combining CNN and RNN architectures is becoming more and more popular because it offers the potential to integrate the advantages of both systems and enables deep learning architectures to handle very complex data.
Irrespective of the network architecture we use, we need to find the correct weights for the network if we wish to create an accurate model. The weights of a neuron determine the transformation the neuron applies to its inputs. So, it is the weights of the network that define the fundamental building blocks of the representation the network learns. Today the standard method for finding these weights is an algorithm that came to prominence in the 1980s: backpropagation. The next chapter will present a comprehensive introduction to this algorithm.
6 Learning Functions
A neural network model, no matter how deep or complex, implements a function, a mapping from inputs to outputs. The function implemented by a network is determined by the weights the network uses. So, training a network (learning the function the network should implement) on data involves searching for the set of weights that best enable the network to model the patterns in the data. The most commonly used algorithm for learning patterns from data is the gradient descent algorithm. The gradient descent algorithm is very like the perceptron learning rule and the LMS algorithm described in chapter 4: it defines a rule to update the weights used in a function based on the error of the function. By itself the gradient descent algorithm can be used to train a single output neuron. However, it cannot be used to train a deep network with multiple hidden layers. This limitation is because of the credit assignment problem: how should the blame for the overall error of a network be shared out among the different neurons (including the hidden neurons) in the network? Consequently, training a deep neural network involves using both the gradient descent algorithm and the backpropagation algorithm in tandem.
The process used to train a deep neural network can be characterized as: randomly initializing the weight of a network, and then iteratively updating the weights of the network, in response to the errors the network makes on a dataset, until the network is working as expected. Within this training framework, the backpropagation algorithm solves the credit (or blame) assignment problem, and the gradient descent algorithm defines the learning rule that actually updates the weights in the network.
This chapter is the most mathematical chapter in the book. However, at a high level, all you need to know about the backpropagation algorithm and the gradient descent algorithm is that they can be used to train deep networks. So, if you don’t have the time to work through the details in this chapter, feel free to skim through it. If, however, you wish to get a deeper understanding of these two algorithms, then I encourage you to engage with the material. These algorithms are at the core of deep learning and understanding how they work is, possibly, the most direct way of understanding its potentials and limitations. I have attempted to present the material in this chapter in an accessible way, so if you are looking for a relatively gentle but still comprehensive introduction to these algorithms, then I believe that this will provide it for you. The chapter begins by explaining the gradient descent algorithm, and then explains how gradient descent can be used in conjunction with the backpropagation algorithm to train a neural network.
Gradient Descent
A very simple type of function is a linear mapping from a single input to a single output. Table 6.1 presents a dataset with a single input feature and a single output. Figure 6.1 presents a scatterplot of this data along with a plot of the line that best fits this data. This line can be used as a function to map from an input value to a prediction of the output value. For example, if x = 0.9, then the response returned by this linear function is y = 0.6746. The error (or loss) of using this line as a model for the data is shown by the dashed lines from the line to each datum.
Table 6.1. A sample dataset with one input feature, x, and an output (target) feature, y
X Y 0.72 0.54 0.45 0.56 0.23 0.38 0.76 0.57 0.14 0.17 Figure 6.1 Scatterplot of data with “best fit” line and the errors of the line on each example plotted as vertical dashed line segments. The figure also shows the mapping defined by the line for input x=0.9 to output y=0.6746. In chapter 2, we described how a linear function can be represented using the equation of a line:
where
is the slope of the line, and
is the y-intercept, which specifies where the line crosses the y-axis. For the line in figure 6.1,
and
; this is why the function returns the value
when
, as in the following:
The slope
and the y-intercept
are the parameters of this model, and these parameters can be varied to fit the model to the data.
The equation of a line has a close relationship with the weighted sum operation used in a neuron. This becomes apparent if we rewrite the equation of a line with model parameters rewritten as weights (
:
Different lines (different linear models for the data) can be created by varying either of these weights (or model parameters). Figure 6.2 illustrates how a line changes as the intercept and slope of the line varies: the dashed line illustrates what happens if the y-intercept is increased, and the dotted line shows what happens if the slope is decreased. Changing the y-intercept
vertically translates the line, whereas modifying the slope
rotates the line around the point
.
Each of these new lines defines a different function, mapping from
to
, and each function will have a different error with respect to how well it matches the data. Looking at figure 6.2, we can see that the full line,
, fits the data better than the other two lines because on average it passes closer to the data points. In other words, on average the error for this line for each data point is less than those of the other two lines. The total error of a model on a dataset can be measured by summing together the error the model makes on each example in the dataset. The standard way to calculate this total error is to use an equation known as the sum of squared errors (SSE):
Figure 6.2 Plot illustrating how a line changes as the intercept (w0) and slope (w1) are varied. This equation tells us how to add together the errors of a model on a dataset containing n examples. This equation calculates for each of the
examples in the dataset the error of the model by subtracting the prediction of the target value returned by the model from the correct target value for that example, as specified in the dataset. In this equation
is the correct output value for target feature listed in the dataset for example j, and
is the estimate of the target value returned by the model for the same example. Each of these errors is then squared and these squared errors are then summed. Squaring the errors ensures that they are all positive, and therefore in the summation the errors for examples where the function underestimated the target do not cancel out the errors on examples where it overestimated the target. The multiplication of the summation of the errors by
, although not important for the current discussion, will become useful later. The lower the SSE of a function, the better the function models the data. Consequently, the sum of squared errors can be used as a fitness function to evaluate how well a candidate function (in this situation a model instantiating a line) matches the data.
Figure 6.3 shows how the error of a linear model varies as the parameters of the model change. These plots show the SSE of a linear model on the example single-input–single-output dataset listed in table 6.1. For each parameter there is a single best setting and as the parameter moves away from this setting (in either direction) the error of the model increases. A consequence of this is that the error profile of the model as each parameter varies is convex (bowl-shaped). This convex shape is particularly apparent in the top and middle plots in figure 6.3, which show that the SSE of the model is minimized when
(lowest point of the curve in the top plot), and when
(lowest point of the curve in the middle plot).
Figure 6.3 Plots of the changes in the error (SSE) of a linear model as the parameters of the model change. Top: the SSE profile of a linear model with a fixed slope w1=0.524 when w0 ranges across the interval 0.3 to 1. Middle: the SSE profile of a linear model with a y-intercept fixed at w0=0.203 when w1 ranges across the interval 0 to 1. Bottom: the error surface of the linear model when both w0 and w1 are varied. If we plot the error of the model as both parameters are varied, we generate a three-dimensional convex bowl-shaped surface, known as an error surface. The bowl-shaped mesh in the plot at the bottom of figure 6.3 illustrates this error surface. This error surface was created by first defining a weight space. This weight space is represented by the flat grid at the bottom of the plot. Each coordinate in this weight space defines a different line because each coordinate specifies an intercept (a
value) and slope (a
value). Consequently, moving across this planar weight space is equivalent to moving between different models. The second step in constructing the error surface is to associate an elevation with each line (i.e., coordinate) in the weight space. The elevation associated with each weight space coordinate is the SSE of the model defined by that coordinate; or, put more directly, the height of the error surface above the weight space plane is the SSE of the corresponding linear model when it is used as a model for the dataset. The weight space coordinates that correspond with the lowest point of the error surface define the linear model that has the lowest SSE on the dataset (i.e., the linear model that best fits the data).
The shape of the error surface in the plot on the right of figure 6.3 indicates that there is only a single best linear model for this dataset because there is a single point at the bottom of the bowl that has a lower elevation (lower error) than any other points on the surface. Moving away from this best model (by varying the weights of the model) necessarily involves moving to a model with a higher SSE. Such a move is equivalent to moving to a new coordinate in the weight space, which has a higher elevation associated with it on the error surface. A convex or bowl-shaped error surface is incredibly useful for learning a linear function to model a dataset because it means that the learning process can be framed as a search for the lowest point on the error surface. The standard algorithm used to find this lowest point is known as gradient descent.
A convex or bowl-shaped error surface is incredibly useful for learning a linear function to model a dataset because it means that the learning process can be framed as a search for the lowest point on the error surface.
The gradient descent algorithm begins by creating an initial model using a randomly selected a set of weights. Next the SSE of this randomly initialized model is calculated. Taken together, the guessed set of weights and the SSE of the corresponding model define the initial starting point on the error surface for the search. It is very likely that the randomly initialized model will be a bad model, so it is very likely that the search will begin at a location that has a high elevation on the error surface. This bad start, however, is not a problem, because once the search process is positioned on the error surface, the process can find a better set of weights by simply following the gradient of the error surface downhill until it reaches the bottom of the error surface (the location where moving in any direction results in an increase in SSE). This is why the algorithm is known as gradient descent: the gradient that the algorithm descends is the gradient of the error surface of the model with respect to the data.
An important point is that the search does not progress from the starting location to the valley floor in one weight update. Instead, it moves toward the bottom of the error surface in an iterative manner, and during each iteration the current set of weights are updated so as to move to a nearby location in the weight space that has a lower SSE. Reaching the bottom of the error surface can take a large number of iterations. An intuitive way of understanding the process is to imagine a hiker who is caught on the side of a hill when a thick fog descends. Their car is parked at the bottom of the valley; however, due to the fog they can only see a few feet in any direction. Assuming that the valley has a nice convex shape to it, they can still find their way to their car, despite the fog, by repeatedly taking small steps that move down the hill following the local gradient at the position they are currently located. A single run of a gradient descent search is illustrated in the bottom plot of figure 6.3. The black curve plotted on the error surface illustrates the path the search followed down the surface, and the black line on the weight space plots the corresponding weight updates that occurred during the journey down the error surface. Technically, the gradient descent algorithm is known as an optimization algorithm because the goal of the algorithm is to find the optimal set of weights.
The most important component of the gradient descent algorithm is the rule that defines how the weights are updated during each iteration of the algorithm. In order to understand how this rule is defined it is first necessary to understand that the error surface is made up of multiple error gradients. For our simple example, the error surface is created by combining two error curves. One error curve is defined by the changes in the SSE as
changes, shown in the top plot of figure 6.3. The other error curve is defined by the changes in the SSE as
changes, shown in the plot in the middle of figure 6.3. Notice that the gradient of each of these curves can vary along the curve, for example, the
error curve has a steep gradient on the extreme left and right of the plot, but the gradient becomes somewhat shallower in the middle of the curve. Also, the gradients of two different curves can vary dramatically; in this particular example the
error curve generally has a much steeper gradient than the
error curve.
The fact that the error surface is composed of multiple curves, each with a different gradient, is important because the gradient descent algorithm moves down the combined error surface by independently updating each weight so as to move down the error curve associated with that weight. In other words, during a single iteration of the gradient descent algorithm,
is updated to move down the
error curve and
is updated the move down the
error curve. Furthermore, the amount each weight is updated in an iteration is proportional to the steepness of the gradient of the weight’s error curve, and this gradient will vary from one iteration to the next as the process moves down the error curve. For example,
will be updated by relatively large amounts in iterations where the search process is located high up on either side of the
error curve, but by smaller amounts in iterations where the search process is nearer to the bottom of the
error curve.
The error curve associated with each weight is defined by how the SSE changes with respect to the change in the value of the weight. Calculus, and in particular differentiation, is the field of mathematics that deals with rates of change. For example, taking the derivative of a function,
, calculates the rate of change of
(the output) for each unit change in
(the input). Furthermore, if a function takes multiple inputs [
] then it is possible to calculate the rate of change of the output,
, with respect to changes in each of these inputs,
, by taking the partial derivative of the function of with respect to each input. The partial derivative of a function with respect to a particular input is calculated by first assuming that all the other inputs are held constant (and so their rate of change is 0 and they disappear from the calculation) and then taking the derivative of what remains. Finally, the rate of change of a function for a given input is also known as the gradient of the function at the location on the curve (defined by the function) that is specified by the input. Consequently, the partial derivative of the SSE with respect to a weight specifies how the output of the SSE changes as that weight changes, and so it specifies the gradient of the error curve of the weight. This is exactly what is needed to define the gradient descent weight update rule: the partial derivative of the SSE with respect to a weight specifies how to calculate the gradient of the weight’s error curve, and in turn this gradient specifies how the weight should be updated to reduce the error (the output of the SSE).
The partial derivative of a function with respect to a particular variable is the derivative of the function when all the other variables are held constant. As a result there is a different partial derivative of a function with respect to each variable, because a different set of terms are considered constant in the calculation of each of the partial derivatives. Therefore, there is a different partial derivative of the SSE for each weight, although they all have a similar form. This is why each of the weights is updated independently in the gradient descent algorithm: the weight update rule is dependent on the partial derivative of the SSE for each weight, and because there is a different partial derivative for each weight, there is a separate weight update rule for each weight. Again, although the partial derivative for each weight is distinct, all of these derivatives have the same form, and so the weight update rule for each weight will also have the same form. This simplifies the definition of the gradient descent algorithm. Another simplifying factor is that the SSE is defined relative to a dataset with
examples. The relevance of this is that the only variables in the SSE are the weights; the target output
and the inputs
are all specified by the dataset for each example, and so can be considered constants. As a result, when calculating the partial derivative of the SSE with respect to a weight, many of the terms in the equation that do not include the weight can be deleted because they are considered constants.
The relationship between the output of the SSE and each weight becomes more explicit if the SSE definition is rewritten so that the term
, denoting the output predicted by the model, is replaced by the structure of the model generating the prediction. For the model with a single input
and a dummy input,
this rewritten version of the SSE is:
This equation uses a double subscript on the inputs, the first subscript
identifies the example (or row in the dataset) and the second subscript specifies the feature (or column in the dataset) of the input. For example,
represents feature 1 from example
. This definition of the SSE can be generalized to a model with
inputs:
Calculating the partial derivative of the SSE with respect to a specific weight involves the application of the chain rule from calculus and a number of standard differentiation rules. The result of this derivation is the following equation (for simplicity of presentation we switch back to the notation
to represent the output from the model):
This partial derivative specifies how to calculate the error gradient for weight
for the dataset where
is the input associated with
for each example in the dataset. This calculation involves multiplying two terms, the error of the output and the rate of change of the output (i.e., the weighted sum) with respect to changes in the weight. One way of understanding this calculation is that if changing the weight changes the output of the weighted sum by a large amount, then the gradient of the error with respect to the weight is large (steep) because changing the weight will result in big changes in the error. However, this gradient is the uphill gradient, and we wish to move the weights so as to move down the error curve. So in the gradient descent weight update rule (shown below) the “–” sign in front of the input
is dropped. Using
to represent the iteration of the algorithm (an iteration involves a single pass through the
examples in the dataset), the gradient descent weight update rule is defined as:
There are a number of notable factors about this weight update rule. First, the rule specifies how the weight
should be updated after iteration
through the dataset. This update is proportional to the gradient of the error curve for the weight for that iteration (i.e., the summation term, which actually defines the partial derivative of the SSE for that weight). Second, the weight update rule can be used to update the weights for functions with multiple inputs. This means that the gradient descent algorithm can be used to descend error surfaces with more than two weight coordinates. It is not possible to visualize these error surfaces because they will have more than three dimensions, but the basic principles of descending an error surface using the error gradient generalizes to learning functions with multiple inputs. Third, although the weight update rule has a similar structure for each weight, the rule does define a different update for each weight during each iteration because the update is dependent on the inputs in the dataset examples to which the weight is applied. Fourth, the summation in the rule indicates that, in each iteration of the gradient descent algorithm, the current model should be applied to all
of the examples in the dataset. This is one of the reasons why training a deep learning network is such a computationally expensive task. Typically for very large datasets, the dataset is split up into batches of examples sampled from the dataset, and each iteration of training is based on a batch, rather than the entire dataset. Fifth, apart from the modifications necessary to include the summation, this rule is identical to the LMS (also known as the Widrow-Hoff or delta) learning rule introduced in chapter 4, and the rule implements the same logic: if the output of the model is too large, then weights associated with positive inputs should be reduced; if the output is too small, then these weights should be increased. Moreover, the purpose and function of the learning rate hyperparameter (η) is the same as in the LMS rule: scale the weight adjustments to ensure that the adjustments aren’t so large that the algorithm misses (or steps over) the best set of weights. Using this weight update rule, the gradient descent algorithm can be summarized as follows:
1. Construct a model using an initial set of weights.
2. Repeat until the model performance is good enough.
a. Apply the current model to the examples in the dataset.
b. Adjust each weight using the weight update rule.
3. Return the final model.One consequence of the independent updating of weights, and the fact that weight updates are proportional to the local gradient on the associated error curve, is that the path the gradient descent algorithm follows to the lowest point on the error surface may not be a straight line. This is because the gradient of each of the component error curves may not be equal at each location on the error surface (the gradient for one of the weights may be steeper than the gradient for the other weight). As a result, one weight may be updated by a larger amount than another weight during a given iteration, and thus the descent to the valley floor may not follow a direct route. Figure 6.4 illustrates this phenomenon. Figure 6.4 presents a set of top-down views of a portion of a contour plot of an error surface. This error surface is a valley that is quite long and narrow with steeper sides and gentler sloping ends; the steepness is reflected by the closeness of the contours. As a result, the search initially moves across the valley before turning toward the center of the valley. The plot on the left illustrates the first iteration of the gradient descent algorithm. The initial starting point is the location where the three arrows, in this plot, meet. The lengths of the dotted and dashed arrows represent the local gradients of the
and
error curves, respectively. The dashed arrow is longer than the dotted arrow reflecting the fact that the local gradient of the
error curve is steeper than that of the
error curve. In each iteration, each of the weights is updated in proportion to the gradient of their error curve; so in the first iteration, the update for
is larger than for
and therefore the overall movement is greater across the valley than along the valley. The thick black arrow illustrates the overall movement in the underlying weight space, resulting from the weight updates in this first iteration. Similarly, the middle plot illustrates the error gradients and overall weight update for the next iteration of gradient descent. The plot on the right shows the complete path of descent taken by the search process from initial location to the global minimum (the lowest point on the error surface).
Figure 6.4 Top-down views of a portion of a contour plot of an error surface, illustrating the gradient descent path across the error surface. Each of the thick arrows illustrates the overall movement of the weight vector for a single iteration of the gradient descent algorithm. The length of dotted and dashed arrows represent the local gradient of the w0 and w1 error curves, respectively, for that iteration. The plot on the right shows the overall path taken to the global minimum of the error surface.
It is relatively straightforward to map the weight update rule over to training a single neuron. In this mapping, the weightIt is relatively straightforward to map the weight update rule over to training a single neuron. In this mapping, the weight
is the bias term for a neuron, and the other weights are associated with the other inputs to the neuron. The derivation of the partial derivative of the SSE is dependent on the structure of the function that generates
. The more complex this function is, the more complex the partial derivative becomes. The fact that the function a neuron defines includes both a weighted summation and an activation function means that the partial derivative of the SSE with respect to a weight in a neuron is more complex than the partial derivative given above. The inclusion of the activation function within the neuron results in an extra term in the partial derivative of the SSE. This extra term is the derivative of the activation function with respect to the output from the weighted summation function. The derivative of the activation function is with respect to the output of the weighted summation function because this is the input that the activation function receives. The activation function does not receive the weight directly. Instead, the changes in the weight only affect the output of the activation function indirectly through the effect that these weight changes have on the output of the weighted summation. The main reason why the logistic function was such a popular activation function in neural networks for so long was that it has a very straightforward derivative with respect to its inputs. The gradient descent weight update rule for a neuron using the logistic function is as follows:
The fact that the weight update rule includes the derivative of the activation function means that the weight update rule will change if the activation function of the neuron is changed. However, this change will simply involve updating the derivative of the activation function; the overall structure of the rule will remain the same.
This extended weight update rule means that the gradient descent algorithm can be used to train a single neuron. It cannot, however, be used to train neural networks with multiple layers of neurons because the definition of the error gradient for a weight depends on the error of the output of the function, the term
. Although it is possible to calculate the error of the output of a neuron in the output layer of the network by directly comparing the output with the expected output, it is not possible to calculate this error term directly for the neurons in the hidden layer of the network, and as a result it is not possible to calculate the error gradients for each weight. The backpropagation algorithm is a solution to the problem of calculating error gradients for the weights in the hidden layers of the network.
Training a Neural Network Using Backpropagation
The term backpropagation has two different meanings. The primary meaning is that it is an algorithm that can be used to calculate, for each neuron in a network, the sensitivity (gradient/rate-of-change) of the error of the network to changes in the weights. Once the error gradient for a weight has been calculated, the weight can then be adjusted to reduce the overall error of the network using a weight update rule similar to the gradient descent weight update rule. In this sense, the backpropagation algorithm is a solution to the credit assignment problem, introduced in chapter 4. The second meaning of backpropagation is that it is a complete algorithm for training a neural network. This second meaning encompasses the first sense, but also includes a learning rule that defines how the error gradients of the weights should be used to update the weights within the network. Consequently, the algorithm described by this second meaning involves a two-step process: solve the credit assignment problem, and then use the error gradients of the weights, calculated during credit assignment, to update the weights in the network. It is useful to distinguish between these two meanings of backpropagation because there are a number of different learning rules that can be used to update the weights, once the credit assignment problem has been resolved. The learning rule that is most commonly used with backpropagation is the gradient descent algorithm introduced earlier. The description of the backpropagation algorithm given here focuses on the first meaning of backpropagation, that of the algorithm being a solution to the credit assignment problem.
Backpropagation: The Two-Stage Algorithm
The backpropagation algorithm begins by initializing all the weights of the network using random values. Note that even a randomly initialized network can still generate an output when an input is presented to the network, although it is likely to be an output with a large error. Once the network weights have been initialized, the network can be trained by iteratively updating the weights so as to reduce the error of the network, where the error of the network is calculated in terms of the difference between the output generated by the network in response to an input pattern, and the expected output for that input, as defined in the training dataset. A crucial step in this iterative weight adjustment process involves solving the credit assignment problem, or, in other words, calculating the error gradients for each weight in the network. The backpropagation algorithm solves this problem using a two-stage process. In first stage, known as the forward pass, an input pattern is presented to the network, and the resulting neuron activations flow forward through the network until an output is generated. Figure 6.5 illustrates the forward pass of the backpropagation algorithm. In this figure, the weighted summation of inputs calculated at each neuron (e.g.,
represents the weighted summation of inputs calculated for neuron 1) and the outputs (or activations, e.g.,
represents the activation for neuron 1) of each neuron is shown. The reason for listing the
and
values for each neuron in this figure is to highlight the fact that during the forward pass both of these values, for each neuron, are stored in memory. The reason they are stored in memory is that they are used in the backward pass of the algorithm. The
value for a neuron is used to calculate the update to the weights on input connections to the neuron. The
value for a neuron is used to calculate the update to the weights on the output connections from a neuron. The specifics of how these values are used in the backward pass will be described below.
The second stage, known as the backward pass, begins by calculating an error gradient for each neuron in the output layer. These error gradients represent the sensitivity of the network error to changes in the weighted summation calculation of the neuron, and they are often denoted by the shorthand notation
(pronounced delta) with a subscript indicating the neuron. For example, δk is the gradient of the network error with respect to small changes in the weighted summation calculation of the neuron k. It is important to recognize that there are two different error gradients calculated in the backpropagation algorithm:
1. The first is thevalue for each neuron. The
for each neuron is the rate of change of the error of the network with respect to changes in the weighted summation calculation of the neuron. There is one
for each neuron. It is these
error gradients that the algorithm backpropagates.
2. The second is the error gradient of the network with respect to changes in the weights of the network. There is one of these error gradients for each weight in the network. These are the error gradients that are used to update the weights in the network. However, it is necessary to first calculate theterm for each neuron (using backpropagation) in order to calculate the error gradients for the weights.
Note there is only a single
per neuron, but there may be many weights associated with that neuron, so the
term for a neuron may be used in the calculation of multiple weight error gradients.
Once the
s for the output neurons have been calculated, the
s for the neurons in the last hidden layer are then calculated. This is done by assigning a portion of the
from each output neuron to each hidden neuron that is directly connected to it. This assignment of blame, from output neuron to hidden neuron, is dependent on the weight of the connection between the neurons, and the activation of the hidden neuron during the forward pass (this is why the activations are recorded in memory during the forward pass). Once the blame assignment, from the output layer, has been completed, the
for each neuron in the last hidden layer is calculated by summing the portions of the
s assigned to the neuron from all of the output neurons it connects to. The same process of blame assignment and summing is then repeated to propagate the error gradient back from the last layer of hidden neurons to the neurons in the second last layer, and so on, back to the input layer. It is this backward propagation of
s through the network that gives the algorithm its name. At the end of this backward pass there is a
calculated for each neuron in the network (i.e., the credit assignment problem has been solved) and these
s can then be used to update the weights in the network (using, for example, the gradient descent algorithm introduced earlier). Figure 6.6 illustrates the backward pass of the backpropagation algorithm. In this figure, the
s get smaller and smaller as the backpropagation process gets further from the output layer. This reflects the vanishing gradient problem discussed in chapter 4 that slows down the learning rate of the early layers of the network.
Figure 6.5 The forward pass of the backpropagation algorithm. In summary, the main steps within each iteration of the backpropagation algorithm are as follows:
1. Present an input to the network and allow the neuron activations to flow forward through the network until an output is generated. Record both the weighted sum and the activation of each neuron.Figure 6.6 The backward pass of the backpropagation algorithm. 2. Calculate a
(delta) error gradient for each neuron in the output layer.
3. Backpropagate theerror gradients to obtain a
(delta) error gradient for each neuron in the network.
4. Use theerror gradients and a weight update algorithm, such as gradient descent, to calculate the error gradients for the weights and use these to update the weights in the network.
The algorithm continues iterating through these steps until the error of the network is reduced (or converged) to an acceptable level.
Backpropagation: Backpropagating the δ s
A
term of a neuron describes the error gradient for the network with respect to changes in the weighted summation of inputs calculated by the neuron. To help make this more concrete, figure 6.7 (top) breaks open the processing stages within a neuron
and uses the term
to denote the result of the weighted summation within the neuron. The neuron in this figure receives inputs (or activations) from three other neurons (
), and
is the weighted sum of these activations. The output of the neuron,
, is then calculated by passing
through a nonlinear activation function,
, such as the logistic function. Using this notation a
for a neuron
is the rate of change of the error of the network with respect to small changes in the value of
. Mathematically, this term is the partial derivative of the networks error with respect to
:
No matter where in a network a neuron is located (output layer or hidden layer), the
for the neuron is calculated as the product of two terms:
1. the rate of change of the network error in response to changes in the neuron’s activation (output):Figure 6.7 Top: the forward propagation of activations through the weighted sum and activation function of a neuron. Middle: The calculation of the δ term for an output neuron (tk is the expected activation for the neuron and ak is the actual activation). Bottom: The calculation of the δ term for a hidden neuron. This figure is loosely inspired by figure 5.2 and figure 5.3 in Reed and Marks II 1999. 2. the rate of change of the activation of the neuron with respect to changes in the weighted sum of inputs to the neuron:
.
Figure 6.7 (middle) illustrates how this product is calculated for neurons in the output layer of a network. The first step is to calculate the rate of change of the error of the network with respect to the output of the neuron, the term
. Intuitively, the larger the difference between the activation of a neuron,
, and the expected activation,
, the faster the error can be changed by changing the activation of the neuron. So the rate of change of the error of the network with respect to changes in the activation of an output neuron
can be calculated by subtracting the neuron’s activation (
) from the expected activation (
):
This term connects the error of the network to the output of the neuron. The neuron’s
, however, is the rate of change of the error with respect to the input to the activation function (
), not the output of that function (
). Consequently, in order to calculate the
for the neuron, the
value must be propagated back through the activation function to connect it to the input to the activation function. This is done by multiplying
by the rate of change of the activation function with respect to the input value to the function,
. In figure 6.7, the rate of change of the activation function with respect to its input is denoted by the term:
. This term is calculated by plugging the value
(stored from the forward pass through the network) into the equation of the derivative of the activation function with respect to
. For example, the derivative of the logistic function with respect to its input is:
Figure 6.8 plots this function and shows that plugging a
value into this equation will result in a value between 0 and 0.25. For example, figure 6.8 shows that if
then
. This is why the weighted summation value for each neuron (
) is stored during the forward pass of the algorithm.
The fact1 that the calculation of a neuron’s
involves a product that includes the derivative of the neuron’s activation function makes it necessary to be able to take the derivative of the neuron’s activation function. It is not possible to take the derivative of a threshold activation function because there is a discontinuity in the function at the threshold. As a result, the backpropagation algorithm does not work for networks composed of neurons that use threshold activation functions. This is one of the reasons why neural networks moved away from threshold activation and started to use the logistic and tanh activation functions. The logistic and tanh functions both have very simple derivatives and this made them particularly suitable to backpropagation.
Figure 6.8 Plots of the logistic function and the derivative of the logistic function. Figure 6.7 (bottom) illustrates how the
for a neuron in a hidden layer is calculated. This involves the same product of terms as was used for neurons in the output layer. The difference is that the calculation of the
is more complex for hidden units. For hidden neurons, it is not possible to directly connect the output of the neuron with the error of a network. The output of a hidden neuron only indirectly affects the overall error of the network through the variations that it causes in the downstream neurons that receive the output as input, and the magnitude of these variations is dependent on the weight each of these downstream neurons applies to the output. Furthermore, this indirect effect on the network error is in turn dependent on the sensitivity of the network error to these later neurons, that is, their
values. Consequently, the sensitivity of the network error to the output of a hidden neuron can be calculated as a weighted sum of the
values of the neurons immediately downstream of the neuron:
As a result, the error terms (the
values) for all the downstream neurons to which a neuron’s output is passed in the forward pass must be calculated before the
for neuron k can be calculated. This, however, is not a problem because in the backward pass the algorithm is working backward through the network and will have calculated the
terms for the downstream neurons before it reaches neuron k.
For hidden neurons, the other term in the
product,
, is calculated in the same way as it is calculated for output neurons: the
value for the neuron (the weighted summation of inputs, stored during the forward pass through the network) is plugged into the derivative of the neuron’s activation function with respect to
.
Backpropagation: Updating the Weights
The fundamental principle of the backpropagation algorithm in adjusting the weights in a network is that each weight in a network should be updated in proportion to the sensitivity of the overall error of the network to changes in that weight. The intuition is that if the overall error of the network is not affected by a change in a weight, then the error of the network is independent of that weight, and, therefore, the weight did not contribute to the error. The sensitivity of the network error to a change in an individual weight is measured in terms of the rate of change of the network error in response to changes in that weight.
The fundamental principle of the backpropagation algorithm in adjusting the weights in a network is that each weight in a network should be updated in proportion to the sensitivity of the overall error of the network to changes in that weight.
The overall error of a network is a function with multiple inputs: both the inputs to the network and all the weights in the network. So, the rate of change of the error of a network in response to changes in a given network weight is calculated by taking the partial derivative of the network error with respect to that weight. In the backpropagation algorithm, the partial derivative of the network error for a given weight is calculated using the chain rule. Using the chain rule, the partial derivative of the network error with respect a weight
on the connection between a neuron
and a neuron
is calculated as the product of two terms:
1. the first term describes the rate of change of the weighted sum of inputs in neuronwith respect to changes in the weight
;
2. and the second term describes the rate of change of the network error in response to changes in the weighted sum of inputs calculated by the neuron. (This second term is the
for neuron
.)
Figure 6.9 shows how the product of these two terms connects a weight to the output error of the network. The figure shows the processing of the last two neurons (
and
) in a network with a single path of activation. Neuron
receives a single input
and the output from neuron
is the sole input to neuron
. The output of neuron
is the output of the network. There are two weights in this portion of the network,
and
.
The calculations shown in figure 6.9 appear complicated because they contain a number of different components. However, as we will see, by stepping through these calculations, each of the individual elements is actually easy to calculate; it’s just keeping track of all the different elements that poses a difficulty.
Figure 6.9 An illustration of how the product of derivatives connects weights in the network to the error of the network. Focusing on
, this weight is applied to an input of the output neuron of the network. There are two stages of processing between this weight and the network output (and error): the first is the weighted sum calculated in neuron
; the second is the nonlinear function applied to this weighted sum by the activation function of neuron
. Working backward from the output, the
term is calculated using the calculation shown in the middle figure of figure 6.7: the difference between the target activation for the neuron and the actual activation is calculated and is multiplied by the partial derivative of the neuron’s activation function with respect to its input (the weighted sum
),
. Assuming that the activation function used by neuron
is the logistic function, the term
is calculated by plugging in the value
(stored during the forward pass of the algorithm) into the derivation of the logistic function:
So the calculation of
under the assumption that neuron
uses a logistic function is:
The
term connects the error of the network to the input to the activation function (the weighted sum
). However, we wish to connect the error of the network back to the weight
. This is done by multiplying the
term by the partial derivative of the weighted summation function with respect to weight
:
. This partial derivative describes how the output of the weighted sum function
changes as the weight
changes. The fact that the weighted summation function is a linear function of weights and activations means that in the partial derivative with respect to a particular weight all the terms in the function that do not involve the specific weight go to zero (are considered constants) and the partial derivative simplifies to just the input associated with that weight, in this instance input
.
This is why the activations for each neuron in the network are stored in the forward pass. Taken together these two terms,
and
, connect the weight
to the network error by first connecting the weight to
, and then connecting
to the activation of the neuron, and thereby to the network error. So, the error gradient of the network with respect to changes in weight
is calculated as:
The other weight in the figure 6.9 network,
, is deeper in the network, and, consequently, there are more processing steps between it and the network output (and error). The
term for neuron
is calculated, through backpropagation (as shown at the bottom of figure 6.7), using the following product of terms:
Assuming the activation function used by neuron
is the logistic function, then the term
is calculated in a similar way to
: the value
is plugged into the equation for the derivative of the logistic function. So, written out in long form the calculation of
is:
However, in order to connect the weight
with the error of the network, the term
must be multiplied by the partial derivative of the weighted summation function with respect to the weight:
. As described above, the partial derivative of a weighted sum function with respect to a weight reduces to the input associated with the weight
(i.e.,
); and the gradient of the networks error with respect to the hidden weight
is calculated by multiplying
by
Consequently, the product of the terms (
and
) forms a chain connecting the weight
to the network error. For completeness, the product of terms for
, assuming logistic activation functions in the neurons, is:
Although this discussion has been framed in the context of a very simple network with only a single path of connections, it generalizes to more complex networks because the calculation of the
terms for hidden units already considers the multiple connections emanating from a neuron. Once the gradient of the network error with respect to a weight has been calculated (
), the weight can be adjusted so as to reduce the weight of the network using the gradient descent weight update rule. Here is the weight update rule, specified using the notation from backpropagation, for the weight on the connection between neuron
and neuron
during iteration
of the algorithm:
Finally, an important caveat on training neural networks with backpropagation and gradient descent is that the error surface of a neural network is much more complex than that of a linear models. Figure 6.3 illustrated the error surface of a linear model as a smooth convex bowl with a single global minimum (a single best set of weights). However, the error surface of a neural network is more like a mountain range with multiple valleys and peaks. This is because each of the neurons in a network includes a nonlinear function in its mapping of inputs to outputs, and so the function implemented by the network is a nonlinear function. Including a nonlinearity within the neurons of a network increases the expressive power of the network in terms of its ability to learn more complex functions. However, the price paid for this is that the error surface becomes more complex and the gradient descent algorithm is no longer guaranteed to find the set of weights that define the global minimum on the error surface; instead it may get stuck within a minima (local minimum). Fortunately, however, backpropagation and gradient descent can still often find sets of weights that define useful models, although searching for useful models may require running the training process multiple times to explore different parts of the error surface landscape.
7 The Future of Deep Learning
On March 27, 2019, Yoshua Bengio, Geoffrey Hinton, and Yann LeCun jointly received the ACM A.M. Turing award. The award recognized the contributions they have made to deep learning becoming the key technology driving the modern artificial intelligence revolution. Often described as the “Nobel Prize for Computing,” the ACM A.M Turing award carries a $1 million prize. Sometimes working together, and at other times working independently or in collaboration with others, these three researchers have, over a number of decades of work, made numerous contributions to deep learning, ranging from the popularization of backpropagation in the 1980s, to the development of convolutional neural networks, word embeddings, attention mechanisms in networks, and generative adversarial networks (to list just some examples). The announcement of the award noted the astonishing recent breakthroughs that deep learning has led to in computer vision, robotics, speech recognition, and natural language processing, as well as the profound impact that these technologies are having on society, with billions of people now using deep learning based artificial intelligence on a daily basis through smart phones applications. The announcement also highlighted how deep learning has provided scientists with powerful new tools that are resulting in scientific breakthroughs in areas as diverse as medicine and astronomy. The awarding of this prize to these researchers reflects the importance of deep learning to modern science and society. The transformative effects of deep learning on technology is set to increase over the coming decades with the development and adoption of deep learning continuing to be driven by the virtuous cycle of ever larger datasets, the development of new algorithms, and improved hardware. These trends are not stopping, and how the deep learning community responds to them will drive growth and innovations within the field over the coming years.
Big Data Driving Algorithmic Innovations
Chapter 1 introduced the different types of machine learning: supervised, unsupervised, and reinforcement learning. Most of this book has focused on supervised learning, primarily because it is the most popular form of machine learning. However, a difficulty with supervised learning is that it can cost a lot of money and time to annotate the dataset with the necessary target labels. As datasets continue to grow, the data annotation cost is becoming a barrier to the development of new applications. The ImageNet dataset1 provides a useful example of the scale of the annotation task involved in deep learning projects. This data was released in 2010, and is the basis for the ImageNet Large-Scale Visual Recognition Challenge (ILSVRC). This is the challenge that the AlexNet CNN won in 2012 and the ResNet system won in 2015. As was discussed in chapter 4, AlexNet winning the 2012 ILSVRC challenge generated a lot of excitement about deep learning models. However, the AlexNet win would not have been possible without the creation of the ImageNet dataset. This dataset contains more than fourteen million images that have been manually annotated to indicate which objects are present in each image; and more than one million of the images have actually been annotated with the bounding boxes of the objects in the image. Annotating data at this scale required a significant research effort and budget, and was achieved using crowdsourcing platforms. It is not feasible to create annotated datasets of this size for every application.
As datasets continue to grow, the data annotation cost is becoming a barrier to the development of new applications.
One response to this annotation challenge has been a growing interest in unsupervised learning. The autoencoder models used in Hinton’s pretraining (see chapter 4) are one neural network approach to unsupervised learning, and in recent years different types of autoencoders have been proposed. Another approach to this problem is to train generative models. Generative models attempt to learn the distribution of the data (or, to model the process that generated the data). Similar to autoencoders, generative models are often used to learn a useful representation of the data prior to training a supervised model. Generative adversarial networks (GANs) are an approach to training generative models that has received a lot of attention in recent years (Goodfellow et al. 2014). A GAN consists of two neural networks, a generative model and a discriminative model, and a sample of real data. The models are trained in an adversarial manner. The task of the discriminative model is to learn to discriminate between real data sampled from the dataset, and fake data that has been synthesized by the generator. The task of the generator is to learn to synthesize fake data that can fool the discriminative model. Generative models trained using a GAN can learn to synthesize fake images that mimic an artistic style (Elgammal et al. 2017), and also to synthesize medical images along with lesion annotations (Frid-Adar et al. 2018). Learning to synthesize medical images, along with the segmentation of the lesions in the synthesized image, opens the possibility of automatically generating massive labeled datasets that can be used for supervised learning. A more worrying application of GANs is the use of these networks to generate deep fakes: a deep fake is a fake video of a person doing something they never did that is created by swapping their face into a video of someone else. Deep fakes are very hard to detect, and have been used maliciously on a number of occasions to embarrass public figures, or to spread fake news stories.
Another solution to the data labeling bottleneck is that rather than training a new model from scratch for each new application, we rather repurpose models that have been trained on a similar task. Transfer learning is the machine learning challenge of using information (or representations) learned on one task to aid learning on another task. For transfer learning to work, the two tasks should be from related domains. Image processing is an example of a domain where transfer learning is often used to speed up the training of models across different tasks. Transfer learning is appropriate for image processing tasks because low-level visual features, such as edges, are relatively stable and useful across nearly all visual categories. Furthermore, the fact that CNN models learn a hierarchy of visual feature, with the early layers in CNN learning functions that detect these low-level visual features in the input, makes it possible to repurpose the early layers of pretrained CNNs across multiple image processing projects. For example, imagine a scenario where a project requires an image classification model that can identify objects from specialized categories for which there are no samples in general image datasets, such as ImageNet. Rather than training a new CNN model from scratch, it is now relatively standard to first download a state-of-the-art model (such as the Microsoft ResNet model) that has been trained on ImageNet, then replace the later layers of the model with a new set of layers, and finally to train this new hybrid-model on a relatively small dataset that has been labeled with the appropriate categories for the project. The later layers of the state-of-the-art (general) model are replaced because these layers contain the functions that combine the low-level features into the task specific categories the model was originally trained to identify. The fact that the early layers of the model have already been trained to identify the low-level visual features speeds up the training and reduces the amount of data needed to train the new project specific model.
The increased interest in unsupervised learning, generative models, and transfer learning can all be understood as a response to the challenge of annotating increasingly large datasets.
The Emergence of New Models
The rate of emergence of new deep learning models is accelerating every year. A recent example is capsule networks (Hinton et al. 2018; Sabour et al. 2017). Capsule networks are designed to address some of the limitations of CNNs. One problem with CNNs, sometimes known as the Picasso problem, is the fact that a CNN ignores the precise spatial relationships between high-level components within an object’s structure. What this means in practice is that a CNN that has been trained to identify faces may learn to identify the shapes of eyes, the nose, and the mouth, but will not learn the required spatial relationships between these parts. Consequently, the network can be fooled by an image that contains these body parts, even if they are not in the correct relative position to each other. This problem arises because of the pooling layers in CNNs that discard positional information.
At the core of capsule networks is the intuition that the human brain learns to identify object types in a viewpoint invariant manner. Essentially, for each object type there is an object class that has a number of instantiation parameters. The object class encodes information such as the relative relationship of different object parts to each other. The instantiation parameters control how the abstract description of an object type can be mapped to the specific instance of the object that is currently in view (for example, its pose, scale, etc.).
A capsule is a set of neurons that learns to identify whether a specific type of object or object part is present at a particular location in an image. A capsule outputs an activity vector that represents the instantiation parameters of the object instance, if one is present at the relevant location. Capsules are embedded within convolutional layers. However, capsule networks replace the pooling process, which often defines the interface between convolutional layers, with a process called dynamic routing. The idea behind dynamic routing is that each capsule in one layer in the network learns to predict which capsule in the next layer is the most relevant capsule for it to forward its output vector to.
At the time or writing, capsule networks have the state-of-the-art performance on the MNIST handwritten digit recognition dataset that the original CNNs were trained on. However, by today’s standards, this is a relatively small dataset, and capsule networks have not been scaled to larger datasets. This is partly because the dynamic routing process slows down the training of capsule networks. However, if capsule networks are successfully scaled, then they may introduce an important new form of model that extends the ability of neural networks to analyze images in a manner much closer to the way humans do.
Another recent model that has garnered a lot of interest is the transformer model (Vaswani et al. 2017). The transformer model is an example of a growing trend in deep learning where models are designed to have sophisticated internal attention mechanisms that enable a model to dynamically select subsets of the input to focus on when generating an output. The transformer model has achieved state-of-the-art performance on machine translation for some language pairs, and in the future this architecture may replace the encoder-decoder architecture described in chapter 5. The BERT (Bidirectional Encoder Representations from Transformers) model has built on the Transformer architecture (Devlin et al. 2018). The BERT development is particularly interesting because at its core is the idea of transfer learning (as discussed above in relation to the data annotation bottleneck). The basic approach to creating a natural language processing model with BERT is to pretrain a model for a given language using a large unlabeled dataset (the fact that the dataset is unlabeled means that it is relatively cheap to create). This pretrained model can then be used as the basis to create a models for specific tasks for the language (such as sentiment classification or question answering) by fine-tuning the pretrained model using supervised learning and a relatively small annotated dataset. The success of BERT has shown this approach to be tractable and effective in developing state-of-the-art natural language processing systems.
New Forms of Hardware
Today’s deep learning is powered by graphics processing units (GPUs): specialized hardware that is optimized to do fast matrix multiplications. The adoption, in the late 2000s, of commodity GPUs to speed up neural network training was a key factor in many of the breakthroughs that built momentum behind deep learning. In the last ten years, hardware manufacturers have recognized the importance of the deep learning market and have developed and released hardware specifically designed for deep learning, and which supports deep learning libraries, such as TensorFlow and PyTorch. As datasets and networks continue to grow in size, the demand for faster hardware continues. At the same time, however, there is a growing recognition of the energy costs associated with deep learning, and people are beginning to look for hardware solutions that have a reduced energy footprint.
Neuromorphic computing emerged in the late 1980s from the work of Carver Mead.2 A neuromorphic chip is composed of a very-large-scale integrated (VLSI) circuit, connecting potentially millions of low-power units known as spiking neurons. Compared with the artificial neurons used in standard deep learning systems, the design of a spiking neuron is closer to the behavior of biological neurons. In particular, a spiking neuron does not fire in response to the set of input activations propagated to it at a particular time point. Instead, a spiking neuron maintains an internal state (or activation potential) that changes through time as it receives activation pulses. The activation potential increases when new activations are received, and decays through time in the absence of incoming activations. The neuron fires when its activation potential surpasses a specific threshold. Due to the temporal decay of the neuron’s activation potential, a spiking neuron only fires if it receives the requisite number of input activations within a time window (a spiking pattern). One advantage of this temporal based processing is that spiking neurons do not fire on every propagation cycle, and this reduces the amount of energy the network consumes.
In comparison with traditional CPU design, neuromorphic chips have a number of distinctive characteristics, including:
1. Basic building blocks: traditional CPUs are built using transistor based logic gates (e.g., AND, OR, NAND gates), whereas neuromorphic chips are built using spiking neurons.
2. Neuromorphic chips have an analog aspect to them: in a traditional digital computer, information is sent in high-low electrical bursts in sync with a central clock; in a neuromorphic chip, information is sent as patterns of high-low signals that vary through time.
3. Architecture: the architecture of traditional CPUs is based on the von Neumann architecture, which is intrinsically centralized with all the information passing through the CPU. A neuromorphic chip is designed to allow massive parallelism of information flow between the spiking neurons. Spiking neurons communicate directly with each other rather than via a central information processing hub.
4. Information representation is distributed through time: the information signals propagated through a neuromorphic chip use a distributed representation, similar to the distributed representations discussed in chapter 4, with the distinction that in a neuromorphic chip these representations are also distributed through time. Distributed representations are more robust to information loss than local representations, and this is a useful property when passing information between hundreds of thousands, or millions, of components, some of which are likely to fail.Currently there are a number of major research projects focused on neuromorphic computing. For example, in 2013 the European Commission allocated one billion euros in funding to the ten-year Human Brain Project.3 This project directly employs more than five hundred scientists, and involves research from more than a hundred research centers across Europe. One of the projects key objectives is the development of neuromorphic computing platforms capable of running a simulation of a complete human brain. A number of commercial neuromorphic chips have also been developed. In 2014, IBM launched the TrueNorth chip, which contained just over a million neurons that are connected together by over 286 million synapses. This chip uses approximately 1/10,000th the power of a conventional microprocessor. In 2018, Intel Labs announced the Loihi (pronounced low-ee-hee) neuromorphic chip. The Loihi chip has 131,072 neurons connected together by 130,000,000 synapses. Neuromorphic computing has the potential to revolutionize deep learning; however, it still faces a number of challenges, not least of which is the challenge of developing the algorithms and software patterns for programming this scale of massively parallel hardware.
Finally, on a slightly longer time horizon, quantum computing is another stream of hardware research that has the potential to revolutionize deep learning. Quantum computing chips are already in existence; for example, Intel has created a 49-qubit quantum test chip, code named Tangle Lake. A qubit is the quantum equivalent of a binary digit (bit) in traditional computing. A qubit can store more than one bit of information; however, it is estimated that it will require a system with one million or more qubits before quantum computing will be useful for commercial purposes. The current time estimate for scaling quantum chips to this level is around seven years.
The Challenge of Interpretability
Machine learning, and deep learning, are fundamentally about making data-driven decisions. Although deep learning provides a powerful set of algorithms and techniques to train models that can compete (and in some cases outperform) humans on a range of decision-making tasks, there are many situations where a decision by itself is not sufficient. Frequently, it is necessary to provide not only a decision but also the reasoning behind a decision. This is particularly true when the decision affects a person, be it a medical diagnosis or a credit assessment. This concern is reflected in privacy and ethics regulations in relation to the use of personal data and algorithmic decision-making pertaining to individuals. For example, Recital 714 of the General Data Protection Regulations (GDPR) states that individuals, affected by a decision made by an automated decision-making process, have the right to an explanation with regards to how the decision was reached.
Different machine learning models provide different levels of interpretability with regard to how they reach a specific decision. Deep learning models, however, are possibly the least interpretable. At one level of description, a deep learning model is quite simple: it is composed of simple processing units (neurons) that are connected together into a network. However, the scale of the networks (in terms of the number of neurons and the connections between them), the distributed nature of the representations, and the successive transformations of the input data as the information flows deeper into the network, makes it incredibly difficult to interpret, understand, and therefore explain, how the network is using an input to make a decision.
The legal status of the right to explanation within GDPR is currently vague, and the specific implications of it for machine learning and deep learning will need to be worked out in the courts. This example does, however, highlight the societal need for a better understanding of how deep learning models use data. The ability to interpret and understand the inner workings of a deep learning model is also important from a technical perspective. For example, understanding how a model uses data can reveal if a model has an unwanted bias in how it makes its decisions, and also reveal the corner cases that the model will fail on. The deep learning and the broader artificial intelligence research communities are already responding to this challenge. Currently, there are a number of projects and conferences focused on topics such as explainable artificial intelligence, and human interpretability in machine learning.
Chis Olah and his colleagues summarize the main techniques currently used to examine the inner workings of deep learning models as: feature visualization, attribution, and dimensionality reduction (Olah et al. 2018). One way to understand how a network processes information is to understand what inputs trigger particular behaviors in a network, such as a neuron firing. Understanding the specific inputs that trigger the activation of a neuron enables us to understand what the neuron has learned to detect in the input. The goal of feature visualization is to generate and visualize inputs that cause a specific activity within a network. It turns out that optimization techniques, such a backpropogation, can be used to generate these inputs. The process starts with a random generated input and the input is then iteratively updated until the target behavior is triggered. Once the required necessary input has been isolated, it can then be visualized in order to provide a better understanding of what the network is detecting in the input when it responds in a particular way. Attribution focuses on explaining the relationship between neurons, for example, how the output of a neuron in one layer of the network contributes to the overall output of the network. This can be done by generating a saliency (or heat-map) for the neurons in a network that captures how much weight the network puts on the output of a neuron when making a particular decision. Finally, much of the activity within a deep learning network is based on the processing of high-dimensional vectors. Visualizing data enables us to use our powerful visual cortex to interpret the data and the relationships within the data. However, it is very difficult to visualize data that has a dimensionality greater than three. Consequently, visualization techniques that are able to systematically reduce the dimensionality of high-dimensional data and visualize the results are incredibly useful tools for interpreting the flow of information within a deep network. t-SNE5 is a well-known technique that visualizes high-dimensional data by projecting each datapoint into a two- or three-dimensional map (van der Maaten and Hinton 2008). Research on interpreting deep learning networks is still in its infancy, but in the coming years, for both societal and technical reasons, this research is likely to become a more central concern to the broader deep learning community.
Final Thoughts
Deep learning is ideally suited for applications involving large datasets of high-dimensional data. Consequently, deep learning is likely to make a significant contribution to some of the major scientific challenges of our age. In the last two decades, breakthroughs in biological sequencing technology have made it possible to generate high-precision DNA sequences. This genetic data has the potential to be the foundation for the next generation of personalized precision medicine. At the same time, international research projects, such as the Large Hadron Collider and Earth orbit telescopes, generate huge amounts of data on a daily basis. Analyzing this data can help us to understand the physics of our universe at the smallest and the biggest scales. In response to this flood of data, scientists are, in ever increasing numbers, turning to machine learning and deep learning to enable them to analyze this data.
One way to understand how a network processes information is to understand what inputs trigger particular behaviors in a network, such as a neuron firing.
At a more mundane level, however, deep learning already directly affects our lives. It is likely, that for the last few years, you have unknowingly been using deep learning models on a daily basis. A deep learning model is probably being invoked every time you use an internet search engine, a machine translation system, a face recognition system on your camera or social media website, or use a speech interface to a smart device. What is potentially more worrying is that the trail of data and metadata that you leave as you move through the online world is also being processed and analzsed using deep learning models. This is why it is so important to understand what deep learning is, how it works, what is it capable of, and its current limitations.
万里:农村改革从反对“学大寨”开始
本文系作者1997年10月10日,与中共中央党史研究室负责人和记者的谈话的节选
回想一下改革以前,要什么没什么,只能凭证凭票供应,什么粮票、布票,这个票那个票的,连买块肥皂也要票。至于水果,什么香蕉、橘子呀,见也见不到。什么都缺,人们把这种状况叫短缺经济。现在完全变了,短缺变为充足,甚至变为饱和。什么票证也不要了,只要一个票,就是人民币。有了人民币,什么都可以买得到。按总量计算,我们不少农产品名列前茅,甚至世界第一,但一看“人均”就成了后列。这是大国的好处,也是大国的难处。要保证这么一大家子人有饭吃,而且要逐渐逐渐地吃得稍为好一点,是很不容易的。包产到户提高了农民的积极性,使农产品丰富了,这对保证物价稳定,进而保证社会稳定、政治稳定,是个根本性的因素。因此,从人民公社到包产到户不是个小变化,而是个大变化,体制的变化,时代的变化。
过去“左”了那么多年,几乎把农民的积极性打击完了。现在要翻过来,搞包产到户,把农民的积极性再提起来,提得比过去更高,这当然不可能那么容易,要有一个历史过程。我认为这个历史过程,是同“左”倾错误斗争的过程,应当把纠正“左”倾错误作为主线来考虑。
大寨本来是个好典型,特别是自力更生、艰苦奋斗的精神,应当认真学习,发扬光大。但是,“文化大革命”时期,毛主席号召全国学大寨,要树这面红旗,事情就走到反面去了。中国这么大,农村的条件千差万别,只学一个典型,只念大寨“一本经”,这本身就不科学,就不实事求是。何况这时学大寨,并不是学它如何搞农业生产,搞山区建设,而主要是学它如何把阶级斗争的弦绷紧,如何“大批促大干”。大寨也自我膨胀,以为自己事事正确,把“左”倾错误恶性发展到登峰造极的地步,成为“四人帮”推行极“左”路线的工具。
我为什么会有这样看法呢?并不是因为我对大寨有什么成见,而是我到安徽工作以后,从农村的实际中逐渐体会到的。
1977年6月,党中央派我到安徽去当第一书记。我又不熟悉农村工作,所以一到任就先下去看农业、看农民,用三四个月的时间把全省大部分地区都跑到了。我这个长期在城市工作的干部,虽然不能说对农村的贫困毫无所闻,但是到农村一具体接触,还是非常受刺激。原来农民的生活水平这么低啊,吃不饱,穿不暖,住的房子不像个房子的样子。淮北、皖东有些穷村,门、窗都是泥土坯的,连桌子、凳子也是泥土坯的,找不到一件木器家具,真是家徒四壁呀。我真没料到,解放几十年了,不少农村还这么穷!我不能不问自己,这是什么原因?这能算是社会主义吗?人民公社到底有什么问题?当然,人民公社是上了宪法的,我也不能乱说,但我心里已经认定,看来从安徽的实际情况出发,最重要的是怎么调动农民的积极性,否则连肚子也吃不饱,一切无从谈起。
我刚到安徽那一年,全省二十八万多个生产队,只有10%的生产队能维持温饱;67%的队人均年收入低于60元,40元以下的约占25%。我这个第一书记心里怎么能不犯愁啊?越看越听越问心情越沉重,越认定非另找出路不可。于是,回省便找新调来的顾卓新、赵守一反复交换意见,共同研究解决办法。同时,决定派农委的周曰礼他们再去做专题调查,起草对策。随即搞出了一份《关于目前农村经济政策几个问题的规定》(简称“省委六条”),常委讨论通过后,再下去征求意见修改。经过几上几下,拿出了一个正式“草案”。“六条”强调农村一切工作要以生产为中心。我们当时的决心是,不管上面那些假、大、空的叫喊,一定要从安徽的实际情况出发,切切实实解决面临的许多严重问题。这样做,受到广大农民的热烈拥护。但“左”的影响确实是年深日久,有些干部满脑子“以阶级斗争为纲”,听到“六条”的传达竟吓了一跳。他们忧心忡忡地说:“怎么能以生产为中心昵?纲到哪里去了?不怕再批唯生产力论吗?”
就在1978年初,党中央决定召开全国“普及大寨县”的现场会议。农业生产力主要是手工工具,靠农民的两只手,而手是脑子指挥的,农民思想不通,没有积极性,手怎么会勤快呢?生产怎么会提高呢?我们不能按全国这一套办,又不能到会上去说,说也没有用。怎么办才好呢?按通知,这个会应该由省委第一把手去,我找了个借口没有去,让书记赵守一代表我去。我对他说,你去了光听光看,什么也不要说。大寨这一套,安徽的农民不拥护,我们不能学,也学不起,当然我们也不能公开反对。你就是不发言、不吭气,回来以后也不必传达。总之,我们必须对本省人民负责,在我们权力范围内做我们自己应该做、能够做的事情,继续坚决贯彻“六条”。在这段时间,新闻界的一些同志比较深入实际。新华社记者、《人民日报》记者为我们写“内参”、写通讯,宣传“六条”,《人民日报》还发了评论,这些都给了我们有力的支持。如果不反掉学大寨“以阶级斗争为纲”那一套,就不可能提出和坚持以生产为中心,这实际是最初也是最重要的拨乱反正,可以说是农村改革的第一个回合。
参考资料:大寨的谎言是怎么被揭穿的
(山间听雨 ) 2024年10月22日 16:17 北京
1978年夏,中国农学会在山西太原召开全国代表大会,会议结束后,组织代表们参观大寨。时任副总理的陈永贵亲自出面接见,并发表了讲话。
据参会代表回忆,当时陈永贵结合自己的亲身经历谈农业科学的重要性,譬如几年前大寨的玉米得了一种什么病,农业技术人员告诉他必须赶快把病株拔出烧掉,以防传播开去。他不相信,就是不拔,结果全部玉米病死,颗粒无收,他才信服了,等等。
陈永贵的坦率不免让与会的专家们瞠目结舌:一个分管农业的副总理,竟可以完全不懂农业科学常识,而让全国农业专家向他学习。
有意思的是,在陈永贵讲话时,台上右角落里还坐着一个年轻人提醒他农业的统计数据和名词术语,与会者完全可以从扩音器里听到他的声音。
听完陈永贵的讲话后,代表们还被“安排”分组在大寨村里进行了一次参观活动。路线是固定的,都有人带队。代表们不仅在参观过程中没有看到大寨的农民,在田间也没有看到,而且家家户户大门紧闭,也不能进去探寻。
有趣的是,几乎家家的窗口上,都放有金鱼缸,里面养着金鱼;同时,每家的小天井也必有一个大缸,里面种上花木,而且都在开花。
代表们明显感到这是在“做秀”给参观者看,因为当时就连沿海城市,也并非家家养金鱼、户户种花木,何况大寨人的劳动时间长,哪有此等闲情逸致?
代表们来到向往已久的大寨山头最高处,放眼四周,却大失所望。因为大寨为了人造山间小平原,砍掉了树林,把小麦种到了山顶上,但麦苗却长得不如人意:夏收季节已过,麦苗只有六、七寸高,麦穗抽不出来。即使抽出来的麦穗,也小得可怜,每穗只有几粒瘪籽。
至于玉米,大寨附近生产队地里的,生长得都不好,只有大寨范围以内的玉米地,才是一派大好风光。这说明大寨的玉米是吃“小灶”的,即有国家额外支援的物资化肥之类为后盾。
代表们议论纷纷,有的说没有树林,没有畜牧业,谈不上综合经营;有的说大寨的经验连自己附近的生产队都未推开,还谈什么全国学大寨。
当时参会的农业专家、农业部副部长杨显东也深觉大寨无科学,因此在回到北京后,组织了60多人参加的座谈会,决定“揭开大寨的盖子”。
1979年春,在全国政协小组会上,杨显东披露了大寨虚假的真面目,并指出“动员全国各地学大寨是极大的浪费,是把农业引入歧途,是把农民推入穷困的峡谷”。
他还批评道:“陈永贵当上了副总理,至今却不承认自己的严重错误。”
杨显东的发言引发了轩然大波,一位来自大寨的政协委员大吵大闹,说杨显东是诬蔑大寨,攻击大寨,是要砍掉毛主席亲手培植和树立起来的一面红旗。
不过,杨显东还是得到了大多数人的支持。
1981年,在国务院召开的国务会上,正式提出了大寨的问题,才把大寨的盖子彻底揭开了。大寨的主要问题是弄虚作假,而且在文革中迫害无辜,制造了不少冤假错案。
大寨造假最早被发现于1964年。那一年的冬季,大寨被上级派驻的“四清”工作队查出,粮食的实际亩产量少于陈永贵的报告。此事等于宣布大寨的先进乃是一种欺骗,其所引起的震动可想而知。
大寨成为了全国样版,通往昔阳的公路,在1978年即被修筑成柏油大马路。昔阳城里也兴建了气魄非凡的招待所,建有可以一次容纳上千人同时用餐的大食堂,参观者在这里不吃大寨玉米,而是可以吃到全国各地的山珍海味。
当时从中央到省,为大寨输送了多少资金和物资,才树立起这个全国农业样板。
另据县志记载,1967年至1979年,在陈永贵统辖昔阳的13年间,昔阳共完成农田水利基本建设工程9330处,新增改造耕地9.8万亩。昔阳农民因此伤亡1040人,其中死亡310人。
至于昔阳粮食产量,则增长1.89倍,同时又虚报产量2.7亿斤,占实际产量的26%。虚报的后果自然由昔阳的农民承担了,给国家的粮食,一斤也没有少交。
此外,昔阳挨斗挨批判并且被扣上各种帽子的有两千多人,占全县人口的百分之一。立案处理过的人数超过三千,每70人就摊上一个。
新县委书记刘树岗上台后,昔阳开始了大平反。1979年全县就复查平反冤假错案70余件,许多因贩卖牲畜、粮食、占小便宜、不守纪律、搞婚外男女关系、不学大寨等问题而被处分的人被取消了处分;一些由于偷了一点粮食,骂了几句干部,说了几句“反动话”被判刑的老百姓被释放出狱。
1980年,昔阳“平反”达到高潮,并持续到次年。全县共纠正冤假错案3028件,为在学大寨运动中被戴上各种帽子批斗的2061人恢复了名誉。
全国掀起的十几年的“农业学大寨”运动,给中国农业带来的是僵硬、刻板以及弄虚作假。从20世纪60年代中期到70年代后期,大寨共接待参观者达960万人次,毛泽东没有去过一次,甚至都不曾提出过什么时候去大寨看一看。
冯克利:自然法的“文明化”
公元前四四二年,雅典悲剧作家索福克勒斯写了一部悲剧,即赫赫有名的《安提戈涅》。它主题鲜明,剧情铺展有序,被标榜为古典悲剧格局之极致。其中最为后人称道的,是安提戈涅对底比斯国王克瑞翁的一段台词:“天神制定的不成文律条永恒不变,它永远存在,不限于今日和昨日,也没有人知道它出现于何时。我并不认为你的命令是如此强大有力,以至于你,一个凡人,竟敢僭越诸神不成文且永恒不衰的法。不是今天,也非昨天,它们永远存在,没有人知道它们在时间上的起源!”
按底比斯的法律,犯叛国罪的人不允许下葬。安提戈涅面对克瑞翁的禁令,执意要将犯下叛国罪暴尸荒野的哥哥入土为安,她把兄妹情升到天理层面,力陈高于人定法,天神的律条压倒君命。这寥寥数语,被奉为千古绝唱。安提戈涅所说的“永恒不衰的法”,很容易让后人想到备受推崇的“自然法”,这也是它能引起强烈共鸣的一个原因。
不过,若说《安提戈涅》这种自然法联想一直激励人心,那一定是夸大了它的作用。在索福克勒斯时代,希腊并不存在成熟的自然法思想,安提戈涅的愤怒,反映着她对主管冥间之神的敬畏,这只是希腊诸神崇拜的一部分。智者学派有过一些隐喻式的自然法观念讨论,却被柏拉图斥为巧言令色的诡辩。亚里士多德的《修辞学》提到过安提戈涅,从她的言论得出了“不正义之法不是法律”,但他并没有就其中涉及的自然法话题有过任何深入的讨论。
“自然法”观念真正成为一个思想体系,始自稍后的斯多葛学派。按这个城邦没落时代崛起的学派,世界是一个由形式和质料构成的整体,它们相互依存,井然有序,在理性法则的支配下,向着一个预定的目的运动。斯多葛学派所谓的“自然”,便是指这种内在于宇宙的秩序结构。人类应当运用理性能力,去发现内在于这个结构中的法则,它是普遍有效,恒久不变的,服从它是获得正义—即最广义的“法”—的先决条件。从这里,我们可以看到斯多葛学派和柏拉图理性主义的继承关系。
不过,就像柏拉图的思想一样,这个学派的自然法学说,也仅仅是一种哲学,它喻示着理想的法律或正义的终极来源,但它进入法律实践之后会产生什么作用,仍是不明确的。在特定的历史和族群背景下,它对于社会组织方式会有什么具体的规范性影响,人们事先很难做出判断或推测。如何平等对待众生,如何限制强权,不是自然法观念本身所能解决的问题。
原因是,希腊从未出现过一个以法律为使命的法学家阶层。当时城邦社会的审判,是在民众大会中进行。会场上进行的辩论,并不依赖法律论证,而是更多地来自道德和政治的考虑。以柏拉图为代表的希腊哲学家,也不接受把法律条文作为推理的出发点。对于他们来说,只有依靠推理才有可能获得更高的哲学真理。
到了罗马时代,由于西塞罗等人对自然法观念的传播,这种情况发生了显著的变化。西塞罗的思想可概括如下:自然法是永恒不变的,无论元老院的法令还是人民的决定,都不能使自然法失效,它们都受这个唯一法的约束,不可能“罗马有一种自然法,雅典有另一种自然法;现在有一种自然法,将来有一种自然法”。这就是说,自然法的普遍适用性超越历史和经验,无论人类生活经历何种变化,或各地的生活方式有什么不同,自然法都统一地发挥着作用。
西塞罗的自然法学说备受世人推崇,但他这些说法并无多少新意,其基本思想,我们都可以从斯多葛学派找到。唯其有异于希腊人之处,是他把自然法直接与法律制度联系在一起,这意味着自然法在罗马已经不仅是一种哲学,而是进入了制度建构的层面。按西塞罗的说法:“法律是植根于自然的最高理性,它允许做应该做的事情,禁止相反的行为。当这种理性确立于人的心智并得到充分体现,便是法律。”这种基于自然法的法律观意味着,任何成文法的正当性,都应以符合自然法为准,即使以合规的方式通过的法律,也不能取消罗马公民基本的权利。
不过,说到自然法与罗马法的关系,西塞罗算不上最杰出的代表。大约到了图拉真(五十三至一一七)时代,罗马帝国的疆域达到极致,与历史上其他帝国不同的是,它同时获得了另一个著名的称号,变成了一个举世无双的“法律帝国”:它治理广袤疆域的重要方式,是采用了一套不断完善的法律体系;建立这个帝国的人,是一些不见于其他帝国的贤达,即以盖尤斯和乌尔比安等人为代表的专业“法学家”。
这些法学家深受自然法学说的熏染,但并无兴趣探讨自然法这个抽象概念本身。他们的成就多得自实践。对他们来说,自然法的价值,不是引导形而上学的思考,而是如何用来建立人际关系的秩序准则,为解决司法纠纷指出正确的路径。这种思维风格,已大异于自然法观念在希腊思想世界的状态。
从法律史的角度看,这种法学家看待自然法的方式,给自然法思想带来了一个显著的变化。在希腊仅仅作为一个哲学概念的自然法,已转化为一种塑造制度的实践活动。罗马法学家的用力之处,是将继受的自然法观念落实于他们每天从事的法律活动。他们在不同的法律领域讨论各种案件,针对具体案情发现适当地调整规则,同行之间相互交流法律意见,引用彼此的观点以形成司法共识,由此自然法的理念色彩渐渐淡去,融入了市民社会日益繁密的法条之中。
为了使他们的成果易于理解,这里可以举一个简单的例子。抱持自然法观念的人,很容易推论出,有人得到一件“无主物”,他便是该物的所有者。如《法学阶梯》所说,不属于任何人的东西或战利品,属于最先得到它的人。这是很容易从自然法推导出的规则。像人没有义务做不可能的事,精神错乱者做出的承诺无效,等等,这些都是其合理性一望可知的法条。但是,对“无主物”或“不可能之事”的定义,却不是自然法能回答的。不给“无主物”设定明确的界线,难免会带来太多的冲突,除非无主物是取用不尽的。
一个人定居在一块无主土地上,从罗马法的角度来看,他只是自然法意义上的占有。这样的占有,任何人对他都不承担明确的法定义务。如果发生侵犯或剥夺的行为,他需要借助于司法救济,才能使占有物变成正式的财产。有了这种财产,相应地又会产生处置的问题,这就涉及要式买卖、抵债、转让、借贷、继承等一系列法律规范。溯及源头,这些规则可能多来自习惯,经过自然法衡平下的具体司法过程,逐渐形成了法条。
这种获得财产的方式,在罗马法中称为“民法占有”(domiumcivile),它有别于罗马法管辖之外的“自然占有”(domiumnaturale),为罗马人所专享。这大概是罗马人最初不轻易将市民身份授予蛮族的原因,有点类似于“华夷之辨”或“文野之分”,不过这种区分偏重于义礼之有无,罗马人则是以市民法意义上的身份作为标准。
罗马法学家在建构实体法的过程中,也通过观察习惯性规范的持续时间、普遍性和适用的一致性,判断它们是否真正合理。基于自然法的理性原则,他们发展出了一些司法实践中必须遵守的原则,比如制定法不能溯及既往,当事人不得审理自己的案子,同一罪名不得两次定罪,等等。这类检验法律合理性的标准,对后世产生了深远的影响,直到今天依然有效。
从这里可以看到,自然法就是“符合理性的法”这一斯多葛学派的基本信念,在罗马法中获得了反复运用于实践的持久稳定的力量,由此也可以得出一点认识,用自然法观念规范社会行为时,不借助于人定法是不可能的。正义秩序的建立,需要借助于原始正义观之外的智力资源。
马克斯·韦伯在谈到罗马法时,曾用“高度分析的性质”来概括它的特征。诉讼可以分解为各种相关的基本问题,人的行为被定义为明确的不同要素,交易过程可简化为一些最基本的成分,一次交易只针对一个特定的目标,一次承诺只针对一个特定的行为。相应地,一次诉讼也只针对一个特定的案件。在这种操作下,自然法哲学层面所说的“人”,已变成了一个复杂的法律结构,“权利”也不再是一个哲学理念,而是一个法权概念。在这个思维框架中,罗马民法自然不会涉及空泛的“自然权利”,而是跟各项具体权利有关。
罗马法的成长过程,是自然法演化为社会规则的过程,也可以把它称为自然法的“文明化”过程。自然法意义上的人,只有进入受罗马市民法保护的秩序,他的“自然权利”(iusnaturale)才变成了“文明的权利”(iuscivile),即“公民权”,才能说他进入了“文明状态”。
同样的特点,也可以在英国法中看到。法律史上有一种常见的说法,英国的普通法是欧陆罗马法之外一种独特发展的产物。这样说固然不错,却不是完整的画面。英格兰在中世纪后期集权化的过程中,为了统一王国的法律,难免要去除繁杂多样的诉讼方式,使其变得更有条理。普通法的两部早期经典,《格兰维尔》,尤其是《布莱克顿》,都采用了很多罗马法的编排体例、推理方法和技术,这大概也是托克维尔抨击罗马法的复兴为君主专制助力的原因。不过与欧洲大陆不同的是,英国不但率先完成了王的集权化过程,也逐渐形成了一个高度专业化、相对自治的法律共同体。
如戴雪所说,英国的普通法与罗马法至少有一个共同特点,它更为看重的不是一般权利,而是“有效的司法救济”。这里所谓的“有效”的表现方式之一,便是职业法律人的司法专业性。其中最为人称道的案例,莫过于十七世纪英格兰大法官柯克和詹姆斯国王的对抗。
这位国王以他“同样具备人的理性,有判断是非的能力”为由,要求亲自参与司法审判。詹姆斯的这个想法,反映着欧洲绝对专制主义的兴起对英国的影响,但它并不是国王毫无根由的托辞,从福特斯丘和圣吉曼等人的普通法典籍中可以看到,法律是基于人类理性能力的主张,也是受到罗马法熏陶的普通法最基本的法理学叙事。
柯克这位以“普通法崇拜”著称的法官,肯定记得布莱克顿的古训,“国王在万人之上,但是在上帝和法律之下”。不过以此反驳国王是无效的,国王大可以说,我也会遵照法律判案。面对詹姆斯一世的要求,他先是奉承说,“上帝确实赋予陛下丰富的知识和非凡的天资”,然后话锋一转:“但是陛下并不精通王国的法律。涉及陛下臣民的生命、继承、动产或不动产的诉讼,并不是靠自然理性,而是靠技艺理性和法律判断力来决断的。法律是一门技艺,只有经过长期的学习和实践,才能获得对它的认知。”柯克分出“技艺理性”(artificalreason)和“自然理性”(naturalreason),这种事实上会限制王权的说辞,并不是来自人类原罪的宗教信条,而是法律的专业性。柯克不会像后来的浪漫主义者那样蔑视理性,只是强调了理性也是一种需要加工的能力。依他之见,运用于司法过程的理性,并非每个人生来具有,而是漫长的研究和实践训练培养出的技艺。
从这里可以看到罗马法学家所确立的民法自治传统的余晖。从十四世纪开始,英格兰逐渐形成了一个职业法律人群体,这个群体日益成熟和壮大,到柯克时代,与议会权贵一起,使普通法在很大程度上摆脱了国王和教会势力的控制。这也是使它有异于欧洲大陆的情况,那里的专制君权强力扩张之时,法律共同体抵制王权干预的宪法功效并没有发生。
柯克更进一步说,一个人即使集合了众多人的技艺理性,仅凭他个人的头脑,仍无可能创制出英国的法律,因为它是经历了世代兴替,由伟大的博学之士一再去芜取精,才有了今天的状态。没有人靠一己之理性,能够比法律更有智慧。这意味着法律和相应的司法技艺,更不必说习惯,都是漫长社会实践的产物。与这种实践形成的判断力不同,自然法所要求的正义带有永恒不变的性质,不受时间的影响,技艺理性却是无法超越时间的,它只能以历史的方式完成。柯克这种思想,是两百年后保守主义鼻祖埃德蒙·柏克的主要思想来源之一,也可以让我们想到哈耶克的一个著名论断:理性能力同样是文明演进的产物。
柯克对詹姆斯国王自称拥有理性的排斥,透露着一种独特的正义观。确定正义在社会生活中的实际意义,需要靠技艺理性来完成;未经文明洗礼的理性,即后来被柏克讥为抛弃一切文明成果的“赤身裸体的理性”是靠不住的。詹姆斯国王插手司法的企图,也许不是出于邪恶的动机,但自然法赋予他的“理性”,会给权力任意践踏正义打开方便之门。
由此我们不难理解英国法律人的一个习惯。每遇疑难案件,他们通常会尽量避免直接援引自然法,而是把习俗、案例或先辈法学家的著述作为权威。就像罗马帝国时代的情形一样,每遇疑难案件,法学家就会引用乌尔比安或盖尤斯,因为这样更容易结束争议。英国的法律人把《布莱克顿》和《格兰维尔》奉为圭臬,美国的法官、律师眼中的可靠权威是柯克和布莱克斯通,都可作如是观。这种依赖既有知识体系的习惯,是柯克反对国王直接干预司法审判的动机之一。
相反,对于动辄诉诸自然法原则的做法,他们会视为一种“智力上的恶习”。如梅因所说:这些人“蔑视实在法,对经验不耐烦,先验地偏好推理,……使那些不善思考、不以细致的观察为据的头脑,形成一种牢固的成见,执迷于抽象原则”。这让他们失去了对例外或偶然的容纳能力,也不会诱发细致理解经验世界的愿望和耐心。
英国法律人这种重实务轻理念的传统,塑造了历经数百载完善权利保障的传统。以一纸公文宣布人民享有哪些权利,并非困难的事,难在如何使之得到落实。倘不能进入司法,这类宣言便无异于一纸空文。法治之优劣,一定是反映在对救济手段的专注上,个人权利的确立,也是以司法判决为准绳,英国人把这称为“处理基本权利的法律人方式”。道德风尚和社会环境的变化会使法律适时做出调整,同时又必须兼顾它的必要性、可持续性和统一性。这个过程,可以把它称为iusnaturale(自然法、自然权利)融入文明社会的过程。
也可以反过来说,自然法直接成为救济手段,可能意味着文明秩序的失败。梅因说,“时代越黑暗,诉诸自然法和自然状态便会越频繁”,表达的就是这个意思。统治者的昏聩骄横导致的法治不彰之地,自然法更易于引起共鸣,它以至高无上的超验正义和天赋权利,为革命者提供了摆脱既有制度羁绊、逃离历史进入永恒的强大动力。在急于建立新世界的人看来,未经理性检验的社会沉积物,如宗教信仰、习惯、民俗礼制和偏见,总是对正义理念的拖累。
可见,自然法观念存在着一个内在的悖论,它既可表现为通过理性完善法治的努力,也可能意味着文明之外的野蛮状态。乌尔比安在《法学汇纂》中的经典定义,自然法是“自然教导给所有动物的东西”,其中便暗示了未开化的野蛮状态。西塞罗在《论开题》中也说:“远古之时,人游荡于荒野,茹毛饮血,与野兽无异。他们全靠体力,不受理性的引导,既不拜神明,也无社会责任;野合是常态,所以也不识子女,更不知公平法律为何物。”这大概是有关“自然状态”的最早描述,它更接近霍布斯而不是卢梭的自然法学说。
柏克和亚当斯听到潘恩为法国人的“自然权利”疾呼时,即嗅到了这种粗野的味道,他们二人都是有深厚普通法修养的人,潘恩的人权呼吁意味着对“旧制度”(不仅是法国的,而且还有英国的)的全盘拒绝,而在他们看来,正是来自这个“旧制度”的宗教信仰和法治传统,维护着殖民地人民的自由与财产安全。潘恩以天赋人权(原始正义)向专制宣战,痛恨暴政的激情,淹没了他的历史感,这使他无暇严肃看待一个问题:文明社会或有种种弊端,但它是否真能回到“造物主造人时的状态”,对一切利益关系进行重组?
可以再回到《安提戈涅》的故事。安提戈涅的反抗,换作今天的话,可以称为“私力救济”。这种情况,时常发生在强权导致司法救济失败之时,自然法开始绕开既有的法律,直接发挥作用。此类现象若是频繁出现,或变成大规模的集体行为,古人谓之“替天行道”,现在通常称为革命。美国的《独立宣言》和法国大革命的《人权宣言》,挥舞的是同一面自然法大旗,它会带来文明与正义还是灾难,更多地取决于挥舞它的人所仰赖的社会和知识资源。
安提戈涅的愤怒,很容易唤起观众朴素的正义感,自然法所预设的理性能力,已转化为单纯的义愤,让克瑞翁留下了千古骂名。但是在索福克勒斯笔下,克瑞翁并不是骄横无道的君主,反而更像是一个被安提戈涅的坚韧意志压垮的英雄,索福克勒斯的悲剧是同时献给他们两个人的。在战乱中的底比斯,克瑞翁的角色类似于罗马政制中的“独裁官”,他有权出于集体安全的考虑,为儆效尤,下令不得为叛国者殓尸。读一下剧中克瑞翁的辩词,也是同样有说服力的:“国家制定的法律必须得到遵守,没有比不服从命令更危险的事情,城邦将毁于此,家园将成废墟,军队溃不成军,胜利化为泡影。而简单地服从命令可拯救成千上万的生命。因此,我坚持法律,永不背叛。”这与现代国家在战时暂停或限制某些公民权利的行使并无二致,这涉及的不是自然法的正义问题,而是自然法和人定法的衡平问题,正如罗马法谚所说,“兵戈一起,法律就沉默了”(Interarmaenim silent leges)。
本文转自《读书》2025年1期
徐冠勉:舞女、械斗与全球史的异托邦
一七五二年十二月十九日夜,巴达维亚(现印尼雅加达)以西约二十多公里处的一个糖业种植园举办了一场舞女(ronggeng)表演。在性别失衡的商品边疆,这场演出算得上是一场盛会。为此,该种植园的华人劳工招呼邻近糖业种植园的劳工共同观看,并邀请其中头人共享晚餐与茶水。但是,随着演出的深入,盛会转为一场械斗,两个种植园的劳工因不明原因相互持械斗殴,最终造成数名劳工受伤,而主办该场演出的种植园亦被打砸抢劫。
该案卷宗现存于海牙荷兰东印度公司刑事档案,内有一百多页记载,包括约二十位当事人的口供以及前后数份调查报告。长期以来,这些内容琐碎、字迹潦草的刑讯记录并不为研究者们所关注。当面对这家世界上最早上市的跨国公司的庞大档案时,研究者们通常会选择首先关注它的全球贸易、资本网络,它所促成的全球艺术、医疗、知识交流,以及它所参与的全球军事与外交行动。
那么,我们为何需要偏离主流研究,来关注发生在这个全球网络的边缘的一件关于舞女表演与劳工械斗的事件?这样一件看似非常地方性的事件与学者们关心的东印度公司的全球网络有何关联?它又能否帮助我们从边缘、底层出发,从被全球化异化的底层民众的劳动与艺术出发,书写一段不同于帝国精英视角的庶民的全球史?思考这些问题,或许可以促使我们从新的角度进一步消融全球史与地方史之间的边界,探讨在一个特殊的种植园空间里艺术、性别、劳工、族群、资本主义这些议题之间复杂的纠缠,进而反思传统全球史所建构的全球化的乌托邦,关注在这个过程中被边缘化、异化的人群所实际生活的异托邦。
一、舞女
首先可能会让读者们浮想联翩的是这些在糖业种植园里表演的舞女。表面看来,她们似乎是在一望无际的蔗田里,以蓝天绿野为舞台,翩翩起舞。但细究之,便会发现一个悖论,因为一望无际的蔗田并非绿野,而是资本主义商品边疆扩张的现场,是资本将劳工与自然转变为商品并榨取剩余价值的场所。那么为何在这样的地点会有舞女起舞?
事实上,这样一幕在十八世纪巴达维亚乡村的糖业种植园中每年都会上演。据十八世纪末十九世纪初的殖民史料,舞女表演在种植园已成为仪式。每年三月份,为准备新的榨季,种植园需要搭砌糖灶、竖立蔗车,为此要动员大批劳工连续高强度作业。蔗车竖立后,便要举行一系列仪式,包括由一位头人将一只白色母鸡作为祭品放入蔗车碾压,并有数天节庆,其间便有舞女表演。该节庆甚至有一个专门的爪哇语名称,即badariebatoe,意为“竖立石头”(蔗车的主体是由两大块竖立的石磨组成的),或许可理解为种植园的巨石崇拜。榨季结束后,种植园还会安排另外一场舞女表演。这些表演不只是仪式性的,也是劳工们重要的娱乐。
但不能因此便认为这些种植园里的舞女表演与中国乡村戏班演出无异,将其理解为传统乡村节庆的一环。巴达维亚乡村的糖业边疆并不传统,它不是一个由小农家庭构成的亚洲乡村社会,而是一个缺乏家庭结构且性别高度失衡的种植园社会。在这里,载歌载舞的舞女们并不是在参与一场传统的爪哇乡村节庆,而是在参与全球资本主义商品体系的扩张。她们的舞蹈、她们的性别和她们的身体都已深深融入了这个体系,而她们的表演甚至成了这个糖业边疆的必需品,被荷兰殖民者们污名化为巴达维亚糖业经济的“必要的恶”。十九世纪的殖民者们更是将这些舞女理解为妓女,将她们的歌声与舞蹈理解为一种低俗的娱乐。
到底谁是这些舞女?她们如何表演?又如何进入这个糖业经济体系?这些问题涉及印尼艺术史的一个重要议题,即爪哇音乐与舞蹈中的ronggeng问题。Ronggeng一词无法被准确翻译,其词源亦不可确考,大体可以将其理解为一位在数位乐器演奏者伴奏下亦歌亦舞的女性(本文简称其为“舞女”)。不同于东爪哇地区的宫廷舞女,ronggeng舞女通常并不依附于宫廷,而是在乡村、市井间游走、表演、谋生,有时服务权贵获取利益,有时又会为乡村节庆表演。在近代早期,她们在缺乏强大王朝国家的西爪哇地区尤其活跃,其中一个舞女文化中心是井里汶。这种传统在十五世纪爪哇伊斯兰化之前便已存在,舞女们最初应该是作为爪哇地区稻谷女神的化身,负责在每年稻米耕作之前提供表演,以祈祷稻米丰收。在伊斯兰化之后,她们又与苏菲神秘主义结合,进而延续这种舞蹈传统。从现有史料来看,舞女们大多来自贫困家庭,需要接受一定的舞蹈、音乐训练,才能成为职业的舞女。
由于不完全为宫廷所禁锢,舞女们有着一定的能动性为自己谋取利益。一七四三年,荷兰东印度公司在井里汶的驻防官报道,马辰(Banjarmasin)的一位王公派遣一位使臣到井里汶,请求一个乐器(某种锣鼓)与一位舞女,为此该使臣带来了半两黄金与两只红毛猩猩作为礼物。经该驻防官协调,只有一位舞女愿意过去,她表示愿意到马辰为该王公服务五个月,条件是八十西班牙银元酬金,并确保五个月后将她送回井里汶。马辰位于南婆罗洲,是当时东南亚胡椒贸易的一个中心,也是荷兰与英国东印度公司外交争夺的重要对象。目前看来井里汶舞女可能以特殊的身份参与了这场全球贸易、外交冲突,现存档案中有一份一七七〇年井里汶苏丹致荷兰东印度公司信件,便讨论了胡椒贸易问题,同时还请求荷兰东印度公司帮助其获取一组年轻且“面容俊俏”的井里汶舞女。
另外,荷兰殖民档案不曾记载的是那些活跃于乡村的舞女。由于缺乏乡村本地档案,我们无法确知殖民时期乡村舞女到底如何活动,但是非常值得注意的是,在今天西爪哇乡村分布着不少舞女墓地。尽管乡村舞女作为一个群体已经在二十世纪印尼现代民族文化建构中,因其被污名化的身份而逐渐消失,但是至今仍然有村民维护、参拜这些舞女墓地。例如,笔者在二〇二四年七月份便曾两次走访了位于井里汶西部村庄边缘的一个舞女墓地。该墓地地处稻田之间,墓地入口标识为“舞女娘祖”(BuyutNyaiRonggeng),里面有两个建筑,分别为礼拜堂与墓室。墓室里面有两座墓,一座为一位舞女的,据称是生活在满者伯夷时期(十三至十五世纪),另外一座是某位男性的,但是村民强调这位男性不是舞女的丈夫。当地村民一直看护该墓,并每周四晚上(伊斯兰历周五)参拜。
那么作为稻谷女神的舞女又是怎么进入巴达维亚郊区蔗田的呢?首先井里汶地区本身就有蔗糖生产,根据十八世纪初的两份合同,上述舞女墓地所在区域就有大片土地被一位井里汶王公租给井里汶华人甲必丹,用于设立拥有两三个糖廍与两百头水牛的种植园产业。在十八世纪,该地也是巴达维亚糖业边疆的重要劳工供给区,每年都有大批井里汶村民背井离乡去巴达维亚乡村糖业种植园工作。因此,我们可以想象伴随糖业边疆的扩张与乡村人口的流动,井里汶乡村的舞女文化也进入了蔗田。原来为村民在稻田演出的舞女,开始为蔗田里面的劳工起舞。
二、械斗
但是,蔗田不是稻田,巴达维亚糖业种植园的社会结构与井里汶乡村截然不同。不同于作为家乡的传统乡村,巴达维亚糖业种植园是一个无家之乡,这里主要容纳的是来自不同文化背景的单身男性劳工,他们来此不是为了安家,而是为了赚取工资。以一七五二年十二月十九日夜那次械斗为例,主办方参与械斗的主要是华人。不同于从事海洋贸易的南洋华商,在巴达维亚乡村有着大批华人从华南而来成为糖业种植园劳工。他们在此主要占据着管理层与熟练工人角色,工资高于当地劳工。这也部分解释了为何这批华人会在这场舞女表演中作为主办方出现。
可是,这并不意味着华人已在此过上富足、安定的生活,他们更多是苟活于一个动荡不安、充满暴力的边疆社会。这群华人服务的直落纳迦(Teluknaga)种植园位于丹格朗(Tangerang)区域。今天这是印尼的门户,就在雅加达苏加诺—哈达国际机场周边,但在近代早期,这是一个偏远的糖业边疆。在十七世纪,它一度是荷兰东印度公司与万丹苏丹国争夺的交界地区,一六八四年万丹将其割让给公司后,便成了巴达维亚糖业扩张的边疆,并在十八世纪发展为爪哇蔗糖主产区。糖业边疆的扩张带来一系列社会问题,尤其是族群与阶级矛盾。一七四〇年的红溪惨案就是这些矛盾集中爆发的一个结果,当时巴达维亚郊区的华人形成了一个个以糖业种植园为核心的武装据点,对抗荷兰东印度公司。丹格朗地区则是这场武装起义的重要根据地,直落纳迦种植园也名列荷兰军事行动名单,是该地区六大华人反抗据点之一。
与一七四〇年红溪惨案相比,一七五二年的这次械斗事件可能微不足道,但它所留下的丰富史料为我们揭露了一些深层、复杂的矛盾。大体而言,械斗之前这两个种植园之间已存在纠葛。其中主办舞女表演的种植园属于巴达维亚华人甲必丹王应使(OngEengsaij),但种植园土地属于一位已故东印度公司高级官员的遗孀玛利亚(MariaHerega)。王应使在事发前约两年(一七五〇年底或一七五一年初)于玛利亚处租得这块土地以及土地上包括糖廍在内的所有附属房屋、设备。但一七五〇年底玛利亚又将另外一个糖业种植园的设备转移到直落纳迦,建立一个新的种植园。这就埋下了冲突的伏笔。
为开拓这个新的种植园,玛利亚聘用了一位土生基督教徒沙龙为账簿书记,一位华人西姆为廍爹(potia,种植园管理者),并且雇用了六十位劳工,并侵占了原已租赁给王应使的土地,包括将一块放养水牛的草地开垦为蔗田。此外,玛利亚的手下还阻止王应使种植园的几位爪哇劳工修复他们的房屋,迫使他们迁移,进而侵占遗留下来的房屋与土地。玛利亚甚至亲赴现场,指令她的劳工们将王应使种植园廍爹的四头猪杀死,投入河中。
我们无法完全确定这些供词是否完全属实,也不能断言上述纠纷均为玛利亚单方过错。不过从中可以看出,在这个糖业边疆存在很多摩擦,这些摩擦正如罗安清在《摩擦:全球连接的民族志》(Friction:AnEthnographyofGlobalConnection)一书中提到的,是全球化在这些资本主义“资源边疆”的必然呈现。可以说,十八世纪发生在巴达维亚乡村的这些纠纷很大程度上预演了像人类学家们在当代印尼种植园与矿场的观察。这些纠纷的源头并不是两个当地村庄之间的世仇,而是在种植园主利益驱使下,两群素未谋面,且不定居于此、分属不同族群的种植园劳工在日常工作与生活中不断累积的矛盾。
十二月十九日夜的舞女表演不幸成为矛盾的爆发点。尽管各方供词龃龉,但大致可以确定的是,当天下午四点时候,从城里坐舢板船回来的沙龙刚一到岸便碰到王应使种植园的廍爹,后者邀请他去观看当晚的舞女表演。该消息很快在玛利亚的种植园内传开,晚上八点钟左右,沙龙带着手下大约三十名劳工前去观看,其中不少人都携带武器,似乎有意赴一场鸿门宴。到达现场后,沙龙走入了王应使廍爹的房屋,发现里面的华人正在用餐,并邀请他共进晚餐,但沙龙婉拒。不过,沙龙可能还是坐下来和华人们一起喝了一杯茶。沙龙的随从们则直接去观看舞女表演,其中几位还走近了舞台附近的赌桌,围观赌钱。此后不久,冲突爆发,双方持械互斗,各有伤害,最后王应使种植园财物被抢。
关于械斗的起因,双方各执一词,沙龙的手下声称是源于赌博时双方言辞冲突。王应使廍爹则否认赌博存在,坚称种植园内部不允许赌钱,当晚没有赌博,只有舞女表演。让事态更加复杂的是,荷兰司法当局调查发现,沙龙手下参与械斗的并非华人或爪哇劳工,而是一批奴隶,其中包括不少逃匿奴隶。不同于大西洋的奴隶制种植园,巴达维亚乡村的种植园建立在一个高度货币化的劳动力市场上,依靠雇佣劳工维持日常运作。雇佣缺乏议价能力的逃匿奴隶,便成为种植园主控制劳工成本的一个重要手段。
这批被捕的逃匿奴隶一共四人,均是二三十岁青壮年男性,其中有二人来自苏拉威西,一人来自帝汶,一人来自印度西南部的马拉巴尔海岸。通过公司的全球贸易网络,他们被贩卖到了巴达维亚三个奴隶主家庭。之后,他们选择了逃亡。从他们的供词来看,巴达维亚的糖业边疆已成为奴隶逃亡的重要目的地,并已形成复杂的逃亡路线。被玛利亚的种植园雇用后,一位华人工头信誓旦旦地和他们说:“在这里不需要害怕,没有人敢对你做什么,我现在就给你一把砍刀,以及其他你需要的东西。”
三、异托邦
经过近一年半侦办,公司司法机构最终于一七五四年六月十五日宣判此案,被告只有这四位逃亡奴隶。他们被判处鞭刑,外加带铐服劳役五年,之后被流放。为何一场在舞女表演时爆发的大规模械斗,最终却只有这四位逃亡奴隶领刑?这样一件最终以四位逃亡奴隶顶罪的械斗案和我们要讨论的全球史又有何关系?
这需要重新思考东印度公司以及东印度公司背后的全球史。不同于传统认知中的那个开放、自信、进取的荷兰东印度公司,我们在庞大的公司档案中读到的更多是一个个狭隘、惶恐、保守的公司官僚。荷兰东印度公司不是一家现代航运公司,而是一个有着垄断特权的殖民帝国,它并不擅长自由贸易获取利润,而更倾向于诉诸武力与强权。在实际运行中,它亦非无差别地促进全球化,而是积极切断竞争对手的全球联系,以此维持它在全球贸易的垄断地位。它所用于参与全球贸易的商品亦非完全通过自由贸易获取,而依赖于复杂的权力运作。其中最典型的个案便是香料贸易,公司通过战争、不平等条约控制东南亚香料产出,然后在全球市场高价出售香料,获取暴利。同样的重商主义思维被贯彻到了巴达维亚糖业,公司在此扮演着双重角色。其一,它是一个垄断性商人,可随时出台法令限制私人贸易,管控糖价,然后再将收购到的蔗糖高价转卖到阿姆斯特丹、波斯湾、印度与日本等地;其二,它是一个殖民政府,通过一整套政治制度维系这个糖业边疆的社会秩序,防止劳工暴动。
种植园舞女表演时所引发的械斗戳中了这种双重角色的内在矛盾。公司管理者们既要垄断贸易,又要武力占领一个能够提供垄断贸易所需商品的殖民地,还要保证这个高度不平等的殖民地社会的稳定、和谐与繁荣,最后还要兼顾股东的收益和自己的私利。要同时实现这些目标,就需要不断从种植园劳工那里榨取尽可能多的剩余价值,同时又要防止这群性别失衡的、躁动的单身劳工暴动。在此背景下,蔗田里的舞女,因为她们对于男性劳工不可否认的吸引力,便成为公司管理层关注的问题。公司为此出台了一系列法令,试图规范舞女能否跳舞、怎么跳舞、在什么场合跳舞、谁可以看跳舞、谁可以从中获利甚至如何规训舞女。这些法令一方面极力预防舞女跳舞所可能引爆的社会矛盾,但是同时又为舞女表演网开一面,因为舞女被认为是吸引男性劳工到种植园边疆工作的“必要的恶”,同时还是维持爪哇乡村社会稳定的一个传统习俗。为此,东印度公司不断调整舞女法令,从一七〇六年的严禁(规定没收舞女首饰并罚款),到一七五一年的部分解禁、开始征税,到一七五二年修改舞女税率,到一七五四年再次收紧,再到十八世纪末十九世纪初更加细化的规范(规定如何领证表演、何时表演、在什么场合表演等等),最后到一八〇九年出台了在井里汶建设三所模范舞女学校的管理规定。
这次械斗案恰恰发生在一个重要的政策转折期。该案事发一年前,东印度公司于一七五一年十二月十一日颁布了一则新的法令,承认完全禁止舞女表演不可能,故选择一个中间路线,通过税收与条例来规范舞女表演。条例规定城内与近郊仍然严禁,远郊与乡村可以,但表演必须在室内,闭门表演每场收税一银元,开门则每场五银元。不过,所有这些都不适用于奴隶,法令第十五条规定,奴隶不能进入舞女表演场合。因为舞女对于奴隶们而言是“如此有吸引力”,以至于他们会偷窃主人财物去看表演,甚至仅仅是“为了看舞女一眼”。
但是,这些法令很难管辖到糖业种植园。公司所拥有的治安力量非常有限,糖业边疆是一个法外之地,那里何时举办、如何举办、谁来观看舞女表演完全超出了公司的控制。更何况这些地方本来就是大批逃亡奴隶的避难所,在这里他们至少实现了不受公司限制观看舞女表演的自由。一七五二年底的这次械斗事件将这一切暴露在公司高层面前。一七五四年,该案结案后不久,公司便出台一个新的舞女条例,决定不分城乡,全面禁舞,违者每场罚款一百银元。对作为奴隶主的公司高层而言,很少有事务会比防止自己身边奴隶犯罪与逃亡更重要。但是,公司并没有能力在种植园禁舞,蔗田里的舞女是个公开的秘密,被十八世纪后期的出版物反复提及。到了十九世纪初,公司不得不特许种植园内部舞女表演,将其明确定义为糖业经济必要的恶。
全球史可能存在两条非常不一样的研究路径,一条是正面赞颂全球化,关注能够在全球化中获得社会流动性的精英人物以及他们的全球网络;另外一条是反思全球化,关注在全球化中失去社会流动性的边缘人群以及他们生活的边缘空间。前者所呈现的也许会是一个符合新自由主义理想的全球化的乌托邦,后者也许比较符合福柯提出的异托邦概念。这个被异化的、与传统亚洲乡村社会截然不同的种植园社会可能就是那样一个异托邦,只是它不是福柯所理解的现代民族国家的异托邦,而是一个资本主义世界体系的异托邦。
这个异托邦让我们看到传统全球史中容易忽略的一些问题,看到在全球化中被边缘化、被污名化的劳工、艺术与性。这里的劳工非常全球化,有来自华南的华人移民,来自爪哇乡村的季节性农民工,还有来自苏拉威西、帝汶、印度等地的奴隶。但是这种全球化并未让他们受益,他们在此劳动,却难以在此安家。他们在此为资本主义世界体系生产,却无法在此实现自身的人口与文化再生产。舞女的表演或许承载了他们对于艺术、性与再生产的全部幻想。但是这种合理的幻想却被殖民者理解为这个糖业经济的必要的恶,而被污名化。事实上,造成这场舞女表演期间械斗的根本的恶,既非舞女,亦非逃亡奴隶,更非单身华人与爪哇劳工,而是东印度公司用暴力推动的不平等的全球化。作为一个异托邦,巴达维亚乡村的糖业种植园就如同一面镜子、一张底片,可以帮助我们更加深刻地洞悉这种恶,进而反思传统全球史背后的新自由主义乌托邦。
本文转自《读书》2025年1期
俞金尧:近代早期世界市场上的白银贸易与中国的黄金外流[节]
一
地理大发现以后,欧洲人奔走于世界各地,全球贸易联系开始建立起来,世界市场逐渐形成。明清之际的中国对外贸易也因此而与世界市场产生更多关联。
从中国输出的货物主要是丝绸、茶叶、瓷器等大宗商品,而从海外输入中国的商品包括胡椒、大米、布匹等生活必需品和象牙、珠宝、珊瑚、檀香等奇珍异宝。无论是进口还是出口,在欧洲人到来之前,这些商品中的大部分都是中国商人在东洋和西洋贸易中常见的货物。但是,欧洲商人加入亚洲贸易,使得中国的外贸有了世界性的维度,即从过去的区域性国际贸易,转变为全球贸易的组成部分,例如丝绸和瓷器不仅被直接贩运到欧洲,也通过跨太平洋航线被销往南美洲。
从区域性国际贸易到世界贸易,这是一个重要的转变。从亚洲区域性国际贸易来看,中国至少从唐宋以来就是这个贸易区域的主要国家。郑和七下西洋使中国在这个区域的影响力提升到前所未有的程度。不过,到全球贸易发生以后,欧洲人不仅在全球层面上了解货物产地和销售市场,而且掌握市场行情,包括商品的成本、价格、利润、数量、款式等。结果,他们把亚洲市场整合进世界市场。这样一来,中国作为过去区域性国际市场中的主导国家,被卷入全球贸易关系中。
欧洲人不仅擅长商品交易,也要为市场生产所需的产品。白银是近代早期世界市场上的重要商品,中国作为当时世界上最大的经济体,其商品进出口总量对世界经济产生重要影响。中国对白银的需求量大,与从中国输出大量丝绸、瓷器、茶叶一样,这些贸易都蕴含着巨大商机。欧洲商人敏锐地意识到这一点,开始从日本贩运白银到中国。后来,西班牙人又在南美开发银矿,并通过“马尼拉大帆船”将白银贩运到亚洲。
二
近代早期到底有多少白银从世界各地输送到中国?这很难准确统计。中外历史学家对此都进行过研究,结果却不尽相同。有的估计,光是明代流入中国的白银就超过5亿两;而有的估计约2亿两至3亿两,其中又以3亿两左右的估计为多数。实际上,由于计量单位、研究时段、资料来源等不同,彼时中国到底流入多少白银,只能是一个无法取得准确结果的估计数。不过,中外研究者在一点上能取得共识,那便是流入中国的白银数量巨大,且输入中国后不再外流,中国因此而被看作当时全球白银的终极“秘窖”。
近代早期白银被当作世界性货币,有了白银,当时的世界贸易仿佛被注入润滑剂。随着欧洲资本主义的发展,世界市场成为欧洲商人的广阔天地,他们到处奔波冒险,建立贸易关系。白银最初是欧洲人为了购买亚洲的胡椒、香料、丝绸、瓷器、茶叶等商品,专门从母国运来的货币。他们从东方购入大量商品,当然也意味着要给中国、印度、日本和东南亚国家等运来大量的贵金属。贵金属大量外流曾引起欧洲国家一些人的不满,早期重商主义者就反对从本国输出金银。不过,由于贸易挣来更多贵金属,增加了国民财富,这种对外贸易最终获得社会的理解和支持。
白银在世界市场具有货币和金属产品两种角色。在中国,从明代开始,官方认定以白银作货币。欧洲人由此发现巨大商机,作为货币,欧洲人用白银从中国和亚洲市场购买欧洲市场上畅销的商品;而当白银可以从日本和南美洲的银矿大量开采时,白银对欧洲人来说已经超越单纯的货币角色,而成为与铜、铅、锡等一样的金属矿产品。当中国市场大量需求白银之时,欧洲人便不失时机地为中国输送白银。
于是,明清之际白银大量流入中国,而中国的货物也大量流出到欧洲人手上,其中也包括大量黄金。
三
有多少中国黄金流到欧洲同样很难估量。实际上,研究中国黄金外流的数量,要比估算白银流入中国的数量更难,因为从中国获取黄金是一种私下交易,难以获得公开数据,甚至难以推算一个大致数字。但这并不意味着不能讨论这个问题,而且我们基本上能得出一个结论:中国黄金随着大量白银流入中国而流至欧洲。
欧洲人对黄金有一种渴望。大航海的初衷之一就是寻找黄金。自马可·波罗游历中国,给欧洲带去东方遍地黄金的信息以后,欧洲人便做起到东方寻找黄金的梦。起初,葡萄牙人沿非洲海岸航行和探险,在非洲发现了“黄金海岸”。西班牙人到达美洲,也是以掠夺黄金为主要目的。当他们最终到达中国后发现,与中国相比,欧洲金贵银贱。这是一个重要的市场行情,其中套取收益空间巨大。
最早发现中国银子贵、金子便宜的欧洲人是马可·波罗。不少人注意到马可·波罗在游记中说中国黄金遍地,却很少有人提及他的游记中三次谈到中国的金银比价,这说明马克·波罗已经意识到贵金属的价格问题。利玛窦以传教士身份来中国,他在1582年也发现中国金价低。在马尼拉大帆船贸易之初,墨西哥的金银比价为1∶12,而中国的金银比价竟然是1∶4,西班牙人惊呼:这儿所有的东西都很便宜,几乎免费!
研究表明,明代绝大部分时间里,中国的金银比价大约为1∶6。清初,金银比价为1∶10。而同时期欧洲的金银比价大约在1∶15左右。这就意味着把欧洲和美洲的白银运到中国,套取中国的黄金,是极为有利可图的买卖。亚当·斯密在1776年发表《国富论》,其中有一段话把这桩买卖的利益讲得十分透彻:“贵金属由欧洲运往印度,以前极有利,现今仍极有利。在印度能够获得好价的物品,没有什么能与贵金属相比……贵金属中,以金运往印度,又不如以银运往印度为有利,因为在中国及其他大部分印度市场上,纯银与纯金的比率,通常为十对一,至多也不过十二对一。而在欧洲,则为十四或十五对一……对于航行印度的欧洲船舶,一般地说,银是最有价值的运输品。对于向马尼拉航行的亚卡普科船舶来说,也是如此。新大陆的银,实际就是依着这种关系,而成为旧大陆两端通商的主要商品之一。把世界各处相隔遥远的地区联络起来,大体上也是以银的买卖为媒介。”
从马可·波罗到亚当·斯密,几个世纪中,欧洲人一直注意到亚洲与欧洲在金银比价方面的明显价差与套利空间。由此来看,欧洲人从世界各地运白银到中国,并非都用来购买中国的丝绸、瓷器和茶叶,有很大一部分银子应当是用来购买中国的黄金。
四
尽管我们没法精确计算欧洲人在近代早期从中国套走了多少黄金,但欧洲人在中国购买黄金的历史材料并不少见。
1580—1614年,澳门葡萄牙商人把大量中国黄金出口到日本长崎,对日本的黄金交易一次性达750公斤。那时,日本开采银矿,银子多而黄金需求大,葡萄牙人做转口贸易,用日本的白银换中国的黄金,获利不少。华人学者王庚武曾指出,对荷兰和英国而言,特别是对于那些绕过东印度公司的个体商人来说,黄金可比基督徒重要得多,而亚洲黄金最便宜的地方是中国。学者刘勇也发现,荷兰人在中国购买货物,最吃香的当属黄金。17世纪是荷兰经济的“黄金时期”,荷兰人试图独占中国的黄金交易。但这当然是不可能的,欧洲人都有意购买中国的黄金。18世纪中叶,荷兰巴达维亚政府负责对华贸易的“中国委员会”,要求大班们在广州代购黄金。1752年,荷兰东印度公司的“捷达麦森号”在返航途中沉没。1985年时,人们打捞这艘沉船,发现它装载了147块金锭,重达53公斤。1731年,英国东印度公司要求投资60000英镑购买黄金,最终购买到7000个金元宝,价格为每个110~115银两不等。瑞典东印度公司的大班也在广州购买黄金,斯德哥尔摩北欧博物馆收藏了1747年中国商人与瑞典东印度公司大班签订用10000西元银子支付黄金的价格合同。1760年的合同显示,几位中国人与荷兰东印度公司交易了4500两(450锭)的“南京银”。
可见,近代早期到中国进行贸易的欧洲国家,几乎都参与了购买中国黄金的交易。完全可以推断,流入中国的大量银子有相当一部分是以中国流出相应比例的黄金为代价的,这就是学者万志英所说的:在“白银世纪”里,中国吸收了银却流失了金。
亚当·斯密在《国富论》中说,“据麦根斯氏的计算,每年输入欧洲的金银数量之间的比例,将近一对二十二,即金输入一盎司,银输入二十二盎司。可是,银输入欧洲后,又有一部分转运东印度,结果,留在欧洲的金银数量之间的比例,他认为,约与其价值比例相同,即一对十四或十五”,“每年由欧洲运往印度的银量很大,使得英国一部分殖民地的银价和金对比渐趋低落……中国金银之比,依然为一对十,或一对十二,日本据说是一对八”。由此可见,欧洲的金银比价从1∶22回落到1∶16或1∶15,主要是因为欧洲人把白银运到亚洲去了。白银贸易让欧洲人套走了黄金,还减轻了通胀压力,一举两得。
本文转自《光明日报》( 2025年01月20日)
谷歌退出中国声明:A new approach to China(新的中国策略)
Like many other well-known organizations, we face cyber attacks of varying degrees on a regular basis. In mid-December, we detected a highly sophisticated and targeted attack on our corporate infrastructure originating from China that resulted in the theft of intellectual property from Google. However, it soon became clear that what at first appeared to be solely a security incident–albeit a significant one–was something quite different.
就象其他许多知名组织一样,谷歌也会经常面临不同程度的网络袭击。在去年12月中旬,我们侦测到了一次来自中国、针对公司基础架构的高技术、有针对性的攻击,它导致我们的知识产权被窃。不过,事态很快变得明了,这个起初看似独立的安全事件(尽管很严重)其实背后大有不同。
First, this attack was not just on Google. As part of our investigation we have discovered that at least twenty other large companies from a wide range of businesses–including the Internet, finance, technology, media and chemical sectors–have been similarly targeted. We are currently in the process of notifying those companies, and we are also working with the relevant U.S. authorities.
首先,并不是只有谷歌受到了攻击。我们在调查中发现,至少20家、涵盖领域广阔的大型公司都成为相似的攻击目标,这些公司隶属于互联网、金融、技术、媒体和化学行业。我们现在正在向这些公司通报情况,并与美国相关政府部门展开合作。
Second, we have evidence to suggest that a primary goal of the attackers was accessing the Gmail accounts of Chinese human rights activists. Based on our investigation to date we believe their attack did not achieve that objective. Only two Gmail accounts appear to have been accessed, and that activity was limited to account information (such as the date the account was created) and subject line, rather than the content of emails themselves.
第二,我们有证据显示,攻击者的首要目标是进入中国人权活动人士的Gmail账户。我们迄今为止的调查结果让我们相信,这些攻击没有达到预期目标。只有两个Gmail账户被进入,而且其活动仅限于帐户信息,比如帐户何时创建、以及邮件标题,具体邮件内容未被染指。
Third, as part of this investigation but independent of the attack on Google, we have discovered that the accounts of dozens of U.S.-, China- and Europe-based Gmail users who are advocates of human rights in China appear to have been routinely accessed by third parties. These accounts have not been accessed through any security breach at Google, but most likely via phishing scams or malware placed on the users’ computers.
第三,在与谷歌受攻击无关的整体调查中,我们发现数十个在美国、中国及欧洲的中国人权活动人士Gmail帐户经常被第三方侵入。入侵这些帐户并非经由谷歌的任何安全漏洞,而很可能是通过在用户电脑上放置网络钓鱼或恶意软件。
We have already used information gained from this attack to make infrastructure and architectural improvements that enhance security for Google and for our users. In terms of individual users, we would advise people to deploy reputable anti-virus and anti-spyware programs on their computers, to install patches for their operating systems and to update their web browsers. Always be cautious when clicking on links appearing in instant messages and emails, or when asked to share personal information like passwords online. You can read more here about our cyber-security recommendations. People wanting to learn more about these kinds of attacks can read this U.S. government report (PDF), Nart Villeneuve’s blog and this presentation on the GhostNet spying incident.
我们已经运用从这些袭击中获得的信息改进了基础设施和网络结构,加大对公司和客户的安全保障。对个人用户而言,我们建议大家使用可靠的杀毒和反间谍软件,安装操作系统的补丁并升级网络浏览器。在点击即时信息和邮件中显示的链接、或被要求在网上提供诸如密码等个人信息时永远要保持警惕。你可以点击这里阅读谷歌提供的网络安全建议。希望更多了解此类袭击的人士可以阅读美国政府提供的报告、纳特•维伦纽夫(Nart Villeneuve)的博客以及有关间谍网络幽灵网(GhostNet)的报导。
We have taken the unusual step of sharing information about these attacks with a broad audience not just because of the security and human rights implications of what we have unearthed, but also because this information goes to the heart of a much bigger global debate about freedom of speech. In the last two decades, China’s economic reform programs and its citizens’ entrepreneurial flair have lifted hundreds of millions of Chinese people out of poverty. Indeed, this great nation is at the heart of much economic progress and development in the world today.
我们采取了非常规手段与大家共享这些网络攻击信息,其原因并不只是我们发现了其中的安全和人权问题,而是因为这些信息直指言论自由这一全球更重大议题的核心。在过去20年中,中国的经济改革和中国人的创业精神让上亿中国人摆脱了贫困。事实上,这个伟大的国家是当今世界许多经济成就和发展的核心。
We launched Google.cn in January 2006 in the belief that the benefits of increased access to information for people in China and a more open Internet outweighed our discomfort in agreeing to censor some results. At the time we made clear that “we will carefully monitor conditions in China, including new laws and other restrictions on our services. If we determine that we are unable to achieve the objectives outlined we will not hesitate to reconsider our approach to China.”
我们在2006年1月在中国推出了Google.cn,因为我们相信为中国人拓展信息获取、加大互联网开放的裨益超过了我们因在网络审查上做出让步而带来的不悦。当时我们明确表示,我们将在中国仔细监控搜索结果,并在服务中包括新的法律法规;如果我们认定自己无法实现上述目标,那么我们将不会犹豫重新考虑我们的中国策略。
These attacks and the surveillance they have uncovered–combined with the attempts over the past year to further limit free speech on the web–have led us to conclude that we should review the feasibility of our business operations in China. We have decided we are no longer willing to continue censoring our results on Google.cn, and so over the next few weeks we will be discussing with the Chinese government the basis on which we could operate an unfiltered search engine within the law, if at all. We recognize that this may well mean having to shut down Google.cn, and potentially our offices in China.
这些攻击和攻击所揭示的监视行为,以及在过去一年试图进一步限制网络言论自由的行为使得谷歌得出这样一个结论,那就是我们应该评估中国业务运营的可行性。公司已经决定不愿再对Google.cn上的搜索结果进行内容审查,因此,未来几周,公司和中国政府将讨论在什么样的基础上我们能够在法律框架内运营未经过滤的搜索引擎,如果确有这种可能。我们认识到,这很可能意味着公司将不得不关闭Google.cn,以及我们在中国的办公室。
The decision to review our business operations in China has been incredibly hard, and we know that it will have potentially far-reaching consequences. We want to make clear that this move was driven by our executives in the United States, without the knowledge or involvement of our employees in China who have worked incredibly hard to make Google.cn the success it is today. We are committed to working responsibly to resolve the very difficult issues raised.
做出重新评估我们在华业务的决定是异常艰难的,而且我们知道这可能带来非常深远的影响。我们希望说明的一点是,该决定是由公司在美国的管理团队做出的,而为Google.cn今日成功而付出了无比巨大努力的中国团队对此毫不知情,也未曾参与。我们决心以负责任的方式来解决任何可能随之产生的难题。
Posted by David Drummond, SVP, Corporate Development and Chief Legal Officer
2012.01.12
《俄罗斯解密档案选编:中苏关系》1972-91
1972年
№22929 多勃雷宁与基辛格会谈纪要:苏联对尼克松访华的反应(1972年1月21日)
№22932 多勃雷宁致外交部电:中美可能就越南问题达成协议(1972年1月26日)
№22933 多勃雷宁与基辛格会谈纪要:美苏高层会晤、中美会谈等(1972年1月28日)
№22934 多勃雷宁与基辛格会谈纪要:通报尼克松访华的成果及印象(1972年3月1日)
№22936 多勃雷宁致外交部电:对尼克松访华成果的评估(1972年3月8日)
№22937 多勃雷宁与基辛格会谈纪要:尼克松访苏安排及中美军事合作问题(1972年3月9日)
№22938 勃列日涅夫与基辛格会谈记录:美苏关系及越南问题(1972年4月21日)
№22941 勃列日涅夫与尼克松会谈记录:如何结束在越南的战争(1972年5月24日)
№06767 葛罗米柯与基辛格会谈备忘录:美苏解决越南问题的讨论(1972年5月27—28日)
№10413 苏共中央书记处会议记录:关于成立中国问题顾问专家小组(1972年10月20日)
№06768 谢尔巴科夫与黄文进谈话记录:越南通报与美国谈判情况(1972年12月27日)
1973年
№10414 苏共中央书记处会议记录:兄弟党中央国际部代表会商中国问题(1973年4月9日)
№06770 谢尔巴科夫与黄文进的会谈记录:巴黎会谈情况及越南局势(1973年6月14日)
1975年
№24836-2 雅科夫列维奇的回忆:关于对中国进行的访问(1975年)
№25984 外交部第一远东司的报告:澳门情况及中国的立场(1975年5月5日)
№16061 苏共中央书记处会议记录:关于出席各兄弟党中央国际部代表会议(1975年6月13日)
1977年
№08117 情况通报:中国形势和中国新领导的政策(1977年1月17日)
№08118 情况通报:关于中国的形势和当前北京的对外政策方针(1977年4月11日以前)
№25985 驻葡使馆致梅德韦多夫斯基函:澳门和东帝汶的法律地位(1977年8月23日)
№08119 苏共中央致兄弟党领导人通报:关于中国新领导的政策(1977年9月)
№13723 葛罗米柯与卡特谈话记录:美中关系正常化等问题(1977年9月23日)
1978年
№13724 苏共中央政治局会议记录:勃列日涅夫谈国际局势(1978年6月8日)
№10422 苏共中央书记处会议记录:批准联络部反击中国领土要求的措施(1978年6月13日)
1979年
№06018 马纳索夫同李善一谈话记录:关于中苏同盟条约续签问题(1979年4月10日)
№06039 苏共中央政治局会议记录:关于中苏谈判的情况(1979年10月11日以后)
1980年
№13725 苏共中央政治局会议记录:关于批评中美合作致驻联邦德国大使电(1980年2月1日)
№16687 苏共中央政治局会议记录:关于揭露中国亲美方针的指示(1980年5月8日)
№16688 苏共中央政治局会议记录:关于对抗美中军事合作的指示(1980年10月2日)
№25987 苏共中央决议:根据揭露中国特务的材料摄制专题影片(1980年12月15日)
№25963 塔斯社记者发自喀布尔的电报:中国人在阿富汗(1982年1月30日)
1982年
№26580 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧(1982年5月21日)[30]
№26581 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧(1982年7月10日)
№26582 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧(1982年8月7日)
№11928 苏共中央政治局会议记录:关于缓和苏中关系及国际局势的讨论(1982年9月9日)
№26583 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧(1982年9月11日)
№26584 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧(1982年10月2日)
1983年
№16691 苏共中央政治局会议记录:关于扩大对华贸易及国际局势的讨论(1983年5月31日)
№25988 驻英使馆的情报:英国对待中英关系的态度及其趋向(1983年6月20日)
1984年
№21961 苏共哈巴罗夫斯克边疆区委会议记录:恢复苏中友协活动的决定(1984年1月29日)
№25990 拉古林的报告:澳门问题及苏联的立场(1984年7月21日)
№21960 乔尔内致苏共中央报告:哈巴罗夫斯克与中国恢复往来情况(1984年11月1日)
№21962 萨利尼科夫致乔尔内报告:黑龙江中苏友协代表团来访情况(1984年11月12日)
№25991 驻联合国及其他国际组织代表处的报告:澳门回归问题谈判(1986年11月27日)
1987年
№25869 卢金的报告:就政治解决柬埔寨问题举行会谈(1987年12月16日)
1988年
№25941 沃罗比约夫与李凤林会谈记录:苏联要求中国关注越南的照会(1988年3月30日)
№25863 外交部亚洲司的报告:印度支那各国与中国对柬埔寨问题的态度(1988年5月4日)
№25870 外交部太平洋和东南亚司的报告:在亚太地区扩大合作的可能性(1988年6月6日)
№25936 法捷耶夫与李凤林会谈纪要:通报阿富汗的局势(1988年6月22日)
№25945 沃罗比约夫与李凤林会谈记录:中国决定与苏联举行高层会晤(1988年11月11日)
1989年
№25871 外交部太平洋和东南亚司的报告:保障苏联在亚太地区的利益(1989年4月12日)
№25992 苏共中央书记处会议记录:与各国共产党的联络计划(1990年2月22日)
1990年
№25845 卢金与潘占林、李辉会谈纪要:俄罗斯联邦与台湾的关系问题(1990年10月31日)
1991年
№25866 外交部远东和印度支那国家司报告:中苏关于台湾问题的磋商(1991年4月15日)
№25917 库纳泽与于洪亮会谈记录:寻找中俄两国接触的共同点(1991年10月8日)
№25890 关于俄罗斯最高苏维埃代表团访华的报告(1991年12月13日以后)
人名译名对照表1972年
№22929 多勃雷宁与基辛格会谈纪要:苏联对尼克松访华的反应(1972年1月21日)
1月21日,我同基辛格在苏联大使馆进行了长时间的会谈。就最近一年半到最近两年发生的事情,我们讨论了许多问题,而主要讨论的则是关于今年5月份即将在莫斯科举行的苏美高层会晤这个问题。
第一,转交了勃列日涅夫写给尼克松总统的信件。
基辛格说,他将立刻把这封信件报告了尼克松总统。关于尼克松总统对这封信件的详细反应他会随后另行通报。基辛格说,他非常了解尼克松总统的情绪和想法,因此他现在可以肯定地说,尼克松总统同意勃列日涅夫总书记在信件中提到的主要观点:现在应该开始做一些实际工作,为高层会谈中将要讨论的问题做好准备。
因此,基辛格提议我们同他们进行定期会谈(一周一次),做好这项工作。从3—4月份开始这些定期会谈将会更加频繁地举行。
我回答说,苏方愿意就相关问题开始会谈。
基辛格接着说,尼克松总统无疑同意勃列日涅夫总书记在信件中提出的如下建议:委托相关部门开展工作,为两国政府在科学、技术、医疗卫生领域签署协议做好准备,这些协议可以在5月份举行高层会晤的时候签署。
关于尼克松总统对苏联进行访问的组织工作,基辛格已经事先向尼克松总统提议,这次访问的时间为5—7天。他想知道苏联领导人对这个问题的看法。
除了访问莫斯科以外,尼克松总统还想访问列宁格勒和苏联另外一个城市,当然,这还要看苏联方面的考虑,如果苏联政府不反对这样的访问日程的话。
在这种情况下,尼克松总统希望能够得到莫斯科的建议,提出2—3个苏联城市(莫斯科和列宁格勒除外)供他选择,他再从中挑选出一个城市进行访问。
基辛格风趣地说,尼克松总统挑选对哪个苏联城市进行访问,这完全取决于苏联领导人,因为尼克松总统“担心他指定要访问的地方凑巧靠近苏联发射宇宙飞船的地方,而这是不被允许的”。显然,他这样风趣地说也不是偶然的。
我事先向基辛格通报说:在尼克松总统到莫斯科访问之前,他基辛格可以对莫斯科进行访问。基辛格对这一通报表示了感谢,并且说,从各方面来看,在尼克松总统到莫斯科访问之前,他对莫斯科进行访问将是有益的,这一访问可以在3月下旬进行(也就是在尼克松总统访问中国之后)。如果苏联方面对此不反对的话,稍后可以确定这次访问的具体日期。第二,基辛格确认,关于调解近东问题,他们将背着尼克松和葛罗米柯在去年秋天举行会谈的时候提出的精神,努力做好准备工作,以便在莫斯科高层会谈中,对双方已经协调过的一些想法进行讨论。同时,他还多次提到他们将会面临的一些困难,这指的是在同以色列政府打交道的时候将会遇到的困难。基辛格还援引了同果尔达·梅厄(前不久她在白宫访问)进行的会谈。现在他们正在同以色列就达成中期协议(解决苏伊士问题)的可能性问题举行谈判。
关于这些问题基辛格都没有详细谈论。基辛格说,星期四或星期五我们将举行下一次会谈,在这次会谈中将详细地讨论这些问题。第三,全欧会议问题。会谈中,关于这个问题进行的讨论,都是围绕着苏美双方都已经表明过的那些立场进行的。表面上来看,基辛格提出的想法显得比较具有和解的性质,但是华盛顿的实质立场仍然和以前一样:在最终签署柏林协议之前,在召开全欧会议问题上,美国什么事情也不愿做。
第四,同基辛格在1月21日进行的这场会谈的相当部分内容都是关于苏美就限制战略武器问题进行的谈判的状况这个问题。
从基辛格的谈话可以看出,对于在莫斯科举行的高层会谈中就这个问题签署协议,尼克松总统仍然是非常感兴趣的。但是,我注意到了一个情况,在这次会谈中,基辛格在这个问题上仍然是毫不妥协。此外,在证明就这个问题达成协议的好处的时候,对于制止军备竞赛这个重要的任务,他事实上是避而不谈(还要考虑到,现在白宫向国会提出了新的发展军备的计划)。
显然,在签署协议这件事情上,基辛格特别注意的是政治问题,甚至还有宣传问题——一定不能辜负国际舆论(以及美国的国民)的希望,“在苏美经历这么长时期的谈判之后,他们期待着签署这样的协议,或许,他们还会夸张地把这些谈判看作是苏美关系的晴雨表”。基辛格认为,如果不能就这个问题达成协议,那么在莫斯科高层会谈的时候就会引起“不必要的投机行为”。
最近,美国政府采取了一些措施,来加强军备竞赛,其中包括加强在战略武器上的军备竞赛,尼克松总统最近的发言以及他刚刚宣布的新的军事预算计划,都证明了这一点(新的军事预算计划比去年的军事预算增加了60亿美元,在战略武器上的投入增加了16%),我对美国采取的这些措施进行了批评。我特别强调说,美国政府在采取这些措施的时候,苏联没有增加自己的军费,这从苏联新的军事预算计划中可以看出。更不要说美国采取的上述措施与苏美谈判的主要任务(限制在战略武器上的竞赛)明显相矛盾。我问基辛格,尼克松政府的真实想法是什么呢?
基辛格尽力解释说,美国军费总量得到了增长,这主要是由于军人们的工资提高了。但是后来他不得不承认,美国现在确实计划增加自己的战略武器,特别是增加海基战略武器,在考虑恢复建设新的、更加先进的载有导弹的核潜艇。
基辛格尽力为美国新的核潜艇建设计划进行辩护,他说,在维也纳—赫尔辛基举行的谈判中,就这个问题进行的谈判没有取得进展,苏联“总是拒绝”关于暂时冻结海基战略导弹的提议。6个月前,尼克松总统秘密地向苏联领导人提出的关于“相互均等”的建议是个“非常真诚的、具有建设性的”建议,该建议希望通过对建造新的载有导弹的核潜艇进行限制,使两国这类舰艇的数量都为41艘(不包括不太先进的潜艇,如果苏联愿意的话,他们可以保留这些不太先进的潜艇),对于这个建议他基辛格是特别同意的,“但是莫斯科没有对这一建议作出任何回应,尽管尼克松总统个人认为这一建议非常重要”。
基辛格详细地说,尼克松执政以来,也就是在3年的时间里,为了苏美就限制战略武器进行的谈判取得积极的成果,美国没有建造一艘新的核潜艇。但是苏联在不断地加强载有导弹的核潜艇的建造——关于这个问题尼克松总统在最近同苏联外长会谈的时候已经详细地谈论过了,考虑到这种情况,美国政府现在决定恢复建造新的载有导弹的潜艇,以便在这一非常重要的战略领域不落后于苏联。关于这个问题我们以前也对苏联外长说过。
基辛格试图把美国加强军备竞赛的责任几乎都推到苏联身上,对此我表示了坚决的反对。我再次批评了美国在这些问题上的立场。我说,美国政府的这种做法未必能够为正在进行的、就限制战略武器问题举行的谈判营造良好的氛围。
随后,在我同基辛格就这个问题举行的讨论中,美方在限制战略进攻性武器问题上的立场大致可以被归结为如下几点:
基辛格说,在这个问题上美国愿意接受如下方案:
1.他们提出的关于美国和苏联都把他们最新的和较新的、载有导弹的核潜艇的数量都限制在41艘的建议仍然有效。苏联可以建设和改造自己最新的载有导弹的潜艇,使其达到41艘。到时候美国所拥有的这样的核潜艇的数目也将不超过41艘,这指的是,这41艘潜艇不包括那些将被逐步卸除武装的潜艇,随着新的建设的开展,这些潜艇将由新的潜艇来替换(这指的是美国的载有导弹的潜艇在结构上不太先进)。当然,在不超过41艘潜艇的情况下,苏联也可以用他们最先进的潜艇来替换这些潜艇。简单地说,两国的舰队都可以拥有数量相等的比较先进的潜艇,在不超过商定的潜艇数目的情况下,都可以对这些潜艇进行改造。基辛格确切地说,美国现在才决定建造新型潜艇,在1975—1976年之前,这些新潜艇将不会服役。
2.按照两国在战略导弹问题上确定的同一标准暂时冻结进攻性武器,无论是陆基进攻性武器还是海基进攻性武器(在这种情况下某一方潜艇的最大数目为41艘或商定的其他数目)。
3.第三个方案是,确定两国最多可以拥有的陆基和海基进攻性导弹的数目,但是在不超过这一数目的情况下,根据自己的意愿,每一方都有权利把一种类型的战略进攻性武器转化为另一种类型的战略进攻性武器;尽管这个方案他们美国人也不愿意接受。基辛格仍然断言,如果在就反导问题签署协议这件事情上,在关于暂时冻结进攻性武器问题进行的谈判中不考虑关于载有导弹的潜艇这个问题,那么,他们是不能同意进行这样的谈判的(关于这个问题,他说,如果只是同意冻结一个陆基导弹基地,使其停留在目前的水平上,那么苏联在这类武器上将会占据比美国多几百枚导弹的优势,这是美国国会未必会同意的)。
然而,如果把美方在两个月之前所说的话进行比较,把美国在宣布建造新的导弹潜艇计划之前所说的话进行比较,现在看起来,基辛格的上述谈话已经不再显得那么绝对了。
看起来,不能排除的一种情况是:在5月份莫斯科高层会谈之前,白宫不会提出,必须把载有导弹的潜艇列入需要暂时冻结的进攻性武器的范围,这是由于美国现在已经提出了建造新型潜艇的庞大计划。
在反导防御问题上,基辛格所谈论的仍然是美国以前的立场,在维也纳举行谈判的时候我们就已经知道了这些立场。
第五,在会谈的过程中,基辛格多次谈到越南问题。给人的感觉是,从美国国内政治方面来说,对于尼克松政府来说,越南问题仍然是较为迫切的一个问题,引起了白宫的密切关注。
令基辛格特别担心的是,在尼克松对北京进行访问前夕,或者是在他对莫斯科进行访问前夕,北越和南越的人民解放武装力量会直接发动大规模的军事进攻。基辛格说,正如他们曾经多次声明的一样,他们将会使用新型的轰炸机对这样的进攻进行反击,其中包括对越南民主共和国的领土进行轰炸,所采取的这些行动都将会给尼克松对北京和莫斯科进行的访问带来严重的影响,或者会完全破坏这些访问。
但是,对于尼克松能否对中国进行访问,基辛格表现出了更为强烈的担忧,这是由于距尼克松对中国进行访问的日期——2月21日的时间已经很近了。基辛格说,而且,2月份是越南最为干旱的一个时期,比较适于开展大规模的军事进攻,而到5月份的时候雨季将会来临,这会妨碍开展积极的军事行动。
在一番含糊其辞的谈话之后,基辛格非常明确地表示,遗憾的是,他们白宫现在有一种非常强烈的印象:在尼克松对北京进行访问前夕,苏联事实上会鼓励北越对南越采取大规模的军事进攻。
基辛格说,中国人也有这样的印象,中国人要基辛格把他们的这种印象告诉华盛顿。从基辛格的一些言谈可以看出,他同周恩来讨论过这个话题。
基辛格说,有一些“征兆”使他们和中国人得出了这样的结论,关于这些“征兆”,基辛格举出了一些事例:苏联报刊急剧加强了对中美接近的批评,并且特别暗示,中国和美国背着越南相互勾结。
关于苏联增加了对北越的军事援助这个问题,前不久莫斯科公开地进行了解释,他们对这个问题进行解释所选择的时机“不能不使人考虑一下,这件事情是否是被安排在了完全特定的时间(尼克松对中国进行访问前夕),这是否会鼓励河内采取一定的行动”。
对于基辛格提出的这些看法,我坚决予以否认,并且我强调说,认为我们有这样的意图,认为我们要破坏尼克松总统对中国进行访问,这完全是对我们恶意的中伤,我们坚决反对。我接着说,基辛格就这个问题发表的这些言论使人感到非常奇怪,这理所当然地会使人产生一个问题:作出这样的判断的目的是什么呢?
同时我也强调说,我们对越南问题的原则立场,其中包括我们对越南民主共和国进行援助的原则立场,世界各国和美国政府都早已知晓,在我们的原则立场中没有任何秘密,也将不会有什么秘密,我们的原则立场没有改变,并且不会取决于是干旱的季节还是多雨的季节,也不会取决于美国总统要到哪儿进行访问。
看起来,基辛格显得有些尴尬,于是就匆忙地结束了这个议题。但是,在我们的会谈快要结束的时候,他企图巧妙地解释他所说的那些话,他说,他之所以提出这个问题是由于担心“中国人恼怒起来”,并“唆使河内采取危险的行动”(在尼克松对莫斯科进行访问期间)。
我马上说,像以前所说的那些话一样,他所说的这些话的潜台词就是中伤我们,我再次拒绝接受这些解释。
在会谈中基辛格确认,在对北京进行访问期间,他同周恩来详细地讨论了关于和平解决印度支那这个问题,其中包括关于和平解决越南的问题。基辛格说,他们向北京详细地阐述了他们就越南问题提出的建议,这些建议他们以前也向我们阐述过。
基辛格说,周恩来承诺同北越领导人讨论美方提出的这些建议。但是,不排除的一种可能是,越南人会认为,中美就越南问题在北京进行了如此详细的讨论,他们会很难接受这件事情。基辛格说,但是,他和尼克松总统没有打算绕开越南人讨论越南问题。
基辛格说,他同周恩来就这个问题进行了讨论,其原因在很大程度上是由于,去年下半年,他基辛格同河内代表之间的秘密联系被中断了。在11月份,曾经多次就关于在巴黎举行秘密会谈的日期达成了协议(最后一次商定的时间是在11月20日举行秘密会谈)。但是所有这些协议都被北越人给破坏了。此后就再也没有进行过会谈。
基辛格说,尼克松总统愿意在访问北京之前,通过他基辛格继续同河内进行对话。到访问北京的时候再同中国人讨论越南问题,将难免会失去意义。而他们现在这样做“将会在事实上减少河内的恼怒”。
基辛格说,为了同越南人继续进行谈判,他基辛格愿意前往任何一个城市同黎德寿或者同北越其他重要的领导人进行谈判,而不仅仅是到巴黎去(看起来,他也不反对到河内去)谈判。
基辛格说,受尼克松总统的委托,他希望苏联政府能够考虑把他所说的这些话都转告给河内,其中包括他们愿意同北越人再次举行秘密会谈的讲话。关于这些问题,他们白宫愿意听取北越领导人的任何想法。
在谈论越南问题的时候,基辛格说,如果北越同意释放全部美国战俘的话,他们打算向河内提出关于他们完全从南越撤军的确切日期。至于其他的问题,可以在另外举行的谈判中进行讨论。
基辛格说,对于他们提出的关于现在恢复他们之间进行的秘密谈判的建议,如果越南民主共和国政府对苏联作了答复,请求我们把这些答复通报给他们。
第六,印巴冲突问题。尽管基辛格对他们在印巴冲突期间实行的政策和采取的行动进行了详细的辩护,但是他也承认,我们采取的行动是正确的,并且取得了成功。基辛格也承认,在印巴冲突期间,他们采取的一些措施是轻率的,对我们采取的行动反应过度。
同时基辛格也说,导致他们采取上述轻率的措施的原因,部分在于以下这个情况:当时他们从莫斯科得到了一个“重要的答复”,说的是印度不打算进攻西巴基斯坦(这个答复使“尼克松总统松了一口气”),几个小时以后,印度大使受印度政府的委托澄清说,当他们谈论关于西巴基斯坦的某个问题时,克什米尔问题不在其列;但是白宫认为,苏联就这个问题作出的答复是包含了克什米尔问题的,准确地说,克什米尔是西巴基斯坦的一部分。
基辛格说,随着时间的推移,美国将会承认孟加拉国,但是现在还不能承认。
第七,苏美贸易问题。对于苏美发展贸易关系问题,白宫在原则上是积极看待的。对于斯坦斯部长对莫斯科进行的访问所取得的成果,他们是积极地看待的。但是,随后基辛格试图把他们今后在这个问题上实际采取的措施,其中包括对以曼茹洛同志为首的代表团前不久在华盛顿谈判中取得的一些成果的落实,同我们两国就政治问题举行的谈判结合起来。这暗示,他们希望,我们在越南问题上能够给予他们很大的帮助。
基辛格的这个观点遭到了我的坚决反对。关于这个问题他没有坚持再讨论下去,而是答应,在2月10日之前,白宫将会决定,是否同苏联贸易代表团继续在华盛顿进行谈判。但是,从基辛格的潜台词中可以感觉到,白宫打算继续控制苏美贸易谈判问题,打算把苏美贸易关系的发展同两国总的政治氛围结合起来。基辛格还回答我说,当尼克松总统到莫斯科访问的时候,他打算在贸易领域采取重大的措施。但基辛格也表示,希望同时这也能促使政治问题在莫斯科会晤中得到解决。基辛格说,他们打算在3月份派遣一个贸易代表团到莫斯科,继续讨论两国的贸易问题,为在5月份举行的高层会谈做好准备。
第八,曾透漏出消息说,美国驻联邦德国大使拉什将会被任命为美国国防部第一副部长(代替前不久离开这一职位的帕卡德),在这次会谈中基辛格证实了这一消息。
基辛格说,尼克松很早前就熟识了拉什,他认为,把这样亲近尼克松的人安排进国防部是有益的。基辛格认为,拉什是个“精明的活动家”,在就西柏林问题举行谈判的期间,他很好地显露出了自己的才能,能够完成白宫交付给他的一些复杂的任务。
АВПРФ,ф.0129,оп.56,п.418,д.5,л.4-14
№22932 多勃雷宁致外交部电:中美可能就越南问题达成协议(1972年1月26日)
优先发送
尼克松通过基辛格告诉我们,他们向越南民主共和国政府建议,恢复美越之间的秘密谈判(这在尼克松发表电视讲话之后得到了确认,我们在1972年1月25日得到了这个建议),由此产生的一个问题是:我们要如何作出反应。
关于这个问题,或许首先应该注意以下两种情况。
一方面,美国现在提出的“新的和平建议”(声称美国和越南民主共和国应该秘密交换意见),无论是其性质还是其形式都清楚地证明:从各方面来看,白宫还没有考虑在近期内就进行秘密会谈,他们现在提出这个建议在很大程度上是出于进行宣传的目的(特别是在总统大选前出于对美国国内政治的考虑)。
另一方面,美国现在采取的战略是,更加倚重中国,他们明显希望,在尼克松对北京进行访问期间,美国能够同中国就越南问题达成协议。为此,美国人将会拿出他们的主要筹码,因为中国人非常希望美国从越南完全撤军,因此,华盛顿愿意以完全撤出美军来换取中国人的秘密支持,使美国,准确地说是使尼克松总统能够“体面地”解决越南问题,不给他在美国的总统选举运动中制造麻烦。为此,尼克松无疑也愿意秘密地对中国作出一定的补偿。
对于我们和越南人来说,美国人现在提出的这个建议(向我们提出,并请求我们把该建议转告给越南民主共和国)的重要性正在于此。当然,在这个问题上存在着一定的外交斗争。不能完全排除事态会按上述提出的方向发展。
现在出现的一个新的情况是,北京和华盛顿之间可能就越南问题达成协议。我认为,在这种情况下,我们就会面临如下问题:对于美国和越南就越南问题进行接触,我们现在是否应该改变我们的政策。
我们认为,白宫对我们发出的呼吁使我们现在可以利用时机,在把美国人提出的建议转告给越南人的时候,首先同他们讨论关于越南今后的政治和军事计划问题。
我们应该力求达到这一重要的目的,以便通过同越南人进行讨论,使北京在对美国所提的建议的实质立场上更加紧密地站在河内一边,防止中国人随后在同尼克松举行会谈时耍什么阴谋。
我们的战术目的或许可以是,向河内提出在三边的基础上(越南民主共和国、苏联和中国)进行讨论,根据越南目前的局势,并考虑到尼克松对北京和莫斯科即将进行的访问制定一个共同的政策,对尼克松政府施加压力。
或许,还可以采取其他的战略,但是所有这些战略都应该是:尽可能地阻止白宫和北京在越南问题上勾结起来,在考虑到越南民主共和国的利益和苏联在越南的利益的同时,不要关上我们同华盛顿进行对话的大门。
因此,可以说,无论越南民主共和国将会作出如何答复,我们应该向河内转告尼克松提出的建议,应该向白宫转告越南民主共和国对美国所提建议作出的反应,这些都将证明:华盛顿会认为,在解决印度支那问题上,我们仍然起着非常重要的作用,对于解决这些问题,我们仍然不会袖手旁观。所有这些都是我们在同美国的关系中的重要因素,也是我们在即将举行的莫斯科高层会谈中要考虑到的。
根据越南民主共和国对美国所提建议,作出的答复的性质以及今后越南局势的发展,我们可以以勃列日涅夫给尼克松写信的形式对美国提出的建议作出答复,同时也对美国总统前不久给勃列日涅夫的信件作出答复。
А.多勃雷宁
报告:1972年1月25日多勃雷宁同志报告了他同基辛格举行的会谈。会谈中基辛格说,他受尼克松总统的委托,通过黑格将军向苏方通报了关于尼克松即将就越南问题发表的讲话,也向苏方转交了尼克松总统给勃列日涅夫的私人信件、尼克松总统即将发表的电视讲话的文本以及前不久美国向越南民主共和国秘密提出的总的建议的最后文本。
АВПРФ,ф.59а,оп.7,п.13,д.9,л.120-123
№22933 多勃雷宁与基辛格会谈纪要:美苏高层会晤、中美会谈等(1972年1月28日)
1月28日,同基辛格举行了例行的会谈,这次会谈是在进行上次会谈的时候商定的。
1.基辛格说,尼克松总统对勃列日涅夫在1月17日的来信进行了仔细的研究。
基辛格接着说,尼克松总统正在准备给勃列日涅夫回信,在最近的10天里,他都在准备这件事情,尼克松总统请求事先转告苏共中央总书记,他同意勃列日涅夫来信中提出的主要思想:现在应该开始做一些具体的工作,为5月份举行的高层会谈做好准备。
基辛格接着说,根据他的提议,他同尼克松总统就莫斯科高层会谈将要签署的文件(这些文件可能会成为莫斯科高层会谈的成果)事先交换了意见。
基辛格说,尼克松总统认为,关于莫斯科高层会谈,应该及时准备好相关文件的文本,并委托基辛格代表美国方面做这件事情。
基辛格接着说,他们认为,关于高层会谈的最终文件应该是联合公报,这份联合公报应该包含在高层会晤中讨论的问题,特别应该包含就那些讨论的问题所达成的协议。
或许,关于一些问题,应该在高层会谈中准备单独的文件。基辛格说,尼克松总统非常希望,5月份能够在莫斯科签署关于限制战略武器问题的协议,两国政府从去年5月就开始就这个问题举行谈判,为达成协议双方都付出了很多努力。
基辛格说,此外,在莫斯科高层会谈期间,还可以就美苏两国关系的原则发表共同的声明(就像勃列日涅夫和蓬皮杜发表的共同声明的精神一样,当然,两国在发表这一共同声明的时候,要考虑到美苏两国都是世界上最强大的国家,两国发展关系具有特别的性质;但是基辛格说,这是他最近才产生的想法,他事先说了出来,但是,关于这些想法,“尼克松总统还没有考虑成熟”)。
他们想得到我们对这个问题的看法。
基辛格说,在他们从北京返回之后,就可以逐步开始着手准备两国高层会晤所要签署的文件的文本。
我答复基辛格说,对于美方阐述的上述原则,我们是可以接受的,然而,应该把这些原则具体化,并就一些实质性的问题达成协议。我也答应愿意开始着手这方面的工作。2.关于限制战略武器问题,基辛格请求我向苏联领导人转告尼克松总统提出的如下建议:在莫斯科高层会晤前夕,就限制战略武器问题在维也纳举行的谈判即将中止,在此期间仍然可以努力就所要签署的协议的原则和框架达成秘密协议,待恢复谈判的时候双方代表团再就这些问题制定出方案,并且随后在5月份举行的莫斯科高层会谈中就这个问题签署协议。
关于就限制进攻性战略武器达成协议的问题,基辛格又对美国的立场进行了说明,他的这些说明都是根据他在上次的谈话中就这个问题提出的三个方案谈论的,只是又确定了一些问题(其中包括,关于他在上次谈话中提出的第二个和第三个方案,要在具体的日期之前,比如,在今年上半年对进攻性武器的层次进行确定)。
他现在就愿意同我们讨论这三个方案,但是还要秘密地进行讨论,他期待着我们对这个问题作出答复。
基辛格指出了美苏两国现在在反导防御问题上仍然存在的一些分歧,他说,美国的专家们注意到美国代表团成员尼采在维也纳同苏联代表进行的讨论中提出的一个想法:如果苏联最近就反导防御问题提出的建议(美国保留一个反导基地;苏联保留对莫斯科进行防御的基地,另外还要建立基地防御我们其他的战略导弹)能够允许美国在自己的洲际导弹基地部署安保反导体系以及哈尔德赛特反导体系的话,那么双方就能够在苏联所提出的建议的基础上达成妥协。
当然,苏联方面也有这样的机会。
基辛格说,如果尼采对苏联所提出的建议的理解是正确的话,那么他们会好好地考虑这些问题。基辛格突然说,美国最优秀的一些专家认为,无论是美国的安保反导系统,还是苏联类似的反导系统,它们的技术目前都还不完善,还不能对它们的洲际导弹基地进行有效的防御。美国最近采取了一些行动,加强对反导发射井的保护,这能够在某种程度上加强洲际导弹防御体系的能力,尽管这还不能完全保证。
基辛格说,他现在还不是正式地提出这个建议,关于这个建议白宫还没有作出具体的决定。但是,如果我们在维也纳的谈判代表的谈话反映的是苏联领导人的想法,如果他们对苏方代表的谈话理解正确的话,那么他基辛格将会准备一份更加详细的建议,以便达成妥协。如果他们的理解有误的话,白宫将不会再考虑这些问题,尽管美方代表团的一些成员现在认为,或许,还是有可能达成协议的。
基辛格说,简短地说,他请求非正式地答复他,他们对苏方立场的理解是否正确。他绕过美国在维也纳的谈判代表直接向我们提出这个问题,是由于他考虑到美苏高层会谈的日期日益临近,双方寻求途径,达成妥协的时间已经不多了。
3.在同基辛格会谈的时候我再次提出了近东问题。
我问基辛格,什么时候他才能提出就近东问题进行谈判的时间表(他曾多次承诺,将向我提出就近东问题进行谈判的时间表,类似这些话是在就柏林问题进行谈判的时候对我说的),以落实尼克松总统和葛罗米柯在去年秋天达成的协议。
基辛格回答说,他对这个问题进行了长时间的考虑,并同尼克松总统进行了讨论,在果尔达·梅厄去年底对华盛顿进行访问的时候,他们也采取了一些措施,但是实际情况仍然是,在这个问题上他们遇到了很大的困难,比起就柏林问题进行的谈判所遇到的困难,这些困难还要更大一些。
基辛格接着说,在果尔达·梅厄对华盛顿进行访问的时候,尼克松总统和他曾明确地对果尔达·梅厄说,在尼克松同苏联领导人于今年5月份在莫斯科举行会谈的时候,无论怎样都将会讨论近东问题,因此,他们想听听以色列对调解近东问题的具体想法。关于这个问题果尔达·梅厄非常坦诚地说,现实的逻辑是,无论以色列是否提出自己对这个问题的看法,在莫斯科进行的高层会谈中必定都是要讨论这个问题的;关于这一点以色列总理也不怀疑。因此,为了以色列的利益,她将秘密地向白宫阐述自己对调解近代问题的看法和建议。
因此,他们同果尔达·梅厄进行了长时间的会谈(并且,基辛格也使她明白,美国会考虑满足她提出的关于向以色列提供武器、其中包括提供幻影飞机的请求),白宫认为,她现在不会反对在莫斯科高层会谈中讨论近东问题,而是将会认为,在莫斯科高层会谈中,具体讨论的将主要是关于就签署中期协议和“苏伊士方案”达成协议的问题,该协议同最终调解近东问题密切相关。果尔达·梅厄答应就这个问题向华盛顿提出更加详细的建议。
现在西斯科代表国会正在同以色列驻美国大使拉宾就这个问题举行谈判,但是西斯科(和罗杰斯)还不知道,他们谈论的是关于今后同莫斯科进行交换意见的问题,而他们只是在准备恢复国会在以色列和埃及之间的中介作用。特拉维夫曾经承诺的、所要提出的具体的建议他们还没有得到,他们希望能够尽快得到这些建议。
基辛格说,他们没有期望西斯科和罗杰斯举行的会谈能够达成协议,但是,他自己还不愿进行干涉,这就像在就西柏林问题进行谈判的时候一样,他不愿干涉国会的“有效工作”,而且,国会也没有解释进行这次谈判的原因,这就使美国的一些领导人和国会议员产生了怀疑,并且他们想知道,事实上发生了什么事情。
因此,经尼克松总统同意,他基辛格愿意给国会一个机会,继续“尝试着”进行谈判,而同时他将同我们秘密地进行非常务实的会谈,这些会谈是有望最终达成协议的,尽管他现在还不能完全保证最终达成协议。在进行这些会谈的时候,他将考虑到果尔达·梅厄直接向白宫提出的想法和建议,关于这些想法和建议国会将不会完全知晓(国会知道的只是以色列初步提出的建议,而不会知道以色列的后备方案和计划)。
我提醒基辛格说,葛罗米柯在同尼克松总统和同他基辛格进行的谈话中曾明确地强调说,中期解决方案和最终调解方案之间必须有紧密的联系。如果不考虑这一点,苏联和美国之间就不能达成协议。目前基辛格谈论的只是关于中期解决方案。我问基辛格:根据他的安排,苏美什么时候才能开始详细地讨论关于最终调解方案的问题?莫斯科高层会谈在5月份就要举行了,毕竟,在这次会谈中不可能只讨论关于调解近东问题的中期方案,而不讨论关于调解近东问题的最终方案。
基辛格回答说,以色列总理在白宫同我们讨论近东问题的时候,她所谈论的确实主要是关于中期方案的问题,她明显不愿意讨论关于近东问题的最终调解方案,尽管就最终调解方案问题她仍然谈论了一些看法。基辛格接着说,但是,尼克松总统和他本人没有坚持这个问题,以便能够找到途径就近东问题达成协议,并最终解决近东问题(在葛罗米柯访问华盛顿的时候就谈到了这个问题),以便不给美国亲以色列的势力以口实来制造麻烦,反对以此来解决近东问题。同时,他们也在尽力通过果尔达·梅厄搞清楚以色列政府对最终调解近东问题的立场,因为他(基辛格)了解他同苏联外长所达成的协议的实质。
基辛格继续说,同时,根据他们所掌握的材料,萨达特总统很快将会到莫斯科进行访问。他想知道,莫斯科是否将会同萨达特总统讨论关于葛罗米柯同他基辛格在华盛顿会谈时提出的那些想法,让他基辛格知道这一点非常重要。
基辛格说,当然,在这种情况下,苏联领导人会自己决定怎么做,但是白宫现在仍然还有些怀疑:在必须保守他们所谈论的那些话的秘密之前,埃及人能否向报刊保守这些秘密。因此,美方认为,在苏联和美国基本上达成协议之前,他们所讨论的问题只能在两国的范围内进行,这样做比较好一些。
基辛格接着说,但是另一方面,如果苏联领导人信任萨达特,现在就把他们所谈论的那些话全部都告诉了他,那么白宫也不会特别反对;如果苏联领导人这样做的话,他们只是请求在萨达特对莫斯科进行访问之后把这一点告诉他们。
然后,我们又回到了关于就近东问题达成中期协议的问题,关于“苏伊士方案”问题。基辛格说,在同苏方在莫斯科举行谈判的时候,埃及总统可能会谈到的一个问题是,关于埃及对今后讨论中期方案的态度问题,他们想知道苏联领导人对这个方案的态度和反应。
从逻辑上进行判断,在这种情况下,萨达特的态度将有三种可能。如果苏联领导人想知道白宫对萨达特在这三种情况下的态度所采取的立场的话,那他基辛格想提出一些建议。
1.萨达特可能会说,他不愿意再借助美国的帮助讨论“苏伊士方案”。
白宫将不会特别反对埃及方面作出的这个决定,因为埃及方面的这个决定只是意味着,要中断的谈判只是国务院(西斯科和罗杰斯)再次积极准备进行的那些谈判。而他们白宫方面将会通过秘密渠道同莫斯科继续讨论“苏伊士方案”,正如协议中所规定的那样。2.萨达特可能会征求苏联方面的意见:他是否应该通过美国继续就苏伊士运河问题进行谈判。
当然,苏联领导人将会自己决定,对萨达特作出什么样的答复。关于这个问题他们白宫只是想提出如下看法:可以向萨达特建议,让他不要对举行新的谈判的建议采取坚定的态度,在答复美国的时候同意继续进行谈判,但是可以反问美国国务卿,在就“苏伊士方案”继续进行谈判的时候,美方将提出什么具体的建议,并以此作为基础进行谈判?美国所提的具体建议中具有什么新的内容?然后再决定萨达特是否愿意进行新的谈判。3.如果萨达特说,他仍然愿意继续进行谈判,那么白宫当然是不会反对的。
基辛格再次强调说,如果局势的发展是向着上述三种方案中任何一个方案指定的方向发展的,那么美国都不会反对。(在作出上述建议的时候,基辛格明显考虑的是关于宣传方面的问题:应该使开罗采取什么样的措施,以便使他们对社会舆论有所交代。)
基辛格的谈话仍然使人感觉到,由于一些原因,尼克松和基辛格现在还不是非常急于对调解近东问题的最终方案进行具体的讨论。从各方面看来,他们将会把就这个问题进行的讨论拖到莫斯科高层会谈临近的时候再进行。
如果从基辛格上述所说的“安排表”进行判断,在就中期协议问题或者就“苏伊士方案”进行的讨论中,美国国务院现在实际上能够向埃及人提出的建议很少,因为,如果他们也向以色列作出让步的话,那么,白宫就打算通过秘密渠道同我们进行交易。
关于萨达特对中期协议问题可能采取的态度,基辛格提出了上述三种情况,这在很大程度上反映了美国的国内斗争,各派之间企图互相拆台,基辛格和国务卿现在的关系就是这样。近东问题同美国国内的选举运动紧密结合在一起,这使白宫的行为非常谨慎,比他们在就西柏林问题上采取的行动还要谨慎。从中还可以看出,基辛格在近东问题上的优柔寡断。总的来说,确定和实施美国关于近东问题的时间表绝非是他基辛格一个人所能够做到的。
还有一种情况会对这个问题产生消极的影响,这就是从总体上说,我们觉得,白宫现在对近东事务不太着急,或许,这一方面是因为他们相信以色列仍然没有对美国的利益造成威胁,如果再发生新的军事冲突的话,以色列将在军事上占据优势。
另一方面,尼克松是知道我们关于解决近东问题的想法的,知道我们为协调这个问题将要采取的方法,他也知道,我们对近东地区军事局势的态度是负责任的,不会允许这一地区现在爆发新的军事冲突,这就使得他更有理由不把注意力首先放在近东问题上,使得他为了自己的选举运动而不愿破坏美国同以色列的关系,不愿破坏他同美国国内支持以色列政策的那些较具影响的利益集团之间的关系。
在这种情况下,如果萨达特对莫斯科进行访问之后出现了一些新的因素,推动白宫更加积极地采取一些措施来解决近东问题的话,那么,这将有助于我们在同华盛顿进行接触的时候,使和平解决近东问题再次被重视起来。
为此,我们认为,我们应该在两方面同时采取行动,并协调这些行动。
——一方面,在我们今后通过秘密渠道进行谈判的时候,向尼克松转达我们对调解近东问题提出的修改意见(在我们以前提出的计划的基础上,根据最近两年出现的一些新的因素制定出来),以便使白宫同我们就这个关于调解近东问题的修改意见(关于这个修改意见的内容,大使馆已经提出了相应的建议)进行更加具体的会谈。
——另一方面,以相应的方式向尼克松展示,以色列和美国在近东事务上并非总是那么一帆风顺,继续拖延近东问题的解决只会增加一些令人担忧的因素,加快事态向不良的方向发展,其中包括可能会加强我们在近东地区的军事存在(为了显示这一点,看起来较好的做法是同萨达特达成协议,好像苏联正积极行动起来,以便在埃及建立苏联的海军基地或者其他类似的军事基地,这是美国人最为担心的;众所周知,美国人现在明显加强了行动,增强自己在地中海地区的军事存在),而这正是他们所担忧的。
我们认为,应该通过某种途径,使白宫知道我们所要采取的上述行动的意图,这将有助于推动白宫加快同我们就近东问题进行秘密会谈,并且,进行这些秘密会谈是双方都已经商定了的。
同时,还应该对基辛格施加压力,以便就近东问题开展更加具体的对话,但是,在同他们进行谈判的时候不能给他们留下这样一种印象:苏联对有关近东的所有问题都显得非常关切。
4.在会谈的过程中基辛格向我通报说,尼克松总统打算在2月16—17日从华盛顿飞赴北京,中途在夏威夷群岛停留2—3天,在关岛停留一天,以便适应巨大的时差,集中精神进行即将举行的谈判,并抛开日常繁琐的事务。
基辛格说,现在正在同中国人确定关于会谈记录的细节问题,双方已经商定,中国北京政府将为美国总统举办盛大的欢迎宴会,而尼克松总统随后也将为中国领导人举办答谢宴会。基辛格说,但是,双方还没有商定这些宴会是否纯粹限于在美国和中国双边之间进行(因为中国和美国之间还没有正式的外交关系),还是邀请驻在北京的外交使团也参加这些宴会。现在由中国方面来决定这个问题。中国方面要首先举办宴会并应该解决这个问题。白宫同意任何一种解决方案。应该注意基辛格的如下谈话:关于尼克松对中国进行访问的最后文件,他们和中国人基本上已经准备好了。这些文件不像是关于尼克松对中国进行的这次访问的成果,也不像是关于尼克松同中国领导人举行的会谈而发布的共同声明。根据基辛格的谈话,尽管关于这次访问的最后文件的一些细节问题仍然还没有解决,但是其主要内容已经商定。基辛格接着说,这次访问的最后文件事实上回答了报刊现在提到的许多问题,也回答了“那个由于众所周知的原因,我们不能公开回答的问题”:由于最近东南亚局势的发展,对于对北京进行的访问可能取得的结果,尼克松总统现在是否担心?
基辛格说,关于这些问题,尼克松总统是不愿意靠运气,也不喜欢冒险的,但是他事先也不知道他对北京进行的访问将会取得什么样的结果。现在“关于这次访问所要取得的成果已经有了最低的保证”。
基辛格说,关于尼克松对中国进行访问所要签署的最终文件目前还没有涉及越南问题,但是如果这份文件中提到了越南问题,那么从各方面看来,这也将是简短的几句话,因为美国和中国很难就这个问题协商一致,发表一份共同声明。但是,双方当然会讨论关于越南问题的实质,尽管中国人声称,越南问题最终应该由美国和河内解决。
基辛格补充说,美国和中国发表的共同声明或许由尼克松和毛泽东签署,但是这还没有最后商定(这份共同声明或许也将是没有署名)。根据周恩来向白宫通报的信息,毛泽东现在正在考虑这个问题。他们美国人对于这两种方案都是同意的。
5.基辛格再次详细地谈论了美国对越南问题的立场。但是他所说的这些话基本上都是在重复他本人和黑格近来就越南问题同我们所谈论的那些话。
或许,应该注意的只是基辛格的如下谈话:无论如何,白宫都会在今年从南越撤出所有的美国军队,这只是为了让北越释放所有的美国战俘,关于在东南亚停火的问题,美国不会再提出什么条件,但是应该明白的是,美国在商定的期限内撤军,在此期间,河内不能采取任何重大的进攻行动(这句话暗指的是,他们提出的一个条件是:在今年美国总统大选期间北越不能采取重大的进攻行动)。
在就越南问题进行谈话的时候,我再次重申了我们对越南问题的立场以及我们对调解越南问题的途径的看法。
6.基辛格说,美国新任贸易部部长彼得森现在正在更加具体地对苏美贸易问题进行研究,他认为,彼得森现在在白宫是“经济事务上的基辛格”。彼得森是亲近尼克松的人,因此他将比斯坦斯拥有更大的权力。根据尼克松总统的个人请求,斯坦斯将要做的工作是:为尼克松进行的总统选举募集资金(通过大商人募集,他同大商人们有着很好的关系)。
7.关于民主党总统候选人入主白宫的机会,基辛格也秘密地作了评价。
基辛格就这个问题作出的评价可以被归结为如下几点:
现在比较有胜算机会的是麦斯基参议员。汉弗莱次之。汉弗莱已经为他进行总统选举募集了大约20亿美元(这些钱主要来自他的有钱的朋友)。但是尼克松个人认为,汉弗莱在政治上已经是在走下坡路了。无论怎样,尼克松都“绝对相信”,如果他被提名为民主党总统候选人的话,他一定能够打败汉弗莱。
同麦斯基进行的竞争将会比较困难。麦斯基是个没有经验的人,过去也没有犯过什么大错,而主要的是,“他在电视上的形象较好”,这在美国的国内条件下非常重要。麦斯基的弱点是:在对外事务方面没有任何经验。尼克松本人相信他会“战胜”麦斯基,尽管这需要付出一定的努力。尼克松再次竞选的主要困难在于,美国国内的通货膨胀问题和失业问题。但是,他希望今年年中之前,关于这两个领域的问题会有所好转。
白宫认为,肯尼迪确实已经决定今年不担任候选人。而至于其他的候选人(麦戈文、杰克逊、林赛、哈特基等人),尼克松将“不会把他们视为对手”。我同基辛格商定在2月4日星期五我们再举行下次例行会谈。
А.多勃雷宁
АВПРФ,ф.0129,оп.56,п.418,д.5,л.22-35№22934 多勃雷宁与基辛格会谈纪要:通报尼克松访华的成果及印象(1972年3月1日)
应基辛格的邀请,今天,3月1日在白宫同基辛格举行了会谈。
1.基辛格援引在尼克松总统对北京访问期间我们通过黑格将军向美国方面转达的通报说,尼克松总统请求向勃列日涅夫和苏联其他领导人转达他个人的一个保证,他完全同意苏方的如下主要立场:如果双方都确实希望在即将举行的莫斯科会晤中,建设性地解决两国存在的问题,那么,他相信这次会晤将会是非常富有成果的一次会晤。
然后,基辛格详细地谈论了这个问题,但是他的主要思想仍然是他上述所表明的立场。在就这个问题进行的会谈的最后,基辛格说,下周尼克松总统将会对我们发出的呼吁作出书面的答复。
在就这个问题进行的会谈中,我再次从总体上向基辛格阐述了我们在这个问题上的原则立场,并强调说,莫斯科非常重视这个问题。
2.基辛格谈论了尼克松对中国进行的访问所取得的一些成果以及他对这次访问的印象。
在会谈开始的时候,我故意不提出关于他们对中国进行的访问这个问题,尽管从各方面看来,基辛格在期待着我马上就提出这个问题。
后来基辛格忍不住说,或许我们希望知道他们对中国进行的访问所取得的成果。
我回答说,在他基辛格对北京进行访问之前,曾主动对我们说过,在他返回之后将把他对这次访问的印象告诉我们。如果他现在就这个问题有一些话要对我们说的话,那么我会非常认真地听他的这些谈话。
在基辛格谈完这个问题之后,可以从中看出,基辛格就这个问题进行的谈话很不连贯,并且总是在不断地离题和重复,他就这个问题谈论的主要观点可以作如下概括(尽可能用他实际上所说的话进行概括)。
在就这个问题开始进行谈话的时候基辛格说,报刊报道说,美国好像对中国作出了重大的让步,在没有得到任何补偿的条件下就同意把台湾归还中国,这种报道是不符合事实的。
基辛格说,首先,我们在联合公报中所声明的只是我们的最终目标——从台湾撤出全部的美军。但是我们在任何时候,包括在同中国人进行会谈的时候都没有提出关于我们完全撤军的具体日期。
第二,尼克松曾明确告知毛泽东和周恩来,美国方面事实上是把台湾问题的解决同其他问题的解决联系起来的,首先是同越南问题的解决联系起来的,“尽管在最终发布的联合公报中没有提到这种联系”。这种联系的意思不是说中国人应该帮助美国解决越南问题,而是说:只要越南问题还没有最终解决,东南亚的局势仍然紧张,那么美国将“很难从台湾撤出美军”。
基辛格总结说,简短地说,我们公开承认了中国对台湾的主权,同时尼克松也非常明确地说,这个问题是同东南亚局势的总体改善联系在一起的。中国人非常清楚这一点,他们也非常清楚,美国对台湾在条约上的义务仍然有效。
在谈到东南亚的局势的时候,基辛格说,经过同中国人进行的长时间的讨论,现在或许可以说,两国在东南亚问题上取得了重大共识:今后关于东南亚地区问题的解决应该在该地区相关国家的政府逐步稳定的条件下进行,而首先应该通过使他们中立化来解决问题。
基辛格接着说,中国人不反对东南亚局势向这方面发展,他们非常确信这一点。在就这个问题进行会谈的时候,尼克松尽力使中国人明白,如果中国试图侵略东南亚地区的某个国家,美国将不会袖手旁观,到时候中国人将不得不“再次同美国发生冲突”。
基辛格再次说,但是美方同意使该地区中立化。或许,今后可以在这一基础上尝试着就东南亚的地位问题达成协议,当然,苏联应该参与进来,因为我们非常清楚,苏联的作用和影响不仅是全球性的,而且在东南亚地区也具有重要的作用和影响。
基辛格还说,如果今后能够就东南亚的中立化问题达成协议那就好了,但是他没有就这个话题再深入谈论下去。
关于越南问题,基辛格说,他们同中国人就这个问题进行了长时间的谈判,其中大部分时间,主要是用于双方相互阐述和解释自己在这个问题上的原则立场,在谈判中,尼克松没有向中国人提出任何新的建议。“我们向中国人阐述的立场都曾经详细地告诉过苏联方面。”
基辛格说,中国人的立场也没有明显超出北京曾公开阐述过的那些立场的范围:支持越南民主共和国和越南南方民族解放阵线。
关于中美双方就越南问题在北京进行的讨论,从基辛格的谈话中或许可以看到一个令人感兴趣的因素。基辛格说,他们最后明确地对中国人说,“正如在此之前对您所说的一样”,如果北越现在(也就是在美国总统大选期间)能够采取一定的灵活政策,那么在越南局势今后的发展中将不会遭到美国方面的重大干涉,就能够使北越人在两年、最多三年的时间内事实上得到南越,北越现在坚持要从美国得到南越,但是尼克松总统现在还不能让他们得到。基辛格说,通过军事手段解决问题对河内也没有好处,这只会使冲突持续下去。
美方还对中国人说,一旦尼克松再次当选总统(整个局势的发展都有利于他再次当选总统),他将履行对北越人作出的上述承诺。否则北越将不得不同美国再对抗四年,但是,到那个时候美国将“不会作出任何让步”。在总统大选的关键时刻,使越南局势继续紧张下去未必符合相关各方的利益。最好是“找到各方都可接受的解决办法”。
基辛格说,他们曾告诉中国人,他们可以把所有这些话都转告给河内。关于这个问题中国人没有作出任何直接的承诺,但是他们相信,中国人是会把这些话转告给河内的。
从基辛格就这个问题进行的谈话可以看出,美国坚持把越南问题看作是他们在同中国实现关系正常化的过程中的一个主要的问题。
关于朝鲜问题,基辛格只是说,或许可以说,双方都同意朝着缓和朝鲜半岛紧张局势的方向努力。用基辛格的话来说,关于朝鲜问题双方没有达成什么具体的协议。
基辛格说,中国人想从他们那里得知关于美苏莫斯科高层会谈的日程问题。
基辛格说,尼克松总统告诉中国人说,他希望同苏联就限制战略武器问题达成协议,哪怕是签署一份协定,同时,他还希望能够解决贸易问题。尼克松也向中国人指出,他希望在莫斯科高层会谈的时候能够就召开全欧会议问题达成最终的协议。
基辛格强调说,然而,关于美苏双方在莫斯科高层会晤中可能就调解近东问题达成协议这个问题,中国人完全没有提到,他们认为,这是由于他们就近东问题举行的会谈是非常秘密地进行的。
在谈到关于中国人在这些问题上的立场的时候,基辛格说,关于召开全欧会议问题,中国人没有公开说出什么消极性的看法,但是关于成立欧洲经济联盟这个问题,他们作出了非常积极的回应,他们认为这是欧洲生活中的“一件好事”,他们也不反对让美国人把他们的这些看法转告给美国在西欧的盟国。
基辛格说,关于近东问题中国人的立场仍然是:强烈要求满足巴勒斯坦民族的要求。
关于限制战略武器问题基辛格说,尼克松总统没有同中国人非常详细地讨论这个问题,这是因为中国现在的核能力同美国的核能力“没法相比”(根据美国谍报机构各方面的情报以及美国专家的评估,在尼克松的总统任期内,即使是在他的第二任总统任期内,中国的核能力都不会对美国造成任何重大的威胁)。
基辛格接着说,根据他们所掌握的最新情报,中国核导弹计划的实施仍然非常缓慢(其中的原因美国人目前还不是非常清楚),比美国最初作出的预测要落后1—2年的时间。
在会谈过程中基辛格主动说,报刊发表了许多“极具轰动效应的报道”,报道说美国和中国正在勾结起来反对苏联,所有这些报道都是不合实际的。关于这个问题基辛格谈论了很多。
关于这个问题他所提出的主要论据如下:
——根据美国从各方面作出的评估和进行的观察,要对抗苏联的话,中国在军事和经济上仍然非常落后,在中国同苏联发生冲突的情况下,如果美国答应支持中国,试图推动中国同苏联发生军事冲突,如果这样做的话,那么美国政府“完全是疯了”,更不要说中国了。基辛格说,他们知道,一旦同苏联发生了军事冲突,那么苏联将不会按照“兵对兵,将对将”的原则进行这场战争,而是会使用他现有的一切强大的力量。关于这个问题,美国最高军事指挥部早就给尼克松总统提供了一个重要的答案:如果认为,一旦苏联同中国真正地发生了大规模的军事冲突,那么苏联“必将陷入中国而不能自拔”,在现代战争的条件下,所有这些看法都没有充分的依据。如果苏联同中国确实发生了军事冲突的话,那么中国必将被打败。可以想一下,中国领导人自己是怎么看待这个问题的,尽管中国人当然也没有把这个问题告诉他们。
——基辛格还说,美国也没有承诺对中国进行重大的经济或财政上的援助,因为这种援助可能会极大地增强中国的经济力量。前不久马尔罗在同尼克松进行会谈的时候,法国曾强烈要求向他们提供这种援助,但是我们在北京就没有谈到这种援助。基辛格说,关于这个问题,只要对今后事态的发展进行观察,苏联很容易就会相信这一点,因为这种事情是隐瞒不了的。
——确实同中国人讨论了关于发展贸易的问题,但是考虑到中国的外汇能力,在今后的几年内,中美贸易的总量将会是很小的,是不能同美苏之间的贸易量相比的,特别是在举行莫斯科高层会晤之后,这种贸易量就更加不能相比了。
——他们认为,苏联和中国在意识形态领域存在争论,这是苏联和中国之间的重要分歧,在这个问题上,美国不仅不会给中国提供什么帮助,甚至还会完全相反。在中国领导人同“主要的帝国主义者——尼克松总统”进行了长时间的谈判之后,现在中国人将很难像以前那样对苏联进行指责了。基辛格说,无论怎样,在尼克松总统今后的任期内(也就是还有5年时间),即使美国还会希望一味地支持中国反对苏联,那么某种“相互勾结”的可能性是非常小的,而更重要的是,这种“相互勾结”的效果也将是非常有限的。基辛格自问道:“而且在最近几年中国人能够做些什么来对抗苏联呢?”从各方面看来,他们能做的只是在联合国辱骂你们,并利用其他类似的“机会”来刺激你们。或许,他们“将继续在边界问题上同你们争论”。
基辛格说,在北京的时候中国人曾向他们抱怨说,苏联在苏中边界集结了上百万的军队。无论是毛泽东还是周恩来都表达了对苏联这一意图的担心。
基辛格说,尼克松总统没有就这个问题进行详细的讨论,因为这涉及的是苏中关系问题,对于这个问题他是“不愿意进行干涉的”。但是,总的来说,尼克松和他基辛格都有这么一种感觉:毛泽东和周恩来真的都非常担心(不是为了宣传),担心苏联会针对他们采取一些出乎意料的行动。
根据尼克松和基辛格“对中国人的理解”,中国人的看法是:中苏即使在边界地区发生“偶然的冲突”,这也将会“直接引起”苏联方面采取更大的军事行动。从这方面来说,苏联人的举动将很难预测。而在中国政治领导人看来,苏联的军事学说是:一旦形成了严峻的局势,就不应该使自己卷入到持久的、小规模的冲突中,使未来不能确定,而是应该准备采取重大的行动,然后再果断地把这种行动进行到底,绝不半途而废(感觉这是在暗指捷克斯洛伐克事件;关于这个问题基辛格还说,中国人还向他们提到了在达曼斯基岛发生的那场冲突,他们说,在进行这场冲突的时候,苏联人对他们“野蛮地使用了”某种先进的武器,但是,基辛格说,他们没有详细地谈论这个问题)。
关于对中国进行访问的印象,基辛格说,中国全体国民的纪律性给尼克松总统留下了非常强烈的印象。他们认为,毛泽东现在仍然还控制着中国的军队、国家安全、党的事务以及国家机构,在中国仍然处于最高地位,这一点是毫无争议的。
在进行直接会谈的时候,毛泽东的个性也给尼克松留下了一定的印象。尽管可以看出,毛泽东现在明显正在衰老,但是,他的思维仍然非常清晰。毛泽东给尼克松留下的印象不像他们预先设想的那样:毛是一位激进的革命领袖,而是哲学家和实用主义者的完美结合,在推行政策和采取行动的时候,特别是在采取那些会产生重大国际影响的行动的时候他都非常谨慎。
周恩来主管中国国内的实际工作以及中国的涉外事务;尽管在各种情况下,周恩来都强调毛泽东的领袖地位,但是,他们(尼克松和基辛格)得出的印象是,在一些具体问题上,周恩来在很多方面都是自行其是,善于对毛泽东总的方针进行解释。周恩来现在是中国的“总管家”。
基辛格说,关于尼克松对中国进行的访问,他所说的这些话都只是为了向苏联领导人进行通报,他请求不要把这些信息告诉给其他人,尤其是外国人。
当然,关于同中国人举行的会谈,基辛格所说的这些话都有一定的针对性,应该从这一立场出发来看待他所说的这些话。白宫愿意把这些话告诉我们,并且要求我们对这些话进行保密,从这方面来说,基辛格所说的这些话也应该引起重视。因此,关于尼克松和基辛格对中国进行访问所取得的成果我们也举出了基辛格所说的许多原话。
3.在会谈过程中,我对苏美双方就莫斯科高层会晤的准备工作相关各个问题而举行的会谈的状况进行了总结,并提出了一些批判性的意见。
基辛格作出的答复的主要意思是,在他们对北京进行访问之后,现在,尼克松总统和他基辛格本人都能够把主要的精力放在即将举行的莫斯科高层会晤上,在今后2个半月的时间内,尼克松总统工作日程中的主要问题就是为这次会晤做准备。基辛格向我保证说,美方现在加强了对这次会晤的准备工作,在更加具体地做相关的准备工作。
同基辛格的下一次会谈将在3月9日星期四进行。
基辛格说,同我举行的这次会谈结束之后,他马上就要前往佛罗里达,尼克松总统今天早上已经到了他在佛罗里达的官邸,以便在对中国进行访问之后休息一下,并处理一下在他对北京进行访问的期间搁置下的一些事务。基辛格将在佛罗里达待到星期天。
令人非常好奇的是,在这些天里,罗杰斯国务卿会一直待在华盛顿,他将向“友好国家”的大使们通报关于同中国举行的谈判。他作出这种安排的原因最初是由于日本大使的询问,日本大使已经正式请求美国政府把尼克松对中国进行访问的成果向他们进行通报。
戏剧性的事情还在于,大家都知道,罗杰斯没有参加同毛泽东和周恩来举行的那些最为重要的谈判,基辛格是真正知道这些谈判所有细节的人,但是现在基辛格却悄然离去,前往佛罗里达去了。
4.关于美国同孟加拉国的关系问题。基辛格说,从各方面看来,这个月内他们将会正式承认孟加拉国。他们打算向孟加拉国提供大量的经济援助。
5.关于美国和印巴冲突问题。基辛格的意思是说,他们打算在这一地区采取“平衡”的政策。他们将会把主要的精力放在改善同印度的关系上,尽管这会招致巴基斯坦的严重不满。
基辛格接下来的谈话事实上是承认他们所犯下的错误:同像印度这样大的一个亚洲国家产生了对抗。白宫打算改正这一错误,并希望,“经过两年之后,能够把美国同印度的关系恢复到印度同苏联的关系那样的程度”。
总体上可以看出,美国现在正在对他们对印度实行的政策重新进行评价。从各方面来看,他们不希望把印度“推到”苏联一边,而是在尽一切努力把印度争取到自己一边,或者无论怎样使印度在苏美关系中保持中立,并同印度的一些亲美国的实业界人士更加积极地发展经济关系,美国推行的亲巴勒斯坦的政策阻碍了这种关系的发展。
6.关于近东事务。基辛格再次表示,尼克松总统希望依照他同葛罗米柯谈话中所提出的精神,同苏联领导人在莫斯科高层会谈中讨论关于最终调解近东问题的方案。
同时他也抱怨了他个人所面临的一些特殊的困难。在就西柏林问题进行谈判的时候,他可以依靠拉什大使和勃兰特·巴尔参赞,但是现在的情况却与柏林谈判不同,现在他基辛格事实上只能靠自己。他不能委托任何人来准备某一具体的建议,因为那些国会议员,包括西斯科及其领导的有经验的机关完全都不了解情况,而在美国总统大选期间,向果尔达·梅厄寻求帮助简直是不现实的事情。
因此基辛格向我们问道,能否在他同苏联外长进行会谈的基础上,提供给他一个关于今后会谈的大致轮廓,该轮廓可以成为今后同我们进行秘密谈判的基础,而最终或许还可以为莫斯科高层会谈做好具体的准备,以便使这次会谈取得成果。
我答复基辛格说,现在要做的事情不是提出一个关于今后会谈的轮廓,而是白宫要明确答复如下重要问题:美国承认1967年的边界,并采取行动使以色列在商定的期限内把所有的军队都从他所占领的领土上撤出。我问基辛格:我能否向莫斯科报告说,白宫明确地接受了这一建议。
在长时间的思索之后,基辛格说,实际上是这样的,但在形式上还有一些困难。基辛格对他所说的这些话进行了解释,他说,他相信,以色列最终会从占领的领土上撤军,尽管出于众所周知的国内政治上的顾虑,白宫很难做到这一点。他们认为,总的来说,以色列仍然会接受1967年的实际边界,“但是将对这些边界做一些不大的调整,这些调整不会引起埃及人的强烈反对”,但是,由于以色列要在1973年进行选举,让他们再承认1967年的实际边界,他们未必会接受。此外,“出于安全上的考虑”,以色列政府将会坚持以色列在沙姆沙伊赫和“距1967年边界不远的”一些战略据点的“存在”(在“完全承认埃及对这些战略据点保持主权的条件下”)。
我回答基辛格说,应该讨论的是关于以色列撤出所有的军队这个问题,而不是让他们以各种借口把部分军队留在阿拉伯国家的领土上。关于以色列的“安全考虑”,那么他们不应该通过占领领土来获得安全,而应该通过公正地最终解决近东问题来得到安全。
我说,关于苏联方面的立场,他基辛格无疑是非常清楚的。当苏联外长在华盛顿进行访问的时候就已经表明了苏联的立场,而且他基辛格也曾经参加了就这个问题举行的会谈。
基辛格确认了我说的话,并且说道,他应该对整个近东问题再好好考虑考虑,并同尼克松总统举行会谈,然后再制定今后的方针。或许,2—3周之后,他将准备就整个近东问题再次同我交换意见。
我对基辛格的答复是,离莫斯科高层会晤剩下的时间已经不是那么多了,或许,我们应该加快速度,以便为莫斯科高层会晤达成相关的具体的协议奠定基础。
基辛格说,他明白这一点。
7.在会谈快要结束的时候,基辛格请求我们尽快答复他们提出的具体建议:关于就双边关系中的各个问题进行的谈判,我们是愿意继续进行以前已经开始进行的谈判,还是愿意开始新的谈判。这一建议是在勃列日涅夫2月15日来信的基础上,根据尼克松总统的委托向我们提出来的。基辛格说,如果我们不能更早地答复这个问题的话,那么,请我们尽可能在3月9日进行下次例行会谈之前答复他们提出的这个问题。
我说,我们认为,应该对举行这种双边会谈予以肯定的答复,特别就那些我们较感兴趣的问题(贸易问题、海运问题等)举行的双边会谈。这样将会为高层会晤做更多的准备工作,会使这次会晤转入实践轨道,并且可以使美国人也加入到这些具体的准备工作中来。
8.在同基辛格就其他问题举行的会谈中,我们也简单地讨论了关于租借物资的归还问题。
我问道,关于就租借物资的归还问题而举行的谈判的地点美国方面将提出什么建议。他基辛格提议,把这个问题委托美国驻莫斯科大使比姆来做,而美国国会提议,在华盛顿举行谈判。美国的立场究竟是什么呢?
基辛格说,从原则上来说,白宫愿意接受上述任何一种方案。他本人提议由比姆大使来做这件事情,这只是由于美国驻莫斯科大使馆几乎没有为即将举行的高层会谈承担政治上或经济上的工作,但是后来国会认为,美国驻莫斯科大使馆无须“卷入”这种业务上的谈判,因此他们就提议在华盛顿举行这次谈判。
因此美方就正式通过了上述最新的建议:请(苏方)派遣一个代表团到华盛顿举行谈判。这一建议通过国会转达给了我们,并且现在仍然有效。
АВПРФ,ф.129,оп.56,п.418,д.5,л.75-86
№22936 多勃雷宁致外交部电:对尼克松访华成果的评估(1972年3月8日)
急电
现在,尼克松总统对中国进行的访问显然成了美国国内轰动一时的事情,美国人对这件事情进行了铺天盖地的宣传。白宫、华盛顿和新闻报刊都已经开始忙于其他的事情,首先是开始忙于国内政治问题了。本月,美国舆论的注意力将会越来越被吸引到关于在一些州进行初选这个问题上来,在这些州进行的初选是美国总统大选的开端。在对外政策问题上,舆论界开始把注意力放在5月份将在莫斯科举行的高层会晤上。对于中国问题,舆论界的态度比较明确,没有太多的争论。
在通过对现在所拥有的所有相关材料进行分析的基础上,关于尼克松对中国进行的访问所取得的成果以及围绕这些成果形成的总的局势现在可以被归结为如下几点:
第一,尼克松对中国进行的访问所取得的主要成果是,这次访问使美国和中国今后的关系发生了重大转变:从持续了20年的军事政治对抗关系转变为正常的国家间关系,随后,两国关系将会得到改善,两国之间的接触将会加强(尽管还没有确立正式的外交关系)。并且这种转变已经被两国领导人确定下来。华盛顿官方甚至已经声称,两国在一些问题上的政策是“一致的”,比如在关于印巴半岛问题上。
关于美国和中国之间面临的一些主要的具体的问题,那么,从各方面看来就是,在尼克松对北京进行访问期间,中美双方曾就这些问题进行了激烈的争论,相互讨价还价,不过,争论的结果最多是,双方都愿意寻求途径解决这些问题,但是,仍然还没有找到解决问题的办法。从这一意义上来说,尼克松这次访问的成果是不大的。
在台湾问题上,中国使美国承认,台湾属于中国,也就是说华盛顿抛弃了他以前曾提出的关于“两个中国”的构想。看起来这是美国向中国作出的最大让步,但是,在中美谈判中,美国并没有承认那个最为实质性的问题, [14] 关于这个实质性的问题,许多国家,其中包括社会主义国家都已经公开承认许多年了。关于另外一个较为重要的问题——美国从台湾直接撤军的问题,美国方面则把这个问题同关于解决越南的问题联系在一起,并且,美国同蒋介石在1955年签署的援助协议仍然有效。
根据现在所掌握的情报,在北京,中美就越南问题确实进行了长时间的、详细的讨论。越南问题对于两国来说绝不是个简单的问题。不能排除的一种可能是,中美就这个问题进行谈判的结果是,中国在某种程度上“配合”美国,使美国从越南撤出军队。我们现在还没有相关材料,据此可以证明中美在北京在越南问题上进行直接的勾结。
中美在贸易领域以及在加强科学交流和记者之间的接触等方面也采取了措施,他们采取的这些措施在很大程度上都使中国处于同苏联同等或者接近苏联的地位。但是未必有理由可以认为,中美在这些领域可以取得更大的成果,其中包括在贸易领域。最近几年,中国缺乏必要的经济基础和外汇基础来有效地落实同美国达成的协议,并且美国仍然有一些限制性的法规(包括在对外贷款和对外贸易方面,其中包括对那些与越南战争有关的国家进行限制)。但是,如果中国今后在对美关系中“表现良好”的话(这实际上就是华盛顿提出的条件),那么中国将会为自己的经济发展捞取不少好处。
尼克松对中国进行的访问产生的另外一个主要的后果就是,这次访问使美国人的对华心理发生了转变,这种转变表现在美国的社会舆论开始表现出对中国的好感,并且这种好感还在增长。尼克松今后将会最大限度地利用这一因素为自己的总统竞选服务,而这一因素对中国领导人来说也是积极而重要的,他们将努力通过各种途径,对美国的社会舆论施加影响,利用这一因素实现他们的目的(首先实现他们反苏的目的)。
因此,尽管在事实上没有证据可以证明,中美两国在北京进行的谈判中确实协调了他们的对外政策,但是这次访问的结果可以被明显地感觉到,或许就是,这次访问为整个亚洲、包括远东地区新的战略力量的分配奠定了基础。华盛顿当然希望能够利用这一重要的进程(“开始了一场全新的游戏”——这句话现在在美国的政治界很流行)达到自己的目的。
美国对中国实行新政策的另一深远的目的是,推动北京今后推行反苏政策,并使北京把这一政策固定下来,以此来“束缚”苏联的亚洲政策,甚至苏联的整个对外政策。
同时,还有一种情况是我们所更加关切的,这就是:美国和中国进行的游戏会使美国丧失许多盟国,首先是丧失日本的信任,会在很大程度上降低美国的威望,而这反过来也会限制美国对华政策的“灵活性”。
根据我们的观察,无论是在尼克松对中国进行访问之前,还是在这次访问之后,华盛顿都没有考虑,同中国在军事上勾结起来,反对苏联,并以防万一。白宫仍然在尽力避免同苏联发生直接的军事冲突。我们还应该非常清楚,美国和中国之间仍然存在很深的、难以克服的矛盾。这种矛盾源于美国领导层和中国领导人对对方意图的暗自担心,担心对方会统治亚洲,随后如果有机会的话,还会追求世界霸权。美国人知道,中国领导人实际上只是出于反苏的战略目的现在才愿意接近美国。美国人也明白,这种接近是不会长久的,华盛顿也认为,他们现在对中国政策的基础是北京领导人的反苏倾向,这种政策至少在整个70年代都能为美国的全球利益服务。
第二,关于美中关系的这种转折以及两国达成的协议,美国政府成员私下里和公开地都有许多议论,他们认为,美中关系发展的决定性因素在于:
首先,中国国内局势今后的发展。尽管现在周恩来(他是中国推行的亲美政策的主要设计者)的地位非常牢固,但是中国总的状况,特别是中国国内斗争的结果现在看起来仍不十分确定。
其次,直接参与这次北京会谈的领导人很快就会退出政治舞台和历史舞台:尼克松无论怎样都会在1976年之后退出政治舞台,由于年龄因素,毛泽东最多也到这个时候退出政治舞台。在此之后美国和中国领导人之间的私人关系将会怎样呢?这一点还不清楚。
再次,今后美国和中国同苏联的关系将会怎样,这一点是最为重要的。(由于尼克松对北京进行的访问)他们同苏联的关系是否将会紧张?随着美国和中国在反苏的基础上日益接近,国际舞台上是否会越来越明显地出现一个新的超级大国,成为一极?或者他们之间的关系(特别是美国和苏联的关系)仍然没有根本性的改变,仍然是极其复杂的关系(在苏美矛盾中北京在一定程度上希望扮演中立的角色)?在这些相互关系中会有斗争,同时有可能就个别问题达成协议。
第三,华盛顿当然很清楚,美国和中国之间的互动在国际舞台上使亚洲地区,乃至整个世界的战略力量开始进行新的分配,这当然会引起莫斯科的极大关注。他们甚至也愿意利用这一点(诚然,他们将会比较谨慎)来对我们施加心理上的压力,以便在苏美关系中捞取好处。因此,很明显,关于尼克松和毛泽东进行的会谈,白宫现在尽力给人造成一种模糊不清的印象,同时又使人觉得这次会谈非常重要。
同时,尼克松及其亲信都非常清楚,上述所指出的、国际舞台上战略力量的重新分配在很大程度上取决于苏联在对外政策上采取的反制措施以及其他行动。华盛顿在利用北京领导人的反苏倾向的同时,也愿意同我们达成一定的协议。美国政府也不隐瞒,他们同苏联进行的谈判具有更大的实际意义,因为解决世界大多数问题的关键仍然在苏美两个超级大国。白宫仍然明白,至少在尼克松政府执政期间,美国同苏联的关系最终要比美国同中国的关系更为重要。从这一意义上来说,如果他们对莫斯科进行的访问没有取得预期的成果的话,对于他们对北京进行的访问对美国总统选举斗争的影响和意义,他们也不愿作出过高的评价。尼克松明白,欧洲国家,包括美国在西欧的大部分盟国都不愿意看到,美中关系的改善是以牺牲美苏关系为代价的。
第四,因此上述所阐述各项内容对于即将在5月份举行的苏美莫斯科高层会晤具有特别重要的意义。
尼克松对中国进行访问这件事情已经开始迫使白宫在打中国牌时有所节制,并经常“回头看看”苏联的反应,白宫今后仍然还会这么做;尼克松显然在避免把自己同某种责任或者同某些讲话联系起来,这也不是偶然的,这样的责任或者讲话会事先导致他随后同苏联领导人进行的会谈不会顺利。在“北京之行”以后,尼克松现在显然也在尽力为自己辩护,尽力向我们证明,在北京进行访问的时候,“什么事情也没有发生”。这就在心理上迫使尼克松在莫斯科高层会谈之前采取守势,这种情况我们应该充分利用。
因此,我们实行如下政策是完全正确和适宜的:今后在为举行莫斯科高层会谈而做的实际准备工作中向美国人施加压力,使他们对我们作出让步。根据相关指示,对于白宫向我们提出的建议(是否愿意就诸如贸易问题、海运问题、租借物资偿还问题、太空领域的合作等双边问题继续进行谈判),今后几天我们将会作出肯定的答复。
此外,可以预料,就这些双边关系问题举行谈判这一事实本身将会产生积极的影响,并对美国人、国际舆论留下一种较好的印象,甚至可以抵消尼克松对中国进行的访问所产生的影响,尼克松对中国进行的这次访问所取得的成果是:双方达成了一份协议,并且,以美中联合公报的形式把这一协议确定了下来,但是该协议模糊不清,并且具有概括的性质。这也将会使中国人警觉起来,而北京对美国的最终目的产生的这种怀疑对我们将是不无裨益的。
当然,最为重要的事情仍然是:通过秘密渠道同美国人建设性地讨论问题,甚至在莫斯科高层会晤中解决一些重大的国际问题,这些重大的国际问题是:近东问题、欧洲问题(包括对批准同联邦德国签署的条约提供保障的问题)、限制战略武器问题以及两国高层会晤将要签署的最终文件的文本(联合公报或者是宣言)。
在对高层会晤作准备的时候,我们面对的一个重要的问题是:对美国的社会舆论施加影响(为此,我们首先要最大限度地利用美国自己的大众媒体),以便通过这种社会舆论,推动美国政府马上就同我们一起解决一些重要的双边问题和国际政治问题。
现在,我们在美国进行的宣传所产生的影响完全是负面的(由于尼克松对北京进行的访问),整体上来说,这是个对我们不利的因素。或许,“关于北京的话题”应该逐步让位于“关于莫斯科的话题”,也就是说让位于关于莫斯科高层会谈的准备工作的话题。当然,在相关问题上还应该对美国继续进行批评。但是,如果尼克松不是在口头上说说而已,而是采取建设性的态度来解决两国之间存在的某些问题,那么我们也要表现出一些积极的态度,这一点很重要。
关于对两国高层会谈的准备工作进行宣传这个问题,大使馆今后将提出相应的建议。
在对上述所谈问题进行总结的时候,就可以果断地说,对苏美莫斯科高层会谈做好充分的准备工作,使这次会谈取得积极的成果,这不仅会让我们在解决我们同美国关系中产生的一些具体的问题的时候获得利益,而且还可以非常有效地削弱美国和中国开展的游戏,这个游戏始于美国总统对中国进行的访问。
А.多勃雷宁
АВПРФ,ф.59а,оп.7,п.13,д.9,л.128-137
№22937 多勃雷宁与基辛格会谈纪要:尼克松访苏安排及中美军事合作问题(1972年3月9日)
3月9日同基辛格在我们大使馆举行了例行的会谈。
第一,在会谈开始的时候,基辛格转交了经尼克松批准的美方复函的文本,该复函对我们向尼克松总统作出的通报给予了答复,我们的通报是尼克松在北京进行访问的时候于2月23日通过将军转交给他的。
以下是尼克松复函的文本:
“苏联于1972年2月23日向白宫转交了一份通报,当时尼克松总统不在白宫,在收到该通报后,尼克松总统对其内容进行了仔细的研究。
尼克松总统想向勃列日涅夫先生以及苏联其他领导人保证,他完全同意苏方在通报中所阐述的立场,即在采取行动的时候,双方都应该真正地努力以建设性的态度来解决相互之间存在的问题。关于这个问题尼克松总统的看法在他写给勃列日涅夫总书记的信件中已经有了详细的阐述,尼克松总统仍然完全坚持这些看法。
他把即将在莫斯科举行的高层会谈看作是使我们两国的关系建立在新的基础上的一次重要的机会。关于美国前不久对苏联发表的声明,苏联方面进行了一些报道,对于苏方的报道提出的一些意见,尼克松总统指出,自从双方都宣布关于即将举行莫斯科高层会晤以来,苏联权威机构以及苏联领导人对美国进行的批评是没有充分的理由的。考虑到苏美关系的现实状况,毫不夸张地说,一方不一定要接受对方的某些表述。尼克松总统仍然相信,真诚、务实是建立持久而良好的苏美关系的牢固基础。
无论怎样,我们都要明白我们两国关系现在所处的阶段:双方都同意就一些有争议的问题进行重大谈判,事实上,通过这种途径已经取得了一些成果。尼克松总统希望,在这些领域取得的共识能够最大限度地扩展到其他领域。正如苏方在通报中所说的,这不仅符合我们两国的利益,而且也符合全世界的利益。
为此,对于现在就莫斯科高层会晤的准备工作而进行的谈判,尼克松总统非常关切,并且他将继续关注谈判所取得的进展。
关于尼克松总统对中国进行的访问,苏联报刊发表了一些评论,对于这些评论,尼克松总统想再次确认,除了是为了改善美国同中国的关系之外,他们在中国公开地或私下里所说的那些话都没有其他的目的。尼克松总统认为,这一目的同苏美关系的改善完全没有冲突,同我们两国都希望全世界都取得和平的总目的也是一致的。
尼克松总统期待着今后同勃列日涅夫先生继续交换意见,也期待着同勃列日涅夫先生在5月份即将举行的会谈。尼克松总统认为,这次会谈将会展示,两国决心采取一些具体的措施进行合作,来解决一些有争议的问题。
我说,我将会把尼克松总统的这份通报转达莫斯科。
第二,关于在即将举行的莫斯科高层会谈前夕我们对这次会谈所作的准备工作问题,关于会谈中将要讨论的问题,其中包括苏美双边关系中的一些具体问题,我向基辛格转交了苏方作出的答复。
基辛格对我们这一建设性的答复表示满意。他说,他将把我们的答复向尼克松总统进行报告,之后,关于今后准备同我们举行的谈判相关问题,白宫将对美国的相关部门下达相关的指示。
基辛格说,大约两天之后将会另行通知我,根据美国国会和对外贸易部的政策,我们有哪些答复将会被正式转达,以便开始进行会谈,或者是继续进行以前已经开始的谈判。到时候,美国的这些机构将会得到白宫就这些问题下达的相关指示。
基辛格再次确认了他以前受尼克松的委托就双边关系中的所有这些问题对我们所说的那些话。
第三,在这次会谈中谈论了关于5月份将在莫斯科举行的高层会谈的一些组织工作问题。关于这个问题基辛格作了如下通报。
几天前,他们收到了波兰政府发来的一份紧急信件,邀请尼克松总统在对莫斯科进行访问之前或者在进行这次访问之后对华沙进行访问。白宫还收到了一些北约国家的信件(目前还是非正式的),邀请尼克松总统在对莫斯科访问之后马上参加北大西洋公约组织委员会例行会议,并就他对莫斯科进行的这次访问所取得的成果进行通报。
基辛格说,但是,尼克松总统认为,在当时的情况下参加北大西洋公约组织委员会例行会议会被苏联误解。因此,尼克松总统不打算参加这次会议,而是像往常一样,派罗杰斯国务卿参加这次会议。在对莫斯科进行的访问结束之后,罗杰斯将会去参加这次会议。
现在,尼克松总统也不打算到华沙访问。
基辛格继续说,但是,在对莫斯科进行访问之后,尼克松总统想马上访问德黑兰(这意味着他也收到了伊朗国王的特别邀请),然后从德黑兰直接飞回美国。
基辛格特别强调,现在他们请求,不要把尼克松总统的这些计划告诉任何外国人,特别是法国人,因为除了尼克松总统和他基辛格以外,关于这些计划现在谁也不知道。
基辛格说,关于尼克松总统在苏联的访问计划,尼克松总统表示,除了莫斯科和列宁格勒之外,他希望对苏联进行访问的第三个城市介于莫斯科和德黑兰之间,苏联方面可以考虑其中的任何一座城市。关于这个问题,基辛格具体地提到了第比利斯和埃里温,但是,如果苏联方面安排的是其他的城市,他们也会同意。
基辛格接着说,尼克松总统在苏联访问期间所作的安排如下:
——在莫斯科停留几天;
——在列宁格勒停留一天(过一夜);
——返回莫斯科结束谈判;
——离开莫斯科,在前往德黑兰的途中用一天或者半天的时间访问苏联的另一个城市。
基辛格说,尼克松总统请求苏联方面告知,关于他5月份对苏联进行的访问,这样的日程安排苏方是否同意。第四,关于莫斯科高层会谈所要签署的文件的形式及其内容,基辛格说,他们认为,或许在联合公报中除了写入和平共处原则之外,还应该写入更多的内容(正如美中联合公报一样)。他们自己是这样认为的,并且也愿意考虑我们提出的其他任何想法。
关于勃列日涅夫对巴黎进行的访问所取得的成果,采取了苏法共同宣言的形式,或许,也可以采取类似的形式,当然,也要考虑到苏美关系的特点。但是,这个问题还需要更加详细地进行讨论。
关于5月莫斯科谈判所取得的成果以什么形式公布这个问题,他们白宫认为,根据同苏联领导人进行的会谈的进程,逐步公开这些成果较为适宜,也就是说,关于苏美双边关系中的一些具体问题,应该事先准备相关的协议和协定,这些协议和协定的公布应该逐步增加,比如,可以从谈判的第三天开始公布,在这次高层会晤结束的时候,把这些公布的协议和协定载入联合公报,作为这次高层会晤取得的成果。如果就限制战略武器问题能够签署协议的话,也要把我们就这个问题签署的协议作为这次会晤取得的一项成果。
基辛格说,如果采取的这种方法,那么,在莫斯科进行的谈判将会具有建设性的、不断取得成果的性质,还可以避免在会谈结束的时候,把那些就相对不重要的双边问题达成的协议同那些在会谈中就重大的问题达成的协议混在一起。
在这种情况下,关于就近东问题达成的协议,在联合公报的文本中也只能泛泛地提到,对于就这个问题达成的具体的、实质性的协议仍然要保密。
第五,关于一些具体的、重大的政治问题,在今天同基辛格进行会谈的过程中,我们讨论了欧洲问题。
关于这个问题,我指出,苏联和波兰批准同联邦德国签署的条约,同时,四方就西柏林问题签署的协议也应开始生效,要使尼克松总统对莫斯科进行的访问能够在这种背景下进行,这不仅符合苏联的利益,而且也符合美国的利益。接着,我举出了一些相关的论据,以便使基辛格明白,美方必须公开声明支持这些条约生效,因为美国的立场具有重大的意义,能够在联邦德国创造条件,确保这些条约得到批准。
关于这个问题基辛格进行了长时间的谈话,首先他说“美方担心这是对联邦德国内部事务的干涉”,然后他对我说,他将尽力邀请巴尔到华盛顿就这个问题进行秘密会谈,讨论一下美国能够做些什么,以便这些条约能够得到批准。基辛格说,巴尔比较了解各方的实力、批准条约的内幕和程序,他认识的人也比较多,同他进行协商将会是有益的。
但是,关于巴尔可能返回华盛顿这件事情,基辛格坚决请求我们(法林大使)不要同巴尔进行接触,因为巴尔本人现在对这件事情还毫不知情。
第六,在同基辛格进行这次会谈的时候我告知了他以下一些事情。
苏联相关专业机构已经确定,爱德华·杰伊从事了一些被禁止的活动。爱德华·杰伊,1941年生,美国国籍,是麦哲尔门特·因科尔伯列士计算机公司的主席代表,作为一名旅行者在1971年8月和1972年2月来到苏联。以无线电爱好者为掩护,爱德华·杰伊同利西恰斯克市的一名居民建立了联系,并采取各种措施使该居民有了反苏情绪,同时,教唆他背叛自己的祖国,逃出苏联。在做这些事情的时候,他答应给这名苏联公民提供物质帮助,并安排他到美国工作。为了给这名苏联公民的叛逃创造条件,爱德华·杰伊于1971年12月向他发出了到美国的邀请。
由于这名苏联公民没有被获准前往美国,爱德华·杰伊于今年2月再次来到美国,企图加强同这名公民的联系,企图查探出一些信息,并非法地向这位苏联公民提供了一个电台进行联系,他的这些行为都具有间谍的性质。
现在已经查明,爱德华·杰伊还企图唆使居住在车里雅宾斯克市的另一名苏联公民背叛自己的祖国。
爱德华·杰伊从事的这种犯罪活动是被明文禁止的,根据俄罗斯联邦刑法典第17—64条的А项规定,他应该被判处有期徒刑。
但是,为了改善我们两国的关系,并且考虑到尼克松总统即将对苏联进行访问,苏联方面认为,可以不追究爱德华·杰伊的刑事责任,并允许他自由地返回美国。
在听完我说的这些话之后,基辛格说,他将指示相关部门迅速弄清楚这件事情,之后将向我通报这件事情的结果。
我答复基辛格说,我们自己已经弄清楚了这件事情,我们完全清楚这件事情。我们只是让他知道,我上述所说的话以及苏联当局对这件事情采取的态度。
基辛格再次问道:“你们只是告诉我这些信息,这件事情就结束了吗?”
我向他确认了这一点。
基辛格说,那么这是苏联方面采取的一个非常友好的姿态,关于这件事情他一定会向尼克松总统报告。
基辛格没有提及关于苏联公民马尔可洛夫的问题。出于战术上的考虑,我当时也没有提及这个问题。在下次同基辛格会谈的时候,我将再谈论这个问题。
第七,在同基辛格进行的会谈中,我们还讨论了如下一些问题。
我对基辛格说,莫斯科从中国得到一些消息:美国通过自己的侦察卫星得到了关于靠近中国边境地区的苏军部署情况的资料,去年10月美国方面把这些资料转交给了中国领导人。根据莫斯科得到的消息,使中国人特别满意的是,美方转交给中国的资料包括一些关于苏军导弹部署的材料。
我强调说,由于众所周知的原因,这些消息不能不引起我们的关注,并且,我想知道基辛格对这件事情有何看法。
在听完了我说的这些话之后,基辛格马上说,如果上述消息是中国人提供的,那么这“完全是挑拨离间”。
基辛格显得很激动,他以非常坚定的语气保证说,去年10月他没有同中国人谈论这类问题,尼克松总统在前不久对中国进行访问的时候也没有谈论这类问题。总之,他们同中国人根本就没有谈论军事问题。
在同我会谈之后大约过了一个小时,基辛格已经到了白宫,他再次同我谈起了这个话题。
基辛格说,在会谈时,尼克松总统曾提到关于中苏边界地区的苏军,但是关于这个问题他是一掠而过,这是唯一一次谈论到军事问题。有一次,在一次气氛非常紧张的讨论中,周恩来对美国进行了指责,说华盛顿实际上是和莫斯科、东京站在一起的,企图孤立中国,在经济上削弱中国,在军事上使中国两面受敌:美国在南面,有美国的陆军,还有强大的空军和海军;苏联在北面,聚集了上百万的军队。同时美国还鼓励日本军国主义的复活,企图使日本反对中国。
尼克松总统都否认了这些指责,在进行激烈争论的时候他说,中国总理“显然是喜欢夸张”。尼克松总统还举出其他的例子说,在中国北方的边界地区没有上百万的苏联军队,在美国看来,这些数据也被夸大了。
基辛格马上说,但是,关于这个问题尼克松总统没有举出任何具体的数字。他只是泛泛地提到这一点,关于军事问题再没有说出其他的话。
基辛格特别强调说,在同中国人进行的任何一场谈话中,美国方面一次都没有提到关于苏联导弹的部署问题。因此,美方没有向中国人提供关于苏军部署情况的情报。
最后,基辛格说,他可以向莫斯科转达尼克松总统“最为坚决的”保证,他们同中国人没有讨论军事问题,关于同中国人进行军事合作的问题,“纯属子虚乌有”。如果中国人对你们说了与此截然不同的话,那么他要再次说,这是挑拨离间的行为,他可以这样直接地说。
第八,在同基辛格进行会谈的时候,基辛格向我通报说,很遗憾,在尼克松总统对莫斯科进行访问之前,他未必能够到莫斯科访问了。
基辛格解释说,这是由于华盛顿的“官僚们”现在加剧了活动,围绕“基辛格—罗杰斯问题”,国会和美国报刊现在正在进行辩论(他们两人究竟谁是国务卿?)。
基辛格接着说,他不想再火上加油,到莫斯科进行访问,因为这将证明,在为尼克松总统的第二次重大访问所作的准备工作中,罗杰斯事实上已经被排除在外了。
基辛格说,今年年底总统大选之后,这个问题“将不再存在”。
我问道,为什么这个问题将不再存在,基辛格直接回答说,“我们中将有一个人不会再留在政府内”。从中可以看出,基辛格自己是不打算退出的。
第九,基辛格向我通报说,今天将会公布一份通报:美中联合公报规定两国外交代表要进行接触,现在,双方“进行接触的地点”已经选定了。这个地点就是巴黎(中国人从美方提出的5个城市中选择了巴黎)。
因此,美国大使沃特森和中国的黄大使将会保持联系。
А.多勃雷宁
АВПРФ,ф.0129,оп.56,п.418,д.5,л.87-95
№22938 勃列日涅夫与基辛格会谈记录:美苏关系及越南问题(1972年4月21日)
从12时到16时30分
苏联方面参加这次会谈的人员还有:А.А.葛罗米柯、А.Ф.多勃雷宁、А.М.亚历山德罗夫和翻译В.М.苏霍德列夫、Т.Ф.德米特里切夫;美国方面参加这次会谈的人员还有:白宫工作人员索南费尔特、罗尔德和里迪。
勃列日涅夫对基辛格表示欢迎,并问他安顿得怎么样,休息得怎么样。
基辛格回答说,他安顿得非常好,休息得也好。对他所受到的热情招待表示感谢。
勃列日涅夫:尼克松总统的感觉怎么样?
基辛格:尼克松总统的感觉很好。他向总书记,您,转达他最为亲切的问候。尼克松总统认为,同您进行的接触将具有非常重要的意义,并急切地期望着同您在莫斯科即将举行会谈。
勃列日涅夫:谢谢。我也向他转达最为亲切的问候。老实说,我已经认识了尼克松总统,曾同他进行过会见,尽管会见的时间很短。但这是在很早之前的事情了,是在1959年,并且,那时候我们两个人的地位都不同。或许,尼克松先生已经不记得那次会面了。但是前不久我看到了我们两个人的合影。这张照片最近在国外许多国家的报纸上都刊登过。
基辛格:当时进行的所谓“厨房辩论” [15] 的时候您也在场吗?
勃列日涅夫:遗憾的是,当时我也在场。我认为,这样的辩论将不会再有了。您是第一次到莫斯科吗,基辛格先生?
基辛格:几年前我作为美国科学代表团的一名成员曾来过莫斯科。我们当时同苏联科学院成员就裁军问题进行了会谈。
勃列日涅夫:就让我们进行努力,以便可以更加经常地对对方的首都——莫斯科和华盛顿进行访问。这件事取决于你们。
基辛格:是的,我们两国现在都面临非常好的历史机遇。
勃列日涅夫:当然,在我们举行的会谈将要结束的时候,我想请求您转达我对尼克松总统访问莫斯科表示的欢迎。但是,我今天就想请求您向尼克松总统转达我对他的问候和良好祝愿。您在这里已经提到了关于苏联领导人和尼克松总统即将举行的会谈的意义,我想对这一想法再做一些补充。
我们知道,并且也相信,尼克松先生和美国的其他领导人都认为,我们即将举行的会谈具有非常重要的意义。我和我的同事们也是这样认为的。应当使这次会谈取得圆满的成果,应当在这次会谈中建设性地解决一些问题。对于这次会谈我们应该抛开一切顾虑和怀疑。双方都是经过各方面的权衡才决定进行这次会谈的,并且都知道自己的责任。完全有理由认为,这次会晤具有真正重大的意义,可以说具有历史意义,或许,甚至还具有时代的意义。
在这次会谈的准备过程中,我们相互都作出了不少让步。在这次会谈的准备过程中并非都是一帆风顺,其中有许多的坎坷和挫折,但是我们双方都希望这次会谈能够胜利召开、能够取得积极的成果,都希望为这次会谈创造良好的条件。你们应该知道,我们对即将举行的高层会晤的态度就是这样。
如果要进行争论的话就不需要进行任何会谈,只要我们在莫斯科,你们在华盛顿就可以了。而且在进行了争论以后,事后也不知道怎么才能和解。要进行争论是不难的。
基辛格:我们在实践中已经证明了这一点。
勃列日涅夫:而且,对于这种争论的“成果”任何级别的领导人都能够取得,不必一定要通过最高层领导人。要使两个大国的领导人找到好的办法,增强他们之间的相互理解,这是需要国家领导人拥有智慧和远见,能够预见未来,具有宽广的胸怀。应该指出,在对即将举行的谈判产生影响的诸多因素中,整个国际局势起到的不是最终的决定作用。
如果坦诚地说,我们希望,最高会晤能够在总的良好的气氛中举行。这次最高会晤现在已经引起了世界舆论的关注。关于这次会晤人们有许多的议论和好奇。我认为,我们的任务是抛弃一切消极的、有害的因素,并利用一切积极的因素。在剩下来的一个月里积极行动起来,为这次高层会谈取得成功创造良好的条件。这个任务非常重要。在我们当今生活的这个世界,世界政治会发生迅速的变化。
我们都知道,大多数国家及其领导人,更不要说各个民族了,现在都希望缓和,希望世界和平能够得到巩固。但是,也有一些势力认为,加强国际紧张局势会给他们带来利益。因此,最近的国际局势就在一定程度上得到了恶化。我不愿说,这将妨碍我们已经决定的、将要举行的会谈,而只是指出这一事实。
我认为,在我们今后进行会谈的时候,关于政治氛围这个问题还需要详细地谈论谈论。我现在只是想指出这个问题的重要性。我们认为,在今后开始会谈的时候不应该严格地受到时间的限制。
我和我的同事们都认为,我们同您以及今后将同尼克松总统举行的会谈都是坦诚的、直接的会谈。如果我们都希望相互谅解,都觉得在进行会谈的时候(对于一些问题)不吐不快的话,那么进行这样的会谈是完全必要的。坦诚就是信任。我们打算完全坦诚地同尼克松总统进行会谈。我认为,我们同您进行的会谈也应该是坦诚的会谈。
您告诉我们说,尼克松总统授予您全权就许多领域的问题同我们进行会谈,这很好,对此我非常满意。
关于我们在举行高层会谈的时候将要讨论的主要问题,在为这次会晤进行的准备中已经都指出来了。对于这些问题我们都很明白,无论如何都是回避不了的,这些问题具有决定性的意义。显然,在我们同您进行会谈的时候也不能回避这些问题。当然,我也不排除就其他任何问题进行讨论,如果您或者我想提出这些问题的话。
如果您能够同意我提出的这些想法,那么我将非常高兴。
基辛格:当然,我完全同意您提出的这些想法。
勃列日涅夫:我知道,我们即将就许多领域的问题进行会谈,我不愿为自己准备一些书面材料进行会谈。这样会使人在进行会谈的时候思绪更加自由,特别是在同像基辛格这样的聪明的外交家进行会谈的时候。一句话,我希望在会谈的过程中能够更加自由,不受束缚。
应该就我们会谈的日程发表一些看法。我愿意为这些会谈花出最多的时间,对这次会谈给予最大程度的关注。我们面临的任务非常重大,应当努力搞清楚所有的问题,而这则需要时间。
坦白地说,是我首先提出,让您早先过来。遗憾的是,我今天只能在这里待到16时,之后我们将有一次隆重的会议,以纪念列宁诞辰,而晚上我还有其他的事情要做。但是明天和后天我可以全天都参加谈判。
因此,如果您不反对的话,我们现在就可以开始讨论具体问题。
基辛格:这样的日程安排非常好。
勃列日涅夫:或许,您基辛格先生受尼克松总统的委托有许多话要说,您自己或许也想谈论许多看法。我愿意洗耳恭听。
对于勃列日涅夫同他谈论的这些想法,基辛格表示感谢,并且说,这些想法与他所收到的指示的精神完全一致,也完全符合他对莫斯科进行访问的目的。他认为,他的任务是:抛开外交上的繁文缛节,进行坦诚的会谈,直接地回答任何问题。他保证说,在这里所说的任何话都不会流传到白宫之外,并且将只有尼克松总统一个人知道。为了自由地、毫不拘束地进行会谈,我们在进行会谈时都必须坦诚。
勃列日涅夫:是的,就应该这样。顺便说一句,我们所说的都是实话,并且我们不怕这些谈话的内容被他人知道。
基辛格表示,希望首先谈论一些总的想法,然后再更加详细地讨论一些具体的问题。基辛格说,勃列日涅夫谈话的精神也反映了尼克松总统对举行这些会谈的态度,尼克松总统还认为,他们即将举行的会谈将会为历史的发展开辟更加美好的前景。第二次世界大战期间,苏美两国作为盟国并肩作战,第二次世界大战结束以来,两国领导人也曾多次举行会谈。但是,这些会谈在任何时候都没有再能反映出苏美在第二次世界大战时的那种合作精神。这些会谈都没有特别重大的意义,但是,正如苏方一样,我们也认为,现在是时候为美苏关系的新时代奠定基础了。
勃列日涅夫说,苏联人民仍在缅怀美国总统罗斯福。任何一位美国总统都没有像富兰克林·罗斯福那样受到苏联人民如此大的爱戴和尊敬。使人们总是能够记住的要么是非常好的事情,要么是非常坏的事情,不是特别好也不是特别坏的、平平常常的事情总是很容易被忘掉的。领导人完全也是这样。因此,载入史册的一方面是诸如拿破仑、威廉大帝、希特勒这样的人,另一方面是像罗斯福这样的人。
基辛格表示同意这个观点,并且说,美方现在打算在苏美关系中恢复罗斯福精神。他认为,美国和苏联领导人在过去进行的一些会谈之所以没有起到特别重大的作用,其原因在于,参与会谈的领导人在会谈时谈论的都只是关于两国关系中的一些表面上的话,或者把注意力集中在一些关键性的问题上。美国方面的主要障碍在于,在同你们签署协议的时候,我们在力量上应该占据优势。
勃列日涅夫:这种想法是有害的,也是空想。
基辛格表示同意这一看法,并且说,苏联方面的障碍在于:过于强调意识形态因素,经常从意识形态的角度来看待苏美关系。只要发生了一些阻碍两国关系发展的具体事件,那么,以前进行的谈判所取得的成果都被化为乌有,尽管任何一方都不是有意这么做的。我们认为,我们面临的这次机会是前所未有的,因为,自第二次世界大战以来,我们第一次真正地在各个方面都取得了进展。现在我们同你们的关系建立在完全平等的基础上,我们都不祈求对对方施加压力。
勃列日涅夫:是这样的。关于这个问题我想起了尼克松刚刚当选总统时所说的一番话,他说的这些话非常重要,即必须从对抗的时代转入谈判的时代。遗憾的是,这一时代转换的过程被延缓了。
基辛格接着强调说,现在美国愿意依据完全相互对等的原则处理同苏联的关系。这意味着,我们同你们今后签署的任何一份协议都应该得到双方的支持,使这份协议完全符合我们共同的利益。只有采取这样的态度,即将举行的高层会晤才能取得丰硕的成果。
勃列日涅夫对这些看法表示了同意。并且补充说:我们应当讨论一些重大的问题,而不是一些次要的问题。我们达成的协议应该具有多重意义。这些协议应该被我们两国的人民所理解,应该为国际关系带来安定因素,应该引起所有国家和民族的尊重。
基辛格说:这些看法同尼克松总统的看法完全一致。美国方面认为,尼克松总统同勃列日涅夫总书记的会晤将具有非常重大的意义,这是因为,这次会晤是世界上最为强大的两个国家的领导人之间的会晤。世界的未来在很大程度上取决于我们两国作出的重大决定,这些重大决定的作出不应该受到那些为制止国际局势中出现的危机而采取的战略性措施的影响。
勃列日涅夫:您的这些话使我不得不提出一个看法,本来我是不打算提出这个看法的。您说我们两国是两个最为强大的国家,我同意这个看法。但是尼克松总统在北京进行访问的时候却说,世界的未来掌握在美国和中国人民的手中。我觉得,这好像是失言,或者也许是由于报刊的错误报道而引起的。你们说苏联和美国是两个大国,我们同意你们的这个说法,但是,我们不能同意你们提出的关于整个世界的未来都掌握在某些国家的人民的手中的看法。主要的事情在于,我们要以自己的行动为人民带来和平和安宁,以此赢得世界各国的尊重和支持。这正是我们所希望的。我想听听您对我的这些看法发表的意见,或许,您也可以在稍后发表自己的意见。
基辛格:对于您提出的这些看法,我现在就想直接地发表自己的意见。首先,应该说,关于尼克松总统所说的上述那些话的报道是正确的。第二,尼克松的这些话是在吃了一顿丰盛的午餐之后说的,在那顿丰盛的午餐中他喝了许多中国粮食酿造的酒——茅台酒。尼克松总统所说的这些话经不起推敲,不能代表美国的国家政策。
勃列日涅夫:或许,尼克松总统当时是不是非常难受?
基辛格:尼克松总统说的这些话是为了表示友谊,我要再次说,这些话不代表美国的国家政策。我早晚都打算同您谈论一下中国问题,既然您提到了这个问题,那么我或许现在就应该谈论一下这个问题。
勃列日涅夫:我希望您稍后再谈论这个问题。我也想提出一些重要的问题。我觉得,我们在转入与中国有关的问题以及关于其他的国际问题的讨论之前,我们应该讨论苏美关系问题。但是如果你们认为其他的会谈程序较好的话,那么,也可以按照那样的程序进行会谈。
基辛格:正如我所说的,我们相信,整个世界的事务以及全世界的进步首先取决于我们两国的关系。美国和苏联是决定世界命运的两个主要国家。现在还没有其他两个国家能够以这种全球观来看待世界局势,或者能够洞悉未来,这正如总书记所说的。
勃列日涅夫:我同意这个观点,但是还想做点补充。我们要起到这么重大的作用是有一个条件的,即我们推行的政策是和平政策。如果我们推行的不是和平政策,那么我们在世界事务中的作用也就不是这样了。对这一点进行强调非常重要,并且必须要牢牢记住,这是因为,本世纪基本上都是在战火中过去的,时而在这个地区,时而在那个地区发生战争。这些战争给人民造成了无数的牺牲和痛苦,战争造成的创伤仍然留在人们的记忆中。当然,这些创伤是挥之不去的。
基辛格说:美国方面认为,美国和苏联可以在许多领域的一些重要问题上进行合作。我们也知道,我们两国之间在许多问题上的分歧仍然存在。但是,即使存在这些分歧,我们都必须表现出克制,不能超越一定的界限。如果我们采取了这种立场,那么我们在即将举行的高层会晤中一定能够解决一些问题。美方愿意进行努力,就限制战略武器问题签署协议。我们愿意努力,在解决欧洲安全相关问题以及欧洲其他相关问题上取得进展。我们愿意讨论近东问题。我们愿意讨论关于世界其他地区的局势问题,在这些地区我们也有共同的利益。
在贸易领域,我们愿意讨论关于给予苏联最惠国待遇的问题,关于向苏联提供长期贷款的问题,愿意讨论其他的双边关系问题,其中包括科技问题和环保问题,愿意讨论能够取得进展的其他所有问题。
但是,我们认为最重要的是,必须利用即将举行的这次最高会晤,以便使我们两国政府和人民都能参与进来,解决一些重大的问题,以便在世界上任何地区出现危机的时候,我们的行动能够一致,而不是相互对立。
我愿意同您讨论所有这些问题,并且拥有全权讨论这些问题,直到这些问题得到顺利解决或者有了获得解决的最大可能。此外,对于即将在高层会晤中签署的文件,我们也应做好准备工作。
勃列日涅夫:我同意这些看法。
基辛格:但是,我想同总书记事先讨论一个问题。您在这次会谈中说,在举行最高会晤的过程中会遇到一些障碍,我们应当克服这些障碍。我现在想谈论的正是关于消除这些障碍的问题。我指的是东南亚的局势,特别是越南的局势。我想向您坦诚地阐述我们在这个问题上的立场。1963—1964年的战争不是苏联发动的。自那时候起就犯下了许多错误。但是我们应当关注的不是过去,而是现在的危机局势。我想谈论关于1972年4月的局势。当离我们两国即将举行的高层会晤只剩下4周时间的时候,当我们准备从越南撤出所有的美军并彻底脱离这场战争的时候,我们直接面对的却是来自北越方面的大规模进攻。在目前的情况下我们不愿意遇到新的危机。
现在请允许我坦诚地谈论一下我对北越人的看法,尽管你们对他们的了解或许更加深入。越南人非常英勇,但遗憾的是他们很不明智。他们有时候更加害怕的是被欺骗,而不是失败。他们不愿在历史上留下什么。我知道,他们曾认为,在1954年的日内瓦会议上他们被欺骗了。但是,1972年的客观条件与1954年时的客观条件截然不同。在1954年的时候主管美国对外政策的是杜勒斯,他致力于营造抵制共产主义侵略的屏障。而当时我们也在努力确保我们在世界各地的存在。
1972年领导美国对外政策的是尼克松总统,我们希望同苏联(以及其他主要的共产党国家)不发生冲突,而要进行谈判。现在我们不支持在各国营造抵制共产主义侵略的屏障,而是支持发展合作关系。
具体到越南,我们不希望在那里长期建立我们的军事基地。我们要追求的主要目的有两个。第一,我们希望有尊严地从越南撤出我们所有的军队。第二,在我们完全撤军和越南将要开始的政治进程的启动之间应该设一个期限。在这种情况下,我们愿意按照越南各派真正的力量的对比,愿意在此基础上解决越南国内所有的问题。我们没有义务总是介入越南事务。关于这一点我可以作出保证,我们将履行这些保证。
勃列日涅夫:关于美军撤出的期限,您是否有什么想法,还是这只是您所阐述的总的原则?
基辛格:是的,关于这个问题我们有一些想法。我们认为可以在数月内而不是在一年内完全撤出我们的军队。
勃列日涅夫:越南人是否知道你们的这些计划?
基辛格:知道,但是我们和他们在这个问题上存在分歧。问题在于,越南人在没有释放我们的战俘,在越南未来的发展局势还没有确定的情况下,我们不能同意从越南撤军。但是,越南人不愿同意我方提出的这些条件。如果他们同意了我们提出的这些建议,那么我们在今年底就可以从越南完全撤出我们的军队,并最终关闭我们在越南的所有军事基地。我们完全撤军所需要的期限现在还没有最终确定。我们在提出的建议中指出,我们将从达成协议之后的6个月内完全撤出我们的军队。
勃列日涅夫:关于美国在越南战俘的人数你们有没有准确的数据?
基辛格:我们的数据还没有越南人的数据那么准确,越南人在尽力避免同我们直接打交道,并且他们主要追求的是激怒我们(在对我们的反对派的战略上),他们已经向我们的一些反对派通报了一些战俘名字。他们举出了500名战俘的数据,但是,关于他们所公布的照片上的那些人,这些人的名字他们没有通报。
勃列日涅夫:关于美国战俘的人数你们认为有多少?
基辛格:至于越南人所提到的500名战俘,可以由我们的材料得到证明,但是大约有上千名美军在越南仍杳无音信。因此,可以说,在越南的美国战俘最多有1500人,最少有500人。真正的战俘人数应该在这两者之间。
我们将不断努力,达到我们所提出的上述目标。无论我们在军事上经受多大的压力,我们都将会为此而努力,不会满足北越人的最大要求,承认西贡政府。他们向我们宣称说,他们不追求这一点,但是我可以非常肯定地说,他们提出的建议的客观目的正在于此。
我想再次重申,我们愿意使越南目前已经开始的政治进程持续下去,使越南的各派政治力量能够充分地发挥自己的作用,尽管我们很难做到这一点。
尼克松总统在5月份同您即将举行的会谈中也会提出这样的看法,也会对目前的越南局势进行解释。
目前的危机是从3月30日开始的,当时北越人展开了进攻。他们在这些进攻中使用的几乎全都是苏联武器,这就使局势复杂化了。这次进攻从4个方面给我们提出了问题:
第一,这次进攻涉及了美国和苏联两个大国;
第二,这次进攻涉及了苏联在这次进攻中的作用;
第三,这次进攻对目前的局势产生了直接的影响,也将涉及苏联,关于这一点我随后再说;
第四,这次进攻涉及了我们必须采取的一些措施,以结束这场危机。
首先我想阐述最后两点。如果北越人现在发动的这次进攻取得了成功(而如果我根据《真理报》的报道来判断这件事情,那么我将会对这种后果非常不安),那么,无论我们的愿望怎样,这将会对我们两国的关系产生非常严重的影响。如果北越人发动的进攻得逞了,那么这将造成的严重的后果是:还有69000名美国士兵将会被越南人俘虏。应该说,这是北越人努力想要达到的目的。
如果南越的军队遭受了失败(而北越人将会努力达到这一点),那么这件事造成的后果我刚才已经说过。我们是不会允许局势发生这样的逆转的,也不能容忍这种逆转,我们要付出更大的努力。
如果北越人发动的进攻得逞了,如果在这种情况下,在即将举行的莫斯科高层会谈中,尼克松总统还是像他所希望的那样依照建设性的精神进行这次谈判,那么,他必将会丧失威信。
现在在赫尔辛基举行的关于限制战略武器问题的谈判中,我们正在讨论苏联提出的建议,该建议提出在未来达成的协议中不包含潜艇问题。
我已经对多勃雷宁大使说过,在这个问题上美国军方的立场是非常坚定的。换句话说,我想说的是,如果我们在越南遭受了失败(是否会失败还令人怀疑)之后,尼克松总统前往莫斯科访问,那么在双方举行的谈判中他将会是一个强硬的谈判对手。毕竟他回国后不能宣布说,苏联的武器使美国遭受了失败,而他则向苏联作出了让步。这个事实是毫无疑问的。
更为现实的一种可能是,北越人发动的进攻将不会得逞,但是,他们会因此继续破坏我们在国内的地位,到时候,当在莫斯科就越南问题进行高层谈判的时候,越南问题将不能得到解决,到时候北越人将会继续进攻,我们也将会继续抵抗他们,这无论是对你们,还是对我们都将造成很大的困难。我们还不得不考虑美国的社会舆论。
正如苏联大使所知道的,每年5月份的时候美国国内都会有一些游行示威,会造成一定的混乱。但是每年到10月份的时候我们都能妥善处理这些事情,而且参加游行示威的人都会佩戴有美国国旗的胸章。在美国的各个阶层中,至少大学生不是很好的革命者,但是反动派会对此大肆渲染。因此,为了使美国国内的反对派遭受失败,特别是在总统大选的年份里,我们的政策不得不发生右转,向那些通常会投选票给华莱士的选民们寻求支持。
越南是个小国,越南人都充满狂热的英雄主义,真正具有讽刺意味的是,像这样的一个小国却企图解决自己的国内问题,使两个大国不由自主,走上对抗的道路,使两个大国面临它们所尽力避免的局势。这就是我们坚决要解决这个问题的原因,或者长期地解决这个问题,或者暂时性地解决这个问题,至少在从现在到今年年底的这段时间里,我们打算讨论和解决一些主要的问题。我们不是依据对抗的精神来讨论和解决问题的,我们什么要求也不会提出,除了要求满足我们提出的上述两个目的。
我应该坦诚而直接地说,如果北越人不停止进攻的话,我们将不得不采取一些措施,这些措施会威胁到最高会晤的举行,或者,即使这次最高会晤仍然举行了,那么在解决越南问题上我们也会丧失选择的自由,尼克松政府把解决越南问题看作是自己的一个主要目的。对于最近你们发给我们的信件,我们进行了仔细的研究,如果我们还没有对你们在这封信中提出的问题作出答复的话,那么这只是由于我们知道即将要同你们举行会谈。我们承认,苏联的对外政策是有原则的,因此我们不会要求你们出卖自己的盟国。我们愿意依照公正、毫无成见的精神来研究问题。我们希望即将举行的高层会晤能够为苏美关系的根本改变奠定基础。
勃列日涅夫:这是个非常重要的问题。我希望能够更好地明白,你是怎么看待这个问题的,尼克松先生是怎么看待这个问题的。毕竟最终在越南作战的是美国,而不是苏联。
我想再就这个问题作如下补充。基辛格先生,你能否告诉我,为什么美国中止了在巴黎进行的谈判?这场谈判恢复的前景怎样?毕竟你们总是不得不同越南人,而不是同其他人来解决这个问题。这是人所共知的事实,而您,和尼克松总统一样,也都了解这一点。
今天,在来到这里之前,我收到越南人发来的如下通报(勃列日涅夫同志宣读了苏联驻河内大使发回的报告中的一段话):
“越南方面作出了如下通报,对基辛格提出的建议进行答复。
——北越仍然认为,越南问题应当通过在巴黎举行谈判来解决,而不是通过在其他地方进行谈判,越南问题只应当由越南人和美国人来解决。
——关于同基辛格在莫斯科进行秘密谈判的建议是不能被接受的。
——越南方面坚持,正式谈判和秘密谈判应当同时进行。在黎德寿同基辛格进行秘密会谈之前应当恢复正式谈判,正如美国方面所认为的一样,首先举行秘密会谈,一旦秘密会谈取得成功就进行正式谈判。
——越南人仍然建议,在4月27日恢复正式谈判。他们提议在5月6日进行秘密会谈,但是,关于进行秘密会谈的日期美国方面可以提出自己的意见。
——如果美国人表示愿意在4月27日进行正式的会谈,那么黎德寿将会马上飞赴巴黎。
——无论怎样,越南人都要求停止对越南民主共和国进行的轰炸。
——委托春水在4月20日向美国方面阐述这些内容,如果苏联同志们认为需要的话,他们也可以把这些答复转告给基辛格。”
基辛格:这就是说,即使是通过苏方转交的这些答复,它所反映的仍然是越南人以前在同美国进行谈判的时候表明的立场,这种立场是他们所不能接受的。越南人从来都不说“我们建议”,而只是说“美国应该”。如果这些话只是出现了一次,那也就算了,但是如果在所有的建议中都一再重复这些说法的话,那么这看起来就已经像是最后通牒了。他们对待我就像是对待一个大学生一样,就他们所提出的建议的意义对我进行考核,但是,对于我们提出的建议,他们却断然拒绝进行讨论。
您向我提出了一个问题,您问我,为什么美国中断了在3月23日开始的那次谈判。对于这个问题我的答复是,第一,已经举行了147次会谈了,但是一个问题也没有解决,哪怕是一些次要的问题。无论怎样,越南人的所作所为都是为了使谈判导致破裂,以便使我们在国内政治方面遭受更大的困难。
现在请允许我在回答您提出的这个问题的时候,凭自己的记忆阐述一下导致这次谈判破裂的诸多事件的前前后后。今年2月15日,北越人提议在3月15日之后的任何时间举行秘密会谈。2月18日我们对他们作出了答复,同意进行秘密会谈,并建议在3月20日举行,我们挑选这一具体的日期的原因很简单,因为这个日期是3月15日之后的第一个星期六,并且在周末的时候我才能够更加秘密地前往巴黎。2月29日,北越人同意在3月29日举行秘密会谈。3月7日他们撤消了这次会谈,并提出了举行秘密会谈的新的日期——4月15日。对于这次会谈改期的原因他们作出的解释是,我们在2月19—20日、3月2—5日对北越进行了轰炸。在2月19—20日我们确实是进行了轰炸,但是早在这次轰炸的前十天,越南人就接受了我们就举行秘密会谈提出的会谈日期。因此,这次轰炸同举行秘密会谈没有关系。至于在3月2—5日进行的轰炸,这完全是他们提出的借口,因为那时我们没有对北越进行轰炸。
3月13日,我们同意进行秘密会谈,并提议在4月24日举行,因为在此之前我已经答应在4月15日到日本访问。我们提出的这个日期仍然是在我从日本回来之后的第一个星期六。对于我们的这个提议越南人没有作出答复。10天之后我们决定中断例行的会议。我们认为,在例行的会谈没有取得任何进展的情况下,再让越南人在关于举行秘密会谈的问题上继续捉弄我们没有任何意思。
3月27日,北越人接受了我们提出的关于在4月24日举行秘密会谈的建议。他们刚刚答应我们的建议,我们就马上通知他们说,我们愿意从4月13日起恢复例行的会谈。换句话说,我们对他们说,我们愿意恢复例行的会谈不是由于他们发动的进攻,而是由于他们同意举行秘密会谈。当时他们还没有开始发动进攻,至少我们是这样认为的。在他们开始发动进攻之后,我们撤销了例行的会谈,但同时向他们确认我们愿意举行秘密会谈。
在此之后,北越人就撤销了这次秘密会谈。直到现在我们仍然在继续进行这场就像小孩子才玩的游戏。主要的问题在于,我们应当找到一个解决方案,可以在商定的日期内既举行例行的会谈,又举行秘密的会谈。或许,明天我将会向您提出我们的建议,但是我们认为,这是一个次要的问题。
勃列日涅夫想知道,关于这个问题基辛格有没有最终的解决办法。
基辛格说,今天他还不能说出一些具体的办法,但是,他希望明天能够阐述美国方面的计划。他解释说,上述提到的越南人的信件他们前不久才收到。问题的关键在于,北越人在利用关于举行秘密会谈的问题,以便掩饰他们打算发动的进攻。现在已经完全明白,他们选择秘密会谈的日期的考虑是要发动进攻,他们推迟例行会谈的日期是由于他们发动的进攻要改期。这些问题都是次要的问题,可以放在一边,但是还有另外一种更加重要的情况。这个情况是:在4年的时间里,北越人推行的战略是,以答复同意同我们举行谈判为条件来迫使我们向他们作出让步。应该说,他们对于这种战略非常娴熟。但是现在他们应当明白,他们的这一战略在我们这里将不会再行得通了。我们关注的不是会谈本身,而是会谈的结果。我个人还是喜欢黎德寿的,他是一个能让人产生好感的人,但是我同他进行会谈的目的不是为了同他进行交往,而是为了取得具体的会谈成果。他们的通报看起来是,他们同意举行谈判,愿意满足我们的一些要求。
现在我们只提出两个条件。第一,会谈不能在5月6日举行,因为这一天我没有时间,而且在这时举行会谈也太晚了。第二,5月份是我能够进行这次会谈的最晚的日期,在此之前举行会谈才有意义。我们希望随后向他们通报我们的这些建议。
勃列日涅夫:恰好,越南人在他们的信件中也谈到,美国方面可以提出举行这次会谈的日期。
基辛格:是的,正因为如此我才认为这个问题是可以解决的。明天我将再次提出这个问题。
勃列日涅夫:比起作出进行轰炸的决定,这个决定更容易作出。
基辛格:对我们来说,关于对越南进行轰炸的问题是个困难的问题,也是个重大的问题,但是您根据自己的经验应该知道,有时候领导人不得不面临一些复杂的局势,这些局势使他们很难作出决定,很难采取措施。我曾经私下对多勃雷宁大使谈论过这个问题,并且强调说,在难以作出决定而又必须作出决定的时候您应该果断地采取措施,不要有所顾虑。我是在前不久才说出这番话的,作为一名历史学家,无论面临什么具体的局势都应该这样。
勃列日涅夫:您或许暗指的是捷克斯洛伐克,而且暗指得非常巧妙,就像一名优秀的大学老师。而我听得也非常认真。
基辛格:您说我像是一名大学老师,但是我却要说,您是一个辩论的能手,并且多勃雷宁大使也可以证明,我私下向他谈论了这件事情,并且我个人认为您行事非常果断。
勃列日涅夫:您在利用机会强调您刚才提到的那个问题,外交家通常都这样做。
基辛格:我认为,您在战时是一位专家,善于从侧翼发动进攻。
勃列日涅夫:战争教会了我们许多东西,教会了我们从侧翼发动进攻,从正面迎头打击。但是战争也给我们造成了重大牺牲。因此,我们现在在讨论任何军事问题的时候都要经常想一想,什么是战争,战争会给人们带来什么。
基辛格:我认为,这个看法非常重要,因此在我们两国的相互关系中,我们应该尽力避免发生冲突并使和平得到巩固。
勃列日涅夫:苏联共产党、苏联人民都支持这样做。无论我们同尼克松先生进行的会谈将会怎样,我们都将进行会谈。我们应该确定处理国际问题的一些基本的原则和态度。在会谈的过程中很容易做到这一点,通过会谈要比通过书面文件写出的东西更加容易使人明白。文件还是必要的,但是不必要对一些问题都加以修饰。
在考虑某些问题的时候,不应该局限于某一狭隘的框架内,不应该脱离现实,脱离世界局势,脱离巩固和平这一主要的任务。我想,如果我同尼克松总统能够就所有这些问题开诚布公地、畅所欲言地交换意见,那么这将有助于我们达成相互的谅解。或许,我们不会把所有的谈话都记录下来,但是一定要相互说出他们的真正想法。而这也有助于双方达成谅解。
我之所以说这些话还因为,我认为,同您基辛格先生进行的谈判所讨论的问题,如果不会多于我同尼克松总统进行的谈判所要讨论的问题的话,那么至少也会涉及我同尼克松总统进行的谈判所要讨论的一半内容。如果我们现在就某些问题的解决有了共同的看法,那么,这将会减轻我和尼克松总统进行会谈时的负担,使我们少付出一些努力。
基辛格:这也可以使您有更多的时间去讨论更多的问题。
勃列日涅夫:是的,这将使我们进行的会谈更加具体,可以直接讨论关于这次谈判的文件,这些文件将反映我们这些谈判的成果。
基辛格:我同意,和平不能靠一纸文件来保证,所有问题都不在于签署文件,而在于达成谅解,在进行这样的会谈之后就可以达成谅解。会谈本身应该有助于国家之间建立起这样一种气氛:当我们在作出某一重大决定的时候,我们能够考虑到其他国家的利益。
在谈到越南问题的时候就应该说,如果我们解决了关于举行正式会谈和举行秘密会谈的次序问题,那么之后将会产生一个更为现实的问题:我们为什么要举行秘密会谈。令我们不满的只是黎德寿也要参加这次会谈,尽管正如我所说的,我个人还是乐意同他交往的。
我向您通报一下关于我们的建议。我们希望通过会谈达到如下目标:
或者完全解决军事冲突,这或许是不可能实现的;
或者停止军事行动,至少在一定的时间内停止军事行动,哪怕是在今年年底之前停止军事行动。如果军事行动能够停止的话,那么,我们愿意改变我们对越南采取的政策,并且也可以把现在派往越南的援军撤回。
勃列日涅夫:你们向越南派出援军了吗?
基辛格:我们派往越南的基本上都是海军和空军。
勃列日涅夫:您指的是海军陆战队吗?
基辛格:不是,是海上航空兵,现在我们还没有再派出陆军。
我还想再次阐述如下客观事实,即,如果敌人对我们开展了大规模的军事行动,我们将不得不加强在越南的军事行动,同敌人进行战斗,而在美国国内,我们也将不得不更加指望得到那些我们本不愿意与之进行合作的人的帮助。
因此,我们想解决两个问题:
第一,恢复谈判;
第二,使会谈取得一定的成果,哪怕是临时性的成果。
勃列日涅夫:我认为,越南人也想通过举行秘密会谈来恢复在巴黎举行的谈判。因此,问题只在于,首先应该开始进行的是哪种会谈——公开的会谈还是秘密的会谈。但是在决定是否继续进行战争的时候,这个问题还不是非常大的障碍。在关于贸易问题进行的谈判中,关于应该怎样进行会谈,可以进行无休止的争论,但是,当谈到关于战争和和平问题的时候,如果就他们进行谈判的形式这个问题不能达成妥协的话,那就很难想象了。在这种情况下进行秘密会谈就比较容易了,这种会谈不会使双方的威信受到伤害。
基辛格:这不会使我感到为难,正如我所说的,明天我们将会提出我们的建议。主要的问题在于,在进行会谈的时候会发生什么事情。
勃列日涅夫:我想,或许基辛格先生对这次会谈有一些具体的建议。
基辛格:是的,但是黎德寿是否也有一些具体的建议?
勃列日涅夫:关于这个问题我还一无所知。明天我们将倾听您提出的建议。
基辛格:但是我明天要谈论的建议将涉及程序问题,也就是双方对会谈的组织问题。
勃列日涅夫:关于会谈的内容您是否有一些计划,或者您是否认为应该把这个问题向我们进行通报?
基辛格:我想坦诚地说,北越人通常是怎么对待我们的。当然,我不知道,他们将会怎样同我们进行谈判,但是他们采取的都是如下的形式:每当我同黎德寿进行会谈的时候,他的桌子上总会放着一份文件,上面列着8项、7项或者其他数量的条款,而且当开始论及每一项条款的时候他都会说“你们应该”如何如何。听完他的没完没了的“你们应当”如何如何之后,我都会对他作出答复,并提出自己的一些建议。对于我提出的这些建议,他总是会说:“您说得还不具体。”这句话翻译成英语的意思就是说他们不接受我提出的建议,甚至也不愿意讨论这些建议。如果我接受了他所提出的建议中的某一条款,他们就会说:“现在您谈论的就具体了。”因此北越人提出的所有建议都可以被看作是最后通牒。我想再次强调说,今后无论他们进行什么样的威胁或施加什么样的压力,我们都不会再像现在一样了。我说的这些话都是非常真实的,是为了说出真实的情况。
如果同越南人举行了秘密会谈,那么谈论的就应当是采取一些措施,以便在今年大规模地减少在越南的军事行动。但是,应该直接地说,如果越南人在这次会谈中的表现还像以前一样,那么这次谈判将会是一次非常困难的谈判,也未必会有什么意义。
正如我上述所说的,我们想达到两个目的:第一,恢复谈判(明天我们将通报我们就这个问题提出的建议);第二,我们希望在剩下的短暂的时间内使这次谈判能够取得真正的成果。关于这个问题我们也会谈论我们自己的一些想法。
我将很乐意听取你们就这个问题提出的任何看法。这些看法不仅仅同越南问题有关,而且也同整个国际局势有关。如果我们现在在解决越南问题上不能取得进展,那么事情的发展将会使局势更加恶化,这就不能使我们的关系建立在牢固的基础上。
我们不想在越南拥有军事基地。你们也不希望在越南拥有军事基地。我们想撤离越南。你们也不想到越南来。如果我们在那些对我们来说没有任何特殊利益的地区发生了争论,这才是真正荒谬的事情。
勃列日涅夫:看来,就越南问题进行的谈话将会更加具体一些。我愿意倾听你就这个问题向我们进行的通报,尽管这个问题是个复杂的问题。
我不愿详述以往的历史。美国人发动了越南战争。关于这场战争我们想都没有想到。特别是没有想到当柯西金1965年初在河内进行访问的时候,你们加强了军事行动。
越南民主共和国是个社会主义国家。我们当然要同他们站在一起,他们进行的事业是正确的事业,我们当然要公开而明确地支持他们反对侵略,支持越南人争取自己解决自己事务的权利,我们的这些立场早就广为人知了。
我要直接地说:我们这些苏联领导人以及全体苏联人民都很难理解,美国在越南捍卫的是什么,他们为了什么要付出8年的时间,牺牲无数美国人和越南人的生命,他们浪费了这么多的资源是为了什么。这确实是一场可耻的战争。在八年的时间里各国的舆论都在反对这场战争,把美国看作是一个侵略性的大国。你们应当非常清楚,在多少个国家曾经开展过反对这场战争的运动,对于这些运动我们都没有组织,也没有指使什么人进行领导。但是世界各地都在说你们是“侵略”,是“帝国主义”。而最终这些话都会被用来针对美国的领导人,针对美国总统。
难道美国人就不明白,无论进行什么样的轰炸都是不能解决这个问题的?你们以前通过这种方法不能解决问题,现在你们通过这种方法将仍然不能解决问题。在一定的时间内你们可能会压制住人民的反抗,但是随后他们将会再次起来进行战斗。这种方法不会给美国带来荣誉,不会给美国在世界上留下好的名声。
而在目前的条件下,你们进行的轰炸具有特别的性质,这次轰炸是在苏美正在准备进行高层会晤的条件下进行的,而这次高层会晤是我们就许多问题达成协议的一个机会,不仅对于我们两国,而且对于这个世界来说这都是非常重要的。
进行这样的轰炸或许还会对美国的国内舆论产生影响,而且也不利于尼克松总统,不能增加他再次当选总统的机会。
我们绝不是为了阻碍尼克松总统开展竞选运动。我们愿意进行高层会晤就是最好的证明。这或许是我们能够给予尼克松先生的最有效的支持。
我要再次说,要把现在的一些积极因素和消极因素区分开来。在谈论问题的时候,你们的意思好像是说,有过错的是我们,是苏联。是你们发动了战争,进行了轰炸,加剧了国际局势,而过错却是我们?!给人的感觉是,这是在对我们施加压力。如果事情是这样的话,那么一切努力都是枉然。
请允许我坦率地说,我们认为,有人使您和尼克松总统迷失了方向。现在在美国以及在世界上的其他地区都有许多势力在企望着我们同尼克松总统之间的会谈不能举行。你们可以想象一下,使一些人幸灾乐祸的根源是什么:也就是说,请看,美国和中国在北京举行了会谈,但是莫斯科什么也没有得到。
至于我们,我要再次说,我们坚决决定要举行这次高层会晤,尽管我们在一些方面还面临一些困难。
我想澄清一些事实。
现在美国有许多人在喧嚷说,苏联或许是要通过向越南人提供武器来“组织”越南人发动进攻。应当对您说,在越南人发动进攻之前,我们同他们没有签署任何特别的、关于向他们提供武器的协议。我也想强调说,越南人的军事计划同我们没有任何关系,也不会有任何关系。我们对越南人的条件也知之甚少。也不知道在他们那里什么时候是干旱的季节,什么时候是多雨的季节。他们的计划都是根据他们的需要自己制定的,而他们显然也会利用各种季节的因素。
基辛格:遗憾的是,他们对这些事情考虑得是太多了。
勃列日涅夫:但是我请您注意如下几点。尼克松打算到北京访问。在此之前,周恩来对河内进行了访问(我们没有去河内进行访问)。在周恩来对河内进行访问之后,越南人就没有再发动进攻。在您和尼克松总统离开北京之后,周恩来又再次到了河内,而在他的这次访问之后越南人就开始发动了进攻。关于这件事情您能否做个解释?
我还想提请你们注意另外一个新现象:中国的报刊突然写道,苏联向越南提供了大量的援助,这种报道还是第一次。迄今为止,北京仍然在宣扬说,我们对越南的援助是“微不足道”的。而美国的报刊基本上也在配合中国的宣传,在反对尼克松先生。你们在国内的反对派也喧嚷说,苏联向越南人提供了如此多的武器,以致越南人不仅可以占领整个印度支那地区,而且,如果他们愿意的话,他们还可以扩张到印度……基辛格先生,所有这些都是为了破坏我们即将举行的会谈。这一点不难发现。所有这些都证实了我对当今局势提出的这些看法。
昨天,在我对我们现在进行的这次会谈进行准备的时候,为了预防万一,我请他们向我提供了一份关于我们对越南提供的军事援助的总量报告:以前我们向越南人供应了什么武器,根据1971年签署的协定每个季度向越南人提供了什么武器。在了解了这份报告之后(还不能把这份报告提供给您,但是请您相信我所说的话),我们就很容易明白,有人喧嚷的所谓苏联“组织了越南人发动进攻”到底是怎么一回事情了。
有许多人,其中包括中国人都在反对我们即将举行的最高会晤。对于他们来说,破坏这次会晤将是个重大的收获。您对北京进行过访问,但是我怀疑您是否了解了他们的哲学、他们的性格和他们的方法。然而在过去,俄国的一些科学家和外交家都对中国人的特点作出了非常深邃而准确的评价,或许他们作出的这种评价的正确性是现在的任何一个研究所——无论是我们的研究所还是你们的研究所作出的评价都不能比拟的。中国人是非常复杂的。中国领导人在政治上没有原则。他们时而企图在国际共产主义运动中获取霸权地位,时而跑去同美国接近,时而向我们保证发展兄弟般的友谊关系,时而称我们为社会帝国主义,时而说我们对越南的援助是微不足道的,时而夸大我们对越南的援助……对于同中国人处理好关系,我们大家都还有许多困难。
当然,我所说的这些话绝不意味着我们在指责你们对北京进行的访问。我们没有指责你们进行的这次访问。两个大国之间实现关系正常化是一件自然的事情,当然,如果这种关系不是针对第三国的话。我所说的这些话都不是我个人的立场,而是我们全党的一致看法。
主要是为了让你们明白,你们进行的轰炸是不能解决问题的,而且还会破坏整个政治氛围,无论你们和我们的意愿如何,这客观上都会使局势复杂化,其结果可能是尼克松总统不能参加高层会谈,而且也会为我们参加这次高层会谈带来困难。
您应该很清楚,对越南民主共和国进行的轰炸在美国国内会产生什么样的后果。看起来,使尼克松先生感兴趣的是,在庆祝美国建国200周年的时候,他仍然主政白宫。我不知道扩大对越南的战争是否会对他有利。我想如果苏联不出席的话,也会为这次庆祝活动投下阴影。
因为我们最为关注的仍然是发展我们两国的双边关系,请允许我把我们起草的《苏联和美国相互关系基础》共同文件的草案交给您,我们认为这份文件非常重要。请你们研究一下这份文件,并把你们的意见告诉我们。
我们还有其他的一些重要建议,我们认为这些建议尼克松总统将会乐于接受,这将会为即将举行的最高会晤取得成果提供保证。随后我将同您谈论这些建议。
基辛格:我将会对这份文件进行仔细的研究,并且在我们还在莫斯科的时候就把我们对这份文件的看法事先通报给你们。
勃列日涅夫:最好在我们同您进行的会谈中能够就这个问题达成谅解。如果需要对这份文件进行补充和修改的话,我们也将欢迎。勃列日涅夫风趣地说,但是,如果你们提出的修改意见是为了降低这份文件的作用的话,那么我将会说,也将会公开地说,基辛格阻碍我们通过一份很好的文件,这份文件对于我们两国人民来说都是有益的。如果你们提出的修改意见是很好的修改意见的话,那么我将会说,苏联外交部没有能力准备一份完美的文件,因为他们对美国现政府的良好意愿估计不足。
抛开玩笑的话不说,我要强调说,这些建议是苏联政府和苏共中央提出来的。我们请求你们对其进行仔细的研究,认真地对待这些建议。
现在谈论一下关于我们今后的工作安排。明天4月22日和后天4月23日,我听从您的安排,如果需要的话,那么4月24日,星期一,也可以听从您的安排。
基辛格:如果需要的话,那么我准备在星期一也留在这里,但是不能再停留更长的时间了。
(双方商定在4月22日上午11点钟进行下一轮会谈。)
基辛格:我知道,今天是你们的一个隆重的节日。你们要庆祝列宁诞辰,列宁是世界历史上的一位伟人。请允许我借此机会代表尼克松总统和美国人民对你们表示祝贺和敬意。
勃列日涅夫:非常感谢。再见,明天见。对于今天的会谈我很满意,这次会谈是一场开诚布公的、生动活泼的会谈。让我们一起努力,使明天进行的会谈更加富有成果。
会谈记录:А.М.亚历山德罗夫
Т.Ф.德米特里切夫
В.М.苏霍德列夫
АПРФ,ф.3,оп.89,д.17,л.93-120
№22941 勃列日涅夫与尼克松会谈记录:如何结束在越南的战争(1972年5月24日)
1972年5月24日
20—23时
奥加列沃城郊别墅
勃列日涅夫:让我们继续谈判。今天我们将谈论什么呢?
尼克松:我们还有一个问题没有谈完,就是关于导弹防御和冻结战略武器协议的问题。我希望我们的谈判代表今晚能够就这些问题达成协议。如果他们不能达成协议,那么,看起来,我们不得不就这个问题再次举行会谈。
勃列日涅夫:我想,经过昨天的会谈他们是完全能够达成协议的。葛罗米柯和斯米尔诺夫同志希望会见基辛格先生,并把我们给参加赫尔辛基会谈的苏联代表团下达的指示通报给他。遗憾的是,在离开这里之前,基辛格先生都一直在忙,因此他们不得不在我们的这次会谈结束之后,在稍晚的时候——今天晚上同他会见。我认为,事态不会复杂,当然,如果基辛格先生不提出一些新的问题、不使事态复杂的话。
尼克松:这次的讨论是困难的,而且这种困难也是可以理解的。这次讨论的将是涉及美苏双方生存利益和安全利益的问题,因此,双方自然都会极其谨慎。这是为了随后达成使双方都满意的协议所必需的。我觉得,原则上我们已经在主要问题上取得了相互谅解。然而,为了能够在星期五签署这一协议,还需要一些努力。
勃列日涅夫:最好是这样。
尼克松:今天我们关于欧洲问题的讨论进行得不错。或许我们可以在星期五结束关于这个问题的会谈。明天我们将继续讨论贸易问题。应该考虑一下,我们应该就这个问题发表什么样的公开声明。或许,可以宣布关于成立经济联系委员会的声明,而在星期六宣布关于进一步达成的协议。
勃列日涅夫:可以这样做。现在已经确定的事情,当然要进行到底。
在国际问题中我们尚没有解决的是诸如越南和近东局势这样棘手的问题,但是这些问题也是必须解决的问题。
尼克松:我想,在这样小的范围内讨论这两个问题是非常重要的。在这些问题上我们同你们存在重大的分歧。我们要设想一下,这些分歧是什么,在哪些方面可以取得一定的谅解,这一点显然很重要。在同我们进行的会谈中,总书记先生多次说越南的局势是棘手的。越南的局势确实棘手,并且对这次会谈造成了很大麻烦。我知道,你们在考虑越南局势的时候也不会轻松,然而,我们仍然就其他问题进行着会谈。
另一方面,我认为,不仅是现在,而且在将来,我们双方都要不惜任何代价避免在某一方面发生这样的冲突,这种冲突阻碍了我们两国在其他具有决定性意义的领域发展关系。
我想向您保证,我们没有打算在这个时刻加剧越南的局势。是北越人选择了在这个时刻加剧越南的局势。在这样的情况下我几乎没有可能作出其他的反应,尽管我知道,我们的这种反应会给苏联领导人带来一定的问题。6万美国人的生命处于危险之中,这已经为我们采取强烈的反应提供了充足的理由。此外,还有1000多美国人的命运不得而知,从各方面来看,他们很可能已经被北越俘虏了。
尽管在我担任总统期间我们已经撤出了大约50万以上的军队,并真诚地建议和平解决问题,但是,同北越代表进行的149次正式会谈和13次秘密会谈都没有取得任何成果,他们只是向我们发出了最后通牒,要求我们在完全不可接受的条件下撤离越南。
现在我们的立场非常简单,并且我们认为我们的立场是公正的。总书记自己在4月份同基辛格进行的谈话中也谈到了关于停火和进行谈判的想法。我们现在所希望的正是停火、向我们提供关于美国战俘命运的情报并遣返他们。在此条件下我们愿意在4个月内撤出我们在越南的所有军队。否则我们是不会做出任何让步的。
在此我们可以继续谈论关于美国在越南问题上采取的立场是否明智这个问题。我们非常了解苏联领导人在越南问题上的立场,我相信,这正如你们非常了解我们的立场一样。迷恋于对单个历史事件进行分析毫无意义。我们现在非常清楚:我们现在千方百计尽力结束的这场战争已经成了一个重要的国际问题,并且对美苏关系的发展产生了消极的影响。我们想结束这场战争,并且建议通过谈判来结束这场战争。但是要做到这一点双方都必须有良好的意愿。问题的解决应该建立在双方都可接受的基础上,不应该是向我们发出最后通牒,并把一些条件强加给南越政府,这些做法只是有利于北越方面。如果北越不同意这一点,那么我就不得不通过其他的途径来解决问题。
无论怎样我都不愿因此使我们同苏联的关系复杂化。因此我否决了关于封锁的建议——建议封锁通往越南水域的苏联船只。我还下达了一项命令:在我们进行莫斯科会谈期间不对河内地区进行轰炸,以便不使局势复杂化。但是,除了我们采取的这些措施,我现在还没有看到有对北越人采取其他措施的可能性。北越方面可以从我们这里得到公正的和平。如果他们不愿意这样做,我们将使用我们现有的军事力量来结束战争。
我很清楚,苏联是北越的盟国,你们同北越有着共同的意识形态。我也知道,苏联在向越南提供军事物资。这是国际生活中的一个事实。我们在这个地区存在着分歧。但是我们两个大国在许多领域都有良好发展的机会。我认为,如果能够尽快顺利结束这场战争,那么,这不仅符合苏联的利益,也符合美国的利益。我也认为,苏联作为北越的盟国、作为一个向北越提供武器的国家可以对越南施加更大的影响。我认为,劝说他们进行明智的谈判符合我们双方的利益。
然而,还需要考虑到一些现实因素。我们现在是骑虎难下。目前的局势是:我们不得不继续采取军事行动,直到我们有了进行谈判的保障,感觉到重返谈判桌可以取得一定的成果。只要我们还没有这种保障,我们就不得不继续采取行动,正如我们现在采取的行动一样。
我不能确信,苏联是否为北越开始发动进攻承担责任。但是北越已经开始了进攻,而我们不得不对此作出反应。我们很清楚,我们的这种反应将对我们今后的关系产生怎样的影响。我们某个不负责任的盟国会从我们那里得到武器,摆脱我们的控制,并企图使我们双方发生冲突,激化我们两国的关系,可以说北越就是这样的例子。
我知道,您不同意我现在对您所说的话,但我完全是开诚布公地说这些话的。
提出一些能使我们今后做得更好的各种想法,我们当然欢迎。但是我也想请求你们从另一国的角度,也就是从我们国家的角度考虑一下。毕竟苏联也曾经认为,必须采取有力的行动来捍卫自己的生存利益。我们不赞成你们的行动,但是我们尽力不让事态的发展破坏我们两国的关系。现在应该努力,应该尽可能、尽快消除两国关系发展中的障碍。当然,在存在一些困难的情况下美苏关系现在仍然在发展,我们也将推动双方关系不断发展,但是,如果没有越南问题的话,美苏两国关系的发展将会更快。
有人对我们说:请停止战争吧。而我们也不想继续战争,想继续战争的是北越人。我们愿意停止战争,我们为此甚至已经准备了3年的时间。北越人现在应该作出决定:停止战争或者为继续战争承担责任。现实情况就是这样。
勃列日涅夫:总统先生,我们现在的谈话涉及的是一个非常棘手而重大的问题。这个问题棘手,是因为它是关于战争的问题,是关于人们生命的问题,也在于这场战争加剧了国际局势、严重影响了苏美关系。现在这个问题特别突出,因为你们又恢复了对北越的残酷轰炸,正在对越南人采取军事行动。
在同基辛格先生的谈话中我已经谈论过这一点,但是现在我想强调说,不仅仅是我们,而且大多数国家都有充分的理由把你们在越南的这场战争称之为一场可耻的战争,称之为一场侵略性的战争。或许,确实没有必要详述往事的各个细节,但是我们想特别强调一点:你们把越战升级并开始轰炸越南民主共和国的时候,苏联部长会议主席当时正在河内。要知道越南人当时没有采取任何行动。
您刚刚对这场战争进行了评价,并做出了一些解释。我们应当果断地说,原则上我们对这场战争是另外一种评价。从苏联领导人的多次声明中您也可以了解我们对这场战争的评价。或许,今天没有必要对我们的评价展开论述。但是我想说,我们将不会退让,因为我们深信自己是正确的。
或许,没有必要追溯太远,但事实是:1954年签署的日内瓦协议被粗暴地破坏了,当时这一协议为印度支那地区的和平确定了所有前提条件。为什么没有在越南推行日内瓦协议所规定的选举,这个问题众所周知。你们很清楚,获得大多数越南人民支持的民主政府将会在这些选举中获胜。这已不是什么秘密。但是为什么不是越南人自己而是由另外一些人来决定越南政府的组成?为什么在这个问题上需要华盛顿的指示?
这些逻辑非常奇怪。总统先生,毕竟谁也没有请求你们到越南去。你们向越南派出了大量军队,而你们现在却说你们是在保护自己在越南的士兵。有什么理由这样说呢?有哪一条法律和哪一条国际关系准则能证明你们这些行为的合法性?是没有这样的法律和准则的。你们进行的纯粹是侵略行动。您说,您想结束战争,并把这种想法同你们残酷的轰炸联系在一起,你们轰炸的不仅仅是军事设施,而且还有平民,而您却说这是结束战争的手段。这种手段会毁灭一个国家,会夺去成千上万人的生命。您说,不会轰炸我们的船只,但实际上却不是这样。你们对越南人开展了残酷的战争,但是是为了什么呢?你们侵入了越南,进行了一场美国历史上时间最长的战争,而且侵略的是一个远离美国的小国,它对你们国家没有产生过任何危害,你们是为了什么呢?世界上没有一个国家、没有一个民族、没有一个人会赞成你们的这种行为。因此,全世界都把你们在越南进行的这场战争称之为侵略性的战争是完全正确的。在此我不想重复那些形容美国侵略的词汇,这些词汇已经够多了,并且您或许也是知道的。但是,你们现在的行动方法怎么能被称为结束战争的方法呢?总统先生,现在还不是可以用这种方式来迷惑人民的时候。
我也不得不强调说,你们采取的一些措施直接损害了我们的国家利益,给我们的远洋船只和国际航运带来了危险。
柯西金:今天我从海上运输部得到报告说,美国飞机飞到我国在越南水域的船只上方并投下了炸弹,这些炸弹落在距苏联船只500米和300米的地方,甚至有一枚距苏联船只只有120米。而这件事发生的时候,你们正在莫斯科同我们进行着会谈!
勃列日涅夫:如果你们所说的关于希望停止战争的话是你们真实的意图,那么我们深信,像美国这样拥有巨大政治资源和外交手段的大国早就找到了停止战争的方法了。但是你们所提出的建议都包含这样一种思想:越南人只应该接受你们美国人的条件。应该怎样理解这一点和证明这一点是正确的呢,总统先生?
越南人没有向你们美国提出领土要求,也没有向你们要求任何特权。他们希望的只是获得独立。他们同意在南越建立由三个主要政治力量的代表构成的联合政府,最近他们重又提出了关于在巴黎举行谈判的建议。是您和西贡方面拒绝了这一建议。应该怎样看待这件事呢?这些都显示了美国对越南的政策是侵略性的政策,此外,很难有其他的说明。这正是我们的看法,而我也相信世界上大多数国家也会持这样的看法。如果您,总统先生,能够容忍美国和美国政府的这种可耻行为,那么我根本就不知道,我们应该怎样谈论这个话题了。
你们在同我们的这次谈判中打着和平的旗帜。我们已经签署了一些有益的协议。应当对此表示欢迎。总统先生说过,我们能够进行这次会谈是不容易的,这样说是正确的。您说,越南民主共和国是我们的盟友,这样说也是正确的。我们将把我们的同盟义务履行到底。无论你们怎样轰炸都不能解决问题。
显然,美国在南越捍卫的是自己一些自私的利益。如果你们真的希望进行切合实际的谈判,那么,我想越南人将不再会扣留你们的战俘。
波德戈尔内:在战争结束的时候,战俘一般都会被遣返的。通常都是这样。其中包括,我们在战后把德国战俘遣送回了德国。
勃列日涅夫:当然是这样。总之,应该说,你们把关于归还战俘问题的要求或条件作为停战的前提,这是在做作,是虚情假意。通晓事理的人都明白这一点。越南战争是苏联人民的重担,因为第二次世界大战刚过不久,我们在第二次世界大战中损失了2000多万人口。众所周知,这场战争对你们造成的损失不大。如果美国在这次战争中遭受了重大损失(但愿这不会发生),那么你们的政府,毫无疑问将会很难在越南进行另外一场战争了。
您说,您理解我们在目前条件下同意进行这次会谈的困难,您的话是正确的。但是我们愿意进行这次会谈,我想对其中的原因进行解释。我们认为,会谈前进行的工作使我们产生了一定的希望。美苏两国拥有巨大的经济力量、较高的文明发展程度及其他条件,我们希望不仅仅处理好两国之间的关系,而且还要利用自身的影响缓和国际紧张局势,预防今后出现复杂的局势,缓和一些地区现有的紧张局势。我们指的是越南局势。我们原以为,你们最近在越南采取的措施是偶然的,是在气头上采取的措施。但是现在在听了您的话之后,恐怕我们的看法会发生改变。一方面,美国看似希望改善同苏联的关系,希望改善整个国际环境,另一方面继续在越南进行着残酷的战争。这是矛盾的。我想,如果我们只是把关于这个问题的不同意见写进我们的共同文件里,那么这将不会有什么重大的意义。许多国家将不会理解我们。它们会认为,你们打算继续战争,而我们则同意你们继续战争。你们在中国访问的时候,在联合公报中写下了双方对各自立场所作的阐述,但是,可以说,中国没有自己的政治原则。他们为了自己的利益希望我们同你们、同其他国家发生争执。诚然,您是很清楚这一点的,不用我们说你们也是很清楚。然而,我们不是中国。
我们多次向总统先生发表了声明,在给你们的信件中也多次说过,越南战争任何时候都不会给美国和美国政府带来荣誉。如果您真的想结束这场战争,那么,我相信没有我们的帮助你们也能同越南人达成协议,和平解决问题,并且不失自己的尊严。但是现在看起来将会是什么情况呢?我们想同您签署一份重要的文件,向全世界说,应通过和平途径而不是通过战争来解决争端;我们将建议其他国家接受这一原则。而正是在这个时刻你们却继续进行战争,杀死一些无辜的人——母亲和孩子,摧毁一些学校和医院。这些该怎么解释呢?我们一贯推行各国之间和平友好的政策和原则,努力缓和国际紧张局势,保障人们的和平生活。为此我们愿意帮助美国、愿意同美国进行合作。但是在越南战争继续进行的情况下、在你们滥杀无辜的情况下我们怎么能够这样做呢?
在第二次世界大战期间我们同你们一起谴责了希特勒的罪行。当时我们两国是盟国。数十年后,人们至今仍然认为发动那场战争的人是可耻的。现在却在进行另一场战争。这让人很难理解。我也不是自以为对所有的美国人都了解,但是,未必所有的美国人都一致认为必须继续越南战争。
柯西金:根本就不是!
勃列日涅夫:牺牲的美国士兵的亲属、因战致残的美国人当然是不支持继续进行越南战争的。为什么要这样做呢?难道美国人以和平的方式解决问题,而不是通过轰炸来解决问题,总统的威望就会下滑了吗?相反,总统的威望将会提升,而我认为,所有的美国人也都会希望这样做。如果美国政府和美国总统个人在这个问题上表现出了智慧并带来了和平,那么美国的威望无疑也会提升。全世界的人都希望您这样做。这确实会给您带来荣誉。
波德戈尔内:关于这一点可以以戴高乐为例。当时戴高乐使法国退出了阿尔及利亚,结束了为期七年的战争,因此他也成了民族英雄。
勃列日涅夫:我们都是政治家,因此我们对您所说的话都是开诚布公的。我们不向您提出其他的条件,但除了一点:结束这场战争。我们不能把任何政府强加给这个国家,这是越南人自己的事。毕竟越南人自己提出了成立联合政府的提议。越南是否建立共产党政府或建立其他政府都不是我们的事,让越南人自己决定吧。前不久基辛格先生在莫斯科访问的时候曾对我说:“如果在调解问题后的几个月内越南人没有采取任何行动,那么美国对越南的兴趣就会降低,然后就让越南人做他们自己想做的事情。”如果你们确实持这样的立场并把它告诉了越南人(我们没有参加巴黎谈判,也不知道你们是否告诉了他们),那么我相信,他们将支持这种解决方法,或许就不会有战争了。结束战争对于美国政府的稳定、对于巩固美国政府在人民中的威望都具有非常重要的作用。在这些方面美国的轰炸行为是起不到作用的。
越南的邻国中既有大国,也有小国,它们或许都不能容忍越南的失败,这种可能性也应该考虑。通常无论人们想得有多周到,他们都不能预见到明天将要发生的一切。事实上,你们选择的结束战争的方法是要杀光所有无辜的人,谁委托你们这样做了?希特勒想扩展“生存空间”,其结果是任何空间都没有得到。这一点要好好想想。
我曾经对基辛格先生说过,逻辑是一门科学,并请他把这句话转告总统先生。在目前情况下我们应该运用一定的逻辑对局势进行分析。
柯西金:总统先生,我完全同意勃列日涅夫关于越南问题的谈话,这个问题是个重要的、具有历史意义的问题。5年前苏霍德列夫同志翻译了我同约翰逊总统在葛拉斯堡罗的一次谈话。这次谈话同我们今天的这次谈话非常相似。当时约翰逊总统对我说,他想结束战争,并为此做了许多努力。经过两天的谈判后我对他说:“很显然,您根本就不愿结束战争;好吧,请试试看,事情会是怎样的结果。”他当时对我说,他想迅速扼杀越南,他是从强权的立场谈论这个问题的。现在您又从强权的立场来谈论这一问题,这是多么可悲呀!
已经过去了5年时间。在这5年里美国军队残害了大约100万越南人,自己也损失了大约10万名士兵,花费了数十亿美元。你们得到了什么?我们现在同你们进行的这次谈话同我与约翰逊总统进行的那次谈话非常相似。当然,你们那样做是不会解决问题的。
还有一种情况非常重要。北越可能会让其他的国家介入战争。已经有一些国家就这个问题提出过许多建议,比如,中国军队就强烈要求进入越南同你们作战。然而,尽管面临许多困难,越南人从来没有让其他国家的军队参与这场战争。还需要对这种情况进行分析,这段历史也还没有公开。美国人在越南就像占领军一样,而谁也没有让你们到那里去,除了自称为“政府”的一些爪牙。尽管其他国家(既有社会主义国家,也有非社会主义国家)坚决建议向越南派出军队,但越南政府都没有同意。应当了解这一点并对其作出评价。对越南人来说,这是一项非常有利于他们的举动。
勃列日涅夫:他们想,他们那样做有助于和平解决问题,避免挑起更多的战争。越南战争就是别人强加给他们的。
柯西金:总统先生,我们觉得,您现在对武力解决政治问题的可能性评价过高。一旦危机时刻到来、一旦他们愤怒,他们就不再会拒绝其他国家的军队。您不能保证避免这一点。到时候战火将会更大。
尼克松:我们完全不怕这样的威胁。就让他试试看。
柯西金:您认为我们所说的是威胁你们,您这样想是不对的。扩大战争是一件严重的事情。我们对您说这些话不是为了威胁你们,而是为了对局势进行分析,这要有用得多。当您执掌政权的时候,有一种意见认为,您是一个长期从事政治工作的人,可以利用有利的机会(您现在仍然有机会,因为您没有参与对这场战争的组织)停止这场战争。开诚布公地说,我们是坚信这一点的。如果您试着按照您所说的那种方法解决问题,也就是使用武力解决问题,迫使越南人接受你们的条件,那么这既不会给美国,也不会给您自己带来荣誉。
问题在哪里?在于您撤出军队。这将得到越南人的欢迎。您说要北越释放战俘。前不久越南民主共和国总理范文同曾说(他对我也这样说过),一旦战争结束将立刻释放战俘。至于未来政府,越南人同意组成由三个政治力量的代表组成的联合政府。剩下的一个问题是:您需要那位所谓的“总统”,尽管那位总统谁也没有选他担任。为了那位可以卖身投靠别人的“总统”,你们准备断送数十万越南人和许多美国士兵的生命。
尼克松:而北越的主席是谁选出的?
柯西金:全越南的人民。
波德戈尔内:南越也认为胡志明是主席。
柯西金:我不知道您是否认识越南领导人,至于我们,我们同胡志明相识已经许多年了,我们还认识黎笋、范文同及其他同志。这些人都非常认真,忠于自己的祖国,都经历了多年的斗争。
勃列日涅夫:在越南人正式提出的建议中,他们甚至没有提出统一北越和南越的问题。他们愿意付出相应的义务。因此为什么要屠杀他们呢?请回答这个问题。
柯西金:你们要求越南人,让他们给你们一些建设性的建议,而他们却在等着你们提出建设性的建议。这就陷入了僵局。为什么您在这里,在莫斯科的时候就不能提出一些建设性的建议,如果您提出的话我们就会把它转告给越南人。您可以提出建设性的建议,带着胜利的果实返回美国,而不是为了维护那位可以卖身投靠别人的“总统”。您还有4年的总统任期,尽管从历史的角度来说这只是短暂的时间。
尼克松:谁知道会留下什么呢?
柯西金:我们的看法是:如果您找到了解决这个问题的建设性的方法,您就会作为一位打开僵局的人物被载入史册,这是您之前的美国总统都没能做到的。在新的条件下我们同您还可以在各个领域发展合作,为人类作出更多的贡献。难道为此还不值得牺牲西贡腐朽政权吗?
波德戈尔内:今天我们进行了开诚布公的会谈,这次谈论的问题也非常尖锐。直接听取其他国家领导人的谈话,比通过广播和电视收听他们的声明总是要好一些。在座的各位同志中,我比其他各位晚一些到过越南。去年秋天我对越南进行了正式访问,受政治局的委托就国际问题和双边关系问题举行了会谈。正是那个时候,越南人首次从我那里得知,我们就同您在苏联举行会谈这个问题达成了协议。越南人对此充满了期望,因为他们认为,苏联领导人会对美国总统公开说出他们在这个问题上的考虑,并且可以共同寻找解决问题的途径。当然,他们还没有预料到我们和您能够找到解决问题的途径。然而,越南人觉得,苏美两国可能会在某些方面达成协议,这将有助于巴黎和谈的进行,有助于找到解决问题的途径。越南民主共和国领导人是思维健全的人,他们不会有非分之想。他们曾明确对我说,不打算现在就同南越统一。他们希望的只是保障越南的自由和独立,以便越南人自己决定自己的事情。他们曾说,可以成立由三方代表组成的政府,由这个政府在南越实施相应的选举。
没有必要再说,越南是个小而英勇的民族。您自己也承认这一点。任何时候,在任何情况下越南人都不会放弃自由和独立,无论有多少飞机来轰炸他们。这些人事实上终生都在为自己的独立而奋斗。他们同中国人进行了长期的战斗,然后同法国人进行战斗。最终,在1954年日内瓦协议签署之后越南人产生了独立并掌握自己命运的希望。遗憾的是,他们的愿望没有实现。正如勃列日涅夫同志和柯西金同志所说的,美国最近针对越南采取的行动完全是非法的侵略行为,遭到了世界各国的谴责。美国人采取的这些措施针对的不仅仅是越南,还针对那些与越南民主共和国有正常关系的国家,这些国家当然不能对此熟视无睹。
美国增加空军和海军力量、采取其他措施使越战升级,这些都不能解决越南问题。您对这一点也很清楚。应该寻找其他的途径,通过谈判来解决问题,结束这场不光彩的战争。看起来,美国只是在宣传中才能说,最近采取的措施是为了保护在越南的6万美军,也是为了使被俘的美军获释。这种说法是没有说服力的、没有逻辑的,谁也不会相信。总统先生,您已经阐述了您所采取的那些措施的动机。我们也阐述了我们对此的态度。我担心,我们没有说服您,然而,您也没有说服我们,使我们认为您所采取的措施是正当的。但是,应该说,您对我们国家的这次访问贯穿了缓和局势的思想。我们想让您好好想一想,美国可以采取什么措施来结束目前的局势,这种局势日益严峻、令人难以容忍。越南局势也使您陷入了极大的困境。
最后说一点。如果美国采取了结束战争的措施,那么,毫无疑问,世界上将没有一个国家,其中包括越南会认为:美国投降了。
勃列日涅夫:总统先生,关于这个问题我们已经谈了许多实质性的看法,我想,今天我们可以结束这次会谈。您将会明显地感受到苏联和其他各国人民的愤怒,了解他们关于结束越南战争的要求。您也会了解他们对美国侵略行为的愤怒,了解他们关于停止轰炸、和平解决问题的要求。我要开诚布公地说,我国人民的这种愤怒是不能通过命令根除的。我们和您要考虑到的一个事实是,就如此重大的问题进行的这种开诚布公的谈话是在最高层的会晤中进行的。在讨论其他问题的时候把越南问题抽象出来是不可能的。毕竟我们这次会晤讨论的不仅仅是双边问题,而且还有国际问题。不久前在午餐的时候您曾经说过,对我们和你们来说,最复杂的问题是越南问题和近东问题。
今天谈论的不仅很多,而且话题也很尖锐(由于问题的性质这是自然的),但是这样进行会谈是有益的,也是明智的。大自然赋予人们的财富就是智慧。如果一个人不是自私自利地分析问题,而是客观地分析问题,那么他当然会找到明智的出路,摆脱困境。我们同意您的意见,即不能认为今天就这个问题进行的会谈已经结束。我提议就这个问题进行的讨论就此结束,现在让我们去吃晚餐,明天或后天我们再就这个问题继续讨论。
柯西金:同时也应该好好想一想并找到解决问题的途径。
尼克松:这是当然了。我还想说如下几点。我们在讨论中详细地阐述了各自的观点,从这方面来说我们会谈是非常有益的。你们直接而开诚布公地告诉了我们,我们的政策不受欢迎,并说出了原因,对此我很感激。正因为如此就应该进行这样的高层会谈。甚至在越南问题解决之后(这个问题将会被解决)还会出现其他的一些问题,尽管我期望这些问题不要太尖锐,但是我们还是不得不直接就这些尖锐的话题进行会谈。或许不是由我们,而是由接替我们职位的人来进行这样的会谈。我想请你们相信,我们将继续寻找解决问题的途径,我们有能力通过谈判解决问题,我们为此已经努力了3年半的时间。
基辛格访问苏联之后我们有些失望。在基辛格同越南人恢复秘密会谈的过程中您起到了一定的作用,此后我们逐渐发现,越南人在这些会谈中的立场比以前更加强硬了。总书记曾说我直接接受了他关于停火的建议。我们当时也声明说,4个月后将从越南撤出军队并停止军事行动。但是这些建议完全被拒绝了。然而,总书记的想法是好的,并且我们将继续向这方面努力。
我们真正的动机是,我不想给你们留下这样的印象:借助温情脉脉、含糊其辞的外交辞令进行解释。我不喜欢这样做。作为一个像我这样的人,经受了艰苦生活的磨炼,是个诚实而讲求实际的人,我希望您考虑一下实际情况并理解我的观点。正如您所说的,不是我向越南派出了军队,您这样说是正确的。是肯尼迪和约翰逊向越南派出了军队,而我则把五十多万美军从越南撤回。这不是战争行动,而是和平行动。1972年复活节前我把驻越空军军事飞行的数量削减了40%,尽管有资料显示,越南方面的军事力量在不断增加,并对我们在北越的部队构成了威胁。
正是由于考虑到同苏联领导人进行会谈的前景,我表现得非常克制,没有在前线作出强烈的反应。北越却违犯1954年日内瓦协议和1968年达成的关于停止轰炸的协议,在复活节期间派出大量部队越过非武装区。我作为武装力量的总司令采取了一些措施,以便停止侵略。这就谈到了一个假设:这些行动可能会引起愤怒。如果是这样的话,那么我就成了一位危险的总统。我要强调说,我们在作出这个决定的时候非常冷静和客观,并考虑到了所有的政治后果。
我知道,我国的人民希望和平。我也希望和平。我希望您能够理解,对于北越扩张的威胁我是多么的认真。谢尔曼是我国国内战争时期的一位伟大的将军,他曾说过:战争就是地狱。没有哪个国家的人民能比苏联人民更好地理解这一点。我们知道,第一次世界大战特别是第二次世界大战对我们来说是多么大的悲剧。同这些战争相比,越南战争只是一场小的战争。但是在这场战争中我们却有5万名士兵牺牲,25万名士兵受伤。我也想提醒一下:在北越军队最近发动的一次进攻中,有3万名北越平民被北越军队残害在南越境内,其中大多数是妇女和儿童,这些北越人使用的是苏联武器。我不是要说,苏联领导人希望发生这样的事。我只是想在这次高层会谈中,在历史中的这一重大时刻说,我们想结束战争,我们不想把什么政府强加给什么人。我们希望停火。用另一句话来说就是缔造和平。
最后,关于柯西金先生所说的关于好好想想办法的建议,我们会努力的。或许,星期四或者星期五我们会再次讨论这个问题。那将是一个重大的时刻。我们不认为,苏联领导人真的期望,或者建议我们派基辛格参加巴黎秘密会谈,我们事先知道,谈不出什么结果。另一方不应该是为了要求我们投降才来参加会谈,而应该是希望进行谈判而来参加会谈,就像我们现在一样。至今他们仍然没有这样做。如果他们真的愿意谈判,那么僵局很快就会打开。我们不请求苏联领导人找到结束战争的方法,但是你们对自己这个盟国的影响是很大的。在谈判中我们会很理智,但我们不会被人操纵。至今他们仍在企图把他们的条件强加给我们。无论怎样,我和基辛格都会好好考虑,或许还会想出一个新的建议。
柯西金:一定要好好想一想。如果什么都想不出的话就不是聪明的人了!
勃列日涅夫:我们进行了一场非常重要的谈话。我认为,这次谈话具有非常重大的意义。这些谈话开诚布公,非常有益。我感觉,您的意思是:这次谈话还没有结束,应该再寻找解决问题的途径。每个问题都有很多的解决方法,只是应该找出那个理智的方法。我们认为,您最后的那句话就是这个意思。
在您来访前夕,我们已经知道,您决定在这次访问期间不使轰炸越南问题复杂化。遗憾的是,这一点你们没有做到。您应该了解我们国内的状况,了解我们国内对这件事的态度和看法。
基辛格:这指的是什么?
勃列日涅夫:就是轰炸海防和整个越南民主共和国。
基辛格:我已经告诉了你们的大使,海防周围一定的区域将不会被轰炸。你们说我们没有遵守这一点,你们说的情况我还不知道。
柯西金:我国海上运输部部长今天特地同那些船长进行了联系,这些船长向他报告说,美国的炸弹没有炸中他们纯属偶然。美国的飞机向我们的船只俯冲下来,在这些船的周围投下了炸弹。
尼克松:我们将调查这件事。如果发生了这样的事,那就是违抗了我的命令。
勃列日涅夫:关于这件事你们应该理解我们的感情,但是我们仍然考虑到了我们要同您举行的这次会谈。当你们的轰炸造成了我们的一艘船只着火的时候,我们向你们提出了抗议,但是没有在报刊上报道这件事情。
波德戈尔内:尽管全世界都在谈论这件事情。
柯西金:总统先生,您很清楚,在海防港口或驶向这一港口的苏联船只运送的是粮食和其他的非战物资,而不是武器。在这些苏联船只上没有一发子弹,没有一支步枪,对此您应该非常清楚。
苏联方面参加会谈的有:亚历山德罗夫、瓦维洛夫
美国方面参加会谈的有:基辛格、罗尔德、内格罗蓬特
会谈翻译:苏霍德列夫
会谈记录:亚历山德罗夫
瓦维洛夫
АПРФ,ф.3,оп.89,д.21,л.42-60
№06767 葛罗米柯与基辛格会谈备忘录:美苏解决越南问题的讨论(1972年5月27—28日)
机密
文本第2份
关于1972年5月27—28日А.А.葛罗米柯与基辛格就越南问题举行的会谈
基辛格就美国对越南立场问题所言及其对我们在这方面希望明确的问题的答复,可以作如下归纳:
1.如果从纯粹务实的角度出发,就越南调停一揽子问题(包括军事和政治性质的问题在内)立刻达成协议可能是相当不容易的。因此,我们必须从两个方面来考虑和解决这些问题:一方面,是那些可以而且必须在近期内达成协议的问题;另一方面,是那些在前者实现之后变得相对容易达成协议的问题,因为这时候——尤其是在美国完全从越南撤军之后,就会出现新的政治环境或新的政治现实,而在这种条件下才有可能解决越南彻底和解问题中比较困难的问题。
2.美国不认为自己与南越某个具体的政府有瓜葛。该国目前内部形势的发展及其进程显示,不但一些新的政治势力有可能问鼎政权,而且也可能建立共产主义政府。届时,美国将不会妨碍这一发展趋势,即使现在美国不会插手这方面的事务。
3.另外,在(谈判双方)就军事管制的一些举措(关于此我们将在后面提及)达成协议的情况下,美国人可能准备就一些基本原则问题发表声明或宣言,其中他们会表示将单方面地承担一定的义务,以作为对所签署协议的补充。这些义务具体包括:
(1)同意南越必须保持中立。
(2)美国将不干涉这个国家内部未来的政治发展进程。
(3)美国将准备限制自己对南越的经济和军事援助,关于这些援助的规模将会详细地向签署协议的另一方作出通报。当然,我们这里只是就以前时期的情况而说的,而随着南越内部的形势发展进程,一些新上台的政治力量将会完全不希望得到此类援助。
美国也可能会发表共同声明,即根据协议与谈判的另一方一起发表联合声明,其内容包括:
——南越必须执行中立政策;
——越南联合政府必须在越南人自己内部(即没有外来干涉,由南方和北方)相互协商的条件下运转(这里基辛格补充道,这项内容实际上是著名的、由越南人提出的《七点》要求之一)。
4.综上所述,“正如我们所看到的,美国已有通过政治途径解决越南问题的打算”。事件发展的这种总趋势,要求我们在关于军事管制一些问题的决议作出之前便采取行动,以便为后续事件的整体推进创造良好条件。
5.涉及双方利益的最主要军事问题如下:
(1)停火;
(2)释放美国战俘;
(3)美国军队撤出南越。
关于停火,双方不一定非要采取签署正式协议的方式。如果美国得到苏联对此作出的必要保证,那就可能成为事实。
还需要事先考虑的是,最好能使释放美国战俘和美国军队从南越撤出——这两个过程保持同步并最后同时结束。
6.所有这一切可能为越南问题的政治解决营造更好的条件。在就上述问题签署了相关协议(并开始实施)之后,随后的6个月期间南越就可能举行选举。
在选举前一个月内,现在的西贡总统和副总统将离任。
将有专门成立的选举委员会对选举的准备工作及其自由举行实施监督,该委员会的人员组成方式如下:“越共”(民族解放力量)代表占三分之一,中立集团——三分之一,目前的西贡政权——三分之一。在军事问题相关协议签署后,该委员会便可立刻开始工作。
7.为了协助委员会工作的顺利展开和确保南越自由选举活动的正常进行,(我们)打算事先便组织专门的国际观察团或由国际人士届时参与这些选举的准备和举行过程。此类观察团或国际人士的构成必须包括经双方协商后确定的国家(与此相关,基辛格具体指出,只有美国和苏联是可能的参与者)。
8.美国认为,上述这些因素的共同作用(美国军队完全撤出,阮文绍辞职,签署相关协议,美国就诸原则发表声明等)将为南越的自由选举创造良好的条件。
9.已处于建立进程中的选举委员会将以联合原则为基础。在某种程度上说,该委员会本身实际上是具有过渡性质的,类似于联合政府的机构。
还在对所有这些问题开始协商的最初,我们就要思考这样一个问题,如何使联合政府的思想成为这个以经过略加伪装但依然脆弱的方式成立起来的政府的基础,虽然从总体来看这个问题一定会成为谈判双方的议题。
与此相关,美国准备在上述其单方面打算发表的关于诸原则的声明中补充如下一项内容,即不论自己的初衷如何他们都将接受选举的结果。
10.在对相关问题作出回答的同时,基辛格说,虽然他已经单独地向北越方面讲述了这一计划的主要内容,但在对我们的讲述中仍包含有如下新内容:
(1)(我们)没有向越南民主共和国代表解释,美国提出各种建议的依据是什么;
(2)(我们)在对他们讲述的过程中没有采用这种统一的集中方式;
(3)(我们)没有对他们讲停火与政治调停之间的关系问题;
(4)(我们)没有对他们说,关于美国打算在美国战俘彻底遣返的同时才准备完全从南越撤退自己的军队(近期,美国坚持越南民主共和国首先遣返美国战俘,只有这样美国才将开始彻底撤军)。基辛格说,如果河内同意美方的这一建议,那么美国军队在今年9月以前或10月以前,即美国总统大选以前完全撤出(南越)就有了实际的可能性。
11.基辛格断言,白宫坚定地认为越南民主共和国政府是有意不想与美国达成任何协议,其目的是故意给美国社会舆论造成这样一种印象——巴黎谈判已陷入死胡同,以便借助美国的社会舆论对尼克松总统施压,从而迫使其对河内的要求让步,这种情况在美国大选期间表现得尤其明显。
基辛格说,这表明不论是在巴黎会谈期间还是在秘密会晤中如今的北越都是从纯粹的宣传角度来指导自己的行动。基辛格认为,北越坚决拒绝讨论美国人提出的任何建议,即使这一建议具有折中的性质,而只一味坚持要讨论他们提出的“七点”意见。
在白宫看来,这正好可以解释如下现象:在基辛格的莫斯科4月会谈之后,北越一方面同意恢复与美国人在巴黎举行的公开和秘密谈判,另一方面又开始向南越发动了一场新的军事进攻,以便与北越一直坚持的纯粹宣传路线相呼应,从而最终导致这些会谈的又一次破裂。
12.最后,基辛格表示撤消由美国人提出并一直坚持的那些条件,即在恢复巴黎正式谈判之前先举行与黎德寿的秘密会晤;提前取得北越作出的某种保证——北越将以严肃、建设性的态度来对待今后的谈判。
如今,白宫同意以理解的态度来恢复双方的正式会议,美方可以自由地表述自己的计划,与此同时越南方面也可以这样做。
至于秘密会谈,基辛格说,我们当然期待越南人能够确认自己已同意举行此类会谈,只是该秘密会谈将只能安排在6月后半期,即双方的巴黎正式会议开始之后进行。
另外,美国人希望不要出现这样一种情形,即当越南人了解了关于美国已同意恢复正式会议的消息之后,便开始大声宣称自己又赢得了胜利并成功地迫使美国人投降。这样的话,基辛格强调,就会使情况变得极其复杂。
ЦХСД,ф.5,оп.64,д.41,л.115-119
№10413 苏共中央书记处会议记录:关于成立中国问题顾问专家小组(1972年10月20日)
苏联共产党中央委员会
第60/49гс号
机密
中央委员会书记处1972年10月20日会议第60号记录第49项
关于成立中国问题顾问专家小组。
一、根据苏共中央政治局今年10月13日的决议,在苏共中央委员会书记处属下成立一个中国问题顾问专家小组(非长期脱离本职工作)。
责成顾问专家小组于1973年1月20日之前,就中苏关系问题准备一份报告。在报告中应该详细分析中华人民共和国的对内对外政策,领导层中各派力量的对比,北京在社会主义阵营、国际共产主义运动、工人运动以及民族解放运动中的活动,中国问题发展的可能前景。
允许顾问专家小组视情况需要向各主管部门和学术机关索要必需的资料和文献,同时可吸收有关问题的专家参加该项工作。
二、今后,应视工作需要,根据苏共中央委员会书记处的委托,吸收顾问专家小组参加研究某些方面的中国问题,其中包括为根据1969年12月26日苏共中央决议(第149号会议记录第一项)成立的委员会准备材料。
三、批准苏共中央委员会书记处中国问题顾问专家小组由以下人员组成:Ο.Б.罗满宁同志(组长)、Р.А.乌里扬诺夫斯基同志、Н.Н.伊诺泽姆采夫同志、И.В.阿尔希波夫同志、М.И.斯拉德科夫斯基同志、С.Л.齐赫文斯基同志、Ф.В.莫丘利斯基同志、О.Т.博戈莫洛夫同志、Н.Т.费德林同志、В.И.拉扎列夫同志、М.Л.季塔连科同志、К.Е.谢西金同志、В.В.沙拉波夫同志、И.А.罗高寿同志。
中央委员会书记
ЦХСД,ф.4,оп.22,д.1004,л.21、34-35
№06768 谢尔巴科夫与黄文进谈话记录:越南通报与美国谈判情况(1972年12月27日)
摘自И.С.谢尔巴科夫的工作日记
1973年1月22日
机密
文本第2份
越南民主共和国外交部副部长黄文进所述情况记录
1972年12月27日
应黄文进之邀,(我)前往(越南民主共和国)政府接待大楼。
根据委托,副部长(黄文进)向我通报了越南民主共和国与美国举行谈判的情况。他指出,越南总理范文同就这一问题已向苏联大使通报了基本情况。黄文进接着向我讲了如下内容:
今年12月18日,美国向越南民主共和国发函,建议黎德寿和春水与基辛格举行新的谈判,与此同时开始对河内、海防和整个北越实施了密集轰炸。期间,美国人前所未有地动用了大量空军,其中包括数百架B 52轰炸机,野蛮地杀伤和平居民。这是一个极其严重的美国针对越南民主共和国的战争升级步骤,充分证明了其12月18日发来的建议函带有最后通牒的性质。
在答复我们提出的问题的同时,黄文进解释道,美国在发来的函件中要求越方签署已由美方作了变更的协议。否则,华盛顿声称,将很难预料事件继续发展下去的后果,这就是说,美国人正以继续战争相威胁。
总之,副部长继续道,白宫撕毁了美方以前所承诺的义务,即在双方举行谈判和直到谈判结束期间,美国将停止对北纬20度以北地区实施轰炸、射击和布雷等军事行动,减少对北纬20度以南越南民主共和国地区的轰炸和射击。
然而,美帝国主义所发动的这场新的战争升级行动,不论在军事上还是在政治上都遭到了惨败。侵略者们受到了严正的回击。在短暂的时间内,便有许多包括B 52轰炸机在内的美国飞机被击落,大量美国飞行员被俘。各社会主义国家和世界上包括美国一些盟国在内的多数国家的社会舆论都对美国的不明智行动进行了严厉的谴责,要求美国停止战争升级并立刻在已达成的协议上签字。各社会主义国家和全世界民众对越南人民正义事业的积极支持,鼓舞了越南人民和军队,给他们增添了新的力量。
在巴黎专家会议上,越南民主共和国要求美国停止战争升级行动并恢复到今年12月18日美方声明所确定的状态,也只有在这种条件下双方才可能继续举行专家谈判以讨论签署协议的相关事宜。
1972年12月22日,在继续加紧轰炸北越的同时,美国向越南民主共和国又发来了新的函件,其中说明:美国空军将从12月30日半夜起停止轰炸北纬20度以北地区,但条件是越南方面同意让黎德寿与基辛格在1973年1月3日举行会谈。
12月26日下午,越南民主共和国对美方的上述两封来函作了答复。在自己的复函中越方谴责了美帝国主义战争升级的残暴行径,拒绝了在美方来函中所包含的最后通牒式的所有要求,揭露了尼克松当局在巴黎谈判中的背信弃义。越南民主共和国还要求美国立刻停止战争升级的侵略行动,放弃以威胁恫吓谈判进程的幻想。只有在美国同意恢复到12月18日以前状态——在谈判举行直到结束期间停止对北纬20度以北地区的所有轰炸、射击和布雷活动并减少对北纬20度以南地区的轰炸和射击——的情况下,双方代表和专家在巴黎的会谈才可能继续,而美方建议的黎德寿与基辛格的会面才能够举行。
不过,由于黎德寿同志的身体健康原因,越南民主共和国向华盛顿通报,双方的会谈只能于1973年1月8日举行。越南方面在去函中再次重申了自己的严肃态度,目的就是要让对方明白,越方正竭尽全力与美国代表一齐解决所有遗留问题。越南民主共和国要求美国也采取同样严肃态度,并指出只有在这种情形之下双方的谈判才可能获得结果——尽快签署停战协议和恢复越南的和平。 [16] 如果美国仍将顽固地继续推行其战争升级政策并企图以武力来要挟谈判进程,那么由此所导致的战争进一步深化的责任将由美国方面完全承担,而越南民主共和国方面将会以全部的决心继续这场斗争。
越南同志请求苏联利用自己的所有威望和影响对美国施加压力,以促使其停止新的战争升级行动,立即返回到今年12月18日以前的状态,并为解决所有遗留问题和尽快签署(停战)协议举行严肃的谈判。
在向对方的通报表示感谢之后,我答应把上述情况通报给莫斯科。我又询问对方,苏联可以在何种程度上利用该信息来对华盛顿进一步施加压力。
黄文进答,苏联同志可以充分利用该信息。要让美国人相信一点,即在双方举行谈判直到结束期间只有在北纬20度以北停止一切军事行动并减少在北纬20度以南的军事活动,双方才可能恢复巴黎会谈。越南副部长顺便指出,尼克松以前也正是这样向越方承诺的。
在谈话结束时,黄文进说,越南同志请求苏联进一步揭露美帝国主义的侵略行径,尤其是其轰炸河内和海防的活动,以便动员世界社会舆论来谴责美国的侵略。越南朋友还请求我们,委托苏联驻世界各国使节也开展相应的工作,以便这些国家也能够声援越南。苏联领导人的发言也将有利于阻止美帝国主义干涉越南内部事务。
对此,我说道,苏联一如既往地支持越南民主共和国。在莫斯科举行的会议上,在广大公众的面前Л.И.勃列日涅夫在发言中曾严厉谴责了美国的活动。近期,在发言中表示支持越南的还有А.Н.柯西金和П.Ф.巴季茨基元帅。顺便说一下,这些发言均曾被刊登在河内的报刊上。
同时参加此次会谈的还有:苏联使馆参赞И.А.诺维科夫,越南民主共和国外交部工作人员单德浩——译员。
苏联驻越南民主共和国大使
И.С.谢尔巴科夫
ЦХСД,ф.5,оп.66,д.783,л.9-12
1973年
№10414 苏共中央书记处会议记录:兄弟党中央国际部代表会商中国问题(1973年4月9日)
绝密
第77/41гс号
1973年4月9日
中央委员会书记处1973年4月9日会议第77号记录第41项
关于7个兄弟党中央委员会国际部代表就中国问题举行例行会晤事宜。
一、同意苏共中央联络部和苏共中央国际部关于苏联共产党、保加利亚共产党、匈牙利社会主义工人党、蒙古人民革命党、德国统一社会党、波兰统一工人党以及捷克斯洛伐克共产党各党中央委员会国际部代表,于1973年5月在莫斯科举行例行会晤的建议。
二、批准给苏联驻蒙古人民共和国大使的指示(附件)。
三、若蒙古朋友同意将会晤地点由乌兰巴托改为莫斯科,责成苏共中央联络部与其他参加会晤的各兄弟党中央国际部进行必要的协商。
四、会晤的组织和技术保障工作由苏共中央联络部、苏共中央国际部以及苏共中央总务管理局负责。会晤将在“沃伦斯克1”号别墅进行。
会晤的一切费用从党费预算中开支。
中央委员会书记
附件:
第77号会议记录第41项
乌兰巴托
致苏联大使:
第77号会议记录
请拜会蒙古人民革命党中央对外联络部,说受委托就7国兄弟党中央国际部代表进行中国问题秘密会晤的地点问题与蒙古朋友进行协商。
考虑到,据蒙古朋友通报,即将举行秘密会晤的消息已经传到外交使团,为确保机密,可研究今年将上述磋商改在其他地方进行的问题。
从我们一方来讲,我们准备建议拟定中的中国问题会晤于商定时间内在莫斯科进行。
如果蒙古人民革命党中央对这一建议没有异议,那就该问题与其他兄弟党中央国际部进行非正式协商,可由蒙古同志自己出面协商,如果他们认为合适,也可由苏共中央联络部出面协商。
电告执行情况。
ЦХСД,ф.4,оп.22,д.1077,л.21-22
№06770 谢尔巴科夫与黄文进的会谈记录:巴黎会谈情况及越南局势(1973年6月14日)
摘自И.С.谢尔巴科夫的工作日记
1973年6月21日
机密
文本第2份
与越南民主共和国外交部副部长黄文进的会谈记录
1973年6月14日
应黄文进之邀,我前往越南政府大楼与之会谈。
副部长向我通报了最近一轮黎德寿与基辛格先生在巴黎谈判的情况。此次谈判是在萨利文从西贡、基辛格先生从华盛顿各自返回之后举行,时间是从今年6月6日一直持续至6月9日。谈判期间,双方就发表联合公报的问题进行了讨论并最终达成了相关约定。然而,6月7日美国人竟出人意料地发表声明说,西贡当局不同意联合公报的内容并在6月9日对其作了一些修改。越南方面坚决地谴责了美国的不严肃态度并积极反对美方拖延签署联合公报的举动。考虑到这种情况,美国人建议把双方下次会谈的时间推迟48小时。6月12日,基辛格先生返回巴黎,恢复了双方的谈判。鉴于越南民主共和国所采取的坚决立场,美国人撤消了自己对联合公报最初文本的修改和补充,并由四方代表(越南民主共和国、越南南方民族解放阵线、美国和西贡当局)和双方代表(越南民主共和国和美国)分别在相当于巴黎协议的联合公报上签了字。
接下来,黄文进又讲述了如下内容:
与原始方案相比较,联合公报和所达成协议的主要内容并没有出现重大的变化。不同主要体现文本的编辑、签字和公布的日期、根据协议落实一系列举措的期限等方面。可以证明上述说法无误的内容包括:关于美国重新开始清除越南民主共和国水域的水雷,重新恢复混合经济委员会的工作,释放公民和战俘等。
越南民主共和国和越南南方民族解放阵线近一阶段的斗争任务相当复杂而艰巨。从一开始,我们便对美国人声明,新一轮会谈的目的——与美国一道总结谈判期间所获成果并寻求措施以严肃、坚持不懈的态度履行双方协议的内容。越南民主共和国视这项工作为一场外交斗争,目的就是要迫使美国和西贡当局执行巴黎协议。在谈判期间,美国试图使谈判获得一定成果的目的在于,转移美国社会舆论的视线,从而使尼克松当局摆脱由于水门事件,以及在印度支那,尤其是在柬埔寨所陷入的困境。在整个会谈期间,美国都企图把履行协议与解决老挝和柬埔寨问题联系起来。越南方面坚决地驳斥了美方的上述观点并继续坚持自己的立场,即印度支那两个越南邻国的问题是这些国家人民的内部事务。越南民主共和国始终不渝地支持老挝和柬埔寨人民的革命斗争,支持老挝爱国统一阵线和柬埔寨民族统一王国政府的正义立场。越南方面要求美国停止轰炸老挝和柬埔寨,严格履行万象协议,必须停止支持朗诺政府并与柬埔寨的西哈努克和抵抗力量举行谈判。
联合公报的签署是越南为履行巴黎协议而斗争过程中所取得的一个新的重大胜利。联合公报并没有对原有协议作任何变更和补充,只是集中叙述了确保该协议得以履行的措施。尤其重要的是,联合公报是在这样一种形势下签署的,即美国和西贡当局经常性地严重违反既定协议,诬蔑越南民主共和国和越南南方民族解放阵线,并企图将违反该协议文件的罪名强加到后者身上。如果联合公报中所列各项条款能得到执行的话,就可能为南越的和平事业作出贡献,并再次确认越南南部的现状:两个政权、两支军队和两个地区共存。该文件(指联合公报)为南越双方共同解决国家南方的内部问题创造了良好的条件,而对美国而言,只有履行对越南民主共和国所承担的义务。为使联合公报中所达成的协议和约定得以切实履行,我们仍面临着艰巨的斗争任务。我们必须时刻保持警惕,因为美国方面和西贡当局有可能刻意歪曲公报内容,为了实现自己的目的而误导世界公众舆论。针对美国和西贡方面可能实施的各种旨在破坏协议和后续约定的活动,我们将继续予以坚决的斗争。
鉴于联合公报的签署,越南民主共和国外交部和越南南方民族解放阵线外交部将发表声明,其中将指出越南人民所赢得的这场新胜利的意义,明确双方对签署该公报所持的良好意愿和严肃态度,同时也将要求签字各方严格执行协议和联合公报中所列的各项内容。
黄文进以越南民主共和国的名义请求苏联政府对联合公报的签署持欢迎态度,请求苏联领导人在发言中以及通过新闻报刊和社会组织,对越南民主共和国和越南南方民族解放阵线外交部所发声明表示支持,并要求美国和西贡当局严格履行协议,揭露后者对联合公报内容的歪曲,及时地谴责后者所制造的阴谋和旨在破坏协议和后续约定的活动。
黄文进向我转交了带有四方和双方签字的联合公报的文本,并指出签署联合公报是“我们整体上赢得的一个重大胜利”。
我感谢黄文进所作的上述通报并承诺将向莫斯科作出相关报告。我向对方保证,苏联会以相应的方式来对联合公报,以及越南民主共和国外交部和越南南方民族解放阵线外交部所发表的声明给予支持的。
同时参加此次会谈的还有:越南民主共和国外交部苏联和东欧国家司工作人员武蔻,苏联使馆译员В.В.谢拉菲莫夫。担任此次会谈翻译的是武蔻。
苏联驻越南民主共和国大使
И.С.谢尔巴科夫
ЦХСД,ф.5,оп.66,д.783,л.146-149
1975年
№24836-2 雅科夫列维奇的回忆:关于对中国进行的访问 [17] (1975年)
1951年9月初,我被叫到了党中央,受命马上飞往中国。这是由于要在中国的南方种植橡胶树。1950年冬到1951年初,毛泽东在苏联访问的时候请求斯大林派遣一个专家小组来开办一个橡胶种植园。该小组由9人组成,其中两人是В.А.多加德金和П.И.扎哈尔琴科,他们是橡胶问题专家,其余人同橡胶问题有部分的关系。对于我感到困惑的一个问题——为什么派遣我前往中国,得到了如下不容反驳的答复:橡胶是从橡胶树中得到的,你是一名林业专家,请克服困难了解同种植橡胶园有关的一切问题。
收集和熟悉资料的时间仅剩下三天。В.Н.苏卡乔夫给了我一本植物学教科书,书中有关于橡胶的一点内容。我带领专家小组于9月13日抵达北京。从1951年到1959年我到过中国九次。前三次都同种植橡胶园有关。这些橡胶园被设在广东省的雷州半岛和海南岛。这一工作的规模很大。到1957年,经过我们的技术援助,在50名苏联专家的参与下种植了大约12万公顷的橡胶园。
以后几次前往中国都是为了向中国人提供技术帮助,组织和开展林业工作。在中国的24个省份中我到过和工作过的有12个。曾经几次到过上海、汉口、广州、南京、哈尔滨、杭州、长春、雷州。每次到中国都会会见中国同志,并同他们一起工作,这都使我感到满意,并对他们充满友好的情感。中共中央和中国政府对种植橡胶园非常感兴趣。党中央在工作上给予我们的巨大信任保证了我们的工作得以顺利组织,即使在危险的条件下也很安全,苏联专家的生活也都得到保障。
我想谈一下党中央委员会书记陈云同志。他个子不高,瘦弱的样子,黑黑的,一双锐利的眼睛,他曾是上海的一名工人,为新的工业部门做了许多工作。随着中国以自己的力量、依靠苏联的工艺建造汽车厂,这些新的工业部门的意义增长了。当报刊报道说,当陈云被免职之后,我内心感到受到了极大的伤害。这位革命家的名字被红卫兵写在大街小巷的大字报上进行辱骂。
另一个让我留下印象的人物是周恩来,他是中华人民共和国的国务院总理(部长会议主席)。1953年,在北京政务院的院子里我同周恩来就橡胶种植园问题举行了会谈。我方参与会谈的有:苏联大使潘友新同志、苏联专家小组成员А.П.格拉乔夫、В.С.舒马科夫和大使馆译员В.А.克拉夫佐夫,中国方面参加会谈的有:财政部长薄一波、林业部副部长李范五和翻译马列。我在日记中记录了这次会谈。周恩来喜欢对一些看法提出疑问,在外交上非常仔细,对于我们关于种植园的状况令人不满的报告他感到不满,与其说这引起了他的不满,倒不如说是使他警觉起来。总理是位知识渊博的知识分子,是名老共产党员,曾在旅德和旅法的中国人中开展宣传工作。他是中国共产党的领导人之一。我在北京举办的招待会上以及在莫斯科苏联外交部在维辛斯基的办公室举行的接待仪式上同他见过几次。在所谓的“文化大革命”中以及现在,周恩来都是毛泽东身边最为重要的人。他是名狂热的反苏分子,他以马克思主义把自己的反革命面目隐藏起来,这是可耻的。
在满洲的黑龙江以及在苏联的远东进行考察的岁月里,同中国的林业工作者一起开展的工作是富有成果的。对阿穆尔河流域的生产力进行了研究,制定了开发和植树造林的路线。在阿穆尔进行考察的时候,我带领了一个林业小队,其中有50名苏联林业工作者。
但是到1958年,在我们的关系中就出现了裂隙的征兆,到1959年这种征兆就更加明显了。仅仅通过两个事例,然后就表现出了中国人说得轻一点就是不友好的态度。1958年夏,中国的一个大约30人的专家小组到达了哈尔滨,以便根据双方早先通过的计划继续开展联合调查。除了科学家之外,该小组中还有中华人民共和国水电部副部长冯(他的俄语很好)和中华人民共和国林业部副部长张克侠(他曾是国民党的一名将军)。中国人坚持改变以前的协议,他们想沿阿穆尔河直接通往尼古拉耶夫斯科市,也就是直到阿穆尔河的河口,以便了解这一亚洲巨大的水路干线两岸的森林资源。在我们看来,沿阿穆尔河进行考察没有任何必要。我觉得,中国人有深远的图谋。我曾两次对这件事情表示怀疑,坚持要及时征求莫斯科的指示(见我的日记)。我们的考察队领导人没有这样做。我们乘坐“谢尔盖·拉佐”号轮船沿阿穆尔河航行,中国水电部副部长冯在同我进行的谈话中想知道我国的森林储量。冯说:“在远东许多森林都消失了,腐烂掉了。森林资源被利用得太少了。”我回答说:“我们利用的森林资源只是我们所需要的,只是为了满足国民经济对木材的需求。森林任何时候都是不会被砍完的,也砍不完。森林会自我恢复。枯死的只是一些老树。”冯问道:“如果中国派遣100万个家庭来与俄国人共同开采森林,您觉得怎样?”我在思索这个问题的时候,脑子里在估量100万中国家庭的数量,想象中国人口的数量将达1000多万,而在整个远东地区的苏联人口才为450万。远东将会怎样呢?我回答了冯的问题。“你们提出的是个很大的问题。我没有资格对这个问题进行研究。我的职责只是做一些技术工作。如果必须要提出这个问题,那么中国政府应该根据程序向苏联相关的部门提出。”这次会谈一年半之后得知:中国人绘制了一幅行政地图,在这幅地图上我们两国之间的边界是按照新的走向划分的。从布拉戈维申斯克市到尼古拉耶夫斯科市阿穆尔河右岸的所有领土,也就是地图上标出的整个滨海区以及哈巴罗夫斯克边疆区的南部都属于中国。
第二件事情。1959年9—12月,应中国方面的请求我到沈阳的中国科学院森林和土壤研究所工作,以便写一部关于中国东北森林资源及其加工和利用的专著。我需要查看40—45年前德国人在滨海区青岛收藏的一些主要文献。为此我到了北京。一天后,中国的翻译通知我说:经过与中华人民共和国国防部的协商,外交部请求转告我,我的青岛之行需要推迟到其他的时间进行。
РГАЭ,ф.538,оп.1,д.16,л.80-84
№25984 外交部第一远东司的报告:澳门情况及中国的立场(1975年5月5日)
供同葡萄牙外交部进行磋商而使用的材料
1975年5月5日
第202/Iдвнс号文
副本
关于澳门问题
供参考:
澳门位于中国的南端,包括澳门半岛、凼仔岛和路环岛。总面积约为16平方公里,人口约30万人,其中葡萄牙人只有1万人,其余的是中国人。
1557年,葡萄牙获得了对澳门的租借权。1887年的《中葡条约》确定了澳门作为葡萄牙的殖民地的地位。
葡萄牙新政府宣布了放弃自己在非洲殖民统治的意图,但没有表明立刻将澳门归还给中国的明确的意愿,虽然它指出,澳门问题不应当成为与中华人民共和国迅速建立正常关系的障碍。葡萄牙新政府没有正式确定这一地区的地位。1974年9月,外交部长М.苏亚雷斯没有将澳门称为殖民地,而是称之为“受葡萄牙管理的贸易港口”。葡萄牙外交部在今年1月6日的声明中强调,“在两国政府认为任何适当的时候,澳门地区可以成为谈判的对象,眼下,葡萄牙政府正担负起严格维护生活在这一地区的中国居民的权利的职责”。
中国领导人认为澳门(像香港一样)是“被强占领土”,并始终强调,没有必要使用武力使澳门回归中国。北京领导人认为,收回香港和澳门是收回台湾的首要前提。同时,北京拒绝承认澳门和香港的殖民地地位。因此,1973年3月,中国驻联合国代表要求将香港和澳门从关于准许殖民地国家及民族独立的宣言列表中删除。
中国人不仅对葡萄牙新政府在非殖民化方面的举措避而不谈,而且通过自己在联合国的代表,对非洲国家施加一定的压力,以阻碍葡萄牙在非洲领地的非殖民化,从而阻止这一进程波及澳门,随后是香港。不久前,葡萄牙协调领地之间关系的部门代表承认,葡萄牙和中国政府已经就今后的澳门问题进行了讨论,但现在没有将这一地区转交给北京的任何计划。身为“武装力量运动”成员的新任澳门总督Г.莱昂德罗上校宣称,葡萄牙人在澳门的存在——这是“生活在澳门的葡萄牙人、中国人以及中国和澳门政府的普遍愿望”。
中华人民共和国持这种立场的原因在于,中国领导人对收回澳门和香港(收回澳门之后可能采取的行动)不感兴趣,因为这会使北京失去大量的外汇收入(每年澳门使北京获益约5000万美元,而香港每年使北京获益多达12亿美元)。
同葡萄牙外交部在进行磋商的过程中,如果谈到了关于我们在澳门问题上的立场,那么可以谈论如下内容。
作为非殖民化的坚定支持者,苏联真诚地欢迎葡萄牙民主政府使其前殖民地人民享有独立自主权的愿望。我们认为,葡萄牙外交部今年1月6日的声明是非常自然的,是与葡萄牙政府的民主路线相符合的,声明中表达了愿意在任何对葡萄牙政府与中华人民共和国政府都合适的时间开始谈判,以确定澳门的未来。我们认为,关于澳门的未来问题可以并且只应由相关各方,即葡萄牙政府和中华人民共和国政府来解决。
但是,我们认为,解决这个问题,将会出现一定的困难。众所周知,中华人民共和国领导人及其在各种国际组织的代表们都曾郑重表示,赞同尚未获得民族独立的一切领地尽快非殖民化。当实施非殖民化纲要的葡萄牙政府宣布使葡属非洲殖民地获得独立的举措时,中国领导人却违反自己的宣言,不仅不支持葡萄牙政府的这些意图,反而妨碍它们的实现。
至于澳门,为了掩盖向其他民族发出的为民族解放而斗争的号召与容忍在中国领土上存在殖民地的自身政策之间的矛盾,中华人民共和国的领导人很早就反对承认澳门及香港为殖民地。显然,澳门问题与香港问题密不可分,由于害怕失去从澳门获得的大量外汇(万一澳门出问题的话),北京的领导人显然不打算提出这一问题。不排除中国人会对葡萄牙的政策进行攻击,以掩盖其在公正解决澳门问题中所设置的障碍,因为不这样的话,北京很难保持其作为争取殖民地国家各民族获得解放的“战士”的伪装。
苏联外交部第一远东司
АВПРФ,ф.0100,оп.62,п.268,д.28,л.1-3
№16061 苏共中央书记处会议记录:关于出席各兄弟党中央国际部代表会议(1975年6月13日)
绝密
第173/101гс号
1975年6月13日
苏共中央委员会书记处1975年6月13日会议第173号记录第101项
关于出席各兄弟党中央国际部代表讨论中国问题例会的指示及苏共代表团成员。
1.批准出席例会的苏共代表团成员为:О.Б.罗满宁、Б.Т.库利克、В.И.拉扎列夫、М.季塔连科、М.И.斯拉德科夫斯基、В.Г.托尔斯季科夫、С.Н.莫罗佐夫、察连科等同志。
2.批准苏共代表团的指示(见附件)。 [18]
3.代表团赴蒙古人民共和国费用在党的预算中支付。
中央委员会书记
文件收到15天后应退回苏共中央(综合部二处)
苏共中央1967年3月28日规定
ЦХСД,ф.4,оп.22,д.242,л.1-4
1977年
№08117 情况通报:中国形势和中国新领导的政策(1977年1月17日)
关于中国形势和中国新领导政策的通报
毛泽东去世后(1976年9月9日)中国事件的发展证明了中国存在深刻的国内政治危机,它导致统治集团内部的斗争日益尖锐,这是毛主义思想和国家客观需求之间日益增长的矛盾的反映。一个月之后,10月初,粉碎了极左的“四人帮”——江青、王洪文、张春桥、姚文元,即毛的亲信,他们是近10年来毛政治路线的主要执行者。实际上中国发生了军事政治变革——改革,结果导致以稳定发展国家经济和增加国家实力为目标的力量上台。“别说空话了,该干具体事情了”——如果按其声明来看,中国新领导的内政方针就是这样,其目标是使中国变成一个繁荣昌盛的现代化的世界强国。
自毛泽东、周恩来、朱德、康生、董必武去世后,自邓小平被解职和“四人帮”被赶下台之后,中国领导上层出现了新的形势。毛泽东所组建的中共中央政治局22名委员中,被解职的有10人,他们主要是年迈的活动家和文化大革命中被提拔起来的人。结果,军人的影响明显增加了(叶剑英、陈锡联、许世友、李德生、苏振华等)。现在,所有要职——中共中央主席、中央军委主席、国务院总理、公安部长,都集于华国锋一人之身,出于多种原因,他在中国领导层里安置了多方面的力量。政治局里保留了某些亲近江青集团的活动家(纪登奎、倪志福、吴桂贤等)。中国新领导人里不完全统一和相互信任,这使统治上层内部形势复杂,制约着国家所面临的政治、干部和其他问题的解决。
中国的政治形势依然不稳定,现在全国已展开斗争。卷进去的是党政军干部。根据掌握的情报,“四人帮”一派的人占十大(1973年)选出的中共中央委员的三分之一。省、地区、县的党政机关中大体也是这个比例。实际上,在每一个机关、每一个学校、每一个企业里都很紧张,主要是“文化大革命”中上来的人同老干部之间的矛盾造成的。全国许多地区(福建省、湖北省、河南省、江西省等)发现了广泛的政治斗争甚至武斗的征兆。
新的领导人至今不能召开中共中央全会解决根本的组织和干部问题,看来暂时他们没能力制定和普及自己的政治和未来的社会经济纲领。从最近公布的文件看,其中包括华国锋讲话,谈的只是新领导最近的行动计划。新领导强调忠于毛泽东的旗帜,捍卫“有中国特色的发展道路”,直接将其与苏联和其他社会主义国家的经验相对抗。华国锋和支持他的人所主要关心的是巩固他们的领导地位,稳定国家政治经济形势。
中国报刊开始出现披露中国严重经济状况的材料。众所周知,这是毛泽东政策的结果,不过现在把这推到了“四人帮”身上。强调所有部门的产量都大大下降了。现在国家在寻找财政资金和物质资源以生产商品,尤其是食品,供应居民和保障出口方面正经受困难。
考虑到至关紧要的经济任务,现在北京已提出某些问题,表明要重新审核毛的一系列方针。最近重新提出了中国国民经济的现代化问题。而且发出了号召——的确是一般号召,号召在经济中,尤其是在农业问题上,要根据中共八大决议行动(八大于1956年召开,所确定的方针基本上符合国家的客观需要),正在采取理顺经济管理的措施。北京正在召开煤炭、石油、铁路运输工作会议以及被赋予重要意义的农业问题会议。领导人的讲话和出版的经济材料中都强调建立强大的物质基础对巩固政权、加强国防能力和逐步改善居民生活状况的重要意义。
正在采取活跃社会政治生活文化生活的措施。恢复某些创作知识分子代表积极活动的过程似乎已经开始。但这些措施很不彻底。
新的领导在基本的政治、经济和思想发展问题上依然坚持毛的思想,同时努力避免对国家非常有害的方针。但新的领导在保卫毛的路线不受“歪曲”的旗帜下,把近年来一切过火行为的责任都推到了“四人帮”身上。现在的北京领导人明显的力图保护毛泽东的名望以为自己服务。已开始建毛纪念堂,作出了出版毛泽东全集的决定。
北京新领导的对外政策方针基本没变。北京努力强调要忠于毛生前的外交政策方针。这首先是因为新的领导首先要处理大量的国内发展问题,另外,他们完全站在了民族主义的立场上。
中国同美国政治结盟路线没有明显变化。依然在“共同利益”、在国际舞台上中国和美国“平起平坐”的基础上,努力同美国接近。新的中国领导人努力扩大同日本的联系,表示近来出现的困难,尤其在贸易方面,是临时的,是在“四人帮”影响下制定的“错误方针”造成的。北京同华盛顿和东京的经济和文化交往以及美国和日本议员以及其他代表对中国的访问出现了某些活跃。同时,北京没有表现出准备放弃对美国(台湾问题)和日本(签订旨在反对苏联的和平友好条约的问题)的要求,这使它们最近的向前推进相互关系成了问题。新的中国领导人对美、日政策的实质在于企图加深同这些国家的联系,同时千方百计加剧这些国家同苏联的紧张关系。
对西欧,中国的政策是支持必须发展军备(由于所谓的“苏联威胁”)和一体化进程的概念;发展同西欧的经贸联系,以便获得新的技术和装备。
至于“第三世界”,中国没有放弃把这一地区变为自己势力范围的企图。为了这一目的,北京积极要求发展中国家的高级活动家来访。在给这些国家提供经济援助和其他援助同时,把毛的概念强加给它们,其中包括敌视苏联的概念。
按照毛泽东的老公式——对苏联实施打击,同时对其他大多数社会主义国家奉行“怀柔”的方针,北京详细地审视了以前分裂社会主义大家庭的策略。北京的首领们暂时克制自己不批评其他的社会主义大家庭国家,并单方面宣布中国打算同它们的国家关系正常化,但有一个条件,它们得表示出主动。北京想同一些社会主义国家实现“有选择的”国家关系正常化,以此破坏它们一致的对华政策,使它们脱离苏联。很明显,北京依然想让社会主义国家相互对抗。
中国的新领导想起了——按照毛的特别解释——国际共产主义运动是世界发展的因素,骤然加强了同国外亲北京集团的联系。近来,北京领导,其中包括华国锋,同这些集团的代表进行10来次会见。同罗马尼亚共产党和朝鲜劳动党的交往没有减少。
在苏中关系上,中国新领导没有采取加剧两国紧张关系的态度。不允许可能使苏中边界形势复杂化的行动。贸易和交通运输进行正常。中国官方人士同苏联人的交往有些增加,在讨论苏中关系问题上,不再那么咄咄逼人。
同时,中国领导人也没有任何行动,表示想真正响应苏联的建设性步骤。相反,他们认为必须公开声明,说明政治上的反苏路线是连续的。为了给自己的这一行为辩解,北京企图把我们的步骤说成是烟幕——其背后是侵华意图;依然肯定,似乎苏联“威胁”着中国;重新在正式文件中确定“坚决把反对苏联修正主义的斗争进行到底”。
依然在各个宣传环节上大力进行反苏运动。实际上,苏联内外政策的一切方面都成了攻击的目标。在国际场合敌视苏联的活动有增无减。在联合国,在各种国际场合,在第三国家以及在同北京的各种外国代表工作时,北京的反苏积极性一点儿也未减弱。
在1976年12月在北京举行的苏中边界谈判会议上,中国代表团的僵持立场丝毫没有变化。中国方面宣布,苏中关系能否好转,实际上取决于苏联是否首先单方面采取“符合两国利益改善关系的实际行动”。而且强调,这些行动的关键环节“依然是苏中边界问题”,自然是让我们承认“有争议的地区”——即中国的领土要求。
北京领导们的反苏政策在很大程度上同中国的国内国际形势问题联系在一起。放弃这一方针,不可避免地就要求中国领导改变对缓和、裁军、停止核试验问题的消极态度,根本改变对国际共产主义运动和社会主义大家庭的立场,根本调整对“第三世界”国家、发达资本主义国家的政策。反苏政策刺激着北京的大国欲望和民族主义欲望,后两者是毛主义学说的基础。同苏联的关系如果真的迈上正常化轨道——这将使新的领导人失去一个“论据”,即并不存在所谓的“外来威胁”,想以此转移人民对严重的国内问题的注意力的阴谋也就破产了。
这样,在国内政策方面,中国新领导人一方面宣布忠于“毛泽东思想”,一方面逐渐为更现实地,尽管是从民族主义立场出发,解决早已成熟的国家政治经济发展问题创造着条件。不过中国国内形势许多东西还未明朗,围绕国家进一步发展道路的斗争的结局尚不清楚。
《俄国档案原文复印件汇编:中苏关系》第18卷,第4545—4553页
№08118 情况通报:关于中国的形势和当前北京的对外政策方针(1977年4月11日以前)
关于中国的形势和当前北京的对外政策方针
最近几个月中国出现的事件引起了普遍关注。毛泽东之死和中国最高领导层人员的变动是这些事件的直接动因,但还有其更为深层次的根本原因,即苏共二十四大和二十五大决议中以及勃列日涅夫在苏共10月中央全会(1976年)讲话中所原则指出的中国所存在的复杂的国内政治过程。苏共中央向二十五大所作的总结报告中指出,毛主义的思想和政策不仅不符合马克思列宁主义,而且是直接敌视马克思列宁主义的。
在评价现今中国领导的政治活动时必须看到,毛留下的反苏主义,歪曲科学社会主义,大国自负和强烈的民族主义倾向,不可避免地影响着并且长期影响中国的政治。国内客观存在着毛主义赖以寄生的因素,其中包括拥有从事原始农业劳动的文盲和半文盲农民,民族主义偏见严重,工人阶级相对薄弱而且分散,领导干部理论水平很低。
1976年,在毛的丧事还未办完之前,中国领导内部激烈的夺权斗争就开始了。中共中央副主席王洪文,政治局委员、副总理张春桥,政治局委员江青(毛的遗孀)和姚文元均被解职且被逮捕。被宣传界称之为“匪徒”、“反革命分子”的毛的4个主要亲信被解除权力——这是毛主义思想和现有国家政治制度危机的进一步深化。以华国锋为首的现在的中国领导清除“四人帮”的行动以及使“极左分子”和他们的支持者名声扫地的措施,博得了大部分党政军干部和群众的支持。这一行动表明了党、军队和居民对毛泽东在文化革命中提拔和支持的极左分子的深深厌恶,表明了广大中国人民群众对近年来的极左和动荡的否定态度,表明了人民群众对“四人帮”所执行的毛的方针的反感。
尽管新的中国领导核心不是清一色的,其中包含有老中青党政军干部的代表,反映着各主要集团的利益,但他们的政治哲学和社会基础同这几年下台的那些人没有多大区别。所有他们基本上都奉行毛的概念,为自己提出的任务是在尽可能短的期限里把中国变成“强大的现代化国家”。同时也不排除他们有不同于这条道路的观点。
中国新的领导集体形成的过程远没有结束。现在,25名中国政治局委员和候补委员中(第十次代表大会,1973年),只剩下16人了。其中只有9人经常在北京,可以参加政治局会议。实际上等于取消了政治局常委会。5名中央副主席只剩下一位叶剑英。没有召开中央全会,因为它的成员30%是“左派”。许多高级国家领导岗位还空着,其中包括人大常委会委员长职位。
今天全部权力集中在华国锋一人手里,他控制着党政机关和社会安全机关,控制着对军队实施领导的叶剑英和主持政府日常工作的李先念。但华国锋的地位暂时还远未巩固。作为中共中央主席,他还没有中央委员会的任命。作为国务院总理,还没有人民代表大会的任命。围绕邓小平和其他以前担任重要领导职务的“老干部”恢复名誉问题而持续的尖锐斗争将使形势复杂化。看来,华国锋把邓小平视为同自己争夺权力的潜在对手。但形势可能这样发展,邓小平可能有机会在领导集团中起作用。在这方面应该指出:一方面,邓小平发表过公开的反苏声明;另一方面,他的特点是实用主义,审时度势。
军队是推翻“四人帮”的主要因素之一,现在是控制全国形势的实际力量。军队是反对“四人帮”运动、经济、文化、民族政策、干部安排使用的定调人。逐渐证实了毛泽东原则的正确性:“枪杆子里面出政权”,“没有一个人民的军队,便没有人民的一切”。但现在部队里并不统一。
在现阶段新领导提出了以下任务:把粉碎“四人帮”及其追随者的斗争进行到底;在学习毛主席著作的基础上,开展人民思想教育的新阶段;整党;振兴经济。
除“四人帮”之外,在中央和地方,四人帮的爪牙和亲信也受到批判和清理。
清理和伴随而来的内部斗争使形势复杂起来,加剧了党政机关里的分歧,中央关于进一步批判“四人帮”罪行的决定和指示常常受阻,在地方有消极情绪,在被废黜的人影响大的地方,出现对清洗运动阳奉阴违。看得出,这是因为,清洗涉及的领导干部面很广。顺便提一下,“四人帮”的追随者或他们的同情者占居民的1%。这也就是说,有几十万人甚至几百万人。
在中国,出现人心浮动,社会秩序不稳,党、国家机关、经济纪律松弛,甚至军队也是如此。中国报刊上承认,中国出现了“反对华主席和他领导的党中央的行动”。地方上尖锐的派性斗争仍在继续。党的活动能力依然很低,工会、青年和其他组织仍无活动。形势复杂的一个原因是,反对“四人帮”的斗争是在保护名声已很臭的毛泽东的政治路线和毛泽东思想的旗帜下进行的。新的领导力图保护毛泽东思想的旗帜,把它作为巩固自己地位和制度的工具,作为民族团结的象征。粉碎“四人帮”集团被说成是“完成毛的遗训”。完全与事实相反,说“四人帮”破坏“文化大革命”和最近的政治运动,反对毛“备战备荒”的战略方针。
国内政治形势复杂化的一个原因是严重的经济困难。1976年全国工农业生产明显下滑。与1975年相比,1976年工业各部门减产5%—10%,农业减产5%。国务院副总理谷牧在同外国代表会谈时承认,中国经济现在已“全面崩溃”。工业、交通运输已经瘫痪。1976年中国仅生产2100万吨钢,即比1975年减少400万吨。正如中国领导人自己承认的,全国已感到“能源紧张”。粮食问题严重。根据中国政府宣布,今年农业形势严峻。中国已签订1977年向国外购买600万吨粮食的合同。外汇储备不足。1976年底,中国卖了80多吨黄金,换取3.5亿美元。
经济形势迫使中国领导采取紧急措施恢复工业的正常生产秩序。提出了有计划按比例发展经济、提高生产力、实行经济核算、降低生产成本、增加积累、加强劳动纪律等任务。但是提高经济的措施,其中包括打算运用中国建国初期一些有效措施,暂时只不过是宣传一下而已,还没有采取坚决的行动。
要想实现经济腾飞和在2000年使中国跨入世界强国行列的目标,需要巨大的物质资源。但是,现在近40%的预算拨款都花在了国家军事化上。继续这一方针和加快实现军人要求的军队现代化将大大制约与国防没有联系的其他工业部门的发展,使本来就渺茫的改善人民生活的愿望化为泡影。
现在的中国领导在各种正式讲话里,在其宣传和实践活动中,重申奉行毛生前制定的外交路线。中共中央主席华国锋在1976年12月25日农业会议上讲话时强调,中国将一如既往“坚定地贯彻……毛泽东主席所制定的对外政策方针”。国务院副总理李先念和中国其他官员在讲话中也多次表示这种态度。
现在对外政策的目标是:到2000年把中国变成具有自己影响范围的世界政治中心。这一建立在民族主义、大国沙文主义基础之上的在国际舞台追求霸权的方针表现在以下几个方面:
——恶毒的反苏主义,在思想和政治上同苏联全面对抗;
——颠覆社会主义大家庭,同他们发展关系时区别对待;
——在反对社会主义大家庭,反对缓和和加剧国际关系紧张等方面力图同帝国主义反动势力结盟;
——促进西欧军事政治一体化和军国主义化进程,促进加强北约,使其成为对抗苏联和其他社会主义国家的主要力量;
——把日本拉入敌视苏联的联盟;
——颠覆苏联在东南亚、中近东和南亚的阵地;
——继续加紧建立亲毛派别以同国际共产主义运动对抗;
——拼命把“第三世界”国家变成自己的势力范围。
中国代表积极利用国际讲坛反对苏联和其他社会主义国家的爱好和平政策。中国驻联合国和其他国际机构的代表继续猛烈地抨击苏联,而且他们发言的调子和内容同毛生前没有什么两样。中国依然反对任何裁军措施。中国代表团在三十一届联大会议上投票反对关于签订在国际关系中不使用武力的世界条约的决议,反对关于全面禁止核试验的决议,断然反对召开联合国专门裁军会议,尽管众人皆知,这一建议是发展中国家提出来的。
新的中国领导不仅企图制止裁军措施,而且积极地发展中国的核潜力;在毛死后又进行了3次核试验,继续研制远程导弹。中国大力从资本主义国家购买可用于军事目的的技术和装备。
北京继续寻找机会,同主要的资本主义国家结盟,并在实际活动中扩大同他们的联系。在同美国关系上,保留着中美在共同反苏的基础上互相接近的危险趋势。
北京没有放弃利用苏美矛盾为自己的大国目标服务。中国领导人力图使美国坚定反苏方针。在同美国代表会谈过程中,尤其是1976年10月在同美国参议员曼斯菲尔德会谈中,中国新领导人宣布中美之间“有共同的国际利益”;断言美苏之间的战争是“不可避免的”,安抚苏联的政策是短视的,必须在太平洋地区、亚洲(迪戈加西亚岛)、欧洲和近东保留美国的军事存在;企图为苏美之间达成新的限制进攻性战略武器协议制造困难。
另一方面,北京正在探索接近华盛顿新的行政当局的途径,企图清除同美国进一步有效合作道路上的障碍。北京暗示准备在台湾问题上采取灵活立场。中国领导人继续坚持中美关系正常化的著名三项条件(美国从台湾地区撤军,断绝同台湾的外交关系,宣布美台相互防御条约作废),同时强调,对中国来说,主要问题是“苏联的扩张主义威胁”。与这个问题相比,解放台湾是第二位的,这个问题可拖到以后不定期的某个时候,只要美国愿同中国在国际问题和其他问题上合作。
中国方面向美国发出信号,表示愿意就双方财产需求问题进行谈判。
新的美国行政当局还表示为了同中国改善关系存在这种可能性。顺便指出,美国各界不断议论向中国出售武器以及带有国防性质的设备和技术的问题。在这方面不能排除有作出什么决定的可能性(美国国防部长布朗今年1月11日在国会上的声明)。
中国对日本也采取类似立场。加强两国交往的目的是促使日本按照北京提出的条件——把1972年共同声明关于双方反对第三国“霸权”的第七条写进条约——来签订中日和平友好条约,按照中国人的设想,该条约应具有反苏的性质。同时,中国活动家们(如廖承志)竟然达到公开威胁的程度,暗示到本世纪末,“日本不得不同强大的中国打交道”。使用压力同以中日关系发展前景“引诱”日本这种“细致”方法相结合,企图以此推动陷入僵局的条约问题。近来明显的企图活跃同日本的经贸联系,双方互派了重要的经济代表团(1—3月)。中国官方人士和报刊对福田赳夫今年2月5日关于在有争议的钓鱼岛周围实行12海里领海的声明默不作声。
北京仍继续号召西欧国家加强“欧洲团结”,对抗“苏联对西方的威胁”。不仅在报刊上,而且在同西方客人会谈中也散布这种荒谬的思想,如中国对外友好协会会长王炳南在同司法部长布罗德为首的奥地利代表团会谈时威胁说,似乎在铁托死后南斯拉夫形势尖锐的情况下,奥地利将不可避免地要成为华沙条约国实现军事计划的目标。他建议奥地利人提高国防能力,研究小国越南反对大国侵略的经验。
在反对与欧洲缓和、合作的斗争中,北京明显地寄希望于带有复仇情绪的右翼政治活动家们的帮助。今年来北京做客的有英国保守党代表——保守党总部国际部主任男爵夫人埃莉斯和英国原外交和联邦事务大臣、保守党议员埃默里;保守党领袖撒切尔夫人被邀4月份访问北京。众所周知,近年来北京在欧洲臭名昭著,是主张重新划定欧洲边界、使两个德国合并和猖狂反对大陆缓和的基督教民主联盟和基督教社会联盟西德复仇主义分子的同谋者。不久前,基督教民主联盟的首领之一,巴登符腾堡州总理菲尔宾格访问北京,受到华国锋亲自接见,中国领导想借此表明西德问题仍未“定论”。斯堪的那维亚国家的反动右翼集团以及北约南翼,尤其是西班牙,也是北京“关注”的目标。
发达资本主义国家的政界人士,考虑到中国形势还未彻底明朗,因而在对华政策上很谨慎,许多西欧国家由于北京同极左集团调情已表示出警惕。
北京对外政策的一个主要目标就是把“第三世界”变成中国的势力范围。
发展中国家的高层活动家被邀请到中国访问,北京千方百计讨好他们。给他们亲自送礼,答应为他们提供经济援助和其他援助,以换取他们的反苏行动和支持中国在世界各个地区的活动。
为了向近东和波斯湾地区渗透和扩大自己的影响,颠覆这一地区各国同苏联的友好关系,北京的领导人正在利用阿富汗、巴基斯坦之间的俾路支斯坦和普什图斯坦的领土争端问题,塞浦路斯问题,土耳其和希腊之间关于塞浦路斯、大陆架归属问题的分歧。
根据中国的战略利益,中国一切活动的方针是,鼓励一些近东国家同北约和中央条约组织的军事政治联系,阻止东地中海地区缓和紧张形势,为自己在这一区赢得巩固的阵地。北京继续搬弄所谓的“苏联威胁”命题,其主要目的是推动诸如伊朗等这些国家发展军事潜力,以此加剧这一地区孕育着战争危险的紧张形势。
北京对南亚和东南亚国家积极施展外交手腕,不久前周恩来遗孀、人大常委会副委员长邓颖超对缅甸的访问便是证明。在南亚,中国在同印度关系正常化的幌子下,保留着建立在反苏基础上的普遍的反印政策方针。可以相信,北京将采取一切可能的措施,利用印度变化的形势颠覆苏印人民之间的友谊和合作,况且中国人早就想使印度、孟加拉以及斯里兰卡的形势向右转。为了吸引人们对中国对南亚次大陆外交政策真正内容的注意力,中国将继续反对苏联在印度、孟加拉国和印度洋的政策。中国没有放弃对东南亚国家内政的干涉,支持这里的反政府集团,为亲华的和以右倾为趋向的暴乱分队提供军事援助。
中国领导人表示赞成赋予东南亚国家联盟以军事政治性质,宣扬必须加强它同澳大利亚、新西兰、美国军事同盟的联系,从而表明了自己对这一地区保持美国军事存在的兴趣。
在非洲,北京正利用年轻的非洲国家渴望政治独立和经济独立的心情以及某些领导人的民族主义和依赖别人的倾向,甚至利用非洲人民的民族解放斗争来为自己的反苏目的服务。北京打着反对“超级大国”和“社会帝国主义”的幌子,强拉硬扯,企图把这一切同其反苏活动联系起来。北京靠提供经济援助以在非洲推行反苏政策。到1977年初,中国人答应给非洲国家的货款总额近20亿卢布(几乎占中国援外总任务的60%),在20个非洲国家工作的中国专家有6000人。中国对扎伊尔、刚果人民共和国、莫桑比克人民共和国、塞拉利昂、坦桑尼亚以及埃塞俄比亚的经济援助还补充以军事合作,企图以此缓解它对安哥拉问题上的政策在大多数非洲国家所造成的消极影响,进而放手对非洲制度施加思想影响。但中国的经济形势用不了多久便会使北京失去这种优势。
中国领导把自己伪装成“安哥拉民族统一战线”的支持者,实际依然同安哥拉国内外的反对派,首先同“争取安哥拉彻底独立全国联盟”和左倾集团保持着联系。中国没支持安哥拉人民共和国加入联合国的申请。近来由于扎伊尔事件,北京不断攻击安哥拉,想在支持南非民族解放运动的国家中损坏其中一个国家的名誉,以此分裂反对种族主义的统一战线。中国对南非问题的立场表明,中国人对调解那里的重要问题不感兴趣。中国政策所追求的目的是,扩大南非冲突,从而加剧世界矛盾和紧张局势,加剧苏美对抗;破坏南非民族解放运动同世界社会主义之间的联系;完全在同帝国主义“对话”的范围里“解决”问题。中国宣传只是表面谴责索洛贝里和比勒陀利亚制度,表示理解美国和英国在南非的政策,同时把苏联说成是南非民族解放运动的主要敌人。
中国想通过“声援”和“支持”拉美国家的政治要求和倡议,尤其是在200海里领海、在特拉捷伦科两次会谈的基础上实现拉美无核区、建立国际经济新秩序以及在地区合作问题(在拉美建立政治组织,建立加勒比海地区共同立场、建立拉美经济体系组织)上的要求和倡议,求得与拉美国家政治上的接近。
在给发展中国家的政治和社会活动家做工作的时候,重要的是应与兄弟的社会主义国家的代表密切协调,给他们解释我国对华政策的积极意义,剖析中国领导旨在反对和平、民族解放和社会主义事业利益的政策,揭露中国在安哥拉、南非问题和与发展中国家进行经济联系等问题上所持立场和所采取行动的真正目的。
在社会主义大家庭关系上,北京努力实施“区别对待”策略,想破坏社会主义国家一致的对华政策。
中国方面正加紧活动,试图把这种概念强加给社会主义国家:似乎在中国保持反苏方针的情况下,它也有广泛的可能性同社会主义国家在贸易、科学合作、文化和旅游领域进行广泛的合作。今年3月,中国外交部副部长余湛对捷克斯洛伐克驻华大使宣布,中国准备接待捷克斯洛伐克方面派出所有部长级甚至国家代表团以讨论两国关系上所存在的问题。他建议恢复文化和体育方面的交流,开展卫生领域和科学院系统的联系。中国方面的这种想法还向保加利亚和波兰代表讲过。中国领导把同一些社会主义国家(保加利亚、捷克、波兰、民主德国)扩大联系,不仅看成是实现“区别对待”策略的重要手段,而且看成是克服中国经济短缺的一种途径。
与此同时,从今年1月中旬开始,北京运用宣传手段,集中攻击社会主义大家庭,其目的是刺激兄弟国家的民族主义离心倾向,播撒对苏联和社会主义大家庭集体组织——经互会和华沙条约组织的不信任种子,从而推动某些社会主义国家奉行特别方针。中国报刊,尤其是《人民日报》,企图“证明”,在经互会国家共同经济合作问题上,东欧社会主义国家对“莫斯科的高压”深为不满和怨恨(以保加利亚为例),喋喋不休地描写这些国家(波兰、捷克斯洛伐克)深刻的“经济困难”和“政治动荡”,断言,似乎社会主义大家庭已处于“崩溃边缘”。大加宣扬罗马尼亚和南斯拉夫领导的“特别路线”,以此作为其他社会主义国家学习的榜样,把在罗马尼亚和南斯拉夫积极参加下“调节巴尔干国家的合作”这一思想强加于人。
出于策略考虑,北京对大多数社会主义国家回避思想论战。同时,中国报刊十分关注和详细介绍欧洲社会主义国家之间和他们同西方国家之间的所有接触、会谈和达成的协议,将其说成是反对苏联的“专制”。与此同时,千方百计掩盖同地拉那的分歧,粉碎“四人帮”之后,这些分歧更为明显了。
仍然坚持发展同朝鲜民主主义人民共和国关系的方针。尽管采取同越南社会主义共和国和朝鲜民主主义人民共和国缓和关系的步骤(中越陆上边界正常化;根据越南和朝鲜的代表的说法,中国积极帮助越南和朝鲜恢复经济),但在对越关系上,中国并未忘记南海岛屿的归属问题。经过一段沉默之后,中国中央报刊于3月份明确声明,南海西沙群岛和其他岛屿是中国的领土。
北京对蒙古的强硬路线丝毫未变,由于古巴在安哥拉问题上的众所周知的立场,北京对它的态度更是强硬。
很清楚,发展兄弟国家对中国的关系首先不应促使中国反对社会主义大家庭的立场得以巩固。其任务在于,打破北京的分裂主义方针,不允许社会主义国家争先恐后同中国接触和发生联系。
苏共中央和苏联政府根据几次党的代表大会的决定,一直采取措施使苏中关系正常化。苏联对中国贯彻积极的建设性的政策,尽一切努力使现在的北京领导转变,既然我们的意图是使苏中国家关系向正常化的方面发展。正是出于这种目的,苏共中央在毛去世后,主动采取了一系列措施向中国新领导人表示良好愿望,表示愿同中国改善关系。勃列日涅夫同志在苏共10月中央全会(1976年)发言和其他苏联领导人的讲话里,都明确地表明了这一点。在华国锋就任中共中央主席之后,给他发了贺电。在苏联最高苏维埃主席团和苏联部长会议祝贺中国建国27周年的贺电中表达了对中国人民的友好感情。10月1日,《真理报》发表了庆祝中国国庆节的文章,重申了恢复苏中睦邻友好和合作的愿望。
从1976年9月开始,在我们的宣传报道中,不再有公开批评中国问题的材料,这不仅向中国领导,而且向世界社会表明了苏联想同中国建立起睦邻友好和相互尊重的关系,这是我们所采取的重要步骤之一。
从1976年11月29日至1977年2月28日,在北京举行了边界谈判。苏联代表团在会上重申苏联以前提出的建议。
我们旨在呼吁中国放弃毛的反苏方针的善良行动没有得到中方的积极响应,反苏主义仍是北京政策的轴心。
中国领导人拒绝接受苏共中央因毛泽东去世所发去的唁电和因华国锋就任中共中央主席所发去的贺电,说“中共和苏共之间没有党的联系”。从1976年3月起中国大使便离开了莫斯科。中国方面关于同苏联关系正常化的郑重声明(如欣逢十月革命59周年纪念中国发来的贺电中就有这样的表示)都没有得到事实证明。今年1月22日,中国外交部副部长黄华在同苏联代表团团长、苏联外交部副部长伊利切夫会谈时承认,北京对苏联提出的改善中苏关系的积极建议态度是消极的。
现在的中国领导,完全继承了毛泽东的反苏方针,依然把边界调解放在首位,把它看成是两国关系的关键问题。不解决边界问题,黄华今年1月22日在同伊利切夫会谈时声称,“绝不能转入解决其他问题”。而解决边界问题,北京想按照这样的原则:即让苏联方面承认“有争议的地区”在苏联领土上,苏联军事人员应从那里撤出,允许中国公民永远在那里进行经营活动。这样,北京把所有改善中苏关系的路都堵死了。
中国的反苏活动,不仅没有停止,而且越来越猖狂,肆意诬蔑攻击。仅半年时间,两份中央报纸刊登的反苏材料就有1600份之多。而且中国方面肆意干涉苏联内政,大肆诬蔑我国的对内对外政策。
——进行颠覆性的充满谎言的反苏宣传,反对苏联的国家制度和社会制度——伟大十月革命的产物,反对苏联人民在列宁党的领导下所取得的历史性成就。
——歪曲报道苏联的真实情况,歪曲苏联人民的英勇斗争和劳动成果,千方百计谩骂苏联人们的生活方式,谩骂他们忠于革命传统和共产主义事业。
——采取卑鄙的注定要失败的手段,企图给苏联各族人民的伟大友谊抹黑,破坏苏联国内社会主义各民族的关系,破坏苏联人民坚不可摧的团结。
——搜罗资产阶级反动宣传编造的反苏谎言,说苏联破坏人权。这种谎言的假仁假义和不严肃性是非常明显的,这不仅是由于它是编造的,还由于这种状况在中国自身就存在,在中国不经调查和审判镇压了数百万人。
——仍在企图粗暴干涉社会主义国家的相互关系,实施反对它们友谊和合作的破坏行动。
——利用各种手段,使苏联人民和其他国家人民之间互不信任。妨碍苏联和美国、日本、西欧国家为了和平安全发展相互合作关系。千方百计歪曲苏联对发展中国家的政策。
——为诋毁苏联和其他社会主义国家的和平倡议,竟诅咒缓和思想本身,阻止在国际事务中实现和平共处原则;同时宣扬形势紧张精神和国与国之间对抗精神,无耻宣传关于新的世界大战不可避免的观点,表示准备愿同随便什么人联合,共同反对苏联和其他社会主义国家。
——为了破坏缓和,与最反动的势力一唱一和,天天叫嚷所谓的“苏联威胁”。
——千方百计封锁,不让中国人民了解苏联对华政策的真相和苏联为改善苏中关系所作的努力。同时继续宣扬无耻的谎言,似乎苏联对中国有某种侵略意图。苏联被描绘成了某种吃人的老虎(甚至在中国正式文件中也这样说),它正是要“奴役”、“恫吓”、“压迫”甚至“消灭”中国。
这样,事情不像中国领导人所说的,是什么“论战”或“争论”,这是有预谋的恶毒的为正式的国与国之间的关系所不容的运动,其目的是加剧这种紧张关系,把反苏主义作为一种民族精神强加给中国人民。
苏联共产党从原则的马克思列宁主义立场出发所反对的毛主义,在国际社会乃至中国人民自己心目中的威望越来越差。实际上,在中国,尽管没有公开承认,毛主义的许多方针都已引起人们的怀疑。
在中国问题上,苏联路线的实质在于,坚定地捍卫马克思列宁主义的原则,捍卫苏联、社会主义大家庭和国家共产主义运动的利益,同时也不放过同中国改善关系的机会,如果它出现的话。这一立场能够继续积极地为中国的社会主义前景,为同这个国家的睦邻友好关系而奋斗。这一立场符合和平和社会主义事业的利益。
《俄国档案原文复印件汇编:中苏关系》第18卷,第4554—4571页
№25985 驻葡使馆致梅德韦多夫斯基函:澳门和东帝汶的法律地位(1977年8月23日)
苏联驻葡萄牙共和国大使馆
里斯本
1977年8月23日
第320号文
副本
致苏联外交部第一欧洲司副司长
П.М.梅德韦多夫斯基同志:
对您1977年6月21日第383号信件的答复。
大使馆向葡萄牙外交部提出了通报葡萄牙对澳门和东帝汶法律地位的正式立场的请求。这一问题至今未能得到说明。葡萄牙外交部的代表们则直接表示,对于他们本身来说,尤其是东帝汶的正式法律地位是不明确的。
看来,确定上述区域的法律地位,应该遵循宪法和其他法令的规定。
1.依据1976年4月25日生效的葡萄牙共和国宪法,澳门并未列入葡萄牙的领土范围内。但是,宪法第5条第4款规定:“处于葡萄牙行政管辖下的澳门地区,由与它特殊地位相适应的(机构来)管理。”
根据宪法第306条制定的澳门条例,于1976年2月17日以第1号法令的形式生效。条例第2条规定:“澳门是个集体法人,根据葡萄牙共和国宪法和现行条例所确立的原则,它享有行政、经济、财政以及立法上的自治权。”
条例第3条规定:“1.葡萄牙共和国的主权机关除法院外,在当地以总督为代表。2.澳门在与外国国家关系方面和签署国际协定或条约上的代表权属于葡萄牙共和国总统,如果只涉及澳门地区的利益问题,总统可以将代表权转交给澳门总督。”
众所周知,中华人民共和国没有提出收回澳门问题,虽然澳门是中国的领土。联合国编制的殖民地目录当中也没有将这一地区列入进去。因此,可以得出结论,澳门不属于葡萄牙的殖民地范围。
2.根据1974年7月27日颁布的第7号法令,葡萄牙给予包括东帝汶在内的所有的殖民地以自决权。
但是,由于东帝汶地区没有实际的政治力量能享有自治权,其自治权的真正实现需要一定的过渡期。1975年7月17日第7号法令确立了东帝汶新条例,该条例确定了管理这一区域的秩序并给予东帝汶独立。尤其是,这一条例规定于1976年10月选举人民议会,该议会应当解决东帝汶的政治和行政地位问题。有计划表明,截至1978年10月,葡萄牙将会把自己所有的主权交还给地方当局。
由于东帝汶局势的改变,这些给予独立的计划并未得到实现。
1975年12月,印度尼西亚宣称东帝汶是其领土的组成部分。1975年12月7日,葡萄牙中断了同印度尼西亚的外交关系,并将东帝汶问题诉诸联合国解决。
1976年在联合国大会第31次会议上,在谈到东帝汶问题时,葡萄牙外交部长德罗斯·费雷拉声明:“葡萄牙政府在法律上仍然不打算承认东帝汶从属于他国领土,不承认单方面解决决定造成的结果。但是,我们愿意接受联合国就这一问题达成的协议。”
今年8月,在第24次委员会会议上,葡萄牙代表宣称,他承认东帝汶人民的自决权和独立权,所以不会承认“印度尼西亚从法律上强迫东帝汶从属于其领土”。他继续说,东帝汶作为最后一个没有自己政府的领地,在形式上仍然由葡萄牙负责,但它不能履行以国家管理者的身份给予人民实现其自决权的机会的职责。
宪法第307条规定:“1.葡萄牙继续根据国际法承担其所负的责任,保证和实现东帝汶的独立权。2.依靠革命委员会和政府的帮助,共和国总统应当采取一切必要的行动,来实现上述各点中提出的目标。”
因此,显然可以得出结论,东帝汶“法律上”仍处于葡萄牙的管理之下,但不是葡萄牙的殖民地。
3.在葡萄牙的地图上,澳门和东帝汶不是作为殖民地而被标出的。
附件:
1970—1982年间荷兰同中华人民共和国之间的贸易 [19]
(以千荷兰盾计算)
EPUB/Image00109.jpg
续表
EPUB/Image00178.jpg
(Intermediair [20] ,1983年11月25日,第9页)
1970—1982年间荷兰同台湾之间的贸易
(以千荷兰盾计算)
EPUB/Image00197.jpg
(Intermediair,1983年11月25日,第9页)
АВПРФ,ф.0100,оп.71,п.314,д.20,л.1-4
№08119 苏共中央致兄弟党领导人通报:关于中国新领导的政策(1977年9月 [21] )
关于中国问题给社会主义国家兄弟党领导人的通报
苏共中央遵循定期同兄弟党领导交换中国问题情报的做法,想从最近事件的角度对中国新领导的政策谈几点看法。
毛泽东去世已近一年的时间。在这期间,继毛泽东之后的中国领导人的立场和政策方针已基本显露出来。北京的大政方针今天已很清楚了。
令人遗憾的是,不得不指出,中共领导人没有表现出摆脱毛的束缚,以批判的精神看待毛的有害方针和实现根本转变使国家走上经济建设轨道的意图。去年9—10月发生的类似上层政变的事件,除清除了几名政治活动家和他们走卒之外,并没有导致政策的根本改变。
毛泽东留下了最重要的遗产。近15年来,按照毛的意志所贯彻的对外政策路线是使作为社会主义国家的中国名声扫地的路线。北京抛弃了社会主义国家的友谊、合作和相互援助,采取了敌视社会主义国家的政策,开始全面同帝国主义和反动势力合作。
现在已很清楚,毛泽东的去世并没有导致毛主义这一敌视马克思列宁主义的思想意识形态自行消亡。《毛泽东选集》第5卷的出版,今年5月1日华国锋的讲话和具有纲领性的文章以及他在今年5月9日大庆经验交流会上的重要讲话表明,中国的新领导直接地把自己同毛泽东制定的方针联系在一起,承诺让中国沿着毛主义的道路前进。留在政权里的活动家们依然坚持民族主义、大国沙文主义、扩张主义和霸权主义。
一、目前中国经受的经济和政治困难还不足以形成对作为泥足巨人的这个庞大国家的复杂影响。
十分明显,北京领导集团努力进一步促进中国的军备竞赛和军事准备,在此之前,中国的军事准备就以日新月异的速度发展了。在国内形势严重动荡和混乱的情况下,中国领导集团千方百计保护和发展自己的军事工业。据联合国的统计资料,1976年中国的军费开支达210亿美元,几乎占全国预算的二分之一。北京领导集团没有放松努力发展导弹核潜力,建立中程和远程弹道导弹。1976年中国进行了4次核试验,而以前每年进行一次。在战略装备方面,目前中国是大大向前推进了。
资本主义国家,首先是美国、联邦德国、英国和法国,乐意推进北京的军事工业潜力的发展,它们加强中国(它们打算,在对它们自己不构成威胁的范围里加强中国),想使其成为苏联和社会主义大家庭的敌人。它们为住在他们国家的华人原子专家、导弹专家和有关领域专家前去中国访问大开方便之门。中国在资本主义国家购买可用于军事目的技术和设备的范围扩大了。
看待北京的对外政策路线,必须考虑到已载入中华人民共和国宪法(1975年)和为新的领导人所批准了的任务:到2000年把中国建设成世界强国。这里指的是,为实现毛泽东生前制定的带有野心、大汉族倾向和领土要求的战略方针奠定物质基础。北京领导集团的霸权主义明显地表现在所提出的关于“中国是世界革命的基地”这一论点上。今年4月,中共中央政治局委员、国务院副总理李先念在全国大庆经验交流会议上,重申中国领导集团忠于“毛泽东所提出的战略目标——在经济上用几十年时间超过美国”,使中国变得更强大,“对人类事业作出更大的贡献”。根据现在的中国领导人的讲话来判断,他们同毛一样,他们这个“贡献”不是献给巩固和平,而是献给发动新的世界大战。
中国领导人公开讲:“战争是不可避免的,形势缓和是不可能的。”在今年5月9日大庆经验交流会上,华国锋在讲话中发出了军国主义的号召:“我们一定要准备打仗。机不可失,时不我待。”国家第二号人物国防部长叶剑英对苏美关系紧张表示高兴,预言这“迟早会导致战争”。叶剑英把北京的好战方针同社会主义国家巩固和平和进一步缓和的方针对立起来,说“我们应该特别注意很快发生大规模战争”。根据这种方针,中国领导人提出了建立现代化的国防工业的任务。中国外交部副部长余湛在接受德国《世界报》采访时,以挑衅口吻大谈北京所臆想的什么“苏联扩张计划”,说什么西欧将是苏联“进攻的首要目标”,其次将是近东和美国,而最后将“进攻中国”。
中国领导人每次接见资本主义国家的来访者时,都重复他们臆想出来的所谓苏联“对全世界的威胁”。例如,今年3月,国务院副总理李先念在接受英国记者加米尔顿采访时,宣扬“苏联对欧洲、非洲和近东的威胁”。他还宣称,北京想看到“一个强大的欧洲和它强大的国防”,并且许诺,“如果俄国人企图在世界某个地方实现扩张,中国一定不会袖手旁观”。类似的话后来还说过。特别是今年4月在同美国国会代表团会谈时,李先念呼吁美国不仅要保留而且要加强美国在欧洲的驻军。
特别应该注意的是,现今的北京领导集团对毛的“人民战争”学说进行了修正,用新的进攻概念代替了防御战略。据掌握的材料,华国锋、叶剑英和李先念在今年3月,对中国科学家讲话时,要求加速研制核武器和化学武器以及运载工具。
北京领导集团依然反对社会主义国家关于在国际关系中不使用武力、禁止核试验和裁军等方面的建议。北京正在积极地备战,拼命反对任何裁军措施。中国是为数不多几个不承诺禁止或限制研制和使用大规模杀伤武器的国家之一。
二、根据毛主义“三个世界”的构想(这一构想排除社会主义大家庭的存在。华国锋在今年5月1日讲话中重申这一构想),中国整个外交战略的目的是加剧资本主义国家和社会主义国家之间,尤其是苏联和美国之间的对抗,利用冲突事件加剧国际紧张形势,使新的世界战争不可避免。
在评价国际舞台上的基本力量时,北京早就抛弃了阶级分析方法,现在它公开贯彻同所有反动势力结盟的政策,以反对社会主义大家庭和达到它做超级大国的梦想。
中国力图在敌视现实社会主义的基础上发展同西欧的联系,唆使西方国家的反动势力破坏缓和政策,加剧同社会主义国家的冲突。中国的宣传强调,赫尔辛基会议对欧洲形势没有带来“任何积极的东西”,欧洲依然是世界灾难性大剧变的主要潜在策源地,来自“华沙条约组织的”威胁“越来越大”。
北京千方百计鼓励北约国家进行军事准备和军事竞赛,宣称必须巩固欧共体国家的政治统一,在“苏联威胁”方面,他们必须贯彻统一的对外政策路线。这充分地表现在北京敌视华约成员国关于欧洲安全和合作会议参加国之间签订互不首先使用核武器条约的建议上,表现在北京支持北约侵略集团对这一问题的立场上。中国报刊攻击我们在维也纳谈判中关于裁减中欧武装力量和武器的新倡议,攻击苏联在整个谈判中的立场,为美国和其他资本主义国家辩解,鼓励它们继续军备竞赛、发展军事实力。
近几个月的事实表明,北京在反对欧洲积极倾向的时候,把希望寄托在英国保守党最反动的政治家和西德基督教民主同盟和社会同盟两集团中的复仇主义分子身上。今年4月,基督教民主同盟副主席菲利宾格和英国保守党领袖撒切尔夫人访问北京时,中国领导人努力奉迎便是明显的证明。
中国领导人同西欧国家极右集团的代表接触,其中一个主要目的就是阻止签署赫尔辛基全欧会议最后文件的国家的代表举行贝尔格莱德会晤。
在削弱社会主义阵地、动摇社会主义国家的统一和团结问题上,中国不得不越来越指望帝国主义分子。依然存在着一种危险的倾向,即为了颠覆社会主义阵地,北京进一步靠近华盛顿,扩大两国“共同的”或“平行的”国际利益范围,中国领导人同美国和其他西方国家以及日本最富侵略性的集团结盟。中国领导人在同美国代表会谈时不止一次声明,美国和中国在大多数国际问题上立场一致,这要比双方性质的问题重要得多。
北京和华盛顿之间形成了明确的角色分工。北京在自己的宣传中为美国开脱,它推卸所有抵制缓和进程和继续扩军备战的责任,故意把事情说成这样,似乎美国面对“苏联威胁”被迫发展军备,支持美国反动势力要求研制威力更大、更危险的战略核武器的行动,明确号召美国当局对苏联采取更强硬的立场。“北京与华盛顿的共同性”不仅扩展到了欧洲问题,而且扩展到了亚洲、非洲、太平洋和印度洋问题上,对这些地区保留美国的军事存在和清除社会主义国家的影响,双方表现了共同的兴趣。北京和华盛顿正在讨论通过共同行动对苏联施加压力的可能性。北京和华盛顿的实际伙伴关系,在许多重要的国际问题上相互理解和协调行动还特别明显地表明在联合国里。
在由于越南和老挝人民的胜利,世界社会主义在亚洲的阵地加强了的条件下,北京不能不对日美军事同盟产生好感,对日本资本力图在东南亚扩大阵地、在反共基础上巩固同东南亚国家联盟的联系大加青睐。中国领导人仍企图说服东京统治集团建立反苏同盟,要求把实际是针对苏联的“共同反对霸权主义”条款写进同日本的和平友好条约里去。正如日本通讯社报道的,今年4月中国高级军事领导人同日本防卫厅代表进行了一系列会晤,讨论军事问题。中国领导人已到了这种地步,他们主张恢复日本的军事潜力,在东方反苏反社会主义阵线里,中国和日本军国主义团结起来。
北京完全敌视社会主义大家庭。北京领导集团继续贯彻所谓“区别对待”的分裂主义政策,行动比以前更加谨慎。北京给自己提出的任务是:通过有“选择地同一些国家恢复正常关系”,而对其他国家保持敌对立场的方法,分裂兄弟国家的团结,破坏它们协调一致的对外政策。中国企图说服某些社会主义国家,似乎在北京对包括苏联在内的整个社会主义大家庭保留敌视方针的情况下,仍存在同北京“发展多方面合作的可能性”。
1977年初,中国领导集团实际上同帝国主义协调行动,对许多社会主义国家发动了宣传攻势,企图鼓励反革命和反社会主义因素。为迎合西方反共分子,北京公开站在各种变节分子和叛徒一边(自然帝国主义宣传和北京宣传对中国“文化大革命”期间从肉体上消灭了500万“思想异己分子”这一事实沉默不语)。中国宣传竟然说社会主义国家的形势俨如火山,已处在“崩溃的边缘”。力图散布对社会主义国家集体合作机构的不信任,变本加厉地诬蔑经互会和华沙条约组织的行动。
苏联一直主张同中国关系正常化,而且没有关闭解决苏中之间问题的大门。关于这一点,在苏共二十五大上,在苏共10月中央全会(1976年)上和其他文件中已讲得十分清楚。但苏联的建议没有得到中国善意的对待。在去年底今年初举行的一轮苏中边界谈判上充分证明了这一点。谈判表明,中国依然站在对方不可接受的立场上。在谈判中,中国方面重申了它对历来属于苏联的150万平方公里的领土的要求。
北京代表团断然拒绝重新研究边界走向,主张按照“有争议的地区”这一概念签订协议。接受这一概念意味着我们同意把所谓“有争议的地区”献给中国。中国代表武断地声明,他们认为这一地区是中国的领土,而他们建议将其称其为“有争议地区”是为了对苏联做某种让步。自然,苏联不能同意这种要求。
至于中苏之间的思想分歧,中国代表团声称,“原则争论”(他们这样称呼他们放肆的反苏运动),在苏联“公开承认自己的错误”之前——似乎它已经犯了15年——不能停止。
今天的北京领导对世界共产主义运动依然采取以前敌视和分裂的路线。应该引起注意的是,北京企图重新支持和鼓励毛主义集团,把他们作为国际舞台上的武器。许多国家的毛主义分子在路德维希港(联邦德国)和罗马举行了会晤,拉美亲北京集团还在地拉那举行了会议。毛主义思想还滋润着其他国家的形形色色的机会主义。
中国领导集团正在同亚洲、非洲和拉丁美洲国家的反动的右倾民族主义制度寻求相互理解,迎合帝国主义在这些地区的政策,对发展中国家的进步力量表现出敌视态度。
扎伊尔事件再一次表明,北京与帝国主义分子联合行动反对民族解放运动。中国在非洲的行动路线表明,北京对为了人民的利益调节那里的问题不感兴趣,它反对巩固安哥拉、埃塞俄比亚和其他国家的进步制度。
北京赞许萨达特的亲帝、反阿拉伯的政策,实际纵容近东以色列扩张主义者,扩大同智利皮诺切特法西斯集团的联系。北京领导集团企图分裂、削弱民族解放运动,颠覆它同世界社会主义的联系。
由疯狂的军事准备做基础的北京领导集团的国际行动方针正在给和平、社会主义和反帝斗争事业带来损害,是对所有国家、所有人民,其中包括中国人民的现实威胁。
三、毛泽东去世之后所发生的事件证明了兄弟党对北京内外政策所作估计的正确性。毛主义依然是社会主义的对立物,它直接敌视马克思列宁主义学说。
同毛主义反马克思列宁主义的理论和实践作斗争的整个经验表明,兄弟党在直接对待中国的毛主义政策和它与这个国家有关的问题时,紧密合作是取得胜利的保证。
在目前条件下,必须清楚地看到中国事情的形势,因为这个大国所出现的过程将产生长远影响。各兄弟党所面临的任务,是在中国政策不稳孕育着突发事件危险和其积极反对缓和的条件下为争取和平和缓和紧张形势而斗争。我们的出发点是我们党的共同结论,即对毛主义的理论和实践的妥协将给社会主义大家庭乃至整个人类带来不可挽回的灾难。在兄弟党和所有进步力量之间进行协调工作,我们可以做到使中国成为建立在和平共处原则基础之上的国际社会可接受的成员。我们没有丧失希望,希望深受唯意志论的毛主义实验之苦的中国人民自己发话,结束北京冒险主义的反社会主义的方针。但不能消极地等待。整个世界社会主义的命运同这个涉及所有社会主义国家根本利益的现实问题联系在了一起。
苏联对中国坚决彻底地奉行苏共二十五大制定的方针。这一方针是,反击北京的挑衅政策,保卫苏联国家、社会主义大家庭和世界共产主义的利益,一如既往同毛主义作原则的不调和的斗争。同时,苏联准备在和平共处原则基础上同中国建立关系,而在中国回到马克思列宁主义政策、放弃敌视社会主义国家的方针和回到同世界社会主义合作和团结的道路上来的情况下,则在社会主义国际主义原则基础上同中国建立关系。
为了争取中国的社会主义前景,为了改变中国的政策使之有利于社会主义和和平,我们认为,必须以我们兄弟党和兄弟国家制定的一致的对华路线对抗北京的“区别对待政策”。近年来的事件表明,在中国问题上,兄弟党的协调政策贯彻得越彻底,北京领导集团对其就越重视,正是我们兄弟党和兄弟国家的团结最使毛主义分子害怕。
在同毛主义作斗争中,我们有了不错的结果和足够的经验。在这方面,兄弟党中央国际部和外交部的代表就中国问题定期会晤以及外贸部门的代表会议起着有益的作用。为了协调我们驻第三国和国际组织中代表的行动以反击北京的攻击诬蔑,我们认为,需要加强和完善已有的定期磋商办法。可以扩大利用我们已有的能力,对第三国,首先是发展中国家的首脑和社会主义各界施加影响,揭露北京领导集团对和平和国际安全事业有害的政策。
我们兄弟党所面临的任务依然是,坚决地彻底地揭露中国领导集团在国内和国际上的反社会主义立场,戳穿毛主义分子在思想和政治上的破坏行为。
《俄国档案原文复印件汇编:中苏关系》第18卷,第4579—4589页
№13723 葛罗米柯与卡特谈话记录:美中关系正常化等问题(1977年9月23日)
绝密
葛罗米柯与美国总统卡特的会谈记录
1977年9月23日,华盛顿
卡特:很高兴在这里、白宫会见您。感到很荣幸。
葛罗米柯:很高兴认识您,总统先生,很高兴就双方都感兴趣的一些问题进行会谈。
想借此机会转达勃列日涅夫和苏联领导人对您的问候和最美好的祝愿。
卡特:谢谢您。请您回国后代我向勃列日涅夫转达最诚挚的问候和最美好的祝愿。
在此次会谈中我首先想从总体上阐述一下我个人对美苏关系问题的看法。然后,如果您愿意的话,可以对我的这些谈话做出回应,而后可以更加详细地讨论一些具体问题。
…… [22]
卡特:我们打算经常向你们提供关于近东事件的发展以及与我们保持正常联系的国家的立场的情报。同时,我本人也希望,您也同样向我们提供包括巴勒斯坦解放组织在内的情报。
另一个同样引起我们不安的地区是朝鲜。我们希望南北朝鲜能兄弟般的和平相处。美利坚合众国打算在4—5年的时间内从南朝鲜撤出美国军队。但即便如此,我们仍应使南朝鲜处在我国的国防保障之下。
不久前,北朝鲜进入50海里海洋边界线引起了我们的担忧。我们也希望苏联能够促使北朝鲜表现出必要的审慎,以防止在这一地区出现不必要的紧张。
简单谈一下有关美国与中国关系。我们正努力使中美关系正常化,这并不是打算与它结成一个旨在反对苏联的同盟,而是为了巩固和平,并发展同这个国家的贸易关系及其他方面的关系。我们希望中国与台湾的相互关系能够走和平的道路,而不想拒绝自己在保障台湾和平生活方面的责任。
最近几年,苏联与我们的一些西欧盟国的关系有了改善,我们希望……
……到戴维营,会谈我们感兴趣的一些问题。
但是到此我希望,我们能一起在使我们感兴趣的问题的解决上取得前进,这样的前进可以向全世界展示我们在不断改善相互关系方面的努力。关于这一点,我公开地说过,并以此来表达对勃列日涅夫在出席舞会时的公开回应的感谢。
美国人民努力争取同苏联的合作和伙伴关系。我希望,作为我们国家的政治领导人的我和作为苏联领导人的勃列日涅夫不要在我们的人民所努力遵循的道路上设置障碍。我也希望我们今天的会面对于这个计划是有益而又有建设性的。
葛罗米柯:我认真地听了您的发言,其中触及了一系列有关我们两国关系的问题。我想从我这一方面阐述对您所提及的问题的看法,也可能谈到一些别的内容。
首先我想强调,所有的苏联领导人,包括勃列日涅夫本人,以及我国的全体人民都希望同美国保持友好的关系。我要强调的是,不仅仅保持务实的、正常的关系,而是保持友好的关系。我想,你们从勃列日涅夫的言谈中也能得出这一结论。其中包括你们在查尔斯顿会谈之后……
现在谈一下关于中国的问题。就对国际形势的看法而言,同样也是从美国(当然也包括苏联)的广泛利益来讲,如果美国和中国之间公开的或秘密地串通起来搞什么肮脏的游戏,并且旨在反对苏联及其利益,那么将是一个重大的错误,我们认为在此强调指出这一点是完全正确的。要知道,迟早这都会因其适当的后果而为人们所知,其中当然也包括从美苏关系的角度出发。应该寄希望于美国不要在用中国牌反对苏联利益的游戏中玩得入迷。在更早些时候,前几届美国政府时,向我们保证美国并没有那样的打算。让我们一起拭目以待,这一切将如何实施将如何变化的吧。
现在,中国和美国的关系带有正常甚至是友善的性质,而同时,中国与我们的关系则变得紧张。我们不反对在美中之间存在正常的关系。但请看一下,它们似乎已经将你们拉入到肮脏而对我们两国又是危险的活动当中。要知道我们和中国在当时也曾保持着好的关系。如果中国人能够使美国和苏联发生争吵,那么它们很乐意隔岸观火,并从中获得利益。那么这对美国是好还是坏呢?……我们现在没有可以透过它就看到未来的“魔幻镜”,但是历史会教会历史学家很多东西。无论怎样,它是教会了我们许多东西,而且美国人都应学会这些东西。
您提到了印度洋问题。当然,如果我们之间就相关问题能够达成协议是十分好的。客观地说,我们有达成协议的基础,但我们看到的是,你们一直顽固地占据印度洋一个名叫迪耶戈·加拉西亚的悬崖不放。根据我们的想法,这个地方对于美国没有现实的必要性,但这样做却是在侵犯我们的利益。美国方面值得广泛地审视一下这个问题。从我们这方面讲,我们准备坚持在这个问题上的已有看法。
我们现在正同美国就一系列其他问题进行谈判,其中包括合乎专家工作组所提出的、标准的军备限制问题。我们将继续这些谈判,并且相信他们将取得良好的结局。
关于核武器的不扩散问题,我们的利益实质上是一致的。如果这个问题在将来不能得到有效地解决,我们也同样会面临巨大的危险。事实就是如此,南非正一步步的发展自己的核武器,还有一些国家十分接近了成功研制核武器的目标。美国和苏联最好在切实防止核武器扩散方面采取更坚决的措施,我们正在为此而准备。
现在,说一说您提到的关于您和勃列日涅夫的会面的问题。勃列日涅夫和苏联领导人完全不反对这样一次会晤。我们认为,如果经过精心准备,这次会晤将取得巨大的政治成果,那么这次会晤就会成为重要的分界线。在这一点上,如我们所想,它也会极大地引起美国的兴趣。但同时,如果只是为了会面而会面,如果这是那种使我们的关系出现倒退的会晤,那就未必能给谁带来利益。
大概这与您刚才所讲的是一致的。
卡特:我简单地评述一下您的意见。我们对苏联的态度是一贯的。我们这一方面没有一句指向苏联或勃列日涅夫的批评。但同时,在苏联的报刊上却一直有针对我本人的批评。最近这样的批评明显地减少了,为此我表示感谢。问题在于,那种批评会在我国民众中引起严重的忧虑,所以我希望在将来它不会再出现。
我想继续强调一下,我深信,在平和的气氛中,我们可以解决一切顽固的问题。在此基础上,我们两国可以维持具有建设性的友好关系,并且没有公开的争论。我希望苏美关系在未来会不断得到改善。
……
我想,您所公开表现出的对我国人民的人权事业状况的担忧,同样也是我国对于解决这一问题的普遍担忧,有可能促进我们两国人权事业的发展。在这一问题上,我希望两国表现出必要的慎重,并且希望,您能尽量避免您在美国所公开表达的、对我国这一问题担忧导致两国关系的恶化。就像我所说过的,我希望我们的代表团之间,能够在比较和谐的情况下,沟通关于贝尔格莱德的情报。
关于中国,我们任何时候都不会允许我们同中国的关系成为苏美关系的障碍。我们从没有也不会有任何秘密或公开地勾结中国来反对苏联。我们也将很快放弃那些为达到类似目的而改善同中国关系的尝试。
……
《俄国档案原文复印件汇编:中苏关系》第18卷,第4572—4578页
1978年
№13724 苏共中央政治局会议记录:勃列日涅夫谈国际局势(1978年6月8日)
绝密
第107号记录第3项
送勃列日涅夫、安德罗波夫、格里申、葛罗米柯、基里连科、柯西金、库拉科夫、库纳耶夫、马祖罗夫、佩尔谢、罗曼诺夫、苏斯洛夫、乌斯季诺夫、谢尔比茨基、阿利耶夫、杰米切夫、库兹涅佐夫、马谢罗夫、波诺马廖夫、拉希多夫、索洛缅采夫、契尔年科、多尔基赫、齐米亚宁、卡皮托诺夫、里亚博夫、扎米亚京等同志。
摘自苏共中央政治局1978年6月8日会议第107号记录。
国际局势若干问题:
1.赞同勃列日涅夫同志在中央政治局会议的发言中就这一问题提出的建议(发言的文本附后)。
2.委托苏联外交部、苏联国家安全委员会、苏共中央国际部、苏共中央对外联络部、苏共中央对外政策宣传部考虑到政治局会议上交换的意见,准备材料和文件草案,并提交给苏共中央。
苏共中央政治局
第107号记录第3项附件
Л.И.勃列日涅夫同志在苏共中央政治局会议上就国际关系的一些问题作的发言
同志们,从安德烈·安德烈耶维奇给我们的报告中可以看出,驻美期间,在联合国大会例会上,葛罗米柯同志在与卡特和文斯谈判的过程中以及在双边会谈以及和很多国家的对话中做了大量并且有意义的工作。我想,这些工作是值得称赞的,并应写入我们的决议。
但是,也许不能仅限于此。从葛罗米柯同志的报告以及最近通过各种渠道传递到我们这里的大量的信息中,可以清晰地看到,我们正处于国际关系发展中非常复杂的阶段。局势开始紧张并发生了严重的恶化。而这种恶化的主要来源,是卡特政府对外政策日益发展起来的侵略性,越来越剧烈的反苏情绪反映在总统本人及其最亲近的合作者,首先就是布热津斯基的发言中。
根据所有现象,卡特不只是受到那些最狂妄的反苏分子和美国军工业头目的影响,而是打着反苏政策和回归“冷战”的旗帜,为了要在美国新一任大选中获胜。
美国政府的这种路线,使西方大国在北大西洋公约组织内部、非洲以及在对中国的关系上的政策受到了深刻的影响。
问题出现了,我们该对这一切采取什么态度呢?
我认为,这里不允许消极。为了和平与局势的缓和应该积极并顽强的斗争,应该尽全力阻止那种会引起新的世界革命危险的政策。为了世界和平,这里需要强有力且看得到的“步伐”。
如果具体谈到最近一段时间,我认为,应该做到以下方面。
第一,在我们的出版物(同时在所有重要的报纸)上发表郑重声明,称之为“卡特政府的政策”。不用任何署名发表这个声明——这反倒更会惹人注意。在声明里直截了当地说,美国政府的政策正在发生着威胁和平事业的变化。在谎言和诽谤烟幕下,苏联和其他社会主义国家(似乎)出现了反对和平和缓和的情况。有意地停止了在限制战略武器方面同苏联的谈判。企图粗暴地干涉我们的内政,事实上是要凝固两个国家之间的关系。开始新的军备竞赛的大计划,而10年以后,人民将如何希望裁军。美国现代政策的缔造者们似乎已经与中国领导人在反苏情绪上找到了共同语言,众所周知,他们把和平与缓和解释为欺骗,而战争才是唯一真正的前景。
美国政府成了非洲新殖民主义政策的鼓动者,即武力侵略、公开干涉非洲国家事务,成为对革命自由运动无情镇压的鼓动者。
卡特政府对外政策的所有意向给华盛顿北约委员会的例会工作奠定了基调。带上自己的志同道合者,拉上那些还有些动摇和怀疑的人,给这个集团内部不同意的国家施加压力,美国企图重新唆使它们走上“冷战”道路并积极地为“热战”做准备。
卡特政府现在政策中,所有危险因素应该不需要多余的改写,而是应该清楚地在这个文件中显示。还要让其他国家和美国自己的舆论界知道,卡特、布热津斯基和其他人开始了多么危险的游戏。
结束这篇文章时,要用委婉但清楚的材料证明我们与美利坚合众国在缓和及发展友好互利关系上的方针。
第二,发表华沙条约组织成员国关于北约委员会例会总结的集体声明。注意到要让罗马尼亚人同意的必要性,这个文件要写得并不尖锐,但强调我们政策的积极因素。
遗憾地指出,北大西洋公约组织例会的工作和它的决定,并不是为缓和和稳固世界和平,而是为了紧张国际局势和加强军备竞赛而服务的。增加军费,鼓动北约国家制造中子、化学、生物武器,推动各种形式武器生产的长久计划——这就是这次例会的真正目的所在。
华沙条约组织国家谴责这种政策,并相信,其他国家的人民也会对其进行谴责。有人要把越来越广泛的军备竞赛强加在我们身上,而我们坚决支持遏制军备竞赛以及在所有大会上关于这些问题的具体的协议。苏联正在做它所能做到的一切,为了与美国在限制战略武器方面成功地缔结和约。社会主义国家有着灵活的立场,在威尼斯谈判上表现出具体且有建设性的主动精神。华沙条约国家坚持严格遵守和平共处的原则,反对干涉其他国家内政,无论是以武力侵略的形式还是以其他形式进行的破坏活动。
结束这个文件,呼吁回到缓和的道路上来,回到相互尊重和互利合作的道路上来,这条道路在赫尔辛基会议的文件中、在苏美以及其他双边签署的文件中、在联合国的很多决议里已经清楚地提到。
第三,发表苏联政府关于非洲事务的特别声明。在这份文件里,坚决驳斥和揭露帝国主义关于苏联和非洲其他社会主义国家,其中包括在非洲的犄角地区——扎伊尔地区的政策的谣言。用简洁并柔和的语调说出它实际上都是些什么。同时强烈谴责以美国为首的北约国家靠武力侵略、破坏活动以及其他形式干涉非洲事务的政策。指出,现代的这些新殖民主义者,如何利用“团结非洲”的口号在非洲为自己招募帮凶,即那些实行反动的、反人民政策的领导人。表明我们的自信,占上风的是非洲真正的团结,即非洲所有独立国家和热爱自由的人民的一致意愿,坚持自己国家的独立性和内部的自由发展的决心。
就是这样3个文件,我想,可以在近期准备并发表它们。当然,一天做不完这件事,应该很好地分配时间。
同时,还可以为我们正在发展中的以及其他或多或少独立的非洲国家的大使准备好指示,以便与他们的领导层开展相应的工作。
我刚才提到的那些文件的精神,当然,也可以通过其他渠道来展开工作,比如通过与兄弟党的联系、在国际社会组织的框架内开展工作等。
至于联合国大会例会在裁军方面的工作,看来还需要在我们的报刊上继续表明苏联的立场。同时支持健康的、有建设性的、已经在联合国大会工作中出现的和即将出现的一切行动,以揭穿反裁军者的阴谋。
如果同志们同意,可以把我以上提到的材料的准备工作交给外交部以及中央委员会有关部门(国际部、联络部和对外政策宣传部)负责。
附文件委托苏联外交部、苏联国家安全委员会、苏共中央国际部、苏共中央联络部、苏共中央对外政策宣传部准备相关材料和文件提纲,要考虑到这次政治局会议交换的意见,同时提交苏共中央委员会。
《俄国档案原文复印件汇编:中苏关系》第18卷,第4590—4597页
№10422 苏共中央书记处会议记录:批准联络部反击中国领土要求的措施(1978年6月13日)
绝密
摘自苏共中央书记处1978年6月13日会议记录
关于揭露中国伪造历史和反击北京对苏联领土要求的措施。
同意苏共中央联络部1978年6月7日报告中所陈述的意见(见附件)。
中央书记处
附件:
机密
苏联共产党中央委员会关于揭露中国伪造历史和反击北京对苏联领土要求的措施
中国领导人为了执行反苏路线,正在扩大思想上和政治上对我国攻击的范围。最近,中国宣传机构开始特别注重伪造苏联和中华人民共和国的历史。这类出版物急剧增加,其目的在于污蔑苏维埃国家的内政和外交政策,破坏苏联各民族的统一和团结,燃起民族主义和反俄罗斯的情绪。这就证明,北京对苏联领土要求的企图正在不断加强,而且挑拨苏联其他邻国也提出同样的要求。
不久以前,中国出版了这样一些书籍和小册子,如《批判苏联修正主义的历史学观点》、《中国东北各民族反对俄罗斯侵略斗争史》、《苏联——各民族的监狱》等,宣布要出版两卷集的《沙俄侵华史》,在中央和地方报刊上经常刊载上述问题的文章。
在中国,积极参加反苏材料准备工作的不仅有政府机关和宣传机构,而且还有学术组织,包括不久前成立的中华人民共和国社会科学院、数十所研究所和大学。它们都出版了对苏联充满敌意的有关历史、地图和考古等等问题方面的出版物。在“文化大革命”时期被解职靠边站的经验丰富的资深的学者,现在也参加到这个活动中来了。在他们的参与下,详尽地研究了苏联和国外的文献,使历史资料适应北京现行政策的任务,用有倾向性选择的马列主义经典著作中的语录,来硬套毛泽东的论点。
在历史学家的帮助下,中国的宣传机构伪造苏联历史学的主要观点,伪造俄罗斯作为多民族国家的形成史、中俄两国国际关系史和苏中边界的形成史,伪造俄国在巴尔干、外高加索和中亚细亚的外交政策,伪造俄罗斯的陆海军史,等等。在这种情况下,把俄罗斯硬说成是自古以来就是扩张主义侵略成性的,从而企图证明苏联“继承了”沙皇俄国的政策。
实质上,这里所指的是反苏意识形态运动新阶段的开始。这场运动同中国对苏联领土要求相联系,其目的在于反对我国领土和国家完整的根本利益。中国关于历史问题的出版物,也是现今北京领导人论证其以封建的和国民党中国的反动传统和观点为基础的大国沙文主义和扩张意图的重要工具,对邻国其中包括苏联施加政治压力的工具。在这些出版物中,妄图伪造中国和组成中华人民共和国的各民族的历史,千方百计地粉饰中国帝王和满清皇帝的侵略政策。实质上,当代中国的历史文献和根据它的宣传,是以大国沙文主义和种族主义的精神蒙蔽中国人民,其目的是为让中国人民去进行军事冒险作思想准备。
中国宣传机构大量发行歪曲苏中历史的著作,其中包括外文著作,企图在对自己有利的方面影响国际舆论。在这种宣传的影响下,某些外国汉学家,甚至没有掌握足够的真实资料的社会主义国家的某些学者经常上当。
在苏联,根据苏共中央的决议,科学机构,首先是苏联科学院远东研究所准备了一系列著作。这些著作有助于在科学上和政治上维护我们的立场,并揭露毛的历史伪造。但是,其中大部分都是内部发行,而公开出版的有关上述问题的个别基础研究和论文,由于印数有限(2万—3万册),而且一般没有译成外文,因而,广大世界舆论界无从知晓。与此同时,苏联驻中华人民共和国大使馆和我国驻其他国家的代表处的建议证明,有出版和传播这些著作的迫切需要。
我们认为,同意所附关于揭露中国伪造历史和反击北京对苏联领土要求的措施的计划是适宜的。计划规定:
用主要外文编写和出版大量科普小册子,来表明中国领土和边界形成的真正历史,来论证和具有说服力地证明北京领导人陷得很深的对领土要求的缺乏根据和危险性。
用主要外文出版近年来苏联已出版的,苏联学者撰写的关于中国历史的某些重要著作;关于中国边界和中国国家形成的问题,要在我国期刊上发表一系列文章,并以主要外文出版以前在苏联刊物上发表过的文章的论文集。
在苏联科学院系统实施旨在更深入研究苏联和中华人民共和国历史的现实问题的措施,以抵制中国宣传机构对历史的伪造。
在阐述关于苏中边界形成问题时,首先要将重点放在,它是有19世纪到20世纪初签订的一系列条约、协定和其他文件的结实的条约——法律基础的。现行的边界再一次地为在伟大的十月社会主义革命后成立的苏维埃社会主义共和国联盟的前俄罗斯各族人民民意所固定。
苏共中央联络部
1978年6月7日
附件:
机密
关于揭露中国伪造历史和反击北京对苏联领土要求的措施计划
1.苏联科学院应配合苏联外交部和苏共中央联络部,在苏联科学院远东研究所内部出版的专著《中国边界的形成》的基础上,编写一本篇幅5—7印张,供国外广大公众阅读的科普小册子。
新闻社应用英文、法文和西班牙文出版此书,并在国外广泛传播。
2.苏联科学院应配合苏共中央联络部和苏联外交部,准备并由政治书籍出版社出版两本曾在苏联刊物发表过的有关中国国际关系史及其在近代和现代扩张政策的现实问题的文章的论文集。
进步出版社应翻译并出版这些论文集的英文、法文和西班牙文本。
3.进步出版社应翻译并用英文、法文和日文出版经作者适当加工的下列著作:《中国近代史》(科学出版社,莫斯科,1972年版)、《俄中贸易—经济关系史》(科学出版社,莫斯科,1974年版)、《满族人在中国的统治》(科学出版社,莫斯科,1966年版)、《古代和17世纪的中国和邻国》(科学出版社,莫斯科,1970年版)。
4.委托苏联科学院准备并出版《近代和现代的中国及其邻国》论文集,考虑到以后要用主要国家外文出版。
5.全苏版权协会应采取措施,向外国出版社推荐苏联作家关于中国问题的书籍和手稿。
6.《历史问题》、《近现代史》、《远东问题》、《亚非人民》、《苏联历史》和《苏联民族学》杂志应定期发表关于中国边界形成问题,中国皇帝和中华人民共和国领导人的扩张政策及其对邻国的领土要求的文章。同时,要特别注意马列主义经典作家对中国封建制度和清帝国的评论,并且揭露毛泽东“历史”观的反马克思列宁主义的沙文主义本质。
7.苏联科学院应详细制订出旨在反对毛分子在历史学领域伪造的措施的远景规划,并将苏联科学院和加盟共和国科学院的各研究所的研究成果和出版物考虑在内。计划中规定以下主要科研方向:中国历代皇帝的扩张政策;中国国家的形成问题;从俄中边界划分来看亚洲和远东各民族的民族学和历史;俄罗斯人的地理发现和西伯利亚、中亚细亚和远东的开发;从国际法观点看俄中关系中的边界问题;中国非汉民族的民族解放斗争。
苏联科学院应同蒙古人民共和国科学院和其他社会主义国家科学院合作制订一项计划,共同研究相应地区同中国的相互关系有联系的个别历史问题。
关于此项工作进展情况,苏联科学院应于1978年12月15日以前呈报苏共中央。
8.苏联科学院应同苏共中央社会科学院以及各加盟共和国科学院在1978年12月举行一次研讨会,讨论在历史学领域同毛分子伪造历史斗争的现实问题,邀请一系列社会主义国家学者参加会议。
9.委托苏联科学院协同苏联外交部共同准备一份关于现代中国领土和中国同周边国家边界形成问题的历史资料,以供苏共党员积极分子了解情况和对访问苏联的兄弟党和友好国家代表团进行工作之用。
10.苏联部长会议国家电影业委员会应准备一系列关于苏联远东地区的纪录片和故事片,并伴以旁白说明其开发和发展的历史,苏联部长会议广播电视委员会应组织在中央电视台放映和在国外推广这些电影。
ЦХСД,ф.4,оп.24,д.694,л.81-86
1979年
№06018 马纳索夫同李善一谈话记录:关于中苏同盟条约续签问题(1979年4月10日)
机密
文本第3份
摘自М.А.马纳索夫的工作日记
1979年4月24日
第214号
与中华人民共和国驻古巴大使李善一的谈话记录
1979年4月10日
应大使的请求接见了他。他说,由于完成了自己的使命,特前来辞行,并对苏联大使馆领事司参赞们尽快满足了中华人民共和国大使馆的来访请求表示谢意。
李善一通报说,他打算在回北京途经莫斯科时,作为中国驻苏联大使的客人在那里逗留几天。
中华人民共和国驻古巴大使馆临时代办由大使馆一等秘书担任,李善一说,新大使的任命尚未得到驻在国政府的同意。
在谈话过程中他谈到了中国国内形势问题。用大使的话说,“四人帮”给国家的社会经济发展造成重大损失。他接着说,最近一个时期以来,中共中央采取了一些改善居民生活水平的措施,其中包括提高公社农产品的收购价格;工人的工资有所增加;城市中开始建筑住宅;大、中、小学的教学大纲得到调整。这时(这位)中国人指出,国家边境地区职工的工资比其他地方的高。大使认定,从1959年起,中国食品的价格一直未变。他说,提高生活水平的措施受到国内居民的热烈欢迎。
大使说,目前注意力主要集中到工业、农业现代化和发展科学上面。
我向大使介绍了苏联社会经济发展情况。他兴致勃勃地倾听我的讲话后说:“我们是邻居,我们有漫长的共同边界,有苏联和中华人民共和国共同使用的河流。一些民族居住在边界两侧——这些都是睦邻友好的客观因素。”
在回答“您如何评价中华人民共和国政府不延长友好同盟互助条约的决定”的问题时,大使没有直接回答,而是引用中华人民共和国外交部声明,即鉴于国际形势发生了重大变化,没有必要将该条约延期。
我向大使阐述了人所共知的苏联政府声明的内容。
李善一聚精会神地倾听我的话后,改换了话题,并开始对苏联古巴合作现状,特别是外贸总额及古巴购买苏联石油和古巴向苏联出售糖的价格感兴趣。这时,李善一显示出消息灵通,熟悉情况。我在众所周知的数据资料范围内回答了他的问题。
大使问:“古巴在苏联的帮助下建了许多企业吧?”我回答说,这要比我们在中国建的200个工业企业和其他企业少得多,然后列举了一些出名的苏古合作项目。
他对古巴工业、农业(包括畜牧业)的发展颇感兴趣。我对他说,这些问题的答案均包括在何塞·马蒂计划委员会主席乌·佩雷斯在全国人民政权代表大会会议的讲话中以及他在不久前答《流浪者》杂志记者问中。
大使自己提议,谈谈中国的外交政策,他说,在这方面取得了很大成就:同日本签订了和约,发展了同美国及其他国家的外交关系。针对我提出的关于中日条约性质的意见,大使说:“该文件并不是针对第三国的。”
他回避了有关越南的话题,仅限于指出不久将在河内开始谈判,在谈判过程中将解决一些有争议的问题。
告别时大使说:“我们两国之间保持着正常的外交关系,进行着贸易,有定期的铁路和空中联系,但是在政治原则问题上存在着应当解决的分歧。中华人民共和国和苏联是两个伟大的邻邦,理应和睦友好相处,我想将来会实现的。”
苏联驻古巴共和国临时代办
М.马纳索夫(签名)
《俄国档案原文复印件汇编:中苏关系》第18卷,第4603—4605页
№06039 苏共中央政治局会议记录:关于中苏谈判的情况(1979年10月11日以后)
第11项 关于苏联与中国谈判的过程。
苏斯洛夫:昨天举行了首次全体会议。伊利切夫同志的记录已分发了,让我们听听他的讲话。
伊利切夫:遵照指示,苏联代表团提出“关于苏维埃社会主义共和国联盟与中华人民共和国之间相互关系原则的宣言”草案,供研究。根据该宣言,我们发言阐述通过该宣言的必要性,即该宣言可以使苏中两国关系正常化,恢复苏中两国的睦邻友好关系。这完全符合苏共中央和苏联政府对华关系的原则和一贯的方针。中国代表团团长作了内容广泛的发言,发言中毫不掩饰地提出了众所周知的中国方面的先决条件。这些条件如下…… [23]
《俄国档案原文复印件汇编:中苏关系》第20卷,第1005—1006页
1980年
№13725 苏共中央政治局会议记录:关于批评中美合作致驻联邦德国大使电(1980年2月1日)
绝密
第П182/2号
送勃列日涅夫、苏斯洛夫、安德罗波夫、葛罗米柯、基里连科、佩尔谢、波诺马廖夫、齐米亚宁、扎米亚京、鲁萨科夫等同志
摘自苏共中央政治局1980年2月1日会议第182号记录
第2项 关于给社会主义国际联盟主席В.勃兰特和芬兰社会民主党主席К.索尔萨的材料。
1.批准给苏联驻联邦德国大使的电文(附录一)。
2.批准转交给索尔萨的材料(附录二)。 [24]
中央委员会书记
附件:
第182号记录第2项
机密
附录一
波恩
苏联大使:
单独和勃兰特会面,告诉他,由于国际局势的复杂你奉命通知他几点意见并陈述下文。
最近,特别是由于北约12月会议决议引发了一些使国际局势急剧复杂的事件。
可能,你们和我们观察问题的方式并不一样,但不管怎样,在目前的局势下,看来需要来自第一手的关于看法和打算的准确材料。重要的是在于找到一种解决长期以来成为贵我双方共同关注的问题——即如何巩固国际安全问题的共同语言。
我们对当前国际局势的总评价和我们准备执行的路线,您已从今年1月13日刊登的勃列日涅夫同志答《真理报》记者问中了解了。这个文件反映了苏共中央委员会的原则立场,也是我们将来的出发点。
在此想把我们对几个具体问题的观点通知您。
关于“卡特主义”。苏联方面对它的总评价在今年1月29日的《真理报》刊登的文章中已经公布。我们认为,在您所知道的美国总统讲话中所阐述的纲领集中地反映了美国行政当局的方针。这一方针不是今天由于阿富汗事件才实行,而是很久以前就暴露出来了。
第一个事实。1978年5月,在纽约联合国大会专门会议上讨论了严峻的裁军问题,并且苏联所提出的详细行动纲领备受关注。
但当时在华盛顿召开的北约高层会议通过了一个为期10—15年的军备竞赛的“长期纲领”。那时卡特总统宣布了北约行动全球化的主张,把这一军事集团的“责任范围”扩张到更广泛的,远远超出北大西洋公约组织创建条约所规定的范围。实际上北约开始赋予自己军事干涉的权利,包括在非洲(请回忆在扎伊尔发生的事件)。最终,美国官方公开宣布自己利益、北约利益和中国的利益之间存在着联系。而众所周知中国公开反对缓和、公开反对巩固和平。
第二个事实。半年多之前,卡特总统签署了战略防御武器第二号协议,并谈论过它的巨大意义。然而美国行政当局还在去年就破坏了协议的批准。
第三个事实。去年秋天,美国政府以“苏军在古巴”为借口积极参与了组织一场挑拨离间性活动的喧嚣。为了煽起军国主义的热情,更加鼓噪起“苏联威胁”的神话,增加批准战略防御武器第二号协议的难度,并证明新的用于加强美国帝国主义霸权主义潜力的措施是正确的,需要这种古巴的“小危机”。这是现在围绕阿富汗事件而掀起的、鼓噪的独特预演。
第四个事实。去年10月、11月勃列日涅夫同志提出了欧洲军事缓和的总纲领,呼吁立即进行谈判,苏联同时也开始采取您所知道的旨在减少欧洲军事对抗的单方面行动。
苏联坚持倡议,在美国通过新的导弹决定之前就减少欧洲的中程核武器进行谈判。
而美国的回答如何呢?美国行政当局几乎是通过向其盟国施压的方式,达到了使北约12月会议通过在欧洲生产和部署新的导弹核武器决定的目的。这实质上是增加了美国原已部署的,旨在针对苏联的先进武器。
第五个事实。在北约会议后,卡特总统不顾那里发出的要求——降低欧洲军事对峙水平的呼声,立即通过国会实行了一项自动增强军备竞赛的五年纲领。
第六个事实。就在今年,卡特总统以阿富汗事件为借口,采取了恶化苏美关系的粗暴措施,甚至对苏联实行所谓的经济制裁。战略武器防御第二号协议被撤销审议,它的批准被无限期推迟。
这之后提出了“卡特主义”。
其中包括了,最近几年来美国行政当局所采取的使军备竞赛升级以及加剧国际紧张局势的措施。所谈论的是企图重建“冷战”时期的思维——“遏制”和“打退”社会主义,“在战争边缘搞平衡”。
在与社会主义联盟工人小组会见时,曾谈论过卡特总统正在把事情引向何方,现在这已被完全证实。这里所谈的,的确是最近10年来人们所做的,通过有自由意志人们的努力所做的,包括社会民主主义者所做的一切已被摧毁。
在这种局势下,必须证明缓和政策是正确的。现在重要的是“保持冷静的头脑,继续进行谈判”,“神经质不能代替理智的政策”,“必须避免与事件本质不相符并因此可能使局势更加恶化的不理智的过大的反应”,这些见解具有重要意义。
我们的立场是,要认真、负责、坚决地捍卫和平共处原则,及一切在缓和过程中取得的发展国家间正常、互利关系的积极成果。
关于阿富汗事件。我们希望,您能不要带着美国行政当局所特有的偏见和神经质去观察。
我们认为,把下列材料通知您会是有益的。
事实上,在1978年反对阿富汗的四月革命后,很快就发生了一场真正的“不宣而战的战争”。由中央情报局和北京的金钱装备起来的雇佣兵匪徒,直接以武力威胁着这个国家的和平居民。巴基斯坦成了这一战争的主要基地,在这里建立了20多个基地和50多个据点。在这些基地和据点中,在美国、北京、巴基斯坦和埃及教官的领导下,培训恐怖分子和军队。仅从1978年7月到1979年11月,就培训了15000多人。他们被美式和中式武器装备起来,然后送到阿富汗。同时毫不隐瞒其目的,就是要消灭四月革命,重建反人民的秩序,把阿富汗变成侵略与其有着2000公里边界的苏联的基地。
如事实所证明的那样,与中央情报局有密切联系的阿富汗前领导人阿明,迎合了这些计划。在与侨居外国的领袖建立联系后,阿明准备了一场反革命的政变,以空前的规模镇压诚实的爱国者。夺取政权后,阿明从肉体上消灭了阿富汗民主共和国总统——反对阿富汗专制的老战士塔拉基。以卡尔迈勒为首的阿富汗政府,像塔拉基一样,重新转向苏联寻求帮助。
应阿富汗政府帮助其进行反对华盛顿和北京所煽动的武装干涉行动的邀请,我们根据1978年签署的苏阿友好、睦邻、合作条约第四条的规定采取了行动。我们的帮助完全符合联合国宪章第51条,它规定任何国家都有积极的自卫权,即为了反对侵略,有权请求任何国家的援助。我们再次强调,在阿富汗事件中存在过并继续存在着外来的侵略,这种侵略的形式根据联合国大会第二十四次会议的规定,就是“由国家或以国家的名义秘密派遣武装匪帮、小组和正规力量或者雇佣兵以武力反对另外一个国家”。
为了履行自己的条约义务,我们必须保卫阿富汗的民族主权不受外来侵略。进一步说,当看到美国企图在中国的帮助下,在我们的南部边界建立新的危险的军事战略基地时,我们不能袖手旁观。
我们想强调,我们的行动丝毫也不触动美国或任何他国的真正民族利益。我们在阿富汗、伊朗、巴基斯坦没有任何扩张计划。我们拒绝类似说我们的目的是要通向“温暖海域”或“控制石油产地”的恶毒诽谤。只要引起阿富汗政权请求苏联出兵的原因消失,苏军就将撤出。
现在,华盛顿和北京对阿富汗事务的武装干涉绝没有停止。华盛顿公开扩大向所谓的起义者提供武器。如同中国外交部长黄华访问所证明的,北京并不落后于华盛顿。黄华向雇佣军的头目保证,中国将向他们提供“无限制”的帮助和支持。
华盛顿和北京竭力使一些阿拉伯国家(埃及、沙特阿拉伯和其他国家)参加反对阿富汗的侵略行动。这样,正是华盛顿和北京,把事情发展到使近东成为国际紧张局势的危险策源地的地步。
同时,高谈阔论什么我们武装侵占阿富汗或者说苏联篡夺了阿富汗的主权,完全是胡说八道。所有在这时到过阿富汗的人,其中包括西方新闻报刊的记者们,都承认那里的局势是正常的。以巴布拉克·卡尔迈勒为首的阿富汗新领导,在努力消除阿明政策后果重新恢复民主自由的同时,从监狱中释放了政治犯、知识界和宗教界领袖。虽然坦率地讲,在东南部和东部省份,恐怖分子仍在活动,局势依然紧张,但和游牧居民、穆斯林僧侣的关系得到了改善。
阿富汗政府宣布,坚决遵循各民族间和平、友好和不结盟政策,并用实际行动证明了这一点。为了与邻国在和平共处和互不干涉内部事务的原则基础上建立正常的关系,它采取了一切措施。关于阿富汗的事情就是如此。
关于我们对北约12月会议的态度。我们对其结局的原则性看法您是知道的。还有几点补充意见。
众所周知,苏联不止一次地警告过,如果北约在12月通过决议,这就将破坏谈判的基础。在北约决议已存在的时候,我们同意谈判,就意味着在美国全力制造新的导弹核武器系统的同时仅进行限制苏联防御潜力的谈判。
北约会议公报以尖锐的形式提出了,仅就美苏地面战术中程导弹核武器系统进行谈判的条件。尤其是美国的一切其他先进武器、西欧其他国家的核军火库,也就是一切与苏联中程导弹相对抗的核武器都被排除在谈判之外,并处于不受侵犯的地位。要求苏联急剧减少其现存的防御武器,同时又保存北约一切已有的、强大的、旨在反对苏联及其盟国的核潜力。不久前,勃列日涅夫同志在对《真理报》发表的谈话中指出,“北约国家现在的立场,使得就此问题进行谈判成为不可能”。同时,勃列日涅夫强调“我们拥护谈判,但我们拥护的是在遵守同等安全原则基础上的诚恳的、平等的谈判”。
关于我们进一步的打算。
很显然,卡特和布热津斯基指望威胁苏联,孤立我国,并在可能的地方制造困难。这一路线注定要失败。因为威胁苏联、动摇它的坚定性是不可能的。
在这种复杂的局势中,苏共领导并没打算实行“以强硬对强硬”的路线,以后我们也将表现出最大限度的冷静和理智。我们采取了一切必要的措施,不让卡特行政当局把我们拖入对抗,拖入破坏缓和的事件中来。我们不会像美国行政当局一样,采取使国际局势更加紧张,并对“冷战”同盟者有利的仓促行动。
美国方面忘了基本的忍耐和理智,使事情的发展破坏了最近几年才艰难地调整好的国家关系。并且毫无疑问的是,卡特行政当局竭力破坏西欧国家和苏联的关系,要求这些国家支持美国的危险路线,使自己屈从于华盛顿认为需要的那种政策。
鉴于目前欧安会代表在马德里举行的会晤,同时华约组织国家关于召开军事缓和及裁军会议的建议正在实现,可以取得许多积极的建设性的成果。
总之,在复杂的国际局势日益严峻的形势下,我们认为制止华盛顿行政当局所推动的危险的继续发展是有可能的。
所有这一切情况都要求一切珍视缓和与和平的人们作出共同的努力。
在莫斯科,人们怀着温暖的心情回忆着和您在苏联会晤的益处,认为这些会晤是有益的。
如果勃兰特要文件,请把德文译本留给他。
《俄国档案原文复印件汇编:中苏关系》第18卷,第4606—4616页
№16687 苏共中央政治局会议记录:关于揭露中国亲美方针的指示(1980年5月8日)
绝密
第П195/56号
送勃列日涅夫、苏斯洛夫、安德罗波夫、葛罗米柯、基里连科、乌斯季诺夫、波诺马廖夫、鲁萨科夫、扎米亚京、斯米尔秋科夫等同志。
摘自苏共中央政治局1980年5月8日会议第195号记录
第56项 关于揭露北京亲帝国主义方针的工作给苏联驻发展中国家大使的指示。
批准给苏联大使指示的草案(附录)。
中央委员会书记
附件:
第195号记录第56项
机密
亚的斯亚贝巴、亚丁(及吉布提)、阿克拉、阿尔及尔、安曼、安卡拉、塔那那利佛、巴格达、巴马科、曼谷、贝鲁特、比绍、布拉柴维尔(以及利伯维尔)、布琼布拉(及基加利)、达喀尔(及班珠尔)、达卡、大马士革、达累斯萨拉姆、德里、雅加达、乔治敦、伊斯兰堡、喀布尔、开罗、加拉加斯(及西班牙港)、加德满都、金沙萨、金斯敦、科伦坡、科纳克里、科托努、吉隆坡、拉各斯、洛美、罗安达、卢萨克、马拉博、马那瓜、马尼拉、马普托、墨西哥、摩加迪沙、蒙罗维亚、内罗毕、尼亚美、尼科西亚、努阿克肖特、普拉亚、路易港、拉巴特、仰光、萨那、圣约瑟、新加坡、德黑兰、的黎波里、突尼斯、瓦加杜吉、弗里敦、喀土穆、科威特、雅温得(及圣多美)
苏联大使
副本送:波恩、华盛顿、伦敦、巴黎、北京——苏联大使,维也纳、日内瓦、纽约、巴黎——苏联代表
近来,北京对外政策中危及和平事业的趋势在加强。它积极推行自己的霸权主义阴谋,奉行刺激军备竞赛、激化国际局势的方针,同时把越来越大的赌注放在同美国和其他帝国主义强国的政治、经济和军事结伴上。
北京和华盛顿在国际舞台上扩大着的相互配合,中国实际变成美帝国主义在世界事务中的同谋者,引起了发展中国家不断增长的不安。它们对中国的对外经济政策,也表现出不满,特别是像北京与跨国垄断集团不断加深的合作,同发展中国家的经贸关系从属于自己自私的政治利益和经济好处,在越来越大的范围内利用国际组织的技术和财政机会,压缩对发展中国家的经济援助这些方面。
在这样的条件下,务必利用现有的可能性来继续揭露当今中国领导的亲帝国主义方针。在同发展中国家的国务活动家、政治活动家、社会活动家、实业界代表的座谈中,请注意下列几点:
1.由于华盛顿政策的侵略性增大以及北京霸权主义意向的活跃,当今国际形势出现了尖锐化,直接涉及发展中国家的利益。中国面对挑起世界不同地区冲突的局势,培植国家和人民之间敌视和不信任的政策,威胁到发展中国家的安全,不把他们的力量和资金放在解决迫切的社会经济问题上。中国领导同美国当局联合行动,或者采取同美国官方的对外政治路线平行的方针,着手试图挑起越南、老挝、柬埔寨同东盟成员国的对立,唆使与毗邻的国家,首先是巴基斯坦反对印度,推进埃以勾结,号召组织广泛干涉、反对阿富汗,竭力使欧洲局势复杂化,推动北约继续进行军备竞赛,使美苏关系尖锐化。
北京同帝国主义联合起来,努力从有利于华盛顿的方面来想象美国的政策,实质上有助于实现美帝国主义的目标(中国领导正面地对待美国在伊朗、阿富汗、尼加拉瓜和萨尔瓦多的行动,正面地对待美国海军增兵印度洋区域和波斯湾以及正面地对待美国在非洲和近东建立新军事基地的计划)。美国也赞成和支持北京反对发展中国家的破坏活动,特别是北京试图在不结盟运动中制造分裂,减弱它的反帝方向,削弱它的战斗性以及在国际事务中的作用。
北京和华盛顿在对最重要国际问题的态度上,对评估世界事件的发展前景上,越来越表现出一致性。领导那个或另一个国家,预言80年代的暗淡局势,在“苏联威胁”的虚假借口下加剧了军备竞赛,进行加强的军事准备。决定中国政策的那些人,对问题的积极调整不感兴趣,因为这与他们在世界不同地区的挑拨离间路线背道而驰,使北京失去玩弄国家间现有矛盾和制造新矛盾的可能性。正因为这样,所以中国领导努力和美国一起,围绕所谓“阿富汗”问题和“柬埔寨”问题制造紧张气氛,将其变成国际生活中经常起作用的“刺激剂”。中国人和美国人一起安排了外面发动的反对阿富汗的侵略行为,将和平事业和阿富汗周围地区的稳定置于威胁之中。
2.中美的“合作”,如今不仅包括政治和外交领域,而且包括军事领域(特别是华盛顿关于向中国提供美国军事装备的决定证明了这一点)。这种“合作”的加深,会给国际和平造成严重危险。中国一方面接上美国在中近东、南亚和东亚的战略,另一方面又为了自己的目的而竭力利用美国的政策,做到用“别人的手”来实现自己的霸权主义计划。中国政策的危险性之所以加深,是由于北京把自己的算盘和两体系发生军事冲突的可能性联系在一起了。
随着中美步步接近规模的扩大,加强了导致国际局势不稳定的趋势。这种在中国领导看来有利的形势,他可用于强化自己政策的侵略性。如果今天在华盛顿的教唆下,北京试图威胁越南、阿富汗和其他一系列亚洲国家,那么明天范围还要波及大的亚洲国家,要是谁的对外政策可能被北京认为不合意,就会成为它从事敌对活动的对象。
现在,北京和华盛顿的接近,已经对许多发展中国家的相互关系(越南与东盟国家,阿富汗与巴基斯坦,巴基斯坦与印度,泰国与柬埔寨,索马里与埃塞俄比亚)产生了负面影响。中国的挑拨离间恶化了这些国家间的关系,为帝国主义干涉这些国家的内部事务制造了土壤,不言而喻,这会大大损害发展中国家的利益。对考虑到政治或经济利益而处于中国影响下的那些国家,中国和美国的互动特别危险。将这些国家吸引到中国政策的轨道上,意味着他们在政治、经济和其他领域的机动范围缩小了。
3.与谴责国际关系中霸权主义政策的联合国大会第三十四次会议上通过的决议背道而驰,北京与华盛顿在声明自己平行战略利益的同时,试图在国际舞台上表现出协同一致的立场,以达到自己霸权主义的意图,特别是为了建立世界不同地区自己的影响范围。至于北京所宣传的“反霸权主义”提法,它背后掩盖的不是别的,正是力求从帝国主义伙伴那里得到承认中国的影响范围,首先是东南亚的权利。中国和美国为自己获取宪兵职能,有权“惩罚”主权国家,利用政治、经济甚至军事制裁反对它们的企图,创造了国际关系中随心所欲的危险先例。
4.扩大中的中美接近过程,“第三世界”国家的经济利益有负面反映。向北京提供财政和技术援助(到1979年底,资本主义国家放贷总额在280亿美元以上),事实上导致中国变成出口市场上发展中国家的强大竞争者,变成吸收许多发展中国家多么需要的大量资本的巨大财泵(根据西方经济学家的计算,中国为了到2000年实现现代化纲要,可能需资金达3500亿美元)。根据来自西方的数据,中国每年用于军需超过350亿美元,同时竭力获得各种国际组织的援助,损害了许多急需这种援助的国家的利益。例如,据联合国资料,1982—1986年间,中国方面希望援助2亿美元。北京参加国际货币基金组织后,积极努力获得世界银行及与此相关的金融信贷组织的大笔贷款。
北京集中努力建造强大的军工综合体,拒绝向发展中国家提供援助或者缩减援助规模,如果这种援助不带来小算盘估算的政治红利。不仅如此,北京努力利用同它们的经贸关系,以获得购买外国技术和武器所必需的外汇(据现有资料,1970—1978年间,中国靠这种贸易“挣了”60亿以上美元)。
试想一下,北京继续钻进帝国主义和反动派阵营,我们就要把更坚决地对抗中国领导的霸权主义方针问题提到议事日程上来。必须用具体例子指出北京手腕的实质和性质,说明对中国目前政策保持“中立”立场的危险性,强调这样做只会鼓励中国领导进行新的冒险。经验证明,中国通常把破坏活动的矛头指向下列地方:它认为碰到风险较小的地方,爱好和平国家的团结行动将不会与它对立的地方。因此,重要的是回击建立疏远社会主义国家和发展中国家的“中国墙”的计划以及回击使发展中国家脱离其天然同盟者的企图。
发展中国家代表人物中间的解释工作,应考虑到现有特点按计划经常进行,并把所做工作的总结以及所在国政治人物关于中国的最有意义言论通报给中央。
РГАНИ,ф.89,оп.34,д.9,л.1-8
№16688 苏共中央政治局会议记录:关于对抗美中军事合作的指示(1980年10月2日)
绝密 第П217/57号 送勃列日涅夫、苏斯洛夫、柯西金、安德罗波夫、葛罗米柯、基里连科、吉洪诺夫、乌斯季诺夫、波诺马廖夫、鲁萨科夫、扎米亚京、斯米尔秋科夫等同志。
摘自苏共中央政治局1980年10月2日会议第217次记录
第57项 关于为了对抗美中军事合作进行补充工作的指示。
批准给苏联大使和苏联代表指示的草案(附录)。
中央委员会书记
附件:
第217号记录第57项机密
致所有苏联大使和苏联代表:
目前,美帝国主义和北京霸权主义结伴作为世界政治中危害全人类的负面新现象,越来越积极地波及军事领域。华盛顿为了希望把“强大稳定的”中国用于自己的战略利益,扩大了在军事技术方面帮助北京的规模。特别是美国官方同意将可广泛用于军事目的的现代装备和技术供应中国,就是证明。
随着美中军事合作的进一步发展,国际关系中的破坏性因素将有所增加。
根据你们先前得到的指示,考虑到所在国的特点,请继续开展揭露西方侵略集团,首先是美国同中国领导进行中接近的危险性质的工作,并注意下列几点:
1.美国统治集团在发展同中国的军事合作时,希望有可能从“有利”方面影响中国,把中国的政策引入他们能接受的轨道。中华人民共和国的对外政治活动,往往作为国际舞台上的“稳定”因素出现。中国领导人本身不反对随身附和类似的谈话,而且为此目的,不取下“战争不可避免性”的命题,开始利用更灵活的空泛词藻。不过,在假惺惺的“热爱和平”、希望赋予中国对外政策更大“可敬性”的借口下,北京只是希望赢得时间来实现加速武装国家。事实上,中国领导越来越经常使用强制,干涉别国内部事务的政策,担负起不能容忍的“授课”和用武力“惩罚”不听话者的职能。
2.中华人民共和国政府仍像以前一样,避开接受裁军的任何国际法义务,企图贬低该领域所取得结果的意义,拒绝参加限制和中止核武器竞赛的措施。北京着手生产和试验能带核弹头的洲际弹道火箭,进行创制中子武器的工作。所有这一切加速了世界的军备竞赛,直接抵触到缓和紧张性的利益。北京的这条路线,对所有的国家,不管是美国或是日本都带来严重威胁,而不仅仅是对苏联和其他社会主义国家。
3.认为似乎北京宣称的所谓“现代化纲要”是中国克服经济落后的政治新方针的那些人,其理由是完全没有说服力的。事实上,这一方针的任务,首先是促进实现把中国加速变成军事“超级强国”的老计划,而解决提高中国人民极低物质和文化生活水平的极尖锐问题,又被推到无法确定的将来。中国并不掩饰,“现代化”是准备战争的最好方法。事实上,无节制的军事化,促使中国本身的经济衰退,不稳定性增加。这样一来,积极参与中国“现代化”纲要的国家,实际上只是帮助中国增长军事潜力,给中国人民本身帮了倒忙。
另一方面,国家军事化方针,必然产生不可预知的转折和曲折,进一步表现出对外政策的冒险主义,导致国际局势危险的不稳定,给国际紧张性增压。直接或间接促进中国军事化的任何注射剂,特别是美国帮助增加中国的军事潜力,会使中国获得必需的攻击实力,以实现自己的霸权主义图谋。在北京不仅反对巩固和平缓和的所有建设性建议,而且直接挑起国际冲突的条件下,这就意味着发生世界大战的危险性增加,对全人类包括中国和美国人民的威胁增加。
说计划提供给中国的军事装备和技术是“非致命性的”、“防御性的”、“两用的”等言论,都不会改变事物的状态。问题不在于类似的划分是极为有条件的,而在于促进武装力量现代化,会使中国腾出人力和财力来增加主要的攻击实力——导弹核潜力。
4.北京早就深思熟虑的改变全球力量对比、改变目前国际关系整个结构的计划,引起了严重不安。把任何军事技术或装备交给中国,这是破坏世界上已形成的军事战略平衡、新一轮军备竞赛方面的一步。打破军事力量平衡,动摇了关于限制战备武器谈判的基础本身,因为保证各方安全的对等原则是苏美协商好遵循的主要原则。
至于苏联,那么它有一切可能性来捍卫自己的利益,打消对其他国家,也包括中国有打算的兴趣。谁试图把美中关系引向利用中国作为向苏联加压和成为军事对立面的工具的路线,他的算计是短视的。希望把中国的扩张政策转向北方的人,恐怕会大大失算的。鼓励中国增加军事潜力,会加强吸引个别国家进入北京政策轨道的危险性,而将来导致产生这些国家本身可能成为了自己的扩张政策牺牲品的局势。所以站在现实的基础上应该承认,“强大的”中国为了自己的扩张计划而将选择另外的方向:多半是开始吞并邻国,占领对全世界至关重要的地区,而绝对不会作为美国或某个别的国家手中的工具。
5.发展中美之间的军事政治合作引起了许多国家的不安,已导致国际局势的明显恶化,使寻求巩固世界不同地区和平和安全及现实信息系统复杂化了。北京领导指望国与国关系尖锐化,唆使一些国家反对其他国家,挑起军事冲突,从而希望建立有利于实现霸权主义计划的基础。北京没有掩盖使苏联和美国在热核战争中发生直接冲突的目的,北京希望在热核战争的战火中夺取世界统治权。希望有必要“加强”中国的人,打着这样的算盘;北京将陷入与苏联的对立中,陷入亚洲自己的冲突中,所以对西方将不是危险的。但是注意到中国平静不下来的内部政治斗争,谁都不可能担保,5—10年后,北京将不会打反美、反日牌,不会利用自己的洲际弹道导弹反对那些不负责任地姑息和帮助中国重新武装的国家。
历史的经验证明,中国的扩张程度上与中国军队的军事实力成正比。现在,与中国相邻的国家,首先是东南亚国家,他们被中国领导人认作传统的影响范围,已经感受到了中国的直接威胁。当美国及其同盟者帮助中国购买更现代化武器的时候,中国如何对待自己的邻国,是可以很容易想象的。中国试图首先确立对东南亚的控制,并来到马六甲和新加坡海峡沿岸。
在这种条件下,试图闭眼不看中国政策的危险趋势,竭力袖手旁观,只会鼓励北京进行新的冒险,扩大扩张。相反,亚洲国家的集体努力,可作为首先用于反对该地区国家的中国军事实力增长道路上的障碍。
(下段仅用于德里):
(姑息和直接支持美国在中国的军事安排,不会不与印度的利益相矛盾。虽然中国领导也与印度进行关系正常化的谈判,但在中国战略家的军火库中,对这个国家施压的方法仍有一整套。在美中计划中,比以前还要重要的角色给了巴基斯坦,用作向印度施压的杠杆,美国和中国在西南亚侵略行动的立足基地。在同美国的合作中,北京将大批武器发至与印度邻近的国家,借助给军事变态心理气氛增压,试图在政坛上留住像如今巴基斯坦制度这样不受欢迎的制度。中国加速在中印边界上布置兵力,在西藏建设核基地和战略道路,积极支持印度东北部的分裂主义运动,那里事实上在进行一场反对这个国家的“未经宣布的战争”。)
没有疑问,随着军工潜力的增强,中国将走上实现中国领导公开宣布的对东南亚、南亚和西亚邻国领土要求的道路。这不但导致亚洲局势的严重不稳定,而且会在某个阶段引起对其他地区的直接威胁。
在已形成的条件下,苏联不能不做出相应的结论。我们不仅注意地跟踪美中军事领域合作的方向,而且被迫采取必要的措施来巩固我们边界的安全,我们不允许改变军事战略平衡,而向有利于敌视和平事业和力量发展。
(下段仅用于柏林、布达佩斯、华沙、布拉格、索菲亚、乌兰巴托、哈瓦那、河内、万象、金边、喀布尔):
(请通报所在国外交部下列情况:关于进行反对建立美中军事政治同盟对社会主义事业和平和国际紧张局势缓和造成负面后果的工作的指示已发给苏联大使。介绍座谈者熟悉上述指示的内容。)
请和古巴、越南、保加利亚、匈牙利、民主德国、老挝、蒙古、波兰和捷克大使馆(代表处)协调进行自己的工作。
必须注意地跟踪实现扩大美中军事合作计划的所有对外政策步骤,随机应变地经常将这些情况报告中心,并提出相应的建议,以制止我们利益所不希望的趋势。
РГАНИ,ф.89,оп.34,д.10,л.1-8
№25987 苏共中央决议:根据揭露中国特务的材料摄制专题影片(1980年12月15日)
机密
苏共中央决议关于根据揭露中国特务的材料摄制专题影片
1.同意国家安全委员会在1980年12月12日报告中阐述的建议。(附件)
2.责成苏联国家广播电视委员会以国家安全委员会提供的材料为基础,拍摄大型纪录影片,揭露中国特工机关的反苏活动。中央委员会书记
附件:
苏联国家安全委员会
1980年12月12日,第2611-A号
机密
关于根据揭露中国特务的材料摄制专题影片
近几年来,国家安全机构获得了大量关于中国特工机关积极开展反苏活动和向我国派遣间谍的材料。从被揭露的中国间谍那里得到一些证明材料,和借助录影机拍摄到的关于招募他们与中国特工合作,然后派往苏联,向他们部署任务,提出完成任务的方式的类似证明材料。
我们认为责成苏联广播电视委员会以国家安全委员会掌握的现有材料为基础拍摄专题影片,揭露中国特工部门反苏、反社会主义的活动是合适的。
上述影片在政治上的好处是,可以在苏联国内放映,也可以传播到第三个国家,以此来削弱中国特工部门针对我们国家开展秘密活动的积极性,营造对我们有利的国际社会舆论。苏联外交部(В.Ф.马尔采夫)和苏联广播电视委员会(С.Г.拉宾)已同意。
附:苏共中央决议案 [25]
请审阅。
国家安全委员会主席
Ю.安德罗波夫(签名)
РГАНИ,ф.89,оп.43,д.13,л.1-2
№25963 塔斯社记者发自喀布尔的电报:中国人在阿富汗(1982年1月30日)
1982年1月30日,塔斯社
中国人在阿富汗
ВА.喀布尔,1月30日,塔斯社记者拍发
1957年阿中实现了首次高层联系,正是那时表现出一种趋势,即通过承认与巴基斯坦有争端的普什图问题向阿富汗施加压力。那些年,北京领导层已经表现出大国主义和霸权主义倾向,经常强调指出,帕米尔自古以来就是中国领土,在现今地图上,瓦罕地区是作为“丧失”的中国领土标明的。
还是在1957年,中华人民共和国与阿富汗签署了第一份贸易条约,以此为基础,1971年双方又缔结了类似的条约。
1965年8月,中国人向阿富汗提供2800万美元无息贷款,用于建设帕尔旺省的综合灌溉工程、巴格兰纺织工厂、喀布尔养禽厂、贾拉拉巴德养鱼业、喀布尔养蚕业和青金石加工厂。
应该指出,1972年,阿富汗外交部长М.沙菲克访问了北京。由于北京答应向阿富汗提供700万美元的无偿经济援助,两年后双方签署了官方正式条约。
在达乌德时期,阿富汗与中华人民共和国的经贸关系进一步发展。双方开始建设喀布尔造纸厂、坎大哈医院等。中国人开始给达乌德政权施加压力,在对苏保持积极中立的情况下计划使其转向西方。中国人特别关注使阿富汗与巴基斯坦接近。
经济援助的性质是中国正在执行的政策的一部分,该政策主要贯彻到阿富汗。例如,中国专家参加建设坎大哈医院,特别关注做那些定居在中央阿富汗区的哈扎尔人的工作,经常穿过阿富汗南部地区去哈扎尔人散居的地方,那里有自己的文化。在达乌德时期曾创建了一些亲北京的小组,驻喀布尔的北京代表团就依靠他们。
1978年四月革命 [26] 后初期,可以观察到,这在中国人中出现了一定的困惑。中国的宣传十分谨慎地评价了事件和阿富汗民主共和国领导人的方针,另一方面,塔拉基和阿明政府也表明了对中华人民共和国的谨慎立场,尽管存在着北京援助盘踞在巴基斯坦的阿富汗反革命的具体事实。直至1979年12月事件 [27] 之前,阿富汗报刊都没有刊载任何讨论北京政策的重要资料,实质上,塔拉基和阿明政府不止一次地指出自己对保持两国友好关系的兴趣。
阿富汗民主共和国前领导人的立场,使得中国人开始采取影响阿明的政策,并通过阿明,阻止阿富汗转向苏联。通过仔细观察,中国人的行动在很大程度上利用了当时阿富汗领导人对内政策中的一系列因素,包括民族主义、阿富汗人民民主党的分裂、落后的民众和宗教的顽固性。这里还要指出,在那一时期,特别是在阿明统治时期,中国人采用了如下策略:一方面揭露在亚洲“苏联扩张威胁论”,采取了直接煽动反政府力量进行游击斗争的政策,给予他们直接的物质和道义支持;另一方面,不公开与喀布尔对抗和决裂,他们没有正式宣告正在执行中的条约无效。此外,在1979年3月签署了关于建设巴格兰第二期纺织厂的协议,并为此提供总额为1.09亿人民币的新贷款。1979年12月初,双方在喀布尔签署了关于中阿商品流转和供应的备忘录,与之相联系的是完成第二期帕尔旺省灌溉工程。这些文件表明,北京以特殊方式承认了阿明政府的政策,并明显暗示两国进一步接近的政策。与此同时,众所周知,早在1978年和1979年,中国专家开始撤出阿富汗,没有完成项目建设。还在阿明当权时期,中国驻喀布尔大使馆的外交人员就裁减了一半。
1979年12月27日发生的事件,给两国关系带来了根本改变。中国官方没有断绝与阿富汗民主共和国的关系,但是实际上不承认卡尔迈勒政府。此外,从这一刻起,中国的整个政策方向不仅开始怀疑阿富汗民主共和国新领导人,而且开始积极、公开参加反对阿富汗的秘密战争,完全与里根政府、北大西洋公约组织国家和反动伊斯兰政权靠拢。
在阿富汗内部,中国人依靠毛派左翼极端主义组织,该组织是“永恒光辉”小组瓦解、分裂后存留下来的。这首先是来自1980年被枪杀的颇有名气的卡拉卡尼的遗产——阿富汗民族解放组织,该组织经历了领导层和斗争战略的变更,执行暗中破坏、声东击西、恐怖行动的方针。由此可知,中国给予盘踞在巴基斯坦的各种反革命组织援助,并试图使他们联合到包括亲毛主义集团的统一战线里。1981年12月30日的《士兵真理报》指出,被称为“伊斯兰革命运动”领袖的穆罕默德·纳比“支持与中国毛主义分子联合,创建‘爱国者—解放者组织’,利用美国中央情报局间谍在阿富汗实行破坏活动”。
一个明显表现就是中国大使馆的外交人员开始与美国、巴基斯坦和英国驻喀布尔大使馆代表接触,正如这里所指出的,举行会谈,制定行动方案,交换关于阿富汗国内的信息。比如,在解救去年3月被偷着从巴基斯坦开走并降落在喀布尔的巴基斯坦航空飞机上的乘客时,社会主义国家的记者和外交人员注意到,中国代表,几乎整个中国外交使团的代表,在机场公开与在那里的美国外交官格里芬和巴基斯坦大使馆的临时代办进行磋商。
现今阿中官方关系实际等于零。1980年3月新华社代表被逐出阿富汗民主共和国,拒绝给予空军武官入境签证,两国之间的任何形式的科学技术人员、文化工作者和大学生交换都不存在了,贸易关系也完全改变了。如果在1978/1979年双方商品周转量为1580万美元,那么现今,正如阿富汗民主共和国贸易部公布的数字,仅仅达到300万美元。中国人没有丧失从阿富汗进口棉花的兴趣,因为人们对阿富汗棉花的质量评价很高。贸易只是通过“阿富汗银行”(以可兑换的货币)与私人公司进行。个别阿富汗公司继续向中国人订购茶叶、自行车、布匹、器皿和金属制品。
正如这里指出的,恢复合作建设工业、农业项目的前景暂时还不存在。
Р.穆欣
手写批注:
归档…… [28] 1983年5月13日
苏共中央已经知悉了这份送往国际部的资料
Б.鲍罗金(签名)
1983年7月18日
《俄国档案原文复印件汇编:中苏关系》第20卷,第1093—1097页
1982年
№26580 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧 [29] (1982年5月21日) [30]
中国问题。我与罗满宁的冲突。
早在5月初,作为《共产党人》编辑委员会的成员,我接到一篇署名为贾丕才的对于鲍里索夫 [31] 的一本书的评论文章。我没有特意去想鲍里索夫是谁,而是打电话给科索拉波夫 [32] 说,我反对这种类型的文章,通篇都是对这本书的辩护和对中国的咒骂,仿佛从未有过勃列日涅夫在塔什干的讲话。
在5月11日,又一届对华国际会议在索菲亚召开——由6个社会主义国家党中央国际部副部长秘密出席。我方理所应当是由罗满宁代表,他先是对中央下达了派自己前往索菲亚的“指令”,而后又提出了协议(作为与会方宣传和科研的基础材料并准备公开)。然而,这次会议,他第一次未能如愿。德国代表(如布鲁诺·马洛夫)先是对协议草案提出了一百条修正案,最后拒绝签署这一协议。
很有可能也是这个马洛夫向罗满宁报告说,昂纳克已经“完全受够了”这个对华国际。据说,他15年来不断写下了各种谩骂中国的词语(独裁、军事官僚政权、与帝国主义沆瀣一气、堕落、向帝国主义投降,等等),但生活照样继续下去。据说,他说苏共对中国犯了各式各样的错误,或许到了该“道歉”的时候了。无论如何,我们既然有“自己的”利益,对中国也就应该有“自己的”政策。这就是当时的情况!
回到莫斯科后,罗满宁向党中央提交了一份由4个部门签署的“报告”。他打电话给我——确实是他“雷厉风行”的风格——对我说:“签了这份报告吧,报告内容已经一致通过了。”我读了报告,然后对拿报告来的秘书说,我是不会签字的。
之后,我把这份报告拿给乌里扬诺夫斯基看,他看过后第二天告诉我他的“想法”,也是反对罗满宁的。
当天晚上,奥列格·鲍里索维奇 [33] “亲自”冲进了我的办公室。
——报告哪去了?
——在乌里扬诺夫斯基那里。
——干什么?报告内容都得到通过了,政治局中国委员会今天碰面了,他们基本上同意了我的备忘录,甚至要我将亚历山德罗夫为《真理报》写的文章修改得更强硬些……
他表现出一种威胁的气势,不容反对。
——我是不会签署这份报告的。
他转身摔门离去。
顺便说一下,关于亚历山德罗夫的文章 [34] ……在《真理报》发表之前是在政治局内部传阅的。我代替鲍·尼(即波诺马廖夫)为文章做了修改,去掉了所有提到中国领导人名字的地方和一些恶毒的评论——那些说法使形势看起来好像是重新开始了与中国的“冷战”。这篇文章不是罗满宁的人准备的,但很可能经过卢比扬卡的审查;文章是本着塔什干精神而写的,从根本上与罗满宁的备忘录以及会议协议不同。此文是在这种情形下于5月20日得到发表的……虽然……
的确,罗满宁恼怒异常(地进入我的办公室),这一天也是中国委员会开会的日子。鲍·尼早晨告诉我,他们主要讨论了以下问题:他(鲍·尼)和安德罗波夫倾向于改善与中国的关系(“当然必要时也要给他们点儿颜色看看!”),而令他俩惊讶的是,葛罗米柯居然说要对中国穷追猛打,不能轻易放过他们。但他总的说来太直率了,作为一名外交官,他应该更具灵活性。
佩什科夫带来“令人担忧”的消息(可能是从助手的闲聊听来的,甚至可能就是从罗满宁那里得来的,因为他本身就是政治局委员),说政治局的立场比罗满宁备忘录中以及会议协议中的更加强硬。虽然他威胁我说要向契尔年科报告,说国际部拒绝签字,我还是将备忘录还给了罗满宁,但是我还是没有签字。
然而,我认为还是有必要简短地写一张字条,向波诺马廖夫解释一下我为什么这样做(这也是职责使然)。
确切地说,这份备忘录背离了塔什干精神,它主要想揭露中国的霸权主义,而不是理性地考虑事情的前景,相反,是用宣传的方法营造不利于(与中国)关系正常化的氛围。同时,备忘录还说中国局势的特点是“向右转”。我在给鲍·尼的字条里写道:“对于‘向右转’,每个人都知道,这在我们党的术语里意味着‘事情变糟了’。但是和什么相比变糟了?是与毛泽东领导下相比,还是与华国锋领导下相比,或是与一两年前相比?”
最后,不能允许罗满宁路线违背塔什干路线。然而,事态正在朝着这样的方向发展,因为政策的执行实际上完全是在奥列格·鲍里索维奇的操控中——虽然我在私人关系上对他很有好感。
我请巴尔马什诺夫在鲍·尼从共青团大会回来之后将这张字条转交给他。他读了我的字条后,本着“希望不要出事儿”的原则,马上交给我一份12页的材料,“政治局中国委员会关于中国问题的决定”……此决定文本的一半内容都是针对昂纳克的,结论是“必须采取措施”,尤其是他在德国问题、波兰问题……等所有问题上都有所谋划。
关于中国问题——除了以罗满宁的方式之外,还要求斥责“某些苏联共产党员”,因为这些人在学院里以及大众报刊上涉及中国问题时对党的政策进行错误的解读,在谈话中称苏联党和政府没有充分利用一切机会实现与中国的关系正常化,等等。这些言论必须与官方机构的领导路线相一致。
因此,靠政治局撑腰,罗满宁决定压制所有他的敌人和对手,在中国问题研究上把自己树立成如李森科这样的人物。
我明白为什么巴尔马什诺夫匆忙叫我看那份材料,因为这样我才能知道自己所处的环境,不要惹祸上身。否则我有可能拆了波诺马廖夫的台,因为他也是中国委员会的成员之一,而且他也像契尔年科、安德罗波夫、葛罗米柯、基里连科、齐米亚宁、扎米亚京以及罗满宁一样在这份“报告”上签了字,并准备在周四向政治局递交。
第二天,在政治局会后,波诺马廖夫打电话给我,我们谈了些事情,特别是需要为美国准备一个勃列日涅夫传记的新版本。
——噢,对了——鲍·尼突然说——关于中国问题的备忘录,政治局委员刚刚碰面了……
——鲍里斯·尼古拉耶维奇——我打断了他——我读了中国委员会的报告,很多内容都让我感到惊讶。如果你已经读了我给你的便条,我没有必要再说一遍,报告偏离了塔什干路线;里面根本没有提出政策——既没有方向,没有目标,也没有提出我们想怎样处理与中国的关系……此外,不能让罗满宁制定如此重要的政策……
——这回轮到鲍·尼想要打断我了,但我还是继续说下去。
——我不知道你是否意识到了这一点,但在过去的15年里,罗满宁一直在中央负责关于中国的事务,特别是在他成为第一副部长以后,他写了一系列文章、小册子甚至是书(当然是在斯拉德科夫斯基的研究所及其助手的帮助下)。而所有这一切都是关于一件事:如何击垮中国。他非常明白,如果中苏关系改变了,他全部的“著作”都将被丢进废纸篓。但他已提名自己为科学院选举的候选人,且目前没有打算放弃。他会尽全力确保我们的对华路线保持不变,正如他用自己的4个笔名写的那些文章和小册子中所说的。但我认为,让关乎我国利益的极其重要的领域屈服于罗满宁的个人私利是不适当的。
鲍·尼开始注意到问题所在了。他表现出了兴趣:他尤其能理解这样的理由,他喜欢这类(事情)。最终,他说:
——嗯,别着急,阿纳托利·切尔尼亚耶夫——中央(政治局)的决定会与委员会的报告截然不同的。勃列日涅夫在政治局会议上说——我把它写在这里——(他拿出一张纸)……然后他说:“我们应该对中国继续采取积极的政策,增进与中国的关系。我们应该委托相关同志准备一些新的举措,以便在我的塔什干讲话的基础上改善关系。”
峰回路转了!
接下来发生的事也许是这样的。安德烈收到了委员会报告,马上发现这些都是罗满宁的龌龊勾当,即刻宣读了勃列日涅夫在政治局发言的要点。
鲍·尼怀疑罗满宁关于昂纳克的消息的真实性,等等。你们之前哪里去了,政治局委员和候补委员们?还是这个权力中枢完全自动瘫痪了?以权力中枢的名义,就可以对任何事情想当然,甚至是“批准”罗满宁对中国事务大权独揽,这也意味着党中央自己亲手将关于中国的客观消息(和研究成果)挡在了门外,因为(我们的)科学研究已经落入奥列格·鲍里索维奇的魔掌!
……
АНБРФ,http://www. gwu. edu/~nsarchiv/rus/Index.html
№26581 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧(1982年7月10日)
……
我和罗满宁的战争升级了。正如我前文所写的,他设法在政治局使“对华国际”获得通过,但有一个条件——那就是在《共产党人》上发表他反华的一派胡言,而这次德国代表拒绝签字了。
在病假回来后,我发现这些材料放在我桌上(因为我是《共产党人》的编委会成员),而内容则使我再一次感到震惊。21栏(打印出大约是66页)内容全是从各个方面对中国的攻击。三分之二的内容是关于国内事务的:关于党的、宪法的、经济的形势,等等。而且攻击方式之凶狠是我们对许多帝国主义国家如法国和西德都绝不会用的,对世界上任何一个国家都不会这样做的,更不要说外交政策了。
一句话:是对勃列日涅夫在塔什干讲话的彻底否定。
由于这份材料中涉及中国内政的内容,任何一个读者都会奇怪:这还能称之为是一个“社会主义”国家吗?或者说,如果中国如此深地(并且是不可挽回地)陷入了与帝国主义狼狈为奸的泥沼,怎么还能指望和它关系正常化,甚至还增进合作呢?
这意味着,塔什干讲话要么是一个在策略上不切实际的(或者说是虚伪的)举动,要么就是我们的内部协调出了问题,或者是我们的领导人在中国问题上出现了“斗争”。
西方世界首先会问的是:塔什干路线完了吗?而中国则会有新的理由更加严厉地谴责我们的对内政策和“霸权主义”。我打电话给科索拉波夫,向他解释了这些可以想见的问题。他说:这是政治局的决定,何况罗满宁还在我头上呢……这个决定已经安排要出版了。
我又打给波诺马廖夫,他说:“我无法撤销政治局的决定。”
——但是,你是中国委员会的成员,你可以告诉安德罗波夫。我敢说,在政治局决定出版罗满宁的文章时,所有中央书记和政治局委员都没读过那篇文章。事关重大,但愿勃列日涅夫不会得到报告说,他在塔什干的讲话被颠覆了。
——你知道中国每天都在说我们什么吗?他们在联合国的发言是不怀好意的。
——我知道。可我也知道他们半年前已经停止对苏联的攻击了,全世界都看得出,看看塔斯社的报道就知道了。然而,罗满宁向党中央隐瞒了这些。而且重要的是,塔什干路线还要继续吗?如果要继续,就不能允许偏离这一路线的宣传……
——塔什干讲话已经是很久以前的事了……
——什么?你是说……
——不,不,你误解我了(他害怕起来)。我没有暗示你什么啊。如果科索拉波夫接受你的想法,还是让他打电话给安德罗波夫吧……不过总体上还是小心为妙,不要让人感觉到好像我们(国际部)是倾向中国的,而只有罗满宁一个人在斗争……
——好的。
然而,科索拉波夫不敢给安德罗波夫打电话。他说,我应该给我的直接上司齐米亚宁打电话。
早晨的时候我还是不知结果怎样了。(我不喜欢逼迫别人……不想让别人陷入艰难处境。)而鲍·尼反而打电话给我,问:结果怎么样了?(我说:)不知道啊。(我告诉他)但是为了以防万一,我亲自打电话给安德罗波夫的助手弗拉基米罗夫(他也是苏斯洛夫的前助手),他很担心,答应我说政治局会议一结束他就去报告。
之后,科索拉波夫也告诉我他与齐米亚宁谈的结果,后者也很担心,他打电话给鲁萨科夫,两人共同建议科索拉波夫将罗满宁的文章在中国委员会内部传阅,而不将其纳入未来的决议中。
这件事情暂时就到此为止。
АНБРФ,http://www. gwu. edu/~nsarchiv/rus/Index. html
№26582 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧(1982年8月7日)
日记中断的这些天发生的主要事情看来还是关于中国的。
一周过去了,波诺马廖夫不满地对我说,安德罗波夫打电话对他说:你们的切尔尼亚耶夫针对罗满宁的那篇文章写了篇有点儿宣言式的东西……这事儿变成部门间的纷争是很不好的……让他们争论去吧。我——波诺马廖夫(明显惊恐地)回应说,据说,切尔尼亚耶夫仅仅是作为《共产党人》编委会的成员(以波诺马廖夫副手的名义是绝对不行的)写文章,表示希望减少对中国内政的批评,除此之外别无他意。
我(无礼地)对他说:根本不是这么回事,鲍里斯·尼古拉耶维奇。我总体上反对发表这样一篇文章,因为与塔什干路线是相矛盾的,我已经写了一篇尖锐的评论并交给科索拉波夫了。
鲍·尼把他与安德罗波夫进行的此类“限制性的”行为归咎于我。安德罗波夫对他说,他要求罗满宁“大大减少内政的部分”,并从整体上减少恶毒的攻击性语言。
让我生气的是,关于罗满宁的文章,鲍·尼再次说他不想再管这事了,而且建议我也不要插手。
这期间,我和阿尔巴托夫 [35] 看了一场厄尔德曼在1930年编的讽刺剧《冒名顶替》,不断地进行暗示和“联想”。之后,直到凌晨两点,阿尔巴托夫拽着我围着他家附近的阿尔巴特路转,又开始为了与经互会国家有关系的大国政策而咒骂每一个人,咒骂一切……
我这边则是告诉他关于中国的事儿。作为回应,他继续骂罗满宁及其同僚,并提出帮忙:我可以,他说,打电话给拉普捷夫(安德罗波夫的另一位助手),或是布拉托夫 [36] ,他在南边离勃列日涅夫近,小心地让他们知道,他说,《共产党人》可能再次刊发错误的文章……你把你给科索拉波夫的评论给我,这样我就有话说了。这是周五晚上。
周一早上,我交给阿尔巴托夫一份我文章的副本。当天晚上发生了我前面提到的和波诺马廖夫的对话,从这些谈话让我觉得,我之后的所作所为会被看作是在密谋反对政治局的决议,同时还违反了党的原则。周二,我打电话给尤尔卡,请他不要拿我的文章做任何事儿了……原来,他已经和拉普捷夫以及马上要去南边帮助布拉托夫的希什林说过我的事情了。但是我还没有把文章给任何人,所有事情都还只是口头上的。
这时,《共产党人》即将发表的那篇文章的二稿清样已经在我桌上放了不知多少天了。科索拉波夫把它给我可以说是违反规定的,因为这份材料只有政治局中国委员会的成员才能看。从根本上说,没有什么变化,也许被删掉了五分之一,安德罗波夫的指示甚至事实上都没有得到执行。这份传阅件自然送到了波诺马廖夫手里,因为他是中国委员会委员。作为助手的巴尔马什诺夫还将传阅件送给了科瓦连科(另一位副部长,主管东亚事务),以便他向鲍·尼报告他的想法。他汇报了,就如这种情况下的正常程序那样。巴尔马什诺夫把报告放在鲍·尼的桌上。后者说:“我说过不再插手这件事儿了,不要浪费我的时间。”
像平时一样吃了一记耳光后,萨恩·萨内什(亚历山大·亚历山德罗维奇·巴尔马什诺夫)回到自己的办公室,当然,打电话给我,他知道我和这事儿有关,而且也是因为他已经将材料送给科瓦连科,并且还附言:报告切尔尼亚耶夫。无论如何,巴尔马什诺夫都不敢再去找鲍·尼说中国问题了。
怎么办?一方面,不能被人说是违反纪律,尤其是,如果阿尔巴托夫插手的事儿传到了安德罗波夫的耳朵里(此外的不利因素是:即使阿尔巴托夫受到很多人甚至是安德罗波夫及其幕僚的信任和接受,这也是把党组织机构外的人牵扯进来了。早在60年代安德罗波夫领导苏共中央对外联络部,尤尔卡在该部担任顾问组组长的时候,他就经常到安德罗波夫那里去)。
另一方面,不能允许《共产党人》发表那篇文章,因为这是国家利益。
我打电话给安德罗波夫的助手沙拉波夫,他负责处理国际关系问题,早先,在我得知与弗拉基米罗夫就第一稿清样问题的谈话未能奏效后,就曾和他谈过这件事。弗拉基米罗夫主要负责国内问题,但至少答应替我向安德罗波夫报告,告诉他我认为《共产党人》上发表的罗满宁的文章是有违塔什干精神的。他有可能没这么做,或是让沙拉波夫去报告了。
于是我打电话给沙拉波夫:
——你还对中国问题感兴趣吗?(装作开玩笑一样)
——是的,你不是还答应给我你对二稿清样的看法吗?关于一稿清样,我已经告诉过你,尤·弗打电话给罗满宁,命令他“删掉写中国内政的部分再发表”。
——我正打算告诉你我的意见。罗满宁的文章,虽然变短了,可其核心内容和语气依然没有变。我可以把我的想法写下来吗?
——请写吧。
我坐下来,写了两页语气礼貌但是立场坚定的内容,坚称至少在召开中国委员会会议之前不应该允许这样的文章发表。之后,我把这一书面意见送了出去。
三天过去了,石沉大海。同时,科索拉波夫的副手布加耶夫打电话给我说,科索拉波夫决定赶快去度假,以便躲开是非。
——我还能怎样,阿纳托利·谢尔盖耶维奇 [37] ?我只从乌斯季诺夫(政治局常委、国防部长)那里收到对第二稿清样的评论,嗯,他在这里、那里减少了几处恶毒的言辞,但一些地方的语句更加尖锐……没别的了……
然后,他说,结果是罗满宁(作为中国委员会书记)要求把所有的修订稿都交由他而不是编辑室审阅,再由他把最终的文本送给我们。
——我不知道该怎么办了,叶夫根尼·约瑟福维奇 [38] ……我已经竭尽所能,而现在,我甚至连把自己对第二稿清样的评论送给你的权力都没有了。
——顺便说一下,我接到过一个电话,是……(这里他停住了,没说出名字,但我知道他要说的是齐米亚宁)。他开始大声嚷道,你知道的,用“同志般的”(兄弟般的)语气:“什么!两个政治局决议,一个中央书记处决议,对你来说还不够吗?!你干吗不发表那篇文章?”云云。我平静地告诉他:我无东西可发,罗满宁把什么都拿走了,我甚至连稿子都没有,而且我也没有收到任何评论意见。此外,米哈伊尔·瓦西里耶维奇 [39] ,在我收到由政治局中国委员会正式通过的文本之前,我不会刊发任何东西。因为,当编委会的全体成员无一例外地都反对这篇文章时,编委会事实上也就每次都被排除在事外了(这里他补充说:科索拉波夫给我看了你写的评论,阿纳托利·谢尔盖耶维奇,我百分之二百地支持你的意见)。有鉴于此,我和编委会都不会对这一重大事件负责。我是个老党员了,我不会违背我的信念,而且我确信,我们的政策将遭受重大打击。
我不清楚他是不是把我的原话向中央书记报告了(不过,他有可能这么做,因为他是个率直、自信、千锤百炼,而且诚实的人),但是,他得到的回答是:“当心,当心啊。”
在与布加耶夫谈话结束后,我还是决定打电话给沙拉波夫,他说:我已经向尤·弗(安德罗波夫)报告过了,不过把这事说成是我的意见了……
——为什么?为什么你认为不能提到我?毕竟,我没什么可隐瞒的,我只是觉得自己打电话不太合适……
——嗯,是这样。我认为,以我的名义来说更好。
——好吧,那结果怎么样?
——他说的差不多和以前一样——只要删掉关于内政的部分,然后就可将文章发表了。(直到后来我才明白问题出在哪儿了——但那已经是事情发展的最后阶段了。)不过,你对那篇文章的评论在我看来还是很有用的。
——可我甚至连把它交给《共产党人》的权力都没有!
——试着交给鲍里斯·尼古拉耶维奇看看,他毕竟是委员会的成员。
——好吧,多谢!
我写了一份备忘录给波诺马廖夫,我说:我已经和沙拉波夫谈过了,我不知道他是否会把全部意见报告给安德罗波夫(附件!),但他认为对文章的评论是“重要”的。(也在附件中!)
两天过去了。巴尔马什诺夫来了电话:鲍里斯·尼古拉耶维奇把你的评论、备忘录和你文章的复印件都退回给我了,没说一句说。我会把这些都交给你……换言之就是,与那次送科瓦连科时的“态度”一样:我跟你说过,我不会再插手此事了,就这样了!
我明白,自己四处碰壁,徒劳无益,因此决定顺从地坐等那篇文章发表在下期的《共产党人》上。
然而,昨天发生了以下的事情:
鲍·尼打电话给我(今天他去休假了):他说,我们应该在他走之前谈谈。于是,我去找他。他看起来神采奕奕。我走向他的办公桌,他扔给我一些文件,说:“拿去看看吧,你赢了!”
我一看,是勃列日涅夫写给安德罗波夫的一张便条,很短,只有一段。我仔细读了读,便条上说:这是我的助手高利柯夫对中国事务的看法,我认为其中有些意见很有道理,我请求政治局中国委员会对此进行讨论。
高利柯夫写的备忘录,大概15页,内容如下:给人的感觉是,与中国关系正常化的重要性被低估了,我们的宣传没有大力支持塔什干路线,而有时发表的文章事实上是在损害这一路线(除了别的事例外,备忘录还提及《真理报》7月20日发表的文章)。我们不愿看到中国发生的变化,但是变化还是发生了。我们的主要敌人是美帝国主义,因此枪口应该对准那里。否则看起来就像是,我们准许就很多问题与美国进行谈判、接触和交流(甚至在像现在这样的敏感时期),却不允许和中国进行同样的联系。我们需要对中国问题采取一些策略,类似塔什干精神那样的手段。应当每天都尽力来消除紧张关系,推动合作,达成相互理解,而不是把中国往美国方面推,等等。
这份备忘录根本没提准备在《共产党人》上发表的那篇文章或是罗满宁的路线,而且完全是反罗满宁精神的。
关于波诺马廖夫对这件事情的反应。他对这件事情了如指掌。他对我说:我送这份材料给科瓦连科,你知道的,前段时间我们就中国问题起草了一封给兄弟党的信,而现在要根据勃列日涅夫便条里的精神对其进行修订。安德罗波夫本来已经同意我们的草稿了,可现在又说要再“看看”(当然,那封信虽然并不完全是按照罗满宁的精神起草的,但也差不了多少……而且,草稿基本上是由罗满宁的团队撰写的,我们的人仅仅是负责编辑——“削弱”罗满宁主义)。
我立即给科瓦连科打电话,我们三人坐下来,鲍·尼甚至离开他的办公桌和我们坐到一起,在一张新加的小桌子旁。我变得十分无礼起来,说:鲍·尼,或许我们根本不应该把给兄弟党的信发出去?那是什么论点啊?假如我们想要关系正常化,我们怎能劝别人不要这么做呢?……
——不是这样的,你别太得意忘形了!
然后,他去编辑室了。
当科瓦连科还在赶来的路上时,鲍·尼告诉了我“详情”……安德罗波夫打电话给他……告诉他,关于这一点——当然是某种背景下:“罗满宁做得不对。我警告了他,如果不做出改变,我们就得给他另找个位置了。我还告诉他的沙拉波夫——他们和罗满宁是朋友,有段时间一起在中国待过,甚至可能一起读过书:你们要么尽到作为助手应尽的义务,要么干脆离开党的机构。”……
这就是发生的事情!结果是,我有关中国的文章和所说的每句话立刻都被罗满宁知道了!
可是,是谁激发了高利柯夫的灵感呢?或者,其实他才是想出塔什干路线的人。而且,他还“独立地”“准备好”了这份备忘录,甚或对《共产党人》上那篇文章的情况毫无了解。但他不可能不知道“对华国际”……关键是他的介入来得正是时候!
再来看看我的波诺马廖夫吧!“我再也不想管这事儿了!”一个已经做到党内小官的政治人物,一生花招儿玩尽,仅仅就是为了保住自己的位置!……
АНБРФ,http://www. gwu. edu/~nsarchiv/rus/Index. html
№11928 苏共中央政治局会议记录:关于缓和苏中关系及国际局势的讨论(1982年9月9日)
机密
仅此1份
(工作记录)
苏共中央政治局会议
1982年9月9日
主持人:勃列日涅夫
出席者:Ю.В.安德罗波夫、М.С.戈尔巴乔夫、В.В.格里申、А.А.葛罗米柯、А.П.基里连科、Н.А.吉洪诺夫、К.У.契尔年科、П.Н.杰米切夫、В.И.多尔基赫、В.В.库兹涅佐夫、М.С.索洛缅采夫、М.В.齐米亚宁、И.В.卡皮托诺夫等同志。
一、苏共中央总书记、苏联最高苏维埃主席团主席勃列日涅夫同志在克里姆林宫关于1982年与社会主义国家兄弟党领导人会晤情况的总结报告
勃列日涅夫:同志们!在我们面前的秋季充满着紧张的情势。但是夏季,这是休假时期,也没有空休息。这样,也加上了我的休假。
像你们所知道的,我同各兄弟党的领导人在克里姆林宫进行了几次会晤。关于会谈的内容我不准备讲了。这些内容你们都已知道。现在只谈几点情况。
首先是关于经济问题。
很不愉快,但却是事实,我们好些个部门患有社会主义国家合同供货不足的慢性病。于是我们的伙伴常常向我们讨债。这就不得不在高层会晤时互相替自己辩护。需要在对外经济交流中做出严格的规定:既签字,即执行!
我不能不讲,朋友们对经互会工作的不满情绪明显地增长。我们也感觉到了这种情绪。这里的问题不是因为在那里努力工作的同志,对他们没有特别的要求,问题的根本在于时间已经超过了这个组织诞生30年前建立的形式。
希望我们拟定召开关于经济问题最高级别的会议,有助于经互会在质的方面改组工作。迫切需要寻求社会主义经济一体化的有效加速器,否则我们各个国家不可避免承担西方债务的重负。
还有一点。在社会主义国家的经济组织中现在有很大的改变。我们的盟国竭力把管理经济的指令形式同利用经济杠杆和刺激更好地相结合,反对领导过度集中。
各兄弟国家采取努力的结果在实践中尚未完全显露,但有许多东西大概对我们不适合。但是对大家有利的,我们应好好地认识清楚。我讲这些是因为我们自己着手改善经济的管理。
巴伊巴科夫和塔雷津同志不久前报告了这一研究的结果。这仅仅是开始,他们自己也承认了这点。这个工作很重要,要继续做。
我们的经济是巨大的。比如说,任何一个部——这几乎是整个大军。管理机构扩大了,于是失算和各种不协调就非常多,由中央规定细则无一例外越来越困难。
我认为,我们应当再三认真地考虑,如何提高劳动集体的首创精神和进取精神。不给予工厂企业和联合公司更大的独立性和更多的权利,那未必能达此目的。如果企业在经济技术和商务领域上有更多的权利,那么相应地在它们身上负有更大的责任。应考虑提高各加盟共和国、边区和州在制定国民经济计划,解决区域性重大问题的作用。
今天对我们来说,怕是包括这个问题——这就是加强纪律。既有国家的纪律,也有劳动的纪律。关于这方面我们已有足够的号召和愿望。但我们就是常常不会整顿秩序。
我想,要从上面开始:经常在苏共中央委员会书记处及相关共和国党的机关会议上检查执行情况。在苏联最高苏维埃各常务委员会听取各部工作报告的措施,有助于提高各部对加强纪律的需求。需要这样去做。
加强纪律要普遍地去抓,但不搞运动。可能,要准备这个问题的特别决议。
在8月初,我记得,政治局授权契尔年科、安德罗波夫、戈尔巴乔夫、吉洪诺夫、多尔基赫等同志准备关于经济的迫切问题的建议。希望同志们也考虑我的这些意见。
关于在克里姆林宫会谈时提到的国际问题中,我现在讲下面的一些问题:
我们的盟国对日内瓦苏美关于限制欧洲核武器以及战略武器的谈判表现出明显的关心。关于那里的实际情况如何,我们大家都知道得很清楚。我们的倡议在政治上给了一定的加分。无论如何,我们的态度获得国际舆论的同情。但推动谈判的僵局,目前尚未成功。
政治局委员会授权研究这些问题,考虑如何发挥我们的立场,和已提出某些建议。但对核裁军问题的深入研究还要继续。这是非常需要的,在这方面的工作也是很重要的。舆论应当得到关于我们谈判的立场和情况无论哪种形式的信息。这是压在美国人身上非常重要的推动力。
与昂纳克会晤时,我相当详细地同他谈论中国。现在北京的政策似乎出现新的情况。好像我在塔什干的讲话继续做工作。
中国对我们备忘录的回复,总体上保持了平和的、公文式的语气。我们要看中国人在即将举行的协商中采取什么态度。我们自己要认真地、广泛地、沉着地对待这次协商,当然,不要忘记我们国家的利益。对将进行协商的同志可能提出这样的目的——开始时试探出解除苏中关系不必要的尖锐化和成见的可能性。
不能容许在报刊上发表挑衅的言论,或采取笨拙的步骤使原来就困难的同中国的对话复杂化。很好,我们的中国委员会认真地关注这事。
这大概就是在今天会议开始我认为有必要触及的全部问题。
安德罗波夫:列昂尼德·伊里奇,您非常清楚并详细地阐明了关于您在克里姆林宫与社会主义国家兄弟党领导人会晤情况总结报告的问题实质。我们在这里也一直对此能感觉得出来。您确实进行了巨大的工作,而且内容非常重要。这些会晤对巩固社会主义国家之间的兄弟联系起了非常重要的作用。您同社会主义国家领导人进行了会晤,也同其他国家会晤,因为关于这些会晤他们都知道。您的每一次会晤我们在政治局都讨论过,并做出了相应的决定。我们赞成您进行的所有会谈,并记录了其他要点,委托那个或另一个组织解决任何一个问题,准备好建议,并将其送交中央委员会。根据这些委托已进行了大量的工作。
吉洪诺夫:除列昂尼德·伊里奇进行的会谈外,他们根据会谈内容,起草并发送了一系列非常重要的报告。我不准备讲所有的报告,我要注意的只有一点,这就是关于节约燃料和动力资源的报告。我认为,这是特别重要的报告,当然,这对我们的工作有很大的帮助。
在列昂尼德·伊里奇报告的基础上,部长会议认真地分析了关于动力技术及其节约;关于保证1982/1983年冬季我国国民经济的动力资源等问题的状况。从我们中央政治局的报告中可以看出,根据部长会议的路线进行了大量的工作,为了缓和动力危机的紧张,并保证国民经济的动力资源,我们动员了不少资源。
格里申:列昂尼德·伊里奇会谈的内容非常重要,是在高层中进行的,毫无疑问,这对加强我们同兄弟国家的联系起着重大的作用。
戈尔巴乔夫:无论是列昂尼德·伊里奇同兄弟国家领导人举行的会谈,还是发送政治局的报告,特别是关于发展农业生产的报告,这是很重要的文件,使政治局以及所有党组织的工作活跃起来。现在,在这些报告的基础上制定了措施,这对发展农业生产将产生巨大的影响。交办了非常重要的、严肃的任务,这些任务将根据报告去完成并提出建议。
契尔年科:列昂尼德·伊里奇在克里姆林宫的工作虽然是在休假期间进行的,但是非常积极的。实质上休假是富有成果的,提出了一系列具有全国性的和公有经济意义的重大问题。同兄弟国家领导人进行的会谈对巩固我们各国之间的友谊和合作起了非常重要的作用。这些工作,毫无疑义,值得最高的赞扬。
葛罗米柯:我完全同意同志们所讲的。真的,列昂尼德·伊里奇休假中在克里姆林宫做了大量的工作。这是积极的、富有成果的活动。
勃列日涅夫:我们要做怎样的决议?
安德罗波夫、契尔年科、葛罗米柯和吉洪诺夫说,同意列昂尼德·伊里奇讲述的意见。要向党组织通报会晤情况。
安德罗波夫:列昂尼德·伊里奇,您讲,要在准备关于经济的迫切问题的建议时,要考虑到您的意见。我们以契尔年科同志为首的委员会将会考虑到,同时我们还会考虑到您对政治局的波兰、中国和阿富汗等委员会工作的意见。
通过决议。
二、关于苏联对二十七届联合国大会的主要倡议步骤
勃列日涅夫:葛罗米柯、索科洛夫和斯拉夫斯基同志提出了关于我们对9月21日召开的二十七届联大常委会的主要倡议问题的意见。
我认为,主要建议的主题选择是成功的。全面禁止一切核武器试验是走上制止核武器竞赛道路非常重要的步骤,我们为此而斗争,要“快一点”对此达成协议。
我们这个步骤,我认为,是比较适当的,因为禁止核试验协议差不多已准备好。但里根现在开倒车,并想勾销已全部完成的工作。关于这个问题要对美国施加最大的压力。
另一个问题是防止袭击和平核设施——电站、反应堆,等等——我也感到非常迫切。这表现在不久前以色列袭击了伊拉克的反应堆。对的,我们把类似的行动看作是使用核武器。这促使可能的敌人当心点。我想,联合国大多数委员在这方面会支持我们。
葛罗米柯:我完全同意列昂尼德·伊里奇的观点,我想,提出这些问题现在对我们是非常有利的。
契尔年科:打算在葛罗米柯报告中提出的两个问题具有很大的迫切性,现在大多数国家既反对核试验,也反对对和平利用核能的设施进行类似强盗的袭击。
吉洪诺夫:我认为,外交部和其他单位一起准备了非常正确的建议。
戈尔巴乔夫、库兹涅佐夫和多尔基赫同志也支持这些建议。
通过决议。
三、关于对二十七届联大苏联代表团的指示
勃列日涅夫:我的意见是,对联大会议目前问题总的指示也是可以接受的。它符合我们对这些问题的基本立场。只指出一点。关于近东问题的指示中要补充一点:我们的代表团应在会议上对美国关于调解近东问题近期提出的建议(所谓“里根计划”)作出有论据的评估。要平和地、但令人信服地指出这些建议中不足之处,及其真正的实质。这尤其重要,因为许多阿拉伯国家,像大家所知道的,已经被美国的诱饵“上钩”了。总的来说,同志们,(我在这里不是讲联大会议,而是讲更大的范围。)我们该考虑,把我们对近东的建议活跃起来,使这些建议更具体,切合实际,以及,我想说,对有关国家更有吸引力。对这些问题外交部要研究。对总的指示草案经补充我讲的意见后可以批准。
葛罗米柯:我认为,列昂尼德·伊里奇的补充很好,对此要考虑到。
契尔年科:指示准备得很详细,可以批准。
安德罗波夫、吉洪诺夫说,指示完全可以接受,制定得很详细,经列昂尼德·伊里奇补充后,应予以批准。
通过决议。
四、关于二十七届联大苏联代表团组成人员
勃列日涅夫:根据政治局意见分送了外交部呈报的关于出席即将举行的联大会议的苏联代表团成员的报告。打算批准以葛罗米柯同志为代表团团长,当他离开纽约后,由特罗雅诺夫斯基同志任团长。
同志们有什么意见?
政治局委员、政治局候补委员和中央委员会书记都支持关于批准代表团的建议。
五、关于对苏联代表团在欧洲限制核武器谈判的补充指示
勃列日涅夫:由于9月30日在日内瓦恢复同美国进行关于欧洲核武器的谈判,委员会提出了补充指示的草案。总的来说,对我们极具建设性的立场还增加某些灵活的因素(我们提出,规定每一方的导弹在300个弹头的框架水平之下;决定在大西洋缩小区域的界线;以及限制射程500—1000公里的导弹数量的可能性)。这将是我们力求达成互相可接受的协议的新证明。
我想,指示要批准,但外交部和对外宣传部要考虑何时,用何种方式,把我们这些步骤通知到“第三国”政府,然后,可能也通知到舆论。
安德罗波夫:列昂尼德·伊里奇提出的问题非常重要。对我们原先批准的第一阶段谈判指示的补充,证明苏联政策的灵活性。
葛罗米柯:这些补充指示将给我们在谈判中采取更具攻势立场的可能性。
契尔年科:这些指示有利于推动谈判,虽然很难指望美国人会正确地接受这些建设性的建议,但无论如何,我们代表团手中有非常好的王牌。
吉洪诺夫、格里申、戈尔巴乔夫、库兹涅佐夫、多尔基赫等同志对这个问题也发表了意见。
六、关于召开华沙条约成员国联合武装部队军事委员会第二十六届(常务)会议
勃列日涅夫:乌斯季诺夫和库利科夫同志建议今年10月下半月在波兰人民共和国在库利科夫元帅主持下召开华沙条约成员国联合武装部队军事委员会常务会议。
会议规定审议1982年武装部队准备情况的总结报告,1983年军事委员会的任务和工作计划。
关于在报刊发表,电台和电视广播第二十六届军事委员会会议的通知草案已送请政治局批准。
如果同志们没有意见,让我们同意乌斯季诺夫和库利科夫同志提出的建议。
政治局委员、政治局候补委员和中央委员会书记都同意对此问题提出的建议。
通过决议草案。
七、关于对日本关系的几点实际措施
勃列日涅夫:葛罗米柯、波诺马廖夫、索科洛夫、阿尔希波夫和费多尔楚克等同志提出了关于对日本关系一些步骤的建议的详细报告。
在政治方面提出了一整套步骤——葛罗米柯同志访问东京,两国外交部协商,活跃会议的交流和执政党的接触,在日常事务中对日本人作某些不大的让步。
在商业经济方面——扩大一系列大项目的互利合作(开发铜、石棉、磷酸盐、亚库梯煤等矿床以及萨哈林的油田和天然气,建设一些纸浆厂)还有一些活跃商业和渔业的措施。
还规定了我们对日本宣传的基本方向。
关于这一切还可以说些什么?
报告是需要的,及时的。在当前形势下我们与日本的关系极为重要,但这种关系没有改善,反而恶化。报告中建议的措施是有益的,实际的,而且是,我可以判断,是深思熟虑的。看来,这些措施应当赞成。
我只想讲一点,报告中建议继续推动我们关于睦邻合作条约的方案,搁置提及任何所谓“领土的”(或“没解决的”)问题,这是日本人坚持的问题。大概在目前局势能想出一点别的什么办法是不容易的。但是,老实说,我不相信,简单地重复我们已提出5年的立场会导致我们同日本的关系有所推动。看来,外交部、国防部,还有国家安全委员会都要考虑这个问题,寻求政治僵局的出路,其间表现出我们与这个对苏联利益非常重要的国家关系。
还有一点不大的意见。谈到对日本的宣传,重点是“揭发”、“加强暴露”、“强调美国的冒险主义”,等等。至于我们如何更关注对日本人民在各领域的生活、劳动和成就的描写?要知道,在这方面已不少了。还有我们同日本合作的描写。要让日本人从我们方面感到不只是批评,而且还有睦邻的关注。这大概是有益处的。
总的来说,这份报告应该批准。
安德罗波夫:列昂尼德·伊里奇提出关于促进我们对日关系的问题,无论在经济方面,还是在政治方面的路线都是完全正确的。我们要对这个工作积极地抓起来。
葛罗米柯:日本人不顾美国总统的制裁仍表示尽力在应有的水平上支持同我国的关系。
戈尔巴乔夫:日本人历来在我们的水域捕鱼,因此他们对这方面非常关心,还有对发展经济关系以及其他方面。
契尔年科:对促进我们同日本在经济和政治领域关系的建议值得赞同,应予以通过。
通过决议草案。
八、关于基里连科同志
勃列日涅夫:同志们,我们有一个问题。像你们想起的,在某一时间前查佐夫同志通知了关于安德烈·帕夫洛维奇·基里连科同志身体健康的严重状况。我们向政治局所有成员介绍了医生的诊断。后来进行了会诊,向中央政治局提交了证明文件。由此得出结论,基里连科同志病重,对他们的工作负荷可能加深严重的病程。我们常常很好地对待安德烈·帕夫洛维奇,像对待其他所有的同志一样。但是,很遗憾,医学断定安德烈·帕夫洛维奇的健康状况严重。这份诊断书是由查佐夫院士、施密特院士和纳札罗夫教授签署的。他们提出要解除基里连科同志脑力负荷的坚决意见。安德烈·帕夫洛维奇明白自己的状况,并给我写了声明。我读给你们听。(勃列日涅夫同志宣读基里连科同志的声明。)
我认为,要听取医生的意见,谨慎地对待安德烈·帕夫洛维奇的健康状况,并满足他的请求,基里连科同志可根据1976年11月11日中央委员会和部长会议的决定享受物质生活保障。
同志们有什么意见?
安德罗波夫:我认为我们会一致支持勃列日涅夫所讲的结论和意见。真的,安德烈·帕夫洛维奇的健康严重恶化,这使他不可能完成他肩负必须去做的任务,特别是安德烈·帕夫洛维奇工作的范围。
吉洪诺夫:我完全支持列昂尼德·伊里奇·勃列日涅夫关于满足安德烈·帕夫洛维奇请求的建议。既然疾病这样严重,病势逐渐加剧,这将使他很难继续工作,而且可能导致极其不利的后果。
契尔年科:医生提交苏共中央的诊断中强调,病情没有减轻,相反是在加剧。
戈尔巴乔夫:列昂尼德·伊里奇的建议是完全正确的。
葛罗米柯:当然,我们大家对安德烈·帕夫洛维奇的病情都感到非常遗憾。我们祝他身体健康。但我们每人身上都负有一定责任。它要求我们付出最大的努力,没有胜任工作的健康身体,毫无疑问,不仅困难,我想说,而且不可能完成这些责任。
基里连科:我要衷心地对列昂尼德·伊里奇许多年来与他共同工作以及当我在其他领域工作时对我的关怀表示诚挚的感谢。我对全体政治局委员、政治局候补委员和中央委员会书记对我的帮助和支持表示非常高的评价,我有幸同他们一起工作。真的,疾病不可能让我继续留在这些崇高的岗位上。无论如何惋惜,如何难过,但是不得不走上这一步,辞去工作。
勃列日涅夫:请政治局委员、政治局候补委员和中央委员会书记对这个问题投票。
谁同意满足安德烈·帕夫洛维奇·基里连科同志免去他的政治局委员、中央委员会书记职务请求的,请举手。(全体政治局委员、政治局候补委员和中央委员会书记都举手。)请放下。
我认为,我们还要根据1976年11月11日苏联中央和部长会议的决定对安德烈·帕夫洛维奇·基里连科的物质保障做出决议。大概你们大家都知道,这个物质保障非常优厚。
全部结束。正确无误。
《俄国档案原文复印件汇编:中苏关系》第18卷,第4628—4639页
№26583 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧(1982年9月11日)
……
在乌斯诺夫在古比雪夫市授奖仪式上的讲话中,出现了一段咒骂中国的内容。亚历山德罗夫马上发现了问题所在:这简直是无视勃列日涅夫的批示和中国委员会的决定!如果这是罗满宁的主意,那他真是活得不耐烦了!检查后发现,之前的传阅稿确实没有这一段,这意味着它是在“评论”之后加上去的。果不其然,是奥列格自行建议恢复的!
但这也仅仅是一段插曲。在勃列日涅夫休假后召开的第一次政治局会议上,他对所有“需要讨论的问题”发表了意见。
在谈到中国问题(基于他的批示的精神),以及在谈到关于应当冷静地善于评判国际局势时,勃列日涅夫说:“坏事情也会有好的方面。”……
АНБРФ,http://www. gwu. edu/~nsarchiv/rus/Index. html
№26584 切尔尼亚耶夫日记摘录:苏共中央内部关于对华方针的分歧(1982年10月2日)
……
莫斯科党委在圆柱厅召开了阅读会,鲍·尼作了题为《列宁的和平战略》的报告。他很开心。
在传阅中,罗满宁试图在报告中再次推销他的“恐华症”(即如乌斯季诺夫的发言那样)。鲍·尼为罗满宁的固执和傲慢而感到震惊,而这次他坚决表示了反对。罗满宁等人甚至等不及中国做出一些令勃列日涅夫“震怒”的事,以便让塔什干路线,特别是高利柯夫的便条之后政治局在8月份所采纳的路线方针见鬼去吧。他们根本不懂用历史的方法思考问题,不懂什么是国家政策。但是,我们和中国又无谓地争论了七八年,倒的确是罗满宁干的好事儿。
……
АНБРФ,http://www.gwu.edu/~nsarchiv/rus/Index.html
1983年
№16691 苏共中央政治局会议记录:关于扩大对华贸易及国际局势的讨论(1983年5月31日)
绝密
仅此1份
(工作记录)
苏共中央政治局会议
1983年5月31日
主持人:Ю.В.安德罗波夫同志
出席者:Г.А.阿利耶夫同志、М.С.戈尔巴乔夫同志、В.В.格里申同志、А.А.葛罗米柯同志、Н.А.吉洪诺夫同志、Д.Ф.乌斯季诺夫同志、К.У.契尔年科同志、П.Н.杰米切夫同志、В.И.多尔基赫同志、В.В.库兹涅佐夫同志、Б.Н.波诺马廖夫同志、М.С.索洛缅采夫同志、М.В.齐米亚宁同志、И.В.卡皮托诺夫同志、К.В.鲁萨科夫同志、Н.И.雷日科夫同志
会议开始时,安德罗波夫同志对阿尔维特·雅诺维奇·佩尔谢逝世发言表示沉痛哀悼。安德罗波夫同志告知,阿·雅·佩尔谢的葬礼,正如中央决定确定的,将于11时在克里姆林宫墙下的红场上举行。治丧委员会成员在出殡时到达联盟宫,其余政治局委员、政治局候补委员、中央委员会书记11时直接到墓地。
现在,我想讲在我看来值得讲的问题,以便我们交换意见,并且拟出建议。今天,我同一些政治局委员谈了关于针对美国在西欧国家部署火箭“潘兴2”和巡航导弹我们政府的对策声明以及关于威廉斯堡“七国集团国家”通过的声明。我们就这个问题征求意见,交换看法、提出应拟出哪些建议是有益的。
如果看一下发生在西方国家的事件,那么可以说,那里形成了反苏联盟。当然,这不是偶然的,是极危险的。现在威廉斯堡举行的北约国家会议,发出了侵略言论。这次“七国集团”通过的声明本身,也是极为非建议性的和侵略性的。
如果分析一下西方国家对我们声明的反应,那么这种反应具有两面性。一方面,我们声明给了他们强烈印象。在个别西方人士的讲话中微微流露出一种声调,对限制和裁减武器特别是核武器谈判的有利进程表现出希望。另一方面也有言论说,要无条件地执行北约的所谓双重决议,就是说要在西欧国家部署核导弹。
里根的行为,值得我们一方给以最严厉的驳斥。他是所有反苏谣言的核心人物和作者,是各类欺骗性言论中伤我国及其他社会主义友好国家的作者。不过在报刊上,米哈伊尔·瓦西里耶维奇,他们没有得到应有的揭露和相应的回应。这当然是不对的。西方帝国主义国家想组成一个反苏集团。它们共同行动,而且正如你们能相信的真理在一系列情况下处于高压之下,里根成功了,迫使自己的“七国集团”伙伴签署声明,发言反对苏联的政策。
现在让我们看一下我们做了什么。遗憾的是,我们在孤单地独自行动。我们中间有人在说话,有人在发言,但所有这一切都不是联合起来做的。我们华沙条约国家以及没有参加条约的其他社会主义友好国家,务必表现出团结一致。与此同时,兄弟国家的领导人陷入了自己的民族问题。如果允许这样说,这是无足轻重的举动。
所以我产生了一个问题:我们能不能在莫斯科召集兄弟党中央第一书记和部长会议主席开会来讨论目前的形势呢?在这个会议上也可就限制和裁减欧洲核武器谈判进程问题、北约国家最近的决议问题以及同我们反对帝国主义国家旨在激化的国际局势的阴谋有关的其他问题交换意见。
当然,会产生罗马尼亚的问题。怎么对待它。我想,不邀请罗马尼亚是不合适的,看来没有它开会是不可以的,虽然大家知道,他们会发言,反对发表我们的声明。
有一个问题:何时召开这样的会议,结局是什么。我想:不可以把召开这样的会议长期拖下去,因为西方国家在行动。我们暂时的行动不够积极。我认为,现在已经需要在会议前全方位采取必要的措施,以便我们开始反对帝国主义国家的阴谋。可见,值得在这个会议上准备、通过、然后公布我们对北约决议表示反应的文件。可能在这个声明中,重提我们以前说过的关于华沙条约国家和北约国家间互不侵犯的建议,也可能产生其他的建议。
勃兰特不久前发表讲话,提出了关于限制欧洲核导弹和限制战略性核武器谈判合并进行的建议。可能,我们真的应该想一下这个建议,并且正式提出——把两种武器进行的谈判合并成一种谈判,既包括欧洲核武器,也包括战略核武器。同样应该想一下,在何处和何时提出这个建议,我想,由外交部联合国防部提出关于这个问题的相关建议。
我们必须开展更广泛工作,争取社会舆论、动员欧美西方国家社会舆论反对发展欧洲核导弹、反对美国政府加紧进行的新军备竞赛。日本特别是中曾根康弘首相的行为引起了我们的不安,他完全站到了西方国家侵略阵营一边,并完全支持里根的所作所为。因此,我们有可能应该想一下对日本的折中行为。例如可以考虑联合开发没有战略意义的个别小岛;也有可能提出其他建议,特别是,我想,日本可能在经济方面,同苏联进行更积极的合作。
下一个问题涉及中国。我认为,在和我们谈判中,中国人不会向前走了,停在他们现在停的地方。但是所有的资料说明,他们能够和苏联进行更广泛的经济合作。要知道,他们自己发起、建议我们签订这一年的贸易协定、贸易额大大超过我们前几年同中国的贸易数字。有鉴于此,可能应该派阿尔希波夫同志去中国进行相关谈判,去试探一下。如果我们能和中国按文化、体育和其他组织的路线扩大经济合作,那么我认为这已是前进了一步。
现在谈一下近东。有人说,近东的事件和我们无关,这是不对的。问题在于,我们和叙利亚有着良好的关系,而叙利亚坚决反对以色列和黎巴嫩签订的协议,它们同伊拉克的关系不好。近来,同巴勒斯坦解放组织,特别是阿拉法特的关系出现了严重阻塞。一句话,我们这里有了也应想一想的问题。
如果看一下我们的宣传工作,那么可以认为,针对北约国家的军备行动还是十分平静的。当然,我们不应该用战争吓唬人民,但在我们的宣传中,需更鲜明地、更广泛地指出里根政府以及对其支持的西欧国家的军事行动,就是说,换言之,充分揭露敌人的侵略性质。我们需要这样做,是为了我们运用这些事实能够动员苏联人民来完成国家的经济和社会发展计划。我们不可以,同志们,在出现的局势中忘记巩固国防能力的问题。这些题目应该在我们情报手段工作中是经常性的。你们记得,勃列日涅夫在苏共二十六大上说,军事威胁临近了,因此我们应该进行坚决斗争反对西方军国主义和复仇主义思想的影响。事情本来就是这样:里根打电话给参议员,如果他们支持苏联的建议,他会指责他们背叛。为什么我们的报刊不反对玩忽职守、旷工者、不好好工作者呢?我请同志们就提出的问题发言,可能同志们还没有别的想法。谁想发言?
葛罗米柯:我完全支持安德罗波夫说的建议。首先关于召开社会主义国家、华沙条约国家领导人会议,我认为,这样的会议需要开。我想,应该邀请齐奥塞斯库来开这个会。我想这对我们是有利的。
安德罗波夫:他们恰恰请求进行咨询。
葛罗米柯:他们正是在这一点上有求于我们。华沙条约国家领导人会议将显示我们条约的团结,在核武器和裁减军备竞赛问题上确认我们的原则立场。在我看来我们应该在这个会议上通过文件,正如尤里·弗拉基米罗维奇 [40] 正确地说的那样。这个文件应该表达得清楚、明确。长篇声明不需要,但应该是尖锐的、具体的。这将是我们华沙条约国家的集体行动。这样的集体行动是需要的。
谈判怎么办呢?我完全支持尤里·弗拉基米罗维奇关于把欧洲核武器谈判和战略武器谈判合并进行的建议。正如大家知道的,里根抱定的目的是不惜任何代价在北约欧洲国家部署核导弹“潘兴2”和巡航导弹。产生了问题:我们怎么办?是继续谈判吗?众所周知,西方国家,其中有许多国家是准备部署的。所以,应该提一点新鲜东西。因此,这个合并谈判的建议正好也将符合我们的利益。
安德罗波夫:应该邀请英国人和法国人来参加这种谈判,让他们参加,他们是核国家。
葛罗米柯:在我看来,英国人和法国人一定会拒绝谈判,但邀请他们仍然是需要的。这是对的。我想,主要建议是合并谈判。这个建议涉及限制整个核武器,就是说将包括这些谈判和战术导弹。在当时,西方国家本身提出过关于谈判所有种类核武器的问题。
安德罗波夫:这很好,让他们自己也说说是如何看这个建议的。
葛罗米柯:那时,我们接触说反对所有种类核武器的人要容易一些。我想,他们会来开会的,尽管我感到,他们将坚持在欧洲部署导弹。一句话,这件事情将有某种出路。
安德罗波夫:在任何情况下,我们都不会由此失去什么。
葛罗米柯:美国人那里出现了某些想法,确实,它不是正式的,但很重要他们可能同意这种合并。无论如何,这条路线我们应该实行,不能迟了。我们将有备用方案——这是限制战略核武器和欧洲核武器谈判的继续。大家知道,美国说到,他们会发动第一次打击,那只是回应侵略。我想,他们没有足够的理由是不会发动核打击的。像加拿大、英国、法国、西德这些国家,是反对发动第一次打击的。我们也应该在宣传和实际行动中灵活利用这一点。
关于日本。我有这样的建议:我们是不是同意就齿舞岛、国后岛和实质上只是一些弹丸之地的其他小岛提出的建议,并划分边界,也就是把边界确定下来。这只不过是一个有关威望的建议。
安德罗波夫:我说到日本时,不是指这个建议。我说的是联合开发某些小岛。
葛罗米柯:可把这个和那个建议结合起来。这些岛屿是海洋中的小点点,没有这样大的战略意义。
关于中国。中华人民共和国表示希望扩大经济联系。甚至在实际上,它已在这方面采取了某种措施,例如扩大商品贸易额。
安德罗波夫:正如我说的,这还需要观察。
葛罗米柯:我想,中国人不会做更多的事情。他们提出部队撤离边界作为关系正常化的条件之一。我认为,可以考虑一下这一点。但是之后,中国人已经开始把重点放在要越南军队撤出柬埔寨上。
安德罗波夫:我认为,看来我们不应提这个问题。
葛罗米柯:关于蒙古。可能应该把部分军队撤离边境。近东有危险,以色列将打击叙利亚。如果叙利亚破坏了里根的计划,那么美国人将会失败。
安德罗波夫:我想提个建议,提醒叙利亚,劝它不要卷入这场冒险中。如果事件开始了那么我们应该要早一些将这件事告知叙利亚领导,并制订相关的计划。
葛罗米柯:叙利亚把坦克开往黎巴嫩。任务在于我们如何劝叙利亚领导人放弃卷入军事事件。
安德罗波夫:可能就这个问题写封信给阿萨德如何?
葛罗米柯:我们在防御方面做的一切,应该继续做。计划部署在我们这里的所有导弹,要提供,我们计划在那些点安排飞机,要定下来。看了“七国集团”通过的美国声明,应该说,这是很狡猾很强硬的声明。但声明中有小漏洞,我们应该想一下如何利用。不过现实生活中发生的是,它们将把所有导弹部署在英国、西德和其他国家。
我认为,尤里·弗拉基米罗维奇关于应积极开展工作,积极反对我们敌人的帝国主义阴谋的建议是完全正确的。
关于蒙古,应该说一下。如果我们把驻扎在那里的苏联军队撤回我们的领土,那么我们将失去一块好的进攻基地,失去主防御阵地前的设施地带。要知道,我们在那里一切设备都安装好了。
所以在苏联边境上,做任何挪动,我们简直是无处可动。
关于柬埔寨和越南,我们需要保留那里取得的阵地。尤里·弗拉基米罗维奇说的措施,应该支持。我们将仔细地研究这一切,并且想一下我们的行动。也要考虑一下维也纳谈判。
日内瓦谈判,既有欧洲核武器谈判,又有战略武器谈判。我真的认为合并谈判是个正确的建议。由安德罗波夫提出这个建议可能是合适的,同时提出比如说核武器,其中包括法国和英国核武器裁减50%的建议。
吉洪诺夫:英国和法国将不会同意这样做。
乌斯季诺夫:如果他们不同意,那么我们的建议发到全世界。对中程导弹,西方国家不会拒绝将其部署欧洲。
葛罗米柯:那么缩减什么?
乌斯季诺夫:可缩减所有导弹。
葛罗米柯:我们建议过这一点。
乌斯季诺夫:是的,建议过,但我们应该还要提建议。关于日本,我想说,只可看一下某些不大的岛屿,但至于像国后岛这样的大岛屿,那我们已在那里十分可靠地定居下来了。例如我们只能通过拉彼鲁兹海峡走出日本海,而且应该说,我们在这里十分拥挤了。
关于召开兄弟国家领导人会议。我完全同意尤里·弗拉基米罗维奇的意见。应该揭露西方国家,它们的军事声明和军国主义的声音。也许,安德罗波夫甚至应以某种形式对这个问题发表看法。
葛罗米柯:我在会议上将有个报告,看来在这个报告里也应该提出一系列建议。
乌斯季诺夫:我方可能对记者发表谈话吗?一句话,应该积极工作,召集兄弟党,和他们谈这个问题。
契尔年科:即使罗马尼亚不签字,那么没有罗马尼亚签字也可以通过建议。
乌斯季诺夫:日本暂时没有参加西方国家的军事组织。所以,我们应该不仅影响日本,而且影响其他国家。不仅我们表示反对里根政府、英国人、日本人和其他人的军国主义意向,而且兄弟国家也要做这件事,兄弟国家的领导人也要发言表示。顺便说一下,他们在这方面一言不发。我们应该,同志们,建立和巩固社会主义阵营,但要善于这样做。遗憾的是,越南和中国的关系很尖锐。中国反对越南,指责它在边境挑衅;而越南在这方面指责中国。总的说来,这两个国家的关系很紧张。
我完全同意尤里·弗拉基米罗维奇的建议,针对军备竞赛加强反战宣传,反对西方国家特别是美国政府的错误建议。显而易见,我们也需要考虑一下建立同宇宙相关的指挥部问题。大家知道,美国人已建立了宇宙指挥部——宇宙委员会。一句话,我想说,我们应该更广泛地宣传我们的建议,揭露西方国家的好战意图。
安德罗波夫:当然,我们无法改造里根,但要用最坚决的方式揭露他的反苏军国主义言论。
吉洪诺夫:里根已经不会对我们的建议做出反应。至于合并谈判,这也是我们一个重要的建议,应该把它提出来。当然,他们会把导弹部署在西欧,但我们应把这一点广泛地、清楚地告诉我们的人民和所有其他国家的人民。苏联政府的声明是一个很严肃的文件。现在应该开展宣传,揭露西方的行为,强烈影响人民。我想,尤里·弗拉基米罗维奇说的会议,应该无条件的举行。同时,应该设法提示给我们的兄弟国家,使它们每一个,比如说民主德国、捷克斯洛伐克、匈牙利都分别发言,例如主张设立欧洲无核地区,或谈别的问题。比如说日夫科夫可以谈巴尔干的无核区。现在谈中国。扩大苏中商品贸易额的所有倡议,都是从中方发出的。这很重要。所以,我们需要分析关于进一步扩大同中国的经济和其他关系的基础,并派阿尔希波夫同志去中国谈判。
至于部队撤离边境,我想这件事是不现实的。
关于叙利亚,我认为,同志们这里说的完全正确。如果叙利亚陷入冲突中,那我们会失去在近东拥有的一切。而我们需要叙利亚留在我们的轨道上。所以,应该和叙利亚领导做大量工作。应该在我们的宣传中找到这样的方法、这样的形式及其实施方法,以便将核战争的真相告诉人民,但不是吓唬他们,这正像尤里·弗拉基米罗维奇正确地说到的那样。
契尔年科:尤里·弗拉基米罗维奇今天召集我们是完全正确的,有关华沙条约国家领导人会议的建议是对的。如果仔细看一下我们的朋友——捷克人、民主德国人、匈牙利人和保加利亚人,那么会产生这样的印象,这些国家的领导人对事情的现状没有大的担忧。所以,召开会议事实本身将有重大意义。我认为,正像尤里·弗拉基米罗维奇在发言中正确地说到这一点,需要在最近时间召开会议。
众人:支持召开会议建议。
契尔年科:在这次会议上,也可以谈及中国,谈及近东以及其他重要国际局势问题。我认为,尤里·弗拉基米罗维奇在发言中提出的所有问题,都是很好的。那里召集了西方侵略国家的“七国集团”,我们也是“七国集团”,我们需要召集起来,但这已经将是为裁减核武器、为和平而斗争的“七国集团”会议。
关于尤里·弗拉基米罗维奇所说建议的拟订,我认为需要考虑到我们的利益,好好准备并提交中央委员会。
格里申:我完全同意尤里·弗拉基米罗维奇说的。出现的形势很严峻、很危险。“七国集团”声明,它们将在欧洲部署导弹,这带有厚颜无耻的性质。在反苏的基础上,真的建立了集团。西方国家竭力在核武器方面建立对华沙条约国家的优势。还应该在北约会议召开前开会。
葛罗米柯:也可以在北约会议召开之后。那时,我们就可以知道他们在有些问题上的观点。
格里申:在会议上,我们应该号召社会主义国家积极反对帝国主义国家。至于邀请罗马尼亚,我是赞成邀请的,虽然也没有保证它会签署这项声明。当然,它们表现得很差。大家知道,不久前,齐奥塞斯库接待了施特劳斯,并且在与他交谈中说了很差劲的话。我想,真的应该准备一个简短而尖锐的文件,交会议通过。
我完全赞成在我们的报刊上开展广泛的宣传工作以及口头宣传尤里·弗拉基米罗维奇说的内容。
安德罗波夫:我们在这方面暂时还做得少。
格里申:我想,我们应该寻找一条路缓和我们与日本的关系。我们同中国,可在更高的水平上发展经济关系。当然,中国人不会放弃柬埔寨,在这个问题上,我们和他们将不会达成协议。我想,我们应该阻止叙利亚人采取没有理由的活动,以使他们不陷入军事冲突。
安德罗波夫:你们记得,我当时告诉古巴人,我们将不为他们战斗,也不准备派部队去古巴。还好,古巴人接受了这个意见。这一点也应该告诉叙利亚人。我想,这个声明将会阻止他们卷入冲突。
戈尔巴乔夫:您说得对,尤里·弗拉基米罗维奇,现在这个时期,号召我们加强行动,采取必要的措施,开展反对西方国家侵略阴谋的广泛工作。在内部计划上,我们也有重大的任务。也可根据经互会、华沙条约组织和个别社会主义国家的线路采取例行措施。我完全支持关于召开会议的建议以及这里说的其他措施,其中也包括军事方面的措施。美国在进入欧洲,那我们不可以等待,需要行动。
阿利耶夫:尤里·弗拉基米罗维奇的所有建议,我是完全支持的。这是必须进行的一整套措施。我们的对外政策具有进攻的性质,而且是和平进攻的性质。帝国主义分子被我们的建议所激怒。您陈述的一切,尤里·弗拉基米罗维奇,关于社会主义国家会议、改善同中国的关系、近东问题,特别是关于我们开展广泛宣传——所有这些建议都值得特别注意,并且应该通过。
杰米切夫:我们能不能以安德罗波夫的名义给里根写封信?
安德罗波夫:我将杰米切夫的建议稍加改动,先写信给“七国集团”参加者,而后可能的话,晚些时候也写信给里根。
波诺马廖夫:为回应“七国集团”的决议,我们需拟订我们的建议。可能在社会主义国家领导人会议后,国内要举行党的积极分子会议和群众集会。
乌斯季诺夫:这完全正确,但我们不能吓唬人民。
波诺马廖夫:例如6月20日,布拉格将召开和平大会。我们应该利用它来宣传我们热爱和平的建议。
齐米亚宁:我完全同意尤里·弗拉基米罗维奇说的。我请求允许从明天开始就实施这些建议。特别是召集主要报纸和信息工具的编辑开会,告诉他们这些任务,尤其是把我们宣传的芒锋对准里根及其侵略性建议。
库兹涅佐夫:我认为,也应该在议会联系这条线上积极工作,特别是我们议会代表团访问法国、美国和其他国家的方向上。显而易见,在会上葛罗米柯的报告中,应该就这些问题说一说。
安德罗波夫:现在,我想说,同志们,我想通报你们的最主要内容。说的是改进我们所有部门的工作以及提高我们领导人本身对被委托事务的责任心。这不只涉及我——安德罗波夫、葛罗米柯、乌斯季诺夫,我们大家都要对领导的那些部门的事务现状亲自负责。吉洪诺夫同志应该把粮食问题牢牢抓在自己手里。这是个很重要的问题。戈尔巴乔夫同志要少借口天气,而要组织争取丰收,动员人们不去说干旱,不借口坏天气,而是要更多地工作,为的是利用每个好天气、每一分钟来获取更多的产品,利用我们能够做的一切来增加粮食收成和其他动植物产品。阿利耶夫同志的重要事情,是改善运输工作。卡皮托诺夫同志应该加紧生产居民消费品,在这方面应该做得更多更好。杰米切夫同志应该更严格地对待剧院的剧目,我们在这件事上缺点已经很多,发展文化的其他问题也要求大大注意。对您,彼得·尼洛维奇 [41] ,这方面有大量需求。我不说其他同志了,他们都知道自己的部门、自己的任务。我在想,应该召集所有自己的下属单位,给他们讲一讲我们今天说的那些任务。可以全体召集或者分组召集,要看怎样做更好。
乌斯季诺夫:可能,我和斯米尔诺夫 [42] 同志一起召集全体防卫人员,同他们说一下我们的防卫事务。
吉洪诺夫:我将召集部长和副部长,同他们说一下所有这些问题。
鲁萨科夫:显然,应该盘点社会主义国家在这方面做的一切,然后向它们说出我们的建议,并提出同志式的劝告。
安德罗波夫:同志们,这一切都可以做,并且我想,你们要积极地做这些事情。有这样的建议,委托葛罗米柯、乌斯季诺夫、齐米亚宁同志总结我们在会上说的一切,并且关于反对帝国主义国家旨在激化国际局势的阴谋措施的建议。别拖延这些建议的准备,要把这些建议交给中央委员会。对此同意吗?
全体:同意。
安德罗波夫:请允许我们的会议至此结束。
РГАНИ,ф.89,оп.42,д.53,л.1-14
№25988 驻英使馆的情报:英国对待中英关系的态度及其趋向(1983年6月20日)
苏联驻英国大使馆
伦敦
第751号文
英国在对待中英关系问题上的态度及其趋向
(情报)
1983年上半年英中关系的发展总体上不是很顺畅。
去年9月撒切尔对中国的访问没能解决双方关系中的“棘手”问题——关于香港未来的地位问题和双边贸易不平衡日益加大的问题。
尽管访问后伦敦和撒切尔表示将继续努力,但保守党领导层在今年最初几个月在推动中英关系沿主要方向发展上没有取得什么明显的成果。
中共十二大后中国发生的事件令英国人无法相信:邓小平集团在稳定国内局势,其中包括各省局势方面取得了彻底胜利,他使军方从属于自己,普遍认为左派分子在军队中一直拥有强大影响。当地一些著名的汉学家都倾向于这样一种意见,认为中国逐渐形成了以邓小平的两位主要战友——国务院总理赵紫阳和中共中央总书记胡耀邦——为核心的独立集团,这可能是中国领导层内新一轮党派斗争的结果。
在这种背景下,部分英国商人暂时不愿意同中国签订长期贸易合同,首先是因为英国在中国的投资无法得到英国政府方面的财政担保。这在很大程度上体现在双方接触的氛围上。4月,前商务部长考菲尔德在香港逗留期间特别强调增加英国私人资本参与的愿望,英国政府将努力在英中经济合作方案中予以明确。今年2月,北京决定放弃同英国签订总额为1亿英镑的对中国海军8艘军舰进行现代化改造的合同(提供“海标枪”导弹、雷达、作战指挥系统等),撒切尔在访问中国期间曾单独讨论过这份合同,这事件被看作是中国领导层内部存在政治纠纷的新证据,它挫伤了英国实业界中把中国看作是一个值得期待的、务实的伙伴的信心。
北京在对待苏联和美国态度中的一些新因素令英国人很警惕。当地许多汉学家认为伦敦官方事实上相信这样一种观点:中国不会成为西方反对苏联的“天然盟友”,有必要提醒中国从现有条件出发对自己的态度做某些改变。
目前,伦敦把自己的主要精力集中在“挟持”中国站在亲西方立场上,利用现今中国领导层的“实用主义”态度,保存对它的对外政治方针施加影响的渠道。
英国汉学中心,首先是现代中国研究所、牛津大学(圣安东尼学院、纳菲尔德学院、女王伊丽莎白学堂)最近几个月从新形势出发积极制定处理同中国关系的建议。
BBC的工作人员在最近同我们的几次交谈中承认,他们已得到建议,注意关于中国的正面材料,不要强调中英关系中的复杂问题,培养当地实业界对发展同中国关系的兴趣。
一些著名的汉学家承认,在英国汉学界出现了各种分工,围在撒切尔周围的,实质上是完成“政治指示”的那些汉学家的地位得到了提高,有针对性地营造关于有可能成为西方重要伙伴的中国的社会舆论。
近来当地的汉学家,其中包括现代中国研究所的汉学家表示,英国外交部提出这样一条路线——似乎不应该期待苏中关系因有某种“戏剧性”发展而经受“过度不安”。英国人积极看待就一些重要的国际问题同中国进行双边协商的前景,从今年4月起,就在欧共体的框架内进行。胡耀邦对罗马尼亚和南斯拉夫的访问在这里被评论为北京方面就一些涉及西方利益的重要政治问题对社会主义国家施加影响的“有益”尝试。近来,今年初赵紫阳访问非洲后,中国在对待发展中国家,其中包括非洲国家(向津巴布韦提供军用飞机,同安哥拉建立外交关系,同非洲人国民大会积极联系,等等)的态度上出现了一些新因素,对此,英国人不再大肆宣扬自己的关切。
与此同时,还应注意到一些亲近政府的政论家的言论,他们在秘密谋划在讨论一系列新的重要国际问题,其中包括亚洲核武器问题上把中国拉到西方一边的思想,包括在亚洲的核裁军问题上甚至可能会试图在中国的帮助下开展适用于远东的著名的“零点方案”。(例如,今年2月,女王学院教授Л.弗里德曼就表达过这个意见。我们还注意到,6月13日,我们在同中国社会科学院西欧研究所所长① [43] ——他是应现代中国研究所的邀请在伦敦访问的——会谈时谈到中国想改善同苏联关系的愿望是“真诚”的,阻碍这一进程的“主要原因”是苏联在西伯利亚和远东地区部署“SS 20”导弹。)
英国外交部代表,其中包括远东司司长М.艾利特,最近在同我们会谈过程中在评价英中关系前景时,强调出现了“新气象”。
他们的理由是,在邓小平集团推动的改革进程中中国的社会经济出现了进步,巩固了北京在国际舞台上的“实用主义”形象,以及在同西欧国家经济关系中的“开放”政策,展现了中国在其同美国关系复杂化的条件下努力发展同西欧国家关系的愿望。此时他们期待在6月召开的第六届全国人民代表大会能通过“有利的”决定,允许积极发展英中关系。
在今年3月国务委员、对外贸易部部长和对外经济联络部长陈慕华访问英国后,这里开始谈关于重新燃起的期待——伦敦能够克服中英贸易衰落的迹象,尽管英国武器出口的前景变得黯淡。(1982年英国同中国的贸易额达到2.96亿英镑。1981年为2.98亿英镑,1980年为3.22亿英镑;1981—1982年英国贸易逆差从4600万英镑增加到9000万英镑。1982年同台湾的贸易额提高到4.6亿英镑,同香港的贸易额达到16.05亿英镑。见《海外贸易统计》1983年4月。)
今年5月,中国同英国石油公司率领的外国财团签订的第一个关于在南中国海和黄海这些被认为石油勘探前景较好的地区勘探石油的协议被看作是一项重大的成就。英国人更期待与中国合作在广东省(大亚湾)建设核电站,为此在今年4月还签订了一项专门协定。期待同英国公司的贸易额能从6亿英镑增长到10英镑。今年4月,英国电力系统设备公司同中国草签在中国南部建设两家核电站的协定,被认为是第二项成就。
双方互访也活跃起来(参见附件2)。继陈慕华访问英国后,卫生部部长崔月犁、冶金工业部部长李东冶、深圳特区代表团、海洋石油开采专家先后访问了英国。8月,中国石油工业部部长唐克的访问值得期待。英国能源大臣和负责贸易与工业事务的大臣打算访问中国。
未来几个月,中国将在曼彻斯特开设总领事馆,英国将在上海开设总领事馆,领事馆的主要任务之一是收集经济情报,推动英国公司和相应的中国组织进行联系(前驻北京大使馆商业参赞孟德惠被任命为总领事)。
近来,双方贸易联系的特点是,主要是在政府层面接触和在中国南方实施合作方案,广东也被包括在内。此时,英国观察家注意到,无论是英国,还是中国,在对待香港的态度问题上都出现了新变化。可以看出,在双方的大众传媒中香港主要是作为业务伙伴及中国和英国的中介被提到的。近来,英国人在回避讨论关于伦敦和北京在香港的主权归属问题上的分歧。
中国态度的积极变化被认为是北京同意英国人关于香港总督尤德参加公开谈判的意图(去年尤德两次返回伦敦同撒切尔进行专门商谈)。当地实业界代表指出,陈慕华访问英国后,看来双方彼此同意不再把精力耗费在主权问题上,而是从维护香港的“繁荣与稳定”出发,集中在有香港参加的双方经济合作中来。
伦敦现代中国研究所,包括英国外交部的专家们近来公开表示,英国承认中国对香港(包括两个殖民地领土)的主权是“不可避免的”,但指望能通过书面协议的形式要求中国在移交主权后切实保障英国在这块土地的利益。英国专家们,以及一些中国问题外交家,最近在同我们会谈时表示,看来,北京6月会议后,会提供这种保障。这是伦敦的理由,还应该指出,今年5月末尤德就谈过,他认为今年就香港问题达成双方都能接受的决定是可能的。
从我们同英国人的接触中,在外交使团内部形成一种印象:依靠伦敦和北京的相互呼应的措施,在香港问题上取得了进展。为此,双方极力避免彼此之间的政治摩擦。
英国人逐渐降低了中国人不可能接受的关于在香港的管理机构中保留英国人的地位的要求。看来似乎对英国先进技术经香港进入中国也持好感。
同时,中国积极发展同英国的经济往来,英国提出的几个关于香港的建议也被接受,这被看作是中国想消除同英国保守党领导层关系中分歧的表现。
英国政府中一位主要的保守党分子С.什拉姆在同我们谈及苏中关系问题时指出,英国人认为,北京恰恰是对英国保守党政府发展关系感兴趣,英国政策把中国的注意力由苏联转到了西方,并为中国增强自己在亚洲和发展中国家的势力提供了可能。
从最近我们同驻伦敦的中国外交家们的会谈中可以看出,他们对撒切尔获得6月选举的胜利给予积极评价。按照他们的意见,中国期待伦敦能表现出“极大的灵活性”和“理解中国对于改善同英国关系的努力”。
这样,尽管英中有关系比较复杂,双方对发展经济和政治合作继续表现出明显的兴趣。
不排除在双方都表现出积极推动双边关系意图的条件下,这种关系会随着时间的推迟而得到进一步的巩固。
АВПРФ,ф.0100,оп.70,п.309,д.21,л.5-10
1984年
№21961 苏共哈巴罗夫斯克边疆区委会议记录:恢复苏中友协活动的决定(1984年1月29日)
苏共边疆区委员会决定:
1.坚决贯彻和执行苏共中央《关于苏中友好协会各地分会工作》的决议。
2.定于今年2月15日在哈巴罗夫斯克市举行有社会团体、科技文化、企业单位、国营农场和驻军等各界人士参加的会议,讨论恢复苏中友协哈巴罗夫斯克分会的活动。区委宣传部部长В.М.萨利尼科夫将作主旨报告。
3.建议由阿穆尔河运局局长А.М.苏霍夫任边疆区苏中友协主席。
4.此次会议由苏共边疆区委宣传部(В.М.萨利尼科夫同志)和苏朝友协哈巴罗夫斯克分会(А.Г.季利琴科)负责筹备召开。
苏共哈巴罗夫斯克边疆区委员会书记
А.К.乔尔内
1984年1月29日
ГАХК,ф.п35,оп.111,д.48,л.3-4
№25990 拉古林的报告:澳门问题及苏联的立场(1984年7月21日)
副本
澳门通常被看作与香港类似的问题。(澳门——中国东南部的领土,位于中国南海岸边和珠江三角洲地区。由南端的澳门半岛和两个相邻的岛屿组成。总面积为16平方公里。人口超过40万人,其中中国人的比例超过98%,其余为葡萄牙人和其他来自欧洲的移民。官方语言是葡萄牙语。)中英签署了确定香港未来地位的协定之后,自然,会出现一个问题,即何时以何种方式解决澳门问题。澳门问题与香港问题的不同之处在于,从1974年开始,中华人民共和国与葡萄牙之间就这一问题从未出现过什么冲突。(截至1974年底,澳门的短期殖民地历史概述如下:1555—1557年间,在同意中国保持对澳门主权的同时,葡萄牙正式从中国当局中租借出这一地区,并建立了自己的行政机构。但是,1680年葡萄牙违反协定,在澳门委派了葡萄牙总督。1849年,葡萄牙政府宣布澳门从中国独立出去,而依据1887年葡萄牙强加给中国的议定书,葡萄牙获得了澳门地区的“永久管理”权。1940年,日本侵占了澳门。1945年日本战败后,澳门被归还给葡萄牙政府。1951年,澳门取得了葡萄牙“海外省”的地位。)1974年4月,推翻法西斯制度之后的葡萄牙新政府向中国方面表示,准备进行双边的会谈来确定澳门未来的地位。
但是,中国当局回避了明确而最终解决这一问题,他们同意在1975年阶段性地解决这一问题,根据这一解决办法,澳门成为了处于葡萄牙管理下的中国领土。葡萄牙新政府通过了承认所有“海外领地”的人民拥有独立和自决权的法律。根据葡萄牙1976年公布的关于管理澳门的“组织法”,澳门地区取得了行政、经济以及财政上的广泛自主权。
在1979年中华人民共和国与葡萄牙建立外交关系时,1975年关于澳门是葡萄牙管理下的中国领土的特殊地位得到了确认。澳门总督阿尔梅达认为,澳门的这种特殊地位被看作是“最符合两国人民友好氛围的解决办法、是中葡社区生活的典范”(《亚洲周刊》1984年1月13日)。但是,澳门在行政上保持对资本主义国家的实际从属地位,本质上表明了在这一地区仍保存着殖民主义制度。
1984年年中,中华人民共和国外交部部长助理周南宣称,澳门现在的地位是令人满意的,且不会成为中葡关系复杂化的原因,同时,中国领导人认为,在这一地区应当维持现状。他表示相信,既然像香港这样复杂的问题都能够找到使双方都可接受的解决办法,那么,“找到解决澳门问题的办法也不困难”(路透社1984年7月17日报道)。与1983年中方强调中华人民共和国不仅要恢复这一地区的主权,而且在彻底解决香港问题的同时恢复这一地区的管理权相比,这份声明说明,中华人民共和国在澳门问题立场上的一定变化。
周南的言论在某种程度上也说明,葡萄牙行政机构(总督阿尔梅达)深信,暂时“没有理由相信,香港新的行政管理计划会自动适用于澳门”,并且在中国方面把解决澳门问题当作头等大事之前,也没有理由会使北京首先要求改变澳门的现状。
由于通过了澳门总督坚持要求下的旨在增加澳门立法大会中的中国社区代表的新选举法,亲北京的澳门中国贸易总局局长发表了如下言论:“我们不想违反现状。我们希望考虑到所有派别和各个阶层居民的要求”(《远东经济评论》1984年5月17日),这些言论在某种程度上证明了北京对改变澳门的现状并不感兴趣。根据《远东经济评论》杂志社的观点,北京对通过的新选举法并未给予赞赏,因为中国地方社区更广泛地参加立法大会似乎会动摇澳门地区的稳定性,或者会“将北京领导人置于为难的境地”,因为按照地区现状来看,澳门的政治问题应当由北京和里斯本来直接解决。
澳门地区形成的局势使北京感到满意,在这一局势下,葡萄牙事实上承认了中华人民共和国对澳门的主权,而葡萄牙行政机构在澳门的存在说明这一地区属于世界资本主义体系,北京则从中获得了实质性的好处。在澳门,大量的土地所有权、很多饭店和银行都属于中国,中华人民共和国通过澳门进行过境贸易,包括用来走私鸦片和其他商品的走私贸易,并且每年从中国人控制的商务、赌场、娱乐场所以及其他企业中获得大量的收入(根据1975—1983年的资料,这一时期内,中华人民共和国每年从澳门获得的收入大约为5000万美元)(《国外》1983年第35期)。也就是说,现在澳门对中国来说即使不是头等重要,但也是兑换外汇的稳定来源。显然,保持澳门地区的特殊地位首先是符合中华人民共和国的经济利益的。
1978年12月中国共产党十一届三中全会确定了实施旨在积极吸引和使用外国资本以及建立“经济特区”的“改革开放”政策。在众多的经济特区中,建立了毗邻澳门地区的珠海经济特区。
近几年内,在珠海经济特区进行的工业、商业以及住宅工程项目建设正飞速发展。珠海经济特区在1984年用于建设资本投资的总额大约为1.75亿美元,几乎超过了自建立珠海经济特区以来过去4年基本建设投资额的4倍。同时,这一年开始建设了10个大型的工业工程项目(1984年7月21日,新华社报道)。
不能把中国方面在澳门地区建立经济特区和现在强化这一地区的发展看作是偶然的。北京致力于从临近澳门的珠海特区中获得收益。最近几年,澳门同珠海之间经济的相互关系正在扩大,同澳门之间的联系被列入珠海经济特区活动的总计数字,成为其不可分割的一个功能。从这里可以得出结论,尽管澳门在行政和经济上仍然是资本主义国家管辖下的区域,但在“改革开放”政策和接近西方的背景下,它已经被北京广泛地利用。保留葡萄牙在澳门的行政机构,可以在符合北京政治和经济利益的前提下实现对澳门地区的广泛利用,这显然说明中国领导人不想很快彻底地解决澳门地区的领土问题。
近几年内,澳门总督阿尔梅达的行政机构正着手采取某些使澳门地区经济生活集约化的措施。比如,打算在其中的一个岛屿上建设深水港口;由西德顾问进行研究建设国际航空港的可行性;由英国“有线和无线公司”在澳门地区铺设现代化的电缆系统。近几年内,出口总额显著增长,住宅建设计划得以实现,年度预算中45%的财政开支被用于行政支出(《国外》1983年第35期)。假如葡萄牙政府相信,在最近几年内将会失去澳门,那么这些使澳门经济活跃的措施大概不会被实施。
中华人民共和国外交部长吴学谦也宣称,澳门问题仍然没有解决,但是当时机来临时,这一问题早晚会通过友好谈判的途径得到解决(1984年2月19日,新华社驻里斯本报道)。
据《里斯本报》报道,葡萄牙总理М.苏亚雷斯不久前曾说过,“澳门不会成为第二个香港”。注意到双方默认在可预见的未来不会解决澳门问题,可以得出结论,М.苏亚雷斯上述的言论意味着他相信,即便在彻底解决香港问题的情况下,也存在着保持澳门现状的可能性。或者,葡萄牙总理在自己的言语中所说的是这样一种可能性,即同香港相比,中葡双方在澳门问题上能更快更容易地达成双边协议。
苏联在澳门问题立场上的结论:
应当继续支持中华人民共和国对澳门的主权,支持旨在彻底消除澳门地区殖民主义残余的行动。应当在报纸阐述事实和有关澳门的事件,从客观新闻报道的角度正面评价中葡双方各自解决澳门问题的打算。考虑到最近一段时间内中华人民共和国和葡萄牙在维持澳门现状上的共同兴趣,出于政治上的考虑,显然,不应当批评延期解决澳门问题。
在中央报刊出版物的文章中,不应当强调有关中葡澳门条约的不平等问题。因为,首先,1974年以后,尤其是葡萄牙通过了承认其海外领地拥有独立自主权的法律后,这些条约失去了其本身的历史和政治意义;其次,为了不引起中国人发表中华人民共和国在中俄边界条约“不平等”问题上的观点。
为了苏联同葡萄牙进行对话,在对葡萄牙保持其在澳门地区的总督进行批评的时候,应当极其谨慎,因为葡萄牙并不否认中华人民共和国对澳门地区的主权,也不坚持葡萄牙行政机构永久存在于澳门。
在官方报道中继续使用中国对澳门的称呼是合适的,必要的情况下顺便提提葡萄牙对澳门的称呼。
与此同时,在我们的学术出版物中可以将邓小平“一国两制”(以香港和澳门为例)的构想作为资产阶级趋同论的一种变种,以适当的形式来进行学术批判。
该材料由萨夫罗诺娃Е.И.准备。
中国对外政策研究室代理主任、
中国与欧美国家关系研究室室主任
Г.И.拉古林
АВПРФ,ф.0100,оп.71,п.314,д.20,л.114-120
№21960 乔尔内致苏共中央报告:哈巴罗夫斯克与中国恢复往来情况(1984年11月1日)
致苏共中央委员会:
哈巴罗夫斯克边疆区地方组织与中国边境省恢复往来的情况
中华人民共和国成立后直到1958年,边疆区各部门同毗邻的黑龙江省一直保持着友好交往,两地互换党、政、共青团代表团,地质专家、河运和铁路交通、林业等方面的代表团,还有旅游团。边疆区的边防部队和卫生保健部门给黑龙江省人民提供过各种援助,包括抗洪和救治病人。
1956—1958年边疆区有6个代表团访问黑龙江省,共36人,其中3个是党、政府和共青团代表团,另外3个是林业专家、阿穆尔河运局专家和苏中边境铁路委员会人员代表团。
哈巴罗夫斯克边疆区同黑龙江省没有互派过工会代表团。边疆区人员在黑龙江省访问时受到热情接待,参观了许多工厂、农业合作社和其他一些单位。
自1956年5月至1958年6月哈巴罗夫斯克边疆区向中国派出37个旅游团,共550人。
黑龙江省共有16个代表团访问哈巴罗夫斯克边疆区,共142人。中国科学院一个研究阿穆尔河的综合考察团,共50人,一直沿江进行科学考察。
中国代表团访问了哈巴罗夫斯克、阿穆尔共青城、哈巴罗夫斯克和比金区、犹太自治州,参观了工业、农业、学校、幼儿园和文化单位。中国客人在哈巴罗夫斯克市出席了庆祝十月革命40周年的活动,参加了边疆区1957年第一届青年联欢节和共青城市委第4次全会为建城25周年举办的活动。
这一时期边疆区和黑龙江省的体育部门也建立了一定的联系,举行过足球、冰球、篮球友谊赛。哈巴罗夫斯克市排球队和田径队也访问过哈尔滨。
哈巴罗夫斯克、共青城和比罗比詹三地的地方志博物馆举办了苏中小学生画展、中国美术作品展、中国代表团礼品展。为庆祝中国人民解放军建军30周年,军区军官之家举办了电影节。边疆区电影院放映过中国电影,共青城一家剧院演出过13世纪中国戏剧家王实甫的《芙蓉亭》。边疆区图书社出版过一些介绍中国的图书。
1958年8月哈巴罗夫斯克市成立苏中友协分会,这是发展双方交流的重要事件。9月该市各界人士举行大会隆重庆祝中华人民共和国成立9周年。
1959年双方完成了在阿穆尔河流域的地质、经济、环境和水利的研究工作。这年6月黑龙江贸易代表团访问哈巴罗夫斯克。
1959年8月比金市各界与黑龙江省来访代表团举行友好晚会和体育比赛,中国旅游团第一次访问哈巴罗夫斯克。边疆区到中国的旅游一直延续到1960年。1960年9月哈巴罗夫斯克举行边境地区贸易谈判。据统计,近3年来边贸增长4倍。1962年6月中国派一个15人组成的党政和新闻记者代表团访问哈巴罗夫斯克。
阿穆尔河运局人员也同黑龙江的同行保持着友好务实的关系。苏中河运联合委员会于1951年成立,委员会每年轮流在苏中两国举行会议,直到1957年委员会每年讨论河运问题和改善界河航运条件问题,并采取了双方均可接受的措施。
50年代双方进出口商品是通过船运交接的。1958—1959年运输量每年达10万吨(出口占60%,进口占40%),苏方船只占80%,中方船只占20%。自1962年起进出口贸易运输就中断了。
从中国文化大革命开始直到1977年,联合委员会未能定期开会,也没有解决任何问题。1970年的会议持续了5个半月,无果而终。1971—1972年的会议开了3个半月,连议程都没谈成。
1982—1984年阿穆尔河运人员同中方每年都有接触,联合委员会举行过3次会议,解决了一些问题,如讨论并批准航运工作计划,总结了双方执行决议的情况,还讨论了双方船只间发生的事故。
1963年在双方对界河进行联合考察时,苏方应中方三个县中苏友协分会的邀请访问了阿穆尔河和乌苏里江沿岸的三个地方。
这三个县友协的领导在谈话时说,以前中苏边界地区的人民来往密切,“恢复交往就好了”。
在1983—1984年联合委员会召开的会议上,中方表示愿意发展双方河运人员的交往,并建议阿穆尔河运局与黑龙江河运局交换体育代表队。
1984年中方正式建议交换河运专家代表团,这年联合委员会最后一次开会时,中方一再表示希望黑龙江和阿穆尔河运局担负起外贸货物运输。
远东铁路局的格罗捷科沃边境站与黑龙江省铁路员工也有过合作,有蓬勃发展的时期,也有过低落。
最近几年,合作中出现新的情况。从1981年开始,双方恢复业务函件往来,边境铁路联合委员会也开始定期开会。
边境铁路联合委员会开会要解决执行边界铁路协定和客运行李和货物出现的问题,会议轮流在两国举行,1981年在哈巴罗夫斯克召开,1982年在哈尔滨召开。会议基本上是在求实的气氛中进行的。目前铁路外贸货物运输量有所增长,1984年与1983年相比,中国向苏联的出口增加一倍。
目前边境站格罗捷克沃和绥芬河之间关系基本正常,两站站长每月会晤一次,解决日常工作中出现的问题和货物交接中出现的困难。
1984年中方铁路员工向远东铁路局员工祝贺新年,表示愿继续开展合作,加强友谊。
根据苏联部长会议1957年9月26日决议,哈巴罗夫斯克边疆区捕鱼和消费合作社联盟从1958年同黑龙江省贸易公司开展边境贸易。最后一份合同是1965年6月签订的,为期5年(从1958—1965年共签7个合同),双方人员核对收支的最后一次会议是1970年8月15日至9月15日在哈巴罗夫斯克举行的。1970年12月边疆区捕鱼和消费合作社联盟对黑龙江的出口就中止了。
边疆区捕鱼和消费合作社联盟出口的商品是:水桶、盆、铁锹、大镰刀、炉灶铸件、洗衣皂、制箍用铁、马拉式割草机、缝纫机、手表、木材等。进口的食品有肉罐头、苹果、西红柿酱、菠萝、西瓜、果酱、酸黄瓜、醋渍蘑菇、淀粉,还有纺织品、鞋、家具、瓷器、建筑材料等。
1960—1968年哈巴罗夫斯克边疆区与中国的边贸进出口基本持平,具体数额是:
1960年——214.7万外汇卢布
1961年——94.3万外汇卢布
1962年——107.1万外汇卢布
1963年——201.5万外汇卢布
1964年——112.8万外汇卢布
1965年——88.7万外汇卢布
1966年——199.8万外汇卢布
1967年——19.2万外汇卢布
1968年——15.6万外汇卢布
按1958—1965年签订的合同,边疆区捕鱼和消费合作社联盟与黑龙江贸易公司贸易总额为1043.7万外汇卢布。
根据苏联部长会议1982年2月23日的决定,1983年哈巴罗夫斯克成立了全苏远东外贸处分理处,负责赤塔州、阿穆尔州、哈巴罗夫斯克州、滨海边疆区与黑龙江、内蒙古自治区的边贸业务。哈巴罗夫斯克分理处行政隶属纳霍德卡全苏远东外贸处。
根据苏联外贸部与中国对外经济联系和贸易部1982年4月16日关于恢复两国贸易的换文,1983年10月至1984年9月,同黑龙江省和内蒙古自治区贸易公司举行过3次谈判,10次工作会晤。1983年3月会谈在中国举行,此后几次会谈是在外贝加尔斯克边境站、格罗捷科沃边境站和纳霍德卡举行的。
谈判商定了换货清单、供货条件和贸易额,签订了总额为277.94万外汇卢布的合同。
1983年哈巴罗夫斯克边疆区向中国出口下列商品:水桶、锌皮水桶、“比留萨”牌冰箱,“伊日Ю4к”牌和“明斯克”牌摩托车、打字机、照相机、窗用玻璃、400号硅酸盐、水泥、锯木、造纸木材、煅烧纯碱、尿素、硝基安福钾、冷冻鱼,总额88.48万外汇卢布。需要说明的是,有些出售的商品不是剩余产品,而是为满足边贸需要专门储备的商品。
中方出口的商品是红烧猪肉、花生、酱油、糖果、皮帽、暖水瓶、毛毯、毛巾和纺织品,总额89.93万外汇卢布。
1984年前10个月,出口商品177.775万外汇卢布,进口商品190万外汇卢布。
哈巴罗夫斯克边疆区进出口额是:
1983年——167.81万外汇卢布
1984年——367.775万外汇卢布
1984年中国贸易公司以及从事边贸的厂家希望全苏远东外贸处签订价值5000万外汇卢布的进出口合同。目前中国公司已提出明年进出口货单,价值约4000万—4500万外汇卢布。
苏方通过边贸进一步满足了远东居民对日用品和食品的需求。但在实施中也有一些困难。出口商品不能保证及时供货,消费合作社联盟没有边贸出口计划,这大大影响了供货。
1983—1984年,作为例外并经苏联财政部同意,全苏远东外贸处按零售价,而非批发价,与边疆区厂家对出口商品进行结算,从而严重影响了出口效率,不能向中国提供对方所需的商品。中国贸易公司购买的电冰箱、摩托车、打字机、汽艇等商品在使用期间需维修或更换零部件。但全苏远东外贸处和消费合作社联盟因没有储备,不能提供零部件。
为进一步同中国发展和完善边贸,外贸部应批准《与中华人民共和国开展边境贸易规定》,俄罗斯苏维埃联邦社会主义共和国部长会议应根据其掌握的资源以及共和国贸易部和消费合作社联盟市场储备,统一制订年度边贸出口计划;赋予边疆区利用自己的资源并根据中方的需要,制订出口年度计划的权力;允许边疆区境内企业,不论其部门归属,在获得相应部的同意后,可从事边境贸易;除消费合作社外,其他商贸单位也应列入边贸行列。
最近一个时期中方人员不只一次向苏方边防代表提出希望发展边境交往。对方多次转达了恢复各级,包括某些镇县之间的贸易往来,并期待我方贸易部门的答复。
为了表示大规模开展边贸的愿望,中方多次邀我边防代表参观专门组织的商品展览会、日用品商店和食品商店。
为了同苏联开展边境贸易,中方在哈尔滨和呼和浩特专门成立了贸易公司,并在绥芬河与满洲里设立了分公司。
与此同时,中方积极开展活动,谋求与各地友协建立联系。
据我们观察,中方发展边境交往的目的是,加快解决中国东北地区迫切的经济问题,并不涉及对苏联的基本政策。
有鉴于此,有领导地开展边境地区的交往,从长远角度看对两国关系可以产生积极影响,中国居民也能对发展苏中贸易发挥一定作用。同时,边境贸易有助于改善我远东地区商品匮乏的状况。
开展民间组织、文体等方面的交往应有计划地进行,不宜匆忙,应谨慎从事,并保持高度警惕。
苏共哈巴罗夫斯克边疆区委员会第一书记
А.К.乔尔内
1984年11月1日
ГАХК,ф.п35,оп.111,д.196,л.19-38
№21962 萨利尼科夫致乔尔内报告:黑龙江中苏友协代表团来访情况(1984年11月12日)
致苏共哈巴罗夫斯克边疆区委书记
А.К.乔尔内同志:
关于中国黑龙江省中苏友协代表团在哈巴罗夫斯克市访问情况
在十月社会主义革命67周年之际,应哈巴罗夫斯克苏中友协邀请,中国黑龙江省中苏友协代表团于1984年11月4—5日访问哈巴罗夫斯克。代表团团长——省友协顾问陈剑飞,副团长——省友协会长、省外办主任王耀臣,代表团团员——友协理事、黑龙江大学副教授孙梦彪(СуньМэнбяо),友协理事、省社科院工作人员徐景学(СюйЦэинсюе),省外办处长兼翻译李广(ЛиГуан)。
根据苏共边疆区区委办公厅批准的日程,安排代表团游览了哈巴罗夫斯克市容,参观了奥尔忠尼启泽工厂的技术检修厂、边疆区医院、铁道工程学院、“东方”缝纫厂、“苏联五十年”通用电缆厂、第30中学、地方志博物馆,会见了哈巴罗夫斯克苏朝友协和苏中友协积极分子。
应代表团请求,对哈巴罗夫斯克市苏维埃执委会主席А.С.潘琴科同志进行了礼节性拜会,王耀臣会长、孙梦彪副教授会见了哈巴罗夫斯克师范学院院长В.В.罗曼诺夫同志及其副手。所有会见从形式到内容都安排得很好,符合党和政府对中国总的政策精神。
中国客人所到之处洋溢着友好气氛,主人认真介绍情况,强调苏联人民愿与中国人民真诚友好,详细介绍了党和政府关心提高人民的福利。在边疆区医院同住院病人М.С.切坎的会见给客人留下深刻印象。切坎原是哈巴罗夫斯克造船厂工人,现已退休,曾参加过解放东北的战争。代表团团长对切坎同志表示由衷的感谢。
在参观过程中,中国客人欣然接受了各单位的纪念品:边疆区医院——介绍该医院的画册,铁道工程学院——相册和该学院画册、徽章,“东方”缝纫厂——便帽、桌布,通用电缆厂——哈巴罗夫斯克胸徽、工厂介绍画册,第30中学——儿童画册,市苏维埃执委会——哈巴罗夫斯克画册、糖果、香槟酒,哈巴罗夫斯克苏中友协——哈巴罗夫斯克全景画和电动刮须刀。
中国客人回赠的纪念品是葡萄酒、果汁、老虎油、石膏制的陈设品。
代表团团员开始时有些拘谨,第二天就放松了,提了许多问题,他们最感兴趣的是劳动群众的工作和生活情况、工资待遇、医疗制度、妇女的福利、政府部门和社会团体的职权范围、处理各种矛盾的方法,包括党政领导之间的矛盾。
在参观过程中客人还提了一些专门问题。在参观通用电缆厂时询问该厂工程技术人员数量,他们的研究工作和新技术应用情况,该厂隶属哪个部门,有没有自主营销权。在奥尔忠尼启泽厂的技术检修厂询问了该厂生产能力,石油的来源。在会见远东地质勘察公司总经理В.Б.希哈诺夫时,客人试图了解列宁斯科耶地区地下是否有石油,他们说,提此问题是因为黑龙江省松辽地区发现了石油。
应该指出的是,代表团成员在讲话时多次表示希望恢复和发展中苏两国人民的友谊。
同时也应指出,不论是正式讲话还是私下交谈,中方都没有谴责美国的政策和日本政府的军国主义方针。“日本侵略者”这几个字在代表团团长宣读的贺词里使用过,这是对方为庆祝十月革命67周年给边疆区苏中友协的贺信,另一次是在友谊之家讲话时使用过。
代表团成员的谈话没有涉及政治问题、国际问题,没有涉及两国关系正常化问题,他们讲得最多的是,黑龙江省与哈巴罗夫斯克边疆区应该开展交往,黑龙江省和其他各省在这方面有很大自主权。他们自己交谈时提到布拉戈维申斯克、哈巴罗夫斯克、符拉迪沃斯托克,都用中国名字,与苏方人员交谈时,都叫苏联用的名字。
代表团成员在提出交往建议时,一再表示甚至“显示”他们协会有权就合作签署任何协定,并且问:为什么你们自己不能做决定呢?我们向中国客人说明:对于与外国建立关系问题,全苏各地是有一定程序的,中方的建议可正式向苏联对外友好和文化协会联合会中央理事会提出。
从交谈中得知,代表团团长陈剑飞曾任黑龙江省政府副主席,“文革”中遭迫害,在八路军当过兵,1967年随阿穆尔河水资源考察联合委员会代表团访问过哈巴罗夫斯克,退休后任省友协顾问。据他说,顾问制度是新建的,目的是填补因“文革”造成的干部空缺,顾问制度是临时性的,各地年轻领导干部成长起来以后,这个制度使命就结束了。顾问人选由上级党的领导机关提名,陈是黑龙江省委提名的。
在正式讲话和交谈时,陈剑飞向苏联同志祝贺十月革命节,祝愿取得新的成就,表示中国人民热切希望与苏联友好相处。在与苏朝友协和苏中友协积极分子会见时,陈讲话说,中国人民永远不会忘记在反对日本侵略者和新中国建设中苏联提供的援助。
代表团副团长王耀臣比团长活跃,他曾在苏联留学。1983年访问过莫斯科。他在讲话中积极宣传中国的“门户开放政策”,从他们的介绍看,这个政策就是放开对外交往。
据翻译李广说,代表团成员在文革时期都不同形式受到迫害,他自己曾被戴上苏联特务的帽子坐牢1年,劳改6年。
除团长外,其他人都会俄语,对苏联文化艺术、科技、历史书籍兴趣很大。
告别时,代表团团长和全体团员对热情友好的接待表示感谢,并邀苏方回访。在告别晚宴上,代表团团长对广播电台记者称赞苏联人民对代表团热情友好,并说对美丽盛装的哈巴罗夫斯克以及这里的人民印象很好,他回去后一定要向别人介绍。他感到遗憾的是,由于时间不够,没能看更多东西,还有许多问题没有问。
中国客人还说,中苏两国人民的友谊有深厚基础,而会见、交谈和参观一定为双方新的更有成效的合作、为巩固友好睦邻关系揭开新的一页。
中国代表团提出一项建议:双方联合投资在黑龙江省建铁路、煤矿,改造牡丹江冶金厂,扩大边贸和增加商品品种,中国提供劳力在苏联伐木,交换体育代表团、旅游团,高校之间开展交流。在拜访市苏维埃执委会主席时,代表团建议黑龙江省和哈巴罗夫斯克边疆区、哈尔滨和哈巴罗夫斯克市结成友好省区和友好市。
苏共边疆区区委就中国代表团访问哈巴罗夫斯克召开了总结会。
苏共边疆区区委宣传部部长
В.萨利尼科夫
1984年11月12日
ГАХК,ф.п35,оп.111,д.170,л.99-105
№25991 驻联合国及其他国际组织代表处的报告:澳门回归问题谈判(1986年11月27日)
苏联驻联合国分部及常驻日内瓦其他国际组织代表处
1986年11月27日
第5500号文
文本第7份
副本
葡中就澳门问题进行的谈判
(对西方报纸材料进行的观察分析)
1986年11月27日
1986年10月22日,中华人民共和国同葡萄牙进行第三轮谈判的结果,使双方就澳门问题达成了广泛的协议。为了对协议草案进行详细的讨论,成立了一个工作小组。根据新闻报道,双方取得了重大进展。
正如当地的观察家们所认为的,很有可能的是,澳门转交给中华人民共和国不存在困难,因为不论是葡萄牙还是中国都对此感兴趣。澳门对于中华人民共和国来说是“特洛伊木马”,它可以使中国商品渗透到欧洲市场。葡萄牙从自身出发,意识到了自己的主要困难,这些困难存在于保持葡萄牙在澳门的文化和语言以及保证生活在澳门的少数葡萄牙居民的权利。葡萄牙准备在离开澳门后,给中华人民共和国提供帮助以实施众多的社会、文化计划,另据葡萄牙当局代表的发言,生活在澳门的葡萄牙公民的权利将会得到完全的维护。但是,当地居民中的葡萄牙人对这些声明持怀疑态度,正如当地观察家们所指出的,他们已经在做离开的准备。
至于澳门的经济前景,那么有充分的理由认为,可以将澳门从赌博工业设施中心转变为商业和经济中心。最近几年澳门的旅游业发展迅速:每年约有600万外国游客来澳门旅游,而在1962年仅有25万游客。而最有利的是这样一个事实:更多的外国银行都在澳门开设了自己的分部。今年(1986年)就有来自日本、美国、欧洲、中国内地和香港的25家银行在澳门开业。在寻找国外资本方面,中华人民共和国致力于扩大自己同资本主义国家的联系,中国对澳门的关系政策就是这种努力的一个证据。为了将澳门的发展同中国大陆的发展结合起来,中国支持在澳门建设深水港口。与此相连的是,应当指出,中国在距澳门不远的地方建立了包括珠海在内的经济特区,在这些特区内外国资本获得了大量的特许权。距香港较近也促使了外国贷款和技术的引入。
因此,澳门拥有非常有利的地理位置,根据西方观察家的观点,20年以后,澳门将同香港以及广东一起成为中国、亚洲以至于太平洋地区的重要发展中心。
АВПРФ,ф.0100,оп.73,п.322,д.9,л.70-71
1987年
№25869 卢金的报告:就政治解决柬埔寨问题举行会谈(1987年12月16日)
关于我们就柬埔寨问题发出的倡议
我认为,应当提出如下建议:联合国安理会常任理事国特别代表应当就柬埔寨问题定期举行会谈。
在现代的局势下,这种会谈对我们会有一系列的好处。
首先,这些定期会谈会加强我们在政治解决柬埔寨问题上的积极作用;第二,这些会谈会同相关的外部主要力量建立进行磋商的渠道;第三,事实上会形成今后就柬埔寨问题召开国际会议的机制;第四,法国会积极起来(法国在该问题上可以起到非常有益的建设性的作用);第五,这些会谈在客观上会对那些希望阻止和平解决柬埔寨问题的所有人(首先是中国人)施加压力。
这些会谈可以在巴黎举行,最初可以是非正式的,在较低的级别上进行。经五大国协调一致可以邀请直接参与冲突的各方代表参加会谈,以便得到信息。
В.卢金 [44]
1987年12月16日
ГАРФ,ф.10026,оп.4,д.2867,л.1
1988年
№25941 沃罗比约夫与李凤林会谈记录:苏联要求中国关注越南的照会 [45] (1988年3月30日)
与中国驻苏大使馆临时代办李凤林的会谈记录
1988年3月30日
我提请中国外交官注意越南社会主义共和国外交部在今年3月26日的照会,该照会确认了同中国就斯普拉特利群岛 [46] 进行谈判的建议,并且直到现在仍然反对使用武力。越方的这一措施被看做是积极的。我说,解决争议问题最好的方法就是使用进行对话的政治手段,无论面临什么样的困难。
李凤林开始表达如下看法:在属于自己的斯普拉特利群岛的问题上,中国的立场过去没有、现在也没有发生变化。在1975年之前,无论是公开,还是在进行的各类接触中,其中包括在进行的最高级别的接触中,越南方面都无条件地同意中国的立场。关于这一点有许多文件为证。但是,在解放南越的战争胜利结束之后,越南领导人的立场完全发生了转变。当越南经济恶化,或者出现政治困难的时候,河内就时不时地就南中国海的所属问题发出鼓噪。现在看起来是在鼓吹他们的“超级爱国主义”情绪。
李凤林接着说,我们也注意到,从1970年下半年开始,关于斯普拉特利群岛所属的注解从苏联的地图上消失了。苏联报刊的论调在总体上给人的印象是,苏联完全支持违背了自己立场的越南关于斯普拉特利群岛所属的立场。因此,无论是在这里,在莫斯科,还是在北京都会对这一问题进行仔细的研究。
李凤林承认,坦率地说,最近几天,中国驻苏大使馆从中央得到指示,把苏联关于这一问题的每一句话都“一字不漏地转达了”。李凤林说:“我们注意到,苏联没有就支持我们的立场发表声明。”当然,苏联国内对这些事件的阐述不能被看作是与苏中关系无关的。李凤林指出,目前大使馆把苏联的立场看作是“有节制的,在某种程度上倾向于越南的”。
关于中国和越南就这些岛屿进行谈判的问题,他在尽力援引如下的话,就是说苏联拒绝同日本就千岛群岛进行谈判。
对此我回答说,苏联现在不反对同日本就这一问题交换意见,双方的立场相距甚远这是另一回事。我强调说,我们相信,避免在斯普拉特利群岛的问题上发生冲突非常重要,而这次越南刚好就这一问题提出了建议,因此我们会对他们予以支持。
李凤林说,中国不愿被卷入东南亚的大规模冲突,因为这不符合它的利益。
В.Я.沃罗比约夫 [47]
АВПРФ,ф.0100,оп.75,д.3,л.53-55
№25863 外交部亚洲司的报告:印度支那各国与中国对柬埔寨问题的态度(1988年5月4日)
关于印度支那各国和中国对解决柬埔寨问题的态度
(情报)
一、解决问题的途径
EPUB/Image00179.jpg
双方一致认为,必须寻找政治解决柬埔寨问题的途径,单单使用军事手段是不能够解决问题的。他们都同意,比较能够令人接受的解决问题的形式是实现民族和解,但是在这一问题上中国仍然坚持认为,事先必须使越南撤出军队,并以民主柬埔寨联合政府提出的八项条款为基础来和平解决问题。
二、解决柬埔寨问题的参与者
EPUB/Image00075.jpg
双方都不反对让柬埔寨四方都参与政治调节进程的想法。但在这一问题上中国坚持强调西哈努克在这一进程中的领导作用,反对波尔布特及其亲信参与政治谈判和未来建立的政府,并建议让乔森潘担任“红色高棉”的代表。印度支那各方也没有确定西哈努克的具体地位,没有公开具体说明愿意同“红色高棉”中的哪位领导人进行接触,没有断然反对波尔布特及其亲信参与政治解决的进程以及柬埔寨未来的政治活动。各方都对宋双的作用默不作声。
三、柬埔寨各方对政治谈判进程的看法
EPUB/Image00027.jpg
续表
EPUB/Image00146.jpg
①原文如此。刘述卿时任中国外交部副部长。——编注
关于对“鸡尾酒会谈”的态度
EPUB/Image00087.jpg
各方在这一问题上唯一的共同点是:印度支那各方和中国认为,柬埔寨的四个派别应当参加政治谈判的进程,至于某一阶段进行谈判的形式、时间和与会代表的组成等问题,各方的看法存在重大差别。各方对“鸡尾酒会谈”的态度事实上与此类似,各方在形式上不反对进行这样的会谈,但是印度支那国家赞同在第一阶段的会谈中进行的对话中按照1∶1的方式进行(也就是柬埔寨人民共和国西哈努克要么是作为民主柬埔寨联合政府三方集团的代表,要么仅仅是自己派别的代表),而中国坚持按照1∶3加越南的方式进行(也就是,柬埔寨人民共和国同民主柬埔寨联合政府的三个派别,而且其中的每一方都可以作为平等的参与者同直接参与冲突的另一方越南进行谈判)。
四、越南从柬埔寨撤出军队
EPUB/Image00205.jpg
双方同意,必须使越南从柬埔寨撤出自己的军队,但是印度支那方面认为这是政治调解进程的组成部分,同其他的因素紧密相连,并希望把这一进程同“红色高棉”同时解散自己的军队联系起来,而中国方面把越南撤军看作是一个前提条件,是真正开始政治进程之前不可接受的。
五、国际力量
EPUB/Image00079.jpg
六、关于联合政府
EPUB/Image00182.jpg
续表
EPUB/Image00131.jpg
总的来说,双方不反对建立四方联合政府,也不反对联合政府由西哈努克领导,但是印度支那国家认为,联合政府将在全面的选举之后建立,而在此之前,联合应当以现今的政权为基础发挥功能,但中国坚持越南要事先撤出军队,柬埔寨人民共和国解散,各派代表在平等的基础上建立联合政府,而在此之后进行全面的选举。
七、柬埔寨的政治未来
EPUB/Image00018.jpg
尽管各方都支持在将来建立一个独立、中立而不结盟的柬埔寨,但是各方都有自己的目的,都倾向于不公开宣布自己的目的。
八、关于国际保障
EPUB/Image00001.jpg
续表
EPUB/Image00014.jpg
中国和印度支那国家在如下问题上的看法一致:应当为柬埔寨各方达成的协议提供国际保障。
现在围绕柬埔寨问题形成了如下共识:未来解决柬埔寨问题也应寻找政治解决问题的途径。无论是印度支那国家,还是中国的立场中都有一些共同点,尽管每一方的立场中都有自己独特的一些内容。这些共同点是:
——承认柬埔寨人民民族自决的权利,在没有外来干涉的情况下自己解决国内事务的权利;
——同意柬埔寨互相敌对的四个集团参加柬埔寨问题的解决进程;
——同意按照民族和解的思想,以某种形式让西哈努克回国的可能性;
——认识到越南从柬埔寨人民共和国撤军的必要性;
——在某种程度上反对波尔布特及其亲信再次掌握政权的可能性;
——希望为将来就实现民族和解和政治解决问题而签署的协议提供国际保障。
主要矛盾是由于中国人提出的如下要求引起的:在保留民主柬埔寨联合政府的情况下解散柬埔寨人民共和国的政治结构,民主柬埔寨联合政府同越南直接进行谈判。
印度支那朋友们认为自己的任务是保持柬埔寨人民共和国现存的制度以及越南与柬埔寨之间的“特殊关系”,哪怕是在形式上做出某些变更和精简。对于越南来说,解决柬埔寨问题的关键是防止其敌对的政权在柬埔寨复辟。同时。印度支那国家领导人明白,不考虑中国的利益是不可能最终达成解决方案的。在此方面不应完全忽视如下事实:越南同志认为,前不久他们能提出的解决柬埔寨问题的方案是乐观的,能够使越南与中国在最短的时间内实现关系正常化,并考虑到了中国所作出的一定的让步(当然,“红色高棉”也作了让步)。
中国所采取的立场的基础是,企图继续和依靠与苏联合作的印度支那三方联盟加强关系。北京把这样的统一看作是扩大自己在该地区影响的主要障碍。中国领导人的考虑是,一些客观条件,其中包括“红色高棉”在事实上完全从属于北京,使得在没有北京参与的情况下很难解决柬埔寨问题,并企图保障自己在这个问题上的主导作用。中国方面的考虑是,提出自己强硬的解决条件,其中包括在不拒绝民主柬埔寨联合政府八项条款的同时,支持西哈努克和乔森潘提出的四项条款。但是中国仍然被迫考虑到印度支那半岛的现实,近来在他们的立场中可以发现上述一些积极的因素,比如,中国已经不再坚持强调要把越南从柬埔寨人民共和国完全撤军作为西哈努克与洪森开始进行对话的前提和先决条件,他们同意只有政治途径才能解决问题,他们也赞同在西哈努克领导的联合政府中任何一个集团,其中包括“红色高棉”都不能占据主导地位,甚至承认,在解决柬埔寨问题的过程中考虑到越南利益的必要性。
苏联外交部亚洲社会主义国家司
1988年5月4日
ГАРФ,ф.10026,оп.4,д.2802,л.166-180
№25870 外交部太平洋和东南亚司的报告:在亚太地区扩大合作的可能性(1988年6月6日)
关于苏联在亚太地区扩大经济合作若干问题及可能的方向(根据苏联外交部1988年3月30—31日工作会议材料:《苏联对亚太地区政策的迫切问题》)
近年来亚太地区在国际关系体系中的作用增强了,其原因在很大程度上是由于亚太地区各国在科技和经济领域取得了一些成功。日本在工业生产领域占据了第二的位置,新兴工业国家(韩国、台湾、香港、新加坡)的经济在整个70年代(6%—12%的发展速度),特别是在80年代都高速发展,中国和东盟国家也进入工业化迅速发展的时期…… [48]
顺利扩大苏联在亚太地区的经贸合作完全符合苏联的利益,可以加速苏联社会经济的发展,促进戈尔巴乔夫在符拉迪沃斯托克和德里提出的保障亚太地区和平与安全纲领的实现。
阻碍苏联积极加入亚太地区国际劳动分工的主要原因在于苏联东部地区社会经济的性质及其发展的水平较低。现有的部门管理机制看起来不能消除亚太地区各国的迅猛发展与苏联远东地区经济停滞局面的巨大差距。1987年8月19日通过的远东经济区综合生产力长远发展纲要需要对其发展战略进行根本改革,并且没有考虑到地缘的、自然条件的、人文的和国际政治的现实。在制定纲要的经济部分的内容的时候没有考虑到苏联远东地区在国际经济联系中的前景和意义,事实上指定其在相当长的时期内充当不仅向亚太地区发达国家,而且向发展中国家出售原料的角色。事实上把同远东经济区发展贸易的优先权赋予了日本,甚至没有提到新兴工业国家和东盟,而这些国家则是苏联在亚太地区扩大经济合作的潜在国家。纲要中没有预测到在亚太市场的发展,因此建议苏联远东地区在20世纪末、21世纪初生产这类出口的商品。由于亚太地区一些国家,首先是日本,它们的经济正在向高科技和节约能源的技术型转移,因而从苏联进口传统原料和能源的需求在降低。
在苏联外交部就苏联对亚太地区一些迫切的政策问题召开的工作会议中提出了如下看法:在制定国家发展纲要的时候必须考虑到在远东经济区建立致力于同亚太国家发展经济联系的大型的试验区的可能性。要进行这类实验不能不制定和通过一系列法律文件,无论是同合作的国家之间,还是同国外的私人资本之间,贸易机构之间进行联系的相互规则都要与全联盟的规则有实质性的区别。远东经济区和全联盟相关部门之间的关系将完全建立在经济基础上。
在远东地区进行这样的大规模的经济实验是一项非常迫切的任务,因为这一地区是较为落后的地区之一,无论从社会经济的角度来说,还是处于政治战略的考虑,加快远东地区的发展都是必需的。远东地区远远落后于苏联的中央地区,其民族成分相对单一。这在客观上使得更加易于进行试验,因此可能出现的一些暂时的消极的社会影响将不会非常尖锐,相对于我国的其他边境地区而言,出现离心倾向的危险要小一些。
与会者指出,亚太地区明显出现了一种趋势,在这种情况下国家威望的提高在很大程度上开始不取决于军事力量,而取决于其科技和经济发展。其原因在于日本、新兴工业国家、中国以及亚太地区其他国家在该地区影响力的增长。在此问题上与会者表现出了对苏联在该地区的地位不断被削弱的担忧。这与我们同亚太地区的国家进行经济合作的速度以及顺利的程度有关,要考虑到,地区一体化进程的快速发展使得苏联融入这一进程一年比一年困难。
会议上提出了明确确定我们在亚太地区安全的优先方面,使苏联在这一地区有足够合理的军事存在,但不要过于明显,不要妨碍远东地区社会经济潜力的增长,同时要加强信任,扩大苏联与亚太地区所有国家的经济合作。
其中的一项主要任务是,要积极努力,一方面改善我们同中国的关系,另一方面不允许苏联与中国经济力量的对比发生变化,这可能会带来难以预料的后果。会上还提出了如下看法:必须采取措施,降低苏中边界军事对抗的程度,把精力集中在与中国相邻的国家的经济发展上,使两国经济能够相互依赖,这是某些军事决议所难以消除的。对于苏联远东地区参与中国东北边疆地区社会经济发展纲要的实施,中国方面表现出了一定的兴趣。前不久就两国政府间签署“苏联加盟共和国、州和一些部门同中国的一些省市建立经贸关系”的协议的谈判也证明了这一点。现在正在研究关于在苏联建立生产保温设备的合资企业问题以及在中国建立纤维素联合加工厂等相关问题。在外交部参加会议的代表强调说,在这些方面必须更加积极地同中国进行合作。并提出了一些比较有前景的项目,比如建设从萨哈林 [49] 到北京的燃气管道,途经符拉迪沃斯托克 [50] 、布拉戈维申斯克 [51] ,年输送20亿—30亿卢布的燃气,在阿穆尔河建造功率为50亿千瓦时的水电站,在中国建立合资的船舶修理企业,对发动机、空气压缩机以及其他的设备进行维修。
会议着重强调,必须克服与新兴工业国家,其中包括与韩国发展经贸关系中的消极因素,韩国是我们在亚太地区最为重要的贸易伙伴之一。欧洲的一些社会主义国家已经开始与韩国建立直接的联系,有理由认为,这一进程是不可逆转的,尽管北朝鲜人会有一些消极的反应。匈牙利和波兰已经同韩国互换了贸易代表;民主德国的贸易部门同韩国的20多家公司保持着联系,其中两家公司已经获得准许在柏林开设代表处,尽管没有给予它们正式的地位,韩国的一些公司经常参加在柏林举办的展览会。苏联同韩国的贸易额大约为800万美元。韩国的一些企业家曾多次表示,希望同苏联建立直接的贸易联系。比如,为此目的韩国企业家联合会会长朴永元通过希腊驻日本大使(兼驻韩国大使)在今年3月份对莫斯科进行了访问,并表明了他们的这些意愿。
首尔对苏联参加经济技术合作国际会议的积极态度就证明了他们愿意与苏联发展经济合作。1987年10月,在首尔召开的经济技术合作能源和矿产论坛上,韩国代表对苏联代表——苏联科学院主席团成员М.А.斯特里科维奇的报告《关于苏联能源的发展状况以及在该领域与亚太国家进行合作的前景》表现出了巨大兴趣。斯特里科维奇同志认为,韩国方面做出了积极回应,具体向我们提出来关于把计划敷设通往北京的燃气管道延伸到首尔或者韩国东南沿岸,并通过第三国同韩国建立合资企业。
我们认为,考虑到欧洲社会主义国家同韩国建立的关系,我们没有理由过于担心由于苏联与韩国贸易关系的积极发展而使苏朝关系恶化,至少在苏联与韩国的直接贸易额低于中国与韩国的贸易额之前不会恶化,1987年中国与韩国的贸易额(主要通过日本、香港和澳门)已经达到了30亿美元。
在外交部工作会议上指出,吸引国外对苏联远东经济区进行投资的较为有效的形式是在该地区建立经济特区。
因此特地表示,希望能够重视日本东邦生命保险公司董事长太田清藏提出的设立苏日土地企业的建议。预计苏联方面提供其与中国和朝鲜接壤的一块面积为100平方公里的土地,租期60年,在此期间日本方面提供大约40亿卢布,用于建设国际机场、电视发射中心、海港、国际贸易中心设施等。该土地企业将向国外公司和苏日合资企业出租上述地段,并占有10%的股份,其收入应占日方投资的8%。
实施太田清藏提出的计划,以及建立其他的特区在原则上能够促进苏联远东地区社会经济发展计划的完成,有助于苏联积极地参与亚太地区的经济合作。
无论是在双边的基础上,还是在多边的基础上扩大苏联在亚太地区的经济和贸易合作,都将会使我们今后更加努力地加入亚太地区的经济活动。在此方面迈出的重要一步就是今年3月份建立的苏联亚太经济合作委员会(苏联科学院世界经济与国际关系研究所所长Е.М.普里马科夫院士被选为主席),委员会成员中有政府代表、对外经济部门代表、社会研究机构的代表。
苏联亚太经济合作委员会的建立,使得苏联可以更加积极地参加太平洋经济合作会议这一较有威望的地区组织的活动。以Е.М.普里马科夫为首的苏联代表以“客人”的身份参加了太平洋经济合作会议第6次会议(1988年5月17—20日在大阪召开)。这是可以接受的,是苏共中央总书记戈尔巴乔夫在符拉迪沃斯托克谈论的一些想法的具体实践,是政治新思维的表现。与会的苏联代表同中国、美国、澳大利亚、新西兰、泰国、马来西亚、印尼、日本太平洋岛屿诸国的代表团举行了会谈,为解决苏联以正式成员的身份加入太平洋经济合作会议及其工作机构酿造了较为有利的氛围。
为了与太平洋经济合作会议的成员国加强业务上的联系,应当在1988—1989年邀请中国、新西兰、泰国、马来西亚、加拿大和印尼的代表访问苏联,了解情况。相关部门、苏联科学院、科学生产单位将会积极地参加太平洋经济合作会议工作机构的活动,要特别注意矿产原料和能源论坛,注意农业小组的活动……
与会者指出,苏联是太平洋地区的一个大国,但是获得承认的主要是其地缘地位,而其相应的经济发展以及参与地区国际劳动分工的状况却未得到承认。
在对国内的管理机制进行改革,不断增强公开性和民主化的情况下,企业的经济自主性要增强,要有权同国外的合作伙伴建立直接的联系,建立合资企业,地方机构作用的转变、它们的巨大主动性以及其他的措施在客观上建立了解决社会经济问题、加强苏联远东地区与亚太国家进行经贸合作的良好条件。苏联在亚太地区在各个方面战略地位的加强在很大程度上取决于能否循序渐进地贯彻这些措施,以及贯彻这些措施的广度和深度。
苏联外交部太平洋和东南亚司政治经济处
1988年6月6日
ГАРФ,ф.10026,оп.4,д.2867,л.2-11
№25936 法捷耶夫与李凤林会谈纪要:通报阿富汗的局势 [52] (1988年6月22日)
摘自Ю.Д.法捷耶夫的工作日记
与中国驻苏大使馆临时代办李凤林的会谈纪要
1988年6月22日
邀请了李凤林进行会谈,受委托,向他说了如下的话……
极端主义者认识到了与阿富汗正规军进行直接的军事冲突是没有前景的,因此他们就努力采取恐怖主义破坏活动,首先是针对广大的阿富汗穆斯林居民。他们对一些城市、农村和国民经济的设施发动袭击。最近两个月在喀布尔发射了167枚火箭弹,此外,对……发动了67次爆炸,这导致了138人死亡,其中包括妇女、老人和儿童。此外有170人受伤。摧毁了大量的建筑、行政大楼和商贸大楼,造成的物质损失达数千万阿富汗尼(货币单位),今年7月19日在喀布尔再次发生了枪击事件,发射了火箭弹,造成了15人死亡,23人受伤,阿富汗的专门机构在一些没有爆炸的火箭弹上发现了中国商标。
上述对阿富汗首都广大居民实施的恐怖和破坏活动的事实引起了强烈的愤慨。需要立即结束这些活动,作为对日内瓦协议的一项保证,苏联将不允许极端主义的暴行。
我使中国方面注意到上述事实,希望中国利用自己与巴基斯坦的友好关系采取必要的行动,以便保证对日内瓦协议的严格遵守,终止在喀布尔以及其他的城市和农村进行的恐怖活动。
李凤林回答说,他将根据规定转告这次会谈的内容。他指出,中国支持和平解决阿富汗问题以及其他的问题,反对对广大民众实施恐怖活动。至于发现中国商标的火箭弹,李凤林指出,这是一个复杂的问题。现在的武器都是通过各种渠道流向不同的国家。关于此事,现在还不能对中国的正式立场进行评论……
Ю.Д.法捷耶夫
АВПРФ,ф.0100,оп.75,д.3,л.17-19
№25945 沃罗比约夫与李凤林会谈记录:中国决定与苏联举行高层会晤 [53] (1988年11月11日)
与中国驻苏临时代办李凤林举行的会谈记录
1988年11月11日
在非正式的会谈中,李凤林确认,中国领导人已经通过了在1989年上半年与苏联领导人举行高层会晤的政治决定。用李凤林的话来说,北京在原则上同意中国驻莫斯科大使馆提出的关于可以在4月份、在苏联人民代表大会召开之前举行这一会晤的意见。
接着李凤林说,他已经直接向高层完全通报了关于同戈尔巴乔夫在庆祝十月革命胜利71周年时的简短谈话,李凤林说,他特别提到了如下看法,在今后的一段时期内,我们两国应尽一切努力,来避免出现一些突发的不愉快的事情。同时,就今后举行的高层会晤事先达成相互理解也是非常重要的。李凤林指出,这完全是他个人的看法,苏联领导人与美国、西欧领导人进行类似会谈的计划未必是可以接受的,当时事先曾非常详细地制定出了各种问题,以便签署许多文件。李凤林说,我们最好采取另外的做法。这次高层会晤应当推动今后一些具体问题的解决,会谈的范围应当很广,应当具有提纲挈领的性质,对对方的意图、对一些问题上的立场彼此都有更加明确的认识。比如,关于减少军事对抗的问题,他们中国外交家坚持认为,苏军进入蒙古这些问题对苏方来说是复杂而敏感的。因此,他们要听一听苏联对他们的决定是如何从总体上进行考虑的,而不是详细地描述一下,应当在哪些地方撤出和缩减军队,这一点非常重要。可以把这一工作委托给专家,但最好是在举行高层会晤之后。
他提到了关于和平解决柬埔寨的问题。李凤林指出,关于苏联对越南撤军的时间表的立场,现在已经是非常清楚了。现在想知道的是关于苏联在停止对高棉人集团进行军事援助的问题上的立场。他们提出,今后要在解决柬埔寨冲突问题上扩大共识。
中国方面把苏中两国副外长的互访看作是一个缩影……
В.Я.沃罗比约夫
АВПРФ,ф.0100,оп.75,д.3,л.49-55
1989年
№25871 外交部太平洋和东南亚司的报告:保障苏联在亚太地区的利益(1989年4月12日)
Э.А.谢瓦尔德纳泽同志:
苏联外交部正在继续努力,寻求能够保障我们在亚太地区利益的途径。
1989年4月12日,苏联外交部太平洋和东南亚国家管理局就苏联在亚太地区的军事战略安全问题组织了一场会议,这次会议是与苏联外交部军控和裁军委员会一起召开的。苏联国防部、一些主要的科研单位(苏联科学院世界经济与国际关系研究所、美国和加拿大研究所、东方学研究所、远东研究所)的代表以及苏联外交部太平洋和东南亚国家管理局、苏联外交部军控和裁军委员会、教育政策管理局、莫斯科师范大学、紧急救援管理局、美国和加拿大管理局、国家文化中心、莫斯科国立国际关系学院、苏联外交部外交学院的工作人员参加了这次会议。
与会者就如下问题出现了争论和实质性的分歧:实现在符拉迪沃斯托克和克拉斯诺亚尔斯克提出的建议的问题上不够迅速的原因,对亚太地区的军事对抗进行评价,在概念上和实践中(见附件)保障我们在该地区政治利益和军事利益的途径。上述部门在解决把亚太地区变为战略安全上进行战略互利合作的综合任务进行协调的努力不够,因此就出现了这些分歧。
我们认为,要实现戈尔巴乔夫在符拉迪沃斯托克和克拉斯诺亚尔斯克就裁军问题的发言中阐述的想法,今后苏联积极地参与到亚太事务,这些都要求我们在实质上转变态度,同负责亚太事务的各部门和科学院工作者进行合作。我们认为,有必要在苏联外交部之下建立常设的工作小组,定期就各部门间在亚太事务方面做过的工作召开会议,讨论和协调一些关于亚太事务的最为重要的政治外交工作、军事政治工作和经济方面的工作。
附件:
会议讨论的主要内容
(亚太地区的军事战略局势以及处理好军事政治谈判机制的前景)
1.根据国防部代表和一些科研机构的代表的看法,苏联在亚太地区的军事战略地位是非常薄弱的。在该地区,苏联所受威胁的程度没有降低,美国企图在军事战略上占据优势地位,中国正在快速实现其军事现代化,日本的军事潜力也在提升。与苏联接壤的地带——朝鲜半岛以及东南亚地区仍然是紧张的源泉。在非常的局势下,苏联不能真正地指望获得其盟国——蒙古、老挝、越南和朝鲜的支持。但是,美国却可以依靠在经济和军事上强大的一些盟国——日本、澳大利亚、南朝鲜、新西兰等。苏联的太平洋舰队在地缘上处于不利的地位:它不能依靠对远东的军舰以及其他的船只进行改造来加强力量,舰队通往作战区域会受到相关国家的控制。
在此方面可以做出如下结论:如果如外交部长所阐述的,单方面就削减苏联在远东的武装力量而另外采取一些措施不能不对苏联安全利益的保障产生一些消极的影响。一旦苏联领土遭受攻击,在宣布削减陆军力量后剩余下来的武装力量只有可能进行旨在把敌人驱逐出苏联境外的反击,而不能对其发动进攻。太平洋舰队能够保护苏联的海岸线,防止美国和日本的军队向苏联空投兵力,以便获取桥头堡,还可以阻止美国的海空军力量从太平洋的岛屿用“战斧”巡航导弹对苏联境内纵深的军事和工业项目进行打击。
总的来说,提出了如下意见:近期苏联没有通过政治和军事手段加强其在亚太地区地位的前景,在这种情况下至少不能减少苏联在该地区的军事存在程度。
2.由大部分科研单位的代表组成的专家小组,以及外交部的一些工作人员同意关于苏联在亚太地区的军事战略地位薄弱的结论,但是他们认为,在可以预见的未来(10—15年内),苏联的远东地区将不会直接遭受安全威胁。在这一问题上认为,苏联的核潜力对于遏制在亚太地区建立类似北大西洋公约组织的统一的反苏联盟是有效的,并且认为,我们的潜在的对手难以开辟“主要的阵线”在远东地区反对苏联。
考虑到这些情况,提议利用上述“临时窗口”,最大限度地集中力量来发展苏联在远东的能源,作为文明的国际社会的正式成员参与到亚太地区的国际劳动分工中,要注意到,这种经济“挂钩”对我们来说具有双重效应。首先,相互依赖的增强将有助于我们显著改善同该地区大部分国家的关系。其次,将会使关于“苏联威胁论”消弭于无形,“苏联威胁论”挑动许多亚太国家同美国建立联盟,或者在很大程度上使美国在亚太地区的军事存在合法化。
与会者认为,在军事政策方面应当强调确保苏联的核打击力量(战略核潜艇),在苏中边界仅保留一些必要的地面设施,为在短暂的时间内把苏联军队投往局势严峻的地区提供保障。
在政治方面要注意发展同对我们利益比较重要的一些国家,首先是发展同中国的关系。根据一些专家的分析,苏中关系的发展能够引发“多米诺效应”,能够促使日本、东南亚国家甚至美国对苏联更加克制。
至于我们的战略路线和行动纲领,参与讨论的大部分与会者认为,应当遵循以下几点:
考虑到美国不愿意就削减其在亚太舰只力量问题达成协议,应当更加坚持同美国人进行谈判,提议首先解决一些“最简单的问题”,也就是不规定减少军事力量,在海军和空军方面采取一些措施,增强信任。在第二阶段就限制海军和空军力量着手采取一些信任措施达成协议。
同时,采取一些措施同中国、日本、澳大利亚和东南亚国家加强军事接触。其中包括提议在双边的基础上,两国军事部门的领导人进行会晤,签署协议,避免其所辖领海和领空中发生突发事件。
研究另外采取一些措施的可能性,减少苏军在亚太地区军事存在的同时不损害我国的安全利益。其中包括:
——要考虑到,我们可以主动提议,在2000年之前消除在国外的军事基地,还要考虑到越南方面可能会提出关于关闭在金兰湾的物质技术保障站的问题,以便越南改善与中国和东南亚国家的关系。着手削减我们在越南的军事存在。
——削减苏军驻择捉岛的人员,但是,军事专家的最终撤离不能损害安全利益。
——公布苏联在远东地区的军事力量的材料,与美国及其亚太盟国的力量进行对比。
更加努力地进行宣传工作。为此要积极利用苏联在其亚洲部分削减武装力量的事实,积极利用苏联单方面采取的其他一些措施。提议组建“和平与安全海军上将”公共组织,利用这一组织来讨论亚太地区的安全问题。
与会者赞同建立一个由苏联外交部相关部门代表和国防部代表组成的工作小组,人数为10—15人。以便讨论关于亚太地区的裁军问题,具体制定我们为缓和局势、降低军事对抗而采取的一些措施,处理好就远东地区的军事政治问题进行谈判的工作。
ГАРФ,ф.10026,оп.4,д.2867,л.186-194
№25992 苏共中央书记处会议记录:与各国共产党的联络计划(1990年2月22日)
机密
第112/110г号
摘自苏共中央书记处1990年2月22日会议第112号记录
关于1990年度苏共同经互会成员国各党、中国共产党、朝鲜劳动党、柬埔寨人民革命党、老挝人民革命党的联络计划。
1.批准1990年度苏共同经互会成员国各党、中国共产党、朝鲜劳动党、柬埔寨人民革命党、老挝人民革命党的联络计划(附件)。
责成苏共中央国际部协同苏共中央其他各部同各国党就代表团、代表小组互访的议程和期限一起商谈,以便交流经验、磋商和讲演。
2.苏共中央各部应为实现苏共的交流计划提供有效保障,对代表团和工作组互访的结果进行分析和总结,在苏联各级党组织中积极推广朋友的积极经验。
要特别注意深入了解各国党在一些重要问题上的意见和看法,如:社会主义新面貌、党的地位和作用、现阶段政治体制中的大众传媒的地位和作用、政治和经济生活民主化、党的意识形态工作和党员干部培训,等等。
为此要利用党际联系的一切形式——从双边意见交流和成立联合研究工作组、委员会分析社会主义国家党的活动、社会经济和政治发展问题,到围绕我们这些国家党的建设和发展中最为重要的问题召开由党的领导层参加的多边会议、各国党代表会议。
3.委托苏共中央各部和苏共中央办公厅派党的科研单位代表、高校代表和出版机关的代表,接待前往隶属于苏共中央的马克思列宁主义研究院、社会科学院、社会科学研究所的代表,莫斯科高级党校、各共和国高级党校、列宁中央图书馆、报刊出版社和苏共中央出版社进行经验交流、休养和治疗的党务工作者代表团和代表小组。
4.党际合作所需开支:苏共中央系统——由党的经费负担;隶属苏共中央的马克思列宁主义研究院、社会科学院、社会科学研究所、各共和国高级党校、列宁中央图书馆、报刊出版社——由上述机关经费负担。如果有必要,派遣代表团和工作组的费用全部由苏联方面承担。
苏联党务工作者同其配偶从莫斯科前往河内、哈瓦那、北京、平壤、越南、乌兰巴托以及返程的相关费用由苏共中央办公厅支付。
РГАНИ,ф.89,оп.8,д.79,л.1-2
1990年
№25845 卢金与潘占林、李辉会谈纪要:俄罗斯联邦与台湾的关系问题(1990年10月31日)
与中国驻苏大使馆参赞潘占林和一等秘书李辉会谈纪要
1990年10月31日,俄罗斯联邦最高苏维埃国际事务与对外经济联络委员会主席卢金同中国驻苏大使馆参赞潘占林和一等秘书李辉举行了会谈。参加这次会谈的还有亚太地区分委会主席С.А.米哈伊洛夫以及俄罗斯联邦最高苏维埃国际事务与对外经济联络委员会部门主任С.С.齐普拉科夫同志。
这次会谈的内容主要是关于俄罗斯联邦的国内政治局势问题及其对外政治路线问题。会谈中还提出了关于俄罗斯联邦与台湾发展关系的可能性问题。Г.Х.波波夫对台湾的访问以及叶利钦可能对台湾进行访问的传闻都使中国方面感到了特别的不安。因此中国方面提出了关于俄罗斯联邦在这一问题上的计划的问题。
卢金强调说,中国方面是俄罗斯联邦对外政策路线的一个重要方向。他强调说,俄罗斯联邦在同中华人民共和国构建关系的时候的出发点是如下原则:只有一个中国,中华人民共和国政府是中国唯一的合法政府。它还声明说,好像叶利钦正在对访问台湾作准备的传闻是毫无根据的。并认为,中国方面应当注意到如下事实:俄罗斯联邦在对中国的政策方面不会损害苏联和整个苏中关系的利益。同时,俄罗斯联邦希望独立地同中华人民共和国进行接触。为进行这种合作首先需要采取的措施是在俄罗斯联邦最高苏维埃和全国人民代表大会之间或者在国际事务委员会之间建立直接的联系。
卢金提出了关于中国方面对俄罗斯联邦同台湾发展非官方的经贸关系的态度问题。
潘占林回答说,中华人民共和国政府坚决遵循如下原则:只有一个中国,台湾是中国不可分割的一部分。这一点在戈尔巴乔夫1989年5月对中国进行访问的成果的联合公报中已经确定了下来。用他的话来说,近来台湾推行的所谓“弹性政策”的目的是在国际舞台上获得对台湾事实上的承认。中华人民共和国不希望俄罗斯联邦采取一些有损苏中关系的措施。因此,叶利钦对台湾访问未必适宜。至于经贸关系,近年来苏联同中国东北各省的联系迅速增加,这种关系发展的潜力远未丧失。至于同台湾发展经济关系,潘占林认为,中华人民共和国可以同意在事实上发展这样的关系,但条件是,政治关系是在私人的、非官方的层次进行的,不能通过官方成员进行。中国高层不愿看到俄罗斯联邦的官员对台湾进行访问。
会谈纪要由С.С.齐普拉科夫整理。
ГАРФ,ф.10026,оп.1,д.2290,л.1-2
1991年
№25866 外交部远东和印度支那国家司报告:中苏关于台湾问题的磋商(1991年4月15日)
关于就台湾问题进行的磋商
今年4月12—15日,苏联外交部和中国外交部之间就台湾问题举行了磋商。
中国方面对苏联在台湾问题上的立场给予了高度的评价,根据这一立场,苏联历来都把台湾看作是中国的一个省,一贯支持中国的统一事业。中国外交部台湾事务办公室副主任倪耀礼强调说,苏联在台湾问题上的这种态度是有助于苏中关系正常化的一个重大因素,它能够使两国现在建立新型的关系。
但倪耀礼指出,中国注意到,最近台湾在积极地对苏联采取“弹性外交”。苏中在1990年7月就这一问题首次进行的磋商中,苏联的立场是令中国人信服的,当时中国方面明白,苏联和台湾之间事实上已经有了一些业务往来。
在此问题上中国方面希望苏联能够明白:台湾的“弹性外交”的目的不仅仅是制造“两个中国”的局面,而且是破坏一些国家与中国的关系。如果台湾实现了自己推行的“弹性外交”的目的,这就会对苏中关系带来严重的损害。
中国代表呼吁苏联方面提高警惕,并且解释说,台湾的“弹性外交”首先追寻的是政治目的。为了进行伪装,这一外交被称为“务实外交”、“现实主义外交”、“全面的外交”,企图通过经济手段和贸易手段在政治上实现突破。台北在苏联方面更加积极而坚定,对此做出的解释是,苏联具有较高的国际威望,并且,苏联与中国的关系非常重要。
从原则上来说,中国不反对那些同中华人民共和国有外交关系的国家在非政府的基础上同台湾发展贸易关系以及进行其他的交流,中国代表强调说,中华人民共和国的这种态度绝不意味着北京鼓励其他国家与台湾发展关系。
对于美国、日本以及其他西方国家同台湾进行接触,中国的态度是忍耐的,对此中华人民共和国外交部的代表强调了“历史的特点”。在这一问题上他们解释说,中国方面不同意苏联的一些组织和部门在同台湾发展关系的时候同一些西方国家的实践相类比。此外,他们明确表明了如下一种态度:中国把苏联在台湾问题上的“特别态度”看作是由于目前苏中关系友好。
在我们同台湾发展关系和进行接触的问题上,中国方面提出了如下“四项指导原则”:
——不损害苏中关系;
——不危害中国的和平统一事业;
——不给第三国提供不愿意提供的先例;
——不能被台湾当局所利用,来加强台湾的地位,损害中华人民共和国的地位。
在一些具体的领域作了如下一些解释:中国方面不反对苏联与台湾的科学院、科学家之间进行接触,特别是在参加国际研讨会的时候。但是中国方面反对苏联具有官方身份的科学家和人民代表同台湾进行接触,反对他们参加这样的科学研讨会和其他具有政治色彩的科学活动,这些活动会被台湾利用,造成“两个中国”或“一中一台”的局面。
中国方面反对苏联的报纸、电台和电视台的记者对台湾进行任何形式的访问,更加反对在台湾设立分社。
在经济和贸易方面中华人民共和国不反对签署协议和合同,其中包括签署建立合资企业的合同,如果这些合同具有纯粹的私人性质的话。在这些协议中,除了“中国,台湾”或者“中国,台北”(通过逗号隔开)之外,台湾方面不能有其他的表述形式。
在这一问题上中国方面反对同台湾签署任何互免商品关税的协议、贷款协议、关于公债的协议、提供较为优惠的条件的贸易协议等,这些协议的签署需要联盟或加盟共和国的政府做出官方的保证。
在金融方面,中国反对苏联中央国家银行同台湾的金融机构和银行(至于苏联的商业银行,那么北京必须对其性质进行研究)进行接触。
对于苏联与台湾发展航空和海洋运输关系的问题,中国代表表现的立场是克制的,而实际上是消极的态度,因为这一问题涉及了“中国的主权”。同时中国代表表示,在发展空运方面可以另外进行磋商。
在台湾参与苏联的各个公司以及展览会的问题上,中国方面的总原则是不允许出现“两个中国”或者“一中一台”的局面,并注意到发行的一些印刷品的一些象征性的东西等。
中国方面坚决反对向台湾出售任何类型的武器和具有战略意义的原料。在这一问题上北京对苏联方面反对进行此类交易的决定表示感谢。
关于台湾参加国际组织问题:中华人民共和国反对台湾参加联合国及其附属组织,反对台湾参加联合国举办的各类活动;反对台湾参加有中国参加的任何国际组织和国际会议(国际刑事警察组织和亚洲发展银行除外),反对台湾参加“具有政治倾向的”非政府国际组织和国际会议。
至于苏联演员、运动员到台湾进行比赛或进行商业活动,中国方面请求,不要让那些非常著名的团体、演员和运动员(特别是以苏联和各加盟共和国的名义)到台湾访问。
在磋商中,我方确认了苏联在台湾问题上的如下原则立场:台湾是中国不可分割的一部分,是中华人民共和国的一个省。我方声明,苏联没有同台湾建立官方联系的意图或者同台湾建立“政治桥梁”的意图,苏联支持中华人民共和国为和平统一付诸的努力。这些立场,正如俄罗斯外交部参加磋商的代表所声明的一样,使中国方面感到满意。
苏联表现出了同台湾发展经济贸易关系的兴趣。必须考虑到苏联新的现实,各加盟共和国的主权、各企业、联合企业以及其他的经济单位具有广泛的对外市场。
中国方面提出,制定可以接受的原则,以这些原则为基础使苏联与台湾的伙伴保持非正式的联系,这一原则不能否认中华人民共和国对台湾的主权。
我们认为,这一原则的实质为:苏联不要同台湾进行任何形式的官方的接触。至于贸易关系方面,那么这些贸易关系的形式、层次和性质总的来说可以依据大多数国家同台湾的关系的实践进行,不要承认台湾具有国家的地位,它同中华人民共和国具有正常的外交关系。
中国代表特别强调说,在解决涉及台湾的问题的时候必须“明确区分出官方的和非官方的”。为此他们支持在两国外交部和大使馆间在台湾问题上协调立场。
应我们的请求,倪耀礼对中华人民共和国同台湾恢复接触问题上的进展进行了评价,他说:“双方都不能接受对方的立场。”台北不同意通过中共和国民党的渠道进行对话,而中华人民共和国不会进行政府间的对话,因为这意味着承认台北政府。
但是,在这一问题上中国是有耐心的,并将实现其短期的和长期的计划。他们认为,台湾居民对中华人民共和国的访问具有重大意义。到中华人民共和国访问的台湾居民已经超过了200多万人。他们鼓励台湾商人积极到大陆进行投资。
这些磋商使得双方可以对自己在台湾问题上的立场进行检讨。这些磋商表明,中国方面希望出现一种局面,使得他们可以控制我们对台湾的关系,或者较为可能的是禁止苏联在此方面主动采取一些行动。非常明显的是,相对于其他同中华人民共和国保持外交关系的大多数国家而言,中国方面在台湾问题上对我们提出了更高的要求。双方同意在此问题上继续交换意见。
苏联方面参加这次磋商的有:苏联外交部远东和印度支那国家事务司副司长М.М.别雷,远东和印度支那国家事务司Н.Л.拉齐伯林斯基,远东和印度支那国家事务司顾问В.М.斯特奇科夫,俄罗斯联邦外交部经济司В.Г.索罗金,俄罗斯联邦外交部一等秘书Е.Ю.托米辛。
中国方面参加这次磋商的有:中华人民共和国外交部台湾事务办公室副主任倪耀礼,办公室参赞李惠琴,中国驻莫斯科大使馆一等秘书李辉,大使馆随员朱少红。
苏联外交部远东和印度支那国家司
ГАРФ,ф.10026,оп.4,д.2805,л.34-39
№25917 库纳泽与于洪亮会谈记录:寻找中俄两国接触的共同点(1991年10月8日)
俄罗斯联邦外交部 第2045号 1991年10月11日 摘自Г.Ф.库纳泽的工作日记
与中国驻苏大使于洪亮的会谈记录
1991年10月8日
应中国驻苏大使于洪亮的请求接见了他。于洪亮将要回国。
于洪亮指出,在俄中关系的漫长历史中,我们两国人民之间建立起了牢固的睦邻友好关系。今天俄中关系必须适应苏联发生的剧变。尽管我们两国的条件不同,中国认为有必要寻找两国进行接触的共同点,加深相互理解,并打算在国际交往普遍适用的原则的基础上继续实行同俄罗斯发展全面关系的路线。我请于洪亮大使注意到如下问题:
1.确定我们在台湾问题上的原则立场没有发生变化,赞成这个对所有国家在与台湾省发展经贸关系问题上的一致立场。我们很难向俄罗斯实业界的代表解释,为什么他们不能像美国、日本以及其他国家实业界的同行一样,与台湾发展业务关系,而我们与这些国家一样,认为只有一个中国,台湾是中国的一部分。在与台湾发生政治关系的问题上俄罗斯联邦外交部的立场也是一贯的:我们不打算批准设立俄罗斯与台湾发展接触的官方的代表处。
2.尽快实现朝鲜半岛的稳定和和平统一是我们两国的共同利益,从这一共同利益出发出发,我们呼吁中国方面对朝鲜政府施加压力,以便改变其在关于与国际原子能机构签署保障协议问题上的立场,不要把这一问题同美国在南朝鲜部署核武器这一问题联系起来。在对我所提上述问题进行回应的时候,于洪亮表示,希望俄罗斯在台湾问题上的立场能够以苏中在1989年和1991年签署的联合公报中的协议为基础。于洪亮大使说:“我们希望,同我们保持外交关系的国家不会采取一些会造成两个中国局面的措施。同时,中华人民共和国将不反对俄罗斯与台湾发展非正式的经贸关系。”同时,于洪亮大使指出,俄罗斯从台湾采购的许多商品,中华人民共和国都可以以最优惠的条件向其供应,其中包括粮食以及其他的食品,各种日用品。
于洪亮大使指出,在朝鲜同国际原子能机构签署协议的问题上我们两国的立场是一致的。中国也赞同朝鲜半岛的稳定以及通过和平对话实现半岛的统一,禁止和销毁所有的核武器。
于洪亮转达了邀请,邀请俄罗斯外交部长А.В.科济列夫在其方便的时候对中华人民共和国进行访问以便讨论发展双边关系的问题。我对转达的这一邀请表示了感谢,并且指出,在新的条件下俄罗斯打算同所有国家发展睦邻互惠关系,其中包括同我们伟大的邻国中国。俄罗斯联邦外交部将承担起俄中关系发展的责任,并将利用其所有积极的经验,特别是自1989年5月苏中关系正常化以来所积累的一切有益的经验。
我强调说,在同中国发展传统的友好关系的时候,我们将遵循互相尊重的原则,承认各国人民选择自己发展道路的权利。俄罗斯联邦外交部无意弄清某一国家在苏联企图发生国家政变的日子里所采取的立场,并且认为,这都成了历史,并将从上述原则出发努力同所有国家发展关系。在会谈过程中,中国大使提出了关于中国在哈巴罗夫斯克开设领事馆问题得到拖延一事。
我通报说,俄罗斯联邦外交部已经向政府请求加快解决这一问题,近期将会向地方当局下达必要的指示。
俄罗斯方面参加这次会谈的有:亚太司副司长М.伊万诺夫,亚太司一等秘书Е.托米辛,亚太司二等秘书И.莫尔古洛夫;中国方面参加会谈的有中国大使馆随员袁斌。
俄罗斯联邦外交部副部长
Г.Ф.库纳泽(签名)
ГАРФ,ф.10026,оп.1,д.2290,л.36-38№25890 关于俄罗斯最高苏维埃代表团访华的报告(1991年12月13日以后 [54] )
关于俄罗斯最高苏维埃代表团1991年12月6—13日对中国进行访问的报告
应全国人民代表大会的邀请,以俄罗斯联邦最高苏维埃国际事务的对外经济联络委员会主席В.П.卢金为首的俄罗斯联邦最高苏维埃代表团在12月6—13日对中国进行了访问。如下一种情况使这次访问具有特别的意义:代表团随身携带了俄罗斯总统Б.Н.叶利钦给中华人民共和国主席杨尚昆以及俄罗斯最高苏维埃主席Р.И.哈斯布拉托夫给全国人民代表大会常务委员会委员长万里的信件。考虑到这一情况,中国方面极大地提高了对代表团的接待规格。其中包括同全国人民代表大会常务委员会委员长万里举行了会谈,这最初是没有被列入计划的。同中华人民共和国国务院副总理吴学谦,全国人民代表大会常务委员会副委员长、全国人民代表大会外事委员会主任廖汉生举行了会谈和谈判,并在中国外交部、对外经济贸易部、经济改革委员会举行了会谈和谈判。代表团对华南的广东省以及深圳经济特区进行了访问。
代表中共方面的领导人在谈话中强调,中国愿意与俄罗斯发展各种关系,其中包括,如果最初谈论的只是关于发展“与苏联,其中包括与俄罗斯”的关系,那么万里则强调说,“俄罗斯是我们最大的邻国,同俄罗斯建立合作是对世界和平事业的重大贡献”。他还转达了对叶利钦总统和Р.И.哈斯布拉托夫最美好的祝愿,并接受了Р.И.哈斯布拉托夫在信中提出的对俄罗斯进行访问的邀请。
在同中共领导人进行会谈的时候谈论了双边关系中范围很广的一些问题。中国方面经常强调的是如下一些问题:
首先,与苏联的政治路线相比较,俄罗斯对华政策的继承性。中国方面经常强调说,他们愿意在1989年和1991年苏中联合公报以及和平共处的原则基础上与俄罗斯联邦发展关系。在此问题上他们强调了如下一些原则:比如互不干涉内政,各国人民有权自由选择本国发展道路的权利。显然,中国领导人非常明白,以前苏中关系建立在国家间关系和党际关系的两大基础上,现在这一时期已经结束了。但是,中国还有一定的担心,担心俄罗斯把对中国的态度同其对人权问题、市场经济等问题的理解联系起来。因此,双边关系的意识形态化正在降低。可以认为,在对中国的态度上采取实用主义,不与任何的意识形态联系起来符合俄罗斯的战略利益。
第二,台湾问题。中国领导人担心俄罗斯会同台湾建立某种形式的政治联系,他们认为,这就意味着出现“两个中国”的局面。同时,用中国国务院副总理吴学谦的话来说,中国不反对与台湾发展经济、文化以及其他非官方的关系。总的来说,中国方面就台湾问题阐述的看法符合俄罗斯在这一问题上的立场,这一立场在叶利钦对杨尚昆的信件中得到了阐述。因此,在任何情况下,中国在形式上都将不会阻止俄罗斯与台湾在非政府的基础上发展关系。俄罗斯与台湾联系的增多尖锐地提出了关于处理好俄罗斯赴台公民的签证问题。可以解决这一问题的途径是在香港开设领事馆。就像匈牙利和波兰开设的这类领事馆一样。苏联驻中国大使馆已经向苏联外交部提出了这样的建议,但是尚未得到答复。
第三,经济问题。总的看来,中国方面愿意继续发展双边的经贸合作,首先是发展边贸。同时可以感觉到,中国对外经济贸易部的代表们感到困惑,他们要同俄罗斯的哪一机构打交道。因此,非常有必要在俄罗斯联邦外交部对外经济联络委员会与中国的外经贸部之间建立直接的联系。必须在最短的时间内恢复政府间联合经济委员会的活动,并就一系列广泛的经贸问题和军事技术合作问题进行谈判。
总的来说,俄罗斯联邦最高苏维埃代表团对中国进行的访问是成功的,是俄中进行直接对话的良好开端。
ГАРФ,ф.10026,оп.5,д.1253,л.55-57[1] 此处几节内容与中国无关,略去未译。——编注
[2] 此处几节内容与中国无关,略去未译。——编注
[3] 此处几节内容与中国无关,略去未译。——编注
[4] 此处几节内容与中国无关,略去未译。——编注
[5] 1969年9月,柯西金访问越南。他在越南时向中国方面提出,希望在回国途中路过北京,同中国领导人举行会谈。当苏方收到中国方面表示同意的信息时,柯西金已回到苏联的塔什干市。于是,柯西金从塔什干起飞,于9月11日到达北京。周恩来总理在首都机场同他进行了3个多小时的会谈。在会谈中,苏联驻华使馆公使衔临时代办叶里扎维金对会谈内容做了较为详细的记录。后来,俄国学者С.贡恰罗夫和В.乌索夫在《远东问题》杂志上分两期发表了这个记录,并写了长篇导言和评述。这里刊登的是记录文本的译文。——编注
[6] 达曼斯基岛,即珍宝岛。——编注
[7] 该档案复印件有多处字迹不清,均以省略号标示。——编注
[8] 这一自然段看不清,只能译大意。——译注
[9] 这次会谈是在1969年11月19日举行的——原注
[10] 以电报方式向莫斯科通报。——原注
[11] 《真理报》,1971年7月25日——原注
[12] 1971年10月12日,受葛罗米柯的委托,多勃雷宁向基辛格转达了一封复函,对基辛格在10月11日的来信作了答复。这份复函的内容是:“由于某些原因,苏联方面应该把关于在莫斯科即将举行高层会谈这个问题通知给苏联大使。苏联驻东京临时代办认为,距公布这份通报只剩下1—2天的时间了,就擅自向日本外交部通报了这件事情,因此就犯了错误。当然,这没有给美国和苏联造成重大的损失。遗憾的是,美国方面的代表多次采取这种行动。我们认为,不应该认为这件事情有非常严重的后果,何况,今天就要公开通报关于举行高层会晤这件事情了。美国方面也非常清楚,苏联方面会严格遵守协议,保守在谈判中商讨的相关问题的秘密。显然,今后我们应该在这类问题上协调我们的行动,以便避免可能生产的误会。”——原注[13] 俄文原文ВнутренийДворец,看来多勃雷宁指的是中南海的怀仁堂。——编注
[14] 指的是台湾属于中华人民共和国——译注
[15] 指的是1959年夏在索克里尼克展览会美国馆赫鲁晓夫对美国人所说的那些话,当时美国副总统尼克松正在苏联访问。——原注
[16] 插图旁标注:越南邯浩(Тханьхой)省一座铸铁厂的冶金工们,在午休期间收听越南通讯社发布的国内新闻。越南民主主义共和国,1965年7月。——原注
[17] 科尔达诺夫·瓦西里·雅科夫列维奇(1904—1985),林业专家,曾任苏联林业部副部长。以上内容选自档案馆保存的雅科夫列维奇1975年的回忆,具体日期不详。——编注
[18] 在所收集的档案中没有发现该附件。——编注
[19] 在所收集的档案中,此表与下表均是附在上面文件之后的,但形成的时间却是1983年的。原因不明。因该资料比较宝贵,故保留于此。——编注[20] 原文如此,未找到对应的报纸杂志。下同。——编注
[21] 该档案未标明文件的具体日期。——编注
[22] 所收集的该档案多处缺页,均以省略号标示。——编注
[23] 所收集的档案以下缺页。——编注
[24] 所收集的档案中未发现该附件。——编注
[25] 所收集的档案中没有该附件。——编注
[26] 1978年4月26日,阿富汗达乌德政府逮捕了包括塔拉基、卡尔迈勒等在内的7名阿富汗人民民主党领导人。4月27日,阿富汗人民民主党的另一位领导人阿明发动军事政变,占领总统府,打死达乌德一家。4月30日,阿富汗民主共和国宣布成立,人民民主党总书记塔拉基任阿富汗革命委员会主席、政府总理,阿明任政府副总理兼外交部长。当天,苏联宣布承认阿富汗民主共和国。——编注
[27] 即苏联发动的入侵阿富汗战争。1979年3月阿明担任总理后,与苏联关系疏远,并发动政变,处死塔拉基,自己兼任总统。12月27日,苏军入侵阿富汗,处死阿明,扶植卡尔迈勒组成亲苏政权。——编注
[28] 此处手写签名,字迹潦草,无法辨认。——译注
[29] 阿纳托利·切尔尼亚耶夫,1961—1986年在苏共中央国际部工作,1970—1986年担任部门副主任,1986—1991年担任苏共中央总书记(苏联总统)助手。2003年切尔尼亚耶夫把他的这些日记的原件送给了国家安全档案馆。所摘译的档案来自国家安全档案馆,下同。——编注
[30] 日记原文日期写作“5月29日”,显然是错误的,因为这段日记叙述的事件大约发生在5月15日至20日,而下一个条目标明的是5月24日。——译注
[31] 鲍里索夫是罗满宁的笔名。——编注
[32] 大概指的是А.科索拉波夫,时任《新世界》文学月刊主编。——编注
[33] 奥列格·鲍里索维奇,即罗满宁。——译注
[34] 指1982年5月20日发表在《真理报》上的伊戈尔·亚历山德罗夫的文章。——译注
[35] 大概指的是Г.А.阿尔巴托夫,时任苏联科学院美国研究所所长。——编注
[36] 大概指的是А.И.布拉托夫,时任苏共中央联络部副部长。——编注
[37] 即切尔尼亚耶夫。——编注
[38] 即布加耶夫。——编注
[39] 即齐米亚宁,时任《真理报》主编。——编注
[40] 即安德罗波夫。——编注
[41] 即杰米切夫。——编注
[42] 大概指的是Н.И.斯米尔诺夫,苏联海军上将,太平洋舰队司令。——编注
[43] 此处人名的俄文字迹模糊,无法辨认。——译注
[44] 卢金,时任俄罗斯联邦最高苏维埃国际事务与对外经济联络委员会主席。——编注
[45] 该档案系摘自俄国档案馆的手抄件。——编注
[46] 斯普拉特利群岛(Spratly Islands),即南沙群岛。——编注
[47] 沃罗比约夫,苏联外交官,1989—1990年任苏联外交部亚洲社会主义国家司司长。——编注
[48] 原文如此,下同。——编注
[49] 萨哈林,即库页岛。——译注
[50] 符拉迪沃斯托克,即海参崴。——译注
[51] 布拉戈维申斯克,即海兰泡。——译注
[52] 档案系摘录自俄国档案馆的手抄件,文中省略号表示未抄录的内容。——编注
[53] 该档案系摘录自俄国档案馆的手抄件,文中省略号表示未抄录的内容。——编注
[54] 该档案未标明报告作者和文件日期,这里的时间是根据档案内容推断的。——编注
人名译名对照表
阿巴库莫夫,В.С.Абакумов
阿巴索夫·阿不都克里木,Аббасов Абдукерим
阿巴扎,А.Б.Абаза
阿波隆诺夫,Аполлонов
阿博拉兹佐夫,Образцов
阿卜杜尔加尼,鲁斯兰,Руслан Абдулгань
阿卜杜拉·萨拉勒,АС-Саляль
阿卜杜拉赫曼,Абдурахман
阿卜杜拉扎科夫,Абдуразаков
阿布巴基罗夫,阿布扎尔,Абубакиров Абзал
阿布拉希莫夫,П.А.Абрасимов
阿布罗西莫夫,П.В.Абросимов
阿登纳,Конрад Аденауэр,Konrad Adenauer阿尔巴托夫,Г.А.Арбатов
阿尔费耶夫,Алфеев
阿尔哈罗夫,Ю.Архаров
阿尔杰费耶娃,Д.А.Ардефьева
阿尔梅达,АлмейдаэКошта
阿尔齐舍夫斯基,Т.Арцышевский
阿尔奇莫维奇,Л.А.Арцимович
阿尔塔米拉诺,Альтамирано
阿尔希波夫,И.В.Архипов,Arkhipov
阿法纳先科夫,И.Я.Афанасенков
阿法纳新科,Е.Н.Афанасенко
阿夫季耶夫,В.И.Авдиев
阿夫列莫夫,Авремов
阿夫西莫维奇,Н.Е.Авхимович
阿夫西耶维奇,Авсиевич
阿夫谢耶维奇,А.А.Авсеевич
阿福奇尼科夫,В.Овчинников
阿盖耶娃,И.А.Агеева
阿贡,阿纳克,Анак Агунг
阿赫米德,Ахмид,Akhoed
阿洪多夫,В.Ю.Ахундов
阿基尔,Акил
阿基莫夫,И.Н.Акимов
阿吉尔必什,Д.Адилбиш
阿吉特罗普,Аджитороп
阿济佐夫(赛福鼎),Сайфутдин Азизов
阿加宁,Аганин
阿加皮耶夫,А.Агапьев
阿加耶夫,С.И.Агаев
阿金佛夫,А.Г.Акинфов
阿卡里佐夫,Агальцов
阿科波夫,Акопов
阿克森,赫尔曼,Hermann Axen
阿拉贝谢夫,И.П.Алабышев
阿拉法特,Арафат
阿拉杰涅斯,Аратенес
阿拉克良,А.Аракелян
阿拉克洛夫,М.К.Аракелов
阿拉尤,Л.Арраюн
阿里,阿伦·阿萨夫,Арун Асаф Али
阿里,列札,Реза Али
阿里,穆罕默德,Мухамед Али
阿里芬,Арифин
阿里汉诺夫,Алиханов
阿里斯门迪,Арисменди
阿里斯托夫,А.Б.Аристов
阿里斯托夫,Аристов
阿利捷金,尤素夫,Юсуф Алитекин
阿利耶夫,伊戈尔·瓦西里耶维奇,Игорь Васильевич Алиев
阿列夫,阿布德·萨拉姆,Ареф阿列克赛,Алексий
阿列克西耶夫,Алексиев
阿列克谢延科,Г.В.Алексеенко
阿列克谢耶夫,Алексеев,Alekseev
阿列克辛,А.Алексин
阿列尼科夫,О.М.Аленников
阿列尼切夫,Ареничев
阿列申,Г.А.Алешин
阿列什金,П.Я.Алешкин
阿马佐纳斯格拉鲍斯,Амазонас-Грабойс
阿梅尔,Амер
阿梅尼茨基,Аменицкий
阿米尔,Амир
阿米拉斯拉诺夫,А.А.Амирасланов
阿明,Х.Амин
阿姆罗乌西,阿里·法赫米·阿尔,Али Фахми Ал Амроусси
阿纳尼亚,瓦赫坦,Вахтанг Ананян
阿纳尼耶夫,Ананьев阿尼金,Аникин
阿尼西莫夫,А.И.Анисимов
阿尼亚,壮壮,Джуан Джуан Аня
阿努罗夫,Ануров
阿诺德,Арнольд
阿诺申,Аношин
阿诺索夫,Н.П.Аносов
阿沛·阿旺晋美,Апэй Аванцинмэй
阿恰里亚,Ачария
阿萨德,Асад
阿萨诺夫,Асанов
阿斯科琴斯基,А.Н.Аскоченский
阿斯克罗夫,А.А.Аскеров
阿斯萨达特,安瓦尔,Анвар Ас-Садат
阿斯塔菲耶夫,Г.В.Астафьев
阿索夫斯基,Н.Н.Ассовский
阿塔拉斯,Аталас
阿特马迪纳特,萨米,Сами Атмадинат
阿图里亚,Атулья
阿瓦尔吉德,Аварзид
阿韦林,Аверин
阿维尔齐德,Аварзэд
阿西波夫,帕维尔·伊万诺维奇,Осипов Павел Иванович
阿西卡林,М.К.Аикалын
阿尤布汗,АюбХан,Айюб Хан
阿扎鲁什金,В.Азарушкин
阿朱别伊,Аджубей
埃班,Эбан
埃夫罗斯,Л.С.Эфрос
埃格尔,列夫·叶夫根耶维奇,ЭгельЛев Евгеньевич
埃兰德,Эрландер
埃莉斯,Эллес
埃默里,Эмери
艾达拉利耶夫,А.Айдаралиев
艾德礼,克莱门特·理查德,Эттли
艾德林,Эйдлин
艾登,安东尼,Антони Иден
艾地,Айдит
艾尔本,赫尔曼·弗雷德里克,Херман Фредерик Эрбен
艾哈德,Эрхард
艾哈迈德,Ахмад
艾哈迈德,穆萨菲尔,Муссафир Ахмед
艾哈迈多娃,М.А.Ахмедова
艾哈迈托夫,К.Г.Ахметов
艾利特,М.Эллитт
艾伦,Р.Аллен
艾奇逊,Д.Ачесон
艾青,АйЦин
艾萨克斯,Айзакс
艾森豪威尔,Д.Эйзенхауэр,Eisenhower
艾斯比尔森,Есперсен
艾斯卡兰特,Эскаланте
艾伟,АйВэн
艾知生,ЭЧжи-шен
爱伦堡,И.Г.Эренбург,1891 1967
爱新觉罗·毓彦,Айсендзеро Юй-Янь
爱新觉罗·毓章,Айсендзеро Юй-Чжан
安德列耶夫斯基,Андреевский
安德烈耶夫(米高扬),Андреев
安德烈耶夫,С.Андреев,C. Andreev
安德烈耶夫,С.П.Андреев
安德留什科,Андрюшко
安德罗波夫,尤里·弗拉基米罗维奇,Ю.В.Андропов,Y. V. Andropov
安德罗索夫,Н.К.Андросов
安德罗雅诺夫,Андроянов
安德森,Андерсон
安德森,罗伯特,РобертБ.Андерсон
安迪让,Энтезам
安东尼,Anthony
安东诺夫,А.И.Антонов
安东诺夫,Антонов
安东诺夫,Л.М.Антонов
安东诺夫,С.М.Антонов
安东诺夫,С.Ф.Антонов
安东诺娃,В.М.Антонова
安岗,Ань Ган
安季波夫,Антипов
安久洪,Ан Дя Хон
安库季诺夫,Анкудинов
安库季诺夫,В.М.Анкудинов
安禄山,Ань Ду-шань
安民,Ань Минь
安萨里,Ансари
安特罗波夫,П.Я.Антропов
安致远,АнЧжи-юань,Ань Кань
安子文,АньЦзи-вэнь
岸信健一,Кисикава Кэнити
岸信介,Киси
昂纳克,Э.Хонеккер,Erich Honecker
昂山,Аунг Сан
奥巴林,А.И.Опарин
奥比奇金,Г.Обичкин
奥别列姆科,В.И.Оберемко
奥博弗托,Обофто
奥布霍夫,Obukhov
奥布拉兹佐夫,Н.А.Образцов
奥尔登,Алден
奥尔洛夫,А.А.Орлов
奥尔洛夫,安德烈·雅科夫列夫,Андрей Яковлевич Орлов
奥尔洛夫,彼得,Петр Орлов
奥尔维德,Г.А.Орвид
奥夫奇尼科夫,В.В.Овчинников
奥夫恰洛夫,Овчаров
奥夫恰洛娃,А.Е.Овчарова
奥夫钦尼科夫,Овченников
奥夫相金,В.И.Овсянкин
奥格涅夫,Ю.И.Огнев
奥哈布,Охабу
奥赫洛普科夫,Охлопков
奥吉巴洛夫,П.М.Огибалов
奥加涅索夫,Оганесов
奥库洛夫,Г.Г.Окулов
奥莉加,林琳,Лин Лин Ольга
奥列霍夫,Ф.Т.Орехов
奥列依尼琴科,Г.Олейниченко
奥尼尔,О’Нейлл
奥尼尔,О’Нил
奥帕茨基,Л.Опацкий
奥沙宁,И.М.Ошанин
奥斯莫洛维茨,Осмоловец
奥斯塔片科,Остапенко
奥斯特洛夫斯基,Н.Островский
奥斯特洛夫斯卡娅,Р.Островская
奥斯特洛乌莫夫,Г.С.Остроумов
奥韦奇金,Н.К.Овечкин
奥维佐夫,Б.Овезов
奥西波夫,Осипов
奥西片科,С.Н.Осипенко
奥永德尔格尔,Оюндылгер
巴伯,Баба
巴德尔,加宁,Гань Батыр
巴杜拉,Бадура
巴尔,Бар
巴尔,Барр
巴尔,勃兰特,Брандт Бар
巴尔比,Барби
巴尔别辛,Балбехин
巴尔哈托夫,И.М.Бархатов
巴尔卡尔,С.Н.Баркал
巴尔科夫,А.С.Барков
巴尔马什诺夫,亚历山大·亚历山德罗维奇,А.А.
Балмашнов
巴尔马索夫,Л.Бармасов
巴尔明,В.Бармин
巴尔沙伊,Баршай
巴尔谢吉扬,Барсегян
巴尔扎克,Бальзак
巴甫别科夫,扎基良,Бавбеков Закирья
巴甫洛夫,И.Π.Павлов
巴哥达什,Багдаш
巴格达诺夫,格尔盖·卡斯托,Георгий Косто
Богданов
巴格达萨良,С.Б.Багдасарьян
巴格达萨罗夫,А.А.Багдасаров
巴格达什,Багдаш
巴格洛夫,Д.И.Багров
巴赫,А.Н.Бах
巴赫伦,Бахрун
巴季,尤真·约翰,Юджин Джон Баади
巴季茨基,П.Ф.Батицкий
巴济金,В.И.Базыкин
巴杰,Баджер
巴卡耶夫,В.Г.Бакаев
巴坎特,Бакэт
巴克,比尔,Перл Бак
巴克莱,Барклей
巴克什,古良·穆罕默德,Баκши Гулям Мухаммед
巴库里,Бакури
巴库列夫,А.Н.Бакулев
巴库林,В.М.Бакулин
巴拉巴伊金,Балабайкин
巴拉克,Барак
巴拉年科夫,Бараненков
巴拉诺夫,И.Ф.Баранов
巴拉诺夫,Л.С.Баранов
巴拉诺夫,亚历山大·尼基里弗里维奇,А.Н. Баранов
巴兰斯基,Н.Н.Баранский
巴勒,Э.Баллер
巴里佳,Балига
巴卢库,Бекир Балуку
巴马利,Бамали
巴貌,Ба Маунг
巴尼拉托娃,Панкратова
巴什曼,Башман
巴斯杜赫,Пастух
巴斯卡科夫,Баскаков
巴塔尼斯基,Д.С.Поданский
巴特里克耶夫,Патрикеев
巴托夫,П.И.Батов
巴伊巴科夫,Байбаков
巴伊巴科夫,Н.К.Байбаков
白崇禧,Бай Чунси,Бай Чун-си
白桦子,Bai Hua Zi
白善烨,Пэк СунЕп,Пэк Сон Е
拜科夫,Байков
拜叶尔,Байер
班禅喇嘛,Панчен-Лама
班达拉奈克,С.Бандаранаике
班达利,П.Бандари
邦达连科,Бондаренко
包晨际,БаоЧэнцзи
包尔汉·沙希迪,Бурхан Шагиди
包之静,БаоЧжи-цзин
薄一波,БайПо,БоИбо
薄祖基,ПоЦу Ди
鲍登,Бауден
鲍尔斯,切斯特,Честер Боулс
鲍久尔,И.И.Бодюл
鲍里索夫(罗满宁),Борисов
鲍良(绪方太郎),БоЛян
鲍罗金,Б.Бородин
鲍罗金,М.Е.Бородин
鲍罗廷,М.М.Бородин
北野政次,Китано Масадзо,Kitano Masaji
贝阿沃吉,Беавоги
贝茨,Э.Пэйдж
贝尔纳奇,布鲁克,Брук Берначи
贝尔纳斯,Бирнс
贝戈维奇,Бегович
贝格斯,Бергус
贝科夫,Быков
贝克,阿里,Арли Берк
贝拉,艾哈迈德·本,Ахмед Бен Белла
贝利绍娃,丽丽,Лири Белишова
贝利亚,Л.П.Берия
贝利耶夫,И.А.Пырьев
贝鲁特,Берут
贝内迪克托夫,И.А.Бенедиктов
贝庆志,БеЧин-чжи
贝舍夫,Б.П.Бещев
贝斯特雷赫,Быстрых
贝斯特罗夫,Ф.П.Быстров
贝文,欧内斯特,Бивен
孛儿济特·巴德玛拉布坦,Борчугит Ватмалафтай
本巴耶夫,努苏普汉,Нусупхан Бунбаев
本西马,Бенхима
比布罗夫斯基,Бибровский
比利,Билли
比留佐夫,Бирюзов
比姆,Бим
彼得里切夫,Петричев
彼得鲁绍夫,Петрушов
彼得鲁舍夫,Петрушев
彼得鲁舍夫斯基,А.В.Петрушевский
彼得罗夫,А.А.Петров
彼得罗夫,Д.В.Петров
彼得罗夫斯基,Петровский
彼得森,Питерсон
彼德科维奇,兰科,Ранко Петкович
彼尔莱,Pillai
毕明齐,БиМин-ци
边金科,А.Бентинк
别尔德古洛瓦,Г.Бердыгулова
别尔纳,ДжонБернал
别尔乌辛,М.Г.Первухин
别格洛夫,И.И.Беглов
别赫金,Н.В.Бехтин
别雷,М.М.Белый
别里科夫,Беликов
别利亚科夫,А.Беляков
别利亚耶夫,Н.И.Беляев
别列尼卡娅,Д.Беленькая
别列尼娅,Е.И.Беленя
别列日诺伊,Бережной
别列维什克,Перевышко
别洛博罗多夫,Белобородов
别洛夫,Белов
别洛夫,Г.А.Белов
别洛乌索夫,Белоусов
别洛乌索夫,Г.Г.Беолусов
别斯科洛夫内,В.С.Бескровный
别斯帕罗夫,Беспалов
别夏斯特诺夫,诺达尔·格里戈里耶维奇,Нодар Григорьевич Бесчастнов
别谢金,А.В.Беседин
别谢金,Беседин
宾努,БунУм
波昂显雅,БоАунг Зейя
波巴霍,Бобахо
波波夫,А.А.Попов
波波夫,А.М.Попов
波波夫,А.Я.Попов
波波夫,Г.Х.Попов
波波夫,М.В.Попов
波波夫,Попов
波波娃,Н.В.Попова
波波维,Ф.С.Поповин
波波维奇,弗拉基米尔,Владимир Попович
波采罗布,Б.Ф.Подцероб
波德戈尔内,М.Г.Подгорный
波德戈尔内,Н.В.Подгорный
波德纳拉希,埃米尔,Emil Bodnaras,Боднэраж
波多利斯基,М.Подольский
波多维尼科夫,Подовинников
波尔布特,ПолПот
波戈列洛夫斯基,С.Погореловский
波格丹诺夫,Богданов
波格丹诺夫,П.В.Богданов
波格丹诺娃,Э.Я.Богданова
波克罗夫斯基,И.М.Покровский
波克罗夫斯基,Р.Покровский
波赖科希茨,Б.А.Порай-Кошиц
波立特,Гарри Поллит, Harry Pollitt
波利卡尔波夫,М.С.Поликарпов
波利亚科夫,Поляков
波利扬斯基,Д.С.Полянский
波利扬斯基,Полянский
波列伏依,Б.Полевой
波卢博亚罗夫,Полубояров
波伦,Болен
波洛任科夫,А.Г.Положенков
波洛温金,Половинкин
波马兹涅夫,М.Помазнев
波诺马连科,Пономаренко
波诺马廖夫,Ю.Пономарев
波诺马廖夫,鲍里斯·尼古拉耶维奇,Б.Н. Пономарев
波奇瓦洛夫,Л.Почивалов
波儒昂,БоЖмуАунг
波塞,Бо Сэ
波斯科诺夫,А.А.Посконов
波斯克列贝舍夫,А.Н.Поскребышев
波斯佩洛夫,П.Н.Поспелов
波斯佩洛夫,Поспелов
波斯特尼科夫,М.М.Постников
波特,Поттер
波特鲁巴奇,Потрубач
波特鲁舍夫斯基,Потрушевский
波泽尔科,Подзерко
波兹杰耶夫,П.А.Поздеев
波兹尼亚克,И.И.Поздняк
伯恩斯坦,Бернштейн
伯劳乌特,Байроуд
勃克,Бок
勃拉文,Браун
勃兰特,Брандт
勃列日涅夫,А.А.Брежнев
勃列日涅夫,列昂尼德·伊里奇,Л.И.Брежнев,L.I.Brezhnev
勃伦塔诺,Брентано
博布罗夫尼科夫,Н.И.Бобровников
博布罗娃,Г.М.Боброва
博德鲁日内,В.Подлужный
博尔德列夫,Б.Г.Болдырев
博尔沙科夫,Большаков
博戈罗茨基,Богородский
博戈罗季茨基,Н.П.Богородицкий
博戈莫洛夫,А.Богомолов
博戈亚夫连斯基,Богоявленский
博古,БоГу
博加蒂,Н.Е.Богатый
博加季科夫,В.Ф.Богатиков
博卡奇,Бокач
博利沙科夫,И.Г.Большаков
博鲁阿尔什诺夫,Г.П.Полуаршинов
博鲁诺夫,А.Борунов
博罗夫科夫,Боровков
博罗金,Бородин
博罗维科夫,Л.И.Боровиков
博尼,В.А.Бони
博钦,Боцин
博塔波夫,Потапов
博伊科,В.П.Бойко
博伊佐夫,Бойнов
卜瑞吉,Бриджес,Bridge
布伯科,Пупко
布尔加宁,Η.Α.Булганин,N. A. Bulganin
布尔津,Бурдин
布尔科,Бурке
布尔科夫,Бурков
布尔齐奇,拉特科,Ратко Брзич
布哈林,Бухарин
布赫洛夫,Пухлов
布加耶夫,叶夫根尼·约瑟福维奇,Евгений Иосифович Бугаев
布杰费里卡,Бутефлика
布克,蒂姆,Тим Бак
布拉吉列夫,В.И.Благирев
布拉金,Б.И.Брагин
布拉金,Брагин
布拉诺夫,А.И.Буланов
布拉图斯,Братусь
布拉托夫,А.И.Блатов
布兰克,克列门特,Клемент Бланк
布雷切夫,斯捷潘·彼得罗维奇,Степан Петрович
Булычев
布里特,威廉,Вильям Буллит
布林克,季尔克,ДиркБринк
布柳赫尔(加伦),Блюхер
布鲁克,Брук
布鲁克,弗兰茨,Franz Bruk
布鲁姆,索尔,Сол Блум
布鲁斯,Брюс
布鲁斯特,Брюстер
布伦戴奇,艾弗里,Эвери Брендедж
布罗德,И.О.Брод
布罗吉奥,曼里奥,Манлио Брозио
布罗克韦,Брокуэй
布罗维茨基,Буровицкий
布迈丁,Бумедьен
布尼亚,Пуннайя
布热津斯基,Бжезинский
布瑟金,Н.П.Бусыгин
布什,Буш
布斯洛夫斯基,О.Е.Бусловский
布托玛,Б.Е.Бутома
布瓦诺,Бувано
布耶夫,Буев
布兹科,Будзко
采特林,П.М.Цетлин
蔡畅,ЦайЧан
蔡昉,ЦайФан
蔡汉新,ЦайХаньсин
蔡和森,ЦайХосин
蔡斯,霍梅尔,Хомер Чейз
蔡特金,克拉拉,Клара Цеткин
蔡廷锴,ЦайТин-кай,Цэй Тинкай
蔡学舟,Цзэн Сюэ Чжоу
蔡雨田,ЦайЮй-тянь
蔡壮壮,Цэй Джуан Джуан
曹克强,Цао Кэ-цян,Цао Кэцян
曹敏,ЦаоМин
曹夏湖,ЦаоСяхо
曹玉仁,СаоЮй-жэнь
曹元,Цао Цюань
策伯格米德,Д.Цэвэгмид,Tsevegmid
岑石武,Чень Шы-у
曾汉周,Сюй Пань Цю
曾琦,Цзэн Ци
曾秀夫,ЦзенСю-фу
曾学坤,Цзэ Сюэгун
曾涌泉,Цзэн Юнцюань,Цзэн Юнь-цюан
曾泽生,Цзэн Цзэншен
曾昭抡,Цзин Чжолун
查普曼,Чепман
查万,Чаван
查佐夫,Чазов
察拉普金,С.К.Царапкин
察连科,Царенко
柴可夫斯基,Чайковский
柴树藩,ЦайШу-фань
昌格,乔治,Джордж Чанг
常振海,ЧаньЧжэн-хай
常芝青,ЧанЧжи-цин
陈帮臣,ЧенБан-чен
陈宝剑,ЧанБыу Кием
陈保罗(陈印),Чен Павел
陈波儿,Чэнь По-эр
陈伯村,Чэнь Бо-цунь
陈伯达,Чень Бода,Чэнь Бо-да
陈伯清,Chen Boqin
陈伯涛,Чень Ботао
陈曾固,Чень Цзэнгу,Чень Цзян-гу
陈昌浩,Чэнь Чан-хао
陈诚,Чэнь Чэн
陈楚,Чэнь Чу
陈传熙,Чен Цуанси
陈达,Чэнь Да
陈道生,Чэнь Дао-шэн
陈定亮,Чэнь Динлян
陈赓,Чэн Гэн
陈光如,Чен Гуанжу
陈广才,Чэнь Гуань-цай
陈国富,Чэнь-Го-фу
陈国伟,Чэнь Говей
陈果夫,Чэн Гофу
陈皓,Чен Хао
陈辉,Чен Хуэй
陈济棠,Чэнь Цзи-тан
陈家康,Чэнь Цзя-кан,Чэн Цзякан
陈嘉庚,Чэн Цзя-чэн
陈剑飞,Чень Цзянфэй
陈江都,Чэнь Цзянь-ту
陈江新,Чен Цзян-син
陈进,Чэн Дин
陈军,Чэнь Цзюнь
陈利水,Чен Ли-шуй
陈林,Чэнь Линь
陈漫远,Чэнь Нань-юань
陈枚山,Чэн Мэньшэн
陈梅利,Чен Мэри
陈明仁,Чэнь Миньцзюнь
陈铭枢,Чэнь Миншу
陈慕华,Чэнь Мухуа
陈纳德,Ченнолт
陈鹏,Чэнь Пэн
陈丕显,Чэнь Пиюань
陈庆益,Чен ЧинИ
陈秋安,Чэн Цзю-ань,Чэн Цюань
陈全,Чен Цюань
陈绍禹(王明),Чэнь Шао-юе
陈维兴,Чан Зум Хынг
陈文成,Чан Ван Тань
陈文香,Хыонг
陈希卫,Чэнь Си-вэнь,Чэнь Си-вэнь
陈锡华,Чэн Си-хуа
陈锡联,Чэнь Си-лянь
陈秀莲,Чэнь Сюлян
陈序经,Чэнь Сюэ-чжунь
陈燕清,Чэн Янь-цин
陈要财,Чэнь Яо-цай
陈毅,ЧэньИ
陈印,Чен Ин
陈云,Чэнь Юнь
陈云绍,Цэйн Юй-шао
陈臧沪,Чен Цанхоу
陈肇源,Чэнь Чжаоюань
陈子平,Чан Ты Бин
陈祖,Чэнь Цу
陈祖涛·雅沙,ЧенЦу-Тао Яша
成吉思汗,Genghis-khan,Чингис-хан
程兵,Чэн Бин
程今吾,Чэнь Цзин-у
程鲁生,Чень Лу-шэнь
程明升,Чэн Мин-шень
程庆,Чэн Чин
程眺福,Чен Тяофу
程文津,Чен Вэнь-цзинь
程裕淇,Чен Юйчи
程州,Чен Чжоу
程子华,Чен Чжанэнь
迟浩田,Чи Хаотян
迟克昌,Чи Кэ-чан
楚查耶夫,Цуцаев
楚家杰,Чу Цзя-те
楚库洛夫,М.М.Цукуров
楚马钦科,Чумаченко
楚图南,Чу Ту-нань
川岛清,Кавасима,Kawashima Kiyoshi
春水,Суан Тхюи
丛秀吉,Цзон Сюй-ди
崔昌益,Цой Чан Ик
崔可夫,С.А.Чуйков
崔义田,ЦуйИ-тянь
崔庸健,Цой Ён-ген,Цой Ен Ген
崔元植,Цой ВонСик,Цой Юн Сик
崔月犁,Цуй Юэли
崔哲焕,Цой Чер Хван
措戈耶夫,维克托·巴特尔别科维奇,Виктор Батырбекович Цогоев
达夫利亚托夫,Р.Давлятов
达格利奥,Даглио
达卡列夫,Токарев达科维奇,Дакович
达赖喇嘛,ДалайЛама
达列力汗,苏古尔巴也夫,Сокурбаев Далельхан
达姆巴,Дамба
达姆丁,Дамдин
达尼,奥马尔,Омар Дани
达什扬,С.Дашьян
达斯卡罗夫,斯托扬茨,СтоянЦ.Даскалов
达特,Датт
达特,巴里姆,Пальм Датт
达特,克列门特,Клемент Датт
达旺,Даван
达维多夫,Давыдов
达维多夫,特罗菲姆·涅菲多维奇,Давыдов Трофим Нефедович
达维伊,阿卜杜拉·哈迪,Абдул Хади Давей
达乌德,М.Дауд
代日,Деж
戴秉国,Дай Бинго
戴高乐,Де-Голль
戴维斯,Davis
丹古洛夫,С.А.Дангулов
丹吉,С.А.Данге,Shripad Amrit Dange
丹妙,Тан Мьяйнг
丹尼斯,Деннис
丹增嘉措,Даньцзин Джямцо
单德浩,Данг Дык Кхой
德波林,Деборин
德尔干,Дэлгэр
德奎利亚尔,Куэльяр
德拉贡,Драгун
德拉雅舍夫,Драяшев
德拉伊,Делайе
德雷布,Джебб
德列穆奇,Дремучий
德罗诺夫,Н.Д.Дронов
德米特里切夫,Т.Ф.Дмитричев
德米特里耶夫,С.С.Дмитриев
德尼先科,Е.Д.Денисенко
德钦丹东,ТакинТан Тун
德钦努,Такин Ну
德钦梭,Такин Со
德赛,М.Дж.Десаи
德赛,莫拉尔吉,Морарджи Десаи
德田秋一,Токуда,Tokuda Kyuichi,Tokuda Shuichi
德王,Дэ-Вань
德沃尔扎克,Дворжак
登金,Е.Б.Дынкин
邓初民,ДэЧумин
邓力群,ДенЛи-чунь
邓拓,ДэнТо
邓小平,ДэнСяопин
邓颖超,ДэнИн-Чао
邓中夏,ДэнЧжун-ся
邓子恢,ДэнЦзы-хуэй,Дэн Цзыхуэй
狄超白,ДиЧао-ба
狄潘,Tep Phan
迪克逊,Диксон
蒂尔迪·佐尔坦,ТильдиЗолтан
蒂基汗,Тикк-хан
蒂亚布日,Тья бжи
蒂亚姆,杜杜,Дуду Тиам
丁华,Дин Хуа
丁凯文,Дин Кай-вэнь
丁玲,Дин Лин
丁西林,Дин Син-Линь
东琴科,Г.А.Донченко
董柏年,Дун Бай-нянь
董必武,Дун Биу,Дун Би-у
董朝,Дун Джао
董辅礽,Дун Фу-линь
董洪德,Дун Хун-Дэ
董吉,Дондик
董守义,Тун-Шу-и
董斯蒂尔(董吉),Stell Don
董文宇,Дун Вэнь-юй
董显光,Холингтон Тонг
杜阿勒,Дуале
杜比宁,В.Дубинин
杜比诺,Дубино
杜宾斯基,Ду бинский
杜斌丞,Ду Пин-чэн
杜伯曼,Табмэн,Табмен
杜勃诺夫,Дубнов
杜布拉温,Л.Дубровин
杜布罗夫斯基,А.Д.Дубровский
杜布罗维茨卡娅,Г.И.Дубровицкая
杜布洛维奇,В.Н.Дубрович
杜布切克,Дубчек
杜多罗夫,Дудоров
杜尔,塞古,Секу Туре
杜尔杰涅夫斯基,В.Дурденевский
杜格尔苏伦,Дугэрсурэн
杜金龙,ТуЦзеньлунь
杜拉索夫,Дурасов
杜勒斯,Фостер Даллес,John Foster Dulles
杜林,Дюринг
杜鲁方诺夫,Труфанов
杜鲁门,Трумэн
杜蒙仁,ДуМун-жань
杜米特鲁,奥尔加努,Олтяну Думитру
杜润生,ДуЖэн-шэн
杜特拉,玛莉亚·塔·格拉萨,Марияда Граса Дутра
杜特尼琴科,Дудниченко
杜威,Дъюи
杜维廉,Тревельян
杜心源,ДуСинь-юань
杜伊谢诺夫,Е.Дуйсенов
杜聿明,ДуЮймин
杜长志,ДуЧжан-чжи
多勃雷宁,А.Ф.Добрынин
多布罗夫,А.С.Добров
多布罗拉德尼克,И.Доброрадник
多德胡多耶夫,Н.Додхудоев
多尔蒂科斯,О.Дортикос
多尔戈夫,Долгов
多尔基赫,В.И.Долгих
多尔加切夫,В.П.Долгачев
多尔马托夫,里昂尼德·瓦西里耶维奇,Долматов Леонид Васильевич
多加德金,В.А.Догадкин
多克希采尔,Т.Докшицер
多库金,В.И.Докукин
多列士,Морис Торез,Maurice Thorez
多隆丘克,Дорончук
多罗申科,Дорошенко
多洛斯波拉穆,Дороспалам
多莫加茨基赫,М.Домогацких
多姆尼茨基,Домницкий
多尼,Дауни
朵噶·彭措饶杰,Токэнэнцо Жаоцзи
厄尔德曼
恩格尔哈德,В.А.Энгельгард
恩格斯,ФридрихЭнгельс
恩克鲁玛,К.Нкрума
恩维尔,阿布萨伊德,Абусаид Энбер
法尔卡什,Фаркаш
法基,赛义德·哈桑,Саид Хасан Факи
法季扬诺夫,З.А.Фатьянов
法捷耶夫,Фадеев
法捷耶夫,Ю.Д.Фадеев
法卡诺夫,Фоканов
法林,Фалин
法名科,Фоменко
法特万,Фатван
法伊萨尔,Файсал
饭盛重任,Иимори Сигато,Iimori Shigeto
范登堡,Ванденберг
范范尼,阿斯托明,Аминторе Фанфани
范弗里特,Ван Флит
范庆明,Фан Цинмин
范如深,Фань Жушэн,
范文同,Pham Van Dong,Фам Ван Донг
范雄,Фам Хунг
范长江,Фан Чанцзян
范之,Фан Чжи
方虎山,Пан Хо Сан
方学世,Пан Хек Се
方祖安,ФанЦзу-ань
房德中,ФанДэ Чун
菲阿尔科夫斯基,А.И.Фиалковский
菲茨杰拉德,Ч.Дж.Фитцджеральд
菲尔宾格,Г.Фильбингер
菲拉托夫,Филатов
菲拉托维奇,Филатович
菲利尔斯,Фриирс
菲诺格诺夫,Финогенов
菲沃特,З.Г.Фейвот
费奥多罗夫,В.П.Федоров
费奥多罗夫,Федоров
费德林,Н.Т.Федоренко,N. T. Fedorenko
费登科,Феденко
费多尔楚克,Федорчук
费多托夫,Н.Федотов
费多托夫,Федотов
费多托夫,谢苗·伊万诺维奇,Федотов
费多托娃,М.С.Федотова
费多谢耶夫,В.Федосеев
费多谢耶夫,П.Н.Федосеев
费多谢耶夫,Федосеев
费尔德曼,Фельдман
费克图,Фекту
费雷拉,德罗斯,Медейруш Феррейра
费列夫,А.И.Филев
费留宾,Н.П.Фирюбин,N. P. Firyubin
费萨尔,Фейсал
费舍尔,奥斯卡,Oskar Fischer
费舍尔,里哈德,Рихард Фишер
费希尔,Фишер
费先科,Фесенко
费孝通,ФейСяй-тун
风见章,Коцзуми Акира,Kazami Akira
冯·勃伦塔诺,Фон Брентано
冯白驹,Фэн Бай-цзюй
冯伯仲,Фун Боджуин
冯乃超,Фэн Найчао
冯维希,Вонгвичит
冯文彬,Фын Вэн-бин,Фенг Венпинг,Фын Вэнбинь
冯义,ФунИ
冯友兰,Фын Юлан
冯玉祥,Фын Юйсян
冯仲云,Фэн Чжун-юнь
弗多维琴科,Вдовиченко
弗拉迪金,Н.А.Владыкин
弗拉霍维奇,Влахович
弗拉基米尔,大宝,Та Бао Владимир
弗拉基米尔,继飞,Ти Феи Владимир
弗拉基米罗夫(孙平),П.П.Владимиров
弗拉基米罗夫,В.И.Владимиров
弗拉基米罗夫,Владимиров
弗拉金,И.Е.Фрагин
弗拉尚,БенуаФрашон
弗拉索夫,Власов
弗拉索夫,К.А.Власов
弗赖德林,С.Я.Фрейдлин
弗兰采夫,Францев
弗兰古利斯,Форангулис
弗里德曼,Л.Фридман
弗林,伊丽莎白,Элизабетт Флинн
弗洛连季耶夫,Флорентьев
伏德杨宁,Фодянин
伏罗希洛夫,К.Е.Ворошилов
符明,С.Я.Фомин
福尔采娃,Е.А.Фурцева
福缅科,Фоменко
福缅科,Я.И.Фоменко
福田赳夫,Фукуда
傅秉常,Фу Бинчан,Фу Бин-шан
傅金,Фукин
傅泾波,Фу Цзинбо
傅斯年,Фу Сынянь
傅鹰,Фу Ин
傅作义,Фу Цзо-и
富布赖特,Фулбрат
富尔顿,Фултон
富尔索夫,В.С.Фурсов
富马,梭发那,Суванна Фума
盖达尔,А.Гайдар
盖杰什,彼得,Петро Гедеши
盖卡,里拉,Лира Гега
甘地,英迪拉,Индира Ганди
甘东,Гендун
甘介侯,Гань Цзэхоу
甘申,Г.А.Ганшин
甘泗淇,Гань Сы-ци
甘野陶,Гань Е-тао
甘珠尔扎布,Ганьчжурчжаб
冈崎,Окадзаки
冈萨雷斯,Гонсадес
冈野(野坂参三),Окано
高仓辉,Такакур Тэра
高崇民,Гао Циньмин
高尔基,А.М.Горький
高放,Гао Фан
高峰起,Ко БонГи
高福(袁牧之),Гао Фу
高岗,Гао Ган
高戈,Гао Го
高集,Гао Цзи
高锦深,Гао Цзиншень
高京山,Гао Цзинь-шэнь
高开治,ГаоКэчжи
高利柯夫,Голиков
高洛霍夫,Горохов
高曼,Гао Ман
高帕兰,Гопалан
高旗云,Гао Циюнь
高桥龙太郎,Такахаси,Takahashi Ryutaro
高士,阿约艾,Аджой Гхош,Ajoy Kumar Ghosh
高树勋,Гао Шусюнь
高惜冰,Гао Си-бин
高英山,Гао Ин-шань
高卓雄,ГаоЧжо-сюн
戈宝权,ГэБаоцюань,Ге Баоцюань
戈德华特,伯利,Бэрри Голдуотер
戈登,威廉,ВильямГордон
戈杜诺夫,Д.А.Годунов
戈尔巴乔夫,М.С.Горбачев
戈尔巴托夫,Горбатов
戈尔布诺夫,А.А.Горбунов
戈尔布诺夫,В.Горбунов
戈尔茨,Герц
戈尔拉乔夫,Горлачев
戈尔舍宁,К.Горшенин
戈尔什科夫,В.И.Горшков
戈尔什科夫,С.Г.Горшков
戈尔特,Г.Гортер
戈戈列夫,Гоголев
戈格里泽,Гоглидзе
戈兰斯基,达维德·费拉基米罗维奇,Давид Владимирович Голанский
戈里茨基,В.А.Горицкий
戈利科夫,Голиков
戈利科夫,Ф.И.Голиков
戈连科夫,Голенков
戈列夫,Я.И.Голев
戈列金,В.С.Голегин
戈林,А.Горин
戈留申,В.Н.Горюшин
戈卢比亚特尼科夫,Голубятников
戈卢别夫,Голубев
戈卢别夫,Н.И.Голубев
戈卢布科夫,А.В.Голубков
戈卢诺夫,Голунов
戈伦斯基,С.Голунский
戈罗什金,И.В.Горошкин
戈罗沃伊,В.Горовой
戈洛瓦乔夫,Головачев
戈洛温,Е.И.Головин
戈梅拉,Б.Гмырь
戈什,Гесь
戈斯捷夫,Гостевой
戈沃罗夫,Говоров
哥穆尔卡,Гомулка,Wladyslaw Gomulka
哥特瓦尔德,Готвальд,Klement Gottwald
歌德,Гёте
格奥尔基耶夫,А.В.Георгиев
格奥尔加泽,Георгадзе
格尔什戈林娜,Э.Б.Гершгорина
格尔泽洛夫,Л.И.Грдзелов
格季克,Гедике
格拉德科夫,И.А.Гладков
格拉德舍夫,П.Гладышев
格拉乔夫,А.П.Грачев
格拉乔夫,В.А.Грачев
格拉乔夫,Грачев
格拉乔夫,Грачев
格拉西莫夫,Герасимов
格拉西莫夫,С.Герасимов
格拉西莫娃,玛娅,Герасимова Мая
格拉先科,Б.С.Геращенко
格拉先科,В.С.Геращенко
格拉扎切夫,Глазачев
格拉祖诺夫,Глазунов
格莱赫姆,Грэхэм
格雷,Грей
格里巴,雅克,Жак Гриппа
格里巴耶夫,Грибачев
格里芬,Дж.Гриффин
格里夫科夫,Гривков
格里戈里耶夫,Григорьев
格里戈良,В.Григорьян
格里戈良,С.С.Григорян
格里戈罗维奇,Григорович
格里舍尔,В.А.Гришель
格里申,В.В.Гришин
格里申,М.Т.Гришин
格里斯金科,Н.И.Глистенко
格列波夫,Глебов
格列奇科,А.А.Гречко
格列斯津,卡尔维尔,Калвер Глейстин
格林察尔,费多尔·尼古拉耶维奇,Федор Николаевич Гринчар
格林卡,Глинка
格林丘科夫,В.Б.Гринчуков
格林施泰因,А.М.Гринштейн
格隆基,Гронки
格鲁比亚科夫,Грубяков
格鲁济诺夫,М.Д.Грузинов
格鲁尼切夫,Н.А.Груничев
格鲁热,Гружий
格鲁舍茨基,Г.Х.Грущецкий
格鲁特,保尔,П.де Гроот
格罗,Гере
格罗提渥,奥托,Отто Гротеволь
格洛莫夫,А.А.Громов
格姆博扎夫,Гомбожав
葛步海,ГэБу-хай
葛量洪,Грэнтем
葛罗米柯,А.А.Громыко,A. Gromyko
耿树宾,ГенШу-бин
宫本显治,Кэндзи Миямото
宫崎章,Мия дзаки
龚丹,Гун Тан
龚普生,Гун Пушен
贡多宾,Н.А.Гундобин
贡多罗夫,А.С.Гундоров
贡勒,КонгЛе
贡恰尔,А.Т.Гончар
贡恰罗夫(康佳若),С.Гончаров
贡恰罗夫,Гончаров
古埃尔,Гуэрли
古别尔,А.А.Губер
古博列夫,Губорев
古大存,ГуДа-цунь
古尔维奇,Гурвич
古海忠之,Фуруми Тадаюки
古雷,Гулый
古利亚耶夫,Гуляев
古利亚耶夫,П.В.Гуляев
古列维奇,Е.С.Гуревич
古林,Гурин
古尼杰维亚,Гундевия
古尼亚尔,Куньял
古普塔,布佩希,Бхупеш Гупта
古西科夫,С.В.Гуськов
古谢夫,В.А.Гусев
古谢夫,В.Д.Гусев
古谢夫,М.И.Гусев
古谢夫,М.М.Гусев
古谢娃,Н.В.Гусева
古依斯基(张锡俦),伊万·尼古拉耶维奇,Гуйский
ИванНиколаевич
谷超豪,ГуЧао Хао
谷次亨,ГуМы-хэн
谷牧,Гу Му
谷正纲,Гу Чжэнган
顾,威利克汤(顾维钧),Велликтон Ку
顾孟余,Гу Мынюй
顾寅,ГуИн
关豪陶,Гуань Хаотао
关吉玉,Гуань Цзия
关良超,Гуань Лян-чжао
关麟征,Гуан Лин-чжен
关齐,Куанг Ти
关向应,Гуань Сян-ин
桂永清,Гуй Юнцин
郭春涛,Го Шэньтао
郭方,Го Фан
郭峰,Го Фын
郭高启,Го Гоу-чи
郭化邦,Го Хуа-бан
郭洁,Го Цзинь
郭克朗貌,Ко Кланг Маунг
郭亮,Го лян
郭纶,Го Лунь
郭敏(袴田里见),Го Мин
郭沫若,Го Можо
郭鹏,Го Пэн
郭文魁,Го Вэнькуй
郭文林,Го Вэнь-лянь
郭云思,Го Июньс
郭泽章,Го Цзэ-чжан
郭志成,Го Чжи-чен
果戈理,Н.В.Гоголь
哈丁,Хардинг
哈尔拉莫夫,М.Харламов
哈尔特,Харт
哈基姆巴耶夫,阿利姆占,Алимджан Хакимбаев
哈基姆贝科夫,卡尤姆贝克,Каюмбек Хакимбеков
哈季耶夫,Хаджиев
哈拉哈普,伯汉努丁,Харахап
哈拉斯,Халас,Halas
哈里曼,А.Гарриман
哈里斯,Харрис
哈里逊,Гарисон
哈鲁金,Халутин
哈马尔舍尔德,Хаммаршельд
哈米杜林,Р.Хамидулин
哈奇森,Хатчисон
哈恰图良,А.Хачатурян
哈萨诺夫,阿布德拉赫曼,Абдрахман Хасанов
哈桑,莫赫,МохХассан
哈桑巴耶夫,雅库别克,Якуббек Хасанбаев
哈什,Харш
哈斯布拉托夫,Р.И.Хасбулатов
哈塔,Хатта
哈特基,Хартке
哈耶克,Гаек
海尔利耶夫,Х.Г.Хайрлиев
海特,Хейтер
韩安天,Хан АнЧен
韩光,Хан Гуан,Хань Гуань
韩金庆,Хань Цзинь-Чин
韩俊杰,Хань Цюн-цзе
韩乾祖,Хан Чэн-цзу
韩清石,Хан Чинши
韩琼,Хан Чен
韩桑林,Хенг Самрин
韩铁声,Хан Тье-шен
韩先楚,Хань Сянь-чу
韩相斗,Хан Сан Ду
韩友廷,Хан Ютин
汉巴巴耶夫,安瓦尔,Анвар Ханбабаев
汉弗莱,Хэмфри
汉森,Хансен
郝贵陆,Хэ Дуй-лу
郝治平,Хао Чжи-пин
何安权,Ха Ан Чен
何宝贤,He Bao-Xian
何毕然,Хэ Би-жань
何兰阶,Хэ ЛаньЦзе
何谦,Хо Цянь
何思彤,Хэ Сытун
何思源,Хэ Сы-юань
何伟,Хэ Вэй
何文楼,Ха Ванлау,Хо Ван Ло
何香凝,Хэ Сянь-нин
何一俊,Хэ И-цзюнь
何应钦,Хэ Инцин
何云川(听涛克巳),Хэ Юм-чуань
何长工,Хэ Чжан-Гуан,Хо Чан-гун
何哲,Хэ Цзай
和谷岩,Хэ Гуянь
贺,丹尼尔,ДаниилХэ
贺麟,Хо Ли
贺龙,Хэ Лун
贺绿汀,ХеЛу-дин,Хэ Лудин,Хэ Лутин
贺希明,Хэ Си-мин
贺耀祖,Хэ Яо-цзу
赫茨费尔特,Hertzfold
赫尔利,Харли,Хэрли
赫尔姆斯,Хелмс
赫盖尔奇,Хегерти
赫格居斯,Хегедюш
赫拉莫夫,Хламов
赫里亚普金娜,Хряпкина
赫利亚彼奇,И.Хлябич
赫连尼科夫,Т.Н.Хренников
赫列布尼科夫,В.Б.Хлебников
赫列布尼科夫,Хлебников
赫鲁廖夫,А.В.Хрулев
赫鲁尼切夫,Хруничев
赫鲁晓夫,尼基塔·谢尔盖耶维奇,Никита Сергеевич Хрущев,N. S. Khrushchev
赫梅尔科,М.И.Хмелько
赫努佩克,Хнеупек
赫奇逊,Хетчисон
赫脱,Гертер
黑格,Хейг
黑格尔,Гегель
黑根,Ю.Хеген
洪淳宽,Хон СунГван
洪森,ХунСен
侯赛因,Хусейн
侯外庐,Хоу Вайлу
侯镇冰,Хоу ЧженВин
侯志通,Хоу Чжи-тун,Hou Zhidung
胡德乔,Ху Те-Чао
胡多宾,Л.В.Ху добин
胡风,Ху Фын
胡绩伟,Ху Цзи-вэй
胡家赣,Ху Ча Ган
胡阶森,Хатчесон
胡厥文,Ху Цзюэ-вэнь
胡克实,Ху Кэ-ши
胡霖,Ху Лин
胡明,Ху Мин
胡齐耶夫,М.М.Хуциев
胡乔木,ХуЦяо-му
胡萨克,Г.Гусак
胡绳,ХуШ эн
胡世泽,Ху ШиЦзэ
胡适,Ху Ши
胡万光,Ху Вэньгань
胡维泰,Хо ВьетТан
胡耀邦,Ху Яо-бон,Ху Яо-бан
胡一鸣,Ху И-минь
胡愈之,Ху Юй-чжи
胡志明,Хо Ши Мин,Ho Chi Minh
胡宗南,Ху Цзуннан
华德,Уорд
华国锋,Хуа Го-фэн
华君武,Хуа Цзюнь-у
华莱士,Уоллес, Henry Wallace
华罗庚,Хуа Ло Ген
华西列夫斯基,А.М.Василевский
化石,Хуа Ши
宦乡,Хуан Сян
黄斌,Хуанпин
黄达,Хуан Да
黄丹斌,Хуан Даньпин
黄栋,Хоанг Тунг
黄富俊,Хуан Фу-цзонь
黄华,Хуан Хуа
黄汲清,Хуан Цзицин
黄金鲁,Хуан Цзи-лу
黄敬,Хуан Цзин
黄克诚,Хуан Кэчэн,Хуан Ке-чэн
黄洛峰,Хуан Ло-фын,ЖуанЛе-фин
黄鼐,Хуан Нэй
黄欧东,Хуан Оу-дун
黄庆发,Хуан Цзиньфа
黄琼,Хоанг Кунь
黄瑞,Хуан Жэй
黄时明,Хуан Ши-мин
黄舜,Хуан Шунь
黄文欢,Хоан Вэнь-Хоан
黄文进,Хоанг ВанТиен
黄新民,Хуан Син-Мин
黄炎培,Хуан Яньпэй,Хуан Янпэй
黄一中,Хуан И-чжун
黄贻钧,Хуан Ицюнь
黄赞直,Хуан Цзэнчжи
黄镇,Хуан Чжэнь
霍布森,Гопсон
霍查,恩维尔,Энвер Ходжа
霍多斯,П.М.Ходос
霍尔,盖斯,Гэс Холл
霍尔蒂,Хорти
霍夫曼,Гофман
霍赫洛夫,А.Е.Хохлов
霍洛德科夫,Холодков
霍奇斯,Ходес
霍乌斯,Г.Хоудс
基巴利契科(韩铁声),И.Н.Кибальчик
基巴利契科,莫尼亚,Кибальчик Моня
基哈德森,Герхардсен
基金,Кидин
基里连科,安德烈·帕夫洛维奇,А.П.Кириленко
基里林,В.А.Кириллин
基里洛克,С.Кирылюк,Кирелюк, Stanislawa Kiryluk
基里琴科,А.И.Кириченко
基里琴科,Кириченко
基里索夫,Кирисов
基连加乌捷,Киленгаузен
基列耶夫,И.И.Киреев
基帕里索夫,С.С.Кипарисов
基斯利亚科夫,И.П.Кисляков
基斯连科,Кисленко
基斯连科,阿列克塞·帕夫洛维奇,Алексей Павлович Кисленко
基斯洛夫,Кислов
基塔耶夫,Китаев
基塔耶娃,Е.И.Китаева
基谢廖夫,Киселев
基谢廖夫,С.В.Киселев
基谢廖夫,Т.Я.Киселев
基谢廖娃,О.С.Киселева
基谢洛夫,Е.Д.Киселов
吉奥迪,Гиольди
吉布桑,Гибсон
吉滴卡宗,乃他侬,Киттикачон
吉洪诺夫,Н.С.Тихонов
吉金斯,让,ЖанКиндинис
吉列耶夫,Киреев
吉伦,Гиллем,Alvan C. Gillemn
吉田,Иосида
吉学霈,ЦзэСюэпэй吉雅泰,ЦзиЯ-тай
吉耶尔马,Jacques Guillermaz
纪登奎,ЦзиДэн-куй
季奥尔季察,А.Ф.Диордица
季霍米罗夫,С.М.Тихомиров
季卡姆巴耶夫,К.Д.Дикамбаев
季利琴科,А.Г.Тиличенко
季米里亚泽夫,Тимирязев
季米娜,З.В.Зимина
季米特洛夫,С.Димитров
季明,П.Зимин
季莫费耶夫,Н.И.Тимофеев
季莫费耶夫,Тимофеев
季诺维也夫,Г.Е.Зиновьев
季什科夫,А.А.Тишков
季斯利亚尔,Тисляр
季托夫,А.Титов
季托夫,Г.С.Титов
季亚科诺夫,Дьяконов
季亚科诺夫,Дьяконов
季亚琴科,В.П.Дьяченко
季庄,Цзичжуан
济金,Зинкин
济金娜,Л.С.Зыкина
济科夫,Зыков
济科夫斯莫洛夫,Н.М.Зыков-Смолов
济里亚诺夫,Зырянов
济明,В.А.Зимин
冀朝鼎,ЦзиЧаодин
冀福海,ТиФухай
加尔布佐夫,В.Ф.Гарбузов,V. F. Garbuzov
加尔金,Галкин
加尔金,Е.А.Галкин
加尔马舍夫,А.Ф.Гармашев
加夫里连科,Гавриленко
加夫里洛夫,Гаврилов
加夫里洛夫,谢尔盖·卡皮托诺维奇,Гаврилов Сергей Капитонович
加夫里洛娃,Н.Гаврилова
加夫留克,П.П.Гаврюк
加富罗夫,Гафуров
加加林,Ю.А.Гагарин
加里宁,Калинин加里宁,М.Калинин
加里宁,Н.Калинин
加利诺维奇,Ю.М.Галенович
加利佩林,С.А.Гальперин
加米涅夫,Л.Б.Каменев
加米涅夫,佐罗·克雷斯捷夫,ЦолоКрыстев Каменев
加莫乌斯,Гамоус
加涅夫,Х. T.Ганев
佳普金娜,Тяпкина
贾,Джа
贾尔卡赛汗,Джаргал-Сайхан
贾库林,安瓦尔,АнварДжакулин
贾纳别科夫,拜穆尔扎,ДжананбековБаймурза
贾丕才,М.С.Капица,M. Kapitsa
贾丕才,П.Л.Капица
贾拓夫,ЦзяТофу
贾瓦西什维利,Г.Д.Джавахишвили
贾正操,Цзя Чжен-цао
坚德里亚科夫,В.Ф.Тендряков
江丰,Цзянь Фын
江培武,Цзян Пэй-у
江青,Цзян Цин
江世奎,Дян Шикуй
江洋清,Цзен Янцин
江泽民,Цзян Цзэминь
江哲星,Цзян ЧжеСин
姜椿芳,Цзян Чун-фен
姜贵银,Тянь Гуй-ин
姜健,Кан Ген
姜丽珍,Цзян Ли-чжэнь
姜茹,Дян Жуй
姜信泰,Цзян Син-тая
蒋斌,Тянь Пин
蒋光鼐,Цзян Гуан-най
蒋介石,Чан Кайши
蒋经国,Цзян Цзинго
蒋南翔,Цзя Наньсян
蒋廷黻,ЦзянТин-фу,Цзян Тинфу
蒋英玲,Цянь Инлин
焦朝河,Цзяо Чжаохэ
焦尔诺夫,米哈伊尔·维肯季耶维奇,Зернов Михаил Викентьевич
焦继辉,Цзоу Цзихуань
杰奥米多夫,М.И.Деомидов
杰杜什津,П.С.Дедушкин
杰多夫,Дедов
杰费里杰,М.Н.Де Фриде
杰格佳廖夫,В.А.Дегтярев
杰吉耶尔,弗拉基米尔,Дедиер
杰克逊,Джексон
杰利钦耶夫,В.Г.Делициев
杰列维扬科,Деревянко
杰柳辛,Л.Π.Делюсин
杰米切夫,彼得·尼洛维奇,П.Н.Демичев
杰缅季耶夫,Дементьев
杰缅季耶夫,П.Дементьев
杰明,Демин
杰尼索夫,А.И.Денисов
杰尼索夫,Б.С.Денисов
杰尼索夫,Денисов
杰塞普,Джессеп
杰夏特尼科夫,Д.Т.Десятников
杰伊,爱德华,Эдвард Джей
杰伊波扎·阿利耶夫,Тейпджан Алиев
捷捷林,С.Тетерин
捷列宾(А.Я.奥尔洛夫),Теребин
捷列尼诺夫,А.М.Зеренинов
捷列什金,Терешкин
捷普利亚科夫,В.Ф.Тепляков
捷普洛夫,Теплов
捷萨伊,Десаи
捷沃相(捷沃西安),И.Ф.Тевосян
解方,СеФан
介光明,Цзе Гуан Мина
金炳稷,Ким Бен Дик
金策,Цзинь Чэ,Ким Чак
金昌凤,Ким Чан Бон
金昌海,Ким Чан Хэп
金昌满,Ким Чан Ман
金承化,Ким Сын Хва
金城,Цзинь Чэн
金达三,Ким ДарСен
金枓奉,Ким ДуБон
金刚,Ким Ган
金光侠,Ким Гван Хеб
金炅炼,Ким Че Рен
金洁群,Цзинь Тецюнь
金京根,КимТды Ген
金名世,Цзин Мин-ши
金庆方,Цзинь Цин-фань
金仁,Цзинь Жэнь
金日成,Цзинь Чжи-чень,ЦзиньЖи-чэн,КимИр Сен
金泰根,Ким Тхэ Ген
金万山,Ким Ман Сан
金雄,Кин Сон
金一,Ким Ир
金益诚,Ким Ик Сен
金英柱,Ким Ен Дю
金永南,Ким Ен Нам
津琴科,Зинченко
鸠山一郎,Хатояма
久科夫,А.М.Зюков
久兹,Зюзь
居普特纳,理查德,Richard Gyptner
峻青,Цзюнь Цин
卡巴列夫斯基,Д.Б.Кабалевский
卡巴诺夫,И.Г.Кабанов
卡比尔,Кабир
卡比耶娃,Б.Х.Кабиева
卡宾,Кабин
卡波拉诺夫,Капранов
卡博,修斯尼,Хюсни Капо
卡博特,Кабот
卡达尔,Кадар,Kadar Janos
卡德尔,Э.Кардель,Edvard Kardelj
卡杜莫夫,Д.Годумов
卡多根,Кадоган
卡多奇尼科夫,I. P. Kadochnikov
卡尔宾科,Ф.А.Карпенко
卡尔波夫,Г.Г.Карпов
卡尔波夫,Карпов
卡尔金,Каргин
卡尔迈勒,巴布拉克,Б.Кармаль
卡尔梅科夫,В.Д.Калмыков
卡尔斯基(师哲),Карский
卡尔斯基·伊戈尔,Карский Игорь
卡尔斯卡娅·泰霞,Карская Тэйсся
卡尔扎乌巴耶夫,Г.Каржаубаев
卡夫塔诺夫,С.В.Кафтанов
卡冈诺维奇,Каганович
卡冈诺维奇,Л.М.Каганович
卡库津,Кагугин
卡拉布霍夫,И.Г.Калабухов,I. Kalabukhov
卡拉达什,Карандаш
卡拉卡尼,Калакани
卡拉什尼科夫,А.Ф.Калашников
卡拉塔耶夫,Коротаев
卡里琴科,Н.Т.Кальченко
卡利希扬,Г.М.Калишьян
卡柳日纳亚,Н.М.Калюжная
卡伦别尔津,Я.Э.Калнберзин
卡罗连科,Короленко
卡罗米耶茨,А.В.Коломиец
卡马拉季,К.Камарадж
卡米舍夫,В.Камишев
卡明,Камминг
卡纳平,А.К.Канапин
卡诺尼辛,Канонихин
卡皮托诺夫,Капитонов
卡普拉洛夫,А.Г.Капралов
卡普拉洛夫,Б.В.Капралов
卡普韦普韦,Капвепве
卡恰,哈罗德,Harold Caccia
卡萨特金,П.В.Касаткин
卡塞姆,Касем
卡沙洛夫,Б.Кашалов
卡什金,Кашкин
卡斯顿,Гастон
卡斯托尔斯卡雅,Ю.Ф.Касторская
卡塔拉瓦拉,Каталавала,Коталавала
卡塔耶夫,В.П.Катаев
卡特,Дж.Картер
卡图谢夫,К.Ф.Катушев
卡托尔,Катор
卡瓦列罗夫,Каволеров
卡维拉兰,Кавиларанг
卡西莫,Касимо
卡西莫夫·艾哈迈德,Касы мов Ахмед
卡西斯,В.Кассис
卡伊洛夫,И.А.Каиров
卡赞采夫,Казанцев
卡赞斯基,С.Н.Казанский
凯宾,И.Г.Кэбин
凯尔迪什,М.В.Келдыш
凯莱齐,Келлези
凯洛夫,И.А.Каиров
凯曼,КэМэн
凯南,乔治,Джордж Кеннан,George Kennan
凯任,КэЖэн
凯塔,莫迪博,Модибо Кейта,Modibo Keita
凯文,Квинн
凯西,Р.Г.Кейзи
坎农,弗兰克,ФранкТ.Кеннер
康德,Кант
康敏庄,Кан Минь-чжуан
康纳利,Коннэли
康生,КанШэн
康斯坦丁诺夫,Константинов
康斯坦丁诺夫,Ф.Константинов
考茨基,Каутский
考尔,Т.К.Кауль
考菲尔德,Коуфилд
考夫曼,Кауфман
考涅楚克,А.Е.Корнейчук
柯都维亚,Кодовилья
柯克,阿兰,Алан Кэрк
柯乐博,О.Э.Клабб,O. Edmond Clubb
柯里杨尼斯,Колиянис
柯林,А.И.Клин
柯林斯,Коллинс
柯妮娜,Л.Ф.Конина
柯庆施,КэнЦин-ши
柯西金,А.Н.Косыгин,A. I. Kosygin
柯耶,Куе
科贝尔,Кербер
科贝良斯基,Кобылянский
科布泽夫,Кобзев
科恩,希尔达,Хилда Коен
科尔巴科夫,Колпаков
科尔巴耶夫,К.К.Кольбаев
科尔达诺夫,瓦西里·雅科夫列维奇,Колданов Василий Яковлевич
科尔尼延科,Г.М.Корниенко,G. M. Kornienko
科尔沙克,Коршак
科尔特,Корт,Kort
科夫里基诺夫,М.Д.Ковригинов
科甘,Коган
科济列夫,А.В.Козырев
科济列夫,С.П.Козырев
科雷巴洛夫,Н.Колыбалов
科雷巴诺夫,А.Г.Колыбалов
科利亚(毛岸青),Коля
科列罗夫,Г.Н.Колеров
科林,П.Д.Корин
科留金,Корюкин
科隆比,Коломби
科罗博夫,А.В.Коробов
科罗利,Король
科罗特琴科,Д.С.Коротченко
科洛杰兹诺夫,М.Г.Колодезнов
科洛廖娃(江青),Королёва
科洛米耶茨,А.Д.Коломиец
科马罗夫,ПетрКомаров
科马罗夫,Х.М.Комаров
科马洛夫,Комаров
科尼亚泽夫,Князев
科涅夫,Конев
科诺诺娃,Кононова
科诺托普,В.И.Конотоп
科普列尼格,Коплениг
科奇尼扬,А.Е.Кочинян
科奇耶夫,米哈伊尔,Михаил Кочнев
科切加罗夫,Кочегаров
科热杜布,И.Н.Кожедуб
科热杜布,Кожедуб
科热夫尼科夫,В.Кожевников
科任,А.Кожин
科舍廖夫,А.И.Кошелёв
科斯坚科,Н.А.Костенко
科索拉波夫,А.Косолапов
科索拉波夫,П.И.Косолапов
科托夫,Котов
科托夫,М.Котов
科瓦利,К.И.Коваль
科瓦利斯基,Б.Е.Ковальский,B. E. Kovalskii
科瓦利斯卡娅,Ковальская
科瓦连科,Коваленко
科瓦廖夫,Е.Ф.Ковалев
科瓦廖夫,И.В.Ковалев
科瓦廖夫,М.Н.Ковалев
科瓦廖夫,С.Ковалев
科瓦诺夫,П.Кованов
科瓦奇·贝拉,КовачБела
科伊,马克,МакКой
科兹洛夫,А.Л.Козлов
科兹洛夫,И.В.Козлов
科兹洛夫,И.Козлов
科兹洛夫,Ф.Р.Козлов
科祖林,Козулин克贝尔,Кербель
克尔德什,Келдыш
克拉夫琴科,К.И.Кравченко
克拉夫佐夫,В.А.Кравцов
克拉夫佐夫,Кравцов
克拉夫佐夫,Кравцов
克拉克,Кларк
克拉马尔,Крамар
克拉马连科,Крамаренко
克拉米诺夫,Краминов
克拉奇科夫,Н.М.Клочков
克拉斯尼琴科,Красниченко
克拉斯诺夫,М.Л.Краснов
克拉索夫斯基,Красовский
克拉索夫斯基,斯捷潘·阿基莫维奇,С.А. Красовский
克拉塔休克,Кратасюк
克拉乌金,Ф.Клаудин
克拉耶夫斯卡娅,Краевская
克莱奇,Л.Крейчил
克赖涅夫,И.В.Крайнев
克赖诺夫,П.Крайнов
克劳夫,Клауф
克雷洛夫,Крылов
克雷洛夫,Крылов
克雷姆金,Н.И.Крымкин
克雷奇,Крайджи
克里夫佐夫,В.А.Кривцов
克里梅尔曼,П.Г.Криммерман
克里姆,刘允斌,ЛюЮн-ПинКлим
克里帕拉宁,Крипалани
克里施柯,Клишко
克里沃夫,Кривов
克里沃鲁奇科夫,Криворучков
克里希扬,Э.Р.Кришьян
克利莫夫,А.П.Климов
克利莫夫·加尼,Керимов Гани
克利姆科,Н.И.Климко
克利斯,Корс
克列缅季斯,Клементис
克列斯尼科夫,Г.В.Колесников
克列伊梅诺夫,Ф.И.Клейменов
克林,К.Л.Келин
克留科夫,М.Е.Крюков
克留科夫,Н.Н.Крюков
克留奇科夫,И.П.Крючков
克柳奇尼科夫,Н.И.Ключников
克虏伯,Крупп
克鲁格洛夫,С.С.Круглов
克鲁季科夫,К.А.Крутиков
克鲁平,Крупин
克鲁普尼克,Ф.Е.Крупник
克鲁森,里查德,Ричад Крузон
克罗哈列夫,В.Т.Крохалев
克罗哈列夫,О.Крохалев
克罗帕切夫,М.А.Кропачев
克罗塔耶夫,Ю.П.Коротаев
克洛里,Кролль
克洛奇科夫,Н.М.Клочков
克梅诺夫,В.С.Кеменов
克纳,Кернер
克尼曼,Кейнеман
克努尼扬茨,И.Л.Кнунянц
克诺泰,Е.Кноте,Knothe
克奇鲁,S. Kitchlu
肯金,马德日特,Маджит Кензин
肯尼,Кенни
肯尼斯,Книсс
肯特,Кент
肯扎耶夫,У.Кенд жаев
孔采利泽,Б.М.Концелидзе
孔德拉季耶夫,Б.А.Кондратьев
孔德拉季耶夫,Кондратьев
孔庚,КунГэн
孔诺夫,Коннов
孔茹科夫,И.Б.Конжуков
孔祥铎,КунСяндо
孔祥熙,КунСянси
寇庆延,КоуЦин-янь
寇松,乔治,Джордж Керзон
库比谢克,Кубишек
库达舍夫(顾达寿),Р.Ш.Кудашев
库德里科夫,Т.Кудриков
库德里雅舍娃,А.Д.Кудряшева
库德里亚夫采夫,В.Кудрявцев
库德里亚夫采夫,Кудрявцев
库德里亚夫采娃,Е.А.Кудрявцева
库德里亚绍夫,А.Кудряшов
库尔,斯特尔林格,Стерлинг Кулл
库尔巴诺夫,Р.Курбанов
库尔别茨基,М.П.Курбецкий
库尔格洛夫,Курглов
库尔金,Куркин
库尔久科夫,И.Ф.Курдюков,I. Kurdyukov
库尔恰托夫,Курчатов
库季诺夫,И.Кудинов
库津,Кузин
库卡尔金,Б.В.Кукаркин
库克,Кук
库克索夫,Куксов
库库奇卡,Кукучка
库拉波娃,Е.Р.Курапова
库拉科夫,Ф.Д.Кулаков
库拉托夫,Т.Кулатов
库里贾诺夫,Л.А.Кулиджанов
库利科夫,В.Г.Куликов
库利克,Б.Т.Кулик
库列绍夫,А.И.Кулешов
库列绍夫,В.И.Кулешов
库罗帕特金,Kuropatkin
库罗奇金,В.Д.Курочкин
库梅金,Кумыкин
库纳耶夫,Д.А.Кунаев
库纳泽,Г.Ф.Кунадзе
库尼斯,Г.И.Кунис
库普里科夫,Куприков
库普林,А.И.Куприн
库切连科,В.А.Кучеренко
库丘里叶,克洛德·魏扬,Клод Вайян Кутюрье
库舍列夫,Б.Н.Кушелев
库什内利,叶戈尔·叶夫列莫维奇,Кушнырь
ЕгорьЕфремович
库什涅鲁克,В.В.Кушнерук
库苏马阿特马查,М.Кусума-Атмаджа
库塔科夫,Кутаков
库特马纳利耶夫,А.А.Кутманалиев
库图兹,Кутуз
库西宁,О.В.Куусинен
库伊津,И.Т.Куйдин
库伊莫夫,Д.Т.Куимов
库兹缅科,В.Кузьменко
库兹明,И.И.Кузьмин
库兹明,Кузьмин
库兹明,М.Р.Кузьмин
库兹明内赫,Кузьминых
库兹涅佐夫,В.В.Кузнецов,V. Kuznetsov
库兹涅佐夫,К.Кузнецов
库兹涅佐夫,Кузнецов
库兹涅佐夫,М.И.Кузнецов
库兹涅佐夫,Н.Г.Кузнецов
库兹涅佐夫,Н.И.Кузнецов
库兹涅佐夫,Ф.Кузнецов
库祖博夫,И.М.Кузубов
袴田里见,Сатоми Хакамада
旷伏兆,КуанФу-дао
奎杰胡,Кви Дье-ху
拉奥,Рао
拉宾,Рабин
拉宾,С.Г.Лапин
拉波辛,А.А.Рапохин
拉布,Рааб
拉布霍夫,Л.С.Лопухов
拉达克里希南,С.Радхакришнан
拉夫金,А.В.Равкин
拉夫里谢夫,А.А.Лаврищев
拉夫里谢夫,А.Н.Лаврищев
拉夫里谢夫,Лаврищев,Lavrishchev
拉夫罗夫,В.В.Лавров
拉格奇,Рагч
拉古杰克,В.Лагутенко
拉古林,Г.И.Рагулин
拉赫曼,阿布杜尔,Абдул Ракман
拉赫曼,穆吉布尔,Муджибур Рахман
拉霍夫,Лахов
拉科夫宁,Лаковнин
拉科夫斯基,Л.Н.Раковский
拉科西,Ракоши
拉里奥诺夫,Ларионов
拉里奥诺夫,Ларионов
拉林,Б.А.Ларин
拉马穆尔蒂,Рамамурти
拉马扎诺夫,Д.Рамазанов
拉姆,Лэмб
拉姆,查尔斯,Чарльз Лэмб
拉姆,贾格吉凡,ДжагдживанРам
拉姆苏伦,Лхамо-Сурун
拉南,Ratnam
拉帕茨基,阿达姆,Рапацкий,Adam Rapacki
拉普捷夫,Лаптев
拉齐伯林斯基,Н.Л.Рациборинский
拉齐斯,В.Т.Лацис
拉奇科夫,Н.А.Рачков
拉奇科夫,Рачков
拉琴科,В.А.Радченко
拉琴科,Радченко
拉什,Раш
拉斯波平,Распопин
拉斯卡托夫,А.С.Раскатов
拉苏洛夫,Д.Расулов
拉塔纳迪布,琅,Луанг Ратанадиб
拉特纳,Ш.И.Ратнер
拉铁摩尔,欧文,Оуэн Латтимор
拉希多夫,Ш.Р.Рашидов
拉希姆巴巴耶娃,Рахимбабаева
拉辛,Разин
拉伊哈德,Лайхад
拉伊克,Райк
拉扎连科,Б.Р.Лазаренко
拉扎列夫,В.И.Лазарев
拉兹杜霍夫,Ю.И.Раздухов
拉兹尼钦,Разницын
拉祖金,Лазутин
拉祖瓦耶夫,В.Н.Разуваев
腊斯克,Д.Раск
莱昂德罗,Г.Леандру
莱蒙托夫,М.Ю.Лермонтов
莱斯顿,Рестон
莱伊阿特洛夫斯基,Рейатровский
莱伊尔德,Лэйрд
赖赫曼,Райхман
赖嘉文,Рагаван
赖琏,ЛайЛянь
赖若愚,ЛайЖо-юй
赖亚力,ЛайЯ-ли
赖伊,特里格夫,Трюгве Ли
濑谷启,СеяХираку
兰季斯,Е.М.Ландио
兰金,Рэнкин
兰科维奇,Ранкович,Alexander Rankovic
兰纳迪夫,Ранадиве
兰尼兹尔,Лемнитцер
郎诺,Лон Нол
朗格,Лан гер
劳,Рау
劳埃德,塞尔温,Селвин Ллойд
勒祖,ХанЧэн Цзу
雷巴尔金,В.В.Рыбалкин
雷巴斯,Рыбас
雷宾,А.П.Рыбин
雷宾德尔,Робиндер
雷德福,Редфорд
雷列耶夫,Рылеев
雷曼,Рейман
雷奇科夫,Лычков
雷日科夫,А.Д.Рыжков
雷日科夫,Н.И.Рыжков
雷绍田,ЛэйШао-дянь
雷斯科夫,Лысков
雷索夫,П.Н.Лысов
雷瓦,Б.И.Рэва
雷震,Лэй Чжень,Лэй Чжэн
黎德寿,Ле Дык Тхо
黎清毅,Ле Тхань Нги
黎笋,Ле Зуан,Лу Зуан
黎万龙,Ле Ванлонг
李安闻,Ли АнМук
李弼奎,Ли ПхильГю
李灿,Ли Цань
李昌,Ли Цян
李常青,Ли Чанцин
李晨,Ли Чэнь
李晨廷,Ли Чжентин
李承英,Ли СынЕн
李德才,Ли Дэ-цай,Ли Да-цай
李德伦,Ли Дэлунь
李德全,Ли Дэ-цюань,Ли Дэчуань
李德生,Ли Дэ-шэн
李德元,Ли ДеЮань
李东冶,Ли Дунвэй
李度,Ли Дучунь
李敦白,Ритенберг
李范五,Ли Фану
李凤林,Ли Фэн-линь,Ли Фэнлинь
李福德,Ли Фудэ
李福林,Ли Фу-лин
李富春,Ли Фу-чунь,ЛиФу-цунь
李公朴,Ли Гун-бо
李光武,Ли Гван Му
李广,Ли Гуан
李广龙,Ли Вэнь-лун
李广儒,Ли Гуань-жу
李贵山,Ли Гуй-шэн
李贵新,Ли Гуй-синь
李国富,Ли Го-фу
李翰奋,Ли Ханьфэнь
李何,Ли Хэ
李亨根,Ли Хян Кын
李焕之,Ли Хуан-жи
李璜,Ли Хуан
李辉,Ли Хуэй,Ли Чуэй
李汇川,Ли Гуй-чуань
李惠琴,Ли Хуэйцин
李藿林,Ли Хой-линь
李济琛,Ли Цзишэнь
李济深,Ли Цзи-шэнь
李家珍,Ли Ця-цзе
李嘉坚,Ли Киан Тенг
李京文,Ли Цзенвень
李井泉,Ли Цзин-цюань
李军,Ли Цзюнь
李克农,Ли Кэнун,Ли Кэ-нун
李宽成,Ли Куан-чен
李立三,Ли Лисань,ЛиЛи-сань
李烈钧,Ли Лецзюнь,ЛиЛе-цзюнь
李明,Ли Мин
李乃宾,Ли Най-Бин
李讷,Ли Ла,ЛиЛу
李普曼,Липпман
李奇微,Риджуэй
李琦涛,Ли Ци-тао
李启铭,Ли Ци-мин
李强,Ли Чан
李强,Ли Чан,Ли Цян
李桥华,Ли Чао-хуа
李青,Ли Цин
李清漪,Ли Цзин Цен
李茹华,Ли Жуй-хуа
李儒林,Ли Жу-линь
李森科,Лысенко
李山东,Ли Шэн-дун
李善一,Ли Шаньи
李世超,Ли Ши-чао
李守信,Ли Шу-шин
李述中,Ли Шу-чжун
李思赫,Ли СыХэк
李四光,Ли Сы Гуан,Ли Сы-гуан
李松云,Ли СонУк
李苏,ЛиСу
李天源,Ли Чен Вон
李维诺娃,Н.М.Литвинова
李文仁,ЛиФу-жэнь
李文绚,ЛиВено-Сюнь
李先念,ЛиСянь-нянь
李相朝,ЛиСа Чо,
李孝淳,ЛиХё Сун
李新八,Ли Сан Чо
李彦,Ли Янь
李叶阳,Ли Еян
李一卿,Ли Иль Ген
李永镐,Ли ЕнХо
李云申,Ли Юнжэнь
李在旺,Ли Цзэван
李哲人,Ли Чжэжень
李志林,Ли Чжи-линь
李志民,Лин Чже-мин
李志敏,Ли Чжи-минь
李钟玉,Ли ДенОк
李仲勤,Ли Чжун-чэн
李周新,Ли Чжоу-синь
李周渊,Ли Зу Ен,Ли Дю Ен
李烛尘,Ли Чжу-чэнь,ЛиЧжу-Чэнь,ЛиЧжочань
李准,Ли Чжунь
李宗仁,Ли Цзунжэнь,ЛиЦзун-жень
里迪,Риди
里丁,Рединг
里根,Рейган
里津别尔格,Ритенберг
里马尔,尼古拉·尼古拉耶维奇,Риммар Николай Николаевич
里姆斯基科尔萨科夫,Римский-Корсаков
里斯杰尔,Листер
里亚博夫,Рябов
里亚博娃,Е.В.Рябова
里亚布琴科,В.Н.Рябченко
里亚德,Риад
理查森,Ричардсон
理查森,埃利奥特,Эллиот Ричардсон
利别京斯基,Ю.Либединский
利哈乔夫(李海秋),В.И.Лихачев
利特维年科,П.Литвиненко
利特维纽科,Литвинюк
利亚什科,А.П.Ляшко
栗在山,Ли Цай-шань
笠原吉,КасахараЮкио,Kasahara
连科夫,В.И.Леньков
梁必业,Лянь Би-е
梁明章,Лян Минчжан
梁漱溟,Лян Сумин,Лян Шумин,Лян Соумин
梁思成,Лян Ши-чень
梁托维奇,М.А.Леонтович
梁希,ЛянСи
梁志书,Лян Чжи Шун
廖承志,Ляо Чэн-чжи
廖汉生,Ляо Хэшэн
廖岭,Ле Лиень
廖鲁言,Ляо Лу-ян
廖文毅,Ляо Вэньи
廖仲恺,Ляо Чжун-кай
列昂季耶夫,Леонтьев
列别杰夫,В.Лебедев
列别杰夫,В.В.Лебедев
列别杰夫,В.Д.Лебедев
列别杰夫,Г.П.Лебедев
列别杰夫,Г.С.Лебедев
列别杰夫,П.И.Лебедев
列别金斯基,Р.Н.Лебединский
列多夫斯基,Ледовский
列夫金,В.И.Левкин
列夫金,Левкин
列夫科维奇,Левкович
列加索夫,А.Легасов
列卡列夫,Л.Г.Лекарев
列克索阿特莫佐,哈尔索诺,Харсоно Рексоатмоджо
列宁,弗拉基米尔·伊里奇,Владимир Ильич
Ленин
列佩申斯基,Лепешинский
列萨科夫,Лесаков
列什,Леш
列斯金,法捷伊·伊万诺维奇,Фатей Иванович Лекин
列瓦达,Ю.А.Левада
列维德林,埃尔默·弗雷德,ЭлмарФредЛлевеллин
列维娜,М.А.Левина
列文科,Ревенко
列谢奇科,М.А.Лесечко
林彪,ЛиньБяо
林伯渠(林祖涵),Линь Боцюй
林枫,Линь Фын
林广恒,ЛиньГуан-хэ
林海,Лим Хе
林亨元,Линь Хен Юань
林江琴,Лин Цзянь-цин
林李明,ЛиньЛи-мин
林立,Линь Ли
林利阳,Линь Ли-ян
林迈可,Майкл Линз,Mical Lindsay
林默涵,Линь Мохань,Линь Мо-хань
林铙,Лин Нао
林启茹,Лин Чи-жуй
林启喆,Лим ГиЧер
林赛,Линдсей
林蔚,Линь Вэй
林文,Линь Вэнь
林忠,Линь Чжун
林祖涵,Лин Цзухань
铃木启久,Судзуки Хираку,Sudzuki Hiraku
刘皑风,ЛюКай-фын
刘白羽,ЛюБайюй
刘斌,ЛюБинь
刘冰,ЛюБин
刘伯承,Лю Бочэн
刘步童,Лю Бу-тун
刘成,Лю Чжэн
刘大年,Лю Да-нянь
刘导生,Лю Дао-шэн
刘德启,Лю Дэчи,Лю Дачи
刘鼎,Лю Дэн
刘广才,Лю Гуанцзэ
刘贵良,Лю Гуй-лянь
刘翰东,Лю Хань-дун
刘浩昌,Лю Хаочан
刘洪涛,Лю Хунтао
刘鸿生,Лю Хуншэн
刘环占,Лю Хуанч жань
刘惠之,Лю ГуаЧжи
刘杰,Лю Цзе
刘瑾,Лю Дин
刘进忠,Лю Цзин-Чжун
刘敬雄,Лю Цзын-сюн
刘锴,Liu Chieh
刘澜波,Лью Ланьбо,Лю Ланьбо
刘澜涛,Li Lantao
刘利林,Лю Рын-лыь
刘连仁,Лю Лянь-жень
刘明辉,Лю Мин-хуэй
刘宁一,Лю Нинъи,Лю Нини
刘平,Лю Пин
刘谦,Лю Циэн
刘清栋,Лю Чен-дун
刘清宇,Liu Jingyi
刘群,Лю Цзюнь
刘汝明,Лю Жумин
刘莎,Лю Ша
刘少奇,Лю Шао-ци
刘绍学,Лю ШасСюз
刘叔模,Лю Шу-мо
刘舒,Лю Шуй
刘述卿,Лю Шуцин
刘述周,Лю Шу-чжоу
刘思齐,Лю Эньци
刘松林,Лю Сунлинь
刘文辉,Лю Вэнькуй,Лю Вэньхуй
刘西元,Лю Си-юань
刘晓,Лю Сяо
刘晓秋,Лю Сянь-цзюэ
刘孝亮,Лю Сянь-лян
刘亚楼,Лю Я-лоу
刘异云,Лю И-юнь
刘元春,Лю Юань-чунь
刘越山,Лю Юэ-шань
刘赞远,Лю Чжэнюй
刘长东,Лю Чжань-дун
刘长胜,Лю Чан-шэн
刘志坚,Лю Чжи-Цзян
刘子载,Лю Цзы-цзай
留里科夫,Б.Рюриков
柳博夫,Любов
柳大纲,ЛюДаган
柳霞·土登巴塔,Леош Тубтенари
柳亚子,ЛюЯ-цзе
龙浦,ЛунПу
隆哥,鲁伊兹,Луиджи Лонго
卢比斯,Лубис
卢基扬琴科,Лукьянченко
卢金,В.П.Лукин
卢卡奇,Лукач
卢卡舒克,В.З.Лукашук
卢涅夫,А.Е.Лунев
卢绍英,ЛуШао-ин
卢元善,ЛуДань-шань
鲁宾,В.П.Рубен
鲁宾,Рубин
鲁布桑,Лубсан
鲁布桑,С.Лувсан
鲁达科夫,А.П.Рудаков
鲁道夫,М.В.Рудов
鲁多娃,М.Л.Рудова
鲁坚科,Р.А.Руденко
鲁坚科,Руденко
鲁金茹,ЛуЦзинжу
鲁克曼,Лукман
鲁克斯,洛艾维尔,Лоуэвелл Рукс
鲁露,ЛуЛу
鲁缅采夫,В.М.Румянцев
鲁缅采夫,С.В.Румянцев
鲁缅采夫,戈尔曼·谢尔盖耶维奇,Герман Сергеевич Румянцев
鲁诺夫,Рунов
鲁然斯基,Ружаньский
鲁萨科夫,К.В.Русаков
鲁西,ЛуСи
鲁迅,ЛуСинь
陆兵,ЛуБин
陆定一,ЛуДин-и
陆洪恩,ЛиХунэн
陆明,ЛуМин
陆慕云,ЛуМу-юнн
鹿钟麟,ЛоЧжундин
路易斯,拉卡萨,ЛакасаЛуис
銮披汶,ПибулСонгхрам,Пибун Сонграм
伦茨代尔,Лендсдейл
罗巴捷夫斯基,Лобачевский
罗巴京,В.Н.Лопатин
罗伯逊,Робсон
罗尔德,У.Лорд
罗高寿(罗加乔夫),И.А.Рогачев
罗戈夫,В.Н.Рогов
罗贵波,ЛоГуй-бо
罗果任,Рогожин
罗季奥诺夫,И.Родионов
罗加,布兰斯,Блас Рока
罗杰斯,Роджерс
罗津,米尔坦,Милтан Розен
罗隆基,ЛоЛунцзи,ЛоЛуй-чан,ЛоЛун-цин,Ло Лун-цей
罗迈进(洛马金),Я.А.Ломакин
罗满宁(拉赫马宁),奥列格·鲍里索维奇,О.Б.
Рахманин,O. B. Rakhmanin
罗曼诺夫,А.В.Романов
罗曼诺夫,А.О.Романов
罗曼诺夫,Б.С.Романов
罗曼诺夫,В.В.Романов
罗曼诺夫,Н.Н.Романов
罗曼诺夫,Н.Романов
罗曼诺夫,П.К.Романов
罗曼诺夫,С.А.Романов
罗曼诺夫,С.Д.Романов
罗曼诺夫斯基,Г.В.Романовский
罗曼诺夫斯基,К.И.Романовский
罗曼诺夫斯基,С.К.Романовский
罗蒙诺索夫,М.В.Ломоносов
罗姆,М.И.Ромм
罗慕洛,卡尔洛斯,КарлосП.Ромупо
罗宁哥,К.С.Роннинг
罗戚柱,ЛуЦу-чжу
罗日涅夫,Рожнев
罗日涅娃,М.И.Рожнева
罗荣桓,Ло Юньхуань
罗瑞卿,Ло Жуй-чин,Ло Жуйцин
罗塞罗,Рошеро
罗莎,特特,ТэТэРоза
罗申,А.Рощин
罗申,Н.В.Рощин
罗舜初,Ло Шунь-чу
罗斯福,Рузвельт
罗斯拉维兹,Рославец
罗斯托,Ростоу
罗斯托茨基,В.К.Ростоцкий
罗斯托夫斯基(艾伦斯特·盖林),С.Н.Ростовский(ЭрнстГенри)
罗素,勃兰特,Бертран Рассел
罗铁林,Ло Телин
罗伟,Ло Вэь
罗歇,瓦里戴克,Вальдек Роше
罗伊,Б.Ч.Рой
罗毅,ЛоИ
罗扎诺夫,Н.П.Розанов
罗志,Ло Чжи
洛巴诺夫,П.П.Лобанов
洛博夫,Г.А.Лобов
洛甫,ЛоФу
洛吉诺夫,Е.Ф.Логинов,E. F. Loginov
洛吉诺夫,Л.А.Логинов
洛加萨文斯基,Лога-Савинский
洛马科,П.Ф.Ломако
洛莫夫,Н.А.Ломов
洛莫夫,Н.П.Ломов
洛尼斯,Ронис
洛奇,К.Лодж
洛桑三旦,Ласан Сумтен
洛松奇,Лошонци
洛维特,Ловетт
洛芝,Лодж
洛佐夫斯基,С.А.Лозовский
吕东,ЛюйДун
吕叔湘,Люй Шуцян
吕正操,ЛюйЧжэнцао
马步芳,Ма Буфан
马成松,Ма ЧенСун
马春明,Ма Цунь-мин
马茨凯维奇,В.В.Мацкевич
马丁,Мартин
马丁诺夫,Н.В.Мартынов
马杜马罗夫,Мадумаров
马多尔斯基,Мадорский
马尔采夫,А.Ф.Мальцев
马尔采夫,В.Ф.Мальцев
马尔丁,费伦茨,Ференцей Мартин
马尔芬,М.И.Марфин
马尔季亚诺夫,Ф.Мартьянов
马尔柯夫,А.А.Марков
马尔科夫,И.П.Марков
马尔科夫,М.А.Марков
马尔科夫斯基,А.П.Марковский
马尔科夫斯基,Марковский
马尔克洛夫,П.А.Маркелов
马尔莫施盖伊,Марморшгейн
马尔琴科,А.Л.Марченко
马尔琴科,Марченко
马尔沙克,С.Маршак
马尔舍,Ж.Марше
马尔塔季纳塔,Мартадината
马海德,Махайдэ
马寒冰,МаХань-бин
马赫,Мах
马赫古卜,Махджуб
马赫穆多夫,Т.Махмудов
马恒昌,МаХэн-чан
马洪,Махон
马鸿逵,МаХунку
马杰尔,Маттерн
马卡里耶夫,П.П.Макарьев
马卡连科夫,Ф.Макаренков
马卡罗夫,М.Ф.Макаров
马卡罗夫,Макаров
马卡罗夫,С.З.Макаров
马卡罗夫,С.О.Макаров
马康卫,Май-канци
马克萨廖夫,Ю.Е.Максарев
马克思,КарлМаркс
马克苏多夫,Л.Максудов
马库什金,А.Макушкин
马拉卡,坦,ТанМалака
马拉维亚,К.Д.Малавия
马拉先科,Малашенко
马兰金,Г.К.Маландин
马雷金,Малыгин
马雷舍夫,Малышев
马里内略,Х.Маринельо
马立克,Я.А.Малик,Jacob A. Malik
马利杰夫,С.Г.Мальев
马利克,Малик
马利克,阿达姆,Адам Малик
马利克维奇,Л.Малькевич
马利宁,М.С.Малинин
马利宁,Малинин
马利诺夫斯基,Р.Я.Малиновский,Malinovsky
马利琴科,А.Л.Мальченко
马利舍夫,Ф.П.Малышев
马利舍娃,В.И.Мальшева
马列,МаЛи,МаЛэ,МаЛе
马列文内伊,Малеванный
马列西耶夫,А.П.Маресьев
马列西耶夫,Маресьев
马列因诺夫,阿列克谢,Алексей Малеинов
马林,В.Малин
马林科夫,Г.М.Маленков
马龙,Малон
马卢欣,А.М.Малухин
马罗奇金,Н.И.Марочкин
马洛夫,布鲁诺,Бруно Малов
马洛兹,Мороз
马明,Мамин
马明方,МаМин-фан
马姆米,Мамуми
马纳索夫,М.Манасов
马纳耶夫,Г.Г.Манаев
马尼泽尔,Манизер
马努欣,В.С.Манухин
马思聪,МаСыцун,Ма Си-цун
马思祖,МаСыцзюй
马斯连尼科夫,В.А.Масленников
马特科夫,Н.Ф.Матков
马特拉霍夫,Матлахов
马特维耶夫(扎哈罗夫),Матвеев
马特维耶夫,Н.И.Матвеев
马万驰,МаВань-чи
马伟茹,МаВэньжуй
马歇尔,Д.Маршалл
马歇尔,Маршалл
马谢罗夫,П.М.Машеров
马叙伦,МаЖу-лунь
马雅可夫斯基,В.В.Маяковский
马扬,索科洛夫,СоколовМаЯн
马耶夫斯基,В.Маевский
马约罗娃,Т.Г.Майорова
马扎洛夫,А.М.Мазаров
马占山,МаЧжаньшань
马贞,МаЦинь
马祖罗夫,Г.Мазуров
马祖罗夫,К.Т.Мазуров
玛里宁娜,П.А.Малинина
迈耶尔,奥托,ОттоМайер
麦菲,Мэрфи
麦戈文,Макговерн
麦金斯,Мейкинз
麦卡锡,Маккарти
麦克阿瑟,Макартур,Douglas MacArthur
麦克伦,Макрой
麦克洛伊,ДжонМакклой
麦克米兰,Макмиллан
麦克纳,Макконел
麦克苏伊宁,Максуинни
麦斯基,И.М.Майский
麦斯基,Маски
曼别托夫,Б.Мамбетов
曼多查,Мендоза
曼科,Е.Манько
曼茹洛,Манжуло
曼斯菲尔德,М.Мэнсфильд,Мэнсфилд
毛岸英,МаоАньин
毛铎,МаоДо
毛雷尔,扬·格奥尔基,И.Г.Маурер
毛升,МаоШень
毛希丁诺夫,Н.А.Мухитдинов
毛泽东,МаоЦзе-дун
茅盾,МаоДунь
梅德韦多夫斯基,П.М.Медведовский
梅德韦杰夫,В.С.Медведев
梅厄,果尔达,ГолдаМеир
梅尔格良,С.Н.Мергелян
梅尔库洛夫,Меркулов
梅尔库洛夫,Меркулов
梅尔钦特,Мерчент
梅海忠,МэйХай-чжун
梅捷列斯,Мендерес
梅拉尔希科夫,Мыларщиков
梅兰芳,МейЛань-фань
梅利尼科,Мельник
梅利尼科夫,Л.И.Мельников
梅利尼科夫,Мельников
梅利尼科夫,П.Мельников
梅利尼科夫,С.М.Мельников
梅利尼科夫,彼得·安德烈耶维奇,Мельников ПетрАндреевич
梅利尼科娃,Н.И.Мельникова
梅列茨科夫,К.А.Мерецков
梅林杨,МэнЛинян
梅农,К.В.Н.Менон
梅农,К.П.Ш.Менон
梅农,克里希纳,Кришна Менон, V. K. Krishna Menon
梅农,拉克什米,Лакшми Менон
梅奇尼科夫,Мечников
梅什柯娃,Мешкова
梅文蒲,МайВанБо
梅夏采夫,Н.Н.Месяцев
梅谢里亚科夫,М.Г.Мещеряков
梅益,МэйИ
门捷列夫,Менделеев
蒙塔古,Монтегю
孟戴斯弗朗斯,Мендес-Франс,Mendes-France
孟德惠,Т.Маунд
孟奇玉,МэнЧи-юй
孟英,МэнИн
米尔曼,М.Б.Мильман
米尔琴科,М.Ф.Мирчинк
米尔斯,萨乌斯
米尔扎,Мирза
米尔扎艾哈迈多夫,М.З.Мирза-Ахмедов
米高扬,А.И.Микоян,A. I. Mikoyan
米古诺夫,В.П.Мигунов
米哈尔科夫,С.В.Михалков
米哈尔科夫,С.Михалков
米哈伊洛夫,Михайлов
米哈伊洛夫,Н.А.Михайлов
米哈伊洛夫,С.А.Михайлов
米哈伊洛夫,С.С.Михайлов
米海金,В.И.Михейкин
米基钦斯基,В.В.Микицинский
米捷列夫,Г.А.Митерев
米京,М.Б.Митин
米科瓦伊奇克,Миколайчик
米克拉舍夫斯基,Л.М.Миклашевский
米克拉泽,Г.Микеладзе
米库拉什,苏利纳,ШуринаМикулаш
米拉乌什金,Милаушкин
米里谢普,А.А.Мюрисеп
米利切维奇,Миличевич
米林斯基,Т.Н.Миринский
米罗诺夫,С.С.Миронов
米罗诺娃,Д.Миронова
米罗什尼科夫,И.П.Мирошников
米罗维茨卡娅,Р.А.Мировицкая
米涅尔温,Минервин
米切尔,Митчелл
米丘林,Мичурин
米舒京,А.Н.Мишутин
米图索夫,Митусов
米玉道,МиЮй-дао
缅任斯基,Менжинский
缅希科夫,М.А.Меньшиков
缅希科夫,Меньшиков
闵勇,МиЮн
明斯基,Е.М.Минский
摩勒,居易,ГиМолл
莫埃尔,Моуэлл
莫德惠,МоДэхуй
莫尔德文采夫,Мордвинцев
莫尔古洛夫,И.Моргулов
莫吉列夫斯基,Б.Могилевский
莫金,Н.И.Мокин
莫拉维克,Moravec
莫兰德,Морланд
莫劳扎蔑茨,Моломжамец
莫利亚科夫,Н.Моляков
莫罗,切斯特,ЧестерМерроу
莫罗佐夫,С.Н.Морозов
莫罗佐夫,Б.М.Морозов
莫罗佐夫,Морозов
莫洛托夫,В.М.Молотов,V. M. Molotov
莫宁,А.Монин
莫努诺夫·伊斯哈姆别克,МонуновИсхамбек
莫诺努托,阿尔诺利德,АрнольдМононуту, Мононуто
莫丘利斯基,Ф.В.Мочульский,F. Mochulskii
莫舍托夫,В.В.Мошетов
莫申采娃,И.И.Мошенцева
莫斯卡连科,К.С.Москаленко
莫斯科夫斯基,В.Московский,Vasily Moskovsky
莫斯科夫斯基,П.Московский
莫斯托维茨,Мостовец
莫伊谢耶夫,В.Моисеев
莫伊谢耶夫,Моисеев
莫伊谢耶夫,П.Моисеев
莫伊谢耶娃,Моисеева
莫扎耶夫,Можаев
姆哈诺夫,Муханов
姆利罗,马罗金·索乌扎,Мурило Маррокин Соуза
姆帕卡尼耶,Л.Мпаканийе
姆扎瓦纳泽,В.П.Мжаванадзе
穆尔曼,Мурмен
穆罕默德·纳比,Мухаммед Наби
穆基尔日,Мукирджи
穆济列夫,С.А.Музылев
穆卡诺夫,Муканов
穆拉德里,瓦诺,Вано Мурадели
穆拉舍夫,Мурашев
穆拉托夫,В.М.Муратов
穆拉托夫,胡萨因,Хусаин Муратов
穆拉维约夫,Муравьев
穆罗舍夫,Мурошев
穆萨巴耶夫,安瓦尔,Анвар Мусабаев
穆萨托娃,В.Л.Мусатова
穆索尔格斯基,Мусоргский
穆欣,Р.Мусин
拿破仑,Наполеон
纳尔班江,Налбандян
纳吉,Надь
纳吉布,Нагиб
纳拉诺夫,Наранов
纳雷什金,Н.И.Нарышкин
纳里扬,Нарйян
纳赛尔,Насер,Nasser
纳斯洛夫·乌斯满,Насыров Усман
纳苏蒂安,Насудиан
纳苏蒂安,Насутион
纳西诺夫斯基,Е.Насиновский
纳席尔,Натсыр
纳扎尔别科夫,Назарбеков
纳扎尔金,Назаркин
纳札罗夫,Наджаров
奈尔,戈文丹,Гoвиндан Наир,G. Nair
奈温,НеВин
南布迪里巴德,Намбудирипад, Elamulam M. S. Nambudiripod
南丁,НаньДин
南尼,Ненни
南日,НамИр
南欣,НамСин
内格罗蓬特,Дж.Негропонте
尼奥托,Ньото
尼采,Нитце
尼古拉耶夫,А.С.Николаев
尼古拉耶夫,Д.Николаев
尼古拉耶夫,Л.Николаев
尼古拉耶夫,С.Николаев
尼赫鲁,Р.К.Неру,Nehru
尼赫鲁,贾瓦哈拉尔,Джавахарлал Неру,Nehru
尼基福罗夫,А.Л.Никифоров
尼基福罗夫,А.Никифоров
尼基福罗夫,В.Н.Никифоров
尼基福罗夫,Никифоров
尼基京,Никитин
尼基京,П.Никитин
尼基琴科,П.Д.Никитченко
尼科利斯基,В.П.Никольский
尼克松,Р.Никсон
尼库林,Никулин
尼迈里,Нимейри
倪特金,弗拉基米尔·克拉斯诺维奇,Ниткин ВладимирКраснович
倪耀礼,Ни Яоли
倪志福,Ни Чжи-фу
聂春荣,Не Чунь-юн
聂荣臻,НеЖун-чжен,Не Юнчжэнь
聂希文,Не Си-вэнь
涅波罗日尼,П.С.Непорожний
涅戈佳耶夫,Негодяев
涅格列维奇,亚历山大·西尔韦斯特罗维奇, Александр Сильвестрович Негеревич
涅霍罗舍夫,А.К.Нехорошев
涅加尔维列,切列斯捷,ЧелестеНегарвилле
涅科谢,马丁·安德森,Мартин Андерсен Нексе
涅克拉索夫,В.П.Некрасов
涅克拉索夫,Н.А.Некрасов
涅克拉索夫,Некрасов
涅列京,Д.И.Неретин
涅卢,Нерв
涅缅斯基,Б.М.Неменский
涅宁,彼得,ПьетроНенин
涅恰耶夫,Нечаев
涅斯捷罗夫,М.С.Нестеров
涅斯捷罗夫,Нестеров
涅斯梅亚诺夫,А.Н.Несмеянов
涅斯托尔,库尔斯基,КурскийНестор
涅韦多姆斯基,Неведомский
涅维罗夫,弗拉基米尔,НеверовВладимир
涅维罗夫,沃娃,НеверовВова(Владимир)
宁武,НинУ
牛英德,НюИндэ
努恩,Нун
努里,Нури
努里耶夫,З.Н.Нуриев
努日金,Н.И.Нуждин
诺尔斯杰特,Нерстед
诺格拉第,Негради
诺加,Нога
诺韦拉,Новелла
诺维科夫,В.Е.Новиков
诺维科夫,К.Новиков
诺维科夫,Новиков
诺沃提尼,Новотный
诺沃肖洛夫,Новоселов
诺先科,Нощенко
欧阳飞,ОуЯн-фэй
欧阳惠,ОуянХуэй
欧阳钦,ОуЯн-цин
帕蒂尔,С.Κ.Патиле
帕多克,保罗,ПольПаддок
帕尔菲奥诺夫,Ю.Ф.Парфенов
帕尔哈明特斯基,Пархаментский
帕尔马,ДеПалма
帕尔申,Паршин
帕夫雷切夫,Павлычев
帕夫柳克,Павлюк
帕夫洛夫,В.Н.Павлов
帕夫洛夫,Г.Павлов
帕夫洛夫,Д.В.Павлов
帕夫洛夫,Павлов
帕夫洛夫,Павлов
帕夫洛夫斯基,Н.О.Павловский
帕夫洛夫斯基,О.Павловский
帕夫洛娃,Е.И.Павлова
帕夫洛娃,Павлова
帕甫连科,А.С.Павленко
帕胡奇,Я.И.Пахучий
帕霍莫夫,Н.Л.Пахомов
帕杰尔斯基,М.Пазельский
帕卡德,Паккард
帕拉尔,Палар
帕拉尼契夫,Ο.С.Параничев
帕利古诺夫,Н.Г.Пальгунов
帕利古诺夫,Пальгунов
帕列茨基斯,Ю.И.Палецкис
帕蒙恰克,Памончак
帕姆菲洛夫,К.Д.Памфилов
帕尼卡尔,Паниккар
帕诺夫,А.Д.Панов
帕森科夫,В.В.Пасынков
帕申,Н.Пащин
帕什科夫,Б.К.Пашков
帕斯特纳克,V. S. Pasternak
帕斯图赫,Пастух
帕斯托里诺,Пасторино
帕斯托耶夫,Пастоев
帕索奇尼琴科,А.И.Пасочниченко
帕塔萨拉蒂,Parthasarathi
帕托利切夫,И.С.Патоличев
帕维尔,Павел
帕乌金,Н.А.Паутин
帕乌斯托夫斯基,К.Г.Паустовский
帕耶塔,詹卡洛,ЧжанкарлоПайетта
潘迪特,拉克希米,ЛакшмиПандит
潘复生,ПаньФу-шэн
潘汉年,ПаньХанънянь,ПаньХань-янь
潘捷列依莫诺娃,Пантелеймонова
潘科夫,Ю.Панков
潘克拉托夫,В.П.Панкратов
潘克拉托娃,М.Я.Панкратова
潘尼迦,Панникар
潘琴科,А.С.Панченко
潘琴科,П.М.Панченко
潘特,Пант
潘友新,А.С.Панюшкин
潘占林,ПаньЧжаньлин
潘自力,ПаньЦзы-ли,Панцун-ли
庞之江,ПанЧжэ-цзян
庞忠祥,ПанЧжунсян
裴丽生,ПэйЛи-Шэн
佩德尔森,Педерсан
佩尔菲利耶夫,А.Перфильев
佩尔米亚克,叶甫根尼,Пермяк
佩尔谢,阿尔维特·雅诺维奇,А.Я.Пельше
佩夫涅夫,Певнев
佩科夫,В.Т.Быков
佩雷拉,Перера
佩利申科,В.И.Пелишенко
佩列格里尼,贾科莫,ДжакомоПеллегрини
佩列佩奇科,Я.Б.Перепечко
佩列韦尔泰洛,А.С.Перевертайло
佩列韦尔特金,Переверткин
佩罗,Ш.Перро
佩罗夫,Г.В.Перов
佩佩良耶夫,Пепеляев
佩什科夫,Б.М.Пышков
佩斯利亚克,М.М.Песляк
佩特尔,Петер
佩图霍夫,В.Петухов
彭德怀,ПэнДэхуай
彭济群,ПэнЦзи-цюя
彭锦秋,ПэнЦзин-цю
彭孟缉,ПэнМэнци
彭敏,ПэнМинь
彭瑞桑,ПэнЖуйсан
彭真,ПынЧжэнь,ПэнЧжэнь,ПынЧжэнье
彭祖秀,ПанЦзуншу
蓬飞,ПэнФэй
蓬捷科尔沃,Б.М.Понтекорво
皮杜尔,Бидо
皮尔逊,Пирсон
皮尔逊,德鲁,ДрюПирсон
皮卡尔金,Пиголкин
皮凯津,В.Пикайзен
皮克,威廉,Wilhelm Pieck
皮罗戈夫,Пирогов
皮罗什,Пирош
皮缅诺夫,Б.К.Пименов
皮缅诺夫,В.С.Пименов
皮缅诺夫,П.Т.Пименов
皮缅诺夫,Ю.И.Пименов
皮诺,Пино
皮萨列夫,Писарев
皮亚特尼茨基,Пятницкий
平杰三,ПинЦзе-сан
朴昌玉,ПанЧанОк
朴成哲,ПакСенЧер,Pak Song Chol
朴东朝,ПакДол-чо
朴光成,ПакКванСен
朴基永,ПакГильЕн
朴金喆,ПакКимЧер,ПакКымЧер
朴容国,ПакЕнГук
朴宪永,ПакХенЁн
朴勋一,ПакХунИр
朴一禹,ПакИрУ
朴永元,ПакЮнВон
朴正爱,ПакДенАй
普尔卡耶夫,Пуркаев
普津,А.А.Пузин
普拉东诺夫,Платонов
普拉霍夫,Прахов
普拉萨特,Прасад
普拉坦哈,Пулатэхань
普拉特科夫,Платков
普里别金,А.И.Прибегин
普里霍多夫,Приходов
普里马科夫,Е.М.Примаков
普里斯科,Ю.Ю.Плиско
普利特金,Плиткин
普利谢茨卡娅,М.М.Плисецкая
普利耶夫,Плиев
普利耶姆斯基,Д.А.Приемский
普列奥布拉任斯基,Преображенский
普列汉诺夫,Плеханов
普列斯杰斯,路易斯,ЛуисПрестес
普林戈迪格多,Принггодигдо
普鲁切克,Плучек
普罗岑科,Н.Проценко
普罗科菲耶夫,Прокофьев
普罗列塔里耶娃,罗扎,РозаПролетариева
普罗梅斯洛夫,В.Ф.Промыслов
普罗琴科,Проценко
普罗塔耶夫,Протаев
普罗特金,E.А. Plotkin
普罗特科夫,Прутков
普契尼,Пуччини
普什科夫,Пушков
普斯季利尼科,И.И.Пустильник
普苏尔采夫,Н.Д.Псурцев
普希金,А.С.Пушкин
普希金,Г.М.Пушкин,G. M. Pushkin
普辛,Пущин
普休尔科夫斯基,Пщулковский
齐奥塞斯库,尼古拉,НиколеЧаушску
齐白石,ЦиБай-ши
齐宾,Н.Цыбин
齐尔科夫,А.Ф.Цирков
齐菲·弗拉基米尔,ТиФейВладимир
齐赫文斯基,С.Л.Тихвинский
齐怀远,ЧинЮй-хуань
齐列辛科夫,К.Циренщиков
齐米亚宁,米哈伊尔·瓦西里耶维奇,М.В. Зимянин
齐普拉科夫,С.С.Цыплаков
齐世英,ЦзыШи-ин
齐坦科,Цитенко
齐英,ЧиИн
齐忠涛,ЦиЧжунТао
齐宗华,ЦиЧжун-хуа
奇尔科夫,Чирков
奇卡列夫,Чикарев
奇科瓦尼,С.И.Чиковани
奇里亚耶夫,Г.И.Чиряев
奇利金,Чиликин
奇斯佳科夫,А.Чистяков
奇韦尔特科,П.В.Чвертко
契楚林,Н.Ф.Чечулин
契尔年科,Черненко
契尔诺夫,Чернов
契尔特科夫,Чертков
契尔沃年科,С.Червоненко
契诃夫,А.П.Чехов
契列德尼琴科,Чередниченко
恰达耶夫,Я.Чадаев
恰普雷金,Чаплыгин
千家驹,Цянь Цзяцзюй
钱俊瑞,Цзян Чуньюй,Чен ЖеЖан,Цянь Цзюнь жуй
钱其琛,Цянь Цичень
钱三强,Цан Сян-цань
钱伟长,Цянь Вэй-чан
钱信忠,Цянь Синь
钱永铭,Цянь Юнмин
乔巴山,Чойбалсан
乔北汉,Чзао Пе-хан
乔伯臣,Цяо Бэ-чен
乔尔内,А.К.Черный
乔克罗阿米诺托,哈尔索诺,Харсоно Чокроаминото
乔克祥,ЦяоКэ-сян
乔立,ЧаоЛи
乔木,ЦзяоМу
乔日巴兹,Чойжмац
乔森潘,Кхиеу Самфан
乔斯,Джосс
乔晓光,ЦяоСяо-гуан
乔伊,查尔斯·特诺尔,Чарльз Тернер Джой
乔治乌,杜米特鲁,Думитру Георгиу
乔治乌德治,Георгиу-Деж
切布舍夫,И.Чебушев
切尔金,Л.К.Чиркин
切尔卡索夫,М.Ф.Черкасов
切尔内绍夫,Л.С.Чернышев
切尔内绍夫,П.С.Чернышев
切尔内绍夫,Чернышев
切尔尼克,Черник
切尔尼奇金,Д.С.Черничкин
切尔尼亚耶夫,阿纳托利·谢尔盖耶维奇,А.С.
Черняев
切尔努哈,В.Чернуха
切尔诺娃,О.А.Чернова
切夫拉诺夫,С.В.Чефранов
切卡诺夫,Н.К.Чеканов
切卡希洛,А.М.Чекашилло
切坎,М.С.Чекан
切列诺夫,П.С.Черенов
切洛梅,Челомей
切斯诺科夫,Д.И.Чесноков
切斯诺科夫,Д.И.Чесноков
切斯诺科夫,К.Чесноков
切特韦里科夫,Н.С.Четвериков
切谢夫,Г.В.Чешев
切依斯,Чейс
钦迪,КимТит
秦邦宪,ЦиньБан-сянь
秦炳刚,ЦинБингуан
秦诚儒,ЦинЧьнжуй
秦德纯,ЦинДэчунь
秦立真,ЦиньЛи-чжэнь
秦亦津,ЦзинИ-тин
秦聿震,ЦиньЮйчжень
琴佐娃,瓦莲京娜·亚历山德罗夫娜,Ченцова Валентина Александровна
琼森,詹姆斯,Джеймс Джосон
丘巴罗夫,Чубаров
丘古诺夫,Чугунов
丘吉尔,Черчилль
丘季诺夫,Чудинов
丘科夫斯基,К.И.Чуковский
丘拉耶夫,В.М.Чураев
丘维林,Чувырин
邱杜易,ЦюйДуи
邱会作,ЦЮХуй-цзо
邱琴,ЦюЦин
邱山,ЦюШань
邱锡铭,ЧуСи-Мин
区棠亮,УТан-лян
瞿杜翼,ЦюйДу-и
瞿红,ЦюйХун
瞿秋白,ЦюйЦюбо
权友湖,ЧуанЮ-Ху
然娜,克鲁普尼克,Крупник Жанна
饶斌,ЖаоБин
饶伯森,W. S. Robertson,Робертсон
饶漱石,Яо Соуши
饶文森,Нао ВинСэнь
饶彰风,Яо Чжан-фын
热尔科夫,Жарков
热尔托夫斯基,Е.П.Желтовский
热尔瓦科夫,Е.И.Желваков
热利科夫斯基,В.А.Желиговский
热利亚兹科,Желязко
热列佐娃,В.Ф.Железова
热姆丘日尼科夫,Жемчужников
热振(活佛),Ра-Дренг
任弼时,ЖэньБи-ши
任光图,ЖаньГуан-ту
任坤一,Жен Кун-и
任友,ЖеньИё
日布利,М.А.Жибуль
日丹,Жидан
日丹诺夫,А.А.Жданов,Zhdanov
日丹诺夫,В.М.Жданов
日夫科夫,Т.Живков
日加列夫,П.Ф.Жигарев
日梅霍夫,И.Н.Жмыхов
日塔诺维奇,В.Г.Жданович
荣高棠,ЖунГао-тан
荣毅仁,ЖунИ-жэнь
容洪,ЖунХун
茹科,Жук
茹科夫,А.В.Жуков
茹科夫,Г.А.Жуков
茹科夫,Д.А.Жуков
茹科夫,尤里,ЮрийЖуков
茹科夫斯基,Жуковский
茹科娃,Р.М.Жукова
茹拉夫廖夫,А.Ф.Журавлев
茹拉夫廖夫,Журавлев
阮高查,Нгуен Ко Тхать
阮昆,Нгуен Кон
阮林,Нгуен Лам
阮曼卡,Нгуен Мань Кам
阮庆,Нгуен Кхань
阮维桢,Нгуен Зуи Чинь,Нгуен Зуй Чинь
阮文进,Нгуен Ван Тьен
阮文镜,Нгуен Ван Кинь
阮文绍,Нгуен Ван Тхису
阮友寿,Нгуен Хыу Тхо
阮玉蓉,Нгуен Нгок Зуиг
阮振铎,Жань Чжонь-до
阮志清,Нгуен Тхи Тхань
若松有次郎,Вакамаду Юдзиро
撒切尔,М.Тэтчер
撒亚诺夫,В.М.Саянов
萨波日尼科夫,Сапожников
萨博利,阿里,Али Сабри
萨布里,卡迈尔·雅各布,Камаль Якуб Сабри
萨布罗夫,М.З.Сабуров,M. Z. Saburov
萨茨,Сац
萨达特,Садат
萨德科夫,卡马列特金,Камалетдин Садыков
萨多夫斯基,Ф.Т.Садовский
萨恩·萨内什(巴尔马什诺夫),СанСаныч
萨尔基佐夫谢拉季尼,Н.М.Саркизов-Серазини
萨尔诺,Ю.Н.Сарно
萨尔托诺,Сартоно
萨佛诺夫,А.Н.Сафонов
萨夫罗诺夫,И.И.Сафронов,I. I. Safronov
萨夫罗诺娃,Е.И.Сафронова
萨夫琴科,Савченко
萨哈洛夫,А.Д.Сахаров
萨济科夫,М.Л.Сазиков
萨济科夫,Сазиков
萨拉博金,Н.П.Сарапкин
萨拉查,Салазар
萨拉瓦纳穆图,Сараванамутту
萨利尼科夫,В.М.Сальников
萨马林,Н.А.Самарин
萨梅特,列昂纳德,Лео Самет
萨姆丹,Самдан
萨姆德,阿不都拉,Абдул Самад
萨姆萨利耶夫,Самсалиев
萨姆索诺夫,Г.Е.Самсонов
萨姆辛,Самусин
萨纳科耶夫,Санакоев
萨佩格,Сапег
萨奇科夫,М.И.Сачков
萨秋科夫,П.А.Сатюков
萨特,Саад
萨瓦茨基,Завадский,Aleksander Zawadski
萨维茨基,Савицкий
萨维利耶夫,А.И.Савельев
萨维尼奇,Савинич
萨亚诺夫,В.М.Саянов
塞尔玛申科,Сельмашенко
塞菲,Т.Ф.Сейфи
塞穆尔,Сеймур
赛福鼎·阿济佐夫,Сайфутдин Азизов
赛明戈通,Саймингтон
赛姆斯,Семс
赛义津,Сейн Тин
桑布,Самбу
桑晨斌,Сэн Чэнпин
桑德森,Сандерсон
桑科夫,Санков
桑托,Санто
瑟维斯,Сервис
森迪斯,Сэндис
沙阿比,Щааби
沙布朗斯基,Шабранский
沙杜诺夫,Г.П.Шатунов
沙尔莫夫,Ю.А.Шолмов
沙菲克,М.Шафик
沙格达尔苏伦,П.Шагдарсурэн
沙赫马托夫,А.Н.Шахматов
沙胡林,Шахурин
沙拉波夫,В.В.Шарапов
沙拉夫,Шарав
沙里波夫,А.Шарипов
沙列赫,Салех
沙林,Шалин
沙罗夫,Шаров
沙马耶夫,Шамаев
沙米尔,萨耶德,Саед Шамиль
沙皮罗,Шапиро
沙千里,ШаЦянь-ли
沙什科夫,А.П.Шашков
沙斯特里,Шастри
沙斯特罗阿米佐约,阿里,Али Састроамиджойо
沙图诺夫斯卡娅,Шатуновская
沙托诺,Сартоно
沙维里,让,Жан Шовель
沙卫西拉,С.Саветсила
沙因,Г.Б.Шеин
山本,Ямамото,Yamamoto
山田乙三,Ямада,Yamada Otozō
上坂胜,УэсакаМасару,Uesaka Masaru
尚楚飞,ШанЧуфинь
尚庆,ШанЧин,
邵从恩,ШаоЦунэнь,Шао Цунжэнь
邵福全,ШаоФу-цюань
邵家林,ШаоЦзялин
邵力子,ШаоЛицзы
邵美惠,ШаоМин-хуэй
邵天任,ШаоТяньжэнь
绍尔菲,Шорфи
绍尔莫夫,Ю.А.Шолмов
绍伊奇,姆拉登,Младен Соик
舍巴诺夫,Ф.А.Шебанов
舍别尔斯托夫,Шеберстов
舍夫利亚金,А.Шевлягин
舍夫佐夫,А.Шевцов
舍夫佐夫,Шевцов
舍甫琴柯,Т.Г.Шевченко
舍甫琴科,Т.Г.Шевченко
舍拉马诺夫,Шеламонов
舍里,Шерри
舍列伊霍夫斯基,Г.В.Шелейховский
舍斯捷里科夫,Шестериков
舍韦尔,Г.Г.Шевель
舍维亚科夫,Г.Шевяков
什比克夫,Д.Т.Шипиков
什捷缅科,С.М.Штеменко
什拉姆,С.Шрам
什利亚普尼科夫,Г.Шляпников
什马科夫,Шмаков
什帕托夫·谢尔盖(赵世克),ШпатовСергей
什佩季科,И.Ф.Шпедько
什特科夫,Т.Ф.Штыков
什韦多夫,А.А.Шведов
什韦佐夫,Н.С.Швецов
什维尔尼克,А.М.Шверник
什维尔尼克,Н.М.Шверник
沈观澜(沈志远),ШэнГуан-лан
沈鸿,ШэньХун
沈江,ШэнЦзян
沈钧儒,ШэнЦзюньжу,ШэньЦзюньжу
沈平,ШенПинг
沈彤,ШенТун
沈雁冰,ШеньЯнь-бин
沈友才,ШэнЮн-Цай
沈越,ШэньЮэ
沈志远(沈观澜),ШэнДжи-иань(ШэнГуан-лаи)
沈忠善,ШэньЧжуншэн
盛华,ЧанХуа
师文·雅科夫,ШиВенЯков
师哲(卡尔斯基),ШиЧжэ,ШиЦзэ
施德强,ЩиДэСянь
施蒂尔曼,Штильман
施洛夫,Г.Е.Шилов
施密特,Шмидт
施奈德温特,库尔特,КуртШнейдевинд
施耐德,М.Е.Шнейдер
施特劳斯,И.Штраус
施特劳斯,ФранцЙозефШтраус
施万,Шван
施永康,ШиЮнкан
石广平,ШиГуан-пин
石井四郎,ИсииСиро
石潘,ШиПань
石同敏,СиТунмя
石一申,ШиИ-шэн
史白夫(希巴耶夫),П.А.Шибаев
史迪威,Стиллуэл
史蒂文森,Стивенсон
史蒂文斯,罗伯特,РобертСтивенс
史俊弟,ШиЦзюнь-цзи
史良,ШиЛян
史密斯,Walter Bedell Smith
史密斯,У.Б.Смит
舒雷金,В.Шурыгин
舒林,ШуЛинь
舒马科夫,В.С.Шумаков
舒马乌斯卡斯,М.Ю.Шумаускас
舒曼,Шуман
舒米洛夫,Шумилов
舒伊斯基,Шуйский
司马文森,СымВэнь-сэнь
司徒雷登,СтюартЛейтан
司徒欧旺,СыТуОйВан
斯巴克,П.Х.Спаак
斯巴诺夫斯基,В.С.Спановский
斯彼哈尔斯基,Спыхальский
斯达汉诺夫,Н.П.Стаханов
斯大林,И.В.Сталин
斯杜尔姆,Стурм
斯多夫,维利,Willi Stoph
斯基捷尔斯基,Скидельский
斯捷潘诺夫,В.П.Степанов
斯捷潘诺夫,Г.С.Степанов
斯捷平,В.Ф.Степин
斯卡奇科夫,С.А.Скачков
斯卡斯金,С.Д.Сказкин
斯科别利岑,Скобельцын
斯科特,Скотт
斯克里普科,Н.С.Скрипко
斯克鲁杰伊托尔,Скрутейтор
斯克沃尔佐夫,Т.Ф.Скворцов
斯拉博津,Ф.В.Слабкин
斯拉德科夫斯基,М.И.Сладковский
斯拉夫斯基,Славский
斯林甘贝尔格,Слингенберг
斯柳萨列夫,Слюсарев
斯柳沙林科,П.Слюсаренко
斯卢茨基,Б.А.Слуцкий
斯洛博佳纽克,Слободянюк
斯米尔诺夫,Е.И.Смирнов
斯米尔诺夫,А.А.Смирнов
斯米尔诺夫,И.А.Смирнов
斯米尔诺夫,К.Н.Смирнов
斯米尔诺夫,Л.В.Смирнов
斯米尔诺夫,Н.И.Смирнов
斯米尔诺夫斯基,Смирновский
斯米尔诺娃,Н.И.Смирнова
斯米尔秋科夫,Смиртюков
斯密特,Смит
斯密特,瓦德尔,Вардл-Смит
斯摩尔,Смолл
斯莫克图诺夫斯基,И.М.Смоктуновский
斯莫罗金诺夫,Смородинов
斯纳斯京,В.Снастин
斯涅奇库斯,А.Ю.Снечкус
斯诺,Сноу,Edgar Snow
斯帕诺,维里奥,ВелиоСпано
斯佩尔曼,Спеллман
斯佩西夫采夫,Спесивцев
斯皮里多诺夫,Б.М.Спиридонов
斯皮里多诺夫,Спиридонов
斯皮钦,В.И.Спицин
斯塔霍维亚克,Стаховяк
斯塔门科维奇,Стаминкович
斯坦尼盖特,Стенегейт
斯特凡斯卡娅,А.Н.Стефанская
斯特拉顿,Стрэттон
斯特拉霍夫(瞿秋白),Страхов
斯特朗,Стронг,Anna Louise Strong
斯特里科维奇,М.А.Стырикович
斯特里扎克,Л.А.Стрижак
斯特利津,И.А.Стригин
斯特列利比茨基,Стрельбицкий
斯特罗卡齐,Строкач
斯特罗伊捷列夫,Строителев
斯特奇科夫,В.М.Стычков
斯滕斯盖特,Стенсгейт
斯通,约翰,ДжонСтон
斯图尔特,Стюарт
斯退丁纽斯,Стеттиниус
斯托凡,Штофан
斯托利亚罗夫,Г.И.Столяров
斯托蒙扬科夫,Стомоняков
斯托日科,阿列克赛·华西里叶维奇,Алексей
ВасильевичСтоженко
斯托亚诺夫,С.Н.Стоянов
斯托耶夫,Стоев
斯托伊科,基弗,КивуСтойкэ
斯维尔德洛夫,N. V. Sverdlov
斯维尔德洛夫,А.А.Свердлов
斯维里德琴柯,Свиридченко
松杰尔拉特,Сундерлад
松赞娃,Солнцева
宋棐卿,СунФэй-цин
宋鸿儒,СуннХунжу
宋琦,СунЦи
宋庆龄,СунЦинлин
宋双,СонСанн
宋涛,СунТао
宋希濂,СунСи-лянь
宋子文,СуньДи-жень,СунЦзы-вэнь
苏巴尔佐,Субарджо
苏班德里约,Субандрио,Subandrio
苏比亚克托,Субиякто
苏博京,Субботин
苏茨贝格,С.Сульцбергер
苏达科夫,С.Г.Судаков
苏达利科夫,Н.Г.Судариков,N. G. Sudarikov
苏迪罗,Судиро
苏尔加诺夫,Ф.А.Сурганов
苏尔科夫,А.А.Сурков
苏发努冯,Суфанувонг
苏根,班朋,БамбангСугенг
苏古尔巴也夫·达列力汗,СокурбаевДалельхан
苏哈托,Сухарто
苏霍德列夫,В.М.Суходрев
苏霍夫,А.М.Сухов
苏霍夫,Л.Г.Сухов
苏霍京,В.П.Сухотин
苏基曼,МашумиСукиман
苏吉斯曼,Судисман
苏加诺,Сукарно
苏江一,СуЦяньи
苏静,СуЦин
苏卡乔夫,В.Н.Сукачев
苏克舍拉宁,Сукселайнен
苏拉瓦底,Сухраварди
苏林,В.Сурин
苏伦扎布,Сурунжаб,Сурэнжав
苏罗索,Суросо
苏木,Тхум
苏纳约,Сунарьо,Сунарио
苏奇科夫,Сучков
苏什科,Сушко
苏斯林,Суслин
苏斯洛夫,Д.С.Суслов
苏斯洛夫,М.А.Суслов
苏斯洛夫,Суслов
苏伟明,СуВеймин
苏亚雷斯,М.Соареш
苏艳辉,СуЯн-хуй
苏振华,СуЧжэнь-хуа
素友,ТоХыу
粟裕,СуЮ
粟在山,ЛиЦай-шань
隋绍京,СыШао-тин
孙大山,СюйДашань
孙耕晓,СунКен-сян
孙继先,СуньДи-сен
孙科,СуньФо
孙立人,СуньЛижэнь
孙林,СуньЛинь
孙曼林,СуньМань-лин
孙梦彪,СуньМэнбяо
孙平(弗拉基米罗夫),Суньпин
孙西岐,СуньСици
孙逸仙,СунЯт-сен
孙玉可,СуньЮйкэ
孙运茹,СуньЮн-жу
梭貌,СоМаунг
索巴诺夫,Собанов
索博列夫,А.А.Соболев
索博列夫,Соболев
索尔达托夫,А.А.Солдатов
索尔金,А.З.Соркин
索尔萨,К.Сорса
索尔塔托夫,Солдатов
索尔瓦切夫,К.Ф.Сорвачев
索菲亚,София
索夫罗诺夫,А.В.Софронов
索夫罗诺夫,Софронов
索古,艾哈迈德,АхметЗогу
索科洛夫,Л.И.Соколов
索科洛夫,Соколов
索科洛夫,Соколов
索科洛夫斯基,В.Д.Соколовский
索科洛娃,В.С.Соколова
索科洛娃,М.В.Соколова
索良斯基,В.А.Солянский
索列达特,桑恰,СанчаСоледад
索伦森,Соренсен
索罗金,Б.А.Сорокин
索罗金,В.А.Сорокин
索罗金,В.Г.Сорокин
索罗金,Сорокин
索罗科,Л.М.Сороко
索洛缅采夫,М.С.Соломенцев
索洛托夫尼克,Н.Солодовник
索洛维约夫,А.И.Соловьев
索洛维约夫,А.Соловьев
索洛维约夫,И.Т.Соловьев
索洛维约夫,Л.Н.Соловьев
索南费尔特,Сонненфельдт
索尼里尼克,Сонильник
索斯科维奇,Сосковец
索苏尔巴拉姆,Сосорбарам
索先科娃,Г.М.Сосенкова
索辛,Сосин
塔别耶夫,Ф.А.Табеев
塔尔科夫斯基,Д.И.Тарковский
塔尔祖津,Тарзудин
塔盖尔,Тагер
塔哈耶夫,伊布莱,ИбрайТахаев
塔拉基,Н.М.Тараки
塔拉基,Тараки
塔拉索夫,А.В.Тарасов
塔拉索夫,Н.И.Тарасов
塔雷津,Талызин
塔姆,И.Е.Тамм
塔尼娅(李敏),Таня
塔诺维奇,В.Г.Данович
塔舍列夫,Ташелев
塔塔拉什维利,П.И.Татарашвили
塔托木,Татомо
太田清藏,С.Ота
泰勒,Тэйлор
泰里尔,Тайрер
覃振,ТаньЧжэнь
谭平山,ТанПиншань
谭淑云,ТанШеу-юй
谭伟,ТанВэй
谭震林,ТаньЧжэньлинь
谭政,ТаньЧжэнь
坦布南,Тамбунан
汤恩伯,ТанЭньбо
汤普森,Томпсон
唐宾明,ТанБин-Мин
唐俊飞,ТанЦзюнь-фэн
唐克,ТанКэ
唐南平,ТанНаньпин
唐诗因,ТанШи-ин
唐世嘉,ТанШиЦзя
唐坦义,ТанТэнИ,ТанТэн-и
唐天际,ТанТяньдан
唐锡华,ТанСиХуа
唐钺,ТанЮе
唐珍,ТанЧжен
陶大盛,ТаоДа-шэн
陶行知,ТаоСинчжи
陶里亚蒂,Тольятти
陶立中,ТаоЛичжун
陶鲁笳,ТаоЛу-цзя
陶斯,Тауз
陶希圣,ТаоСишэн
陶峙岳,ТаоЧэйио
特尔洛夫,М.А.Тырлов
特卡切夫,Ткачев
特卡琴科,В.Ф.Ткаченко
特拉温,А.Ф.Травин
特里福诺夫,В.Трифонов
特列菲利耶夫,Трефильев
特列菲洛夫,В.С.Трефилов
特列季亚科夫,П.Г.Третьяков
特列季亚科夫,Третьяков
特鲁边科夫,В.Трубенков
特鲁宾诺,德米特里·伊万诺维奇,ТрубиноДмитрий Иванович
特鲁多,Трюдо
特鲁哈诺夫斯基,В.Трухановский
特鲁京斯,Д.И.Трудинс
特罗扬诺夫斯基,О.А.Трояновский,O. Troyanovsky
特罗伊茨基,Б.В.Троицкий
特洛菲缅科,Р.Г.Трофименко
特万丘克,Д.П.Тыванчук
滕代远,ТэнДай-юань
藤山爱一郎,Фудзиям,Fujiyama Aiichiro
藤田茂,ФудзитаСигэру
藤田实彦(田友),Фудзита(Татомо),Fujita Sanehiko
田友(藤田),Татомо(Фудзита),Tatomo
铁托,约瑟普·布罗兹,ИосипБрозТито,Broz Tito
听涛克巳,КацумиКикунами
通金,Г.И.Тункин
佟衡,ТунХан
图尔古诺夫,Т.Тургунов
图尔松扎德,М.Турсун-Заде
图尔苏诺夫,Турсунов
图加里诺夫,И.Тугаринов
图坎,ТейзирТукан
图拉利耶夫,О.Туралиев
图马诺夫,Туманов
图马诺娃,З.П.Туманова
图穆尔奥奇尔,Тумур-Очир
屠格涅夫,И.С.Тургенев
土登晋美诺布,ТангцерДэнпрабче
托宾,Тобинг
托多洛维奇,Тодорович
托尔宾科夫,Н.Е.Торбенков
托尔库诺夫,Толкунов
托尔斯季科夫,В.Г.Толстиков
托尔斯季科夫,В.С.Толстиков
托尔斯泰,А.Н.Толстой
托尔斯泰,列夫,Л.Н.Толстой,ЛевТолстой
托夫马相,С.Товмасян
托夫斯托诺戈夫,Г.А.Товстоногов
托卡尔,Токар
托卡列夫,С.А.Токарев
托卡列夫,Токарев
托克马科夫,Б.Токмаков
托里斯里奥,Торизльо
托列达诺,洛姆巴尔多,ЛомбардоТоледано
托马斯,查尔斯,ЧарльсС.Томас
托米辛,Е.Ю.Томихин
托普里亚,З.В.Топурия
托普奇耶夫,А.В.Топчиев
托瓦洛夫斯基,М.Д.Товаровский
托伊夫,Тойв
托伊贡巴耶夫,Дж.Тойгомбаев
陀思妥耶夫斯基,Достоевский
瓦尔福洛梅耶夫,Варфоломеев
瓦尔拉莫夫,Л.Варламов
瓦尔塔诺夫,В.Н.Вартанов
瓦格纳,Вагнер
瓦拉金娜,Варакина
瓦里科夫,В.А.Вальков
瓦里科夫,О.Вальков
瓦罗乌夫,Вароув
瓦宁科夫,Б.Ванинков
瓦日诺夫,Важнов
瓦沙泽,Н.Г.Вашадзе
瓦塔拉,Д.Уаттара
瓦维洛夫,А.М.Вавилов
瓦维洛夫,Вавилов
瓦维洛夫,С.И.Вавилов
瓦西科,Васько
瓦西科夫,В.В.Васьков
瓦西科夫,В.Х.Васьков
瓦西科夫,О.В.Васьков
瓦西里耶夫,Васильев
瓦西里耶夫,Г.М.Васильев
瓦西里耶夫,И.В.Васильев
瓦西里耶夫,Н.Г.Васильев
瓦西连科,В.Х.Василенко
瓦西连科,М.П.Василенко
瓦西列夫斯卡娅,Василевская,Vanda Vasilevskaya
瓦休科维奇,Васюкович
万南·莉莉,ВаньНаньЛили
万斯,С.Вэнс
汪道涵,Wan Daohan
汪道涵,ВанДаохан
汪东兴,ВанДун-син
汪锋,ВанФын
汪精卫,ВанЦзинвэй
王宝金,ВанБоцзинь
王宝琴,ВанБао-цин,ВаньБао-чин
王保民,ВанБао-минь
王北超,ВанБэй-чао
王炳南,ВанБин-Нань
王承志,ВанЧенчжи
王崇古,ВанЧун-гу
王大军,ВанДацзюнь
王德广,ВанДэГуан
王福,ВанФу
王光宁,ВанГуан-ниь
王寒生,ВанХань-шэн
王翰,ВанХань
王洪儒,ВанХун-жу
王洪文,ВанХун-вэнь
王华馥,ВанХуаФоу
王化南,ВанХун-нань
王怀安,ВанХуайАнь
王稼祥,ВанЦзя-сян,ВанЦзя-сянь,ВанЦзясян
王江,ВанЦзян
王杰,ВанЦзэ
王荩卿,ВанЦзиньЦинь
王昆仑,ВанКуньлунь,Ван Кунлунь
王阑西,ВанЛан-си
王力,ВанЛи
王立中,ВанЛи Чжун
王利浩,ВанЛи-хао
王烈珠,ВанЛе-цзу
王迈,ВанМай
王满寿,Ван Маньшоу
王明,Ван Мин
王平,Ван Пин
王琦,Ван Ци
王乾石,Ван Чень-ши
王巧波,Ван Дзябо
王勤,Ван Цюнь
王清河,ВанЧинхэн
王秋民,ВанЧжоу-мин
王群林,ВанЧун-лин
王仁,Ван Жэнь
王如业,Ван Жуе,
王汝琪,Ван ЖуЦи
王若飞,Ван Жофэ,Ван Жофэь,Ван Жофэй,ВанИ Фей
王实甫,Ван Шифу
王世杰,Ван Шицзэ
王思华,Ван Сыхуа
王文晓,Ван Вэньсяо
王喜章,Ван Сичжан
王祥鸣,Ван Сянмин
王晓晨,Ван Сяочен
王效明,Ван Сяо-мин
王新华,Ван Синхуа
王新琼,Ван Син-Чун
王秀唐,Ван СюТан
王勋,Ван Сюнь
王耀臣,Ван Яоцень
王揖,Ван Цзе
王应元,Ван Ин-вон
王友善,Ван Яошань
王雨田,Ван Юй-тянь
王毓宾,Ван Юй-бинь
王云五,Ван Юньу
王蕴瑞,Ван Вэнь-жуй
王战平,Ван Чжан Пин
王照华,Ван Жун-Хуай
王哲阳,Ван Чжеянь
王之成,ВанЧжичжэн
王之佑,ВанЧжи-ю
王志全,ВанЧжи-цюань
王忠义,ВанЧжун-и
王仲方,ВанЧжун-фан
王竹溪,ВанДзуСи
威尔科克斯,Вилкокс
威尔逊,Вильсон
威尔逊,Г.Вильсон
威斯特摩兰,Уэстморленд
韦尔边科,А.А.Вербенко
韦尔德什,Вердыш
韦尔霍夫斯基,И.М.Верховский
韦尔希宁,К.А.Вершинин,K. A. Vershynin
韦国清,ВэйЮцин
韦基洛夫,А.Х.Везиров
韦君宜,ВэйЦзюнь-и
韦利卡诺夫,П.С.Великанов
韦利克列茨基,А.Н.Великорецкий
韦列伊斯基,Верейский
韦特卢日斯基,Ветлужский
韦夏金,Н.И.Висягин
韦休诺夫,С.С.Вещунов
维比索诺,尤素福,ЮсуфВибисоно
维尔凯耶娃,В.Н.Веркеева
维尔科夫,Н.Н.Вылков
维尔洛茨基,Верлоцкий
维基,贝尔,БеллУити
维克多,Виктор
维拉斯科,Веласко
维里加耶夫,Вильдяев
维里津,Г.П.Великий
维连斯基,Б.М.Виленский
维列缅耶夫,Веремьев
维美徐,让纳特,ЖанеттаВермерш
维诺格拉多夫,В.А.Виноградов
维诺格拉多夫,В.В.Виноградов
维诺格拉多夫,В.Н.Виноградов
维诺格拉多夫,Д.Виноградов
维诺格拉多夫,И.Виноградов
维诺格拉多夫,И.М.Виноградов
维诺格拉多夫,К.К.Виноградов
维诺格拉多夫,С.А.Виноградов
维诺库罗夫,И.К.Винокуров
维诺库罗夫,К.Д.Винокуров
维塞林诺夫,И.Веселинов
维什尼亚科夫,Вишняков
维什涅夫斯基,Вишневский
维特科维奇,Н.Е.Виткович
维特韦尔,И.А.Витвер
维沃尔德,Фервурд
维辛斯基,А.Я.Вышинский
维亚特金,А.Е.Вяткин
维约普拉诺托,苏卡佐,СукарджоВирйопраното
梶塚隆二,Кадзицука,Kazusika Ryuji
卫立煌,ВэйЛихуан
魏德迈,Ведемейер
魏克玛沁格,Викремасингх
魏列夏金,Б.Н.Верещагин
温克斯,Уикс
温尼茨基,Е.Е.Винницкий
温宁,ВэньНин
文建平,ВэньЦзянь-пин
文进勇,ВанТиенЗунг
文日,МинИр
闻柏山,ВэньБо-шань
闻江平,ВэньЦзян-пин
闻山,ВеньШань
闻一多,ВеньИ-до
翁东,Утонг,Унтунг
翁文灏,ВэнВэньхао
沃德,达德里,ДадлиУорд
沃尔科夫,А.Волков
沃尔科夫,А.П.Волков
沃尔恰尼诺夫,Волчанинов
沃康,I. K. Bokan
沃克,Уккер
沃连科,И.Воленко
沃龙科,Е.А.Воронко
沃龙科娃,Л.Воронкова
沃龙佐夫,Воронцов
沃罗比约夫,В.Я.Воробьев
沃罗比约夫,Воробьев
沃罗诺夫,Воронов
沃洛霍夫,Волохов
沃什尼亚克,Вошняк
沃斯,А.Э.Восс
沃斯科博伊尼科夫,П.З.Воскобойников
沃斯克列先斯基,Е.Воскресенский
沃特森,Уотсон
沃先金,В.И.Вощанкин
沃伊诺娃,Воинова
沃兹涅先斯基,Д.Вознесенский
沃兹涅先斯基,Н.А.Вознесенский
乌布利希,瓦尔特,Walter Ulbricht,Ульбрихт
乌达利佐夫,А.Д.Удальцов
乌达洛夫,Удалов
乌戈利科夫,Н.Угольков
乌格林,УГэ-лин
乌格留莫夫,Угрюмов
乌拉内切夫,Уланычев
乌兰达兰,Улан-Далай
乌兰夫,Улан-ху,Уланьфу
乌兰切夫,Уланчев
乌里扬诺夫斯基,Ульяновский
乌里扬诺娃,Ульянова
乌鲁蒂亚,弗兰奇斯克,ФранческоУррутия
乌姆,布恩,БунУм
乌萨切夫,И.Г.Усачев
乌斯季诺夫,Д.Ф.Устинов
乌斯满,Осман
乌斯片斯基,Г.М.Успенский
乌苏巴利耶夫,Т.Усубалиев
乌特金,В.М.Уткин
乌托约,班朋,БамбангУтойо
乌托约,库苏莫,КусумоУтойо
乌瓦洛夫,А.С.Уваров
吴巴瑞,УБаСве
吴波,УБо
吴潮涛,УХань-тао
吴传启,УЧуан-ци
吴丹,УТан
吴登佩敏,УТенПеМин
吴桂贤,УГуй-сянь
吴国贵,УГо-гуй
吴国祯,УГожэнь
吴晗,УХань
吴厚心,УХоуСинь
吴焕章,УХань-чжун
吴觉迎,УЧжоНейн
吴莱培,УЛакпый
吴冷西,УЛэн-си
吴茂荪,УМаосунь
吴努,УНу
吴全衡,УЦюань-хэнь
吴瑞辉,ВуЖунхэн
吴瑞林,УЖуй-линь
吴铁城,УДэ-чэн,УТэчэн
吴庭艳,НгоДиньДьем
吴文涛,УВэнь-тао,УВэньтао
吴学谦,УСюэЦянь
吴耀武,УЯо-У
吴业刚,УЕган
吴云丘,УЮньчу
伍修权,УСютюань
武部六藏,ТакебэРокузоо,Takebe Rokuzo
武汉周,УХань-чжун
武蔻,ВуКхоан
武元甲,ВоНгуенЗиап,Vo Nguyen Giap
西多鲁克,格奥尔基·马丁诺维奇,СилорукГеоргий
Мартынович
西多罗夫,Сидоров
西多罗维奇,Г.С.Сидорович,G. S. Sidorovich
西弗(刘少奇),Сиф
西福罗夫,В.И.Сифоров
西格蒂,Сигетти
西哈努克,Сианук
西季赫梅洛夫,Сидихмелов
西季赫缅诺夫,В.Я.Сидихменов
西卡切娃,Р.Н.Сикачева
西拉耶夫,В.Силаев
西林,Силин
西卢亚诺夫,Н.М.Силуянов
西伦凯维茨,Jozef Cyrankiewicz
西罗秋克,О.Ф.Сиротюк
西马科夫,И.Н.Симаков
西蒙诺夫,К.Симонов
西蒙诺夫斯基,Л.В.Симоновский
西米奇,Семич
西尼洛夫,К.Р.Синилов
西萨基扬,Н.М.Сисакян
西斯科,Сиско
西特尼克,Г.Ф.Ситник
西托洛夫,Сидоров
西泽,Нисидзава
西佐夫,Н.Т.Сизов
希巴耶夫,В.А.Шибаев
希德万,卡尔,Karl Schirdewan
希尔,Хилл,Hill
希尔,特列沃夫,ТревофХилл
希尔曼,Ширман
希季科夫,А.П.Шитиков,Shitikov
希金,И.В.Шикин
希克逊,Хиккерсон
希里亚耶夫,Н.Ширяев
希利克维奇,Хилькевич
希伦布兰德,Хилленбранд
希罗基,Широкий
希马诺夫,К.И.Шиманов
希缅诺夫,Сименов
希姆萨,Б.М.Шимша
希涅茨基,А.Я.Синецкий
希什林,Шишлин
希特罗夫,А.Хитров
希特罗夫,С.Д.Хитров
熙洽,СиЦя
习仲勋,СиЦжун-сюнь,Xi Zhongxun
下田,Симода
下枝龙男,СимоэдаТацуо,Shimoeda Tatsuo
夏尔马,约金德拉,ЙoгeндраШарма,Sharma
夏景光,СяЦзинь-Гуань
夏莉雅,СяЛи-я
夏蒙,Шамун
夏明,СяМин
夏皮罗,Шапиро
夏斯特里,Шастри
夏衍,СяЯнь
夏征农,СяЧжэн-нун
先科夫,Сенков
先诺夫,В.И.Сеннов
显雅,Зейя
向明,СянМин
向全,СяньЦаонь
肖斌杰,СяоБинцзэ
肖纪美,СяоДзиМей
肖荣泉,СяЛун-чуань
肖斯塔科维奇,Шостакович
肖向荣,СяоСян-жун
肖扬,СяоЯнь
肖应棠,СяоИн-тан
萧华,СяоХуа
萧劲光,СяоЦзинь-гуань
萧克,СяоКэ
萧三,ЭмиСяо
萧同兹,СяоТунцзы
萧也牧,СяоЯнь-мо
萧铮,СяоЧжэн
谢巴,Е.К.Сепп
谢本芝,СеБанчжи
谢澄平,СеЧен-пин
谢德利切夫,Н.Н.Седричев
谢德利亚列维奇,В.А.Седляревич
谢恩,米亚,МьяСейн
谢尔,Шеель
谢尔巴德赫,В.Д.Шербатых
谢尔巴科夫,А.М.Щербаков
谢尔巴科夫,И.С.Щербаков
谢尔巴托夫,М.И.Щербатов
谢尔比茨基,В.В.Щербицкий
谢尔比纳,В.Щербина
谢尔宾,Сербин
谢尔盖(毛岸英),Сергей
谢尔盖耶夫,Сергеев
谢尔盖耶维奇,Сергеевич
谢尔吉耶夫,А.В.Сергиев
谢尔吉耶夫斯基,Сергиевский
谢尔久克,З.Т.Сердюк
谢尔久克,Сердюк
谢尔曼,Шерман
谢尔秋琴科,Сердюченко
谢甫生,СеФу-шэн
谢富治,СеФучжи
谢光宝,ТаКуангБыу
谢赫,穆罕默德·乌尔德,МохаммедУльдШейх
谢胡,М.Шеху
谢季宁,Г.Б.Щетинин
谢拉菲莫夫,В.В.Серафимов
谢里维尔斯托夫,В.Г.Селивёрстов
谢利瓦诺夫,Селиванов
谢利瓦诺夫,Т.А.Селиванов
谢廖金,Серегин
谢廖沙(毛岸英),Сережа
谢列布利亚科夫,Н.В.Серебряков
谢列平,А.Н.Шелепин
谢列斯特,П.Е.Шелест
谢罗夫,И.А.Серов
谢米恰斯内,В.Е.Семичастный
谢米恰斯特诺夫,Семичастнов
谢米伊金,А.С.Семейкин
谢苗诺夫,А.С.Семенов
谢苗诺夫,А.Семенов
谢苗诺夫,Е.М.Семёнов
谢姆科夫斯基,А.Семковский
谢皮洛夫,Д.Т.Шепилов
谢斯坦,Шестак
谢特列茨基,Седлецкии
谢瓦尔德纳泽,Э.А.Шеварнадзе
谢伟思,Сервис,John S. Service
谢西金,К.Е.Сеськин
谢祥春,СеОянЧунь
谢逊,СеСюнь
谢梓群,СеЦзы-цюнь
辛博隆,Симболон
辛格,СваранСингх
辛格,Сингх
辛威尔,Шинуэлл
辛尊易,СинЦун-и
邢国文,СеньГовень
邢士廉,СинШи-лынь
邢索,СинСо
熊式辉,СюньШи-хуэй,СюнШихуй
休姆,道格拉斯,Дуглас-Хъюм
休斯曼,Гюйсман
休特金,Сюткин
徐波,СюйБо
徐福林,СюйФу-линь
徐辉,СоХи
徐家福,СюйЗдяФу
徐减哉,СюЧэн
徐介藩,СюйЦзэфань
徐景学,СюйЦэинсюе
徐林正,СюйЛинцин
徐明,СюйМин
徐向前,СюйСянцянь
徐晓,СюйСяо
徐以新,СюйИ-синь
徐永昌,СюйЮньчан
许德珩,СюйДэ-хэн
许涤新,СюйДэ-син,СюйЦзи-син
许哥而(许可仪),ХеГай
许季龙,СюйЦзи-лун
许杰,СюйЦзе
许琼谢·莉莉,СюТюин-сейЛили
许世友,СюйШи-ю
许兴民,СюСинмин
绪方太郎,ТароОгата,Ogata Taro
宣马扬,СюаньМаЯн
宣淼,СюаньМяо
宣祥沃,СюаньСянь-уо
薛春圃,СюеЧунь-пу
薛暮桥,СаМу-цяо
薛岳,СеЮэ
雅科夫列夫,В.Г.Яковлев
雅科夫列夫,Яковлев
雅克沙明,М.Ф.Якшамин
雅库鲍夫斯基,Ф.Б.Якубовский
雅罗辛斯基,Яросинский
雅沙,陈祖涛,ЧенЦу-ТаоЯша
亚布罗吉娜,А.А.Яблокина
亚基姆科,П.Г.Якимук
亚历山大,В.Александер
亚历山德罗夫,А.В.Александров
亚历山德罗夫,Г.Ф.Александров
亚历山德罗夫,Н.М.Александров
亚历山德罗夫,Н.Н.Александров
亚历山德罗夫,Н.П.Александров
亚历山德罗夫,С.В.Александров
亚历山德罗娃,В.Александрова
亚林哥,Ярринг
亚罗舍维奇,Ярошевич
亚罗申科,А.И.Ярошенко
亚明,Ямин
亚纳耶夫,Янаев
亚尼,Яни
亚斯克维奇,А.А.Яскевич
亚斯诺夫,В.А.Яснов
亚斯诺夫,М.А.Яснов
亚斯特罗波夫,Г.Ястробов
亚塔,阿里,АлиЯта
亚特采列夫,Ятцелев
亚特诺,Н.Ятно
亚佐夫,Язов
闫虎山,ЯнХушань
严济慈,ЯнЦзнцы
严书夏,Яньшу-ся
盐津辰巳,СиодзиТацуми,Shiozu Tatsumi
阎宝航,ЯнБао-шан,ЯньБаохан
阎传绂,ЯньЧуаяь-фу
阎明复,ЯнМинфу,ЯньМин-фу
阎锡山,ЯнСишань
雁谒森,ИндинСэн
扬申,С.И.Яншин
阳翰笙,ЯнХань-шен
杨成武,ЯнЧен-у
杨芙清,ЯнФуЦин
杨富,ЯнФу
杨格,Янгер
杨格远,ЯнГэюань
杨继池,ЯнЦзицы
杨奎龙,ЯньКуйлун
杨立铭,ЯнЛиМин
杨琳,ЯнЛинь
杨民志,ЯньМин-чжи,ЯнМиньчжи
杨乃文,ЯнНай-вин
杨培新,ЯнПэй-синь
杨尚昆,ЯнШан-кунь,ЯнШанкун
杨少玉,ЯнСао-юй
杨世泽,ЯнШи-цзэ
杨松,Янсон
杨伟,ЯнВей
杨卫华,ЯнВэнь-хай
杨喜民,ЯнШиминь
杨显东,ЯнСяньдун,ЯнСяньдун
杨献珍,ЯнъСянь-чжэн,ЯнСянь-чжэн
杨晓云,ЯньСяо-юнь
杨秀峰,ЯнСю-финь,ЯнСюэ-фын
杨义臣,ЯнИчэнь
杨英杰,ЯнИн-цзе
杨勇,ЯнЮн
杨云贲,ЯнЮнь-пэнь
尧东,ЙоХтут
姚立,ЯоЛи
姚溱,ЯоЧжэн
姚庆祥,ЕКен-сан
姚文元,ЯоВэнь-юань
姚仲明,ЯоЧжун-мин
耶格尔,Л.Джегер
耶斯佩森,Есперсен
野坂,Нодзака,Nozaka
野坂参三,НодзакоСандзо,Носака,Nozaka Sanzo
叶成章,ЕЧенгченг
叶德友,ЕДэю
叶多文,Н.П.Едовин
叶尔马赫,Ермохин
叶尔马科夫,Т.Г.Ермаков
叶尔莫拉耶夫,Ермолаев
叶尔莫洛夫,В.И.Ермолов
叶尔绍夫,В.С.Ершов
叶飞,ЕФей
叶菲莫夫,Г.Г.Ефимов
叶菲莫夫,Ефимов
叶夫多基莫夫,А.И.Евдокимов
叶夫列莫夫,Л.Н.Ефремов
叶夫列莫夫,О.Н.Ефремов
叶夫斯特拉托夫,М.Е.Евстратов
叶戈雷切夫,Н.Г.Егорычев
叶戈罗夫,Егоров
叶戈罗夫,М.С.Егоров
叶戈罗夫,П.И.Егоров
叶戈罗娃,Егорова
叶公超,ЕГунчао
叶海亚汗,ЯхьяХан
叶護生,Ye Husheng
叶季壮,ЕЦзи-чжуан,ЕЧзичжуан
叶剑英,ЕЦзянь-ин
叶利钦,Б.Н.Ельцин
叶利扎洛夫(蒋经国),Елизаров
叶廖明,И.А.Еремин
叶廖明,Н.Ф.Еремин
叶列梅耶夫,Еремеев
叶留金,В.П.Елютин
叶罗费耶夫,Ерофеев
叶罗费耶夫,Н.Г.Ерофеев
叶罗戈夫,М.С.Ерогов
叶梅利亚诺夫,В.С.Емельянов
叶梅利亚诺夫,С.И.Емельянов
叶皮谢夫,А.А.Епишев
叶青,ЕЦин
叶秋,ЕДзю
叶特科夫斯卡娅,Р.Едковская
叶韦利诺夫,Евелинов
叶西科夫,Л.Л.Еськов
叶西片科,Д.А.Есипенко
叶子龙,ЕЦзы-лун
伊巴露丽,Ибаррури
伊布赖莫夫,С.Ибраимов
伊顿,С.Итон
伊夫琴科,А.Н.Ивченко
伊格纳季耶夫,Игнатьев
伊格纳托夫,Н.Г.Игнатов
伊赫捷依曼,М.С.Ихтейман
伊利切夫,Л.Ф.Ильичев
伊利亚什,Н.Ильяш
伊林,М.Ильин
伊柳申,А.А.Ильюшин
伊柳欣,В.М.Илюхин
伊敏诺夫·阿不都拉希特,ИминовАбдурашит
伊姆舍涅茨基,Имшенецкий
伊纽什金,М.Инюшкин
伊诺克,Инок
伊诺泽姆采夫,Н.Н.Иноземцев
伊萨科夫斯基,М.В.Исаковский
伊萨科夫斯基,М.Исаковский
伊萨延科,В.С.Исаенко
伊萨耶夫,А.А.Исаев
伊斯哈科夫,АсхатИсхаков
伊斯卡诺夫,М.Исканов
伊斯坎达罗夫,Р.Искандаров
伊斯马伊洛夫,Исмаилов
伊斯特万·道比,ИштванДоби
伊通,赛鲁斯,СайрусИтон
伊瓦舒京,П.Ивашутин
伊万尼,Иваний
伊万尼茨基,М.Ф.Иваницкий
伊万年科,В.И.Иваненко
伊万诺夫,А.А.Иванов
伊万诺夫,А.И.Иванов
伊万诺夫,А.М.Иванов
伊万诺夫,Б.С.Иванов
伊万诺夫,Б.С.Иванов
伊万诺夫,Г.И.Иванов
伊万诺夫,Г.Т.Иванов
伊万诺夫,Г.Ф.Иванов
伊万诺夫,И.Т.Иванов
伊万诺夫,К.К.Иванов
伊万诺夫,М.И.Иванов
伊万诺夫,М.Иванов
伊万诺娃,Иванова
伊万丘克,П.П.Иванчук
伊谢克,Ишык
伊扎科夫,Изаков
伊扎诺夫,И.А.Изанов
易边,Yi Bian
易卜拉欣,穆罕默德,МохаммедИбрагим
因诺肯季,Иннокентий
尹公钦,ЮнКоХын
英萨利,ИенгСари
雍文谦,УнгБанКьхем
尤德,Э.Юд
尤尔卡,Юрка
尤尔克维奇,Юркевич
尤尔奇克,Е.Т.Юрчик
尤哥夫,Югов
尤金,П.Ф.Юдин,P. F. Yudin
尤开元,ЮКай-юань
尤里,黄平,ХуанПинЮрий
尤努索夫,А.Юнусов
尤努索夫,尤努索维奇·萨比尔,ЮнусовСабир
Юнусович
尤任,Южин
尤申,Я.В.Юшин
尤苏波夫,М.Юсупов
尤特克维奇,С.Юткевич,苏联导演
有麻多罗尾,АримаТарао,Arima Tarao
于北辰,ЮйБей-чэнь
于斌,ЮйБин
于洪亮,ЮйХунлян
于杰,ЮйЦзэ
于静远,ЮйЦзин-юань
于镜涛,ЮйЦзин-тао
于林,ЮйЛин
于树中,ЮШу-цзун
于彦波,ЮйЯнПо
于毅夫,ЮйИ-фу
于右任,ЮйЮжэнь
余彬,ЮйБин
余光生,ЮйГуаньшэн
余江,ЮйЦзян
余湛,ЮйЧжань
俞大维,ЮйДавэй
俞鸿钧,ЮйХунцзюнь
俞沛文,ЮйПэйвэнь,ЮйПэй-вэнь
俞平伯,ЮйПинбо
裕仁,Хирохито
袁斌,ЮэБинь
袁牧之,ЮанМучжи
袁齐贞,ЮаньЧжи-цин
袁世凯,ЮаньШи-кай
袁天琪,ЮаньТяньци
袁振,ЮаньЧжень
袁致勤,ЮаньЧжицин
袁仲贤,ЮаньЧжун-Сян
原弘志,ХараХироси,Hara Hiroshi
约多,Ньото
约夫列夫,Ивлеев
约甘松,Б.В.Иогансон
约翰逊,Л.Б.Джонсон
约翰逊,阿列克西斯,АлексисДжонсон
约诺夫,Е.А.Ионов
约西普克,Есипко
岳元,Юе-иань
越飞,Иоффе
云宇,ЮнЮй
云泽(乌兰夫),ЮньЦзе
臧启芳,ЧжоуЦзин-вень
泽登巴尔,Цеденбал
泽狄布,Ценд
泽恩斯利托夫斯基,А.И.Дзенс-Литовский
泽弗林,Зефрин
泽连佐夫,В.А.Зеленцов
泽诺夫,Зенов
泽沃格米德,Цэвэгмид
扎博罗夫斯基,П.Т.Заборовский
扎博洛茨基,Н.А.Заболоцкий
扎布拉夫涅夫,Заплавнев
扎布罗金,Е.Г.Забродин
扎尔科夫,Жарков
扎哈尔琴科,П.И.Захарченко
扎哈罗夫,А.В.Захаров
扎哈罗夫,В.Л.Захаров
扎哈罗夫,П.Захаров
扎哈罗夫,马特维·瓦西里耶维奇,М.В.Захаров
扎赫瓦塔耶夫,Захватаев
扎基洛夫,阿布杜尔,АбдулЗакиров
扎卡托夫,П.С.Закатов
扎里波娃,Н.Зарипова
扎卢日内,В.И.Залужный
扎鲁宾,Г.Н.Зарубин,G. N. Zarubin
扎米亚京,Замятин
扎莫什金,А.И.Замошкин
扎姆布罗夫斯基,Замбровский
扎姆切夫斯基,И.К.Замчевский
扎斯洛诺夫,康斯坦丁,КонстантинЗаслонов
扎特,瓦尔特,ВальтерДжадд
扎瓦茨基,Завадский
扎沃龙科夫,Жаворонков
扎沃龙科夫,С.Жаворонков
扎夏迪科,А.Ф.Засядько,A. F. Zasyadko
扎伊采夫,В.А.Зайцев
扎伊采夫,Зайцев
扎伊采娃,Т.В.Зайцева
扎伊莫夫,Заимов
扎伊帕尔,Р.Джайпал
斋藤美夫,СайтоИосио,Saito Yoshio
詹勤泽,Jan Cin-dse
张爱萍,ЧжанАй-пин
张保英,ЧжанБо-ин
张蓓飞,ЧжанПын-фэй
张伯恒,ЧжанБо-хэн
张伯伦,Чемберлен
张驰亮,ЧжанЧилян
张春桥,ЧжанЧунь-цяо
张春山,ЧанЧхунСан
张岱年,ЧжанДай-нян
张道藩,ЧжанДаофань
张德群,ЧжанДэ-цюнь,ЧжанДэЦунь, Zhang Deqong
张东川,ЧжанДун-чуань
张东荪,Чжан Дун-сун,Чжан Дунсунь
张舵全,Чан До-чуан
张凡,Чжан Фань
张凡时,Чжан Фынши
张方,Чжан Фан
张非垢,Чжан Фэй-гоу
张风,Чжан Фын
张庚,Чжан Гэн
张光,Чжан Гуань
张国华,Чжан Го-хуа
张国庆,Чжан Гочэн
张国焘,Чжан Го-тао
张化东,Чжан Хуа-дун
张际春,Чжан Ди-чунь,Чжан Цан-чунь
张家福,Чжан Цзя-фу
张嘉璈,Чжан Цзя-ао,Чжан Цзяао
张金镇,Чжан Цзин-чжэнь
张景惠,Чжан Цзинкуй,Чжан Цзин-хой
张君劢,Чжан Цзюнь-май,Чжан Цзюньмый
张克侠,Чжан Ке-ся
张澜,Чжан Лань,Чжань Лань
张霖之,Чжан Линь-чжи
张玛娅,Чжан Мая
张明远,Чжан Мин-юань,Zhang Menyuan
张莫潭,Чжан Мо-тан
张宁和,Чжан Нинхэ
张平山,Чан Пен Сак
张琴秋,Чжан Чинчу
张群,Чжан Цюн,Чжан Цюнь
张如申,Чжан Жу-Шень
张瑞华,Чжан Жуй-хуа
张瑞杰,Чжан Жуйц-зе
张申府,Чжан Шэнь-фу,Чжан Шэньфу
张莘夫,Чжан Синфу
张时雨,Чан СиУ
张世之,Чжан Шичжи
张寿篯(李兆麟),Чжан Шоу-цян
张树元,Чжан Шу-юань
张太雷,Чжан Тайлый
张维桢,Чжан Вэй-чэн
张伟烈,Чжан Вэй-ле,Zhang Weile
张伟潘,Чан Вэньпан
张文强,Чжан Вин-чжан
张闻天,Чжан Вэньтянь,ЧжанВэнь-тянь
张奚若,Чжан Си-жо
张锡俦,Чжан Си-чоу
张玺,Чжан Си
张秀山,Чжан Сюшан,Чжан Сюшань
张学良,Чжан Сюэлян
张学思,Чжан Сюэси
张扬,Чжан Янь
张荫达(胡风),Zhang Yinda
张英伏,Чжан Инь-фу
张英志,Чжан Инчжи
张映吾,Чжан Ин-у,Чжан Инь-у
张友渔,Чжан Ююй,Чжан Яоюй
张玉香,Чжан Юйсянь
张钰哲,Чжан Юйчже
张云里,Чжан Юнь-ли
张增敬,Чжан Цзэн-цзин
张之毅,Чанг Чи-и
张芝明,Чжан Чжи-мин
张治中,Чжан Чжичжун,Чжан Чжи-чжун
张致祥,Чжан Цзы-сян,Чжан Чжисян
张钟伟,Чжан Чжун-вэй
张仲良,Чжан Чжун-лян
张仲实,Чжан Чжун-ши
张子意,Чжан Цзы-и
张作霖,Чжан Цзолинь
张作相,Чжан Цзосян
章伯钧,Чжан Боцзюн,Чжан Боцзюнь
章丁,Джан Дин
章汉夫,Чжан Хань-фу,Чжан Ханьфу
章乃器,Чжан Най-ци
章树岑,Чжэн Шуцзынь
章文晋,Чжэн Вэнь-цзинь
章泽,Чжан Цзэ
章志明,Чжан Чжи-мин
长岛勤,Нагасима Цутому,Nagashima Tsutomu
长征,Труонг Шин,Чионг Тинь,Чыонг Тинь,Truong Chinh
赵白,Чжао Вэй
赵大泰(赵世炎),Чжао Та-те
赵德尊,Чжао Дэ-цзунь
赵景强,Чжао Цзин-чан
赵民新,Чжао Минсинь
赵乔,Чжао Чао
赵世晨,Чжао Шичжень
赵世克,Чжао Ши-кэ
赵守攻,Чжао Шоу-гун
赵守义,Чжао Шоу-и
赵树理,Чжао Шули
赵万明,Чжао Вэньминь
赵毅敏,Чжао Иминь,ЧжаоИ-мин
赵仲时,Чао Чжин-ци
赵朱琴,Чжао Чжучэнь
赵紫阳,Чжао Цзыян
真珠尔扎布,Чжэнчжурчжаб
郑道儒,Чен Дао-му
郑洞国,Чжан Дунго
郑介民,Чжэнь Цзэ-минь
郑群壁,Чжэн Чун-би
郑汝骊,Чжен Жу Ли
郑廷焯,Чжэн Тинчжо
郑希申,Чжэн Си-шен
郑一龙,Тен ИрЛен
郑伊万,Чжи И-ван
郑准泽,Тен Дюн Тхяк
志野平仪,Сея Хираку
中曾根康弘,Накасонэ
钟杰民,Чжун Цземинь
钟民,Чжун Мин
钟庆发,Чжун Цин-фа,Цжун Цин-фа
钟天新,Чжун Тяньсинь
重光葵,Сигемицу,Shigemitsu Mamoru
周保中,Чжоу Бао-чжун
周彪,Чжоу Бяо
周才凡,Чхоу Цайфань
周大鲁,Чжоу Да-лу
周恩来,Чжоу Эньлай
周凯申,ЧжоуГэнь-шен
周璐芬,ЧжоуЛу-фын
周楠,Чжоу Нань
周戚微,Чжоу Ци-вень
周琴,Чжоу Цзинь
周秋野,Чжоу Цю Е
周尚白,Чжоу Шань-пэй
周巍峙,Чжоу Вей-ши
周希汉,Чжоу Си-хань
周夏冰,Чжоу Сяпин
周小舟,Чжоу Сяочжоу
周新民,Чжоу Синьминь
周兴,Чжоу Син
周岩苏,Чжоу Янь-су
周扬,Чжоу Ян,Жоу Янь
周毓麟,Джоу Ю Линь
朱安达,Онг Енг Ди
朱安达,拉登,Раден Джуанда
朱德,Чжу Дэ
朱光,Чжан Гуан
朱光,Чжу Гуан
朱光潜,Чжу Гуан-цаян
朱济乾,Чжу Цзи-цян
朱家骅,Чжу Цзяхуа
朱经农,Чжу Цзиннун
朱列,Чжу Ле
朱敏,Чжу Мин
朱穆之,Чжу Му-чжи
朱宁河,Дю Ен Ха
朱其文,Чту ЦиВень,Чжу Ци-вэнь
朱瑞真,Zhou Zhucheng
朱少红,Чжу Шаохун
朱绍田,Чжу Шаотянь
朱升富,Чжу Шен-фу
朱世明,Чжу Шимин,ЧуСи-Мин
朱武三,Чжу У-сан
朱晓晨,Чжу Сяочен
朱学范,Чжу Сюэ-фань
朱应举,Чжу-Ин-Чжу朱云海,Цзун Юн-хэн
朱之垠,Чжу Чжи инт
竺可桢,Джу Ке-джень
庄玲,Чжуан Лин
庄涛,Чжуан Тао
卓裴立,Чжо Пэли
卓宗贵,Джо Цунгуй
兹古里季,А.Згуриди
兹洛宾,И.Д.Злобин
兹洛曼诺夫,Л.П.Зломанов
兹瓦雷金,А.А.Зворыкин
兹韦列夫,А.Г.Зверев
兹维亚金,Звягин
邹大鹏,Чжоу Липэн
邹继欢,Цзоу Цзихуань
邹鲁,Цзоу Лу
邹鲁风,Чжоу Лу-фын
祖巴金,Зубакин
祖布里林,И.С.Зубрилин
祖普卡,Зупка
遵,Туен
左琴科,Зощенко
左舜生,Цзо Шунь-шен,Цзо Шуньшэн
佐古龙佑,Сако Реосукэ,Sako Ryusuke
佐捷拉娃,И.С.Зоделава
佐林,В.А.Зорин
佐洛图欣,А.А.Золотухин
佐洛图欣,В.Золотухин,
佐藤,Сато
佐藤好夫,Сайто Иосио,Sato Yoshio
佐约苏哈托,西迪克,Сидик Джойосукарто
佐泽,科奇,Кочи Дзодзе
佐佐木到一,Сасаки Тоити,Sasaki Toichi
佐佐真之助,Сасса Синносукэ