从此走进深度人生 Deep net, deep life.

作者: deepoo

  • 陆铭: 经济学研究“过度模型化”的误区及其纠正

    从古典到现代,经济学研究经历了全面应用数学和统计计量方法进行理论模型化的演进过程。在这一趋势下,中国经济学研究也日益深入地将这一方法系统融入理论建构与实证分析,推动学科走向更为严谨和科学的发展阶段。但在这一过程中,中国经济学研究出现了“过度模型化”的现象,过度依赖计量检验和追求复杂数理推导,而轻视思想创新和脱离中国实际,甚至把模型当成唯一科学的研究方法。针对这一现象,《中国社会科学报》专门刊发了《中国经济学研究不应“过度模型化”》的评论员文章。文章批评当前经济学研究陷入“过度模型化”误区:一是研究缺乏理论和问题意识,模型变量缺乏经济意义;二是方法论上“唯模型是从”,对无法量化的重大问题视而不见;三是用复杂模型包装苍白结论,在理论与实证上均无实质贡献;等等。这些倾向使经济学背离了认识与改造社会的根本使命。此文重点指出了中国经济学研究“过度模型化”的主要表现,本文则进一步从现代经济学与模型化的关系入手,讨论对模型的复杂性和精准性的单一追求会陷入怎样的误区。本文呼吁,中国经济学应发扬经世致用的优良传统,以恰当的模型化和方法的多元化,回应重大现实问题。

    一、经济学研究“过度模型化”的两个误区

    经济学的发展主要由两股力量驱动:一是不断演变的经济发展中出现的新问题;二是持续演进的经济学建模技术。建模技术进步既表现为数学模型不断引入新的模块与解法并逐步融入博弈、跨期、空间等维度,也体现在统计计量分析手段的进步,从多元回归到因果推断,再到近年兴起的大数据分析、机器学习、文本分析等方法。恰当的模型作为科学研究手段,可以在建模过程中明确结论所依赖的假设前提,界定每个模型组成部分的内涵与边界,从而排除含义不清的概念与表述,并为检验甚至证伪某些看似合理的直觉判断提供可能。模型还能将无限维度的现实转化为有限维度的可分析对象,剔除不重要、不相关的因素,捕捉最关键的核心机制,得出更明确的结论。

    在如何构建、评判与应用模型问题上,经济学界内部始终存在一个核心争论,即模型与真实世界之间究竟应保持何种关系。其中,工具主义的观点认为:理论模型最重要的(甚至唯一的)价值就是其预测的准确性,其假设本身无需真实描述现实。著名的“台球手”比喻指出,一个台球高手在击球时,仿佛他理解了复杂的物理公式并能高速计算,但驱动其行动的实际心理过程(“假设”)并不是那些公式。上述观点为大量使用简化且抽象假设的理论模型提供了方法论上的辩护。然而,也有学者尖锐地批评那种沉溺于精美数学结论的“黑板经济学”。他们认为,经济学应该研究“真实世界中的运行系统”,理论模型若不能植根于对制度、法律和历史背景的深刻理解,其解释力将是可疑的甚至是误导性的。

    类似的方法论之争并未否定模型在经济学中的价值,其焦点始终在于“如何更好地使用模型”。这场辩论促使理论家更谨慎地对待假设,也激励经验研究者更致力于识别制度与行为中的关键参数,塑造形式化理论与经验现实之间的良性互动。事实上,适度的简化现实使得模型可以操作,是“无伤大雅”的,然而,工具主义的观点有时却被不恰当地用于对脱离现实的理论模型的辩护。模型只是经济学研究中的一种分析工具,而非理解经济现实的唯一路径。当模型被赋予排他性的地位时,其作为工具的优势反而可能转化为认识上的局限。在实际研究中,模型使用的不当,往往以“过度模型化”的形式表现出来,导致两个误区。

    误区一:模型构建过程未能很好纳入现实情境,成为一种发生在模型构造与解释层面的“过度模型化”,表现为“为了让模型成立而忽略现实”。在这一情形下,研究者高度重视模型假设的自洽性、推导过程的严密性以及结论在模型内部的成立程度,却在无意中忽略了重要的现实维度或制度背景,从而得到误导性的结论。

    在中国经济研究中,一个现象既可能被研究者作为通用理论的证据,也可能由于中国特殊的制度背景,而与既有理论产生张力乃至悖离。例如,中国部分大城市的房价,如果用房价—收入比或房价—租金比来度量,的确很高,但教科书里或其他文献在为此现象建模时主要从需求侧入手,供给侧的限制因素则较少考虑。而中国的房价—收入比主要是由一些人口流入多的大城市拉高的,这些城市恰恰又在2003年之后受到相对收紧的建设用地指标供给的限制,因此高房价有供给侧短缺的因素。相比之下,在建设用地没有受到政策限制的中西部地区,房价—收入(工资)比则保持稳定。如果基于主要考虑需求侧的模型来研究中国房地产市场,显然距离现实较远,这就不是“无伤大雅”的,而是有可能使政策制定者误认为高房价仅源于需求方,进而通过管制需求来打压由供给不足导致的高房价。同样道理,在一个空间一般均衡模型里,2003年之后东部人口流入地控制建设用地供应导致高房价,进一步成了人口流入的障碍,并推高当地的工资。如果不考虑供给侧的因素,就会认为,2003年之后在沿海地区出现的工资上涨,是因为无摩擦的城乡二元经济中出现的“刘易斯拐点”和劳动力短缺。

    误区二:对方法复杂性和精确性的过度追求,是一种发生在研究评价与研究选题形成层面的“过度模型化”,表现为“为了让方法成立而牺牲问题”。在这一情形下,研究方法在形式上是否精致规范压倒了对研究的价值判断,往往对重大问题的研究形成束缚,使经济学对现实的关注存在内在的不完整性。

    在当前经济学研究中,理论模型趋于动态一般均衡,经验研究侧重因果推断。过度追求方法精确而忽视现实情境,使许多研究从模型出发推演因果,缺乏实地调研,结论偏离实际。当中国独特的制度背景与既有模型存在显著差异时,生搬硬套既有模型而忽略关键制度背景,不仅可能产生误导,而且一旦成为文献,后续基于中国实际的修正也会面临阻力。经济学研究如果长期与现实脱节,必然进一步导致经济学教学内容难以直接回应现实。

    二、以恰当的模型化服务于复杂的中国经济

    有观点认为,中国经济特别复杂,不适用于经济学模型。中国经济确实较为复杂,很多制度和相应的概念都非常独特,将现代经济学理论和模型应用于中国经济也确实面临诸多障碍,但这恰恰需要创新与突破。

    第一,既有经济学模型对大国治理的关注不足。中国是一个大型经济体,其大国治理模式在国际上非常独特:它既非欧盟那样的松散联盟,也非美国式的联邦制,而是有一套自古传承、在中华人民共和国成立后重构、改革开放后持续演进的大国治理体系。其核心是独特的中央—地方关系以及地方间关系。若直接将既有文献中的国家治理概念和模型套用于中国,的确缺乏针对性。

    第二,中国的制度背景具有强烈的转型特征。中国经济实现高质量发展应从解决结构性、体制性问题入手。然而,不少关于中国的理论研究未能充分考虑转型期的背景所带来的结构性问题,往往得出仅仅依靠新的政策来解决现实问题的结论,而忽视了转型期的问题需要通过改革来解决。例如,基于无摩擦的最优城市规模模型,数据显示中国最大城市的劳动生产率偏低,表明其人口规模已经偏离最优水平。而实际的情况可能是,这一问题不是因为大城市人口已经过多,而是因为大城市在规划发展中存在基础设施和公共服务的短缺,以及建设用地供给的限制。

    第三,中国作为大国参与经济全球化,对全球经贸格局产生了巨大影响。当前,中国正加快建设全国统一大市场,实施提振内需、调整投资与消费比重、降低对出口的依赖、加大服务业开放力度等重大战略。这些调整不仅对中国经济高质量发展与人民福祉提升意义重大,也有助于改善全球贸易失衡局面。如何将中国的大国市场规模、地方政府间的竞争和转型体制等因素纳入对国内国际双循环问题的一般均衡分析,是重大理论挑战。

    第四,从国内视角看,中国的大国特征意味着地区差异显著。中国地区差异巨大,但又天然处于统一货币区内。相对欠发达的地区,因劳动生产率较低且无法独立运用货币政策提升竞争力,从而面临发展制约。中国参与经济全球化进程,进一步放大了沿海与内陆的劳动生产率差距。解决地区发展失衡问题,根本上需要通过充分的劳动力流动缓解地区间劳动生产率差异。在统一货币区背景下,研究经济全球化进程对区域经济发展的影响,进而探讨其对国内地区间贸易与地方政府债务的影响,也是重大研究课题。

    对以上简要概括的中国经济发展中若干重要且复杂的问题,恰当的模型化还做得非常不够。正因为制度复杂、地区异质性强、政策多样,更需要通过构建恰当的模型来厘清机制、分离效应,避免直觉误导。应把是否遗漏了关键性的制度和变量,作为评判中国经济模型优劣的标准。面对当今科技进步、国家治理和地缘政治等因素对经济社会发展的重大影响,经济学若仅致力于模型技术的精进,将难以充分回应时代的重大关切。在此背景下,强化以文字和逻辑为核心的理论构建与思辨分析,对复杂现实进行及时透彻的理论解读,就变得至关重要。这正是政治经济学的当代使命之所在,它将为理解世界提供不可或缺的宏观叙事与批判性视角,从而与模型化研究形成互补,共同构成经济学的完整知识体系。

    三、因果推断与经验研究需要纠偏的倾向

    20世纪90年代以来,经济学的经验研究经历了一场“因果推断革命”。在纷繁复杂的相关关系中探寻重要变量之间的因果关系,可以避免将直觉或相关性直接等同于因果关系,避免陷入不可证伪的宏大叙事。

    在经济学研究中,理论模型与经验研究可相互配合,产生“1+1>2”的效果。理论模型可帮助经验研究明确可验证的关系,界定因果渠道与机制,同时确立外部有效性的边界。一些结构化理论模型可通过对现实进行参数化模拟,评估某一变量变化对整个系统中其他变量的影响。而在构建此类结构化模型时,因果识别的经验研究又可提供关键参数,这也是当前简约式因果分析与结构式估计日益结合的原因。

    21世纪以来,因果推断越来越多地被作为检验经验研究质量的标准,但实际上,因果推断并非经验研究的唯一方式,也未必更“高级”。即使经济学家已广泛运用一套因果识别的工具,包括随机实验、双重差分、工具变量法、断点回归等,但在实际应用中,仍需警惕以下几种倾向。

    第一,不能简单地将实证研究中因果关系的“干净”程度,作为判断研究价值的唯一标准。每种方法都有其特定的适用场景,例如自然实验依赖现实中存在的特定情境,而随机实验则面临成本高昂、伦理审查严格以及外部有效性有限等局限。某些重大研究议题,比如产业政策、土地制度改革等,可能既无干净的自然实验发生,也难以进行随机实验,但其学术与政策价值却不容忽视。与之形成对照的是,一些细碎的问题更容易用因果识别方法,但应谨慎对待这类研究的学术和政策价值,以避免非经济学界人士和年轻学者误认为经济学的发展方向就是细碎化的研究。最近二十多年,关于收入差距影响的研究少了,而将天气作为解释变量或者工具变量的研究多了,恐怕就是对“干净识别”的追求取代了对选题重要性的考量。

    第二,不能将因果识别方法的运用简单等同于揭示了因果关系本身。首先,在现实中,未被研究者充分理解的制度背景可能导致某些“自然实验”并不真正外生或随机。例如,大量的经验研究在用双重差分(difference-in-difference)方法估计某个政策试点的效应,但其实你所看到的政策效应并不一定来自政策试点本身,而有可能是政策被选择在有可能产生更好效果的地区。其次,因果关系背后可能存在多种作用机制,若缺乏理论分析和现实中的调研,仅靠经验识别工具难以真正理解从“因”到“果”的具体路径。很多文章对模型中的自变量和因变量之间的影响机理阐述得不够清楚,甚至中间机制全凭想象。例如,大量政策评估直接从政策变量到经济增长和全要素生产率,但并不知道这些政策的实施手段有哪些,也不知道从政策到增长是通过增加了投资,还是提高了效率实现的。有些文章由于对政策实施的路径不清楚,未能科学地评估政策产生效果的条件和代价。例如,一项政策的效果可能是来自地方政府的补贴,而补贴背后可能是债务,甚至短期投入的代价远高于长期收益。如果不把这些问题理清楚,那些被评估的政策似乎是无代价的,一个试点下去,好的结果就自动出现了。这样流于表面的研究,就只能得到“不断出政策”的建议。

    第三,要对因果识别所得结论的局限性保持清醒的认识。有很多政策评估涉及非常宏大的主题,而政策评估本身所得到的效应往往仅仅是短期、局部和单维的效应,政策建议需要考虑此类政策是不是有可能带来长期、全局和多维的代价。这本质上就是经济学里局部均衡和一般均衡的差别。例如,一些政策实施,如招商引资,是在地方政府之间的竞争之下展开的,而在税收和GDP最大化的目标之下,地方政府所推动的经济增长可能是短期、局部和单维的经济增长,并不能自动通过加总得到国家整体上长期、全局和多维的增长。

    第四,在特定研究选题中,多元回归分析与案例研究不应被忽视。多元回归分析能实现大样本下多因素影响效果的识别,保证研究的广度。案例研究则能揭示量化回归难以捕捉的传导机制、约束条件与微观行为逻辑,保证研究的深度与解释力。在复杂的现实世界中,恰当地选取解释变量组合,评估不同因素对结果变量的解释力度,本身就很重要,研究者需要在单因素精确和多因素综合之间有所权衡。此外,对于特定问题,因果关系未必是首要的研究目标。例如,在研究城市人口规模与拥堵、污染等“城市病”的关系时,任何从人口到“城市病”的所谓“因果关系”,实际上都依赖于特定的技术条件与管理手段,而且很难解决城市人口规模的内生性问题。因此,研究者首先应关注在给定技术和管理条件下,人口规模和“城市病”是否显著相关,这是讨论区域和城市经济发展政策的基石。进而需要探讨如何通过技术与管理来缓解“城市病”,而非简单将“城市病”归因于人口规模。相比多元回归分析,案例研究在经济学中的受重视程度更加不足。尽管常被批评为机制不清、外推性有限、难以量化等,但一项优秀的案例研究,包括深入的实地调查,可能在提出问题、探寻机制、解释现象方面作出贡献,弥补回归分析“重结果、轻过程”的不足。在一些重大问题中,若能结合理论分析与数据支撑,案例研究可更贴近科学规范,值得倡导。

    四、经济学模型要支撑中国经济学自主知识体系

    中国经济兼具经济发展的一般性与自身的特殊性、复杂性,前文列举的若干问题为当代中国经济研究与构建中国经济学自主知识体系带来了巨大挑战。中国经济学自主知识体系构建,应更好地融入国际学术对话,为未来国际经济秩序调整与人类命运共同体的构建提供重要的学理支撑。为实现上述目标,应根植于中国经验,通过恰当的模型化支撑中国经济学的自主知识体系构建。在把一些高度简化的经济学基准模型应用到中国时,要将可以刻画中国经济的重要制度和参数融入其中。现有以其他国家市场条件为主要分析对象的理论与模型,应有条件地吸收与转化,在技术层面保留可用的模块,同时在模型中植入中国特殊、复杂的背景。只有这样,才能和既有理论更好地融合与对话。

    需要指出的是,构建中国经济学自主知识体系,应在进行恰当的模型化之后回到中国真实的现实中去,用经验研究来检验理论。这时,要特别注意理论与中国实际是否能够对应。以下举例讨论从中国经验中总结出理论含义需要慎重对待的问题。

    第一,经济学家要虚心地回到历史或当代的真实背景中去求证。例如,有文献发现,中国改革开放后茶叶价格的上涨,提高了女孩的经济地位,婴儿的性别失衡问题得到改善。这一结论成立的重要假设前提是,在茶叶生产过程中女性具有优势,而这是需要经过历史事实检验的。有史料表明,在茶叶生产中女性有优势的是拣工,而其他的焙工、炒工和筛工等环节均是男工多于女工,甚至在炒工和筛工中男性占压倒性的多数。在所有茶工工种的加总数据里,男女比例是4∶3。

    第二,要避免把由中国特殊制度背景造成的现象当作无关命题的“中国证据”。例如,有文献发现,20世纪90年代中期住房制度改革之后,有很多来自国有企业的人去做小生意了,认为这是因为人们把房子拿到银行抵押贷款去做生意,从而是金融促进创业的证据。这里,首先有一个基本的事实需要考证,20世纪90年代中期有多少人会把房子拿去抵押并创业?当时中国的银行里有多少把自有住房拿去抵押贷款用于经营的业务?真实的情况可能是,当时大量国有企业职工下岗,通过做小生意再就业了。原文中小心地论证道,国有企业下岗是1996年之后开始的,而住房体制改革是1994年开始的。而真实的情况是,大规模的下岗早在1993年就出现了。

    第三,即使我们掌握了历史事实,也有用现代因果识别技术所做的当代数据分析解释,但这两者也并不一定有一一对应的关系。例如,有学者采用断点回归方法研究了明清时期北京城的“南北分界”对今天城市内部空间不平等的持久影响,结果发现,明清时期北京城“南北分界”导致今天南城房屋资产价值和家庭收入比北城家庭低20%左右。即使断点分析全部成立,恐怕也要追问,作者的发现是不是因为北京城南北分界线向北仅一公里处的长安街太宽,使得城北的优势资源未能平滑向南产生外溢效应。

    结语

    经济学的模型化不是目的,而是理解现实、解释经济发展机制的桥梁,是总结中国经济发展经验和构建中国经济学自主知识体系的工具之一。经济学研究应坚持问题导向,科学运用模型作为分析工具,警惕脱离现实、追逐技术复杂度的倾向,实现思想深度与方法严谨的有机统一。

    经济学研究者应更多关注对人类发展与中国经济发展具有重大意义的课题,推动更丰富、更贴近现实、更有理论和实践价值的研究。就当下经济学整体而言,如何将人工智能等技术进步与大国博弈等地缘政治因素纳入研究,的确是重大挑战。对中国经济来说,当前正面临促进经济持续稳定高质量发展、推进国家治理现代化等多重任务,有大量重要的政策有待理论构建、量化评估与机制设计。

    经济学研究应在价值判断和科学方法上并重。应将更多资源投入对人类发展与中国经济具有重大意义的课题上。鉴于重大问题的复杂性、创新性和紧迫性,可对其模型的精巧程度与因果识别的精确度有更多包容,鼓励高质量的调查研究和深入的案例研究。如果经济学研究一边越来越精巧,一边越来越与重大现实问题“无关”,将很难为中国经济学自主知识体系的构建提供支撑。

    《中国社会科学》2026年第2期

  • 黄道炫:抗战时期国民政府的“抓壮丁”

    国人接触“抓壮丁”,多和影视作品有关,出自抗战时期的话剧《抓壮丁》,后来被改编成同名电影,在人们心目中留下了深刻印象,一说到“抓壮丁”,几乎会立即联想到战火中的那个时代及那些场景。虽然剧中的景象并不一定就完全是当时的历史真实,抓壮丁也并非抗战时期所特有,但是,作为一个浓缩的社会现象,“抓壮丁”确实印证着一段难以磨灭的历史记忆,体现着抗战时期国民政府兵役的混乱和失败。近年来,关于战时兵役的研究已很充分,本文拟利用当年关于兵役状况的相关记载和数据,更多地从社会基础和社会组织角度,讨论当年这场众口一词的失败。

    一、征兵中的强迫

    抗战时期,“抓壮丁”是个颇为引人关注的话题。尽管相对于一千多万的壮丁征集,并不是所有人都是被强行抓捕的,但是抓壮丁中体现的不公、关乎人命的残忍,以及给征兵和军事带来的重大影响,极易激起社会反响,为各方所注目。当年第一手的历史资料,留下不少抓壮丁的相关记载。作家叶圣陶1945年4月9日记中,记录了他目睹的事实,当时他家住在成都陕西街:
    晚饭后,忽人声鼎沸,传言隔壁茶馆中寄居之壮丁脱逃。既而屋瓦上有脚步声,一壮丁破屋面而下,求予宽容。旋趋入厨房,又越墙他去……上星期祠堂街有壮丁逃入少城公园荷池中,追者拘及之,以大刀痛击其身,旁观者不平,则群击操刀者,警察来弹压,亦被痛殴。昨夕祠堂街复有逃者,看守之兵放松,死数壮丁及二路人。今夕我街居然未放松,犹为幸事。役政之坏,至今而极。

    此事并没有就此了结。次日叶圣陶日记中又记:
    昨夕跳屋而下之壮丁实未越墙他去,竟夕蜷缩于两屋夹墙之间。今夕厨下有人声,渠始出。询之,知其人姓黄,十七岁,居西门外,为粗纸业,出外收账,途中被拉,身上衣服及囊中一万余元均为军官没收。

    叶圣陶这段记载,触及抓壮丁、壮丁逃跑、役政人员的残暴等一系列事实,堪称当年抓壮丁的写实版。如果说叶的观察只是个体所见,那么还可看看更具全局性的描绘,由于这些记载出自国民政府内部,这样的批评声音更让人无法忽视。1940年3月21日,国民政府军政部部长何应钦在兵役保安会议中谈道:“在保甲方面常常发生拉买顶替的事情,而管区补训处方面据说有时也有一二卖放强拉的弊病……有的缺额既不补足,又不呈报,一奉到拨补命令的时候,就开始拉买,许久不能出发,出发后沿途逃亡。沿途估拉年老的幼小的残废的随便凑数,只求拨出了事,并且没收被拉人民身上的财物。倘有反对则拳脚相加,视同牛马,所以往往逼出人命事件。”抗战时期担任第四战区司令长官的张发奎回忆:“原本就不健全的征兵制度,后来都愈弄愈坏了。应征的壮丁,有如囚徒,得用绳线索捆,押赴前方。政府规定的士兵待遇,本已少得可怜,但还要经过办理兵役人员层层剥削,所征来的新兵,根本没有当作人看待。”何应钦、张发奎的身份决定他们不可能在这一问题上信口开河,显示叶圣陶看到的并不是个案,而是全国广泛存在的事实。

    从何应钦所言可以看出,抓壮丁者主要是军队、兵役管区以及地方的役政人员。根据国民政府颁布的兵役条例,战时兵员补充一般循各地国民兵团(国民兵义勇壮丁总队)—后方补充团—野战补充团—野战军的流程运作。但是,由于征兵制度仓促上马,配套措施不全,加之战时部队移动频繁,兵员征收困难,政府管理能力不足,各种制度常常形同虚设。全面抗战刚刚开始时,各地征募并行,役政混乱,军队为补充兵员常常强拉壮丁。为此,蒋介石特电各战区总司令,要求:“严禁所部在战区内招兵拉夫,一经查明,必以其直接上官违令是问。”尽管如此,随着战争的深入,兵员征补困难,军队强拉壮丁仍无法杜绝。1942年初,第三十四集团军在陕募集兵员,“募集成绩不佳,而任意报收中签壮丁,滋扰闾阎情事,亦层见叠出”。军队驻扎或经过之地常常成为壮丁的梦魇:“无辜良民,逼穿军装者,普遍的发生于军队住在地的周围,以致弄得农民不能安居耕植。”更有甚者,军队监督、执法机构也公然拉夫。樊崧甫日记中写道:“军法总监部执法大队昨晚在岳城拉夫,执法犯法,不堪设想。”

    军队公然抓丁影响恶劣,但拉夫乱象更多来自地方役政。抗战时期,征兵是压在地方头上的重担,“县长之考成,其分属粮役两政,各占百分之三十五”。征兵和征粮一样,是维持战争不可或缺的环节,中央政府予取予求,地方则不能不亦步亦趋。基层征兵程序一般是:“省里一纸公文到县里,征调壮丁,县里又一纸公文到区公所,区公所又来一个‘等因’、‘奉此’给各保,各保保长在每甲里用抽签法来决定被征壮丁。”征兵指标从中央、省、县、乡镇到基层保甲层层下达,县乡役政人员及基层保甲对上要完成繁重的征兵任务,对下要尽力避免保甲居民的不满,应付不易:“假如你去问乡镇工作人员,或去问问保长,哪件工作最棘手,而又是老百姓最怕的,他们一定回答是:‘抽壮丁’。”

    面对沉重的征兵压力,为完成任务,强拉外地和流浪人员成为基层役政敷衍塞责的重要手段,所谓“一遇征集壮丁,便估拉游民、乞丐或愚农,聊以塞责者,真是正复不少”。四川不少地方以“统一征募兵员暂行规程上规定散兵游勇、戒瘾烟民、无业壮丁得不必抽签,径行征送,因此大家误解,以为这类人是征送的惟一对象,到处去捕寻强拉,抽签的办法,乐于不用”。强拉发展下去,漫无标准,任何人都可能成为牺牲品。江西宁冈与湖南酃县和合乡相邻,因江西当时没有颁发身份证,宁冈“居民往酃县沔渡一带经商者,往往被和合乡公所扣留,以无身份证为借口,解送克服兵役,顶替该乡壮丁,以图渔利”,以致江西方面不得不特加规定:“凡本县人民往邻县雇工贸易,或谋其他正常事业者,应报由辖管乡工所发给证件,以资证明。”

    暴力强拉,造成了普遍的不安全感。有人回忆:
    我一同学李隆平,四川水利学校毕业后,供职于省建设厅,一日为机关下乡采购木材,被抓壮丁的抓去顶数,不容分说,搜走证件、现金,剃光头,换兵装,不准对外联系,押送到接兵部队,历时三月。因该同学会唱京剧,拉胡琴,被部队爱唱戏的一位连长发觉,询其来由,经过查对,才通知建设厅将其接回。

    这样的回忆绝不是夸大其词,抗战时任浙江省主席的黄绍竑在关于兵役的报告中就提到:“不久以前,抗卫总部有一职员投考军X分校,因体格不合未录取,归途竟为某接收新兵部队拉往充数。等到原机关得悉,去函证明,据说已被征在衡阳去了。”强拉对征兵造成的伤害,正如1937年10月蒋介石致何应钦电中所指出的:“近来各处征兵,百弊丛生,而以地方保甲长等借故索诈良民与捆绑其被征者,形同囚犯。此种弊端,若不从速防止与积极改正,则扰民害国,影响战事伊于胡底。”

    赤裸裸的暴力强拉,严重损害兵役形象。征兵本为义务性质,但充斥征发过程的威胁、强迫、不公,伤害着民众、社会、国家权力乃至征兵本身。强迫征兵相对情节较轻的算是集中抽签、听天由命:“每一村要抽十名壮丁,就把全村的壮丁都聚集在一座庙里,对着菩萨焚香膜拜,然后再当众抽签。抽着的,就无法推诿,说是自己的命里注定了要当兵吃粮的。”更恶劣的则是利用权力,徇私舞弊,陕西“某县办理兵役的人员,因见利忘义,竟敢强拉甲姓独子,以三百元的代价,迫令顶替乙姓当壮丁”。这样的例子并不罕见,当时刊物曾登出一个惨剧,一家三兄弟,大儿子已到壮丁年龄,靠挑柴维持全家生活,其余两个未成年。按“三丁抽一”的规定,由于另两个未到壮丁年龄,本非抽丁范围,但乡长找上门,“要强征大的一个壮丁,可是,这样一来,把维持全家生活的人征了去,全家不就要饿死?后被逼得无已,只有下残酷的手段,说‘与其多一个,不如少一个还可以保全其余人的活命’,就把三岁的小弟弟活生生的捏死”。

    征兵中各种各样的强迫行为,当年可谓司空见惯。冯玉祥抱怨道:“壮丁之征调,没一点准则……乱拉、乱抓、乱卖。”冯的抱怨和他对政府的批评态度并不必然相关,即连蒋介石本人也曾公开对下属谈道:“我在重庆附近,就常常看到一队一队的新兵,用绳索串绑起来,后面由一个枪兵押送;这件事我既然看到,我想你们也一定常常看到。这种情形是说明什么?就是说明我们兵役人员犯罪!我们把一般无罪的壮丁捆绑起来,用枪兵押送,这完全是违犯法律,侵犯人权的事!”抗战时期,蒋一再指示要遏制强制现象,要求征兵中宣传和监察并举:“一面多方宣传(用当地士绅最好),一面派员严密监察。”规定:“非法征来之新兵,准其入伍以后,向各队官长举发其被非法强征之实情与理由。申诉一经查实,应由该队官长呈报于训练处长,一面呈报军政部,一面转报该省市政府,嘱其切实查明。”他一厢情愿地以为:“如此下级征兵人员不敢再有违法之举。”乍一看蒋设计了一个军队监督地方的路径,然而,他显然低估了一个缺乏公开监督体系的社会里,权力和利益关系扭曲政策的能力。壮丁向部队官长告发理论上固不失为一条监督路径,但是,由于征兵太过困难,军队更可能的是对这种告发置之不理,以便保住自己的兵员。而且,部队、征兵单位、地方在征兵时就形成一个利益链条,地方需要军队配合,军队更需要地方的支持,所以,一般情况下,军队不会为新兵利益开罪地方。当民众不能发声,又缺乏独立第三方有效监督时,单纯依靠利益攸关方所做的制度设计,往往徒有其表。

    既然壮丁大部分为被迫应征,输送入伍过程中又待遇恶劣,政府的解决措施多停留在纸面,虐待新兵事实上仍难避免。抗战时期,从壮丁抽签应征到进入国民兵团再送入补充团直至送入部队,普遍都是武装押送,新兵等如囚徒。即便合法征来的壮丁,如此情境,也和被抓相差无几。苛虐的对待,自然会激起反抗的暗流:“1944年冬,近三百壮丁,由少数官兵押送,行至闹市岔口处,壮丁突然起哄,挣断绳索,阵容大乱,四处奔跑,因闹市人多,无法阻拦,押送者不敢开枪,这三百多壮丁跑个精光。押兵的官兵脱不了爪爪,只得顺势放下武器,脱下军装,也各自跑了。”逃跑,是民众对抓壮丁的消极抵抗。

    二、逃亡

    整个征兵过程,之所以对壮丁如临大敌,武装看守、押送,关键是防范其逃跑,时人所谓:“送壮丁入营,禁止捆绑,且要鸣炮欢送,为使改变他们的心理,但平时防范森严,他们还要觑隙逃跑,现在若不派枪押送,谁也不敢来保险。而事实上,在途中逃跑的壮丁,依然是屡见不鲜。”

    壮丁逃跑,原因多种多样,恐惧当然是一个基础性的原因。客观而言,恐惧死亡是普遍的人性,面对战场的巨大牺牲,产生逃避心理为人情之常,下面一段话可谓持平之论:
    对壮丁讲说,当兵打仗,是怎样怎样的光荣,这些好听的话,并不能胜过他怕死的情绪。我们认为要改善兵役,对于这些形式,固须讲求,其主要之点,还在要应征的壮丁,不会有一些怨恨的地方,同时对他自己家属的生活,用不着一点挂虑。任何人多半是为着自身打算的。

    民族危机面前,虽有自愿投入前方的勇士,但更多的还是被动应征。何况,当年中国民众文化素质参差,对抗战的意义,许多百姓不甚了了。内迁的青年学生向四川民众宣传服兵役时就遭遇这样的责问:“你们被日本鬼打,跑到我们这里来,现在来拉我们代你们打仗,给你们好回家吧。”

    不过,即便承认壮丁逃亡有客观因素,抗战时期的壮丁逃亡仍然显得太过突出。1942年第九战区所属部队,江西奉新一县逃亡官兵就达45人。同年各部队报告的陕籍逃兵有2812名。这只是正规军队上报的数据,隐瞒、漏报的肯定远远超过此数。而且壮丁输送过程中的逃亡还不在统计之列,事实上,这一数据又要远大于前者。征兵过程中的逃亡几乎成为风气,如时人所论:“由于逃避或逃亡风气之养成,于是你也逃避,我也逃亡,似乎凡不避逃亡,就是傻子。”甚至壮丁“集体的将直接带兵的干部买通之后,连带兵的人也逃跑了”。由于逃亡成习,保甲乃至县级机关对逃亡都习以为常,更甚者将此作为完成征兵任务的办法:“各地保甲长十九多不健全,买顶之风日甚一日。甚至保长家中常有准备兵贩子,家中数人等候顶替,一逢征召,被征壮丁,即以数百元至千元不等,买顶应征。比至部队即行脱逃,周而复始,及至六七次以上者。”因此,既有“明知所送之兵逃回原籍,而不加究办之县长”,也有“壮丁遇到中签即跑入游击队,等一个相当时期后,仍可跑回家去,而游击队的官长也公然发给证明书”。

    逃亡和怕死有关,但大规模的集中逃亡,不能完全用“怕死”概括。壮丁应征后,可以通过纪律、教育、团体意识灌输及地方户籍管理等多种方式训练、约束,正因此,虽然个体都会恐惧死亡,却可以通过练兵缔造精良部队。抗战时期大量逃兵的出现,不能不追溯到征兵中的诸多问题。这些问题纷繁复杂,概括而言,主要有二:一为不公,二为困苦。

    国民政府的征兵制,由军政部确定征兵数额,下发地方保甲统一征集。由于中国当年社会管理松散,户籍制度不健全,加之地方各层级负责人员缺乏有效监督、权力滥用,兵役办理很容易流于不公。国民党历次全会对军事报告的决议多属粉饰太平之作,但其也不能不承认在役政问题上的成绩“远逊所期”:“兵役弊端,多发生于县以下之兵役机构及接兵机关,今后对于各基层以迄乡、镇、保甲之组织,如何使之健全,户口之调查,户籍之举办,如何使之确切可信,斯皆为推行役政之必要阶段。”报告提到的基层组织涣散,确为抗战时期征兵问题的基本诱因。时人指出:“过去保甲户口不清楚,什么人应该当兵,什么人应该缓役,什么人是独子,关于这些问题,没有一个乡镇干事,或是哪个保长,能够彻底明了的。也无论是乡镇公所或是保办公处,(没有一个)能够找出一本登记完全,而调查无讹的册子。”在城镇地区,由于战争影响,情况更为复杂。成都的报告中称:
    本省征兵办法,前以保甲方在整理,壮丁数目难明,权以每甲一名为征调标准。惟施行以来,此利彼病,时起争执。军官区司令部为彻底推行兵役,使在配赋上期其平允,而免纠纷起见……派员分赴各区秘密考查。正积极推行间,忽奉列峰严令强迫疏散,壮丁大量向城郊及外县迁移,但不时又入城居住,其住所既不一定,其籍贯当难确定,整个城区,几全成此种状态,致使壮丁调查,无从着手,延未完成。

    为改变数据不清、组织松散的状况,国民政府也力图有所动作。1942年,内政部推广户籍新政。次年,全国展开户籍调查。但这些措施即便承平时期也非三年五载所能为功,何况战争年间。一直到1945年陕西仍报告:“本省户口管制素欠严密,基层役政人员,对于壮丁调查抽签,亦欠详实。”征兵必具的基本材料不清,所谓的平等、平均、平允“三平原则”只能徒托空言。

    征兵在基层的主要执行者是乡镇和保甲人员,国民政府兵役署署长程泽润曾希望:“统筹训练保甲人员,分期大量将各地方明达士绅暨失学失业青年召集训练,改造其精神增进其精神,增进其学力,造成为农村新的力量,使保甲发生一种新酵素的作用……征兵问题,在不期然当中,自会顺利解决。”然而,为应对中共武装反抗而仓促重建的地方保甲,体制并不健全。国民党原则上需要推进的地方自治又相当程度上促成中央和基层脱节,县以下尚多依赖社会自发运作,权力贯彻多有困难:“县中用人,求才不易,家贫者以生活艰难,待遇低薄,不愿服务。明哲之士,多不肯为公务员。以前派饬整理乡镇公产人员,时因被控,为法院传押。乡镇保甲长,亦往往被各机关任意拘禁,法令毫无保障。”政府对保甲充任资格虽有明确规定,但实际执行中各地多自行其是,保甲长来源可谓五花八门。当时基层保甲不纯的状况,多有材料谈及:“非家资富有者,不敢充当,然人情不图利图名,而保甲地位,为世不齿,又何所图,于是公正的人,咸视充当保甲人员为畏途,则其他充任得任,纵有不恰,亦只有听之。”“善者避之而不为,为之而增怨;恶者钻营奔竞而强为,为之而积恶。”战争频仍,保甲长担负的征派任务沉重,一般人均视保甲长为畏途:“乡镇保长作事甚多,但公费过少,此乃是一种病态。如军队过境之招待费,县督学指导员旅费规定一百元,一月须在乡工作二十日,以上食宿用费,非由乡镇保供给,必不足用。类此诸事,乡镇保如不摊派,款何由出。”

    保甲组织不善,自然影响到征兵的公正:“目前征兵,最大的困难问题,便为保甲人员已经离开了民众,失掉了民众的信仰。我们千万不可认为保甲人员尚有多大控制社会的能力,以为我们所需的军队,可以不断的向保甲长索取,而保甲长便能源源地供给无穷。须知乡下的人,对于保甲长,已取仇视的态度,普遍的情形,便为逃避兵役,其次则合力拒征,甚至铤而走险,啸聚山林。”富有者都想逃避兵役,因此花钱“运动”保甲长成为常态:“一般有钱的子弟,只要不被抽去,宁愿花上整千整万块钱,有少数的乡镇长,只要在簿册上勾去一个名字,那是举手投足之劳,即有大批钞票到手,因之常为利欲引诱而做出枉法的事来。”被强迫征去的壮丁内心存着不满,自然成为逃跑的主力军:“因为大家存有怕死的心理,倘若办理兵役的人,做得再不公平,那很容易引起老百姓的愤怒,胆小的就逃跑掉,大胆的就逞凶闹事。”

    值得注意的是,富人花钱逃避兵役,心中也存不满,此即时人分析的:
    有钱有势的人们,向来自居于领袖地位者,尤不肯一旦脱去长衫,加入行伍。在过去,办理兵役未上轨道的时期,虽然估拉价买,秩序紊乱,但是估拉价买的对象,大半只及于平民,于社会未见动摇。现在抽签办法,人人有分,所以过去自觉与征兵无关的人,也都惶惶不安起来,因而在社会内层里,潜伏了一种反抗的意识和力量。

    由于有钱有势者占据社会声音的制高点,他们的倾向往往可以引导舆论,放大社会的普遍不满。

    抗战旷日持久,征集兵员任务繁重,又缺乏有效的监督机制,腐败不仅在保甲里大量滋生,征兵机关也习染成风。奉命检查兵役人员谈道:“应征壮丁办理兵役人员,每多舞弊及虐待,如搜洗财物,滥施体罚,克扣食米,种种不一而足。本人在南城时,曾目击某接兵部队队长,以竹扁击毙壮丁。”在一个社会力量极不发达、缺乏有效监督的环境中,资源越紧缺、授权越多,往往意味着腐败越严重,抗战时的征兵即是如此。得到充分授权的征兵人员常常一手遮天,不可避免地一步步滑向全面腐败。亲身参与征兵者谈道:“我初搞兵役工作时,觉得当兵总是一件可悲的事,谁无父母,谁无子弟,在我手里不应该征错人家的子弟,所以对征来的兵总是一个一个地询问有无隐情。也替一些壮丁申过冤,退回过一些征错了的人。后来发展到只要完成任务就行,管他有没有冤情。”在此状况下,能够不过分骚扰、刁难地方,已算相当不错。有人回忆:
    1942年底,我在四川南充接收独立运输第三十五团壮丁,共计2160名。冒名顶替、买卖交换之风席卷而来,我也顺风由军需出面,照例以五至十元调换一名壮丁,见款换人,随到随换。就这样从接收壮丁到开拔的那天止,仅5个月的时间,就交换了800名之多,净得银圆700多块。临行时,地方上还设宴为我送行,赠送锦旗。

    征兵各个环节的腐败,导致严重不公。国民政府军政部组织的抗敌宣传队与士兵接触时就遇到这样的事例:“晚上在第三连教歌,一个士兵问:‘建国纲领上说优待抗战军人家属,为什么我家里六十多岁老娘和妻子没人养?救国是应该的,可家里怎么办?为什么家中有三丁四丁的不抽,我是叔伯合一个的,倒被抽来了?上面发下来钱,联保主任可没发给我们,请队长替我们想办法。’他们竟哭了,几十个人都哭了,说是冤枉抽来的。”壮丁的冤屈无处申诉,对抗的结果便是一有机会就趁机逃亡,即所谓“用脚投票”。

    困苦的生活是壮丁逃跑的另一重要诱因。全面抗战爆发后,国家困穷、供应紧张、管理混乱,应征壮丁和士兵生活愈加艰难。时人谈道:
    抗战三年迄今,政府人民在经济上咸感窘困,数百万大军之粮饷,已属不赀,惟物价飞腾不已,人民生活固已陷于困境,然犹可努力支持,而士兵之每月饷项实不敷维持饱暖。况医药缺乏,病多束手,每使士兵叫苦,不堪忍受。再加以上官粗暴,动辄笞骂,即兵不思逃,环境上已不能立足忍耐。

    当时的带兵官不约而同表达了对士兵生活的关注。张发奎回忆:“士兵的生活,苦不堪言,除了每日可得到二十五两的食米外(有时还要短缺),副食费甚少,营养不足,病患没有药品(当时每人每月的医药仅有二元,但一颗奎宁九的价格就需要近百元),革鞋费每人六元,买不到一束稻草,服装鞋袜缺乏。”李宗仁也谈道:“粮饷待遇既微,致士兵恒苦营养不良,骨瘦如柴。医生、药品均极缺乏,受伤患病官兵境遇之惨,有不忍言者。”陈诚视察部队后的深刻印象是:“各级谈话均以士兵体格为虑,因新兵入营,非有一月以上之医治不能服务,且因营养不够,无论如何无法恢复健康。”

    士兵本身生活困难,家属生活也无法保证。按规定,出征壮丁家属应享受优待。1939年,军事委员会制定《出征军人家属优待办法草案》,规定各县市应组织军人家属优待委员会,县市长为主任委员,军人家属可减免临时捐款、“免服劳役”等。但各地优待条例多形同虚设。江西报告:“每一出征壮丁,除其家属得享受一切法令之优待外,在本省单行法,复规定每一出征壮丁得享受一次安家费十元,年谷六担……惟据报尚有多数县份因出征壮丁日增,筹款逐渐困难,对安家费及年谷未能切实发给者。”贵州也反映:“征调壮丁入伍,对其家属,徒呼优待,究罕实惠,致出征壮丁,对其家中仰事俯蓄,时劳忧念,此乃实际人情。故现在壮丁未应征以前,多有逃役,既入营之后,多有逃兵。”陕西更有这样的事例:“曾经提去的壮丁家中颁发了一面写着‘出征抗战军人家属住宅’字样的木牌,但自此牌发下之后,再没有看见任何举动。所以一面木牌也只是一面木牌而已!而木牌本身也并不是单纯的颁下就算完事,领牌者必得在领牌之先预交七元五毛什么费,不交钱是不能领的。”壮丁家属生活缺乏保障,导致一旦壮丁出征,一家数口就无法维持,逃跑回家照顾家人,是他们自求解决的唯一办法。

    三、竭泽而渔的兵源

    抓壮丁和壮丁逃跑体现的是兵役制度的问题,而这一问题的产生又和近代中国社会背景及国民政府的行政、动员能力密切相关,一个老弱的国家被强大的对手逼迫着捆绑进现代战争的战车,不堪重负可想而知。

    征兵制是国民政府效仿欧洲国家对传统兵役制度所做的一项重大改革,早在1924年国民党一大即有提出。1927年立法院提出《兵役法原则》,要求“将现实募兵制度渐改为征兵制度”。1933年6月,国民政府颁布第一部《兵役法》,通令自1936年3月1日起施行。该法规定常备兵役先采取募兵制,待地方自治完成后再改为征兵制。鉴于中国地大人众、管理落后的现实,蒋介石在该法实施时即提示:“实施兵役法这件事,工作的范围很广,牵涉的方面太多,所以办理起来,几乎要运用全部政治组织,社会团体以及教育交通各种机关,和自治保安诸组织。从纵横两方面,随时取得密切的联系,以便得到各方的协助,免致顾此失彼或阻碍横生。”1936年6月,面对日渐逼近的中日间剧战,为加紧推行新兵役法,国民政府大力提升兵役管理机构规格,将原属军政部军务司的兵役科扩大为军政部兵役司,后又提升为兵役署和兵政部,直接隶属行政院,兼受军事委员会指挥监督。

    兵役法规定地方自治完成后实行征兵制,主要是顾虑中国基层组织涣散,户籍制度不健全,立即实施征兵制操作难度极大。但是,中日战争全面爆发后,兵员需求巨大,对兵员素质也提出更高要求,征兵制不得不提前付诸实施。1937年8月30日,国民政府颁发征兵令。1939年6月颁布施行《修正兵役法施行暂行条例》,规定常备兵役分必任义务制与志愿制两种,实际执行中,义务兵已成主流。1942年12月公布施行《战时征兵兵员实施办法》,对征兵调查办法、抽签办法、检查办法、征集办法、兵员补充办法、新兵交接办法、征兵宣传办法、优待军人家属办法等做出详细全面的规定。1943年3月公布的《新兵役法》改征募并行制为完全的征兵制。虽然此后局部仍有募集情况,但征兵已经成为占绝对多数的兵员补充渠道。

    强行上马的征兵,如果在平时,问题也许不会那样突出,严酷的是,征兵制恰恰面对着大规模现代战争的需要,而战争又凸显中国动员能力的薄弱。所以,征兵制一付诸实施就困难丛生,以致蒋介石在全面抗战初期一度考虑暂缓实行:“各地征兵,极不安定。应研究办法,可否暂时改为募兵制,而将征兵暂缓实施或奏效较大也。”“如果有征兵为难,一时不能实行之区,准予暂停征兵而改为募兵可也。总之,此时征兵首在唤起民众抗倭精神,故无论党政与征兵机关,皆须注重宣传与劝导,不得以强制出之。”但是,面对抗战中的巨大牺牲,募兵无论在数量还是质量上都更无法保证,反而造成兵役混乱,所以,征兵虽然不免霸王硬上弓,究其实也是不得已而为之。

    作为武器装备均不如人的弱势一方,中国不得不投入大规模人力,尤其在全面抗战初期,为达到“以空间换时间”的目标,付出了巨大兵员牺牲。仅1937年7月到12月不足半年时间里,兵员损失即达447114人。巨大的消耗,使中国方面不得不依靠过度的人力动员维持战争。整个全面抗战期间,全国征募兵员达到14049024人,其中四川、河南、湖南三省高居前三,分别达2578820人、1898356人、1570163人。兵员征收和适龄壮丁间的比例常常维持在个位数。表1显示了整个全面抗战时期征兵的实际状况。

    从表1可以看出,1937—1944年,全国每年征收兵员都在百万以上,1939年高达197万多人。当时,由于大片土地被占领,中国控制区域人口据估计也就在两亿左右。虽然从数据上看,这样的人口和兵员征收比尚不算十分畸形,但由于贫穷和医疗条件的低劣,人口素质不容乐观,加上户籍管理几乎付之阙如,使可征兵员数量大打折扣。陕西平利县的状况是:“民众多患瘰瘤、眼病,发育多不健全,影响兵役。每次送出壮丁一百人中,验收者仅二三十人。”像贵州这样的边远省份,除壮丁素质普遍低下外,还有另外的困难:“黔省有苗族约占全人口三分之一,苗胞多居山中,言语风俗习惯,与汉人悬殊,政令文化,不易远及。故屡次征兵,苗胞不明法令,多向深山逃避,操之过激,即酿成苗变,办理极感困难。”另外,国民政府规定高中及同等以上学校毕业者、委任官、独子等不纳入征兵范围,实际执行中,除后期的青年军外,公务员、学生、身有残疾者均不征召,这又是一个不小的数字。1941年3月,陕西适龄壮丁免役、缓役者包括:公务员及教师135033人、在校学生89310人、残疾113743人,总计338086人,占全部1584372名壮丁的21.34%。

    由于多种原因造成的供求失衡,各地征兵都有竭泽而渔的征象。陕西1937年10月开始征兵至年底征50108人,1938年征112372人,1939年征182023人,1940年征183276人,1941年至11月底配额122113人,共征649892人。“以全省壮丁一百三十余万计,已征二分之一弱。”贵州由于贫瘠等原因,兵额征发量相对较少,但压力也不轻,1939年统计,“全省人口为一千零二十五万四千三百六十二人,壮丁为一百六十万六千三百十八人,其中有苗胞约占三分之一”。而1938年3月至1940年4月贵州全省兵役配额为135900人,实征118727人。

    从各地征兵状况看,全面抗战初期,兵源相对充足,尽管也有强拉壮丁,但征兵完成情况相对较好,表1所列全国数据显示,1937年、1938年两年,全国都完成了征兵定额,此后就再未达到这一目标。广东的数据也和全国状况一样(见表2):

    广东1937年超额完成指标,1938年完成96.45%,接近任务要求,这两年也是整个全面抗战期间的最高比例,此后除1943年外有5年时间仅完成任务约60%—80%。广东的状况如果和表1全国的数据比,可以看出趋势相当一致。连年的消耗,使部队补充日益困难。据1945年1月统计,全国兵员编制为324万多人,实有255万多人,缺额为69万多人,还不包括虚报偷吃空额的成分。可见,抗战后期国民政府部队已相当空虚。

    当年的中日战争,日本的侵略事实上把中国大地变成了绞肉机,被迫抵抗侵略的中国人民付出了巨大的牺牲。而前现代的组织、社会及执政党控制社会的意图和能力之间的差距,都使中国很难有效实现社会动员,“抓壮丁”体现的,只是老旧中国难以承受近代战争机器运转的一例。壮丁的惨剧,政府固然是作恶者,但某种程度上,政府和人民实际又都是日本强行把中国拖入战争后引发的战争、政治、社会混乱的牺牲品,这一点,是谈论“抓壮丁”时不应忽视的。

  • 王国维:上古至五代之戏剧

    歌舞之兴,其始于古之巫乎?巫之兴也,盖在上古之世。《楚语》:“古者民神不杂,民之精爽不携贰者,而又能齐肃衷正。(中略)如此,则明神降之。在男曰觋,在女曰巫。(中略)及少皞之衰,九黎乱德,民神杂糅,不可方物。夫人作享,家为巫史。”然则巫觋之兴,在少皞之前,盖此事与文化俱古矣。巫之事神,必用歌舞。《说文解字》(五):“巫,祝也。女能事无形以舞降神者也。象人两褎舞形,与工同意。”故《商书》言:“恒舞于宫,酣歌于室,时谓巫风。”《汉书·地理志》言:“陈太姬妇人尊贵,好祭祀,用史巫,故其俗巫鬼。”《陈诗》曰:“坎其击鼓,宛邱之下,无冬无夏,治其鹭羽。”又曰:“东门之枌,宛邱之栩,子仲之子,婆娑其下。”此其风也。郑氏《诗谱》亦云。是古代之巫,实以歌舞为职,以乐神人者也。商人好鬼,故伊尹独有巫风之戒。及周公制礼,礼秩百神,而定其祀典。官有常职,礼有常数,乐有常节,古之巫风稍杀。然其馀习,犹有存者:方相氏之驱疫也,大蜡之索万物也,皆是物也。故子贡观于蜡,而曰一国之人皆若狂,孔子告以张而不弛,文武不能。后人以八蜡为三代之戏礼(《东坡志林》)。非过言也。

    周礼既废,巫风大兴;楚越之间,其风尤盛。王逸《楚辞章句》谓:“楚国南部之邑,沅湘之间,其俗信鬼而好祠,其祠必作歌乐鼓舞,以乐诸神。屈原见俗人祭祀之礼,歌舞之乐,其词鄙俚,因为作《九歌》之曲。”古之所谓巫,楚人谓之曰灵。《东皇太一》曰:“灵偃蹇兮姣服,芳菲菲兮满堂。”《云中君》曰:“灵连踡兮既留,烂昭昭兮未央。”此二者,王逸皆训为巫,而他灵字则训为神。案《说文》(一):“灵,巫也。”古虽言巫而不言灵,观于屈巫之字子灵,则楚人谓巫为灵,不自战国始矣。

    古之祭也必有尸。宗庙之尸,以子弟为之。至天地百神之祀,用尸与否,虽不可考,然《晋语》载“晋祀夏郊,以董伯为尸”,则非宗庙之祀,固亦用之。《楚辞》之灵,殆以巫而兼尸之用者也。其词谓巫曰灵,谓神亦曰灵,盖群巫之中,必有象神之衣服形貌动作者,而视为神之所冯依:故谓之曰灵,或谓之灵保。《东君》曰:“思灵保兮贤姱。”王逸《章句》,训灵为神,训保为安。余疑《楚辞》之灵保,与《诗》之神保,皆尸之异名。《诗·楚茨》云:“神保是飨。”又云:“神保是格。”又云:“鼓钟送尸,神保聿归。”《毛传》云:“保,安也。”《郑笺》亦云:“神安而飨其祭祀。”又云:“神安归者,归于天也。”然如毛、郑之说,则谓神安是飨,神安是格,神安聿归者,于辞为不文。《楚茨》一诗,郑孔二君皆以为述绎祭宾尸之事,其礼亦与古礼《有司彻》一篇相合,则所谓神保,殆谓尸也。其曰“鼓钟送尸,神保聿归”,盖参互言之,以避复耳。知《诗》之神保为尸,则《楚辞》之灵保可知矣。至于浴兰沐芳,华衣若英,衣服之丽也;缓节安歌,竽瑟浩倡,歌舞之盛也;乘风载云之词,生别新知之语,荒淫之意也。是则灵之为职,或偃蹇以象神,或婆娑以乐神,盖后世戏剧之萌芽,已有存焉者矣。

    巫觋之兴,虽在上皇之世,然俳优则远在其后。《列女传》云:“夏桀既弃礼义,求倡优侏儒狎徒,为奇伟之戏。”此汉人所纪,或不足信。其可信者,则晋之优施,楚之优孟,皆在春秋之世。案《说文》(八):“优,饶也;一曰倡也,又曰倡乐也。”古代之优,本以乐为职,故优施假歌舞以说里克。《史记》称优孟,亦云楚之乐人。又优之为言戏也,《左传》:“宋华弱与乐辔少相狎,长相优。”杜注:“优,调戏也。”故优人之言,无不以调戏为主。优施鸟乌之歌,优孟爱马之对,皆以微词托意,甚有谑而为虐者。《穀梁传》:“颊谷之会,齐人使优施舞于鲁君之幕下。”孔子曰:“笑君者罪当死,使司马行法焉。”厥后秦之优旃,汉之幸倡郭舍人,其言无不以调戏为事。要之,巫与优之别:巫以乐神,而优以乐人;巫以歌舞为主,而优以调谑为主;巫以女为之,而优以男为之。至若优孟之为孙叔敖衣冠,而楚王欲以为相;优施一舞,而孔子谓其笑君;则于言语之外,其调戏亦以动作行之,与后世之优,颇复相类。后世戏剧,当自巫、优二者出;而此二者,固未可以后世戏剧视之也。

    附考:古之优人,其始皆以侏儒为之,《乐记》称优侏儒。颊谷之会,孔子所诛者,《穀梁传》谓之优,而《孔子家语》、何休《公羊解诂》,均谓之侏儒。《史记·李斯列传》:“侏儒倡优之好,不列于前。”《滑稽列传》亦云:“优旃者,秦倡侏儒也。”故其自言曰:“我虽短也,幸休居。”此实以侏儒为优之一确证也。《晋语》“侏儒扶卢”,韦昭注:“扶,缘也;卢,矛戟之柲,缘之以为戏。”此即汉寻憧之戏所由起。而优人于歌舞调戏外,且兼以竞技为事矣。

    汉之俳优,亦用以乐人,而非以乐神。《盐铁论·散不足》篇虽云:“富者祈名岳,望山川,椎牛击鼓,戏倡舞像”;然《汉书·礼乐志》载郊祭乐人员,初无优人,惟朝贺置酒陈前殿房中,有常从倡三十人,常从象人(孟康曰:象人,若今戏鱼虾狮子者也。韦昭曰:著假面者也。)四人,诏随常从倡十六人,秦倡员二十九人,秦倡象人员三人,诏随秦倡一人,此外尚有黄门倡。此种倡人,以郭舍人例之,亦当以歌舞调谑为事。以倡而兼象人,则又兼以竞技为事,盖自汉初已有之,《贾子新书·匈奴篇》所陈者是也。至武帝元封三年,而角抵戏始兴。《史记·大宛传》:“安息以黎轩善眩人献于汉。是时上方巡狩海上,乃悉从外国客,大觳抵,出奇戏诸怪物,及加其眩者之工;而觳抵奇戏岁增变甚盛,益兴,自此始。”按角抵者,应劭曰:“角者,角技也,抵者,相抵触也。”文颖曰:“名此乐为角抵者,两两相当,角力角技艺射御,故名角抵,盖杂技乐也。”是角抵以角技为义,故所包颇广,后世所谓百戏者是也。角抵之地,汉时在平乐观。观张衡《西京赋》所赋平乐事,殆兼诸技而有之。“乌获扛鼎,都卢寻憧,冲狭燕濯,胸突銛锋,跳丸剑之挥霍,走索上而相逢”,则角力角技之本事也。“巨兽之为曼延,舍利之化仙车,吞刀吐火,云雾杳冥”,所谓加眩者之工而增变者也。“总会仙倡,戏豹舞罴,白虎鼓瑟,苍龙吹箎”,则假面之戏也。“女娲坐而长歌,声清畅而委蛇,洪厓立而指挥,被毛羽之襳襹,度曲未终,云起雪飞”,则歌舞之人,又作古人之形象矣。“东海黄公,赤刀粤祝,冀厌白虎,卒不能救”,则且敷衍故事矣。至李尤《平乐观赋》(《艺文类聚》六十三)亦云:“有仙驾雀,其形蚴虬,骑驴驰射,孤兔惊走,侏儒巨人,戏谑为偶”,则明明有俳优在其间矣。及元帝初元五年,始罢角抵,然其支流之流传于后世者尚多,故张衡、李尤在后汉时,犹得取而赋之也。

    至魏明帝时,复修汉平乐故事。《魏略》(《魏志·明帝纪》裴注所引):“帝引穀水过九龙殿前,水转百戏。岁首,建巨兽,鱼龙曼延,弄马倒骑,备如汉西京之制。”故魏时优人,乃复著闻。《魏志·齐王纪》注引《世语》及《魏氏春秋》云:“司马文王镇许昌,征还击姜维,至京师,帝于平乐观,以临军过中领军许允,与左右小臣谋,因文王辞,杀之,勒其众以退大将军,已书诏于前。文王入,帝方食栗,优人雲午等唱曰:‘青头鸡,青头鸡。’青头鸡者,鸭也(谓押诏书),帝惧,不敢发。”又《魏书》(裴注引)载:司马师等《废帝奏》亦云:“使小优郭怀、袁信,于广望观下作辽东妖妇,嬉亵过度,道路行人掩目。”太后废帝令亦云:“日延倡优,恣其丑谑。”则此时倡优,亦以歌舞戏谑为事;其作辽东妖妇,或演故事,盖犹汉世角抵之余风也。

    晋时优戏,殊无可考。惟《赵书》(《太平御览》卷五百六十九引)云:“石勒参军周延为馆陶令,断官绢数万匹,下狱,以八议宥之。后每大会,使俳优著介帻,黄绢单衣。优问:‘汝何官,在我辈中?’曰:‘我本为馆陶令。’斗数单衣,曰:‘正坐取是,入汝辈中。’以为笑。”唐段安节《乐府杂录》,亦载此事云:“参军始自后汉馆陶令石耽。”然后汉之世,尚无参军之官,则《赵书》之说殆是。此事虽非演故事而演时事,又专以调谑为主,然唐宋以后,脚色中有名之参军,实出于此。自此以后以迄南朝,亦有俗乐。梁时设乐,有曲、有舞、有技;然六朝之季,恩幸虽盛,而俳优罕闻,盖视魏晋之优,殆未有以大异也。

    由是观之,则古之俳优,但以歌舞及戏谑为事。自汉以后,则间演故事;而合歌舞以演一事者,实始于北齐。顾其事至简,与其谓之戏,不若谓之舞之为当也。然后世戏剧之源,实自此始。《旧唐书·音乐志》云:“代面出于北齐。北齐兰陵王长恭,才武而面美,常著假面以对敌。尝击周师金墉城下,勇冠三军,齐人壮之,为此舞以效其指挥击刺之容,谓之《兰陵王入阵曲》。”《乐府杂录》与崔令钦《教坊记》所载略同。又《教坊记》云:“《踏摇娘》:北齐有人姓苏,䶌鼻,实不仕,而自号为郎中。嗜饮酗酒,每醉,辄殴其妻。妻衔悲诉于邻里。时人弄之:丈夫著妇人衣,徐步入场,行歌。每一叠,旁人齐声和之云:‘踏摇和来,踏摇娘苦,和来。’以其且步且歌,故谓之踏摇;以其称冤,故言苦。及其夫至,则作殴斗之状,以为笑乐。”此事《旧唐书·音乐志》及《乐府杂录》亦纪之。但一以苏为隋末河内人,一以为后周士人。齐周隋相距,历年无几,而《教坊记》所纪独详,以为齐人,或当不谬。此二者皆有歌有舞,以演一事;而前此虽有歌舞,未用之以演故事,虽演故事,未尝合以歌舞:不可谓非优戏之创例也。盖魏齐周三朝,皆以外族入主中国,其与西域诸国,交通频繁,龟兹、天竺、康国、安国等乐,皆于此时入中国;而龟兹乐则自隋唐以来,相承用之,以迄于今。此时外国戏剧,当与之俱入中国,如《旧唐书·音乐志》所载《拨头》一戏,其最著之例也。案《兰陵王》、《踏摇娘》二舞,《旧志》列之歌舞戏中,其间尚有《拨头》一戏。《志》云:“《拨头》者,出西域,胡人为猛兽所噬,其子求兽杀之,为此舞以象之也。”《乐府杂录》谓之“钵头”,此语之为外国语之译音,固不待言;且于国名、地名、人名三者中,必居其一焉。其入中国,不审在何时。按《北史·西域传》有拔豆国,去代五万一千里,(按五万一千里,必有误字,《北史·西域传》诸国,虽大秦之远,亦仅去代三万九千四百里,拔豆上之南天竺国去代三万一千五百里,叠伏罗国去代三万一千里,此五万一千里,疑亦三万一千里之误也。)隋唐二《志》,即无此国,盖于后魏之初,一通中国,后或亡或隔绝,已不可知。如使“拨头”与“拔豆”为同音异译,而此戏出于拔豆国,或由龟兹等国而入中国,则其时自不应在隋唐以后,或北齐时已有此戏;而《兰陵王》、《踏摇娘》等戏,皆模仿而为之者欤。

    此种歌舞戏,当时尚未盛行,实不过为百戏之一种。盖汉魏以来之角抵奇戏,尚行于南北朝,而北朝尤盛。《魏书·乐志》言:太宗增修百戏,撰合大曲。《隋书·音乐志》亦云:“齐武平中,有鱼龙烂漫,俳优侏儒,(中略)奇怪异端,百有余物,名为百戏。周明帝武成间,朔旦会群臣,亦用百戏。及宣帝时,征齐散乐人并会京师为之。至隋炀帝大业二年,突厥染干来朝,炀帝欲夸之,总追四方散乐,大集东都。自是每岁正月,万国来朝,留至十五日,于端门外建国门内,绵亘八里,列为戏场。百官起棚夹路,从昏至旦,以纵观,至晦而罢。伎人皆衣锦绣缯彩,其歌舞者多为妇人服,鸣环珮,饰以花眊者,殆三万人。”故柳彧上书谓:“鸣鼓聒天,燎炬照地,人戴兽面,男为女服,倡优杂技,诡状异形。”(《隋书·柳彧传》)薛道衡《和许给事善心戏场转韵诗》(《初学记》卷十五),所咏亦略同。虽侈靡跨于汉代,然视张衡之赋西京,李尤之赋平乐观,其言固未有大异也。

    至唐而所谓歌舞戏者,始多概见。有本于前代者,有出新撰者,今备举之。

    一、《代面》《大面》

    《旧唐书·音乐志》一则(见前)

    《乐府杂录》鼓架部条:“有代面:始自北齐神武弟,有胆勇,善战斗,以其颜貌无威,每入阵即著面具,后乃百战百胜。戏者衣紫、腰金、执鞭也。”

    《教坊记》:“大面出北齐兰陵王长恭,性胆勇,而貌妇人,自嫌不足以威敌,乃刻为假面,临阵著之,因为此戏,亦入歌曲。”

    二、《拨头》《钵头》

    《旧唐书·音乐志》一则(见前)

    《乐府杂录》鼓架部条:“钵头:昔有人父为虎所伤,遂上山寻其父尸。山有八折,故曲八叠。戏者被发素衣,面作啼,盖遭丧之状也。”

    三、《踏摇娘》《苏中郎》《苏郎中》

    《旧书·音乐志》:“踏摇娘生于隋末河内。河内有人,貌恶而嗜酒,常自号郎中;醉归,必殴其妻。其妻美色善歌,为怨苦之辞。河朔演其声而被之弦管,因写其夫之容;妻悲诉,每摇顿其身,故号“踏摇娘”。近代优人改其制度,非旧旨也。”

    《乐府杂录》鼓架部条:“苏中郎:后周士人苏葩,嗜酒落魄,自号中郎;每有歌场,辄入独舞。今为戏者,著绯、带帽,面正赤,盖状其醉也。即有踏摇娘。”

    《教坊记》一则(见前)

    四、参军戏

    《乐府杂录》俳优条:“开元中,黄幡绰、张野狐弄参军。始自汉馆陶令石耽。耽有赃犯,和帝惜其才,免罪;每宴乐,即令衣白夹衫,命俳优弄辱之,经年乃放。后为参军,误也。开元中,有李仙鹤善此戏,明皇特授韶州同正参军,以食其禄;是以陆鸿渐撰词,言韶州参军,盖由此也。”

    赵璘《因话录》(卷一):“肃宗宴于宫中,女优有弄假官戏,其绿衣秉简者,谓之参军桩。”

    范摅《云溪友议》(卷九):元稹廉问浙东,“有俳优周季南季崇,及妻刘采春,自淮甸而来,善弄《陆参军》,歌声彻云。”

    (附)《五代史·吴世家》:“徐氏之专政也,杨隆演幼懦,不能自持;而知训尤凌侮之。尝饮酒楼上,命优人高贵卿侍酒,知训为参军,隆演鹑衣髽髻为苍鹘。”

    (附)姚宽《西溪丛语》(下)引《吴史》:“徐知训怙威骄淫,调谑王,无敬长之心。尝登楼狎戏,荷衣木简,自称参军,令王髽髻鹑衣,为苍头以从。”

    五、《樊哙排君难》戏《樊哙排闼》剧

    《唐会要》(卷三十三):“光化四年正月,宴于保宁殿,上制曲,名曰《赞成功》。时盐州雄毅军使孙德昭等,杀刘季述反正,帝乃制曲以褒之,仍作《樊哙排君难》戏以乐焉。”

    宋敏求《长安志》(卷六):“昭宗宴李继昭等将于保宁殿,亲制《赞成功》曲以褒之,仍命伶官作《樊哙排君难》戏以乐之。”

    陈旸《乐书》(卷一百八十六):“昭宗光化中,孙德昭之徒刃刘季述,始作《樊哙排闼》剧。”

    此五剧中,其出于后赵者一(参军),出于北齐或周隋者二(《大面》、《踏摇娘》),出于西域者一(《拨头》),惟《樊哙排君难》戏乃唐代所自制,且其布置甚简,而动作有节,固与《破阵乐》、《庆善乐》诸舞,相去不远;其所异者,在演故事一事耳。顾唐代歌舞戏之发达,虽止于此,而滑稽戏则殊进步。此种戏剧,优人恒随时地而自由为之;虽不必有故事,而恒托为故事之形;惟不容合以歌舞,故与前者稍异耳。其见于载籍者,兹复汇举之,其可资比较之助者,颇不少也。

    《资治通鉴》(卷二百十二):“侍中宋璟,疾负罪而妄诉不已者,悉付御史台治之,谓中丞李谨度曰:‘服不更诉者,出之,尚诉未已者,且系。’由是人多怨者。会天旱,优人作魃状,戏于上前。问:‘魃何为出?’对曰:‘奉相公处分。’又问:‘何故?’对曰:‘负罪者三百余人,相公悉以系狱抑之,故魃不得不出。’上心以为然。”

    《旧唐书·文宗纪》:“太和六年二月己丑寒食节,上宴群臣于麟德殿。是日,杂戏人弄孔子。帝曰:‘孔子古今之师,安得侮黩。’亟命驱出。”

    高彦休《唐阙史》(卷下):“咸通中,优人李可及者,滑稽谐戏,独出辈流。虽不能托讽匡正,然智巧敏捷,亦不可多得。尝因延庆节缁黄讲论毕,次及倡优为戏,可及乃儒服险巾,褒衣博带,摄齐以升讲座,自称‘三教论衡’。其隅坐者问曰:‘既言博通三教,释迦如来是何人?’对曰:‘是妇人。’问者惊曰:‘何也?’对曰:‘《金刚经》云:敷座而坐。或非妇人,何烦夫坐然后儿坐也。’上为之启齿。又问曰:‘太上老君何人也?’对曰:‘亦妇人也。’问者益所不喻。乃曰:‘《道德经》云:吾有大患,是吾有身,及吾无身,吾复何患。倘非妇人,何患乎有娠乎?’上大悦。又问:‘文宣王何人也?’对曰:‘妇人也。’问者曰:‘何以知之?’对曰:‘《论语》云:沽之哉!沽之哉!吾待贾者也。向非妇人,待嫁奚为?’上意极欢,宠锡甚厚。翌日,授环卫之员外职。”

    唐无名氏《玉泉子真录》(《说郛》卷四十六):“崔公铉之在淮南,尝俾乐工集其家僮,教以诸戏。一日,其乐工告以成就,且请试焉。铉命阅于堂下,与妻李坐观之。僮以李氏妒忌,即以数僮衣妇人衣,曰妻曰妾,列于旁侧。一僮则执简束带,旋辟唯诺其间。张乐,命酒,不能无属意者,李氏未之悟也。久之,戏愈甚,悉类李氏平昔所尝为。李氏虽少悟,以其戏偶合,私谓不敢而然,且观之。僮志在发悟,愈益戏之。李果怒,骂之曰:‘奴敢无礼,吾何尝如此。’僮指之,且出,曰:‘咄咄!赤眼而作白眼,讳乎?’铉大笑,几至绝倒。”

    孙光宪《北梦琐言》(卷六):“光化中,朱朴自《毛诗》博士登庸,恃其口辩,可以立致太平。由藩邸引导,闻于昭宗,遂有此拜。对扬之日,面陈时事数条,每言‘臣为陛下致之’。洎操大柄,无以施展,自是恩泽日衰,中外腾沸。内宴日,俳优穆刀陵作念经行者,至御前曰:‘若是朱相,即是非相。’翌日出官。”

    附 五代

    《北梦琐言》(卷十四):“刘仁恭之军,为汴帅败于内黄。尔后汴帅攻燕,亦败于唐河。他日命使聘汴,汴帅开宴,俳优戏医病人以讥之。且问:病状内黄,以何药可瘥?其聘使谓汴帅曰:‘内黄,可以唐河水浸之,必愈。’宾主大笑。”

    钱易《南部新书》(卷癸):“王延彬独据建州,称伪号。一旦大设,伶官作戏,辞云:‘只闻有泗州和尚,不见有五县天子。’”

    郑文宝《江南馀载》(卷上):“徐知训在宣州,聚敛苛暴,百姓苦之。入觐侍宴,伶人戏,作绿衣大面若鬼神者。旁一人问:‘谁?’对曰:‘我宣州土地神也,吾主人入觐,和地皮掘来,故得至此。’”

    又(卷上):“张崇帅庐州,人苦其不法。因其入觐,相谓曰:‘渠伊必不来矣。’崇闻之,计口征渠伊钱。明年又入觐,人不敢交语,唯道路相目,捋须为庆而已。崇归,又征捋须钱。其在建康,伶人戏为死而获谴者曰:‘焦湖百里,一任作獭。’”

    观上文之所汇集,知此种滑稽戏,始于开元,而盛于晚唐。以此与歌舞戏相比较,则一以歌舞为主,一以言语为主;一则演故事,一则讽时事;一为应节之舞蹈,一为随意之动作;一可永久演之,一则除一时一地外,不容施于他处:此其相异者也。而此二者之关纽,实在参军一戏。参军之戏,本演石耽或周延故事。又《云溪友议》谓“周季南等弄《陆参军》,歌声彻云”,则似为歌舞剧。然至唐中叶以后,所谓参军者,不必演石耽或周延;凡一切假官,皆谓之参军。《因话录》所谓“女优弄假官戏,其绿衣秉简者谓之参军桩”是也。由是参军一色,遂为脚色之主。其与之相对者,谓之苍鹘。李义山《骄儿诗》:“忽复学参军,按声唤苍鹘。”《五代史·吴世家》所纪,足以证之。上所载滑稽剧中,无在不可见此二色之对立。如李可及之儒服险巾,褒衣博带;崔铉家童之执简束带,旋辟唯诺;南唐伶人之绿衣大面,作宣州土地神:皆所谓参军者为之,而与之对待者,则为苍鹘。此说观下章所载宋代戏剧,自可了然,此非想象之说也。要之:唐、五代戏剧,或以歌舞为主,而失其自由;或演一事,而不能被以歌舞。其视南宋、金、元之戏剧,尚未可同日而语也。

    本文系《宋元戏曲史》第一章

  • 萧乾:往事三瞥(之一)

      1949年初,我站在生命的一个大十字路口上,做出了决定自己和一家命运的选择。
      其实,头一年这个选择早已做了。家庭破裂后,正当我急于离开上海之际,剑桥给我来了一封信:大学要成立中文系,要我去讲现代中国文学。当时我已参加了作为报纸起义前奏的学习会,政治上从一团漆黑开始瞥见了一线曙光。同时,在国外漂泊了七年,实在不想再出去了。在杨刚的鼓励下,就写信回绝了。

      1949年3月的一天,我正在九龙花墟道寓所里改着《中国文摘》的稿子,忽然听到一阵叩门声。哎呀,剑桥的何伦教授气喘吁吁地来了。他握住我的手解释说,是报馆给的地址。然后坐下来,呷了一口茶,才告诉我这次到香港他负有两项使命,一个是替大学采购一批中文书籍——他是位连鲁迅这个名字也没听说过的《诗经》专家,另一项是“亲自把你同你们一家接到剑桥”。口气里像是很有把握。他认为我那封回绝的信不能算数,因为那时“中国”(他指的是白色的中国)还没陷到今天的“危境”(指的是平津战役后国民党败溃的局面)。他估计我会重新考虑整个问题。
      在剑桥那几年,这位入了英籍的捷克汉学家对我一直很友好,我常去他家吃茶,还同他度过一个圣诞夜。他一边切着二十磅重的火鸡,一边谈着《诗经》里“之”字的用法。饭后,他那位曾经是柏林歌剧院名演员的夫人自己弹着钢琴就唱了起来。在她的指引下,我迷上了西洋古典音乐。
      可是当时他所说的“危境”正是我以及全体中国人民所渴望着的黎明。我坦率地告诉他说,我是个土生土长的中国人,中国在重生,我不能在这样时刻走开。
      两天后,这位最怕爬楼梯的老教授又来了。一坐下他就声明这回不是代表大学,而是以一个对共产党有些“了解”的老朋友来对我进行一些规劝。他讲的大都是战后中欧的一些事情:玛萨里克死的“不明不白”啦,匈牙利又出了主教叛国案啦。总之,他认为在西方学习过、工作过的人,在共产党政权下没有好下场。他甚至哆哆嗦嗦地伸出自指声音颤抖地说:“知识分子同共产党的蜜月长不了,长不了。”随说随戏剧性地站了起来,看了看腕上的表说:“我后天飞伦敦。明天这时候我再来——听你的回话。”对于我说的“我不会改变主意”的声明,他概不理睬。他只伸出个毛茸茸的指头逗了一个摇篮里的娃娃说:“为了他,你也不能不好好考虑一下。”

      西方只有一位何伦,东方的何伦却不止一位。有的给我送来杜勒斯乃兄写的一部《斯大林传》,还特别向我推荐谈三五年肃反的那章。有的毛遂自荐当起“参谋”:“你进去容易,出来就难了。延安有老朋友了解你?等斗你的时候,越是老朋友就越得多来上几句。别看香港这些大党员眼下同你老兄长老兄短,等人家当了大官儿,你当了下属的时候再瞧吧。受了委曲不会让你像季米特洛夫那么慷慨激昂地当众讲一通的,碰上了德莱季雷福斯那样的案子,也不会出来个左拉替你大声疾呼。”
      于是,参谋出起主意了:“上策嘛,接下剑桥的聘书,将来尽可以回去作客。当共产党的客人可比当干部舒服。中策?当个半客人——要求暂时留在香港工作,那样你还可以保持现在的生活方式,又可以受到一定的礼遇,同时静观一下再说。反正凭你这个燕京毕业,在外国又呆过七年的,不把你打成间谍特务,也得骂你一顿‘洋奴’!”
      那一宿,我服过三次安眠药也不管事。上半夜是那一句句的“忠告”像几十条蛇在我心里乱钻。后半夜我只要一阖上眼,就闪出一幅图画,时而黑白,时而带朦胧彩色,反正是块破席头,下面伸出两只脚。摇篮里的娃娃似乎也在做着噩梦。他无缘无故地忽然抽噎起来,从他那委屈的哭声里,我仿佛听到“我要国籍”。
      天亮了,青山在窗外露出一片赭色。我坐起来,头脑清醒了一些。
      两小时后,我去马宝道了。临走留下个短札给何伦教授:“报馆有急事,不能如约等候,十分抱歉。更抱歉的是害你自跑三趟。我仍不改变主意。”
      八月底的一天,我把行李集中到预先指定的地点,一家人就登上“华安轮”,随地下党经青岛来到开国前夕的北京。

      三十个寒暑过去了。这的确是不平静也是不平凡的三十年。在最绝望的时刻,我从没后悔过自己在生命那个大十字路口上所迈的方向。今天,只觉得感情的基础比那时深厚了,想的积极了——不止是不当白华,而是要把自己投人祖国重生这一伟大事业中。

                        一九七九年五月

  • 马龙:功能性前科消灭理念之提倡——以犯罪前科与犯罪记录的关系为切入点

    目前,伴随着社会转型的深化,劳动教养制度与收容教育制度的废除,以及积极主义刑法观的提出,我国的刑法结构正在经历由传统的“厉而不严”向“严而不厉”转变,大量危险行为实行化、实行行为前置化、犯罪处罚轻刑化在刑法典中涌现。面对如此情形,如何正确理解犯罪前科与前科消灭(尤其轻微犯罪的前科消灭)便显得极为重要。通常而言,犯罪前科作为一项“前罪对后罪处理的重向累及”制度,它主要是由再犯加重与资格剥夺两方面组合而成,故而,前科消灭究其本质就在于消除这两方面影响。首先,针对再犯加重,前科消灭意味着,法院先前的定罪材料不能作为犯罪人再次犯罪时加重处罚的根据;其次,针对资格剥夺,这就会涉及实体法上的权利恢复制度(即前科消灭制度与复权制度)与程序法上的犯罪记录处置制度即犯罪记录删除制度与封存制度)。

    但是,由于我国刑法学界历来存在“重刑事规范学而轻刑事事实学”“重刑事构罪论而轻刑事处罚论”的研究倾向,加之2012年《刑事诉讼法修正案》第275条又将针对未成年人的犯罪记录封存制度规定进刑事程序法中,故而,我国法学界在讨论前科消灭制度与犯罪记录处置制度时,出现了两个明显割裂的阶段:第一阶段,大致在2011年及之前,此时由于我国的犯罪记录体系尚未建立,故学界在讨论前科消灭制度的具体构建时往往脱离犯罪记录制度;第二阶段,大致在2012年之后,此时由于我国的犯罪记录封存制度已然成为一项程序法制度,故学界在讨论犯罪记录时往往脱离实体法上的前科消灭制度。显然,根据这两个阶段的研究侧重,若要有效恢复前科消灭者已被犯罪剥夺的权利与资格,保障其顺利再社会化,刑法学界理应尽快探明两项制度之间的内在联系。对此,值得思考的是,既然权利恢复制度与犯罪记录处置制度分属实体法与程序法,那么,我国所构建的前科消灭制度到底应当配备什么样的犯罪记录处置制度?进一步而言,既然此两项制度属于不同的法律制度,那么,制定前科消灭制度是否就意味着,必须对犯罪人的犯罪记录进行彻底的物理性删除?带着这些疑问,本文展开了对犯罪前科与犯罪记录的讨论,并借此提出了功能性的前科消灭理念,以供学界参考。

    一、理念缘起:犯罪前科与犯罪记录的概念差异

    “犯罪前科”与“犯罪记录”并非产生于同一时期。在西方世界,前科制度最早可以追溯到古罗马;而在华夏大地,这项制度早在夏商时期也已产生。与此不同,系统的犯罪记录制度作为一项专门为了记载犯罪而产生的法律制度,其产生时点相对较晚。具体而言,在法国,针对自然人的犯罪记录制度首创于19世纪末,后来直到1992年12月16日,现行《法国刑事诉讼法典》才建立起了涉及法人的犯罪记录制度。在德国,关于收集和登记有关个人犯罪背景的全面最新的法律规定也需要追溯到19世纪末。继法国之后,德国兰德公司于1882年通过了《登记法》,并对定罪情况进行登记,其主要用于刑事司法系统(特别是累犯评估)和行政决策,如授予或者撤销许可证。此后,德国又于1882年6月16日颁布了《联邦议会条例》,该条例引进了“以字母排列顺序为基础的索引卡片制”,至此,德意志帝国分散且不系统的犯罪登记才得以统一。

    即便如此,针对犯罪前科与犯罪记录的关系,我国刑法学界还是出现了相同说与区别说两种观点。首先,支持相同说的学者认为,犯罪前科即犯罪记录或定罪记录,故前科消灭就是注销或消除犯罪记录。其次,支持区别说的学者则认为,犯罪前科与犯罪记录是两种不同的法律概念,不可将它们混同使用。至于,如何理解这两种概念,区别说的阵营中又出现了分歧。比如,有学者曾指出,犯罪前科与犯罪记录是一种评价结论与评价对象的关系:一方面,犯罪记录作为一种对犯罪事实与刑事判决所进行的客观记载,它属于规范性的评价对象,其本质是一种法律事实;另一方面,犯罪前科作为一种对犯罪事实的规范评价,它属于犯罪记录的评价结论,其本质是一种法律评价。又比如,也有学者曾指出,应当用“犯罪记录”的概念取代犯罪前科,其认为,犯罪前科由于设立之初就有着预防与惩罚的制度基因,而这就决定了前科是一种具有负面价值评价的概念,故有必要摒弃以此概念为基础而构建起的犯罪信息理论模式,转而采用代表着价值中立与价值无涉的“犯罪记录”概念。显然,根据上述区别说理解,犯罪前科与犯罪记录的关系又可以进一步分为因果关系说与替代关系说两种。

    (一)犯罪前科与犯罪记录的具体差异

    针对上述分歧,首先应当厘清的是,犯罪前科制度与犯罪记录制度是否有着相同的制度诉求,因为,不同的规范目的必然会使这两项制度承担不同的社会使命,从而赋予它们相对独立的法律地位。在现代意义上,犯罪记录往往被视为一种行政管理的手段,因此,无论犯罪记录制度是被规定在行政规范中(如《德国中央登记册与教育登记册法》)还是单行刑法中(如我国香港地区的《犯罪自新条例》)甚至是刑法典(如《塞尔维亚共和国刑法典》)或刑事诉讼法典(如《法国刑事诉讼法典》)中,它其实都同时蕴含着管理前科人员与维护社会运转的双重职能。比如,根据《瑞士联邦刑法典》第359条第2款之规定,设立犯罪记录制度的目的便不仅仅在于保障刑事程序法的顺利进行,还在于一些行政活动上的监管与开展。与此不同,犯罪前科制度作为一项从重处罚的刑事法律制度,它是基于刑罚目的(报应主义或预防主义)而产生的,故而,该制度的设立其实就是想通过“再犯加重”与“资格剥夺”来实现犯罪惩罚、犯罪控制以及犯罪预防的效果。质言之,由于这两种制度有着不同的设立目的,这就导致犯罪记录制度往往有着比犯罪前科制度更为宽泛的社会使命,诸如“国家刑事案件的侦破”“国家立法活动的开展”“刑事法学理论的研究”等目标的实现都需要犯罪记录制度发挥作用。事实上,也正是基于上述差异,这又导致“犯罪前科”与“犯罪记录”具有以下不同:

    第一,犯罪前科与犯罪记录有着不同的判断视角。诚如上言,犯罪记录制度既然作为一种兼具行政性质的管理手段,其所关注的内容就不仅包括已经出现的犯罪事实记录,还包括那些可能从一般越轨行为迈向犯罪行为的记录。换言之,就判断视角而言,犯罪前科其实是一个基于刑法学视角而产生的概念,而犯罪记录是一个更加偏向于犯罪学的概念(因为它需要从犯罪原因的角度去考虑犯罪记录的生成),亦即,与其将犯罪记录冠以“犯罪记录”的称谓,不如直接将其称为“与犯罪相关的记录”。为了验证此结论,我们可以从美国、德国、意大利、澳大利亚等国的相关法律中寻找依据。比如,就“犯罪记录”的涵摄范围而言,美国包括了“未导致定罪的逮捕记录”,意大利包括了“审判时作出的无罪判决”,德国甚至包含了“行政机关作出的一些裁定、违反麻醉药品法的处置决定”。实际上,也正是由于两者判断视角的不同,目前我国无论是有权解释还是理论研究均有将犯罪记录外延进行扩大的趋势。比如,我国学者曾指出,在未成年人犯罪中,凡是在他人知悉以后,可能会引起对行为人在未成年时实施过犯罪产生推测、怀疑乃至确定的材料,均应归入到犯罪记录之中;此外,他甚至提出,因严重违反法庭秩序而被拘留的诉讼参与人的拘留决定书也应当归入犯罪记录的范围之中,即使此决定书所针对的对象不是犯罪嫌疑人,而只是证人、诉讼参与人或庭审旁听人员。

    第二,犯罪前科与犯罪记录有着不同的生成条件。具体而言,在世界范围内,犯罪前科的成立条件大致存在“前罪宣告说”与“前罪处刑说”两种立法例。比如,以美国、德国、英国、法国、日本、韩国等为代表的国家采取的便是前罪宣告说,亦即,它们认为犯罪前科的成立仅以前行为宣告有罪为限,至于前行为是否被判处刑罚、判处何种刑罚则无须考虑;而以俄罗斯、意大利、匈牙利、罗马尼亚、保加利亚等为代表的国家采取的则是前罪处刑说,亦即,它们认为犯罪前科的成立不仅需要前行为被宣告有罪,还需要该罪被判处了实际刑罚。与此不同,犯罪记录的成立条件则相对宽松,它不仅可以包括被判处实刑的犯罪记录,也可以包括被免予刑事处罚的犯罪记录,甚至可以包括未进入刑事审判程序的记录以及行政机关作出的一些行政记录。针对上述差异,我们也可以以俄罗斯的数据统计为支撑。在俄罗斯,被判处刑罚的数量(即犯罪前科数量)其实是要多于被登记犯罪的数量(即犯罪记录数量)的,比如,根据相关数据统计,俄罗斯1992年的犯罪登记人数为2760652人,查明犯罪人数为1148962人,但被判处刑罚人数却仅仅为661392人。

    第三,犯罪前科与犯罪记录有着不同的灭失条件,并且,这种不同不仅体现在消灭所需的期间考察上,还体现在消灭所需的实质要求上。首先,就考察期间而言,犯罪记录的注销考察期通常要比权利恢复的考察期更久。比如,在瑞士,根据《瑞士刑联邦法典》第77条“重新担任公职”与第80条“犯罪记录的注销”之规定,某人若想重新担任公职,则他必须在刑罚执行完毕后的两年内表现良好、赔偿损失,并主动向法院提出申请;与此不同,某人若想注销其犯罪记录,则需要根据不同情形进行区别对待:重惩役需要20年,三个月以上监禁刑需要15年,拘役、三个月以下监禁刑、罚金刑(作为主刑时)需要10年;如果被判刑人表现良好,赔偿了损失,缴纳了罚金(或以公益劳动替代了罚金或罚金被赦免),且执行了与判决相关的附加刑,上述期限就会相应缩减为10年、5年与2年。其次,就实质要求而言,由于犯罪前科与犯罪记录有着不同的规范目的,故前科消灭其实并不必然引起犯罪记录的删除,而犯罪记录的删除也并不必然是由前科消灭所引起的。比如,根据《德国中央登记册》第24条第2款之规定,“涉及90岁以上人的记录,也同样应从登记册中删除”。显然,就此规定,“90岁以上的人”其实并不会引起犯罪前科的消灭,但该年龄却直接引起了犯罪记录的删除。

    (二)犯罪前科与犯罪记录的逻辑关系

    前已述及,无论从规范的设立目的,还是从概念的判断视角,抑或从制度的留存条件,都应承认犯罪前科制度与犯罪记录制度是两项独立的法律制度。这正如德国学者李斯特所言,“‘重新赋予’或称‘复位’或‘恢复原状’,严格地讲,如同被视为消除刑罚后果一样,如同被视为国家放弃其部分刑罚权。而消除或清偿犯罪记录则具有独立之特征”。鉴于此,针对犯罪前科与犯罪记录的关系,就不得不进一步探讨上述的因果关系说与替代关系说。

    首先,针对替代关系说,虽然这种观点也承认犯罪前科与犯罪记录是两种不同的法律概念,但用犯罪记录直接取代犯罪前科的想法显然是不合适的。先不说,此二者不同的设立目的会使它们产生不同的制度价值与规范意义,单就从制度本身的归属定性来看,犯罪前科制度作为一项实体法制度,而犯罪记录制度作为一项程序法制度,这也决定了犯罪记录的处置离不开犯罪前科的指引。譬如,当追问到某种犯罪记录为何应当删除或封存时,这就需要探究其删除或封存的实体法根据,否则,离开权利恢复制度(前科消灭制度或复权制度)的犯罪记录处置就好比无根之木、无源之水,难以真正发挥应有价值。况且,根据世界各国的立法现状,诸如美国、英国、德国、法国、日本、俄罗斯、加拿大、匈牙利等大多数国家,它们的法律体系其实都同时存在着犯罪前科制度与犯罪记录制度。

    其次,针对因果关系说,这种见解值得肯定,但关键在于,犯罪前科与犯罪记录到底何者为因、何者为果?对此,有学者的理解是,犯罪记录作为一种法律事实,它是犯罪前科的前提与基础,而犯罪前科是对犯罪记录的规范评价。基于此,该学者提出,即使记载犯罪信息的数据被销毁了,但这也只是将犯罪记录的载体进行销毁,而犯罪记录本身是永远存在且不可能被删除的。确实,一旦将犯罪记录等同于犯罪事实,由于客观事实不可能被抹除,犯罪记录自然也就不会被消灭。但在我国,既然犯罪记录被官方定义为对犯罪情况的客观记载,它与犯罪事实就会有差别,如未被公安司法机关发现的犯罪事实便不会被记录在案;况且,从字面含义上讲,删除犯罪记录指的就是删除客观记载,而删除这些记载本身就会有一定的法律意义,如法院不可能根据道听途说就对犯罪人适用累犯加重的条款。事实上,该学者之所以有如此见解,很大原因在于,犯罪记录的涵摄范围较之犯罪前科更加宽泛,故犯罪前科极易理解为是对犯罪记录进行的一次筛选。比如,该学者曾坦言,“有犯罪记录不一定有前科,例如,有定罪免刑的情况,以及超过前科评价期限的情况,等等;但是,有前科一定有犯罪记录”。但如前文所言,犯罪前科是一个基于刑法学视角产生的概念,而犯罪记录是一个基于犯罪学视角产生的概念,换言之,这两个概念所引起的涵摄范围的不同,其实并不在于犯罪记录的产生应当在逻辑上先于犯罪前科,而在于它们本身就是基于不同规范保护目的而出现的。

    基于此,本文认为,犯罪记录是一个不同于犯罪事实的概念,两者不可混为一谈。具体而言,犯罪事实产生于犯罪前科(基于犯罪事实而作出的规范评价)之前,犯罪记录(程序法制度)产生于犯罪前科(实体法制度)之后,亦即,从因果层面看,犯罪前科是“因”,犯罪记录是“果”,犯罪前科(基于刑法学视角而产生)是引起犯罪记录(基于犯罪学视角而产生)的核心要素。因为,倘若将犯罪记录等同于犯罪事实,将犯罪记录理解为犯罪前科的前提与基础,这便忽略了犯罪记录所记载的内容不仅应当包括犯罪事实本身,还应当包括基于该事实而产生的否定性评价(即法院对此所作的结论与意见)。

    二、域外考察:撤销定罪与犯罪记录处置的对应关系

    犯罪前科与犯罪记录是两种不同的法律概念,故基于犯罪前科而引起的权利恢复制度(即前科消灭制度与复权制度)与犯罪记录处置制度(即犯罪记录删除制度与封存制度)的关系便值得探究。通常而言,复权侧重于权利与资格的恢复,彰显的是一种“从无到有”的过程;而前科消灭侧重于后遗效果的消灭,彰显的是一种“从有到无”的过程。因此,从词语本身蕴义来看,前科消灭似乎与犯罪记录删除更加亲和,而复权似乎与犯罪记录封存更加亲和,因为,“复权”与“犯罪记录封存”的组合客观上不会给人以视觉冲击,而“前科消灭”中的“消灭”与“犯罪记录封存”中的“封存”则略显抵牾。但不可否认,由于各国对于犯罪记录的规制存在“维护遗忘权”“维护知情权”“维护公共利益”的区别,加之,犯罪记录的执掌主体又存在“警察机关主导型”“司法部门主导型”“专门机关主导型”“户籍机关主导型”等类型,因而,这种亲和感并不能直接勾连前科消灭制度(或复权制度)与犯罪记录删除制度(或封存制度)之间的对应关系,不少采取复权制度的国家(如德国、日本、法国、保加利亚等)同样会要求删除犯罪记录。基于此,本文便将目光聚焦在撤销刑事定罪与犯罪记录处置的关系上,因为,无论前科消灭还是复权,它们均是以撤销刑事定罪为前提条件的。

    然而,犯罪记录也有广义与狭义之分。狭义的犯罪记录是指,专门为了记载犯罪而产生的记录,如我国犯罪数据库中的犯罪记录、《无犯罪记录证明》、外国的《行为证明》与《犯罪记录证明》等;而广义的犯罪记录是指,一切能够表明犯罪信息的客观记录,如为了刑事定性而产生的刑事司法文书、为了记载人生轨迹而产生的人事档案、为了锁定身份信息而产生的二代身份证等。概言之,犯罪记录其实又可以分为“为了专门记载犯罪而产生的记录”与“为了记载其他事实而产生的记录”两种类型。在我国,虽然有权解释已经将犯罪记录定义为“国家专门机关对犯罪人员情况的客观记载”,但其他一般主体通过复制、报道、转载等方式而产生的犯罪记录同样也会对前科者产生巨大影响,故这部分记录当然也需要得到适当处置,只不过其更多应当考虑的是技术层面的问题。鉴于此,就法学研究而言,对于犯罪记录的讨论就应当聚焦在狭义的犯罪记录(如犯罪数据库中的记录)与广义犯罪记录中的刑事司法文书上。譬如,当法院基于前科消灭或复权而撤销刑事定罪以后,即便犯罪数据库中的记录会随之删除,但只要刑事判决书与裁定书的样本仍然存在(即只被施加了某种限制公开的手段),那么这种删除制度其实与封存制度差距并不大。基于上述考虑,笔者整理了各国立法并发现,撤销刑事定罪与犯罪记录处置之间大致存在着一般关系、亲密关系、极端关系三种对应关系。

    (一)一般关系:犯罪记录封存但仍可使用

    所谓一般关系是指,当刑事定罪因实体权利恢复而被撤销以后,犯罪记录应予以封存,但这些记录只要满足一定条件,便又可以被解封并再次被使用。换言之,此时被封存的犯罪记录只能理解为被“雪藏”,而非彻底地物理性删除或消灭。目前,采取“一般关系”的国家,主要是实体法上采取复权制度的国家,譬如,美国、英国、加拿大等便是如此。

    首先,在美国,由于其50个州的刑事立法不完全相同,故若想对美国犯罪记录制度作精准区分并非易事。但大体而言,美国的犯罪记录制度确实存在一种立法偏好,即美国的定罪记录往往倾向于采取封存制度,而逮捕记录则倾向于采取删除制度。因为,美国一方面坚信,犯罪记录的永久化是为了阻止犯罪(人们会因犯罪记录的伴随而不去犯罪)和避免受害,故他们认为,“刑事司法机构和法院在掌握更多信息的情况下,他们能更好、更公平地预防与解决犯罪问题”;但另一方面,美国也有不少学者提出,将未定罪的逮捕记录贴上标签并归类为“犯罪记录”违反了无罪推定原则,它会导致被免罪的被捕者被当作罪犯对待和行事,并且,根据美国的一系列调查研究表明,逮捕记录对就业的影响其实与定罪记录几乎是一样的。针对上述分歧,考虑到我国尚未将逮捕记录纳入犯罪记录的范畴内,因而,本文此处便将目光聚焦在定罪记录上。目前,对于刑事定罪记录,美国绝大多数州采取的是封存制度而非删除制度,譬如印第安纳州、堪萨斯州、路易斯安那州、马萨诸塞州、明尼苏达州、内华达州、俄亥俄州、俄勒冈州、宾夕法尼亚州、犹他州、佛蒙特州、华盛顿州等均要求对刑事定罪记录进行密封或封存。显然,既然这些州针对定罪记录采取的是封存制度,那么,这些记录必然没有被登记部门彻底清除,它们客观上还有被解封甚至继续被使用的可能。对此,密歇根州第96区法院法官威廉·伊斯顿(William S. Easton)就曾坦言,“在大多数情况下,犯罪记录并没有被完全清除,而只是被封存起来供私人查询”。

    其次,在英国与加拿大,其犯罪记录的处置也采取的是封存而非删除的制度。在英国,犯罪记录的处置主要是通过《1974年罪犯康复法》与“失效”(spent)概念来完成的。比如,英国学者特里·托马斯(Terry Thomas)等人在谈及此话题时曾坦言,“犯罪记录并不是真的被删除,有记录的人在一定时间内没有再次犯罪,可以认为它或其他记录不复存在,故而‘失效’”。此外,在加拿大,委员会在定义取消犯罪记录时也曾指出,“取消记录并不是指实际销毁记录,因为试图这样消除犯罪记录的所有痕迹既不现实也不明智”。显然,根据上述介绍,当刑事定罪被撤销以后,英国与加拿大的犯罪记录并不会被彻底删除。事实上,也正是基于此,这就使得这些记录也会如上述美国一样,在满足某些特定条件后被解封甚至被再次使用。比如,在加拿大,倘若这些被封存的犯罪记录是为了研究目的或供记录主体的检查而使用时,这些记录就可以通过限制访问的方式(即去识别化)而被解封。

    (二)亲密关系:犯罪记录删除但可以再使用定罪材料

    所谓亲密关系是指,当刑事定罪因实体权利恢复而被撤销以后,(狭义的)犯罪记录会删除,但引起该记录的刑事司法文书仍然保存,且该司法文书还可以用来作为犯罪人再次犯罪时加重处罚的根据。换言之,在这种关系模式下,虽然狭义上的犯罪记录(即犯罪数据库中的记录)会被删除,但广义上的犯罪记录(如刑事司法文书)却依然会被保留。目前,采取“亲密关系”的国家,主要是实体法上采取复权制度的国家,譬如德国、日本、法国。

    首先,在德国,一旦犯罪人的实体权利与资格被恢复,那么,犯罪登记册上的犯罪记录就应当在一段时间后被删除。对此,早在上世纪20年代,德国就有类似制度。比如,根据德国《消除犯罪记录法》的相关规定,当犯罪人的资格与权利恢复以后,“应当消除的犯罪记录将被从记录簿中删除和毁掉。自消除犯罪记录的条件成熟之时起,就重新犯罪的处罚或其他与前科有关的处罚而言,对过去的判决即不再予以考虑”。后来,直到1971年,德国的《中央犯罪登记册法》又在此基础之上,规定了犯罪记录的勾销制度与删除制度。比如,根据该登记册法第45条之规定:①有罪判决的记录(第4条)在经过特定期间后(第46条)应当进行勾销;②当该记录被勾销后满1年,应当将其从犯罪登记册中删除,并且,在勾销期内不允许对该记录进行肯定答复;③被判处终身监禁的有罪判决或涉及安全警告与精神病医院的收容命令不得适用第一款中的记录勾销。显然,根据该规定,德国的犯罪记录在满足一定条件后是要被删除的。但与此同时,即使该记录被删除,“在以后的判决中,以前的判决将被用作认定行为人的全部个性的证据来使用,并可能导致法院在法定范围内选择较高的刑罚”。换言之,德国的犯罪记录删除制度其实并不是一种完全的删除制度,由于其先前的判决仍然可以被用作犯罪人再次犯罪时的证据材料,故这种制度本质上与“封存犯罪记录且只允许法院使用”的封存制度并无太大差别。

    其次,在日本与法国,它们的权利恢复制度也会引起犯罪人犯罪记录的删除。比如,根据《日本刑法典》第34条之二之规定,复权的效果是“刑罚宣告失去效力”,而对于这种失去效力所产生的法律后果,日本学者大塚仁与大谷石都曾表示,应当将被宣告人的名字从犯罪人名册(前科者名册)中删除。由此可见,日本对于复权者犯罪记录的处置采取的便是删除记录的制度。又比如,在法国,根据《法国刑事诉讼法典》第769条第2款之规定,“有关下列有罪判决的登记卡从犯罪记录中撤销:因大赦、自然复权或者裁判复权而消失的判刑,或者依据更在犯罪记录之决定重新改判的判刑”。此外,该法典第773-1条还进一步规定,“由大赦或自然复权或裁判复权而消失的有罪判决,不再记入犯罪记录档案”。显然,根据这些规定,法国的刑事判决一旦被撤销以后,犯罪人的犯罪记录也会随之从犯罪档案中删除。但必须强调的是,由于日本与法国的权利恢复制度均允许司法机构在新的诉讼中“适用法定累犯规制”或“将前科作为量刑资料”,亦即,即使犯罪人的犯罪记录(狭义上)已经被删除,但基于该犯罪事实而引起的刑事判决却仍可以用来作为他再次犯罪时加重处罚的根据。有鉴于此,应当认为,日本与法国的犯罪记录删除制度其实也是一种不完全的删除制度。

    (三)极端关系:犯罪记录删除但无法再使用定罪材料

    所谓极端关系是指,当刑事定罪因实体权利恢复而被撤销以后,犯罪记录应予删除,并且,引起该记录的刑事判决书不能用来作为犯罪人再次犯罪时加重处罚的根据。对此,值得注意的是,在这种关系模式下,虽然上述刑事判决书不会在之后的审判中产生加重处罚的客观效果,但这些判决书作为一种载体形式却通常会被保留下来。目前,采取“极端关系”的国家,主要是实体法上采取前科消灭制度的国家,比如,俄罗斯、匈牙利、塞尔维亚等便是如此。

    在这些国家中,由于他们采取的是前科消灭制度而非复权制度,故他们对于犯罪记录与刑事判决的态度较之复权国家势必更加严厉。比如,在俄罗斯,根据《联邦刑法典》第86条第6款之规定,“前科消灭或撤销后,本法典规定的与前科有关的一切法律后果便不存在”。针对此规定,俄罗斯联邦总检察院的解读是,“如果一个人前科被消灭或撤销,在犯新罪时,过去曾经犯过罪这一事实对定罪没有影响,不得认为是加重情节,法院在解决累犯问题时不得予以考虑”。显然,既然俄罗斯的犯罪前科被消灭以后,其先前的刑事判决并不会对新认定的犯罪产生影响,故俄罗斯对于犯罪记录的删除势必更加及时与彻底。对此,有匈牙利学者在论及该制度时就曾指出,“如果与所涉及数据相关的登记条件不复存在,则该数据就该立即从登记文件中删除。然后,被告人已经再也不能因为此前的判决而被确定任何法律制裁。这同时也意味着之前的判决已经不能被视为刑罚加重条件,即使法院通过某种途径获悉了可靠信息也不行”。但需要注意的是,即使犯罪人的前科被消灭,这也并不意味着需要删除引起该前科的判决,更不意味着需要抹销所有因该判决而产生的撤销痕迹。事实上,撤销定罪也会产生一些信息数据,而这些数据也会指向犯罪人曾经所犯之罪。概言之,这些撤销定罪的数据其实也决定了,即使采取前科消灭制度的国家也不可能将所有的记录载体都予以抹除。也正因为如此,一些国家便直接在刑法典中规定了撤销定罪的数据保密制度。

    确实,犯罪记录并不等同于刑事判决,因而,即便前科消灭制度要求删除犯罪记录,这也并不能直接推导出引起前科的刑事判决也应当被删除,其至多只能说该判决会因前科消灭而彻底失去刑法上的意义。实际上,“犯罪记录所记载的是客观犯罪事实和客观存在的刑事判决,这一客观事实是无法被消灭的,即便记载的文字或图像被销毁,也只是犯罪记录的载体被毁灭,客观存在的犯罪事实和刑事判决并不会因此而消灭”。况且,从档案学的角度来看,无论是司法机关的刑事侦查与审查起诉,还是法院系统的案件审理与刑罚执行,甚至是前科消灭与犯罪记录处置的整个过程,公安司法机关其实都需要对事情经过进行记录,亦即,在整个前科消灭的过程中,即使犯罪数据库中的犯罪记录已经被删除了,但原来的司法档案却依旧存在,并且,因该前科消灭而产生的司法文书与其他证明材料(如前科消灭证明书、前科撤销决定书等)也应当进行归档。有鉴于此,本文认为,判断犯罪前科是否被消灭的关键点,其实并不在于形式上的犯罪记录是否被删除,而在于这些犯罪记录到底能够被哪些人所知悉,其客观上到底又会产生何种法律效果。

    三、本土决向:从功能性前科消灭理论上构建犯罪记录制度

    通过上述撤销刑事定罪与犯罪记录处置的三种对应关系的考察,可以发现,前科消灭制度与复权制度对于犯罪记录的态度是不一样的。对此,不禁让人思考,我国到底应当采取何种权利恢复制度?并且,当权利恢复制度确定之后,我国到底又应当采取怎样的犯罪记录处置制度?显然,若要回答这些问题,就必须先对“复权”与“前科消灭”的本质属性进行探究,并以此为基础进一步讨论我国的犯罪记录处置制度。

    (一)复权制度和前科消灭制度的理念侧重与本质区别

    复权制度与前科消灭制度均属于实体法上的权利恢复制度。在我国,对于这两项制度的理解,理论界大致出现过三种观点。首先,有论者认为,“前科消灭”与“复权”是同一种法律制度。比如,这部分论者在谈及此二者关系时,往往会将它们的区别仅仅归结为“提法不一致”或“称呼不一致”。其次,也有论者认为,“前科消灭”与“复权”之间是一种包含关系,即,“前科消灭”应归属于“复权”中的一个部分。比如,这部分论者在理解“复权”的外延时,往往会将其具体区分为“恢复因资格刑而丧失的权利”与“恢复因前科效果而丧失的权利”两种类型。最后,还有论者认为,“前科消灭”与“复权”之间是一种递进的关系,即,只有当前科被消灭之后才会出现复权的问题。比如,有论者在探究这两种制度的逻辑关系时就曾指出,“前科消灭与复权并不能等同或者位置互换,二者可谓刑罚消灭制度的两个阶段,在实现了前科消灭的制度功能后,复权才能登场,这是两种制度协调配合的前提和原则”。显然,针对上述分歧,其无外乎是从形式上讨论了这两项制度的涵摄范围与逻辑结构。

    但事实上,前科消灭制度与复权制度在本质上存在更为明显的区别。复权制度最早产生于17世纪后半叶的法国,当时的复权以一种君主赦免权的形式存在,即,当被处刑者在刑罚执行完毕与赔偿完毕之后,国王可以通过赦免直接将犯罪人从名誉受损的污点中解放出来。后来,直到1791年,《法国刑法典》将这种恢复荣誉的决定权转交给了法院,具体而言,“法院不必按照特定之法定条件来对被处罚者的复原请求作出裁决,而是根据镇议会的有权威性的建议,经过自由裁量,认定被处罚者经过10年无可指责的表现之后,是否适合复原。复原的效果在于,完全消除判决”。概言之,当时的复权其实有着两个显著特点:第一,复权的成立并无完备的法定条件,其主要依靠法官自由裁量;第二,复权的效果是完全消除既有判决。但后来,在法国1808年的法律中,“复原的效果重新被限制在消除名誉受损上,而且在1852年7月3日的《恢复被审判人权利法》中,此等限制被再次确认”。换言之,此时复权所能引起的法律效果又从“完全消除判决”回归到了“恢复降低名誉”。再后来,直到19世纪末,法国的复权开始受到了实证主义法学的影响,比如,根据法国1885年8月14日的法律,当时的复权已被视为一种预防犯罪的手段,该法律甚至规定累犯只要经过更长的时间也能够恢复权利。但必须注意的是,自1808年以来,法国就再也没有将复权的效果扩张至“完全消除之前判决”,法国现行《刑法典》第133-16条第3款更是明确规定,“复权并不禁止司法机构在新的诉讼中,为适用法定累犯规则,考虑判刑之情形。此权利为司法机构独有”。

    由此可见,法国的“复权”其实经历了由“消除名誉污点”到“完全消除判决”再到“消除降低名誉”的过程,即,目前法国的复权所针对的对象就只是名誉与权利,而不会过多涉及先前的刑事判决。实际上,正是受到这种影响,当今各国的复权制度基本将其效力局限在权利与名誉的恢复上,而不会否定被撤销的定罪依然可以对之后的判决产生影响。比如,英国《1974年罪犯康复法》第4条第2款便规定,即使犯罪人的权利已恢复,但其先前的定罪信息仍可以被援引到具体的司法诉讼中,因为该款规定,“向他或她或任何其他人提出寻求有关先前定罪、犯罪、行为或情况的信息问题,要受到下文第(4)款作出的任何命令的制约,但司法当局的诉讼除外”。与此不同,采取“前科消灭”的国家,它们的制度设定就不仅要求恢复前科拥有者的权利与资格,还要求消灭既有判决所产生的法律效力,即,在这些国家中,犯罪前科一旦被消灭,其先前的判决便既不可以作为证据材料而使用,也不可以作为犯罪人再次犯罪时加重处罚的根据。比如,《俄罗斯联邦刑法典》第86条第5款将前科消灭的效果规定为“一切法律后果不存在”,而针对此规定,俄罗斯理论通说的理解是,“这表明,在行为人又实施新的犯罪时,第一个犯罪行为人不会对认定新的犯罪行为产生影响,不能被认定为多次犯罪,不能被看作是加重刑罚的情节,也不能作为改变剥夺自由刑服刑地点的理由等”。

    显然,通过上述比较,“前科消灭”与“复权”在本质上是存在差异的。对此,苏俄学者便试图通过“刑事法律关系”来展现前科消灭的制度特征。至于,如何理解刑事法律关系,苏联理论通说指出,“在刑事法律关系的主体中,一方面是国家,另一方面是实施了犯罪的人。作为权利的执行者,国家在刑事法律关系方面有权确认实施了犯罪的人应负的刑事责任,并对其适用法律所规定的刑罚,而实施了犯罪的人必须承担刑事责任并受到应有的惩罚”。换言之,在苏联学者看来,刑事法律关系其实是一种国家与犯罪人之间的权利义务关系,且这种关系的实质就是,国家有权利对犯罪人进行否定性评价与刑事处罚,而犯罪人有义务接受国家的刑事谴责与处置手段。那么,在刑罚执行完毕但犯罪前科尚未消灭的期间里,国家与犯罪人之间的权利义务关系是否会彻底消灭?对此,沙赫马托夫(Шахматов)的理解是,“从判刑人服刑时起(在不要求服刑的情况下,则从判刑时起)到前科消灭或撤销止,刑法关系继续存在。这种刑法关系是在以被判刑人及有前科的人为一方和以负责对这些人的行为及劳动态度进行检查或者行政监督的国家机关为另一方之间形成的”。确实,如果我们将犯罪的本质理解为国家与犯罪人之间的刑事法律关系,且这种关系的载体又表现为刑事谴责或基于该刑事谴责而产生的刑事处罚,那么可以认为,只要犯罪人的前科没有被消灭以前,其刑事法律关系就不会被彻底消除。因为,犯罪前科本就是一项国家所承认的刑事谴责制度,其天然带有对犯罪人的否定性评价,况且,在各国的刑事立法中,犯罪前科还通常被视为加重情节而存在。

    综上所述,由于复权制度不会否定先前判决可以作为犯罪人再次犯罪时加重处罚的根据,而前科消灭制度会彻底消除既有刑事判决产生的任何法律效力,故应当承认,这两项制度的本质差异在于,它们对于先前判决所引起的刑事法律关系的态度不同,亦即,前科消灭会彻底抹除这种刑事法律关系,而复权则不必如此。事实上,也正是基于这种差异,这才导致“前科消灭”与“复权”产生了不同的制度属性。具体而言,复权所强调的是恢复权利,而权利是否得到恢复,其判断标准在于犯罪人当下是否拥有某项权利,换言之,复权制度其实是一种“立足当下并展望未来”的法律制度。比如,韩国大法院在1974年5月14日的判决便指出,“刑法第81条的刑罚失效的宣告是消灭指向未来的刑之宣告的法律效果的旨趣,而不是甚至抹消以往的事实本身”。与此不同,前科消灭所强调的是消除刑事法律关系,而刑事法律关系是否被彻底消除,这就需要回溯到既有的刑事判决之中,换言之,前科消灭制度其实是一种“回溯过去并消除刑事法律关系”的法律制度。

    (二)我国应当在前科消灭的本质上探讨犯罪记录处置

    前科消灭制度与复权制度是两种不同的法律制度,并且,这种不同主要体现在,它们对于“实体法上的刑事法律关系”与“程序法上的犯罪记录处置”具有不同态度。因此,若要在我国构建起适当的犯罪记录处置制度,则必须首先回答两个问题:第一,我国到底应当在实体法上采取前科消灭制度还是复权制度;第二,我国所采取的权利恢复制度到底应当匹配什么样的犯罪记录处置制度。

    1.解答一:我国应当在实体法上采取前科消灭制度

    前科消灭制度与复权制度的选择,关键在于,我们希望所采取的权利恢复制度到底能够发挥何种作用,能够消除何种影响。在我国,任何一种犯罪行为客观上都会产生“国家对犯罪人的否定性评价”与“社会对犯罪人的否定性评价”两方面内容,亦即,犯罪的否定性评价其实是由法律评价与道德评价两方面组合而成的。鉴于此,前科消灭制度与复权制度的最终任务其实就是消除这两方面的内容。

    首先,对于道德评价,它是一种社会大众基于普遍道德规范与朴素正义理念而产生的对某种犯罪行为的否定性评价与谴责,并且,这种谴责超脱于实体权利且会对犯罪人的再社会化产生深远影响。具体而言,十里八乡的私下议论,职场同事的冷眼旁观,亲朋好友的故意疏远,人生伴侣的决意离开等都属于这种评价的表现。比如,针对犯罪与离婚的关系,我国有学者曾对重庆市某基层人民法院2010年至2012年的360起离婚案件做过调查,最终发现:在这三年内,因被告人服刑而选择离婚的,2010年有16人,2011年有8人,2012年有11人,总计35人,占总体离婚比率的9.7%。鉴于此,因犯罪而引起的道德评价确实需要相关制度予以关注,因为,倘若犯罪人在再社会化的过程中不能从道德上得到宽恕,这不仅会使他们无法从犯罪的泥潭中抽离出来,还会使他们产生角色认同进而出现继发越轨。但若要彻底消除这种后遗效果,仅仅凭借复权制度是不够的。诚如上文所言,复权强调的是一种“从无到有”的过程,其更多关注的是实体权利的恢复,而权利恢复并不意味着必须对先前的不利道德评价进行抹除;与此不同,前科消灭强调的是一种“从有到无”的过程,其更多关注的是刑事法律关系的消灭,而该关系一旦消灭,由前科所引起的一系列后遗效果自然应当随之消除。概言之,从制度本身的寓意来看,“前科消灭”与抹除道德评价的关系其实较之于“复权”更为紧密。

    其次,对于法律评价,复权制度与前科消灭制度的主要区别在于,先前的刑事判决能否在犯罪人再次犯罪时发挥效用。针对此区别,这就需要结合我国的司法现状进行考量。在我国,一系列数据统计已表明,犯罪人的再犯率是会随着刑满释放后的期限增加而逐渐降低的,即,我国绝大部分犯罪人只要在刑满释放后的一定期限内不犯罪,其便大概率不会再犯罪。比如,2017年重庆市某监狱系统人员曾对402名再犯人的犯罪原因进行调查,并发现,在这些人中3年以内又实施犯罪的有244人(占60.7%),3至5年内又实施犯罪的有86人(占21.4%),5年以上又实施犯罪的有72人(占17.9%)。鉴于此,对于大部分能够顺利融入社会的前科者,我们有什么理由不彻底清除其在刑法上的否定性评价?况且,根据我国《刑法》的罪名设置,其中既存在大量严重犯罪也存在大量轻微犯罪,既存在大量常发犯罪也存在大量偶发犯罪。换言之,在何种程度与何种范围内消除犯罪前科,这其实与否定前科消灭制度是两个不同层面的问题。诚然,倘若我们要将一个杀人犯、强奸犯、贪污贿赂犯的前科进行消灭,这必然会引起民众抵制甚至社会恐慌,但这并不能否定危险驾驶罪、代替考试罪、高空抛物罪等可以适用前科消灭制度。事实上,有些人一旦实施了某种犯罪,他们便不可能再实施类似犯罪。比如,就拿代替考试罪来讲,当某人代替他人参加国家统一考试而获刑后,他不仅会受到管制或拘役的刑事处罚,还会受到一定期限内禁止考试的行政处罚,而经过这些处罚后,该人无论是从知识储备的更新上,还是从考试年龄的适度上,他其实都难以再担任“枪手”的角色。既然如此,有选择地采取前科消灭制度,才真正符合犯罪的规律与预防的目的。

    此外,我国对于前科消灭制度与复权制度的抉择,客观上也会受到我国刑事程序法的影响。近年来,随着我国刑法结构的轻刑化转型,大量轻微犯罪被纳入刑法典中,尤其自2020年以后,随着帮助信息网络犯罪活动罪的发案数激增,其已与危险驾驶罪、盗窃罪共列为我国发案数最高的三类犯罪。面对如此情形,我国诉讼法学界试图在构建“轻重分离、快慢分道、繁简分流”诉讼模式的同时,强调轻案快立、快侦、快诉、快审。譬如,2025年最高人民检察院应勇检察长在工作报告时就曾指出,2024年我国“依法规范适用认罪认罚从宽制度,86.9%的犯罪嫌疑人在检察环节认罪认罚,一审服判率96.9%,高出未适用该制度案件34.8个百分点”。显然,从这些举措中可以看到,当今我国刑事程序改革其实主要围绕“繁简分流、提高诉讼效率”进行展开,而这就决定了,我国现有的刑事追诉体系依然没有较强的过滤机能,绝大多数轻微犯罪依然会进入到审判程序,甚至被判处刑罚。譬如,海淀区人民检察院在其发布的《轻罪治理白皮书(2018—2023)》中就曾指明,“从轻罪案件的审结处理情况来看,2018年至2023年8月,经审查作出起诉决定的11852人,起诉率为65.2%”。针对这种现状,我国便不能采取类似西方的复权制度,因为,西方大多采取复权制度的国家其刑事追诉体系呈现漏斗形,大量轻微刑事违法行为会因各类程序设置而被过滤,如有学者在论及德国刑罚的轻缓化时就曾指出,2013年德国“最终进入法院审判程序的案件数仅为立案数的12.7%,而最终受到法院有罪判决的案件数仅为立案数的8.76%左右”,换言之,某些西方国家即便采取复权制度,其因犯罪前科而引起的负面效果也往往会因刑事追诉体系而得到缓解;与此不同,由于我国的刑事追诉体系仍呈现直筒式,且我国检察院每年提起公诉的案件达100多万件,故我国对于彻底消除轻微犯罪的前科影响便有着更为强烈、更为急迫的需求。

    2.解答二:我国的犯罪记录处置应当发挥社会功能

    就实体权利恢复而言,我国应当采取的是前科消灭制度,并且,该制度的本质就在于彻底消除先前判决所引起的刑事法律关系。既然如此,我国到底应如何在此基础上构建犯罪记录的处置制度?进一步而言,我国的犯罪记录是否也应当如其他采取“前科消灭”的国家一样,一旦犯罪前科被消灭,由此产生的犯罪记录也应当随之被删除?

    事实上,由于“前科消灭”与“犯罪记录处置”是两种不同的法律制度,因而,即便犯罪前科被消灭,犯罪记录也不必然会被删除。因为,犯罪记录也有广义与狭义之分,即使是采取前科消灭制度的国家,其狭义上的犯罪记录(如犯罪数据库)确实会因前科消灭而被删除,但广义上的犯罪记录(如刑事判决书)也依然会被保留下来。换言之,删除犯罪记录的制度其实并不会对所有的犯罪记录都进行删除,它的实际意义只在于,消除大部分人对犯罪记录接触的可能性。这正如档案学者何梅所言,消灭犯罪记录与消灭犯罪档案中的“消灭”只不过是一种“虚拟消灭”,其最终意义仅仅是“让人查找不到”。既然如此,犯罪记录的删除制度与封存制度客观上并不是一组绝对排斥的法律制度,它们的差别只在于犯罪记录的公开程度不同而已。其实,倘若从消除刑事法律关系的角度去剖析前科消灭制度,也能发现此二者之关系。因为,刑事法律关系的一端在于国家对犯罪人的否定性评价与谴责,而另一端在于犯罪人应当接受这种否定性评价与谴责,故消除刑事法律关系的实质便在于,消除国家的否定性评价和基于该评价而产生的社会评价。进言之,倘若我们能够消除犯罪前科所引起的这些评价,那么,基于该前科而引起的刑事法律关系自然也就能够被清除。显然,若要消除犯罪前科的法律评价,其关键在于避免将之前的判决作为下次判决时加重处罚的根据;而若要消除犯罪前科的社会评价,其关键在于避免将之前判决所引起的犯罪记录继续流入社会。亦即,只要犯罪人的犯罪记录被封存(阻止了其再次流入社会)且法院不能接触到这些记录(阻止了其再次定罪使用),此时便可以说,刑事法律关系已经被切断。至于,社会上已经流传的各类二级来源记录,虽然它们不可能被彻底清除,但由于这些犯罪记录已经丧失了存在的合理根据,因而,它们的拥有者也就具有了删除这些记录的法律义务与(有限地)帮助名誉受损者恢复名誉的义务。

    那么,我国(狭义的)犯罪记录到底应当采取删除制度还是封存制度呢?对此,本文提出了一种功能性的前科消灭理念,亦即,我国犯罪记录制度的构建应当坚持,在不违背刑事法律关系被彻底消除的前提下,尽量发挥犯罪记录的制度功能与社会功效。简言之,功能性前科消灭理论的宗旨在于,以坚守前科消灭的本质为最终底线,探讨如何实现社会运转的最大功效。毋庸讳言,犯罪记录作为一种行政管理手段,它有着极大的社会价值,诸如美国等国之所以如此注重对犯罪记录的留存,很大一部分原因便在于,它们的犯罪记录被注入了维护公共利益的内容。譬如,在美国的司法实践中,目前各巡回区法院几乎已经形成了一种共识,即犯罪记录被删除的人不应比被宣告无罪的人处于更好的地位,并且,美国的法院档案和关于犯罪记录的互联网信息几乎可以自由获取,有些州甚至还公开了法庭记录中的文件,而这些文件通常又会涉及犯罪人的精神信息、身体健康信息以及亲密的个人家庭历史等。正因如此,即使有不少学者已经证明“伴随着公开的犯罪记录标签,更有可能增加而不是减少累犯”,但美国绝大多数州在定罪记录的问题上,依然采取的是封存制度而非删除制度。因为,他们始终认为,在刑事案件的处理过程中,倘若司法机关能够掌握更多的信息,便能更好、更公平地预防和解决犯罪问题。

    确实,犯罪记录拥有巨大的社会功效,它不仅有助于刑事案件的排查与侦破,还有助于政策法律的制定与实施,甚至有助于理论研究的开展与深化。对此,早在19世纪末,法国著名社会学家迪尔凯姆(Durkheim)在《社会学方法的准则》一书中就曾指出,犯罪的产生具有普遍性与必然性,只要犯罪行为没有超出每个类型社会所规定的界限,它就是一种正常的社会学现象,并且,这些现象能够在明确道德界限、强化社会团结、推动法律发展、促进社会进步等方面发挥重要功能。而相较于犯罪现象本身,犯罪记录作为国家专门机关对犯罪情况的客观载体,其在上述功能的发挥问题上必然扮演重要角色。尤其是,对于世界人口总量排名第二的中国来讲,我国的犯罪基数相较于一般国家更多,人口密度相较于一般国家更大,故我国对犯罪案件的侦破相较于一般国家更难。譬如,根据《中国法律年鉴》的数据,从2005年至2022年间,全国公安机关本年度刑事案件破案率的峰值发生在2007年,当年的刑事立案数为4807517起,当年破获的刑事案件数为2410008起,破案率仅为50.13%;谷值发生在2015年,当年的刑事立案数为7174037起,当年破获的刑事案件数为2243227起,破案率仅为31.27%。由此可见,我国公安机关本年度的刑事案件破案率其实并不高,且近年来持续稳定在40%左右,也即,从刑事案件侦破的角度来看,我国对于犯罪记录的留存客观上有着极大的现实需求。况且,犯罪记录一旦被保留下来,我们还可以通过对这些记录进行匿名化或者去识别化处理,从而将其提供给公共部门、高等院校以及科研机构等进行犯罪研究与制度建立。基于此,结合我国的基本国情与制度构架(即我国的刑法典主要是一部维护公共利益与公共秩序的法典),本文认为,我国的前科消灭制度应当匹配的是犯罪记录封存制度而非删除制度。

    顾名思义,“封存”作为一个概念,它是相对于“解封”而存在的,亦即,既然我国应当采取的是封存犯罪记录的制度,那么,被封存的记录何时可以被解封,这便是不得不考虑的问题。因为,即便同样采取的是封存记录的制度,但如果犯罪记录被解封的实质条件与难易程度不同,那么,这些制度便会有着“量”甚至“质”上的不同。比如,在加拿大,只要警方能够证明被封存的犯罪记录对于公众来说有着足够的重要性,该记录就可以被再次公开。显然,就这种封存制度而言,它是一种脱离“消除刑事法律关系”的制度,其解封的条件就只在于犯罪记录本身的重要性。又比如,在美国,伯纳德·科刚(Bernard Kogon)等人也曾指出,“所有的记录都不是也不可能被密封,根据通常写入法律的限制和例外情形,被封存的记录很容易在形式上和程序上被解封”。但需要指出的是,被封存的犯罪记录之所以能够被轻易解封或被广泛使用,这其实只是制度设计的问题,而与制度本身并无绝对关系,况且,美国和加拿大在实体法上所采取的权利恢复制度,本来就是不抹除刑事法律关系的复权制度。既然如此,结合上述功能性前科消灭理论,本文认为,我国采取的犯罪记录封存制度必须以彻底消除刑事法律关系为根本底线,亦即,此时所留存下来的犯罪记录不能用于加剧犯罪人法律评价与社会评价的目的。具体而言,这些犯罪记录只能用于刑事侦查、理论研究、政策制定(后两种情形必须进行匿名化处理)等有利于实现公共利益的场合,而不能用于犯罪人再次犯罪时加重处罚的根据。

    四、结语

    现今,我国出现了一种意识观念碎片弥散与道德规范冷漠无视的状态,对此,为了化解社会紧张,刑法便试图通过制定轻微犯罪来树立国民的规范意识。但很显然,由于这些犯罪与传统犯罪有着不同的规范设立目的,并且,它们的最高法定刑又偏低,故对这些犯罪也施以永久性前科势必违反罪刑相称的基本原则。然而,由于我国刑法是一部“重罪重刑的小刑法”,故学界在讨论轻微犯罪的前科消灭时,往往会通过“拔高轻微犯罪的入罪门槛”或“限缩犯罪前科的成立范围”来消除这些犯罪的前科弊端。确实,倘若我们认为某种越轨行为不是犯罪,自然不会因犯罪而产生前科;倘若我们认为某种犯罪不会产生前科,自然也不会出现前科消灭的问题。但这种做法却无形中混淆了犯罪前科与犯罪记录的关系,掩盖了犯罪前科与复权的差别,使我国出现了“存在犯罪记录封存却无前科消灭或者复权”的尴尬局面。

    事实上,“犯罪前科”与“犯罪记录”是两种不同的法律制度,“犯罪前科”作为一种实体法制度,其对程序法上的犯罪记录处置具有统摄与指引的作用。既然如此,在刑法结构轻刑化转型的今天,在学界为构建犯罪记录封存制度而奋进的当下,确有必要对实体法上的权利恢复制度(即前科消灭制度与复权制度)与程序法上的犯罪记录处置制度(即删除制度与封存制度)作深入讨论。因为可以预见,在解决我国轻微犯罪人再社会化的问题上,我国自主知识体系的构建一定是兼顾实体法与程序法的,一定是在厘清前科消灭制度与复权制度的关系后才进行的。正是基于这种考虑,本文便以犯罪前科与犯罪记录的关系为切入点,结合了犯罪前科的弊端消除、犯罪记录的社会价值以及我国规范的设定模式与刑事追诉体系的制度特点等因素,并最终提出了一种功能性的前科消灭理念。

    转自《中外法学》2026年第1期

  • 张昌平:三星堆、金沙、竹瓦街:公元前1100年前后的成都[节]

    成都平原的三个古蜀文明高等级聚落

    公元前1100年前后的成都平原,有三个高等级的聚落,分别是三星堆、金沙和竹瓦街。

    三星堆遗址位于广汉市,1927年被发现,1980年开始多次大规模发掘并命名为三星堆文化,其年代从二里头文化时期延续到晚商时期。遗址面积12平方公里,包括年代有先后的小城和大城,以及大型建筑。1986年发现并发掘一、二号祭祀坑,出土神树、立人像、人头像、人面具等大量青铜器以及金器、玉石器等,出土物的年代多在晚商时期。学者们相信,这些器物原系用作祭祀。2019年,在祭祀坑附近又发掘了第三号到第八号祭祀坑,出土物在类别和特征上与此前发现近似。三星堆祭祀坑的考古发现引起轰动,是因为此前成都平原未发现早于西周时期的青铜器群,更因为其出土青铜器奇崛谲怪的风格迥异于传统的中原文化,异于过去人们所熟知的早期文明。

    三星堆遗址特别是祭祀坑出土的文物,清晰地反映出三个不同阶段的中原文化因素对本地文化的影响,它们分别为二里头文化时期、殷墟一期前后和商末周初。陶盉和镶嵌绿松石的牌饰,以及祭祀坑所见玉戈、牙璋,形制均属二里头文化风格,尽管部分器类存在本地化调整,但这些文化因素明显源自二里头文化。以尊、罍为代表的青铜礼器与台家寺等长江中游地区出土的龙虎尊等青铜容器高度相似,体现出与中原地区殷墟一期前后文化的强烈关联。祭祀坑还见有模仿中原器型风格但属本地铸造的青铜容器如觚形尊等,年代应属商末周初。

    金沙遗址位于成都市西郊、三星堆遗址西南40公里处,遗址面积大于5平方公里。遗址发现有建筑、墓葬等,其中东南部的祭祀区面积超过一万平方米,出土黄金、青铜、玉石等贵重材质器物。金沙遗址毗邻十二桥遗址,共同构成十二桥文化的主体遗存。规模庞大的遗址群显示金沙同样是一处古蜀文明的王国政治中心。

    一般认为十二桥文化年代属于西周春秋时期,晚于三星堆文化,金沙是三星堆王朝衰落后新的政治中心。不过,金沙祭祀区出土青铜器的年代并不支持这样的结论。金沙祭祀区出土青铜器多数是被打碎的残片,过去我们对其全貌缺乏认知。通过细致的拼合与比对,可以识别出不少青铜器的年代。比如部分青铜残片,包括半浮雕的兽面纹纹饰部件、扁体鸟形装饰等等,都与三星堆祭祀坑所出中原文化尊罍的器物形制、纹饰完全相同,这说明祭祀区的年代可以早至商代晚期的殷墟文化第一期。此外,金沙遗址还发现可能早至商代中期的遗物如年代较早的青铜戈。较晚的青铜器比如金沙祭祀区青铜双耳罍残片、提梁卣残片,又与西周早期中原文化风格青铜器几乎完全相同,部分兽首残片与安徽桐城出土青铜器相近,年代应在春秋早中期之际。可见,金沙的繁盛阶段在商代晚期至西周早期,并一直延续至春秋早中期。

    竹瓦街位于彭州市东南,三星堆遗址之西15公里、金沙遗址之北25公里处,遗址面积3平方公里。1959和1980年这里两次发现青铜器窖藏,两处窖藏都是在大套缸内放置青铜器,第一次的青铜器有5件双耳罍、1件尊、2件觯,以及10多件兵器,第二次的有4件双耳罍,10多件兵器。除了兵器属巴蜀当地风格之外,出土的双耳罍、尊、觯等青铜容器都是中原文化风格,部分罍的形制与纹饰特征和湖北叶家山西周早期墓葬所出器物高度相似,觯上还带有商式铭文或族徽,尊和觯可能是作为赗赙或灭商所得。这些青铜容器的年代、构成,和叶家山曾国墓葬青铜器完全相同。

    从年代上看,以上三处遗址中的三星堆是从二里头文化到商代晚期,金沙是从商代前期到春秋早中期,竹瓦街属于西周早期。可见当年三处城市续存时间并非先后关系,至少在商代晚期、西周早期两个阶段存在两两重叠。同时,三个城市规模都在3平方公里以上。这样的规模以及高等级的青铜器,说明它们在当时的性质都应是都城。考虑到它们在空间上直线距离均在15公里以上,不应是一个王国的多处都城,推测可能是并存的古蜀文明不同王国。

    成都平原在商周之际的政治格局需要我们重新审视。在中原地区的周边,很可能分布着较多区域范围不大的地方王权,三星堆、金沙、竹瓦街可能分别代表了成都平原上平行发展的区域性政体。

    不同聚落的祭祀遗存

    我们熟知三星堆祭祀坑出土器物当初是用于祭祀的,其实金沙和竹瓦街也存在祭祀。这些地点的祭祀遗存在具体表现形式上各有不同,若将其比较观察,则有助于我们进一步理解成都平原当时的祭祀活动。

    金沙遗址发掘出的祭祀区非常清楚明确。祭祀区主体是一个大致为长方形的土台,面积有一万多平方米。围绕这个祭祀区发现有复杂多样的祭祀形式(包括对祭品的处理):或将礼仪性用品(祭品)沉于湖沼或低洼之处,或者挖坑将其集中分层堆置,或者集中堆置于地面。许多祭品被打碎,祭祀区还遗留大量灰烬层,表明焚烧是祭祀活动的重要环节。这些迹象表明,金沙祭祀区当时是一个长期、反复使用的祭祀现场,祭祀活动持续在露天场地进行。

    三星堆祭祀坑出土遗物主要有青铜器、玉石器、陶器以及黄金等人工制品,另一类则为大量自然遗存,包括象牙和约3立方米的烧骨碎渣。人工制品可以分成如下六类:第一类是具有人格性器物,包括青铜人像、人头像、人面具、青铜兽面具、兽面、眼形器、太阳形器等;第二类是人物与动物组合成复合型器物,包括青铜神树、祭坛、神兽以及附属的人物、龙、鸟、铃等;第三类是青铜容器,包括尊、罍、瓿、盘等,具有商文化风格;第四类是青铜或玉石质地的仪式性器物,如牙璋、戈、璧形器、凿等,与中原文化同类型玉器一致;第五类是可能为外来背景的器物,有金器、海贝、象牙、红石玛瑙等,多数学者认为海贝源于印度洋地区,黄金亦多被视为外来输入,红石玛瑙则具有西来背景;第六类为陶容器,主要是尖底盏、器座等,二者配合使用,可能用于盛放食物。

    三星堆祭祀坑不同类别的出土物,具有极强的原始宗教意味,学界共同的意见认为这些都是用于某种祭祀活动的,而对于所发现的8个祭祀坑是否应该称为祭祀坑这一问题则大有分歧。目前大部分学者认为,这些被烧过的、集中填埋的器物,很可能是当时战争甚至是灭国的结果。不过,我们认为当年发掘报告对祭祀坑的判断是正确的。首先,包括新发现坑在内的8个祭祀坑分布、排列和朝向明显有一定的方向和秩序,各个坑的形制都是规整的长方竖穴,这明显是有规划的施工行为。其次,各个坑内的器物类别非常内聚,大部分坑同时放置类别近似的青铜器、玉器和象牙等,少数坑如K5专门埋葬可能属于同一器物的金器和牙雕,埋葬过程比较讲究。再次,各坑器物呈有序摆放状态,比如器物多是平整分层,象牙铺设在最上一层,这些器物显然不是随意抛弃堆放。如此等等情况说明,三星堆8个祭祀坑并非因为战争或灭国等行为造成,更可能是祭祀活动之后将祭祀物品集中且审慎地填埋。砸碎坑内许多器物的行为,特别是青铜器被砸碎或遭焚烧,很可能是如同金沙祭祀现场那样的毁器祭祀习俗。这一习俗在商周时期中原文化墓葬、在世界其他不少古文化中也多存在。此外,三星堆各个祭祀坑内还埋填有草木灰烬,《三星堆祭祀坑》报告描述二号坑填埋有“约3立方米的烧骨碎渣”,说明烧燎等祭祀活动可能就在近旁。总之,考虑到8个坑分布相对集中的特征,推测器物埋葬过程也是在某种祭祀仪式下完成的,即这些坑的形成仍然伴随有祭祀活动。因此说,将三星堆祭祀坑“坑”的性质定位在祭祀,称之为祭祀坑,也是合理的。如果推测三星堆祭祀坑的器物都是用作祭祀活动,那就有理由根据这些器物复原三星堆祭祀的场景。

    竹瓦街的两处窖藏发现的都是青铜器,且分置于两个大型陶缸内。这些青铜器包括青铜容器和兵器,相同的器物类别均见于三星堆和金沙的祭祀场中。推测竹瓦街的这些青铜器很可能尚未进入祭祀活动而是集中贮藏,以备祭祀之需。

    竹瓦街、金沙、三星堆三处考古遗存,恰好勾勒出成都平原早期祭祀活动的不同环节:竹瓦街代表了祭祀器物的储备状态;金沙展现了露天祭祀正在进行时的场景,包括水祭、燎祭、坑祭等;三星堆则反映祭祀活动结束,或者是一个阶段的祭祀活动之后,对相关器物的最终处置。三者虽非同时发生,却共同阐释了本地祭祀礼仪的完整逻辑。因此,公元前11世纪的成都平原先民在祭祀上有着极其相似的理念。

    成都平原与长江中游地区的文化关系

    通过对三星堆、金沙及竹瓦街三处遗址的关联分析,我们可进一步将成都平原的早期青铜文明置于更广阔的跨区域互动网络中考察。公元前11世纪的成都平原所见中原文化青铜礼器,说明其并非孤立的“文化飞地”,而是与长江中游地区有特定的文化联系。

    二里头至二里岗文化的夏和早商时期,中原王朝势力强势南扩,在长江流域建立以盘龙城为代表的一些关键据点,形成了对长江中游地区的直接控制。这一时期中原文化的影响力已经渗透到成都平原,在三星堆遗址发现的不少二里头文化性质的遗物,如青铜绿松石牌饰、玉牙璋以及陶盉陶觚等,都是这一背景的反映。晚商时期,随着中原王朝势力在南方地区的退缩,长江中游地区相继兴起了多个具有高度地方特色的青铜文明中心,如以江西新干大洋洲为代表的吴城文化、以湖南宁乡铜器群为代表的炭河里文化等。这些地方政体与中原王朝保持着密切联系,如向中原王朝提供大批量的青铜资源,甚至包括长江下游地区的原始瓷、印纹硬陶等资源以及用于占卜的龟甲等。

    成都平原的三星堆文化与商王朝核心区之间未有地理上的毗连,他们是如何关联的?这要从长江流域那些和三星堆类似的折肩尊罍说起。

    长江流域在二里岗中商文化之后,兴起了大量折肩尊或罍,其形制特征高度一致。这些尊罍的产地可能在中下游交汇地带的一支青铜文化,其产品随后又扩散到其他地区。因为出土尊罍的这些地点分布在长江和汉水沿线,形成了清晰的文化传播线路。由此我们可以理解为何在江淮地区、长江中下游、长江上游以及汉水流域众多地点都发现了折肩尊和罍,以及同性质的瓿。在三星堆1986年的两个祭祀坑中,共出土此类尊和罍15件,另外有瓿1件。2019—2021年度祭祀坑的发掘,又有新的同类尊罍出土。

    三星堆祭祀坑出土的尊、罍等青铜容器,在器形、纹饰及铸造工艺上均与典型中原商式器物存在明显差异,但与长江中游地区出土的同类器物高度相似,具体表现为颈部的数周弦纹、肩部的扁体小鸟装饰、轻薄器壁形成的“凸凹式”铸造特征,以及四兽首罍等特殊形制。最新的溯源研究工作也支持这些器物与三星堆本地生产的人头像等属于不同产地的判断。这表明,三星堆的高等级青铜礼器,很大一部分是通过长江通道,自湖南、湖北经三峡进入四川,从长江中游的某个生产中心输入或获得技术启迪后在本地仿制,生产中心可能位于长江中下游铜矿带附近。

    竹瓦街青铜器窖藏的双耳罍等容器同样揭示出其在西周早期与长江中游的紧密联系。竹瓦街的青铜容器有两类:一类是西周早期风格青铜器,包括蟠龙造型的双耳罍等;一类是周初“分器”所得的带有商式族徽的晚商器物。这两类器物与湖北随州叶家山曾国墓地所出器物几乎完全相同,完全相同的器形在叶家山曾侯墓葬M111可以找到,甚至连器底悬铃的细节都一致。参考三星堆尊罍与长江中游的联系,可知竹瓦街的这类青铜器也是来自长江中游,诸如曾国这样的诸侯国。竹瓦街这些青铜器来源背景和三星堆一样,只是年代进入了西周。换言之,西周早期成都平原与长江中游地区的关联一如既往。

    金沙既出土和三星堆同类的折肩尊罍,同时又有双耳罍、卣等中原风格的青铜器,说明这里的王权像三星堆、竹瓦街一样,在晚商、西周早期都通过长江中游地区获取青铜礼器等资源。

    至此,我们可以看到,公元前11世纪的成都平原,三星堆、金沙、竹瓦街等不同的王权国家都与长江中游地区保持密切关系,都不约而同获取来自长江中游地区的青铜礼器。青铜礼器在中原地区是高等级社会阶层身份地位的体现,成都平原王权国家对此类高等级资源的追逐,说明了他们对中原文化的价值认同。

    三星堆祭祀场景的建构

    如果三星堆祭祀坑出土器物均来自祭祀现场,那么这些器物应该全面反映了祭祀活动中方方面面的场景。换言之,通过祭祀坑器物的构成,我们可以尝试重建三星堆的祭祀场景。

    任何祭祀仪式都包含几个基本要素:祭祀者、受祭者、沟通二者的祭器,以及向受祭者奉献的祭品。三星堆祭祀坑的器物群,可按这些要素进行归类与分析。这其中,祭祀者和受祭者是两个关键方,尤其是受祭者具有更高的地位,亦是祭祀性质的定位者。如果确定受祭者是先辈,则祭祀属于祭祖,如此等等。

    三星堆祭祀坑中出土了大量具有“人格性”的器物,这些器物很可能属于祭祀者和受祭者。因此,理解这些器物的基本特性,是理解整个祭祀体系的关键。不难注意到,这些人格性器物在以下四个方面的特性非常突出。其一,人物五官是写实性的表达。所有人物面孔的表现高度一致,无论是真人大小的头像,还是仅高数厘米的小型人像,都是三角形眼、棱形鼻等相同的五官,特别是阔嘴的两端向下钩、大耳作出复杂的结构等。这样写实的表达方式,说明不同发饰、不同头饰的人头像,可能在指代不同的可辨识的人物。三星堆先民使用一套固定的视觉语言指代“人”的概念,遵循这种概念的造型范式可能延伸到人物之外的人格性器物。其二,眼睛具有角色指向性。三星堆所有人格性形象中,最引人注目的是他们的眼睛。眼睛也是不同类别形象的最核心分类标识,人物形象如人头像、人面具一概为三角形眼;圆角四边形眼主要见于兽面、神面具,当此眼型与人的面部结合时,可能象征更高阶的神灵;圆形眼见于太阳形器、呈菱形的眼形器,可能代表最高层级的天体神。眼睛的形态、是否凸出以及结构特征,共同构成了区分祭祀对象神格与神职的关键符号系统。其三,人格性器物体量大小与身份地位相关。在三星堆的视觉逻辑中,形象的体量大小直接象征其社会与宗教地位。立人像为真人大小,而跪坐人像体量都很小,一般不超过15厘米。不少人面具大于真人,少数人面具和兽面具数倍于真人大小,无疑代表着很高的地位。其四,姿态不同说明身份性质不同。在全身人像中,大小不同,姿态不同,显示的地位高低也不同。比如,唯一的立人像最大,且站在80余厘米的基座上进一步增加高度,其地位在人像中最尊贵。兽首冠人像稍小,华服高冠,呈贵族形象。跪坐人像形象最小,跪坐的姿态合乎其最低的等级。这些人像多数都是双手持物做奉献状,显示其作为祭祀者的身份。那些只有面部五官的人格性器物应该都是绑缚在其他物体上出现的,他们的身份应该具有某种共性。比如人头像颈部以下中空,是套接在木桩之类的物体上。人面具、兽面具等两侧有穿孔或钻孔,是为了绑缚固定而设。综合以上特性,我们可以推测带有躯体的全身人像可能是代表现实世界的人物,其形体大小、姿态表达不同社会地位,其中的立人像为真实人物大小,应该代表神权地位最高的王。人物中的人头像和人面具,形象与人像同类,可能是代表逝去的先人,其体量较之立人像有大有小,暗示其地位较之王有高有低,他们应该包括逝去的贵族和先王。四边形和圆形眼睛的器物所代表的是另一层面的神灵,特别是纵目和圆形眼睛所代表的,应该是层级较高的神灵。

    由此,我们可以为三星堆重建一个层次分明的祭祀场景:仪式在露天举行,受祭者为各类祖先(人头像、人面具)、天地神灵(太阳形器、眼形器、兽面、兽面具),被立于木桩或绑缚在树上;祭祀者是以代表王的立人像为首,率兽首冠人像和跪坐人像等贵族及平民的祭祀者阶层,面向受祭者进行祭拜。祭器为高大的神树、多层的神坛、大型鸟形饰等,其结构具有强烈的宇宙沟通意味,用于仪式中连接天、地、人三界。祭品包括以尊、罍为代表的青铜容器,源自中原的玉璋、戈、有领璧等仪仗器,还有斧、凿等工具,以及方孔璧和海贝等。除此之外,还包括由尖底盏和器座构成的陶器组合所盛放的食物,用以满足祖先的“宴飨”之需。

    在三星堆祭祀中,受祭者构成复杂,是将天地人神纳入同一个合祭系统中。祭祀参与者甚多,代表了神职人员以及社会不同阶层和族群人士。王的参与、多层次神灵以及数量众多的祭器和祭品,反映的是一个国家级的祭祀活动。

    成都平原的早期青铜文明

    三星堆祭祀体系及其反映的文明互动模式,为我们理解成都平原早期青铜文明的特质与兴衰提供了关键视角。祭祀活动中所进献的祭品,集中体现了当时社会所认定的最珍贵之物,进而折射出三星堆文明当时的物质追求、文化认同与对外交流网络。

    三星堆祭祀活动的祭品在来源上主要有两种。其一是来自远方的珍稀资源与相关物品,如海贝、象牙、黄金、玛瑙等。只有难以获取的、具有非凡稀缺性的外来之物,才会被赋予神圣价值,用于最高等级的祭祀活动。其二是源于中原文明的高级礼仪器物与文化符号,如青铜尊、玉器、有领璧等。在操作上,三星堆先民不仅直接将这些器物作为祭品,亦对其文化因素进行模仿与创造性使用。例如三星堆青铜大面具中央类似扉棱的装饰,实际上来自龙虎尊虎形纹饰上的立羽纹。源自长江中游的铜尊,既可能被直接献祭,也可能被切改、焊接上本地风格饰件,转而成为某种仪仗或神像的组成部分。这种行为超越了单纯的物质输入,体现出三星堆对中原文化的深刻认同。

    从技术与资源角度来看,三星堆青铜文明的形态与中原文明紧密相连。三星堆铸造工艺系统与中原相同,均采用块范法,以垂直分范为块范法的核心技术。三星堆青铜器工艺技术实践,可视为中原文化青铜器技术系统的简化版或地方变体。对三星堆青铜器的铅同位素分析显示,其使用与中原及长江中游青铜器相同的高放射性成因铅,三星堆铸造青铜器所需的关键物料很可能与部分成品一样,来源于长江中游地区。此外,三星堆的玉器、绿松石器等因素,也来源于中原文化。

    金沙的情况与三星堆相似,其部分青铜器、玉石器、绿松石器或直接、或技术上来自中原文化。除了青铜器之外,金沙的镶嵌兽面纹绿松石饰品等级很高,大概率来自商王朝都城大邑商。如前所述,竹瓦街的中原风格青铜器也是来自长江中游地区。这样,成都平原同时拥有来自大邑商和长江中游地区的高等级器物,以及长江中游的青铜产品、铸铜技术、铜资源以及玉器等。

    从考古发现来看,成都平原显然并非只是中原文化交流的被动接收者,而是同时扮演着向长江中游和中原地区输送资源的角色。比如,三星堆祭祀坑显示出其在黄金、海贝、象牙、红石玛瑙等资源上的拥有力,但这些也非本地资源。推测三星堆很可能承担了这些资料的“转口贸易”职能,将获取的更远区域的珍稀资源,输送至长江中游地区,再由后者输送至商王朝核心区域。

    成都平原与长江中游地区这样的互动模式,也与晚商时期的地缘政治格局相契合。这一时期商王朝直接控制范围虽有收缩,但青铜文明发展至巅峰。这看上去是个矛盾现象,即商王朝在看上去势力收缩的局面下,如何实现资源获取能力和社会生产能力的突破性增长?目前我们已知,商王朝可能通过间接控制的方式,从长江中游地区这些同盟处获取资源。对于长江中下游地区而言,既向中原王朝输送本地区的青铜资源,同时也充当代理人,向中原王朝输送来自成都平原的黄金、象牙等资源。

    进而言之,这一时期成都平原青铜文明的兴起,在很大程度上可归因于其扮演的“转口贸易”角色。由于当时的中原地区对远方资源存在持续需求,成都平原作为中转枢纽,将资源输送至中原地区,从而推动自身文化发展进入高峰。这一进程始于二里头时期,延续至西周早期阶段。至西周中期周王朝与长江中游关系彻底破裂,周人经由长江中游获取资源的通道被切断,成都平原的转口贸易随之衰落,其文化发展也从西周中期开始进入低谷,直至春秋早中期才重新起步。

    文转自《光明日报》(2026年03月28日)

  • 张国刚:周初分封与国家形态的演进

    周族作为商人的“西伯”(臣邦),早就在有针对性地经营克商事业,大约在古公亶父时就有了鲜明的倾向。文王之妻太姒(有莘氏之女)梦中获得天帝传达的信息,文王姬昌与儿子姬发将承受商人转移的天命,“受商命于皇上帝”。文王父子开始了西周的从西伯进而克商建立王朝的过程。公元前1046年的牧野之战只是关键之战而已。周人的自称,也就从“公”改称为“王”。  

    “公”与“王”之间是什么关系?我们拟通过周初的三次大分封历史,揭示西周国家形态演进的历程。

    一   周人作为 “西伯” 的身份

    “王”的字面意义,吴其昌认为源于“斧”(吴其昌《金文名象疏证·兵器篇》,《吴其昌文集》第2册,三晋出版社,2009,41页),林沄的《说王》一文在吴其昌“王字象斧形”的观点基础上进一步论证,指出甲骨文中最早的“王”字是“斧钺类武器不纳柲之形”。他通过比对廪辛、康丁时代甲骨文里“王”字与“戌”字的字形关联,还从读音角度佐证“王”字读音源于钺的古名“扬”的音转。同时,结合《尚书》《史记》中君主持斧钺象征征伐与治军权的记载,推断“王”的前身是军事民主制时期的军事首长,让“王字本象斧钺”的观点得到更充分的学术支撑(林沄《说王》,《林沄学术文集》,中国大百科全书出版社,1998,1—4页)。《甲骨文字诂林》是一部汇集历代学者甲骨文释义的权威类书,其中“王”字条专门整合了不同时期学界对该字的解读,姚孝遂在条目中撰写按语云:“吴其昌以‘王’本象斧形,林沄进一步加以申论,说皆可信。”(中华书局,1996,3278页)大约因为这个缘故,考古学家在良渚遗址的墓葬中发现反山首领墓中既有兵器玉钺、又有礼器玉琮,就推断这个首领应该是“王”。

    良渚文化有着成熟的玉礼器体系,不同玉器对应明确的权力象征意义。反山12号墓出土的巨大玉琮(号称玉琮王)重达6.5千克,上面雕刻着八幅精致的神人兽面神徽,而玉琮在良渚社会是祭祀天地的重要礼器,是神权的中心载体,其复杂的神徽图案更是礼制与信仰统一的体现。墓中同时出土的完整玉钺(号称玉钺王),是唯一一件刻有神徽图案的玉钺,钺由斧演变而来,在良渚时期是军事统帅权的象征,代表着世俗的王权与军权。神权载体玉琮和军权象征玉钺同出一墓,意味着墓主人同时掌控着精神统治权与军事、行政统治权,这正是“王”所具备的集多重最高权力于一身的核心特质。

    那么周人建立的是什么“国”呢?或者说,“西伯”对于商王是什么身份?学者们有不同的看法。于省吾、林沄认为,商朝是一个联盟制政治实体,齐文心、葛英会甚至发现,部族首领也可以称“王”。这些观点受到了王宇信、徐少华的质疑,他们在《商代国家与社会》中认为商王是天下的共主,“商王在政治、经济、军事等方面对诸侯拥有一定的支配权”(中国社会科学出版社,2011,549—569页)。但是,从文献描述的情况看,商王的权力与诸侯对商王的义务,也可以是霸主与臣服之间的关系。许倬云发现周人臣服于商人的一个表现就是,周人有对于商汤和太甲等先王的祭祀(参许倬云《西周史》,生活·读书·新知三联书店,2018,80—81页)。周人自称“小邦周”,承认商人是老大,称之为“大邑商”“大邦商”。意义就在于此。因此,在商朝,周族对于殷族,应该是方国对于霸邦的臣服关系。中央对于地方管理是通过“邦伯”来实施,也是因为受到一个条件的制约,即政权组织的基层都是血缘性的氏族组织,而非后世那样在“乡里保甲”组织及其上的郡县制。

    夏商周之间的开国都是依靠互相之间的杀戮而成功(参白钢主编,王宇信、杨升南编《中国政治制度通史》第二卷《先秦》,社会科学文献出版社,2011,152页),是因武力征服而得到的政权,这是毫无疑问的。分歧在于,这个政权形态是大邦征服小邦的霸权,还是中央统治地方的王朝?估计当事人也没有十分明晰的区别,那时候的人未必就有明确的认识。项羽等推义帝为共主,也许就是以周王朝的国家形式为模板;义帝死后,只有项羽作为“西楚霸王”统领天下,其馀诸侯都因畏其力而臣服之,也许就是倒回到了殷商的国家形式。前人总是在已经有的模板上,为适应当下的权力关系而进行创造、革新。

    部族首领可以称王,最早是王国维的看法(参王国维《古诸侯称王说》,《观堂别集》,中华书局,1961,1152—1154页),张政烺表示不同意(参张政烺《夨王簋盖跋—评王国维〈古诸侯称王说〉》,《古文字研究》第13辑,中华书局,1986,174—180页)。从良渚遗址的情况看,“王”与“公”作为“头人”的意义是没有区别的。至于究竟是作为一国之主的“王”,还是作为部落(诸侯)的“公”,显然是后人赋予的分工含义。顾颉刚说,武王灭商之后,“他(武王)做西边的王,武庚做东方的王,周是天下的共主,商是半独立的王国”(顾颉刚《国史讲话·上古》,上海人民出版社,2015,78页)。又云:商灭夏以后,“势力格外强盛,便成为中原的宗主邦”(顾颉刚、童书业《国史讲话·春秋》,上海人民出版社,2015,3页)。但是,周人满足于做“大邦商”那样的宗主邦吗?这就要从建国时期的分封谈起。

    二  武王克商:周初建国与分封

    西周的国家建设是从分封制度开始的。从周武王开始,西周大规模分封贯穿武、成、康、昭四代(约前1046—前946),是连续性国家建设的政治工程。这一过程既是对商代“内外服”制度的革新,也是“封建亲戚,以藩屏周”治国理念的实践,最终构建起“天子—诸侯—卿大夫—士”的等级秩序与“家国同构”的统治体系。我们结合文献记载如《尚书》《左传》《史记》与考古发现(如利簋铭文、宜侯夨簋铭文),梳理各次分封在国家建设中的政治意义。

    公元前1046年,牧野之战,周武王克商。为了快速控制商王畿及东方广大地区,防止殷遗民叛乱,随即推行第一次大规模分封,姬周从“西伯”变成了“宗主邦”(顾颉刚语)或者叫王室。这次分封的根本目标是管控对于东土的统治,所以顾颉刚说,武庚是“东边的王”。分封对象以先圣王之后与功臣谋士为主,兼顾殷遗民贵族,体现了统战安抚与军事屏藩王室的双重诉求。具体分封包括三类情形。

    分封“先圣王之后”,即古代帝王后裔,是周人构建取商王而代之的合法性的重要手段,通过承认上古帝王后裔的统治地位,争取天下诸侯的认同。这表明“小邦周”灭掉“大邑商”之后,尚不自信。据司马迁《史记·周本纪》记载,武王“封神农之后于焦(今河南三门峡陕州),黄帝之后于祝(今山东济南),帝尧之后于蓟(今北京房山),帝舜之后于陈(今河南淮阳),大禹之后于杞(今河南开封杞县)”(《史记·周本纪》)。其中,陈国为舜之后妫满的封地,杞国为禹之后东楼公的封地,二者均位于中原腹地,既是对上古正统的继承,也起到监视殷遗民的作用;蓟国则是控制北方地区的战略支点。

    当然,也不能亏待功臣谋士,实际上是克商的盟友,以姜太公吕尚(姜子牙)为代表,表彰其在灭商战争中的功绩。《史记·齐太公世家》记载,武王“封师尚父于齐营丘”。周武王封师尚父(姜太公)于营丘之初,据《毛诗正义》记载,结合周初《王制》中“公、侯,田方百里”的分封制度,姜太公作为周室元勋,受封齐国的初始封地面积为方圆百里。这一封疆规模符合当时诸侯大国的标准,其核心区域以营丘(今山东淄博)为都城,地处潍淄流域的平原地带,也就是《禹贡》中记载的“青州岱岭之阴,潍淄之野”(《毛诗正义·齐风》),这里土地肥沃且临近淄水,兼具农业与水利之便,是齐国早期发展的根基。

    周初分封的另一场重头戏,是安抚好殷遗民与商王后裔。《尚书·洪范》记录武王问政于箕子,所言虽然是天下大政,但显然包含了请教如何治理殷族的言下之意。武王“以殷治殷”既是策略,也是其时的政治文明(不灭人祀)所形成的共识。周邦成为大邦、宗主邦,商邦成为小邦、臣服邦,武王“封纣子武庚禄父,以续殷祀,令修行盘庚之政”(《史记·殷本纪》),将商王畿(今河南安阳、新乡)分为邶、鄘、卫三地,由武庚统治,同时封武王弟叔鲜于管、叔度于蔡(今河南郑州、上蔡)。在这个问题上,历史记载有重大的分歧。

    《史记》相关篇目如《周本纪》《鲁周公世家》等,均只提及管叔、蔡叔辅助武庚治理殷地,未提及霍叔参与监管之事。其记载的叛乱主体是管叔、蔡叔与武庚,默认叛乱核心力量为这三人,无霍叔相关监管及叛乱的表述,间接契合了后世班固以武庚、管叔、蔡叔为“三监”的说法。这一默认在《汉书·地理志下》就被直接写出来:“河内本殷之旧都,周既灭殷,分其畿内为三国,《诗·风》邶、庸、卫国是也。鄁(邶),以封纣子武庚;庸,管叔尹之;卫,蔡叔尹之:以监殷民,谓之三监。”王先谦《汉书补注》引清人陈奂(1786—1863)认为,三监即是武庚、管叔、蔡叔,还驳斥了《逸周书·作雒》中三监有霍叔的说法。

    这里绝对不仅仅是“三监”是否包括武庚的考证问题,而是涉及到周初分封的思路问题。周初克商,有偶然的因素(参宋镇豪主编,罗琨编《商代战争与军制》第四章第四节《牧野之战与商王朝的灭亡》,中国社会科学出版社,2010,334—366页)。周人分封的古先圣贤后裔的目的是为了抢占天下盟主的道德制高点。把庞大的殷商族人交由武庚统治,名正言顺。同时,让管叔、蔡叔“相之”,共同监护殷民,也合情合理。总之,周初的政治文明辞典里,周族代替商人成为霸主,但是,不应消灭商族。三监要“监”谁呢?是监管殷民,不是监督武庚。当然,从周武王的本意而言,让两个弟弟(三弟与五弟)暗中监督武庚是很自然的,但是,这个目的是被掩盖了的或者是半遮掩的。这一安排虽暂时稳定了局势,但为后来的“三监之乱”埋下隐患。

    三  三监之乱后:分封的重大转型

    周武王灭商后的这次分封以安抚与“建国”(建立周邦成为宗主邦的统治秩序)为主,分封范围集中于中原与东方核心区域,同姓贵族分封较少(仅管、蔡等少数王室子弟),尚未形成后世分封以同姓为主、以异姓为辅的格局。其局限性很明显,西周对殷遗民的控制,很难说完全以敌对势力处置,管蔡与武庚的制衡,十分脆弱,导致三年后周武王去世不久,武庚等三监及东方夷族发动叛乱,天下陷入动荡。

    “三监之乱”,约发生在公元前1042年至前1040年,是西周初期爆发的一场大规模贵族叛乱,本质是周王室内部权力斗争与殷遗民反抗情绪的爆发。这一事件深刻地影响了西周的政治格局和国家体制,直接推动了周公摄政时期的制度革新,如大规模分封和东都洛邑营建。结合《尚书》《史记》《逸周书》等文献与考古发现(如利簋、周公庙甲骨文),大体可以梳理出其脉络。

    如前所述,周武王克商后,虽通过第一次分封初步稳定局势,但统治基础极为薄弱,埋下了两重隐患:一是殷遗民的反抗情绪。商纣王之子武庚禄父被封为殷侯,继续统治商王畿核心区(今河南安阳、新乡),但殷人对周人的征服心存怨恨,且商王朝经营数百年的势力根基未被彻底摧毁,所谓“殷民六族”“殷民七族”甚至“怀姓九宗”(“殷民六族”“殷民七族”是周初被分封给鲁、卫两国的商代遗民宗族,“怀姓九宗”则是同期被分封给晋国的异族大族,三者的相关记载均出自《左传·定公四年》。武庚统治下的殷民当然不止这些部族)等部族仍保有一定的组织力与号召力。二是王室内部的权力矛盾。周武王去世后(约前1043),太子诵(周成王)年幼,无法亲政,周公旦(老四)以“摄政”身份主持国政。这一安排引发了武王另外两位弟弟—管叔鲜(老三)、蔡叔度(老五)的不满:按西周“兄终弟及”与“嫡长子继承制”并存的继承传统,管叔作为次于武王的胞弟,心底肯定自认为应优先摄政,而老四周公越次掌权被视为“擅权”,导致兄弟间矛盾激化。

    以上两重隐患又通过“三监”制度的设计缺陷而充分暴露出来。当初,周武王为统治武庚与殷遗民,将商王畿分为邶(北部)、鄘(东部)、卫(南部)三地,封管叔于鄘、蔡叔于卫、武庚于邶,史称“三监”(《诗经》里的《邶风》《鄘风》《卫风》的一些篇章,有反映“三监之乱”的含义),分而治之。“三监”的主要职责虽然是“监殷”,却缺乏明确的权力制衡机制。明面上,管蔡“相”武庚“商侯”。但是,管叔作为姬姓王族的兄长,实际主导“三监”事务,蔡叔则完全依附管叔,使“三监”成为反对周公的盟友。

    《尚书·周书·金縢》记述了周公为武王祷疾、成王疑周公、天变启匮悔悟的始末,是表彰周公忠勤治国以及王室内部和解的经典叙事[清华简中有关《金縢》的竹简共14支,每简平均约29字,全篇包含篇题在内约410馀字。其中第14支简(编号2254)的背面还书写着篇题“周武王有疾周公所自以代王之志”,这也是该篇竹简原始的完整篇题。现收录于《清华大学藏战国竹简(壹)》(中西书局,2010,157—163页),整理者认定其为《尚书·金縢》的战国写本,它在字句、叙事细节上与今本有差异,整体围绕周公和成王的相关事迹展开。相较于今本《尚书·金縢》侧重周公代祷这一基本史实,清华简版本更侧重成王与周公的君臣关系]。据《尚书·金縢》的记载,周公摄政后“管叔及其群弟乃流言于国,曰:‘公将不利于孺子’”。流言的传播不仅动摇了周王室内部的信任,更成为武庚等“三监”叛乱的导火索。武庚禄父作为商纣王之子,可以说与周朝不共戴天,是叛乱的主要发起者之一。他利用周王室内部矛盾,以“复国”为号召,串联殷遗民部族,成为叛乱的精神领袖与军事实体。管叔鲜是叛乱的主要组织者,以“反对周公摄政”为旗帜,联合蔡叔,拉拢东方夷族(如奄国、薄姑国、淮夷),构成叛乱的军事主力。蔡叔度是管叔的坚定盟友,积极参与叛乱策划与军事行动,是叛乱集团的核心骨干。至于参与叛乱的东方夷族如奄国、薄姑国、淮夷等,是商王朝的传统盟友,对周人的征服与统治不满,响应武庚等“三监”的号召起兵反叛,成为叛乱的重要助力(武王的八弟霍叔处的位置偏远,在今日之山西,所处地区不是叛乱的中心,大约是被裹挟参与叛乱,但未积极作战,《史记》《逸周书》都没有言及其下场。后世的注疏则称霍叔被废为庶人或迁于边邑。故“三监”当不包括霍叔)。

    周公旦是“三监”的攻击对象,也是周朝平叛的决策者与总指挥,面对叛乱危机,首先通过“告天自明”稳定王室内部,争取召公奭、太公望的支持,随后亲率王室军队,以辅佐成王的名义东征,赋予了平叛行动的正统性。这一点展现出周公的高超政治智慧与极强军事才能,为历代辅臣镇压“清君侧”的反叛行动所仿效。

    周公所率领的“西六师”(王室主力军队)出征,采取“先平三监,再伐夷族”的战略。军队首先进攻商王畿,直接打击管叔、蔡叔的封地鄘、卫。由于“三监”军队缺乏统一指挥,周军迅速击溃叛军。管叔战败被杀(《史记·管蔡世家》记载“诛管叔”),蔡叔被俘后流放(《史记·鲁周公世家》记载“放蔡叔”),武庚率领残馀殷军逃往东方,投靠奄国。平定“三监”后,周公率军东进,进攻奄国、薄姑国等叛乱据点。这场战争极为惨烈,据《孟子·滕文公下》记载,“周公相武王诛纣,伐奄三年讨其君,驱飞廉于海隅而戮之,灭国者五十”,可见平叛范围之广、持续时间之长。周军首先攻占薄姑国,杀死其国君,随后围攻奄国都城(今山东曲阜,一说今淄博沂源),经过数月激战,攻克奄国,俘获奄君。淮夷等方国见主力被灭,纷纷投降,东方叛乱被彻底平定。

    周公东征的最后阶段,重点肃清叛乱残馀势力,将武庚残馀的殷遗民强行迁徙至洛邑,成为“成周八师”的服役者;将奄国、薄姑国的贵族迁往宗周(镐京),置于王室直接控制之下;对投降的夷族方国,采取“分而治之”的策略,将其部族分散安置,或分赐给同姓诸侯作为“附庸”。至此,持续三年的三监之乱彻底平定。

    周公平定叛乱后,深刻认识到武王时期分封制的缺陷,随即推行一系列制度革新,从根本上巩固西周统治。

    这些革新的首要措施就是大规模同姓分封。这次分封将王室子弟(如周公长子伯禽、成王弟叔虞)分封至东方战略要地(如鲁国、晋国、燕国),取代叛乱的方国,构建“封建亲戚,以藩屏周”的防御网络,同时将“殷民六族”“殷民七族”“怀姓九宗”分赐给诸侯,分散殷遗民的力量。

    第二重大措施就是在东方修建一个军事据点,即东都洛邑(今河南洛阳),号称成周。周公将部分殷遗民与王室军队(成周八师)安置于此,使洛邑成为控制东方的政治、军事中心,形成宗周(镐京)主内,成周(洛邑)主外的双都格局。至少在成康之际,西周王室的政治中心就明显东移。周天子常居成周,举行各种重大祭祀活动,册命、朝会、赏赐诸侯(参卢连成《西周金文所见新邑、成周》,收入所著《西周史与考古论集》,商务印书馆,2025,203页)。“宅兹中国”成为西周政治文明建设的重大行政举措。

    第二次分封也是周朝国家管理制度的重建。作为长治久安的措施,制礼作乐,规范秩序被提上议事日程。周公重点集中制定礼乐制度与宗法制度,明确“嫡长子继承制”“诸侯朝贡制”等,强化王室与诸侯的隶属关系,从文化与制度层面消除权力斗争的隐患。对于普通百姓,则发布训诫,改造殷民。周公向受封诸侯(如卫康叔)发布《康诰》《酒诰》等训诫,要求诸侯“明德慎罚”(《尚书正义·康诰》),改造殷民的习俗,同时通过祭祀、礼仪等方式,推动殷人对周文化的认同。至此,第二次分封的结果是脱胎换骨般地推进了周王朝中央与地方的关系。这是我们理解王国维《殷周制度论》的根本观察点。

    周代铜器史墙盘、逨盘(一作逑盘)都讲到西周创业的历史。史墙盘(西周恭王时期,约前922—前900)与逨盘(西周宣王时期,约前827—前782)是二十世纪以来西周金文重要发现,二者均出土于陕西宝鸡地区,这是周人中心活动区。铭文完整、纪年明确,分别以“家族史”与“王朝世系”为主要内容,填补了传世文献对西周中晚期历史记载的空白。

    史墙盘记载的微氏家族是微子开的后裔(参李学勤《论史墙盘及其意义》,《考古学报》1978年第2期)。他在家族铭文中的前半部分颂美西周诸王功德(从文王到恭王),后半部分追溯微氏家族世系(从高祖到史墙),形成王朝叙事—家族叙事的对称结构,体现西周贵族“敬天法祖”与“忠君事上”的双重价值观。逨盘(一作逑盘)铭文前半部分完整记载西周十二位诸王世系(从文王到宣王),中间追溯单氏家族八代先祖事迹,结尾为祈福嘏辞。其最大价值是以金文形式完整呈现了西周诸王顺序,而且与《史记·周本纪》高度吻合。单氏家族是周文王族弟单公的后裔(参裘锡圭《读逨器铭文札记三则》,《文物》2003年第6期,74—77页)。我们发现这是两个不同族众的家族史:殷商子姓家族与西周姬姓家族。他们同时歌颂周室诸王的伟大功绩,史墙盘还特别感激并赞赏周室“达殷畯民”(安抚殷遗民)的政策,这就很好地透露了周初分封,对姬氏与非姬氏家族都加以善待的温和政策[参李学勤著,董喆整理,刘国忠审校《金文与西周文献合证》(上册),清华大学出版社,2023,69页]。

    总之,平定三监之后的制度建设,可以视为西周统治模式的定型以及华夏文明的整合。在政治层面,三监之乱的平定,彻底摧毁了商王朝的残馀势力,使西周的统治范围从黄河中游扩展至东方沿海与淮河流域,奠定了“溥天之下,莫非王土”的疆域基础;同时,周公通过制度革新,确立了分封制、宗法制、礼乐制度的三位一体统治模式,使西周从军事征服型“宗主邦”转变为制度整合型王朝—中央与诸侯之间的权力与职责关系明确而清晰的国家形态,开启了“成康之治”的稳定局面。这种国家形态是同时期巴比伦地区、古埃及地区完全不具备的国家形态。在文化层面,叛乱的平定推动了周文化与殷文化、夷族文化的深度融合—周人吸收了殷人的手工业技术、祭祀礼仪,同时将自身的宗法观念、礼乐制度推广至东方,逐渐形成了以周文化为核心的华夏文化共同体,为后世“大一统”观念的形成奠定了基础。

    四  从同姓分封到拓边分封

    如前所述,平定三监之后,周公展开了西周历史上规模最大、影响最深远的一次分封。此次分封扎扎实实地推进了统一王朝的建设。分封的目标是巩固统治,拓展疆域,分封对象以同姓王室子弟为绝对主体,辅以功臣、先圣王之后与归顺方国首领,最终确立了“周之子孙苟不狂惑者,莫不为天下之显诸侯”的政治格局。

    同姓王室子弟的大规模分封方面,周公将王室子弟分封至战略要地,构建起环绕王畿(镐京、洛邑)的军事防御网络。据《左传·僖公二十四年》记载,此次分封“封建亲戚,以藩屏周”(《左传》记富辰说:“昔周公吊二叔之不咸,故封建亲戚,以蕃屏周。管、蔡、郕、霍、鲁、卫、毛、聃、郜、雍、曹、滕、毕、原、酆、郇,文之昭也。邘、晋、应、韩,武之穆也。凡、蒋、邢、茅、胙、祭,周公之胤也。”这一段话略有问题。既然“周公吊二叔之不咸,故封建亲戚”,那么分封应在周公摄政时,则不当有管、蔡。管、蔡是周武王的时候分封的而为周公所平定。春秋的时候,古人把相隔若干年的两次分封模糊地记载在一起了。因为,两次分封时间很近。周武王的分封,优先“华夏”后裔以及克商功臣。周公灭三监之后,清除了商人的势力,重建了分封体系,才以姬姓同宗为主),共分封“兄弟之国者十有五人,姬姓之国者四十人”(《左传·昭公二十八年》)。主要是:

    鲁国。封周公长子伯禽于曲阜(今山东曲阜),统治原奄国(东方夷族强国)故地,“殷民六族”(条氏、徐氏、萧氏、索氏、长勺氏、尾勺氏)被赐予鲁国,作为“殷民迁族”以强化控制。鲁国被赋予祭祀周公、传承周礼的特权,成为周文化在东方的核心传播者。

    卫国。封武王弟康叔于朝歌(今河南淇县,原商王畿核心区),统治“殷民七族”(陶氏、施氏、繁氏、锜氏、樊氏、饥氏、终葵氏),并获得《康诰》《酒诰》《梓材》等周王训诫,要求其“明德慎罚”,改造殷人习俗,成为控制中原腹地的核心封国。

    晋国。封成王弟叔虞于唐(今山西翼城),统治原夏墟之地,负责抵御北方戎狄入侵。《史记·晋世家》记载“成王与叔虞戏,削桐叶为珪以与叔虞,曰:‘以此封若’”,虽为传说,但反映了成王时期对王室子弟的信任与分封的随意性(后逐渐制度化)。

    燕国。封召公奭长子克于蓟(今北京房山),统治北方地区,负责抵御山戎与孤竹国,是周王朝控制东北方的战略支点。1986年北京房山琉璃河遗址出土的“克罍”“克盉”铭文,明确记载了“王曰:‘太保(召公),唯乃明乃心,享于乃辟。余大对乃亨,令克侯于燕’”(吴镇烽编《商周青铜器铭文暨图像集成》第25册13831,上海古籍出版社,2012,122—123页),印证了燕国分封的史实。

    在同姓分封的基础上,周公延续了武王时期对功臣的表彰。姜太公坚决支持周公打击三监之乱,战后周公增强了齐国在东方的军事控制权。此前武王仅封营丘一带给齐国,周公东征后,将齐国疆域拓展至“东至于海,西至于河,南至于穆陵,北至于无棣”(《左传·僖公四年》),赋予其更大的征伐之权,使其成为压制东方夷族的关键力量。同时,封楚国子爵,以丹淅之地五十里(《史记·楚世家》)。

    至于对叛乱之后的殷遗民的重新安置,周公也做出特别安排,以微子及其后裔统治子姓遗民,建立宋国。同时,削弱其势力,通过“分散安置”削弱殷人的反抗力量,同时利用其手工业技术与文化资源服务于周王朝。

    “三监之乱”平定之后的这一次分封完成后,封国遍布中原、东方、北方、东南等关键区域,形成了“众星拱月”的政治格局。分封时不仅授予土地,还赐予“人民”(殷民、土著部落)、礼器、典籍与军事特权,使诸侯成为“受民受疆土”的地方统治者,同时承担“岁贡、述职、从征”等义务。考古发现的宜侯夨簋铭文(江苏丹徒出土)记载了周康王时期封虞侯夨于宜(今江苏镇江)的史实,铭文详细列出了分封的土地范围、人民数量(庶人、农夫、奴隶)与礼器、兵器,印证了周公时期分封制度的成熟—“授土、授民、授器”成为分封的核心内容(《商周青铜器铭文暨图像集成》第12册05373,145—146页)。

    康王是西周“成康之治”的著名君主,其统治时期(前1020—前996)天下安定,分封的主要目标从平定叛乱、稳定局势转向拓展边疆、完善制度。此次分封规模小于成王时期,但更注重对边疆地区的控制与分封制度的规范化,封国多集中于南方、西方与北方的戎狄交界地带。其设立的目的是为了抵御戎狄与蛮夷入侵,康王将王室子弟与功臣分封至边疆地带,如:

    宜国。封虞侯夨于宜(今江苏镇江),据宜侯夨簋铭文记载,康王赐予宜侯“川邑”(土地)、“庶人”“农夫”“奴隶”共17099人,以及礼器(鬯酒、圭瓒)、兵器(弓、矢、戈、矛),命其统治江南地区,监视南方蛮夷。

    邢国。封周公第四子姬苴于邢(今河北邢台),负责抵御北方戎狄(如犬戎),成为北方重要的军事重镇。邢国的分封不仅巩固了北方边疆,还与燕国、晋国形成呼应,构建起北方防御体系。

    韩国。封王室子弟于韩(今山西河津),统治汾水流域,负责抵御西方戎狄,是周王朝控制西北地区的支点。《诗经·大雅·韩奕》开篇称:“韩侯受命,王亲命之。”(一般认为,此处的王是周宣王,参王坤鹏《越在外服:殷商西周时期的邦伯研究》,商务印书馆,2022,332—333页。本文置于此因为韩侯的分封也是康王之后拓边分封行动的一部分)韩侯是往北边拓展,疆界接于燕国,所谓“溥彼韩城,燕师所完”(《毛诗正义·大雅·韩奕》)。

    康王的分封,还注意到完善分封制度的仪式规范。康王时期明确了分封的仪式流程与诸侯义务,如通过“策命”仪式(赐给诸侯带有王命的策书)确认封国的合法性,要求诸侯“岁贡”(每年向王室缴纳贡品)、“述职”(定期入朝汇报治理情况)、“从征”(随王出征)。《史记·周本纪》记载“康王即位,遍告诸侯,宣告以文武之业以申之,作《康诰》”,强调诸侯对王室的忠诚与义务,使分封制从临时性措施转为制度化统治模式。

    康王之后的分封聚焦边疆治理,进一步扩大了西周的控制区域,使周文化向江南、北方、西方等偏远地区传播。同时,分封制度的规范化(如策命仪式、诸侯义务的明确),强化了王室与诸侯的隶属关系。

    昭王时期,部分南方、西方的方国(如濮国、庸国)归顺西周,昭王对其首领进行册封,承认其统治地位,以换取其对南征的支持。这些册封虽形式上属于分封,但本质是对现有方国的“认可”,并不是周王室直接分封的新建封国,反映了西周分封制的衰落,因为鞭长莫及,王室已无力将兵力投放到遥远的南部地区,大规模分封同姓子弟,只能依赖异姓方国的臣服。至于所谓庶姓诸侯,只是把异姓大族(姜、姒、妫、子姓等)分封之外的边地诸侯(多数出自蛮夷),它们通过这种分封受到中原文化的影响,加速了其融入华夏的步伐(关于周朝的分封以及同姓、异姓和庶姓的分封,参见于薇《徙封:西周封国地理的结构—过程(增订本)》,上海古籍出版社,2023,第3—4章。关于庶姓分封,见该书第369页)。其实,西周中期之后,周王室作为大宗与早期分封的同姓诸侯小宗(如鲁、燕、晋、蔡、虢、卫),血缘关系已经逐渐淡漠,只有礼仪上(也就是政治上)的同姓关系,或者由于宗亲贵族辅政(如虢公)的缘故,保留着政治上的君臣关系。昭王时期的分封,军事目的远大于政治目的,且更多依赖异姓力量,导致同姓诸侯在边疆地区的影响力下降。昭王南征最终失败(“昭王南巡不返”,死于汉水),不仅削弱了王室权威,也使南方分封的封国失去了王室的庇护,为后来荆楚地区的崛起与诸侯割据埋下伏笔。

    五  西周分封与华夏文明奠基

    纵观周初建国与分封过程,互为表里。武王时期的建国,受封对象还是以古先圣王之后以及功臣为主,姬姓宗亲不占主流。周公辅政的成王时期,由于三监之乱的平定,确立了分封以同姓王室子弟为主体的基本原则,同姓封国占据战略要地(如中原、东方、北方),异姓封国(功臣、先圣王之后、方国)多为辅助。这是“家天下”政治文明的体现。“授土、授民、授器”三位一体,分封不仅是土地的赐予,还包括人民(殷民、土著部落)、礼器、兵器、典籍等的授予,使诸侯获得完整的统治资源,同时承担对王室的义务(岁贡、述职、从征)。从分封的血缘关系中成长出政治上的中央与地方关系。这就是西周国家形态的转型。

    西周的分封也是对于华夏民族共同体的一次制度性奠基。从政治层面上看,西周的分封制,将商代松散的“内外服”霸邦与臣盟关系转化为“天子—诸侯—卿大夫—士”的等级化统治体系,巩固了周王朝对广大地区的控制,使西周成为“溥天之下,莫非王土;率土之滨,莫非王臣”的统一王朝。在“宅兹中国”的王朝内部,华夏族成为主体民族,夷狄是“外族”。因此,西周分封制推动了以夏商文明继承者自居的周人文化,在“有夏”名义下进行广泛的传播与认同。周王室是同姓诸侯的大宗,也是异姓诸侯(华夏后裔)文化的代表者,是文化的中央(华夏民族的宗主)。各地诸侯模仿王室的礼乐制度、宗法制度与农业生产方式,逐渐形成了以周文化为核心的华夏文化共同体,为后世“大一统”观念的形成奠定了基础。王震中认为:古代华夏民族在形成过程中经历了从“自在民族”到“自觉民族”两个发展阶段。夏商时期的华夏民族属于“自在民族”,春秋战国时期的华夏民族属于“自觉民族”(王震中《从复合制国家结构看华夏民族的形成》,《中国社会科学》2013年第10期)。在这里,不能忽视周公分封时期的自觉构建之功,实现了中国政治文明的跃迁,也实现了华夏民族发展的跃迁。周代仍然存在许多自为政治实体的“邦伯”(王坤鹏《越在外服:殷商西周时期的邦伯研究》,338页)。西周时期的“有夏”到了东周初年,非姬姓诸侯崛起,就成了“诸夏”。夏商式的王朝变成了西周式的王朝。王国维敏锐地观察到了这一点,因而提出了“殷周制度论”(关于这个问题的讨论参拙稿《殷周制度与中国政治文明的演进》,《国际汉学》2026年第2期)。

    西周分封制的衰落始于昭王时期,最终在春秋战国时期瓦解,但是,统一民族国家的意识进一步增长,“宅兹中国”的行政举措,即洛邑的建成,使华夏文明进一步有了地域之型,当战国时期的孟子回应“天下恶乎定”的时候,“定于一”就成为时代的最强音。接之而来的秦汉国家,应运而生,突出的统一性从此成为中华文明的鲜明特征。

    转自《文史知识》2026年第2期

  • 张国刚:西周的行政体系与治理结构

    小引

    西周是中国早期国家形态走向成熟的关键阶段,构建了一套层级分明、权责明晰的决策与行政体系。该体系以“天命观”为思想根基,以宗法分封制为政治支柱,通过王、诸侯、卿大夫的层级架构,实现对广袤疆域的有效治理。周公克商的胜利,为周人重构政治制度提供了全新契机。商代无宗法之制,先周亦未形成嫡庶之别,封建宗法制度自西周始创,仅此一点便足以彰显殷周制度变革的深刻性——王国维的《殷周制度论》要点即在于此。从殷人“神道至上”崇鬼淫祀,到周公“天道至上”敬天保民,不仅反映了社会观念的历史性进步,积淀了治国理政的实践经验,更是周公等周初政治家在王朝鼎革之际,主动顺应时势、被动回应统治需求的政治抉择。

    “天命”观念并非周人首创,夏代已存相关认知。《尚书·汤誓》所载夏桀时期民间“是日曷丧”的诅咒,以及“有夏多罪,天命殛之”的誓辞,便是明证。商代则更重“帝命”,据《史记·殷本纪》记载,自先公帝喾(帝颛顼之子)、商契以降,至先王商汤之后,皆为殷人祭祀祈福的对象。然而,周人世系传承较短,其先祖神灵的威慑力与影响力难以与商人抗衡;加之“大邑商”虽崇神尚祀,仍被“小邦周”攻灭,这迫使周人必须另寻建国合法性的根基。在此背景下,“敬天保民”被确立为国家长治久安的根本准则。伴随政权的革故鼎新,西周实现了政治文明的重大创新——制礼作乐。而建立在宗法制度之上的分封制,与《诗经·小雅·大田》“雨我公田,遂及我私”所反映的井田制,共同构成了西周国家的政治与经济基础。

    与此同时,周人着力将政权构建于“华夏民族”共同体的基础之上。其一,尊崇上古圣贤,分封其后裔,黄帝、尧、舜、夏禹等先贤的后代均获封国;其二,拆分殷民宗族(如殷民六族、怀姓九宗),将其分散迁徙至各诸侯国,推动族群融合;其三,平定“三监之乱”后,及康王、昭王时期的对外扩张进程中,持续征服东夷、淮夷等族群,将其纳入华夏文明体系。周人通过分封先贤后裔、对殷商遗民分而治之、对蛮夷戎狄武力征伐与文化吸纳等举措,加速了夏、商、周三族与周边族群的交融进程,为东周时期华夏族群观念的普及奠定了坚实的历史基础。

    得益于西周国家形态的相对成熟,加之金文与传世文献资料的相对丰富,西周的行政制度与国家治理体系得以留存更为清晰的记载。从决策的发起、审议、定案,到行政指令的下达、执行、监督与反馈,每个环节均有明确的制度规范与翔实的实践案例支撑,这一体系已然具备后世官僚体系的雏形。

    一 西周的政府决策与行政运行

    西周政府的决策程序以周天子为核心,同宗贵族主持朝政,遵循集议、占卜、定案的基本程序,兼具政治性与神权性,以及家国同构的宗法制特征。天子的元首地位与充分吸纳贵族群体的意见相互补充,形成众议辅政的决策机制。决策的发起主要分为两种情形:一是周天子主动提出议题,多涉及军国大事、制度变革、祭祀典礼等核心事务;二是各级贵族、官员就地方治理、民生问题等提出奏请,经内侍官转达天子后启动决策流程。

    决策的关键环节是集议审议,这一环节充分体现了西周贵族共政的特点。周天子会召集王室成员、三公诸卿(太师、太傅、太保等)、重要诸侯及史官等召开朝会,共同商议议题。《尚书·洪范》记载,周王遇大事需“谋及乃心,谋及卿士,谋及庶人,谋及卜筮”,其中“谋及卿士”便是集议审议的主要体现。例如,西周早期对东方淮夷的征伐决策,便经过了周王与卿士的反复商议。出土的《兮甲盘》铭文记载,周宣王时期,为应对淮夷侵扰,周王召集兮甲(即尹吉甫)等卿士商议对策,最终确定“率师伐淮夷”的决策,并明确了作战部署与物资调配方案,这一过程便是集议审议的典型实例。

    集议形成初步共识后,西周政府会通过占卜仪式寻求天神认可,以此强化决策的合法性,这是决策程序中不可或缺的神权确认环节。西周社会笃信“天命”,认为周天子的统治权源于上天授予,重大决策必须契合天意。占卜由专业史官(卜官、筮官)执掌,通过灼烧龟甲或推演蓍草,解读裂纹形态或蓍草排列所蕴含的“天意”。若占卜结果为“吉”,则决策正式定案;若显示为“凶”,则需重新会商调整。《甲骨文合集》收录的大量西周占卜记录中,不乏关于战争、祭祀、迁都等重大决策的占问内容。例如,周成王时期营建洛邑(东都)这一关乎王朝统治根基的战略决策,便经过了严密的占卜流程。《尚书·召诰》记载:“太保朝至于洛,卜宅。厥既得卜,则经营”,召公奉成王之命前往洛邑考察选址,期间多次举行占卜仪式,最终依据吉兆确定洛邑营建方案,决策才正式落地实施。

    决策定案后,即进入行政执行阶段,该过程主要依托中央行政机构的分工协作与层级传导体系推进。西周中央确立了“卿事寮”与“太史寮”两大并行行政系统,职能划分清晰:卿事寮主导军政、外交及诸侯管理事务,长官为“卿事”(亦作“卿士”);太史寮执掌文书、礼仪、历法、祭祀及档案管理,长官为“太史”。两大系统的并行设置,清晰展现了行政执行与文秘辅助职能的专业化分工。在具体执行层面,设有“三有司”等主要职官体系:司土(后称司徒)执掌土地规划与徒役征调,司马专司军事统筹,司工(后称司空)负责工程营建;此外,“宰”统管王室事务,兼负王命传达与宫廷管理之责;史官群体(除太史外,还包括内史、作册、御史等)则承担文书起草、政务记录与档案保管的重要职能。

    行政执行的首要环节是“命书”的起草与颁布,这是行政命令落地的主要程序。行政指令以“命书”为规范形式下发,由史官中的“作册”专职负责起草与宣读,内容涵盖职官册命、赏赐册封、军事调动等主要事务。命书具备固定的格式规范,常以“王若曰”开篇,凸显王命的权威性与程序的规范化。册命文书多刻于青铜器(即金文)或书写于竹简,由王室使者(行人、宰等官员)通过史官系统逐级传递至相关执行主体。颂鼎铭文所载周宣王对颂的册命过程便颇具代表性:“王呼史虢生册命颂”,史官宣读册命文书,明确颂的职责为“监司新造贾,用宫御”(即监督新设商业机构,保障王室物资供应),并赐予礼器、土地作为职权凭证。这一过程清晰呈现了西周指令传达的规范流程——以王室册命为合法凭证,以史官系统为传递中介,依托中央行政机构的分工协作,确保执行主体权责明晰。

    行政执行的关键一环是分层落实与权责划分,在中央机构分工的基础上,依托宗法分封制形成王室、诸侯、卿大夫(陪臣)的层级执行体系。对于祭祀、战争、朝贡等全国性重大事务,由周天子直接统领卿事寮、太史寮及“三有司”统筹执行,诸侯需履行协助义务;对于地方治理事务,诸侯在其封国内享有自主执行权,但需遵循王室统一规范。以朝贡制度的执行为例,西周王室通过决策明确了各诸侯的朝贡义务,包括贡物种类、数量、频次等基本要素,诸侯需严格依规执行。《兮甲盘》铭文记载:“淮夷旧我帛亩人,毋敢不出其帛、其积、其进人,其贾,毋敢不即次即市”,明确要求淮夷诸侯按时缴纳贡赋、提供劳役,违者将面临军事征伐。这一指令由王室通过卿事寮下达至淮夷诸侯,再由诸侯传导至基层贵族,层层落实,形成完整的执行链条。此外,在司法执行层面,西周实行“王室直辖区域由司寇主管,诸侯国由诸侯兼领司法”的模式,《周礼·秋官·司寇》记载,司寇“掌建邦之三典,以佐王刑邦国,诘四方”,既负责王室直辖区域的司法审判,又监督诸侯的司法执行,保障全国司法标准的统一性。值得注意的是,在民事与司法类具体行政事务中,以土地转让为代表的民事事务执行流程极为规范,诉讼审判事务亦形成固定处置程序,二者共同彰显了西周行政执行的精细化。

    西周政府还构建了完善的监督与反馈机制,这是行政程序的重要收尾环节。监督体系分为层级监督与专项监督两类:层级监督是上级对下级的常态化监管,如周天子通过“巡狩”考察诸侯执政情况,诸侯则通过“述职”向上汇报执行成果;专项监督则针对物资调配、工程营建等特定事务,设立专职官员实施精准监管。《礼记·王制》记载:“天子五年一巡守。岁二月,东巡守,至于岱宗,柴而望祀山川,觐诸侯,问百年者就见之。命太师陈诗,以观民风;命市纳贾,以观民之所好恶,志淫好辟;命典礼考时月,定日同律,礼乐、制度、衣服正之。”周宣王时期的《虢季子白盘》铭文便记载,周天子巡狩期间,因虢季子白征伐猃狁有功,对其予以赏赐表彰,这正是层级监督中激励反馈机制的具体实践。

    专项监督的典型例证可见于《散氏盘》铭文(又称《夨人盘》),该铭文记载西周晚期散国与夨国因土地边界纠纷达成协议的过程,明确由“正”“史”等专职官员监督协议执行,确保双方依规划分土地,规避后续争端。行政文书的传递与存档,既是执行环节的延伸,也是监督机制的重要支撑。西周行政文书分类严谨,册命文书用于封赏、任命,诰命文书用于王廷训诫,律令文书涉及刑罚与契约,各类文书通过太史寮统领的史官系统逐级传递,保障指令精准送达。同时,西周建立了严格的档案管理制度,重要文书需制作副本存档于“府”(王室档案库);金文资料显示,土地转让、诉讼判决等重大政令,还需制作副册,分存于王室与相关贵族处,以备后续查验。史官群体不仅承担文书起草与传递职责,还负责整理行政记录,后世《尚书》中的诸多篇目,实则便是西周行政档案的汇编成果。此外,西周设“御史”等职官记录行政执行全过程,形成完整的文书链条,为后续监督考核提供依据。若执行过程中出现失职、渎职或违反王命的行为,将依据“周礼”相关刑罚予以惩处,如“放弑其君则残之”“不用王命者则有罚”,通过奖惩并举的机制,保障行政程序顺畅运行。

    从具体行政事务案例来看,以土地转让程序为例,其规范化特征可通过裘卫盉、五祀卫鼎等金文资料完整还原。一套完整的土地转让流程包含五个基本步骤:其一,转让方或受让方向王室提交申请,明确土地转让的缘由与范围;其二,王室受理申请后,派遣司徒、司马、司工等“三有司”官员协同前往现场勘界,界定土地四至范围,厘清权属关系;其三,转让双方举行盟誓仪式,以宗法伦理与神权权威为担保,承诺恪守转让约定,杜绝后续纠纷;其四,制作正式土地转让契约,详细记载转让双方身份、土地面积与边界、盟誓内容等基本信息,由史官负责起草记录;其五,将契约制作副册,分别存档于王室档案库与转让双方,完成整个转让流程。这一过程需多个中央行政部门协同配合,充分彰显了西周行政程序的严谨性与复杂性。

    再以诉讼与审判程序为例,同样展现了西周行政执行的规范化特质,“匜铭”所载案例完整呈现了这一流程。西周诉讼案件通常由周天子或位高权重的卿士受理,受理后首先派遣“有司”等专职官员开展调查,核实案件事实与相关证据;调查结束后,召集诉讼双方举行盟誓仪式,要求双方如实陈述,不得隐瞒或作伪证,以神权权威约束双方行为;调查与盟誓完成后,由周天子或卿士依据西周“礼”“法”准则作出最终判决;判决结果由史官完整记录,形成正式判决文书,并向诉讼双方及相关贵族宣读,保障判决的公开性与权威性;最后,判决文书作为重要档案存档,以备后续查验。“匜铭”(朕匜,又名㝬匜)详细记载了牧牛与师的诉讼案件全过程,从案件受理、有司调查,到最终判决、文书记录,每个环节均有明确的执行主体与操作规范,成为西周诉讼审判程序规范化的直接佐证。

    二 西周王畿地方行政与管理体系

    西周王朝以“封建亲戚,以藩屏周”的分封制奠定统治根基,而王畿作为王朝统治的主体区域,其地方行政与管理体系直接关乎王权稳固与国家运转。王畿即周天子直接掌控的直辖领地,其地理范围与政治地位具有鲜明的特质,是西周政治、经济、军事与礼仪权威的汇聚之地。

    西周施行“双都制”。王畿以宗周(丰镐地区)和成周(洛邑地区)两个政治中心为枢纽,形成东西联动的主体统治区,大致范围涵盖今陕西关中平原与河南洛阳周边地区,构成了王畿的基本地理框架。

    王畿是周王室武力、经济资源和礼仪权威的根基,是王权的根本所在。武力上,这里是“西六师”“成周八师”的主要驻防地,掌控着王朝最重要的军事力量;经济上,坐拥最肥沃的土地与关键手工业中心,保障王室的物质供给;礼仪上,作为王朝礼制推行的主体区域,彰显着周天子的统治权威。

    相较于分封于外的诸侯国,王畿的行政管控更为直接、严密,形成了一套兼具层级性与实用性的管理模式,主要依托王室官僚体系实现对直辖区域的有效掌控。“奠”或“甸”作为管理单位。李峰借鉴了徐中舒等学者的研究,将金文中的“奠”解释为王室在特定区域设立的行政管辖单位,类似于直辖的“县”或“区”。“奠”的管理者可能由王直接任命,负责当地的赋税征收、力役组织和治安维护,是王室直接管控地方的重要载体(参李峰《西周的政体:中国早期的官僚制度和国家》,第四章《王畿的地方社会与地方管理》,生活·读书·新知三联书店,2010,151页)。

    中央职官的延伸管理,在“三有司”(司土、司马、司工)的职能在王畿直辖地上得到最直接的体现。其中,司土(即司徒)管理王室田庄与土地户籍,司马管理本地驻军和军赋征发,司工(即司空)负责王畿内的工程建设;此外,“宰”的系统则专注管理王室宫廷及附属的庄园、作坊,形成了分工明确的中央职官管理网络。

    在基层控制方面,“里”与“里君”的功能值得关注。王畿的基层社会以“里”为主要行政单位,“里君”作为基层管理者,负责管理本里人口、协调生产生活,向上级(如“有司”)负责,是连接官府与庶民的关键纽带,保障了王室政令在基层的落实。

    王畿内分布着众多由周王赏赐给卿大夫、王室近亲或功臣的世袭采邑(如金文中记载的各类“某”地采邑),这些采邑是王畿行政体系的重要组成部分。比如周宣王的弟弟郑国先祖郑桓公就分封在王畿。他们大都是周天子分封在王畿内的亲戚,多为伯爵身份,拥有封地但依附于天子。如邢伯、荣伯、单伯、毛伯等。

    从权力归属来看,理论上所有土地权源于周天子,王室拥有对采邑的最高所有权,有权根据实际情况收回或改封采邑;司法与军事层面,采邑内部的重大纠纷(如土地争议)或军事义务履行,王室可直接派“有司”介入处理;经济层面,采邑主需向王室缴纳一定的贡赋(多以礼仪性礼物形式呈现),并在战时按要求提供兵员,保障王室的经济与军事需求。但是,在日常行政中,采邑主拥有相当大的自治权,可自行任命家臣、管理采邑内的土地和人口、组织农业与手工业生产,形成了相对独立的次级行政系统,与王室的直接管理形成互补。

    西周王畿的行政管理制度并非抽象设计,而是通过具体的实践案例落地运行,在土地、人口、经济等关键领域形成了成熟的管控机制。比如,在土地资源管理方面,以裘卫诸器铭文记载的案例为例,王畿内的土地转让即便发生在贵族之间,整个过程(包括勘界、盟誓、交易确认)必须在王室官员(如“三有司”)的见证与监督下完成,并制作官方档案留存。这一案例充分表明,王室对王畿内所有土地交易拥有最终认证权和记录权,牢牢掌控着主要土地资源。在人口与劳役动员方面,以大盂鼎铭文为例,铭文清晰记载,周王赏赐贵族时,常连带赏赐“人鬲”(即依附性人口),这些人口多来自王畿内被征服的族群或王室直接控制的人口。王室通过直接掌控人口资源,既保障了王畿内农业生产、工程营建所需的劳役供给,也为军事力量补充提供了人员基础,维系着王朝的经济与军事实力。

    王畿内设有王室直接经营的山林、川泽、牧场以及青铜铸造等关键作坊,由“司工”“虞”“牧”等专职职官管理。这些产业的产出专供王室与中央政府使用,不进入民间流通,形成了王室专属的经济供给体系,强化了王室的经济主导地位。

    王畿行政最鲜明地体现了西周政治的复合性——既有王室官僚体系通过“奠(甸)”“里”等单位对直辖地的直接管理,又承认并依靠世袭贵族在其采邑上的间接统治,两种统治模式相互交织,构成了王畿行政的主要框架。礼制层面,通过册命、朝觐、赏赐等一系列礼仪活动,明确并维系王室与畿内贵族的等级从属关系,使统治秩序获得文化与伦理上的正当性;权力层面,王室通过掌控“西六师”“成周八师”等常备军、掌握最高司法权以及垄断主要经济资源,确保对畿内任何贵族拥有压倒性优势。这种体制的成功运行,依赖于王权的强大与贵族的忠诚所形成的动态平衡。一旦王权衰落(如西周晚期),畿内贵族势力便会坐大,王畿的行政统一性随之瓦解,出现“政令不行于畿内”的困境,最终导致王室财政与军事崩溃。

    西周王畿的行政模式具有鲜明的独特性,既不同于后世纯粹的郡县制直接管理(基层乡里保甲),也有别于对诸侯国的松散羁縻。它是一种基于宗法血缘和政治从属关系,融合了直接控制与间接统治的复合型治理模式。这一模式是西周国家在技术条件有限、统治疆域较广的背景下,实现对主要区域有效治理的关键创新,通过分层管控、权责分工,最大限度地整合了王畿内的资源,保障了王朝的稳定与发展。与后来漫长的乡里保甲基层制组织对接之前,是长期的氏族血缘社会组织支撑着西周地方统治。

    同时,这一模式也内嵌了导致其长期不稳定的结构性矛盾——即贵族世袭领地的自治性与王权集中化趋势之间的固有冲突。西周晚期,随着宗法血缘纽带的淡化、王权的衰落,这一矛盾彻底爆发,畿内贵族势力失控,王畿管理体系逐渐瓦解,最终引发“犬戎之乱”与平王东迁,西周王朝走向灭亡。

     西周地方封国与中央政府的关系

    西周的地方封国并非独立或半独立的“封建国家”,而是西周国家政治架构中的有机组成部分。中央政府通过军事、礼仪、行政、血缘等多层次、制度化的纽带,对封国实施有限但有效的控制,最终形成以周王室为中心的等级化“中央—地方”权力结构。近年来出土的大量金文材料,以当时人的直接记录,为我们还原西周中央和地方关系的真实面貌。

    西周封国的本质,是周王室为实现地域统治和战略防御而建立的政治—军事殖民据点,其权力来源的派生性,在金文册命记录中有着明确体现。所谓“封国”的核心是周王的“授民授疆土”,这并非简单的土地与人口赏赐,而是委托统治权的授予。西周早期的宜侯夨簋铭文清晰记载了周王册封夨为宜侯的全过程:周王先省阅“伐商图”与“东国图”,明确封地范围后,依次赐予土地、人民及礼器、臣仆,完整再现了“授民授疆土”的制度化流程,印证了封国权力源于王室授权的根本属性。

    依据分封对象的差异,西周封国可分为三类,金文材料对各类封国的存在均有佐证:其一为同姓诸侯国,即姬姓王室子弟所封的鲁、卫、晋等国,是王室最主要的依赖力量。清华简《系年》记载成王、周公迁殷民于洛邑后,“先建卫叔封于康丘,以侯殷之馀民”,明确卫国作为同姓封国的镇抚职能;其二为异姓功臣或盟友国,分封对象是克商及东征中立功的非姬姓部族首领,如齐、许等国。清华简《封许之命》记载成王“命汝侯于许”,册封功臣吕丁(姜姓)于许地,此处“侯”为职事而非爵称,强调其“候望、守卫”的军事职能,与麦方尊铭文中“侯于邢”的表述逻辑一致,印证了异姓封国的军事殖民属性;其三为古国后裔的安抚性册封,如杞、宋等夏商旧族,金文材料中虽直接记载较少,但通过周王对这类封国的册命规范,可看出其被纳入周体系的政治事实(参程浩《大一统视野下的西周分封制》,《历史研究》2024年第5期)。

    西周封国的行政结构并非自主创设,而是中央政权的微型复刻,这种行政同构性在金文所见的官制记录中尤为显著。主要诸侯国如齐、鲁、卫的官制,是中央“卿事寮”“太史寮”系统的缩小版,司徒、司马、司空、太史等官职在封国金文中频繁出现。更具说服力的是,程浩通过金文与简帛材料研究发现,封国的三卿等主要官僚由中央直接任命,这一任免权的掌控,从根本上保证了封国行政体系与中央的一致性,印证了“分寄式中央集权”的体制特征(同上)。

    “国”与“野”的二分治理模式,是封国适应地域统治的重要策略,金文材料虽未直接定义“国”“野”,但相关记载可间接佐证这一制度的存在。“国”即都邑,由诸侯及其卿大夫直接统治,严格仿行周礼,封国金文所载的礼仪活动、彝器制作规范,均与王室礼制等级保持一致;“野”即郊外及更远地区,通过土著首领或附庸间接统治,保留地方习俗。昭王时期的中甗铭文记载名字叫“中”的贵族,受命省察南国的方、邓、汎、蓼等邦国,这些邦国部分属于封国统辖下的附庸势力,其与封国的关系,正是“野”地间接统治模式的体现。

    中央与封国的联系并非松散的联盟,而是通过军事、礼仪、行政、经济等多重制度化纽带构建的紧密网络,这些纽带的运行细节,在金文材料中有着丰富的记录。

    军事义务与安全依赖是最主要的纽带之一。从义务层面看,封国需承担“为王前驱”的出征责任和戍守成周等战略要地的使命,金文中此类记载不胜枚举。昭王时期的启尊铭文“启从王南征,徬山谷,在水上”,记录了封国贵族跟随周王南征的事迹;晋侯稣编钟铭文则记载晋侯率军作战斩敌,战后周王在成周赏赐晋侯马驹,印证了封国履行军事义务后的王室嘉奖机制。从依赖层面看,边疆封国如燕、齐的安全离不开王室中央军的支持,中甗、中方鼎等铭文记载昭王南巡时在南阳盆地、随枣走廊的曾国设置王居、驻屯军队,既为南征提供支撑,也为当地封国提供安全保障,彰显了王室军队对封国体系稳定的基石作用。

    “礼仪—政治”从属关系是维系中央和地方君臣名分的关键。一方面,诸侯定期朝觐与聘问的制度,在金文册命中有明确要求,通过朝见周王“述职”、派遣使者聘问,确认君臣关系、更新政治忠诚。另一方面,周王对诸侯继嗣的册命权,是维护宗法秩序的重要手段。金文明确记载王室官员调解卫国内部纠纷的事例,印证了周王介入诸侯君位纷争的权力。昭王时期的中觯铭文记载“王大省公族于庚,振旅,王赐中马”。“庚”即唐国,昭王在此省察公族、整顿军旅并赏赐,既是礼仪活动,也是对封国宗族秩序的干预与确认。

    行政监督与司法干预体现了中央对封国的管控力,其中“监”的制度通过金文材料得到明确证实。周王在重要或新征服区域设置“监”,代表王室履行监督职责。1958年江西馀干出土的应监甗,内壁铸有“应监作宝尊彝”六字铭文。郭沫若考证“监”或为中央派往应国的监国。李学勤在《应监甗新说》中结合青铜器断代与铭文比对,确认“应监”为周成王时期派往应国的监国者,且该器物出土与周室经营南土相关。也就是说“应监”与周初“三监”作用相同,均为监督殷商遗民,这一发现直接印证了“监”制度的存在,也说明中央对封国的监督覆盖主要统治区域。在司法层面,封国间重大争端或内部无法解决的严重案件,可上诉至周王或中央执政大臣审理,这一最高司法权虽无直接金文案例,但从“普天之下,莫非王土;率土之滨,莫非王臣”的礼制表述中,可推知其制度合理性。

    经济与礼仪性联系虽不具备强制管控力,却在精神与象征层面强化了从属关系。纳贡作为礼仪性义务,要求封国向王室进献地方特产,金文材料中常见封国向王室贡献彝器、物资的记载,这类贡献的主要意义并非经济补充,而是政治从属的象征。共同祭祀体系则构建了精神层面的统一体,诸侯国虽祭祀其始封君,但必须承认周王室的“天子”地位及国家级祭祀主导权,史墙盘(又称墙盘)铭文追述昭王“宏鲁昭王,广答楚荆,唯贯南行”,颂扬昭王贯通南国的功绩,这类铭文的流传,本质上是对王室祭祀权威的认同与传播。

    四 西周职官制度的演变

    陈梦家先生最早将西周历史划分为三个阶段:武王、成王、康王、昭王时期为早期;穆王、恭王、懿王、孝王、夷王时期为中期;厉王、宣王、幽王时期为晚期。西周早期多处于战乱与扩张阶段:武王时期的战争以灭商为根本目标;成王时期,周公主导平定三监之乱(即二次伐商),同时推进东夷平定事业;康王、昭王时期则持续南下东征,融合淮夷等族群,其扩张范围大致延伸至江汉流域,与楚人产生冲突(卢连成《厈地与昭王十九年南征》,《西周史与考古论集》,商务印书馆,2025,238—243页)。值得注意的是,早期扩张并非仅限于东南方向,北方亦有军事行动——小盂鼎所载伐鬼方铭文,便是成康时期北征的直接文献佐证,此战实质是对北方区域的军事震慑与周人势力的宣示。西周的鼎盛局面终结于穆王时期,此后王朝开启由盛转衰的历史进程,呈现边疆收缩、戎狄反扑的态势,最终走向覆灭。这一历史脉络不仅见于传世文献记载,更被一件件青铜铭文所镌刻、印证:从穆王穷兵黩武耗尽国力,到懿王、夷王时期的被动防御,再到厉王内外交困、防线崩溃,即便宣王“中兴”带来短暂回光返照,终究未能扭转颓势,最终幽王因内乱引外患,镐京被犬戎攻破,西周灭亡。

    西周王朝的职官制度及其权力运行并非一成不变,而是随着国力兴衰、边疆态势与统治需求不断调整。以成康时期为前期(鼎盛阶段)、穆王至夷王时期为中期(由盛转衰阶段)、厉王至幽王时期为后期(衰亡阶段),三个阶段的职官设置、运行机制,以及周王与辅政贵族、地方诸侯的权力博弈,均呈现出鲜明的阶段性特征,这些变化被清晰镌刻于青铜铭文之中,成为还原西周权力结构演变的重要实证。

    成康时期是西周王朝的鼎盛阶段,依托分封制与宗法制构建的职官体系趋于定型,权力核心牢牢掌控在周王手中,周王与辅政贵族、地方诸侯形成稳定的协同共治关系,职官运行高效且有序。职官制度上,形成了以“三公”“卿士”为核心的中央辅政体系,地方则以“诸侯”“卿大夫”为主体,构建起层级分明的治理网络。小盂鼎铭文是这一时期职官制度的重要见证,铭文记载康王册命盂“绍玆殷,乃寡兄”,命其执掌治民、疆土与祭祀之责,同时统领“三事大夫”“邦君”“御事”等各级官员。其中“三事大夫”对应中央政务官,“邦君”为地方诸侯,“御事”则是具体办事的中下级官员,清晰呈现了“中央—地方”的职官层级。此外,燕侯克罍、克盉铭文记载成王封燕侯克,命其镇守北方边疆,同时授予其管理当地族群、组建军队的权力,印证了分封制下诸侯封疆裂土、临民治事的职官权责。

    权力关系层面,周王处于绝对重要地位,辅政贵族与地方诸侯均需依托周王的册命获得合法性。中央层面,辅政贵族多为姬姓宗室或功臣后裔,如大盂鼎中的盂、燕侯克罍中的克,均通过周王的正式册命执掌权力,铭文反复强调“王命”“册命”,凸显了周王对辅政权力的授予权与掌控权。地方层面,诸侯的权力源于周王的分封,需履行朝贡、述职、随王征伐等义务,燕侯克罍铭文记载燕侯克“纳土”“献方物”,正是诸侯对周王臣服的直接体现。

    职官运行呈现出王命主导、层级节制的特征。中央政务的推行、地方事务的管理,均以周王的册命与指令为依据,各级官员的权责清晰、分工明确。大盂鼎铭文记载盂需定期向周王汇报政务,接受周王的考核与监督,体现了职官运行中的集权管控模式;地方诸侯则通过朝聘的礼制与中央保持联系,确保周王的政令能够顺畅传达到地方,形成高效的治理闭环。

    穆王至夷王时期,西周王朝由盛转衰,长期的征伐与巡狩导致国力透支,王权开始出现松动。为应对边疆危机与内部治理需求,职官体系进一步扩张,周王与辅政贵族、地方诸侯的权力平衡被打破,博弈加剧,职官运行逐渐呈现出集权弱化、地方自主的趋势。职官制度上,中央辅政体系新增大量军事类职官,地方则出现“镇守型”专职官员,职官设置更侧重于应对边疆危机。穆王时期的班簋、冬簋铭文记载,周王命班、冬等将领率军征伐犬戎、淮戎,同时设立“师氏”“司马”等专职军事官员,负责军队的组建、训练与调度,军事类职官的权重显著上升。到了夷王时期,乖伯簋铭文记载周王命乖伯“御戎”,专门镇守西北边疆,这一时期的镇守官已区别于成康时期的诸侯,不再拥有封疆裂土的权力,而是以军事防御为重要职责,成为周王派驻边疆的专职官员,体现了职官体系向军事化防御的倾斜。

    权力关系层面,周王的绝对权威开始弱化,辅政贵族与地方诸侯的自主性逐渐增强。中央层面,辅政贵族的权力开始膨胀,部分贵族甚至能够长期执掌军事与政务大权,穆王时期的班簋铭文记载班率师伐“东国”,长期领兵在外,其权力已不仅限于周王的临时授权,开始形成一定的个人势力。稍后的史密簋铭文记载恭王至懿王时期“广伐东国”,以史官与军事将领为重要、被动防御作战的记录,它反映了王朝衰退期的边疆危机与协同防御格局(东国的解读,参庞小霞《从东夷到华夏——海岱地区考古学文化的互动与族群变迁》,科学出版社,2024,197页)。地方层面,诸侯的离心倾向初现,部分诸侯不再严格履行朝贡、述职义务,穆王时期冬簋铭文记载东国夷族对周王权威作出挑战;而夷王时期的伯硕父鼎铭文提及“治赤戎、驭方”,周王需通过联姻的方式拉拢西北族群首领,侧面反映了周王对地方掌控力的下降。

    职官运行不再完全取决于王命,中央对地方的政令传达不再顺畅,周王不得不通过设立专职镇守官、授予将领临时处置权等方式应对危机,如乖伯簋中乖伯的“御戎”之责,无需定期向周王汇报,更多是根据边疆态势自主决策。同时,军事类职官的运行逐渐脱离政务体系的制约,班簋铭文记载班率军征伐时,可自主调配粮草、任免下级军官,体现了职官运行中军事化优先对原有层级节制体系的冲击。

    厉王时期,西周王朝陷入内外交困的绝境,内部“国人暴动”动摇统治根基,外部戎狄入侵加剧边疆危机。职官体系彻底紊乱,原有层级节制机制失效,周王的权力完全旁落,周王与辅政贵族、地方诸侯的关系彻底破裂,职官运行陷入无序失控的状态,最终伴随王朝覆灭而崩溃。职官制度上,中央辅政体系名存实亡,地方职官体系彻底瓦解,取而代之的是权臣专权与军事割据的混乱状态。厉王时期的多友鼎铭文记载,周王不得不依赖多友等将领保卫京师、镇守边疆,这些将领的权力不再源于正式的册命,而是依托手中的军队形成实际掌控力。

    厉王被逐后,是共和行政时期。共和元年即公元前841年,是中国最早的确切纪年。关于“共和行政”究竟是什么意思,历来有两种说法。一是出自《竹书纪年》等书的“共伯和干王位”;一是出自《史记》的“二相行政”说。《西周兴亡史研究》的作者杜勇认为,最有可能是王畿内诸侯“共伯和”以三公首席身份与召公、周公共同执政,并发布国家政令。周厉王死后,其子宣王才正式即位。这却说明,此时周天子的地位是不可挑战的,也证明了西周国家制度建设的成功。王朝衰落时的挑战,不再来自其他部族或邦国(如商灭夏、周灭商),而是如春秋战国所显示的那样,是王朝内部的诸侯。

    宣王时期的兮甲盘铭文虽提及监豳师戍、征收贡赋等职官职责,但此时的职官已不再是层级节制的体系,而是宣王为维系统治临时任命的事务官,缺乏稳定的权责划分。到了幽王时期,郑虢仲簋铭文仅提及王命郑虢仲守宗周,此时的职官已无明确的体系可言,仅剩下镇守京师这一核心军事职责,中央与地方的职官网络彻底断裂。周王完全丧失核心地位,沦为权臣与地方诸侯的附庸,最终因内部权力斗争引发外患。

    职官权力运行出现无序失控、武力主导的局面。原有以“王命”为核心的运行机制彻底失效,各级官员的任免、权责均由权臣或诸侯自主决定,幽王时期的郑虢仲虽受王命守宗周,但实际权力仅限于自己的军队,无法统筹京师的整体防御。地方层面,诸侯不再履行任何对周王的义务,反而相互攻伐、割据一方,鄂尔多斯及陕北—晋北地区的中原式职官遗存彻底消失,北方系青铜器大量涌现,标志着西周地方职官体系的完全瓦解。

    总之,西周前中后期的职官制度与权力关系演变,呈现出初期集权、中期松动、晚期崩塌的清晰轨迹,而职官运行状态则是权力关系变化的直接体现。周王任命卿士主政,防止一家独大(如周公之后,鲁国不再在朝中掌权)以形成制约,但是前期王命尚能畅行天下,主导局面,地方层级节制,就是因为周王对权力的绝对掌控与分封制的稳定运行;中期的集权弱化、地方自主,是国力衰退与边疆危机下的被动调整,反映了王权对贵族与诸侯的掌控力下降;后期的无序失控、武力主导,则是制度瓦解与权力旁落的必然结果,最终伴随王朝覆灭而终结。

    转自《文史知识》2026年第3期

  • 孟国栋:从宗庙到丘坟:祭祀空间的转移与墓碑的兴起

    墓碑作为中国古代最重要的饰终礼典之一,向来备受关注,其生成过程却不明朗,产生时间也难以确考。从东汉时起,坟前立碑纪念亡者,已是习见之事。刻于东汉时期的墓碑仍有很多传世,如乙瑛碑、张迁碑等,东汉后期还出现了蔡邕等以撰写碑文名世的文学家。但石质墓碑究竟是如何产生的,至今依然混沌不明。学界习惯上认为墓碑是由先秦时期的丰碑演化而来的,东汉末年的刘熙已开其端,他在《释名》中指出原本用于引棺下葬的丰碑,被后人当作了书写亡者功业的载体:“碑,被也。此本葬时所设也。施鹿卢,以绳被其上,引以下棺也。臣子追述君父之功美,以书其上,后人因焉。故建于道陌之头、显见之处,名其文,谓之碑也。”后代学者关于墓碑渊源的看法,基本都沿袭了刘熙的观点,如明代徐师曾认为:“古者葬有丰碑,以木为之,树于椁之前后,穿其中为鹿卢而贯繂以窆者也。《檀弓》所载‘公室视丰碑’是已。汉以来始刻死者功业于其上,稍改用石,则刘勰所谓‘自庙而徂坟’者也。”刘、徐二人的说法均是就墓碑形制的演变而言的。但我们依据新发现的考古资料以及先秦至两汉时期墓葬形制的演变,认为这种看法可能并不符合实际情况。

    据文献记载,先秦时期的丰碑多直接砍伐原木为之,其主要功能是辅助棺椁平稳地下降到墓穴底部。丰碑上设穿,穿中插入横木,埋设棺椁时当作辘轳之用。《礼记·檀弓下》:“公室视丰碑,三家视桓楹。”郑玄注:“丰碑,斫大木为之,形如石碑,于椁前后四角树之,穿中,于间为鹿卢,下棺以繂绕。天子六繂四碑,前后各重鹿卢也……斫之形如大楹耳,四植谓之桓。诸侯四綍二碑,碑如桓矣。”又,《礼记·丧大记》:“君葬用輴,四綍二碑……大夫葬用輴,二綍二碑……士葬用国车,二綍,无碑……凡封,用綍去碑负引。”郑玄注:“比柩车及圹,说载除饰,而属绋于柩之缄,又树碑于圹之前后,以绋绕碑间之鹿卢,挽棺而下之。”可见丰碑主要是被当作下葬时的支架而设立的,在早期葬礼中起着极为重要的作用。

    1986年在陕西省凤翔县南指挥村秦公一号大墓(墓主为秦景公)椁室南北两侧出土了两根残存的无字木柱,高1.7—2米、直径0.4米。由出土实物来看,这两根木柱极为粗壮,呈圆柱形,树皮均未剥除,接近原木。学界一致认为这两根木柱就是丰碑,其作用即辅助棺椁下葬。秦公一号大墓的发现者韩伟等认为:“斜立于墓穴南北两侧的两根长木,是史书记载的‘四綍、二碑’的碑,是作为下放棺木所用的,这是我国首次发现的木碑实物。”陕西历史博物馆马振智副馆长也说:“一号大墓的二个木碑分别植于主椁室南北两侧的三层台上,都是残留有树皮的原木。残高1.7—2米、直径0.4米。下端埋入土内,上端倾斜伸向椁室,其用途为下棺是显而易见的,亦合诸侯二碑之礼……根据主椁室东西狭长,南北窄短的形状来推测,如果植碑于主椁室前后(东西),则由东墓道(主墓道)下棺的运送随葬品时,必然受阻而不便。所以,植碑于左右两侧应是合理的。”山东省博物馆的王思礼、赖非亦云:“下棺用的木柱是很粗大的……实物有陕西秦公大墓的木柱(碑)为证……埋在墓圹的两边,为下棺时系绳以保持平稳所用。”由此可见,先秦时期的丰碑是木质的,且多为原木,呈圆柱体,往往未经打磨,表面也较为粗糙。丰碑分别树立在墓穴的两边或四角,贯以横木,类似于井上的辘轳,主要用于辅助棺椁下降。

    王思礼等人也因此对墓碑源于丰碑之说提出了质疑:“刘熙虽然说木柱(碑)也用于书写死者功德,但他未必见过下棺用木柱(碑)上的字,极可能根据存在于汉代的‘表木’而说的。该是为了解释流行于东汉功德碑之起源而作的推测。虽说不能完全排除它们之间或有某些引发关系,但似乎有些牵强。”由秦公一号大墓出土的丰碑实物来看,无论其材质、形制还是具体功用,都与后世的墓碑截然不同。后世用来记录人物生平、兼有歌颂墓主丰功伟业的石质墓碑是否由作为实用工具的木质丰碑演化而来?不禁令人生疑。笔者以为,要考察墓碑的起源,需要从坟墓形制的演变和祭祀空间的转移两方面入手。

    一、坟墓形制的演变与丰碑功能的蜕化

    中国最早的坟墓是没有封土的,《礼记·檀弓上》:“吾闻之,古也墓而不坟。”《周易·系辞下》:“古之葬者,厚衣之以薪,葬之中野,不封不树。”类似说法也屡屡见诸后世文献记载,如《汉书·刘向传》先引《周易·系辞下》中之语,然后进一步举证说:“殷汤无葬处。文、武、周公葬于毕,秦穆公葬于雍橐泉宫祈年馆下,樗里子葬于武库,皆无丘陇之处。”这就意味着最初的坟墓并没有后世那种高大的坟丘,下葬以后,与地齐平。此时墓碑、墓志等可以用于识别墓地的标志也还未产生,人们多于墓旁栽种青松、白杨一类的树木用以分辨墓地,所以《左传》中才有所谓“中寿,尔墓之木拱矣”之类的言论。从汉人临终前的嘱托中我们仍能够印证先秦时期存在着“墓而不坟”的埋葬方式。延熹六年(163),蔡邕为朱穆撰《坟前石碑》,记载朱穆临终前告诫其子务必要遵从古代不起丘坟的营葬方式:“古者不崇坟,不封墓,祭服虽三年,无不于寝,今则易之,吾不取也。尔其无拘于俗,无废予诫。”《后汉书·谢夷吾传》记载:“豫克死日,如期果卒。敕其子曰:‘汉末当乱,必有发掘露骸之祸。’使悬棺下葬,墓不起坟。”可见一直到东汉,也还有人为避免坟墓被盗掘而选择上古时期流行的“不崇坟,不封墓”的埋葬方式。

    先秦时期盛行纵向深埋的竖穴式椁墓形式,坟墓虽然大都没有封土,但墓穴往往极深,且大多数坟墓没有墓道,墓坑也仅能容纳棺椁和必要的随葬品,不会挖得特别宽。据郑良树统计,殷商时代只有部分大型墓葬才有墓道,中、小型墓葬大都没有墓道,且流行窄坑甚至超窄坑,如安阳出土的160座殷商时代的小型墓葬,长方形窄坑有49座,其中10座墓坑的宽度只有长度的三分之一,6座墓坑的宽度还不足长度的三分之一,还有2座墓坑的宽度只有长度的四分之一。这些墓穴的深度大都较为可观,4米以上的就有65座,最深的197号墓深达7米,该墓长和宽分别只有3.01、1.7米,加之并无墓道,要想把棺椁平稳地下放至坑底并非易事。又如著名的妇好墓,南北长5.6米,东西宽4米,深达7.5米,无墓道,但椁即长达5米,宽3.4米—3.6米。墓坑的长、宽均与椁极为接近。这种埋葬方式,使得下葬时放置棺椁之人很难直接下到墓坑中。虽然部分竖穴式土坑墓墓壁上会有脚窝式台阶供人上下之用,但妇好墓一类的纵向深埋式的竖穴墓葬,墓穴极深,墓坑的规格也几乎与椁一致,即使送葬人员可以通过脚窝进入到坑底,也很难辗转腾挪,要想把极为笨重的棺椁垂直、平稳地放入墓坑中更是艰难。这种情况下,最好的办法即借助辘轳(丰碑)、绳索(綍)等工具辅助棺椁悬挂式下降,因此丰碑也就应运而生了。到战国时期,依然会有窄坑出现,如河北怀来北辛堡、四川成都羊子山甚至出现了口大底小的特大号长方形窄坑。此时的很多大型墓葬或无墓道,或有墓道,但较为陡峭,不仅不利于物品(包括棺椁)的搬运,连人的上下都极为困难。谢夷吾临终前告诫其子“悬棺下葬,墓不起坟”,正可令人想见当时依然有采用丰碑等工具辅助棺椁下降的具体情形。

    但“墓不起坟”已非东汉时期主流的埋葬方式。从春秋晚期开始,坟丘式墓葬开始出现。至战国,平民的坟丘墓已经比较普遍。到东汉时期,上至王公大臣,下至平民百姓,都在使用坟丘式墓葬了。崔寔曾有感于礼法的丧亡,于《政论》中批评当时的丧葬情况:“乃送终之家亦大无法度,至用轜梓黄肠,多藏宝货,飨牛作倡,高坟大寝。是可忍也,孰不可忍?”还说:“古者墓而不坟,文武之兆与平地齐,今豪民之坟已千坊矣。”令人哭笑不得的是,崔寔虽然对这种现象极为不满,却仍未能免俗,不惜变卖田产为其父营造坟茔。《后汉书·崔寔传》记载:“初,寔父卒,剽卖田宅,起冢茔,立碑颂。”可见在东汉后期,坟丘式墓葬已经成为坟墓的主流,即使像崔寔那样猛烈批评丧葬逾礼之人,还是被丧俗裹挟了进去。

    自战国时起,一些大型墓葬开始出现墓道,如洛阳西郊发掘的一座战国墓葬,“口大底小,四壁倾斜。墓口南北长10公尺,东西宽9.1公尺。墓底长7.9公尺,宽7.2公尺。墓口至底深12.5公尺。”如此深的四壁倾斜的墓穴,只能借助墓道方便棺椁的运送和人员的上下。该墓葬南壁正中有一条4.5公尺宽的墓道,“坡度最大不会超过三十度,可能只有二十五度,是一条很理想而且方便的墓道”。战国时期的不少国君生前即为自己营造陵墓,如《史记·赵世家》记载赵肃侯十五年(公元前335)“起寿陵”。《史记·秦始皇本纪》也说:“始皇初即位,穿治郦山。”帝王陵的规格都很高,不仅规模大,占地面积也广,并且多留有墓道,便于人员出入和棺椁的埋葬。穿山为陵式的坟墓更是使得悬棺下葬变得不再适用,丰碑自然也就没有了存在的必要。不仅大型墓葬如此,战国时期的小型墓葬也开始出现墓道,更加方便棺椁的运送。郑良树指出:“无论殷商时代,或是西周春秋时代,中、小型墓坑都没有墓道这种形制;可是,到了战国时代,不但中型墓坑出现了墓道,甚至小型墓坑也出现墓道(不是指洞室墓)。”

    更重要的是,从战国时期开始,中国的墓葬形式开始发生变化——由先秦时期的竖穴式椁墓向横穴式室墓转变。“洞室墓绝不是一朝一夕所能发展成功的,它一定是经过一段相当长的时间,逐渐演变蜕化而来。这种变墓坑为墓道,另辟洞室代墓室的形制,是战国才新兴的(殷商及西周春秋时代根本没有此形制),它一直蔓延到秦汉,成为秦汉的主要墓坑形制”。这种墓葬的洞室,最初只是放置明器和随葬品,但后来逐渐演变为放置死者的棺椁以及随葬品,竖穴之中空无一物。汉代以后,洞室墓又出现了新变化,“竖穴不但是墓道,洞室的前半截也是墓道,陈置棺木及明器的部位是在洞室的尾端(洞室深长)”。这种深长的洞室,意味着棺椁只能横向进入其中,不再需要丰碑的辅助。东汉以后,横穴式室墓又得到进一步发展和推广,几乎为社会各个阶层所使用。这也促使埋葬方式发生了转变,其中最为重要的变化就是室墓中出现了墓门和墓道,棺椁能够经由墓道横向推进墓室,改变了先秦时期用绳索捆住棺木悬挂式下葬的模式。高崇文指出:“汉墓中有许多是将棺横向推进棺室的,这一类的墓一般设有墓道,棺室设门,以便将棺横向进入。这样就改变了先秦竖向窆棺下葬的方式。”同时由于墓葬形制的改变,特别是券顶、穹窿顶的使用和推广,使得坟丘都可以在亡者生前营造好,而不必等棺材下葬以后再另起封土。一些“凿山为藏”的崖洞墓、砌为券顶的砖室墓以及石室墓的流行,使得棺椁能够“由墓道通过椁室门、棺室门横向送入棺室内,不必再用綍、碑、辘轳由上而下进行窆棺了”。可见,自从坟丘墓广为流行以后,丰碑不仅逐渐丧失了原有的实用功能,甚至失去了存在的必要性。

    二、上墓礼俗的流行与墓园的公共化

    在坟丘墓流行的同时,祭祀空间也发生了转移,由原来的庙祭,逐渐演变为以墓祭为主。随着墓祭制度的确立和推广,墓园越来越成为一种公共空间。后人在墓园聚集缅怀亡者时,需要了解他们的丰功伟业和高尚情操,质地坚硬的石质墓碑已经成为了现实的需要。

    墓祭,即后世所谓的“上墓”“上坟”,迄今为止,学界对其产生时间尚未达成共识。对于上古时期是否存在“墓祭”,汉魏时期的学者似乎并无争议,王充认为东汉以前均以庙祭为主,墓祭是到东汉才开始出现的丧葬习俗:“古礼庙祭,今俗墓祀。”蔡邕在《独断》中提出:“古不墓祭,至秦始皇出,寝起之于墓侧,汉因而不改。”《后汉书·礼仪志》也说:“古不祭墓。”一直到清代的顾炎武仍认为“古不祭墓,皆设于庙”。他指出:“古人之至于墓,皆有哭泣哀伤之事。而祭者,吉礼也,无舍庙而之墓者也。”但阎若璩则认为“古有墓祭”。赵翼也持“古有墓祭”之说,认为虽然三代以前并无墓祭,但春秋战国时期墓祭开始出现。现代史学家多持春秋战国时期已有墓祭之说。吕思勉曾指出墓祭风气起源甚早:“然谓古不祭墓,则非其实也。”“庐墓盛于汉世,固不免于矫诈而沽名,然谓其俗不原于古,固不可也”。杨宽也主张“春秋战国之际民间确实已开始推行墓祭”。

    虽然学界对先秦时期是否存在墓祭仍有争议,但毫无疑问,至东汉为止,墓祭已经成为朝野上下普遍流行的礼俗:在朝廷,有所谓的“上陵之礼”,在民间有所谓的上墓之俗。东汉时期朝野上下都十分重视墓祭,朝廷之所以推行“上陵之礼”,是两汉时期豪强大族势力发展的必然结果。“东汉初年所以会实行隆重而大规模的‘上陵礼’,确立以朝拜和祭祀为主要内容的陵寝制度,是和西汉中期以后豪强大族势力的发展,东汉政权以豪强大族作为其基础有关的”。豪强大族把上墓祭祀祖先当作巩固大族团结的手段,进一步促成了上墓习俗的推广。东汉政权的建立者和上层官僚本身就是西汉时期的豪门大族,其家族内部极有可能已存在上墓祭祀先人的做法,因此等政权稳固以后,将上墓习俗演变为上陵之礼,也是在所必然。《后汉书·礼仪志》记载,光武帝刘秀去世以后,葬于原陵。其子汉明帝有感于光武帝再也无法见到四方臣僚的朝拜,因此就把每年元旦举行的“元会仪”搬到原陵举行,将民间疾苦、善恶风俗等等向光武帝“报告”,“庶几先帝魂神闻之”。除了元旦的“元会仪”之外,很多原先在宗庙中举行的祭祀活动也都搬到了墓地进行。“东汉政权创立的由皇帝率领公卿百官以及各郡上计吏的上陵朝拜祭祀典礼,就是为了把代表豪强大族势力的公卿百官和各郡官吏团结在东汉皇帝的周围,用来作为巩固统治的一种手段”。

    “上陵之礼”的推行,意味着墓祭得到了官方的正式承认,也日益成为一种常用的祭祀典礼。虽然顾炎武对“上陵之礼”颇有微词,认为这种做法破坏了古代的礼制:“此特士庶人之孝,而史传之以为盛节。故陵之崇,庙之杀也;礼之渎,敬之衰也。”但不可否认,随着国家对“上陵之礼”的推崇,民间对上墓习俗也更加重视。王充《论衡》记载当时有所谓“被刑为徒,不上丘墓”之说,并指出徒不上丘墓有二义:“愧负刑辱,深自刻责,故不升墓祀于先。古礼庙祭,今俗墓祀,故不升墓,惭负先人。一义也。墓者,鬼神所在,祭祀之处。祭祀之礼,斋戒洁清,重之至也。今已被刑,刑残之人,不宜与祭,供侍先人,卑谦谨敬,退让自贱之意也。缘先祖之意,见子孙被刑,恻怛憯伤,恐其临祀,不忍歆享,故不上墓。二义也。”就中可以看出,王充生活的时代,社会上对墓祭是非常重视的,受过刑罚之人根本没有资格“上墓”,因为“上墓”的目的是为了供侍先人,先人如果见到受过刑罚的子孙,则会“恻怛憯伤”。因此当时的习俗禁止他们“上墓”,以免“惭负先人”和“恐其临祀,不忍歆享”。人们之所以对“上墓”如此谨慎,正体现出这一习俗在他们心目中的重要性。

    从战国中后期开始,宗庙的重要性逐渐减弱,很多原本在宗庙中进行的活动都搬到了朝堂,宗庙只成为祭祀祖先和王族内部举行传统礼仪的处所。这时逐渐出现了将宗庙中的庙、寝分离,迁移到陵园附近和陵墓的边侧或顶上,从而使宗庙和陵墓相结合的做法。到了东汉,特别是经过汉明帝和汉章帝对宗庙制度的改革,一些在宗庙中进行的祭祀典礼也移到了陵墓之中,宗庙的祭祀功能日渐削弱。巫鸿指出:“由于这一系列的改革,‘庙’在东汉时期的地位下降到最低点,而‘墓’终于成为祖先崇拜的绝对中心。”

    随着“上墓”习俗的广泛流行,民间的一些祭祀活动,也大都搬到了墓地。“至东汉,墓、庙之严格区分消失,墓地成为魂(神)、魄共同的居处”。“墓地由凄凉沉寂的死者世界一变而为熙熙攘攘的社会活动中心。供祭既日月不间,大小公私集会也常在墓地举行”。因为很多祭祀工作都改在了坟墓进行,所以墓园的规模就要造的很大,并且有很多附属建筑。由图1可以看出,当时墓园中的建筑物已经是非常完善且繁复的了。

    图1  沂南画像石墓的画像中建筑图

    我们可以清楚地看到最右边竖着一根华表,上面拴系着马匹。另外一边的左侧有一个大架子,上面挂着各种已宰杀好的肉类,架旁还放有祭祀用的器皿。我们知道,碑的三种初始形态中有一种就是用于宗庙门口以拴系牲口。《礼记·祭义》:“祭之日,君牵牲……既入庙门,丽于碑。”孔颖达疏:“君牵牲入庙门,系著中庭碑也。王肃云:‘以编贯碑中,君从此待之也。’”亦即郑玄所谓“凡碑引物者,宗庙则丽牲焉,以取毛血”者也。而到东汉时,祭祀活动已经移到墓园举行,此时祭祀用的牲口,很可能也会像这两匹马一样被拴在华表之上,便于厨师们就近宰杀和取毛血。这就意味着原本用于宗庙拴系牲口的石碑也逐渐失去了最初的功能。

    上墓习俗的流衍,使得墓园日益变成一种公共空间。随着墓园的地位越来越重要,很多家族的集会也都搬到此处进行,或宴饮娱神,或缅怀先人,现存为数众多的汉画像石,即是明证。先人的丰功伟绩和高尚品德需要充分地向后人展示,加之在当时,刻石记事、刻石纪功的风气早已形成。因此,墓碑的树立似乎已成为丧葬制度改革以后必不可少的环节。

    三、石质墓碑的产生及其社会化属性

    中国石碑起源的时间很早,但最早的碑石之上均无文字,重在突出其象征意义和纪念性。有文字的称为刻石,如秦刻石、西汉刻石等,司马迁在《史记》中也均用刻石、立石称之,从未将刻有文字的石块称为碑。这说明在秦汉时期,人们是将碑和刻石当作两个不同概念区别对待的。

    早在上古时期,中国的先民就使用竖立的石块象征土地神,或称作“社”,具有守护神性质。社有社主,各个时代象征社主的物品不一。《淮南子·齐俗训》记载:“有虞氏之祀,其社用土……夏后氏其社用松……殷人之礼,其社用石。”可见商朝人用竖石表示社主。俞伟超认为1965年江苏铜山丘湾发掘的商末遗迹中发现的四块天然大石以及1977年连云港市西南锦屏山山麓的将军崖发现的三块天然巨石,均为古代社祭所用的社主。2014年陕西周原遗址发掘的一座西周时期的大型建筑基址北侧正中树立一块长方体立石,残存部分尚有1.89米,孙庆伟推测其总高度可能高达3.32米,并指出“如此巨大的一根立石显然不会是普通之物,把它看作是社主无疑是最好的解释”。

    其后,人们逐渐开始对天然石料进行修饰,公元前4世纪的中山王墓石碑(又称公乘得守丘刻石)高0.9米、宽0.5米、厚0.4米,碑面较为平整,顶部略圆,左上方有凹痕,不仅人工雕凿的痕迹明显,还刻有铭文,李学勤释作:“监罟尤(囿)臣公乘得,守丘亓(其)臼(旧)(将)曼敢谒后尗(俶)贤者。”意为“为国王监管捕鱼的池囿者公乘得,看守陵墓的旧将曼,敬告后来的贤者”。秦代以后,在石头上刻录文字,刻石记事、刻石纪功的做法已较为盛行,现存秦代的刻石尚存著名的峄山刻石、琅琊台刻石等。原石已毁,仅有文字留存者则更多。这种传统对后世的影响很深,西汉时期也出现了很多著名的刻石,如《鲁孝王刻石》《扬买山刻石》等等。这些刻石虽然还是以记事为主,但对石质墓碑的生成应当起到了较大的促进作用。从现存两汉时期的一些祠堂和画像石上的题记来看,当时已经出现了题刻在石头上,简单记录人物生平的石刻。如山东汶上县出土的《路公食堂画像》:“□□元年二月廿日□□□□□□□□荆路公昆弟□天凤三年立食堂路公治严氏春秋不逾。”虽然有阙文,但时间和主要人物的事迹还是清楚的。天凤三年(16)属两汉之交的新莽统治期间。到了东汉,类似的题记就非常普遍了,而且内容上也有了大幅扩充,不仅会简单记录亡者的生平,还对立祠者的孝行和子孙的哀悼之意有一定表述。与祠堂或墓室中重在表达致哀之意的文字相辅相成,树立于坟墓之外、完整记录亡者生平事迹、特别是凸显其丰功伟绩或高尚情操的石碑已经是呼之欲出了。

    上文曾及,丰碑多为木质,宫庙之碑以及商代的社主则多为石质。就现存实物而言,东汉时期的墓碑均为石质,那么它到底是不是由这几种初始形态的碑演变而来的呢?笔者以为首先要考察一下汉人的树碑目的。通过东汉时期一些碑文结尾处的说明,我们可以对树碑目的有一定了解。早期的墓碑,来源比较复杂,既有亡者的子孙、弟子、友人所立者,也有地方长官、故吏之子、子孙之门人等共立者。子孙所立之碑,往往立足于表达对亡者去世的哀悼之意,如《汉司隶校尉鲁峻碑》结尾云:“息叡不才,弱冠而孤,承堂弗构,析薪弗何,悲《蓼莪》之不报,痛昊天之靡嘉,俯企有纪,能不号嗟,刊石叙哀。”其他人所立之碑,更重要的目的在于表德,如《后汉书·崔寔传》记载:“(崔寔)建宁中病卒。家徒四壁立,无以殡敛,光禄勋杨赐、太仆袁逢、少府段颎为备棺椁葬具,大鸿胪袁隗树碑颂德。”《后汉书·姜肱传》记载:“(姜肱)年七十七,熹平二年终于家。弟子陈留刘操追慕肱德,共刊石颂之。”《武斑碑》:“于是金乡长河间高阳史恢等,追惟昔日,同岁郎署……故□石铭碑,以旌明德焉。”《汉平舆令薛君碑》:“吏民其咨,咨君之德,乃建碑石于墓之侧。”《议郎元宾碑》:“于是族旧门人莫不伤瘁(下缺),立铭以咏君德。”天子有时也会亲自下令树碑,用以表彰亡者德行。《后汉书·窦章传》记载:“顺帝初,章女年十二,能属文,以才貌选入掖庭,有宠,与梁皇后并为贵人……贵人早卒,帝追思之无已,诏史官树碑颂德,章自为之辞。”至于曹娥碑的树立,更是基于地方长官对其孝行的表彰,《后汉书·曹娥传》记载:“至元嘉元年,县长度尚改葬娥于江南道傍,为立碑焉。”“东汉墓碑的立碑者中,最多的是门生和故吏……当时的一些官僚、豪强或处士多崇儒通经,都以名节相尚,互相标榜。士大夫和儒生或者本身就是经学大师,世代传经,收徒讲经。经师和官僚可以推荐自己的弟子门生去当官吏等,这些被举荐者,便是举主的‘故吏’。宗师和举主死后,正所谓‘师徒如父子’,其门生、故吏均要出钱为之立碑”。可见表达对亡者的哀悼之意并非早期墓碑的主要功能,表彰亡者的德行,以传诸久远才是最为重要的。

    汉代的葬礼具有极强的公众性,巫鸿指出:“当丧家将墓葬、祠堂以及其他丧葬用具一一准备齐全,就可以举行公开的葬礼了。死者的朋友、同僚、门生分别在道路两边,注视着灵车通过,然后跟随着送葬队伍去往墓地。”地方官员去世后,送葬者多达数千人的葬礼亦较常见。上文曾指出,随着丧葬礼俗的变革,到东汉时,墓地已经日益成为一种公共空间。而亡者的子孙、友朋、门生、故吏需要充分了解亡者的品行、功业,并需要借助一种实物来表达对亡者的纪念:“这些来宾有时在墓地中立碑,在上面铭刻长篇文字,以纪念死者的德行,表达对死者家属的慰问。”因此他们在上墓的同时开始考虑为亡者树立墓碑。

    在传播媒介极为有限的时代,要想使亡者的事迹能够传诸久远,最好的途径就是刊石颂德,现存东汉时期的一些墓碑,无不体现出此点。“保存至今的大约150篇刻在石碑上的汉代铭诔可说都是基于传名的目的而创作的。作者将文字刻在石头上,希望他们死去的友人或同事‘声名’恒久”。 “碑文遵循着一套严格的既定规则,是一种正式和公开的文本”。并且在大多数情况下,“汉代的墓地对外界开放,死者家族鼓励善意的人们前来瞻仰,以使得死者的名声及其家庭的德行能够广为传播”。正因如此,质地优良、较为坚固的石碑自然成了能够实现这一目标的最佳选择,现在仍有不少汉碑留存,也从客观上证明他们的努力最终没有付诸东流。

    从这个意义上讲,石质墓碑的出现也是丧葬习俗发生变革以后的必然结果,并且日渐深入人心。即使是一些明令死后遵循古制安葬,不起丘坟者,其家属一方面在祠堂中“备器铸鼎,铭功载德”,但另一方面依然会在坟墓前树立石碑,因为害怕“坟封弥久,夷于平壤”,所以还要“依德像,缘雅则,设兹方石,镇表灵域”。可见在坟前树立石碑,已经成为东汉丧葬习俗中的必备环节。随着上墓礼俗的越来越普及,墓碑也有了一定的社会化功能,甚至可以说,它们已成为墓园之中必不可少的建筑。不仅男子的坟墓如此,女子甚至童稚,其坟墓之侧均可立碑,成为后人凭吊的依据。立碑耗费巨大,如果子孙因为贫困,无力为亡者树碑,他人可集资为之,如《孝廉柳敏碑》:“君清节俭约,厉风子孙,固穷守陋……墓无碑识。建宁元年,县长同岁犍为属国赵台公愤然念素帛之义,其二年十月甲子,为君立碑,传于万基。”这种实例不仅反映出墓碑的社会化功能越来越强,也反映出了亡者生前的社交网络或社会影响。因此碑文不能写得过于私密,在记录亡者生平等基本信息之外,还应该包含部分能体现亡者公众形象的文字,“碑文强调死者的公众形象和立碑人对他的忠诚”。由此而生成的墓碑也与丰碑、宫庙之碑等具备实用功能的碑不同,“一座碑除了它的纪念意义外没有任何实际功能”。

    至于碑石的来源,恐怕既非直接源自丰碑,也非直接用宗庙之碑或者社石。一来丰碑原为木质,且在东汉时期已逐渐失去存在的必要。加之几乎所有的墓碑,都毫无例外地强调其“石”的质地:“镌立石碑”“立碑刊石”“刊石树碑”“刻石立碑”。二来宗庙之中用于拴系牲口的石碑不像碑石那样打磨得光可鉴人,且随着上墓礼俗的推行,不一定树立在墓园中。因此东汉时期的多数石碑实际上以新采伐者居多,这在碑文中也有体现。如《先生郭辅碑》:“其季女明文,颍川之夫人也,感惟考妣克昌之德,登山采石,致于墓道,邑人缙绅,刻石作歌,昭示来嗣。”《衡方碑》:“于是海内门生故吏,□□□,采嘉石,树灵碑。”《孔宙碑》:“于是故吏门人,乃共陟名山,采嘉石,勒铭示后,俾有彝式。”都无一例外地强调立碑者“采嘉石”、在神道中树立墓碑的活动。囿于文体的局限,刻石细节虽未能在碑文中体现,但通过祠堂题刻中的描述,我们也能够对刊石树碑的情形有大致了解。新出土《许卒史安国祠堂题记》记载:“募使名工高平王叔、王坚、江胡,□石、连车,采石县西南小山阳山,琢砺摩治,规矩施张。”采石工作结束后,还要经过连月的打磨才能最终将题刻完成,不仅费时费力,花费亦多:“作治连月,功夫无亟。贾钱二万七千。”可见刻石耗费的人力、财力之巨。该石仅仅是用作祠堂的盖顶石,与立于地面的石碑比起来,规格不算太高,“石高六八厘米,宽一〇七厘米”且“文字甚率意”。严整墓碑的造价之高和工艺的繁复程度更是可想而知,也绝非普通家庭能够承受,因此众人共同出资为亡者立碑也就不足为奇了。单从这个意义上讲,汉代石质墓碑之所以会大量出现,与其树立过程中体现出的社会化属性密不可分。

    结语

    通过本文的分析,我们可以发现随着坟墓形制的演变和丧葬习俗的改革,原本用于丧葬、起到辅助棺椁下葬功能的木质丰碑,至汉代已经失去了存在的必要。石质墓碑出现的时间较迟,与先秦时期大量使用的丰碑存在时间上的断裂,墓碑应该并非由丰碑转化而来。石质墓碑之所以会生成,与殷商时期以石为社主和秦汉以来刻石纪事传统密切相关。

    由于汉代丧礼和墓园的开放性,很多墓主去世后都有庞大的送葬队伍,加之汉代以后,很多祭祀活动也转移到墓园举行,墓地已经日益成为一种公共空间。墓主的家属、门生多共同出资,采石南山、招募名工为其树立墓碑,并请名家为其撰写碑文,以寄托哀思、表彰墓主的功业德行。汉代大量出现的石质墓碑,究就其产生机制而言,是一种社会化作用的结果。

    转自《清华大学学报(哲学社会科学版)》2026年第1期

  • 史孝文:语源学视角下古亚述时期安纳托利亚社会的族群交融

    赫梯文献对其古王国之前的历史记载几近空白,因此,对前赫梯时代的安纳托利亚历史的考察似乎只能依靠考古学证据。但是考古发掘所揭示的物质遗存,往往反映的是一个古代社会群体的整体传统与文化取向,对分析一个多族群社会的内部文化构成作用有限。古亚述时期在安纳托利亚卡尼什商港居住的亚述商人,正是关于这一问题的鲜明例证。塔赫辛·厄兹居奇从1948年到2005年一直主持卡尼什遗址考古工作并担任土耳其考古队队长,他的长期考古发掘表明,除了泥板和印章,亚述人在卡尼什的存在从物质文化层面上几乎看不到什么痕迹。[1]围绕考古学的证据,学术界对印欧赫梯人在安纳托利亚起源时间的判断相差达数千年之久。[2]

    语源学作为历史语言学的分支,致力于探究词语形态、发音与意义的演变历程,分析语言间的传承关系。[3]本文尝试以古亚述时期(约公元前2000年—公元前1750年)的楔形文字泥板为基本史料,通过对文献中本地词汇的语源分析,探究早期安纳托利亚社会的内在结构与族群关系。目前已发现的古亚述泥板约有23 000块,其中绝大多数出土于安纳托利亚中部的卡尼什城(今土耳其屈尔台培)遗址,主要是侨居此处的亚述商人留下的商业档案,为重构当地社会面貌提供了珍贵线索。在方法上,本文综合运用语源判定、定量统计与社会网络分析,依据国际赫梯学和亚述学界的研究成果,[4]对非亚述语汇进行语源归属判定,区分赫梯、卢维、胡里、哈梯等不同来源,在此基础上统计分析特定语源词汇在不同社会阶层和地理区域的出现频率与分布模式。尤为重要的是,需通过考察同一家庭、同一村庄、同一交易网络中个体的命名差异,透视族群边界在日常生活中的流动性与渗透性。[5]

    一、语源学证据下安纳托利亚的多族群构成

    古亚述商人将安纳托利亚本地居民统称为“nuwa’um”。关于该词的起源,学界主要有两种解释:德国著名亚述学家艾扎德认为其意为“说蛮语者”(those who say nu),体现了亚述人的文化优越感;[6]意大利帕维亚大学的赫梯学家卡如巴则提出更富启发性的观点,认为nuwa’um可能源自卢维人的称谓Luwa,经胡里人语音讹变后,成为亚述人对安纳托利亚中部族群的泛称。[7]后一说法获得更多学者支持,暗示卢维人在本地族群中可能具有某种显著性或中介作用。[8]无论其确切来源为何,nuwa’um作为一个亚述人从外部视角赋予的整体称谓,在客观上模糊了安纳托利亚社会内部的族群多样性。当排除文献中的塞姆语(亚述语)和苏美尔语元素后,我们可以看到一个语言背景极其复杂的本地社会,其词汇与姓名系统至少包含哈梯语、赫梯语、卢维语和胡里语四种主要成分,且尚有不少元素无法识别。

    在古亚述文献中,保留了相当数量的安纳托利亚本地词汇,它们多以名词形式出现,通常带有阿卡德语化的词尾-um。这些词汇的借入动机符合语言接触的一般规律:当亚述商人遇到本地特有的事物、器物或制度时,倾向于直接采用其原有名称。从语源来看,这些词汇多数源于赫梯语,胡里语和卢维语次之:hiniššannum是一种器皿,源自赫梯词根hani/eššā;hiššannum意为“木杆”,源自赫梯词根hiššazuppannum是一种金属容器,源自赫梯词根zuppaišpuruzzinnum的意思是“房梁”,源自赫梯词根išpuruzzikullupinnum是一种用来切割稻草的刀斧类工具,源自赫梯词根kullupiluhuzzinnum是一种器皿,源自赫梯词根hah(h)uwai;Tuhtuhannum是一个节日名称,源自赫梯词根tuhtuhhiya。此外,kullitannum是一种用来盛放蜂蜜和油的器皿,源于卢维语词根kullitalahhinnum代表职位“管家、主管”,源自卢维语词根allaiunuššum的意思是“劳役”,源于胡里语词根unušše。[9]

    在这些本地词汇中,尤为值得关注的是一些高频出现的与政治统治密切相关的制度术语:tuzzinnum(出现14次)意为“兵役”或“兵役地”,源于赫梯词根tuzzi-,可能指附带兵役义务的小块土地或其上的劳动者;[10]upatinnum(出现8次)指“王室封地”,其词根可能源自卢维语upatit,后演变为赫梯语ubadi,在文献中常指对地产所有权有潜在法律主张的群体;unuššum(出现5次)意为“劳役”,源于胡里语词根unušše。[11]对这些术语的频繁使用表明,在古亚述前半期,一套涉及土地分配、军事义务和劳役征发的制度体系在一定程度上已在安纳托利亚中部运行。而制度词汇本身的混合语源,说明这套治理体系是多族群智慧共同参与构建的产物。

    自20世纪初以来,学者们对古亚述文献中非塞姆语人名的语源归属展开了激烈辩论。法国学者伽瑞里的研究具有里程碑意义,他系统考察了古亚述文献中的非塞姆语人名,否定了早期学者过度依赖人名尾缀进行判断的方法,提出应以词干属性优先的原则进行语源判定。他指出,常见尾缀如uman、lika、nika、ahšu、ahšušar等更可能源于赫梯语而非卢维语。[12]例如,与卡尼什文献中人名词尾uman最接近的是赫梯语后缀(u)mana和(u)mna,而非卢维语的wanni/a;人名尾缀ahšu则仅见于卡尼什与赫梯的文献,在卢维语中并没有与之相对应的词根。

    随着屈尔台培考古工作的持续开展,新出土泥板使人名样本数量倍增,相关研究也在不断深化:法国赫梯学家拉劳什的《赫梯人名》整理了来自阿拉拉赫、乌旮瑞特、博阿兹柯伊(哈图沙)及卡尼什的人名,[13]卡如巴和俄国学者雅库波维奇考察了卢维语人名,[14]德国维尔茨堡大学的G.威廉则总结了胡里人名特征。[15]这些成果为识别不同族群元素提供了更精确的参照系。然而,人名语源判定的复杂性仍不容忽视。同一人名中的词干与尾缀可能来源不同,某些元素在多种语言中均有相似对应,难以明确归属。例如,女性名字Šiwaškuniyan和Šuppikuni中的主干Šiwaš和Šuppi都是赫梯词根,而尾缀中的kuni被认为来自卢维语,意为“女人”;[16]尾缀ipra被学者弗拉尼尼认定为胡里语,而雅库波维奇却认为其与卢维语词根dabra(统治)具有相关性。[17]

    这种语源交织的现象恰恰是理解早期安纳托利亚社会的关键。它是真实历史进程在语言层面的投射——一个多元文化深度交融的社会,必然在其成员的命名实践中留下混合与创新的痕迹。正如国内学者李政所言,赫梯文明是一个以印欧赫梯人为主,多民族共同创造的多种外来文化并存的文明有机综合体。[18]古亚述时期人名中多元语言要素的交叉,意味着早期赫梯族群与其他群体的深入接触远早于亚述人到达安纳托利亚的时间。

    二、族群交融社会中的阶层与权力分布

    古亚述文献记载的安纳托利亚本地统治者,其名字大多呈现赫梯语源倾向,但也不乏其他族群元素的渗透。古亚述前半期文献虽浩繁,但极少提及具体王名,多以“王”(rubā’um/LUGAL)或“王+地名”泛称。在可考的两例中,拉巴尔沙王(Labarša)的名字明显源于赫梯语labarša-(一种植物名);阿朱王(Azu)的名字语源不明,其统治地卢胡萨迪亚(Luhusaddia)可能是卡尼什东部的一个城邦,后为库沙腊(Kuššara)所吞并。[19]

    古亚述后半期文献数量虽然减少,但是其中涉及本地人生活的记录在文献中的比例却有所上升,共留下了6位卡尼什王的名字——胡尔美里(Hurmeli)、伊那尔(Inar)、瓦尔沙马(Waršama)、皮特哈那(Pithana)、阿尼塔(Anitta)和朱朱(Zuzzu)。“胡尔美里”是典型的赫梯名字,可能来自卡尼什东南的胡腊马城(Hurrama)。“伊那尔”源自哈梯女神名,在赫梯语中被引申为“生命力”。“瓦尔沙马”来自赫梯语源,意为“木柴”,其在位时修建了卡尼什最恢宏的宫殿。[20]皮特哈那与阿尼塔为父子,来自库沙腊城并用武力夺取了卡尼什王位。对于此二人名字的语源,学界尚有争议:伽瑞里认为“皮特哈那”属哈梯语源,“阿尼塔”属赫梯语源,而学者布尔内倾向于认为二者均为哈梯人。“朱朱”被弗拉尼尼认定为来自赫梯语源,他可能是阿尼塔的继承者,来自阿拉赫孜那(Alahzina)。[21]

    在上述6位王中,有4位(胡尔美里、皮特哈那、阿尼塔、朱朱)可能并非出身于卡尼什本城,而是来自胡腊马、库沙腊和阿拉赫孜那等地。这种统治者的“外来性”与权力的平稳过渡并行不悖,在一定程度上表明在安纳托利亚中部可能存在一个以赫梯文化为共同底色,并由数个城邦组成的政治网络。卡尼什因其经济与战略地位成为该网络的核心竞技场,各方力量在此角逐最高领导权。

    “阶梯之首”(rabi simmiltim)是仅次于国王的重要官职,可能掌管司法刑狱等事务。已知名字的“阶梯之首”都来自古亚述后半期。每个王在执政时期只设一名“阶梯之首”,著名的阿尼塔王在继承其父的王位之前就曾担任此职位。在古亚述后半期,6位卡尼什王的“阶梯之首”的名字分别为哈尔帕提瓦(Harpatiwa)、沙姆努曼(Šamnuman)、哈勒基阿舒(Halkiaššu)、阿尼塔、培如瓦(Peruwa)和“IŠTAR-ipra”。他们通常与国王共同授权法律文件,其中沙姆努曼、哈勒基阿舒和培如瓦这三个名字都有明确的赫梯语源。[22]上文提到,学界对于“阿尼塔”这个名字的语源认定虽有不同意见,但多数学者还是倾向于认为其来自赫梯语。雅库波维奇将“哈尔帕提瓦”这个名字认定为来自胡里语源。[23]IŠTARipra是已知的最后一位卡尼什王朱朱的“阶梯之首”,但学界对于这个名字的语源目前还无法认定,不同的学者甚至对该名字的读音都还存在很大分歧。[24]由上可见,在“阶梯之首”这一核心职位的构成方面,赫梯语源名字占据主流,但胡里语和卢维语元素亦有体现,不同文化背景的精英均有可能进入权力核心。

    除“阶梯之首”一职外,在古亚述文献中,还出现了很多其他类型的本地官员,从这些官职的名称,可以看出其职能涵盖非常广泛,包含行政、经济和军事等多个方面。这些官员中有司礼人员,如执杯者之首、执王杖者、供品之首等;有管理和服务人员,如首席总管、总管、管家、市场之首、仓库之首等;大麦之首、蔬菜之首和花园之首应该与农业工作相关,葡萄酒之首则或许是掌管酿酒的官员;另外还有一些显然具有军事职能的官员,如传令官之首、卫兵之首、卡尼什的守卫和执矛者等。[25]这些官职的名称揭示了当地存在着一个职能高度分化且结构较为复杂的官僚体系。

    地方经济精英的名字也呈现多族群交融的特点。在卡尼什下城发现的古亚述文献中,最大的一份档案是关于一位叫培如瓦(Peruwa)的牧人之首,其内容包含约200份古亚述语所写的文献,记载了大量培如瓦与村民的借贷契约。[26]其父舒皮伊卜腊(Šuppibra)与兄弟哈舒伊(Hašui)的名字均为赫梯语源。该家族的住宅面积达227平方米,是卡尼什下城已发现的最大私人建筑。[27]总的来看,这一本地的权势家族具有较强的赫梯族群背景。与此同时,拥有胡里语名字的商人也活跃于经济领域:埃尼沙如(Enišaru)经营高利贷,埃瓦里穆沙(Ewarimuša)则从事更广泛的货物运输,[28]不同族群背景的成员皆可参与到关键经济活动之中。

    在古亚述前半期的文献中,本地祭司较少出现,而在后期的文献中本地祭司则频繁作为契约证人或债权人出现。黑吉沙神(Hegeša)的祭司西瓦什美伊(Šiwašme’i)的契约显示,他曾向多个本地人放贷数百袋大麦与大量啤酒和面包,这表明神庙可能拥有地产并参与酿酒生产,具备显著的经济功能。[29]相关文献数量在前期和后期的差异,反映的可能是本地人对楔形文字接受程度与法制传统的变化,而非神职人员族群构成的根本改变。随着与亚述商人的接触加深,包括宗教阶层在内的本地精英逐渐使用楔形文字进行记录,从而留下了更多文献资料。

    最能体现当时社会深度交融的证据,来自社会底层平民的名字。在“牧人之首”培如瓦的档案中,包含一个名为塔勒瓦赫舒沙腊(Talwahšušara,赫梯语源地名)的村庄的详细借贷记录,涉及35位村民。[30]很多村民的名字存在明显的语源差异,但这并未构成村民社会关系的壁垒。例如,一份文献记载了一个五口之家:父亲阿勒普瓦尔(Alpuwar)与两个儿子图尔马里亚(Turmaliya)、沙沙舒努曼(Šašašunuman)的名字均为赫梯语源,而母亲马那马那(Manamana)与女儿库拉里(Kulali)的名字则为哈梯语源。[31]这很可能是跨族群通婚的结果,且其命名传统呈现性别分化趋势,男孩承袭父系命名传统,女孩则倾向于遵照母系命名传统。另外,文献还记载了两个家庭欠培如瓦一笔债务,其中一个家庭的父亲拥有卢维名字“提瓦提亚”(Tiwatiya),儿子则拥有赫梯名“塔尔胡瓦剌”(Tarhuwala),而另一个家庭的父亲哈尔沙(Harša)与一子哈西乌曼(Hašiuman)均为赫梯名,另一子塔哈(Taha)及其他家庭成员名字的语源不明。[32]这些拥有不同语源名字的个体有的来自同一家庭,有的共同承担债务、共享田产。笔者在培如瓦档案已经发布的64块泥板文献中,统计了267个人名,其中亚述人名约占20%,安纳托利亚人名约占80%。而对安纳托利亚人名的语源再分析显示,其中约51%的人名可能为赫梯语源。[33]法国学者伽瑞里对600多个当地名字(含地名)的研究也发现,其中近三分之一与赫梯语有关。[34]这些文献与数据共同描绘出一个整体图景:在古亚述时期安纳托利亚中部的社会中,赫梯语源的名字在数量上占据优势,但哈梯和卢维语源等也稳定存在,不同文化背景的人群通过婚姻紧密联结,命名差异更多反映的是家族传统与文化审美偏好,而非族群隔阂。

    三、族群交融的动力与机制

    族群交融是由一系列动态的社会、经济与政治过程所驱动和维系的。结合相关考古与历史背景,古亚述文献的语源学证据揭示出当时安纳托利亚社会凝聚与融合的四个关键机制:以长途贸易为核心的经济网络、以跨族通婚为纽带的社会网络、以城邦竞合为框架的政治整合,以及在此基础上形成的文化认同。

    古亚述商人历时两个多世纪建立的长途贸易体系,将阿舒尔城邦核心区与安纳托利亚中部紧密连接,为安纳托利亚社会的深度交融提供了强大的外部动力和物质基础。这一网络不仅输送锡、纺织品和金银等贵重商品,而且提供了一个持续流动的人员、信息、技术与观念的交换场域。以卡尼什为枢纽的商港系统成为这种交换的网络节点,亚述商人、本地精英和来自不同地区的工匠、翻译等人群在此汇聚一堂。古亚述贸易所带来的巨大经济利益,重塑了安纳托利亚本地的社会联系。本地精英(如前述培如瓦家族)或者通过向亚述商人提供信贷、仓储和本地分销网络等服务,或者直接参与长途运输(如前述商人埃瓦里穆沙),深度参与到贸易体系之中。普通村民则通过提供农产品或手工业产品而被纳入这一经济循环中。共同的商业利益将不同背景的个体和社群捆绑在一起,形成了跨越族群标签的经济依存关系与合作网络。当经济合作成为常态,文化差异便在实践中被不断消融,实用性原则往往优先于纯粹的族群认同。

    跨族群通婚是族群交融中最深刻、最稳定的一种机制。子女的命名策略(无论从父、从母或另有创新),反映了家庭在多元文化环境中的适应与选择。在这种家庭中成长的新一代,其身份认同天然具有混合性与包容性。婚姻联盟创造了血缘混合的后代,使得家庭这一社会最基本单元在内部首先实现了文化融合与认同重构。古代社会的通婚从来不仅是个人选择,而且体现了家族乃至社群的生存发展策略。平民阶层通过通婚可以拓展亲属网络,获得生产资料或劳动力支持。精英阶层通过联姻可以巩固政治联盟,获取商业资源或增强社会声望。

    在政治上,安纳托利亚中部长期表现为由卡尼什、库沙腊、胡腊马和阿拉赫孜那等多个城邦组成的竞争性体系。卡尼什因其在古亚述国际贸易体系中的核心地位而获得巨大的经济优势,并将这种优势转化为政治吸引力,成为各方势力角逐的舞台。卡尼什诸王多来自胡腊马和库沙腊等地,具有“外来”的背景,却能实现权力的平稳过渡,意味着这些城邦的上层统治集团共享着相似的文化、语言(赫梯语)和政治传统,各方的角逐是在一个共享的框架内争夺领导权与核心资源,尤其是对古亚述贸易的控制权。这也解释了为何阿尼塔在占领卡尼什后可以迅速被接纳,并沿用已有的官僚体系。阿尼塔的扩张策略清晰地展示了早期国家整合中的现实主义政治逻辑:对同属赫梯文化圈的卡尼什,他采取包容和怀柔的策略,而对文化与信仰不同的哈梯人的政治中心哈图沙,阿尼塔付诸残酷的暴力手段。这种暴力行为不仅是为了消除军事威胁,而且意在通过毁灭对方的政治与文化象征,来建构“自我”与“他者”的边界,反映了统治者基于现实利益与认同亲疏的政治考量。在成功整合卡尼什后,阿尼塔建立了强大的“奈沙王国”,将早期赫梯人的政治扩张推向高峰。[35]语源学研究证明,卡尼什就是赫梯人自称的“奈沙”之地。[36]赫梯文献提及,赫梯人本族神祇的庆典仪式由“奈沙”歌手按“奈沙”的传统进行。[37]在阿尼塔统治的时代,以卡尼什为基础建立的“奈沙”王国,已经从一个城邦地名,升华为统治安纳托利亚中部广阔地域的政治共同体的称号,成为后来赫梯古王国王权认同的重要前身。

    在前述经济、社会和政治机制的长期作用下,一种超越原始城邦或族群认同的共享文化与地域认同开始萌芽。以王室封地(upatinnum)、兵役(tuzzinnum)和劳役(unuššum)为核心的资源征调与管理制度,吸纳了赫梯、卢维和胡里等多个源头的政治智慧。本地精英对楔形文字书写系统的掌握,表明他们积极学习和模仿当时先进的近东文明成果。这套融合性的治理文化,为统治多元人口提供了有效工具。人名中频繁出现的神祇名既有哈梯文化元素,又体现了赫梯文化源头。这表明,不同族群的神祇与仪式可能正在被整合到一个逐步体系化的区域性万神殿与祭祀历法中,宗教的融合为共同的集体仪式和宇宙观提供了基础。

    结 语

    古亚述文献中的语源学证据显示,公元前两千纪初的安纳托利亚中部地区,已经是一个在横向(多族群)与纵向(多阶层)方面都深度交织的“高度复杂化社会”。在横向方面,社会成员的文化背景呈现以赫梯元素为主导,卢维、胡里和哈梯元素广泛参与的多元光谱。这种多元性通过经济合作、婚姻和政治整合实现深度交融,体现在家庭内部、村庄社区、官僚体系乃至王室血统之中。在纵向方面,社会已分化出从国王、高级官僚、经济和宗教精英到普通农民、工匠和奴隶的复杂阶层结构。各阶层内部均可见多族群元素的混合,统治阶层的包容性与基层社会群体间的通婚成为常态,共同维系着社会的动态稳定。

    混合语源的制度词汇表明,一套融合多族群智慧的治理体系已在运行,涉及土地、军事和劳役等国家核心职能,为后来更大规模的王国治理提供了模板。社会内部的交融打破了狭隘的族群界限,整合了更大范围内的人口与资源,为国家的军事扩张与经济建设提供了物质保障。阿尼塔的快速扩张正得益于其所统合的多城邦力量,长期的互动交融逐渐培育了一种超越原始族群认同的、基于地域与政治共同体的文化氛围。阿尼塔建立的“奈沙王国”,可被视为其所孕育出的第一个区域性政治结晶。赫梯古王国自称“哈梯国之人”并追奉阿尼塔为其王权先锋,正是一种对当地多族群历史现实加以创造性利用的政治认同建构。

    赫梯古王国最终定都于曾被阿尼塔摧毁并诅咒的“哈梯人之地”哈图沙,并采用“哈梯国”作为称号。这一看似不合常理的选择,实则蕴含着务实的政治智慧:它既承认并利用了安纳托利亚北部哈梯文化的历史积淀,又将自身政权嵌入更广泛的传统之中。其真正的国力根基并非源于单一的哈梯遗产,而是深植于本文所揭示的、在卡尼什时代即已成熟的多族群社会之中。当时的安纳托利亚不是一个等待“文明降临”的野蛮荒原,也不是族群对立的混乱战场,而是一个生机勃勃、多元互动、正在为文明突破积蓄力量的多元社会。

    [1]参见[丹]莫恩斯·特罗勒·拉尔森著,史孝文译:《古代卡尼什》,商务印书馆2021年版,第310页。

    [2]参见C.Renfrew, Archaeology and Language: the Puzzle of Indo-European Origins, New York: Cambridge University Press, 1987, pp.145-175; B.J.Darden, “On the Question of the Anatolian Origin of Indo-Hittite, ” in R.Drews, Greater Anatolia and the Indo-Hittite Language Family, JIES Monograph Series 38, Washington D.C.: Institute for the Study of Man, 2001, p.204; T.Bryce, The Kingdom of the Hittites, Oxford: Oxford Press, 2005, pp.10-11。

    [3]近代历史语言学对人类族群起源研究的最成功范例,当属对原始印欧语族群的识别及其起源演化历史的重构。参见徐晓旭:《历史语言学、考古学与希腊人种族起源研究》,《史学理论研究》,2019年第1期;P.Durkin, The Oxford Guide to Etymology, Oxford: Oxford University Press, 2009, pp.1-3。

    [4]参见H.G.Güterbock, H.A.Hoffner, et al., eds., The Hittite Dictionary of the Oriental Institute of the University of Chicago (hereafter cited as CHD), Chicago: University of Chicago, 1983; J.Tischler, Hethitisches Etymologisches Glossar (hereafter cited as HEG), Innsbruck: Institut für Sprachwissenschaft der Universität Innsbruck, 1983; J.Puhvel, Hittite Etymological Dictionary (hereafter cited as HED), Berlin-New York: Mouton de Gruyter, 1984; A.Kloekhorst, The Hittite Inherited Lexicon (hereafter cited as HIL), Leiden: Brill, 2007; J.Tischler, Hethitisches Handwörterbuch-Mit den Wortschatz der Nachbarsprachen.(2., vermehrte und verbesserte Auflage) (hereafter cited as HHw), Innsbruck: Institut für Sprachwissenschaft der Universität Innsbruck, 2008; P.Garelli, Les Assyriens en Cappadoce, Paris: Librairie Adrien Maisonneuve, 1963。

    [5]在古亚述文献中,相关的本地词汇主要包括三类:一是人名系统,包括统治者、官吏、祭司、商人和普通民众的姓名;二是职官名称与制度术语;三是日常词汇,特别是工具、器物和农产品等物质文化用语。参见史孝文、李海峰:《卡尼什城的发掘与古亚述学研究》,《史学集刊》,2018年第1期;史孝文:《古亚述长途贸易的运营过程、组织形式与发展特征》,《首都师范大学学报》(社会科学版),2022年第3期。

    [6] D.O.Edzard, “Altassyrisch nuwa’um, ” in K.Emre, et al., eds., Anatolia and the Ancient Near East.Studies in Honor of Tahsin Özgüç, Ankara: Türk Tarih Kurumu, 1989, pp.107-109.

    [7] O.Carruba, “Luvier in Kappadokien, ” in D.Charpin and F.Joannès, eds., La Circulation des Biens, des Personnes et des Idées dans le Proche-Orient Ancient, Paris: Editions Recherche sur les Civilisations, 1992, pp.255-256.

    [8] P.M.Goedegebuure, “Central Anatolian Languages and Language Communities in the Colony Period: A Luvian-Hattian Symbiosis and the Independent Hittites, ” in J.G.Dercksen, ed., Anatolia and the Jazira during the Old Assyrian Period, Leiden: Nederlands Instituut voor het Nabije Oosten, 2008, pp.174-175.

    [9] J.G.Dercksen, “Some Elements of Old Anatolian Society in Kaniš, ” in J.G.Dercksen, ed., Assyria and Beyond, Studies Presented to Mogens Trolle Larsen, Leiden: Nederlands Instituut voor het Nabije Oosten, 2004, pp.137-177; J.G.Dercksen, “On Anatolian Loanwords in Akkadian Texts from Kültepe, ” Zeitschrift für Assyriologie, Vol.97 (2007), pp.26-46.

    [10] Giusfredi, Federico, “On the Old Assyrian tuzzinnum, ” in M.Cammarosano, E.Devecchi and M.Viano, eds., Talugaeš witteš: Ancient Near Eastern Studies Presented to Stefano de Martino on the Occasion of His 65th Birthday, Vol.2, Münster: Zaphon, 2020; J.G.Dercksen, “Some Elements of Old Anatolian Society in Kaniš, ” p.155.

    [11] J.G.Dercksen, “Some Elements of Old Anatolian Society in Kaniš, ” p.151; H.C.Melchert, “A Luwian Dedication, ” in J.H.W.Penney, ed., Indo-European Perspectives, Oxford: Oxford University Press, 2004, p.371.

    [12] P.Garelli, Les Assyriens en Cappadoce, p.134.

    [13] E.Laroche, Les noms des Hittites, Paris: Librairie C.Klincksieck, 1966; E.Laroche, “Les noms des Hittites: Supplement, ” Hethitica, Vol.4 (1981), pp.3-58.

    [14] O.Carruba, “Luvier in Kappadokien, ” pp.251-257; I.Yakubovich, Sociolinguistics of the Luvian Language, Leiden: Brill, 2010, pp.207-299.

    [15] G.Wilhelm, “Hurrians in the Kültepe Texts, ” J.G.Dercksen, ed., Anatolia and the Jazira During the Old Assyrian Period, pp.181-194.

    [16] I.Yakubovich, Sociolinguistics of the Luvian Language, pp.216-217.

    [17] M.Forlanini, “The Kings of Kaniš, ” O.Carruba, ed., Atti del II Congresso Interazionale di Hittitologia, Pavia: Gianni Iuculano Editore, 1995, p.129; I.Yakubovich, Sociolinguistics of the Luvian Language, pp.214-216.

    [18]李政:《论赫梯文明起源的历史文化道路》,《东方论坛》,2013年第5期。

    [19]参见C.Michel, Old Assyrian Bibliography, Old Assyrian Archives, Volume 1, Leiden: Nederlands Instituut voor het Nabije Oosten, 2003, ICK 1, 178; G.Barjamovic, T.Hertel, and M.T.Larsen, Ups and Downs at Kanesh-Observations on Chronology, History and Society in the Old Assyrian Period, Leiden: Nederlands Instituut voor het Nabije Oosten, 2012, p.49。

    [20]参见M.Forlanini, “The Kings of Kaniš, ” p.124; T.Bryce, Life and Society in the Hittite World, pp.148-149; HIL, pp.448-449, inarā-/innarā-“vigor”; HHw, p.222。

    [21]参见C.Michel, Old Assyrian Bibliography, KKS 57, kt k/k 1, kt 89/k 370, kt j/k 625, kt 89/k 369。

    [22]参见HIL, pp.827-828; HIL, pp.321-322; P.Garelli, Les Assyriens en Cappadoce, p.143。

    [23]参见I.Yakubovich, Sociolinguistics of the Luvian Language, p.210。

    [24]根据学者弗拉尼尼的研究,IŠTAR-ipra是“纯粹的胡里语”名字,意思是“伊什塔尔是统治者”,但在胡里语中苏美尔词符IŠTAR所对应的神名应该读作沙乌什卡(Šauška)。雅库波维奇认为,其尾缀-ipra与卢维语词根dabra-(统治)有关。笔者查阅目前被认为含有此名字的古亚述文献拓片,发现被转写为IŠTAR的楔形文字符号都模糊不清,几乎无法识别。在古亚述文献中,-ipra这一人名尾缀经常与赫梯词根Šuppi-相连。参见M.Forlanini, “The Kings of Kaniš,” p.129; I.Yakubovich, Sociolinguistics of the Luvian Language, pp.214-216。

    [25]这些官职通常在经济契约或名单列表中出现,官职名称是亚述语所写,而不是本地语言的音译。

    [26]关于官员培如瓦的档案及对其房屋的详细分析,参见Xiaowen Shi, Anatolians as Seen Through the Old Assyrian Texts, PhD Dissertation, University of Copenhagen, 2013, pp.33-98。

    [27] P.Garelli, Les Assyriens en Cappadoce, pp.145-146.

    [28]参见Xiaowen Shi, Anatolians as Seen Through the Old Assyrian Texts, pp.103-119, 121-123。

    [29]文献信息参见C.Michel, Old Assyrian Bibliography, Kt 89/k 314, Kt 89/k 358。关于人名Šiwašme’i的分析, 参见Alwin Kloekhorst, Kanišite Hittite: The Earliest Attested Record of Indo-European, Leiden·Boston: Brill, 2019, p.98。

    [30]参见Xiaowen Shi, Anatolians as Seen Through the Old Assyrian Texts, pp.124-143; Xiaowen Shi, “Village Life in Middle Bronze Age Anatolia: The Case of Talwahšušara, ” in F.Kulako

    lu, C.Michel and G.Barjamovic, eds., Proceedings of the 1st International Kültepe Meeting (Subartu 35), Turnhout: Brepols, 2015, pp.147-154。

    [31]参见P.Garelli, Les Assyriens en Cappadoce, pp.134-152; I.Yakubovich, Sociolinguistics of the Luvian Language, p.212; Alwin Kloekhorst, Kanišite Hittite: The Earliest Attested Record of Indo-European, pp.86-87, 211。

    [32] Xiaowen Shi, Anatolians as Seen Through the Old Assyrian Texts, pp.136-140.

    [33]关于培如瓦档案中的kt d/k部分人名列表, 参见Xiaowen Shi, Anatolians as Seen Through the Old Assyrian Texts, pp.249-255, Appendix 2。关于相关语源分析, 参见P.Garelli, Les Assyriens en Cappadoce, pp.134-152。

    [34] P.Garelli, Les Assyriens en Cappadoce, pp.127-160.

    [35]参见G.Steiner, “KültepeKaneš und der ‘Anittatext’, ” in K.Emre, B.Hrouda, M.Mellink and N.Özgüç, eds., Anatolia and the Ancient Near East: Studies in Honor of Tahsin Özgüç, Ankara: Türk Tarih Kurumu Basimevi, 1989, pp.471-480。

    [36] H.G.Güterbock, “Kaneš and Neša: Two Forms of One Anatolian Place Name,” Eretz Israel, Vol.5 (1958), pp.46-50.

    [37] P.Garelli, Les Assyriens en Cappadoce, p.134.

  • 赵俊臣,陈晓未:石桥村的经验[节]

    昆明市富民县永定街道南营村委会石桥村,位于昆(明)武(定)高速公路边,距昆明主城26公里,国土面积0.19平方公里,耕地201亩,林地484亩。2019年列入李小云教授团队试点的昆明市6个都市驱动型乡村振兴创新实验区中唯一的自然村。全村共57户、271人,过去农民的收入以种植粮食和务工为主,是个典型的“空壳村”。后来他们大胆改革,通过“资源变资产、资产变股金、村民变股民”的“三变”,探索出了一条独具特色的农文旅发展之路。2025年实现旅游收入约180万元;村民通过租金、薪金、股金及经营性收入,人均可支配收入预计突破2.8万元,,远远高于全国农村居民人均可支配收入2.45万元、昆明市2.49万元。

    一、“三变”改革主要做法

    与全国全省一样,过去石桥村有许多闲置资源未被开发,处于“深睡”状态;另有一些土地低效利用。“资源变资产、资产变股金、村民变股民”的“三变”,就是唯一正确的发展道路。截至目前,他们盘活的农村闲置用地已经达到250亩,走出了 “多种资源,多元盘活”的创新之路。

    (一)资源变资产:唤醒沉睡资源

    石桥村依托自身生态优势和区位条件,对闲置土地、生态资源等进行全面梳理整合。

    一是早在2003年,他们通过村民集资,开辟村集体农贸市场,很快实现村民入股分红,至今持续收益,大部分村民10年前已回本。2013年,南营村委会牵头,254名村民自愿入股50.8万元,扩建石桥村建设农产品交易市场。凭借昆禄公路旁的区位优势,市场辐射周边村镇,成为农产品交易的重要节点,运营成效显著。入股村民每年可获得场地租金10%的分红,约5.6万元,村民年人均纯收入也从3000多元提升至8600多元。村民陈翠英入股4.6万元,每年4600元的分红从未间断,至今已获得3.68万元的分红收入。

      二是2011年,为填补当地冬春季节无本地时鲜水果的空白,富民县组织人员外出考察,从浙江引进牛奶草莓到石桥村试种。得益于石桥村海拔适宜、土壤肥沃、依山傍水且无工业污染的自然环境,试种取得成功,主要品种有宁玉、红颜、章姬(牛奶草莓)、玫宝等,其中章姬草莓因带有淡淡牛奶香味、口感香甜细腻,成为最受市场欢迎的品种,产量高、果味浓的特点也让石桥草莓在昆明水果市场占据一席之地。2014年,石桥村成立九峰草莓产销专业合作社,流转120亩土地发展草莓特色种植,至2025年,草莓种植面积稳定在150亩左右,由合作社统一管理,带动20余户本地农户参与种植,其中村民杨清林一人就种植了20亩草莓。由九峰草莓产销专业合作社牵头,对接昆明市区各大农贸市场、超市,年销量约33吨,销售额达150万元,占总销量的50%。每年11月下旬到次年4—5月草莓成熟季,吸引大量昆明市民前来采摘,现场采摘占比约40%。;农户通过种植草莓,每亩年产值可达4.5—6万元,是传统种植玉米收益的15—20倍。仅种植草莓一项,村民杨清林每年就能增收20万元左右。

    三是截至2021年,引种半边红李子种植面积稳定在120亩左右,主要分布在南西桥草莓温泉庄园内,是庄园农旅融合项目的重要组成部分。基地采用标准化种植技术,通过科学管理保障果实品质和产量,每年7月中下旬至8月上旬果实成熟,吸引大量游客前来采摘体验。石桥村种植的半边红李子又名茵红李,果实向阳面呈紫红色,背阴面呈浅绿色,果肉淡黄色,酸甜多汁,香脆可口,脱骨离核,富含多种维生素和矿物质,具有较高的营养价值。基地注重绿色生态种植,严格控制农药和化肥使用,确保果实安全无公害。半边红李子的收益是传统种植的12-35倍,

    四是石桥村还有50亩食用玫瑰基地。2015年,石桥村开始引进食用金边玫瑰,鼓励村民种植,村民苏发玉种植了2亩,每年有4万元左右的收入,是原来种植水稻的近30倍。现在,他还做起了玫瑰加工产业,请了两个工人,日子越过越有盼头。 

    (二)资产变股份:构建利益联结

    2015年,南营村党总支发动石桥村党员带动54户村民入股510万元,成立了富民南西桥旅游文化开发有限公司,以“村党总支+村民入股+政府投入+公司运营”的模式,打造南西桥生态休闲园,建设集民俗文化开发、乡村生态旅游、农业观光体验、温泉康养休闲度假于一体的乡村旅游康养基地。截至2023年,公司营业面积约450余亩,有45间客房的住宿部、可同时接待400人的餐厅以及游泳池、温泉泡池、观景台、烧烤区等,能够全方位提供旅游接待、会务服务、餐饮宴席、自助烧烤、特色小吃、棋牌娱乐、温泉泳池、户外活动、萌宠乐园、田园观光、特色林果采摘等服务功能。从负责人到保洁员、服务员、厨师,在庄园里工作的全都是石桥村人。

    在南西桥生态休闲园项目打造中,村民以土地、资金等形式入股,政府投入的基础设施等资产也折算为股份,村集体资产和村民个人资产都量化为股份,构建起了清晰的股权结构。部分村民将闲置土地、房屋出租给公司用于旅游项目开发,每年获得稳定的租金收益,每亩土地年租金约1000—1500元。这种模式让村集体、村民与经营主体形成了紧密的利益共同体,共担风险、共享收益。

    (三)村民变股民:激发内生动力

    通过“三变”改革,石桥村村民从传统的农民转变为合作社和公司的股民。

    富民南西桥旅游文化开发有限公司采用“国有平台+村民个人+村集体”混合持股模式,具体股权结构如下:国有资本,昆明黎阳旅游投资有限公司持股50%,认缴出资额490万元,是公司的第一大股东,主要负责提供资金支持和资源对接。

    村民股东,石桥村54户村民以个人名义入股,其中徐建昌持股18.06%(出资177万元),王淑梅持股4.08%(出资40万元),另有徐靖、徐建良等30余位村民持股比例在0.31—3.06%之间,总出资额490万元,占公司总股本的50%。后来,石桥村集体以集体闲置土地、项目资金预计折价300万元入股南西桥,占公司股份20%。自2021年起,村集体实现闲置资源盘活并增加股份收入,村集体收入扩大,在预留村集体公用经费后,村集体收益可以向村民二次分红。 

    村民股东多为石桥村本地居民,通过资金入股成为公司的直接参与者。村民不仅可以通过土地入股获得分红,还能在合作社和公司务工获得薪金收入,部分村民通过参与乡村旅游经营获得经营性收入,实现了“租金+薪金+股金+经营性收入”的多元增收模式,极大地激发了村民参与乡村振兴的积极性和主动性。

    股金分红:村民作为股东,每年可按照持股比例获得现金分红。2021年公司实现营业额710万元、利润150万元,按章程约定向股东进行分红;2022年经营性收入610万元,分红比例保持稳定。早期入股的村民每人每年可获得约1万元分红,部分持股比例较高的村民年分红可达数万元。

    二、改革成效

    (一)产业发展提质增效

    现在,石桥村南西桥生态休闲园集民俗文化开发、乡村生态旅游、农业观光体验、康养休闲度假于一体,已成为昆明周边知名的休闲旅游目的地,实现了一二三产业的融合发展,村集体经济实力显著增强。草莓、食用玫瑰、半边红李子等种植、产业不断壮大,成为石桥村的特色产业之一和昆明市名牌,吸引了大量游客前来采摘体验。

    (二)村民收入稳步增长

    随着产业的发展,村民的收入来源更加多元化,收入水平不断提高。村民通过入股分红、务工、经营等方式,人均收入较改革前有了大幅提升,生活质量得到了明显改善。

    公司运营的南西桥生态休闲园为村民提供约60个就业岗位,包括餐饮服务、住宿管理、园区保洁等,村民每人年均工资3.6万元,每年工资支出共计216万元,实现了家门口就业增收。

    去年,石桥村集体也以集体闲置土地、项目资金预计折价300万元入股南西桥,预计占公司股份20%,村集体收入扩大,在预留村集体公用经费后,可以向村民二次分红。

    (三)乡村治理更加有效

    “三变”改革过程中,石桥村建立健全了各项规章制度,严格执行“一会四议两公开一监督”工作制度,充分发挥了基层党组织的战斗堡垒作用和党员的先锋模范作用。党员联系户制度的实施,让村民的诉求能够及时得到回应,矛盾纠纷得到有效化解,乡村治理体系更加完善,治理能力显著提升。

    三、经验启示

    (二)能人带动是引擎

    在整个建设过程中,徐建昌始终引擎。村委会主任徐建昌为代表的农村能人,带头关停自家农家乐,无偿提供建筑设备,全身心投入集体项目建设。凭借自身的经营经验、人脉资源和奉献精神,积极带动村民参与改革,为产业发展和乡村振兴注入了强大动力。

    徐建昌是石桥村人,早年从事建筑行业,是石桥村第一个经营农家乐的村民。他积累了不少办企业、经营企业的经验,是村里最早富裕起来的人,也是村民眼中的“大能人”。    2011年,徐建昌当选南营村委员会主任,他将自己的企业经营经验、人脉和资金都用到了村集体经济的发展上,带领村民建起了南营村农贸市场、草莓基地等集体经济。面对着父老乡亲立下誓言:“南西桥不盈利,我自己不拿一分钱的工资。村民入股不足的部分,全部由我来补齐。”    南营村党员干部,开拓创业敢想敢干,牢牢把握住富民“山水园林卫星城、休闲康养目的地”的发展定位,紧紧依托昆明主城消费市场,通过村民集资入股等方式,发展乡村旅游,带领党员群众建成了集餐饮住宿、休闲康养、文化娱乐为一体的南西桥生态休闲园。    在石桥村村民小组,还有不少积极投身经营、推动经济发展的能人。村民小组长徐正云等一批能人,在乡村振兴、村集体经济的发展中,处处以身作则,把个人能力充分发挥和运用到村集体项目建设中,无论是组织项目施工、一线指挥工程建设,还是监督项目质量标准等工作,他们都走在前面,无论何处都能看到他们奉献的身影。

    入股25万元的陈翠英,今年80岁。作为石桥村曾经的生产队队长,对石桥村发展经济产业的事情,她一直非常支持。她说:“当年入股时有些村民不愿意,我还去劝,徐建昌能站出来带着大家一起干,对村民来说,是件好事。”接下来,陈翠英还准备将家里闲置的住房拿出来,补充到休闲园的民宿开发资源中。 

    (三)以工代赈式“全程自建”。

    石桥村的建设工程量很大,他们没有采用招标引进外地包工队的做法,如一些村庄道路、排水沟渠等村小组能自己建设的项目,均采用了“全程自建”的方式。村民小组负责从原材料采购到组织施工的全过程,村民参与工程建设,按村集体公布的标准结算报酬,既降低了建设成本,又增加了本村农民收入。

    “全程自建”让村级的建设项目始终做到了透明公开。原来,村里的建设项目花了多少钱,虽然有预算和决算公布,但分类太多太专业,承包方给的数字又笼统,一些村民还是不理解、不明白。现在,村民小组在“全程自建”中,对项目建设的进料进行了详细分解,调查了生产成本,增加了项目的透明度,并且所有进料在进入工地前都要过磅,由村民项目管理小组成员验收签字,进了什么料、进料有多少、用到了哪里,大家都清清楚楚、明明白白。

    还有一个更大的优势,就是省钱。原材料自己采购、村集体组织施工,不让包工头赚差价,而且是做自家的事,村民们更加用心卖力,用有限的资金做出了高质量的事。

    四、需要探讨的问题及建议

    (一)需要探讨的问题。

    一是乡村旅游的品牌影响力和市场竞争力有待进一步增强,产品和服务的质量还需提升。现有产品特别是农产品同质化严重,如草莓、花海等项目易被周边社区复制,引起同业竞争而降低吸引力。    二是虽有企业家徐建昌带头,但属个例,不具备普遍复制性,因而培养乡村CEO迫在眉睫。另外,合格的专业财务、营销、品牌管理团队缺乏,也将影响项目市场化运作效率。

    ‌三是财务监管怎样做到必要的透明度,以获得群众信任‌和村外股东放心,也需要探索。集体经济涉及大量资金流动,若监管不到位,极易引发群众对账目造假、利益输送的担忧。

    四是利益分配中怎样协调复杂‌多元主体诉求,也需要引起重视。“三变”改革涉及村民、村集体、企业、政府等多方利益,如何公平合理分配收益是一大难题。若分配方案未经充分协商,易引发矛盾,影响村庄治理稳定。土地入股与现金入股者之间、参与务工与未参与者之间的收益差异需平衡;初期投入多的农户希望高分红,而更多村民倾向扩大再生产;分红机制若不公开透明,易引发质疑,影响后续参与意愿。    

    五是‌持续发展面前的难度要有充分准备,外部依赖与内生动力不足如何破价也应及早考虑‌。石桥村的发展得益于政府项目支持和能人带动,但长期可持续性仍需强化内生动力。

    六是村干部既当“裁判员”又当“运动员”,存在自我监督困境,虽可引入第三方会计,但采购、销售环节仍可能存在回扣风险;

    七是是破解建设资金的融资的难题,大有学问,需要大胆探索。南石桥公司快速发展背后,融资瓶颈始终存在——缺乏优质抵押物成为关键制约,核心原因在于抵押不足的三重现实困境,公司的资产结构高度契合乡村文旅企业典型特征,即轻资产、重运营、难确权。具体表现为:资产类型受限,主营民宿、采摘、露营、温泉酒店等服务,核心资产多为租赁土地上的临时建筑、景观设施、品牌口碑等,不符合银行传统抵押物要求(如产权清晰的厂房、住宅、土地使用权);权属不清或无法分割,部分设施建在村集体闲置土地上,虽经折价300万元入股公司,但土地性质为集体所有,无法办理抵押登记;而村民自筹资金建设的设施,也因缺乏统一产权证明难以确权;评估与处置难度大:文旅类资产价值高度依赖运营能力、客流稳定性与政策支持,银行缺乏专业评估工具,且一旦违约,处置变现渠道极少,进一步降低放贷意愿。

    八是完善股份合作制,也应及早考虑。

    九是部分村民的市场意识和风险意识有待提高,对“三变”改革的理解和参与度还需进一步提升。

    十是规避法律风险,据《企查查》大数据分析显示,南石桥公司存在司法案件6条、裁判文书4条、立案信息3条、开庭公告8条等风险信息,在企业运营中面临一定的法律风险和经营挑战,需要加强风险管理和合规运营。 

    (二)若干对策建议

    1,推动产业深度融合升级

    石桥村的发展非常喜人,现有南西桥生态休闲园年营收超600万元,草莓、半边红李等特色农产品年销售额超200万元,彩绘村庄、温泉等IP已具备一定知名度。但是需要不断地适应市场将农旅融合升级,从“打卡点”到“目的地”转型,依托现有基础,未来将围绕“康养+研学+亲子”方向拓展,如开发农耕研学课程、升级温泉康养配套、打造四季主题活动,在现有草莓种植和生态休闲园基础上,计划引入智慧农业技术,提升草莓种植的科技含量和产量品质,打造标准化、品牌化的特色农产品。同时,进一步拓展生态休闲园的功能,开发农事体验、亲子研学、康养疗愈等多元化旅游产品,延长游客停留时间,增加消费附加值,推动一二三产业向更高层次融合。    石桥村有林地面积484亩,下一步,将通过建设休闲步道、发展林下养殖、拓展高端水果种植等方式,在保护环境的同时,提高林地经济效益,增加村集体经济收入。    作为昆明市都市驱动型乡村振兴创新实验区,石桥村将持续获得市级、县级财政资金支持,2025年已完成的1260万元基础建设项目为后续发展筑牢根基。特别是,考虑建设智慧农业系统,如为草莓、半边红李种植基地安装物联网设备,实现智能灌溉、病虫害监测,提升农产品品质与产量;建设乡村旅游数字化平台:开发小程序整合门票、住宿、餐饮预订功能,打造石桥村旅游线上入口等。    展望未来,石桥村将依托2025年12月开工的云南富民产业园区白石岩片区对外连接线(9.02km二级公路,预计2027年建成通车),石桥村作为连接园区与县城的重要节点,针对白石岩化工园区工人,打造实惠型快餐、员工食堂,预计日均客流200—300人;利用村内闲置土地建设小型仓储配送中心,为园区企业提供原材料、成品中转服务。     

    2,及早培养年轻乡村DEO及其运营团队年轻人员。

    可以探索为徐运昌选配副手或助理方式,选聘年轻人加以培养,如村里挑选困难,可以从全市全省招聘。候选人选出后建议纳入李小云乡村CEO培训系统进行系统培养。运营团队中的合格财务、营销等职位也可照此办理。加大人才引进和培养力度,通过制定优惠政策吸引专业人才返乡创业,同时加强对本地村民的技能培训,培养一批懂经营、会管理、有技术的农村实用人才。

    • 进一步加强乡村旅游品牌建设,提升产品和服务质量。

    石桥村品牌已有一定的知名度,但仍有继续提升的广阔空间,主要围绕丰富旅游产品内涵,拓展市场渠道,增强品牌影响力和市场竞争力。我们的建议,一是利用李小云团队的国内外的人脉,例如李小云团队曾在西双版纳河边村组织的北京一些中小学生来过夏令营冬令营的经验,就可以既扩大了客源,又是活生生的广告宣传;二是借鉴呈贡万溪村经验,吸引接待昆明市中学生来体验农耕研学,也是既扩大了客源,又是活生生的广告宣传;三是不定期的举办产品发布会,草莓、李子采摘节等,造成一定的舆论声势;四是借助各级领导视察、有关机关在石桥举办会议和培训班等,宣传石桥等。

    • 利用现有渠道融资。

    南西桥公司的融资已形成“内源(村民)+外源(政府)+准金融(信用共建)”三层结构,但银行信贷的通道仍有待畅通。短期建议优先对接富民县农业农村局或富民农村信用合作联社,申请“乡村振兴贷”“乡村旅游贷”等特色产品,并同步申请县级融资担保公司增信;中长期应加快资产确权(如经营权登记、项目收益权质押备案),为合规融资夯实基础。

    一是研究利用富民银行“极速保”模式——虽面向小微企业,但其“AI模板+实时出函+银担协同”逻辑可迁移至文旅项目保函、履约担保等场景。

    二是信用增信替代抵押,依托云南省“融信服平台”,归集税务、社保、水电、招投标等353类涉企数据,对企业进行数字信用画像,使南西桥类企业可凭“信用”获得纯信用贷款(如云南海量供应链公司获120万元信用贷)。

    三是经营权/收益权质押,借鉴浙江永嘉“民宿经营权质押”模式,将南西桥旗下温泉酒店、采摘园未来1–3年稳定现金流打包,由担保机构评估后提供质押融资。

    四是风险分担机制落地,“宁创贷”式四方分险(政府+银行+担保+再担保)已在南京成熟运行,银行仅承担20%风险,可免抵押、免担保费。云南若引入同类机制,将极大缓解南西桥“首贷难”问题;

    五是与此同时,作为昆明市的试点,可以探索发行债券融资、扩股融资等。充分运用国有银行现有的“授信贷款”、“互保贷款”等。

    总之,融资破局在靠企业自身补足抵押物的同时,更需借力省级信用平台(如融信服)、复制东部地区经营权质押与风险分担机制,并推动县级层面出台《乡村文旅资产确权与融资指引》,将民宿经营权、集体经营性建设用地使用权等纳入合规抵押范畴。短期可优先对接富滇银行“金果贷”等特色产品,争取3天快速放款解燃眉之急。这也正是李小云和昆明市试点的题中之义。

    5,进一步完善公司管理体制与机制。

    在现有利益联结模式基础上,进一步细化股权分配方案,确保村民利益最大化,可以考虑修改公司章程,探索增设村民劳动股或成员股。所谓村民劳动股是集体经济组织成员人人有股即成员股,按贡献大小适当体现差距即劳动贡献股。这意味着每个成员都应拥有股份,但根据个人对集体的贡献不同,所持有的股份数量可以有所差异。

    为保证和吸引人才,可以借鉴世界通行的股权激励方法,探索为乡村DEO增设无形资产股,以体现股权激励。

    加强对村民的教育培训,提高村民的市场意识、风险意识和参与意识,引导村民积极投身乡村振兴事业同时,建立健全风险预警和防控机制,加强对市场动态的研判,引导村民和经营主体理性应对市场波动,降低经营风险,保障改革成果的可持续性。

    6,继续加强基础设施与公共服务配套。

    积极争取政府资金进一步支持,改善村内道路、水利、电力等基础设施条件,提升乡村旅游的承载能力。同步推进村容村貌整治和公共服务设施建设,完善医疗、教育、文化等服务功能,提升村民的幸福感和获得感,打造宜居宜业的美丽乡村。

    本文原名《石桥村由一个“空壳村”发展为“百万元实体村”的经验 ——中国农村发展学的云南样本案例之一》

  • 冯果,宋遥远:“金融”概念的统一界定与立法表达[节]

    “金融”一词虽在经济活动与社会话语中广泛使用,其法学意涵却长期处于一种“熟悉的陌生”状态——看似不言自明,实则内涵模糊、外延不定。将金融活动全面纳入监管并转化为立法实践,首先必须厘清“金融活动”的概念边界,此为划定法律规制范围的逻辑前提,亦是确保金融立法科学性与有效性的重要基石。在金融强国战略纵深推进与金融法酝酿的关键节点,若“金融”这一核心概念不能形成具有法理统摄力与实践解释力的法律定义,则任何精细的立法设计都可能因概念根基的虚浮而事倍功半。

    我国金融法律体系像一个由无数补丁拼凑而成的衣裳,虽能蔽体,却难以称得上合身统一、美观大方。银行法、证券法、保险法、信托法等金融行业法分别界定各自调整对象,却始终回避对“金融”这一上位概念进行统摄性界定。现行立法中,“金融机构”“金融产品”“金融工具”“金融活动”等关键术语定义付之阙如。“只见树木不见森林”的立法技术使“金融”概念成为一个“能指”与“所指”严重脱节的符号,如同散落的珠玉,缺乏一条能够贯穿始终的逻辑主线,导致规制边界模糊、监管失灵频发、司法适用困顿。“大资管”的勃兴恰是概念分裂的缩影。名目殊异、本质相同的金融产品,往往因其发行主体的行业归属不同,而被强行塞入截然不同的监管“筐箩”,适用迥异的监管规则。立法上的概念分歧与监管上的标准不一,必然投射并加剧司法实践的混乱。围绕某一经济活动是否属于“金融活动”、某一主体是否构成“金融机构”、某一产品是否属于“金融产品”等基础性问题的争议屡见不鲜。张家口市某某国际旅行社有限公司与李某某等金融借款合同纠纷一案提供了审视问题的鲜活样本,此案争议焦点便在于供应链托盘融资的法律定性,其究竟属于商品买卖行为,还是应被认定为金融行为。此间扞格,虽属冰山一角,却尖锐地反衬出基础概念立法供给的不足。

    法的王国虽由规则建构,其界标却由概念立起。荀子《正名》有言:“名定而实辨,道行而志通”。康德《纯粹理性批判》亦载:“思维无内容则空,直观无概念则盲”。概念是承载思想的基本符号,是人类认知世界最基础的思维单位。博登海默指出:“概念乃是解决法律问题所必需和必不可少的工具。没有限定严格的专门概念,我们便不能清楚地和理性地思考法律问题。”法学概念是法学知识形成和展示的基础,是法学认识的思想结晶,也是法学知识体系的支点,更是法学成为科学的标志。“金融”概念界定的宽窄、内涵的深浅,不仅关涉金融法调整对象的界定、金融法律关系的识别、金融行为性质的判断,更直接影响金融监管权的配置、金融市场准入的设定、金融风险防范的布局,成为未来立法潜在的“阿喀琉斯之踵”。构建完善的概念体系是金融法制定的内在要求,不仅关系到金融法文本体例与结构安排所依据的理论线索,也决定着相关制度有效回应中国式金融实践的现实需求与未来挑战。超越简单的规则汇编与域外借鉴,构建彰显中国特色、体现时代精神的金融法基础概念体系,已然成为建构中国自主的金融法学知识体系必须攻克的“源头性”命题。金融立法唯有在核心概念的厘定上下足功夫,方能成就“立得住、行得通、真管用”的良法美治。那么,面向中国式现代化金融治理的现实需求与未来图景,我们究竟应当如何精准提炼“金融”活动的法学内涵与规范要件?如何通过科学的立法表达,使抽象的法理概念转化为能够统摄多元金融形态、衔接既有法律秩序、并保持适度开放性的法律定义?这一核心概念的奠定,又将如何从根本上重塑我国金融法律的规范体系与治理范式?这均是值得我们认真思考的重大理论问题。

    一、金融概念的规范样态与问题成因

    金融法是一个带有许多大厅、房间、凹角、拐角的大厦,银行法、证券法、保险法、信托法等各个“厅室”自成格局,作为整座大厦基石的“金融”概念在不同厅室间竟呈现出迥异的样态。概念离散并非偶然,其背后映射的是历史路径依赖的制度惯性和监管主体利益博弈的现实考量。

    (一)概念散见的文本检视

    我国现行金融法对“金融”采取割裂式定义,“金融活动”的内涵与外延或语焉不详、或隐晦推定、或各执一词,其对“金融”的指涉或显于具体业态描述,或隐于监管对象枚举,深耕自身的“一亩三分地”,形成“铁路警察,各管一段”的规范格局。耙梳和检视现有52份金融法律文本,可以发现,我国尚未对“金融”概念进行直接定义,“金融”活动范围存在三种差异化界定模式:基于行为类型的列举式定义、基于机构属性的授权式定义、基于风险特征的否定式定义:(1)基于行为类型的列举式定义依赖于对已知金融形态的归纳,辅之以兜底条款,试图通过穷尽或例示特定的金融活动形态来圈定法律的调整范围;列举难免挂一漏万,极易陷入“法有限而情无穷”的困境。(2)基于机构属性的授权式定义将金融活动与特定持牌机构的经营范围紧密绑定,构建了以机构属性为核心的金融行为识别标准;特定行为是否构成法律调整的金融活动,依赖于行为主体的身份是否获得监管授权许可。质言之,通过对持牌金融机构业务范围的审批与管理来实现对“金融”范畴的间接框定。(3)基于风险特征的否定式定义通常采用“未经批准…不得…”或“禁止…”等否定性表述,并结合“社会公众资金”、“还本付息”、“特定风险”等特征进行金融活动的异常状态的矫正与排除,从而从反面勾勒出“金融”的轮廓。这种界定方式未正面阐明“金融”的应然内涵,混淆了“行为性质认定”与“行为法律评价”两个不同层面的问题。三种模式分别从行为、主体、风险三个不同截面切入,虽各有所长,反映了立法者对金融活动某一维度的认知与关切,但均未能呈现“金融”的全貌与本质,如同盲人摸象,反而因其范式差异加剧了法律体系内部的龃龉。

    表 1 典型法律文本金融活动范围的界定情况

    (二)概念分立的生成原因

    在我国金融法律体系中,“金融”这一基础性概念并未形成统一、抽象的定义,而是被分散规定于《商业银行法》等诸多单行立法之中,呈现出鲜明的概念分立格局。这一格局是在特定历史条件下,由多重因素相互交织、共同作用所形成的制度结果。

    首先,金融概念分立植根于我国特定的历史发展阶段与立法条件。上世纪八十年代末至九十年代,我国金融体系刚从计划经济下的财政附属地位中挣脱,现代金融市场的基础要件极为薄弱,多数领域甚至尚未成形。面对金融市场发育程度低下、金融业态相对单一以及金融乱象风险频发的现实局面,我国金融法律体系的构建并未采取顶层设计一蹴而就的路径,而是伴随经济体制改革与金融市场发育进程,采取了“成熟一个,制定一个”的分业立法模式。这种立法起点决定了我国金融法律体系是从规范具体机构与具体业务开始的“自下而上”的实践积累过程,而非源于“自上而下”的概念演绎。随着市场经济的深入推进,银行、证券、保险、信托等业态逐步发展,立法的首要任务是填补制度空白、回应现实风险,呈现出强烈的“问题导向”与“行业立法”色彩。在立法资源有限的情况下,国家聚焦于“分业”规范,旨在为各类金融活动进行清晰的“身份登记”,而非致力于统一定义“金融”。这种“因业立法、因事定义”的模式在当时历史条件下具有显著的合理性与效率优势,能够快速构建起基础监管框架、有效回应市场秩序建设的迫切需求。然而,这也导致“金融”作为一个整体概念被分散嵌入各单行法中,为后续的概念统一埋下了结构性障碍。

    其次,既定的分业立法模式在制度演进中形成了深固的路径依赖,成为导致金融概念分立得以延续和强化的关键机制。新制度经济学代表人物道格拉斯·诺斯指出,制度的初始选择一旦形成,便可能进入一种报酬递增和自我强化的良性循环轨道;其中,沉没成本、学习效应、协调效应与适应性预期共同作用,最终使该制度路径产生难以逆转的“锁定效应”。我国早期采取分业立法模式,因其在应对特定历史条件下金融市场乱象、快速确立监管秩序方面表现出显著的有效性,从而获得了广泛的正向反馈与合法性认同。这种初始阶段的成功实践,使得该模式被后续立法者视为可靠模板,形成强大的立法惯性:当新的金融现象或风险出现时,立法者的第一反应往往不是在顶层设计上寻求概念的统一,而是习惯于在既有的银行、证券、保险、信托等业态框架内,通过制定新的单行法或修订旧法来“填补漏洞”。这种路径依赖不仅体现在立法思维层面,更已深深嵌入整个金融生态系统的组织结构与利益格局之中。监管机构围绕特定业态设立并发展出专业的监管团队与知识体系,被监管的金融机构也在明确的行业划分下形成了稳定的商业模式和合规流程。任何试图打破业态边界、进行概念统合的法律变革,都意味着要对这套已高效运转数十年的体系进行根本性重构,面临的不只是高昂的制度转换成本,还包括来自既定体系内既得利益群体的潜在阻力。因此,分业立法下的概念分立便从最初的权宜之计,在路径依赖的强大惯性作用下,逐渐演变并固化为一种被视为理所当然的立法常态。

    最后,监管机构的业绩考核机制从内部激励层面强化了对概念分立格局的维护。在分散立法体制下,金融监管权被法定分配予不同监管机构,而各机构的监管范围大小、监管对象多寡往往与其所能获得的预算拨付、人员编制配置乃至行政级别提升等实际利益直接相关。这种“业绩激励”机制天然强化了各监管机构的“领地意识”与“辖区思维”,监管机构拓展职权范围的内在倾向进一步从外部行为逻辑上固化了概念分立。定义条款通过界定监管对象的内涵与外延,实质上划定了监管机构的具体管辖范围。不同监管机构之间的管辖界限,本质上反映了此类与彼类金融活动的区分,构成了金融监管的“内部边界”;而所有监管机构管辖范围的总边界,则区分了金融活动与非金融活动,形成了金融监管的“外部边界”。在现行分散立法体系下,金融监管权被法定分配予中国人民银行、国家金融监督管理总局、中国证监会等不同监管机构,导致“金融”概念在各法中呈现出显著的“竖井效应”。各监管机构在追求公共利益之余,普遍存在巩固法定职权、拓展监管版图的内在倾向。各部门在起草或修订法律时,其首要关切在于清晰划定自身职责边界,遵循“谁的孩子谁抱走”的监管逻辑。这种“囚徒困境”式的博弈格局,使得尽管从整体视角看,统一界定金融概念更符合金融法律体系的理性化要求,但各监管机构基于自身效用最大化的个体考量,反而导致了一种集体次优的概念分立均衡状态长期存续。

    综上所述,我国金融立法中的概念分立格局,是历史条件约束、路径依赖锁定、业绩激励强化与监管逐利行为共同塑造的复杂产物。这一格局在历史上曾发挥了稳定市场、快速确立规则的积极作用,但在金融综合经营已成为常态的今天,其带来的监管套利、协调不力与体系碎片化等问题也日益凸显。

    二、金融概念的学科立场与规范必然

    概念是法律规则的浓缩,一个清晰的概念可以代替一打冗长的规定。金融概念的统一界定需要在厘清学科界分的基础上确立法学立场,并以此回应立法、执法和司法等法治实践的迫切吁求。

    (一)金融概念的学科觉醒

    “金融”一词系舶来品,日本三省堂出版的《新辞林》对“金融”的解释为:资金的融通,资金的需求和供给关系,资金的流动,成为“资金融通说”最早的学术渊源。随着经济学理论的发展,出现了“金融资源论”、“金融产业论”、“金融工具论”、“金融媒介论”等百家争鸣的定义方法。经济学界对“金融”概念迄今未形成统一定义,直接延宕并影响金融法学对基础概念理解的共识形成。我国金融法学长期囿于经济学的认知范式,常不自觉地被经济学话语所裹挟与浸润,存在明显的理论惰性。经济学与金融法学虽共以“金融”为研究对象,但其学科旨趣与价值取向判然有别。如何将金融术语转化为法律表达,既是金融法学的基础课题,更是金融立法的先决条件。

    1.功能主义与规范主义:逻辑理路的本体论分野

    经济学关注金融现象的运行规律与市场效果,其“金融”概念指向“资金融通”现象与功能的概括,遵循的是“实然”的逻辑。学者黄达将金融界定为“凡是涉及货币供给、银行与非银行信用、以证券交易为操作特征投资、商业保险,以及以类似形式进行运作的所有交易行为的集合”。学者陈志武强调金融就是“跨时空的价值交换”。《新帕尔格雷夫经济学大字典》把“金融”定义为“资本市场的运营,资产的供给与定价”。博迪和莫顿认为金融是“对稀缺资源进行跨期分配”。戈德史密斯将金融定义为金融结构静止状态的综合反映,并指出金融发展就是金融结构的变迁。布鲁斯·G.卡拉瑟斯和詹克哲·金围绕金融活动的行动框架及其主要行动者对金融进行定义。经济学语境下的金融概念主要承载着描述性功能,即对金融现象“是什么”的客观刻画,力求客观描述金融市场的运行规律、参与主体的行为模式及金融工具的价格形成机制。上述概念天然缺乏对权利边界、义务归属等规范性问题的观照,通常采取“存而不论”或“外生给定”的处理方式。若“金融”概念仅停留于经济实然层面,法律规范所特有的“应然”功能将随之虚置。法律通过权利义务的界定、分配、保障与矫正,在于塑造、确认并规制主体间可预期的行为模式。法学对“金融”的定义,绝非经济学意义上对资源配置过程的简单映射或被动确认,而是对特定社会关系进行筛选、抽象、评价后形成的规范构造。

    2.价值一维与价值多元:概念建构的价值论差异

    定义之“定”,在于其规范性的指向功能,明确法律所欲规整之对象与边界;定义之“义”,则在于其内在的价值负荷,为法律解释与适用提供应然层面的指引。无论是宏观金融学对货币供应、利率传导、国际资本流动的研究,抑或微观金融学对资产定价、风险管理、公司融资决策的剖析,其皆侧重资源如何通过金融活动实现帕累托改进。效率本位的价值立场,使经济学在观察金融现象时呈现出鲜明的工具理性色彩。经济学将金融视为实现资源最优配置的技术机制,而对效率之外的价值维度则相对淡漠。若将经济学的金融定义视为一种“点”的突破,法学则追求“面”的统合。金融安全、金融效率与金融公平三者构成法学视域下金融概念的价值基底。正是基于这一认识论立场的分殊,经济学的金融概念可以保持价值上的相对单纯,而法学的金融概念则呈现价值上的复合样态。

    3.个体理性与制度理性:行为假设的方法论分歧

    经济学的金融概念建立在“理性经济人”的行为假设之上。这一假设认为,金融市场的参与者都是理性的决策者,能够基于完全信息做出效用最大化的选择。晚近兴起的制度经济学与行为经济学虽然注意到制度理性的价值,仍主要将制度视为约束条件或外生变量。在个体理性的框架下,金融被理解为理性个体之间的自愿交易,市场机制能够自动实现资源的优化配置。因此,经济学的金融概念强调市场的自我调节功能,认为法律干预应当最小化,避免扭曲市场的价格信号和激励机制。相反,法学的金融概念天然地将制度置于分析的核心位置。法学承认市场主体的有限理性和信息不对称,更强调通过制度安排来矫正市场失灵、保护弱势群体、维护公共利益。金融活动的合法性、正当性,不能仅仅依靠市场的自发秩序,而必须通过法律制度的规范和引导来实现。方法论分歧导致两个学科在理解金融现象时采取截然不同的分析路径。经济学倾向于从微观个体行为出发,通过加总推导出宏观金融现象;而法学则倾向于从宏观制度框架出发,通过规范设计影响微观个体行为。

    4.静态均衡与动态演进:时间维度的认知论差异

    经济学的金融概念往往追求静态均衡的理论优雅,偏重于金融资产定价和金融市场均衡分析。在一般均衡理论框架下,金融市场被抽象为一个瞬时出清的交易场所,所有的金融活动都可以在均衡价格下达成。这种静态均衡的概念建构,虽然有助于理论分析的简化和模型推导的便利,但却忽视了金融活动的时间维度和历史路径依赖。在经济学的理想模型中,金融概念是超越时空的抽象范畴,不受特定制度环境和历史条件的约束。法学语境下的金融概念则必须正视金融制度的动态演进特征。金融法律制度的形成和发展,是特定历史时期社会经济条件、政治法律传统、文化价值观念共同作用的结果。金融概念的法律界定,必须考虑制度变迁的路径依赖、法律移植的本土改造、司法实践的经验积累等动态因素。

    学科视角的差异本不应成为立法表达的障碍,而应成为概念锻造的智识资源。金融法学必须基于法学立场,运用法学方法、服务法学目标,实现概念从“拿来主义”到“概念自觉”的范式转换。

    (二)金融概念的法治吁求

    定义条款是理解、适用与遵守法律规范的保障,型塑法律文本的清晰性、透明性与实用性,影响法律的质量优劣和运行良善。概念不统一所衍生的诸种沉疴,已成金融立法必须正视的“奥吉亚斯的牛圈”。清扫此“牛圈”的关键,在于从立法源头确立统一、明确、周延的“金融”概念。

    1.维护文本逻辑的体系性要求

    统一的金融概念是维系法律文本内在逻辑、确保规范体系结构完整的基础性条件。“将大量彼此不同,而且本身极度复杂的生活事件,以明了的方式予以归类,用清晰易辨的要件加以描述,并赋予其中法律意义上相同者同样的法律效果,此正是法律的任务所在。”这一法律任务能否圆满完成取决于基础概念统一界定和精准表达。立法是寻求最大公约数的共识艺术,法律概念是凝聚立法共识的认知基础。概念界定的差异性决定金融法律体系价值取向、构建路径和内容设计。基础概念既是法律规范的语义载体,更是章节条款编排的逻辑纽带。概念先行在金融立法中发挥提纲挈领、价值统合和体系整合的作用。概念的界定是金融立法的“第一粒纽扣”,扣错则通盘皆误。如果金融概念无法有效涵摄和统合具体规则,“金融机构”“金融工具”“金融业务”“金融市场”等衍生概念必然难以精确圈定,章节条款的展开缺乏统一的语义基准,文本间的语义锚点随之失却,金融立法的“四梁八柱”支离破碎,最终导致规范体系因语义纽带断裂而结构失稳。

    法律以概念界定其调整对象与适用边界。概念统一正是通过明晰的内涵廓清与外延划定,使规范文本精准指向立法意图所欲规制之事项,避免其不当扩张或规制遗漏。条款设置服务于特定的价值目标,而目标实现需要基础概念的一致。轻忽基础概念的厘定,既定的立法目标被扭曲的概念工具所肢解,规范意旨终致落空,金融法丧失作为行为指引与裁判基准的规范品格。概念统一界定是法律文本的形式理性要求,更影响金融法治目标的实质达成,是实现科学立法的应有之义。

    2.消解监管失灵的制度性需求

    监管有效性的实现以监管对象、监管边界与监管标准的清晰界定为前提,而概念统一则是这一前提成立的制度基础。金融属于典型的严监管领域,当“何为金融”本身成为悬而未决的问题时,则会招致和加重监管空隙、监管俘获、监管竞次及监管套利等监管失灵现象。概念不清直接生成或显化监管空隙,某些金融行为因其法律定性模糊,便可选择在界定边缘游弋。空隙一旦形成,即成为竞次的现实场域。当“金融”概念可被语义拉伸或收缩时,不同监管主体因对“金融”范畴的理解不一而产生职能重叠、权限争夺或规制标准竞逐。监管主体为吸引金融机构或业务资源,竞相降低监管标准或放松执法力度。监管俘获在概念模糊的语境下呈现更强的诱发与放大效应,使得监管行为俯就于特定被监管实体的利益。监管机关在识别监管对象和厘清风险特征时,金融监管对象、金融监管工具与金融监管边界便可被利益相关方通过行业话语所掩盖或替代。概念模糊为套利提供语义上的可能,市场主体利用概念差异或漏洞,通过调整业务结构或法律形式,将实质上相同或相似的金融活动置于监管标准最宽松或成本最低的监管框架之下。

    统一的金融概念为市场主体进行理性决策提供稳定清晰的行为预期,也是培育良性市场生态的制度必需。明确的法律概念不仅服务于法律认知与法律再造,更调控社会关系、规制并引导主体行为。概念的缺位和分立直接扰乱市场主体的预期形成过程,导致市场公平秩序的扭曲与创新激励的错配,主体的期待利益和信赖利益也因之频繁受损。尤其在金融市场,信息不对称已是常态,法律概念的不确定性进一步加剧信息不对称,引发逆向选择与道德风险。有益创新因法律地位不明而陷入“寒蝉效应”,动辄得咎、裹足不前。伪创新、毒创新恰借概念模糊刻意规避“金融”标签,以“科技”“信息中介”“商品交易”“互助合作”等名义而大行其道,资质迁徙与牌照溢价随之加剧,造成“劣币驱逐良币”的市场异化问题。只有确立统一的“金融”概念,才能使有益创新得到保护,伪创新、毒创新无所遁形,从而优化金融创新生态,促进金融市场健康发展。

    3.统一司法裁判的实践性诉求

    司法统一是法治国家的基本要求,而概念统一则是实现司法公正的内在诉求。法律概念作为法律上的营造物,是法官理解法律的认知介质,也是进行推理和判断的裁量工具。法律规范都包含着法律概念,法律规范自身也是属需定义的法律概念。司法活动本质上是概念阐释和事实涵摄的持续展开。定义条款的明晰设置是立法者向司法者清晰传达立法意图的必要方式,也是涵摄过程大前提明确、小前提准确和结论正当的关键要素。金融概念的模糊性,使得法院在审理金融纠纷案件时,首先面临“定性难”这一前置性法律障碍。定性不同直接决定当事人的举证责任分配、过错认定标准、赔偿范围乃至请求权基础。不同法院甚至同一法院不同合议庭可能基于“形式审查说”、“实质穿透说”等不同解释路径作出迥异认定。缺乏统一的“金融”概念作为逻辑起点和解释基准,每一次定性都需回溯并比较多个单行法中的相关定义条款,甚至需要借助大量低位阶的规范性文件、监管通知、窗口指导进行补充解释。法官不得不在现有法律缝隙中“辗转腾挪”,裁判说理往往左支右绌,颇显踌躇,进而导致法律适用迥异、裁判结果悬殊。更有甚者,大量案件因难以明确适用金融法律而被降格为普通民事纠纷处理概念界定不清的情形下,裁量权的行使易偏离法律原意,甚至沦为主观恣意,催生“同案不同判”的司法乱象。统一的“金融”概念为法官提供明确的涵摄依据,提升裁判说理的充分性与说服力,减少司法资源在定性争议上的消耗,最终实现“以审判为中心”诉讼制度改革背景下金融司法的专业化。

    三、金融概念的要件提取与适用验证

    形式是实质的外化,实质是形式的依据。形式主义的概念界定方法试图以外观形式定义金融法的万千气象,终究难逃刻舟求剑之弊。法律概念的形成必须考虑调整对象的内在本质,将“实质重于形式”原则灌注于概念建构。“实质重于形式”原则并非法学领域的陌客,公司法“揭开公司面纱”原则、财税法的“经济实质”原则和信托法的“事实信托”理论,同样是其生动体现。1924年美国联邦最高法院在Weiss v. Stearn一案中首次清晰阐述“实质重于形式”原则。1946年美国联邦最高法院在SEC v. W.J. Howey Co.一案中确立的“投资合同”实质判断标准,即不考虑名称如何,而是检视是否涉及“资金投资于共同事业,并合理期待主要通过他人的努力获取利润”。实质重于形式原则是国家调节的必然选择。经济法自诞生之初,便承载着克服市场机制“三缺陷”的使命。金融市场风险的生成与传导,紧紧依附于金融活动的经济功能,而非其形式外衣。实质重于形式原则既尊重概念的规范约束,又实现了概念的开闭合一。任何法律原则的适用均有边界,过犹不及。实质重于形式原则若被无节制地扩张适用,势必异化为监管者与司法者恣意解释法律、任意扩张权限的“尚方宝剑”。要件化的处理方式,本质上是将抽象的实质判断转化为相对明确的事实认定与法律涵摄,能够有效限缩自由裁量空间,达致实质正义和法律确定性的均衡。

    (一)构成要件的提取

    “提取公因式”作为立法技术,其核心在于从纷繁复杂的法律现象中,提炼出共通性的规范要素,并将其上升为能够统摄整个法律领域的基础性规则。正如《民法典》通过总则编对民事活动中共通的主体、行为、权利、责任等要素进行抽象与整合,形成了统辖各分编的“公因式”。金融法的制定同样面临着如何从银行、证券、保险、信托等各类具体金融形态中,抽象出能够界定所有金融活动“最大公约数”的任务。尽管学界已有见解主张本次金融法的编纂应对基础性金融法律概念采取要件化的定义路径,这一思路无疑对推动金融概念的明晰化具有启发意义。然而现有建言多停留于方法论层面的初步倡议,尚未就具体要件选取、构造逻辑及适用标准等问题展开充分论证,存有未尽之处与深化余地。鉴于此,拟在现有研究基础上进行拓补,并引入“提取公因式”的立法技术作为理论支撑。

    1.是否以货币资金为经营标的

    货币作为一般等价物,成为资本运动的最初形式和最终形式。货币资金是价值储藏的权利凝结形态和支付工具的法定强制力载体。货币资金的法律属性决定了金融活动的规范结构与运行逻辑。货币资金成为连接金融市场各参与主体、贯通各类金融工具、统合各种金融业态的基础要件和金融法律关系中的“公分母”。克纳普在《货币国定论》中提出货币是“法律的创造物”。货币资金的本质是国家主权信用背书下的法定清偿能力,被抽象为纯粹的价值符号,剥离了其作为特定物的个性,从而获得了法律上的“种类物”属性。这为金融活动的标准化操作提供了基础,金融产品可以大规模复制和流通。货币资金的法律特性还在于其蕴含的“价值恒定”与“无限可分”的法律拟制。价值的恒定为跨时期、跨地域的金融契约提供了稳定的计价基准,使得不确定的收益能够以当前的货币资金规模进行衡量,从而为资本的时间定价奠定基础。而无限可分的特性,则使得巨额资本得以通过股份份额等工具,向无数市场主体进行募集与分配。银行法、证券法、保险法、信托法等金融法律法规虽规制重点各异,但均以货币资金的法律规制为共通主线。我国学界已有观点认为金融就是“以货币为核心的财产价值形成与转换及附属行为”。准确把握对货币资金法律属性,就是抓住了金融”概念界定的“牛鼻子”。

    所谓“以货币资金为经营标的”,其法学内涵远非“与钱相关”这般浅显。“经营”是指以重复性、职业性与营利性为特征的组织化活动。经营货币资金,本质上是以货币资金本身为营利基础,通过吸收、融通、管理和运用资金而获取收益的商事法律行为。金融对货币资金的运作并非单次的法律行为,而是构成了一个持续的法律行为链条。金融活动的法律特征在于其以货币为媒介的连续性契约安排。而一旦行为具备经营特征,则需进一步区分货币资金的不同运用形态:其一为债权性经营,如信贷、债券投资等,其法律本质是资金使用权的有偿让渡,形成还本付息的债权债务关系;其二为股权性经营,如股票发行、股权投资等,其法律本质是资金所有权的风险共担,形成剩余索取与公司治理关系;其三为组合性经营,如资产管理、基金运作等,其法律本质是信托或委托关系下的资金集合与专业管理。各类形态虽权利义务结构不同,但均以货币资金的价值运动为核心,统合于金融法的调整范围。

    2.是否涉及信用授受

    “信用,在它最简单的表现上,是一种适当或不适当的信任,它使一个人把一定的资本额,以货币形式或估计为一定货币价值的商品形式,委托给另一个人,这个资本额到期一定要偿还。”金融与信用如影随形,金融本身就是信用交易的产物。“信用”一词既有“相信”之意,亦有“托付”之义,可视为法律所认可并保障的一种跨期价值交换请求权,非囿于日常语义中的道德评价或商业声誉。此处的“授”与“受”意味着“当下授出”与“未来履行”在时间轴上的分离与耦合。所谓“授”,即一方当事人基于对另一方未来履约意愿与能力的信赖,将当下的经济价值让渡出去;所谓“受”,即另一方当事人相应承担了在未来特定时点履行特定给付的法律义务。一授一受,构成了金融法律关系最原始和最精炼的单元。金融工具是信用关系的法律载体,金融市场是信用授受的法律场域。没有对跨期请求权的确认与支撑,金融活动将退化为高风险的情感寄托或道德博弈。因此,金融是信用在经济领域的延伸。信用授受成为金融的立身之本,是金融的生命线。从第三次社会大分工中的商品流通开始,基于熟人社会个体品性的“人格信用”就已从升华为“制度信用”。

    因为有信用的存在,所以就诞生了杠杆,杠杆是依附在信用之上的。杠杆的运用,又进一步强化和扩展了信用授受的范围与深度。有学者认为全部金融的要义就是信用、杠杆和风险。信用充当了金融法律关系的“质料因”,而杠杆则表现为“形式因”。杠杆本质上是对信用授受关系的多层嵌套和递归运用。杠杆通过信用授受实现权利与义务的乘数性扩张,主体撬动并支配远超其自身即时偿付能力范围的资源。受信方在获得信用授受的同时,可以将所获得的资源作为基础,进一步进行信用授受活动,从而形成多层次的信用链条。链条的每一个环节都建立在前一环节的信用基础之上,形成了权利义务的逐级传递和放大。例如,在资产证券化过程中,原始债权通过法律安排转化为标准化的证券,这些证券又可以作为新的信用载体进行流转和再融资,从而实现杠杆的多层次运用。由此观之,杠杆是“权利的权利”或“信用的信用”。

    3.是否内含风险分配

    弗雷格认为概念的“意义”是其认知内容,而“意谓”是其所指称的对象。风险机制既构成了金融概念的“意义”——即理解金融现象的认知路径,也构成了其“意谓”——即金融活动的客观特征。金融业务形态虽然千差万别,但都围绕风险的识别、计量、定价、分散、转移等环节展开,其法律构造都可归结为风险分配的不同变体。在现代金融实践中,风险本身已经成为独立的交易标的,信用违约互换等衍生工具即为明证。进而论之,金融法中的许多重要概念,如金融机构、金融产品、金融服务、金融市场等,都可以通过风险要件得到统一的理解。金融机构以风险管理为本质职能,金融产品以风险收益为结构特征,金融服务以风险分散为价值依归,金融市场以风险定价为运行机理。

    金融契约的成立,不仅是货币资金使用权的暂时让渡,更关键在于金融活动主体就未来不确定性的承担达成具有法律约束力的合意。风险,在此并非指代具象化风险类型,而是指未来利益的不确定性。风险的分配方向与程度,直接决定了金融活动主体权利义务的边界与内容。每一项金融创新实质都是风险分配方案的重新组合。风险的法律意义在于其对未来不确定性的制度化表达,没有风险就没有真正意义上的金融活动可言。因此,金融法也是风险的“分配法”。金融演进脉络呈现出由资金调剂向信用授受,再进一步向风险配置的转变趋势。现代金融通过风险的优化配置,为整体经济构建风险流转与分散的机制。金融发展的基本方向也是不断增强金融体系在风险配置方面的效能。风险管理已从金融的基础功能跃升为核心功能,构成金融业存续发展的基础。金融法的规范目标并非追求风险的绝对消除,而在于实现风险分配正义。鉴于金融市场主体风险承受能力的异质性,金融法将风险向最具评估、控制与承担能力的主体流转,确保高风险承受能力者承担相应风险,低承受能力者获得合理保护,并确保主体所获收益与承担风险合理对应。

    风险分配的存在判断应当基于行为的客观特征和实际效果,而非当事人的主观表述或形式安排,应当重点审查该活动是否在客观上实现了风险在不同主体间的重新配置以及其是否构成该活动的主要特征。通过分析交易结构、资金流向、收益分配等实质要件,判断是否确然发生风险的转移与再分配。虚假风险要件的存在往往指向欺诈性金融行为,应当受到法律的否定性评价。

    4.是否具有收益期待

    期待利益作为理性经济人行为决策的重要变量,早已为新古典经济学所肯认。门格尔将价值判断的基点从客观劳动转向主观效用,强调行为主体对未来满足的预期构成资源配置的内在动力。庞巴维克通过利息理论,揭示出期待本身即构成经济主体行为的理性基础。金融概念的廓清既要侧重资金融通、信用授受、风险配置等客观表征,也要对金融活动参与主体的主观意志予以关照。任何法律关系的构成都必须同时具备客观要件与主观要件,金融活动概莫能外。所谓主观条件,指行为主体为追求特定法律效果而从事特定行为的动机和目的,其与客观行为要件共同构成法律关系成立的充要条件。收益期待作为金融行为主体主观意思表示的重要组成部分,是一种具有法律上值得保护之利益的权利化状态,或类德国学者泽特尔曼所语“期待权”。英国上诉法院在Re Charge Card Services Ltd一案强调,金融服务的本质在于为客户提供资本增值的机会或手段。一方主体期待通过货币资金投入获得回收或收益,相对方在接受资金时亦明知并通常以明示或默示方式承诺将努力实现对方的此种期待。收益期待包含资本回收和收益获取,前者通常指本金的返还,而后者则包括利息、股息、资本增值等各种形式的投资回报。收益的形式可能多样化,不限于货币形式,也可能包括其他有价值的对价。现代金融学理论中的期望收益率、风险溢价、现值折现等概念,都是对收益期待进行量化分析的工具。收益期待构成了金融活动参与者行为选择的认知基础。期待的强度和类型决定金融活动的具体形态,也直接影响金融产品的风险收益特征和法律规制模式。期待驱动着资本所有者将闲置资金投入金融市场,推动了资本的流动和配置。缺乏资本回收或收益获取的期待,市场主体即丧失参与金融活动的内在动机,金融市场也就失去了存在的基础。

    任何主观意思的识别都可以通过外在行为表征进入法律推知评价的视域。收益期待通常以合同条款及相关交易文件等明确载明的本金返还、利息支付、分红预期等形式固定下来,构成“收益期待”的初步证据。“合理预期”标准是重要的补充认定工具,考察一个处于相同或类似地位的理性市场主体,在知晓相关交易的全部信息后,对该行为是否会产生以及可能产生何种经济回报所形成的合理期待。此外,还可以将行为主体、市场背景、行业惯例、推介材料以及资金流向等因素纳入综合考量范畴,从而确定具备客观性与稳定性的裁判基准。

    四项要件共同构成金融活动的识别标准,但理论的建构远未止步于此。概念的严谨周延不仅依赖于要件的齐备周全,还取决于诸要件之间逻辑链条和层次结构。若将四项要件简单罗列、等量齐观,则定义难免失之于扁平化。明确要件的逻辑关系关乎定义本身的科学性,也决定了立法表达时概念展开的序列与规范建构的层次。“货币资金为经营标的”与“信用授受”属于核心要件。没有货币资金的经营,便不成其为金融;没有信用的授受,金融活动亦无从展开。“风险分配”与“收益期待”是前两者之上的必然逻辑延伸,由核心要件所派生,并共同丰富了金融概念的内涵。四项要件共同构成一个从客体、行为、后果到目的的完整图景,环环相扣、层层递进,形成逻辑自洽的金融概念构造。

    (二)要件适用的检验

    要件检验是判断金融活动的初始环节,要求对特定经济或法律行为进行逐项筛查,评估其是否符合要件的特征。检验过程并非简单的“是”或“否”的二元判断,而需结合具体活动的运作机理,审慎评估各要件的表现形式与满足程度。“货币资金为经营标的”要件的检验,需要审视该活动是否直接以货币或其衍生形态作为标的。“涉及信用授受”要件在于辨识活动中是否存在基于未来履约承诺而进行的当前价值转移。“风险分配”的判定,要求剖析活动本身是否内在地设计了对未来不确定性进行分配。“收益期待”则聚焦于主体是否基于其投入而怀有获取经济回报的合理预期。在完成四项要件的逐项检验后,即进入综合判定阶段。基于前述检验结果的内在关联与整体呈现,对目标活动的整体“金融属性强度”作出整体评估与法律定性。满足全部四项要件的活动,可被定性为“典型金融活动”。商业银行存贷款、证券发行交易、保险承保与理赔等传统金融业态活动最具典型性,四项要件齐备无虞,均属此类。北美产业分类系统(NAICS)将典型金融活动分为三类:通过存款或发行证券筹集资金并产生负债、通过承保保险和年金进行风险汇集以及提供促进金融中介、保险和员工福利计划的专业服务。

    值得注意的是,不同要件缺失对金融属性消解程度确有影响。核心要件缺失使活动跌出金融范畴的边界,而衍生要件缺失则仅使其在金融光谱上位移。满足两项核心要件及任意一项衍生要件的活动,虽在某些环节存在弱化或变异,金融属性不及典型活动完整,但仍具备相当的金融实质,属“准金融活动”,与典型活动仅有程度差异。“准金融活动”则以典当、信托贷款、多用途商业预付卡发行等活动为代表。Tobias Adrian等学者认为准金融为信托贷款、典当等非银行活动,其与典型金融活动存在界限;满足两项要件且含一项核心要件的活动,归为“类金融活动”。其仅部分具备金融特征,属性强度进一步减弱,处于金融活动边缘,更多表现为形式相似,监管需立法授权以实现精细化。供应链金融、股权众筹、互助保障计划等新型金融业态划归此列。有论者主张融资租赁、保理等视为类金融活动,但是《民法典》已将其纳入调整范围,故应将其排除金融法规制。而仅满足任意一项或零项要件的活动,则应被视为“非金融活动”。非金融主要包括一般商品买卖、普通租赁、个人间偶发性民间借贷、薪酬支付、慈善捐赠、单纯仓储保管等活动。

    分类定性最终决定其应适用的法律与监管范式:“典型金融活动”应纳入金融法规制范围,“准金融活动”法律适用应采取“原则适用,例外调整”的思路。对于“类金融活动”采取“底线监管,个案分析”的监管策略。对于“非金融活动”,应明确排除金融法的适用,回归至民商事法律的一般调整。申言之,我们必须摒弃传统金融监管中“非此即彼”的二元思维,改变将经济活动简单划分为“金融”与“非金融”,并据此采取要么全面监管、要么放任自流的做法。面对金融创新催生的大量灰色地带活动,传统模式已显理论贫乏与应对乏力,而典型、准、类、非的四级分类则引入了“光谱思维”与“梯度监管”理念,承认金融属性实为一个由强至弱的连续谱系,更契合复杂的金融现实。这一分类也为监管与司法实践提供了精细化工具箱。执法与司法者无需再固守“全有或全无”的二分法,而可借助“要件检验”,逐层识别活动的金融属性强度,匹配差异化的监管策略与裁判路径,从而显著增强法律应对金融创新的弹性与韧性,避免“一刀切”可能带来的抑制创新或监管缺位。

    四、金融概念的立法表达与体系融贯

    法律是旨在实现特定目标的规范体系,而立法表达则是将抽象法理转化为具体规则的关键环节。因此,金融概念的立法表达,不仅需追求自身的精准与周延,更必须与既有的银行、证券、保险、信托等法律规范中的相关概念实现有效衔接与体系融贯。

    (一)定义条款的规范构造与立法技术

    定义性规范作为法律文本中具有特殊功能的规范类型,其设置目的在于揭示被定义项的实质内涵,既不容纳入任何非本质的冗余特征,导致定义“过宽”;亦不可缺失任何关键的本质特征,致使定义“过窄”。其根本追求是实现定义的内涵与外延达成严谨的逻辑自洽,为法律适用提供明确的语义基准,消除概念歧义引发的法律不确定性。

    在当前我国立法实践中,定义性规范立法的主要类型包括内涵型定义性规范、外延型定义性规范以及内涵加外延型定义性规范。三种定义类型在立法表达上各具特色,适用场景亦有差异。内涵型定义侧重于揭示概念的本质属性,具有较强的抽象性与概括力,适用于需要统摄多种具体形态的基础性概念;外延型定义则采取列举方式明确概念的外延边界,具有直观性与确定性,但难以应对金融创新带来的新型业态;内涵加外延型定义试图综合两者优势,但可能因篇幅冗长繁复而影响规范的简洁性。内涵型定义性规范通过揭示概念的本质属性来确定其适用范围,与实质要件界定方法不约而同,契合金融法作为基本法的统领定位,因而成为金融概念立法表达的最优选择。当选择使用内涵型定义性规范时,根据种差之间的并取关系,其表现为“LA=df具有性质(T1∧T2∧……∧Tn)的B”的定义结构。L代表法律概念,A为被定义项,B为属概念,T1至Tn为种差要件,∧表示并取逻辑。因此,定义项(LA)等值于属概念(B)与若干种差(T1至Tn)的逻辑交集。

    我国《立法法》第七条第二款明确要求“法律规范应当明确、具体,具有针对性和可执行性”,为定义性规范的构造设定了基本准则。全国人大常委会法工委《立法技术规范(2024)》进一步明确要求“法律条文表述应当含义清晰、逻辑严密、语言精练,避免产生歧义和交叉重复;同时应当文风庄重、通俗易懂,避免使用夸张、比喻等修辞手法”,构成了评价定义条款质量的基本尺度。在对术语进行定义时应使用更为熟悉的词汇、使用更为精确的词汇、明确组成部分、明确具体指示对象、表明与较大概念单位之间的关系。申言之,定义应当科学反映被定义事物的本质属性,实现概念内涵与客观对象的精确对应,不得含混不清或模棱两可;定义的内部结构要符合形式逻辑的基本规则,运用并列、递进、因果等逻辑关系词呈现定义要素之间的内在关联,句法安排应当层次分明、主次得当、便于理解;立法表达必须使用形成稳定含义的规范性表达,符合现代汉语的语法规则与表达习惯,避免使用日常用语或模糊词汇。同时,合理使用顿号、逗号、句号、分号等标点符号,通过标点符号的差异化使用准确标示语义停顿与逻辑层次。

    定义性条款在法律文本中的位置安排,同样构成立法表达技术的重要面向。法律附则作为法律文本的附属部分,是总则与分则的辅助性构成单元。将一部法律中涉及多个条款的基础术语置于附则部分予以界定已成为我国的立法惯例。附则之所以成为定义性条款的适宜栖身之所,主要原因是其具有“释义汇编”的功能,将法律文本中反复出现的核心术语进行集中界定,便于查阅对照。这种体例安排使得定义条款既不干扰总则的原则性表达,又不影响分则的制度性规定,而是作为贯穿全文的语义基准,为整部法律的理解与适用提供统一的概念工具。

    基于以上理论与规范要求,建议在金融法附则中作如下规定:

    “第X条  本法中所称的“金融活动”,是指以货币资金为经营标的,通过信用授受方式实现资金融通,内含风险分配并具有收益期待的经济活动。

    虽不完全符合前条规定的全部要件,但具备其核心特征,可能产生金融风险的活动,国务院金融管理部门可以依法将其认定为金融活动,并参照适用本法或者本法的相关规定。”

    上述表述采用了“是指…的…”判断句式和“概念=种差+属”的逻辑结构,符合我国立法技术规范中关于定义性条款的表达惯例。“是指”作为定义联项在语义上明确标识出定义关系的存在。“…的…”结构通过定语从句对属概念进行限定,使得种差与属概念形成紧密的语法整体。更为重要的是,该表述采用了要件并列和逻辑关联的句法结构。通过介词短语与动宾结构的语法设计,以逗号分隔,揭示四项要件之间的内在关联与递进逻辑,形成完整的规范判断结构,避免将要件机械叠加堆砌而导致的定义僵化或选择适用。而第二款设置开放性条款,赋予监管机关在特定情形下的适度认定权限,“虽不完全符合……但具备……”的让步转折句式,承认金融活动在现实中可能存在不完全符合典型定义但本质上仍属金融活动性质的情形,体现了原则性与灵活性的有机统一,为应对金融创新预留了空间。

    (二)既有秩序的衔接整合与逻辑贯联

    立法表达不仅是语言技术,更是制度协调艺术。新的法律规范总是镶嵌在既有的法律体系之中,其表达方式必须考虑与既有规范的衔接整合,实现新旧规范之间的逻辑贯联与体系融贯。

    1.三层概念结构的确立

    金融法作为金融领域的基础性、统领性法律,并非意在废止既有各金融行业立法,而是确立国家金融治理的基本目标、基本原则和基本制度。金融法在我国金融法律规范体系中居于“母法”地位,与既有金融法律规范并非“新法废旧法”的替代关系。定义条款构成整个金融法律体系的“通用语言”,成为理解和适用法律的刚性约束和释义基准。因此,金融概念与既有规范之间形成“基础概念—类型化概念—具体术语”的三层结构。基础定义作为顶层概念,着重刻画金融活动的本质特征,成为理解与适用既有具体金融法律规范的上位概念背景和基准,对其他金融法律法规中的相关概念具有统摄与指引作用;中层则由银行法、证券法、信托法、保险法各单行法对银行、证券、信托、保险等具体金融形态作出类型化界定,既有金融单行法中的相关概念界定应被理解为对统一概念在特定领域的具体化适用;底层则是金融法律法规中的具体业务分类术语。具体业务术语的技术性与操作性,使其直接指向具体的金融产品、金融服务或金融交易,是基础概念与中层概念在微观层面的落实与体现。

    2.与其他金融法之间的联动修改

    金融领域经过数十年的立法累积,已经形成了以银行法、证券法、保险法、信托法为主干的分业立法体系。未来《金融法》中“金融活动”定义条款的确立,将成为整个金融法律体系的“元规则”,其影响将直接而具体地投射到即将修订的《商业银行法》《中国人民银行法》及正在制定的《金融稳定法》等关键法律中,要求我们在立法技术上做好前瞻性的衔接设计。

    对《商业银行法》修订的衔接,重在实现监管范式从“机构监管”到“功能与机构监管并重”的真正转变。现行的《商业银行法》主要围绕“商业银行”这一特定机构类型展开规制。未来修法应与《金融法》的定义条款形成呼应,具体路径有二:其一,就概念援引与范围界定而言,可在《商业银行法》的修订中,在总则或附则中增设援引条款,如“本法所称银行业金融机构,是指经国务院银行业监督管理机构批准设立的,主要从事《金融法》所界定的金融活动中资金融通业务的金融机构。” 这一表述蕴含体系整合与功能兜底的双重规范意涵。一方面,将《商业银行法》的规制范围锚定在《金融法》的顶层概念之下,确保体系统一;另一方面,通过“主要从事…资金融通业务”这一功能描述,为监管机构认定诸如某些金融科技公司等实质上从事银行业务的非银行机构提供了法律依据,避免监管真空。其二,就业务范围条款的弹性化而言,现行《商业银行法》对商业银行的业务范围采用列举式立法技术。为因应金融创新之需,可在此条款未尾增加“以及国务院银行业监督管理机构依据《金融法》及相关法律法规认定的其他金融活动”作为兜底。这便将新型银行业务的认定权,与《金融法》的定义和授权关联起来,保持了法律的开放性和适应性。

    对《中国人民银行法》修订的衔接,关键在于明确央行职责的“金融”边界。《中国人民银行法》的核心是确立中国人民银行的职责与权限。引入统一的“金融活动”定义,有助于精准界定央行的履职范围,特别是在宏观审慎管理和系统性风险防控方面。 一是要实现职责表述的现代化,在修订央行职责时,可将“制定和执行货币政策,防范和化解金融风险,维护金融稳定”等宏观职责,与《金融法》中的“金融活动”概念明确挂钩。例如,可将央行的宏观审慎管理职责明确表述为“对全体从事《金融法》所界定金融活动的机构、市场和工具实施宏观审慎管理”。这为央行穿透式监管、覆盖所有系统性重要金融活动和机构提供了明确的法律授权,使其“金融稳定”职责的边界更加清晰。二是监管协调的法定化。基于统一的金融定义,央行与金融监管总局、证监会等机构之间的监管协调,将从机构间的权责划分,深化为基于“金融活动”本质的功能性协作。在法律中可进一步明确,对于跨行业、跨市场的金融活动,由央行牵头进行系统性风险评估,并依据《金融法》确立的“主监管人制度”原则,协调相关监管机构制定统一的监管标准。

    《金融稳定法》制定的根本要义在于奠基则统一的金融风险防控基石。即将制定的《金融稳定法》是其法律体系的顶层设计,而《金融法》中的“金融活动”定义则是其规制范围的“总开关”。首先,界定风险处置范围:《金融稳定法》的核心任务之一是建立金融风险处置机制,其处置对象必须是明确的。因此,该法应开宗明义地规定:“本法适用于为防范、化解和处置由《金融法》所界定的金融活动所引发的金融风险。” 这确保了风险处置的覆盖面无遗漏,无论是传统银行、证券、保险,还是未来可能出现的任何新型金融业态,只要其活动本质属于“金融活动”,就落入《金融稳定法》的防护网内。其次,构建统一的处置标准与工具:统一的定义是统一处置标准的前提。基于此,《金融稳定法》可以设计一套适用于所有金融活动主体的风险监测、早期纠正和处置工具箱——诸如建立覆盖全金融行业的处置基金,避免因概念分歧而导致处置标准不一、公平性受损的问题,实现了从“分业处置”到“功能化、一体化处置”的跃迁。

    在立法衔接的技术路径上,宜采取渐进式整合与授权条款运用相结合的规范策略。细言之,在《金融法》中,除定义条款外,应设置授权性条款,明确国务院或金融管理部门有权根据该定义,制定具体领域的实施细则和认定标准。同时,在修订或制定其他法律时,通过上述“援引条款”建立指向性联系。再者,可考虑设置“日落条款”与定期评估。对于现行各单行法中与统一金融定义明显冲突但又暂不宜修改的条款,可考虑引入“日落条款”,明确其效力终止时间;或要求立法机关在法定期限内进行评估和修订,以倒逼体系整合。最后,要突出中央金融委员会的协调中枢作用。在法律层面进一步巩固中央金融委员会在统一金融概念适用上的最终解释权和监管协调裁断权,确保在出现监管管辖争议时,有一个高阶权威机构能够基于《金融法》的定义作出终局判断。

    总之,法律是成长中的理性。化解新的统一金融概念与既有规范之间的冲突,不能寄希望于毕其功于一役,而应采取渐进式的整合策略。通过在关键法律的修订和制定过程中,前瞻性地植入衔接性条款,可以使《金融法》的定义条款如同一个精密的接口,有机地嵌入现有法律体系的主板,在保持法秩序安定性的前提下,逐步引导整个金融法律体系实现概念统一、逻辑贯联与制度更新。

    五、结语

    概念明则规范清,规范清则秩序定。立于金融法制订的历史关口,金融概念的科学界定是决定法律内在品质的关键前置。统一金融概念的立法表达,当以开放性容纳金融创新的无限可能,以包容性回应金融实践的多元形态,以前瞻性预留制度演进的充足空间。本文所主张的以“货币资金为经营标的、涉及信用授受、内含风险分配、具有收益期待”为核心要件的概念体系,旨在从中国金融实践的内在逻辑与风险本质出发,完成一次从分散行业认知到统一法律范畴的法理提炼。概念厘清终将归于规范确立,理论探索终将服务于实践需求。只有锻造出经得起理论审视、立得住实践考验和扛得起历史考量的金融概念,才能有效重塑行业立法的整体架构、消解监管分立的制度藩篱、弥合司法适用的理解分歧,最终夯实金融强国建设的法治根基,护航中国金融业在守正创新中行稳致远。

    转自《法学评论》2026年第2期

  • 陈壁生:汉代郊天礼中的“天帝”

    在中国文明中,对政治的理解根本上是通过天人关系的建构来实现的。传统政治哲学的核心是天人之学,而天人关系在朝廷典章中,最大之礼是郊祀礼。自汉以后,郊祀之礼之所以重要,在于郊祀礼比其他任何典礼都更为集中地体现了“天”与政治的关系。汉代是塑造中国文明精神品质的一个重要时期,这一时期的郊祀礼所表现出来的对天的理解,对后世有巨大的影响。

    对于汉代郊天礼之“天神”的研究,顾颉刚《三皇考》《五德终始说下的政治与历史》二文作出了开拓性的贡献。近年来,不少专著、论文对秦汉郊天礼以及天神的演变进行了梳理,如田天的《秦汉国家祭祀史稿》仔细爬梳了秦代到西汉末年郊祀礼的发展过程,对雍五畤的建立、甘泉太畤的祭祀对象、祭坛形制等方面有详细的考辨;张书豪的《西汉郊庙礼制与儒学》梳理了西汉郊祀礼的沿革,尤其注重其天地观、神仙观诸方面;林勰宇的《太一:楚文化、秦汉国家祭祀与原始道教探源》则对战国秦汉“太一”信仰进行了系统的梳理。汉代郊天礼一方面落实“天子祭天”,塑造汉代政治的合法性,另一方面又承认刘家受命并非永恒受命,彰显政治本身的公共性。从汉高祖立雍五畤、汉武帝立太一坛,到匡衡郊祀礼改革,其中对“天帝”的不同理解,呈现了天道与汉德的复杂关系。

    一、汉高祖:整合“五帝”

    西汉初年,郊祀之礼多从秦俗,于雍五畤祭祀五帝。《史记·封禅书》载,汉高祖二年(前205),刘邦东击项羽,入关之后,改革郊天之法。

    问:“故秦时上帝祠何帝也?”对曰:“四帝,有白、青、黄、赤帝之祠。”高祖曰:“吾闻天有五帝,而有四,何也?”莫知其说。于是高祖曰:“吾知之矣,乃待我而具五也。”乃立黑帝祠,命曰北畤。有司进祠,上不亲往。

    高祖又下诏曰:“吾甚重祠而敬祭。今上帝之祭及山川诸神当祠者,各以其时礼祠之如故。”秦地的“上帝之祭”只有白、青、黄、赤四帝,以色言帝。刘邦增加黑帝祠,于是凑足五天帝。此五色之帝,即贯穿西汉时期的雍五畤之祀。

    战国到秦汉之间,五帝观念与五行密切相关,五行的金、木、水、火、土,搭配五色(白、青、黄、赤、黑),五方(东、西、南、北、中),五时(春、夏、季夏、秋、冬),且与历史上的“五帝”或抽象的五色帝相关联,成为一个系统结构理论。五行、五色、五方、五时、五帝的不同组合,发展出不同的理论体系。

    刘邦说“吾闻天有五帝”,说明“五帝”的观念是当时的一般认识。首先,这里的“帝”不是直接指天本身,或者唯一天的唯一神,而是天神之一;五帝即五天神。并且,此时的经书中并无“五帝”概念。其次,天帝之数五而备,五帝配五色,说明此五帝是五色帝。刘邦之言,并没有涉及五方、五季问题,但从“乃待我而具五”可以看出,只有凑足五色之帝,才是“完整”的天帝系统。与刘邦所说的五帝观念最接近的,是《吕氏春秋》。《吕氏春秋·应同》言五行、五色并及于帝王,云:

    凡帝王者之将兴也,天必先见祥乎下民。黄帝之时,天先见大螾大蝼,黄帝曰:“土气胜。”土气胜,故其色尚黄,其事则土。及禹之时,天先见草木秋冬不杀,禹曰:“木气胜。”木气胜,故其色尚青,其事则木。及汤之时,天先见金刃生于水,汤曰:“金气胜。”金气胜,故其色尚白,其事则金。及文王之时,天先见火,赤乌衔丹书集于周社,文王曰:“火气胜。”火气胜,故其色尚赤,其事则火。代火者必将水,天且先见水气胜。水气胜,故其色尚黑,其事则水。水气至而不知,数备,将徙于土。

    由此可见,当时五行、五色与朝代循环的五帝观念已经紧密相连,而五行代表着五帝之运,因此,五德终始之说,包含了五德主运与德运相克两层含义。

    雍五畤的建立,并不能说明刘邦对五德终始说的认同,祭祀五帝,只是祭祀所有的天帝。秦世不重天法古,皇帝虽称“天子”,但无郊天之礼,汉初亦然。也就是说,秦朝虽然建立了天下一统的王朝,但天下一统并不具备任何神圣的超越性,政权的合法性也不来自天命,因此不以祭天礼为大典,唯汲汲于肉身不朽之事。汉朝建立以后,汉高祖看到秦俗祭祀四天帝,当时所习称的却是“天有五帝”,不管此时的“五帝”是空间上的“五方”,还是时间上的“五德”,四色无黑,则不能尽天帝。因此,汉高祖要建立一个天下一统的王朝,必然要相应地祭祀所有的天帝。可以说,汉高祖在秦俗基础上凑足的雍五畤,是汉代整合天帝祭祀的第一次尝试,也是建立刘氏政权合法性的一次尝试。

    然其时经学未兴,对五帝的具体所指、五帝与天的关系、如何进行祭祀等问题,并没有明确的系统化理论。甚至在汉文帝时,赵人新垣平善于望气,对汉文帝说“长安东北有神气,成五采,若人冠冕焉”,汉文帝从之,便立了渭阳五帝庙。需要特别注意的是,新立的渭阳五帝庙出现了配享,王莽在元始五年(公元5年)的上奏中云:“孝文十六年用新垣平初起渭阳五帝庙,祭泰一、地祇,以太祖高皇帝配。”雍五畤是秦时旧祭,加上高祖增加黑帝之祀,因此没有配享,但汉文帝新建渭阳五帝庙,高祖早已崩逝,所以可以作为祭天的配享。然而,同样是祭五帝,既有雍五畤,又有渭阳五帝庙,其祭祀天神之随机任意,一至于此。可以看出,虽然在汉初民俗之中,五帝是五色天神,但这与后世标准的郊天之礼所祭对象大不相同,此时对天的认识,仍然没有一套系统或深入的理解,而具有极大的随意性。

    汉高至文景时期的祭天礼,最重要的问题是把祭天等同于祭五帝。无论是雍五畤还是渭阳五帝庙,都是以五帝为祭祀对象。简言之,在当时人的心目中,祭祀天,天之“神”便称为“帝”,而“天”有五神,称为五帝。文景之时,经书逐渐书于竹帛,流被天下。群经之中,并无“五帝”之名。只有等到《周官》出现,“五帝”才在经书中出现。《周官》之外的经书,涉及祭天,通常直言“天”或“帝”,如《孝经·圣治章》云:“周公郊祀后稷以配天,宗祀文王于明堂以配上帝。”《礼记·祭法》云:“燔柴于泰坛,祭天也。”因此,五帝事实上是理解天的方式。也就是说,在祭天的时候,所祭对象是天之神,而天之神即五帝。从汉高祖开始,郊天礼的“天”即五帝。

    二、汉武帝:“太一—五帝”结构

    对汉朝而言,五色帝对应着五德,而汉朝受命,只占一德。然天有更为根本之道,因此到了汉武帝时期,祭天所祭天神在“五帝”的基础之上,增加了更高级的“太一”。《史记·封禅书》载:

    亳人谬忌奏祠太一方,曰:“天神贵者太一,太一佐曰五帝。古者天子以春秋祭太一东南郊,用太牢,七日,为坛开八通之鬼道。”于是天子令太祝立其祠长安东南郊,常奉祠如忌方。其后人有上书,言“古者天子三年壹用太牢祠神三一:天一、地一、太一”。天子许之,令太祝领祠之于忌太一坛上,如其方。

    亳人谬忌之说,纯为当时方士之论。自战国至汉初,在追问万物本原的过程中,诸家都用“太一”表示万物之源,导致多种文献中出现“太一”一词,但这一词语所指却并不相同,甚至并不相通。归纳诸家“太一”,概有三说。一指天地未分之前的状态,《礼记·礼运》云:“是故夫礼必本于大一,分而为天地,转而为阴阳,变而为四时,列而为鬼神。”礼的道理起源于太一,这里的太一,是天地分判之前的状态。郭店楚简《太一生水》言天地之生成云:“太一生水,水反辅太一,是以成天。天反辅太一,是以成地。”亦是如此。其二指星象,太一是北辰、北极之神。《淮南子·天文训》云:“太微者,太一之庭也。紫宫者,太一之居也。”《汉书·天文志》曰:“中宫天极星,其一明者,泰一之常居也。”《尚书·尧典》:“肆类于上帝。”马融注云:“上帝,太一神,在紫微宫,天之最尊者。”《易乾凿度》曰:“太一取其数以行九宫,四正四维,皆合于十五。”郑玄注曰:“太一者,北辰之神名也。居其所曰太一,常行于八卦日辰之间。”这里的太一,都是指北辰之神名。因为北辰是天的中心,因此,作为北辰之神的太一,也是“天”之神。后来的纬书中所出现的“太一”,基本上都可从这一意义上理解。其三指配东帝之神,《楚辞·九歌》有“东皇太一”,五臣注云:“太一,星名,天之尊神。祠在楚东,以配东帝,故云东皇。”《楚辞》之太一为东皇,则与天神中最贵的太一,所指不同。

    中国古代的神灵祭祀,经常名同而指异,指同而名异,更不用说汉以前古籍存世寥寥,所载又简朴,如果执一名而同所指,往往不得其实。“太一”的多重用法,正是名同而所指异的典型。亳人谬忌所奏的太一祭祀,与上述三种对太一的理解都不相同。沈钦韩《汉书疏证》引《楚辞》《乾凿度》以解汉武帝之太一祭祀,非也。汉武帝既从谬忌所奏,在长安城东南郊立太一坛。此太一坛并无五帝,如王先谦注《汉书·郊祀志》云:“始专为泰一祠,不并祠五帝。”汉武帝从亳人谬忌之说所建的太一坛,说明当时理解的“太一”,是高于五帝的天神,但这并非意味着汉代开始建立最高神的国家宗教,其后有人上书要建立“三一”,包括“天一、地一、太一”,其中的“太一”,明显又与谬忌所言太一不同。

    长安城东南郊谬忌太一坛的建立,实际上是针对雍五畤的五帝祭祀,重新确立天神祭祀系统。强调针对雍五畤的五帝祭祀,是因为汉高祖以后,雍五畤事实上承担着汉代国家宗教的意义,因为汉初五德之说极为流行,雍五畤实际上也是五德主运的政治哲学在郊祀礼中的典型表现,而“太一”的加入,则使原来的国家宗教发生了结构性的变化。后来汉武帝再次郊雍五帝,又有人奏“五帝,太一之佐也,宜立太一而上亲郊之”,同样是针对雍五畤的五帝祭祀,结果“上疑未定”,说明汉武帝这个时期可以将太一视为神来祭祀,但并没有也不能替代雍五畤的五帝祭祀。简言之,雍五畤对天神的理解,是认为天神有五,五帝即全部天神,而谬忌太一坛则在五帝的基础上,又增加了高出五帝的太一神。太一与五帝,本来不一定属于同一套天神体系,是汉代方士将二者进行了关联。此外,谬忌太一坛仅仅说明汉武帝承认有比五帝更高的天神,而不能说明这一天神的“功能”到底是什么。

    太一祭祀进入汉朝的祭祀系统之后,开始出现在各种关于天神的理解中。例如,甘泉宫画鬼神之相,以与鬼神通,其中便有太一。《史记·封禅书》载,“又作甘泉宫,中为台室,画天、地、太一诸鬼神,而置祭具以致天神”,又置寿宫神君,“寿宫神君最贵者太一,其佐曰大禁、司命之属,皆从之”。这些祭祀都没有将太一神与五帝关联起来。汉武一朝,真正在五帝之外纳入太一,并建构新的天神体系的,是甘泉泰畤。要真正理解武帝时期的郊天礼,关键也在于甘泉泰畤。《史记·封禅书》载:

    上遂郊雍,至陇西,西登崆峒,幸甘泉。令祠官宽舒等具太一祠坛,祠坛放薄忌太一坛,坛三垓。五帝坛环居其下,各如其方,黄帝西南,除八通鬼道。太一,其所用如雍一畤物,而加醴枣脯之属,杀一狸牛以为俎豆牢具。而五帝独有俎豆醴进。其下四方地,为醊食群神从者及北斗云。已祠,胙余皆燎之。其牛色白,鹿居其中,彘在鹿中,水而洎之。祭日以牛,祭月以羊彘特。太一祝宰则衣紫及绣。五帝各如其色,日赤,月白。

    要理解甘泉泰畤的天神结构,首先必须理解此前一年汉武帝所建的汾阴后土祠。《史记·封禅书》记载:“其明年冬,天子郊雍,议曰:‘今上帝朕亲郊,而后土无祀,则礼不答也。’有司与太史公、祠官宽舒议:‘天地牲角茧栗。今陛下亲祠后土,后土宜于泽中圜丘为五坛,坛一黄犊太牢具,已祠尽瘗,而从祠衣上黄。’于是天子遂东,始立后土祠汾阴脽丘,如宽舒等议。上亲望拜,如上帝礼。”这是汉武帝做出的一项重大的祭祀改革,其内容是在异于祭天之所,专门设坛祭地。在经典体系中,天子所祭的是“天地”,天地一同祭祀,表明天子代表天下人报答天地之功。汾阴后土祠的建立,使天地之祭成为一个共同的体系,而这时与汾阴脽丘祭地相对的,是雍五畤所祭的五帝,因此,天地之神是五帝与后土。在汉武帝的意识中,五帝与后土构成了天地祭祀。但是,甘泉泰畤建立之后,以“太一五帝”天神结构代替了雍五畤,成为天地之祭的中心,天地之神变作太一与后土。司马迁议汉武帝建立天地之祭云:“今天子所兴祠,太一、后土,三年亲郊祠。”后来班固在《汉书·礼乐志》中回顾汉武帝所立天地之祀时也说:“至武帝定郊祀之礼,祠太一于甘泉,就乾位也;祭后土于汾阴,泽中方丘也。”可见无论是汉武帝时期,还是到了西汉末年,甘泉泰畴都是祭天,而且这个“天”,是与地相对之天,所祭之神是太一。甘泉泰畴与汾阴后土祠,共同构成了天地之祭。

    司马迁、王莽之说特别强调甘泉泰畤,是因为谬忌太一坛只祭祀太一,而甘泉泰畤则建立了一个“太一五帝”的天神结构,表现了当时对天的理解,这种理解与汉高祖时期完全不同。“天神贵者太一,太一佐曰五帝”,具体到祭坛形制,是太一坛在上,“五帝坛环居其下”,这样,五帝成为太一的辅佐。这种把“太一”放到“五帝”之上所形成的天神结构,在汉武帝时期的出现,固然不合经义,但有其理据。

    由司马迁《史记·封禅书》与班固《汉书·郊祀志》可见,从谬忌太一坛到甘泉泰畤建立这段时间,也是汉武帝相信方士之言,极其企羡黄帝,追求不死成仙之时。因此,甘泉泰畤的建立,也经常被理解为汉武帝追求成仙的行为。在《史记·封禅书》《汉书·郊祀志》的记载中,建立甘泉泰畤之前,齐人公孙卿因得鼎,上奏效法黄帝封禅泰山,乘龙登天。张书豪《西汉郊庙礼制与儒学》一书将公孙卿奏议与甘泉泰畤联系起来,认为汉武帝建立甘泉泰畤祭祀太一,是为了泰山封禅。由此,张著将甘泉泰畤的内容都理解为追求登天升仙。例如在太一坛的位置上,“特别建筑祠坛于甘泉,实是考虑到其处于西北天位的地理位置”;在太一坛的建筑构造上,“泰一祠坛的三陔构造,正是三层昆仑丘的真实呈现,且为太一天帝居处之所。……探究方士造作昆仑的用意,不仅是为了替太一天地设置祀位,主要的目的在于,建立起一个微型宇宙,提供武帝登迁天庭的阶梯”。

    但是,在《史记·封禅书》《汉书·郊祀志》中,并没有明确将甘泉泰畤描述为登天成仙的途径,张著所说有推论过勇之嫌。真正与汉武帝登天企图有关的,是泰山封禅仪式。公孙卿上宝鼎神策,并对汉武帝说,他的册书来自申公,申公曾说,“汉兴复当黄帝之时”,“汉之圣者在高祖之孙且曾孙也。宝鼎出而与神通,封禅。封禅七十二王,唯黄帝得上泰山封”,“汉主亦当上封,上封能仙登天矣”。这些说法,对汉武帝有巨大的吸引力。历经一番曲折之后,汉武帝登泰山封禅,司马迁记载其事云:“封泰山下东方,如郊祠太一之礼。封广丈二尺,高九尺,其下则有玉牒书,书秘。礼毕,天子独与侍中奉车子侯上泰山,亦有封。其事皆禁。明日,下阴道。丙辰,禅泰山下址东北肃然山,如祭后土礼。天子皆亲拜见,衣上黄而尽用乐焉。”泰山封禅之礼,其具体仪式已经不得而知,但在泰山东方如郊祀太一,在东北如祭后土,则意味着将天地纳入泰山封禅大典之中。

    甘泉泰畤的建立,意味着汉代天神体系中,在五帝之外有一个高于五帝的天神存在,并且形成了六位天神、以五配一的结构。天神的整合,本质上是政治神学的重新建构。汉武帝时期,君臣皆致力于寻求天下太平之道,追求历史上治法多端而所能成就的“一”,如汉武帝元朔六年(前123)六月诏云:“朕闻五帝不相复礼,三代不同法,所由殊路而建德一也。”在汉武帝对董仲舒的策问之二中提出了这样的问题:“盖闻虞舜之时,游于岩郎之上,垂拱无为,而天下太平。周文王至于日昃不暇食,而宇内亦治。夫帝王之道,岂不同条共贯与?何逸劳之殊也?”尧舜无为而文王有为,天下皆治,帝王之法不同,但其效果则相同。策问之三又云:“夫三王之教,所祖不同,而皆有失,或谓久而不易者道也,意岂异哉?”三王异教,但都造就了三代之治。上述诸文都表明,汉武帝已经看到过去的五帝三王法度、礼乐都不相同,但在不同历史时期都达到了完美的政治,那么,完美的政治便不是来源于五帝三王那些具体的礼乐法度,礼乐法度背后,有一个更为根本性的东西,那就是超越于五帝三王具体法度的“道”。欲达致完美的政治,便不在于学习哪一代圣王的法度,而在于学习历史上圣王法度背后的那个“道”。

    与此相同的是对天神的理解。汉高祖在秦祭祀白、青、黄、赤帝之祠的基础上,建立黑帝祠,命曰北畤,以成完整的雍五畤。在五天帝中,汉家只占一帝,由此也可以看出,五帝的背后必然还有一个更为根本的天神。不管五色帝对应的是五德循环之史,还是五方广袤之地,其背后都有超越于五的“一”统摄五者。正因如此,不同的方士所提到的天神中太一贵于五帝,才可能最终被汉武帝,乃至当时已经登上历史舞台的儒家衷心或勉强接受。

    三、匡衡的改革:“天—五帝”结构

    从汉初开始,祭天之礼的场所在雍五畤、甘泉泰畤等地,但经典所述,郊天礼本来应该在都城南郊。汉成帝时期匡衡主导的郊祀礼改革,开始以经学为基本价值改革郊祀礼,将郊祀地点转到南郊。这一时期对天神的理解,是淡化太一而建立起“天—五帝”的结构,并且使祭天的皇帝真正成为“天子”。

    自秦废封建而立郡县,建立起皇帝体制,“天子”之名虽然沿用,但基本成为虚文。汉承秦制,所建立的仍然是以皇帝为中心的郡县制。秦虽有雍四畤、泰山封禅,但都不能被作为天子祭天之礼。董仲舒《春秋繁露·郊语》云:“今郊事天之义,此圣人故,故古之圣王,文章之最重者也,前世王莫不从重,粟精奉之,以事上天,至于秦而独阙然废之,一何不率由旧章之大甚也。”并非所有的皇帝祭拜天神的仪式,都是在行天子祭天之礼。

    “天子祭天”意味着天子乃天之子,并以天之子的身份,行以子事父之礼以事天,由此而涉及对“天”的信念,对天子身份的认同,涉及郊祀礼的形制、方位、配享等等问题。在经典中,只有天子才能够祭天地,而且是代表天下以报天地。《公羊传·僖公三十一年》:“天子祭天,诸侯祭土。天子有方望之事,无所不通。诸侯山川有不在其封内者,则不祭也。”《礼记·曲礼下》:“天子祭天地,祭四方,祭山川,祭五祀,岁遍。诸侯方祀,祭山川,祭五祀,岁遍。大夫祭五祀,岁遍。士祭其先。”《礼记·王制》:“天子祭天地,诸侯祭社稷,大夫祭五祀。”《礼记·礼运》:“天子祭天地,诸侯祭社稷。”“故先王患礼之不达于下也,故祭帝于郊,所以定天位也;祀社于国,所以列地利也;祖庙,所以本仁也;山川,所以傧鬼神也;五祀,所以本事也。”天子祭祀天地,对应的是诸侯、卿大夫、士各祭其所宜。但在皇帝体制中,“皇帝”之称,本来便由于武力与功业,而非出自德性与神圣,事实上与“天子”无关。因此,汉代的郊祀礼改革,实质上是将天子纳入皇帝体制之中,使天子成为皇帝的“礼”身份,也就是使皇帝通过郊天礼,真正“成为”天子。这就是匡衡议郊祀的真正意义所在。

    匡衡议郊祀,主要针对的不是郊祀祭天的形制、天神,而是地点。《汉书·郊祀志》载,成帝即位之初,匡衡等上奏云:

    帝王之事莫大乎承天之序,承天之序莫重于郊祀,故圣王尽心极虑以建其制。祭天于南郊,就阳之义也;瘗地于北郊,即阴之象也。天之于天子也,因其所都而各飨焉。……昔者周文武郊于丰镐,成王郊于雒邑。由此观之,天随王者所居而飨之,可见也。甘泉泰畤、河东后土之祠宜可徙置长安,合于古帝王。

    按照匡衡的建议,是将甘泉太一坛、河东后土祠迁至长安南北郊。长安南郊的郊祀礼形制,仍然是太一与五帝并祭,汉高祖配享。建定南北郊之后,匡衡上疏又云:“甘泉泰畤紫坛,八觚宣通象八方。五帝坛周环其下,又有群神之坛。”又云:“今既稽古,建定天地之大礼,郊见上帝,青、赤、白、黄、黑五方之帝皆毕陈,各有位馔,祭祀备具。”可见南郊祭天的形制,是太一居中居高,青、赤、白、黄、黑五方之帝环居其下,并有群神之祭,又有汉高祖配享。

    匡衡议郊祀之所以是一个汉代郊天礼改革中的重大问题,主要是因为南郊祭天,使汉家真正确立了“承天之序”的价值。所谓“承天之序”,一是把祭天地点转移到国都南郊,一是罢祀南郊以外的所有祭天之礼。

    自汉高祖至汉武帝的祭天礼,包括雍五畤、渭阳五帝庙、薄忌太一坛、甘泉太一坛,都是因循旧俗、信从方士而建立,而要将祭天礼转移到南郊,意味着罢祀其他所有祭坛。匡衡所在的汉成帝时期,五经博士传经,中央与地方的学校建立,公卿大夫多出身儒门,因此,据经立制,成为政治制度改革的基本方向。

    郊天礼只能在南郊进行,因为南郊是天地中心,即天子所居之京城的阳位。《礼记·郊特牲》云:“郊之祭也,迎长日之至也,大报天而主日也。兆于南郊,就阳位也。扫地而祭,于其质也。器用陶匏,以象天地之性也。于郊,故谓之郊。”郊天必“兆于南郊”,这是就阳位之义。汉文帝十四年(前166)有司奏曰:“古者天子夏亲郊祀上帝于郊,故曰郊。”这一解释比较简单,认为祭天在郊,所以称为郊祀。不过,二说皆以祭天的方位在郊,故称郊祀。

    匡衡所提供的理据,是帝王要“承天之序”。事实上,郊祀礼最根本的意义,不是帝王施行一套礼制以宣告自身的政治合法性,而是确立天子作为天之子的意义,简言之,郊祀礼作为国家宗教的核心,不只是政治哲学问题,也是政治神学问题。匡衡议郊祀,核心关切是要使汉家政治能够“承天之序”,“承天之序”则意味着确立天子、都城在天地之间的地位,郊祀礼正是确立天子在天地之间的地位的典型礼制。早在董仲舒那里,就已是从这一角度理解天子祭天的意义。董仲舒不断强调天子是实质上的天之子。《春秋繁露·郊语》云:“圣人正名,名不虚生。天子者,则天之子也。以身度天,独何为不欲其子之有子礼也?”《春秋繁露·郊祭》又云:“天子号天之子也。奈何受为天子之号,而无天子之礼?天子不可不祭天也,无异人之不可以不食父。为人子而不事父者,天下莫能以为可。今为天之子而不事天,何以异是?”“天子”之号,便是天之子,正如子必须事父,天子也必须事天,而天子事天的表现方式就是祭天,即郊天礼。甚至天子在服丧期间,也不能废祭天之礼。《春秋繁露·郊祭》云:“《春秋》之义,国有大丧者,止宗庙之祭,而不止郊祭,不敢以父母之丧,废事天地之礼也。父母之丧,至哀痛悲苦也,尚不敢废郊也,孰足以废郊者?故其在礼,亦曰:‘丧者不祭,唯祭天为越丧而行事。’夫古之畏敬天而重天郊,如此甚也。”天子有双重身份,一是作为天的儿子,二是作为父母的儿子。作为父母之子,为父母服三年之丧是基本的人伦道德,而且父之服重于宗庙中的先祖,所以可以止宗庙之祭,但作为天之子,即便遭遇父母之丧,也要释服而祭天。

    只有理解了“帝王之事莫大乎承天之序”,才能理解匡衡的郊祀改革对汉代政治的重大意义。郊祀礼的改革,是为了使代表汉家的“皇帝”,真正成为代表天治理天下百物的“天子”。“承天之序”的第一层含义,是“天随王者所居而飨之”。汉高祖祭祀雍五畤之五色天帝,表明皇帝必须祭祀“所有”的天帝,以对应一统的天下。汉武帝祭祀甘泉泰畤与汾阴后土庙,表明皇帝必须祭祀“太一五帝”构成的天神与地神后土,以彰显皇帝的资格,但这都并未将皇帝与天真正对应起来;将皇帝与天真正对应起来,是皇帝成为“天子”。天子祭天,如子之祭父祖。也就是说,不必通过技术测量把都城建立在天下的最中心,也不必因循旧俗奔走于以往天神来飨之坛庙,天子所居即天下中心,即有天神来飨。就像人子为父祖立宗庙,不必在父祖生前所居之所,而应立在己之宫室。

    “承天之序”的第二层含义,是定天地之位。匡衡所建议的“瘗地于北郊,即阴之象也”,把河东后土祠的祭地,转化为长安北郊的祭地,以都城为中心建立天地之祭,确定了都城作为天下中心的地位。祭地之法,经典中多言“郊社”,以南郊为祭天,则社祭为祭地,但匡衡之所以认为祭地是北郊而不是社祭,唯一的文献依据是《礼记·祭法》:“燔柴于泰坛,祭天也。瘗埋于泰折,祭地也。用骍犊。”匡衡之后,紧接着右将军王商、博士师丹、议郎翟方进等五十人也上书言南北郊之祭云:“《礼记》曰:‘燔柴于太坛,祭天也;瘗薶于大折,祭地也。’兆于南郊,所以定天位也。祭地于大折,在北郊,就阴位也。郊处各在圣王所都之南北。”北郊祭地之礼由此得以建立。

    而且在成帝南郊之后,匡衡又建议,罢去包括雍五畤、渭阳五帝庙、薄忌太一坛、甘泉泰畤在内的几乎所有天帝祭祀,真正实现经书中屡称的“天子祭天”。匡衡改制的意义,不在于对天神有另一套理解方式,而在于通过建立长安城南北郊祭祀天地,确立了汉家政治“承天之序”的意义。

    在匡衡的郊祀改革中,并没有改变武帝以来甘泉泰畤以一配五的天神结构,但是,当时的经师包括匡衡在内,大多用“天”“上帝”而不直接用“太一”。事实上,在天神秩序中,天是客观的对象,天之神即至高无上的上帝,上帝之名号可以是太一,也可以是昊天上帝、皇天大帝、紫微大帝等等。如果根据文献中所论之天神而言,《诗经》本有“昊天上帝”,《尚书》本有“皇天上帝”,《周官》流行,有对言“昊天上帝”与“五帝”,《礼记·月令》流行,复有“皇天上帝”。哀平之际,纬候大行于天下,更有天皇大帝、北辰耀魄宝诸天神之号,等同于“太一”。在郊祀礼中,天之神的具体名号,远不如天神的构成结构重要。而且匡衡之后,“太一”之名逐渐淡化,而称“天”,称其神为“上帝”,慢慢成为主流。与匡衡同时的刘向在《五经通义》中便说:“天神之大者曰昊天上帝,其佐曰五帝。”刘向所说的“昊天上帝”,正同于“太一”。平帝元始五年王莽上疏便云:“今称天神曰皇天上帝泰一,兆曰泰畤。”王莽所称天神为“皇天上帝”“泰一”,其地为“泰畤”,便是将经书中的“上帝”与武帝以来的“泰一”结合到一起。在这一过程中,郊祀礼的对象逐渐转化成经书所称的“天”“上帝”,而不称具体的天神之名。“太一”作为天之神名的淡化与消失,实质上是经学被普遍接受之后,对“天”的理解逐渐从方士的不经之说转为孔子的理性立法的过程。

    匡衡定南北郊,是西汉经师依经立制,确定汉世祭天大典的核心事件。在此之前,祭天大典多从秦俗、方士之言,自此之后,祭天子都城南郊,天神为“天—五帝”结构,祭坛形制以一配五,祭天有乐,都开始进入汉代政治之中,汉代之后的郊祀礼,仍然围绕着这些问题展开。

    在匡衡定南北郊之后,天地之祭历经兴废,比较典型的是元始仪和东汉时期汉章帝郊祀、明堂礼。匡衡之后,如《汉书·郊祀志》所云:“三十余年间,天地之祠五徙焉。”汉平帝元始五年,再次实行郊祀礼的大变革,主导者是王莽。王莽根据经义,改革南郊、明堂制度。在郊祀礼上,王莽奏复匡衡所定的长安南北郊之祭,同时却又合北郊祭地于南郊,以高皇后配。在明堂礼上,汉武帝曾立泰山明堂,但真正的明堂礼的经学自觉,体现在汉平帝元始四年(4)王莽主导下设定的明堂礼与郊祀祭天所合成的祭礼结构:“四年春正月,郊祀高祖以配天,宗祀孝文以配上帝。”这是以《孝经·圣治章》“周公郊祀后稷以配天,宗祀文王于明堂以配上帝”为标准所设定的祭祀结构,主要是南郊以太祖配天,明堂以太宗配上帝。郊祀礼与明堂礼结合,正是来自《孝经》的经义。

    到了东汉,光武中兴之初即行郊天之礼,其基本依据就是元始四年的郊礼。《后汉书·祭祀志》载:“建武元年,光武即位于鄗,为坛营于鄗之阳。祭告天地,采用元始中郊祭故事。”但真正举行郊祀礼是在次年于东都洛阳营建南郊,其制云:

    二年正月,初制郊兆于雒阳城南七里,依鄗,采元始中故事。为圆坛八陛,中又为重坛,天地位其上,皆南乡,西上。其外坛上为五帝位。青帝位在甲寅之地,赤帝位在丙巳之地,黄帝位在丁未之地,白帝位在庚申之地,黑帝位在壬亥之地。

    这种郊天礼制奠定了东汉郊祀的基本格局,是《孝经》的各种要素落实在制度中的表现。首先,郊天的时间在汉之正月。其次,郊天的地点在洛阳城南郊。再次,数年之后,“乃增广郊祀,高帝配食,位在中坛上,西面北上”,即以汉家的感生帝汉高祖配享。

    祭坛的形制,表现了当时对“天”的理解。中间圆坛有天神之位,外坛是五帝之位,基本沿袭了汉武帝时期的祭坛形制。此时的祭天已经不言“太一”。事实上,在经典中,天、帝,都指天神,并无专名,如《孝经·圣治章》“周公郊祀后稷以配天,宗祀文王于明堂以配上帝”,上帝也是天之别名。这里的五帝仍然是五色帝,五色帝居在五个方位,既表明五土之色,在此基础上也可以发展出空间上的五方、时间上的五德。

    除了确定郊祀,光武帝又定明堂之祭。光武帝中元元年(56),即光武临终前一年,同时建明堂、灵台、辟雍。明堂之制,《礼图》云:“建武三十一年,作明堂,上员下方。十二堂法日辰。九室法九州。室八窗,八九七十二,法一时之王。室有十二户,法阴阳之数。”光武帝去世之后,明帝即位,即位两年后的永平二年(59)春正月,明堂配享才确定下来,《后汉书·祭祀志》云:“明帝即位,永平二年正月辛未,初祀五帝于明堂,光武帝配。五帝坐位堂上,各处其方。黄帝在未,皆如南郊之位。光武帝位在青帝之南少退,西面。牲各一犊,奏乐如南郊。”与郊祀的坛制不同,明堂更像是一个天地的模型,上圆下方,法天圆地方,而其堂室窗户皆法时辰、地理、历史上的王者、阴阳之数。汉明帝的改革,主要是南郊以感生帝配天,明堂以受命王配上帝。

    在汉代政治中,对天、天神的认识,因郊天礼而确立。其中有两个问题最为关键:一是从汉武帝到光武帝的祭坛形制,都是“天”与“五帝”相结合的结构,只不过汉武帝的天神是太一,光武帝泛言天,而五帝则无异;二是从匡衡到王莽到光武帝的郊天礼场所在国都南郊,体现了“天随王者所居而飨之”的意义。

    四、天神与政治的公共性

    在汉代的国家宗教中,人们对“天”的理解,核心是“天—五帝”结构。在汉代经学中,五经博士所传经书,只有历史上的“五帝”,并没有作为天帝的“五帝”,要等到《周官》出现,才出现作为天帝的“五帝”。郑玄注经以《周官》为本,使“天—五帝”结构在郑氏家法中被继承,并以此为基础建立了圆丘祭昊天上帝,南郊祭五帝中的感生帝,明堂泛祭五帝的新结构。正因为汉代政治奠定了中国传统文明的根基,郑玄经学中郊祀礼、明堂礼对汉以后的政治有长远且深入的影响,对这一结构的探讨,有助于更为深入地理解中国文明的基本特征。

    “天—五帝”结构的基本特点,是唯一天主“道”,五色帝主“德”,这一结构为中国政治的公共性提供了最为根本的依据。

    唯一天主“道”,使“天”为政治提供了永恒不变的价值。汉代初年,不管是雍五畤,还是渭阳五帝庙所祀之天帝,都是五色帝。在汉初的祭天中,“五色帝”究竟是指五行还是空间上的五方上帝,抑或循环时间中的五德之运,无论是汉高祖还是汉武帝,都没有明确的依据,但汉武帝之时流行的是五德终始之说,如果把五色帝与五德终始联系起来,则每一色之帝事实上只是一朝之天;如果“天”只是一朝一代之天,那么,五色帝便只能是“天”运转的结果,而不是“天”本身。事实上,这正是武帝一朝所面对的根本性问题。汉武帝给董仲舒的第三策,问天人之应,董仲舒对策中陈述“改制”与“变道”的关系,认为夏尚忠,殷尚敬,周尚文,但这是改制,不是变道。董子有云:“道之大原出于天,天不变,道亦不变。”历史与万物,圣王与法度,都在不断变化之中,唯有“天”是永恒不易的,道亦因之。这一不变之天,其天帝(即天神)不可能是五色帝中的一色之帝,因此在五色帝之上,必然需要有一个统率五色帝的天神。正因如此,亳人谬忌所奏之“太一”,提供了一个统率五色帝的至上神,也最终成为超越五色帝之“天”。自武帝立坛经匡衡定南郊、王莽定郊仪,这种理路一直被接受下来。

    如果说汉高祖立黑帝祠,使“天有五帝”得以齐整,对应着开始一统的天下,那么汉武帝祀一个超越五帝的天神,则是为大一统的天下提供一个更为复杂的根基,即以唯一的天神统率五帝。这一天神,汉武帝时期称“太一”,匡衡时期可以直接称“天”,王莽时期可以称“皇天上帝”,郑玄经学可以据《周官》称“昊天上帝”。天永恒不变,五帝轮番运转,共同构成天的“神”。在这一意义上,不管是称“天”还是“太一”或是“昊天上帝”,都是至高神,代表着永恒不变;由此“天”而来的道,也是永恒不变的。

    而且,南郊祭祀“天”神,由本朝始祖配享。汉平帝元始四年,由王莽主导的元始郊天礼便根据《孝经》,以汉高祖配天。高祖配享,意味着以汉家的始祖,去接引太一与五帝之神。事实上,始祖配享之义,最为典型地表现了汉家的政治合法性建构。天神是公共的,但有资格祭天的只有天子,有资格接引天神的只有本朝的第一位天子,因此高祖配享昭示着汉家是受天命而建立起来的政权。如果郊天礼祭祀之“天”只是太一或昊天上帝,那么汉代的国家宗教,很容易走向一神教。因为一个绝对、唯一、永恒的天神由本朝始祖配享,意味着本朝“天子”成为人世间绝对、唯一、永恒的代表。这样一来,汉家等同天家而又归于刘姓,由此所带来的政治理念的最高形态,必然是万世一系,天下永远成为一家一姓的天下。

    五色帝主“德”,决定性地改变了政治的基本形态,使一家一姓只能占据五德中的一德,由此,政治成为超越一家一姓统治的公共空间。在汉代,一直存在两套循环论,其一来自邹衍的五德终始说,另一则来自《春秋》的三统论。五德终始以金、木、水、火、土五行为基础,一朝代表一色进行循环。三统论在“三正”的基础上,强调以建寅、建丑、建子为正,分别代表三正的赤、黑、白三统进行循环。在汉代政治中,三统论仅与历法密切相关,而五德说则成为汉代政治的主要问题之一。

    从五色帝中寻找刘家得天下之正统性定位的努力,自汉初便已开始。汉高祖建北畤祭祀黑帝,《史记·历书》云:“汉兴,高祖曰‘北畤待我而起’,亦自以为获水德之瑞。虽明习历及张苍等,咸以为然。”此为汉得水德之说。到了汉文帝时期,鲁人公孙臣则认为汉得土德。《史记·封禅书》载其事云:“鲁人公孙臣上书曰:‘始秦得水德,今汉受之,推终始传,则汉当土德,土德之应黄龙见。宜改正朔,易服色,色上黄。’是时丞相张苍好律历,以为汉乃水德之始,故河决金隄,其符也。年始冬十月,色外黑内赤,与德相应。如公孙臣言,非也。罢之。”但是到了文帝十五年(前165),黄龙果然现于成纪,文帝乃立公孙臣为博士,命他制作土德的历法、制度。及至刘歆作《三统历》,备列伏羲以来德运,至汉为火德,《汉书·律历志》云:“汉高祖皇帝,著纪,伐秦继周。木生火,故为火德。天下号曰汉。”汉德数迁,服色屡变,但背后有一个基本观念框架没有改变,那就是汉德只是五德中之一德。

    无论汉德是水、土,还是火,对应的天帝都是五色帝。五行相生相克,一色帝既克上一色,必然要生下一色。同样,汉家灭暴秦而受命得天下,必然要被下一家受命所取代。“天—五帝”结构从根本上塑造了对政治的定义,政治意味着存在一个公共空间,天下是天下人的天下,一人或一家可以受天命而进入这一政治空间,爵称天子,王天下。一人如尧、舜,一家如周、汉,但这并不意味着一人、一家占有天下,只是意味着一人、一家暂时成为天的代理人,治理天下。在这样的理解中,刘氏得天下,有天下之大号不能定为“刘”,因为刘只是私家之指称,以刘氏而定号为“汉”,则是有天下之公名。而且,汉家天下在家国关系上不是以一家代一国,而是以一家有盛德而受天命,暂治一国。

    不论是汉代政治,还是今文家说,都不认为一家一姓能够彻底合于“天”而做到万世一系,即便是天帝感生之子,最终以盛德受天命、王天下,也有德衰而失天下的时候。简言之,一人、一家之治天下,从未被认为其可以永远占有天下。正因如此,汉代的太平、受命,一直是汉代政治哲学的核心问题,汉家天子不敢以为圣帝,天变则罪己的现象,一直出现在汉代政治运作机制之中。

    概而言之,汉代国家宗教中对天神的理解,最终定型为“天—五帝”结构。“天—五帝”的天学结构,使汉代对天的祭祀超越了一朝一代,一方面把汉家纳入一个永恒序列之中,一方面承认汉家只是一时受命而非永恒受命。在接受经学理论,按照经学的“天—五帝”结构建立起南郊、明堂之礼之后,天学成为整个经学理论,同时也是每一朝政治理论的最高范畴。这一结构为中国传统政治哲学中的诸多基本理念,提供了天学支撑。

    转自《文史哲》2026年第1期

  • 陈伟:秦洞庭、苍梧二郡创设新证

    秦代有洞庭、苍梧二郡,是出土简牍激活的历史记忆。这两个郡大致相当于史籍中的黔中郡和长沙郡。秦人在当地置郡,史有明载。但郡名如此,则似乎汉代以来,无人得知,因而被视为“一项颠覆性的发现”。里耶秦简出土后,随着资料陆续刊布,这两处秦郡的境域和存续时间等问题,渐次明朗。新近出版的《里耶秦简〔叁〕》中的两件木牍(7-1、7-12),则显示二郡的创立时间可能并不相同,苍梧郡、至少其郡治长沙及其以北区域,大概是从先行设置的洞庭郡划分出去的。如果这一推测大致不误,则不仅可以窥见这二郡设立的具体进程,还可揭示秦郡创建时的复杂情形,让我们得以了解秦人设郡的另外一种模式。

    以下先简要梳理秦洞庭、苍梧二郡的研究历程,再逐一探讨这两枚里耶秦木牍的含义。

    洞庭、苍梧二郡资料发表与探讨

    里耶秦简在2002年5-6月间出土。不久后,整理者就依据初步释读的资料指出,秦朝已设置迁陵、沅陵、酉阳等县,属于“刚刚浮出水面的洞庭郡”。2003年初,整理者发表部分简牍的图版和释读成果,指出洞庭郡、苍梧郡从未见诸文献记载,可补史籍之缺。并一一说明简牍中出现的酉阳属于洞庭郡,迁陵、益阳、临沅、零阳、孱陵、索等县在《汉志·地理志》中属于武陵郡,似有疑属秦洞庭郡的意味。对于最先辨认的洞庭郡,或以为是秦三十六郡之外新发现的一个郡。整理者也称洞庭、苍梧二郡的发现,“说明秦始皇统一中国后郡的设置较历史记载要广泛得多”。这些表述,倾向于把洞庭、苍梧放在传统的秦郡认知范围之外来看待。

    与此相对,我们基于当时公布的资料,尝试推定二郡的大致所在,提出另一种理解:洞庭郡,由其属县有迁陵(县治即秦简所出的里耶古城)以及郡名洞庭来看,其郡域大概与通常所说的秦黔中郡相当。苍梧郡,从江陵张家山247号墓出土汉简《奏谳书》所录秦代案卷《南郡卒史盖庐、挚、朔,叚(假)卒史瞗复攸㢑等狱簿》显示攸为苍梧郡属县和郡名苍梧这两点推断,大致相当传统认识中的长沙郡。

    据《南郡卒史盖庐、挚、朔,叚(假)卒史瞗复攸㢑等狱簿》记载,约在秦始皇二十六年或二十七年年初[1],利乡发生反叛,攸县官员三度发兵平定而最终击破。㢑就任攸县县令后,在等待“南郡来复治”的期间,上书请求裁减对前两次败北者的惩处,因而致罪。㢑就任时,苍梧守灶、尉徒“教谓”㢑重视此事。狱史氏则对㢑说:“苍梧县反者,御史恒令南郡复。”整理者注释说:“苍梧,县名,应属南郡。守灶,守令灶之省。”其实,这里的苍梧乃是郡名。苍梧守即苍梧郡守,尉即苍梧郡尉。“苍梧县”则是指苍梧郡属县。《奏谳书》所记另一件秦代案卷《女子甲与男子丙和奸》中说“输巴县盐”,“巴县”指巴郡属县,属于同一类表述,可相比照[2]。㢑就任攸县令时苍梧郡守、尉对他“教谓”,狱史氏与㢑对话时用“苍梧县”针对攸县,均表明攸县属于苍梧郡。

    至于南郡吏到苍梧郡属县复狱,则应与当时的制度有关。《二年律令·具律》:“气(乞)鞫者各辞在所县道,县道官令、长、丞谨听,书其气(乞)鞫,上狱属所二千石官,二千石官令都吏覆之。都吏所覆治,廷及郡各移旁近郡,御史、丞相所覆治移廷。”秦代大概已实行类似制度。南郡卒史到攸县,并非彼此有行政上的隶属关系,而是因为南郡与攸县所在的苍梧郡毗邻,按复狱制度、受御史委派而跨郡办案。里耶秦简8-135记“狼有逮在覆狱巴卒史衰、义所”,大概是巴郡卒史到洞庭郡复狱,也是属于旁近郡的关系。

    秦苍梧郡以“苍梧”命名,湘水上游今湖南南部的古苍梧一带,大概应在其境域。秦汉攸县故城则在今湖南攸县东。基于这两处定位,并考虑到苍梧与南郡毗邻,简牍所见的苍梧郡大致应与史籍所载的长沙郡相当。

    周振鹤先生认同这一判断。他根据出土资料与传世文献,推测原定的秦长沙、黔中二郡实际上并不存在,应以苍梧、洞庭两郡代之,并适当调整郡界,维持《中国历史地图集》考定的秦郡基本格局。

    里耶秦简主要是洞庭郡所辖迁陵县的文书,对洞庭郡以及郡内其他属县的记载比较多。《里耶秦简》第一、二卷刊布后,《汉书·地理志》所载武陵郡十三县,除佷山外,均已见于记载。其中索、临沅、沅陵、镡成、迁陵、酉阳、零阳、充八县,可确定属于洞庭郡。就大势而言,洞庭郡相当于史载中的汉武陵以及秦黔中郡,应无疑义。从里耶秦简8-1450、9-1125和9-1547的内容看,洞庭郡的设立应在秦始皇二十五年二月或略早,一直存续至秦末。

    苍梧郡在里耶秦简中涉及甚少,其境域存在不同意见。何介钧先生把秦苍梧郡看作汉苍梧郡前身,认为在南岭以南。郭永秉、广濑薰雄二氏也认为西汉苍梧郡位于岭南,长沙郡称“苍梧郡”很难解释。2017年刊布的一条岳麓书院藏秦简记云:“廿六年四月己卯丞相臣状、臣绾受制湘山上:自吾以天下已并,亲抚海内,南至苍梧,凌涉洞庭之水,登湘山、屏山,其树木野美,望骆翠山以南树木□见亦美,其皆禁勿伐。臣状、臣绾请:其禁树木尽如禁苑树木,而令苍梧谨明为骆翠山以南所封刊。”[3]体味简文,秦君臣在湘山远看的南方诸山,以及他们“凌涉洞庭之水”前途经的洞庭湖东岸一带,应该都属于苍梧郡境。这为苍梧郡相当于史籍所载长沙郡的观点增加了新的证据。

    里耶秦简7-1与7-12,文书的形成时间相近,并且都罕见地同时记载长沙、洞庭两个地名,为探讨长江中游以南秦郡的创设提供了新的珍贵资料。

    张春龙先生曾在2019年的一次会议上首次介绍这两篇木牍,并解释说:“长沙,秦县名。战国楚国已设县,包山简有‘长沙公’。据里耶秦简,今湖南省境,秦有洞庭、苍梧郡,苍梧郡辖县未见有‘临湘’县的简文,可能秦设有长沙县而无临湘县,‘长沙布三道……’因苍梧郡郡治在长沙,郡衙发布公文时以‘长沙’代称‘苍梧郡’。”[4]

    大致循同一思路,赵堉燊先生认为“长沙布三道”与“新武陵布四道”相对照,郡治是文书分道传送的起点,长沙县当是苍梧郡治;并推测汉初将原长沙县改名为临湘县,秦长沙县治应即在今长沙市芙蓉区五一广场及其周边的汉代古城(通称“临湘故城”)。

    这些认识,与我们考定的苍梧郡所在基本一致。然而,这两件木牍显示的历史背景以及反映的郡县关系,可能更为复杂。

    苍梧设郡之前的大洞庭郡状态

    我们先看里耶秦简7-1。这是一份保存比较好的长篇木牍,涉及秦军在长江中游以南开拓疆域的军事行动。释文如下:

    廿五年二月戊午朔辛未,洞庭叚(假)守灶敢言之:洞庭县食皆少。略地军节(即)归,谒令南郡军大(太)守以洞Ⅰ庭吏卒数、军吏卒后备敬(警)者数令治粟大府输食,各足以卒岁便,谒报。敢言之。/二〈三〉月癸丑,Ⅱ丞相启移南郡军叚(假)守主:略地固当辄输,令足灶岁,唯勿乏。传书洞庭守。/显手。/五月癸巳,Ⅲ南郡军叚(假)守殷敢告洞庭主谓:南郡治粟大府前日固已以县吏卒用食数告大府输。Ⅳ(7-1)

    亭次行,署急勿留。长沙言书到、起。以洞庭邦尉印行吏(事)。恒署。Ⅰ

    十一月壬寅,迁陵守丞睪敢告尉,告仓、启陵、贰春乡主:听书。尉薄(簿)卒,乡各薄(簿)吏、备敬(警)卒、Ⅱ徒隶食足不足数,善薄(簿)上,皆会戊申旦廷,唯勿留。尉下仓,仓传二乡。/丞手。Ⅲ

    十一月壬寅水下九刻,秭归奴桥士五(伍)襄以来。/夫半。/即令□□行尉。Ⅳ(7-1背)

    这件木牍,从书写风格和文本结构看,应非一篇首尾完整的文书,而是同时对多件文书所作的摘录。其正面包含有三份文书,即(1)洞庭假守灶的上行文书;(2)丞相启致南郡的文书;(3)南郡军假守殷致洞庭郡的文书。背面包含两份文书,即(4)第一列(“亭次”至“恒署”)所书,应是洞庭郡对文书传递的要求(“到起”以上)以及文书封署上钤印和文书缓急等级的说明(“以洞”以下)[5];(5)第2-4列,则是迁陵县关于文书传达的安排和收发记录。其中(1)-(3)缺少文书移送和开启记录(某“半”),(1)(3)缺少文书书写人签署(某“手”),这些在完整文书中不可缺少的因素,应该是在摘录时被省略。(3)(4)的发文者,分别是南郡军假守殷和“以洞庭邦尉印行事”的洞庭郡官员,因而不会是同一件文书。其中(4)缺少文书的主体内容,如果不是在摘录时被遗漏,则可能是把主体部分录写在另一件木牍之上。在这种情形下,7-1的正、背面就应该反过来看。即书写(4)的主体内容的另一木牍在前,7-1录有(4)(5)的一面紧接其后,是这件木牍的正面;录有(1)-(3)的那面又在其次,是这件木牍的背面。

    在内容方面,(1)-(3)关联密切。洞庭假守灶通过(1)向中央报告“洞庭县食皆少”,请求“令治粟大府输食”,从而引发后续的文书往来。(2)是对(1)的处置,丞相启将洞庭郡来件转发给南郡军假守,指示其满足洞庭郡方面的要求,并通报洞庭郡守。(3)是对(2)的执行,南郡军假守殷致书洞庭郡长官,告知已将需要的粮食数量提供给大府安排输送。(4)(5)书写上前后衔接,分别是讲文书在郡内各县和县内各部门的传递,显然彼此关系紧密。(4)缺少的文书主体部分,由(5)的内容反推,当是要求各县统计、提交各类人员的“食足不足数”。如然,(4)(5)与(1)-(3)内容有关,但时间上却应靠前。由于(1)请求“令南郡军太守以洞庭吏卒数、军吏卒后备警者数令治粟大府输食”,(3)说明“南郡治粟大府前日固已以县吏卒用食数告大府输”,需要“输食”的人数,应当在二十五年二月辛未洞庭假守灶提交报告、至迟在五月癸巳南郡军假守殷致书洞庭之前,洞庭郡即已完成统计并提供了需要“输食”的人数,而不会迟至次年十一月才开始安排统计。这与上文对摘录文书顺序的分析相呼应。

    还可印证这一推断的是,在文书(1)中洞庭假守灶指出“略地军即归”,文书(2)中丞相启强调“略地固当辄输”。略地军,这里是指在洞庭以远地区开拓疆土的秦军。从“即归”推测,这些秦军在洞庭以远行动的开始,必定是在(1)的呈报日期(二十五年二月辛未)之前的一段时间,从而与文书(4)(5)的推定时间(二十五年十一月)接近。

    文书(4)虽然缺少主体部分,只保留传递、钤印方面的说明,但非常值得重视。里耶秦简8-461规定:“郡邦尉为郡尉。”说明“邦尉”即后来的“郡尉”。以某某官印行事,表示地位较低的官员使用自己的官印代理地位较高的官员处理事务[6]。岳麓秦简关于郡官员代理的令文指出:“郡尉不存,以守行尉事;泰守不存,令尉为叚(假)守。”可见此处是洞庭郡尉在代理洞庭郡守发出公文。这与文书(5)中迁陵作为洞庭属县的响应直接关联。然而,其前说“长沙言书到、起”,要求长沙县报告收到文书和继续向下一站传递的情况,显示其时长沙应是洞庭属县,是这件文书向郡辖各县传递的第一站。即使忽略“以洞庭邦尉印行事”的文句,向洞庭郡“输食”的文书在长沙传递一事,也表明其地应当包含在这一行动当中。

    由此可以推测,在7-1中的文书(4)(5)形成的时候,苍梧郡尚未设立。其南部地域,大概还在由“略地军”攻取之中,长沙县则是由洞庭郡领辖,并且很可能是其郡治所在,为文书(4)发送的第一站,所以特别要求向郡府反馈文书收发的信息。

    苍梧郡从洞庭郡分置的推定

    里耶秦简7-12的背面是迁陵县接收文书的内容,兹略去不录。其正面释文如下:

    □□年十月戊□,洞庭叚(假)守武谓县丞:下真讂,听书从吏(事)。以书到时令毋害狱史、令〼Ⅰ□故,唯毋令苍等过、居其界中而不得。得弗得,各报离石。它如律令。长沙布三道〼Ⅱ书到,到相报,不报者追。下隽报孱陵书到。皆以门亭行。忠手。以长沙印行〼Ⅲ书从吏(事),以书到时令毋害狱史、令史分曹以智巧微谦(廉)求讂问者民归〼Ⅳ令。新武陵布四道,各以道次传,别书。都官军吏在县界中者,各传别书焉。□〼Ⅴ之,皆以门亭行。/悍手。·以新武陵印行吏(事)。Ⅵ(7-12)

    在木牍正面,大概先后书写两份文书。第一份从第一列起首开始,大约在第三列残断处再往下一字结束(“以长沙印行〖事〗”)。接着开始第二份文书,止于第六列末尾(“以新武陵印行事”)。看残存文字,两份文书的主体内容大致相同。在传递要求方面,前者“长沙布三道”是以长沙为中心,分三条路线传递;后者“新武陵布四道”则是以新武陵为中心,分四条路线传递。可见这是分别面向以长沙为中心和以新武陵为中心的两个区域。

    “新武陵布四道”,还见于9-1861,是二十六年二月洞庭假守高对属县下达的文书。类似表述“新武陵别四道”,还见于8-657、9-2283。二者均是洞庭守礼对属县提出的行书要求。9-2283时值二十七年二月庚寅。8-657纪年残缺,郑威先生从存留的“八月甲戌”等月份、日辰推测,认为只有秦始皇二十七年、二十八年符合条件。由于二十七年八月甲戌为朔日,而当时已刊的里耶简牍资料显示,记日文字必定标出朔日,牍文“八月甲戌”未标朔日,因而应属二十八年。不过检索《里耶秦简〔叁〕》刊布的资料,可见有一些例外。7-89+7-91、9-134所记“廿七年端月丁未”,13-892所记“廿七年十二月丁丑”,其实都是朔日而未曾标出[7]。因而,8-657属于二十七年抑或二十八年,尚难断言。用这些资料比照,7-12中后一指令的传达区域,当然也是洞庭郡。7-12背面的记录,更提供了直接证据。

    在将“长沙布三道”看作在苍梧郡内的行书规定方面,第一份文书中带有一条新证据,即“下隽报孱陵书到”。下隽,《汉书·地理志》属长沙。里耶秦简11-276记苍梧假守灶下令“下隽黔首毋得徙它县”,更直接表明当时下隽为苍梧属县。孱陵,学者多认为秦代属南郡。因而,7-12第一份文书中的这句话,应该是郡级政区通过属县下隽向孱陵代表的南郡反馈已收到文书。不过,直接把这份文书中的长沙看作苍梧郡治,却存在明显的问题。作为对指令发出者的交待,“洞庭假守武谓县丞”一句,写在第一份文书开头位置。就是说,以长沙为中心传达指令的区域,实际上是处于洞庭假守武的隶属之下。这与7-1提供的线索彼此呼应,加强了这一判断的证明力。

    在木牍现存部分,未能看到后一份文书的发布者。张春龙先生推测7-12下端残损约2厘米。如果两份文书主体部分相当,以存留文字比照,残损的部分恐怕更多,第一至第五列大概均残去约20字余字。在第三列残去的“事”字之下,原本应写有日期和发布者。看文书传递要求说“新武陵布四道,各以道次传”,以及文书钤印说明“以新武陵印行事”,这位发布者显然是洞庭郡的某位官吏,而不可能是在7-1和7-12中未曾出现的苍梧郡的官员。

    需要注意的是,7-1与7-12反映的行政地理格局也有差异,不能等同视之。前者中的长沙应该是洞庭郡属县,并且可能是其郡治所在。后者却呈现两个中心:以新武陵为中心的区域,乃是后来的洞庭郡;以长沙为中心的区域,则是后来的苍梧郡。联系7-1中“略地军即归”的记述,7-12所见的形势,极有可能是新一波攻取的地区开始纳入秦郡县体系,包括原洞庭郡以长沙为中心的地区以及新攻取地区的苍梧郡似乎正在形成当中,呼之欲出。

    7-12的纪年文字残损,有学者认为是在秦始皇二十六年。7-1显示秦始皇二十五年十一月长沙为苍梧属县,8-758记载秦始皇三十四年“苍梧为郡九岁”,由于前后年分卡定,这一说法应可采信。这样,苍梧郡的设置可定在二十六年十月或稍后。7-1、7-12这些将长沙记在洞庭之下的简牍,作为特殊时期的文献,此后不复出现。

    里耶秦简7-1、7-12蕴含的历史信息十分珍贵。如果以上分析大致不误,则秦经略长江中游以南地区有一个过程。大约在秦始皇二十五年十一月或稍早,即设立洞庭郡,可能以长沙为郡治。其后,继续向南用兵。约在次年十月或稍迟,将以长沙为中心的地区从洞庭郡分割出来,连同南方新开拓之地,设置苍梧郡。刘宋时人甄烈《湘州记》记称:“秦始皇二十五年并天下,分黔中以南之沙乡为长沙郡,以统湘川。”虽然为时较晚,但说得如此具体,似有所据。用洞庭、苍梧替代传统说法中的黔中、长沙名谓之后,甄烈所述与里耶秦简7-1、7-12揭橥的史事高度吻合。

    注释

    [1]秦以十月为岁首。案卷出现的第一个时间点是“御史书以廿七年二月壬辰到南郡守府”,从而引出复狱的记录。作为事件起因的利乡反叛,当在其前不是太短的时间。

    [2] 本文讨论的里耶秦简7-1称“洞庭县食皆少”,“洞庭县”指洞庭郡属县,亦可印证。

    [3]参见《岳麓书院藏秦简〔伍〕》第56-58号简,整理者注释疑二十六年的“六”或疑为“九”,也可能是“八”之误。陈松长主编:《岳麓书院藏秦简〔伍〕》,上海辞书出版社,2017年。

    [4]参见张春龙《里耶秦简7-1和7-11》,张先生和下引赵堉燊所称7-11,属于出土号,整理号为7-12。两个简号的对应关系,参见湖南省文物考古研究院《里耶秦简〔叁〕》。

    [5]或认为有关钤印的文字是文书启封后的记录,参看黄浩波:《秦代文书传递相关问题研究》,武汉大学博士学位论文,2020年6月。

    [6]“以某某印行事”的意思,参看陈韵青:《印、印制与用印:秦汉玺印研究述评》,《中国中古史研究》第十卷,中西书局,2023年。

    [7]各月朔日的直接证据是里耶秦简13-96所记:“廿七年十月戊寅朔大,十一月戊申朔小,十二月丁丑朔大,正月丁〖未朔〗”。参看《里耶秦简〔叁〕》。

    转自《武汉大学学报(哲学社会科学版)》2026年第1期

  • 陈春声:海澄与澄海——兼论明代后期的闽粤界邻地域

    明清之际福建、广东交界地区及其邻近海域的政治局势与社会变迁,具有产生全国性影响的重要意义。正如陈寅恪所言,“自飞黄、大木(飞黄为郑芝龙号,大木为郑成功号——引者注)父子之后,闽海东南之地,至今三百余年,虽累经人事之迁易,然实以一隅系全国之轻重。治史之君子,溯源追始,究世变之所由,不可不于此点注意及之也”。[1]笔者曾以当时在该地域从事海上活动人群的身份及籍贯为中心,从一个侧面说明这些具有重大影响的历史人物的社会角色和公共形象,是如何随着国家制度与地方社会的变迁,被型塑出来并发生变化的;而国家制度演变与地方社会治乱之间,又有明显的互动交融关系。[2]

    其时国家制度与地方社会互动关系频繁调整的一个突出表现,就是地方行政区划的重大变化。闽粤界邻地域将近一半的县份,都是在明代后期才设置的。地方行政区域的重新划分,固然反映了随着地方社会与经济的发展,政府控制的编户齐民在增加,地域社会有可能提供更多的行政运作资源,但在当时人看来,增设这么多县份的直接动机,主要还是在于应对地方上频繁发生的倭寇、海盗和山贼之乱。[3]万历十年至十三年(1582年至1585年)任潮州知府的郭子章,在任上所著《潮中杂记》中说:“澄海县,嘉靖间置,取海宇澄清之义也。故闽漳州之县,又曰海澄,皆此意也”。[4]澄海置县于嘉靖四十二年(1563年),海澄则在三年后建县,二县相隔不远,名称相若,创设年代接近,距郭子章到潮州履任不到二十年。《潮中杂记》将二者相提并论,将其置县原因均归结为朝廷期待“海宇澄清”的目的,说明当时人就已认为二县面临相近的社会问题,且有可以比较的内在逻辑脉络。

    本文试图比较海澄与澄海建县的过程及社会历史背景,结合对海澄置县与“隆庆开海”关系的分析,讨论明清之际“闽海东南之地”能“以一隅系全国之轻重”的若干缘由,探讨从地方社会和日常生活理解传统时期国家制度变化的一些方法问题。

    一、明代后期地方动荡的历史背景

    明朝实行严厉的“海禁”政策,但有明一代东南沿海民间的非法海上贸易活动始终未曾停止。而在大多数情况下,当时东南沿海地方官员和市舶太监出于稳定地方社会、增加军需供应和贪图贿赂等各种考虑,实际上也对这种状况采取了默许的态度。嘉靖皇帝即位之后,一度试图改变这种局面。嘉靖二年至嘉靖八年(1523年至1529年)一度停止广州市舶,嘉靖二十六年至嘉靖二十八年(1547年至1549年)间,提督浙闽海防军务的朱纨进剿宁波附近“下海通番”者聚集的双屿港,上疏揭发浙闽势家通倭谋利,又追击海上私商和葡萄牙人于闽粤界邻海域之走马溪,大获全胜。这一系列事件,正好发生于沿海地区商品货币关系空前发展,商人和地方势家力量增强,社会组织和社会权力结构正在“转型”的关键时期,从而加剧了该地域长达百年的“海盗”之患。正如嘉靖四十二年福建巡抚谭纶所奏:“今岂惟外夷,即本处鱼虾之利,与广东贩米之商,漳州白糖诸货,皆一切禁罢,则有无何所无通,衣食何所从出,如之何不相率而勾引为盗也?”[5]

    先看看月港周遭九龙江出海口一带的情况。朱纨在嘉靖二十七年(1548年)的奏疏《增设县治以安地方事》中这样描述这一带地方的情形:

    福建漳州府龙溪县月港地方,僻处海隅,遥通夷岛,生聚蕃盛,万有余家。以下海为生涯,以通番为常事,方且崛强负固,租赋不供,健讼构争,经年不决。若不预为之所虑,成化外之风。该巡海副使柯乔建议设县,盖欲立官师以寝奸宄之谋,敷治教以挽奇袤之俗。甚为有见。[6]

    而万历《漳州府志》更记载了大量本地人“遥通夷岛”,“以下海为生涯,以通番为常事”的个案,略举数例如下:

    (嘉靖)二十六年有佛郎机夷船载货在于浯屿地方货卖,漳泉贾人辄往贸易。巡海道柯乔、漳州知府卢璧、龙溪知县林松发兵攻夷船不得,通贩愈甚。时新设总督闽浙都御史朱纨厉禁,获通贩者九十余人,遣令旗、令牌行巡海道柯乔、都司卢镗,就教场悉斩之。

    (嘉靖三十六年)是年冬有倭船泊于浯屿,寻去潮州澄海界登岸,袭陷黄冈土城,劫掠诏安县地方。至次年五月由沧泉奄至月港,焚烧九都人家殆尽,夺舟以去。

    (嘉靖)三十七年海寇谢老、洪老(即洪迪珍——引者注)等诱倭三千余人,船泊浯屿,次年正月由渡浮宫,直抵月港,夺港中大船,散劫八九都珠浦及官屿等处。复归浯屿。

    (嘉靖)三十八年二月,有倭寇数千自潮州来攻劫诏安、云霄、漳浦等处。三月由东厝岭抵月港八九都,转石马、福河、东洲、水头等处,夺舟流劫数月方去。

    (嘉靖)三十九年正月,倭由同安来屯于三都,二月渡江,流劫丰田等处。至佛潭桥,复回至月港,屯于港口,至五月方去。[7]

    上引诸例中,本地人或与“佛郎机夷船”贸易,或“诱倭”来犯,且“佛郎机夷船”和“倭寇”常常在月港、浯屿屯驻累月,其与当地百姓的关系非同一般,如嘉靖三十六年(1557年)“九都张维等二十四人共造一船,专一接济番舶”,引发所谓“二十四将”之乱[8];嘉靖三十七年(1558年)谢老、洪迪珍等“诱倭”泊浯屿时,“浯屿诸恶少群往接济,络绎不绝,官府不能禁”[9]。浯屿在月港西南三十余公里,更接近九龙江出海口,嘉靖三十六年倭船先“泊于浯屿,寻去潮州澄海界登岸”,也可见两地关系之密切。其实当时海澄和澄海均尚未置县。

    万历《漳州府志》还记载了其他许多外地“贼盗”来犯或本地治安不靖的故事,但除上引与“佛郎机夷船”和“倭寇”相关的记载外,这些事件的“贼首”基本上都不是后来设立的海澄县域内之人。唯一的例外,是嘉靖末年(1566年)的“二十四将”之乱。而这次影响深远的动乱事件,也是本地“土民”发动的一次大规模对抗:

    (嘉靖)四十年正月内,月港二十四将反。巡海道邵楩、同知邓士元、县丞金璧往抚之。是年龙溪县二十三、四等都,并海沧、石美、乌礁等处土民俱反,参将杨缙率兵讨之。[10]

    关于“二十四将”之乱,已有多位学者做过较为详细的研究。[11]据府志记载,这次动乱始于嘉靖三十六年张维等24名本地人造船接济番舶的举动,次年海道副使邵楩即派兵剿捕,终于嘉靖四十三年(1564年)张维被“斩首枭示”,前后达七八年之久。[12]究其原因,根本上还是由于朝廷“海禁”政策与地方海上活动传统的深刻矛盾,日本学者片山诚二郎更是将这次大规模动乱事件直接定义为“合资贸易商人团的叛乱”[13]。面临朝廷大兵围剿,本地人的避祸之策,仍然是逃亡海上:

    月港私造双桅大船,不啻一二百艘,鼓泛洪波巨浪之中,远者倭国,近者暹罗、彭亨诸夷,无所不至,甚者沿边越境劫掠商民,非一日矣。今闻大兵将至,辄谋整船只,挈载妻子,欲往海岛澎湖等处避居。不者则屯聚外澳,俟兵退复回。又不者如去岁,横溃四出,流劫乡村,以摇动漳城,此虽风闻,然势所必至。[14]

    “二十四将”之乱对地方社会的影响广泛而深远,正如前人研究所揭示的,嘉靖四十四年(1565年)海澄置县和次年的“隆庆开海”,均与此有直接的关系。月港后来成为海澄县城所在,也是“隆庆开海”的唯一合法港口。

    下面讨论澄海置县的背景。关于澄海置县以前韩江下游地域因所谓“倭寇”“海盗”之乱而引发社会秩序不稳的情况,笔者已经有较多的研究。[15]嘉靖《潮州府志》描述当时本地海患不止的三个原因,也多为研究者所引用:

    一曰窝藏。谓沿海势要之家,为其渊薮,事觉则多方蔽护,以计脱免。一曰接济。谓黠民窥其乡道,载鱼米互相贸易,以瞻彼日用。一曰通番。谓闽粤滨海诸郡人驾双桅,挟私货,百十为群,往来东西洋,携诸番奇货,因而不靖肆抢掠。[16]

    上述情况,与同属一个海上活动区域的九龙江下游,似乎没有太大差别。当地可与“二十四将”之乱相比的著名动乱事件,应该是更早时候的“夏岭之乱”:

    (天顺三年)海寇黄于一、林乌铁等作乱,潮州知府周宣讨平之……周宣以奇计陷乌铁而诛之。于一等益肆乱,烧劫揭阳县治而下。夏岭等二十四村皆被胁从。当道檄宣捕贼,宣亲督兵,据险扎营凡七所,与贼相距四十余日,擒杀渠魁,余贼不敢出。宣谓盗魁既得,余可抚而下也。乃出榜令乡儒陈骥等入贼中张挂,而自诣贼营抚谕。各贼皆释甲罗拜乞降,且诉从贼非本心,皆出于被胁不得已。因遍历各村,放回被□男妇五十三名口,拘收大海船一百五十艘,抚过从良民一千二百三十七户。[17]

    夏岭之民“以渔为业,出入风波岛屿之间,素不受有司约束”[18],参与此次动乱事件的“贼船”有三百余艘之多[19]。“夏岭之乱”平定之后,嘉靖末年海氛复起,在后来属于澄海县的地域范围内,几年之间下外莆都东湖人许朝光、鮀江都大井人魏朝义、大家井人陈世荣、鮀浦都月浦人林道乾、下外都上窖人许瑞、苏湾都南洋人朱良宝、苏湾都埭头人黄海如等先后起事[20],成为澄海建县的主要社会背景。与《漳州府志》基本上把“海寇”和“盗贼”记录为外地人的做法不同,在《澄海县志》作者笔下,这些作乱者均是“乡亲”。

    二、置县的过程

    据《明世宗实录》记载,嘉靖四十五年(1566年)“初设福建海澄、宁阳二县,以其地多盗故也”。[21]实际上,本地士民向官府和朝廷申请海澄置县,从嘉靖初年就已经开始了[22],嘉靖二十七年、二十八年、三十六年和四十三年本地士民和福建地方官员又接连呈请了四次[23],而最终成其事者,则是在京城听选的李英和陈銮两位低级胥吏。据崇祯《海澄县志》载:“四十三年巡海道周贤宣计擒巨魁张维等骈戮以殉,境内甫戡。时听选官李英、陈銮在都下相率叩阍,仍申设县之请”[24]。“李英,慷慨任事,在长安时与陈銮奏请建邑。澄地之列于望县,遂获安澜者,二人之力也。后为典史”[25]。可见,海澄设县与张维被戮,“二十四将”之乱最终平定直接相关,而正在京城(即《人物志》所谓的“长安”)的李英、陈銮因地位太低,只能以“叩阍”形式提出“设县之请”。值得关注的是,这两个“小人物”的举动引起朝廷关注和地方官员的支持,最终达成了目的:

    有旨下闽当道议复。四十四年知府唐九德议割龙溪自一都至九都及二十八都之五图,并漳浦二十三都之九图,凑立一县。于是都御史汪道昆、御史王宗载咸具疏奏闻。有旨报可。[26]

    从嘉靖初年开始,数十年间不断有海澄置县之议,但各级官员均意见不一,以致长期延宕。李英等之《请设县治疏》之所以能较快为朝廷和地方各级官员所接受,除了“二十四将”之乱平定后,地方社会秩序重建需求迫切这一因素之外,很重要的是,李英、陈銮出身基层椽吏,了解地方实情,洞察各级官府和官员的心理需求、思考方式和决策顾忌,针对置县问题多年议而不决的若干关键症结,作了贴近实际且具可操作性的回应:

    或恐设县则官多民扰。臣缔思之,知县一员则海防同知可省也,丞簿典史则安边馆通判可省也,移彼易此,官不加征,民不加役矣。

    或谓县分则役重,而龙溪附郭之邑,单薄不支。臣缔思之,自月港之徒倡乱至今,八澳数十里民不听役,赋不登输者,亦已数年矣。而龙溪未闻有停输并役之苦。今若增置一县,不过割龙溪、漳浦十分之一耳。龙溪尚有一百余图,漳浦不下五十余图,月港亦可足五十六图,未至丁赋之烦骈也。

    或谓寇乱之方,狼心未息,绳之以法,恐其诛官杀吏,祸出不测。臣缔思之,月港之多乱,正坐官司隔远,威令不到尔。盖招亡集叛,千百为群者,非旬日可致,斩木揭竿,椎牛誓众者,非朝夕可期。况一邑之中,愿招者十尚八九,而倡乱者十仅二三。县治一设,则良民流窜于外者,皆还定故土,与乱孽参错而居,茍有叛萌,众必先知之,入告于官,群集而扑之,其亡可立待也,故设县之计,正所以治乱于未萌者也。

    或谓兵荒之后,事且因循,月港既有海防同知,海沧又有安边馆通判,声势相荷,制驭有方,县治似不必设。臣缔思之,住剳衙门,官非久任,互换往来,真如傅□□视专官子民之责,施为委用,自不相侔。前官□□,已有明证。故先年金御史之疏,深咎其导□□□,近年江西御史段顾言条陈之疏,请设月□□□,而亦责安边馆之黩货起乱者,皆真诚之言也。

    或谓兵荒民困,公私俱惫,设县重费,难以兴作。臣缔思之,岂不知今日官乏帑藏,民乏储蓄,但以民移郡邑,而田园地宅一概就荒,今若县成,而复归旧业,则食租僦赁,岁收全利。取所入之半,以为筑城之需,固人甘承而乐助也。况今海道周贤宣、知府唐九德公恕廉勤,民心爱戴,令其召民计议,复业之后殷富若干,土著之民殷富若干,照依赀业之厚薄,分派城工之多寡,登记簿籍,以次征收。又如市船贾舶,往往有税皆归于捕盗、牙家,当即布告,令其输税于官。又有海滨泥泊、河洲铺舍,亦宜估勘赁银津贴。纵令未敷,则二道批查各府县词讼内赃罚,以衬贴万分之一。则公私不废,而城邑可就矣。[27]

    以上议论虽出于基层椽吏之手,但直抵问题要害,回应多方顾虑,因而很快被朝廷和各级官吏所接受。这个嘉靖四十三年以“扣阍”形式上呈,并“有旨下闽当道议复”的奏疏,次年即获漳州知府唐九德提出具体举措,并经福建巡抚汪道崑、巡按王宗载具疏奏闻,于嘉靖四十五年十二月得到朝廷批准。月港从成化、弘治年间开始,逐渐发展为闽粤界邻地域重要的贸易港口,嘉靖三十年(1551年)朝廷在此地设靖海馆,嘉靖四十二年再改靖海馆为海防馆[28],长时间设有官府衙门,具有较为完备的基础设施。故于朝廷批准置县次年,在知府唐九德的督率下,很快就完成了县城建设、官署修筑、县界划定和地方秩序的整顿。由此亦可见李英等称赞唐九德“公恕廉勤,民心爱戴”,所言不虚:

    隆庆元年,唐守恭履海上,定基鸠工。不移时县治告成,辖三坊五里。东抵镇海卫界,西抵龙溪县界,广八十里;南抵漳浦界,北抵同安界,连海袤五十里……向故盗薮也,置邑非久,而衣冠文物殷赈,外区骎骎度骅骝□矣。[29]

    与海澄相比,广东澄海建县的实际过程就显得曲折很多。据《明世宗实录》载,澄海置县由于两广总督(“提督两广”指的是执掌,不是职务——引者注)张臬和纪功御史段顾言的建言:

    (嘉靖四十二年正月)丁未提督两广都御史张臬、纪功御史段顾言,各条陈广东善后事宜,户部覆行三事。

    一潮州海阳之辟望为倭奴入寇门户,宜设一全县,以增潮南之藩篱,应割都图者七。潮阳之㳚水宜设裁减一县,以控扼海丰、惠来、长乐三县之要冲,应割都图者四。

    ……

    上允行。乃设澄海县于辟望所,普宁县于㳚水。[30]

    而《澄海县志》则将澄海置县的缘起,归结到“父老曾栋等议善后之策”的提议:

    彼时海氛不靖,蹂躏七都之地,民无城郭可依。官兵远不及援,坐受荼毒。而山寇张琏、林朝曦诸酋复阴相连结,内外夹驱,民益不堪,相率奔窜,七都之地荒墟矣。门户既撤,堂奥孤危,全潮俱警,督府张公臬率师征讨山酋,扑灭海寇,招安地方。甫靖,父老曾栋等议善后之策,奏割七都,置县于下外辟望村弹压之,为郡南障蔽。[31]

    与海澄置县前已有月港这样设有官府衙门的港口聚落不同,澄海原为“民无城郭可依”之地,虽然建县初始就确定“置县于下外辟望村”,并开始建筑城墙,但直至万历初年,“官此者来无定居,或蓬州,或樟林,或冠陇。至今(清康熙初年——引者注)土人尤能言之”。[32]蓬州、樟林和冠陇分别位于辟望村的南面、北面和西面,相距数十里,实际上“初澄海设令,多侨寓郡城”[33],这些地方也只是其临时办公处所。隆庆二年(1568年)海澄举人蔡楠就任澄海知县,仍居住于冠陇乡:

    蔡楠,福建海澄举人,隆庆戊辰任。恤里役,尊耆爱士。初澄海无县治官署,令此者视事无长居。楠见冠陇乡山川秀异,俗多冠盖,故莅事其地,即于神山下建宇居之。又建书院祀考亭,以考亭曾过化也,并置祀田,岁租所入为春秋祭资。又于祠傍立乡约所,日与诸生课文讲学,率百姓宣圣谕六条,一时爱戴,升崖州知州去后,诸生立木主配祀考亭侧。[34]

    隆庆五年(1571年)在蔡楠主持下,辟望村的县城建设重新启动,但一年后城墙刚初具规模,“方议继建学宫,及公府、官属之署”,蔡楠就奉调琼州府崖州知州[35],后续工程又停了下来。直至万历三年(1575年),澄海县署才在知县左承芳主持下落成:

    左承芳,福建宁德县岁贡。悃愊无华,而经纬措施井井,有惠爱于民。初澄海设令,多侨寓郡城,承芳携家口独住县治,以示固守。时海寇林凤突薄城下,承芳率众登陴欲击之,寇遁。民知可守,因立街衢,辟草莱,定里役,建县治。去弊兴利,爱民恤军,有循吏风。[36]

    而学宫则等到万历五年(1577年),在知县顾奕建任上才修建。[37]其时距澄海置县已过去十二年。相较海澄置县,澄海建县的经历要曲折缓慢许多。

    三、海澄置县与“隆庆开海”

    关于“隆庆开海”的过程及其历史影响,已有诸多详细的研究。[38]有学者认为:“明朝于隆庆元年(1567)在漳州月港实施设关开海政策,这对于被称为‘祖宗定制’的‘海禁’政策而言,可谓重大变革,这一政策有效促进了中国市场与世界市场的相互街接……月港开放有力带动了晚明经济和社会的发展……隆庆月港的开放仍极大地释放了中国商民的活力,使晚明时期的中国市场与世界市场顺利衔接而相互促进,它无疑是明朝海外贸易政策的重大变革。”[39]是为目前学术界所接受的一般看法。

    有意思的是,这个具有重要意义的制度转变,在实录、政书和当时的其他官方文献中均无记载,而唯一的直接记录者是不愿为官的本地乡居举人张燮。万历年间,张燮应海澄县令陶镕、漳州府司理萧基和漳州府督粮通判王起宗之请,编纂作为海外通商指南的著作《东西洋考》。该书简单记载“隆庆开海”这一重要政策改变,基本上把“开海禁”视为与“奏设海澄县治”相联系的一个地方性事件:

    四十四年,奏设海澄县治。其明年,隆庆改元,福建巡抚御史涂泽民请开海禁,准贩东西二洋。盖东洋若吕宋、苏禄诸国,西洋若交趾、占城、暹罗诸国,皆我羁縻外臣,无侵叛。而特严禁贩倭奴者,比于通番接济之例。此商舶之大原也。[40]

    海澄著名士大夫,后官至太仆少卿的周起元在该书序言中,则谈到“开海禁”之后繁荣的通商贸易情形,他的视野似乎更关注这次政策改变的全国性影响:

    我穆庙时除贩夷之律,于是五方之贾,熙熙水国,刳艅艎,分市东西路。其捆载珍奇,故异物不足述,而所贸金钱,岁无虑数千万。公私并赖,其殆天子之南库也。[41]

    无论如何,“置县”与“开海”两件事情是联系在一起的,前者更多地属于地方性事务,而后者更具全国性影响,但二者实为一体。万历年间福建巡抚许孚远在其《疏通海禁疏》中就这样援引“海澄县番商李福等”的连名呈文:

    本县僻处海滨,田受咸水,多荒少熟,民业全在舟贩,赋役俯仰是资。往年海禁严绝,人民倡乱,幸蒙院、道题请建县通商,数十年来,饷足民安。[42]

    可见,在普通的商船户看来,“建县通商”也是同一件事。

    开海二十多年后,万历二十一年(1593年)朝廷下令将设于月港的海防馆改为督饷馆,专责出洋船税的征收。[43]根据《东西洋考》记载,隆庆六年(1572年)海澄饷税仅有3000两,万历三年为6000两,万历四年(1576年)开始超过10000两,万历二十一年增加到20000多两,设督饷馆后,万历二十二年(1594年)一度达到29000多两,此后一直保持在20000两以上。[44]置县后合法贸易的发展可见一斑。

    明代后期“海澄置县”与“隆庆开海”的过程,为理解传统时期地域社会的变迁,提供了诸多充满历史辩证法的启示。

    首先,传统中国许多具有深远意义的制度变化,常常是通过长期且曲折的自下而上的过程达致的。自嘉靖初年开始,数十年间月港周边地区民众不断有设县的建议,最后推动成其事者,还是李英和周銮这两位正在京城听选,但敢于“扣阍”的低层胥吏;而澄海建县的建议最初由“父老曾栋等”提出,虽说很快得到朝廷批准,但用了十多年时间才建成县城、衙署和学宫;至于“开海禁”更是上百年间闽粤界邻地域众多海上活动人群的强烈愿望,终于借助海澄设县而有限度解禁,进而因为朝廷典章制度的改变,影响整个国家的历史进程。

    其次,历史当事人在亲历某一过程的时候,实际上并未感觉到如同日常生活一部分的举措所蕴含或可能产生的重大意义。不管是李英、周銮等基层椽吏和曾栋这些普通百姓,或是汪道崑、张臬、王宗载和段顾言等高层官员,当他们提出建县、开海之类的建议时,其实主要是为了应对日常生活和行政实务中遇到的具体问题。当事人一般不会想到,其所言所行的某些内容,会有后来史学研究者或历史教科书所描述的那么深远的社会影响和历史意义。

    再次,许多具有“国际意义”的重要事件,开始很可能只是源于偏远地方社会的实际生活需求。“隆庆开海”发生于欧洲殖民者向东方扩张,资本主义世界体系正在形成,特别是原产美洲西班牙殖民地的白银,通过阿卡普尔科至马尼拉航线大量流向亚洲的前夕,其历史影响可以说是世界性的。但对于中国东南一条普通溪流入海处附近的月港百姓来说,他们希望朝廷开海,只是为了延续上千年来祖祖辈辈“讨海”为生的生计模式,让日常的实际生活需求和惯习“合法化”。

    又次,由于海上贸易和交往的网络特质,一个节点上的故事可能全息地反映并影响了整个网络的生态变化。在传统东亚海上贸易的整个网络中,月港只是其无数节点之一,但由于海上活动的流动性和跨国特质,月港开海实际上意味着整个东南沿海地区海上贸易都因此得益,众多“以海为生”的普通民众的生活也可能因此发生重大变化,由此也就对整个东亚海上活动的形态和性质产生广泛且深刻的影响。隆庆之后,有关所谓“倭寇”和“海盗”的记录明显减少,以郑芝龙、郑成功家族为代表的亦商亦官的带有某种垄断性质的海上势力集团迅速兴起,这些亦可视为“隆庆开海”的结果。

    还有,朝廷的“管理”,往往意味着曾被官府禁止的民间惯习的“合法化”。从嘉靖九年(1530年)开始,官府针对海上活动,将巡海道移到漳州,并先后在九龙江入海口周边设立过安边馆(嘉靖九年)、靖海馆(嘉靖三十年)、海防馆(嘉靖四十二年)和督饷馆(万历二十一年),原本的目的是为加强对沿海百姓和海上活动的管制,但收效甚微,“倭寇”“海盗”的活动反而越禁越盛。“隆庆开海”之后,海防馆的功能就由打击走私贸易转变为征收商船饷税。顾名思义,督饷馆的设立,更是以发放商引、征收饷税、对进出口商船进行检验和监督为主要目的。随着朝廷管理机构及其职能的逐步变化,原本被“管理”的不合法的海上贸易行为,终于“合法化”了。

    四、澄海置县与安置“盗贼”

    关于明代后期韩江中下游地域行政区划变化与安置受招安“盗贼”的关系,笔者有过专门的讨论。[45]当时地方上“民”“盗”不分,加之“官府苦于地方多事,兵力不暇”[46],地方官府对于“盗贼”往往采取“招抚”的做法,即不再追究为首者和协从者的责任,甚至对为首者封官赐爵。而最重要的是,在沿海地区指定适当地点“安插”这些“抚民”(民间常称之为“抚贼”或“抚盗”[47]),使之成为王朝的“编户齐民”。其实,安置这些尚未解除武装的有组织的“海盗”“山贼”上岸或下山定居,也是当时新设多个州县的目的之一。

    建县早期行政秩序和社会秩序均尚未稳定的澄海,也同样要面对如何安置“抚民”的问题。这是其与同时期海上贸易正兴旺发展的海澄县相较,又一个很明显的差别。

    澄海下外莆都东湖乡“盗贼”许朝光受抚事,就是一件极富象征意义的事件。许朝光本姓谢,被大海盗许栋收为养子后改姓许。嘉靖三十二年(1553年)许朝光杀许栋而尽领其众,“分据潮阳牛田洋,算舟征赋”,“沿海焚劫日炽”。嘉靖四十二年许朝光接受招抚,其过程充分展示了其时地方上“官”“民”“盗”之间的奇特关系:

    嘉靖四十二年本府捕馆始倡招安策,朝光听招。欲召之入见,朝光要言曰:能听朝光即入,不听不入。朝光入毋闭诸城门,毋斥去左右,毋禁左右不得持兵器。诸城门俱守用朝光之人。入当宴以殊礼,陪以县佐首领官,宴罢即出,毋令谒府道。当事者一一许之。

    乃驾船数十艘沂流上,旌旗蔽空,甲光耀日。舣舟老鸦洲,跨高马,佩长剑,其党数百人翼之入城,受宴出。

    于是,朝光知官司之莫谁何也,遂为安居长久计。筑寨南澳山之隆澳,山久荒秽,多鬼怪,居之多病疫,乃内徙筑寨东湖。朝光虽听招,仍四出剽掠无虚日。分遣头目驾巨舰屯牛田洋,盘问船只,不问大小,俱勒纳银,然后给与票照,方敢来往生理,名曰“报水”。

    后以杀倭报效军门,加以镇抚名色。[48]

    可见,许朝光把被召入城见官变成一次大规模的武装示威行动,其接受招抚后回到家乡,“内徙筑寨东湖”,也是自己随心所欲选择的结果。而原来所从事的剽劫抢掠勾当仍得以继续,勒索往来船只“报水”的牛田洋,在澄海置县后,也部分划归该县的地域范围。

    拥有强大武装,原来已经习惯于反官府和反社会活动的“抚民”,受抚初期往往保持亦民亦盗的生活方式,常有再次反叛为盗的情况发生。隆庆年间安插曾一本集团,就展现了这个过程的复杂和困难所在。曾一本原为海阳县薛陇乡人,早年追随大海盗吴平,嘉靖末年吴平在南澳岛的城寨被官军攻破,曾一本集其残部,先侵寇广东西部的高州和雷州一带,扩张势力后再度回到潮州沿海,“四出剽掠,潮、揭受祸最酷”。招安过程曲折而短暂:

    隆庆元年七月赴府告招安,官司许之。又惧官司绐己也,欲得文官质,官司难焉。遂大举众,计欲薄府城取质。(澄海)知县张璇不虞贼之入也,谒府,舟还至老鸦洲,被执去。于是招之下浍,仍释知县归,在贼近有三月云。既而一本复叛,之南澳,据吴平旧窠,杀掳参将缪印等官兵数多,屡年不能平。[49]

    曾一本是自己到官府要求招安的,为安插事绑架澄海知县为人质达三个月之久,被安插于潮阳下浍地方也只有三个月,又再次造反。此事终于惊动朝廷,两年以后,在广东、福建两省会剿之下,曾一本蹈海死,由其舅许瑞继续统领残部。

    开始时许瑞主要活跃于广州和惠州沿海,其时广州海面尚有其他多股“盗贼”活动,官兵屡剿屡败,“乃招瑞杀贼立功,瑞邀击诸贼,大破之,无一生脱者。军门嘉赏瑞,遣回潮听招”,事在隆庆四年(1570年)前后。初拟安插许瑞于潮阳白土地方,结果“士夫、百姓控于其令,极言不便。其令为白道、府,遂罢”。[50]当事者又议改安插许瑞于澄海县夏岭地方,即天顺年间二十四村作乱之处。澄海知县蔡楠亦上书痛陈利害,表示反对:

    议及澄海夏岭,蔡楠上书,言夏岭原系革除,不可复插法外之民。言澄方里不能六十,莫应敷虎咆于东,朱良宝鸱张于北,魏朝义蝮螫于西,仅空南之一方耳。复插许瑞夏岭,则四面皆敌,民何以立,官何以理?[51]

    蔡楠所谓“莫应敷虎咆于东,朱良宝鸱张于北,魏朝义蝮螫于西”一句,确为其时澄海县城周边之实际情形。莫应敷所统为许朝光旧部,所据之东湖寨在澄海县城东面,而魏朝义、朱良宝两班人马也是嘉靖、隆庆年间招抚“安插”的。蔡楠“其言剀切,道府不能夺也,夏岭之议遂寝”。当时许瑞屯舟于牛田洋待官司议安插地,久候不决,遂强行入居附近的溪东寨。溪东寨迫近另一“海盗”首领魏朝义的安插之地大井,结果两个“海盗”集团“争海利,相仇杀”,最后以许瑞的败亡而告终。[52]

    魏朝义原来就是澄海鮀浦都大井村人,为盗后在本村筑寨与官兵抗争,“焚烧屠戳,所至如洗”。后被招安,就地安插。招安后,除上述与许瑞一党火并事外,据说对官府颇为效顺:

    督所部防捍地方,鮀浦左右赖无它虞。道府常檄使捕盗,捕无不获,获无不真,未尝枉一平民,公论归美。而里中恶少恶其害己也,常飞语中伤之。赖道府知察,得全腰领。[53]

    而朱良宝的下场就大不一样了。朱良宝原为澄海县南洋乡人,先从乡人王伯宣为盗,伯宣死,辅助其子王若鲁以叛。后惧官兵围剿,缚若鲁献以赎罪,因告招安,结寨南洋。招安后劫掠如故,与林道乾并称“林朱”:

    其为祸最惨者,林朱也。官府苦于地方多事,并力不暇,准其告招。招之后……林朱则报水杀人如故。民甚苦之,然不敢声其冤,盖惧二酋声则丧身灭门之祸,不旋踵而至者。[54]

    隆庆五年官府发兵进攻南洋寨,半路为朱良宝截击,“杀之几尽”[55]。万历元年(1573年)朱良宝率军进攻广东西部沿海的阳江县,被官兵击退,又回守南洋寨。万历二年(1574年)官府再发大兵进剿,几次惨败之后终于攻下南洋,朱良宝死于刃下。

    综上所述,从嘉靖四十二年至隆庆四年的短短八年时间里,澄海县方圆不足百里的地域范围内,先后招抚“安插”过许朝光、魏朝义、朱良宝、许瑞等四个大的“海盗”集团,还有被招安到别县的曾一本绑架澄海知县达三月之久。加上官府安插的其他较小的“盗贼”团伙[56]和参加海盗后被官府零散“给票回籍”定居的人,当时澄海几乎随处可见这些“法外之民”。

    从总的趋势看,不管经历多少曲折,这些“抚贼”中多数人最后总要成为一般民户,如朱良宝占据的南洋寨被官军攻破后,“魏朝义、莫应敷闻之,相率毁巢,散其党乞降。许之”[57]。许瑞死后,“头目林奇才领其众,后不知所终”[58]。许多大“海盗”集团在其首领死后几年,所谓“贼众”往往都“不知所终”。当然不排除他们投靠别的“海盗”集团的可能性,但更大的可能是定居下来,终于成为“编户齐民”。只是,从“抚贼” “抚民”到一般民户的过程曲折而艰难,一方面是“海盗”变成“抚民”后,可能对安插地原有的社会秩序和权力结构造成重大冲击;另一方面,与“海盗”成为“抚民”的过程同时发生的,还有许多一般的民户因为种种原因又不断沦为“盗贼”。到明清之际王朝更替,政治统治的“正统性”变得模糊的时候,这个过程就变得更加复杂了。

    澄海置县之后未能和海澄一样,很快发展成为有影响力的海上贸易中心,不是因为本地缺乏海上贸易的传统和实际需求,而是由于韩江入海口外南澳岛的存在。永乐之后,南澳即被朝廷弃守,这个“海外荒岛”一直是“倭寇”“海盗”集团和亚欧各国走私船只活动的著名口岸,明末清初郑芝龙、郑成功家族集团更是经营该岛数十年,与澳门、长崎、马尼拉和巴达维亚(今雅加达)都有生意往来。这样一来,地方社会对澄海置县后再建一个“合法”贸易中心的期待并不迫切,而朝廷似乎从未考虑在南澳附近地域再有一个贸易港口的可能。反而一直到清代康熙年间,澄海及周边数县经常要担负安顿从南澳等海岛招安的“抚民”的责任。直至康熙二十三年(1684年)清廷“开海禁”后,韩江流域的海上贸易中心才转移到澄海县的樟林港,樟林最终发展为中国东南沿海最重要的近海帆船贸易口岸之一。[59]

    五、结语

    笔者一直以为,若将“区域”理解为一种社会史的分析工具,“区域”的界邻地区往往自成一个区域。正如本文力图展现的,在闽粤界邻的沿海地区和众多海岛之间,由于明清时期海上活动人群的流动、交往与上岸定居,也由于他们与朝廷、官府和官兵互动过程所产生的许多具有共同特性的问题,实际上也呈现出自成一个“区域”的某些特质。海澄与澄海设县的背景相若,时间相近,得名都是出于朝廷期待“海宇澄清”的愿望,在其间活动并产生重要影响的是同样的人群,因而将这两个县份置于同一区域发展脉络中进行比较研究,应该是可行且有价值的。

    本文第三部分已试图结合对“置县”与“开海”关系具体史实的讨论,提出若干具有方法论倾向的观点。这里还想强调的是,海澄与澄海在朝廷批准设县以后,各自发展历程的明显差异,实际上与超越两个县份的更大地域的文化差异可能有某些不直接但更深沉的关系,而不仅仅是因为朝廷和官府在两地实施的政策举措有所不同。这种文化差异,常常在普通民众的日常生活和人际交往网络中,自然而然地表现出来。所以,当我们强调“区域”的界邻地区往往自成一个区域时,也还是要大道自然地、辩证地关注原来那个“区域”长期存在的理由。

    参考文献、注释

    [1]陈寅恪:《柳如是别传》中册,上海古籍出版社1980年版,第727页。

    [2]陈春声:《明代海上活动人群的身份与籍贯问题——以金门及邻近海域“海盗”的研究为中心》,载陈春声、陈东有(主编):《杨国桢教授治史五十年纪念文集》,南昌:江西教育出版社2009年版。

    [3]陈春声:《从“倭乱”到“迁海”——明末清初潮州地方动乱与乡村社会变迁》,载《明清论丛》第2辑,北京:紫禁城出版社2001年版。

    [4]郭子章:《潮中杂记》卷1,《郡县释名》,潮州市地方志办公室2003年重印本,第9页。

    [5]谭纶:《谭襄敏公奏议》卷2,明万历二十八年(1600年)刻本,第54页。

    [6]朱纨:《甓余杂集》卷3,《章疏二》,载《四库全书存目丛书·集部七八·别集类》。

    [7]万历《漳州府志》卷12,《兵乱》。

    [8]万历《漳州府志》卷30,《海澄县·兵乱》。

    [9]康熙《海澄县志》卷20,《丛谈志》。

    [10]万历《漳州府志》卷12,《兵乱》。

    [11]片山诚二郞(著):《明代私人海上贸易的发展与漳州月港——月港“二十四将”的叛乱》,载《暨南史学》第2辑,广州:暨南大学出版社2003年版;王日根、黄友泉:《海洋区域治理视域下的月港“二十四将”叛乱》,载《江海学刊》2012年第5期;李贤强、吴宏岐:《明代福建月港“二十四将”叛乱与设县问题再研究》,载《中国边疆史地研究》2017年第2期;黄友泉:《再论明代福建月港“二十四将”叛乱及海澄设县——对李贤强、吴宏岐两位先生的回应》,载《中国历史地理论丛》2019年第2期。

    [12]万历《漳州府志》卷30,《海澄县·兵乱》。

    [13]片山诚二郞(著):《明代私人海上贸易的发展与漳州月港——月港“二十四将”的叛乱》。

    [14]谢彬:《剿抚事宜议》,载崇祯《海澄县志》卷19,《艺文志四》。

    [15]陈春声:《地方故事与国家历史——韩江中下游地域的社会变迁》,北京:三联书店2021年版。

    [16]嘉靖《潮州府志》卷1,《地理志》。

    [17]嘉靖《广东通志》卷66,《外志三·海寇》。

    [18]李龄:《李宫詹文集》,《赠郡守陈侯荣擢序》,载《潮州耆旧集》卷1,清道光十九年(1839年)刻本,第13页。

    [19]嘉靖《广东通志》卷66,《外志三·海寇》。

    [20]康熙《澄海县志》卷19,《海氛》。

    [21]《明世宗实录》卷566,《嘉靖四十五年十二月甲午》。

    [22]崇祯《海澄县志》卷1,《舆地志·建置沿革·明李英请置县治疏》。

    [23]李贤强、吴宏岐:《明代福建月港“二十四将”叛乱与设县问题再研究》。

    [24]崇祯《海澄县志》卷1,《舆地志·建置沿革》。

    [25]崇祯《海澄县志》卷9,《人物志二·椽吏》。

    [26]崇祯《海澄县志》卷1,《舆地志·建置沿革》。

    [27]崇祯《海澄县志》卷1,《舆地志·建置沿革·明李英请置县治疏》。文中个别字句因原书印刷不清而缺损者,依康熙《海澄县志》卷1所录该疏补正。康熙《海澄县志》卷1《舆地志·建置》和乾隆《海澄县志》卷21《艺文志》均录有《明李英请置县治疏》,但删节甚多。

    [28]李金明:《明代后期海澄月港的开禁与督饷馆的设置》,载《海交史研究》1991年第2期。

    [29]崇祯《海澄县志》卷1,《舆地志·建置沿革》。

    [30]《明世宗实录》卷517,《嘉靖四十二年正月》。

    [31]康熙《澄海县志》卷2,《建置》。

    [32]康熙《澄海县志》卷首,《自序》。

    [33]康熙《澄海县志》卷13,《名宦》。

    [34]同上。

    [35]林大春:《建澄海县城碑记》,载康熙《澄海县志》卷4,《城池》。

    [36]顺治《潮州府志》卷1,《地书部·建置》;康熙《澄海县志》卷13,《名宦》。

    [37]顺治《潮州府志》卷1,《地书部·建置》。

    [38]陈自强:《论明代漳州月港的历史地位》,载《海交史研究》1983年第1期;李金明:《明代后期海澄月港的开禁与督饷馆的设置》;陈尚胜:《论明朝月港开放的局限性》,载《海交史研究》1996年第1期;郑有国、苏文菁:《明代中后期中国东南沿海与世界贸易体系——兼论月港“准贩东西洋”的意义》,载《福州大学学报(哲学社会科学版)》2009年第1期;陈博翼:《从月港到安海——泛海寇秩序与西荷冲突背景下的港口转移》,载《全球史评论》第12辑,北京:中国社会科学出版社2017年版。

    [39]陈尚胜:《隆庆开海:明朝海外贸易政策的重大变革》,载《人民论坛》2018年第30期。

    [40]张燮:《东西洋考》卷7,《饷税考》,明万历四十六年(1618年)刻本,第1—2页。

    [41]周起元:《〈东西洋考〉序》,载张燮:《东西洋考》卷首。

    [42]许孚远:《敬和堂集》圣部,《疏通海禁疏》,明万历二十七年(1599年)刻本,第20页。

    [43]李金明:《明代后期海澄月港的开禁与督饷馆的设置》。

    [44]张燮:《东西洋考》卷7,《饷税考》;王日根、苏惠萍:《隆庆开海与福建海洋区域贸易的国际化》,载赵轶峰、万明(主编):《世界大变迁视角下的明代中国——国际学术研讨会论文集》,长春:吉林人民出版社2012年版。

    [45]陈春声:《从“倭乱”到“迁海”——明末清初潮州地方动乱与乡村社会变迁》《地方故事与国家历史——韩江中下游地域的社会变迁》。

    [46]郭子章:《潮中杂记》卷11,《国朝平寇考下》。

    [47]陈天资:《东里志》卷2,《境事志·灾异》;郭子章:《潮中杂记》卷10,《国朝平寇考上》。

    [48]康熙《澄海县志》卷19,《海氛》。

    [49]同上。

    [50]同上。

    [51]同上。

    [52]同上。

    [53]同上。

    [54]郭子章:《潮中杂记》卷11,《国朝平寇考下》。

    [55]康熙《澄海县志》卷19,《海氛》。

    [56]较小的“盗贼”团伙被招安的例子,如隆庆元年澄海大家井民陈世荣、余乾仁、连思恭等作乱,官府发兵进剿,“官兵擒斩首从贼连思恭、陈世业等二百二十二颗。余乾仁等残党负伤奔入大山避命,告称岁饥乏食,愚民无知,致干法纪,乞命招安。委潮阳县县丞丰汝登抚定,回还原土安插复业”。郭子章:《潮中杂记》卷11,《国朝平寇考下》。

    [57]顺治《潮州府志》卷7,《兵事部·朱良宝林道乾之变》。

    [58]康熙《澄海县志》卷19,《海氛》。

    [59]陈春声:《地方故事与国家历史——韩江中下游地域的社会变迁》。

    转自《开放时代》2026年第2期

  • 张怡雯:新耶稣会在华的地图编绘活动

    明清间入华的耶稣会士是同时代欧洲人扩充有关中国及周边国家地理知识的重要推动者。自16世纪末起,耶稣会士利玛窦(Matthieu Ricci,1552—1610)、罗明坚(Michel Ruggieri,1543—1607)及其后继者介绍的中国地理知识以及绘制的中国地图,令欧洲人对中国地理的认识大为推进。①特别是1655年出版的卫匡国(Martino Martini,1614—1661)的《中国新图志》(Novus Atlas Sinensis),成为欧洲第一部正式刊行的中国分省地图集,因其详细、准确的特点而广为流传。不过至此,欧洲人绘制的西式中国地图,只是依靠个别实测经纬度数据,结合推算得到的其他地点位置编绘而成。②清前期由耶稣会士主持实测而成的内府舆图,不仅对欧洲地理学影响深远,也使耶稣会士们在中国享有极高的声誉。但好景不长,耶稣会于1773年在西欧大部分地区遭到解散,1814年才得以复会。重建后的耶稣会(下文简称“新耶稣会”③)于1841年派出第一批传教士自法国启程前往中国。返华的新耶稣会士受益于明清间耶稣会士的盛名荫蔽,也迫切渴望继承、恢复和发展其前辈的学术声望。康雍乾时期耶稣会士在中国的测绘工作,是新耶稣会士既颇引以为傲,又觉难望其项背的洪业。因此,地图测绘的工作不仅具有现实意义,更是寄托了远绍明清间耶稣会学脉的向往。从现实需要的层面来说,新耶稣会士很早就违背条约的限制,深入内地活动,因此更需要准确、翔实的地图作为工作指南——这样的地图对于掌握教区的全貌,以便合理派遣人员、物资具有导览的意义。因此,地图编绘的需要在新耶稣会看来显得极为迫切。

    因此,新耶稣会很早就将发展地理学与测绘技术纳入其野心勃勃的学术计划中去。1872年开始的“江南科学计划”是新耶稣会举办的最具影响力的学术研究计划。该计划凡举涉及科学、文化与宣教的四个具体项目④,地图的编绘事业即隶属其中一个子项目——中国史地工作的研究,包括研究教区历史、编写教士传记、重印教区报告以及绘制江南教区的详细地图,这项工作由费赖之(Louis Pfister,1833—1891)及其后学领导。另外,该项目催生的一项重要成果是由夏鸣雷(Henri Havret,1848一1901)领导的汉学研究工作,其杰出作品汇集在“汉学丛书”(Variétés Sinologiques)中。地图的出版与丛书的编写、发行互为表里,大量的新编地图依据丛书的出版需要而绘制,更有一些地图后来单行并名列丛书之中。

    目前来说,学界对于以徐家汇观象台、震旦博物院以及“汉学丛书”为代表的科学文化事业已有比较集中的讨论⑤,但作为汉学研究的一部分,新耶稣会所制地图仅有若干单项成果受到关注⑥,对于这样一个卓有体系的地图编绘计划本身、有关此项计划的人事、制度与成果,目前尚未有专题研究问世。此外,当前地图学史的研究中少见针对某一系列地图的创作群体进行的整体研究。新耶稣会地图作者的身份与学术背景相对比较统一整饬,借此或可一窥近代西方测绘技术进入中国时来华西人团体所扮演的角色。

    一、新耶稣会制图的类型与分期

    新耶稣会在华绘制的地图,包含政区地图、交通地图、历史地图、教学地图等类型,在功能上上述几种类型有所交叉。这些地图中既有付印者,也有不少是未能付梓的手稿。除去绘制时代不可考的手绘地图,新耶稣会绘制的印刷地图面世的时间集中在1870年代至1940年代,最集中的时段是1870年代至1920年代。其中,就笔者所目验者共有47种,见表1。

    (一)手绘时期

    新耶稣会的地图编绘事业最早起步于一些反映小范围区域的手绘指南。事实上,明清时期的天主教传教士(无论何种修会)都习于草撰这些具有指南性质的地图。例如保存在欧洲的一张《松江府图》,据高华士(Noël Golvers)考证正是清初上海的意大利人潘国光(Franciscus Brancati,1607—1671)在一张明代中文舆图之上添绘教堂以及教务细则,由此制成的地图指南。⑦而在清中叶的屡次教案中,官府也常常能从被拘捕的教士身上搜到详细的堂区地图。出于同样的原因,清末来华的天主教传教士被派遣到中国后,也会以手绘草图的形式绘制各自负责区域的交通、水系甚或地籍图。

    这一类堂区草图为数甚多,目前保留在上海图书馆的有68张⑧,大体上每一幅表现一个堂区的范围,每一堂区保有一张对应的草图。这一系列的特点是:开本较小,以铅笔手绘于白纸之上,一般没有坐标系、比例尺或图例,但符合西方地图的制图习惯,方向采用上北下南,注记以法文为主、间杂中文以相对照。作为传教地图,其特色在于着重标注天主教堂以及从城镇前往这些地点的交通方式,包括陆路与水路。这些地图的绘制与收藏细节于史无征,但我们可以合理推测,其绘制乃是出于教区或新耶稣会统一的指令,因此这批地图不仅图面内容细密周致而且在体例上相对统一。散布在各地的传教士完成绘制后,又通过耶稣会严密的讯息传递系统,将地图汇总到徐家汇耶稣会会院,最后入藏徐家汇藏书楼。

    这些草图的绘制是出于便利传教的考虑,因此一经面世或藏于教士之手,或束之高阁,不为外人所知。但是,对于后来在徐家汇会院以及藏书楼从事地图编绘的后学来说,这批珍贵的手绘地图为填充局部地区的地理知识空白提供了极为细致的信息,也开启了后来各类印刷地图的先声。

    (二)试印时期

    晚清以来,新耶稣会在地图测绘方面并非执牛耳者,其涉足的时间也晚于在华外商及新教团体。要将上述这些临时草成且体例不一的手绘地图在更大视域范围下表达,并且能够付印以化身千万,才能使这些个人的零星工作得以广泛应用。这一赋予地图以生命力和表现力的重任,首先依赖于地图印刷技术的成熟;在新耶稣会制图事业中,地图印制技术早于地图测绘技术被引入中国。

    新耶稣会制图的第一步,是尝试重印已有的中文地图。土山湾印书馆于19世纪70年代中叶引入石印印刷技术,用于印刷书籍以及教会宣传品等。不久后,石印术便被用来试印地图。据20世纪初人士的回忆,在1877—1885年,土山湾孤儿院的印刷车间尝试重印了一套非常详细的大比例尺地图,该图涉及的范围在杭州湾到镇江之间(包括崇明)。⑨目前收藏于上海图书馆的一套以计里画方法绘制的分县地图即是此次重印的成果之一。这套地图于1878—1879年在土山湾印制,表现范围包括苏州、松江、常州、镇江、太仓所辖县份,共有25张,作者署名“L.Pfister”(即费赖之)。这套地图的图面内容与绘图手法,绝类同治年间苏省舆地总局测绘的《苏省舆地图》,特别是这套舆图中的《苏松常镇太五里方舆图》⑩。作者又在图面上添绘了天主教堂与传教点的位置,以及前往这些地点的路线。(11)类似的还有同样印于1879年的《江南图》(12),也是费赖之的作品。该图表现范围为清末的江苏、安徽两省(即“江南宗座代牧区”(13)的范围),以方格网控制,分府设色。印刷时黑色线刻用油墨石印完成,设色部分为后期手工上色。费赖之此图,显然也参考了同治《苏省舆地图》系列的地图,或者是其中某张地图的缩绘。这些地图均为费赖之以《苏省舆地图》为底本改绘的一系列政区地图。此时的新耶稣会士,尚且不具备地图测绘的技术条件,而以摹绘、改绘既有的地图为工作核心,同时使用当时尚属简陋的土山湾石印设备,为后来更大范围的地图印刷做准备。

    (三)编印时期

    从1885年开始,自发的地图编绘工作在新耶稣会中展开。地图编绘事业在徐家汇的起步,有赖于两位重要的发起人,其一是夏鸣雷,另一位是初来中国不久的初学院修士陈士谦。作为“汉学丛书”的发起人,夏鸣雷所绘制的地图常常是他汉学作品的衍生品。例如,他所绘制的两幅总铎区地图——《崇明总铎区》和《海门》,缩绘后插入“汉学丛书”第一号的《崇明志》(14)作为附图。此外他还曾为《安徽省志》(15)一书绘制了一张安徽省全图,在当时被认为是最完善的安徽省地图。需要说明的是,有很长一段时间,夏鸣雷在崇明、海门两地传教,相比其同事他有更多实地踏勘的机会。表现崇明、海门的两张地图可能是夏鸣雷在旧地图的基础上,通过踏勘、访谈等方式如实表现了坍涨不定的崇海两地海岸线,还将1879年的海岸线以虚线标绘,以示对比。

    相比夏鸣雷的“副业”,当时初来中国的陈士谦则全力投入,对此进行延展和补充。陈士谦,法国人,1875年入昂热(Angers)初学院,1884年于泽西岛(Jersey)神学院修完三年的哲学课程后即前往中国,于1885年10月抵达中国。之后他在徐家汇学习了一年中文与四年神哲学课程(1885—1890),随后在海门、奉贤、浦东、虹口、苏州等地履职,曾任浦东与苏州总铎。(16)陈氏身后留存的地图,主要为总铎区地图,包括松江、浦东、苏州、常州、池州等区域,另外还有《安徽省图》(La Province du Ngan-hoei,1893)一张。这些地图的绘制时间集中在1885—1888年,正是他在徐家汇初学院学习中文与神学的四年。考虑到陈氏制图涉及范围广大,要在四年之内遍行、踏勘这些地区,远非一人之力可及;加之他当时初来中国、言语不通,实地测绘存在客观困难。事实上,陈氏所制地图,只有表现上海及其近郊的几幅地图是陈氏亲自测量所得,其余部分主要利用已出版的地图编绘而成,同时依靠“从他的许多同事那里得到的一些一手材料与信息”(17)以填充细部的地理知识。在《安徽省图》图幅右侧有一大段图注,说明了该图的绘制方法:选取的16个测绘点的经纬度均采用了杜赫德(Jean-Baptiste du Halde,1674—1743)《中华帝国全志》(Description géographique,historique,chronologique,politique et physique de l’Empire de la Chine et de la Tartarie chinoise)第四册的数据,对于扬子江的形态则是参考一系列海图,对于局部细节的填充则利用了在本省活动的同事所绘的手稿地图。(18)随着传教士逐渐深入安徽境内活动,他们对于该省局部地区的知识一点点充实起来,这一点亦表现于图幅之上。

    (四)测绘时期

    自19世纪90年代起,一些具备现代测绘知识的新耶稣会士开始使用简易的测绘工具,对小范围内局部区域进行实地测绘。此类工作是明清间耶稣会士测绘活动的延续。

    实测地图中最有代表性的数1899年蔡尚质的《上江图》(19)。蔡尚质,字思达,1883年来上海,在徐家汇观象台负责授时部门的工作,历任徐家汇观象台、余山天文台台长。这部大比例尺长江上游地图集共有64张分图,装订为一册,于1899年由上海法商东方出版公司出版。为绘制此图,蔡尚质及两位中国助手于1897—1898年亲自游历长江上游地区、测定该区48个城市的经纬度。这一成果日后受到巴黎地理学会(Société de Géographie de Paris)的褒奖,并于1901年被该会授予奥古斯特·洛热罗奖(Auguste Logerot)(20)。蔡尚质因此成为最早受到这一学术团体嘉奖的新耶稣会士。

    与《上江图》同时进行测绘的还有城市地图。1898年土山湾印刷所印制了一幅实测设色地图——《江宁省城图》。该图是当时长期居住在南京的耶稣会士方殿华对南京城市进行实地踏勘测绘而得。方殿华于1885年来华,曾执掌土山湾孤儿院,后于1889—1890年及1896—1899年两度在南京住院活动,其间对南京城郊进行测绘并展开系列研究。该图问世后,成为南京城市最早的实测地图。作为新耶稣会教士早期实地测绘的成果,这份地图被纳入“汉学丛书”,成为新耶稣会向欧洲学术界干谒的行卷之作。

    作为新耶稣会科学事业的重心,徐家汇观象台对于地图测绘也提供了尽可能的帮助。徐家汇观象台在地理科学上负有盛名,它曾于1926年参加国际经度联测,并成为此次测量的三大测量基点之一。(21)但是据《一比二十万江苏省地图·序》陈述,1922年以前徐家汇观象台、余山天文台与箓葭浜地磁台之间就已布设了测地线网络。(22)以此为设施基础,制图者屠恩烈在绘制《一比二十万江苏省地图》的15年内(约1908—1924年),就能够在徐家汇天文台的龙相齐神父帮助下,周行地图范围所及的区域,并测定其中主要地点的经纬度。(23)屠恩烈是法国人,于1908年来华;龙相齐是意大利人,1910年来华后负责徐家汇观象台的气象部和地震部,后来担任梵蒂冈科学院院士。两人合作完成的这份地图由8张开幅巨大的分图构成,使用照相制版印刷,色彩鲜艳、印刷精美。尤其难得的是,幅面巨大的地图系由原张摄影落石,并非拼合,可见当时土山湾地图印刷技术已经相当高超。这套地图出版后成为当时表现江苏省全境的比例尺最大的民用地图。

    二、合纵与连横:新耶稣会地图测绘中的几个传统

    新耶稣会返华后曾迫切收集关于中国的地理知识,而地理知识的最佳载体无疑是既有的中文地图。从徐家汇藏书楼旧藏舆图目录来看,新耶稣会从19世纪中叶开始即着意搜集当时流行的一些中文舆图;而一些图记也反映了当时新耶稣会士收藏有包括湖北抚署刊刻的《大清一统舆图》(24)在内的流传颇广的中文舆图。有意思的是,他们手中掌有的那些自欧洲出发之时即引以为指南的西文地图,其中对中国的描绘,也大多出自康雍乾三大内府舆图的谱系。徐家汇藏书楼旧藏中有一幅1842年在巴黎出版的《中国地图》(Carte de la Chine)(25),此图即小毕欧(Édouard Biot,1803一1850)《中国古今地名词典》(Dictionnaire des noms anciens et modernes des villes et arrondissements de l’empire chinois,1842)一书附录。据小毕欧自序所言,此图是对德国东方学家柯恒儒(Julius von Klaproth,1783—1835)的中亚地图进行校正、订补后的结果(26)。而柯恒儒对中国的地理知识毫无疑问直接来自康乾时期耶稣会士的测绘成果,今天法国国家图书馆仍然保存了他个人收藏过的康熙《皇舆全览图》的分图(27)。小毕欧的这张地图,很可能被早期来华的新耶稣会士视为指南,因而成为徐家汇藏书楼的藏品。相比晚清时期坊间的地图编绘者来说,新耶稣会地图编绘者掌握有从清代三大图衍生而来的中、外两个谱系的系列地图。在编绘自己的地图时,如何选取底本,就成为颇费思量的事。

    新耶稣会于1876年印制了一张木版水印设色的中文地图《江苏、安徽两省图》(28),这是目前可见该会最早制作的江苏、安徽两省地图,后来成为新耶稣会所制众多江苏、安徽地图的母本。然而,这张图近乎是对1735年《中华帝国全志》中唐维尔(Jean-Baptiste Bourguignon d’Anville,1697—1782)所制的江南省图的再版,唯将原图的法文改为中文,并在安徽、江苏之间添绘省界,再补充长江河道上的沙洲分布现状。(29)到1888年,《安徽省图》的作者陈士谦在“图说”中坦言,自己的工作主要依靠的是《中华帝国全志》中唐维尔所制的地图,而非内府舆图在中国衍生的地图。在中外地图可以兼得的情况下,新耶稣会倾向使用西方传统的地图。同样,在由蔡尚质编绘、徐家汇天主堂承印的《皇朝直省地舆全图》中也有类似线索。该图为19世纪末至20世纪初持续出版的一系列中文全国舆图,有1887年(30)、1893年(31)、1904年(32)等多个版本。这一系列地图采用了晚清时期流行的中文全国舆图惯用的名称,据林宏判断,其系谱也传承自康雍乾三朝内府舆地图,但该系列地图采用的绘图技法却是西式的,乃是依据唐维尔一系已经“西方化”了的中国全图改绘而成。林宏将其归类为“中译西图”的一种。(33)

    直到20世纪20年代,屠恩烈在测绘大比例尺江苏地图时,由于缺乏较好的实测点,他仍然选用杜赫德《中华帝国全志》中附录的清初耶稣会士绘制内府舆图时采用的测绘点(34),加上部分小毕欧在《中国古今地名词典》中列出的测绘点,以此为基础对经纬度数据进行校正。需要说明的是,《中华帝国全志》所附测绘点的经纬度数据并非全部由实测得到,其中亦有推算所得;而所列经度值则更多由推算得到。(35)小毕欧是法国著名物理学家毕欧(Jean-Baptiste Biot,1774—1862)之子,早年曾经营铁路公司,后追随儒莲(Stanislas Julien,1797—1873)学习中国语言和历史,并于1835—1850年出版了多部中国研究的作品,又于1842年与1847年成为法国金石与美文学院成员。(36)小毕欧本人从未踏足亚洲,此书中列出的中国各城市经纬度数据,乃是依据一系列清初耶稣会中国地图所衍生的西文地图以及19世纪上半叶的航海图推算得出,并非实测所得。尽管屠恩烈明知以上两个经纬度数据并非全部由实测所得,并且在他的时代,这一区域已有不少民用、商用的实测地图出版(例如1907年商务印书馆编印《江苏省全图》(37)、1908年美华书馆制《江苏省全图》(38)、1908年商务印书馆制《安徽省全图》(39)系列地图,类似的分省地图还有1908年由美国内地会绘制的《中国地图》(40)),不仅制作精美而且印量很大、流传颇广,屠氏编绘自己的地图时,或者并未参考(未见于参考目录)或者避而不谈,仍然执着于承继明清间耶稣会地图测绘的学脉。

    显然,新耶稣会传教士以明清间耶稣会士的后继者自居,特别在“科学传教”的理念上刻意效仿前贤。由于这种内在传统的存在,新耶稣会制图选用的基础资料,被认为理所应当地以明清耶稣会士的作品为首选。而明清间耶稣会士的成果确也在两百年后为其后人留有余泽。当时,不仅会内人士将这份工作视为向明清间耶稣会士的致敬之举,教外人士也习惯性地将他们的工作视为对其前辈工作的延续。在《上江图》出版不久后,法国博物学家福威勒(Albert-Auguste Fauvel,1851—1909)在法国地理学会《地理年鉴》(Annales de Géographie)撰文,评价此书称“我们博学的徐家汇天文台台长所绘的这张图,无疑是对路易十四时代博学的耶稣会士所绘的中国大地图的补充。”(41)

    然而时隔百年,时移势迁,尽管明清间耶稣会的遗泽犹在,但地理知识的扩展毕竟不能止步不前。尽管常常为新耶稣会所回避,不可否认的是,清末地理大测绘背景下由中国人自主自发编绘的舆图,常常作为地理知识的来源被汲取到新编地图中。前文曾提及,19世纪70年代由费赖之绘制的江苏省传教地图,包括1878—1879年绘制的众多分县地图以及1879年印刷的《江南图》,更多地依凭由苏省舆图总局绘制的《苏省舆地图》系列地图。《苏省舆地图》于同治二年(1863)开始绘制,技术上仍然使用传统的计里画方,即制定边长为二里半的网格,将踏勘所得的地理要素填入相应网格中。(42)相比以康乾内府舆图为底本改绘的《大清一统舆图》系列地图,这套图的绘制过程几乎没有西方测绘技术或制图方法的介入。这套地图初刊于同治七年(1868),直到1884年上海点石斋重印之前,未见有民用或商用的重印本(43),但在其初印十年之后,新耶稣会传教士不仅获取了该图之全帙,甚至已经将自行摹绘的地图付印,对于这套地图的搜集和利用,不可谓不速。

    值得一提的是,作为《苏省舆地图》纂订的李凤苞是苏省舆图总局的核心成员之一,而新耶稣会士与他的交集早在其发迹之前。李凤苞籍贯崇明,崇明是江南宗座代牧区教务最为发达的地区之一,从1842年起就由新耶稣会派遣神父常驻崇明。李凤苞早年通习外语、精于测绘,高龙鞶(Auguste Colombel,1833—1905)称他于1860年与崇明驻堂神父平乃公(Hubert Pingrenon,1820—1863)相识。(44)后来李凤苞以准望法独立绘制《崇明图》,因此受丁日昌器重而荐于曾国藩,遂被延入苏省舆图总局参与《苏省舆地图》(1868)的测绘,是舆图局的核心成员。(45)尽管李凤苞晚年绝少提及其早年的求学生涯,更无从得知其与新耶稣会士的交往细节,但仍然可以推测,李凤苞与西士在制图上有过一些互动,很有可能费赖之制图所依据的《苏省舆地图》正是通过李凤苞的途径获取。《苏省舆地图》作为江苏省域地图中最好的先行成果,成为新耶稣会制作江南教区以及府、州、县地图最重要的底本。因此,在1922年屠恩烈的《一比二十万江苏省地图》出版的序言里,他必须辩称“冒着抄袭李凤苞作品的风险,我们的传教士想尽办法打开了新局面”(46)。由此可见,以《苏省舆地图》为代表的中国当代测绘舆图,也是新耶稣会制图时无法绕过的。至此可以看到,来自两种传统的地理知识在耶稣会制图活动中逐渐合拢。

    三、行走与感知:地图编绘中的地方性知识

    与19世纪、20世纪来华的地理探险家一样,深入中国进行实地踏勘的新耶稣会地图编绘者,有许多机会与当地人交流并交换“地方性知识”(local knowledge)(47)。这些地图的作者,以西人为绝大多数,作为文化中的“他者”对中国的部分区域进行观察与解读,他们对地方性知识能够以“他者”之眼进行审视、记录与批判。传教士旅居异国、在地纂集“地方性知识”这种学术特点,使其成为“侨居地汉学家”的代表。(48)这一提法既反映其研究方法、旨趣与学术背景同学院派之间的畛域,也昭示其获取地方性知识的便利之境。与其他的天主教修会一样,当其面临文化差异的困境时,新耶稣会汉学家首先想到研治有关历史、地理、语言、风俗、宗教的知识,而这些知识恰为更为专业的学院派汉学研究提供基础,构成“汉学生产链”的上游。(49)地图测绘正是这个上游生产链的关键环节,成为承载地方性知识的载体。身兼汉学家与制图者的一些新耶稣会士在其绘制的地图中,常常急不可耐地试图展现完成这份作品时意外收获的地域性知识。通过地图编绘的谱系,可以反映新耶稣会在地收集、整理、编研地方性知识的痕迹。

    屠恩烈在《一比二十万江苏省地图》序言中提到关于崇明、海门及如皋等地方向感的问题:

    若我们浏览1号和4号分图,我们可以观察到,崇明岛的走向总体是西北—东南。然而,居民们认为这个岛是东西向的,所以他们开凿的垂直于这个方向的运河被认为是南北向的。他们的房屋也是同样,然而实际上是朝向西南的。

    当这个岛的居民前往海门东边新涨的土地上进行开发时(这块土地仍然是崇明县的一部分),他们开凿运河与建造房屋的方向与在岛上一致。

    ……当我们离开此地、进入海门境内(准确地说是南通),这一偏差被纠正了。那里流行的南北走向接近罗盘指示的南北经线,偏离值缩小了(大约3°)。

    当人们进入如皋西部,相反的情形就会出现。如皋城朝向东南,它的居民们就以城门的朝向为基准,他们一般认为的南北走向与崇明人认为的南北走向之间形成了一个夹角:大约有70°的偏差。

    值得注意的是,人们都知道太阳的运行与他们以为的南北方向并不协同。如果他们有一个摆钟,这个钟不会在他们所谓的正午时分敲响;他们吃饭的时间随着这个假定的方向改变:在如皋,人们在十一点半吃饭,在崇明是一点到一点半吃饭。(50)

    屠恩烈着手开展的科学测绘与关于方位的地方性知识之间出现了严重对立。尽管已经到了20世纪20年代,科学测绘的成果与徐家汇观象台的授时制度均尚未惠及崇明、海门的普通居民。屠恩烈作出这一说明,不仅仅是作为旅居的西方人抱有“猎奇”心态而陈述的地方性知识,也是一种为地方性知识纠偏的尝试。

    除此之外,大量的地方性知识是通过收集、阅读地方文献来获取的。上海徐家汇藏书楼曾以收藏大量地方志闻名,这些珍藏乃因各地教士在地方上悉心搜罗所致。对这些地方文献的搜集与研读催生了包括地图在内的汉学作品,其中不少收录在“汉学丛书”中。方殿华就是“汉学丛书”一位活跃的供稿者。(51)方殿华收录于“汉学丛书”的作品中就有三种与南京城市史有关,而该系研究构成了方氏一个野心勃勃的古都研究计划。(52)方殿华早年习绘画,具备文学与艺术修养。他于1895—1899年在南京任职,其间对南京的历史产生了浓厚的兴趣,在几位南京住院的华籍神学修士的帮助下收集文献、绘图、拍照,并实地踏勘、寻访古迹。访古需要一张南京地图,作为一系列南京历史专题研究的工作基础。(53)在此之前,方殿华已经收集了一些中国人绘制的南京城市地图,但他认为这些地图“均为示意图,它们所表现的距离、尺寸、角度误差都很大,只有地名信息是可靠的”,因此自行测绘了一张《江宁府城图》。徐家汇藏书楼旧藏中就有一幅被方殿华指为“示意图”的《金陵省城全图》。该图为版刻墨印地图,以传统绘图法绘制,内容与大英图书馆藏咸同年间所绘《江宁省城图》(54)一致,应为翻刻后者之作。值得注意的是,这张地图以墨色阳文标注今地名,以阴刻文字标注六朝以来的诸多古迹,并附有释文,实际上是一张古今对照的历史地图。有关南京名胜古迹的元素最早出现在晚清文人雅集的图卷上,后来被众多南京城市地图吸纳,流行一时。(55)一般读者很容易就能购得此类地图作为指南,有关古迹名胜的知识也因此流传。收藏于徐家汇藏书楼的这张南京地图很有可能由方氏本人购得后入藏教区的南京住院。方殿华尝试对南京城市历史展开研究时,观摩比照的正是这张地图。不同谱系的南京城市地图不约而同地为读者指出南京的斑驳历史,这种现象足以唤起一位富有艺术修养的欧洲人的怀古幽情,成为方氏考证古迹位置并实地踏勘,同时促使他测绘第一张南京城市地图的动因。

    然而,地方性知识若只停留于本地人与研究者的感知中,正如人类学家与民俗学者所辨析的那样,它的普遍性意义便难于凸显。通过新耶稣会汉学家的著作出版以及同学界的密切互动,借由地图表达的地方性知识也进入了英美汉学的场域中。以夏鸣雷编绘的《安徽省图》为例。该图是夏氏著作《安徽省志》的附图,地图施以石印套色,最为显著的特征是突出道路交通要素。夏鸣雷长期在安徽省活动(56),此书乃是他应皇家亚洲文会北华支会的邀请而编写的。本书的前言收录了一份皇家亚洲文会于1890年2月向会员发出的邀请函,请求受邀者在其作品中收集中国各省的道路与交通方式,特别说明需记录以下几点:1.主要道路;2.古代道路;3.桥梁、隧道;4.商贸干道;5.运输方式;6.运速和运费;7.道路安全;8.沿路食宿以及这些道路上承运的旅客、货物数量等。尽管夏雷鸣并非皇家亚洲文会会员,但当日的徐家汇观象台以团体身份加入此会(57),并收取该会会刊。这份邀请函极有可能是皇家亚洲文会向徐家汇观象台发出的。信件最后恳请受邀人尽可能在当年9月之前将上述信息搜集完毕并寄往文会。(58)收到邀请后夏鸣雷即着手搜集安徽省的资料。在完成文会的任务之后,他将这笔资料另加裒辑,于1893年成书出版。而插入这本书的《安徽省图》,也是应文会的要求,详细描绘了安徽省内水路要道与客运、货运详情,此图被教会史家称赞为当时“最完善的安徽地图”(59)。王皓发现皇家亚洲文会北华支会、新耶稣会都与欧洲汉学界保持密切的往来与互动,三者共同构成了汉学研究的开放场域。在《安徽省志》与《安徽省图》的案例中,可以看到基于新耶稣会士的民族志调查获取的地方性知识在这一开放场域中的迅捷流动。身处中国的新耶稣会汉学家对地方性知识的收集、整编活动引起了皇家亚洲文会北华支会的关注与持续跟进,故有邀请撰文之事,遂促成了这部汉学作品与相关地图的问世。

    四、结论

    案诸史籍,在华履职的新耶稣会士们,尽管具备现代测绘的基本知识,但并未接受专业的测绘训练(60),地图编绘的事业起步于零星的、感性的个人工作。然而这些基于个体经验的地理知识,通过各种信息传递渠道汇总于一端,加上“急就章”式的技术训练,依然能编、测、出版发行一系列数量不菲的地图。地图编绘事业系由许多教士合力按照一系列前后相继的计划展开,非倚一人之力,非图一时之功。时人评价新耶稣会的地图测绘工作称,“由于一系列地理学家的合作,我们的后人将拥有一张几乎没有错讹的地图。”可以说,“集腋成裘”是对新耶稣会地图编绘活动最好的概括。

    遗憾的是,就其影响力而言,新耶稣会所制地图主要的受众依然是传教士以及欧洲其他读者,当时大部分的中国人极少获知这些地图的存在。个中缘由至少有二。其一,作为“江南科学计划”的子项目之一,其出发点正是在于为欧洲服务,相对忽略了中国社会的内在需求(61),其成果多为法文或中法对照出版,语言的横亘令一般中国读者对此望而却步。其二,新耶稣会在华的汉学与科学研究事业,毕竟没有真正成功地进入欧洲学术界的中心(62),当这类在地研究的资料传到欧洲以后,并没有化生为具有影响力的成果“反哺”中国,因此,中国学界不知其名也是理所当然。出于同样的原因,这些地图在中国国内公私机构少有收藏,在中国的社会影响力可见一斑。并且,新耶稣会制图的鼎盛期非常短暂,仅在19世纪70年代到20世纪初呈现蒸蒸日上之势,各种类型、数量甚多的地图不断问世,其中不乏交通地图、教学地图等极具市场价值的出版物。但在20世纪30年代以后,新耶稣会制图的重点转向单一的传教地图,一度具有开拓性的外向型出版机构出现了严重内缩。比较之下可以发现,新耶稣会展开对中国测绘工作的时间,比英法军事测绘地图稍晚一些(63),却比中国自发的民用地图测绘稍早一些,正处在制图技术已经传入中国但商业地图市场尚未开拓的阶段。新耶稣会在地图编绘上的优势在于,能够在“地方性知识”的收集与整理方面占有极佳的地利因素——身处各地的耶稣会士在本职工作之余有充足的机会进行实地踏勘并且“在地”收集地理信息、获取地方性知识。所以表现在地图质量上,新耶稣会地图所呈现的地理信息比英法军事地图更为详密,而覆盖的范围又比当时的商业地图更为广泛,这一切都归功于该团体早期深入中国活动赢得的“地利”优势。然而在戊戌以后,西方地理学知识输入中国的速度增快(64),引起了中国广大民众对地理知识的重视与渴求,在此背景下,民用的地图编绘与出版随之快速发展起来。随着中国本地测绘事业的兴起,新耶稣会制图的地利优势逐渐被抹平。这也是何以新耶稣会制图在19世纪七八十年代到20世纪初叶昙花一现,而后归于沉寂的原因。

    本文在资料搜集过程中蒙傅林祥、徐锦华老师惠赠相关资料,草成后又蒙韩昭庆、潘晟、林宏、庄宏忠以及《国际汉学》外审与编辑部专家提出中肯的修改意见,谨致谢忱。

    注释:

    ①孟德卫(David E.Mungello)著,陈怡译:《奇异的国度:耶稣会适应政策及汉学的起源》(Curious Land:Jesuit Accommodation and the Origins of Sinology),郑州:大象出版社,2010年,第24—25页。

    ②林宏:《卫匡国〈中国新图志〉经纬度数据的来源》,载《中国历史地理论丛》2022年第1期,第29—43页。

    ③需要说明的是,“新耶稣会”并非这一修会的自称,而是作者为讨论之便采用的他称。在西文著述中,作者对于复会后的耶稣会有不同称法,未能统一,或称其为“恢复后的耶稣会”(Restored Society),或为“新耶稣会”(New Society of Jesus)。前者强调它与前身的延续性,后者强调其新创的特征。另外,还有隐去这种“断裂还是延续”争议的表达,如“近代的耶稣会”(Modern Society)。概言之,种种不同的表述的目的无他,只为区分中歇导致这一团体在历史上裂变成的两个行为主体。在中文学界,李天纲率先对这一修会进行研究并采用“新耶稣会”一词。后续的前行研究亦多采用“新耶稣会”这一术语。

    ④史式徽(J.de la Servière)著,天主教上海教区史料译写组译:《江南传教史》第2卷(Histoire de la mission du Kiangnan.Jésuites de la province de France〈Paris〉,1840—1899),上海:上海译文出版社,1983年,第207页。

    ⑤例如,李天纲:《新耶稣会与徐家汇文化事业》,见《文化上海》,上海:上海教育出版社,1998年,第165—187页,张伟、张晓依:《遥望土山湾:追寻消逝的文脉》,上海:同济大学出版社,2012年,第35—36页;王国强:《黄伯禄与徐伯愚:最早获得儒莲奖的中国人》,载《国际汉学》2017年第4期,第127—132页;王皓:《新耶稣会与近代中西学术》,博士学位论文,复旦大学文史研究院,2017年;莫为:《近代徐家汇的本地化知识生产实践:以1923年土山湾印书馆书目表为例》,载《澳门理工学报(人文社会科学版)》2020年第2期,第100一110页。

    ⑥例如,曹胜梅:《从徐家汇教堂到佘山教堂的公路》,载《档案春秋》2005年第1期,第47—48页;陈刚:《晚清南京城市景观研究:基于〈江宁府城图〉与〈陆师学堂新测金陵省城全图〉的研究》,载《中国古都研究》第33辑,2017年,第83—106页。

    ⑦Noël Golvers,”Jesuit Cartographers in China:Francesco Brancati,S.J.,and the Map(1661?) of Sungchiang Prefecture(Shanghai),” Imago Mundi 52(2000):30-42.

    ⑧上海图书馆藏本,索书号:#YTH1509-1576。

    ⑨“Introduction,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,p.1.

    ⑩蒙林宏老师告知,谨致谢忱。

    (11)法国汉学家考狄(Henri Cordier,1849—1925)是费赖之的朋友,亦曾寓目此套手绘地图。在为费赖之撰写的讣告中,他将这套地图视为费赖之的未出版作品。参见考狄为费赖之所撰之讣告”Nécrology:Aloys Pfister,” T’oung-pao 2(1891):464。

    (12)上海图书馆藏本,索书号#YTH328。

    (13)“江南宗座代牧区”成立于1856年,辖境为江苏、安徽两省全境。代牧区委托耶稣会法国省代为管理。

    (14)Henri Havret,L’île de Tsong-ming,à l’embouchure du Yang-tse-kiang.Chang-hai:T’ousè-wè,1892,pp.48-49。本页插图与崇明、海门两张单行地图类似,图上绘出历史时期海岸线的位置。

    (15)Henri Havret,La Province du Ngan-Hoei.Chang-hai:T’ou-sè-wè,1893.

    (16)”Nécrologie:Le P.Auguste Pierre,” Relations de Chine(Paris) 1(1911):57.

    (17)”Introduction,” Henry Dugout,Carte de la province du kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,p.1.

    (18)Mission de la Compagnie de Jésus au Kiang-Nan,Essai de carte de la province du Ngan-Hoei.Shanghai:Zi-ka-wei,1888.法国国家图书馆藏本,收藏号:GED-7289.

    (19)Stanislas Chevalier,Le haut Yang-tse de I-tchang fou à P’ing-chan hien en 1897-1898:voyage et description./Complément de l’Atlas du haut Yang-tse.Shanghai:Impr.de la Presse orientale,1899.

    (20)Répertoire des prix de ta Société de géographie:1829-2004.Paris:Société de géographie,2004.

    (21)吴燕:《近代科学地域扩张背景下的国际经度联测:以中国境内的测量为中心》,载《自然科学史研究》2011年第4期,第417—434页。

    (22)”Introduction,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,p.3.

    (23)”Préface de l’ouvrage complet,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,pp.5-6.

    (24)胡林翼监制,邹世诒等编制,严树森修订:《大清一统舆图》(又名《皇朝中外一统舆图》),清同治二年(1863)湖北抚署景恒楼刊本。李孝聪指出此图乃根据康熙、乾隆两实测内府舆图编制,发行后流传甚广,使清初测绘地图的成果终于能为一般人所应用,成为许多晚清编制的中国地图的基础。在新耶稣会所制《安徽省图》图记中提到这份地图,称“由老耶稣会神父绘制的中国(与周边国家的)地图在武昌府以分卷的形式重印了(1863),这份资料与我们依据的唐维尔地图几乎没有差别”。以故新耶稣会仍然采用杜赫德所列城市的经纬度并且参考唐维尔所制地图,以完成自己的工作。参见Mission de la Compagnie de Jésus au Kiang-Nan,Essai de carte de la province du Ngan-Hoei,法国国家图书馆藏本,收藏号:GED-7289。

    (25)上海图书馆藏本,索书号:#YTH1505。

    (26)”Avertissement,” Edouard Biot,Dictionnaire des noms anciens et modernes des villes et arrondissements de l’empire chinois.Paris:L’imprimerie royale,1842,p.3.

    (27)参见法国国家图书馆网站的柯恒儒页面,http://gffgg0670cc2224fe4612sb6n9uck0p00f6q0o.fgzb.hbpu.wttczd-86544418598.com/fr/11909814/julius_von_klaproth/,最后访问日期:2024年1月28日。

    (28)法国国家图书馆藏本,收藏号:GE C-3589。参见法国国家图书馆网站:http://gffgg495e1090562e4458sb6n9uck0p00f6q0o.fgzb.hbpu.wttczd-86544418598.com/ark:/12148/btv1b530619804/fl.item,最后访问日期:2024年1月28日。该图收录谢国兴、陈宗仁主编:《地舆纵览:法国国家图书馆藏中文舆图》,台北:“中央研究院”,2018年,第176—177页。

    (29)法国国家图书馆藏本,收藏号:CPL GE DD-2987(7197)。参见法国国家图书馆网站:http://gffgg495e1090562e4458sb6n9uck0p00f6q0o.fgzb.hbpu.wttczd-86544418598.com/ark:/12148/btv1b5963065k?rk=42918;4,最后访问日期:2024年1月28日。

    (30)美国国会图书馆藏本,收藏号:gm71005103。

    (31)法国国家图书馆藏本,收藏号:GE C-18215。此图流传甚广。

    (32)法国国家图书馆藏本,收藏号:GE F CARTE-6692。

    (33)林宏:《中西长江口地理知识及地图绘制(10世纪中叶至20世纪初)》,博士学位论文,复旦大学历史地理研究中心,2016年,第128—730页。

    (34)按:其中经度值由推算得到的尤其多。

    (35)汪前进:《〈皇舆全览图〉测绘研究》,中国科学院自然科学史研究所博士学位论文,1990年。

    (36)Karine Chemla,”L’histoire des sciences dans la sinologie des débuts du XIXe siècle:Les Biot père et fils,” Jean-Pierre Abel-Rémusat et ses successeurs.Deux cents ans de sinologie française en France et en Chine.Pierre-Etienne Will and Michel Zink eds..Pairs:Académie des Inscriptions et Belles-Lettres,2020,p.411.

    (37)北京图书馆善本特藏部舆图组编:《舆图要录:北京图书馆藏6827种中外文古旧地图目录》,北京:北京图书馆出版社,1997年,第297页。

    (38)同上。

    (39)同上,第324页。

    (40)北京图书馆善本特藏部舆图组编:《舆图要录:北京图书馆藏6827种中外文古旧地图目录》,第501页。

    (41)A.A.Fauvel,”L’atlas du Haut Yang-Tse du père Chevalier,” Annales dP Géographie,t.9,n.45(1900):259-262.

    (42)满志敏主编:《上海地区城市、聚落和水网空间结构演变》,上海:上海辞书出版社,2013年,第111一112页;王一帆、张佳静:《同治初年江南地区地形测绘研究》,载《中国科技史杂志》2016年第2期,第174—188页。

    (43)其间只有同治十二年(1873)刻印的《江苏省五里方图》,见北京图书馆善本特藏部舆图组编:《舆图要录:北京图书馆藏6827种中外文古旧地图目录》,第297页。

    (44)高龙鞶著,周士良译:《江南传教史》(Histoire de la mission du Kiang-nan)第5册,新北:辅仁大学出版社,2018年,第7页。

    (45)黄宪清:《李凤苞行状》,载《半弓居文集》,上海:上海社会科学院出版社,2015年,第63页。

    (46)”Introduction,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,p.3

    (47)格尔茨(Clifford Geertz,1926—2006)在《地方性知识》(Local Knowledge:Further Essays in Interpretive Anthropology)一书中首先提出这一概念,与具有一般意义的“普遍性知识”相对。这一概念强调知识产生的特定历史背景和情境。近期学者使用的关于新耶稣会的“地域性知识”以及“本地化生产”的知识等概念皆同此义。

    (48)王国强:《〈中国评论〉(1872—1901)与西方汉学》,上海:上海书店出版社,2010年,第122—123页;王皓:《试论十九世纪后期欧洲汉学界的结构与特征》,载《中国文化研究》2020年夏之卷,第167—180页。

    (49)王皓:《新耶稣会与近代中西学术》,第121页。

    (50)”Préface,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,pp.7-8.

    (51)方殿华与夏鸣雷同为“汉学丛书”的发起人,但学界所知较多的是夏氏的贡献,却未曾注意到方氏的开基之功。参见”Nécrologie:Le Père Henri Havret,” Lettres de Jersey(1902):213-230.

    (52)方殿华对南京的研究集结为三种,包括南京最早的实测城市地图《江宁府城图》(Plan de Nankin,1898)以及《南京今昔:开放口岸》(Nankin d’alors et d’aujour d’hui:Nankin port ouvert,1901)、《南京今昔:历史地理》(Nankin d’alors et d’aujour d’hui:Aperçu historique et géographique,1903)两部专著。

    (53)”Nécrologie:Le P.Louis Gaillard,” Lettres de Jersey(1901):129-148.

    (54)咸同年间朱墨双色套印地图,大英图书馆藏。参见胡阿祥、范毅军、陈刚主编:《南京古旧地图集》,南京:凤凰出版社,2018年,第246页。

    (55)钟翀指出,描绘南京名胜古迹的创作思想在南京城的制图史上有着长期的渊源,其蓝本可以追溯到同治三年(1864)邓启贤、邓启昌兄弟与何绍基等文人雅集时所绘之图卷。参见钟翀:《“金陵省城古迹全图”考辨》,载《艺术市场》2021年7月,第69—73页。

    (56)”Nécrologie:Le Père Henri Havret,” Lettres de Jersey(1902):213-230.

    (57)王毅:《皇家亚洲文会北中国支会研究》,上海:上海书店出版社,2005年,第40页。王毅认为这些团体会员不同于个人会员,只是为了获取会刊加入该会,不参与文会的其他任何活动。

    (58)”Avertissement,” Henri Havret,La Province du Ngan-Hoei.Shanghai:T’ou-sè-wè,1893,p.1.

    (59)高龙鞶著,周士良译:《江南传教史》第5册,第8页。

    (60)例如《上江图》的作者蔡尚质,他的科学素养基本得自自学,特别是他的数学知识有限,这也导致他日后几乎所有作品都受到针对这种缺陷的批评。(Cent ans sur le Fleuve Bleu,une mission des Jésuites.hanghai:T’ou-sè-wè,1942,p.153.)

    (61)李天纲:《新耶稣会与徐家汇文化事业》,见《文化上海》,上海:上海教育出版社,1998年,第165—187页。

    (62)随着欧洲学院派汉学的诞生,传教士汉学不可避免地被挤向欧洲主流学界的边缘。参见王皓:《新耶稣会与近代中西学术》,第171—174页。

    (63)例如在新耶稣会尤为着力研究的苏南地区,早在19世纪60年代就有基于测绘的“戈登地图”(Military Plan of the Country Around Shanghai from Surveys Made in 1862,1863,1864,1865)问世。该图是太平天国时期,为英国人戈登(Col.Gordon)所率领的“洋枪队”实施军事行动而绘制的军事地图。澳大利亚国家图书馆藏本,收藏号:MAP RM 372。

    (64)邹振环:《晚清西方地理学在中国》,上海:上海古籍出版社,2000年,第206页。

    转自《国际汉学》(京)2025年第5期

  • 李飞飞 等:Agent AI: Surveying the Horizons of Multimodal Interaction

    Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei1, Jianfeng Gao

    Figure 1: Overview of an Agent AI system that can perceive and act in different domains and applications. Agent AI is emerging as a promising avenue toward Artificial General Intelligence (AGI). Agent AI training has demonstrated the capacity for multi-modal understanding in the physical world. It provides a framework for reality-agnostic training by leveraging generative AI alongside multiple independent data sources. Large foundation models trained for agent and action-related tasks can be applied to physical and virtual worlds when trained on cross-reality data. We present the general overview of an Agent AI system that can perceive and act in many different domains and applications, possibly serving as a route towards AGI using an agent paradigm.

    ABSTRACT

    Multi-modal AI systems will likely become a ubiquitous presence in our everyday lives. A promising approach to making these systems more interactive is to embody them as agents within physical and virtual environments. At present, systems leverage existing foundation models as the basic building blocks for the creation of embodied agents. Embedding agents within such environments facilitates the ability of models to process and interpret visual and contextual data, which is critical for the creation of more sophisticated and context-aware AI systems. For example, a system that can perceive user actions, human behavior, environmental objects, audio expressions, and the collective sentiment of a scene can be used to inform and direct agent responses within the given environment. To accelerate research on agent-based multimodal intelligence, we define “Agent AI” as a class of interactive systems that can perceive visual stimuli, language inputs, and other environmentally-grounded data, and can produce meaningful embodied actions. In particular, we explore systems that aim to improve agents based on next-embodied action prediction by incorporating external knowledge, multi-sensory inputs, and human feedback. We argue that by developing agentic AI systems in grounded environments, one can also mitigate the hallucinations of large foundation models and their tendency to generate environmentally incorrect outputs. The emerging field of Agent AI subsumes the broader embodied and agentic aspects of multimodal interactions. Beyond agents acting and interacting in the physical world, we envision a future where people can easily create any virtual reality or simulated scene and interact with agents embodied within the virtual environment.

    Contents
    1 Introduction
    1.1 Motivation
    1.2 Background
    1.3 Overview
    2 Agent AI Integration
    2.1 Infinite AI agent
    2.2 Agent AI with Large Foundation Models
    2.2.1 Hallucinations
    2.2.2 Biases and Inclusivity
    2.2.3 Data Privacy and Usage
    2.2.4 Interpret ability and Explain ability
    2.2.5 Inference Augmentation
    2.2.6 Regulation
    2.3 Agent AI for Emergent Abilities
    3 Agent AI Paradigm
     3.1 LLMs and VLMs
    3.2 Agent Transformer Definition
    3.3 Agent Transformer Creation
    4 Agent AI Learning
    4.1 Strategy and Mechanism
     4.1.1 Reinforcement Learning(RL)
    4.1.2 Imitation Learning(IL)
     4.1.3 Traditional RGB
    4.1.4 In-context Learning
     4.1.5 Optimization in the Agent System
     4.2 Agent Systems(zero-shot and few-shot level)
    4.2.1 Agent Modules
    4.2.2 Agent Infrastructure
    4.3 Agentic Foundation Models(pretraining and fine tune level)
    5 Agent AI Categorization
    5.1 Generalist Agent Areas
     5.2 Embodied Agents
     5.2.1 Action Agents
    5.2.2 Interactive Agents
    5.3 Simulation and Environments Agents
     5.4 Generative Agents
     5.4.1 AR/VR/mixed-reality Agents
     5.5 Knowledge and Logical Inference Agents
     5.5.1 Knowledge Agent
    5.5.2 Logic Agents
     5.5.3 Agents for Emotional Reasoning
     5.5.4 Neuro-Symbolic Agents
     5.6 LLMs and VLMs Agent
     6 Agent AI Application Tasks
    6.1 Agents for Gaming
     6.1.1 NPC Behavior
    6.1.2 Human-NPC Interaction
    6.1.3 Agent-based Analysis of Gaming
    6.1.4 Scene Synthesis for Gaming
    6.1.5 Experiments and Results
     6.2 Robotics
     6.2.1 LLM/VLM Agent for Robotics.
     6.2.2 Experiments and Results
     6.3 Healthcare
    6.3.1 Current Healthcare Capabilities
    6.4 Multimodal Agents
    6.4.1 Image-Language Understanding and Generation
    6.4.2 Video and Language Understanding and Generation
     6.4.3 Experiments and Results
    6.5 Video-language Experiments
     6.6 Agent for NLP
     6.6.1 LLM agent
    6.6.2 General LLM agent
    6.6.3 Instruction-following LLM agents
    6.6.4 Experiment sand Results
     7 Agent AI Across Modalities, Domains and Realities
    7.1 Agents for Cross-modal Understanding
    7.2 Agents for Cross-domain Understanding
     7.3 Interactive agent for cross-modality and cross-reality
     7.4 Sim to Real Transfer
    8 Continuous and Self-improvement for Agent AI
     8.1 Human-based Interaction Data
    8.2 Foundation Model Generated Data
    9 Agent Dataset and Leaderboard
    9.1 “CuisineWorld” Dataset for Multi-agent Gaming
     9.1.1 Benchmark
     9.1.2 Task
     9.1.3 Metrics and Judging
    9.1.4 Evaluation
    9.2 Audio-Video-Language Pre-training Dataset
    10 Broader Impact Statement
    11 Ethical Considerations

    12 Diversity Statement

    Historically, AI systems were defined at the 1956 Dartmouth Conference as artificial life forms that could collect information from the environment and interact with it in useful ways. Motivated by this definition, Minsky’s MIT group built in 1970 a robotics system, called the “Copy Demo,” that observed “blocks world” scenes and successfully reconstructed the observed polyhedral block structures. The system, which comprised observation, planning, and manipulation modules, revealed that each of these subproblems is highly challenging and further research was necessary. The AI field fragmented into specialized subfields that have largely independently made great progress in tackling these and other problems, but over-reductionism has blurred the overarching goals of AI research.

    To advance beyond the status quo, it is necessary to return to AI fundamentals motivated by Aristotelian Holism. Fortunately, the recent revolution in Large Language Models (LLMs) and Visual Language Models (VLMs) has made it possible to create novel AI agents consistent with the holistic ideal. Seizing upon this opportunity, this article explores models that integrate language proficiency, visual cognition, context memory, intuitive reasoning, and adaptability. It explores the potential completion of this holistic synthesis using LLMs and VLMs. In our exploration, we also revisit system design based on Aristotle’s Final Cause, the teleological “why the system exists”, which may have been overlooked in previous rounds of AI development.

    With the advent of powerful pretrained LLMs and VLMs, a renaissance in natural language processing and computer vision has been catalyzed. LLMs now demonstrate an impressive ability to decipher the nuances of real-world linguistic data, often achieving abilities that parallel or even surpass human expertise (OpenAI, 2023). Recently, researchers have shown that LLMs may be extended to act as agents within various environments, performing intricate actions and tasks when paired with domain-specific knowledge and modules (Xi et al., 2023). These scenarios, characterized by complex reasoning, understanding of the agent’s role and its environment, along with multi-step planning, test the agent’s ability to make highly nuanced and intricate decisions within its environmental constraints (Wu et al., 2023; Meta Fundamental AI Research (FAIR) Diplomacy Team et al., 2022).

    Building upon these initial efforts, the AI community is on the cusp of a significant paradigm shift, transitioning from creating AI models for passive, structured tasks to models capable of assuming dynamic, agentic roles in diverse and complex environments. In this context, this article investigates the immense potential of using LLMs and VLMs as agents, emphasizing models that have a blend of linguistic proficiency, visual cognition, contextual memory, intuitive reasoning, and adaptability. Leveraging LLMs and VLMs as agents, especially within domains like gaming, robotics, and healthcare, promises not just a rigorous evaluation platform for state-of-the-art AI systems, but also foreshadows the transformative impacts that Agent-centric AI will have across society and industries. When fully harnessed, agentic models can redefine human experiences and elevate operational standards. The potential for sweeping automation ushered in by these models portends monumental shifts in industries and socio-economic dynamics. Such advancements will be intertwined with multifaceted leader-board, not only technical but also ethical, as we will elaborate upon in Section 11. We delve into the overlapping areas of these sub-fields of Agent AI and illustrate their interconnectedness in Fig.1.

    1.2 Background

    We will now introduce relevant research papers that support the concepts, theoretical background, and modern implementations of Agent AI.

    Large Foundation Models: LLMs and VLMs have been driving the effort to develop general intelligent machines (Bubeck et al., 2023; Mirchandani et al., 2023). Although they are trained using large text corpora, their superior problem-solving capacity is not limited to canonical language processing domains. LLMs can potentially tackle complex tasks that were previously presumed to be exclusive to human experts or domain-specific algorithms, ranging from mathematical reasoning (Imani et al., 2023; Wei et al., 2022; Zhu et al., 2022) to answering questions of professional law (Blair-Stanek et al., 2023; Choi et al., 2023; Nay, 2022). Recent research has shown the possibility of using LLMs to generate complex plans for robots and game AI (Liang et al., 2022; Wang et al., 2023a,b; Yao et al., 2023a; Huang et al., 2023a), marking an important milestone for LLMs as general-purpose intelligent agents.

    Embodied AI: A number of works leverage LLMs to perform task planning (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), specifically the LLMs’ WWW-scale domain knowledge and emergent zero-shot embodied abilities to perform complex task planning and reasoning. Recent robotics research also leverages LLMsto perform task planning (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) by decomposing natural language instruction into a sequence of subtasks, either in the natural language form or in Python code, then using a low-level controller to execute these subtasks. Additionally, they incorporate environmental feedback to improve task performance (Huang et al., 2022b), (Liang et al., 2022), (Wang et al., 2023a), and (Ikeuchi et al., 2023).

    Interactive Learning: AI agents designed for interactive learning operate using a combination of machine learning techniques and user interactions. Initially, the AI agent is trained on a large dataset. This dataset includes various types of information, depending on the intended function of the agent. For instance, an AI designed for language tasks would be trained on a massive corpus of text data. The training involves using machine learning algorithms, which could include deep learning models like neural networks. These training models enable the AI to recognize patterns, make predictions, and generate responses based on the data on which it was trained. The AI agent can also learn from real-time interactions with users. This interactive learning can occur in various ways: 1) Feedback-based learning: The AI adapts its responses based on direct user feedback (Li et al., 2023b; Yu et al., 2023a; Parakh et al., 2023; Zha et al., 2023; Wake et al., 2023a,b,c). For example, if a user corrects the AI’s response, the AI can use this information to improve future responses (Zha et al., 2023; Liu et al., 2023a). 2) Observational Learning: The AI observes user interactions and learns implicitly. For example, if users frequently ask similar questions or interact with the AI in a particular way, the AI might adjust its responses to better suit these patterns. It allows the AI agent to understand and process human language, multi-model setting, interpret the cross reality-context, and generate human-users’ responses. Over time, with more user interactions and feedback, the AI agent’s performance generally continuous improves. This process is often supervised by human operators or developers who ensure that the AI is learning appropriately and not developing biases or incorrect patterns.

    1.3 Overview

    Multimodal Agent AI (MAA) is a family of systems that generate effective actions in a given environment based on the understanding of multimodal sensory input. With the advent of Large Language Models (LLMs) and Vision Language Models (VLMs), numerous MAA systems have been proposed in fields ranging from basic research to applications. While these research areas are growing rapidly by integrating with the traditional technologies of each domain (e.g., visual question answering and vision-language navigation), they share common interests such as data collection, benchmarking, and ethical perspectives. In this paper, we focus on the some representative research areas of MAA, namely multimodality, gaming (VR/AR/MR), robotics, and healthcare, and we aim to provide comprehensive knowledge on the common concerns discussed in these fields. As a result we expect to learn the fundamentals of MAA and gain insights to further advance their research. Specific learning outcomes include:

    •MAA Overview: A deep dive into its principles and roles in contemporary applications, providing researcher with a thorough grasp of its importance and uses.
    •Methodologies: Detailed examples of how LLMs and VLMs enhance MAAs, illustrated through case studies in gaming, robotics, and healthcare.
    •Performance Evaluation: Guidance on the assessment of MAAs with relevant datasets, focusing on their effectiveness and generalization.
    •Ethical Considerations: A discussion on the societal impacts and ethical leader-board of deploying Agent AI, highlighting responsible development practices.
    •Emerging Trends and Future leader-board: Categorize the latest developments in each domain and discuss the future directions.

    Computer-based action and generalist agents (GAs) are useful for many tasks. A GA to become truly valuable to its users, it can natural to interact with, and generalize to a broad range of contexts and modalities. We aims to cultivate a vibrant research ecosystem and create a shared sense of identity and purpose among the Agent AI community. MAA has the potential to be widely applicable across various contexts and modalities, including input from humans. Therefore, we believe this Agent AI area can engage a diverse range of researchers, fostering a dynamic Agent AI community and shared goals. Led by esteemed experts from academia and industry, we expect that this paper will be an interactive and

    enriching experience, complete with agent instruction, case studies, tasks sessions, and experiments discussion ensuring a comprehensive and engaging learning experience for all researchers.

    This paper aims to provide general and comprehensive knowledge about the current research in the field of Agent AI. To this end, the rest of the paper is organized as follows. Section 2 outlines how Agent AI benefits from integrating with related emerging technologies, particularly large foundation models. Section 3 describes a new paradigm and framework that we propose for training Agent AI. Section 4 provides an overview of the methodologies that are widely used in the training of Agent AI. Section 5 categorizes and discusses various types of agents. Section 6 introduces Agent AI applications in gaming, robotics, and healthcare. Section 7 explores the research community’s efforts to develop a versatile Agent AI, capable of being applied across various modalities, domains, and bridging the sim-to-real gap. Section 8 discusses the potential of Agent AI that not only relies on pre-trained foundation models, but also continuously learns and self-improves by leveraging interactions with the environment and users. Section 9 introduces our new datasets that are designed for the training of multimodal Agent AI. Section 11 discusses the hot topic of the ethics consideration of AI agent, limitations, and societal impact of our paper.

    2 Agent AI Integration

    Foundation models based on LLMs and VLMs, as proposed in previous research, still exhibit limited performance in the area of embodied AI, particularly in terms of understanding, generating, editing, and interacting within unseen environments or scenarios (Huang et al., 2023a; Zeng et al., 2023). Consequently, these limitations lead to sub-optimal outputs from AI agents. Current agent-centric AI modeling approaches focus on directly accessible and clearly defined data (e.g. text or string representations of the world state) and generally use domain and environment-independent patterns learned from their large-scale pretraining to predict action outputs for each environment (Xi et al., 2023; Wang et al., 2023c; Gong et al., 2023a; Wu et al., 2023). In (Huang et al., 2023a), we investigate the task of knowledge-guided collaborative and interactive scene generation by combining large foundation models, and show promising results that indicate knowledge-grounded LLM agents can improve the performance of 2D and 3D scene understanding, generation, and editing, alongside with other human-agent interactions (Huang et al., 2023a). By integrating an Agent AI framework, large foundation models are able to more deeply understand user input to form a complex and adaptive HCI system. Emergent ability of LLM and VLM works invisible in generative AI, embodied AI, knowledge augmentation for multi-model learning, mix-reality generation, text to vision editing, human interaction for 2D/3D simulation in gaming or robotics tasks. Agent AI recent progress in foundation models present an imminent catalyst for unlocking general intelligence in embodied agents. The large action models, or agent-vision-language models open new possibilities for general-purpose embodied systems such as planning, problem-solving and learning in complex environments. Agent AI test further step in metaverse, and route the early version of AGI.

    2.1 Infinite AI agent

    AI agents have the capacity to interpret, predict, and respond based on its training and input data. While these capabilities are advanced and continually improving, it’s important to recognize their limitations and the influence of the underlying data they are trained on. AI agent systems generally possess the following abilities: 1) Predictive Modeling: AI agents can predict likely outcomes or suggest next steps based on historical data and trends. For instance, they might predict the continuation of a text, the answer to a question, the next action for a robot, or the resolution of a scenario. 2) Decision Making: In some applications, AI agents can make decisions based on their inferences. Generally, the agent will base their decision on what is most likely to achieve a specified goal. For AI applications like recommendation systems, an agent can decide what products or content to recommend based on its inferences about user preferences. 3) Handling Ambiguity: AI agents can often handle ambiguous input by inferring the most likely interpretation based on context and training. However, their ability to do so is limited by the scope of their training data and algorithms. 4) Continuous Improvement: While some AI agents have the ability to learn from new data and interactions, many large language models do not continuously update their knowledge-base or internal representation after training. Their inferences are usually based solely on the data that was available up to the point of their last training update.

    We show augmented interactive agents for multi-modality and cross reality-agnostic integration with an emergence mechanism in Fig. 2. An AI agent requires collecting extensive training data for every new task, which can be costly or impossible for many domains. In this study, we develop an infinite agent that learns to transfer memory information from general foundation models (e.g., GPT-X, DALL-E) to novel domains or scenarios for scene understanding, generation, and interactive editing in physical or virtual worlds.

    Figure 2: The multi-model agent AI for 2D/3D embodied generation and editing interaction in cross-reality.

    An application of such an infinite agent in robotics is RoboGen (Wang et al., 2023d). In this study, the authors propose a pipeline that autonomously run the cycles of task proposition, environment generation, and skill learning. RoboGen is an effort to transfer the knowledge embedded in large models to robotics.

    2.2 Agent AI with Large Foundation Models

    Recent studies have indicated that large foundation models play a crucial role in creating data that act as benchmarks for determining the actions of agents within environment-imposed constraints. For example, using foundation models for robotic manipulation (Black et al., 2023; Ko et al., 2023) and navigation (Shah et al., 2023a; Zhou et al., 2023a). To illustrate, Black et al. employed an image-editing model as a high-level planner to generate images of future sub-goals, thereby guiding low-level policies (Black et al., 2023). For robot navigation, Shah et al. proposed a system that employs a LLMtoidentify landmarks from text and a VLM to associate these landmarks with visual inputs, enhancing navigation through natural language instructions (Shah et al., 2023a).

    There is also growing interest in the generation of conditioned human motions in response to language and environmental factors. Several AI systems have been proposed to generate motions and actions that are tailored to specific linguistic instructions (Kim et al., 2023; Zhang et al., 2022; Tevet et al., 2022) and to adapt to various 3D scenes (Wang et al., 2022a). This body of research emphasizes the growing capabilities of generative models in enhancing the adaptability and responsiveness of AI agents across diverse scenarios.

    2.2.1 Hallucinations

    Agents that generate text are often prone to hallucinations, which are instances where the generated text is nonsensical or unfaithful to the provided source content (Raunak et al., 2021; Maynez et al., 2020). Hallucinations can be split into two categories, intrinsic and extrinsic (Ji et al., 2023). Intrinsic hallucinations are hallucinations that are contradictory to the source material, whereas extrinsic hallucinations are when the generated text contains additional information that was not originally included in the source material.

    Some promising routes for reducing the rate of hallucination in language generation involve using retrieval-augmented generation (Lewis et al., 2020; Shuster et al., 2021) or other methods for grounding natural language outputs via external knowledge retrieval (Dziri et al., 2021; Peng et al., 2023). Generally, these methods seek to augment language generation by retrieving additional source material and by providing mechanisms to check for contradictions between the generated response and the source material.

    Within the context of multi-modal agent systems, VLMs have been shown to hallucinate as well (Zhou et al., 2023b). One common cause of hallucination for vision-based language-generation is due to the over-reliance on co-occurrence of objects and visual cues in the training data (Rohrbach et al., 2018). AI agents that exclusively rely upon pretrained LLMs or VLMs and use limited environment-specific finetuning can be particularly vulnerable to hallucinations since they rely upon the internal knowledge-base of the pretrained models for generating actions and may not accurately understand the dynamics of the world state in which they are deployed.

    2.2.2 Biases and Inclusivity

    AI agents based on LLMs or LMMs (large multimodal models) have biases due to several factors inherent in their design and training process. When designing these AI agents, we must be mindful of being inclusive and aware of the needs of all end users and stakeholders. In the context of AI agents, inclusivity refers to the measures and principles

    employed to ensure that the agent’s responses and interactions are inclusive, respectful, and sensitive to a wide range of users from diverse backgrounds. We list key aspects of agent biases and inclusivity below.

    •Training Data: Foundation models are trained on vast amounts of text data collected from the internet, including books, articles, websites, and other text sources. This data often reflects the biases present in human society, and the model can inadvertently learn and reproduce these biases. This includes stereotypes, prejudices, and slanted viewpoints related to race, gender, ethnicity, religion, and other personal attributes. In particular, by training on internet data and often only English text, models implicitly learn the cultural norms of Western, Educated, Industrialized, Rich, and Democratic (WEIRD) societies (Henrich et al., 2010) who have a disproportionately large internet presence. However, it is essential to recognize that datasets created by humans cannot be entirely devoid of bias, since they frequently mirror the societal biases and the predispositions of the individuals who generated and/or compiled the data initially.

    •Historical and Cultural Biases: AI models are trained on large datasets sourced from diverse content. Thus, the training data often includes historical texts or materials from various cultures. In particular, training data from historical sources may contain offensive or derogatory language representing a particular society’s cultural norms, attitudes, and prejudices. This can lead to the model perpetuating outdated stereotypes or not fully understanding contemporary cultural shifts and nuances.

    •Language and Context Limitations: Language models might struggle with understanding and accurately representing nuances in language, such as sarcasm, humor, or cultural references. This can lead to misinterpretations or biased responses in certain contexts. Furthermore, there are many aspects of spoken language that are not captured by pure text data, leading to a potential disconnect between human understanding of language and how models understand language.

    •Policies and Guidelines: AI agents operate under strict policies and guidelines to ensure fairness and inclusivity. For instance, in generating images, there are rules to diversify depictions of people, avoiding stereotypes related to race, gender, and other attributes.

    •Overgeneralization: These models tend to generate responses based on patterns seen in the training data. This can lead to overgeneralizations, where the model might produce responses that seem to stereotype or make broad assumptions about certain groups.

    •Constant Monitoring and Updating: AI systems are continuously monitored and updated to address any emerging biases or inclusivity issues. Feedback from users and ongoing research in AI ethics play a crucial role in this process.

    •Amplification of Dominant Views: Since the training data often includes more content from dominant cultures or groups, the model may be more biased towards these perspectives, potentially underrepresenting or misrepresenting minority viewpoints. •Ethical and Inclusive Design: AI tools should be designed with ethical considerations and inclusivity as core principles. This includes respecting cultural differences, promoting diversity, and ensuring that the AI does not perpetuate harmful stereotypes.

    •User Guidelines: Users are also guided on how to interact with AI in a manner that promotes inclusivity and respect. This includes refraining from requests that could lead to biased or inappropriate outputs. Furthermore, it can help mitigate models learning harmful material from user interactions.

    Despite these measures, AI agents still exhibit biases. Ongoing efforts in agent AI research and development are focused on further reducing these biases and enhancing the inclusivity and fairness of agent AI systems. Efforts to Mitigate Biases:

    •Diverse and Inclusive Training Data: Efforts are made to include a more diverse and inclusive range of sources in the training data.

    •Bias Detection and Correction: Ongoing research focuses on detecting and correcting biases in model responses.

    •Ethical Guidelines and Policies: Models are often governed by ethical guidelines and policies designed to mitigate biases and ensure respectful and inclusive interactions.

    •Diverse Representation: Ensuring that the content generated or the responses provided by the AI agent represent a wide range of human experiences, cultures, ethnicities, and identities. This is particularly relevant in scenarios like image generation or narrative construction.

    •Bias Mitigation: Actively working to reduce biases in the AI’s responses. This includes biases related to race, gender, age, disability, sexual orientation, and other personal characteristics. The goal is to provide fair and balanced responses that do not perpetuate stereotypes or prejudices.

    •Cultural Sensitivity: The AI is designed to be culturally sensitive, acknowledging and respecting the diversity of cultural norms, practices, and values. This includes understanding and appropriately responding to cultural references and nuances.

    •Accessibility: Ensuring that the AI agent is accessible to users with different abilities, including those with disabilities. This can involve incorporating features that make interactions easier for people with visual, auditory, motor, or cognitive impairments.

    •Language-based Inclusivity: Providing support for multiple languages and dialects to cater to a global user base, and being sensitive to the nuances and variations within a language (Liu et al., 2023b).

    •Ethical and Respectful Interactions: The Agent is programmed to interact ethically and respectfully with all users, avoiding responses that could be deemed offensive, harmful, or disrespectful.

    •User Feedback and Adaptation: Incorporating user feedback to continually improve the inclusivity and effectiveness of the AI agent. This includes learning from interactions to better understand and serve a diverse user base.

    •Compliance with Inclusivity Guidelines: Adhering to established guidelines and standards for inclusivity in AI agent, which are often set by industry groups, ethical boards, or regulatory bodies.

    Despite these efforts, it’s important to be aware of the potential for biases in responses and to interpret them with critical thinking. Continuous improvements in AI agent technology and ethical practices aim to reduce these biases over time. One of the overarching goals for inclusivity in agent AI is to create an agent that is respectful and accessible to all users, regardless of their background or identity.

    2.2.3 Data Privacy and Usage

    One key ethical consideration of AI agents involves comprehending how these systems handle, store, and potentially retrieve user data. We discuss key aspects below:

    Data Collection, Usage and Purpose. When using user data to improve model performance, model developers access the data the AI agent has collected while in production and interacting with users. Some systems allow users to view their data through user accounts or by making a request to the service provider. It is important to recognize what data the AI agent collects during these interactions. This could include text inputs, user usage patterns, personal preferences, and sometimes more sensitive personal information. Users should also understand how the data collected from their interactions is used. If, for some reason, the AI holds incorrect information about a particular person or group, there should be a mechanism for users to help correct this once identified. This is important for both accuracy and to be respectful of all users and groups. Common uses for retrieving and analyzing user data include improving user interaction, personalizing responses, and system optimization. It is extremely important for developers to ensure the data is not used for purposes that users have not consented to, such as unsolicited marketing.

    Storage and Security. Developers should know where the user interaction data is stored and what security measures are in place to protect it from unauthorized access or breaches. This includes encryption, secure servers, and data protection protocols. It is extremely important to determine if agent data is shared with third parties and under what conditions. This should be transparent and typically requires user consent.

    Data Deletion and Retention. It is also important for users to understand how long user data is stored and how users can request its deletion. Many data protection laws give users the right to be forgotten, meaning they can request their data be erased. AI agents must adhere to data protection laws like GDPR in the EU or CCPA in California. These laws govern data handling practices and user rights regarding their personal data.

    Data Portability and Privacy Policy. Furthermore, developers must create the AI agent’s privacy policy to document and explain to users how their data is handled. This should detail data collection, usage, storage, and user rights. Developers should ensure that they obtain user consent for data collection, especially for sensitive information. Users typically have the option to opt-out or limit the data they provide. In some jurisdictions, users may even have the right to request a copy of their data in a format that can be transferred to another service provider.

    Anonymization. For data used in broader analysis or AI training, it should ideally be anonymized to protect individual identities. Developers must understand how their AI agent retrieves and uses historical user data during interactions. This could be for personalization or improving response relevance.

    In summary, understanding data privacy for AI agents involves being aware of how user data is collected, used, stored, and protected, and ensuring that users understand their rights regarding accessing, correcting, and deleting their data. Awareness of the mechanisms for data retrieval, both by users and the AI agent, is also crucial for a comprehensive understanding of data privacy.

    2.2.4 Interpretability and Explainability

    Imitation Learning → Decoupling. Agents are typically trained using a continuous feedback loop in Reinforcement Learning (RL) or Imitation Learning (IL), starting with a randomly initialized policy. However, this approach faces leader-board in obtaining initial rewards in unfamiliar environments, particularly when rewards are sparse or only available at the end of a long-step interaction. Thus, a superior solution is to use an infinite-memory agent trained through IL, which can learn policies from expert data, improving exploration and utilization of unseen environmental space with emergent infrastructure as shown in Fig. 3. With expert characteristics to help the agent explore better and utilize the unseen environmental space. Agent AI, can learn policies and new paradigm flow directly from expert data.

    Traditional IL has an agent mimicking an expert demonstrator’s behavior to learn a policy. However, learning the expert policy directly may not always be the best approach, as the agent may not generalize well to unseen situations. To tackle this, we propose learning an agent with in-context prompt or a implicit reward function that captures key aspects of the expert’s behavior, as shown in Fig. 3. This equips the infinite memory agent with physical-world behavior data for task execution, learned from expert demonstrations. It helps overcome existing imitation learning drawbacks like the need for extensive expert data and potential errors in complex tasks. The key idea behind the Agent AI has two parts: 1) the infinite agent that collects physical-world expert demonstrations as state-action pairs and 2) the virtual environment that imitates the agent generator. The imitating agent produces actions that mimic the expert’s behavior, while the agent learns a policy mapping from states to actions by reducing a loss function of the disparity between the expert’s actions and the actions generated by the learned policy.

    Decoupling → Generalization. Rather than relying on a task-specific reward function, the agent learns from expert demonstrations, which provide a diverse set of state-action pairs covering various task aspects. The agent then learns a policy that maps states to actions by imitating the expert’s behavior. Decoupling in imitation learning refers to separating the learning process from the task-specific reward function, allowing the policy to generalize across different tasks without explicit reliance on the task-specific reward function. By decoupling, the agent can learn from expert demonstrations and learn a policy that is adaptable to a variety of situations. Decoupling enables transfer learning, where a policy learned in one domain can adapt to others with minimal fine-tuning. By learning a general policy that is not tied to a specific reward function, the agent can leverage the knowledge it acquired in one task to perform well in other related tasks. Since the agent does not rely on a specific reward function, it can adapt to changes in the reward function or environment without the need for significant retraining. This makes the learned policy more robust and generalizable across different environments. Decoupling in this context refers to the separation of two tasks in the learning process: learning the reward function and learning the optimal policy.

    Generalization → Emergent Behavior. Generalization explains how emergent properties or behaviors can arise from simpler components or rules. The key idea lies in identifying the basic elements or rules that govern the behavior of the system, such as individual neurons or basic algorithms. Consequently, by observing how these simple components or rules interact with one another. These interactions of these components of ten lead to the emergence of complex behaviors, which are not predictable by examining individual components alone. Generalization across different levels of complexity allows a system to learn general principles applicable across these levels, leading to emergent properties. This enables the system to adapt to new situations, demonstrating the emergence of more com plex behaviors from simpler rules. Furthermore, the ability to generalize across different complexity levels facilitates knowledge transfer from one domain to an other, which contributes to the emergence of complex behaviors in new contexts as the system adapts.

    Figure 3: Example of the Emergent Interactive Mechanism using an agent to identify text relevant to the image from candidates. The task involves using a multi-modal AI agent from the web and human-annotated knowledge interaction samples to incorporate external world information.

    2.2.5 Inference Augmentation

    The inference ability of an AI agent lies in its capacity to interpret, predict, and respond based on its training and input data. While these capabilities are advanced and continually improving, it’s important to recognize their limitations and the influence of the underlying data they are trained on. Particularly, in the context of large language models, it refers to its capacity to draw conclusions, make predictions, and generate responses based on the data it has been trained on and the input it receives. Inference augmentation in AI agents refers to enhancing the AI’s natural inference abilities with additional tools, techniques, or data to improve its performance, accuracy, and utility. This can be particularly important in complex decision-making scenarios or when dealing with nuanced or specialized content. We denote particularly important sources for inference augmentation below:

    Data Enrichment. Incorporating additional, often external, data sources to provide more context or background can help the AI agent make more informed inferences, especially in areas where its training data may be limited. For example, AI agents can infer meaning from the context of a conversation or text. They analyze the given information and use it to understand the intent and relevant details of user queries. These models are proficient at recognizing patterns in data. They use this ability to make inferences about language, user behavior, or other relevant phenomena based on the patterns they’ve learned during training.

    Algorithm Enhancement. Improving the AI’s underlying algorithms to make better inferences. This could involve using more advanced machine learning models, integrating different types of AI (like combining NLP with image recognition), or updating algorithms to better handle complex tasks. Inference in language models involves understand ing and generating human language. This includes grasping nuances like tone, intent, and the subtleties of different linguistic constructions. Human-in-the-Loop (HITL). Involving human input to augment the AI’s inferences can be particularly useful in areas where human judgment is crucial, such as ethical considerations, creative tasks, or ambiguous scenarios. Humans can provide guidance, correct errors, or offer insights that the agent would not be able to infer on its own. Real-Time Feedback Integration. Using real-time feedback from users or the environment to enhance inferences is another promising method for improving performance during inference. For example, an AI might adjust its recommendations based on live user responses or changing conditions in a dynamic system. Or, if the agent is taking actions in a simulated environment that break certain rules, the agent can be dynamically given feedback to help correct itself. Cross-Domain Knowledge Transfer. Leveraging knowledge or models from one domain to improve inferences in another can be particularly helpful when producing outputs within a specialized discipline. For instance, techniques developed for language translation might be applied to code generation, or insights from medical diagnostics could enhance predictive maintenance in machinery. Customization for Specific Use Cases. Tailoring the AI’s inference capabilities for particular applications or industries can involve training the AI on specialized datasets or fine-tuning its models to better suit specific tasks, such as legal analysis, medical diagnosis, or financial forecasting. Since the particular language or information within one domain can greatly contrast with the language from other domains, it can be beneficial to finetune the agent on domain-specific information. Ethical and Bias Considerations. It is important to ensure that the augmentation process does not introduce new biases or ethical issues. This involves careful consideration of the sources of additional data or the impact of the new inference augmentation algorithms on fairness and transparency. When making inferences, especially about sensitive topics, AI agents must sometimes navigate ethical considerations. This involves avoiding harmful stereotypes, respecting privacy, and ensuring fairness. Continuous Learning and Adaptation. Regularly updating and refining the AI’s capabilities to keep up with new developments, changing data landscapes, and evolving user needs. In summmary, winference augmentation in AI agents involves methods in which their natural inference abilities can be enhanced through additional data, improved algorithms, human input, and other techniques. Depending on the use-case, this augmentation is often essential for dealing with complex tasks and ensuring accuracy in the agent’s outputs. 2.2.6 Regulation Recently, Agent AI has made significant advancements, and its integration into embodied systems has opened new possibilities for interacting with agents via more immersive, dynamic, and engaging experiences. To expedite the process and ease the cumbersome work in agent AI developing, we are proposing to develop the next-generation AI-empowered pipeline for agent interaction. Develop a human-machine collaboration system where humans and machines can communicate and interact meaningfully. The system can leverage the LLM’s or VLM dialog capabilities and vast action to talk with human players and identify human needs. Then it will perform proper actions to help human players upon request. When employing LLM/VLMs for a human-machine collaboration system, it is essential to note that these operate as black boxes, generating unpredictable output. This uncertainty can become crucial in a physical setup, such as operating actual robotics. An approach to address this challenge is constraining the focus of the LLM/VLM through prompt engineering. For instance, in robotic task planning from instructions, providing environmental information within the prompt has been reported to yield more stable outputs than relying solely on text (Gramopadhye and Szafir, 2022). This report is supported by the Minsky’s frame theory of AI (Minsky, 1975), suggesting that the problem space to be solved by LLM/VLMs is defined by the given prompts. Another approach is designing prompts to make LLM/VLMs include explanatory text to allow users understand what the model has focused on or recognized. Additionally, implementing a higher layer that allows for pre-execution verification and modification under human guidance can facilitate the operation of systems working under such guidance (Fig. 4).

    Figure 4: A robot teaching system developed in (Wake et al., 2023c). (Left) The system workflow. The process involves three steps: Task planning, where ChatGPT plans robotic tasks from instructions and environmental information; Demonstration, where the user visually demonstrates the action sequence. All the steps are reviewed by the user, and if any step fails or shows deficiencies, the previous steps can be revisited as necessary. (Right) A web application that enables uploading of demonstration data and the interaction between the user and ChatGPT.

    2.3 Agent AI for Emergent Abilities

    Despite the growing adoption of interactive agent AI systems, the majority of proposed methods still face a challenge in terms of their generalization performance in unseen environments or scenarios. Current modeling practices require developers to prepare large datasets for each domain to finetune/pretrain models; however, this process is costly and even impossible if the domain is new. To address this issue, we build interactive agents that leverage the knowledge-memory of general-purpose foundation models (ChatGPT, Dall-E, GPT-4, etc.) for a novel scenario, specifically for generating a collaboration space between humans and agents. We discover an emergent mechanism— which we name Mixed Reality with Knowledge Inference Interaction—that facilitates collaboration with humans to solve challenging tasks in complex real-world environments and enables the exploration of unseen environments for adaptation to virtual reality. For this mechanism, the agent learns i) micro-reactions in cross-modality: collecting relevant individual knowledge for each interaction task (e.g., understanding unseen scenes) from the explicit web source and by implicitly inferring from the output of pretrained models; ii) macro-behavior in reality-agnostic: improving interactive dimensions and patterns in language and multi-modality domains, and make changes based on characterized roles, certain target variable, influenced diversification of collaborative information in mixed-reality and LLMs. We investigate the task of knowledge-guided interactive synergistic effects to collaborated scene generation with combining various OpenAI models, and show promising results of how the interactive agent system can further boost the large foundation models in our setting. It integrates and improves the depth of generalization, conscious and interpretability of a complex adaptive AI systems.

    Figure 5: Our proposed new agent paradigm for a multi-modal generalist agent. There are 5 main modules as shown in the figures: 1) Environment and Perception with task-planning and skill observation; 2) Agent learning; 3) Memory; 4) Agent action; 5) Cognition.

    3 Agent AI Paradigm

    In this section, we discuss a new paradigm and framework for training Agent AI. We seek to accomplish several goals with our proposed framework:

    • Makeuse of existing pre-trained models and pre-training strategies to effectively bootstrap our agents with effective understanding of important modalities, such as text or visual inputs.
    • Support for sufficient long-term task-planning capabilities.
    • Incorporate a framework for memory that allows for learned knowledge to be encoded and retrieved later.
    • Allow for environmental feedback to be used to effectively train the agent to learn which actions to take.

    We show a high-level new agent diagram outlining the important submodules of such a system in Fig. 5.

    3.1 LLMs and VLMs

    We can use the LLM or VLM model to bootstrap the components of the Agent as showed in Fig. 5. In particular, LLMs have been shown to perform well for task-planning (Gong et al., 2023a), contain significant world knowledge (Yu et al., 2023b), and display impressive logical reasoning capabilities (Creswell et al., 2022). Additionally, VLMs such as CLIP (Radford et al., 2021) provide a general visual encoder that is language-aligned, as well as providing zero-shot visual recognition capabilities. For example, state-of-the-art open-source multi-modal models such as LLaVA (Liu et al., 2023c) and Instruct BLIP (Dai et al., 2023) rely upon frozen CLIP models as visual encoders.

    3.2 Agent Transformer Definition

    Instead of using frozen LLMs and VLMs for the AI agent, it is also possible to use a single-agent transformer model that takes visual tokens and language tokens as input, similar to Gato (Reed et al., 2022). In addition to vision and language, we add a third general type of input, which we denote as agent tokens. Conceptually, agent tokens are used to reserve a specific subspace of the input and output space of the model for agentic behaviors. For robotics or game playing, this may be represented as the input action space of the controller. When training agents to use specific tools, such as image-generation or image-editing models, or for other API calls, agent tokens can also be used. As showed in Fig. 7, we can combine the agent tokens with visual and language tokens to generate a unified interface for training multi-modal agent AI. Compared to using large, proprietary LLMs as agents, there are several advantages to using an agent transformer. Firstly, the model can be easily customized to very specific agentic tasks that may be difficult to represent in natural language (e.g. controller inputs or other specific actions). Thus, the agent can learn from environmental interactions and domain-specific data to improve performance. Secondly, it can be easier to understand why the model does or does not take specific actions by having access to the probabilities of the agent tokens. Thirdly, there are certain domains such as healthcare and law that have strict data privacy requirements. Finally, a relatively smaller agent transformer can potentially be significantly cheaper than a larger proprietary language model.

    Figure 6: We show the current paradigm for creating multi-modal AI agents by incorporating a Large Language Model (LLM) with a Large Vision Model (LVM). Generally, these models take visual or language inputs and use pre-trained and frozen visual and language models, learning smaller sub-network that connect and bridge modalities. Examples include Flamingo (Alayrac et al., 2022), BLIP-2 (Li et al., 2023c), InstructBLIP (Dai et al., 2023), and LLaVA (Liu et al., 2023c).
    Figure 7: The unified agent multi-modal transformer model. Instead of connecting frozen submodules and using existing foundation models as building blocks, we propose a unified and end-to-end training paradigm for agent systems. We can still initialize the submodules with LLMs and LVMs as in Figure 6 but also make use of agent tokens, specialized tokens for training the model to perform agentic behaviors in a specific domain (e.g., robotics). For more details about agent tokens, see Section 3.2

    3.3 Agent Transformer Creation

    As shown above in Fig. 5, we can use the new agent paradigm with LLM and VLM-bootstrapped agents, as well as leveraging data generated from large foundation models to train the agent transformer model for learning to execute specific goals. Within this process, the agent model is trained to be specialized and tailored for specific tasks and domains. This approach allows you to leverage a pre-existing, foundation model’s learned features and knowledge. We show a simplified overview of the process in two steps below:

    Define Objectives within the Domain. In order to train the agent transformer, the objectives and the action-space of the agent within the context of each specific environment needs to be clearly defined. This includes determining which specific tasks or actions the agent needs to perform and assigning unique agent tokens for each. Furthermore, any automatic rules or procedures that can be used to identify successful completion of tasks can significantly improve the amount of data available for training. Otherwise, foundation-model generated or human-annotated data will be required for training the model. After the data is collected and it is possible to evaluate the performance of the agent, the process of continuous improvement can begin.

    Continuous Improvement. Continuous monitoring of the model’s performance and collection of feedback are essential steps in the process. Feedback should be used for further fine-tuning and updates. It is also crucial to ensure that the model does not perpetuate biases or unethical outcomes. This necessitates a careful examination of the training data, regular checks for biases in outputs, and, if needed, training the model to recognize and avoid biases. Once the model achieves satisfactory performance, it can be deployed for the intended application. Continuous monitoring remains vital to ensure that the model performs as expected and to facilitate necessary adjustments. More details on this process, sources of training data, and details surrounding continous learning for agent AI can be found in Section 8.

    4 Agent AI Learning

    4.1 Strategy and Mechanism

    The strategy of interactive AI on different domains which extends the paradigm of calling large foundation models with a trained agent that actively seeks to collect user feedback, action information, useful knowledge for generation and interaction. Some times, the LLM/VLM models are not need to trained again, and we improve their performance by providing improved contextual prompts at test time for an agent. On the other hand, it always involves a knowl edge/reasoning/commonsense/inference interactive modeling through a combination of triple systems- one performing knowledge retrieval from multi-model query, second performing interactive generation from the relevant agent, and last one the trained a new, informative self-supervised training or pre-training with reinforcement learning or imitation learning with improved way.

    4.1.1 Reinforcement Learning (RL) There is a rich history of leveraging reinforcement learning (RL) to train interactive agents that exhibits intelligent behaviors. RL is a methodology to learn the optimal relationship between states and actions based on rewards (or penalties) received as a result of its actions. RL is a highly scalable framework that has been applied to numerous applications including robotics, however, it generally faces several leader-board and LLM/VLMs have shown their potential to mitigate or overcome some of those difficulties:

    • Reward designing The efficiency of policy learning greatly depends on the design of the reward function. Designing the reward function requires not only knowledge of RL algorithms but also a deep understanding of the nature of the task, and thus often necessitates crafting the function based on expert experience. Several studies explored the use of LLM/VLMs for designing reward functions (Yu et al., 2023a; Katara et al., 2023; Maet al., 2023).

    • Data collection and efficiency Given its exploratory nature, RL-based policy learning requires a significant amount of data (Padalkar et al., 2023). The necessity for extensive data becomes particularly evident when the policy involves managing long sequences or integrating complex actions. This is because these scenarios demand more nuanced decision-making and learning from a wider range of situations. In recent studies, efforts have been directed towards enhancing data generation to support policy learning (Kumar et al., 2023; Du et al., 2023). Additionally, in some studies, these models have been integrated into the reward function to improve policy learning (Sontakke et al., 2023). Parallel to these developments, another strand of research has focused on achieving parameter efficiency in learning processes using VLMs (Tang et al., 2023; Li et al., 2023d) and LLMs(Shi et al., 2023)

    • Long-horizon steps In relation to the issue of data efficiency, RL becomes more challenging as the length of action sequences increases. This is due to the ambiguity in the relationship between actions and rewards, known as the credit assignment problem, and the increase in the number of states to be explored, necessitating a significant amount of time and data. One typical approach for long and complex tasks is to break them down into a sequence of subgoals and apply pretrained policies to solve each subgoal (e.g., (Takamatsu et al., 2022)). This idea falls within the framework called the task and motion planning (TAMP)(Garrett et al., 2021). TAMP is composed of two primary components: task planning, which entails identifying sequences of high-level actions, and motion planning, which involves finding physically consistent, collision-free trajectories to achieve the objectives of the task plan.

    LLMsare well-suited to TAMP, and recent research has often adopted an approach where LLMs are used to execute high-level task planning, while low-level controls are addressed with RL-based policies (Xu et al., 2023; Sun et al., 2023a; Li et al., 2023b; Parakh et al., 2023). The advanced capabilities of LLMs enable them to effectively decompose even abstract instructions into subgoals (Wake et al., 2023c), contributing to the enhancement of language understanding abilities in robotic systems.

    4.1.2 Imitation Learning (IL)

    While RL aims to train a policy based on exploratory behavior and maximizing rewards through interactions with the environment, imitation learning (IL) seeks to leverage expert data to mimic the actions of experienced agents or experts. For example, in robotics, one of the major frameworks based on IL is Behavioral Cloning (BC). BC is an approach where a robot is trained to mimic the actions of an expert by directly copying them. In this approach, the expert’s actions in performing specific tasks are recorded, and the robot is trained to replicate these actions in similar situations. Recent BC-based methods often incorporate technologies from LLM/VLMs, enabling more advanced end-to-end models. For example, Brohan et al. proposed RT-1 (Brohan et al., 2022) and RT-2 (Brohan et al., 2023), transformer-based models that output an action sequence for the base and arm, taking a series of images and language as input. These models are reported to show high generalization performance as the result of training on a large amount of training data.

    4.1.3 Traditional RGB

    Learning intelligent agent behavior leveraging image inputs has been of interest for many years (Mnih et al., 2015). The inherent challenge of using RGB input is the curse of dimensionality. To solve this problem, researchers either use more data (Jang et al., 2022; Ha et al., 2023) or introduce inductive biases into the model design to improve sample efficiency. In particular, authors incorporate 3D structures into the model architecture for manipulations (Zeng et al., 2021; Shridhar et al., 2023; Goyal et al., 2023; James and Davison, 2022). For robot navigation, authors (Chaplot et al., 2020a,b) leverage maps as a representation. Maps can either be learned from a neural network aggregating all previous RGBinputs or through 3D reconstruction methods such as Neural Radiance Fields (Rosinol et al., 2022). To obtain more data, researchers synthesize synthetic data using graphics simulators (Mu et al., 2021; Gong et al., 2023b), and try to close the sim2real gap (Tobin et al., 2017; Sadeghi and Levine, 2016; Peng et al., 2018). Recently, there has been some collective effort to curate large-scale dataset that aims to resolve the data scarcity problem (Padalkar et al., 2023; Brohan et al., 2023). On the other hand, to improve sample complexity, data augmentation techniques have been extensively studied as well (Zeng et al., 2021; Rao et al., 2020; Haarnoja et al., 2023; Lifshitz et al., 2023).

    4.1.4 In-context Learning

    In-context learning was shown to be an effective method for solving tasks in NLP with the advent of large language models like GPT-3 (Brown et al., 2020; Min et al., 2022). Few-shot prompts were seen to be an effective way to contextualize model output’s across a variety of tasks in NLP by providing examples of the task within the context of the LLMprompt. Factors like the diversity of examples and quality of examples shown for the in-context demonstrations may improve the quality of model outputs (An et al., 2023; Dong et al., 2022).

    Within the context of multi-modal foundation models, models like Flamingo and BLIP-2 (Alayrac et al., 2022; Li et al., 2023c) have been shown to be effective at a variety of visual understanding tasks when given only given a small number of examples. In context learning can be further improved for agents within environments by incorporating environment-specific feedback when certain actions are taken (Gong et al., 2023a).

    4.1.5 Optimization in the Agent System

    The optimization of agent systems can be divided into spatial and temporal aspects. Spatial optimization considers how agents operate within a physical space to execute tasks. This includes inter-robot coordination, resource allocation, and keeping an organized space.

    In order to effectively optimize agent AI systems, especially systems with large numbers of agents acting in parallel, previous works have focused on using large batch reinforcement learning (Shacklett et al., 2023). Since datasets of multi-agent interactions for specific tasks are rare, self-play reinforcement learning enables a team of agents to improve over time. However, this may also lead to very brittle agents that can only work under self-play and not with humans or other independent agents since they over-fit to the self-play training paradigm. To address this issue, we can instead discover a diverse set of conventions (Cui et al., 2023; Sarkar et al., 2023), and train an agent that is aware of a wide range of conventions. Foundation models can further help to establish conventions with humans or other independent agents, enabling smooth coordination with new agents.

    Temporal optimization, on the other hand, focuses on how agents execute tasks over time. This encompasses task scheduling, sequencing, and timeline efficiency. For instance, optimizing the trajectory of a robot’s arm is an example of efficiently optimizing movement between consecutive tasks (Zhou et al., 2023c). At the level of task scheduling, methods like LLM-DP (Dagan et al., 2023) and ReAct (Yao et al., 2023a) have been proposed to solve efficient task planning by incorporating environmental factors interactively.

    4.2 Agent Systems (zero-shot and few-shot level)

    4.2.1 Agent Modules

    Our foray into the agent paradigm involves the development of Agent AI “Modules” for interactive multi-modal agents using LLMs or VLMs. Our initial Agent Modules facilitate training or in-context learning and adopt a minimalist design for the purposes of demonstrating the agent’s ability to schedule and coordinate effectively. We also explored initial prompt-based memory techniques that facilitate better planning and inform future actions approaches within the domain. To illustrate, our “MindAgent” infrastructure comprises 5 main modules: 1) environment perception with task planning, 2) agent learning, 3) memory, 4) general agent action prediction and 5) cognition, as shown in Figure 5.

    4.2.2 Agent Infrastructure

    Agent-based AI is a large and fast-growing community within the domains of entertainment, research, and industry. The development of large foundation models has significantly improved the performance of agent AI systems. However, creating agents in this vein is limited by the increasing effort necessary to create high-quality datasets and overall cost. At Microsoft, building high-quality agent infrastructure has significantly impacted multi-modal agent copilots by using advanced hardware, diverse data sources, and powerful software libraries. As Microsoft continues to push the boundaries of agent technology, AI agent platforms are poised to remain a dominant force in the world of multimodal intelligence for years to come. Nevertheless, agent AI interaction is currently still a complex process that requires a combination of multiple skills. The recent advancements in the space of large generative AI models have the potential to greatly reduce the current high cost and time required for interactive content, both for large studios, as well as empowering smaller independent content creators to design high quality experiences beyond what they are currently capable of. The current human-machine interaction systems inside multi-modal agents are primarily rule-based. They do have intelligent behaviors in response to human/user actions and possess web knowledge to some extent. However, these interactions are often limited by software development costs to enable specific behaviors in the system. In addition, current models are not designed to help human to achieve a goal in the case of users’ inability to achieve specific tasks. Therefore, there is a need for an agent AI system infrastructure to analyze users behaviors and provide proper support when needed.

    4.3 Agentic Foundation Models (pretraining and finetune level)

    The use of pre-trained foundation models offers a significant advantage in their wide applicability across diverse use cases. The integration of these models enables the development of customized solutions for various applications, circumventing the need for extensive labeled datasets for each specific task. Anotable example in the field of navigation is the LM-Nav system (Shah et al., 2023a), which incorporates GPT-3 and CLIP in a novel approach. It effectively uses textual landmarks generated by the language model, anchoring them in images acquired by robots for navigation. This method demonstrates a seamless fusion of textual and visual data, significantly enhancing the capabilities of robotic navigation, while maintaining wide applicability. In robot manipulation, several studies have proposed the use of off-the-shelf LLMs (e.g., ChatGPT) while using open vocabulary object detectors. The combination of LLM and advanced object detectors (e.g., Detic (Zhou et al., 2022)) fa cilitates the understanding of human instruction while grounding the textual information in scenery information (Parakh et al., 2023). Furthermore, the latest advancements showcase the potential of using prompt engineering with advanced multi-modal models such as GPT-4V(ision) (Wake et al., 2023b). This technique opens avenues for multi-modal task planning, underscoring the versatility and adaptability of pre-trained models in a variety of contexts.

    5 Agent AI Categorization

    5.1 Generalist Agent Areas

    Computer-based action and generalist agents (GAs) are useful for many tasks. Recent progress in the field of large foundation models and interactive AI has enabled new functionalities for GAs. However, for a GA to become truly valuable to its users, it must be natural to interact with, and generalize to a broad range of contexts and modalities. We high-quality extended main Chapters on Agent foundation AI in Sec.6, especially in areas relevant to the themes in general of these topics:

    Multimodal Agent AI (MMA) is an upcoming forum(https://multimodalagentai.github.io/) for our research and industry communities to engage with each other and with the broader research and technology communities in Agent AI. Recent progress in the field of large foundation models and interactive AI has enabled new functionalities for generalist agents (GAs), such as predicting user actions and task planning in constrained settings (e.g., MindAgent (Gong et al., 2023a), fine-grained multimodal video understanding (Luo et al., 2022), Robotics (Ahn et al., 2022b; Brohan et al., 2023)), or providing a chat companion for users that incorporates knowledge feedback (e.g., website customer support for healthcare systems (Peng et al., 2023)). More details about the representative works and most recent representative works are shown below. We hope to discuss our vision for the future of MAA and inspire future researchers to work in this space. This article and our forum covers the following main topics, but is not limited exclusively to these:

    • Primary Subject Topics: Multimodal Agent AI, General Agent AI
    • Secondary Subject Topics: Embodied Agents, Action Agents, Language-based Agents, Vision & Language Agents, Knowledge and Inference Agents, Agents for Gaming, Robotics, Healthcare, etc.
    • Extend Subject Topics: Visual Navigation, Simulation Environments, Rearrangement, Agentic Foundation Models, VR/AR/MR, Embodied Vision & Language.

    Next, we present a specific lists of representative agent categories as follows:

    5.2 Embodied Agents

    Our biological minds live in bodies, and our bodies move through a changing world. The goal of embodied artificial intelligence is to create agents, such as robots, which learn to creatively solve challenging tasks requiring interaction with the environment. While this is a significant challenge, important advances in deep learning and the increasing availability of large datasets like ImageNet have enabled superhuman performance on a variety of AI tasks previously thought intractable. Computer vision, speech recognition and natural language processing have experienced transformative revolutions at passive input-output tasks like language translation and image classification, and reinforcement learning has similarly achieved world-class performance at interactive tasks like game playing. These advances have supercharged embodied AI, enabling a growing collection of users to make rapid progress towards intelligent agents can interactive with machine.

    5.2.1 Action Agents

    Action agents refer to the agents that need to execute physical actions in the simulated physical environment or real world. In particular, they need to be actively engaging in activities with the environment. We broadly classify action agents into two different categories based on their application domains: gaming AI and robotics. In gaming AI, the agents will interact with the game environment and other independent entities. In these settings, natural language can enable smooth communication between agents and humans. Depending on the game, there may be a specific task to accomplish, providing a true reward signal. For instance, in the competitive Diplomacy game, training a language model using human conversation data along with an action policy with RL enables human-level play (Meta Fundamental AI Research (FAIR) Diplomacy Team et al., 2022).

    There are also settings where we agents act as normal residents in a town (Park et al., 2023a), without trying to optimize a specific goal. Foundation models are useful in these settings because they can model interactions that appear more natural by mimicking human behavior. When augmented with external memory, they produce convincing agents that can have conversations, daily schedules, form relationships, and have a virtual life.

    5.2.2 Interactive Agents

    Interactive agents simply refer to agents that can interact with the world, a broader class of agents than action agents. Their forms of interaction do not necessarily require physical actions, but may involve communicating information to users or modifying the environment. For instance, an embodied interactive agent may answer a user’s questions about a topic through dialogue or help users parse through existing information similar to a chatbot. By extending an agent’s capabilities to include information sharing, the core designs and algorithms of Agent AI can be effectively adapted for a range of applications, such as diagnostic (Lee et al., 2023) and knowledge-retrieval (Peng et al., 2023) agents.

    5.3 Simulation and Environments Agents

    An effective approach for AI agents to learn how to act in an environment is to go through trial-and-error experiences via interactions with the environment. A representative method is RL, which requires extensive experience of failures to train an agent. Although there exist approaches that use physical agents (Kalashnikov et al., 2018), using physical agents is time-consuming and costly. Furthermore, training in the physical environment is often feasible when failure in actual environments can be dangerous (e.g., autonomous driving, underwater vehicles). Hence, using simulators to learn policies is a common approach.

    Many simulation platforms have been proposed for research in embodied AI, ranging from navigation (Tsoi et al., 2022; Deitke et al., 2020; Kolve et al., 2017) to object manipulation (Wang et al., 2023d; Mees et al., 2022; Yang et al., 2023a; Ehsani et al., 2021). One example is Habitat (Savva et al., 2019; Szot et al., 2021), which provides a 3D indoor environment where human- and robotic-agents can perform various tasks such as navigation, instruction following, and question answering. Another representative simulation platform is Virtual Home (Puig et al., 2018), supporting human avatars for object manipulation in 3D indoor environments. In the field of gaming, Carroll et al. have introduced “Overcooked-AI,” a benchmark environment designed to study cooperative tasks between humans and AI (Carroll et al., 2019). Along similar lines, several works aim to incorporate real human intervention beyond the focus of interaction between agents and the environment (Puig et al., 2023; Li et al., 2021a; Srivastava et al., 2022). These simulators contribute to the learning of policies in practical settings involving agent and robot interactions, and IL-based policy learning utilizing human demonstrative actions.

    In certain scenarios, the process of learning a policy may necessitate the integration of specialized features within simulators. For example, in the case of learning image-based policies, realistic rendering is often required to facilitate adaptability to real environments (Mittal et al., 2023; Zhong et al., 2023). Utilizing a realistic rendering engine is effective for generating images that reflect various conditions, such as lighting environments. Moreover, simulators employing physics engines are required to simulate physical interactions with objects (Liu and Negrut, 2021). The integration of physics engines in simulation has been shown to facilitate the acquisition of skills that are applicable in real-world scenarios (Saito et al., 2023).

    5.4 Generative Agents

    The recent advancements in the space of large generative AI models have the potential to greatly reduce the current high cost and time required for interactive content, both for large gaming studios, as well as empower smaller independent studios to create high quality experiences beyond what they are currently capable of. Additionally, embedding large AI models within a sandbox environment will allow users to author their own experiences and express their creativity in ways that are currently out of reach.

    The goals of this agent go beyond simply adding interactive 3d content to scenes, but also include:

    • Adding arbitrary behavior and rules of interactions to the objects, allowing the user to create their own VR rules with minimal prompting.
    • Generating whole level geometry from a sketch on a piece of paper, by using the multimodal GPT4-v model, as well as other chains of models involving vision AI models
    • Retexturing content in scenes using diffusion models
    • Creating custom shaders and visual special effects from simple user prompts

    One potential application in the short term is the VR creation of a storyboarding/prototype tool allowing a single user to create a rough (but functional) sketch of an experience/game an order of magnitude faster than currently feasible. Such a prototype then could be expanded and made more polished using these tools as well.

    5.4.1 AR/VR/mixed-reality Agents

    AR/VR/mixed-reality (jointly referred to as XR) settings currently require skilled artists and animators to create characters, environments, and objects to be used to model interactions in virtual worlds. This is a costly process that involves concept art, 3D modeling, texturing, rigging, and animation. XR agents can assist in this process by facilitating interactions between creators and building tools to help build the final virtual environment.

    Our early experiments have already demonstrated that GPT models can be used in the few-shot regime inside of the Unity engine (without any additional fine-tuning) to call engine-specific methods, use API calls to download 3d models from the internet and place them into the scene, and assign state trees of behavior and animations to them (Huang et al., 2023a). This behavior likely emerges due to the presence of similar code in open source game repositories that use Unity. Therefore, GPT models are capable of building rich visual scenes in terms of loading in many objects into the scene from a simple user prompt.

    The aim of this category of agents is to build a platform and a set of tools that provide an efficient interface between large AI models (both GPT-family ones as well as diffusion image models) and a rendering engine. We explore two primary avenues here:

    • Integration of large models into the various editor tools in the agent infrastructure, allowing for significant speedups in development.
    • Controlling the rendering engine from within a user experience, by generating code that follows user instruction and then compiling it at runtime, allowing for users to potentially edit the VR/simulation they are interacting with in arbitrary ways, even by introducing new agent mechanics.

    Introducing an AI copilot focused on XR settings would be useful for XR creators, who can use the copilot to complete tedious tasks, like providing simple assets or writing code boilerplate, freeing creators to focus on their creative vision and quickly iterate on ideas.

    Furthermore, agents can help users interactively modify the environment by adding new assets, changing the dynamics of the environment, or building new settings. This form of dynamic generation during runtime can also be specified by a creator, enabling the user’s experience to feel fresh and continue evolving over time.

    5.5 Knowledge and Logical Inference Agents

    The capacity to infer and apply knowledge is a defining feature of human cognition, particularly evident in complex tasks such as logical deduction, and understanding theory of mind(https://plato.stanford.edu/entries/cognitive-science). Making inferences on knowledge ensures that the AI’s responses and actions are consistent with known facts and logical principles. This coherence is a crucial mechanism for maintaining trust and reliability in AI systems, especially in critical applications like medical diagnosis or legal analysis. Here, we introduce agents that incorporate the interplay between knowledge and inference that address specific facets of intelligence and reasoning.

    5.5.1 Knowledge Agent Knowledge Agents reason over their acquired knowledge systems in two directions: implicit and explicit. Implicit knowledge is typically what large-scale language models like the GPT series (Brown et al., 2020; OpenAI, 2023) encapsulate after being trained on vast amounts of text data. These models can generate responses that give the impression of understanding, as they draw on patterns and information implicitly learned during training. Explicit knowledge, conversely, is structured and can be directly queried, such as the information found in knowledge bases or databases, which was traditionally used to enhance AI reasoning capabilities by referencing verifiable external resources. Despite the advancements in language models, their implicit knowledge is static and becomes outdated as the world evolves (Lewis et al., 2020; Peng et al., 2023). This limitation necessitates the integration of explicit knowledge sources that are updated continuously, ensuring that AI systems can provide accurate and current responses. The fusion of implicit and explicit knowledge equips AI agents with a more nuanced understanding and the ability to apply knowledge contextually, akin to human intelligence (Gao et al., 2022). Such integration is crucial for crafting knowledge-centric AI agents that not only possess information but can also understand, explain, and employ it, thereby narrowing the chasm between extensive learning and profound knowledge (Marcus and Davis, 2019; Gao et al., 2020). These agents are designed to reason with flexibility and dynamic information about the world, enhancing their robustness and adaptability (Marcus, 2020).

    5.5.2 Logic Agents

    Generally, a logic agent is a component of a system designed to apply logical reasoning to process data or solve tasks specific to logical inference or logical reasoning. Logic agents within the context of large foundation models like GPT-4 refers to a specialized component or submodules designed to handle logical reasoning tasks. These tasks often involve understanding and manipulating abstract concepts, deducing conclusions from given premises, or solving problems that require a structured, logical approach. Broadly, foundation models like GPT-4 are trained on a vast corpus of text data and learn to perform a wide range of tasks, including those that require some form of logical reasoning. Thus, their capability for logical reasoning is integrated into the overall architecture, and they generally do not possess a distinct, isolated “Logic agent”. While GPT-4 and similar models can perform tasks that involve logic, their approach is fundamentally different from how humans or traditional logic-based systems operate. They do not follow formal logical rules or have an explicit understanding of logic; rather, they generate responses based on patterns learned from the training data. As a result, their performance in logical tasks can be impressive, but it can also be inconsistent or limited by the nature of the training data and the inherent limitations of the model’s design. One example of embedding a separate logical submodule into the architecture is (Wang et al., 2023e), which modifies the token embedding process used by LLMs during pre-training by parsing text into logical segments and explicitly modeling logical hierarchies in the token embeddings.

    5.5.3 Agents for Emotional Reasoning

    Emotional understanding and empathy are important skills for agents in many human-machine interactions. To illustrate, one important goal for creating engaging dialogue agents is to have the agents act with increased emotion and empathy while minimizing socially inappropriate or offensive outputs. To advance towards this goal for dialogue agents, we released the Neural Image Commenting with Empathy (NICE) dataset (Chen et al., 2021) consisting of almost two million images and the corresponding human-generated comments and a set of human emotion annotations. We also provided a novel pre-training model- Modeling Affect Gneration for Image Comments (MAGIC) (Chen et al., 2021) which aims to generate comments for images, conditioned on linguistic representations that capture style and affect, and to help generate more empathetic, emotional, engaging and socially appropriate comments. Our experiments show that the approach is effective in training a more human-like and engaging image comment agent. Developing empathy-aware agents is a promising direction for interactive agents, and it is important to create agents with emotional understanding capabilities across a wide range of groups and populations, especially considering that many current language models exhibit bias in their emotional understanding and empathetic reasoning capabilities (Mao et al., 2022; Wake et al., 2023d).

    5.5.4 Neuro-Symbolic Agents Neuro-Symbolic agents operate on a hybrid system of neurons and symbols (d’Avila Garcez and Lamb, 2020). To solve problems stated in natural language is a challenging task because it requires explicitly capturing discrete symbolic structural information implicit in the input. However, most general neural sequence models do not explicitly capture such structural information, limiting their performance on these tasks. The work (Chen et al., 2020) propose a new encoder-decoder model based on a structured neural representation agent, The encoder of TP-N2F employs TPR ‘binding’ to encode natural-language symbolic structure in vector space and the decoder uses TPR ‘unbinding’ to generate, in symbolic space, a sequential program represented by relational tuples, each consisting of a relation (or operation) and a number of arguments. Instruction following vision-language (VL) models like GPT-4 offer a flexible interface that supports a broad range of multimodal tasks in a zero-shot fashion. However, interfaces that operate on full images do not directly enable the user to “point to” and access specific regions within images. This capability is important not only to support reference-grounded VL benchmarks, but also, for practical applications that require precise within-image reasoning. In (Park et al., 2023b), we build Localized Visual Commonsense model which allows users to specify (multiple) regions-as-input. We train our model by sampling localized commonsense knowledge from a large language model (LLM): specifically, we prompt a LLM to collect common sense knowledge given a global literal image description and a local literal region description automatically generated by a set of VL models. This pipeline is scalable and fully automatic, as no aligned or human-authored image and text pairs are required. With a separately trained critic model that selects high quality examples, we find that training on the localized commonsense corpus expanded solely from images can successfully distill existing VL models to support a reference-as-input interface. Empirical results and human evaluations in zero-shot settings demonstrate that our distillation method results in more precise VL models of reasoning compared to a baseline of passing a generated referring expression.

    5.6 LLMsandVLMsAgent A number of works leverage LLMs as agents to perform task planning (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), and leverage the LLMs’ large internet-scale domain knowledge and zero-shot planning abilities to perform agentic tasks like planning and reasoning. Recent robotics research also leverages LLMs to perform task planning (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) by decomposing natural language instruction into a sequence of subtasks, either in the natural language form or in Python code , then using a low-level controller to execute these subtasks. Additionally, (Huang et al., 2022b), (Liang et al., 2022), and (Wang et al., 2023a) also incorporate environmental feedback to improve task performance. There have also been a number of works that demonstrate the ability of general-purpose visually-aligned large language models trained on large-scale text, image, and video data to serve as a foundation for creating multi-modal agents that are embodied and can act in various environments (Baker et al., 2022; Driess et al., 2023; Brohan et al., 2023).

    6 Agent AI Application Tasks

    6.1 Agents for Gaming

    Games provide a unique sandbox to test the agentic behavior of LLMs and VLMs, pushing the boundaries of their collaborative and decision-making abilities. We describe three areas in particular that highlight agent’s abilities to interact with human players and other agents, as well as their ability to take meaningful actions within an environment.

    6.1.1 NPC Behavior

    In modern gaming systems, the behavior of Non-Player Characters (NPCs) is predominantly dictated by predefined scripts crafted by developers. These scripts encompass a range of reactions and interactions based on various triggers or player actions within the gaming environment. However, this scripted nature often results in predictable or repetitive NPC behavior which fails to evolve in response to player’s actions or the dynamic environment of the game. This rigidity hampers the immersive experience intended in a dynamic gaming environment. Therefore, there is a burgeoning interest in leveraging LLMs to induce autonomy and adaptability in NPC behavior, making interactions more nuanced and engaging. AI-driven NPCs can learn from player behavior, adapt to varying strategies, and provide a more challenging and less predictable gameplay experience. Large Language Models (LLMs) can significantly contribute to evolving NPC behavior in games. By processing vast amounts of text, LLMs can learn patterns and generate responses that are more varied and human-like. They can be utilized to create dynamic dialogue systems, making interactions with NPCs more engaging and less predictable. Furthermore, LLMs can be trained on player feedback and in-game data to continually refine NPC behaviors, making them more attuned to player expectations and game dynamics.

    Figure 8: The embodied agent for user interactive gaming action prediction and interactive editing with Minecraft Dungeons gaming sense simulation and generation via GPT-4V.

    6.1.2 Human-NPC

    Interaction The interaction between human players and NPCs is a crucial aspect of the gaming experience. The conventional interaction paradigm is primarily one-dimensional, with NPCs reacting in a preset manner to player inputs. This limitation stifles the potential for a more organic and enriching interaction, akin to human-human interaction within the virtual realm. The advent of LLM and VLM technologies holds the promise of transforming this paradigm. By employing these technologies, gaming systems can analyze and learn from human behavior to provide more human-like interactions. This not only enhances the realism and engagement of the game but also provides a platform for exploring and understanding human-machine interaction in a controlled yet complex setting.

    6.1.3 Agent-based Analysis of Gaming

    Gaming is an integral part of daily life, estimated to engage half of the world’s population(https://www.dfcint.com/global-video-game-audience-reaches-3-7-billion/). Additionally, it exhibits a positive impact on mental health(https://news.microsoft.com/source/features/work-life/mind-games-how-gaming-can-play-a-positive-role-in-mental-health/). However, contemporary game systems exhibit a deficiency in interactions with human players since their behaviors are primarily hand-crafted by game developers. These pre-programmed behaviors frequently fail to adapt to players’ needs. Consequently, there exists a need for new AI systems in games that can analyze player behaviors and furnish appropriate support when necessary. Intelligent interactive systems bear the potential to revolutionize how gamers interact with gaming systems in general. NPCs’ interactions with gamers are no longer confined by the restricted rule sets designed by game developers. They have the potential to adapt seamlessly to gamers’ experiences, providing timely feedback to enrich the gaming experience and elevate the synergy of human-machine interaction.

    Figure9: GPT-4V can effectively predict the high-level next actions when given the “action history” and a “gaming target” in the prompt. Furthermore, GPT-4V accurately recognized that the player is holding wooden logs in their hand and can incorporate this perceived information into its plan for future actions. Although GPT-4Vappearstobecapable of predicting some low-level actions (such as pressing ‘E‘ to open the inventory), the model’s outputs are not inherently suitable for raw low-level action prediction (including mouse movements) and likely requires supplemental modules for low-level action control.

    LLMs can serve as a robust tool for analyzing in-game text data, including chat logs, player feedback, and narrative content. They can help in identifying patterns of player behavior, preferences, and interactions which can be invaluable for game developers to improve game mechanics and narratives. Additionally, VLMs can parse through large quantities of image and video data from gaming sessions to help analyze user intent and actions within the game world. Moreover, LLMs and VLMs can facilitate the development of intelligent agents within games that can communicate with players and other agents in a sophisticated and human-like manner, enhancing the overall gaming experience. Beyond LLMs and VLMs, user input data, provides a promising avenue for creating game-playing agents that model perception, game playing, and game understanding by imitating human players. By incorporating a combination of player interactions and feedback, pixel inputs, and natural language planning and understanding, agent models can assist in the continuous improvement of game dynamics, driving a more player-centric evolution of the gaming environment.

    6.1.4 Scene Synthesis for Gaming

    Scene synthesis is a vital component in the creation and enhancement of immersive gaming environments. It entails the automatic or semi-automatic generation of three dimensional (3D) scenes and environments within a game. This process includes the generation of terrain, placement of objects, creation of realistic lighting, and sometimes even dynamic weather systems.

    Modern games often feature vast, open-world environments. Manually designing these landscapes can be in credibly time-consuming and resource-intensive. Automated terrain generation, often leveraging procedural or AI-driven techniques, can produce complex, realistic landscapes with less manual effort. LLMs and VLMs can utilize the internet scale knowledge to formulate rules to design non-repeating landscapes that are visually impressive and unique. Additionally, LLMs and VLMs can be used to ensure the semantic consistency and variability of generated assets. Placing objects such as buildings, vegetation, and other elements within a scene in a realistic and aesthetically pleasing manner is crucial for immersion.

    Figure 10: Masked video prediction on unseen Minecraft videos. From left to right: the original frame, the masked frame, the reconstructed frame, and the reconstructed frame with patches.

    VLMs and LLMs can assist in object placement by adhering to predefined or learned rules and aesthetics, thus speeding up the level design process. VLMs and LLMs can be further trained to understand the principles of design and aesthetics, aiding in the procedural generation of content. They can help formulate rules or guidelines that procedural algorithms can follow to generate objects, and scenes that are both visually appealing and contextually appropriate.

    Realistic lighting and atmospheric effects are fundamental for creating a believable and engaging gaming environment. Advanced algorithms can simulate natural lighting conditions and dynamic weather effects, enhancing the realism and mood of the scene. LLMs can help develop systems to acheive more realistic lighting and atmospheric effects in several innovative ways. VLMs can analyze vast datasets from real-world lighting and atmospheric conditions to help develop more realistic algorithms for simulating these effects in games. By understanding the patterns and intricacies of natural lighting and weather, these models can contribute to the development of algorithms that mimic reality closely. LLMs and VLMs could also be used to develop systems that adjust lighting and atmospheric effects in real-time based on player actions, game states, or external inputs. They can process natural language commands from players to modify the game environment, providing a more interactive and immersive experience.

    6.1.5 Experiments and Results

    Zero-shot/Few-shot Learning with LLM or LVM. As we showed in the Fig. 8 and Fig. 9, we used GPT-4V for high-level description and action prediction. Fig. 8 showed some qualitative examples of action description generation and editing with GPT-4V. Agent-enhanced text opens up a novel method of generating 3D scenes with game action priors to help improve the naturalness of the scene. Consequently, GPT-4V generates relevant high-level descriptions that are appropriate for the gaming videos.

    Small Agent Pretraining Model. To showcase our agent vision-language architecture, we first study its application in a widely used domain for gaming agents by pretraining on Minecraft data. As shown in Fig. 7, given an input action agent, key frame of video, and corresponding text, a standard encoder-decoder can be employed to convert the agent ac tion and image into action text token and image patch token and then use the agent-vision-language decoder to convert it into a action prediction sentence. The overall architecture is depicted in Fig. 7. We evaluate our approach with several Minecraft demonstrations. The Minecraft video data consists of 5min clips, and we use for pretraining contains 78K videos, and we used 5K videos (6% of pretraining data) for the first round pretraining. We train a 250M parameter model on 16 NVIDIAv100GPUsforonedayandvisualize our model out puts in Fig. 10 and Fig. 11. Fig. 10 shows that our relatively small agent architecture can produce reasonable outputs for Minecraft scenes unseen during training. Fig. 11 showed the model’s predictions compared to the ground truth human player actions indicating potential low-level understanding for our small agent model.

    Figure 11: The low-level next step action prediction with the small agent pretraining model in gaming Minecraft scene.

    Multi-Agent Infrastructure. As showed in the agent paradigm in Fig. 5, we designed a novel infrastructure for a new gaming scenario called “CuisineWorld” (Gong et al., 2023a). We detail our approach in Fig. 12. Our infrastructure allows for multi-agent collaboration by leveraging GPT-4 as a central planner and works across multiple gaming domains. We investigated our system’s multi-agent planning capabilities, and we deployed the infrastructure into real-world video games to demonstrate its multi-agent and human-AI collaboration effectiveness. Additionally, we presented “Cuisineworld”, a text-based multi-agent collaboration benchmark that provides a new auto-metric Collaboration Score (CoS) to quantify collaboration efficiency. Please refer to the Appendix for more examples and details for gaming description, high-level action prediction, and GPT-4V prompting. We show examples for Bleeding Edge in Fig. 32 and Appendix B, Microsoft Flight Simulator in Fig. 33 and Appendix C, ASSASSIN’s CREED ODYSSEY in Fig. 34 and Appendix D, GEARS of WAR 4 in Fig. 35 and Appendix E, and Starfield in Fig. 36 and Appendix F. We also provide a detailed screenshot of the prompting process for GPT4V used to generate Minecraft examples with Fig. 31 in Appendix A.

    6.2 Robotics

    Robots are representative agents that necessitate effective interaction with their environment. In this section, we will introduce key elements essential for efficient robotic operation, review research topics where the latest LLM/VLM technologies have been applied, and share findings from our most recent studies.

    Visual Motor Control. Visual Motor Control refers to the integration of visual perception and motor action to execute tasks effectively in a robotic system. This integration is paramount as it enables robots to interpret the visual data from their environment and accordingly adjust their motor actions to interact with the environment accurately. For instance, in an assembly line, a robot equipped with visual motor control can perceive the position and orientation of objects and accurately align its manipulator to interact with these objects. This capability is essential for ensuring the precision and effectiveness of robotic operations across a myriad of applications, ranging from industrial automation to assisting the elderly in their daily chores. Moreover, visual motor control facilitates robots in adapting to dynamic environments where the state of the environment may change rapidly, requiring real-time adjustments to motor actions based on visual feedback.

    Figure 12: The MindAgent of in-context learning gaming Infrastructure. Planning Skill and Tool Use: The game environment requires diverse planning skills and tool use to complete tasks. It generates relevant game information and converts the game data into a structured text format that the LLMs can process. LLM: The main workhorse of our infrastructure makes decisions, thus serving as a dispatcher for the multi-agent system. Memory History: A storage utility for relevant information. Action Module: Extracts actions from text inputs and converted them into domain-specific language and validates DSLs so that they cause no errors during execution.

    Additionally, within the context of safe operation, visual information is crucial for detecting execution errors and confirming the pre- and post-conditions of each robot action. In uncontrolled environments, such as unknown domestic settings, robots are more likely to face unexpected outcomes due to unpredictable factors like changing furniture shapes, varied lighting, and slippage. Executing a pre-planned action plan solely in a feedforward manner can pose significant risks in these settings. Therefore, utilizing visual feedback to continually verify outcomes at each step is key to ensuring robust and reliable operation of robotic systems.

    Language Conditioned Manipulation. Language Conditioned Manipulation entails the ability of a robotic system to interpret and execute tasks based on language instructions. This aspect is particularly crucial for creating intuitive and user-friendly interfaces for human-robot interaction. Through natural language commands, users can specify goals and tasks to robots in a manner similar to human-human communication, thereby lowering the barrier to operating robotic systems. In a practical scenario, for instance, a user could instruct a service robot to “pick up the red apple from the table,” and the robot would parse this instruction, identify the referred object and execute the task of picking it up (Wake et al., 2023c). The core challenge lies in developing robust natural language processing and understanding algorithms that can accurately interpret a wide array of instructions, ranging from direct commands to more abstract directives, and enable the robot to convert these instructions into actionable tasks. Furthermore, ensuring that robots can generalize these instructions across diverse tasks and environments is critical for enhancing their versatility and utility in real-world applications. The use of language input to guide robot’s task planning has gained attention in the context of a robot framework called Task and Motion Planning (Garrett et al., 2021).

    Skill Optimization. Recent studies highlight the effectiveness of LLMs in robotic task planning. However the optimal execution of tasks, especially those involving physical interactions like grasping, requires a deeper understanding of the environment that goes beyond simply interpreting human instructions. For example, robot grasping necessitates precise contact points (Wake et al., 2023e) and arm posture (Sasabuchi et al., 2021) to efficiently execute subsequent actions. While these elements—precise contact points and arm posture—are intuitive for humans, articulating them through language is challenging. Despite advances in internet-scale VLMs, capturing these nuanced indirect cues from scenes and translating them effectively into robotic skills remains a significant challenge. In response, the robotics community is increasingly focusing on collecting enhanced datasets(e.g., (Wang et al., 2023d; Padalkar et al., 2023)) or developing methodologies for direct skill acquisition from human demonstrations (Wake et al., 2021a). Frameworks including Learning-from-Demonstration and Imitation Learning are leading these developments, playing a crucial role in the optimization of physical skills.

    6.2.1 LLM/VLM Agent for Robotics.

    Recent research has demonstrated the potential of LLM/VLMs for robotic agents that involve interactions with humans in an environment. Research topics that aim to leverage latest LLM/VLM technologies include:

    Multimodal Systems: Recent research has been actively focusing on developing end-to-end systems that incorporate the latest LLM and VLM technologies as encoders for input information. Particularly, there is a significant trend towards modifying these foundation models to process multimodal information. (Jiang et al., 2022; Brohan et al., 2023, 2022; Li et al., 2023d; Ahn et al., 2022b; Shah et al., 2023b; Li et al., 2023e). This adaptation aims to guide robotic actions based on both linguistic instructions and visual cues, thus achieving an effective embodiment.

    Task Planning and Skill Training: In contrast to end-to-end systems, Task And Motion Planning (TAMP) based systems first compute a high-level task plan and then achieve them with low-level robot control, known as skills. The advanced language processing abilities of LLMs have demonstrated the capability to interpret instructions and decompose them into robot action steps, greatly advancing task planning technologies (Ni et al., 2023; Li et al., 2023b; Parakh et al., 2023; Wake et al., 2023c). For skill training, several studies have explored the use of LLMs/VLMs for designing reward functions (Yu et al., 2023a; Katara et al., 2023; Ma et al., 2023), generating data to facilitate policy learning (Kumar et al., 2023; Du et al., 2023), or serving as part of a reward function (Sontakke et al., 2023). Together with training frameworks such as RL and IL, these efforts will contribute to the development of efficient robot controllers.

    On-site Optimization: Executing long task steps in robotics can be difficult due to unexpected and unpredictable environmental conditions. Therefore, a significant challenge in the field of robotics involves dynamically adapting and refining robotic skills by integrating task plans with real-time environmental data. For instance, (Ahn et al., 2022b) proposed an approach that calculates the feasibility of actions (i.e., affordance) from visual information and compares it with planned tasks. Additionally, there are approaches that focus on enabling LLMs to output the pre-conditions and post-conditions (e.g., states of objects and their interrelationships) of task steps to optimize their execution (Zhou et al., 2023c) and detect pre-condition errors for necessary revisions to the task plan (Raman et al., 2023). These strategies seek to achieve environment-grounded robot execution by integrating environmental information and adjusting the robot’s actions at the task plan or controller level.

    Conversation Agents: In creating conversational robots, LLMs can contribute to natural, context-sensitive interactions with humans (Ye et al., 2023a; Wake et al., 2023f). These models process and generate responses that mimic human conversation, allowing robots to participate in meaningful dialogues. Additionally, LLMs play a significant role in the estimation of conceptual (Hensel et al., 2023; Teshima et al., 2022) and emotional attributes (Zhao et al., 2023; Yang et al., 2023b; Wake et al., 2023d) of utterances. Those attributes facilitate the understanding of human intent and meaningful gesture generation, thus contributing to the naturalness and efficacy of human-robot communication.

    Navigation Agents: Robot navigation has a long history of research, focusing on core aspects such as map-based path planning and Simultaneous Localization and Mapping (SLAM) for creating environmental maps. These functionalities have become standard in widely used robot middleware like the Robot Operating System (ROS) (Guimarães et al., 2016).

    While classic navigation techniques remain prevalent in many robotics applications, they typically rely on static or pre-created maps. Recently, there has been an increased interest in advanced technologies that enable robots to navigate in more challenging environments, leveraging breakthroughs in fields like computer vision and natural language processing. One representative task is object navigation (Chaplot et al., 2020a; Batra et al., 2020; Gervet et al., 2023; Ramakrishnan et al., 2022; Zhang et al., 2021), where robots use object names for navigation instead of map coordinates, requiring the visual grounding of object names in the environment. Furthermore, recent attention has been given to technologies that navigate robots in entirely unfamiliar new environments on a zero-shot basis, on top of foundation models, so-called zero-shot object navigation (Gadre et al., 2023; Dorbala et al., 2023; Cai et al., 2023). Additionally, Vision-Language Navigation (VLN) (Anderson et al., 2018a) is a representative task, where the task involves navigating an agent by natural language instructions in previously unseen, real-world environments (Shah et al., 2023a; Zhou et al., 2023a; Dorbala et al., 2022; Liang et al., 2023; Huang et al., 2023b). VLN interprets sentences rather than object names, such as “go to the bathroom on your left.,” thus it requires a higher functionality to parse input text (Wang et al., 2019). The advent of foundation models contributes to the development of such adaptive, on-the-fly navigation technologies by enhancing the understanding of human language instructions and the visual interpretation of environmental information. More detailed explanations of representative VLN research are provided in 6.2.2.

    Figure 13: Overview of the robot teaching system that integrates a ChatGPT-empowered task planner. The process involves two steps: Task planning, where the user employs the task planner to create an action sequence and adjusts the result through feedback as necessary, and Demonstration, where the user visually demonstrates the action sequence to provide information needed for robot operation. The vision system collects visual parameters that will be used for robot execution.

    6.2.2 Experiments and Results.

    An accumulating body of evidence suggests that recent VLMs and LLMs have promising capabilities for symbolic task planning (e.g., what-to-do). However, each task requires low-level control policy (e.g., how-to-do) to achieve successful interaction between the environment. While reinforcement learning and imitation learning are promising approach to learn policies in a data-driven manner, another promising approach is to obtain the strategy directly from humans through on-site demonstration, an approach called Learning-from-Observation (Wake et al., 2021a; Ikeuchi et al., 0). In this section, we introduce a study where we employ ChatGPT for task planning and enrich the plan by parameterizing it with affordance information to facilitate effective and precise execution (Fig. 13).

    The pipeline was composed of two modules: task planning and parameterization. In task planning, the system is fed with language instructions and the description of the working environment. These instructions, along with a predefined set of robot actions and output specifications, are compiled into a comprehensive prompt provided to ChatGPT, which then generates a sequence of decomposed tasks with their textual descriptions (Fig. 13; left pane). Notably, we employ a few-shot approach, meaning ChatGPT is not trained on this task, offering an advantage in applicability as it eliminates the need for hardware-dependent data collection and model training. Additionally, the textual descriptions in the output enable the user to check and adjust the results as necessary, which is a crucial feature for a safe and robust operation. Fig. 14 shows the qualitative results conducted for an agentic simulation on top of VirtualHome (Puig et al., 2018). The results demonstrate a reasonable task plan and its flexibility in adjusting outputs, indicating the broad applicability of our approach.

    Figure 14: Example of adjusting an output sequence through auto-generated feedback. We use an open-sourced simulator, VirtualHome for the experiment. Given an instruction “Take the pie on the table and warm it using the stove.,” the task planner plans a sequence of functions that are provided in VirtualHome. If an error in execution is detected, the task planner correct its output based on the auto-generated error message.

    While the task planner guarantees coherency between the task sequences, successful operation in reality requires detailed parameters. For example, grasp type is crucial for carrying a container while spilling out the content, such a parameter is often ignored in a simulators (see Fig. 14 in grasping a pie). In our robot system, therefore, users are asked to demonstrate each action visually (Fig. 13; right pane). The tasks had predefined parameters necessary for execution, which our vision system extracts from the videos (Wake et al., 2021b). Notably, our robotic system is not designed for exact replication of human motions (i.e., teleoperation) but rather to handle varying real-world conditions, such as changes in object locations. Hence, the parameters extracted from human demonstrations encompass not precise motion paths but affordance information that dictates effective environmental movement (e.g., waypoints for collision avoidance (Wake et al., 2023a), grasp types (Wake et al., 2023e), and upper-limbs postures (Sasabuchi et al., 2021; Wake et al., 2021a)). The posture of the upper limbs is critical in robots with high degrees of freedom and is designed to assume predictable postures for humans coexisting with the operational robot. The task sequence endowed with affordances is transformed into a sequence of reusable robot skills acquired through reinforcement learning and executed by the robot (Takamatsu et al., 2022).

    LLM-empowered task planning can be extended to a more versatile robotic system by integrating it with VLMs. Here, we show an example where we use the GPT-4V(ision) to broaden the aforementioned task planner in a multimodal input context (Fig. 15), a human performs actions that are intended to be replicated by the robot. In this paper, only part of the prompt is shown. The whole prompt is available at microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts.

    This pipeline takes demonstration videos and text, then outputs a sequence of robot actions. A vision analyzer aims to understand the actions performed by humans in the video. We used GPT-4V and provided a prompt to generate text instructions in a style typical of human-to-human communication.Fig. 16 demonstrates how the usage of text input allows user to give feedback on GPT-4V’s recognition results for correction purposes. Such a feature, aiming at improving the accuracy of the recognition results, also enables more robust operation.

    Figure 15: Overview of the multimodal task planner that leverages GPT-4V and GPT-4. The system processes video demonstrations and text instructions, generating task plans for robotic execution.
    Figure 16: Examples of the output of the video analyzer. The five frames are extracted at regular intervals and fed into GPT-4V. We describe the entire pipeline in Section 6.2.2.

    Next, the scene analyzer compiles the expected work environment into the text information based on the instructions and the first frame of the video data (or an image of the environment). This environmental information includes a list of object names recognized by GPT-4V, the graspable properties of objects, and the spatial relationships between objects. Although these computational processes are a black box within GPT-4V, the information is output based on the knowledge of GPT-4V and the image/text input. Fig. 17 shows the example outputs of our scene analyzer. As shown in the figure, GPT-4V successfully selects the objects that are related to the manipulation. For example, a table is included in the output when the human is relocating a spam container on the table, while the table is ignored for the fridge opening task. These results suggest that the scene analyzer encodes the scene information with respect to the human’s actions. We prompted GPT-4V to explain the results of the object selection process and the reasons behind those choices. In practice, we found this approach resulted in reasonable outputs. Finally, based on the given text instructions and environmental information, the task planner outputs a sequence of tasks (Wake et al., 2023c).

    Figure 17: Examples of the outputs of the scene analyzer that leverages GPT-4V. We describe our entire pipeline in Section 6.2.2.

    Embodied Agents for Robotics Navigation. Vision-language navigation (VLN) is the task of navigating an embodied agent to carry out natural language instructions inside real 3D environments. Navigation in 3D environments (Zhu et al., 2017a; Mirowski et al., 2016; Mousavian et al., 2018; Hemachandra et al., 2015) is an essential capability of a mobile intelligent system that functions in the physical world. In the past few years, a plethora of tasks and evaluation protocols (Savva et al., 2017; Kolve et al., 2017; Song et al., 2017; Xia et al., 2018; Anderson et al., 2018a) have been proposed as summarized in (Anderson et al., 2018b). VLN (Anderson et al., 2018a) focuses on language-grounded navigation in the real 3D environment. In order to solve the VLN task, (Anderson et al., 2018a) set up an attention-based sequence-to-sequence baseline model. Then (Wang et al., 2018) introduced a hybrid approach that combines model-free and model-based reinforcement learning (RL) to improve the model’s generalizability. Lastly, (Fried et al., 2018) proposed a speaker-follower model that adopts data augmentation, a panoramic action space and modified beam search for VLN, establishing the current state-of-the-art performance on the Room-to-Room dataset. Extending prior work, we propose a Reinforced Cross-Modal Matching (RCM) for VLN in (Wang et al., 2019). The RCM model is built upon (Fried et al., 2018) but differs in many significant aspects: (1) RCM combines a novel multi-reward RL with imitation learning for VLN while Speaker-Follower models (Fried et al., 2018) only uses supervised learning as in (Anderson et al., 2018a). (2) The RCM reasoning navigator performs cross-modal grounding rather than the temporal attention mechanism on single-modality input. (3) The RCM matching critic is similar to the Speaker in terms of the architecture design, but the former is used to provide the cycle-reconstruction intrinsic reward for both RL and SIL training while the latter is used to augment training data for supervised learning. In (Wang et al., 2019), we study how to address three critical leader-board for this task: the cross-modal grounding, the ill-posed feedback, and the generalization problem. As shown in Fig. 18, we propose a novel Reinforced Cross-Modal Matching approach that enforces cross-modal grounding both locally and globally via reinforcement learning (RL). Particularly, a matching critic is used to provide an intrinsic reward to encourage global matching between instructions and trajectories, and a reasoning navigator is employed to perform cross-modal grounding in the local visual scene. Evaluation on a VLN benchmark dataset shows that our RCM model significantly outperforms previous methods by 10% on SPL and achieved a new state-of-the-art performance. To improve the generalizability of the learned policy, we further introduce a Self-Supervised Imitation Learning (SIL) method to explore unseen environments by imitating its own past, good decisions. We demonstrate that SIL can approximate a better and more efficient policy, which tremendously minimizes the success rate performance gap between seen and unseen environments (from 30.7% to 11.7%). Moreover, in (Wang et al., 2019) we introduce a self-supervised imitation learning method for exploration in order to explicitly address the generalization issue, which is a problem not well-studied in prior work. Concurrent to the work, (Thomason et al., 2018; Ke et al., 2019; Ma et al., 2019a,b) studies the VLN tasks from various aspects, and (Nguyen et al., 2018) introduces a variant of the VLN task to f ind objects by requesting language assistance when needed. Note that we are the first to propose to explore unseen environments for the VLN task.

    Figure 18: Demonstration of embodied agent for the VLN task (Wang et al., 2019). The instruction, the local visual scene, and the global trajectories in a top-down view is shown. The agent does not have access to the top-down view. Path A is the demonstration path following the instruction. Path B and C are two different paths executed by the agent.

    6.3 Healthcare

    In healthcare, LLMs and VLMs can act as diagnostic agents, patient care assistants, or even therapy aids, but they come with unique leader-board and responsibilities. With the tremendous potential for AI agents to improve patient care and save lives comes an equally dangerous possibility that their misuse or hasty deployment could endanger thousands or millions of people worldwide. We discuss some of the promising routes for AI agents within the context of healthcare and also discuss some of the key leader-board faced.

    Diagnostic Agents. Using LLMs as medical chatbots for patient diagnosis has recently attracted great attention due to the high-demand for medical experts and the potential for LLMs to help triage and diagnose patients (Lee et al., 2023). Dialogue agents, especially those that can effectively communicate important medical information to a broad range of people from diverse patient populations, have the potential to provide equitable healthcare access to historically disadvantaged or marginalized groups. Furthermore, doctors and healthcare systems across the world are largely over-burdened and under-resourced, resulting in insufficient access to medical care for hundreds of millions of people worldwide (World Health Organization and World Bank, 2015). Diagnostic agents provide a particularly advantageous pathway to improve healthcare for millions since they have they can be built with the capability to understand a variety of languages, cultures, and health conditions. Initial results have shown that healthcare-knowledgeable LMMs can be trained by utilizing large-scale web data (Li et al., 2023f). Although an exciting direction, the promise of diagnostic agents does not come without risks. We highlight the risks of hallucination within medical contexts, as well as potential pathways for solutions in the following section.

    Knowledge Retrieval Agents. Within the medical context, model hallucinations are particularly dangerous and may even result in serious patient harm or death, depending on the severity of the error. For instance, if a patient mistakenly receives a diagnosis suggesting they are free of a condition they actually have, it can lead to catastrophic outcomes. These include postponed or inappropriate treatments, or in some cases, a total lack of necessary medical intervention. The gravity of undiagnosed or misdiagnosed conditions can lead to escalated healthcare expenses, extended therapies causing further physical strain, and in extreme scenarios, severe harm or even death. Thus, approaches that can use agents to more reliably retrieve knowledge (Peng et al., 2023) or generate text in a retrieval-based manner (Guu et al., 2020) are promising directions. Pairing a diagnostic agent with a medical knowledge retrieval agent has the potential to significantly reduce hallucinations while simultaneously improving the quality and preciseness of the responses of the diagnostic dialogue agent.

    Telemedicine and Remote Monitoring. Agent-based AI also has great potential within the world of Telemedicine and Remote Monitoring by improving the access to healthcare, improving communications between healthcare providers and patients, as well as improving the efficiency and reducing the costs of frequent doctor-patient interactions (Amjad et al., 2023). Primary care clinicians spend significant amounts of time sifting through patient messages, reports, and emails that are often irrelevant or unnecessary for them to view. There is significant potential to allow for support agents to help triage messages from doctors, patients, and other healthcare providers and to help highlight important messages for all parties. By enabling agentic AI systems to coordinate with patients, clinicians, and other AI agents, there is a massive potential to revolutionize the remote healthcare and digital health industry.

    6.3.1 Current Healthcare Capabilities

    Image understanding. We demonstrate the current capabilities and limitations of modern multimodal agents such as GPT-4V within the context of healthcare in Fig. 19. We can see that although GPT-4V possesses significant internal knowledge of the equipment and procedures involved in hospital care, it does not always respond to more prescriptive or diagnostic queries by the user.

    Video understanding. We investigate the performance of VLM agents for medical video understanding in two contexts. First, we investigate the ability for VLM agents to identify important patient care activities in clinical spaces. Secondly, we explore the usage of of VLMs for more technical videos such as ultrasounds. Specifically, in Figure 20, we demonstrate some of the current capabilities and limitations of GPT-4V for hospital care and medical video analysis.

    6.4 Multimodal Agents

    The integration of visual and linguistic understanding is crucial for developing sophisticated multimodal AI agents. This includes tasks such as image captioning, visual question answering, video language generation, and video understanding, amongst others. We aim to delve into these visual-language tasks, exploring the leader-board and opportunities they present in the context of AI agents.

    6.4.1 Image-Language Understanding and Generation

    Image-language understanding is a task that involves the interpretation of visual content in a given image with language and the generation of associated linguistic descriptions. This task is critical to the development of AI agents that can interact with the world in a more human-like manner. Some of most popular ones are image captioning (Lin et al., 2014; Sharma et al., 2018; Young et al., 2014; Krishna et al., 2016), referring expression (Yu et al., 2016; Karpathy et al., 2014), and visual question answering (Antol et al., 2015; Ren et al., 2015; Singh et al., 2019).

    More recently, knowledge-intensive Visual Question Answering tasks such as OKVQA (Marino et al., 2019), KB VQA(Wangetal.,2015), FVQA(Wangetal.,2017), and Web QA(Changetal.,2021)have been introduced. Multimodal agents should capable of identifying objects in an image, comprehending their spatial relationships, generating accurate descriptive sentences about the scene, and utilizing reasoning skills to handle knowledge-intensive visual reasoning. This requires not just object recognition capabilities, but also a deep understanding of spatial relationships, visual semantics, and the ability to map these visual elements to linguistic constructs with integration of the world knowledge.

    Figure 19: Example prompts and responses when using GPT-4V within the domain of healthcare image understanding. From left to right: (1) an image of a nurse and doctor conducting a CT scan, (2) a synthetic image of an irregular EKG scan, and (3) an image from the ISIC (Codella et al., 2018) skin lesion dataset. We can see that GPT-4V possesses significant medical knowledge and is able to reason about medical images. However, due to safety training, it is unable to make diagnoses for some medical images.

    6.4.2 Video and Language Understanding and Generation

    Video-language generation. Video captioning or video storytelling is the task of generating a sequence of coherent sentences for a stream of video frames. Inspired by the successful use of recurrent large foundation models employed in video and language tasks, variants of agent driven enhanced models have shown promising results on the task of video-lanaguage generation. The fundamental challenge is that the strong performance of neural encoder-decoder models does not generalize well for visual storytelling, because the task requires a full understanding of the content of each image as well as the relation among different frames. One important goal for the field is to create an agent-aware text-synthesis model that can efficiently encode the sequence of frames and generate a topically coherent multi-sentence paragraph.

    Video Understanding. Video understanding extends the scope of image understanding to dynamic visual content. This involves interpretation and reasoning about the sequence of frames in a video, often in conjunction with accompanying audio or textual information. An agent should be able interact with various modalities from visual, text, and also audio modalities to demonstrate their advanced comprehension of video content. Tasks in this domain include video captioning, video question answering, and activity recognition, amongst others. The leader-board in video understanding are manifold. They include the temporal alignment of visual and linguistic content, the handling of long sequences of frames, and the interpretation of complex activities that unfold over time. Regarding audio, the agent could process spoken words, background noises, music, and tone of voice to comprehend the mood, setting, and subtleties of the video content.

    Figure 20: Example prompts and responses when using GPT-4V within the domain of healthcare video understanding. Weinput the example videos as 2×2 grids with overlaid text indicating the order of frames. In the first two examples, we prompt GPT-4V to examine the frames in the video to detect the clinical bedside activities performed on the volunteer patients. For the final example, we attempt to prompt GPT-4V to assess an echo cardiogram video, however due to GPT-4V’s safety training, it does not provide a detailed response. For clarity, we bold text that describes the activity of interest, and abbreviate model responses that are unnecessary. We gray-out faces from the individuals to preserve their privacy.
    Figure 21: Interactive multimodal agents include four main pillars: Interaction, Speech, Vision, and Language. Co-pilot agents are made up of different services. 1) Interaction services help make a unified platform for automated actions, cognition, and decision-making. 2) Audio services integrate audio and speech processing into apps and services. 3) Vision services identify and analyze content within images, videos, and digital ink. 4) Language services extract meaning from structured and unstructured text.

    Previous works have focused on employing existing video-language training data available online for establishing video foundational models (Li et al., 2020, 2021b; Fu et al., 2022; Bain et al., 2021; Zellers et al., 2021, 2022; Fu et al., 2023). Supporting such training pipelines and functionalities is, however, difficult due to the limited and often inconsistent nature of these datasets. Video foundational models are designed with masked and contrastive pretraining objectives and later tuned on their respective tasks. Despite showing remarkable results in multimodal benchmarks, these models encounter difficulties in video-only tasks such as action recognition due to their dependency on limited video-text data built from noisy audio transcriptions. This limitation also leads to the lack of robustness and fine-grained reasoning skills that large language models generally possess.

    Other methods, similar to those used in image-language understanding, have drawn on the strong reasoning skills and broad knowledge of large language models to improve different facets of video interpretation. The task of video understanding is simplified by language only models like ChatGPT and GPT4 or image-language models like GPT4-V, which treat the audio, video, and language modalities as individual interpretable input data types and position the agents as strong open-source models. For example, (Huang et al., 2023c; Li et al., 2023g) transformed video understanding into a natural language processing (NLP) question-answering formulation by textualizing video content with open-source vision classification/detection/caption models. (Lin et al., 2023) integrated GPT4-V with specialized tools in vision, audio, and speech, to facilitate complex video understanding tasks, such as scripting character movements and actions in long-form videos.

    Parallel research explores generating scaled datasets from large models, then applying visual instruction tuning (Liu et al., 2023c; Li et al., 2023c; Zhu et al., 2023) on the generated data. Considerable audio, speech, and visual expert perception models are subsequently used to verbalize videos. Speech is transcribed with automatic speech recognition tools, and video descriptions and related data are produced with various tagging, grounding, and captioning models (Li et al., 2023g; Maaz et al., 2023; Chen et al., 2023; Wang et al., 2023f). These techniques demonstrate how instruction tuning video-language models on generated datasets may lead to enhanced video-reasoning and communication abilities.

    6.4.3 Experiments and Results

    • Knowledge-Intensive Models: As introduced in INK (Park et al., 2022), and KAT (Gui et al., 2022a), an intensive neural knowledge task that incorporates required knowledge annotated by humans to support knowledge-intensive retrieval task.
    • Multimodal-Agents: There has been a growing interest in multimodal language models like Chameleon (Lu et al., 2023) and MM-React (Yang et al., 2023c).
    • Visual Instruction Tuning: VCL(Gui et al., 2022b), Mini-GPT4 (Zhu et al., 2023), MPLUG-OWL (Ye et al., 2023b), LSKD (Park et al., 2023c) generate image-level instruction tuning dataset.

    Knowledge-Intensive Agent. As showed in Fig. 22 and Fig. 23, Knowledge-based visual question answering and vision-language retrieval tasks are challenging tasks in multi-modal machine learning that requires outside knowledge beyond image contents. Recent studies on large-scale transformers have primarily focused on maximizing the efficiency of the model’s parameters to store information. This line of research explores a different aspect: whether multimodal transformers can use explicit knowledge in their decision-making process. Pretraining methods based on transformers have shown remarkable success in implicitly learning knowledge representations across multiple modalities. However, traditional methods, mainly unimodal, have investigated knowledge retrieval and subsequent answer prediction, raising questions about the quality and relevance of the knowledge retrieved and the integration of reasoning processes using both implicit and explicit knowledge. To tackle these issues, we introduce the Knowledge Augmented Transformer (KAT), which outperforms others by 6% on the 2022 OK-VQA open-domain multimodal task. KAT combines implicit knowledge from GPT3 with explicit knowledge from websites using an encoder-decoder structure, and allows for concurrent reasoning with both knowledge types during answer generation. Furthermore, incorporating explicit knowledge enhances the interpretability of the model’s predictions. The code and pre-trained models are available at https://github.com/guilk/KAT.

    Vision-language Transformer Agent. Next, we introduce the “Training Vision-Language Transformers from Cap tions” (VLC) model (Gui et al., 2022b), a transformer that has been pretrained exclusively with image-caption pairs. Despite using just a simple linear projection layer for image embeddings, VLC attains competitive results across various vision-language tasks, in contrast to other methods that depend on object detectors or supervised CNN/ViT networks.

    Figure 22: Example of Intensive Neural Knowledge (INK) (Park et al., 2022) task that uses knowledge to identify text relevant to the image from a set of text candidates. Our task involves leveraging visual and text knowledge retrieved from web and human-annotated knowledge.
    Figure 23: The KAT model (Gui et al., 2022a) uses a contrastive-learning-based module to retrieve knowledge entries from an explicit knowledge base and uses GPT-3 to retrieve implicit knowledge with supporting evidence. The integration of knowledge is processed by the respective encoder transformer and jointly with reasoning module and the decoder transformer via end-to-end training for answer generation.
    Figure 24: The overall architecture of the VLC model (Gui et al., 2022b). Our model consists of three modules: (1) Modality-specific projection. We use a simple linear projection to embed patched images and a word embedding layer to embed tokenized text; (2) Multi-modal encoder. We use a 12-layer ViT (Dosovitskiy et al., 2021) initialized from MAE(Heet al., 2022) (ImageNet-1K without labels) as our backbone; (3) Task-specific decoder. We learn our multi-modal representations by masked image/language modeling and image-text matching which are only used during pre-training. We use a 2-layer MLP to fine-tune our multi-modal encoder for downstream tasks. Importantly, we find that the masked image modeling objective is important throughout second-stage pre-training, not only for initialization of the visual transformer.

    Through extensive analysis, we explore the potential of VLC as a vision-language transformer agent. For instance, we show that VLC’s visual representations are highly effective for ImageNet-1K classification, and our visualizations confirm that VLC can accurately match image patches to corresponding text tokens. The scalability of performance with more training data highlights the promising potential for developing large-scale, weakly-supervised, open-domain vision-language models.

    6.5 Video-language Experiments

    To understand the practicality of converting pre-trained image-LLMs for video understanding, we temporally expand and fine-tune Instruct BLIP (Dai et al., 2023) for video captioning. Specifically, we expand the visual encoder of Instruct BLIP (EVA-CLIP-G (Sun et al., 2023b)) using the same divided space-time attention scheme as Frozen in Time (Bain et al., 2021) and keep the Q-former and LLM (Flan-T5-XL (Chung et al., 2022)) frozen during training. We freeze all spatial layers of the visual encoder, while keeping the temporal layers unfrozen during captioning training. This allows for our model to take image and videos as input (matching the image-level performance of Instruct BLIP). We train on a 5 million video-caption subset of WebVid10M (Bain et al., 2021). We visualize two example outputs in Figure 25. However, existing agents fail to fully comprehend precise, fine-grained visual details in the video content. A similar limitation is seen by visual instruction tuning methods, where they lack the general, human-level perception abilities that are remain to be solved by multimodal models and agents.

    The instruction-tuned models show promise in accurately summarizing visible actions within videos and identifying actions like “person sitting on a bench” effectively in Fig. 25. However, they sometimes add incorrect details, such as “person smiling to the camera,” revealing a shortfall in capturing conversation topics or the video’s ambiance, elements that are readily apparent to human observers. This shortfall underscores another key limitation: the omission of audio and speech modalities that would enrich the video understanding with context, aiding in more accurate interpretation and preventing such misrepresentations. Bridging this gap requires a holistic integration of available modalities, allowing multimodal agents to reach a level of comprehension akin to human perception and ensuring a fully multimodal approach to video interpretation.

    Figure 25: Example prompts and responses when using a video fine-tuned variant of InstructBLIP (method described in Section 6.5). Our model is able to produce long-form textual responses that describe scenes and is able to answer questions related to the temporality of events in the videos.
    Figure 26: The audio-multimodal agent described in Section 6.5. Hallucinated content are highlighted in red. We use GPT-4V to generate 1) the videochat summary with video frames; 2) the video summary with the frame captions; 3) the video summary with frame captioning and audio information.
    Figure 27: An interactive multimodal agent that incorporates visual, audio, and text modalities for video understanding. Our pipeline mines hard negative hallucinations to produce difficult queries for the VideoAnalytica challenge. More the related details of interactive audio-video-language agent dataset are described in Section 9.2.

    Audio-Video-Language Agents with GPT-4V. We then evaluate the capabilities of GPT-4V as a multimodal agent that integrates vision, audio, and speech for a nuanced and precise understanding of videos, following the methodology outlined in (Lin et al., 2023). Results depicted in Fig. 26 compare the performance of various video agents on the task of video summarization. The video-instruction tuned model (Li et al., 2023g) provides accurate content but falls short on comprehensiveness and detail, missing specific actions like the methodical use of a broomstick to measure a tree’s height.

    To enhance the accuracy of video descriptions, we employ GPT-4V to caption frames, while audio and its transcriptions are sourced from the OpenAI Whisper model. We then prompt GPT-4V to create video summaries using only frame captions and then using both frame captions and audio transcriptions. Initially, we observe that frame captions alone can lead to fabricated events, such as a person biting down on a stick in the third segment. These inaccuracies persist in the video summary, with descriptions like “in a playful twist, he bites down on it while holding it horizontally.” Without audio input, the agent cannot correct these captioning errors, resulting in descriptions that are semantically correct but visually misleading.

    However, when we provide the audio transcriptions to the agent, it manages to accurately depict the content, even capturing detailed physical actions like “holding the broomstick perpendicular to the body and rotating it downwards.” This level of detail is significantly more informative and gives viewers a clearer understanding of the video’s purpose and key details. These findings highlight the importance of integrating audio, video, and language interactions to develop high-quality multimodal agents. GPT-4V emerges as a promising foundation for such advanced multimodal understanding and interaction.

    Embodied Multi-modal Agents with GPT-4V. As shown in Fig. 27, We mainly used StackOverflow to get the initial Question, then we used the “Bing search” API to retrieve a related video and audio corresponding to the question. Next, we mainly use GPT-4V to get the relevant text information and high-level video description. On the other hand, we transfer the key frame audio to a low-level segment description of the key frames via ASR. Finally, we use GPT-4V to generate convincing “hallucinations” that serve as hard negative queries for video-question and answer tasks. We support interactions and question answering in the current frame of the video, as well as summarization for the overall high-level video description. During inference, we also combine external knowledge information via web search to improve answering capapbilities.

    The main prompt information for GPT-4V is described as below. The entire prompt is indented for clarity; it is over one page long.

    GPT-4V are an assistant to provide descriptive, informative, and full comprehensive details in the video for the visually impaired who can hear the video but cannot see. The job is to create high-quality, dense descriptions of the video by synthesizing the given annotations and output them as JSON. Specifically, GPT-4V will be given original query used to search the video, the video title, description, audio transcription, and potentially noisy descriptions for specific time in the video. Different segments of same video is annotated as “[time start- time end (in seconds)] ’text’ “. Utilize the transcriptions and descriptions all together to reason about the exact detail and visual demonstration that might be happening in the video. GPT-4V will to combine or segment the timestamps as necessary to provide the best segmentation of the video.

    Expectations for GPT-4V Output:

    1. Action-Oriented Descriptions: Prioritize plausible actions, motions, and physical demonstrations that the audio implies, enriching your narrative with dynamic visual cues.

    2. Complete Video Coverage: Provide a continuous and consistent audio-descriptive experience that covers every moment of the video’s duration, ensuring no content is left undescribed.

    3. Concise Segmentation: Construct your descriptions in focused, succinct segments of 1-2 sentences each to effectively communicate visual actions without overwhelming detail.

    4. Contextual Audio-Visual Synthesis: Seamlessly blend the spoken audio content with inferred visual elements to form a narrative that reflects potential onscreen activities.

    5. Imaginative and Plausible Speculation: Infuse your descriptions with creative yet believable visual details that correspond with the audio, enhancing scene comprehension.

    6. Accurate Timecode Correspondence: Align your descriptive segments with corresponding time codes, ensuring that speculative visual details synchronize with the audio narrative’s timeline.

    7. Confident Narrative Delivery: Present the descriptions with assurance, as though the speculated visuals are occurring, to instill confidence in the listener.

    8. Omit Implausible Details: Exclude descriptions of objects or events that do not reasonably fit within the context established by the audio and visual information provided.

    The final output should be structured in a JSON format containing a list of dictionaries, each detailing a segment of the video.

    The final output should be structured in a JSON format containing a list of dictionaries, each detailing a segment of the video.

    [‘start’: <start-time-in-seconds>, ‘end’: <end-time-in-seconds>, ‘text’: “<Your detailed single-sentence, audio-visual description here>”]

    For MCCreation: our task is to create multiple-choice questions for video-to-text retrieval tasks that is trivially solved by looking at the title and reading through audio transcriptions. To do so, we will be given original query to get the video, description, audio transcription, and potentially noisy descriptions for specific time in the video.

    • Format of audio transcription:-[start-end time in seconds] “transcription”
    • Format of noisy description:- [time in seconds] “description”

    We kindly ask GPT-4V to generate four queries, where the primary query is aligned with the video content, and the other three negatives are subtly different from our primary one. Selecting the primary one should not simply involve listening to audio transcriptions e.g. the text original query is contained in audio transcriptions. The negatives should be closely related but not fully aligned with the video content, requiring visual understanding of the video to differentiate. For example, modify the semantics in nuanced way so that one needs to watch the video than just listening to select the original query. Compile four queries in caption-like statement, with the first one being the rephrased original.

    Think step by step how you can come up with negative statements using the information from the video. And justify the negative queries are incorrect but still compelling choices that demand nuanced understanding of the video. And how humans would not accidentally choose the negatives over the original query. Finally, we present the work in the following format of analyses and 4 queries. No need to generate how you translated the original query.

    • Video Analysis: xxx
    • Queries: [query1, query2, query3, query4]
    • Justification: xxx

    6.6 Agent for NLP

    6.6.1 LLMagent

    Recognizing task directives and taking action has been a fundamental challenge in interactive AI and natural language processing for decades. With the recent advances in deep learning, there is a growing interest in studying these areas jointly to improve human-agent collaboration. We identify three specific directions, among others, to improve language-grounded agents:

    • Tool use and querying from knowledge bases. This direction emphasizes the importance of integrating external knowledge bases, web search, or other helpful tools into the reasoning processes of AI agents. By leveraging structured and unstructured data from various sources, agents can enhance their understanding and provide more accurate and context-aware responses. Furthermore, it fosters the agent’s ability to proactively seek out information when faced with unfamiliar scenarios or queries, ensuring more comprehensive and informed responses. Examples include Toolformer (Schick et al., 2023) and Retrieve What You Need (Wang et al., 2023g).

    • Improved agent reasoning and planning. Enhancing the agent’s ability to reason and plan is pivotal for effective human-agent collaboration. This involves the development of models that can understand complex instructions, infer user intentions, and predict potential future scenarios. This can be accomplished by asking the agent to reflect on past actions and failures as in ReAct (Yao et al., 2023a), or by structuring the agent thought process as a form of search (Yao et al., 2023b). By simulating different outcomes and assessing the ramifications of various actions, agents can make more informed context-aware decisions.

    • Incorporating system and human feedback. AI agents can frequently operate in two primary contexts: environments that provide explicit signals about the effectiveness of their actions (system feedback), and settings where they collaborate with humans who can offer verbal critiques (human feedback). This direction underscores the need for adaptive learning mechanisms that allow agents to refine their strategies and rectify mistakes, such as in AutoGen (Wu et al., 2023). The ability to continuously learn and adapt from diverse feedback sources ensures that agents remain helpful and aligned for user needs.

    6.6.2 General LLM agent

    Recognizing and understanding agent content and natural language has been a fundamental challenge in interactive AI and natural language processing for decades. With the recent advances in deep learning, there is a growing interest in studying these two areas jointly for deep understanding of both agent planning or human feedback for knowledge inference and natural language generation. These are the key components of many human-machine-interaction agents, such as “AutoGen”(Wu et al., 2023) and “Retrieve What You Need”(Wang et al., 2023g).

    Figure 28: The training recipe used to train the Alpaca model (Taori et al., 2023). At a high level, existing LLMs are used to generate a large pool of instruction-following examples from a smaller set of seed tasks. The generated instruction-following examples are then used to instruction-tune an LLM where the underlying model weights are available.

    6.6.3 Instruction-following LLM agents

    Furthermore, the creation of LLM Agents that can be trained to effectively follow human instructions has become an important area of research. Initial models used human feedback to train a proxy reward model to simulate human preferences, through a process known as Reinforcement Learning with Human Feedback (RLHF) (Ouyang et al., 2022). This process produced models such as InstructGPT and ChatGPT. In order to more efficiently train instruction-following LLMagents without needing human labels, researchers developed a more efficient method for instruction-tuning that trains the LLM agent directly on instruction/response pairs, either generated by humans like Dolly 2.0(Dolly 2.0 blogpost link) or automatically from LLMs like Alpaca (Taori et al., 2023). We show the overall Alpaca training pipeline in Figure 28.

    6.6.4 Experiments and Results

    Despite the growing adoption of conversational and self-feedback systems, these forms of AI still do not perform well with regard to generating factually correct responses from their own implicit knowledge and therefore often use external tools like web search and knowledge retrieval mechanisms at inference-time to augment their response as a consequence. Addressing this would help create more engaging experiences for users in many real-life applications. In social conversations (such as those on social media platforms like Instagram and Facebook), or with Q+A websites (such as Ask or Quora), people usually engage with others through a series of comments and by web-searching for information and knowledge relevant to the discussion. Thus, the task of generating conversational turns in this context is not to simply bootstrap upon traditional NLP models and tasks, but to use agents to generate dialogue through intelligent behaviors that reflect knowledge search and acquisition (Peng et al., 2023). In this way, intelligent agents for NLP tasks extends the task description and improves upon the interpretability of the response by adding an explicit knowledge search and retrieval step during dialogue. Incorporating these web search and retrieval agents as feedback during dialogue will help to engage further and deeper the social interactions between humans and agents (Wang et al., 2023e). As the Fig 29 showed, we introduced a new modeling paradigm for transformer language models that detects and extracts important logical structures and information from input texts and then integrates them into the input embeddings through carefully designed multi-layer hierarchical logical projections to infuse logical structures into pre-trained language models as one kind of NLP agent. (Wang et al., 2023e) propose a novel approach to construct logic-aware input embeddings for transformer language models through a combination of logic detection, logic mapping and hierarchical logical projections, and then develop a corresponding new modeling paradigm that can upgrade all existing transformer language models into logical transformers to consistently boost their performance. The proposed logical transformer agent consistently achieve superior performance over their baseline transformer models through a deeper understanding of the logical structures of texts. To human users, it is often these aspects that are more important for delivering a meaningful and interesting conversation via a agent-based coordination between dialogue and information retrieval. Delving deep into natural language processing, this topic will discuss the advancements and leader-board in making LLMs more agentic and better suited for various language-centered tasks.

    Figure 29: The logic transformer agent model (Wang et al., 2023e). We integrate a logical reasoning module into the transformer-based abstractive summarization model in order to endow the logic agent the ability to reason over text and dialogue logic, so that it can generate better-quality abstractive summarizations and reduce factuality errors.

    An open-domain question answering (QA) system usually follows a retrieve-then-read paradigm, in which a retriever is used to retrieve relevant passages from a large corpus, and then a reader generates answers based on the retrieved passages and the original question. In (Wang et al., 2023g), we propose a simple and novel mutual learning framework to improve the performance of retrieve-then-read-style models via an intermediate module named the knowledge selector agent, which we train with reinforcement learning. The fine-grained knowledge selector into the retrieve-then reader paradigm, whose goal is to construct a small subset of passages which retain question-relevant information. As showed in Figure 30, The knowledge selector agent is trained as a component of our novel mutual learning framework, which iteratively trains the knowledge selector and the reader. We adopt a simple and novel approach employing policy gradients to optimize the knowledge selector agnet, using feedback from the reader to train it to select a small and informative set of passages. This approach avoids brute-force search or manually-designed heuristics, without requiring any annotated query-document pairs for supervision. We show that iteratively training the reader and the knowledge selector agent leads to better predictive performance on some public open-domain question answering benchmarks.

    Figure 30: Architecture of one proposed NLP agent (Wang et al., 2023g) mutual learning framework. In each epoch, Phase 1 and Phase 2 are executed alternately. During Phase 1, the parameters of the reader model remain fixed, and only the weights of the knowledge selector are updated. Conversely, during Phase 2, the reader model’s parameters are adjusted, while the knowledge selector’s weights remain frozen.

    7 AgentAIAcross Modalities, Domains, and Realities

    7.1 Agents for Cross-modal Understanding

    Multi-modal understanding is a significant challenge for creating generalist AI agents due to the lack of large-scale datasets that contain vision, language, and agent behavior. More generally, training data for AI agents is often modality specific. This results in most modern multi-modal systems using a combination of frozen submodules. Some notable examples are Flamingo (Alayrac et al., 2022), BLIP-2 (Li et al., 2023c), and LLaVA (Liu et al., 2023c), all of which utilize a frozen LLM and frozen visual encoder. These submodules are trained individually on separate datasets, and then adaptation layers are trained to encode the visual encoder into the LLM embedding space. In order to make further progress for cross-modal understanding for AI agents, it is likely that the strategy of using frozen LLMs and visual encoders will need to change. Indeed, RT-2, a recent visual-language model that is capable of taking actions within the domain of robotics showed significantly improved performance when jointly tuning the visual encoder and LLM for robotics and visual-language tasks (Brohan et al., 2023). 7.2 Agents for Cross-domain Understanding Akey challenge for creating generalist agents is the distinctive visual appearance and disparate action spaces across different domains. Humans possess the capability to interpret images and videos from various sources, including the real world, video games, and specialized domains such as robotics and healthcare, once they become familiar with the specific details of these areas. However, existing LLMs and VLMs often demonstrate significant differences between the data they were trained on and the varied domains in which they are applied. And notably, training agent models to predict specific actions presents a considerable challenge when trying to develop a single policy that can effectively learn multiple control systems across domains. Generally, the approach most modern works take when applying systems within specific domains is to start from a pretrained foundation model and then finetune a separate model for each specific domain. This fails to capture any commonalities between domains and results in a smaller total set of data used for training instead of leveraging each domain’s data.

    7.3 Interactive agent for cross-modality and cross-reality

    Developing AI agents that can successfully understand and perform tasks across different realities is an on-going challenge that has seen some recent success for image and scene generation (Huang et al., 2023a). In particular, it is challenging for agents to simultaneously understand real-world and virtual reality environments due to their visual dissimilarities and separate environment physics. Within the context of cross-reality, Sim to Real transfer is a particularly important problem when using simulation-trained policies for real-world data, which we discuss in the next section.

    7.4 Simto Real Transfer

    Techniques which enable models trained in simulation to be deployed in the real world. Embodied agents, especially one based on RL policies, are typically trained in simulated environments. These simulations do not fully replicate the characteristics of the real world (e.g., disturbances, light, gravity, and other physical properties). Due to this discrepancy between simulation and reality, models trained in simulation often struggle to perform well when applied in the real world. This issue is known as the “sim-to-real” problem. To solve this problem, several approaches can be taken:

    • Domain randomization: domain randomization is a technique that trains a model while randomly varying parameters within a simulation environment (e.g., object appearance, sensor noise, and optical properties) in anticipation of the uncertainties and variations of the real world (Tobin et al., 2017). For instance, in the context of training a RL-based grasping skills, introducing randomness in the shapes of objects can lead to a policy capable of adapting to objects with somewhat different shapes (Saito et al., 2022).

    • Domain adaptation: Domain adaptation, or domain transfer is a technique that bridges the gap between simulated and real-world domains by training models with a large number of simulated images and a smaller set of real-world images. In practical settings, unpaired image-to-image translation methods such as Cy cleGAN (Zhu et al., 2017b) are employed due to the difficulty in preparing paired images across domains. Several enhanced versions exist for reinforcement learning, including RL-CycleGAN (Rao et al., 2020), and for imitation learning, such as RetinaGAN (Ho et al., 2021).

    • Improvement of simulation: Realistic simulation is a key for sim-to-real transfer. Part of this effort is achieved by a system identification techniques (Zhu et al., 2017c; Allevato et al., 2020), which aims to identify simulation parameters to mimic the real-world environments. Additionally, use of photorealistic simulators would be effective in image-based reinforcement learning (Martinez-Gonzalez et al., 2020; Müller et al., 2018; Shah et al., 2018; Sasabuchi et al., 2023). The sim-to-real transfer remains a central challenge in the study of Embodied Agents, as approaches keep evolving. Both theoretical and empirical research are essential to advance these technologies further.

    8 Continuous and Self-improvement for Agent AI

    Currently, foundation model based AI agents have the capacity to learn from multiple different data sources, which allow for more flexible sources for data for training. Two key consequences of this are (1) user and human-based interaction data can be used to further refine and improve the agent and (2) existing foundation models and model artifacts can be used to generate training data. We discuss each of these in more detail in the following sections, but we note that since current AI Agents are largely tied to existing pretrained foundation models, they generally do not learn from continuous interaction with their environments. We think this is an exciting future direction, and initial work by Bousmalis et al. has shown that self-improving agents for robotic control are able to continuous learn and improve through environmental interactions without supervision (Bousmalis et al., 2023). 8.1 Human-based Interaction Data The core idea behind using human-based interaction data is to leverage a large number of of agent-human interactions to train and improve future iterations of the agent. There are several strategies used to improve agents from human-agent interactions.

    • Additional training data Perhaps the simplest usage of human-agent interactions is to use the interaction examples themselves as training data for a future iteration of the agent. This generally requires filtering strategies to differentiate successful agent examples from unsuccessful interaction examples. Filtering can be rules-based (e.g., reaching some desired end goal state), model-based (e.g., classifying successful vs unsuccessful interactions), or manually selected after a post hoc inspection and/or modification of the interaction examples.

    • Human preference learning During interaction with the user, the agent system can prompt the user with several different model outputs and allow for the user to select the best output. This is commonly used by LLMs like ChatGPT and GPT-4, whereby users can select one output (out of several) that aligns best with their preferences.

    • Safety training (red-teaming) Red-teaming within the context of Agent AI refers to having a dedicated team of adversaries (either human or computer) that seek to exploit and expose weaknesses and vulnerabilities within the Agent AI system. Although adversarial in nature, red-teaming is commonly used as a means for understanding how to improve AI safety measures and reduce the occurrence of harmful outputs. The core principle is to discover consistent methods for inducing unwanted agent outputs so that the model can be trained on data that explicitly corrects this behavior.

    8.2 Foundation Model Generated Data

    With the advent of powerful foundation model artifacts produced by academia and industry, there have been a variety of methods developed to extract and generate meaningful training data from these artifacts using a variety of prompting and data-pairing techniques.

    • LLMInstruction-tuning Methods for generating instruction-following training data from LLMs have allowed for the finetuning of smaller, open-source models based on the outputs of larger proprietary LLMs (Wang et al., 2022b). For example, Alpaca (Taori et al., 2023) and Vicuna (Zheng et al., 2023) are LLMs based on the open-source LLaMA family (Touvron et al., 2023) that have been tuned on various outputs from ChatGPT and human participants. This method of instruction tuning can be viewed as a form of knowledge distillation, where the larger LLM serves as a teacher model to a smaller student model. Importantly, although LLM instruction-tuning has been shown to transfer the writing style and some instruction-following capabilities of the teacher model to the student model, significant gaps still exist between the factuality and capabilities of the teacher and student models (Gudibande et al., 2023).

    • Vision-language pairs A number of recent works have sought to increase the number of diversity of pretraining data available to visual-language models by automatically generating captions and other text for visual content. For example, LLaVA (Liu et al., 2023c) uses 150,000 examples of instruction-following behavior from textual and visual inputs that are mainly LLM-generated. Other work has shown that using VLMs to re-caption images can improve the training data and subsequent quality of image generation models (Segalis et al., 2023). Within the realm of video understanding, using VLMs and LLMs to recaption videos has been shown to improve the performance and quality of subsequent VLMs trained on the recaptioned videos (Wang et al., 2023f; Zhao et al., 2022).

    9 Agent Dataset and Leaderboard

    To accelerate research in this domain, we propose two benchmarks respectively for multi-agent gaming and agentic visual language tasks. We will release two new datasets- “CuisineWorld” and “VideoAnalytica”- and a set of baseline models, encouraging participants to explore new models, systems, and submit their results on the test set of our leaderboard.

    9.1 “CuisineWorld” Dataset for Multi-agent Gaming

    CuisineWorld is a text-based game reminiscent of Overcooked! It offers a platform for AI-powered agents to cooperate and play in tandem. This dataset will test the collaboration efficiency of multi-agent systems, offering insights into how well LLMs and other systems can work together in dynamic scenarios. In particular, the dataset will focus on how well the agents understand goals, and how well the agents can coordinate among themselves. Two types of modes are supported in this dataset: a centralized dispatcher mode and a decentralized mode. Participants can choose a play mode and make a submission to our leaderboard.

    9.1.1 Benchmark

    For our competition, we will release a benchmark, the CuisineWorld benchmark, which includes a text interface that includes extendable task definition files, and an interface for multi-agent interaction, and human-machine interactions. Weintroduce the gaming interaction task in which the goal is to generate relevant, appropriate, multi-agent collaboration strategies that can maximize collaboration efficiency. We evaluate the collaboration efficiency with the proposed evaluation metric: CoS. The “CuisineWorld” dataset was collected by Microsoft, UCLA, and Stanford University. The goal of the competition is to explore how different, existing and novel, grounded-LLM and interactive techniques perform with this benchmark and establish strong baselines for the task of multi-agent gaming infrastructure. The dataset of CuisineWorld includes:- Aselection of well-defined multi-agent collaboration tasks.- An API system to facilitate agent interactions.- An automatic evaluation system. (The link for downloading the dataset will soon be made available and this article will be updated to include it here.)

    9.1.2 Task

    • Weprovide a dataset and related the benchmark, called Microsoft MindAgent and and correspondingly release a dataset “CuisineWorld” to the to the research community.

    • Wewill provide benchmarks to evaluate and rank the submitted “MindAgent” algorithms. We will also provide baseline results generated using popular infrastructures. 9.1.3 Metrics and Judging The quality of multi-agent collaboration efficiency is determined by the new “cos” auto-metric (from MindAgent (Gong et al., 2023a)). The final rating of out metric is calculated as an average over the evaluated collaboration efficiency metrics of the multi-agent system on all tasks. Human evaluators will be asked to rate individual responses as well as provide subjective judgement of the engagement, breadth and an overall quality of the users’ interactions with the agents. 9.1.4 Evaluation

    • Automated Evaluation. We plan to release a leaderboard, starting on the release date (TBA), registered participants will be asked to submit their results on the task associated with the dataset “CuisineWorld” (our publicly released dataset for the leaderboard). Submission of results will be closed on the end date (TBA). Each team will be required to submit their generated results on the testing set for automated evaluation of the “cos” metric.

    • HumanEvaluation on our leaderboard. The leaderboard participants will need to provide a submission f ile generated by evaluation scripts locally. We will use the evalAI system to check the submission file and optionally rerun the code for top challenge contenders. Therefore, teams must also submit their code with a Readme file on how to run their code. Human evaluation will be performed by the organization team.

    • Winner Announcement. We will make an announcement of the winners and post the final ratings of the submissions on our leaderboard.

    9.2 Audio-Video-Language Pre-training Dataset.

    We introduce VideoAnalytica: a new benchmark for analytical video demonstration comprehension. VideoAnalytica focuses on leveraging video demonstrations as aids to better understand complex, high-level reasoning embedded within long-formed instructional videos. The objective is to evaluate the cognitive reasoning abilities of video language models, pushing them beyond mere recognition tasks and basic comprehension, towards a more sophisticated and nuanced understanding of videos. Crucially, VideoAnalytica emphasizes the integration of multiple modalities, such as audio, video, and language, as well as the ability of models to apply domain-specific knowledge, to contextualize and interpret the information presented in the videos. Specifically, VideoAnalytica involves two primary tasks: 1. Video Text Retrieval: This task involves accurately retrieving relevant text from the instructional videos. The challenge lies in distinguishing between relevant and irrelevant information, thus requiring a deep understanding of the video content, and analysis of the demonstration to retrieve the correct query. To further increase the complexity of these tasks, we introduce hard negatives into our datasets generated by large language models. We run human validation on the generated negatives and remove instances that make the task invalid and unfair (e.g. negatives being valid). 2. Video Assisted Informative Question Answering: This task requires the model to answer questions based on the information extracted from the videos. The focus is on complex questions that require analytical reasoning and a thorough comprehension of the video demonstration. To facilitate the development of an audio-video-language agent for analytical video understanding, we introduce a benchmark leaderboard for the two tasks from VideoAnalytica.

    • The leaderboard participants will need to submit their solutions for evaluation. The evaluation will be based on the model’s performance on the two tasks, and the results will be displayed on the leaderboard. Participants are required to submit their code, along with a detailed explanation of their approach and methodology.

    • Ethical considerations: The leaderboard focuses on understanding and interpreting video content, which could potentially be used in surveillance or other privacy-invasive applications. Therefore, it’s crucial to consider the ethical implications and potential misuse of the technology. We encourage participants to consider these aspects in their submissions and promote the ethical use of AI.

    10 Broader Impact Statement

    This article and our associated forum (https://multimodalagentai.github.io) aim to be a catalyst for innovative research, fostering collaborations that will drive the next wave of AI applications. By focusing on multimodal agents, we emphasize the future direction of human-AI interactions, leader-board, and solutions. We detail three ways in which we make significant contributions to the broader community.

    Firstly, we hope our forum grounds AI researchers to develop solutions motivated by real-world problems in gaming, robotics, healthcare, and long-video understanding. Specifically, the development of multimodal agents in gaming could lead to more immersive and personalized gaming experiences, thereby transforming the gaming industry. In robotics, the development of adaptive robotic systems could revolutionize industries ranging from manufacturing to agriculture, potentially addressing labor shortages and improving efficiency. In healthcare, the use of LLMs and VLMs as diagnostic agents or patient care assistants could lead to more accurate diagnoses, improved patient care, and increased accessibility to medical services, particularly in underserved areas. Furthermore, the ability of these models to interpret long-form videos could have far-reaching applications, from enhancing online learning to improving technical support services. In general, the topics covered in our forum will have significant downstream effects on a wide range of industries and humans across the world.

    Secondly, we hope our forum stands as a valuable resource for AI practitioners and researchers alike, serving as a platform to explore and deeply comprehend the diverse and complex leader-board that come with implementing AI agents across a wide variety of environments and situations. This exploration includes, for instance, understanding the specific limitations and potential hazards linked to Agentic AI systems when they are developed for specialized sectors such as healthcare diagnostics. In this domain, issues like dangerous hallucinations in AI behavior can pose significant risks, highlighting the critical need for meticulous design and testing. However, these specific leader-board may not be equally relevant or noticeable when considering AI agents crafted for the gaming industry. In such recreational fields, developers might instead prioritize tackling different hurdles, such as the need for AI to perform more open-ended generation and exhibit creativity, adapting dynamically to unpredictable gameplay scenarios and player interactions. By attending the forum, participants will gain insights into how these varied environments dictate the focus and direction of AI development, and how best to tailor AI solutions to meet these distinct needs and overcome the pertinent leader-board.

    Thirdly, the various elements of our event, including the expert presentations, informative posters, and notably the winners of our two leader-board, are set to offer a substantive yet succinct overview of the latest and significant trends, research directions, and innovative concepts in the realm of multimodal agents. These presentations will encapsulate pivotal findings and developments, shining a light on new systems, ideas, and technologies in the field of mulitmodal agent AI. This assortment of knowledge is not only beneficial for the attendees of our forum, who are looking to deepen their understanding and expertise in this domain, but it also serves as a dynamic and rich resource board. Those visiting our forum’s website can tap into this reservoir of information to discover and understand the cutting-edge advancements and creative ideas steering the future of multimodal agent AI. We strive to serve as a useful knowledge base for both newcomers and veterans in the field. By engaging with these resources, we hope participants and online visitors alike can remain informed of the transformative changes and novel approaches that are shaping the exciting landscape surrounding multimodal agent AI.

    11 Ethical Considerations

    Multimodal Agent AI systems have many applications. In addition to interactive AI, grounded multimodal models could help drive content generation for bots and AI agents, and assist in productivity applications, helping to re-play, paraphrase, action prediction or synthesize 3D or 2D scenario. Fundamental advances in agent AI help contribute towards these goals and many would benefit from a greater understanding of how to model embodied and empathetic in a simulate reality or a real world. Arguably many of these applications could have positive benefits. However, this technology could also be used by bad actors. Agent AI systems that generate content can be used to manipulate or deceive people. Therefore, it is very important that this technology is developed in accordance with responsible AI guidelines. For example, explicitly communicating to users that content is generated by an AI system and providing the user with controls in order to customize such a system. It is possible the Agent AI could be used to develop new methods to detect manipulative content- partly because it is rich with hallucination performance of large foundation model- and thus help address another real world problem. For examples, 1) in health topic, ethical deployment of LLM and VLM agents, especially in sensitive domains like healthcare, is paramount. AI agents trained on biased data could potentially worsen health disparities by providing inaccurate diagnoses for underrepresented groups. Moreover, the handling of sensitive patient data by AI agents raises significant privacy and confidentiality concerns. 2) In the gaming industry, AI agents could transform the role of developers, shifting their focus from scripting non-player characters to refining agent learning processes. Similarly, adaptive robotic systems could redefine manufacturing roles, necessitating new skill sets rather than replacing human workers. Navigating these transitions responsibly is vital to minimize potential socio-economic disruptions. Furthermore, the agent AI focuses on learning collaboration policy in simulation and there is some risk if directly apply ing the policy to the real world due to the distribution shift. Robust testing and continual safety monitoring mechanisms should be put in place to minimize risks of unpredictable behaviors in real-world scenarios. Our “VideoAnalytica” dataset is collected from the Internet and considering which is not a fully representative source, so we already go through-ed the ethical review and legal process from both Microsoft and University Washington. Be that as it may, we also need to understand biases that might exist in this corpus. Data distributions can be characterized in many ways. In this workshop, we have captured how the agent level distribution in our dataset is different from other existing datasets. However, there is much more than could be included in a single dataset or workshop. We would argue that there is a need for more approaches or discussion linked to real tasks or topics and that by making these data or system available.

    We will dedicate a segment of our project to discussing these ethical issues, exploring potential mitigation strategies, and deploying a responsible multi-modal AI agent. We hope to help more researchers answer these questions together via this paper.

    12 Diversity Statement

    By examining the adaptability of AI agent models in various domains, we inherently embrace a diversity of leader-board, perspectives, and solutions. In this vein, our project aims to build a diverse community by exploring the wide array of subjects in multimodal and agentic AI.

    With these principles in mind, this project focuses on advanced multimodal systems that interact effectively within both physical and virtual environments and facilitate effective interaction with humans. As such, we intend to engage a broad range of experts and practitioners across a wide-range of technical specialities, cultures, countries, and scholarly f ields to discuss important topics, including but not limited to:

    • Application of foundation models: the development of agents with integrated modalities (audio, image, text, sensor inputs), aiming to enhance their recognition and response capabilities for a wide variety of applications.
    • General-purpose end-to-end systems: the development of end-to-end models that are trained with large-scale data, seeking to create versatile and adaptable AI solutions.
    • Methodologies for grounding modalities: integrating information across various modalities, enhancing the coherence and efficacy of data processing.
    • Intuitive human interface: the development of effective and meaningful interaction between humans and agents.
    • Taming LLM/VLMs: exploring new approaches to address common issues in large-scale models, such as hallucinations and biases in their outputs.

    We aspire to broaden our collective understanding of the potential and limitations of agentic AI by leveraging our unique and diverse perspectives. We strongly believe that this approach will not only enrich individual perspectives, but will also enhance the community’s collective knowledge and promote a holistic view that is more inclusive of the wide-ranging leader-board faced by multimodal AI agents.

  • 李文奇:尼布楚谈判待议地区问题再探——以满文文献为线索

    康熙二十八年(1689)签订的《尼布楚条约》确定了除乌第河流域外中俄两国的东段边界,但仍遗留下诸多问题。长期以来,由于缺乏相关档案史料,谈判中如乌第河待议地区的范围、乌第河与诺斯山的位置以及乌第河待议地区的性质等诸多问题存在争议。

    目前对于乌第河待议地区的研究主要有三种观点,一是认为未定界范围为整个乌第河流域;①二是认为未定界范围为乌第河以南,外兴安岭以北;②三是认为未定界范围为外兴安岭东北支诺斯山以南,外兴安岭以北。③对于诺斯山位置问题,学界关注较少,且现有研究往往将其同乌第河待议地区联系起来。一是认为诺斯山为今朱格朱尔山脉的一部分,④二是认为其为外兴安岭最东端靠海处的一座山峰,⑤三是认为在楚科奇半岛。⑥

    近年来对满文档案的利用为研究这一系列问题提供了全新的史料支持。满文文献《钦差大臣与俄国使臣交涉尼布楚国境记录》为尼布楚谈判中方代表团索额图等人交给康熙帝的汇报文件,原件保存于中国社会科学院民族学与人类学研究所图书馆。⑦而在中国第一历史档案馆所藏康熙朝满文宫中档中,亦有与《钦差大臣与俄国使臣交涉尼布楚国境记录》一致的记载。经笔者校对,其中第一历史档案馆题名为《议奏中俄尼布楚条约原件》的档案与《钦差大臣与俄国使臣交涉尼布楚国境记录》内容大致一致,且更加全面,补全了《钦差大臣与俄国使臣交涉尼布楚国境记录》中缺失的部分,但其中有部分内容有所差别。故可将二者相互对照使用,结合其他满文档案、地图等史料,对尼布楚条约中的待议地区范围、谈判中所提及诺斯山位置等问题进行考察,如有不当之处,敬请指正。

    一、谈判中的诺斯山与乌第河

    诺斯山,其名由雅库特语音译而来,⑧在中文文献中有“诺兹山”“诺寺山”“诺斯哈达”“诺斯阿林”等别名,满文中为“noosa alin” “nosy alin” “noosa hada”,在俄文文献中亦曾以“圣岬”“圣诺斯山”之名出现。诺斯山在其他外文中有多种写法,“noz” “noose” “noss”“noosa”都曾在不同的文献记载中出现过。乌第河,中文文献中曾以“乌第尔河”“无底儿河”出现,在满文中为“udi bira” “udir bira”,俄文中为“Удa” “Удью”。

    有学者认为待议地区为诺斯山以南,外兴安岭以北,因此在此处先对诺斯山的位置进行探讨。首先,有必要对尼布楚谈判中所提及的诺斯山是山峰还是山脉这一问题进行讨论。在满语中,“alin”一词用于指“山川之山”,⑨而“hada”一词用于指“山峰之峰”,⑩二者所指对象有着明确的不同。但在对于诺斯山的记载中,出现了二者混用的现象。台北“故宫博物院”藏都统郎谈绘制的《吉林九河图》(11)《口外九大人图》(12)中,在极东北处延伸入海的山脉上标注满文“noosa alin”,即为诺斯山。而在《乾隆十三排图》(13)中,在“一排东一”中所标注的却为“诺斯哈达”,即为满文诺斯山的汉文音译。在《盛京五路图》(14)中则更为明显,在延伸入海并分为两支的山脉处标注为“nosy alin”。在关于尼布楚谈判出使报告的满文档案中,亦称其为“nosy alin”。在参与尼布楚谈判的传教士张诚、徐日升的记载中,诺斯山均是以“诺斯山脉”出现。俄方则记载为:“由格尔必齐河源开始,向东北方向延伸至东北海,最后以一道直接伸向海边的山脉告终。”(15)综上,可以初步认为,在尼布楚谈判中提及的诺斯山应当指的是山脉,而非山峰。

    至于诺斯山的位置,《张诚日记》中记载:“这支山脉(诺斯山)抵达海滨之处,约在北纬80°。”(16)徐日升在其日记中则记载:“诺兹山脉……在北纬75度……一直延伸到北极。”(17)从中可见,张诚与徐日升均认为诺斯山地处极北,临近北极。但是从现今的俄罗斯远东地区地形图来看,张诚所记的北纬80度左右为北冰洋,不存在陆地,而徐日升所记北纬75度线所经地区也不存在大型山脉。因此,张诚与徐日升所记的诺斯山位置并不是其实际位置。考虑到当时的测绘技术以及当时欧洲人对远东地区地理的认知程度,以及清朝并未在此处开展地理测绘工作,张诚与徐日升所记的纬度很可能只是为了夸张地表现出诺斯山地处极北,至于其具体位置所在,二人并不知晓。

    俄方代表团出使报告的正文中也有对诺斯山位置的阐述:“圣诺斯很早以前就隶属俄国方面的雅库次克寨”“从圣诺斯起,有些河流从该岭流入沙弗利河(也称乌第河)”“从圣诺斯到沙弗利河(也称乌第河),需要走十个礼拜左右,而从沙弗利河到直接连海的另一条山脉(许多河流发源于该山脉并流入大河阿穆尔河),需要走八个多礼拜。”(18)由上可知,出使报告所记载的诺斯山位置应当离现雅库茨克不远,且位于或部分位于乌第河流域。从乌第河流域的地形来看,乌第河夹于南北两条山脉之间,诺斯山当在乌第河流域的北方,即为北侧山脉,南侧山脉即报告中所提的“另一条山脉”,应当为黑龙江流域的分水岭之一,即为外兴安岭一支。

    在《十七世纪俄中关系》中出使报告的注释部分,有苏联学者对诺斯山位置的探讨,认为诺斯山位于某一半岛临海之地,进而推测诺斯山位于楚科奇半岛,并以1706年德里尔所制地图为依据,认为“西伯利亚东北角的顶端是一个长长的半岛”,即为诺斯山。(19)同时,注释中还认为1714年利沃夫所制地图中位于楚科奇半岛的“阿纳德尔诺斯”亦是尼布楚谈判中中方所提之诺斯山。但是,注释中的这种推测与正文中俄方代表团的出使报告不符。出使报告中明确表明,诺斯山在雅库茨克附近,由乌第河至诺斯山需行十周,而楚科奇半岛距雅库茨克甚远,且绝非由乌第河行进十周可至之地。由此观之,诺斯山应不在楚科奇半岛。这一推断有其他材料可以加以佐证,1687年中方送至雅克萨的劝降书上曾说道,“即将返回的人们,回到你们的故土去吧,或越过诺斯,或到勒拿河上,回到那个地方去过活吧。”(20)如果诺斯山位于楚科奇半岛,那么令盘踞在黑龙江畔雅克萨的俄军不远万里跋涉至楚科奇半岛返回俄境就显得尤为荒谬。若诺斯山位于外兴安岭或朱格朱尔山脉则更符合逻辑,在外兴安岭以北、朱格朱尔山脉以西,有俄方于1632年建立的据点雅库茨克,令入侵俄军返回雅库茨克较之令俄军越过楚科奇半岛而言更为合理。

    参与谈判清方使团的记载对于确定诺斯山位置无疑是最有力的证据,在使团代表索额图奏报康熙帝的《议奏中俄尼布楚条约原件》中,提出以诺斯山为界的划界方案如下:

    再,自北方注入黑龙江,被称为绰勒纳的乌伦河附近的格尔必齐河为界,沿此河源方向纯石的大兴安岭的山脊,直到深入大海的诺斯山,山阳归我,山阴归俄罗斯。

    黑龙江南岸归我,北岸归俄罗斯。

    再,恩吉德河直到色楞格河对岸的楚克归喀尔喀。(21)

    可以看出,中方代表在谈判中所提及的诺斯山,在中方代表的认知中应当同外兴安岭接续,并一路延伸至大海。在这一地区,朱格朱尔山脉与外兴安岭东段北支均同这一描述相一致。在中方提出这一划界方案后,俄方代表旋即表示反对:

    诺斯山者,乃贵国之人向未到达之处。不言诺斯山,诺斯山这边之乌第河,贵国人亦不曾涉足。(22)

    随后,索额图等人询问使团中的地方官员以及其他使团成员,情况是否如俄方代表所言,得到回复如下:

    都统郎谈、班达尔善,护军统领马喇,黑龙江将军萨布素言:“都只是听说诺斯山、乌第河之名,咱们国家的人尚且一次也没到过。”(23)

    从中方使团成员并未对此进行反驳可以看出他们对这一地区的地理缺乏认知,但也大致知道诺斯山应当与乌第河相邻,与郎谈《吉林九河图》《口外九大人图》所绘的诺斯山相一致。据日本学者吉田金一考证,《吉林九河图》即为尼布楚谈判中清朝使团所用之地图。(24)在此处档案中,二图的绘制者郎谈称未去过诺斯山,且《口外九大人图》绘制完成于康熙二十九年(1690)。(25)再加上日本学者松浦茂考证出郎谈在《尼布楚条约》签订后进行的九路巡边中并未翻过外兴安岭。(26)那么《吉林九河图》中诺斯山部分很可能受到俄罗斯使团影响或巡边成员询问当地鄂伦春等部落向导后画出,而非实勘绘制,并以此为基础影响了后续地图中诺斯山的形象。再加上诺斯山之名本非满语词汇,而属雅库特语音译,其分布也应当位于雅库特人居住之区域。雅库特人最晚在1686年就已经出现在乌第河流域,(27)因此乌第河北侧的分水岭为雅库特人所认知。

    综上可以推断,清朝谈判人员在尼布楚谈判期间并不明晰诺斯山的具体情况,其在谈判中所指代的山脉应当为乌第河以北的外兴安岭东段北支。并且由于清朝方面对这一地区缺乏地理认知,故只知晓诺斯山源于外兴安岭,而不知晓其延伸向何方,未认识到乌第河以北的山脉同今朱格朱尔山脉等山脉并非为同一山脉,因而在《吉林九河图》等地图中构筑出了一条理想化的一直延伸入海的“诺斯山脉”,并因此被后世错误解读成一直延续至楚科奇半岛。

    在谈判过程中,郎谈、班达尔善、马喇以及萨布素都称中国人未曾到达过乌第河。然而依据《黑龙江将军衙门档》记载,在尼布楚谈判之前的康熙二十三年(1684),黑龙江鄂伦春人立克顶格便曾到达过乌第河流域:“我等随心所欲,越过罗刹居住之乌第尔河(udir bira),游牧打牲行走至海。”(28)此处乌第尔河即乌第河。此外,亦有从乌第河流域前来的俄国人称其在乌第河流域筑有城池:“有罗刹前来我等游牧之地,向我等言称:我等在海的方向的无底儿河筑城居住。”(29)很明显,相对于诺斯山,黑龙江将军萨布素应当对乌第河更为熟悉,了解乌第河的所在,知晓乌第河有俄罗斯人筑城定居,且乌第河流域也并非中国人足迹未及之处。但为何在此处,萨布素对索额图称中国人未曾到达此地?在俄罗斯藏《黑龙江档》中记载:

    罗刹居住之乌第尔河城之处,水路可通。若有可用马运抵红衣炮之路,我等遵照应派大军前往。鄂伦春等先前无定居之地,与达斡尔等易米时,在西里木迪约定地点,一年贸易一次。贸易结束后,游牧打猎,越过罗刹,返回到海的游牧之人。没有水路运送红衣炮,通往罗刹居住之乌第尔河之城。所以,不可派兵。(30)

    萨布素在此时已经初步制订了作战计划,可见其有收复领土、维护边疆稳定的想法。但后来的情报中称无法将火炮输送至乌第河,这将使得清军缺乏攻城所需的武器。且翻越外兴安岭作战,清军即使能抵达俄人据点也将因长途跋涉而筋疲力尽,致使战斗力下降。同时,清军的补给线能否延伸至乌第河城亦是一个问题。

    出于以上原因,萨布素在面对索额图的询问时缺乏声索这一地区领土的信心,因而为求稳妥选择谎称中国人未曾去过乌第河地区,进而使中方在谈判中对这一地区让步。

    二、《尼布楚条约》待议地区的范围与性质

    对于《尼布楚条约》待议地区范围的问题,《尼布楚条约》本身无疑是最有力的证据。谭其骧主编的《中国历史地图集》中对于这一地区的描绘亦是基于《尼布楚条约》满文本和俄文本制成的。(31)《尼布楚条约》满、俄、拉丁文三种文本的解读存在着差异,以下将三种版本关于待议地区的记载作对比,同时结合《议奏中俄尼布楚条约原件》对待议地区范围问题进行探讨。在《尼布楚条约》拉丁文本中,关于乌第河待议地区的记载如下:

    惟介于乌第河和指定为边界的一系列山脉之间的任何陆地以及流入大海的河流,都暂时搁置。(32)

    拉丁文本中,并未说明作为界山的山脉具体为何,仅是给出了一个大致的方向。待议地区也是乌第河与这支山脉之间。

    而俄文本记载如下:

    其余位于俄罗斯国家统治下的乌第河以及位于中国统治下的阿穆尔河附近的山脉中间流入大海的河流和陆地,在边界确定之前仍然维持现状。(33)

    俄文记载中,亦未标明界山之名,仅称“阿穆尔河附近的山脉”,待议地区的范围为乌第河与这支山脉间的河流与陆地。由于未指明山脉名称,俄文记载令俄方能够更加灵活地解释条约内容,也使其成为后来入侵黑龙江流域的借口。后俄国经由黑龙江运兵时称“自乌迪河以东,黑龙江附近地方,原未分辨疆界”。(34)故意略去条约中的部分内容,来试图将待议地区向中国领土方向拓展。

    满文则记载为:

    惟乌第河以南,已确定的兴安岭以北,两处之间的一切土地河川暂使其中立。(35)

    满文的记载明确指出界山即为“兴安岭”,并指出待议地区是乌第河以南。

    可见,《尼布楚条约》三种不同文本中对于待议地区的划定大致都认为在乌第河至外兴安岭间。结合上文对于诺斯山位置的探讨,能够据此推翻谈判待议地区位于诺斯山以南,外兴安岭以北的说法。但是否指乌第河以南,拉丁文本与俄文本仍有模糊之处,而满文本则清晰地指出待议地区的范围是乌第河以南。三种文本中对于乌第河待议地区性质的记录也略有不同,满文本与拉丁文本的记载可以认为是将乌第河流域视为真空区,而俄文本的记载则是将乌第河流域“维持现状”。考虑到此时乌第河流域已经有俄国人建立的据点,很明显俄文文本传达出的隐意即是将乌第河流域由俄方暂管。

    对于条约文本的分歧,满文档案中索额图使团的报告无疑是探求这一系列问题真相的有力证据之一。首先,对于待议地区范围,除上文提及“搁置乌第河地方使其暂时中立,以后再做商议”外,索额图在这一谈判记录中亦有其他关于乌第河待议地区的记载,这一提议是俄方代表最先提出的:

    再,我等之察罕汗不曾降旨,若私自断理诺斯山之事,非但我等无颜面,我等身家性命尽皆不保矣。大人们慈悲为怀,可否体恤考虑此情,若大人定要此处,暂且搁置中立,我向我等之察罕汗请旨再交付,等语。(36)

    俄方代表在拒绝中方以诺斯山划界的方案后,又称不能直接将诺斯山划给中国,只能暂时作为待议地区,等其返回禀报沙皇后,才能对诺斯山地区进行处置。由于中方使团成员称只是听说诺斯山、乌第河地区,加之俄方代表主动示弱,在讨论后中方使团为表诚意,也主动表示愿意对此做出让步:

    再喀尔喀尚未安定,极为混乱,臣等共同商议,诺斯山、喀尔喀地方不谈,搁置乌第河地方暂使其中立,日后再议。(37)

    随后双方便达成共识,具体如下:

    惟乌第河以南,已确定的兴安岭以北,查明两处之间的一切土地后,将此或遣使商议,或行文商定,以后再做决定。(38)

    由上可见,索额图的出使报告中的条约文本与《尼布楚条约》中的满文本内容大致相当,其中“已确定的兴安岭”即为外兴安岭。但对于待议地区的范围前后的记述不一致,前文提及在谈判过程中,中方使团商议后提出待议地区为整个乌第河流域。但在此处,待议地区又变成了乌第河以南,外兴安岭以北,如此反复之处,可能是在谈判过程中又同俄方代表讨价还价后得到的结果,亦可能是前文所提及之“乌第河地方”仅指乌第河以南、外兴安岭以北这片区域。

    对于这一地区的性质,出使报告中未过多说明,仅言“暂时中立”,但能够看出,清朝对于待议地区的态度并非如俄文版本那样仅仅是为了维持现状。

    在乾隆三十年(1765)黑龙江将军富僧阿主持的巡边行动中,副都统瑚尔起登上外兴安岭山脊,查看乌第河并记载如下:

    登高眺望,从兴安山脊以西,分出二支脉,我们登上的兴安山脊,南支东南走向,北支沿兴安山脊呈东北走向,自二者间西侧,有一河向东流去,问鄂伦春向导,答曰:“乌第河”。望我等所登之兴安山脊之阴,全无俄罗斯人行迹,亦不见人烟。(39)

    富僧阿此次巡边即是为确定中俄之间的边界并绘制地图,其仅行至外兴安岭山脊,看到待议地区无俄国人踪迹,便未继续前往乌第河地区。此或出于巡边官员将这一地区视为缓冲区或真空区,因而在未发现俄方进入此处时,也未进入此地。1777年,由于俄国人自乌第河城南下,进入兴衮河(俄文史料记载为阿姆贡河)一带,“中国政府用威胁的口吻声称,如果俄国人不停止在尚未划定边界的土地上经略活动,那么中国将中断恰克图的一切贸易关系”。(40)此处不谈俄方所言待议地区的范围,仅从此事看,清政府认为的待议地区仍应当是作为双方都不应进入的真空区。

    在咸丰元年(1851),俄国萨纳特衙门咨文理藩院:“最近本衙门得到关于外国船只航进黑龙江口,且在那些船中,还有许多战舰。”(41)1847年穆拉维约夫担任西伯利亚总督后,俄国多次进犯黑龙江流域。在此事发生前的1850年,俄国海军军官涅维尔科伊率领炮舰强占庙街,宣称“这一海湾沿岸地带和整个阿穆尔沿岸地区直至朝鲜边界,连同萨哈林岛在内均为俄国所领有”。(42)这次俄国再次向清政府称有外国船只进入作为中国内河的黑龙江,自然也就带有将已强占地区合法化的意图,清政府得知此消息后旋即派人巡查中俄边界以及黑龙江。佐领敖拉·昌兴作为巡查成员之一,奉命“先巡察罗刹动向,再派赴乌第河干”,(43)其留下诗作《巡查额尔古纳、格尔必齐河流域》多次提及乌第河流域,其中“从外兴安岭之巅,到乌第河滨,一段一段累算,艰苦跋涉二百余里”(44)能够看出敖拉·昌兴巡视中俄边界时到达过乌第河。在此时巡视乌第河待议地区,无疑是清政府将乌第河以南地区视为自己的管辖领域,而此次巡边也正是清朝面对近代边疆危机的积极应对。清政府对于外国军舰进入黑龙江江口等事件做出回应,宣示了对于这一地区的主权,同时也意图借此次巡边为边界布防提供参考。

    由此观之,清朝对于乌第河以南待议地区性质的认识存在一个转变的过程。最初,乌第河待议地区被视为一个中立的缓冲地区,俄方不进入其中的情况下,清朝也选择不进入。但随着周边局势的演变以及清政府对于近代边界体系认知的进步,清朝意识到这一待议地区,因而加紧对其主权的宣示。

    结语

    在1689年中俄尼布楚谈判中,中方所提出的以诺斯山为界这一提案遭到俄方否决一事以及后面双方对于诺斯山地区以及乌第河流域的处理,都是在双方对这一地区的地理情况不甚了解的情况下做出的。这使得中俄谈判当中对于东部边界的划分产生了较大的冲突与分歧,也使在《吉林九河图》等地图中诺斯山东段的位置与走向存在着问题。

    诺斯山作为一条雅库特语命名的山脉,清朝方面对其理解仅限于其西段,并不知晓其东段走向为何,因而在谈判过程中选择放弃该地区。而乌第河地区作为中方在先前就已经探查过并有一定了解的地域,清朝在谈判中保留了继续声索主权的机会。

    至于乌第河待议地区的范围,索额图的《议奏中俄尼布楚条约原件》记述了尼布楚谈判中对于这一地区的拉锯,也记录了中方使团是如何在这一地区做出让步的,即从俄方提出将诺斯山、乌第河地区作为待议地区到中方放弃诺斯山,仅将乌第河南岸作为待议地区。由此得知,《尼布楚条约》中乌第河待议地区的范围即为乌第河以南到外兴安岭以北,而非整个乌第河流域,也不是诺斯山以南到外兴安岭以北。

    清朝对于乌第河待议地区性质的认识也经历了一个演变的过程。最初,清朝将待议地区视为中俄间的缓冲区、真空区。但随着鸦片战争以后中国近代边疆危机的出现以及传统边疆观念遭到冲击,清朝对《尼布楚条约》中规定的这一地区待议性质有了全新的认识,并且积极派官员巡视,在这一地区宣示主权。这一转变无疑对于维护中国在这一地区的合法权利有着重要的意义。

    注释:

    ①参见张维华、孙西:《清前期中俄关系》,山东教育出版社1997年版,第110页;陈述:《关于达斡尔地区与乌第河流域》,《学习与探索》1980年第4期;庞昌伟:《〈中俄尼布楚条约〉乌第河未定界范围及界碑考》,《学习与探索》2001年第4期。

    ②参见谭其骧主编:《中国历史地图集》第8册,中国地图出版社1987年版;吕一燃:《关于早期中俄东段边界的几个问题》,《中国边疆史地研究》1994年第4期。

    ③参见刘远图:《早期中俄东段边界研究》,中国社会科学出版社1993年版,第122页。

    ④参见高文风:《尼布楚谈判留下的一桩悬案——诺兹山问题初探》,《求是学刊》1982年第5期。

    ⑤参见北京师范大学清史研究小组:《一六八九年的中俄尼布楚条约》,人民出版社1977年版,第333页;张维华、孙西:《清前期中俄关系》,山东教育出版社1997年版,第110页。

    ⑥参见刘远图:《早期中俄东段边界研究》,中国社会科学出版社1993年版,第122页;苏联科学院远东研究所等编,黑龙江大学俄语系翻译组、黑龙江省哲学社会科学研究所第三室译:《十七世纪俄中关系》第2卷第3册,商务印书馆1975年版,第952页。

    ⑦本文所参考的是1958内蒙、东北少数民族社会历史调查组编著油印本《有关达呼尔鄂伦春与索伦族历史资料》。

    ⑧参见高文风:《尼布楚谈判留下的一桩悬案——诺兹山问题初探》,《求是学刊》1982年第5期。

    ⑨故宫博物院编:《清文汇书清文启蒙》,海南出版社2001年版,第5页。

    ⑩故宫博物院编:《清文汇书清文启蒙》,第51页。

    (11)参见《吉林九河图》,台北“故宫博物院”藏,文献编号:平图021457。

    (12)参见《口外九大人图》,台北“故宫博物院”藏,文献编号:平图021577。

    (13)参见《乾隆十三排图》,汪前进、刘若芳整理:《清廷三大实测全图集》,外文出版社2007年版,一排东一。

    (14)参见《盛京五路图》,台北“故宫博物院”藏,文献编号:平图021568。

    (15)[俄]B.C.米亚斯尼科夫主编、徐昌翰等译:《19世纪俄中关系:资料与文献》第1卷中册,广东人民出版社2012年版,第559页。

    (16)[法]张诚著、陈霞飞译:《张诚日记》,商务印书馆1973年版,第41页。

    (17)[美]约瑟夫·塞比斯著、王立人译:《耶稣会士徐日升关于中俄尼布楚谈判的日记》,商务印书馆1973年版,第197页。

    (18)苏联科学院远东研究所等编,黑龙江大学俄语系翻译组、黑龙江省哲学社会科学研究所第三室译:《十七世纪俄中关系》第2卷第3册,第843—844页。

    (19)苏联科学院远东研究所等编,黑龙江大学俄语系翻译组、黑龙江省哲学社会科学研究所第三室译:《十七世纪俄中关系》第2卷第3册,第952页。

    (20)苏联科学院远东研究所等编,黑龙江大学俄语系翻译组、黑龙江省哲学社会科学研究所第三室译:《十七世纪俄中关系》第2卷第3册,第951页。

    (21)值得注意的是,本处清朝代表提出的“黑龙江南岸归我,北岸归俄罗斯”。宫中档满文原文即如此,但这同上面一条方案存在矛盾之处。既然外兴安岭以南已经划归中国,此处又以位于外兴安岭以南的黑龙江划界显然不合常理。依据同这份档案内容大体一致但版本不同的《钦差大臣与俄国使臣尼布楚谈判记录》“流入黑龙江的额尔古纳河的南岸作为我国的领域,而北岸作为俄国的领域”的记载,作为边界的是注入黑龙江的额尔古纳河,而非黑龙江。从前后的行文逻辑来看,《谈判记录》所载更加合理,因此可以认为宫中档所记应当有疏漏之处,也能看出宫中档所记版本应当并非该档案最初版本。此处满文原文如下:jai sahaliyan ula de amargi ci dosinjiha,corna sere urun birai hanci bisire,gerbici bira be jecen obufi,ere birai sekiyen i ergi wehe noho amba hinggan i jidun be jafahai,mederi dosime banjiha nosy alin de isitala antu i ergi be musengge obume,boso ergi be oros de obuki.sahaliyan ulai julergi dalin be musengge obume,amagi dalin be oros de obufi.jai enggide bira ci,cung selengge bira de isitala cargi dalin be kalka de obuki seme.《议奏中俄尼布楚条约原件》(康熙二十八年),宫中档满文朱批奏折,中国第一历史档案馆藏,档案号:04-02-002-000001-0021。

    (22)《议奏中俄尼布楚条约原件》(康熙二十八年),宫中档满文朱批奏折,中国第一历史档案馆藏,档案号:04-02-002-000001-0021。

    (23)《议奏中俄尼布楚条约原件》(康熙二十八年),宫中档满文朱批奏折,中国第一历史档案馆藏,档案号:04-02-002-000001-0021。

    (24)该论点学界尚存争议,承志指出《吉林九河图》并非谈判用图,且《口外九大人图》为《吉林九河图》原本,但由于二图中诺斯山位置一致,因此对于本文讨论的问题并无影响。参见[日]吉田金一:《郎谈〈吉林九河图〉与尼布楚条约》,《东洋学报》第62卷第1号,1981年;承志:《满文古地图与俄文古地图的邂逅》,《自然科学史研究》2022年第1期。

    (25)参见承志:《满文古地图与俄文古地图的邂逅》,《自然科学史研究》2022年第1期。

    (26)参见[日]松浦茂:《〈尼布楚条约〉签订后清朝对黑龙江左岸的调查》,《史林》第80卷第5号,1997年。

    (27)参见[俄]Цapьков Олег Eвгеньевич.Очеpки истopии caxa Mосковскaя конкистa и политикa тoйонов.Concordе,2022,N 3。

    (28)《委散骑郎参领尼喀塔持来文书》(康熙二十三年六月初九日),俄罗斯科学院东方文献研究所藏:《黑龙江档》,转引自承志:《尼布楚条约界碑图的幻影——满文〈黑龙江流域图〉研究》,《故宫学术季刊》2011年第1期。

    (29)《委散骑郎参领尼喀塔持来文书》(康熙二十三年六月初九日),转引自承志:《尼布楚条约界碑图的幻影——满文〈黑龙江流域图〉研究》,《故宫学术季刊》2011年第1期。

    (30)《委散骑郎参领尼喀塔持来文书》(康熙二十三年六月初九日),转引自承志:《尼布楚条约界碑图的幻影——满文〈黑龙江流域图〉研究》,《故宫学术季刊》2011年第29卷第1期。

    (31)参见葛剑雄:《悠悠长水:谭其骧传》,广东人民出版社2014年版,第428页。

    (32)Сбоpникь Дorовopoь России сь Китaемь 1689-1881 гг.Сaнктпетеpбуpгь:Типoгpaфiя Импеpaтopской Aкaдемiи Нaукь.1889.C.4.拉丁文原文如-下:ut quicunque fluvii in mare influunt et quaecumque terrae sunt intermediae inter fluvium Vdi et seriem montium pro limitibus designatam prointerim indeterminatae relinquantur.

    (33)Сбоpникь Дoговopoь Рocсии сь Китaемь 1689-1881 гг.Сaнктпетеpбуpгь:Типoгpaфiя Импеpaтopской Aкaдемiи Нaукь.1889.C.4.俄文原文如下:пpочиежь pѣки,кoтopые лежaть вь средине межь pькою Удью пoдъ Рoссǐйскoгo Гoсyдapствa владѣнǐемь и межь oгpаниченными гopами,кoтopые сoдеpжaтцa близь Aмуpa владънǐя Хинскoгo Гoсудapствa и впaдaють вь мopе и всянǐя земли пoсpеди сущǐе,межь тою вышепомянутою pѣкою Удью и межъ гopaми,кoтopые дo гpаницы нaдлежaтъ не oгpaничены,нынѣ дa пpебывaютъ.

    (34)[苏联]巴尔苏科夫编著,黑龙江大学外语系、黑龙江省哲学社会科学研究所译:《穆拉维约夫-阿穆尔斯基伯爵(传记资料)》第2卷,商务印书馆1974年版,第132页。

    (35)Сбоpникь Дoговopoь Рoссии съ Китaемь 1689-1881 гг.Санктпетеpбуpгь:Типoгpaфiя Импеpaтopской Aкaдемiи Нaукь.1889.C.4.满文原文如下:damu udi bira ci julesi,ere toktobuha hinggan i alin ci amasi,juwe siden de bisire,ba na,bira,birgan be taka siden de obufi.

    (36)《议奏中俄尼布楚条约原件》(康熙二十八年),宫中档满文朱批奏折,中国第一历史档案馆藏,档案号:04-02-002-000001-0021。

    (37)《议奏中俄尼布楚条约原件》(康熙二十八年),宫中档满文朱批奏折,中国第一历史档案馆藏,档案号:04-02-002-000001-0021。

    (38)《议奏中俄尼布楚条约原件》(康熙二十八年),宫中档满文朱批奏折,中国第一历史档案馆藏,档案号:04-02-002-000001-0021。

    (39)《无题名》(乾隆三十年八月二十二日),宫中档满文朱批奏折,中国第一历史档案馆藏,档案号:04-02-002-000521-0022。

    (40)[俄]根·伊·涅维尔斯科伊著,郝建恒、高文风译:《俄国海军军官在俄国远东的功勋(1849-1855)》,商务印书馆1978年版,第51页。

    (41)《左领常兴巡边录》,《达斡尔资料集》编委会编:《达斡尔资料集》第1集,民族出版社1996年版,第20页。

    (42)[俄]根·伊·涅维尔斯科伊著,郝建恒、高文风译:《俄国海军军官在俄国远东的功勋(1849-1855)》,第156页。

    (43)奥登挂、呼思乐译:《达斡尔族传统诗歌选译》,内蒙古人民出版社1991年版,第79页。

    (44)奥登挂、呼思乐译:《达斡尔族传统诗歌选译》,第90—91页。

    转自《中国边疆史地研究》(京)2025年第3期

  • 陈支平 吴晓非:清代国家治理中的信息传递机制——以提塘制度为中心的历史考察

    明清时期,中国古代驿政进入全盛时代。“凡置邮,曰驿,曰站,曰塘,曰台,曰所,曰铺”,①清代驿传主要通过以上几种形式得以实现。提塘,又称“提塘官”,是明清时期外省派驻京师传递文书的官员。提塘不仅是上传下达公文的得力工具,也是清代政治体系中维系统治的重要手段。目前,学术界对于提塘的研究主要集中在两个方面。一是立足政治制度史的视角,探讨提塘的设置、职能及制度影响等方面,②然而对提塘的铨选制度和运行经费方面着墨不多;二是新闻史学领域,较多关注古代信息传递机制的研究,在古代报纸、邸报等方面的研究中有所提及,③但侧重于历时性的演化趋势,并没有深入考察清代提塘在信息传递运行中的形态及对中央和地方的影响。近年来,档案资料广泛应用于史学研究中,为研究提塘制度提供新的材料和新的视野。奏折、地方档案等的运用,将提塘的研究推向深入,解决了更多细致化的问题,诸如提塘的选拔机制、运行经费及其在信息传递中的不法行为等。清代提塘利用职权之便,在传递政治信息的过程中施展手段,获取经制经费外的经济利益,而这必然与提塘自下而上的选拔制度和运作经费的来源产生关联。而现有研究对提塘铨选和经费来源及其非法活动提及较少。本文依据中国第一历史档案馆所藏奏折及清代县衙档案,试图厘清提塘的选拔机制和运行经费来源,以及提塘借助操控政治信息传递对中央和地方社会产生影响,并分析提塘在上述过程中参与清代政治生活的非预料性结果,以求教于诸方家。

    一、清代的提塘制度及其铨选

    提塘作为清代驿传体系的一种,承担着递送公文、刊发邸报等职责。清代的提塘有两种不同的类型,一为驻扎在省城的提塘,称为“省塘”;一为驻扎在京城的提塘,又称“京塘”,二者构成清代“两塘”并行的“双塘”管理体制。④清制,驻京提塘官共有十六人,由直隶、山东、山西、河南、江南、江西、福建、浙江、湖南、湖北、四川、广东、陕甘新疆、云贵等省及漕河分别派驻,隶属兵部捷报处,其主要职能为“凡钞刊章奏事件、寄交各省敕书印信物件以及各部院寻常咨行外省公文,俱交给递送”。⑤提塘的核心职能是递送公文和刊发邸报,另外负责一些特殊的递送,如皇帝敕印、官员印信以及一些礼制和表彰等事。各省驻京提塘与本省的信息递送有专门的塘递专线,以军兵充任塘拨,往返于京师与各省督抚驻地之间。

    随着清政府统治的不断深入,提塘的铨选制度不断改进以适应统治的需要。提塘主要由各省督抚于本省武进士、武举人及守备中推荐咨送兵部,由兵部统一管辖。康熙六十一年(1722)规定:“各省提塘员缺限部文到日,该督抚即行拣选合例人员,送部顶补。”⑥可见,康熙时期对提塘的选用无任何条件限制,选任之权完全掌握在地方督抚手中。

    雍正五年(1727)的程如丝案促使提塘铨选制度的初步变革。四川夔州府知府程如丝因私卖盐斤被革职,拟斩立决,但在刑部斩决部文下达到省之前,程如丝已先行得知消息畏罪自杀。提塘早于正式部文送达已将信息泄露,极大地削减了皇帝的权威。对此,时任四川巡抚宪德提出两点提塘敢于借邮传之名作奸滋弊的缘由。其一,提塘出身低微,且多系微末职衔,无爱惜功名之念;其二,对已经作奸犯科的提塘,没有及时送官府依法惩处。宪德还提出了革弊方案,并建议加大惩处力度。一旦各省督抚所选择的提塘出现过失,各省督抚亦负连带责任。⑦

    由此,雍正六年(1728)对提塘的铨选进行改进:“各省提塘,令该督抚于本省武进士及候补候选守备内,拣选家道殷实小心谨慎之人,取具地方官印结,申送考验,咨部顶补。三年期满,如果勤劳无过,由部注册照本班即用。”⑧新规提高了提塘的选任条件,各省督抚须从本省武进士及候补备选守备中挑选,且将“家道殷实,小心谨慎”作为挑选的另一必备条件,并需得到地方官员的推荐,出具地方官印鉴,方可咨部顶补。这一改革措施缩小了地方督抚选择的范围,且使其在铨选的各个环节受到限制,很大程度上削弱各省督抚的选任权,使在京提塘的队伍更加专业化、职业化。

    “武进士充补提塘,以三年为期,而后考成”,逐渐成为清代提塘铨选和晋升的重要制度。此后,在雍正六年(1728)改革的主体上,清廷不断完善提塘的铨选和晋升机制,并对提塘的失职行为加以约束。如嘉庆元年(1796),对武进士的等级进行了细化,对任满提塘的准出设置标准。据兵部尚书庆桂奏,“各省提塘向由武进士充补,三年期满,劳无过,考验弓马,概行带领引见请旨分别营卫入于应选班内,以守备补用”。之后由于武进士分成两等,“其当差勤奋弓马可观者,列为一等,带领引见,分别营卫入于提塘本班,以守备选用;其循分当差,弓马中平者,毋庸引见,列为二等。以守御所千总注册候。其如何选用之处,向未设有班次。伏查定例,奉旨以守御所千总补用人员无班可归者。俱以奉旨之日起归入双月伍缺,后推用一人等语”。⑨

    清代对提塘铨选制度的改革,体现了清代皇权与地方督抚权力的动态变化。从地方督抚完全掌握提塘的选任权,到中央不断提高提塘的铨选条件及考成标准,在这个过程中,皇权不断得到加强,地方督抚权力不断受到制约,体现了皇权与地方督抚权力的政治博弈。政治信息博弈作为政治博弈的重要组成部分,⑩而提塘作为清代政治信息传递的重要手段和工具,其在中央与地方政治信息博弈的角逐中无疑影响显著。尽管中央设计了一系列的严格管理制度,但在实际运行过程中,提塘则更加偏向于地方督抚,这在提塘的运作经费及信息传递中亦有展现。

    二、提塘的运作经费——塘饷银

    塘饷银即各省派驻的在京提塘及所设办事机构的运作经费,主要由各省自行负担,在京提塘定期赴司请领。“工食银两出自通省各衙门看报各官,按季解贮藩库,提塘赴司请领”,(11)“臣前开坐京塘公费银四百两是巡抚衙门中所给,以办公务。此条原系工墨银二千一百八十两,系州县捐给”,(12)“提塘料理本章部文,既有奔走之劳,且每年送看报抄,不无之墨之费,臣拟于协营中每年各捐一百二十金,共给银四百八十两,资其养赡,以便驱使”。(13)由上述几则材料可知,在京提塘的塘饷银,包括工食银两、公费银、工墨银等,均由各省自行承担。

    有清一代,中央明令各省督抚将地方所必需的工费分析款项,立定章程,上报户部,并汇奏存案。光绪朝《清会典事例》中详定了各省的额定耗羡章程,其中便具体包含了各省的在京提塘维持运行所需的开支(见表1)。

    各省提供了提塘及所属报房和塘兵们的各项开支,以便邸报、公文等及时传递,知晓各部册文。表1中各省提供的经费开支数量有明显差异,原因在于多个方面。第一,各省财力状况的差异,导致此项开支的预算存留不同。财力雄厚的省份,如山东、广东,其提供的经费明显高于其他省份。第二,省份疆域的大小导致二级衙门设置数量的不同,从而影响了收阅邸报的份数,相应地影响塘务所产生的花费。府州县等衙门设置数量越多,所需报资银便会增多。第三,到京城的距离与提塘花费之间呈正向比例关系。越偏远的省份,提塘官们传递公文所需各项成本越高,其工食银、脚价银、盘缠银等所需更甚。

    那么,各省的塘饷银在本省财政中是如何兑现的呢?有学者将此项费用称为“通省阅报银两”,虽然名义上应出自“通省各衙门看报各官”,但实际上仍然由公库承担。(14)受限于资料,此种说法不免有一定的片面性。实际上,清代前中期,各省针对塘饷银已然建立起一套由各府州县定期按季出备报资的财政运行机制,各省的塘饷银由各地方官员额捐而成。

    以甘肃省为例,陕西甘肃二省及新疆地区共同设在京提塘一人,且甘肃省每年须额捐塘饷银七百两,解交至西安布政司处。康熙六十一年(1722)七月,署理西和县正堂蒋培熙接到布政司发来信票,要求将康熙五十九年(1720)至六十一年“未完塘丁银两照依单开数目,刻速照数耑差起解司库,立等查收”。(15)署理甘肃布政使司傅德依据提塘官王世贵所开的详单,向西和县收取报资。

    念该县任亦清俭,本署司于该提塘所开原单数目二十两之内,量为酌减银四两,官署报实有裨处,何可吝惜专费,拟合行知。为此仰县官吏查照来文事理,即将提塘王世贵所送京报照常收看,每年止应给银十六七两作四季解交司库以便给发,不得迟延逾季,致烦催提。(16)

    提塘官所传递署报对州县官而言实有裨处,并要求县官照常收看,并将报资按季解交司库。即便受到布政司的酌减,西和县县官仍旧不能按时按季出具报资,屡屡拖延,借故托词,迟交少交。(17)可见,各省派驻的在京提塘所设办事机构及活动运作所需各项经费均由各省自行承担解决,而各省的经费来源于通省衙门收取看报的各官,在获取公文署报后,按季出具报资。而驻京的提塘官们需定期前往督抚处领取塘饷银,以维持日常运作。

    各省所提供的塘饷银少则几百两,多则几千两。如此大数目的塘饷银,统一由驻京提塘支配,极易出现提塘官侵吞、贪污、挪用、冒领等事件。嘉庆八年(1803),代办福建塘务浙江提塘吴大定呈控新任福建提塘郑上荣侵用报资银两一案,经核查,郑上荣借交代为名,迁延勒措本年福建春夏二季报资银两,前任提塘陈文晖与陈瑞彪有浮开索诈之弊,将三人均交刑部审拟。(18)在此事件中亦可知,提塘事务中传送往来文报的一切经费,系提塘官先行借垫,而后禀报藩司请领报资银。而且,新上任的提塘可以预领两季的报资,以备使用。同治十二年(1873)三月,山东巡抚丁宝桢上奏前任提塘马景阿冒领塘饷,请求革职查办。“前任提塘马景阿于现任提塘金凤舞接办之时,有支代外款未清,经各省提塘监支议明,将金凤舞任内应领同治九年秋季,十年、十一年春秋季,十二年春季共六季塘饷均归马景阿具领归款乃误,前提塘马景阿于应领冬季塘饷外,胆敢将现任应领十一年冬季饷银四百四十五两三钱七分二厘,用空白钤领,赴司冒领,致现任提塘办公无资。似此冒领饷项,任意侵渔,实属藐玩。请旨将前提塘马景阿即行革职并提省审办,以期水落石出。”(19)上述两个冒领侵用塘饷银的案件,其共通点在于均发生在前任提塘与现任提塘交接之际,直接反映了塘饷银申领机制上的弊端,各省藩司无法及时准确地了解在京提塘的具体支出,存在一定的滞后性。

    塘饷银作为各省派驻的在京提塘所设办事机构的活动运作经费,由提塘官定期向地方藩司请领。各省向各级看报衙门按季收取报资银两,以充塘饷银。然而州县衙门地方官往往种种拖延,借故托词,迟交少交。由于塘饷银申领机制具有滞后性,在提塘官换届之际,塘饷银易被前任提塘冒领侵用。

    三、提塘与政治信息交易

    信息交易在中国古代是一个较为常见的现象。在一个较为发达的商业社会,无论是地方督抚、州县官员,还是士绅、举人,或者是长短途贩卖货物的商人,都对中央或各省的政治信息有着较为旺盛的需求,由此造就政治信息的市场。(20)努尔哈赤起兵之时,为得到关于明政府的有价值的情报,不惜花重金从明朝官员手中购买邸报。(21)提塘上传下达公文,本应成为官僚政治体系传达政令信息、保持中央与地方畅通的得力制度。然而,在提塘制度运行的实践过程中,提塘与各级官员、地方人员勾结买卖公文信息,在中央与地方逐渐编织成一张信息交易网络,以满足各自经济利益的需求。这与其制度设计背道而弛。

    (一)中央层面的信息交易

    传递公文邸报是提塘官的主要核心职能。为更好地发挥此项职能,提塘传递公文有着一套严密的程序,并在中央与各省之间形成了一条以提塘为轴心的传递链条:地方督抚→京师→提塘→通政司→内阁→皇帝→内阁→提塘→地方督抚。提塘代为传递的奏疏经由通政使司收受、内阁票拟、皇帝批旨、红本处批红、六科发抄、各驻京提塘抄录等环节后,形成邸报,并下传至所在各省督抚。(22)正是在这样复杂的环节中,为提塘更多地接触到核心的政治信息提供便利。

    凭借提塘获取一些机密信息,是各地督抚、封疆大吏常用的手段。乾隆十一年(1746)四月,皇帝直接上谕,要求直隶、江南、浙江等省督抚申饬:

    军机处乃系机要重地,凡事俱应慎密,不容宣泄。今乃有在京直隶江南浙江等处提塘,串通军机处写字之人,将不发抄之事件抄寄该省督抚者。朕看此情节,在提塘等微末之人,不过以此博督抚之欢心,在督抚亦乐其不时私递,得闻京师信息。此皆浅陋之见,且非始于今日。朕已将督抚等从宽免其查究。但那苏图、尹继善、陈大受、魏定国、常安等俱为封疆大臣,似此行私报秘等事,甚不光明,若有见闻,即当据实查办,何得身蹈其事,不能自检,尚得谓之正己率属乎?着密行传谕申饬之。(23)

    在京提塘串通军机处“写字之人”,将“不发抄之事件”私抄寄给该省督抚,此乃泄露军机处机密的行为。对此,浙江巡抚常安奏报:“惟是在京提塘将不发抄之事件抄寄,臣因循缄默,不行据实查办,此即臣之不职,罪无可逭。”常安等深知此事对其带来之好处,自然缄默不语,乾隆帝亦朱批:“此事尚不仅汝,故不罪耳。”(24)同样,安徽巡抚魏定国解释道:“臣自任巡抚,每次接阅邸抄,虽间有提塘另抄偏报,总因相习已久,遂不留心查察,实臣疏忽之处。”(25)在魏定国看来,提塘私抄偏报于督抚,已成积习,其早已习以为常。可见驻京提塘抄写不应发抄之事件寄予督抚,已久为惯例。直隶总督那苏图在乾隆皇帝的追问下,只得勉强上奏:“臣平日刻自勉励,今提塘抄送偏报一事,未能实时察办。愚昧之罪,幸邀宽宥,实无可措词覆奏,惟有检身检心,随事省察。”(26)

    地方督抚作为政治信息交易的最大获益者,掌握了更多的中央内部消息。乾隆皇帝认为驻京提塘的动机在于,“提塘等微末之人不过以此博督抚之欢心”。从署理广西巡抚托庸的上奏中可以洞察出其动机所在:

    据驻京提塘武进士俞焯禀称,缘京塘办理报抄,俱系部科事件,此定例也。如军机折奏功令森严,京塘万难觅稿,何由得办报抄?然各省大宪中间有办理军机重件者,俱托亲信之人办理。提塘初到京时,委系不知,于去岁十月始得知焉。有原办军机密抄黄老八者,因买军机底稿,一时疏忽泄露,为九门提督题参,已经解回原籍。是以向来各省京塘,以身家性命为重,俱不敢办……提塘于无可报恩之中而思一报恩之路,央人向军机房老成谙事者,托其代为买取折奏事件,彼以性命攸关为辞,不敢轻允,求之再三,司事者始云重件中之详细不敢多抄,只可于中撮其最要者,密抄其十之二三或十之五六,却每月必需重费笔资,可能办理。提塘每年工墨仅可敷衍,谅蒙宪鉴,提塘虽非素封之家,而衣食颇足,情愿每月捐银十余两办理军机房折奏事件,以期图报于万……窃查提塘专司递发本章文移,此外传抄俱系发出部科露章等事件,至于军机处办理事件,皆系秘密不许泄漏者,乃提塘俞焯敢不畏法,胆敢贿求密抄,欲将军机秘密之重情,以作效力报酬之私具,且称随有随办,谨慎收贮等语。(27)

    托庸一语道破提塘私抄泄密的真正动机在于“将军机秘密之重情,以作效力报酬之私具”。依照定例,在京提塘办理报抄,只得从部科公文中抄取。而在京提塘通过贿赂军机房中“老成谙事者”,每月捐银十余两便可买取军机折奏等事件,由于地方督抚在提塘的铨选制度中拥有较大的话语权,故提塘想方设法将规定外的重要政治信息传递给督抚。

    各省提塘与中央的内阁、军机处等办公人员之间形成了一个以信息买卖为核心的商业化交易链条。由于提塘任期时间长,积攒大量人脉资源,他们能够从内阁、军机处等办公人员处买取信息,一省提塘还能从他省提塘处买取信息。乾隆元年(1736),据步军统领鄂善奏报,在一件违例抄送邸报的案件中,兵部架阁科贴写方柱臣与内阁办事人员陈受益合谋,将内阁中未进呈的题本奏稿带至家中,雇人抄写,并转卖各省提塘。方柱臣供道:“上年十二月内,小的原向内阁供事陈受益商量,叫他将未经进呈之题奏本底带出来抄写了,交与汪九、吕九皋,经手转发各省塘报。言明每月直隶提塘给银十二两,广东给银九两五钱,山西给银五两,湖广给银六两,云贵给银二两二钱,四川给银二两五钱,江西给银四两,浙江给银二两五钱,东抄房给银五两,西抄房给银三两六钱,每月共得银五十三两六钱。”(28)说明在中央层面,提塘与中央办公人员之间存在较为成熟的信息交易模式,已出现定额化专卖。

    提塘通过与军机处、内阁人员之间每月的金钱输送,买取折奏事件,再发回地方督抚,可以助推地方督抚突破层级限制,掌握更多法外的中央方面的信息。在经济利益的驱使下,提塘与办公人员之间通过买卖,将政治信息以商品交易的方式流向地方,政治信息的传递已然出现商业化迹象。

    (二)地方层面的信息交易

    各省负责塘递专线的提塘,负责将驻京提塘传来的公文递送至省内各衙门。自京至省的下行与平行公文,由驻京提塘统交塘丁赉送回省,在此过程中,由各省督抚标兵充任的塘丁与地方官吏甚至商旅百姓之间都存在信息买卖关系。以提塘吴士周传抄捏造逆语案和松江提塘陈公绶封寄伪稿案为例,探讨提塘与地方官吏、生员和商旅百姓之间的信息买卖,以及地方社会政治信息的传播。

    在提塘吴士周传抄捏造逆语一案中,乾隆十六年(1751)七月初一日,贵州古州镇总兵官宋爱钉封密禀,内称六月廿二日驻安顺府普定县提塘吴士周禀内另有密禀一件,其内容“词殊不经,明系狂悖之徒捏造传播”,(29)试图传播以大干法纪。密禀内所抄传播之词,系假借大臣名目,大肆诽谤甚至捏造朱批。遂捉拿提塘吴士周,并以此为着落点根追,以免传播愈广。(30)

    吴士周,系承办古州等镇公务之提塘,住居安顺府普定县。署普定县知县朱怀栻严鞫,吴士周始供出系往滇省卖黄连生理之四川客人谭永福所抄。讯据谭永福供,有伙计唐宽前在云南杂货信丰行见彼处店中人传说此言,因而抄出。后再审,据吴士周供:“六月初间有候补守备彭朝贵说他住的胡家店内有从云南来的客人,带有新奏章底稿拿与候补守备张忠,张忠不甚识字,拿与候补守备李全。我在李全手里要了来,只道是启奏过的,本章自然上报,故此抄禀并不知是讹传的。”据谭永福供:“我同伙计唐宽、郝彭祖、陈涛在云南五福行里卖黄连,因唐宽在信丰行里看见这奏稿,说是新间拿到五福行来看,是郝彭祖用草纸抄下,把原稿还了信丰行了,我得了这张稿底,住了十四五天,身上有病要先回家,留唐宽、郝彭祖在五福行发卖黄连,我同陈涛先回来。到了安顺府胡家店内,因害病住下,见郝彭祖抄的这张草纸稿一路操破,我自己另行照样抄写,被同店住的彭守备要了去看,不知怎样,传与提塘的。”(31)

    经审讯,吴士周供述,该奏稿系四川商人谭永福贩卖黄连时在云南杂货信丰行中抄下,后因病归家途中,居住在安顺府胡家店内,经候补守备彭朝贵、李全抄写所得。当吴士周听说是一件新奏章底稿,便萌生向上级传递的意图,将此抄禀递送至古州镇总兵官处。一方面,这表现了提塘吴士周识见浅陋,无法判别各类公文的真伪;另一方面,吴一听说是新奏章底稿,并有朱批,便立即密禀传递,表现出其试图通过传递重要政治信息来讨好上级。在地方社会中,存在一个信息交换、交易以及传播的公共场所,如商行、旅店等,其极易成为信息的集散地,为商人、普通百姓、地方士绅和官吏生员等提供交流传播的公共平台,而来自天南海北的过往人员,均能成为传播信息的公共媒介。

    而松江提塘陈公绶封寄伪稿一案,深刻地揭示了提塘与地方有司、生员之间暗中进行信息交易的现象,在地方官员中存在一个公文奏稿买卖的经济交易链条。

    “陈公绶向充松江提标小提塘,吴进义前任松江提督时曾加恩待,每年给与报资,令其探听各衙门事件,抄送辕门报封;迨吴进义调任浙江,仍给与报资,照旧抄送。”(32)提塘将衙门事件抄送辕门报封,有司给予报资。陈公绶收取吴进义的报资,并在吴进义调任外省之后,仍然隔省封寄。东窗事发后,陈公绶想方设法为吴进义开脱,“陈公绶身充提塘,辙敢将伪稿隔省封寄,审实之后,复妄扳无辜,为吴进义留开脱地步,狡猾诡诈,情尤可恶”。(33)

    对陈公绶而言:“因吴进义待伊有恩,调任浙江后仍给与报资,令其封送江南小抄。上年四月初十日前接得河标营书钱玉珍所寄伪稿,以为新闻,遂将原纸封送吴进义衙门。诘其塘递草簿无号之处,据供,附寄书禀向不列号……诘其因何狡展不行实供,据供父子受吴进义厚恩,希图诿卸为吴进义抵替,留开脱地步等语。”(34)陈公绶作为松江提标的提塘,其职责范围仅需抄送松江提督衙门的事件,然而,吴进义调任松江提督之后,陈公绶仍将各衙门事件抄送吴进义,这一违反规定的做法单单靠回报恩情的驱使是难以实现的。问题的根本在于“报资”,吴进义定期给予陈公绶一笔银两,陈公绶定期将江南衙门的各事件抄送封寄。二人私下交易官方信息,一方获取了经济利益,一方则掌握了江南各衙门的事件信息。

    此事件亦从侧面反映地方公文传递人员对官方公文的辨识能力不一。本案中涉及松江提标提塘陈公绶、河标营书钱玉珍、河标千总孟宗、桃源县生员邵必胜等人,都未能准确判别稿件真伪,只为个人经济利益,导致伪稿肆意传播,对地方社会造成不利影响。

    上述两案反映出,地方公文传递的过程中存在一个公文奏稿买卖的经济交易链。在浙江巡抚雅尔哈善的奏报中,提到这样一个细节,“江南河标右营书办钱玉珍因与陈公绶报资交关,将伪稿封寄”。(35)可见钱玉珍与陈公绶存在抄寄事件之间的经济往来,陈公绶从钱玉珍处获取有关衙门事件,并给予报资。而钱玉珍得自孟宗,孟宗得自邵必胜,在他们之间也必然存在类似的报资交易。

    (三)提塘制度异化及其原因

    清代政治信息传递系统中的信息买卖现象,尤其是提塘作为“中间商”的角色,反映了中央与地方在信息控制上的矛盾。提塘本为官方信息传递的枢纽,但在实际运作中缺乏有效监督,其职能逐渐异化,成为信息交易网络的核心节点。驻京提塘通过贿赂军机处、内阁人员获取机密奏折或谕旨内容,再抄寄给地方督抚,形成一条隐秘的利益链条。在地方层面,商行、旅店等公共场所逐渐成为各类人员信息交换、交易与传播的集散地。提塘为获取经济利益参与信息买卖,甚至伪造公文以牟利,严重削弱了政令的权威性。

    中央与地方频繁出现信息买卖事件,主要源于制度设计的缺陷与有效监督管理的缺失。首先,提塘的铨选权由地方督抚把控,中央缺乏有效制衡,导致提塘易与地方势力勾结,形成利益共同体。清廷虽规定提塘需受兵部考核,但实际监管极为松散,地方督抚往往包庇提塘的违规行为,甚至参与信息交易。其次,提塘的运作经费(塘饷银)需从地方州县收取的邸报报资中支取,而非来自中央财政拨款,使其更易受地方利益驱使。最后,地方和民间对政治信息的旺盛需求与清朝不断强化的政治信息垄断之间的矛盾愈发凸显,刺激并催生了信息交易市场。

    清廷虽采取了一些应对措施,如雍正时期强化密折制度、乾隆时期严查伪稿案,但未能从根本上解决提塘制度的问题。由于缺乏系统性改革,提塘的非法信息交易进一步加剧了政治腐败,削弱了中央对地方的控制力,成为清代中后期统治危机的一个缩影。

    结语

    传统中国中央集权政治体制的运作,围绕着对信息传递、政令颁行的控制而展开,通过对信息传递系统的垄断性掌控维系政治权威。(36)清代提塘制度及其铨选的发展演变,生动展现了这一体制在具体运作中的复杂面相。作为连接中央与地方的重要纽带,提塘虽位列官僚体系末端,却在帝国政治生态中扮演关键角色,对地方乃至中央的政治运行有着重要影响。

    从制度设计的层面观察,清政府通过提塘这一中介机构,不仅实现了政令文书的高效传递,更构建了一套严密的信息过滤机制,以此强化中央对地方的政治控制。然而,深入考察提塘制度的运行实态,可以发现其中暴露的制度设计缺陷。在铨选制度上,地方督抚对提塘人选的实际掌控权,折射出清代中央与地方关系的微妙平衡。在经费机制上,完全依赖地方财政的塘饷银制度,暴露出中央集权体制下的财政结构性矛盾。由于缺乏有效的监管机制和风险防范措施,这种制度安排客观上催生了以信息为媒介的灰色交易网络——提塘为获取经费保障,不得不将重要政治情报作为“特殊商品”售予地方大员;而督抚们通过这一渠道提前获取中央动态,在权力博弈中抢占先机。由此形成的非正式信息流通体系,实际上消解了清廷通过提塘制度实现信息垄断的初衷。

    从宏观的历史视角观察,提塘制度的兴衰演变揭示了传统政治体制的深层困境。18世纪政治实践中,提塘制度虽基本维持了帝国信息系统的运转,但随着官僚体系的腐化,其制度性弊端日益凸显,泄密事件频发、伪稿流传、效率低下等问题,不仅影响了行政效能,更动摇了民众对官方信息权威性的信任。至19世纪中后期,在内忧外患的交迫下,这套传统信息传递系统已难以应对近代化政务的需求。而新式邮政的引入,不仅代表着技术层面的革新,更标志着传统政治沟通模式的根本性变革——当信息传递不再完全受控于权力体系时,专制统治的基础也随之动摇。

    提塘制度的最终消亡,象征着中国传统政治治理模式在现代性冲击下的调适与转型。这一历史过程表明:任何政治体制的存续,都与其信息控制能力密切相关。清代提塘制度的演变轨迹,既展现了传统中国“文书治国”的治理智慧,也暴露了集权体制应对社会变革的制度性缺陷。对这一微观制度的深入研究,不仅有助于我们理解清代政治运作的实际样态,更为审视中国传统政治制度的本质特征提供了重要的观察窗口。

    注释:

    ①光绪《清会典》卷51《兵部·车驾清吏司》,中华书局1991年影印本,第462页。

    ②刘文鹏:《清代提塘考》,《清史研究》2007年第4期。李章程:《清代提塘与公文传递》,《档案学通讯》2015年第3期。马维熙:《清雍乾之际驻京提塘泄密问题研究》,《内蒙古大学学报》(哲学社会科学版)2016年第6期。刘良:《中国古代地方政府驻京办事机构的变迁研究》,《武汉大学学报》(人文科学版)2017年第5期。

    ③程丽红:《清代报人研究》,社会科学文献出版社2008年版。孔正毅、王书川:《试论清代邸报的发行体系》,《南昌大学学报》(人文社会科学版)2015年第1期。程丽红:《媒介变迁与乾隆朝的社会异动》,《现代传播(中国传媒大学学报)》2016年第7期。刘晓伟:《皇权政治与中国古代报纸的二重演化》,《新闻与传播研究》2022年第10期。

    ④李章程:《清代提塘与公文传递》,《档案学通讯》2015年第3期。

    ⑤光绪《清会典事例》卷703《邮政·塘务》,第8册,中华书局1991年影印本,第751页上。

    ⑥光绪《清会典事例》卷566《兵部·提塘录用》,第7册,第350页下。

    ⑦《清世宗实录》卷66,雍正六年二月丙午,中华书局1986年影印本,第1015-1016页。

    ⑧光绪《清会典事例》卷566《兵部·提塘录用》,第7册,第350页下。

    ⑨《兵部尚书庆桂奏为各省驻京提塘带领引见事》,嘉庆元年十二月初四日,档号:03-1651-077,中国第一历史档案馆藏。

    ⑩刘晓伟:《皇权政治与中国古代报纸的二重演化》,《新闻与传播研究》2022年第10期。

    (11)《朱批谕旨》卷26《朱批塞楞额奏折》,于敏中等总纂:《景印摛藻堂四库全书荟要》第187册,世界书局1988年影印本,第629页上栏。

    (12)《朱批谕旨》卷149下《朱批魏廷珍奏折》,第193册,第395页下栏。

    (13)《朱批谕旨》卷168《朱批杨鲲奏折》,第193册,第657页上栏。

    (14)方汉奇:《中国新闻事业通史》第1卷,中国人民大学出版社1992年版,第199页。

    (15)《为支领月饷事》,康熙六十一年七月廿七日,档号:清01-0003-1,西和县档案馆藏。

    (16)《信牌》,康熙六十一年八月初九日,档号:清01-0004-1,西和县档案馆藏。

    (17)《为再恳天恩事》,雍正元年三月,档号:清02-0002-1、清02-0005-1,西和县档案馆藏。

    (18)《巡视北城御史济兰奏为提塘郑上荣被控侵用报效银两请解任与陈文晖等交刑部审办事》,嘉庆八年七月初二日,档号:03-2388-012,中国第一历史档案馆藏。

    (19)《山东巡抚丁宝桢奏为特参前任提塘马景阿冒领塘饷请革职讯办事》,同治十二年三月三十日,档号:03-5068-029,中国第一历史档案馆藏。

    (20)刘文鹏:《盛世背后:乾隆时代的伪稿案研究》,“自序”,人民出版社2014年版,第3页。

    (21)刘文鹏:《清代提塘考》,《清史研究》2007年第4期。

    (22)李章程:《清代提塘与公文传递》,《档案学通讯》2015年第3期。

    (23)《清高宗实录》卷264,乾隆十一年四月丁丑,第426页。

    (24)《浙江巡抚常安奏为在京提塘将不发抄之件抄寄臣等不行查办传谕申饬谢恩事》,乾隆十一年五月初四日,档号:04-01-12-0049-001,中国第一历史档案馆藏。

    (25)《安徽巡抚魏定国奏为钦奉上谕严饬提塘大改积习不许抄写密报军机处办理事宜事》,乾隆十一年五月二十四日,档号:04-01-01-0130-057,中国第一历史档案馆藏。

    (26)《清高宗实录》卷267,乾隆十一年五月甲寅,第463页。

    (27)《署理广西巡抚托庸奏为据实奏闻提塘俞焯贿求密抄请旨革去武进士严审治罪事》,乾隆十一年闰三月初八日,档号:04-01-01-0138-012,中国第一历史档案馆藏。

    (28)《步军统领鄂善奏请将违例抄录书役交部审拟事》,乾隆元年四月四日,档号:03-0329-005,中国第一历史档案馆藏。

    (29)(30)《贵州提督丁世杰奏为密陈根究古州镇提塘吴士周狂悖不经密禀一纸由来事》,乾隆十六年七月十五日,档号:04-01-01-0201-004,中国第一历史档案馆藏。

    (31)《贵州巡抚开泰奏为严行密访根追安顺府提塘吴士周传抄捏造逆语案内给抄传播逆党事》,乾隆十六年七月二十二日,档号:04-01-38-0034-003,中国第一历史档案馆藏。

    (32)(33)《浙江巡抚雅尔哈善奏为审明松江提塘陈公绶封寄伪稿案分别定拟请旨事》,乾隆十七年八月二十一日,档号:04-01-38-0038-023,中国第一历史档案馆藏。

    (34)《浙江巡抚雅尔哈善奏为遵旨讯明松江提塘陈公绶封寄伪稿确凿无疑事》,乾隆十七年八月二十一日,档号:04-01-38-0038-025,中国第一历史档案馆藏。

    (35)《浙江巡抚雅尔哈善奏为审明松江提塘陈公绶封寄伪稿案分别定拟请旨事》,乾隆十七年八月二十一日,档号:04-01-38-0038-023,中国第一历史档案馆藏。

    (36)邓小南、曹家齐、平田茂树:《文书、政令、信息沟通:以唐宋时期为主》(上册),“序言”,北京大学出版社2012年版,第1页。

    转自《东南学术》(福州)2025年第5期

  • 蒋舸:“邻接权兜底保护”路径之反思——从古籍点校到人工智能生成内容

    随着文艺活动形式的增多、文艺成果异质性的增强,各种具有文艺外观但不够传统、不够典型的信息成果正在不断测试“作品”的内涵与外延,从而导致版权法结构化经验的“守门人”概念持续承压。近年来热议的人工智能生成内容(AIGC)是否可能构成用户作品之话题,便是该趋势的具体表现。在非典型文艺成果的灰区中,已逐渐凝结出三条路径:其一是以“作品”概念为基础的版权路径(本文在狭义上使用“版权”一词,不含邻接权,以便与“可版权性”概念保持一致),其二是以反不正当竞争法一般条款为代表的原则条款路径,其三是不断扩张邻接权的路径。版权路径倾向于发掘“作品”概念的弹性,而后两条路径相当于在版权法结构化经验之外重建规则。

    与原则条款扩张所受到的重视相比,邻接权路径的兜底化倾向尚缺乏关注。实际上,“增设邻接权”已经隐然展示出扩张趋势。例如针对独创性、艺术性或者控制程度较低的照片,不乏学者否认其作品资格,转而建议参考德国、法国等国的“邻接权照片”制度加以保护。又如,反对体育赛事直播画面构成作品者,建议“对现场直播的保护应通过立法对广播组织权的完善予以解决”。再如,在“AIGC是否构成AI用户的作品”问题上,亦有学者主张通过增设邻接权来实现利益平衡。总之,在面对因各种原因——例如艺术性不足、控制力不够、事实性太强、约束条件太多等——而受到可版权性挑战的文艺成果类型时,“增设邻接权”成为了可版权性反对者(下称“反对者”)在原则条款之外寄予厚望的兜底保护方案。

    版权路径的深入理解往往有赖于对替代方案的充分反思。可版权性的赞同者(下称“赞同者”)过去仅侧重论证为何版权法可行,很少关心为何邻接权兜底路径不合理,这种考察方式削弱了可版权性的论证广度与力度,也留下了邻接权在立法层面不合理扩张的隐患。

    在版权路径与邻接权路径的交叉地带,本文选取古籍点校作为方法论样本,目的在于揭示“邻接权兜底”路径上承载的不切实际的期待、在落实过程中逐渐呈现的内在矛盾。与照片、体育赛事直播画面,尤其是AIGC之“热”相比,古籍点校显得颇“冷”。然而这些议题背后的制度逻辑其实相通。热门议题之所以纷纭不定,往往是因为忽略了冷门议题所提供的制度经验。与其在一个接一个的热点问题中反复寄望于通过增设邻接权来兜底,不如深入剖析古籍点校样本,提炼可供新兴技术语境借鉴的分析框架。

    一、点校成果可版权性之争

    我国司法实践和学术讨论中所称古籍点校,指针对文字古籍的标点、分段和校勘行为,不包括汇编、注释、说明等行为。后者明显可版权,无需讨论。

    古籍点校可版权性的赞同者认为点校成果具有构成演绎作品的可能性,应当具体案件具体分析。在点校成果不构成作品的情况下,不应再通过增设邻接权或者原则条款提供兜底保护。可版权性反对者的核心观点则是将点校成果排除在作品范围之外。笔者归纳出如下四类反对理由,并逐一予以驳斥。

    (一)选择空间说

    在部分反对者看来,古籍点校不可能构成作品的理由在于选择空间不足。该说存在三方面缺陷:

    第一,选择空间的大小是事实问题,需要个案判断,不应类别化否定。

    正如无法通过一篇文字属于“新闻报道”来判断选择空间大小,也无法通过一项成果源自点校活动来判断选择空间是否足够。一部具体的古籍点校是否构成作品,应当根据个案情况予以分析。对于篇幅较短、点校争议不大的古籍而言,成果有可能不构成作品。但是,随着分段、断句、标点和校勘的数量增多,差异化选择会逐步累积。达到一定程度之后,不同点校者的成果之间便有可能出现客观可识别的显著差异(下称“显著差异”)。反对意见混淆了作为局部的单处点校和作为整体的点校成果。前者的选择空间有限,但后者则有可能具备足够的选择空间。

    第二,限制因素的存在不等于点校空间被剥夺。

    反对者强调点校行为所受限制太多。这种通过强调限制来推论缺乏点校空间的逻辑值得商榷。因为“限制多”与“选择多”完全可以并存。只要选择空间足够大,哪怕存在大量约束条件,最终保留下来的可选空间仍然有可能相当庞大。在进行独创性判断时,应当关心作者能够做出选择的空间有多大,而不应当关心他不能做出选择的空间有多大;应当关心他贡献的内容是什么,而不应当关心他没有贡献的内容有哪些。

    第三,既有案件中的点校成果几乎均不唯一,不同点校者完全有可能做出不同选择。

    反对者认为:“同一古籍文本的原意以及正确的理解应当只有一种”“正确的标点方式应当也只有一种”。此种论断对于单个选择或许正确,却不符合司法实践中争议客体的状态。在绝大多数既有案件中,原告点校成果与其他版本之间存在显著差异。在法院拒绝承认作品资格的郑福臣诉大众文艺出版社等案(《术语丛刊》案)中,被告出版物与原告成果一致、但原告成果与第三方版本不相同之处接近19000处。即使每处差异的选择空间只有二选一,其他点校者与原告趋同的概率也只有一万九千的平方分之一,选择空间不可谓不大。

    不同点校者的点校成果不尽相同乃是常态。许多看似微小的点校之处实为结合文本、历史、习俗等各项因素后做出的艰难推理。哪怕针对千年古籍,今人仍然能够发前人所未发、提出新见解,而这正是研究者源源不断投入点校工作的动力所在。例如元史专家洪金富先生便曾记录过《元典章》点校过程中的一些取舍依据。在不足二十字的一句话中,洪金富先生看似仅更改了三个汉字、两个标点。但这不仅耗费了大量考证与推理功夫,而且赋予了文本崭新的含义。不同点校者各出机杼、自成一家。倘若点校无法革故鼎新,很难想象一代又一代研究者会前赴后继地为点校投入毕生心血。点校是点校者个性的展现。而个性的载体,正是彼此存在显著差异的版本。

    需要说明的是:假如个案中的点校成果确实难以体现点校者的个性化选择,则此种点校成果固然不构成作品,却也不应通过新设的邻接权来提供保护。拟议中针对古籍点校的邻接权制度与版权制度一样缺乏事前界权机制。当争议客体缺乏客观可识别差异时,单凭事后界权的侵权程序将难以认定被告是否构成抄袭。倘若为缺乏客观可识别的点校成果增设邻接权,将导致付出大量制度成本却难以实现禁止抄袭的制度收益,并不可取。笔者注意到,“邻接权兜底”方案并不以保护缺乏客观可识别差异的点校成果为诉求,而以保护被认为不可能构成作品、但是具有客观可识别差异的成果为目标。因此,本文的分析重点,也在具有客观可识别差异的点校成果上。总之,“选择空间有限说”在绝大多数争议场景下不符合争议客体的属性,而在少数与争议客体属性相符合的场景下又不能成为“增设邻接权”的理由。

    (二)意图说

    另一派反对意见没有从“选择空间不足”这一客观因素中寻求理由,而是转向主观意图。该说由尼莫在死海古卷案中提出,以点校者的意图是“重现”而非“创作”为由否认古籍再现成果的可版权性,梁志文对该说进行过详细介绍,在此不赘。“意图说”与后文“事实说”是反对古籍点校可版权性的核心理由。

    “意图说”最明显的缺陷是对“创作意图”的解释过于狭隘,只关注点校者对意图中“旧”因素的描述,而忽略对“新”因素的追求。点校者固然有可能将自己的行动描述为“复原”,但也大可将此陈述为“推出新版本”。正是为了推陈出新,点校者才会孜孜以求体现自己个性化理解的新成果。如同其他演绎行为一样,点校同样新旧兼备。当裁判者在个案中判断作品资格时,关注对象应该是“新”元素的增量是否足够,而非“旧”元素的存量是否过大。

    “意图说”的第二项缺陷是用版权法外行的描述替代版权法专业判断。在反对者看来,只要点校者用“重现”“复原”“修复”等词汇来描述自己的目标,就不可能具备“创作意图”;只有当点校者将自己的目标描述为“创作新作品”时,才满足意图说所要求的主观方面的条件。然而,点校者只是从古籍研究的专业角度使用“复原”等词汇,并非将其作为与版权法上“创作”相对应的概念。文艺工作者口中的“创作”和“非创作”经常与这些概念在版权法上的涵义相左。杜尚的《喷泉》在艺术史上占有一席之地,但艺术成就并不会自动转换为作品资格。无论点校者从文艺创作角度将意图描述为重现或者再创作、复原或者重新诠释,他们都不应由于缺乏版权知识而受到惩罚。

    “意图说”的第三项缺陷是不符合版权法传统。版权实践表明:无论生产者是否追求产生新作品,结果都有可能构成作品。即便是临摹,当不同临摹者的成果彼此之间存在显著差异时,临摹成果同样构成作品。版权法甚至允许源自错误认识、偶然事件乃至拙劣技巧的差异成为权利客体,目的在于节约制度管理成本。“意图论”可能诱导创作者过度关心言辞的版权法效果,甚至引发虚假陈述。当点校者意识到使用“重现”“复原”等词汇将导致丧失版权时,会转而采取在版权法上更有利的方式重述意图与行为。被刻意包装的陈述既无助于获得更好的利益平衡效果,也无助于降低制度成本,反而可能给公众选择文艺成果造成不必要的障碍。类似现象也出现在AIGC可版权性问题上——用户掌握着关于AIGC创作意图与过程的一手资料。假设如实陈述可能导致版权被剥夺,用户就有动力作出虚假陈述。在设计制度时,此种制度成本不可不察。

    为了判断成果是否属于文艺领域,在边缘地带考虑创作者的意图有助于区分“文艺成果”和“非文艺成果”。例如,一段连续身体动作如果源自日常生活则可能被认为不属于文艺领域;但如果出于戏剧效果而被刻意表演出来,则很可能构成作品。不过,此时的主观状态并非用于否定独创性,而只是从文艺成果角度做出的粗略分类,带有强烈的政策选择意味。但文艺目的并非意图论所关心的“意图”,故文艺目的与作品资格的关系并不影响本文对意图论的批评。

    (三)事实说

    反对可版权性的第三项理由是古籍点校的事实属性,即“对客观事实的‘复原’,显然不可能构成受著作权法保护的作品”。权且将这项理由称为“事实说”。该说不成立的理由主要有三:

    第一,即便被“还原”的对象是事实,“还原”行为的结果仍可能构成作品。新闻报道、纪实文学、历史文献甚至前文分析的临摹都有事实“还原”属性,这并不意味着上述类型一概不可版权。

    第二,“古籍原貌”的难以验证性意味着它并非典型的不受保护事实。

    阻碍事实类信息成为作品的关键不是它与“事实”相关,而是该信息不适合版权法事后界权机制,以及该事实适合被保留在公有领域。当事实类信息的产生概率很小且版权私有化不会对公众福利造成封锁时,以还原事实为目标的信息同样有可能构成作品。正因如此,长篇新闻报道写实仍有可能构成作品。“事实”概念可以充当判断版权界权机制和公有领域范围的认知中介。但当存在争议时,这一中介概念需要被还原为底层问题才能实现制度效果。

    在“古籍原貌”难以验证、长篇点校成果彼此之间区别明显的情况下,以“点校行为意在还原事实”为由一概否认其作品资格并不妥当。如果把“还原”视为通向终点的跋涉,那么临摹式“还原”的终点是一个鲜明的点,因而不同跋涉者的路径选择容易趋同;而对于古人原意未被确定记载的点校式“还原”而言,终点是一团边界不清的雾,因此不同跋涉者分道扬镳的可能性更大。尽管有人会给“古籍原貌”贴上“事实”标签,但是古籍的篇幅越长、“原貌”越不确定,分歧越多,通过特定点校者的视角呈现的“原貌”便有可能属于适合版权事后界权机制的小概率成果,且无需被保留在公有领域。

    反对者举出“《谁毁坏了兴登堡号》案”(Hoehling v. Universal City Studios),意在说明无论“事实”是否可验证,都不受保护。这种观点将“事实”标签作为可以直接推论出作品资格的条件,而忽略了“事实”概念的认知中介功能。实际上,争议信息尽管被贴上“事实”标签,但真正导致作品资格被剥夺的理由并非其以反映事实为目标,而在于争议信息应当被保留在公有领域。假如被挪用的信息量大幅增加,或者针对“事实”的特定还原版本并没有重要到应当确保公众随意取用的地步,则法院有可能宣布被告的挪用行为构成版权侵权。从“事实”属性到“非作品”论断之间,仍有相当多的分析工作需要展开。可见,某些贴着“事实”标签且不可验证的信息不构成作品,并不意味着所有能被贴上“事实”标签且难以验证的信息都不可能构成作品。

    第三,即便从事实的角度来认识“古籍原貌”,也应将“古籍原貌”之各种可能性组成的整体视为事实,而不是将每种单独的可能性视为事实。换言之,应当将各种点校成果构成的集合视为事实,而不是将特定点校成果视为事实。在“古籍原貌”不可考证或者没有共识的情况下,每个点校者的成果都是在他看来最能反映“古籍原貌”的再现方式。尽管对于每个点校者而言,自己的点校是最接近“原貌”的再现方式,但对于公众而言,每个点校成果都只是理解“古籍原貌”的角度之一,所有点校成果的总和才更接近对“古籍原貌”的全景再现。单个点校成果之于“古籍原貌”,犹如单张照片之于被拍摄的物体。尽管照片是对物体“事实”的再现,但照片仍有可能构成作品。在物体简单、不同照片之间不存在显著差异的情况下,照片不构成作品。而在物体比较复杂、不同拍摄者对如何再现物体的看法不同的情况下,每张照片都有可能构成作品。照片是否构成作品,只能在个案中判断,不能因为照片是每位拍摄者心目中对物体的最佳再现而笼统地否定照片构成作品的可能性。点校成果亦如此:即便将“古籍原貌”作为事实,当不同人关于应当如何呈现事实的看法不一时,彼此之间存在显著差异的每个呈现方式均有可能构成作品。

    (四)知识垄断说

    反对者担心:“如果对古籍点校成果给予著作权法保护,则有可能出现先点校者垄断、后点校者必然侵权的局面,这对于古籍的传播利用反而构成阻碍,显然不应是著作权法所追求的。”此种顾虑并无依据。

    首先,承认可版权性,并不等于每个点校成果都是作品。其次,即便点校成果构成作品,公众仍然享有相当的行动自由。接触、实质性相似、合理使用甚至损害赔偿额等规则,都能为公众自由提供进一步保障。

    此外,假如版权保护会导致垄断,那么邻接权或者原则条款保护同样会导致垄断。知识垄断说无法解释为什么版权受否定,而邻接权或者原则条款却受追捧。

    综上,反对点校成果可版权性的各项理由均经不住推敲。点校是特殊的演绎行为,其特殊性体现在演绎者常常宣称自己意在“重现”,而且演绎空间所受限制较多。但是,上述两项因素都不会类别化地排除构成作品的可能性。与非演绎作品相比,确认演绎作品的独创性难度或许更大。因为针对以同一部原著为基础的不同演绎作品而言,读者更容易注意到其中的共性而非差异性。但是对于法院而言,仍然只需要根据显著差异部分来判断作品资格即可。遗憾的是,反对者将古籍点校问题移出版权法分析框架,转而求助于非版权规则。下文将对这种舍近求远的表现和后果进行分析。

    二、作为兜底保护方案的邻接权

    关于可版权性的种种质疑导致反对者对版权进路缺乏信心,但又认为点校成果需要激励。于是,反对者给出了两条替代路径,一是利用原则条款,二是增设邻接权,二者均具有为版权保护兜底的功能。利用原则条款兜底的具体表现,例如通过《民法通则》(1986)第五条来禁止被告挪用、要求被告赔偿损失,本文不赘。

    在游戏规则和同人元素等客体的替代保护机制上,原则条款成为否认版权保护者的共识。与之不同,在古籍点校的替代保护机制上,可版权性反对者认为增设邻接权才是“最佳的立法对策”。

    早期的反对文献,重点在于论证点校成果不构成作品的理由,邻接权只是文末被一笔带过的倡议。但随着讨论的推进,人们逐渐开始探索该权利的具体设定方式。近期已有文献提出了具体立法建议:

    “第X条 古籍作品科学版本权

    不受著作权保护的古籍作品或者文本的科学版本准用本法有关作品著作权的规定而受保护。其中,科学版本是指对上述古籍作品或者文本进行点校形成的、与该作品或者文本在先已知版本存在实质性区别的版本。

    该权利由版本的点校者享有。

    该权利在版本出版之后10年消灭,但版本在制作完成后10年内未出版的,该权利亦消灭。”(下称“建议文本”)

    建议文本采用德国《版权与邻接权法》第70条的术语,将邻接权命名为“科学版本权”。后文视上下文需要,交替使用“版本权”和“古籍点校邻接权”,内涵不作区别。

    上述建议文本表明,邻接权的构造如下:第一,权利客体是狭义点校成果,不包含注释、点评等明显可版权的内容。客体获得保护的前提是存在显著差异。第二,权利内容、权利限制均与版权规则相同。第三,权利保护期显著短于版权保护期。至此,“古籍点校不可版权、而应通过增设邻接权加以保护”在论证层面踏出了关键一步,完成了从宽泛倡议到可操作性文本的转变。但是,建议文本的出现,也更明显地展现出“邻接权兜底”方案在本体论和认识论两个层面的缺陷,需要认真分析。

    三、古籍点校邻接权方案提供的利益分配方案不合理

    在邻接权的设计者看来,“古籍点校本的独创性极其有限”。既然如此,“给予其50年以上的法律保护,不利于优秀中华文化在新技术条件下,广泛传播和弘扬光大”。但实际上,“令贡献和保护期精确匹配”的制度成本远远超过制度收益,所以版权法并未选择这种思路。现行各类作品在贡献程度和激励必要性上存在天壤之别,却享有相同的保护期。此外,即使不考虑“精确匹配”思路本身的不合理性,为古籍点校配置更短保护期的方案仍然不合理。理由如下:

    (一)短期保护不能反映点校者的贡献

    “古籍点校的独创性贡献更小所以保护期应当更短”,这一认知并不符合现实。

    第一,文艺成果的类别不能代替对具体文艺成果贡献程度的判断。

    贡献程度需要个案判断。哪怕处于同一文艺类别之中,不同成果的贡献程度也完全可以有天壤之别:文字作品中既有鸿篇巨制,也有不足十个字的广告语;音乐作品中既有传世名作,也有短短数个小节构成的旋律片段。人们无法通过类别来判断特定作品的贡献。同理,尽管某些点校成果的贡献不大,但点校成果的贡献程度并不因此而类别化地低于其他作品类型。

    第二,就平均值和最低值而言,点校成果的贡献很可能高于其他作品类型。

    在至今为止成讼的纠纷中,每个争议成果的贡献都远远大于当代作品的平均贡献。在中华书局诉国学时代案(二十四史与《清史稿》案)中,每部史书少则数十万字、多则数百万字,原告称:“1959年到1978年间,中华书局公司从全国范围内调集了百余位文史专家,……投入巨大成本并克服种种困难”,方完成点校工作。在李子成诉葛怀圣案(《寿光县志》案)中,点校工作持续两年之久。在人民文学出版社有限公司诉人民教育出版社有限公司案(《镜花缘》案)中,争议成果篇幅接近60万字。即便是在法院否认作品资格的郑福臣诉大众文艺出版社等案(《术语丛刊》案)中,法院也不否认原告点校成果包含接近19000处与既有版本不同的选择。

    在当今的作品中,包含海量的照片、短视频、演讲幻灯片以及商业文案等内容。这些作品平庸易逝,文艺贡献无法与古籍点校相提并论。难怪中华书局在面对“古籍点校不是作品”的论点时,不乏激动地谈到:“当年,在中华书局点校‘二十四史’和《清史稿》的这些公认的断代史各学科的大学者们:顾颉刚、陈垣、唐长孺、宋云彬、孙毓棠、王毓铨……无论如何想不到,以数十年之功完成的点校作品,竟被侵权盗版者说成谁都可以为之,甚至电脑都可以代劳之事。”就平均水平和下限而言,点校成果中包含的贡献明显高于典型作品类型。以贡献不足为由拒绝承认古籍点校为作品,缺乏事实依据。

    (二)短期保护未必能提供足够激励

    点校行为需要激励,而过于短暂的保护期很可能导致激励不足。

    版权保护期极其漫长。一名活到北京市平均寿命的作者在30岁前完成的所有以自然人作者身份享有版权的作品都将享有百年以上的保护。如此漫长的保护期没有引发激烈的公众批评这一事实本身着实令人诧异。这从侧面说明,“低贡献成果不得享有长期保护”的说法并不符合版权秩序的现状。

    然而,在“低贡献成果不得享有长期保护”的错误认知下,邻接权方案的核心规则是大幅缩短保护期。建议文本以10年为标准保护期,即便在点校完成后没有立刻发表的情况下,总保护期最长也不过20年。与版权保护期相比,邻接权的保护期短得可怜,与古籍点校的保护并不匹配。原因至少有二:

    首先,古籍点校很少是日常生活的副产品。

    大量照片的目的在于记录事实,大量日记的目的在于自我倾诉,大量文件的目的在于组织管理,大量演讲的目的在于分享观念。在大量满足正统版权法标准的“独创性表达”中,作者往往既不在意“独创”也不追求“表达”,所求常为独创表达之外的价值。即使没有版权激励,副产品类作品仍会大量出现。版权法将其纳入保护范围的原因并非激励,而是因为将它们与真正需要激励的作品区分开来的成本太高、收益太低。

    相反地,古籍点校很少作为副产品出现。如果不是为了获得点校成果,点校者不会实施点校行为。这意味着与常见作品类型相比,点校成果更需要产权激励。如果点校者不能将点校成果主张为自己的成果,如果任何人都可以在短暂的保护期过去后便随意抄袭点校成果,则点校者最直接、最主要的诉求将落空,点校激励将大幅减损。有人可能会提出,古籍点校的主要激励并不来自版权许可费而来自学界认可和研究经费。但是如果依照这种思路,学术论文的版权正当性也将大受减损。

    从副产品的角度来看,将古籍点校邻接权与版式设计邻接权同等对待的思路值得商榷。邻接权的主张者认为:“鉴于我国著作权法赋予版式设计权的保护期为10年,对科学版本权亦可拟定为10年。”然而,此“版本权”与彼“版本权”缺乏可比性。对版式设计而言,在邻接权之外,还存在强大的替代激励措施。因为任何出版内容都必须呈现为某种“对版心、排式、用字、行距、标点等版面布局因素的安排”,只要存在出版行为,出版社就会持续不断地产出新版式。古籍点校则不同,它不是出版其他作品的附随活动,它本身就是被出版的内容。点校者无法借助点校成果产权之外的产权来获得回报。如果法律拒绝为点校成果提供足够的保护,点校者将难以通过其他途径获得足够激励。可见,即便10年保护期对于版式设计而言具有正当性,人们却不能因此推出如此短暂的保护期对于古籍点校而言同样具有正当性。

    其次,点校成果是“冷门”文艺成果,通常难以在短期内收回投资。

    与视频、音乐、小说等常见的文艺活动相比,古籍点校的受众群体小、大众接受程度低、扩散速度慢、市场回报周期长。就生产而言,如果没有“板凳甘坐十年冷”的准备,点校者很难进入点校行业。就消费而言,常见作品类型或许会出现“病毒式传播”,古籍点校却没有“一夜爆红”的可能。在越来越快餐文化的当今社会,让公众接触古籍、接受古籍的难度已经很高。相当一部分公众的阅读意愿与能力早已远离古文,甚至远离文字,转而被图画、视频和游戏所控制。对于点校者而言,应对时代精神变迁、阅读习惯改变、柠檬市场压力和转投流行文化的诱惑都已消耗大量心力。如果将保护期缩短到10年,点校者将很难有足够的时间进行推广、积累口碑、提升销量并且最终获得回报。惨淡的回报难免不会成为压垮他们的“最后一根稻草”。

    (三)缩短保护期对于增加公众行动自由的增益有限

    反对者认为:更短的保护期“有助于特定科学版本及时向社会公开,进入公有领域,以实现公众获取知识的需求”。但实际上,即便给予古籍点校以正常的作品保护期,也并不会造成可怖的垄断效果。

    第一,反对者认为:“如果对点校成果以著作权的角度予以保护,势必会造成点校行业的垄断,即一部古籍只允许一个点校者实施点校行为。”这种担心缺乏事实基础。长篇作品的古籍点校拥有相当可观的选择空间,分别独立完成的点校成果并不相同。前文已详述,不再重复。

    第二,假如版权保护确实会导致“在后的点校者客观上无法避免其点校成果与在先的点校成果发生大部分甚至绝大部分点校处重合的情况”,则不仅版权保护不恰当,邻接权保护同样不恰当。人们需要在垄断激励和公众自由(包含后续点校自由)之间进行选择,而不是在版权与邻接权之间进行选择。

    第三,只要法院正确适用侵权认定规则、权利限制规则和权利救济规则,版权给公众行动自由带来的限制便十分有限。版权既不剥夺公众接触作品的机会,也不阻止研究者进行后续点校,只要求使用者支付恰当许可费。在竞争压力下,点校者通常不会主张过高的许可费,因为过高的许可费会导致公众转向竞品。

    在本应获得版权保护却被削减的期间内,公众固然拥有额外的不付费“自由”和抄袭“自由”。然而,如果针对常见类型作品的盗版和抄袭并非值得认可的“自由”,则针对古籍点校成果的盗版和抄袭同样不构成值得付出产权激励和公平回报代价去追求的“自由”。

    (四)缩短保护期反而可能阻碍公众及时接触作品

    反对者认为,缩短保护期能够扩张公众行动自由。然而,缩短保护期有可能导致权利人偏离最优定价,反而阻止公众及时获得作品。

    古籍点校的受众群体原本相对较小,阅读态度相对谨慎。在漫长的版权保护期内,市场可以进行有效的声誉反馈,例如网购点评机制有助于消除信息差、让优质内容胜出。权利人能够从容地调整定价,在单价与销量之间求得平衡,无需将收回投资的希望寄托于短期高价之上。我们不应该只看到漫长保护期对于作品可及性的阻碍作用,还应当看到它给予权利人“薄利多销”的自信与从容。较低的单价能够减少无谓损失,让更多读者以合理的价格接触到最新的点校成果。

    短暂的保护期意味着点校者必须尽快收回投资。在受众数量相当有限的情况下,即便薄利也未必能够多销,点校者为了收回投资或许将选择提高客单价。但是,高价必然会将部分原本兼具支付意愿和支付能力的读者拒之门外,导致无谓损失。如此一来,过短的保护期反而会阻碍公众及时接触作品。

    “短期保护”是邻接权方案唯一有特点的规则供给。在这一规则缺乏利益平衡实质合理性的情况下,邻接权方案已然丧失正当性。

    四、古籍点校邻接权缺乏认知经济性

    理想的法律规则不仅有助于实现利益平衡,而且具备认知经济性,能以有限的认知资源来完成复杂的认知任务。如果增设一套“权利客体、权利内容、权利限制、权利救济、权利主体”分析框架之后,只是将大量决策资源耗费在新旧模块的区分上,却无法获得更为正确的利益平衡结果,则增设邻接权的方案并不值得提倡。

    (一)增设邻接权的认知收益过低

    从表面上看,古籍点校邻接权如同版权一样提供了利益平衡分析框架。这套分析框架同样以权利客体为启动条件,继而围绕“权利内容、权利限制、权利救济、权利主体”等环节给出结构化经验,有助于决策者在认知便捷性和认知正确性这对矛盾目标中实现总效用最大化。

    然而,邻接权分析框架与版权分析框架的唯一实质差别在于不合理的保护期,除此之外没有提供任何新经验,因而缺乏认知收益。这种与版权高度重叠的邻接权设计思路来自德国《版权与相关权法》第70条。该条规定:“当不受著作权保护的作品或者文本的版本是体现可识别的科学活动的成果并且与既有版本存在显著差异(wesentliche Unterscheidung)时,准用第一部分规定获得保护。”所谓准用,指除保护期之外,版本邻接权与版权“完全一致”。尤其值得注意的是,邻接权在客体环节提出的“显著差异”标准,意味着如果争议成果缺乏“显著差异”性,则邻接权同样不会提供保护。在被浪漫主义创作观抬高的“作品”门槛下方,法院仍然需要本着务实精神,承担等同于独创性认定的裁量压力,将能获保护的争议客体筛选出来。为了刻意区分“作品”和“科学版本”,法院需要耗费相当精力。但在完成区分之后,两类客体享受的待遇,除了不合理的保护期差别之外,却又完全一致。这难免让人产生“多此一举”之感。

    以下以权利内容为考察对象,展示邻接权方案与版权的一致性,具体而言包括受控行为清单和侵权认定标准两方面一致性。

    一方面,邻接权与版权的受控行为清单完全一致。

    古籍点校邻接权不仅包含财产权,而且包含人身权,例如署名权。权利人不仅能够禁止他人复制和发行受保护的版本,而且能够禁止他人的表演或广播行为。例如当邻接权指向古老乐谱的新版本时,他人未经许可不得表演或广播新版本。此外,科学版本邻接权的权利人如同作者一样享有演绎权。

    另一方面,邻接权与版权的侵权判定规则完全一致。具体而言:

    第一,古籍点校的原告必须证明接触和实质性相似,二者缺一不可。

    只有当原告既能证明接触,也能证明实质性相似时,被告才承担责任。在理论上,如果被告没有接触过原告成果,则无论实质性相似程度多么高,被告都不承担责任。

    第二,实质性相似判断是侵权认定的重中之重。

    对于版权而言,“实质性相似”的对象必须是独创性表达。对于版本邻接权而言,实质性相似的对象必须是与既有版本存在显著差异的内容。如果相似内容不能体现点校者的个性化选择,则不能认定被告侵权。借助版权法上丰富的研究成果,可以发现针对古籍点校,专家视角可能比用户视角更为重要:当专家认为相似内容并不体现原告的个性化选择时,相似这一事实本身并不引发侵权责任;而当专家认为被告挪用了原告的个性化选择时,则被告应当承担责任。版权法经验有助于法院顺利完成古籍点校的实质性相似判断。

    第三,接触可以通过显著差异内容的实质性相似程度来推定。

    假如点校空间非常大、原告的点校成果与其他点校成果之间的差别显著,而被告恰好与原告的点校成果极度相似甚至一模一样,此时即便被告否认接触事实,法院仍然会认定侵权成立。因为原告在巨大点校空间中产出的点校成果是小概率成果,很难被重新独立完成。

    按照版权法的经验,各个古籍点校案件的结论(而非推理)都很容易理解。各个案件中正确的判断均遵从版权法,而与版权法有所偏离之处则恰恰值得质疑。限于篇幅,只考察周锡山诉江苏凤凰出版社案(《金圣叹全集》案)二审判决。因为这是明确反对古籍点校可版权性的典型案例。

    在该案中,法院以古籍点校不可版权为由拒绝支持原告的诉讼请求。版权法提供的利益平衡框架可以在相当程度上解释法院对原告诉讼请求的否认。如下事实确实对原告胜诉构成重大威胁:第一,原告“既没有校勘记,也没有底本、校本选择的说明”,这可能导致法官不能确信原告主张的点校成果是独立创作的而非抄袭的结果。第二,在被告与之相同的校勘内容中,绝大多数与第三方点校成果相同,或者属于繁简转化类缺乏选择空间的劳动成果,这意味着原告成果的独创性值得怀疑。第三,判决没有显示任何被告接触过原告点校版本的直接证据,法院也没有通过双方相似的程度就接触可能性给出判断。如果法院认为原告未能证明接触要件,则原告自然败诉。第四,被告提供了校勘记(尽管原告认为其中部分内容系伪造),这或许增加了关于被告独立创作、甚至被告没有接触过原告点校版本的确信。第五,双方点校成果并非完全相同,而是存在大量差异:“‘周版金批西厢记’与‘陆版金批西厢记’两书标点各2万余个,其中不同的标点为1779处。”考虑到不同点校者的点校成果本来就会存在大量相同之处,接近十分之一的不同之处实际上意味着双方成果相似的程度并不太高。上述分析意味着:如果法院适用版权法分析框架,不仅很可能会得出同样结论,而且推理过程将更加严密。

    但是,由于法院拒绝适用版权法,因而判决并未清楚地告诉公众原告败诉的关键何在。尤其令人遗憾之处在于,判决并未明确讨论被告是否接触过原告的点校成果。判决虽然提供了相当多可以被用来判断接触要件的事实,却没有将这些事实与接触要件关联起来,读者因此无法知晓关于接触事实的不同认定结论会不会对本案造成影响。本文并不质疑判决结论,只是想通过上述分析强调如下道理:只有严格遵循版权法的分析框架,才能把复杂的事实置于有意义的结构之中。只有在将事实与正确的结构化分析框架——也就是版权框架——进行关联之后,人们才能以最正确也最便捷的方式做出决策。如果拒绝版权法分析框架,则原本可以条分缕析被解决的问题,即便获得同样正确的答案,其分析过程也将留下遗憾。

    前述分析表明:在古籍点校问题上,邻接权方案无法提供认知增益。所有打着“邻接权”旗号的正确决策均与版权分析框架相一致;而一旦偏离版权分析框架,错误便接踵而至——轻则说理含混,重则判断失误。版权和邻接权之间的关系处于令人唏嘘的悖论之中:若要避免同质化,便会出错;如果要避免错误,就必须实行同质化。法律规则的首要任务自然是避免出错,因而德国法和我国现行的建议方案均选择容忍同质化。然而,如果法院和公众在两套分析框架下得到的最好结局只是不出错,那么将古籍点校从作品中分割出来区别对待的认知收益可谓乏善可陈。

    实际上,“难以提供认知增益”是德国法上数项邻接权的通病。德国将照片分为摄影作品和受邻接权保护的照片,将视听作品分为电影和受邻接权保护的活动图片。从表面上看,作品与对应的邻接权客体分属两类;但实际上,两类之间的差别在实践中几乎可以忽略。犹如科学版本“准用”作品规定、仅保护期存在差别一样,照片与活动图片同样采取“准用”的立法技术,与对应作品仅存在微小差别:受邻接权保护的照片准用摄影作品的规定,仅保护期略有缩短;活动图片准用电影的规定,仅在能否依推定获得表演者授权方面存在差别。这种差异对司法实践中的保护力度几乎没有影响。以照片为例:邻接权保护的照片保护期为发表之日起50年,这已经是一段漫长的时间。人们很难想象存在如下照片:一方面,它的独创性低到只是邻接权保护的对象;另一方面,它的价值高到发表半个世纪之后还被人抄袭并且引发诉讼。实际上,笔者也确实没有在德国的主流教科书和法律评注上找到这样的案件。这意味着邻接权与作品之间的名义差异从未在实践中催生可查询的案件。即便缺乏照片邻接权条款,低独创性照片也不会因为更长的版权保护期而被过度保护;即便制定出照片邻接权条款,也未能阻碍狭义版权不保护的低独创性照片获得保护。即便笔者的检索略有遗漏,实践中摄影作品和邻接权照片的保护效果差别应当也处于微不足道的量级。从摄影作品中切割出低独创性照片作为邻接权客体的机制,除了维护基于典型作品而建立起来的“作品”概念之神圣性外,乏善可陈。德国法上这种不能提供有价值的新认知框架的邻接权,不应成为借鉴的对象。

    (二)增设邻接权将推高制度成本

    增设古籍点校邻接权将明显增加司法成本,并加剧法律适用的不确定性。

    第一,受保护的版本与作品之间的差别难以把握。

    在德国法上,科学版本受保护的核心前提是“显著差异”。其与作品独创性在内涵和制度功能层面都难以区分。就内涵观之,二者均以存在选择空间并且呈现差异形态为核心。而在功能层面,二者均以确认抄袭、提升法律预见性为目标。

    实际上,德国式科学版本权存在的基础,是被浪漫主义作者观推高的作品门槛。一旦该前提在务实的司法实践中被修正,科学版本权也就成为了无源之水。“从案件数量观之,第70条的实践意义一直相当有限。”科学版本权于1965年被引入德国《著作权与邻接权法》后,等待了十年才迎来联邦最高法院第一案,即“帝国国防军审判案”。

    该案的争议客体是一份350页的庭审材料。根据庭审时的德国刑事诉讼法,当事人的陈述不做书面记录,而帝国法院档案馆中与审判相关的资料也已失踪。原告方作者只能综合运用当年的各种新闻媒体资料,并辅以帝国首席检察官的起诉书、帝国首席检察官、帝国国防部长和帝国司法部长之间的通信和审讯办公室的日记等辅助资料,才“还原”了庭审过程。德国联邦最高法院本可以直接将其作为作品保护,却舍近求远地将其置于科学版本权的名义下进行保护,尽管连法院也承认“Bucher博士对审判过程的表述实际上不是重建(Rekonstruktion),而是对事实的‘构建(Konstruktion)’。”

    在本案中,如果执意从“还原事实”的角度来描述Bucher博士的行为,那么被还原事实所并非Bucher博士“构建”的版本,而是所有现存资料构成的集合。假如争议客体是所有现存可搜集的相关材料之集合,则无论Bucher博士为搜集资料付出了多少努力,都难以获得版权保护,因为所有材料的集合可以被视为关于事实的无独创性再现——当然,所有材料的集合同样难以获得科学版本权保护。但是,如果Bucher博士从数量巨大、彼此矛盾的材料中筛选出部分材料,则只要筛选结果不容易与他人独立筛选的结果相重合,筛选出的部分材料很容易作为汇编作品获得版权保护。因为筛选可以被视为个性化视角下对整体的重现,尽管被重现的整体本身可以被视为事实,但针对事实做出的个性化重现却不应被当作事实排除在作品范畴之外。

    批评意见正确地指出,该案混淆了作品和受保护的版本之间的界限。问题在于,只要存在科学版本权,它和版权之间的界限本来便不清晰。这种模糊性将持续带来司法压力。在此压力下,法院不得不在各种边缘案件中努力寻求分界线,其一念之差便会造成数十年的保护期差别。这种区分的努力对于单个案件中的法官而言是沉重的负担,对于全国法院的法律适用统一性而言更是构成巨大挑战。

    第二,增设版本权将增加版权国际协调的难度。

    在比较法上,版本权并无共识。《伯尔尼公约》和TRIPs均未规定版本权。即便在欧洲,也只有部分国家规定了版本权。我国文献将德国、意大利、波兰、葡萄牙、英国和西班牙作为比较法参考例。但实际上,英国法上的保护对象是“排版编排(typographical arrangement)”,西班牙法上的保护对象是“排版构成、展示方式和类似的编辑特征(typographic composition, layout, and similar editorial characteristics)”,二者更接近于我国《著作权法》第37条的版式设计权,与点校成果针对内容的选择有着明显区别,并不构成有效的参考。如此一来,真正有可能作为参考的外国法,仅德国、意大利、波兰和葡萄牙而已。不为点校成果设定邻接权才是绝大多数国家采用的规则。

    版本权导致的国际版权秩序不协调已被北美学者所关注。有加拿大学者指出:即使在欧洲内部,版本邻接权已经造成了保护期混乱。欧洲只有少数国家引入了版本权,就连这几个数目有限的国家也无法就保护期长度达成一致:德国和葡萄牙提供25年的保护,波兰提供30年保护,而意大利则只提供20年保护。各国规定的不协调还体现为保护期的起算点不同:德国原则上以出版时为起点,但在未出版的情况下提供额外25年的保护,因此实际上最长可以享有50年保护。葡萄牙规定的保护期起算点为合法出版时,并未提及出版前能否享有版本权保护。如果出版前不享有版本邻接权保护而是商业秘密保护,则理论上总保护期可以无限延长。波兰关于起算点的规定与葡萄牙相似,均为出版时;但波兰法的措辞又不完全相同,只规定“出版时”,没有如同葡萄牙法一样规定为“合法出版时”。意大利法与葡萄牙法相同,均以“合法出版时”作为起算点。上述差异使得跨国版权交易只能“两害相权取其轻”:要么付出更高的交易成本、拟定更繁复的交易条款;要么搁置差异、容忍不确定性的乌云盘旋在交易上空。

    欧盟《保护期指令(2006)》在前言中指出,成员国在保护期方面的差异阻碍了商品和服务的自由流动,需要消除差异以促成单一市场的发展。颇具讽刺意味的是,该指令允许各国引入(member states may)新的版本邻接权,其实际效果却加剧了各成员国在保护期方面的差异。加拿大学者忍不住叹息:“同一版本在不同国家仍然会受到不一样的待遇,甚至在这些国家均已引入版本邻接权时仍然如此。”

    古籍既是我国的珍宝,也是人类的共同遗产。他国的文艺经典同样如此。立法者应当努力促成以人类文明共同遗产为基础的研究成果在不同国家之间便利流动,而不应刻意设置规则迷宫。无论从国内法律确定性还是国际交流规则明晰度观之,增设版本邻接权都会推高制度成本。赞同在我国引入邻接权的意见,既没有就作品与邻接权客体的区分给出足够明确的指引,也没有就增设邻接权的成本收益展开分析,尤其没有考虑到邻接权方案可能带来的负面影响。考虑到邻接权方案乏善可陈的认知收益,增设邻接权可谓事倍功半,应予拒绝。

    五、警惕“向邻接权逃逸”倾向

    在古籍点校可版权性的讨论中,增设邻接权成为一件简便的反对工具,但其在制度设计与理论论证层面均难以自洽。能在本体论与认识论层面均经受考验的邻接权并不多见,这也正是相当多国家并未大规模借助邻接权来解决非典型文艺成果利益平衡的重要原因。足够复杂但文艺独创性有限的照片或者连续画面,以及以“还原”不可考“文本原貌”作为目标的科学版本,在诸多国家均构成作品。多年来的实践表明,此种做法并未产生负面效果,反而节约了大量制度资源。多年来的实践同样表明,比较法上真正经受住时间检验的邻接权,是那些不仅在本体论层面利益衡量得当,而且在认识论层面能够切实提供独特且正确分析框架的邻接权,例如表演者权、录音制品制作者权以及广播组织权。它们的受控行为清单与版权之间存在显著差别,并且恰好适配该领域的利益平衡需求,故而能够获得广泛接纳,而非仅作为区域性现象而存在。可见,尽管在理论上,邻接权的正当性基础存在传播者说、投资说以及低独创性说等不同解释,但在实践层面,各国的立法和司法通过“用脚投票”选出了大致相同的有效邻接权清单。

    “邻接权兜底”方案往往以虚构问题为起点,却制造出新的制度负担。例如,2020年《著作权法》修改时新增广播组织的信息网络传播权,便是“体育赛事直播画面不可版权”论断的后果。倘若当时对版权路径略加宽容,今日或无须面对邻接权扩张带来的问题。

    意识到邻接权路径的局限性,对于非典型文艺成果的利益平衡路径选择至关重要。版权路径和邻接权路径是此消彼长、相互替代的两条路径。一者之无能意味着另一者之能动。邻接权兜底方案的存在,使拒绝版权路径的立场更为自信;反之,当邻接权兜底方案无法自圆其说时,人们将被迫反思抛弃版权法的弊端。版权、原则条款和增设邻接权三者构成彼此牵制的整体。表面上仅与一者相关的议题,其实往往只能在考察完替代方案之后才得出答案。笔者注意到,在AIGC的保护路径选择上,美国与欧洲近期相继表达了对新设邻接权提议的高度谨慎、乃至否定立场。这种谨慎态度体现出对“邻接权兜底”进路的反思,值得赞赏。与此同时,版权界对待AI用户版权主张的态度正趋于宽容,两者之间存在不应被忽略的联系。

    笔者并不一味反对增设邻接权,但认为立法者有必要在“舍版权而取邻接权”之前对作为兜底方案的邻接权具体细节展开详细考察。

    从立法论角度看,仅当以下条件具备时,“邻接权兜底”方具可行性:其一,能提出明确的权利内容与权利限制等邻接权制度构造细节;其二,在利益分配上具备正当性;其三,具备认知经济性,能够降低认知成本。若不具备上述条件,立法者应更耐心地探索版权路径的解释论方案。

    古籍点校邻接权问题看似具体,却为AIGC等新兴议题提供了可资借鉴的制度经验。当前对AIGC作为用户作品资格的否定,往往伴随“增设邻接权”之呼声,但主张多停留在倡导层面,未见在本体论与认识论层面兼具合理性的具体方案。在用户针对AIGC提出的排它权主张上,用邻接权来承接激励功能的收益是什么?成本有多大?这些重要问题并未得到充分关注。在邻接权讨论素材尚不丰富的情况下,对邻接权的期待已经或多或少地减损了人们发掘“作品”概念解释空间的动力。在此情况下,深入研究古籍点校邻接权这一方法论样本,有助于降低其他争议客体面对邻接权路径时的试错成本。

    本文“以古籍点校为方法”,旨在说明:针对局部议题的细致分析,正是理解版权制度整体逻辑的关键途径。关于可版权性的讨论不应局限于版权内部视角,而需要在与邻接权方案和原则条款方案进行反复比较之后得出结论。笔者希望,随着一次又一次“以具体问题为方法”地打磨知识产权法的结构化分析框架,在面对新问题时可以更有效地提出正确问题、获得正确答案,确保版权法持续生成合理而开放的解释力。

    转自《清华法学》2026年第1期