深网 deepoo.net

从此走进深度人生 Deep net, deep life.

作者： deepoo

赵俊臣,陈晓未：石桥村的经验[节]
昆明市富民县永定街道南营村委会石桥村，位于昆（明）武（定）高速公路边，距昆明主城26公里，国土面积0.19平方公里，耕地201亩，林地484亩。2019年列入李小云教授团队试点的昆明市6个都市驱动型乡村振兴创新实验区中唯一的自然村。全村共57户、271人，过去农民的收入以种植粮食和务工为主，是个典型的“空壳村”。后来他们大胆改革，通过“资源变资产、资产变股金、村民变股民”的“三变”，探索出了一条独具特色的农文旅发展之路。2025年实现旅游收入约180万元；村民通过租金、薪金、股金及经营性收入，人均可支配收入预计突破2.8万元，，远远高于全国农村居民人均可支配收入2.45万元、昆明市2.49万元。

一、“三变”改革主要做法

与全国全省一样，过去石桥村有许多闲置资源未被开发，处于“深睡”状态；另有一些土地低效利用。“资源变资产、资产变股金、村民变股民”的“三变”，就是唯一正确的发展道路。截至目前，他们盘活的农村闲置用地已经达到250亩，走出了 “多种资源，多元盘活”的创新之路。

（一）资源变资产：唤醒沉睡资源

石桥村依托自身生态优势和区位条件，对闲置土地、生态资源等进行全面梳理整合。

一是早在2003年，他们通过村民集资，开辟村集体农贸市场，很快实现村民入股分红，至今持续收益，大部分村民10年前已回本。2013年，南营村委会牵头，254名村民自愿入股50.8万元，扩建石桥村建设农产品交易市场。凭借昆禄公路旁的区位优势，市场辐射周边村镇，成为农产品交易的重要节点，运营成效显著。入股村民每年可获得场地租金10%的分红，约5.6万元，村民年人均纯收入也从3000多元提升至8600多元。村民陈翠英入股4.6万元，每年4600元的分红从未间断，至今已获得3.68万元的分红收入。

  二是2011年，为填补当地冬春季节无本地时鲜水果的空白，富民县组织人员外出考察，从浙江引进牛奶草莓到石桥村试种。得益于石桥村海拔适宜、土壤肥沃、依山傍水且无工业污染的自然环境，试种取得成功，主要品种有宁玉、红颜、章姬（牛奶草莓）、玫宝等，其中章姬草莓因带有淡淡牛奶香味、口感香甜细腻，成为最受市场欢迎的品种，产量高、果味浓的特点也让石桥草莓在昆明水果市场占据一席之地。2014年，石桥村成立九峰草莓产销专业合作社，流转120亩土地发展草莓特色种植，至2025年，草莓种植面积稳定在150亩左右，由合作社统一管理，带动20余户本地农户参与种植，其中村民杨清林一人就种植了20亩草莓。由九峰草莓产销专业合作社牵头，对接昆明市区各大农贸市场、超市，年销量约33吨，销售额达150万元，占总销量的50%。每年11月下旬到次年4—5月草莓成熟季，吸引大量昆明市民前来采摘，现场采摘占比约40%。；农户通过种植草莓，每亩年产值可达4.5—6万元，是传统种植玉米收益的15—20倍。仅种植草莓一项，村民杨清林每年就能增收20万元左右。

三是截至2021年，引种半边红李子种植面积稳定在120亩左右，主要分布在南西桥草莓温泉庄园内，是庄园农旅融合项目的重要组成部分。基地采用标准化种植技术，通过科学管理保障果实品质和产量，每年7月中下旬至8月上旬果实成熟，吸引大量游客前来采摘体验。石桥村种植的半边红李子又名茵红李，果实向阳面呈紫红色，背阴面呈浅绿色，果肉淡黄色，酸甜多汁，香脆可口，脱骨离核，富含多种维生素和矿物质，具有较高的营养价值。基地注重绿色生态种植，严格控制农药和化肥使用，确保果实安全无公害。半边红李子的收益是传统种植的12-35倍，

四是石桥村还有50亩食用玫瑰基地。2015年，石桥村开始引进食用金边玫瑰，鼓励村民种植，村民苏发玉种植了2亩，每年有4万元左右的收入，是原来种植水稻的近30倍。现在，他还做起了玫瑰加工产业，请了两个工人，日子越过越有盼头。

（二）资产变股份：构建利益联结

2015年，南营村党总支发动石桥村党员带动54户村民入股510万元，成立了富民南西桥旅游文化开发有限公司，以“村党总支+村民入股+政府投入+公司运营”的模式，打造南西桥生态休闲园，建设集民俗文化开发、乡村生态旅游、农业观光体验、温泉康养休闲度假于一体的乡村旅游康养基地。截至2023年，公司营业面积约450余亩，有45间客房的住宿部、可同时接待400人的餐厅以及游泳池、温泉泡池、观景台、烧烤区等，能够全方位提供旅游接待、会务服务、餐饮宴席、自助烧烤、特色小吃、棋牌娱乐、温泉泳池、户外活动、萌宠乐园、田园观光、特色林果采摘等服务功能。从负责人到保洁员、服务员、厨师，在庄园里工作的全都是石桥村人。

在南西桥生态休闲园项目打造中，村民以土地、资金等形式入股，政府投入的基础设施等资产也折算为股份，村集体资产和村民个人资产都量化为股份，构建起了清晰的股权结构。部分村民将闲置土地、房屋出租给公司用于旅游项目开发，每年获得稳定的租金收益，每亩土地年租金约1000—1500元。这种模式让村集体、村民与经营主体形成了紧密的利益共同体，共担风险、共享收益。

（三）村民变股民：激发内生动力

通过“三变”改革，石桥村村民从传统的农民转变为合作社和公司的股民。

富民南西桥旅游文化开发有限公司采用“国有平台+村民个人+村集体”混合持股模式，具体股权结构如下：国有资本，昆明黎阳旅游投资有限公司持股50%，认缴出资额490万元，是公司的第一大股东，主要负责提供资金支持和资源对接。

村民股东，石桥村54户村民以个人名义入股，其中徐建昌持股18.06%（出资177万元），王淑梅持股4.08%（出资40万元），另有徐靖、徐建良等30余位村民持股比例在0.31—3.06%之间，总出资额490万元，占公司总股本的50%。后来，石桥村集体以集体闲置土地、项目资金预计折价300万元入股南西桥，占公司股份20%。自2021年起，村集体实现闲置资源盘活并增加股份收入，村集体收入扩大，在预留村集体公用经费后，村集体收益可以向村民二次分红。

村民股东多为石桥村本地居民，通过资金入股成为公司的直接参与者。村民不仅可以通过土地入股获得分红，还能在合作社和公司务工获得薪金收入，部分村民通过参与乡村旅游经营获得经营性收入，实现了“租金+薪金+股金+经营性收入”的多元增收模式，极大地激发了村民参与乡村振兴的积极性和主动性。

股金分红：村民作为股东，每年可按照持股比例获得现金分红。2021年公司实现营业额710万元、利润150万元，按章程约定向股东进行分红；2022年经营性收入610万元，分红比例保持稳定。早期入股的村民每人每年可获得约1万元分红，部分持股比例较高的村民年分红可达数万元。

二、改革成效

（一）产业发展提质增效

现在，石桥村南西桥生态休闲园集民俗文化开发、乡村生态旅游、农业观光体验、康养休闲度假于一体，已成为昆明周边知名的休闲旅游目的地，实现了一二三产业的融合发展，村集体经济实力显著增强。草莓、食用玫瑰、半边红李子等种植、产业不断壮大，成为石桥村的特色产业之一和昆明市名牌，吸引了大量游客前来采摘体验。

（二）村民收入稳步增长

随着产业的发展，村民的收入来源更加多元化，收入水平不断提高。村民通过入股分红、务工、经营等方式，人均收入较改革前有了大幅提升，生活质量得到了明显改善。

公司运营的南西桥生态休闲园为村民提供约60个就业岗位，包括餐饮服务、住宿管理、园区保洁等，村民每人年均工资3.6万元，每年工资支出共计216万元，实现了家门口就业增收。

去年，石桥村集体也以集体闲置土地、项目资金预计折价300万元入股南西桥，预计占公司股份20%，村集体收入扩大，在预留村集体公用经费后，可以向村民二次分红。

（三）乡村治理更加有效

“三变”改革过程中，石桥村建立健全了各项规章制度，严格执行“一会四议两公开一监督”工作制度，充分发挥了基层党组织的战斗堡垒作用和党员的先锋模范作用。党员联系户制度的实施，让村民的诉求能够及时得到回应，矛盾纠纷得到有效化解，乡村治理体系更加完善，治理能力显著提升。

三、经验启示

（二）能人带动是引擎

在整个建设过程中，徐建昌始终引擎。村委会主任徐建昌为代表的农村能人，带头关停自家农家乐，无偿提供建筑设备，全身心投入集体项目建设。凭借自身的经营经验、人脉资源和奉献精神，积极带动村民参与改革，为产业发展和乡村振兴注入了强大动力。

徐建昌是石桥村人，早年从事建筑行业，是石桥村第一个经营农家乐的村民。他积累了不少办企业、经营企业的经验，是村里最早富裕起来的人，也是村民眼中的“大能人”。    2011年，徐建昌当选南营村委员会主任，他将自己的企业经营经验、人脉和资金都用到了村集体经济的发展上，带领村民建起了南营村农贸市场、草莓基地等集体经济。面对着父老乡亲立下誓言:“南西桥不盈利，我自己不拿一分钱的工资。村民入股不足的部分，全部由我来补齐。”    南营村党员干部，开拓创业敢想敢干，牢牢把握住富民“山水园林卫星城、休闲康养目的地”的发展定位，紧紧依托昆明主城消费市场，通过村民集资入股等方式，发展乡村旅游，带领党员群众建成了集餐饮住宿、休闲康养、文化娱乐为一体的南西桥生态休闲园。    在石桥村村民小组，还有不少积极投身经营、推动经济发展的能人。村民小组长徐正云等一批能人，在乡村振兴、村集体经济的发展中，处处以身作则，把个人能力充分发挥和运用到村集体项目建设中，无论是组织项目施工、一线指挥工程建设，还是监督项目质量标准等工作，他们都走在前面，无论何处都能看到他们奉献的身影。

入股25万元的陈翠英，今年80岁。作为石桥村曾经的生产队队长，对石桥村发展经济产业的事情，她一直非常支持。她说:“当年入股时有些村民不愿意，我还去劝，徐建昌能站出来带着大家一起干，对村民来说，是件好事。”接下来，陈翠英还准备将家里闲置的住房拿出来，补充到休闲园的民宿开发资源中。

（三）以工代赈式“全程自建”。

石桥村的建设工程量很大，他们没有采用招标引进外地包工队的做法，如一些村庄道路、排水沟渠等村小组能自己建设的项目，均采用了“全程自建”的方式。村民小组负责从原材料采购到组织施工的全过程，村民参与工程建设，按村集体公布的标准结算报酬，既降低了建设成本，又增加了本村农民收入。

“全程自建”让村级的建设项目始终做到了透明公开。原来，村里的建设项目花了多少钱，虽然有预算和决算公布，但分类太多太专业，承包方给的数字又笼统，一些村民还是不理解、不明白。现在，村民小组在“全程自建”中，对项目建设的进料进行了详细分解，调查了生产成本，增加了项目的透明度，并且所有进料在进入工地前都要过磅，由村民项目管理小组成员验收签字，进了什么料、进料有多少、用到了哪里，大家都清清楚楚、明明白白。

还有一个更大的优势，就是省钱。原材料自己采购、村集体组织施工，不让包工头赚差价，而且是做自家的事，村民们更加用心卖力，用有限的资金做出了高质量的事。

四、需要探讨的问题及建议

（一）需要探讨的问题。

一是乡村旅游的品牌影响力和市场竞争力有待进一步增强，产品和服务的质量还需提升。现有产品特别是农产品同质化严重，如草莓、花海等项目易被周边社区复制，引起同业竞争而降低吸引力。    二是虽有企业家徐建昌带头，但属个例，不具备普遍复制性，因而培养乡村CEO迫在眉睫。另外，合格的专业财务、营销、品牌管理团队缺乏，也将影响项目市场化运作效率。

‌三是财务监管怎样做到必要的透明度，以获得群众信任‌和村外股东放心，也需要探索。集体经济涉及大量资金流动，若监管不到位，极易引发群众对账目造假、利益输送的担忧。

‌四是利益分配中怎样协调复杂‌多元主体诉求，也需要引起重视。“三变”改革涉及村民、村集体、企业、政府等多方利益，如何公平合理分配收益是一大难题。若分配方案未经充分协商，易引发矛盾，影响村庄治理稳定。土地入股与现金入股者之间、参与务工与未参与者之间的收益差异需平衡；初期投入多的农户希望高分红，而更多村民倾向扩大再生产；分红机制若不公开透明，易引发质疑，影响后续参与意愿。

五是‌持续发展面前的难度要有充分准备，外部依赖与内生动力不足如何破价也应及早考虑‌。石桥村的发展得益于政府项目支持和能人带动，但长期可持续性仍需强化内生动力。

六是村干部既当“裁判员”又当“运动员”，存在自我监督困境，虽可引入第三方会计，但采购、销售环节仍可能存在回扣风险；

七是是破解建设资金的融资的难题，大有学问，需要大胆探索。南石桥公司快速发展背后，融资瓶颈始终存在——缺乏优质抵押物成为关键制约，核心原因在于抵押不足的三重现实困境，公司的资产结构高度契合乡村文旅企业典型特征，即轻资产、重运营、难确权。具体表现为：资产类型受限，主营民宿、采摘、露营、温泉酒店等服务，核心资产多为租赁土地上的临时建筑、景观设施、品牌口碑等，不符合银行传统抵押物要求（如产权清晰的厂房、住宅、土地使用权）；权属不清或无法分割，部分设施建在村集体闲置土地上，虽经折价300万元入股公司，但土地性质为集体所有，无法办理抵押登记；而村民自筹资金建设的设施，也因缺乏统一产权证明难以确权；评估与处置难度大：文旅类资产价值高度依赖运营能力、客流稳定性与政策支持，银行缺乏专业评估工具，且一旦违约，处置变现渠道极少，进一步降低放贷意愿。

八是完善股份合作制，也应及早考虑。

九是部分村民的市场意识和风险意识有待提高，对“三变”改革的理解和参与度还需进一步提升。

十是规避法律风险，据《企查查》大数据分析显示，南石桥公司存在司法案件6条、裁判文书4条、立案信息3条、开庭公告8条等风险信息，在企业运营中面临一定的法律风险和经营挑战，需要加强风险管理和合规运营。

（二）若干对策建议

1，推动产业深度融合升级

石桥村的发展非常喜人，现有南西桥生态休闲园年营收超600万元，草莓、半边红李等特色农产品年销售额超200万元，彩绘村庄、温泉等IP已具备一定知名度。但是需要不断地适应市场将农旅融合升级，从“打卡点”到“目的地”转型，依托现有基础，未来将围绕“康养+研学+亲子”方向拓展，如开发农耕研学课程、升级温泉康养配套、打造四季主题活动，在现有草莓种植和生态休闲园基础上，计划引入智慧农业技术，提升草莓种植的科技含量和产量品质，打造标准化、品牌化的特色农产品。同时，进一步拓展生态休闲园的功能，开发农事体验、亲子研学、康养疗愈等多元化旅游产品，延长游客停留时间，增加消费附加值，推动一二三产业向更高层次融合。    石桥村有林地面积484亩，下一步，将通过建设休闲步道、发展林下养殖、拓展高端水果种植等方式，在保护环境的同时，提高林地经济效益，增加村集体经济收入。    作为昆明市都市驱动型乡村振兴创新实验区，石桥村将持续获得市级、县级财政资金支持，2025年已完成的1260万元基础建设项目为后续发展筑牢根基。特别是，考虑建设智慧农业系统，如为草莓、半边红李种植基地安装物联网设备，实现智能灌溉、病虫害监测，提升农产品品质与产量；建设乡村旅游数字化平台：开发小程序整合门票、住宿、餐饮预订功能，打造石桥村旅游线上入口等。    展望未来，石桥村将依托2025年12月开工的云南富民产业园区白石岩片区对外连接线（9.02km二级公路，预计2027年建成通车），石桥村作为连接园区与县城的重要节点，针对白石岩化工园区工人，打造实惠型快餐、员工食堂，预计日均客流200—300人；利用村内闲置土地建设小型仓储配送中心，为园区企业提供原材料、成品中转服务。

2，及早培养年轻乡村DEO及其运营团队年轻人员。

可以探索为徐运昌选配副手或助理方式，选聘年轻人加以培养，如村里挑选困难，可以从全市全省招聘。候选人选出后建议纳入李小云乡村CEO培训系统进行系统培养。运营团队中的合格财务、营销等职位也可照此办理。加大人才引进和培养力度，通过制定优惠政策吸引专业人才返乡创业，同时加强对本地村民的技能培训，培养一批懂经营、会管理、有技术的农村实用人才。
- 进一步加强乡村旅游品牌建设，提升产品和服务质量。
石桥村品牌已有一定的知名度，但仍有继续提升的广阔空间，主要围绕丰富旅游产品内涵，拓展市场渠道，增强品牌影响力和市场竞争力。我们的建议，一是利用李小云团队的国内外的人脉，例如李小云团队曾在西双版纳河边村组织的北京一些中小学生来过夏令营冬令营的经验，就可以既扩大了客源，又是活生生的广告宣传；二是借鉴呈贡万溪村经验，吸引接待昆明市中学生来体验农耕研学，也是既扩大了客源，又是活生生的广告宣传；三是不定期的举办产品发布会，草莓、李子采摘节等，造成一定的舆论声势；四是借助各级领导视察、有关机关在石桥举办会议和培训班等，宣传石桥等。
- 利用现有渠道融资。
南西桥公司的融资已形成“内源（村民）+外源（政府）+准金融（信用共建）”三层结构，但银行信贷的通道仍有待畅通。短期建议优先对接富民县农业农村局或富民农村信用合作联社，申请“乡村振兴贷”“乡村旅游贷”等特色产品，并同步申请县级融资担保公司增信；中长期应加快资产确权（如经营权登记、项目收益权质押备案），为合规融资夯实基础。

一是研究利用富民银行“极速保”模式——虽面向小微企业，但其“AI模板+实时出函+银担协同”逻辑可迁移至文旅项目保函、履约担保等场景。

二是信用增信替代抵押，依托云南省“融信服平台”，归集税务、社保、水电、招投标等353类涉企数据，对企业进行数字信用画像，使南西桥类企业可凭“信用”获得纯信用贷款（如云南海量供应链公司获120万元信用贷）。

三是经营权/收益权质押，借鉴浙江永嘉“民宿经营权质押”模式，将南西桥旗下温泉酒店、采摘园未来1–3年稳定现金流打包，由担保机构评估后提供质押融资。

四是风险分担机制落地，“宁创贷”式四方分险（政府+银行+担保+再担保）已在南京成熟运行，银行仅承担20%风险，可免抵押、免担保费。云南若引入同类机制，将极大缓解南西桥“首贷难”问题；

五是与此同时，作为昆明市的试点，可以探索发行债券融资、扩股融资等。充分运用国有银行现有的“授信贷款”、“互保贷款”等。

总之，融资破局在靠企业自身补足抵押物的同时，更需借力省级信用平台（如融信服）、复制东部地区经营权质押与风险分担机制，并推动县级层面出台《乡村文旅资产确权与融资指引》，将民宿经营权、集体经营性建设用地使用权等纳入合规抵押范畴。短期可优先对接富滇银行“金果贷”等特色产品，争取3天快速放款解燃眉之急。这也正是李小云和昆明市试点的题中之义。

5，进一步完善公司管理体制与机制。

在现有利益联结模式基础上，进一步细化股权分配方案，确保村民利益最大化，可以考虑修改公司章程，探索增设村民劳动股或成员股。所谓村民劳动股是集体经济组织成员人人有股即成员股，按贡献大小适当体现差距即劳动贡献股。这意味着每个成员都应拥有股份，但根据个人对集体的贡献不同，所持有的股份数量可以有所差异。

为保证和吸引人才，可以借鉴世界通行的股权激励方法，探索为乡村DEO增设无形资产股，以体现股权激励。

加强对村民的教育培训，提高村民的市场意识、风险意识和参与意识，引导村民积极投身乡村振兴事业同时，建立健全风险预警和防控机制，加强对市场动态的研判，引导村民和经营主体理性应对市场波动，降低经营风险，保障改革成果的可持续性。

6，继续加强基础设施与公共服务配套。

积极争取政府资金进一步支持，改善村内道路、水利、电力等基础设施条件，提升乡村旅游的承载能力。同步推进村容村貌整治和公共服务设施建设，完善医疗、教育、文化等服务功能，提升村民的幸福感和获得感，打造宜居宜业的美丽乡村。

本文原名《石桥村由一个“空壳村”发展为“百万元实体村”的经验 ——中国农村发展学的云南样本案例之一》
2026-03-26
冯果,宋遥远：“金融”概念的统一界定与立法表达[节]

“金融”一词虽在经济活动与社会话语中广泛使用，其法学意涵却长期处于一种“熟悉的陌生”状态——看似不言自明，实则内涵模糊、外延不定。将金融活动全面纳入监管并转化为立法实践，首先必须厘清“金融活动”的概念边界，此为划定法律规制范围的逻辑前提，亦是确保金融立法科学性与有效性的重要基石。在金融强国战略纵深推进与金融法酝酿的关键节点，若“金融”这一核心概念不能形成具有法理统摄力与实践解释力的法律定义，则任何精细的立法设计都可能因概念根基的虚浮而事倍功半。

我国金融法律体系像一个由无数补丁拼凑而成的衣裳，虽能蔽体，却难以称得上合身统一、美观大方。银行法、证券法、保险法、信托法等金融行业法分别界定各自调整对象，却始终回避对“金融”这一上位概念进行统摄性界定。现行立法中，“金融机构”“金融产品”“金融工具”“金融活动”等关键术语定义付之阙如。“只见树木不见森林”的立法技术使“金融”概念成为一个“能指”与“所指”严重脱节的符号，如同散落的珠玉，缺乏一条能够贯穿始终的逻辑主线，导致规制边界模糊、监管失灵频发、司法适用困顿。“大资管”的勃兴恰是概念分裂的缩影。名目殊异、本质相同的金融产品，往往因其发行主体的行业归属不同，而被强行塞入截然不同的监管“筐箩”，适用迥异的监管规则。立法上的概念分歧与监管上的标准不一，必然投射并加剧司法实践的混乱。围绕某一经济活动是否属于“金融活动”、某一主体是否构成“金融机构”、某一产品是否属于“金融产品”等基础性问题的争议屡见不鲜。张家口市某某国际旅行社有限公司与李某某等金融借款合同纠纷一案提供了审视问题的鲜活样本，此案争议焦点便在于供应链托盘融资的法律定性，其究竟属于商品买卖行为，还是应被认定为金融行为。此间扞格，虽属冰山一角，却尖锐地反衬出基础概念立法供给的不足。

法的王国虽由规则建构，其界标却由概念立起。荀子《正名》有言：“名定而实辨，道行而志通”。康德《纯粹理性批判》亦载：“思维无内容则空，直观无概念则盲”。概念是承载思想的基本符号，是人类认知世界最基础的思维单位。博登海默指出：“概念乃是解决法律问题所必需和必不可少的工具。没有限定严格的专门概念，我们便不能清楚地和理性地思考法律问题。”法学概念是法学知识形成和展示的基础，是法学认识的思想结晶，也是法学知识体系的支点，更是法学成为科学的标志。“金融”概念界定的宽窄、内涵的深浅，不仅关涉金融法调整对象的界定、金融法律关系的识别、金融行为性质的判断，更直接影响金融监管权的配置、金融市场准入的设定、金融风险防范的布局，成为未来立法潜在的“阿喀琉斯之踵”。构建完善的概念体系是金融法制定的内在要求，不仅关系到金融法文本体例与结构安排所依据的理论线索，也决定着相关制度有效回应中国式金融实践的现实需求与未来挑战。超越简单的规则汇编与域外借鉴，构建彰显中国特色、体现时代精神的金融法基础概念体系，已然成为建构中国自主的金融法学知识体系必须攻克的“源头性”命题。金融立法唯有在核心概念的厘定上下足功夫，方能成就“立得住、行得通、真管用”的良法美治。那么，面向中国式现代化金融治理的现实需求与未来图景，我们究竟应当如何精准提炼“金融”活动的法学内涵与规范要件？如何通过科学的立法表达，使抽象的法理概念转化为能够统摄多元金融形态、衔接既有法律秩序、并保持适度开放性的法律定义？这一核心概念的奠定，又将如何从根本上重塑我国金融法律的规范体系与治理范式？这均是值得我们认真思考的重大理论问题。

一、金融概念的规范样态与问题成因

金融法是一个带有许多大厅、房间、凹角、拐角的大厦，银行法、证券法、保险法、信托法等各个“厅室”自成格局，作为整座大厦基石的“金融”概念在不同厅室间竟呈现出迥异的样态。概念离散并非偶然，其背后映射的是历史路径依赖的制度惯性和监管主体利益博弈的现实考量。

（一）概念散见的文本检视

我国现行金融法对“金融”采取割裂式定义，“金融活动”的内涵与外延或语焉不详、或隐晦推定、或各执一词，其对“金融”的指涉或显于具体业态描述，或隐于监管对象枚举，深耕自身的“一亩三分地”，形成“铁路警察，各管一段”的规范格局。耙梳和检视现有52份金融法律文本，可以发现，我国尚未对“金融”概念进行直接定义，“金融”活动范围存在三种差异化界定模式：基于行为类型的列举式定义、基于机构属性的授权式定义、基于风险特征的否定式定义：（1）基于行为类型的列举式定义依赖于对已知金融形态的归纳，辅之以兜底条款，试图通过穷尽或例示特定的金融活动形态来圈定法律的调整范围；列举难免挂一漏万，极易陷入“法有限而情无穷”的困境。（2）基于机构属性的授权式定义将金融活动与特定持牌机构的经营范围紧密绑定，构建了以机构属性为核心的金融行为识别标准；特定行为是否构成法律调整的金融活动，依赖于行为主体的身份是否获得监管授权许可。质言之，通过对持牌金融机构业务范围的审批与管理来实现对“金融”范畴的间接框定。（3）基于风险特征的否定式定义通常采用“未经批准…不得…”或“禁止…”等否定性表述，并结合“社会公众资金”、“还本付息”、“特定风险”等特征进行金融活动的异常状态的矫正与排除，从而从反面勾勒出“金融”的轮廓。这种界定方式未正面阐明“金融”的应然内涵，混淆了“行为性质认定”与“行为法律评价”两个不同层面的问题。三种模式分别从行为、主体、风险三个不同截面切入，虽各有所长，反映了立法者对金融活动某一维度的认知与关切，但均未能呈现“金融”的全貌与本质，如同盲人摸象，反而因其范式差异加剧了法律体系内部的龃龉。

表 1 典型法律文本金融活动范围的界定情况

（二）概念分立的生成原因

在我国金融法律体系中，“金融”这一基础性概念并未形成统一、抽象的定义，而是被分散规定于《商业银行法》等诸多单行立法之中，呈现出鲜明的概念分立格局。这一格局是在特定历史条件下，由多重因素相互交织、共同作用所形成的制度结果。

首先，金融概念分立植根于我国特定的历史发展阶段与立法条件。上世纪八十年代末至九十年代，我国金融体系刚从计划经济下的财政附属地位中挣脱，现代金融市场的基础要件极为薄弱，多数领域甚至尚未成形。面对金融市场发育程度低下、金融业态相对单一以及金融乱象风险频发的现实局面，我国金融法律体系的构建并未采取顶层设计一蹴而就的路径，而是伴随经济体制改革与金融市场发育进程，采取了“成熟一个，制定一个”的分业立法模式。这种立法起点决定了我国金融法律体系是从规范具体机构与具体业务开始的“自下而上”的实践积累过程，而非源于“自上而下”的概念演绎。随着市场经济的深入推进，银行、证券、保险、信托等业态逐步发展，立法的首要任务是填补制度空白、回应现实风险，呈现出强烈的“问题导向”与“行业立法”色彩。在立法资源有限的情况下，国家聚焦于“分业”规范，旨在为各类金融活动进行清晰的“身份登记”，而非致力于统一定义“金融”。这种“因业立法、因事定义”的模式在当时历史条件下具有显著的合理性与效率优势，能够快速构建起基础监管框架、有效回应市场秩序建设的迫切需求。然而，这也导致“金融”作为一个整体概念被分散嵌入各单行法中，为后续的概念统一埋下了结构性障碍。

其次，既定的分业立法模式在制度演进中形成了深固的路径依赖，成为导致金融概念分立得以延续和强化的关键机制。新制度经济学代表人物道格拉斯·诺斯指出，制度的初始选择一旦形成，便可能进入一种报酬递增和自我强化的良性循环轨道；其中，沉没成本、学习效应、协调效应与适应性预期共同作用，最终使该制度路径产生难以逆转的“锁定效应”。我国早期采取分业立法模式，因其在应对特定历史条件下金融市场乱象、快速确立监管秩序方面表现出显著的有效性，从而获得了广泛的正向反馈与合法性认同。这种初始阶段的成功实践，使得该模式被后续立法者视为可靠模板，形成强大的立法惯性：当新的金融现象或风险出现时，立法者的第一反应往往不是在顶层设计上寻求概念的统一，而是习惯于在既有的银行、证券、保险、信托等业态框架内，通过制定新的单行法或修订旧法来“填补漏洞”。这种路径依赖不仅体现在立法思维层面，更已深深嵌入整个金融生态系统的组织结构与利益格局之中。监管机构围绕特定业态设立并发展出专业的监管团队与知识体系，被监管的金融机构也在明确的行业划分下形成了稳定的商业模式和合规流程。任何试图打破业态边界、进行概念统合的法律变革，都意味着要对这套已高效运转数十年的体系进行根本性重构，面临的不只是高昂的制度转换成本，还包括来自既定体系内既得利益群体的潜在阻力。因此，分业立法下的概念分立便从最初的权宜之计，在路径依赖的强大惯性作用下，逐渐演变并固化为一种被视为理所当然的立法常态。

最后，监管机构的业绩考核机制从内部激励层面强化了对概念分立格局的维护。在分散立法体制下，金融监管权被法定分配予不同监管机构，而各机构的监管范围大小、监管对象多寡往往与其所能获得的预算拨付、人员编制配置乃至行政级别提升等实际利益直接相关。这种“业绩激励”机制天然强化了各监管机构的“领地意识”与“辖区思维”，监管机构拓展职权范围的内在倾向进一步从外部行为逻辑上固化了概念分立。定义条款通过界定监管对象的内涵与外延，实质上划定了监管机构的具体管辖范围。不同监管机构之间的管辖界限，本质上反映了此类与彼类金融活动的区分，构成了金融监管的“内部边界”；而所有监管机构管辖范围的总边界，则区分了金融活动与非金融活动，形成了金融监管的“外部边界”。在现行分散立法体系下，金融监管权被法定分配予中国人民银行、国家金融监督管理总局、中国证监会等不同监管机构，导致“金融”概念在各法中呈现出显著的“竖井效应”。各监管机构在追求公共利益之余，普遍存在巩固法定职权、拓展监管版图的内在倾向。各部门在起草或修订法律时，其首要关切在于清晰划定自身职责边界，遵循“谁的孩子谁抱走”的监管逻辑。这种“囚徒困境”式的博弈格局，使得尽管从整体视角看，统一界定金融概念更符合金融法律体系的理性化要求，但各监管机构基于自身效用最大化的个体考量，反而导致了一种集体次优的概念分立均衡状态长期存续。

综上所述，我国金融立法中的概念分立格局，是历史条件约束、路径依赖锁定、业绩激励强化与监管逐利行为共同塑造的复杂产物。这一格局在历史上曾发挥了稳定市场、快速确立规则的积极作用，但在金融综合经营已成为常态的今天，其带来的监管套利、协调不力与体系碎片化等问题也日益凸显。

二、金融概念的学科立场与规范必然

概念是法律规则的浓缩，一个清晰的概念可以代替一打冗长的规定。金融概念的统一界定需要在厘清学科界分的基础上确立法学立场，并以此回应立法、执法和司法等法治实践的迫切吁求。

（一）金融概念的学科觉醒

“金融”一词系舶来品，日本三省堂出版的《新辞林》对“金融”的解释为：资金的融通，资金的需求和供给关系，资金的流动，成为“资金融通说”最早的学术渊源。随着经济学理论的发展，出现了“金融资源论”、“金融产业论”、“金融工具论”、“金融媒介论”等百家争鸣的定义方法。经济学界对“金融”概念迄今未形成统一定义，直接延宕并影响金融法学对基础概念理解的共识形成。我国金融法学长期囿于经济学的认知范式，常不自觉地被经济学话语所裹挟与浸润，存在明显的理论惰性。经济学与金融法学虽共以“金融”为研究对象,但其学科旨趣与价值取向判然有别。如何将金融术语转化为法律表达，既是金融法学的基础课题，更是金融立法的先决条件。

1.功能主义与规范主义：逻辑理路的本体论分野

经济学关注金融现象的运行规律与市场效果，其“金融”概念指向“资金融通”现象与功能的概括，遵循的是“实然”的逻辑。学者黄达将金融界定为“凡是涉及货币供给、银行与非银行信用、以证券交易为操作特征投资、商业保险,以及以类似形式进行运作的所有交易行为的集合”。学者陈志武强调金融就是“跨时空的价值交换”。《新帕尔格雷夫经济学大字典》把“金融”定义为“资本市场的运营，资产的供给与定价”。博迪和莫顿认为金融是“对稀缺资源进行跨期分配”。戈德史密斯将金融定义为金融结构静止状态的综合反映，并指出金融发展就是金融结构的变迁。布鲁斯·G.卡拉瑟斯和詹克哲·金围绕金融活动的行动框架及其主要行动者对金融进行定义。经济学语境下的金融概念主要承载着描述性功能，即对金融现象“是什么”的客观刻画，力求客观描述金融市场的运行规律、参与主体的行为模式及金融工具的价格形成机制。上述概念天然缺乏对权利边界、义务归属等规范性问题的观照，通常采取“存而不论”或“外生给定”的处理方式。若“金融”概念仅停留于经济实然层面，法律规范所特有的“应然”功能将随之虚置。法律通过权利义务的界定、分配、保障与矫正，在于塑造、确认并规制主体间可预期的行为模式。法学对“金融”的定义，绝非经济学意义上对资源配置过程的简单映射或被动确认，而是对特定社会关系进行筛选、抽象、评价后形成的规范构造。

2.价值一维与价值多元：概念建构的价值论差异

定义之“定”，在于其规范性的指向功能，明确法律所欲规整之对象与边界；定义之“义”，则在于其内在的价值负荷，为法律解释与适用提供应然层面的指引。无论是宏观金融学对货币供应、利率传导、国际资本流动的研究，抑或微观金融学对资产定价、风险管理、公司融资决策的剖析，其皆侧重资源如何通过金融活动实现帕累托改进。效率本位的价值立场，使经济学在观察金融现象时呈现出鲜明的工具理性色彩。经济学将金融视为实现资源最优配置的技术机制，而对效率之外的价值维度则相对淡漠。若将经济学的金融定义视为一种“点”的突破，法学则追求“面”的统合。金融安全、金融效率与金融公平三者构成法学视域下金融概念的价值基底。正是基于这一认识论立场的分殊，经济学的金融概念可以保持价值上的相对单纯，而法学的金融概念则呈现价值上的复合样态。

3.个体理性与制度理性：行为假设的方法论分歧

经济学的金融概念建立在“理性经济人”的行为假设之上。这一假设认为，金融市场的参与者都是理性的决策者，能够基于完全信息做出效用最大化的选择。晚近兴起的制度经济学与行为经济学虽然注意到制度理性的价值，仍主要将制度视为约束条件或外生变量。在个体理性的框架下，金融被理解为理性个体之间的自愿交易，市场机制能够自动实现资源的优化配置。因此，经济学的金融概念强调市场的自我调节功能，认为法律干预应当最小化，避免扭曲市场的价格信号和激励机制。相反，法学的金融概念天然地将制度置于分析的核心位置。法学承认市场主体的有限理性和信息不对称，更强调通过制度安排来矫正市场失灵、保护弱势群体、维护公共利益。金融活动的合法性、正当性，不能仅仅依靠市场的自发秩序，而必须通过法律制度的规范和引导来实现。方法论分歧导致两个学科在理解金融现象时采取截然不同的分析路径。经济学倾向于从微观个体行为出发，通过加总推导出宏观金融现象；而法学则倾向于从宏观制度框架出发，通过规范设计影响微观个体行为。

4.静态均衡与动态演进：时间维度的认知论差异

经济学的金融概念往往追求静态均衡的理论优雅，偏重于金融资产定价和金融市场均衡分析。在一般均衡理论框架下，金融市场被抽象为一个瞬时出清的交易场所，所有的金融活动都可以在均衡价格下达成。这种静态均衡的概念建构，虽然有助于理论分析的简化和模型推导的便利，但却忽视了金融活动的时间维度和历史路径依赖。在经济学的理想模型中，金融概念是超越时空的抽象范畴，不受特定制度环境和历史条件的约束。法学语境下的金融概念则必须正视金融制度的动态演进特征。金融法律制度的形成和发展，是特定历史时期社会经济条件、政治法律传统、文化价值观念共同作用的结果。金融概念的法律界定，必须考虑制度变迁的路径依赖、法律移植的本土改造、司法实践的经验积累等动态因素。

学科视角的差异本不应成为立法表达的障碍,而应成为概念锻造的智识资源。金融法学必须基于法学立场，运用法学方法、服务法学目标，实现概念从“拿来主义”到“概念自觉”的范式转换。

（二）金融概念的法治吁求

定义条款是理解、适用与遵守法律规范的保障，型塑法律文本的清晰性、透明性与实用性，影响法律的质量优劣和运行良善。概念不统一所衍生的诸种沉疴，已成金融立法必须正视的“奥吉亚斯的牛圈”。清扫此“牛圈”的关键，在于从立法源头确立统一、明确、周延的“金融”概念。

1.维护文本逻辑的体系性要求

统一的金融概念是维系法律文本内在逻辑、确保规范体系结构完整的基础性条件。“将大量彼此不同，而且本身极度复杂的生活事件，以明了的方式予以归类，用清晰易辨的要件加以描述，并赋予其中法律意义上相同者同样的法律效果，此正是法律的任务所在。”这一法律任务能否圆满完成取决于基础概念统一界定和精准表达。立法是寻求最大公约数的共识艺术，法律概念是凝聚立法共识的认知基础。概念界定的差异性决定金融法律体系价值取向、构建路径和内容设计。基础概念既是法律规范的语义载体，更是章节条款编排的逻辑纽带。概念先行在金融立法中发挥提纲挈领、价值统合和体系整合的作用。概念的界定是金融立法的“第一粒纽扣”,扣错则通盘皆误。如果金融概念无法有效涵摄和统合具体规则，“金融机构”“金融工具”“金融业务”“金融市场”等衍生概念必然难以精确圈定，章节条款的展开缺乏统一的语义基准，文本间的语义锚点随之失却，金融立法的“四梁八柱”支离破碎，最终导致规范体系因语义纽带断裂而结构失稳。

法律以概念界定其调整对象与适用边界。概念统一正是通过明晰的内涵廓清与外延划定,使规范文本精准指向立法意图所欲规制之事项，避免其不当扩张或规制遗漏。条款设置服务于特定的价值目标，而目标实现需要基础概念的一致。轻忽基础概念的厘定，既定的立法目标被扭曲的概念工具所肢解，规范意旨终致落空，金融法丧失作为行为指引与裁判基准的规范品格。概念统一界定是法律文本的形式理性要求,更影响金融法治目标的实质达成，是实现科学立法的应有之义。

2.消解监管失灵的制度性需求

监管有效性的实现以监管对象、监管边界与监管标准的清晰界定为前提,而概念统一则是这一前提成立的制度基础。金融属于典型的严监管领域，当“何为金融”本身成为悬而未决的问题时，则会招致和加重监管空隙、监管俘获、监管竞次及监管套利等监管失灵现象。概念不清直接生成或显化监管空隙，某些金融行为因其法律定性模糊，便可选择在界定边缘游弋。空隙一旦形成，即成为竞次的现实场域。当“金融”概念可被语义拉伸或收缩时，不同监管主体因对“金融”范畴的理解不一而产生职能重叠、权限争夺或规制标准竞逐。监管主体为吸引金融机构或业务资源，竞相降低监管标准或放松执法力度。监管俘获在概念模糊的语境下呈现更强的诱发与放大效应，使得监管行为俯就于特定被监管实体的利益。监管机关在识别监管对象和厘清风险特征时，金融监管对象、金融监管工具与金融监管边界便可被利益相关方通过行业话语所掩盖或替代。概念模糊为套利提供语义上的可能，市场主体利用概念差异或漏洞，通过调整业务结构或法律形式，将实质上相同或相似的金融活动置于监管标准最宽松或成本最低的监管框架之下。

统一的金融概念为市场主体进行理性决策提供稳定清晰的行为预期,也是培育良性市场生态的制度必需。明确的法律概念不仅服务于法律认知与法律再造，更调控社会关系、规制并引导主体行为。概念的缺位和分立直接扰乱市场主体的预期形成过程，导致市场公平秩序的扭曲与创新激励的错配，主体的期待利益和信赖利益也因之频繁受损。尤其在金融市场，信息不对称已是常态，法律概念的不确定性进一步加剧信息不对称，引发逆向选择与道德风险。有益创新因法律地位不明而陷入“寒蝉效应”，动辄得咎、裹足不前。伪创新、毒创新恰借概念模糊刻意规避“金融”标签，以“科技”“信息中介”“商品交易”“互助合作”等名义而大行其道，资质迁徙与牌照溢价随之加剧，造成“劣币驱逐良币”的市场异化问题。只有确立统一的“金融”概念,才能使有益创新得到保护,伪创新、毒创新无所遁形，从而优化金融创新生态，促进金融市场健康发展。

3.统一司法裁判的实践性诉求

司法统一是法治国家的基本要求,而概念统一则是实现司法公正的内在诉求。法律概念作为法律上的营造物，是法官理解法律的认知介质，也是进行推理和判断的裁量工具。法律规范都包含着法律概念，法律规范自身也是属需定义的法律概念。司法活动本质上是概念阐释和事实涵摄的持续展开。定义条款的明晰设置是立法者向司法者清晰传达立法意图的必要方式，也是涵摄过程大前提明确、小前提准确和结论正当的关键要素。金融概念的模糊性，使得法院在审理金融纠纷案件时，首先面临“定性难”这一前置性法律障碍。定性不同直接决定当事人的举证责任分配、过错认定标准、赔偿范围乃至请求权基础。不同法院甚至同一法院不同合议庭可能基于“形式审查说”、“实质穿透说”等不同解释路径作出迥异认定。缺乏统一的“金融”概念作为逻辑起点和解释基准，每一次定性都需回溯并比较多个单行法中的相关定义条款，甚至需要借助大量低位阶的规范性文件、监管通知、窗口指导进行补充解释。法官不得不在现有法律缝隙中“辗转腾挪”，裁判说理往往左支右绌，颇显踌躇，进而导致法律适用迥异、裁判结果悬殊。更有甚者，大量案件因难以明确适用金融法律而被降格为普通民事纠纷处理概念界定不清的情形下，裁量权的行使易偏离法律原意，甚至沦为主观恣意，催生“同案不同判”的司法乱象。统一的“金融”概念为法官提供明确的涵摄依据，提升裁判说理的充分性与说服力，减少司法资源在定性争议上的消耗，最终实现“以审判为中心”诉讼制度改革背景下金融司法的专业化。

三、金融概念的要件提取与适用验证

形式是实质的外化，实质是形式的依据。形式主义的概念界定方法试图以外观形式定义金融法的万千气象，终究难逃刻舟求剑之弊。法律概念的形成必须考虑调整对象的内在本质，将“实质重于形式”原则灌注于概念建构。“实质重于形式”原则并非法学领域的陌客，公司法“揭开公司面纱”原则、财税法的“经济实质”原则和信托法的“事实信托”理论，同样是其生动体现。1924年美国联邦最高法院在Weiss v. Stearn一案中首次清晰阐述“实质重于形式”原则。1946年美国联邦最高法院在SEC v. W.J. Howey Co.一案中确立的“投资合同”实质判断标准，即不考虑名称如何，而是检视是否涉及“资金投资于共同事业，并合理期待主要通过他人的努力获取利润”。实质重于形式原则是国家调节的必然选择。经济法自诞生之初，便承载着克服市场机制“三缺陷”的使命。金融市场风险的生成与传导，紧紧依附于金融活动的经济功能，而非其形式外衣。实质重于形式原则既尊重概念的规范约束，又实现了概念的开闭合一。任何法律原则的适用均有边界，过犹不及。实质重于形式原则若被无节制地扩张适用,势必异化为监管者与司法者恣意解释法律、任意扩张权限的“尚方宝剑”。要件化的处理方式，本质上是将抽象的实质判断转化为相对明确的事实认定与法律涵摄，能够有效限缩自由裁量空间，达致实质正义和法律确定性的均衡。

（一）构成要件的提取

“提取公因式”作为立法技术，其核心在于从纷繁复杂的法律现象中，提炼出共通性的规范要素，并将其上升为能够统摄整个法律领域的基础性规则。正如《民法典》通过总则编对民事活动中共通的主体、行为、权利、责任等要素进行抽象与整合，形成了统辖各分编的“公因式”。金融法的制定同样面临着如何从银行、证券、保险、信托等各类具体金融形态中，抽象出能够界定所有金融活动“最大公约数”的任务。尽管学界已有见解主张本次金融法的编纂应对基础性金融法律概念采取要件化的定义路径，这一思路无疑对推动金融概念的明晰化具有启发意义。然而现有建言多停留于方法论层面的初步倡议，尚未就具体要件选取、构造逻辑及适用标准等问题展开充分论证，存有未尽之处与深化余地。鉴于此，拟在现有研究基础上进行拓补，并引入“提取公因式”的立法技术作为理论支撑。

1.是否以货币资金为经营标的

货币作为一般等价物，成为资本运动的最初形式和最终形式。货币资金是价值储藏的权利凝结形态和支付工具的法定强制力载体。货币资金的法律属性决定了金融活动的规范结构与运行逻辑。货币资金成为连接金融市场各参与主体、贯通各类金融工具、统合各种金融业态的基础要件和金融法律关系中的“公分母”。克纳普在《货币国定论》中提出货币是“法律的创造物”。货币资金的本质是国家主权信用背书下的法定清偿能力，被抽象为纯粹的价值符号，剥离了其作为特定物的个性，从而获得了法律上的“种类物”属性。这为金融活动的标准化操作提供了基础，金融产品可以大规模复制和流通。货币资金的法律特性还在于其蕴含的“价值恒定”与“无限可分”的法律拟制。价值的恒定为跨时期、跨地域的金融契约提供了稳定的计价基准，使得不确定的收益能够以当前的货币资金规模进行衡量，从而为资本的时间定价奠定基础。而无限可分的特性，则使得巨额资本得以通过股份份额等工具，向无数市场主体进行募集与分配。银行法、证券法、保险法、信托法等金融法律法规虽规制重点各异，但均以货币资金的法律规制为共通主线。我国学界已有观点认为金融就是“以货币为核心的财产价值形成与转换及附属行为”。准确把握对货币资金法律属性，就是抓住了金融”概念界定的“牛鼻子”。

所谓“以货币资金为经营标的”，其法学内涵远非“与钱相关”这般浅显。“经营”是指以重复性、职业性与营利性为特征的组织化活动。经营货币资金，本质上是以货币资金本身为营利基础，通过吸收、融通、管理和运用资金而获取收益的商事法律行为。金融对货币资金的运作并非单次的法律行为，而是构成了一个持续的法律行为链条。金融活动的法律特征在于其以货币为媒介的连续性契约安排。而一旦行为具备经营特征，则需进一步区分货币资金的不同运用形态：其一为债权性经营，如信贷、债券投资等，其法律本质是资金使用权的有偿让渡，形成还本付息的债权债务关系；其二为股权性经营，如股票发行、股权投资等，其法律本质是资金所有权的风险共担，形成剩余索取与公司治理关系；其三为组合性经营，如资产管理、基金运作等，其法律本质是信托或委托关系下的资金集合与专业管理。各类形态虽权利义务结构不同，但均以货币资金的价值运动为核心，统合于金融法的调整范围。

2.是否涉及信用授受

“信用，在它最简单的表现上，是一种适当或不适当的信任，它使一个人把一定的资本额，以货币形式或估计为一定货币价值的商品形式，委托给另一个人，这个资本额到期一定要偿还。”金融与信用如影随形,金融本身就是信用交易的产物。“信用”一词既有“相信”之意，亦有“托付”之义，可视为法律所认可并保障的一种跨期价值交换请求权，非囿于日常语义中的道德评价或商业声誉。此处的“授”与“受”意味着“当下授出”与“未来履行”在时间轴上的分离与耦合。所谓“授”，即一方当事人基于对另一方未来履约意愿与能力的信赖，将当下的经济价值让渡出去；所谓“受”，即另一方当事人相应承担了在未来特定时点履行特定给付的法律义务。一授一受，构成了金融法律关系最原始和最精炼的单元。金融工具是信用关系的法律载体，金融市场是信用授受的法律场域。没有对跨期请求权的确认与支撑，金融活动将退化为高风险的情感寄托或道德博弈。因此，金融是信用在经济领域的延伸。信用授受成为金融的立身之本，是金融的生命线。从第三次社会大分工中的商品流通开始，基于熟人社会个体品性的“人格信用”就已从升华为“制度信用”。

因为有信用的存在，所以就诞生了杠杆，杠杆是依附在信用之上的。杠杆的运用，又进一步强化和扩展了信用授受的范围与深度。有学者认为全部金融的要义就是信用、杠杆和风险。信用充当了金融法律关系的“质料因”，而杠杆则表现为“形式因”。杠杆本质上是对信用授受关系的多层嵌套和递归运用。杠杆通过信用授受实现权利与义务的乘数性扩张，主体撬动并支配远超其自身即时偿付能力范围的资源。受信方在获得信用授受的同时，可以将所获得的资源作为基础，进一步进行信用授受活动，从而形成多层次的信用链条。链条的每一个环节都建立在前一环节的信用基础之上，形成了权利义务的逐级传递和放大。例如，在资产证券化过程中，原始债权通过法律安排转化为标准化的证券，这些证券又可以作为新的信用载体进行流转和再融资，从而实现杠杆的多层次运用。由此观之，杠杆是“权利的权利”或“信用的信用”。

3.是否内含风险分配

弗雷格认为概念的“意义”是其认知内容，而“意谓”是其所指称的对象。风险机制既构成了金融概念的“意义”——即理解金融现象的认知路径，也构成了其“意谓”——即金融活动的客观特征。金融业务形态虽然千差万别，但都围绕风险的识别、计量、定价、分散、转移等环节展开，其法律构造都可归结为风险分配的不同变体。在现代金融实践中，风险本身已经成为独立的交易标的，信用违约互换等衍生工具即为明证。进而论之，金融法中的许多重要概念，如金融机构、金融产品、金融服务、金融市场等，都可以通过风险要件得到统一的理解。金融机构以风险管理为本质职能，金融产品以风险收益为结构特征，金融服务以风险分散为价值依归，金融市场以风险定价为运行机理。

金融契约的成立，不仅是货币资金使用权的暂时让渡，更关键在于金融活动主体就未来不确定性的承担达成具有法律约束力的合意。风险，在此并非指代具象化风险类型，而是指未来利益的不确定性。风险的分配方向与程度，直接决定了金融活动主体权利义务的边界与内容。每一项金融创新实质都是风险分配方案的重新组合。风险的法律意义在于其对未来不确定性的制度化表达，没有风险就没有真正意义上的金融活动可言。因此，金融法也是风险的“分配法”。金融演进脉络呈现出由资金调剂向信用授受，再进一步向风险配置的转变趋势。现代金融通过风险的优化配置，为整体经济构建风险流转与分散的机制。金融发展的基本方向也是不断增强金融体系在风险配置方面的效能。风险管理已从金融的基础功能跃升为核心功能，构成金融业存续发展的基础。金融法的规范目标并非追求风险的绝对消除，而在于实现风险分配正义。鉴于金融市场主体风险承受能力的异质性，金融法将风险向最具评估、控制与承担能力的主体流转，确保高风险承受能力者承担相应风险,低承受能力者获得合理保护，并确保主体所获收益与承担风险合理对应。

风险分配的存在判断应当基于行为的客观特征和实际效果，而非当事人的主观表述或形式安排，应当重点审查该活动是否在客观上实现了风险在不同主体间的重新配置以及其是否构成该活动的主要特征。通过分析交易结构、资金流向、收益分配等实质要件，判断是否确然发生风险的转移与再分配。虚假风险要件的存在往往指向欺诈性金融行为，应当受到法律的否定性评价。

4.是否具有收益期待

期待利益作为理性经济人行为决策的重要变量，早已为新古典经济学所肯认。门格尔将价值判断的基点从客观劳动转向主观效用，强调行为主体对未来满足的预期构成资源配置的内在动力。庞巴维克通过利息理论，揭示出期待本身即构成经济主体行为的理性基础。金融概念的廓清既要侧重资金融通、信用授受、风险配置等客观表征，也要对金融活动参与主体的主观意志予以关照。任何法律关系的构成都必须同时具备客观要件与主观要件，金融活动概莫能外。所谓主观条件，指行为主体为追求特定法律效果而从事特定行为的动机和目的，其与客观行为要件共同构成法律关系成立的充要条件。收益期待作为金融行为主体主观意思表示的重要组成部分，是一种具有法律上值得保护之利益的权利化状态，或类德国学者泽特尔曼所语“期待权”。英国上诉法院在Re Charge Card Services Ltd一案强调，金融服务的本质在于为客户提供资本增值的机会或手段。一方主体期待通过货币资金投入获得回收或收益，相对方在接受资金时亦明知并通常以明示或默示方式承诺将努力实现对方的此种期待。收益期待包含资本回收和收益获取，前者通常指本金的返还，而后者则包括利息、股息、资本增值等各种形式的投资回报。收益的形式可能多样化，不限于货币形式，也可能包括其他有价值的对价。现代金融学理论中的期望收益率、风险溢价、现值折现等概念，都是对收益期待进行量化分析的工具。收益期待构成了金融活动参与者行为选择的认知基础。期待的强度和类型决定金融活动的具体形态，也直接影响金融产品的风险收益特征和法律规制模式。期待驱动着资本所有者将闲置资金投入金融市场，推动了资本的流动和配置。缺乏资本回收或收益获取的期待，市场主体即丧失参与金融活动的内在动机，金融市场也就失去了存在的基础。

任何主观意思的识别都可以通过外在行为表征进入法律推知评价的视域。收益期待通常以合同条款及相关交易文件等明确载明的本金返还、利息支付、分红预期等形式固定下来，构成“收益期待”的初步证据。“合理预期”标准是重要的补充认定工具，考察一个处于相同或类似地位的理性市场主体，在知晓相关交易的全部信息后，对该行为是否会产生以及可能产生何种经济回报所形成的合理期待。此外，还可以将行为主体、市场背景、行业惯例、推介材料以及资金流向等因素纳入综合考量范畴，从而确定具备客观性与稳定性的裁判基准。

四项要件共同构成金融活动的识别标准，但理论的建构远未止步于此。概念的严谨周延不仅依赖于要件的齐备周全，还取决于诸要件之间逻辑链条和层次结构。若将四项要件简单罗列、等量齐观，则定义难免失之于扁平化。明确要件的逻辑关系关乎定义本身的科学性，也决定了立法表达时概念展开的序列与规范建构的层次。“货币资金为经营标的”与“信用授受”属于核心要件。没有货币资金的经营，便不成其为金融；没有信用的授受，金融活动亦无从展开。“风险分配”与“收益期待”是前两者之上的必然逻辑延伸，由核心要件所派生，并共同丰富了金融概念的内涵。四项要件共同构成一个从客体、行为、后果到目的的完整图景，环环相扣、层层递进，形成逻辑自洽的金融概念构造。

（二）要件适用的检验

要件检验是判断金融活动的初始环节，要求对特定经济或法律行为进行逐项筛查，评估其是否符合要件的特征。检验过程并非简单的“是”或“否”的二元判断，而需结合具体活动的运作机理，审慎评估各要件的表现形式与满足程度。“货币资金为经营标的”要件的检验，需要审视该活动是否直接以货币或其衍生形态作为标的。“涉及信用授受”要件在于辨识活动中是否存在基于未来履约承诺而进行的当前价值转移。“风险分配”的判定，要求剖析活动本身是否内在地设计了对未来不确定性进行分配。“收益期待”则聚焦于主体是否基于其投入而怀有获取经济回报的合理预期。在完成四项要件的逐项检验后，即进入综合判定阶段。基于前述检验结果的内在关联与整体呈现，对目标活动的整体“金融属性强度”作出整体评估与法律定性。满足全部四项要件的活动，可被定性为“典型金融活动”。商业银行存贷款、证券发行交易、保险承保与理赔等传统金融业态活动最具典型性，四项要件齐备无虞，均属此类。北美产业分类系统（NAICS）将典型金融活动分为三类：通过存款或发行证券筹集资金并产生负债、通过承保保险和年金进行风险汇集以及提供促进金融中介、保险和员工福利计划的专业服务。

值得注意的是，不同要件缺失对金融属性消解程度确有影响。核心要件缺失使活动跌出金融范畴的边界，而衍生要件缺失则仅使其在金融光谱上位移。满足两项核心要件及任意一项衍生要件的活动，虽在某些环节存在弱化或变异，金融属性不及典型活动完整，但仍具备相当的金融实质，属“准金融活动”，与典型活动仅有程度差异。“准金融活动”则以典当、信托贷款、多用途商业预付卡发行等活动为代表。Tobias Adrian等学者认为准金融为信托贷款、典当等非银行活动，其与典型金融活动存在界限；满足两项要件且含一项核心要件的活动，归为“类金融活动”。其仅部分具备金融特征，属性强度进一步减弱，处于金融活动边缘，更多表现为形式相似，监管需立法授权以实现精细化。供应链金融、股权众筹、互助保障计划等新型金融业态划归此列。有论者主张融资租赁、保理等视为类金融活动，但是《民法典》已将其纳入调整范围，故应将其排除金融法规制。而仅满足任意一项或零项要件的活动，则应被视为“非金融活动”。非金融主要包括一般商品买卖、普通租赁、个人间偶发性民间借贷、薪酬支付、慈善捐赠、单纯仓储保管等活动。

分类定性最终决定其应适用的法律与监管范式：“典型金融活动”应纳入金融法规制范围，“准金融活动”法律适用应采取“原则适用，例外调整”的思路。对于“类金融活动”采取“底线监管，个案分析”的监管策略。对于“非金融活动”，应明确排除金融法的适用，回归至民商事法律的一般调整。申言之，我们必须摒弃传统金融监管中“非此即彼”的二元思维，改变将经济活动简单划分为“金融”与“非金融”，并据此采取要么全面监管、要么放任自流的做法。面对金融创新催生的大量灰色地带活动，传统模式已显理论贫乏与应对乏力，而典型、准、类、非的四级分类则引入了“光谱思维”与“梯度监管”理念，承认金融属性实为一个由强至弱的连续谱系，更契合复杂的金融现实。这一分类也为监管与司法实践提供了精细化工具箱。执法与司法者无需再固守“全有或全无”的二分法，而可借助“要件检验”，逐层识别活动的金融属性强度，匹配差异化的监管策略与裁判路径，从而显著增强法律应对金融创新的弹性与韧性，避免“一刀切”可能带来的抑制创新或监管缺位。

四、金融概念的立法表达与体系融贯

法律是旨在实现特定目标的规范体系，而立法表达则是将抽象法理转化为具体规则的关键环节。因此，金融概念的立法表达，不仅需追求自身的精准与周延，更必须与既有的银行、证券、保险、信托等法律规范中的相关概念实现有效衔接与体系融贯。

（一）定义条款的规范构造与立法技术

定义性规范作为法律文本中具有特殊功能的规范类型，其设置目的在于揭示被定义项的实质内涵，既不容纳入任何非本质的冗余特征，导致定义“过宽”；亦不可缺失任何关键的本质特征，致使定义“过窄”。其根本追求是实现定义的内涵与外延达成严谨的逻辑自洽，为法律适用提供明确的语义基准，消除概念歧义引发的法律不确定性。

在当前我国立法实践中，定义性规范立法的主要类型包括内涵型定义性规范、外延型定义性规范以及内涵加外延型定义性规范。三种定义类型在立法表达上各具特色，适用场景亦有差异。内涵型定义侧重于揭示概念的本质属性，具有较强的抽象性与概括力，适用于需要统摄多种具体形态的基础性概念；外延型定义则采取列举方式明确概念的外延边界，具有直观性与确定性，但难以应对金融创新带来的新型业态；内涵加外延型定义试图综合两者优势，但可能因篇幅冗长繁复而影响规范的简洁性。内涵型定义性规范通过揭示概念的本质属性来确定其适用范围，与实质要件界定方法不约而同，契合金融法作为基本法的统领定位，因而成为金融概念立法表达的最优选择。当选择使用内涵型定义性规范时，根据种差之间的并取关系，其表现为“LA=df具有性质（T1∧T2∧……∧Tn）的B”的定义结构。L代表法律概念，A为被定义项，B为属概念，T1至Tn为种差要件，∧表示并取逻辑。因此，定义项（LA）等值于属概念（B）与若干种差（T1至Tn）的逻辑交集。

我国《立法法》第七条第二款明确要求“法律规范应当明确、具体，具有针对性和可执行性”，为定义性规范的构造设定了基本准则。全国人大常委会法工委《立法技术规范（2024）》进一步明确要求“法律条文表述应当含义清晰、逻辑严密、语言精练，避免产生歧义和交叉重复;同时应当文风庄重、通俗易懂，避免使用夸张、比喻等修辞手法”，构成了评价定义条款质量的基本尺度。在对术语进行定义时应使用更为熟悉的词汇、使用更为精确的词汇、明确组成部分、明确具体指示对象、表明与较大概念单位之间的关系。申言之，定义应当科学反映被定义事物的本质属性，实现概念内涵与客观对象的精确对应，不得含混不清或模棱两可；定义的内部结构要符合形式逻辑的基本规则，运用并列、递进、因果等逻辑关系词呈现定义要素之间的内在关联，句法安排应当层次分明、主次得当、便于理解；立法表达必须使用形成稳定含义的规范性表达，符合现代汉语的语法规则与表达习惯，避免使用日常用语或模糊词汇。同时，合理使用顿号、逗号、句号、分号等标点符号，通过标点符号的差异化使用准确标示语义停顿与逻辑层次。

定义性条款在法律文本中的位置安排，同样构成立法表达技术的重要面向。法律附则作为法律文本的附属部分，是总则与分则的辅助性构成单元。将一部法律中涉及多个条款的基础术语置于附则部分予以界定已成为我国的立法惯例。附则之所以成为定义性条款的适宜栖身之所，主要原因是其具有“释义汇编”的功能，将法律文本中反复出现的核心术语进行集中界定，便于查阅对照。这种体例安排使得定义条款既不干扰总则的原则性表达，又不影响分则的制度性规定，而是作为贯穿全文的语义基准，为整部法律的理解与适用提供统一的概念工具。

基于以上理论与规范要求，建议在金融法附则中作如下规定：

“第X条本法中所称的“金融活动”，是指以货币资金为经营标的，通过信用授受方式实现资金融通，内含风险分配并具有收益期待的经济活动。

虽不完全符合前条规定的全部要件，但具备其核心特征，可能产生金融风险的活动，国务院金融管理部门可以依法将其认定为金融活动，并参照适用本法或者本法的相关规定。”

上述表述采用了“是指…的…”判断句式和“概念=种差+属”的逻辑结构，符合我国立法技术规范中关于定义性条款的表达惯例。“是指”作为定义联项在语义上明确标识出定义关系的存在。“…的…”结构通过定语从句对属概念进行限定，使得种差与属概念形成紧密的语法整体。更为重要的是，该表述采用了要件并列和逻辑关联的句法结构。通过介词短语与动宾结构的语法设计，以逗号分隔，揭示四项要件之间的内在关联与递进逻辑，形成完整的规范判断结构，避免将要件机械叠加堆砌而导致的定义僵化或选择适用。而第二款设置开放性条款，赋予监管机关在特定情形下的适度认定权限，“虽不完全符合……但具备……”的让步转折句式，承认金融活动在现实中可能存在不完全符合典型定义但本质上仍属金融活动性质的情形，体现了原则性与灵活性的有机统一，为应对金融创新预留了空间。

（二）既有秩序的衔接整合与逻辑贯联

立法表达不仅是语言技术，更是制度协调艺术。新的法律规范总是镶嵌在既有的法律体系之中，其表达方式必须考虑与既有规范的衔接整合，实现新旧规范之间的逻辑贯联与体系融贯。

1.三层概念结构的确立

金融法作为金融领域的基础性、统领性法律，并非意在废止既有各金融行业立法，而是确立国家金融治理的基本目标、基本原则和基本制度。金融法在我国金融法律规范体系中居于“母法”地位，与既有金融法律规范并非“新法废旧法”的替代关系。定义条款构成整个金融法律体系的“通用语言”，成为理解和适用法律的刚性约束和释义基准。因此，金融概念与既有规范之间形成“基础概念—类型化概念—具体术语”的三层结构。基础定义作为顶层概念，着重刻画金融活动的本质特征，成为理解与适用既有具体金融法律规范的上位概念背景和基准，对其他金融法律法规中的相关概念具有统摄与指引作用；中层则由银行法、证券法、信托法、保险法各单行法对银行、证券、信托、保险等具体金融形态作出类型化界定，既有金融单行法中的相关概念界定应被理解为对统一概念在特定领域的具体化适用；底层则是金融法律法规中的具体业务分类术语。具体业务术语的技术性与操作性，使其直接指向具体的金融产品、金融服务或金融交易，是基础概念与中层概念在微观层面的落实与体现。

2.与其他金融法之间的联动修改

金融领域经过数十年的立法累积，已经形成了以银行法、证券法、保险法、信托法为主干的分业立法体系。未来《金融法》中“金融活动”定义条款的确立，将成为整个金融法律体系的“元规则”，其影响将直接而具体地投射到即将修订的《商业银行法》《中国人民银行法》及正在制定的《金融稳定法》等关键法律中，要求我们在立法技术上做好前瞻性的衔接设计。

对《商业银行法》修订的衔接，重在实现监管范式从“机构监管”到“功能与机构监管并重”的真正转变。现行的《商业银行法》主要围绕“商业银行”这一特定机构类型展开规制。未来修法应与《金融法》的定义条款形成呼应，具体路径有二:其一，就概念援引与范围界定而言，可在《商业银行法》的修订中，在总则或附则中增设援引条款，如“本法所称银行业金融机构，是指经国务院银行业监督管理机构批准设立的，主要从事《金融法》所界定的金融活动中资金融通业务的金融机构。” 这一表述蕴含体系整合与功能兜底的双重规范意涵。一方面，将《商业银行法》的规制范围锚定在《金融法》的顶层概念之下，确保体系统一；另一方面，通过“主要从事…资金融通业务”这一功能描述，为监管机构认定诸如某些金融科技公司等实质上从事银行业务的非银行机构提供了法律依据，避免监管真空。其二，就业务范围条款的弹性化而言，现行《商业银行法》对商业银行的业务范围采用列举式立法技术。为因应金融创新之需，可在此条款未尾增加“以及国务院银行业监督管理机构依据《金融法》及相关法律法规认定的其他金融活动”作为兜底。这便将新型银行业务的认定权，与《金融法》的定义和授权关联起来，保持了法律的开放性和适应性。

对《中国人民银行法》修订的衔接，关键在于明确央行职责的“金融”边界。《中国人民银行法》的核心是确立中国人民银行的职责与权限。引入统一的“金融活动”定义，有助于精准界定央行的履职范围，特别是在宏观审慎管理和系统性风险防控方面。一是要实现职责表述的现代化，在修订央行职责时，可将“制定和执行货币政策，防范和化解金融风险，维护金融稳定”等宏观职责，与《金融法》中的“金融活动”概念明确挂钩。例如，可将央行的宏观审慎管理职责明确表述为“对全体从事《金融法》所界定金融活动的机构、市场和工具实施宏观审慎管理”。这为央行穿透式监管、覆盖所有系统性重要金融活动和机构提供了明确的法律授权，使其“金融稳定”职责的边界更加清晰。二是监管协调的法定化。基于统一的金融定义，央行与金融监管总局、证监会等机构之间的监管协调，将从机构间的权责划分，深化为基于“金融活动”本质的功能性协作。在法律中可进一步明确，对于跨行业、跨市场的金融活动，由央行牵头进行系统性风险评估，并依据《金融法》确立的“主监管人制度”原则，协调相关监管机构制定统一的监管标准。

《金融稳定法》制定的根本要义在于奠基则统一的金融风险防控基石。即将制定的《金融稳定法》是其法律体系的顶层设计，而《金融法》中的“金融活动”定义则是其规制范围的“总开关”。首先，界定风险处置范围：《金融稳定法》的核心任务之一是建立金融风险处置机制，其处置对象必须是明确的。因此，该法应开宗明义地规定：“本法适用于为防范、化解和处置由《金融法》所界定的金融活动所引发的金融风险。” 这确保了风险处置的覆盖面无遗漏，无论是传统银行、证券、保险，还是未来可能出现的任何新型金融业态，只要其活动本质属于“金融活动”，就落入《金融稳定法》的防护网内。其次，构建统一的处置标准与工具：统一的定义是统一处置标准的前提。基于此，《金融稳定法》可以设计一套适用于所有金融活动主体的风险监测、早期纠正和处置工具箱——诸如建立覆盖全金融行业的处置基金，避免因概念分歧而导致处置标准不一、公平性受损的问题，实现了从“分业处置”到“功能化、一体化处置”的跃迁。

在立法衔接的技术路径上，宜采取渐进式整合与授权条款运用相结合的规范策略。细言之，在《金融法》中，除定义条款外，应设置授权性条款，明确国务院或金融管理部门有权根据该定义，制定具体领域的实施细则和认定标准。同时，在修订或制定其他法律时，通过上述“援引条款”建立指向性联系。再者，可考虑设置“日落条款”与定期评估。对于现行各单行法中与统一金融定义明显冲突但又暂不宜修改的条款，可考虑引入“日落条款”，明确其效力终止时间；或要求立法机关在法定期限内进行评估和修订，以倒逼体系整合。最后，要突出中央金融委员会的协调中枢作用。在法律层面进一步巩固中央金融委员会在统一金融概念适用上的最终解释权和监管协调裁断权，确保在出现监管管辖争议时，有一个高阶权威机构能够基于《金融法》的定义作出终局判断。

总之，法律是成长中的理性。化解新的统一金融概念与既有规范之间的冲突，不能寄希望于毕其功于一役，而应采取渐进式的整合策略。通过在关键法律的修订和制定过程中，前瞻性地植入衔接性条款，可以使《金融法》的定义条款如同一个精密的接口，有机地嵌入现有法律体系的主板，在保持法秩序安定性的前提下，逐步引导整个金融法律体系实现概念统一、逻辑贯联与制度更新。

五、结语

概念明则规范清，规范清则秩序定。立于金融法制订的历史关口，金融概念的科学界定是决定法律内在品质的关键前置。统一金融概念的立法表达，当以开放性容纳金融创新的无限可能，以包容性回应金融实践的多元形态，以前瞻性预留制度演进的充足空间。本文所主张的以“货币资金为经营标的、涉及信用授受、内含风险分配、具有收益期待”为核心要件的概念体系，旨在从中国金融实践的内在逻辑与风险本质出发，完成一次从分散行业认知到统一法律范畴的法理提炼。概念厘清终将归于规范确立，理论探索终将服务于实践需求。只有锻造出经得起理论审视、立得住实践考验和扛得起历史考量的金融概念，才能有效重塑行业立法的整体架构、消解监管分立的制度藩篱、弥合司法适用的理解分歧，最终夯实金融强国建设的法治根基，护航中国金融业在守正创新中行稳致远。

转自《法学评论》2026年第2期

2026-03-26
陈壁生：汉代郊天礼中的“天帝”

在中国文明中，对政治的理解根本上是通过天人关系的建构来实现的。传统政治哲学的核心是天人之学，而天人关系在朝廷典章中，最大之礼是郊祀礼。自汉以后，郊祀之礼之所以重要，在于郊祀礼比其他任何典礼都更为集中地体现了“天”与政治的关系。汉代是塑造中国文明精神品质的一个重要时期，这一时期的郊祀礼所表现出来的对天的理解，对后世有巨大的影响。

对于汉代郊天礼之“天神”的研究，顾颉刚《三皇考》《五德终始说下的政治与历史》二文作出了开拓性的贡献。近年来，不少专著、论文对秦汉郊天礼以及天神的演变进行了梳理，如田天的《秦汉国家祭祀史稿》仔细爬梳了秦代到西汉末年郊祀礼的发展过程，对雍五畤的建立、甘泉太畤的祭祀对象、祭坛形制等方面有详细的考辨；张书豪的《西汉郊庙礼制与儒学》梳理了西汉郊祀礼的沿革，尤其注重其天地观、神仙观诸方面；林勰宇的《太一：楚文化、秦汉国家祭祀与原始道教探源》则对战国秦汉“太一”信仰进行了系统的梳理。汉代郊天礼一方面落实“天子祭天”，塑造汉代政治的合法性，另一方面又承认刘家受命并非永恒受命，彰显政治本身的公共性。从汉高祖立雍五畤、汉武帝立太一坛，到匡衡郊祀礼改革，其中对“天帝”的不同理解，呈现了天道与汉德的复杂关系。

一、汉高祖：整合“五帝”

西汉初年，郊祀之礼多从秦俗，于雍五畤祭祀五帝。《史记·封禅书》载，汉高祖二年（前205），刘邦东击项羽，入关之后，改革郊天之法。

问：“故秦时上帝祠何帝也？”对曰：“四帝，有白、青、黄、赤帝之祠。”高祖曰：“吾闻天有五帝，而有四，何也？”莫知其说。于是高祖曰：“吾知之矣，乃待我而具五也。”乃立黑帝祠，命曰北畤。有司进祠，上不亲往。

高祖又下诏曰：“吾甚重祠而敬祭。今上帝之祭及山川诸神当祠者，各以其时礼祠之如故。”秦地的“上帝之祭”只有白、青、黄、赤四帝，以色言帝。刘邦增加黑帝祠，于是凑足五天帝。此五色之帝，即贯穿西汉时期的雍五畤之祀。

战国到秦汉之间，五帝观念与五行密切相关，五行的金、木、水、火、土，搭配五色（白、青、黄、赤、黑），五方（东、西、南、北、中），五时（春、夏、季夏、秋、冬），且与历史上的“五帝”或抽象的五色帝相关联，成为一个系统结构理论。五行、五色、五方、五时、五帝的不同组合，发展出不同的理论体系。

刘邦说“吾闻天有五帝”，说明“五帝”的观念是当时的一般认识。首先，这里的“帝”不是直接指天本身，或者唯一天的唯一神，而是天神之一；五帝即五天神。并且，此时的经书中并无“五帝”概念。其次，天帝之数五而备，五帝配五色，说明此五帝是五色帝。刘邦之言，并没有涉及五方、五季问题，但从“乃待我而具五”可以看出，只有凑足五色之帝，才是“完整”的天帝系统。与刘邦所说的五帝观念最接近的，是《吕氏春秋》。《吕氏春秋·应同》言五行、五色并及于帝王，云：

凡帝王者之将兴也，天必先见祥乎下民。黄帝之时，天先见大螾大蝼，黄帝曰：“土气胜。”土气胜，故其色尚黄，其事则土。及禹之时，天先见草木秋冬不杀，禹曰：“木气胜。”木气胜，故其色尚青，其事则木。及汤之时，天先见金刃生于水，汤曰：“金气胜。”金气胜，故其色尚白，其事则金。及文王之时，天先见火，赤乌衔丹书集于周社，文王曰：“火气胜。”火气胜，故其色尚赤，其事则火。代火者必将水，天且先见水气胜。水气胜，故其色尚黑，其事则水。水气至而不知，数备，将徙于土。

由此可见，当时五行、五色与朝代循环的五帝观念已经紧密相连，而五行代表着五帝之运，因此，五德终始之说，包含了五德主运与德运相克两层含义。

雍五畤的建立，并不能说明刘邦对五德终始说的认同，祭祀五帝，只是祭祀所有的天帝。秦世不重天法古，皇帝虽称“天子”，但无郊天之礼，汉初亦然。也就是说，秦朝虽然建立了天下一统的王朝，但天下一统并不具备任何神圣的超越性，政权的合法性也不来自天命，因此不以祭天礼为大典，唯汲汲于肉身不朽之事。汉朝建立以后，汉高祖看到秦俗祭祀四天帝，当时所习称的却是“天有五帝”，不管此时的“五帝”是空间上的“五方”，还是时间上的“五德”，四色无黑，则不能尽天帝。因此，汉高祖要建立一个天下一统的王朝，必然要相应地祭祀所有的天帝。可以说，汉高祖在秦俗基础上凑足的雍五畤，是汉代整合天帝祭祀的第一次尝试，也是建立刘氏政权合法性的一次尝试。

然其时经学未兴，对五帝的具体所指、五帝与天的关系、如何进行祭祀等问题，并没有明确的系统化理论。甚至在汉文帝时，赵人新垣平善于望气，对汉文帝说“长安东北有神气，成五采，若人冠冕焉”，汉文帝从之，便立了渭阳五帝庙。需要特别注意的是，新立的渭阳五帝庙出现了配享，王莽在元始五年（公元5年）的上奏中云：“孝文十六年用新垣平初起渭阳五帝庙，祭泰一、地祇，以太祖高皇帝配。”雍五畤是秦时旧祭，加上高祖增加黑帝之祀，因此没有配享，但汉文帝新建渭阳五帝庙，高祖早已崩逝，所以可以作为祭天的配享。然而，同样是祭五帝，既有雍五畤，又有渭阳五帝庙，其祭祀天神之随机任意，一至于此。可以看出，虽然在汉初民俗之中，五帝是五色天神，但这与后世标准的郊天之礼所祭对象大不相同，此时对天的认识，仍然没有一套系统或深入的理解，而具有极大的随意性。

汉高至文景时期的祭天礼，最重要的问题是把祭天等同于祭五帝。无论是雍五畤还是渭阳五帝庙，都是以五帝为祭祀对象。简言之，在当时人的心目中，祭祀天，天之“神”便称为“帝”，而“天”有五神，称为五帝。文景之时，经书逐渐书于竹帛，流被天下。群经之中，并无“五帝”之名。只有等到《周官》出现，“五帝”才在经书中出现。《周官》之外的经书，涉及祭天，通常直言“天”或“帝”，如《孝经·圣治章》云：“周公郊祀后稷以配天，宗祀文王于明堂以配上帝。”《礼记·祭法》云：“燔柴于泰坛，祭天也。”因此，五帝事实上是理解天的方式。也就是说，在祭天的时候，所祭对象是天之神，而天之神即五帝。从汉高祖开始，郊天礼的“天”即五帝。

二、汉武帝：“太一—五帝”结构

对汉朝而言，五色帝对应着五德，而汉朝受命，只占一德。然天有更为根本之道，因此到了汉武帝时期，祭天所祭天神在“五帝”的基础之上，增加了更高级的“太一”。《史记·封禅书》载：

亳人谬忌奏祠太一方，曰：“天神贵者太一，太一佐曰五帝。古者天子以春秋祭太一东南郊，用太牢，七日，为坛开八通之鬼道。”于是天子令太祝立其祠长安东南郊，常奉祠如忌方。其后人有上书，言“古者天子三年壹用太牢祠神三一：天一、地一、太一”。天子许之，令太祝领祠之于忌太一坛上，如其方。

亳人谬忌之说，纯为当时方士之论。自战国至汉初，在追问万物本原的过程中，诸家都用“太一”表示万物之源，导致多种文献中出现“太一”一词，但这一词语所指却并不相同，甚至并不相通。归纳诸家“太一”，概有三说。一指天地未分之前的状态，《礼记·礼运》云：“是故夫礼必本于大一，分而为天地，转而为阴阳，变而为四时，列而为鬼神。”礼的道理起源于太一，这里的太一，是天地分判之前的状态。郭店楚简《太一生水》言天地之生成云：“太一生水，水反辅太一，是以成天。天反辅太一，是以成地。”亦是如此。其二指星象，太一是北辰、北极之神。《淮南子·天文训》云：“太微者，太一之庭也。紫宫者，太一之居也。”《汉书·天文志》曰：“中宫天极星，其一明者，泰一之常居也。”《尚书·尧典》：“肆类于上帝。”马融注云：“上帝，太一神，在紫微宫，天之最尊者。”《易乾凿度》曰：“太一取其数以行九宫，四正四维，皆合于十五。”郑玄注曰：“太一者，北辰之神名也。居其所曰太一，常行于八卦日辰之间。”这里的太一，都是指北辰之神名。因为北辰是天的中心，因此，作为北辰之神的太一，也是“天”之神。后来的纬书中所出现的“太一”，基本上都可从这一意义上理解。其三指配东帝之神，《楚辞·九歌》有“东皇太一”，五臣注云：“太一，星名，天之尊神。祠在楚东，以配东帝，故云东皇。”《楚辞》之太一为东皇，则与天神中最贵的太一，所指不同。

中国古代的神灵祭祀，经常名同而指异，指同而名异，更不用说汉以前古籍存世寥寥，所载又简朴，如果执一名而同所指，往往不得其实。“太一”的多重用法，正是名同而所指异的典型。亳人谬忌所奏的太一祭祀，与上述三种对太一的理解都不相同。沈钦韩《汉书疏证》引《楚辞》《乾凿度》以解汉武帝之太一祭祀，非也。汉武帝既从谬忌所奏，在长安城东南郊立太一坛。此太一坛并无五帝，如王先谦注《汉书·郊祀志》云：“始专为泰一祠，不并祠五帝。”汉武帝从亳人谬忌之说所建的太一坛，说明当时理解的“太一”，是高于五帝的天神，但这并非意味着汉代开始建立最高神的国家宗教，其后有人上书要建立“三一”，包括“天一、地一、太一”，其中的“太一”，明显又与谬忌所言太一不同。

长安城东南郊谬忌太一坛的建立，实际上是针对雍五畤的五帝祭祀，重新确立天神祭祀系统。强调针对雍五畤的五帝祭祀，是因为汉高祖以后，雍五畤事实上承担着汉代国家宗教的意义，因为汉初五德之说极为流行，雍五畤实际上也是五德主运的政治哲学在郊祀礼中的典型表现，而“太一”的加入，则使原来的国家宗教发生了结构性的变化。后来汉武帝再次郊雍五帝，又有人奏“五帝，太一之佐也，宜立太一而上亲郊之”，同样是针对雍五畤的五帝祭祀，结果“上疑未定”，说明汉武帝这个时期可以将太一视为神来祭祀，但并没有也不能替代雍五畤的五帝祭祀。简言之，雍五畤对天神的理解，是认为天神有五，五帝即全部天神，而谬忌太一坛则在五帝的基础上，又增加了高出五帝的太一神。太一与五帝，本来不一定属于同一套天神体系，是汉代方士将二者进行了关联。此外，谬忌太一坛仅仅说明汉武帝承认有比五帝更高的天神，而不能说明这一天神的“功能”到底是什么。

太一祭祀进入汉朝的祭祀系统之后，开始出现在各种关于天神的理解中。例如，甘泉宫画鬼神之相，以与鬼神通，其中便有太一。《史记·封禅书》载，“又作甘泉宫，中为台室，画天、地、太一诸鬼神，而置祭具以致天神”，又置寿宫神君，“寿宫神君最贵者太一，其佐曰大禁、司命之属，皆从之”。这些祭祀都没有将太一神与五帝关联起来。汉武一朝，真正在五帝之外纳入太一，并建构新的天神体系的，是甘泉泰畤。要真正理解武帝时期的郊天礼，关键也在于甘泉泰畤。《史记·封禅书》载：

上遂郊雍，至陇西，西登崆峒，幸甘泉。令祠官宽舒等具太一祠坛，祠坛放薄忌太一坛，坛三垓。五帝坛环居其下，各如其方，黄帝西南，除八通鬼道。太一，其所用如雍一畤物，而加醴枣脯之属，杀一狸牛以为俎豆牢具。而五帝独有俎豆醴进。其下四方地，为醊食群神从者及北斗云。已祠，胙余皆燎之。其牛色白，鹿居其中，彘在鹿中，水而洎之。祭日以牛，祭月以羊彘特。太一祝宰则衣紫及绣。五帝各如其色，日赤，月白。

要理解甘泉泰畤的天神结构，首先必须理解此前一年汉武帝所建的汾阴后土祠。《史记·封禅书》记载：“其明年冬，天子郊雍，议曰：‘今上帝朕亲郊，而后土无祀，则礼不答也。’有司与太史公、祠官宽舒议：‘天地牲角茧栗。今陛下亲祠后土，后土宜于泽中圜丘为五坛，坛一黄犊太牢具，已祠尽瘗，而从祠衣上黄。’于是天子遂东，始立后土祠汾阴脽丘，如宽舒等议。上亲望拜，如上帝礼。”这是汉武帝做出的一项重大的祭祀改革，其内容是在异于祭天之所，专门设坛祭地。在经典体系中，天子所祭的是“天地”，天地一同祭祀，表明天子代表天下人报答天地之功。汾阴后土祠的建立，使天地之祭成为一个共同的体系，而这时与汾阴脽丘祭地相对的，是雍五畤所祭的五帝，因此，天地之神是五帝与后土。在汉武帝的意识中，五帝与后土构成了天地祭祀。但是，甘泉泰畤建立之后，以“太一五帝”天神结构代替了雍五畤，成为天地之祭的中心，天地之神变作太一与后土。司马迁议汉武帝建立天地之祭云：“今天子所兴祠，太一、后土，三年亲郊祠。”后来班固在《汉书·礼乐志》中回顾汉武帝所立天地之祀时也说：“至武帝定郊祀之礼，祠太一于甘泉，就乾位也；祭后土于汾阴，泽中方丘也。”可见无论是汉武帝时期，还是到了西汉末年，甘泉泰畴都是祭天，而且这个“天”，是与地相对之天，所祭之神是太一。甘泉泰畴与汾阴后土祠，共同构成了天地之祭。

司马迁、王莽之说特别强调甘泉泰畤，是因为谬忌太一坛只祭祀太一，而甘泉泰畤则建立了一个“太一五帝”的天神结构，表现了当时对天的理解，这种理解与汉高祖时期完全不同。“天神贵者太一，太一佐曰五帝”，具体到祭坛形制，是太一坛在上，“五帝坛环居其下”，这样，五帝成为太一的辅佐。这种把“太一”放到“五帝”之上所形成的天神结构，在汉武帝时期的出现，固然不合经义，但有其理据。

由司马迁《史记·封禅书》与班固《汉书·郊祀志》可见，从谬忌太一坛到甘泉泰畤建立这段时间，也是汉武帝相信方士之言，极其企羡黄帝，追求不死成仙之时。因此，甘泉泰畤的建立，也经常被理解为汉武帝追求成仙的行为。在《史记·封禅书》《汉书·郊祀志》的记载中，建立甘泉泰畤之前，齐人公孙卿因得鼎，上奏效法黄帝封禅泰山，乘龙登天。张书豪《西汉郊庙礼制与儒学》一书将公孙卿奏议与甘泉泰畤联系起来，认为汉武帝建立甘泉泰畤祭祀太一，是为了泰山封禅。由此，张著将甘泉泰畤的内容都理解为追求登天升仙。例如在太一坛的位置上，“特别建筑祠坛于甘泉，实是考虑到其处于西北天位的地理位置”；在太一坛的建筑构造上，“泰一祠坛的三陔构造，正是三层昆仑丘的真实呈现，且为太一天帝居处之所。……探究方士造作昆仑的用意，不仅是为了替太一天地设置祀位，主要的目的在于，建立起一个微型宇宙，提供武帝登迁天庭的阶梯”。

但是，在《史记·封禅书》《汉书·郊祀志》中，并没有明确将甘泉泰畤描述为登天成仙的途径，张著所说有推论过勇之嫌。真正与汉武帝登天企图有关的，是泰山封禅仪式。公孙卿上宝鼎神策，并对汉武帝说，他的册书来自申公，申公曾说，“汉兴复当黄帝之时”，“汉之圣者在高祖之孙且曾孙也。宝鼎出而与神通，封禅。封禅七十二王，唯黄帝得上泰山封”，“汉主亦当上封，上封能仙登天矣”。这些说法，对汉武帝有巨大的吸引力。历经一番曲折之后，汉武帝登泰山封禅，司马迁记载其事云：“封泰山下东方，如郊祠太一之礼。封广丈二尺，高九尺，其下则有玉牒书，书秘。礼毕，天子独与侍中奉车子侯上泰山，亦有封。其事皆禁。明日，下阴道。丙辰，禅泰山下址东北肃然山，如祭后土礼。天子皆亲拜见，衣上黄而尽用乐焉。”泰山封禅之礼，其具体仪式已经不得而知，但在泰山东方如郊祀太一，在东北如祭后土，则意味着将天地纳入泰山封禅大典之中。

甘泉泰畤的建立，意味着汉代天神体系中，在五帝之外有一个高于五帝的天神存在，并且形成了六位天神、以五配一的结构。天神的整合，本质上是政治神学的重新建构。汉武帝时期，君臣皆致力于寻求天下太平之道，追求历史上治法多端而所能成就的“一”，如汉武帝元朔六年（前123）六月诏云：“朕闻五帝不相复礼，三代不同法，所由殊路而建德一也。”在汉武帝对董仲舒的策问之二中提出了这样的问题：“盖闻虞舜之时，游于岩郎之上，垂拱无为，而天下太平。周文王至于日昃不暇食，而宇内亦治。夫帝王之道，岂不同条共贯与？何逸劳之殊也？”尧舜无为而文王有为，天下皆治，帝王之法不同，但其效果则相同。策问之三又云：“夫三王之教，所祖不同，而皆有失，或谓久而不易者道也，意岂异哉？”三王异教，但都造就了三代之治。上述诸文都表明，汉武帝已经看到过去的五帝三王法度、礼乐都不相同，但在不同历史时期都达到了完美的政治，那么，完美的政治便不是来源于五帝三王那些具体的礼乐法度，礼乐法度背后，有一个更为根本性的东西，那就是超越于五帝三王具体法度的“道”。欲达致完美的政治，便不在于学习哪一代圣王的法度，而在于学习历史上圣王法度背后的那个“道”。

与此相同的是对天神的理解。汉高祖在秦祭祀白、青、黄、赤帝之祠的基础上，建立黑帝祠，命曰北畤，以成完整的雍五畤。在五天帝中，汉家只占一帝，由此也可以看出，五帝的背后必然还有一个更为根本的天神。不管五色帝对应的是五德循环之史，还是五方广袤之地，其背后都有超越于五的“一”统摄五者。正因如此，不同的方士所提到的天神中太一贵于五帝，才可能最终被汉武帝，乃至当时已经登上历史舞台的儒家衷心或勉强接受。

三、匡衡的改革：“天—五帝”结构

从汉初开始，祭天之礼的场所在雍五畤、甘泉泰畤等地，但经典所述，郊天礼本来应该在都城南郊。汉成帝时期匡衡主导的郊祀礼改革，开始以经学为基本价值改革郊祀礼，将郊祀地点转到南郊。这一时期对天神的理解，是淡化太一而建立起“天—五帝”的结构，并且使祭天的皇帝真正成为“天子”。

自秦废封建而立郡县，建立起皇帝体制，“天子”之名虽然沿用，但基本成为虚文。汉承秦制，所建立的仍然是以皇帝为中心的郡县制。秦虽有雍四畤、泰山封禅，但都不能被作为天子祭天之礼。董仲舒《春秋繁露·郊语》云：“今郊事天之义，此圣人故，故古之圣王，文章之最重者也，前世王莫不从重，粟精奉之，以事上天，至于秦而独阙然废之，一何不率由旧章之大甚也。”并非所有的皇帝祭拜天神的仪式，都是在行天子祭天之礼。

“天子祭天”意味着天子乃天之子，并以天之子的身份，行以子事父之礼以事天，由此而涉及对“天”的信念，对天子身份的认同，涉及郊祀礼的形制、方位、配享等等问题。在经典中，只有天子才能够祭天地，而且是代表天下以报天地。《公羊传·僖公三十一年》：“天子祭天，诸侯祭土。天子有方望之事，无所不通。诸侯山川有不在其封内者，则不祭也。”《礼记·曲礼下》：“天子祭天地，祭四方，祭山川，祭五祀，岁遍。诸侯方祀，祭山川，祭五祀，岁遍。大夫祭五祀，岁遍。士祭其先。”《礼记·王制》：“天子祭天地，诸侯祭社稷，大夫祭五祀。”《礼记·礼运》：“天子祭天地，诸侯祭社稷。”“故先王患礼之不达于下也，故祭帝于郊，所以定天位也；祀社于国，所以列地利也；祖庙，所以本仁也；山川，所以傧鬼神也；五祀，所以本事也。”天子祭祀天地，对应的是诸侯、卿大夫、士各祭其所宜。但在皇帝体制中，“皇帝”之称，本来便由于武力与功业，而非出自德性与神圣，事实上与“天子”无关。因此，汉代的郊祀礼改革，实质上是将天子纳入皇帝体制之中，使天子成为皇帝的“礼”身份，也就是使皇帝通过郊天礼，真正“成为”天子。这就是匡衡议郊祀的真正意义所在。

匡衡议郊祀，主要针对的不是郊祀祭天的形制、天神，而是地点。《汉书·郊祀志》载，成帝即位之初，匡衡等上奏云：

帝王之事莫大乎承天之序，承天之序莫重于郊祀，故圣王尽心极虑以建其制。祭天于南郊，就阳之义也；瘗地于北郊，即阴之象也。天之于天子也，因其所都而各飨焉。……昔者周文武郊于丰镐，成王郊于雒邑。由此观之，天随王者所居而飨之，可见也。甘泉泰畤、河东后土之祠宜可徙置长安，合于古帝王。

按照匡衡的建议，是将甘泉太一坛、河东后土祠迁至长安南北郊。长安南郊的郊祀礼形制，仍然是太一与五帝并祭，汉高祖配享。建定南北郊之后，匡衡上疏又云：“甘泉泰畤紫坛，八觚宣通象八方。五帝坛周环其下，又有群神之坛。”又云：“今既稽古，建定天地之大礼，郊见上帝，青、赤、白、黄、黑五方之帝皆毕陈，各有位馔，祭祀备具。”可见南郊祭天的形制，是太一居中居高，青、赤、白、黄、黑五方之帝环居其下，并有群神之祭，又有汉高祖配享。

匡衡议郊祀之所以是一个汉代郊天礼改革中的重大问题，主要是因为南郊祭天，使汉家真正确立了“承天之序”的价值。所谓“承天之序”，一是把祭天地点转移到国都南郊，一是罢祀南郊以外的所有祭天之礼。

自汉高祖至汉武帝的祭天礼，包括雍五畤、渭阳五帝庙、薄忌太一坛、甘泉太一坛，都是因循旧俗、信从方士而建立，而要将祭天礼转移到南郊，意味着罢祀其他所有祭坛。匡衡所在的汉成帝时期，五经博士传经，中央与地方的学校建立，公卿大夫多出身儒门，因此，据经立制，成为政治制度改革的基本方向。

郊天礼只能在南郊进行，因为南郊是天地中心，即天子所居之京城的阳位。《礼记·郊特牲》云：“郊之祭也，迎长日之至也，大报天而主日也。兆于南郊，就阳位也。扫地而祭，于其质也。器用陶匏，以象天地之性也。于郊，故谓之郊。”郊天必“兆于南郊”，这是就阳位之义。汉文帝十四年（前166）有司奏曰：“古者天子夏亲郊祀上帝于郊，故曰郊。”这一解释比较简单，认为祭天在郊，所以称为郊祀。不过，二说皆以祭天的方位在郊，故称郊祀。

匡衡所提供的理据，是帝王要“承天之序”。事实上，郊祀礼最根本的意义，不是帝王施行一套礼制以宣告自身的政治合法性，而是确立天子作为天之子的意义，简言之，郊祀礼作为国家宗教的核心，不只是政治哲学问题，也是政治神学问题。匡衡议郊祀，核心关切是要使汉家政治能够“承天之序”，“承天之序”则意味着确立天子、都城在天地之间的地位，郊祀礼正是确立天子在天地之间的地位的典型礼制。早在董仲舒那里，就已是从这一角度理解天子祭天的意义。董仲舒不断强调天子是实质上的天之子。《春秋繁露·郊语》云：“圣人正名，名不虚生。天子者，则天之子也。以身度天，独何为不欲其子之有子礼也？”《春秋繁露·郊祭》又云：“天子号天之子也。奈何受为天子之号，而无天子之礼？天子不可不祭天也，无异人之不可以不食父。为人子而不事父者，天下莫能以为可。今为天之子而不事天，何以异是？”“天子”之号，便是天之子，正如子必须事父，天子也必须事天，而天子事天的表现方式就是祭天，即郊天礼。甚至天子在服丧期间，也不能废祭天之礼。《春秋繁露·郊祭》云：“《春秋》之义，国有大丧者，止宗庙之祭，而不止郊祭，不敢以父母之丧，废事天地之礼也。父母之丧，至哀痛悲苦也，尚不敢废郊也，孰足以废郊者？故其在礼，亦曰：‘丧者不祭，唯祭天为越丧而行事。’夫古之畏敬天而重天郊，如此甚也。”天子有双重身份，一是作为天的儿子，二是作为父母的儿子。作为父母之子，为父母服三年之丧是基本的人伦道德，而且父之服重于宗庙中的先祖，所以可以止宗庙之祭，但作为天之子，即便遭遇父母之丧，也要释服而祭天。

只有理解了“帝王之事莫大乎承天之序”，才能理解匡衡的郊祀改革对汉代政治的重大意义。郊祀礼的改革，是为了使代表汉家的“皇帝”，真正成为代表天治理天下百物的“天子”。“承天之序”的第一层含义，是“天随王者所居而飨之”。汉高祖祭祀雍五畤之五色天帝，表明皇帝必须祭祀“所有”的天帝，以对应一统的天下。汉武帝祭祀甘泉泰畤与汾阴后土庙，表明皇帝必须祭祀“太一五帝”构成的天神与地神后土，以彰显皇帝的资格，但这都并未将皇帝与天真正对应起来；将皇帝与天真正对应起来，是皇帝成为“天子”。天子祭天，如子之祭父祖。也就是说，不必通过技术测量把都城建立在天下的最中心，也不必因循旧俗奔走于以往天神来飨之坛庙，天子所居即天下中心，即有天神来飨。就像人子为父祖立宗庙，不必在父祖生前所居之所，而应立在己之宫室。

“承天之序”的第二层含义，是定天地之位。匡衡所建议的“瘗地于北郊，即阴之象也”，把河东后土祠的祭地，转化为长安北郊的祭地，以都城为中心建立天地之祭，确定了都城作为天下中心的地位。祭地之法，经典中多言“郊社”，以南郊为祭天，则社祭为祭地，但匡衡之所以认为祭地是北郊而不是社祭，唯一的文献依据是《礼记·祭法》：“燔柴于泰坛，祭天也。瘗埋于泰折，祭地也。用骍犊。”匡衡之后，紧接着右将军王商、博士师丹、议郎翟方进等五十人也上书言南北郊之祭云：“《礼记》曰：‘燔柴于太坛，祭天也；瘗薶于大折，祭地也。’兆于南郊，所以定天位也。祭地于大折，在北郊，就阴位也。郊处各在圣王所都之南北。”北郊祭地之礼由此得以建立。

而且在成帝南郊之后，匡衡又建议，罢去包括雍五畤、渭阳五帝庙、薄忌太一坛、甘泉泰畤在内的几乎所有天帝祭祀，真正实现经书中屡称的“天子祭天”。匡衡改制的意义，不在于对天神有另一套理解方式，而在于通过建立长安城南北郊祭祀天地，确立了汉家政治“承天之序”的意义。

在匡衡的郊祀改革中，并没有改变武帝以来甘泉泰畤以一配五的天神结构，但是，当时的经师包括匡衡在内，大多用“天”“上帝”而不直接用“太一”。事实上，在天神秩序中，天是客观的对象，天之神即至高无上的上帝，上帝之名号可以是太一，也可以是昊天上帝、皇天大帝、紫微大帝等等。如果根据文献中所论之天神而言，《诗经》本有“昊天上帝”，《尚书》本有“皇天上帝”，《周官》流行，有对言“昊天上帝”与“五帝”，《礼记·月令》流行，复有“皇天上帝”。哀平之际，纬候大行于天下，更有天皇大帝、北辰耀魄宝诸天神之号，等同于“太一”。在郊祀礼中，天之神的具体名号，远不如天神的构成结构重要。而且匡衡之后，“太一”之名逐渐淡化，而称“天”，称其神为“上帝”，慢慢成为主流。与匡衡同时的刘向在《五经通义》中便说：“天神之大者曰昊天上帝，其佐曰五帝。”刘向所说的“昊天上帝”，正同于“太一”。平帝元始五年王莽上疏便云：“今称天神曰皇天上帝泰一，兆曰泰畤。”王莽所称天神为“皇天上帝”“泰一”，其地为“泰畤”，便是将经书中的“上帝”与武帝以来的“泰一”结合到一起。在这一过程中，郊祀礼的对象逐渐转化成经书所称的“天”“上帝”，而不称具体的天神之名。“太一”作为天之神名的淡化与消失，实质上是经学被普遍接受之后，对“天”的理解逐渐从方士的不经之说转为孔子的理性立法的过程。

匡衡定南北郊，是西汉经师依经立制，确定汉世祭天大典的核心事件。在此之前，祭天大典多从秦俗、方士之言，自此之后，祭天子都城南郊，天神为“天—五帝”结构，祭坛形制以一配五，祭天有乐，都开始进入汉代政治之中，汉代之后的郊祀礼，仍然围绕着这些问题展开。

在匡衡定南北郊之后，天地之祭历经兴废，比较典型的是元始仪和东汉时期汉章帝郊祀、明堂礼。匡衡之后，如《汉书·郊祀志》所云：“三十余年间，天地之祠五徙焉。”汉平帝元始五年，再次实行郊祀礼的大变革，主导者是王莽。王莽根据经义，改革南郊、明堂制度。在郊祀礼上，王莽奏复匡衡所定的长安南北郊之祭，同时却又合北郊祭地于南郊，以高皇后配。在明堂礼上，汉武帝曾立泰山明堂，但真正的明堂礼的经学自觉，体现在汉平帝元始四年（4）王莽主导下设定的明堂礼与郊祀祭天所合成的祭礼结构：“四年春正月，郊祀高祖以配天，宗祀孝文以配上帝。”这是以《孝经·圣治章》“周公郊祀后稷以配天，宗祀文王于明堂以配上帝”为标准所设定的祭祀结构，主要是南郊以太祖配天，明堂以太宗配上帝。郊祀礼与明堂礼结合，正是来自《孝经》的经义。

到了东汉，光武中兴之初即行郊天之礼，其基本依据就是元始四年的郊礼。《后汉书·祭祀志》载：“建武元年，光武即位于鄗，为坛营于鄗之阳。祭告天地，采用元始中郊祭故事。”但真正举行郊祀礼是在次年于东都洛阳营建南郊，其制云：

二年正月，初制郊兆于雒阳城南七里，依鄗，采元始中故事。为圆坛八陛，中又为重坛，天地位其上，皆南乡，西上。其外坛上为五帝位。青帝位在甲寅之地，赤帝位在丙巳之地，黄帝位在丁未之地，白帝位在庚申之地，黑帝位在壬亥之地。

这种郊天礼制奠定了东汉郊祀的基本格局，是《孝经》的各种要素落实在制度中的表现。首先，郊天的时间在汉之正月。其次，郊天的地点在洛阳城南郊。再次，数年之后，“乃增广郊祀，高帝配食，位在中坛上，西面北上”，即以汉家的感生帝汉高祖配享。

祭坛的形制，表现了当时对“天”的理解。中间圆坛有天神之位，外坛是五帝之位，基本沿袭了汉武帝时期的祭坛形制。此时的祭天已经不言“太一”。事实上，在经典中，天、帝，都指天神，并无专名，如《孝经·圣治章》“周公郊祀后稷以配天，宗祀文王于明堂以配上帝”，上帝也是天之别名。这里的五帝仍然是五色帝，五色帝居在五个方位，既表明五土之色，在此基础上也可以发展出空间上的五方、时间上的五德。

除了确定郊祀，光武帝又定明堂之祭。光武帝中元元年（56），即光武临终前一年，同时建明堂、灵台、辟雍。明堂之制，《礼图》云：“建武三十一年，作明堂，上员下方。十二堂法日辰。九室法九州。室八窗，八九七十二，法一时之王。室有十二户，法阴阳之数。”光武帝去世之后，明帝即位，即位两年后的永平二年（59）春正月，明堂配享才确定下来，《后汉书·祭祀志》云：“明帝即位，永平二年正月辛未，初祀五帝于明堂，光武帝配。五帝坐位堂上，各处其方。黄帝在未，皆如南郊之位。光武帝位在青帝之南少退，西面。牲各一犊，奏乐如南郊。”与郊祀的坛制不同，明堂更像是一个天地的模型，上圆下方，法天圆地方，而其堂室窗户皆法时辰、地理、历史上的王者、阴阳之数。汉明帝的改革，主要是南郊以感生帝配天，明堂以受命王配上帝。

在汉代政治中，对天、天神的认识，因郊天礼而确立。其中有两个问题最为关键：一是从汉武帝到光武帝的祭坛形制，都是“天”与“五帝”相结合的结构，只不过汉武帝的天神是太一，光武帝泛言天，而五帝则无异；二是从匡衡到王莽到光武帝的郊天礼场所在国都南郊，体现了“天随王者所居而飨之”的意义。

四、天神与政治的公共性

在汉代的国家宗教中，人们对“天”的理解，核心是“天—五帝”结构。在汉代经学中，五经博士所传经书，只有历史上的“五帝”，并没有作为天帝的“五帝”，要等到《周官》出现，才出现作为天帝的“五帝”。郑玄注经以《周官》为本，使“天—五帝”结构在郑氏家法中被继承，并以此为基础建立了圆丘祭昊天上帝，南郊祭五帝中的感生帝，明堂泛祭五帝的新结构。正因为汉代政治奠定了中国传统文明的根基，郑玄经学中郊祀礼、明堂礼对汉以后的政治有长远且深入的影响，对这一结构的探讨，有助于更为深入地理解中国文明的基本特征。

“天—五帝”结构的基本特点，是唯一天主“道”，五色帝主“德”，这一结构为中国政治的公共性提供了最为根本的依据。

唯一天主“道”，使“天”为政治提供了永恒不变的价值。汉代初年，不管是雍五畤，还是渭阳五帝庙所祀之天帝，都是五色帝。在汉初的祭天中，“五色帝”究竟是指五行还是空间上的五方上帝，抑或循环时间中的五德之运，无论是汉高祖还是汉武帝，都没有明确的依据，但汉武帝之时流行的是五德终始之说，如果把五色帝与五德终始联系起来，则每一色之帝事实上只是一朝之天；如果“天”只是一朝一代之天，那么，五色帝便只能是“天”运转的结果，而不是“天”本身。事实上，这正是武帝一朝所面对的根本性问题。汉武帝给董仲舒的第三策，问天人之应，董仲舒对策中陈述“改制”与“变道”的关系，认为夏尚忠，殷尚敬，周尚文，但这是改制，不是变道。董子有云：“道之大原出于天，天不变，道亦不变。”历史与万物，圣王与法度，都在不断变化之中，唯有“天”是永恒不易的，道亦因之。这一不变之天，其天帝（即天神）不可能是五色帝中的一色之帝，因此在五色帝之上，必然需要有一个统率五色帝的天神。正因如此，亳人谬忌所奏之“太一”，提供了一个统率五色帝的至上神，也最终成为超越五色帝之“天”。自武帝立坛经匡衡定南郊、王莽定郊仪，这种理路一直被接受下来。

如果说汉高祖立黑帝祠，使“天有五帝”得以齐整，对应着开始一统的天下，那么汉武帝祀一个超越五帝的天神，则是为大一统的天下提供一个更为复杂的根基，即以唯一的天神统率五帝。这一天神，汉武帝时期称“太一”，匡衡时期可以直接称“天”，王莽时期可以称“皇天上帝”，郑玄经学可以据《周官》称“昊天上帝”。天永恒不变，五帝轮番运转，共同构成天的“神”。在这一意义上，不管是称“天”还是“太一”或是“昊天上帝”，都是至高神，代表着永恒不变；由此“天”而来的道，也是永恒不变的。

而且，南郊祭祀“天”神，由本朝始祖配享。汉平帝元始四年，由王莽主导的元始郊天礼便根据《孝经》，以汉高祖配天。高祖配享，意味着以汉家的始祖，去接引太一与五帝之神。事实上，始祖配享之义，最为典型地表现了汉家的政治合法性建构。天神是公共的，但有资格祭天的只有天子，有资格接引天神的只有本朝的第一位天子，因此高祖配享昭示着汉家是受天命而建立起来的政权。如果郊天礼祭祀之“天”只是太一或昊天上帝，那么汉代的国家宗教，很容易走向一神教。因为一个绝对、唯一、永恒的天神由本朝始祖配享，意味着本朝“天子”成为人世间绝对、唯一、永恒的代表。这样一来，汉家等同天家而又归于刘姓，由此所带来的政治理念的最高形态，必然是万世一系，天下永远成为一家一姓的天下。

五色帝主“德”，决定性地改变了政治的基本形态，使一家一姓只能占据五德中的一德，由此，政治成为超越一家一姓统治的公共空间。在汉代，一直存在两套循环论，其一来自邹衍的五德终始说，另一则来自《春秋》的三统论。五德终始以金、木、水、火、土五行为基础，一朝代表一色进行循环。三统论在“三正”的基础上，强调以建寅、建丑、建子为正，分别代表三正的赤、黑、白三统进行循环。在汉代政治中，三统论仅与历法密切相关，而五德说则成为汉代政治的主要问题之一。

从五色帝中寻找刘家得天下之正统性定位的努力，自汉初便已开始。汉高祖建北畤祭祀黑帝，《史记·历书》云：“汉兴，高祖曰‘北畤待我而起’，亦自以为获水德之瑞。虽明习历及张苍等，咸以为然。”此为汉得水德之说。到了汉文帝时期，鲁人公孙臣则认为汉得土德。《史记·封禅书》载其事云：“鲁人公孙臣上书曰：‘始秦得水德，今汉受之，推终始传，则汉当土德，土德之应黄龙见。宜改正朔，易服色，色上黄。’是时丞相张苍好律历，以为汉乃水德之始，故河决金隄，其符也。年始冬十月，色外黑内赤，与德相应。如公孙臣言，非也。罢之。”但是到了文帝十五年（前165），黄龙果然现于成纪，文帝乃立公孙臣为博士，命他制作土德的历法、制度。及至刘歆作《三统历》，备列伏羲以来德运，至汉为火德，《汉书·律历志》云：“汉高祖皇帝，著纪，伐秦继周。木生火，故为火德。天下号曰汉。”汉德数迁，服色屡变，但背后有一个基本观念框架没有改变，那就是汉德只是五德中之一德。

无论汉德是水、土，还是火，对应的天帝都是五色帝。五行相生相克，一色帝既克上一色，必然要生下一色。同样，汉家灭暴秦而受命得天下，必然要被下一家受命所取代。“天—五帝”结构从根本上塑造了对政治的定义，政治意味着存在一个公共空间，天下是天下人的天下，一人或一家可以受天命而进入这一政治空间，爵称天子，王天下。一人如尧、舜，一家如周、汉，但这并不意味着一人、一家占有天下，只是意味着一人、一家暂时成为天的代理人，治理天下。在这样的理解中，刘氏得天下，有天下之大号不能定为“刘”，因为刘只是私家之指称，以刘氏而定号为“汉”，则是有天下之公名。而且，汉家天下在家国关系上不是以一家代一国，而是以一家有盛德而受天命，暂治一国。

不论是汉代政治，还是今文家说，都不认为一家一姓能够彻底合于“天”而做到万世一系，即便是天帝感生之子，最终以盛德受天命、王天下，也有德衰而失天下的时候。简言之，一人、一家之治天下，从未被认为其可以永远占有天下。正因如此，汉代的太平、受命，一直是汉代政治哲学的核心问题，汉家天子不敢以为圣帝，天变则罪己的现象，一直出现在汉代政治运作机制之中。

概而言之，汉代国家宗教中对天神的理解，最终定型为“天—五帝”结构。“天—五帝”的天学结构，使汉代对天的祭祀超越了一朝一代，一方面把汉家纳入一个永恒序列之中，一方面承认汉家只是一时受命而非永恒受命。在接受经学理论，按照经学的“天—五帝”结构建立起南郊、明堂之礼之后，天学成为整个经学理论，同时也是每一朝政治理论的最高范畴。这一结构为中国传统政治哲学中的诸多基本理念，提供了天学支撑。

转自《文史哲》2026年第1期

2026-03-26
陈伟：秦洞庭、苍梧二郡创设新证

秦代有洞庭、苍梧二郡，是出土简牍激活的历史记忆。这两个郡大致相当于史籍中的黔中郡和长沙郡。秦人在当地置郡，史有明载。但郡名如此，则似乎汉代以来，无人得知，因而被视为“一项颠覆性的发现”。里耶秦简出土后，随着资料陆续刊布，这两处秦郡的境域和存续时间等问题，渐次明朗。新近出版的《里耶秦简〔叁〕》中的两件木牍（7-1、7-12），则显示二郡的创立时间可能并不相同，苍梧郡、至少其郡治长沙及其以北区域，大概是从先行设置的洞庭郡划分出去的。如果这一推测大致不误，则不仅可以窥见这二郡设立的具体进程，还可揭示秦郡创建时的复杂情形，让我们得以了解秦人设郡的另外一种模式。

以下先简要梳理秦洞庭、苍梧二郡的研究历程，再逐一探讨这两枚里耶秦木牍的含义。

洞庭、苍梧二郡资料发表与探讨

里耶秦简在2002年5-6月间出土。不久后，整理者就依据初步释读的资料指出，秦朝已设置迁陵、沅陵、酉阳等县，属于“刚刚浮出水面的洞庭郡”。2003年初，整理者发表部分简牍的图版和释读成果，指出洞庭郡、苍梧郡从未见诸文献记载，可补史籍之缺。并一一说明简牍中出现的酉阳属于洞庭郡，迁陵、益阳、临沅、零阳、孱陵、索等县在《汉志·地理志》中属于武陵郡，似有疑属秦洞庭郡的意味。对于最先辨认的洞庭郡，或以为是秦三十六郡之外新发现的一个郡。整理者也称洞庭、苍梧二郡的发现，“说明秦始皇统一中国后郡的设置较历史记载要广泛得多”。这些表述，倾向于把洞庭、苍梧放在传统的秦郡认知范围之外来看待。

与此相对，我们基于当时公布的资料，尝试推定二郡的大致所在，提出另一种理解：洞庭郡，由其属县有迁陵（县治即秦简所出的里耶古城）以及郡名洞庭来看，其郡域大概与通常所说的秦黔中郡相当。苍梧郡，从江陵张家山247号墓出土汉简《奏谳书》所录秦代案卷《南郡卒史盖庐、挚、朔，叚（假）卒史瞗复攸㢑等狱簿》显示攸为苍梧郡属县和郡名苍梧这两点推断，大致相当传统认识中的长沙郡。

据《南郡卒史盖庐、挚、朔，叚（假）卒史瞗复攸㢑等狱簿》记载，约在秦始皇二十六年或二十七年年初^[1]，利乡发生反叛，攸县官员三度发兵平定而最终击破。㢑就任攸县县令后，在等待“南郡来复治”的期间，上书请求裁减对前两次败北者的惩处，因而致罪。㢑就任时，苍梧守灶、尉徒“教谓”㢑重视此事。狱史氏则对㢑说：“苍梧县反者，御史恒令南郡复。”整理者注释说：“苍梧，县名，应属南郡。守灶，守令灶之省。”其实，这里的苍梧乃是郡名。苍梧守即苍梧郡守，尉即苍梧郡尉。“苍梧县”则是指苍梧郡属县。《奏谳书》所记另一件秦代案卷《女子甲与男子丙和奸》中说“输巴县盐”，“巴县”指巴郡属县，属于同一类表述，可相比照^[2]。㢑就任攸县令时苍梧郡守、尉对他“教谓”，狱史氏与㢑对话时用“苍梧县”针对攸县，均表明攸县属于苍梧郡。

至于南郡吏到苍梧郡属县复狱，则应与当时的制度有关。《二年律令·具律》：“气（乞）鞫者各辞在所县道，县道官令、长、丞谨听，书其气（乞）鞫，上狱属所二千石官，二千石官令都吏覆之。都吏所覆治，廷及郡各移旁近郡，御史、丞相所覆治移廷。”秦代大概已实行类似制度。南郡卒史到攸县，并非彼此有行政上的隶属关系，而是因为南郡与攸县所在的苍梧郡毗邻，按复狱制度、受御史委派而跨郡办案。里耶秦简8-135记“狼有逮在覆狱巴卒史衰、义所”，大概是巴郡卒史到洞庭郡复狱，也是属于旁近郡的关系。

秦苍梧郡以“苍梧”命名，湘水上游今湖南南部的古苍梧一带，大概应在其境域。秦汉攸县故城则在今湖南攸县东。基于这两处定位，并考虑到苍梧与南郡毗邻，简牍所见的苍梧郡大致应与史籍所载的长沙郡相当。

周振鹤先生认同这一判断。他根据出土资料与传世文献，推测原定的秦长沙、黔中二郡实际上并不存在，应以苍梧、洞庭两郡代之，并适当调整郡界，维持《中国历史地图集》考定的秦郡基本格局。

里耶秦简主要是洞庭郡所辖迁陵县的文书，对洞庭郡以及郡内其他属县的记载比较多。《里耶秦简》第一、二卷刊布后，《汉书·地理志》所载武陵郡十三县，除佷山外，均已见于记载。其中索、临沅、沅陵、镡成、迁陵、酉阳、零阳、充八县，可确定属于洞庭郡。就大势而言，洞庭郡相当于史载中的汉武陵以及秦黔中郡，应无疑义。从里耶秦简8-1450、9-1125和9-1547的内容看，洞庭郡的设立应在秦始皇二十五年二月或略早，一直存续至秦末。

苍梧郡在里耶秦简中涉及甚少，其境域存在不同意见。何介钧先生把秦苍梧郡看作汉苍梧郡前身，认为在南岭以南。郭永秉、广濑薰雄二氏也认为西汉苍梧郡位于岭南，长沙郡称“苍梧郡”很难解释。2017年刊布的一条岳麓书院藏秦简记云：“廿六年四月己卯丞相臣状、臣绾受制湘山上：自吾以天下已并，亲抚海内，南至苍梧，凌涉洞庭之水，登湘山、屏山，其树木野美，望骆翠山以南树木□见亦美，其皆禁勿伐。臣状、臣绾请：其禁树木尽如禁苑树木，而令苍梧谨明为骆翠山以南所封刊。”^[3]体味简文，秦君臣在湘山远看的南方诸山，以及他们“凌涉洞庭之水”前途经的洞庭湖东岸一带，应该都属于苍梧郡境。这为苍梧郡相当于史籍所载长沙郡的观点增加了新的证据。

里耶秦简7-1与7-12，文书的形成时间相近，并且都罕见地同时记载长沙、洞庭两个地名，为探讨长江中游以南秦郡的创设提供了新的珍贵资料。

张春龙先生曾在2019年的一次会议上首次介绍这两篇木牍，并解释说：“长沙，秦县名。战国楚国已设县，包山简有‘长沙公’。据里耶秦简，今湖南省境，秦有洞庭、苍梧郡，苍梧郡辖县未见有‘临湘’县的简文，可能秦设有长沙县而无临湘县，‘长沙布三道……’因苍梧郡郡治在长沙，郡衙发布公文时以‘长沙’代称‘苍梧郡’。”^[4]

大致循同一思路，赵堉燊先生认为“长沙布三道”与“新武陵布四道”相对照，郡治是文书分道传送的起点，长沙县当是苍梧郡治；并推测汉初将原长沙县改名为临湘县，秦长沙县治应即在今长沙市芙蓉区五一广场及其周边的汉代古城（通称“临湘故城”）。

这些认识，与我们考定的苍梧郡所在基本一致。然而，这两件木牍显示的历史背景以及反映的郡县关系，可能更为复杂。

苍梧设郡之前的大洞庭郡状态

我们先看里耶秦简7-1。这是一份保存比较好的长篇木牍，涉及秦军在长江中游以南开拓疆域的军事行动。释文如下：

廿五年二月戊午朔辛未，洞庭叚（假）守灶敢言之：洞庭县食皆少。略地军节（即）归，谒令南郡军大（太）守以洞Ⅰ庭吏卒数、军吏卒后备敬（警）者数令治粟大府输食，各足以卒岁便，谒报。敢言之。/二〈三〉月癸丑，Ⅱ丞相启移南郡军叚（假）守主：略地固当辄输，令足灶岁，唯勿乏。传书洞庭守。/显手。/五月癸巳，Ⅲ南郡军叚（假）守殷敢告洞庭主谓：南郡治粟大府前日固已以县吏卒用食数告大府输。Ⅳ（7-1）

亭次行，署急勿留。长沙言书到、起。以洞庭邦尉印行吏（事）。恒署。Ⅰ

十一月壬寅，迁陵守丞睪敢告尉，告仓、启陵、贰春乡主：听书。尉薄（簿）卒，乡各薄（簿）吏、备敬（警）卒、Ⅱ徒隶食足不足数，善薄（簿）上，皆会戊申旦廷，唯勿留。尉下仓，仓传二乡。/丞手。Ⅲ

十一月壬寅水下九刻，秭归奴桥士五（伍）襄以来。/夫半。/即令□□行尉。Ⅳ（7-1背）

这件木牍，从书写风格和文本结构看，应非一篇首尾完整的文书，而是同时对多件文书所作的摘录。其正面包含有三份文书，即（1）洞庭假守灶的上行文书；（2）丞相启致南郡的文书；（3）南郡军假守殷致洞庭郡的文书。背面包含两份文书，即（4）第一列（“亭次”至“恒署”）所书，应是洞庭郡对文书传递的要求（“到起”以上）以及文书封署上钤印和文书缓急等级的说明（“以洞”以下）^[5]；（5）第2-4列，则是迁陵县关于文书传达的安排和收发记录。其中（1）-（3）缺少文书移送和开启记录（某“半”），（1）（3）缺少文书书写人签署（某“手”），这些在完整文书中不可缺少的因素，应该是在摘录时被省略。（3）（4）的发文者，分别是南郡军假守殷和“以洞庭邦尉印行事”的洞庭郡官员，因而不会是同一件文书。其中（4）缺少文书的主体内容，如果不是在摘录时被遗漏，则可能是把主体部分录写在另一件木牍之上。在这种情形下，7-1的正、背面就应该反过来看。即书写（4）的主体内容的另一木牍在前，7-1录有（4）（5）的一面紧接其后，是这件木牍的正面；录有（1）-（3）的那面又在其次，是这件木牍的背面。

在内容方面，（1）-（3）关联密切。洞庭假守灶通过（1）向中央报告“洞庭县食皆少”，请求“令治粟大府输食”，从而引发后续的文书往来。（2）是对（1）的处置，丞相启将洞庭郡来件转发给南郡军假守，指示其满足洞庭郡方面的要求，并通报洞庭郡守。（3）是对（2）的执行，南郡军假守殷致书洞庭郡长官，告知已将需要的粮食数量提供给大府安排输送。（4）（5）书写上前后衔接，分别是讲文书在郡内各县和县内各部门的传递，显然彼此关系紧密。（4）缺少的文书主体部分，由（5）的内容反推，当是要求各县统计、提交各类人员的“食足不足数”。如然，（4）（5）与（1）-（3）内容有关，但时间上却应靠前。由于（1）请求“令南郡军太守以洞庭吏卒数、军吏卒后备警者数令治粟大府输食”，（3）说明“南郡治粟大府前日固已以县吏卒用食数告大府输”，需要“输食”的人数，应当在二十五年二月辛未洞庭假守灶提交报告、至迟在五月癸巳南郡军假守殷致书洞庭之前，洞庭郡即已完成统计并提供了需要“输食”的人数，而不会迟至次年十一月才开始安排统计。这与上文对摘录文书顺序的分析相呼应。

还可印证这一推断的是，在文书（1）中洞庭假守灶指出“略地军即归”，文书（2）中丞相启强调“略地固当辄输”。略地军，这里是指在洞庭以远地区开拓疆土的秦军。从“即归”推测，这些秦军在洞庭以远行动的开始，必定是在（1）的呈报日期（二十五年二月辛未）之前的一段时间，从而与文书（4）（5）的推定时间（二十五年十一月）接近。

文书（4）虽然缺少主体部分，只保留传递、钤印方面的说明，但非常值得重视。里耶秦简8-461规定：“郡邦尉为郡尉。”说明“邦尉”即后来的“郡尉”。以某某官印行事，表示地位较低的官员使用自己的官印代理地位较高的官员处理事务^[6]。岳麓秦简关于郡官员代理的令文指出：“郡尉不存，以守行尉事；泰守不存，令尉为叚（假）守。”可见此处是洞庭郡尉在代理洞庭郡守发出公文。这与文书（5）中迁陵作为洞庭属县的响应直接关联。然而，其前说“长沙言书到、起”，要求长沙县报告收到文书和继续向下一站传递的情况，显示其时长沙应是洞庭属县，是这件文书向郡辖各县传递的第一站。即使忽略“以洞庭邦尉印行事”的文句，向洞庭郡“输食”的文书在长沙传递一事，也表明其地应当包含在这一行动当中。

由此可以推测，在7-1中的文书（4）（5）形成的时候，苍梧郡尚未设立。其南部地域，大概还在由“略地军”攻取之中，长沙县则是由洞庭郡领辖，并且很可能是其郡治所在，为文书（4）发送的第一站，所以特别要求向郡府反馈文书收发的信息。

苍梧郡从洞庭郡分置的推定

里耶秦简7-12的背面是迁陵县接收文书的内容，兹略去不录。其正面释文如下：

□□年十月戊□，洞庭叚（假）守武谓县丞：下真讂，听书从吏（事）。以书到时令毋害狱史、令〼Ⅰ□故，唯毋令苍等过、居其界中而不得。得弗得，各报离石。它如律令。长沙布三道〼Ⅱ书到，到相报，不报者追。下隽报孱陵书到。皆以门亭行。忠手。以长沙印行〼Ⅲ书从吏（事），以书到时令毋害狱史、令史分曹以智巧微谦（廉）求讂问者民归〼Ⅳ令。新武陵布四道，各以道次传，别书。都官军吏在县界中者，各传别书焉。□〼Ⅴ之，皆以门亭行。/悍手。·以新武陵印行吏（事）。Ⅵ（7-12）

在木牍正面，大概先后书写两份文书。第一份从第一列起首开始，大约在第三列残断处再往下一字结束（“以长沙印行〖事〗”）。接着开始第二份文书，止于第六列末尾（“以新武陵印行事”）。看残存文字，两份文书的主体内容大致相同。在传递要求方面，前者“长沙布三道”是以长沙为中心，分三条路线传递；后者“新武陵布四道”则是以新武陵为中心，分四条路线传递。可见这是分别面向以长沙为中心和以新武陵为中心的两个区域。

“新武陵布四道”，还见于9-1861，是二十六年二月洞庭假守高对属县下达的文书。类似表述“新武陵别四道”，还见于8-657、9-2283。二者均是洞庭守礼对属县提出的行书要求。9-2283时值二十七年二月庚寅。8-657纪年残缺，郑威先生从存留的“八月甲戌”等月份、日辰推测，认为只有秦始皇二十七年、二十八年符合条件。由于二十七年八月甲戌为朔日，而当时已刊的里耶简牍资料显示，记日文字必定标出朔日，牍文“八月甲戌”未标朔日，因而应属二十八年。不过检索《里耶秦简〔叁〕》刊布的资料，可见有一些例外。7-89+7-91、9-134所记“廿七年端月丁未”，13-892所记“廿七年十二月丁丑”，其实都是朔日而未曾标出^[7]。因而，8-657属于二十七年抑或二十八年，尚难断言。用这些资料比照，7-12中后一指令的传达区域，当然也是洞庭郡。7-12背面的记录，更提供了直接证据。

在将“长沙布三道”看作在苍梧郡内的行书规定方面，第一份文书中带有一条新证据，即“下隽报孱陵书到”。下隽，《汉书·地理志》属长沙。里耶秦简11-276记苍梧假守灶下令“下隽黔首毋得徙它县”，更直接表明当时下隽为苍梧属县。孱陵，学者多认为秦代属南郡。因而，7-12第一份文书中的这句话，应该是郡级政区通过属县下隽向孱陵代表的南郡反馈已收到文书。不过，直接把这份文书中的长沙看作苍梧郡治，却存在明显的问题。作为对指令发出者的交待，“洞庭假守武谓县丞”一句，写在第一份文书开头位置。就是说，以长沙为中心传达指令的区域，实际上是处于洞庭假守武的隶属之下。这与7-1提供的线索彼此呼应，加强了这一判断的证明力。

在木牍现存部分，未能看到后一份文书的发布者。张春龙先生推测7-12下端残损约2厘米。如果两份文书主体部分相当，以存留文字比照，残损的部分恐怕更多，第一至第五列大概均残去约20字余字。在第三列残去的“事”字之下，原本应写有日期和发布者。看文书传递要求说“新武陵布四道，各以道次传”，以及文书钤印说明“以新武陵印行事”，这位发布者显然是洞庭郡的某位官吏，而不可能是在7-1和7-12中未曾出现的苍梧郡的官员。

需要注意的是，7-1与7-12反映的行政地理格局也有差异，不能等同视之。前者中的长沙应该是洞庭郡属县，并且可能是其郡治所在。后者却呈现两个中心：以新武陵为中心的区域，乃是后来的洞庭郡；以长沙为中心的区域，则是后来的苍梧郡。联系7-1中“略地军即归”的记述，7-12所见的形势，极有可能是新一波攻取的地区开始纳入秦郡县体系，包括原洞庭郡以长沙为中心的地区以及新攻取地区的苍梧郡似乎正在形成当中，呼之欲出。

7-12的纪年文字残损，有学者认为是在秦始皇二十六年。7-1显示秦始皇二十五年十一月长沙为苍梧属县，8-758记载秦始皇三十四年“苍梧为郡九岁”，由于前后年分卡定，这一说法应可采信。这样，苍梧郡的设置可定在二十六年十月或稍后。7-1、7-12这些将长沙记在洞庭之下的简牍，作为特殊时期的文献，此后不复出现。

里耶秦简7-1、7-12蕴含的历史信息十分珍贵。如果以上分析大致不误，则秦经略长江中游以南地区有一个过程。大约在秦始皇二十五年十一月或稍早，即设立洞庭郡，可能以长沙为郡治。其后，继续向南用兵。约在次年十月或稍迟，将以长沙为中心的地区从洞庭郡分割出来，连同南方新开拓之地，设置苍梧郡。刘宋时人甄烈《湘州记》记称：“秦始皇二十五年并天下，分黔中以南之沙乡为长沙郡，以统湘川。”虽然为时较晚，但说得如此具体，似有所据。用洞庭、苍梧替代传统说法中的黔中、长沙名谓之后，甄烈所述与里耶秦简7-1、7-12揭橥的史事高度吻合。

注释

[1]秦以十月为岁首。案卷出现的第一个时间点是“御史书以廿七年二月壬辰到南郡守府”，从而引出复狱的记录。作为事件起因的利乡反叛，当在其前不是太短的时间。

[2] 本文讨论的里耶秦简7-1称“洞庭县食皆少”，“洞庭县”指洞庭郡属县，亦可印证。

[3]参见《岳麓书院藏秦简〔伍〕》第56-58号简，整理者注释疑二十六年的“六”或疑为“九”，也可能是“八”之误。陈松长主编：《岳麓书院藏秦简〔伍〕》，上海辞书出版社，2017年。

[4]参见张春龙《里耶秦简7-1和7-11》，张先生和下引赵堉燊所称7-11，属于出土号，整理号为7-12。两个简号的对应关系，参见湖南省文物考古研究院《里耶秦简〔叁〕》。

[5]或认为有关钤印的文字是文书启封后的记录，参看黄浩波：《秦代文书传递相关问题研究》，武汉大学博士学位论文，2020年6月。

[6]“以某某印行事”的意思，参看陈韵青：《印、印制与用印：秦汉玺印研究述评》，《中国中古史研究》第十卷，中西书局，2023年。

[7]各月朔日的直接证据是里耶秦简13-96所记：“廿七年十月戊寅朔大，十一月戊申朔小，十二月丁丑朔大，正月丁〖未朔〗”。参看《里耶秦简〔叁〕》。

转自《武汉大学学报（哲学社会科学版）》2026年第1期

2026-03-22
陈春声：海澄与澄海——兼论明代后期的闽粤界邻地域

明清之际福建、广东交界地区及其邻近海域的政治局势与社会变迁，具有产生全国性影响的重要意义。正如陈寅恪所言，“自飞黄、大木（飞黄为郑芝龙号，大木为郑成功号——引者注）父子之后，闽海东南之地，至今三百余年，虽累经人事之迁易，然实以一隅系全国之轻重。治史之君子，溯源追始，究世变之所由，不可不于此点注意及之也”。[1]笔者曾以当时在该地域从事海上活动人群的身份及籍贯为中心，从一个侧面说明这些具有重大影响的历史人物的社会角色和公共形象，是如何随着国家制度与地方社会的变迁，被型塑出来并发生变化的；而国家制度演变与地方社会治乱之间，又有明显的互动交融关系。[2]

其时国家制度与地方社会互动关系频繁调整的一个突出表现，就是地方行政区划的重大变化。闽粤界邻地域将近一半的县份，都是在明代后期才设置的。地方行政区域的重新划分，固然反映了随着地方社会与经济的发展，政府控制的编户齐民在增加，地域社会有可能提供更多的行政运作资源，但在当时人看来，增设这么多县份的直接动机，主要还是在于应对地方上频繁发生的倭寇、海盗和山贼之乱。[3]万历十年至十三年（1582年至1585年）任潮州知府的郭子章，在任上所著《潮中杂记》中说：“澄海县，嘉靖间置，取海宇澄清之义也。故闽漳州之县，又曰海澄，皆此意也”。[4]澄海置县于嘉靖四十二年（1563年），海澄则在三年后建县，二县相隔不远，名称相若，创设年代接近，距郭子章到潮州履任不到二十年。《潮中杂记》将二者相提并论，将其置县原因均归结为朝廷期待“海宇澄清”的目的，说明当时人就已认为二县面临相近的社会问题，且有可以比较的内在逻辑脉络。

本文试图比较海澄与澄海建县的过程及社会历史背景，结合对海澄置县与“隆庆开海”关系的分析，讨论明清之际“闽海东南之地”能“以一隅系全国之轻重”的若干缘由，探讨从地方社会和日常生活理解传统时期国家制度变化的一些方法问题。

一、明代后期地方动荡的历史背景

明朝实行严厉的“海禁”政策，但有明一代东南沿海民间的非法海上贸易活动始终未曾停止。而在大多数情况下，当时东南沿海地方官员和市舶太监出于稳定地方社会、增加军需供应和贪图贿赂等各种考虑，实际上也对这种状况采取了默许的态度。嘉靖皇帝即位之后，一度试图改变这种局面。嘉靖二年至嘉靖八年（1523年至1529年）一度停止广州市舶，嘉靖二十六年至嘉靖二十八年（1547年至1549年）间，提督浙闽海防军务的朱纨进剿宁波附近“下海通番”者聚集的双屿港，上疏揭发浙闽势家通倭谋利，又追击海上私商和葡萄牙人于闽粤界邻海域之走马溪，大获全胜。这一系列事件，正好发生于沿海地区商品货币关系空前发展，商人和地方势家力量增强，社会组织和社会权力结构正在“转型”的关键时期，从而加剧了该地域长达百年的“海盗”之患。正如嘉靖四十二年福建巡抚谭纶所奏：“今岂惟外夷，即本处鱼虾之利，与广东贩米之商，漳州白糖诸货，皆一切禁罢，则有无何所无通，衣食何所从出，如之何不相率而勾引为盗也？”[5]

先看看月港周遭九龙江出海口一带的情况。朱纨在嘉靖二十七年（1548年）的奏疏《增设县治以安地方事》中这样描述这一带地方的情形：

福建漳州府龙溪县月港地方，僻处海隅，遥通夷岛，生聚蕃盛，万有余家。以下海为生涯，以通番为常事，方且崛强负固，租赋不供，健讼构争，经年不决。若不预为之所虑，成化外之风。该巡海副使柯乔建议设县，盖欲立官师以寝奸宄之谋，敷治教以挽奇袤之俗。甚为有见。[6]

而万历《漳州府志》更记载了大量本地人“遥通夷岛”，“以下海为生涯，以通番为常事”的个案，略举数例如下：

（嘉靖）二十六年有佛郎机夷船载货在于浯屿地方货卖，漳泉贾人辄往贸易。巡海道柯乔、漳州知府卢璧、龙溪知县林松发兵攻夷船不得，通贩愈甚。时新设总督闽浙都御史朱纨厉禁，获通贩者九十余人，遣令旗、令牌行巡海道柯乔、都司卢镗，就教场悉斩之。

（嘉靖三十六年）是年冬有倭船泊于浯屿，寻去潮州澄海界登岸，袭陷黄冈土城，劫掠诏安县地方。至次年五月由沧泉奄至月港，焚烧九都人家殆尽，夺舟以去。

（嘉靖）三十七年海寇谢老、洪老（即洪迪珍——引者注）等诱倭三千余人，船泊浯屿，次年正月由渡浮宫，直抵月港，夺港中大船，散劫八九都珠浦及官屿等处。复归浯屿。

（嘉靖）三十八年二月，有倭寇数千自潮州来攻劫诏安、云霄、漳浦等处。三月由东厝岭抵月港八九都，转石马、福河、东洲、水头等处，夺舟流劫数月方去。

（嘉靖）三十九年正月，倭由同安来屯于三都，二月渡江，流劫丰田等处。至佛潭桥，复回至月港，屯于港口，至五月方去。[7]

上引诸例中，本地人或与“佛郎机夷船”贸易，或“诱倭”来犯，且“佛郎机夷船”和“倭寇”常常在月港、浯屿屯驻累月，其与当地百姓的关系非同一般，如嘉靖三十六年（1557年）“九都张维等二十四人共造一船，专一接济番舶”，引发所谓“二十四将”之乱[8]；嘉靖三十七年（1558年)谢老、洪迪珍等“诱倭”泊浯屿时，“浯屿诸恶少群往接济，络绎不绝，官府不能禁”[9]。浯屿在月港西南三十余公里，更接近九龙江出海口，嘉靖三十六年倭船先“泊于浯屿，寻去潮州澄海界登岸”，也可见两地关系之密切。其实当时海澄和澄海均尚未置县。

万历《漳州府志》还记载了其他许多外地“贼盗”来犯或本地治安不靖的故事，但除上引与“佛郎机夷船”和“倭寇”相关的记载外，这些事件的“贼首”基本上都不是后来设立的海澄县域内之人。唯一的例外，是嘉靖末年（1566年）的“二十四将”之乱。而这次影响深远的动乱事件，也是本地“土民”发动的一次大规模对抗：

（嘉靖）四十年正月内，月港二十四将反。巡海道邵楩、同知邓士元、县丞金璧往抚之。是年龙溪县二十三、四等都，并海沧、石美、乌礁等处土民俱反，参将杨缙率兵讨之。[10]

关于“二十四将”之乱，已有多位学者做过较为详细的研究。[11]据府志记载，这次动乱始于嘉靖三十六年张维等24名本地人造船接济番舶的举动，次年海道副使邵楩即派兵剿捕，终于嘉靖四十三年（1564年）张维被“斩首枭示”，前后达七八年之久。[12]究其原因，根本上还是由于朝廷“海禁”政策与地方海上活动传统的深刻矛盾，日本学者片山诚二郎更是将这次大规模动乱事件直接定义为“合资贸易商人团的叛乱”[13]。面临朝廷大兵围剿，本地人的避祸之策，仍然是逃亡海上：

月港私造双桅大船，不啻一二百艘，鼓泛洪波巨浪之中，远者倭国，近者暹罗、彭亨诸夷，无所不至，甚者沿边越境劫掠商民，非一日矣。今闻大兵将至,辄谋整船只，挈载妻子，欲往海岛澎湖等处避居。不者则屯聚外澳，俟兵退复回。又不者如去岁，横溃四出，流劫乡村，以摇动漳城，此虽风闻，然势所必至。[14]

“二十四将”之乱对地方社会的影响广泛而深远，正如前人研究所揭示的，嘉靖四十四年（1565年）海澄置县和次年的“隆庆开海”，均与此有直接的关系。月港后来成为海澄县城所在，也是“隆庆开海”的唯一合法港口。

下面讨论澄海置县的背景。关于澄海置县以前韩江下游地域因所谓“倭寇”“海盗”之乱而引发社会秩序不稳的情况，笔者已经有较多的研究。[15]嘉靖《潮州府志》描述当时本地海患不止的三个原因，也多为研究者所引用：

一曰窝藏。谓沿海势要之家，为其渊薮，事觉则多方蔽护，以计脱免。一曰接济。谓黠民窥其乡道，载鱼米互相贸易，以瞻彼日用。一曰通番。谓闽粤滨海诸郡人驾双桅，挟私货，百十为群，往来东西洋，携诸番奇货，因而不靖肆抢掠。[16]

上述情况，与同属一个海上活动区域的九龙江下游，似乎没有太大差别。当地可与“二十四将”之乱相比的著名动乱事件，应该是更早时候的“夏岭之乱”：

（天顺三年）海寇黄于一、林乌铁等作乱，潮州知府周宣讨平之……周宣以奇计陷乌铁而诛之。于一等益肆乱，烧劫揭阳县治而下。夏岭等二十四村皆被胁从。当道檄宣捕贼，宣亲督兵，据险扎营凡七所，与贼相距四十余日，擒杀渠魁，余贼不敢出。宣谓盗魁既得，余可抚而下也。乃出榜令乡儒陈骥等入贼中张挂，而自诣贼营抚谕。各贼皆释甲罗拜乞降，且诉从贼非本心，皆出于被胁不得已。因遍历各村，放回被□男妇五十三名口，拘收大海船一百五十艘，抚过从良民一千二百三十七户。[17]

夏岭之民“以渔为业，出入风波岛屿之间，素不受有司约束”[18]，参与此次动乱事件的“贼船”有三百余艘之多[19]。“夏岭之乱”平定之后，嘉靖末年海氛复起，在后来属于澄海县的地域范围内，几年之间下外莆都东湖人许朝光、鮀江都大井人魏朝义、大家井人陈世荣、鮀浦都月浦人林道乾、下外都上窖人许瑞、苏湾都南洋人朱良宝、苏湾都埭头人黄海如等先后起事[20]，成为澄海建县的主要社会背景。与《漳州府志》基本上把“海寇”和“盗贼”记录为外地人的做法不同，在《澄海县志》作者笔下，这些作乱者均是“乡亲”。

二、置县的过程

据《明世宗实录》记载，嘉靖四十五年（1566年）“初设福建海澄、宁阳二县，以其地多盗故也”。[21]实际上，本地士民向官府和朝廷申请海澄置县，从嘉靖初年就已经开始了[22]，嘉靖二十七年、二十八年、三十六年和四十三年本地士民和福建地方官员又接连呈请了四次[23]，而最终成其事者，则是在京城听选的李英和陈銮两位低级胥吏。据崇祯《海澄县志》载：“四十三年巡海道周贤宣计擒巨魁张维等骈戮以殉，境内甫戡。时听选官李英、陈銮在都下相率叩阍，仍申设县之请”[24]。“李英，慷慨任事，在长安时与陈銮奏请建邑。澄地之列于望县，遂获安澜者，二人之力也。后为典史”[25]。可见，海澄设县与张维被戮，“二十四将”之乱最终平定直接相关，而正在京城（即《人物志》所谓的“长安”）的李英、陈銮因地位太低，只能以“叩阍”形式提出“设县之请”。值得关注的是，这两个“小人物”的举动引起朝廷关注和地方官员的支持，最终达成了目的：

有旨下闽当道议复。四十四年知府唐九德议割龙溪自一都至九都及二十八都之五图，并漳浦二十三都之九图，凑立一县。于是都御史汪道昆、御史王宗载咸具疏奏闻。有旨报可。[26]

从嘉靖初年开始，数十年间不断有海澄置县之议，但各级官员均意见不一，以致长期延宕。李英等之《请设县治疏》之所以能较快为朝廷和地方各级官员所接受，除了“二十四将”之乱平定后，地方社会秩序重建需求迫切这一因素之外，很重要的是，李英、陈銮出身基层椽吏，了解地方实情，洞察各级官府和官员的心理需求、思考方式和决策顾忌，针对置县问题多年议而不决的若干关键症结，作了贴近实际且具可操作性的回应：

或恐设县则官多民扰。臣缔思之，知县一员则海防同知可省也，丞簿典史则安边馆通判可省也，移彼易此，官不加征，民不加役矣。

或谓县分则役重，而龙溪附郭之邑，单薄不支。臣缔思之，自月港之徒倡乱至今，八澳数十里民不听役，赋不登输者，亦已数年矣。而龙溪未闻有停输并役之苦。今若增置一县，不过割龙溪、漳浦十分之一耳。龙溪尚有一百余图，漳浦不下五十余图，月港亦可足五十六图，未至丁赋之烦骈也。

或谓寇乱之方，狼心未息，绳之以法，恐其诛官杀吏，祸出不测。臣缔思之，月港之多乱，正坐官司隔远，威令不到尔。盖招亡集叛，千百为群者，非旬日可致，斩木揭竿，椎牛誓众者，非朝夕可期。况一邑之中，愿招者十尚八九，而倡乱者十仅二三。县治一设，则良民流窜于外者，皆还定故土，与乱孽参错而居，茍有叛萌，众必先知之，入告于官，群集而扑之，其亡可立待也，故设县之计，正所以治乱于未萌者也。

或谓兵荒之后，事且因循，月港既有海防同知，海沧又有安边馆通判，声势相荷，制驭有方，县治似不必设。臣缔思之，住剳衙门，官非久任，互换往来，真如傅□□视专官子民之责，施为委用，自不相侔。前官□□，已有明证。故先年金御史之疏，深咎其导□□□，近年江西御史段顾言条陈之疏，请设月□□□，而亦责安边馆之黩货起乱者，皆真诚之言也。

或谓兵荒民困，公私俱惫，设县重费，难以兴作。臣缔思之，岂不知今日官乏帑藏，民乏储蓄，但以民移郡邑，而田园地宅一概就荒，今若县成，而复归旧业，则食租僦赁，岁收全利。取所入之半，以为筑城之需，固人甘承而乐助也。况今海道周贤宣、知府唐九德公恕廉勤，民心爱戴，令其召民计议，复业之后殷富若干，土著之民殷富若干，照依赀业之厚薄，分派城工之多寡，登记簿籍，以次征收。又如市船贾舶，往往有税皆归于捕盗、牙家，当即布告，令其输税于官。又有海滨泥泊、河洲铺舍，亦宜估勘赁银津贴。纵令未敷，则二道批查各府县词讼内赃罚，以衬贴万分之一。则公私不废，而城邑可就矣。[27]

以上议论虽出于基层椽吏之手，但直抵问题要害，回应多方顾虑，因而很快被朝廷和各级官吏所接受。这个嘉靖四十三年以“扣阍”形式上呈，并“有旨下闽当道议复”的奏疏，次年即获漳州知府唐九德提出具体举措，并经福建巡抚汪道崑、巡按王宗载具疏奏闻，于嘉靖四十五年十二月得到朝廷批准。月港从成化、弘治年间开始，逐渐发展为闽粤界邻地域重要的贸易港口，嘉靖三十年（1551年）朝廷在此地设靖海馆，嘉靖四十二年再改靖海馆为海防馆[28]，长时间设有官府衙门，具有较为完备的基础设施。故于朝廷批准置县次年，在知府唐九德的督率下，很快就完成了县城建设、官署修筑、县界划定和地方秩序的整顿。由此亦可见李英等称赞唐九德“公恕廉勤，民心爱戴”，所言不虚：

隆庆元年，唐守恭履海上，定基鸠工。不移时县治告成，辖三坊五里。东抵镇海卫界，西抵龙溪县界，广八十里；南抵漳浦界，北抵同安界，连海袤五十里……向故盗薮也，置邑非久，而衣冠文物殷赈，外区骎骎度骅骝□矣。[29]

与海澄相比，广东澄海建县的实际过程就显得曲折很多。据《明世宗实录》载，澄海置县由于两广总督（“提督两广”指的是执掌，不是职务——引者注）张臬和纪功御史段顾言的建言：

（嘉靖四十二年正月）丁未提督两广都御史张臬、纪功御史段顾言，各条陈广东善后事宜，户部覆行三事。

一潮州海阳之辟望为倭奴入寇门户，宜设一全县，以增潮南之藩篱，应割都图者七。潮阳之㳚水宜设裁减一县，以控扼海丰、惠来、长乐三县之要冲，应割都图者四。

……

上允行。乃设澄海县于辟望所，普宁县于㳚水。[30]

而《澄海县志》则将澄海置县的缘起，归结到“父老曾栋等议善后之策”的提议：

彼时海氛不靖，蹂躏七都之地，民无城郭可依。官兵远不及援，坐受荼毒。而山寇张琏、林朝曦诸酋复阴相连结，内外夹驱，民益不堪，相率奔窜，七都之地荒墟矣。门户既撤，堂奥孤危，全潮俱警，督府张公臬率师征讨山酋，扑灭海寇，招安地方。甫靖，父老曾栋等议善后之策，奏割七都，置县于下外辟望村弹压之,为郡南障蔽。[31]

与海澄置县前已有月港这样设有官府衙门的港口聚落不同，澄海原为“民无城郭可依”之地，虽然建县初始就确定“置县于下外辟望村”，并开始建筑城墙，但直至万历初年，“官此者来无定居，或蓬州，或樟林，或冠陇。至今（清康熙初年——引者注）土人尤能言之”。[32]蓬州、樟林和冠陇分别位于辟望村的南面、北面和西面，相距数十里，实际上“初澄海设令，多侨寓郡城”[33]，这些地方也只是其临时办公处所。隆庆二年（1568年）海澄举人蔡楠就任澄海知县，仍居住于冠陇乡：

蔡楠，福建海澄举人，隆庆戊辰任。恤里役，尊耆爱士。初澄海无县治官署，令此者视事无长居。楠见冠陇乡山川秀异，俗多冠盖，故莅事其地，即于神山下建宇居之。又建书院祀考亭，以考亭曾过化也，并置祀田，岁租所入为春秋祭资。又于祠傍立乡约所,日与诸生课文讲学，率百姓宣圣谕六条，一时爱戴，升崖州知州去后，诸生立木主配祀考亭侧。[34]

隆庆五年（1571年）在蔡楠主持下，辟望村的县城建设重新启动，但一年后城墙刚初具规模，“方议继建学宫，及公府、官属之署”，蔡楠就奉调琼州府崖州知州[35]，后续工程又停了下来。直至万历三年（1575年），澄海县署才在知县左承芳主持下落成：

左承芳，福建宁德县岁贡。悃愊无华，而经纬措施井井，有惠爱于民。初澄海设令，多侨寓郡城，承芳携家口独住县治，以示固守。时海寇林凤突薄城下，承芳率众登陴欲击之，寇遁。民知可守，因立街衢，辟草莱，定里役，建县治。去弊兴利，爱民恤军，有循吏风。[36]

而学宫则等到万历五年（1577年），在知县顾奕建任上才修建。[37]其时距澄海置县已过去十二年。相较海澄置县，澄海建县的经历要曲折缓慢许多。

三、海澄置县与“隆庆开海”

关于“隆庆开海”的过程及其历史影响，已有诸多详细的研究。[38]有学者认为：“明朝于隆庆元年（1567）在漳州月港实施设关开海政策，这对于被称为‘祖宗定制’的‘海禁’政策而言，可谓重大变革，这一政策有效促进了中国市场与世界市场的相互街接……月港开放有力带动了晚明经济和社会的发展……隆庆月港的开放仍极大地释放了中国商民的活力，使晚明时期的中国市场与世界市场顺利衔接而相互促进，它无疑是明朝海外贸易政策的重大变革。”[39]是为目前学术界所接受的一般看法。

有意思的是，这个具有重要意义的制度转变，在实录、政书和当时的其他官方文献中均无记载，而唯一的直接记录者是不愿为官的本地乡居举人张燮。万历年间，张燮应海澄县令陶镕、漳州府司理萧基和漳州府督粮通判王起宗之请，编纂作为海外通商指南的著作《东西洋考》。该书简单记载“隆庆开海”这一重要政策改变，基本上把“开海禁”视为与“奏设海澄县治”相联系的一个地方性事件：

四十四年，奏设海澄县治。其明年，隆庆改元，福建巡抚御史涂泽民请开海禁，准贩东西二洋。盖东洋若吕宋、苏禄诸国，西洋若交趾、占城、暹罗诸国，皆我羁縻外臣，无侵叛。而特严禁贩倭奴者，比于通番接济之例。此商舶之大原也。[40]

海澄著名士大夫，后官至太仆少卿的周起元在该书序言中，则谈到“开海禁”之后繁荣的通商贸易情形，他的视野似乎更关注这次政策改变的全国性影响：

我穆庙时除贩夷之律，于是五方之贾，熙熙水国，刳艅艎，分市东西路。其捆载珍奇，故异物不足述，而所贸金钱，岁无虑数千万。公私并赖，其殆天子之南库也。[41]

无论如何，“置县”与“开海”两件事情是联系在一起的，前者更多地属于地方性事务，而后者更具全国性影响，但二者实为一体。万历年间福建巡抚许孚远在其《疏通海禁疏》中就这样援引“海澄县番商李福等”的连名呈文：

本县僻处海滨，田受咸水，多荒少熟，民业全在舟贩，赋役俯仰是资。往年海禁严绝，人民倡乱，幸蒙院、道题请建县通商，数十年来，饷足民安。[42]

可见，在普通的商船户看来，“建县通商”也是同一件事。

开海二十多年后，万历二十一年（1593年）朝廷下令将设于月港的海防馆改为督饷馆，专责出洋船税的征收。[43]根据《东西洋考》记载，隆庆六年（1572年）海澄饷税仅有3000两，万历三年为6000两，万历四年（1576年）开始超过10000两，万历二十一年增加到20000多两，设督饷馆后，万历二十二年（1594年）一度达到29000多两，此后一直保持在20000两以上。[44]置县后合法贸易的发展可见一斑。

明代后期“海澄置县”与“隆庆开海”的过程，为理解传统时期地域社会的变迁，提供了诸多充满历史辩证法的启示。

首先，传统中国许多具有深远意义的制度变化，常常是通过长期且曲折的自下而上的过程达致的。自嘉靖初年开始，数十年间月港周边地区民众不断有设县的建议，最后推动成其事者，还是李英和周銮这两位正在京城听选，但敢于“扣阍”的低层胥吏；而澄海建县的建议最初由“父老曾栋等”提出，虽说很快得到朝廷批准，但用了十多年时间才建成县城、衙署和学宫；至于“开海禁”更是上百年间闽粤界邻地域众多海上活动人群的强烈愿望，终于借助海澄设县而有限度解禁，进而因为朝廷典章制度的改变，影响整个国家的历史进程。

其次，历史当事人在亲历某一过程的时候，实际上并未感觉到如同日常生活一部分的举措所蕴含或可能产生的重大意义。不管是李英、周銮等基层椽吏和曾栋这些普通百姓，或是汪道崑、张臬、王宗载和段顾言等高层官员，当他们提出建县、开海之类的建议时，其实主要是为了应对日常生活和行政实务中遇到的具体问题。当事人一般不会想到，其所言所行的某些内容，会有后来史学研究者或历史教科书所描述的那么深远的社会影响和历史意义。

再次，许多具有“国际意义”的重要事件，开始很可能只是源于偏远地方社会的实际生活需求。“隆庆开海”发生于欧洲殖民者向东方扩张，资本主义世界体系正在形成，特别是原产美洲西班牙殖民地的白银，通过阿卡普尔科至马尼拉航线大量流向亚洲的前夕，其历史影响可以说是世界性的。但对于中国东南一条普通溪流入海处附近的月港百姓来说，他们希望朝廷开海，只是为了延续上千年来祖祖辈辈“讨海”为生的生计模式，让日常的实际生活需求和惯习“合法化”。

又次，由于海上贸易和交往的网络特质，一个节点上的故事可能全息地反映并影响了整个网络的生态变化。在传统东亚海上贸易的整个网络中，月港只是其无数节点之一，但由于海上活动的流动性和跨国特质，月港开海实际上意味着整个东南沿海地区海上贸易都因此得益，众多“以海为生”的普通民众的生活也可能因此发生重大变化，由此也就对整个东亚海上活动的形态和性质产生广泛且深刻的影响。隆庆之后，有关所谓“倭寇”和“海盗”的记录明显减少，以郑芝龙、郑成功家族为代表的亦商亦官的带有某种垄断性质的海上势力集团迅速兴起，这些亦可视为“隆庆开海”的结果。

还有，朝廷的“管理”，往往意味着曾被官府禁止的民间惯习的“合法化”。从嘉靖九年（1530年）开始，官府针对海上活动，将巡海道移到漳州，并先后在九龙江入海口周边设立过安边馆（嘉靖九年）、靖海馆（嘉靖三十年）、海防馆（嘉靖四十二年）和督饷馆（万历二十一年），原本的目的是为加强对沿海百姓和海上活动的管制，但收效甚微，“倭寇”“海盗”的活动反而越禁越盛。“隆庆开海”之后，海防馆的功能就由打击走私贸易转变为征收商船饷税。顾名思义，督饷馆的设立，更是以发放商引、征收饷税、对进出口商船进行检验和监督为主要目的。随着朝廷管理机构及其职能的逐步变化，原本被“管理”的不合法的海上贸易行为，终于“合法化”了。

四、澄海置县与安置“盗贼”

关于明代后期韩江中下游地域行政区划变化与安置受招安“盗贼”的关系，笔者有过专门的讨论。[45]当时地方上“民”“盗”不分，加之“官府苦于地方多事，兵力不暇”[46]，地方官府对于“盗贼”往往采取“招抚”的做法，即不再追究为首者和协从者的责任，甚至对为首者封官赐爵。而最重要的是，在沿海地区指定适当地点“安插”这些“抚民”（民间常称之为“抚贼”或“抚盗”[47]），使之成为王朝的“编户齐民”。其实，安置这些尚未解除武装的有组织的“海盗”“山贼”上岸或下山定居，也是当时新设多个州县的目的之一。

建县早期行政秩序和社会秩序均尚未稳定的澄海，也同样要面对如何安置“抚民”的问题。这是其与同时期海上贸易正兴旺发展的海澄县相较，又一个很明显的差别。

澄海下外莆都东湖乡“盗贼”许朝光受抚事，就是一件极富象征意义的事件。许朝光本姓谢，被大海盗许栋收为养子后改姓许。嘉靖三十二年（1553年）许朝光杀许栋而尽领其众，“分据潮阳牛田洋，算舟征赋”，“沿海焚劫日炽”。嘉靖四十二年许朝光接受招抚，其过程充分展示了其时地方上“官”“民”“盗”之间的奇特关系：

嘉靖四十二年本府捕馆始倡招安策，朝光听招。欲召之入见，朝光要言曰：能听朝光即入，不听不入。朝光入毋闭诸城门，毋斥去左右，毋禁左右不得持兵器。诸城门俱守用朝光之人。入当宴以殊礼，陪以县佐首领官，宴罢即出，毋令谒府道。当事者一一许之。

乃驾船数十艘沂流上，旌旗蔽空，甲光耀日。舣舟老鸦洲，跨高马，佩长剑，其党数百人翼之入城，受宴出。

于是，朝光知官司之莫谁何也，遂为安居长久计。筑寨南澳山之隆澳，山久荒秽，多鬼怪，居之多病疫，乃内徙筑寨东湖。朝光虽听招，仍四出剽掠无虚日。分遣头目驾巨舰屯牛田洋，盘问船只，不问大小，俱勒纳银，然后给与票照，方敢来往生理，名曰“报水”。

后以杀倭报效军门，加以镇抚名色。[48]

可见，许朝光把被召入城见官变成一次大规模的武装示威行动，其接受招抚后回到家乡，“内徙筑寨东湖”，也是自己随心所欲选择的结果。而原来所从事的剽劫抢掠勾当仍得以继续，勒索往来船只“报水”的牛田洋，在澄海置县后，也部分划归该县的地域范围。

拥有强大武装，原来已经习惯于反官府和反社会活动的“抚民”，受抚初期往往保持亦民亦盗的生活方式，常有再次反叛为盗的情况发生。隆庆年间安插曾一本集团，就展现了这个过程的复杂和困难所在。曾一本原为海阳县薛陇乡人，早年追随大海盗吴平，嘉靖末年吴平在南澳岛的城寨被官军攻破，曾一本集其残部，先侵寇广东西部的高州和雷州一带，扩张势力后再度回到潮州沿海，“四出剽掠，潮、揭受祸最酷”。招安过程曲折而短暂：

隆庆元年七月赴府告招安，官司许之。又惧官司绐己也，欲得文官质，官司难焉。遂大举众，计欲薄府城取质。（澄海）知县张璇不虞贼之入也，谒府，舟还至老鸦洲，被执去。于是招之下浍，仍释知县归，在贼近有三月云。既而一本复叛，之南澳，据吴平旧窠，杀掳参将缪印等官兵数多，屡年不能平。[49]

曾一本是自己到官府要求招安的，为安插事绑架澄海知县为人质达三个月之久，被安插于潮阳下浍地方也只有三个月，又再次造反。此事终于惊动朝廷，两年以后，在广东、福建两省会剿之下，曾一本蹈海死，由其舅许瑞继续统领残部。

开始时许瑞主要活跃于广州和惠州沿海，其时广州海面尚有其他多股“盗贼”活动，官兵屡剿屡败，“乃招瑞杀贼立功，瑞邀击诸贼，大破之，无一生脱者。军门嘉赏瑞，遣回潮听招”，事在隆庆四年（1570年）前后。初拟安插许瑞于潮阳白土地方，结果“士夫、百姓控于其令，极言不便。其令为白道、府，遂罢”。[50]当事者又议改安插许瑞于澄海县夏岭地方，即天顺年间二十四村作乱之处。澄海知县蔡楠亦上书痛陈利害，表示反对：

议及澄海夏岭，蔡楠上书，言夏岭原系革除，不可复插法外之民。言澄方里不能六十，莫应敷虎咆于东，朱良宝鸱张于北，魏朝义蝮螫于西，仅空南之一方耳。复插许瑞夏岭，则四面皆敌，民何以立，官何以理？[51]

蔡楠所谓“莫应敷虎咆于东，朱良宝鸱张于北，魏朝义蝮螫于西”一句，确为其时澄海县城周边之实际情形。莫应敷所统为许朝光旧部，所据之东湖寨在澄海县城东面，而魏朝义、朱良宝两班人马也是嘉靖、隆庆年间招抚“安插”的。蔡楠“其言剀切，道府不能夺也，夏岭之议遂寝”。当时许瑞屯舟于牛田洋待官司议安插地，久候不决，遂强行入居附近的溪东寨。溪东寨迫近另一“海盗”首领魏朝义的安插之地大井，结果两个“海盗”集团“争海利，相仇杀”，最后以许瑞的败亡而告终。[52]

魏朝义原来就是澄海鮀浦都大井村人，为盗后在本村筑寨与官兵抗争，“焚烧屠戳，所至如洗”。后被招安，就地安插。招安后，除上述与许瑞一党火并事外，据说对官府颇为效顺：

督所部防捍地方，鮀浦左右赖无它虞。道府常檄使捕盗，捕无不获，获无不真，未尝枉一平民，公论归美。而里中恶少恶其害己也，常飞语中伤之。赖道府知察，得全腰领。[53]

而朱良宝的下场就大不一样了。朱良宝原为澄海县南洋乡人，先从乡人王伯宣为盗，伯宣死，辅助其子王若鲁以叛。后惧官兵围剿，缚若鲁献以赎罪，因告招安，结寨南洋。招安后劫掠如故，与林道乾并称“林朱”：

其为祸最惨者，林朱也。官府苦于地方多事，并力不暇，准其告招。招之后……林朱则报水杀人如故。民甚苦之，然不敢声其冤，盖惧二酋声则丧身灭门之祸，不旋踵而至者。[54]

隆庆五年官府发兵进攻南洋寨，半路为朱良宝截击，“杀之几尽”[55]。万历元年（1573年）朱良宝率军进攻广东西部沿海的阳江县，被官兵击退，又回守南洋寨。万历二年（1574年）官府再发大兵进剿，几次惨败之后终于攻下南洋，朱良宝死于刃下。

综上所述，从嘉靖四十二年至隆庆四年的短短八年时间里，澄海县方圆不足百里的地域范围内，先后招抚“安插”过许朝光、魏朝义、朱良宝、许瑞等四个大的“海盗”集团，还有被招安到别县的曾一本绑架澄海知县达三月之久。加上官府安插的其他较小的“盗贼”团伙[56]和参加海盗后被官府零散“给票回籍”定居的人，当时澄海几乎随处可见这些“法外之民”。

从总的趋势看，不管经历多少曲折，这些“抚贼”中多数人最后总要成为一般民户，如朱良宝占据的南洋寨被官军攻破后，“魏朝义、莫应敷闻之，相率毁巢，散其党乞降。许之”[57]。许瑞死后，“头目林奇才领其众，后不知所终”[58]。许多大“海盗”集团在其首领死后几年，所谓“贼众”往往都“不知所终”。当然不排除他们投靠别的“海盗”集团的可能性，但更大的可能是定居下来，终于成为“编户齐民”。只是，从“抚贼” “抚民”到一般民户的过程曲折而艰难，一方面是“海盗”变成“抚民”后，可能对安插地原有的社会秩序和权力结构造成重大冲击；另一方面，与“海盗”成为“抚民”的过程同时发生的，还有许多一般的民户因为种种原因又不断沦为“盗贼”。到明清之际王朝更替，政治统治的“正统性”变得模糊的时候，这个过程就变得更加复杂了。

澄海置县之后未能和海澄一样，很快发展成为有影响力的海上贸易中心，不是因为本地缺乏海上贸易的传统和实际需求，而是由于韩江入海口外南澳岛的存在。永乐之后，南澳即被朝廷弃守，这个“海外荒岛”一直是“倭寇”“海盗”集团和亚欧各国走私船只活动的著名口岸，明末清初郑芝龙、郑成功家族集团更是经营该岛数十年，与澳门、长崎、马尼拉和巴达维亚（今雅加达）都有生意往来。这样一来，地方社会对澄海置县后再建一个“合法”贸易中心的期待并不迫切，而朝廷似乎从未考虑在南澳附近地域再有一个贸易港口的可能。反而一直到清代康熙年间，澄海及周边数县经常要担负安顿从南澳等海岛招安的“抚民”的责任。直至康熙二十三年（1684年）清廷“开海禁”后，韩江流域的海上贸易中心才转移到澄海县的樟林港，樟林最终发展为中国东南沿海最重要的近海帆船贸易口岸之一。[59]

五、结语

笔者一直以为，若将“区域”理解为一种社会史的分析工具，“区域”的界邻地区往往自成一个区域。正如本文力图展现的，在闽粤界邻的沿海地区和众多海岛之间，由于明清时期海上活动人群的流动、交往与上岸定居，也由于他们与朝廷、官府和官兵互动过程所产生的许多具有共同特性的问题，实际上也呈现出自成一个“区域”的某些特质。海澄与澄海设县的背景相若，时间相近，得名都是出于朝廷期待“海宇澄清”的愿望，在其间活动并产生重要影响的是同样的人群，因而将这两个县份置于同一区域发展脉络中进行比较研究，应该是可行且有价值的。

本文第三部分已试图结合对“置县”与“开海”关系具体史实的讨论，提出若干具有方法论倾向的观点。这里还想强调的是，海澄与澄海在朝廷批准设县以后，各自发展历程的明显差异，实际上与超越两个县份的更大地域的文化差异可能有某些不直接但更深沉的关系，而不仅仅是因为朝廷和官府在两地实施的政策举措有所不同。这种文化差异，常常在普通民众的日常生活和人际交往网络中，自然而然地表现出来。所以，当我们强调“区域”的界邻地区往往自成一个区域时，也还是要大道自然地、辩证地关注原来那个“区域”长期存在的理由。

参考文献、注释

[1]陈寅恪：《柳如是别传》中册，上海古籍出版社1980年版，第727页。

[2]陈春声：《明代海上活动人群的身份与籍贯问题——以金门及邻近海域“海盗”的研究为中心》，载陈春声、陈东有（主编）：《杨国桢教授治史五十年纪念文集》，南昌：江西教育出版社2009年版。

[3]陈春声：《从“倭乱”到“迁海”——明末清初潮州地方动乱与乡村社会变迁》，载《明清论丛》第2辑，北京：紫禁城出版社2001年版。

[4]郭子章：《潮中杂记》卷1，《郡县释名》，潮州市地方志办公室2003年重印本，第9页。

[5]谭纶：《谭襄敏公奏议》卷2，明万历二十八年（1600年）刻本，第54页。

[6]朱纨：《甓余杂集》卷3，《章疏二》，载《四库全书存目丛书·集部七八·别集类》。

[7]万历《漳州府志》卷12，《兵乱》。

[8]万历《漳州府志》卷30，《海澄县·兵乱》。

[9]康熙《海澄县志》卷20，《丛谈志》。

[10]万历《漳州府志》卷12，《兵乱》。

[11]片山诚二郞（著）：《明代私人海上贸易的发展与漳州月港——月港“二十四将”的叛乱》，载《暨南史学》第2辑，广州：暨南大学出版社2003年版；王日根、黄友泉：《海洋区域治理视域下的月港“二十四将”叛乱》，载《江海学刊》2012年第5期；李贤强、吴宏岐：《明代福建月港“二十四将”叛乱与设县问题再研究》，载《中国边疆史地研究》2017年第2期；黄友泉：《再论明代福建月港“二十四将”叛乱及海澄设县——对李贤强、吴宏岐两位先生的回应》，载《中国历史地理论丛》2019年第2期。

[12]万历《漳州府志》卷30，《海澄县·兵乱》。

[13]片山诚二郞（著）：《明代私人海上贸易的发展与漳州月港——月港“二十四将”的叛乱》。

[14]谢彬：《剿抚事宜议》，载崇祯《海澄县志》卷19，《艺文志四》。

[15]陈春声：《地方故事与国家历史——韩江中下游地域的社会变迁》，北京：三联书店2021年版。

[16]嘉靖《潮州府志》卷1，《地理志》。

[17]嘉靖《广东通志》卷66，《外志三·海寇》。

[18]李龄：《李宫詹文集》，《赠郡守陈侯荣擢序》，载《潮州耆旧集》卷1，清道光十九年（1839年）刻本，第13页。

[19]嘉靖《广东通志》卷66，《外志三·海寇》。

[20]康熙《澄海县志》卷19，《海氛》。

[21]《明世宗实录》卷566，《嘉靖四十五年十二月甲午》。

[22]崇祯《海澄县志》卷1，《舆地志·建置沿革·明李英请置县治疏》。

[23]李贤强、吴宏岐：《明代福建月港“二十四将”叛乱与设县问题再研究》。

[24]崇祯《海澄县志》卷1，《舆地志·建置沿革》。

[25]崇祯《海澄县志》卷9，《人物志二·椽吏》。

[26]崇祯《海澄县志》卷1，《舆地志·建置沿革》。

[27]崇祯《海澄县志》卷1，《舆地志·建置沿革·明李英请置县治疏》。文中个别字句因原书印刷不清而缺损者，依康熙《海澄县志》卷1所录该疏补正。康熙《海澄县志》卷1《舆地志·建置》和乾隆《海澄县志》卷21《艺文志》均录有《明李英请置县治疏》，但删节甚多。

[28]李金明：《明代后期海澄月港的开禁与督饷馆的设置》，载《海交史研究》1991年第2期。

[29]崇祯《海澄县志》卷1，《舆地志·建置沿革》。

[30]《明世宗实录》卷517，《嘉靖四十二年正月》。

[31]康熙《澄海县志》卷2，《建置》。

[32]康熙《澄海县志》卷首，《自序》。

[33]康熙《澄海县志》卷13，《名宦》。

[34]同上。

[35]林大春：《建澄海县城碑记》，载康熙《澄海县志》卷4，《城池》。

[36]顺治《潮州府志》卷1，《地书部·建置》；康熙《澄海县志》卷13，《名宦》。

[37]顺治《潮州府志》卷1，《地书部·建置》。

[38]陈自强：《论明代漳州月港的历史地位》，载《海交史研究》1983年第1期；李金明：《明代后期海澄月港的开禁与督饷馆的设置》；陈尚胜：《论明朝月港开放的局限性》，载《海交史研究》1996年第1期；郑有国、苏文菁：《明代中后期中国东南沿海与世界贸易体系——兼论月港“准贩东西洋”的意义》，载《福州大学学报（哲学社会科学版）》2009年第1期；陈博翼：《从月港到安海——泛海寇秩序与西荷冲突背景下的港口转移》，载《全球史评论》第12辑，北京：中国社会科学出版社2017年版。

[39]陈尚胜：《隆庆开海：明朝海外贸易政策的重大变革》，载《人民论坛》2018年第30期。

[40]张燮：《东西洋考》卷7，《饷税考》，明万历四十六年（1618年）刻本，第1—2页。

[41]周起元：《〈东西洋考〉序》，载张燮：《东西洋考》卷首。

[42]许孚远：《敬和堂集》圣部，《疏通海禁疏》，明万历二十七年（1599年）刻本，第20页。

[43]李金明：《明代后期海澄月港的开禁与督饷馆的设置》。

[44]张燮：《东西洋考》卷7，《饷税考》；王日根、苏惠萍：《隆庆开海与福建海洋区域贸易的国际化》，载赵轶峰、万明（主编）：《世界大变迁视角下的明代中国——国际学术研讨会论文集》，长春：吉林人民出版社2012年版。

[45]陈春声：《从“倭乱”到“迁海”——明末清初潮州地方动乱与乡村社会变迁》《地方故事与国家历史——韩江中下游地域的社会变迁》。

[46]郭子章：《潮中杂记》卷11，《国朝平寇考下》。

[47]陈天资：《东里志》卷2，《境事志·灾异》；郭子章：《潮中杂记》卷10，《国朝平寇考上》。

[48]康熙《澄海县志》卷19，《海氛》。

[49]同上。

[50]同上。

[51]同上。

[52]同上。

[53]同上。

[54]郭子章：《潮中杂记》卷11，《国朝平寇考下》。

[55]康熙《澄海县志》卷19，《海氛》。

[56]较小的“盗贼”团伙被招安的例子，如隆庆元年澄海大家井民陈世荣、余乾仁、连思恭等作乱，官府发兵进剿，“官兵擒斩首从贼连思恭、陈世业等二百二十二颗。余乾仁等残党负伤奔入大山避命，告称岁饥乏食，愚民无知，致干法纪，乞命招安。委潮阳县县丞丰汝登抚定，回还原土安插复业”。郭子章：《潮中杂记》卷11，《国朝平寇考下》。

[57]顺治《潮州府志》卷7，《兵事部·朱良宝林道乾之变》。

[58]康熙《澄海县志》卷19，《海氛》。

[59]陈春声：《地方故事与国家历史——韩江中下游地域的社会变迁》。

转自《开放时代》2026年第2期

2026-03-21
张怡雯：新耶稣会在华的地图编绘活动

明清间入华的耶稣会士是同时代欧洲人扩充有关中国及周边国家地理知识的重要推动者。自16世纪末起，耶稣会士利玛窦(Matthieu Ricci，1552—1610)、罗明坚(Michel Ruggieri，1543—1607)及其后继者介绍的中国地理知识以及绘制的中国地图，令欧洲人对中国地理的认识大为推进。①特别是1655年出版的卫匡国(Martino Martini，1614—1661)的《中国新图志》(Novus Atlas Sinensis)，成为欧洲第一部正式刊行的中国分省地图集，因其详细、准确的特点而广为流传。不过至此，欧洲人绘制的西式中国地图，只是依靠个别实测经纬度数据，结合推算得到的其他地点位置编绘而成。②清前期由耶稣会士主持实测而成的内府舆图，不仅对欧洲地理学影响深远，也使耶稣会士们在中国享有极高的声誉。但好景不长，耶稣会于1773年在西欧大部分地区遭到解散，1814年才得以复会。重建后的耶稣会(下文简称“新耶稣会”③)于1841年派出第一批传教士自法国启程前往中国。返华的新耶稣会士受益于明清间耶稣会士的盛名荫蔽，也迫切渴望继承、恢复和发展其前辈的学术声望。康雍乾时期耶稣会士在中国的测绘工作，是新耶稣会士既颇引以为傲，又觉难望其项背的洪业。因此，地图测绘的工作不仅具有现实意义，更是寄托了远绍明清间耶稣会学脉的向往。从现实需要的层面来说，新耶稣会士很早就违背条约的限制，深入内地活动，因此更需要准确、翔实的地图作为工作指南——这样的地图对于掌握教区的全貌，以便合理派遣人员、物资具有导览的意义。因此，地图编绘的需要在新耶稣会看来显得极为迫切。

因此，新耶稣会很早就将发展地理学与测绘技术纳入其野心勃勃的学术计划中去。1872年开始的“江南科学计划”是新耶稣会举办的最具影响力的学术研究计划。该计划凡举涉及科学、文化与宣教的四个具体项目④，地图的编绘事业即隶属其中一个子项目——中国史地工作的研究，包括研究教区历史、编写教士传记、重印教区报告以及绘制江南教区的详细地图，这项工作由费赖之(Louis Pfister，1833—1891)及其后学领导。另外，该项目催生的一项重要成果是由夏鸣雷(Henri Havret，1848一1901)领导的汉学研究工作，其杰出作品汇集在“汉学丛书”(Variétés Sinologiques)中。地图的出版与丛书的编写、发行互为表里，大量的新编地图依据丛书的出版需要而绘制，更有一些地图后来单行并名列丛书之中。

目前来说，学界对于以徐家汇观象台、震旦博物院以及“汉学丛书”为代表的科学文化事业已有比较集中的讨论⑤，但作为汉学研究的一部分，新耶稣会所制地图仅有若干单项成果受到关注⑥，对于这样一个卓有体系的地图编绘计划本身、有关此项计划的人事、制度与成果，目前尚未有专题研究问世。此外，当前地图学史的研究中少见针对某一系列地图的创作群体进行的整体研究。新耶稣会地图作者的身份与学术背景相对比较统一整饬，借此或可一窥近代西方测绘技术进入中国时来华西人团体所扮演的角色。

一、新耶稣会制图的类型与分期

新耶稣会在华绘制的地图，包含政区地图、交通地图、历史地图、教学地图等类型，在功能上上述几种类型有所交叉。这些地图中既有付印者，也有不少是未能付梓的手稿。除去绘制时代不可考的手绘地图，新耶稣会绘制的印刷地图面世的时间集中在1870年代至1940年代，最集中的时段是1870年代至1920年代。其中，就笔者所目验者共有47种，见表1。

(一)手绘时期

新耶稣会的地图编绘事业最早起步于一些反映小范围区域的手绘指南。事实上，明清时期的天主教传教士(无论何种修会)都习于草撰这些具有指南性质的地图。例如保存在欧洲的一张《松江府图》，据高华士(Noël Golvers)考证正是清初上海的意大利人潘国光(Franciscus Brancati，1607—1671)在一张明代中文舆图之上添绘教堂以及教务细则，由此制成的地图指南。⑦而在清中叶的屡次教案中，官府也常常能从被拘捕的教士身上搜到详细的堂区地图。出于同样的原因，清末来华的天主教传教士被派遣到中国后，也会以手绘草图的形式绘制各自负责区域的交通、水系甚或地籍图。

这一类堂区草图为数甚多，目前保留在上海图书馆的有68张⑧，大体上每一幅表现一个堂区的范围，每一堂区保有一张对应的草图。这一系列的特点是：开本较小，以铅笔手绘于白纸之上，一般没有坐标系、比例尺或图例，但符合西方地图的制图习惯，方向采用上北下南，注记以法文为主、间杂中文以相对照。作为传教地图，其特色在于着重标注天主教堂以及从城镇前往这些地点的交通方式，包括陆路与水路。这些地图的绘制与收藏细节于史无征，但我们可以合理推测，其绘制乃是出于教区或新耶稣会统一的指令，因此这批地图不仅图面内容细密周致而且在体例上相对统一。散布在各地的传教士完成绘制后，又通过耶稣会严密的讯息传递系统，将地图汇总到徐家汇耶稣会会院，最后入藏徐家汇藏书楼。

这些草图的绘制是出于便利传教的考虑，因此一经面世或藏于教士之手，或束之高阁，不为外人所知。但是，对于后来在徐家汇会院以及藏书楼从事地图编绘的后学来说，这批珍贵的手绘地图为填充局部地区的地理知识空白提供了极为细致的信息，也开启了后来各类印刷地图的先声。

(二)试印时期

晚清以来，新耶稣会在地图测绘方面并非执牛耳者，其涉足的时间也晚于在华外商及新教团体。要将上述这些临时草成且体例不一的手绘地图在更大视域范围下表达，并且能够付印以化身千万，才能使这些个人的零星工作得以广泛应用。这一赋予地图以生命力和表现力的重任，首先依赖于地图印刷技术的成熟；在新耶稣会制图事业中，地图印制技术早于地图测绘技术被引入中国。

新耶稣会制图的第一步，是尝试重印已有的中文地图。土山湾印书馆于19世纪70年代中叶引入石印印刷技术，用于印刷书籍以及教会宣传品等。不久后，石印术便被用来试印地图。据20世纪初人士的回忆，在1877—1885年，土山湾孤儿院的印刷车间尝试重印了一套非常详细的大比例尺地图，该图涉及的范围在杭州湾到镇江之间(包括崇明)。⑨目前收藏于上海图书馆的一套以计里画方法绘制的分县地图即是此次重印的成果之一。这套地图于1878—1879年在土山湾印制，表现范围包括苏州、松江、常州、镇江、太仓所辖县份，共有25张，作者署名“L.Pfister”(即费赖之)。这套地图的图面内容与绘图手法，绝类同治年间苏省舆地总局测绘的《苏省舆地图》，特别是这套舆图中的《苏松常镇太五里方舆图》⑩。作者又在图面上添绘了天主教堂与传教点的位置，以及前往这些地点的路线。(11)类似的还有同样印于1879年的《江南图》(12)，也是费赖之的作品。该图表现范围为清末的江苏、安徽两省(即“江南宗座代牧区”(13)的范围)，以方格网控制，分府设色。印刷时黑色线刻用油墨石印完成，设色部分为后期手工上色。费赖之此图，显然也参考了同治《苏省舆地图》系列的地图，或者是其中某张地图的缩绘。这些地图均为费赖之以《苏省舆地图》为底本改绘的一系列政区地图。此时的新耶稣会士，尚且不具备地图测绘的技术条件，而以摹绘、改绘既有的地图为工作核心，同时使用当时尚属简陋的土山湾石印设备，为后来更大范围的地图印刷做准备。

(三)编印时期

从1885年开始，自发的地图编绘工作在新耶稣会中展开。地图编绘事业在徐家汇的起步，有赖于两位重要的发起人，其一是夏鸣雷，另一位是初来中国不久的初学院修士陈士谦。作为“汉学丛书”的发起人，夏鸣雷所绘制的地图常常是他汉学作品的衍生品。例如，他所绘制的两幅总铎区地图——《崇明总铎区》和《海门》，缩绘后插入“汉学丛书”第一号的《崇明志》(14)作为附图。此外他还曾为《安徽省志》(15)一书绘制了一张安徽省全图，在当时被认为是最完善的安徽省地图。需要说明的是，有很长一段时间，夏鸣雷在崇明、海门两地传教，相比其同事他有更多实地踏勘的机会。表现崇明、海门的两张地图可能是夏鸣雷在旧地图的基础上，通过踏勘、访谈等方式如实表现了坍涨不定的崇海两地海岸线，还将1879年的海岸线以虚线标绘，以示对比。

相比夏鸣雷的“副业”，当时初来中国的陈士谦则全力投入，对此进行延展和补充。陈士谦，法国人，1875年入昂热(Angers)初学院，1884年于泽西岛(Jersey)神学院修完三年的哲学课程后即前往中国，于1885年10月抵达中国。之后他在徐家汇学习了一年中文与四年神哲学课程(1885—1890)，随后在海门、奉贤、浦东、虹口、苏州等地履职，曾任浦东与苏州总铎。(16)陈氏身后留存的地图，主要为总铎区地图，包括松江、浦东、苏州、常州、池州等区域，另外还有《安徽省图》(La Province du Ngan-hoei，1893)一张。这些地图的绘制时间集中在1885—1888年，正是他在徐家汇初学院学习中文与神学的四年。考虑到陈氏制图涉及范围广大，要在四年之内遍行、踏勘这些地区，远非一人之力可及；加之他当时初来中国、言语不通，实地测绘存在客观困难。事实上，陈氏所制地图，只有表现上海及其近郊的几幅地图是陈氏亲自测量所得，其余部分主要利用已出版的地图编绘而成，同时依靠“从他的许多同事那里得到的一些一手材料与信息”(17)以填充细部的地理知识。在《安徽省图》图幅右侧有一大段图注，说明了该图的绘制方法：选取的16个测绘点的经纬度均采用了杜赫德(Jean-Baptiste du Halde，1674—1743)《中华帝国全志》(Description géographique，historique，chronologique，politique et physique de l’Empire de la Chine et de la Tartarie chinoise)第四册的数据，对于扬子江的形态则是参考一系列海图，对于局部细节的填充则利用了在本省活动的同事所绘的手稿地图。(18)随着传教士逐渐深入安徽境内活动，他们对于该省局部地区的知识一点点充实起来，这一点亦表现于图幅之上。

(四)测绘时期

自19世纪90年代起，一些具备现代测绘知识的新耶稣会士开始使用简易的测绘工具，对小范围内局部区域进行实地测绘。此类工作是明清间耶稣会士测绘活动的延续。

实测地图中最有代表性的数1899年蔡尚质的《上江图》(19)。蔡尚质，字思达，1883年来上海，在徐家汇观象台负责授时部门的工作，历任徐家汇观象台、余山天文台台长。这部大比例尺长江上游地图集共有64张分图，装订为一册，于1899年由上海法商东方出版公司出版。为绘制此图，蔡尚质及两位中国助手于1897—1898年亲自游历长江上游地区、测定该区48个城市的经纬度。这一成果日后受到巴黎地理学会(Société de Géographie de Paris)的褒奖，并于1901年被该会授予奥古斯特·洛热罗奖(Auguste Logerot)(20)。蔡尚质因此成为最早受到这一学术团体嘉奖的新耶稣会士。

与《上江图》同时进行测绘的还有城市地图。1898年土山湾印刷所印制了一幅实测设色地图——《江宁省城图》。该图是当时长期居住在南京的耶稣会士方殿华对南京城市进行实地踏勘测绘而得。方殿华于1885年来华，曾执掌土山湾孤儿院，后于1889—1890年及1896—1899年两度在南京住院活动，其间对南京城郊进行测绘并展开系列研究。该图问世后，成为南京城市最早的实测地图。作为新耶稣会教士早期实地测绘的成果，这份地图被纳入“汉学丛书”，成为新耶稣会向欧洲学术界干谒的行卷之作。

作为新耶稣会科学事业的重心，徐家汇观象台对于地图测绘也提供了尽可能的帮助。徐家汇观象台在地理科学上负有盛名，它曾于1926年参加国际经度联测，并成为此次测量的三大测量基点之一。(21)但是据《一比二十万江苏省地图·序》陈述，1922年以前徐家汇观象台、余山天文台与箓葭浜地磁台之间就已布设了测地线网络。(22)以此为设施基础，制图者屠恩烈在绘制《一比二十万江苏省地图》的15年内(约1908—1924年)，就能够在徐家汇天文台的龙相齐神父帮助下，周行地图范围所及的区域，并测定其中主要地点的经纬度。(23)屠恩烈是法国人，于1908年来华；龙相齐是意大利人，1910年来华后负责徐家汇观象台的气象部和地震部，后来担任梵蒂冈科学院院士。两人合作完成的这份地图由8张开幅巨大的分图构成，使用照相制版印刷，色彩鲜艳、印刷精美。尤其难得的是，幅面巨大的地图系由原张摄影落石，并非拼合，可见当时土山湾地图印刷技术已经相当高超。这套地图出版后成为当时表现江苏省全境的比例尺最大的民用地图。

二、合纵与连横：新耶稣会地图测绘中的几个传统

新耶稣会返华后曾迫切收集关于中国的地理知识，而地理知识的最佳载体无疑是既有的中文地图。从徐家汇藏书楼旧藏舆图目录来看，新耶稣会从19世纪中叶开始即着意搜集当时流行的一些中文舆图；而一些图记也反映了当时新耶稣会士收藏有包括湖北抚署刊刻的《大清一统舆图》(24)在内的流传颇广的中文舆图。有意思的是，他们手中掌有的那些自欧洲出发之时即引以为指南的西文地图，其中对中国的描绘，也大多出自康雍乾三大内府舆图的谱系。徐家汇藏书楼旧藏中有一幅1842年在巴黎出版的《中国地图》(Carte de la Chine)(25)，此图即小毕欧(Édouard Biot，1803一1850)《中国古今地名词典》(Dictionnaire des noms anciens et modernes des villes et arrondissements de l’empire chinois，1842)一书附录。据小毕欧自序所言，此图是对德国东方学家柯恒儒(Julius von Klaproth，1783—1835)的中亚地图进行校正、订补后的结果(26)。而柯恒儒对中国的地理知识毫无疑问直接来自康乾时期耶稣会士的测绘成果，今天法国国家图书馆仍然保存了他个人收藏过的康熙《皇舆全览图》的分图(27)。小毕欧的这张地图，很可能被早期来华的新耶稣会士视为指南，因而成为徐家汇藏书楼的藏品。相比晚清时期坊间的地图编绘者来说，新耶稣会地图编绘者掌握有从清代三大图衍生而来的中、外两个谱系的系列地图。在编绘自己的地图时，如何选取底本，就成为颇费思量的事。

新耶稣会于1876年印制了一张木版水印设色的中文地图《江苏、安徽两省图》(28)，这是目前可见该会最早制作的江苏、安徽两省地图，后来成为新耶稣会所制众多江苏、安徽地图的母本。然而，这张图近乎是对1735年《中华帝国全志》中唐维尔(Jean-Baptiste Bourguignon d’Anville，1697—1782)所制的江南省图的再版，唯将原图的法文改为中文，并在安徽、江苏之间添绘省界，再补充长江河道上的沙洲分布现状。(29)到1888年，《安徽省图》的作者陈士谦在“图说”中坦言，自己的工作主要依靠的是《中华帝国全志》中唐维尔所制的地图，而非内府舆图在中国衍生的地图。在中外地图可以兼得的情况下，新耶稣会倾向使用西方传统的地图。同样，在由蔡尚质编绘、徐家汇天主堂承印的《皇朝直省地舆全图》中也有类似线索。该图为19世纪末至20世纪初持续出版的一系列中文全国舆图，有1887年(30)、1893年(31)、1904年(32)等多个版本。这一系列地图采用了晚清时期流行的中文全国舆图惯用的名称，据林宏判断，其系谱也传承自康雍乾三朝内府舆地图，但该系列地图采用的绘图技法却是西式的，乃是依据唐维尔一系已经“西方化”了的中国全图改绘而成。林宏将其归类为“中译西图”的一种。(33)

直到20世纪20年代，屠恩烈在测绘大比例尺江苏地图时，由于缺乏较好的实测点，他仍然选用杜赫德《中华帝国全志》中附录的清初耶稣会士绘制内府舆图时采用的测绘点(34)，加上部分小毕欧在《中国古今地名词典》中列出的测绘点，以此为基础对经纬度数据进行校正。需要说明的是，《中华帝国全志》所附测绘点的经纬度数据并非全部由实测得到，其中亦有推算所得；而所列经度值则更多由推算得到。(35)小毕欧是法国著名物理学家毕欧(Jean-Baptiste Biot，1774—1862)之子，早年曾经营铁路公司，后追随儒莲(Stanislas Julien，1797—1873)学习中国语言和历史，并于1835—1850年出版了多部中国研究的作品，又于1842年与1847年成为法国金石与美文学院成员。(36)小毕欧本人从未踏足亚洲，此书中列出的中国各城市经纬度数据，乃是依据一系列清初耶稣会中国地图所衍生的西文地图以及19世纪上半叶的航海图推算得出，并非实测所得。尽管屠恩烈明知以上两个经纬度数据并非全部由实测所得，并且在他的时代，这一区域已有不少民用、商用的实测地图出版(例如1907年商务印书馆编印《江苏省全图》(37)、1908年美华书馆制《江苏省全图》(38)、1908年商务印书馆制《安徽省全图》(39)系列地图，类似的分省地图还有1908年由美国内地会绘制的《中国地图》(40))，不仅制作精美而且印量很大、流传颇广，屠氏编绘自己的地图时，或者并未参考(未见于参考目录)或者避而不谈，仍然执着于承继明清间耶稣会地图测绘的学脉。

显然，新耶稣会传教士以明清间耶稣会士的后继者自居，特别在“科学传教”的理念上刻意效仿前贤。由于这种内在传统的存在，新耶稣会制图选用的基础资料，被认为理所应当地以明清耶稣会士的作品为首选。而明清间耶稣会士的成果确也在两百年后为其后人留有余泽。当时，不仅会内人士将这份工作视为向明清间耶稣会士的致敬之举，教外人士也习惯性地将他们的工作视为对其前辈工作的延续。在《上江图》出版不久后，法国博物学家福威勒(Albert-Auguste Fauvel，1851—1909)在法国地理学会《地理年鉴》(Annales de Géographie)撰文，评价此书称“我们博学的徐家汇天文台台长所绘的这张图，无疑是对路易十四时代博学的耶稣会士所绘的中国大地图的补充。”(41)

然而时隔百年，时移势迁，尽管明清间耶稣会的遗泽犹在，但地理知识的扩展毕竟不能止步不前。尽管常常为新耶稣会所回避，不可否认的是，清末地理大测绘背景下由中国人自主自发编绘的舆图，常常作为地理知识的来源被汲取到新编地图中。前文曾提及，19世纪70年代由费赖之绘制的江苏省传教地图，包括1878—1879年绘制的众多分县地图以及1879年印刷的《江南图》，更多地依凭由苏省舆图总局绘制的《苏省舆地图》系列地图。《苏省舆地图》于同治二年(1863)开始绘制，技术上仍然使用传统的计里画方，即制定边长为二里半的网格，将踏勘所得的地理要素填入相应网格中。(42)相比以康乾内府舆图为底本改绘的《大清一统舆图》系列地图，这套图的绘制过程几乎没有西方测绘技术或制图方法的介入。这套地图初刊于同治七年(1868)，直到1884年上海点石斋重印之前，未见有民用或商用的重印本(43)，但在其初印十年之后，新耶稣会传教士不仅获取了该图之全帙，甚至已经将自行摹绘的地图付印，对于这套地图的搜集和利用，不可谓不速。

值得一提的是，作为《苏省舆地图》纂订的李凤苞是苏省舆图总局的核心成员之一，而新耶稣会士与他的交集早在其发迹之前。李凤苞籍贯崇明，崇明是江南宗座代牧区教务最为发达的地区之一，从1842年起就由新耶稣会派遣神父常驻崇明。李凤苞早年通习外语、精于测绘，高龙鞶(Auguste Colombel，1833—1905)称他于1860年与崇明驻堂神父平乃公(Hubert Pingrenon，1820—1863)相识。(44)后来李凤苞以准望法独立绘制《崇明图》，因此受丁日昌器重而荐于曾国藩，遂被延入苏省舆图总局参与《苏省舆地图》(1868)的测绘，是舆图局的核心成员。(45)尽管李凤苞晚年绝少提及其早年的求学生涯，更无从得知其与新耶稣会士的交往细节，但仍然可以推测，李凤苞与西士在制图上有过一些互动，很有可能费赖之制图所依据的《苏省舆地图》正是通过李凤苞的途径获取。《苏省舆地图》作为江苏省域地图中最好的先行成果，成为新耶稣会制作江南教区以及府、州、县地图最重要的底本。因此，在1922年屠恩烈的《一比二十万江苏省地图》出版的序言里，他必须辩称“冒着抄袭李凤苞作品的风险，我们的传教士想尽办法打开了新局面”(46)。由此可见，以《苏省舆地图》为代表的中国当代测绘舆图，也是新耶稣会制图时无法绕过的。至此可以看到，来自两种传统的地理知识在耶稣会制图活动中逐渐合拢。

三、行走与感知：地图编绘中的地方性知识

与19世纪、20世纪来华的地理探险家一样，深入中国进行实地踏勘的新耶稣会地图编绘者，有许多机会与当地人交流并交换“地方性知识”(local knowledge)(47)。这些地图的作者，以西人为绝大多数，作为文化中的“他者”对中国的部分区域进行观察与解读，他们对地方性知识能够以“他者”之眼进行审视、记录与批判。传教士旅居异国、在地纂集“地方性知识”这种学术特点，使其成为“侨居地汉学家”的代表。(48)这一提法既反映其研究方法、旨趣与学术背景同学院派之间的畛域，也昭示其获取地方性知识的便利之境。与其他的天主教修会一样，当其面临文化差异的困境时，新耶稣会汉学家首先想到研治有关历史、地理、语言、风俗、宗教的知识，而这些知识恰为更为专业的学院派汉学研究提供基础，构成“汉学生产链”的上游。(49)地图测绘正是这个上游生产链的关键环节，成为承载地方性知识的载体。身兼汉学家与制图者的一些新耶稣会士在其绘制的地图中，常常急不可耐地试图展现完成这份作品时意外收获的地域性知识。通过地图编绘的谱系，可以反映新耶稣会在地收集、整理、编研地方性知识的痕迹。

屠恩烈在《一比二十万江苏省地图》序言中提到关于崇明、海门及如皋等地方向感的问题：

若我们浏览1号和4号分图，我们可以观察到，崇明岛的走向总体是西北—东南。然而，居民们认为这个岛是东西向的，所以他们开凿的垂直于这个方向的运河被认为是南北向的。他们的房屋也是同样，然而实际上是朝向西南的。

当这个岛的居民前往海门东边新涨的土地上进行开发时(这块土地仍然是崇明县的一部分)，他们开凿运河与建造房屋的方向与在岛上一致。

……当我们离开此地、进入海门境内(准确地说是南通)，这一偏差被纠正了。那里流行的南北走向接近罗盘指示的南北经线，偏离值缩小了(大约3°)。

当人们进入如皋西部，相反的情形就会出现。如皋城朝向东南，它的居民们就以城门的朝向为基准，他们一般认为的南北走向与崇明人认为的南北走向之间形成了一个夹角：大约有70°的偏差。

值得注意的是，人们都知道太阳的运行与他们以为的南北方向并不协同。如果他们有一个摆钟，这个钟不会在他们所谓的正午时分敲响；他们吃饭的时间随着这个假定的方向改变：在如皋，人们在十一点半吃饭，在崇明是一点到一点半吃饭。(50)

屠恩烈着手开展的科学测绘与关于方位的地方性知识之间出现了严重对立。尽管已经到了20世纪20年代，科学测绘的成果与徐家汇观象台的授时制度均尚未惠及崇明、海门的普通居民。屠恩烈作出这一说明，不仅仅是作为旅居的西方人抱有“猎奇”心态而陈述的地方性知识，也是一种为地方性知识纠偏的尝试。

除此之外，大量的地方性知识是通过收集、阅读地方文献来获取的。上海徐家汇藏书楼曾以收藏大量地方志闻名，这些珍藏乃因各地教士在地方上悉心搜罗所致。对这些地方文献的搜集与研读催生了包括地图在内的汉学作品，其中不少收录在“汉学丛书”中。方殿华就是“汉学丛书”一位活跃的供稿者。(51)方殿华收录于“汉学丛书”的作品中就有三种与南京城市史有关，而该系研究构成了方氏一个野心勃勃的古都研究计划。(52)方殿华早年习绘画，具备文学与艺术修养。他于1895—1899年在南京任职，其间对南京的历史产生了浓厚的兴趣，在几位南京住院的华籍神学修士的帮助下收集文献、绘图、拍照，并实地踏勘、寻访古迹。访古需要一张南京地图，作为一系列南京历史专题研究的工作基础。(53)在此之前，方殿华已经收集了一些中国人绘制的南京城市地图，但他认为这些地图“均为示意图，它们所表现的距离、尺寸、角度误差都很大，只有地名信息是可靠的”，因此自行测绘了一张《江宁府城图》。徐家汇藏书楼旧藏中就有一幅被方殿华指为“示意图”的《金陵省城全图》。该图为版刻墨印地图，以传统绘图法绘制，内容与大英图书馆藏咸同年间所绘《江宁省城图》(54)一致，应为翻刻后者之作。值得注意的是，这张地图以墨色阳文标注今地名，以阴刻文字标注六朝以来的诸多古迹，并附有释文，实际上是一张古今对照的历史地图。有关南京名胜古迹的元素最早出现在晚清文人雅集的图卷上，后来被众多南京城市地图吸纳，流行一时。(55)一般读者很容易就能购得此类地图作为指南，有关古迹名胜的知识也因此流传。收藏于徐家汇藏书楼的这张南京地图很有可能由方氏本人购得后入藏教区的南京住院。方殿华尝试对南京城市历史展开研究时，观摩比照的正是这张地图。不同谱系的南京城市地图不约而同地为读者指出南京的斑驳历史，这种现象足以唤起一位富有艺术修养的欧洲人的怀古幽情，成为方氏考证古迹位置并实地踏勘，同时促使他测绘第一张南京城市地图的动因。

然而，地方性知识若只停留于本地人与研究者的感知中，正如人类学家与民俗学者所辨析的那样，它的普遍性意义便难于凸显。通过新耶稣会汉学家的著作出版以及同学界的密切互动，借由地图表达的地方性知识也进入了英美汉学的场域中。以夏鸣雷编绘的《安徽省图》为例。该图是夏氏著作《安徽省志》的附图，地图施以石印套色，最为显著的特征是突出道路交通要素。夏鸣雷长期在安徽省活动(56)，此书乃是他应皇家亚洲文会北华支会的邀请而编写的。本书的前言收录了一份皇家亚洲文会于1890年2月向会员发出的邀请函，请求受邀者在其作品中收集中国各省的道路与交通方式，特别说明需记录以下几点：1.主要道路；2.古代道路；3.桥梁、隧道；4.商贸干道；5.运输方式；6.运速和运费；7.道路安全；8.沿路食宿以及这些道路上承运的旅客、货物数量等。尽管夏雷鸣并非皇家亚洲文会会员，但当日的徐家汇观象台以团体身份加入此会(57)，并收取该会会刊。这份邀请函极有可能是皇家亚洲文会向徐家汇观象台发出的。信件最后恳请受邀人尽可能在当年9月之前将上述信息搜集完毕并寄往文会。(58)收到邀请后夏鸣雷即着手搜集安徽省的资料。在完成文会的任务之后，他将这笔资料另加裒辑，于1893年成书出版。而插入这本书的《安徽省图》，也是应文会的要求，详细描绘了安徽省内水路要道与客运、货运详情，此图被教会史家称赞为当时“最完善的安徽地图”(59)。王皓发现皇家亚洲文会北华支会、新耶稣会都与欧洲汉学界保持密切的往来与互动，三者共同构成了汉学研究的开放场域。在《安徽省志》与《安徽省图》的案例中，可以看到基于新耶稣会士的民族志调查获取的地方性知识在这一开放场域中的迅捷流动。身处中国的新耶稣会汉学家对地方性知识的收集、整编活动引起了皇家亚洲文会北华支会的关注与持续跟进，故有邀请撰文之事，遂促成了这部汉学作品与相关地图的问世。

四、结论

案诸史籍，在华履职的新耶稣会士们，尽管具备现代测绘的基本知识，但并未接受专业的测绘训练(60)，地图编绘的事业起步于零星的、感性的个人工作。然而这些基于个体经验的地理知识，通过各种信息传递渠道汇总于一端，加上“急就章”式的技术训练，依然能编、测、出版发行一系列数量不菲的地图。地图编绘事业系由许多教士合力按照一系列前后相继的计划展开，非倚一人之力，非图一时之功。时人评价新耶稣会的地图测绘工作称，“由于一系列地理学家的合作，我们的后人将拥有一张几乎没有错讹的地图。”可以说，“集腋成裘”是对新耶稣会地图编绘活动最好的概括。

遗憾的是，就其影响力而言，新耶稣会所制地图主要的受众依然是传教士以及欧洲其他读者，当时大部分的中国人极少获知这些地图的存在。个中缘由至少有二。其一，作为“江南科学计划”的子项目之一，其出发点正是在于为欧洲服务，相对忽略了中国社会的内在需求(61)，其成果多为法文或中法对照出版，语言的横亘令一般中国读者对此望而却步。其二，新耶稣会在华的汉学与科学研究事业，毕竟没有真正成功地进入欧洲学术界的中心(62)，当这类在地研究的资料传到欧洲以后，并没有化生为具有影响力的成果“反哺”中国，因此，中国学界不知其名也是理所当然。出于同样的原因，这些地图在中国国内公私机构少有收藏，在中国的社会影响力可见一斑。并且，新耶稣会制图的鼎盛期非常短暂，仅在19世纪70年代到20世纪初呈现蒸蒸日上之势，各种类型、数量甚多的地图不断问世，其中不乏交通地图、教学地图等极具市场价值的出版物。但在20世纪30年代以后，新耶稣会制图的重点转向单一的传教地图，一度具有开拓性的外向型出版机构出现了严重内缩。比较之下可以发现，新耶稣会展开对中国测绘工作的时间，比英法军事测绘地图稍晚一些(63)，却比中国自发的民用地图测绘稍早一些，正处在制图技术已经传入中国但商业地图市场尚未开拓的阶段。新耶稣会在地图编绘上的优势在于，能够在“地方性知识”的收集与整理方面占有极佳的地利因素——身处各地的耶稣会士在本职工作之余有充足的机会进行实地踏勘并且“在地”收集地理信息、获取地方性知识。所以表现在地图质量上，新耶稣会地图所呈现的地理信息比英法军事地图更为详密，而覆盖的范围又比当时的商业地图更为广泛，这一切都归功于该团体早期深入中国活动赢得的“地利”优势。然而在戊戌以后，西方地理学知识输入中国的速度增快(64)，引起了中国广大民众对地理知识的重视与渴求，在此背景下，民用的地图编绘与出版随之快速发展起来。随着中国本地测绘事业的兴起，新耶稣会制图的地利优势逐渐被抹平。这也是何以新耶稣会制图在19世纪七八十年代到20世纪初叶昙花一现，而后归于沉寂的原因。

本文在资料搜集过程中蒙傅林祥、徐锦华老师惠赠相关资料，草成后又蒙韩昭庆、潘晟、林宏、庄宏忠以及《国际汉学》外审与编辑部专家提出中肯的修改意见，谨致谢忱。

注释：

①孟德卫(David E.Mungello)著，陈怡译：《奇异的国度：耶稣会适应政策及汉学的起源》(Curious Land:Jesuit Accommodation and the Origins of Sinology)，郑州：大象出版社，2010年，第24—25页。

②林宏：《卫匡国〈中国新图志〉经纬度数据的来源》，载《中国历史地理论丛》2022年第1期，第29—43页。

③需要说明的是，“新耶稣会”并非这一修会的自称，而是作者为讨论之便采用的他称。在西文著述中，作者对于复会后的耶稣会有不同称法，未能统一，或称其为“恢复后的耶稣会”(Restored Society)，或为“新耶稣会”(New Society of Jesus)。前者强调它与前身的延续性，后者强调其新创的特征。另外，还有隐去这种“断裂还是延续”争议的表达，如“近代的耶稣会”(Modern Society)。概言之，种种不同的表述的目的无他，只为区分中歇导致这一团体在历史上裂变成的两个行为主体。在中文学界，李天纲率先对这一修会进行研究并采用“新耶稣会”一词。后续的前行研究亦多采用“新耶稣会”这一术语。

④史式徽(J.de la Servière)著，天主教上海教区史料译写组译：《江南传教史》第2卷(Histoire de la mission du Kiangnan.Jésuites de la province de France〈Paris〉，1840—1899)，上海：上海译文出版社，1983年，第207页。

⑤例如，李天纲：《新耶稣会与徐家汇文化事业》，见《文化上海》，上海：上海教育出版社，1998年，第165—187页，张伟、张晓依：《遥望土山湾：追寻消逝的文脉》，上海：同济大学出版社，2012年，第35—36页；王国强：《黄伯禄与徐伯愚：最早获得儒莲奖的中国人》，载《国际汉学》2017年第4期，第127—132页；王皓：《新耶稣会与近代中西学术》，博士学位论文，复旦大学文史研究院，2017年；莫为：《近代徐家汇的本地化知识生产实践：以1923年土山湾印书馆书目表为例》，载《澳门理工学报(人文社会科学版)》2020年第2期，第100一110页。

⑥例如，曹胜梅：《从徐家汇教堂到佘山教堂的公路》，载《档案春秋》2005年第1期，第47—48页；陈刚：《晚清南京城市景观研究：基于〈江宁府城图〉与〈陆师学堂新测金陵省城全图〉的研究》，载《中国古都研究》第33辑，2017年，第83—106页。

⑦Noël Golvers,”Jesuit Cartographers in China:Francesco Brancati,S.J.,and the Map(1661?) of Sungchiang Prefecture(Shanghai),” Imago Mundi 52(2000):30-42.

⑧上海图书馆藏本，索书号：#YTH1509-1576。

⑨“Introduction,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,p.1.

⑩蒙林宏老师告知，谨致谢忱。

(11)法国汉学家考狄(Henri Cordier，1849—1925)是费赖之的朋友，亦曾寓目此套手绘地图。在为费赖之撰写的讣告中，他将这套地图视为费赖之的未出版作品。参见考狄为费赖之所撰之讣告”Nécrology:Aloys Pfister,” T’oung-pao 2(1891):464。

(12)上海图书馆藏本，索书号#YTH328。

(13)“江南宗座代牧区”成立于1856年，辖境为江苏、安徽两省全境。代牧区委托耶稣会法国省代为管理。

(14)Henri Havret,L’île de Tsong-ming,à l’embouchure du Yang-tse-kiang.Chang-hai:T’ousè-wè,1892,pp.48-49。本页插图与崇明、海门两张单行地图类似，图上绘出历史时期海岸线的位置。

(15)Henri Havret,La Province du Ngan-Hoei.Chang-hai:T’ou-sè-wè,1893.

(16)”Nécrologie:Le P.Auguste Pierre,” Relations de Chine(Paris) 1(1911):57.

(17)”Introduction,” Henry Dugout,Carte de la province du kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,p.1.

(18)Mission de la Compagnie de Jésus au Kiang-Nan,Essai de carte de la province du Ngan-Hoei.Shanghai:Zi-ka-wei,1888.法国国家图书馆藏本，收藏号：GED-7289.

(19)Stanislas Chevalier,Le haut Yang-tse de I-tchang fou à P’ing-chan hien en 1897-1898:voyage et description./Complément de l’Atlas du haut Yang-tse.Shanghai:Impr.de la Presse orientale,1899.

(20)Répertoire des prix de ta Société de géographie:1829-2004.Paris:Société de géographie,2004.

(21)吴燕：《近代科学地域扩张背景下的国际经度联测：以中国境内的测量为中心》，载《自然科学史研究》2011年第4期，第417—434页。

(22)”Introduction,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,p.3.

(23)”Préface de l’ouvrage complet,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,pp.5-6.

(24)胡林翼监制，邹世诒等编制，严树森修订：《大清一统舆图》(又名《皇朝中外一统舆图》)，清同治二年(1863)湖北抚署景恒楼刊本。李孝聪指出此图乃根据康熙、乾隆两实测内府舆图编制，发行后流传甚广，使清初测绘地图的成果终于能为一般人所应用，成为许多晚清编制的中国地图的基础。在新耶稣会所制《安徽省图》图记中提到这份地图，称“由老耶稣会神父绘制的中国(与周边国家的)地图在武昌府以分卷的形式重印了(1863)，这份资料与我们依据的唐维尔地图几乎没有差别”。以故新耶稣会仍然采用杜赫德所列城市的经纬度并且参考唐维尔所制地图，以完成自己的工作。参见Mission de la Compagnie de Jésus au Kiang-Nan,Essai de carte de la province du Ngan-Hoei，法国国家图书馆藏本，收藏号：GED-7289。

(25)上海图书馆藏本，索书号：#YTH1505。

(26)”Avertissement,” Edouard Biot,Dictionnaire des noms anciens et modernes des villes et arrondissements de l’empire chinois.Paris:L’imprimerie royale,1842,p.3.

(27)参见法国国家图书馆网站的柯恒儒页面，http://gffgg0670cc2224fe4612sb6n9uck0p00f6q0o.fgzb.hbpu.wttczd-86544418598.com/fr/11909814/julius_von_klaproth/，最后访问日期：2024年1月28日。

(28)法国国家图书馆藏本，收藏号：GE C-3589。参见法国国家图书馆网站：http://gffgg495e1090562e4458sb6n9uck0p00f6q0o.fgzb.hbpu.wttczd-86544418598.com/ark:/12148/btv1b530619804/fl.item，最后访问日期：2024年1月28日。该图收录谢国兴、陈宗仁主编：《地舆纵览：法国国家图书馆藏中文舆图》，台北：“中央研究院”，2018年，第176—177页。

(29)法国国家图书馆藏本，收藏号：CPL GE DD-2987(7197)。参见法国国家图书馆网站：http://gffgg495e1090562e4458sb6n9uck0p00f6q0o.fgzb.hbpu.wttczd-86544418598.com/ark:/12148/btv1b5963065k?rk=42918；4，最后访问日期：2024年1月28日。

(30)美国国会图书馆藏本，收藏号：gm71005103。

(31)法国国家图书馆藏本，收藏号：GE C-18215。此图流传甚广。

(32)法国国家图书馆藏本，收藏号：GE F CARTE-6692。

(33)林宏：《中西长江口地理知识及地图绘制(10世纪中叶至20世纪初)》，博士学位论文，复旦大学历史地理研究中心，2016年，第128—730页。

(34)按：其中经度值由推算得到的尤其多。

(35)汪前进：《〈皇舆全览图〉测绘研究》，中国科学院自然科学史研究所博士学位论文，1990年。

(36)Karine Chemla,”L’histoire des sciences dans la sinologie des débuts du XIXe siècle:Les Biot père et fils,” Jean-Pierre Abel-Rémusat et ses successeurs.Deux cents ans de sinologie française en France et en Chine.Pierre-Etienne Will and Michel Zink eds..Pairs:Académie des Inscriptions et Belles-Lettres,2020,p.411.

(37)北京图书馆善本特藏部舆图组编：《舆图要录：北京图书馆藏6827种中外文古旧地图目录》，北京：北京图书馆出版社，1997年，第297页。

(38)同上。

(39)同上，第324页。

(40)北京图书馆善本特藏部舆图组编：《舆图要录：北京图书馆藏6827种中外文古旧地图目录》，第501页。

(41)A.A.Fauvel,”L’atlas du Haut Yang-Tse du père Chevalier,” Annales dP Géographie,t.9,n.45(1900):259-262.

(42)满志敏主编：《上海地区城市、聚落和水网空间结构演变》，上海：上海辞书出版社，2013年，第111一112页；王一帆、张佳静：《同治初年江南地区地形测绘研究》，载《中国科技史杂志》2016年第2期，第174—188页。

(43)其间只有同治十二年(1873)刻印的《江苏省五里方图》，见北京图书馆善本特藏部舆图组编：《舆图要录：北京图书馆藏6827种中外文古旧地图目录》，第297页。

(44)高龙鞶著，周士良译：《江南传教史》(Histoire de la mission du Kiang-nan)第5册，新北：辅仁大学出版社，2018年，第7页。

(45)黄宪清：《李凤苞行状》，载《半弓居文集》，上海：上海社会科学院出版社，2015年，第63页。

(46)”Introduction,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,1922,p.3

(47)格尔茨(Clifford Geertz，1926—2006)在《地方性知识》(Local Knowledge：Further Essays in Interpretive Anthropology)一书中首先提出这一概念，与具有一般意义的“普遍性知识”相对。这一概念强调知识产生的特定历史背景和情境。近期学者使用的关于新耶稣会的“地域性知识”以及“本地化生产”的知识等概念皆同此义。

(48)王国强：《〈中国评论〉(1872—1901)与西方汉学》，上海：上海书店出版社，2010年，第122—123页；王皓：《试论十九世纪后期欧洲汉学界的结构与特征》，载《中国文化研究》2020年夏之卷，第167—180页。

(49)王皓：《新耶稣会与近代中西学术》，第121页。

(50)”Préface,” Henry Dugout,Carte de la province du Kiang-Sou au 200000e.Changhai:T’ou-sè-wè,pp.7-8.

(51)方殿华与夏鸣雷同为“汉学丛书”的发起人，但学界所知较多的是夏氏的贡献，却未曾注意到方氏的开基之功。参见”Nécrologie:Le Père Henri Havret,” Lettres de Jersey(1902):213-230.

(52)方殿华对南京的研究集结为三种，包括南京最早的实测城市地图《江宁府城图》(Plan de Nankin，1898)以及《南京今昔：开放口岸》(Nankin d’alors et d’aujour d’hui:Nankin port ouvert,1901)、《南京今昔：历史地理》(Nankin d’alors et d’aujour d’hui:Aperçu historique et géographique,1903)两部专著。

(53)”Nécrologie:Le P.Louis Gaillard,” Lettres de Jersey(1901):129-148.

(54)咸同年间朱墨双色套印地图，大英图书馆藏。参见胡阿祥、范毅军、陈刚主编：《南京古旧地图集》，南京：凤凰出版社，2018年，第246页。

(55)钟翀指出，描绘南京名胜古迹的创作思想在南京城的制图史上有着长期的渊源，其蓝本可以追溯到同治三年(1864)邓启贤、邓启昌兄弟与何绍基等文人雅集时所绘之图卷。参见钟翀：《“金陵省城古迹全图”考辨》，载《艺术市场》2021年7月，第69—73页。

(56)”Nécrologie:Le Père Henri Havret,” Lettres de Jersey(1902):213-230.

(57)王毅：《皇家亚洲文会北中国支会研究》，上海：上海书店出版社，2005年，第40页。王毅认为这些团体会员不同于个人会员，只是为了获取会刊加入该会，不参与文会的其他任何活动。

(58)”Avertissement,” Henri Havret,La Province du Ngan-Hoei.Shanghai:T’ou-sè-wè,1893,p.1.

(59)高龙鞶著，周士良译：《江南传教史》第5册，第8页。

(60)例如《上江图》的作者蔡尚质，他的科学素养基本得自自学，特别是他的数学知识有限，这也导致他日后几乎所有作品都受到针对这种缺陷的批评。(Cent ans sur le Fleuve Bleu,une mission des Jésuites.hanghai:T’ou-sè-wè,1942,p.153.)

(61)李天纲：《新耶稣会与徐家汇文化事业》，见《文化上海》，上海：上海教育出版社，1998年，第165—187页。

(62)随着欧洲学院派汉学的诞生，传教士汉学不可避免地被挤向欧洲主流学界的边缘。参见王皓：《新耶稣会与近代中西学术》，第171—174页。

(63)例如在新耶稣会尤为着力研究的苏南地区，早在19世纪60年代就有基于测绘的“戈登地图”(Military Plan of the Country Around Shanghai from Surveys Made in 1862,1863,1864,1865)问世。该图是太平天国时期，为英国人戈登(Col.Gordon)所率领的“洋枪队”实施军事行动而绘制的军事地图。澳大利亚国家图书馆藏本，收藏号：MAP RM 372。

(64)邹振环：《晚清西方地理学在中国》，上海：上海古籍出版社，2000年，第206页。

转自《国际汉学》(京)2025年第5期

2026-03-19
李飞飞等：Agent AI: Surveying the Horizons of Multimodal Interaction

Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei1, Jianfeng Gao

Figure 1: Overview of an Agent AI system that can perceive and act in different domains and applications. Agent AI is emerging as a promising avenue toward Artiﬁcial General Intelligence (AGI). Agent AI training has demonstrated the capacity for multi-modal understanding in the physical world. It provides a framework for reality-agnostic training by leveraging generative AI alongside multiple independent data sources. Large foundation models trained for agent and action-related tasks can be applied to physical and virtual worlds when trained on cross-reality data. We present the general overview of an Agent AI system that can perceive and act in many different domains and applications, possibly serving as a route towards AGI using an agent paradigm.

ABSTRACT

Multi-modal AI systems will likely become a ubiquitous presence in our everyday lives. A promising approach to making these systems more interactive is to embody them as agents within physical and virtual environments. At present, systems leverage existing foundation models as the basic building blocks for the creation of embodied agents. Embedding agents within such environments facilitates the ability of models to process and interpret visual and contextual data, which is critical for the creation of more sophisticated and context-aware AI systems. For example, a system that can perceive user actions, human behavior, environmental objects, audio expressions, and the collective sentiment of a scene can be used to inform and direct agent responses within the given environment. To accelerate research on agent-based multimodal intelligence, we deﬁne “Agent AI” as a class of interactive systems that can perceive visual stimuli, language inputs, and other environmentally-grounded data, and can produce meaningful embodied actions. In particular, we explore systems that aim to improve agents based on next-embodied action prediction by incorporating external knowledge, multi-sensory inputs, and human feedback. We argue that by developing agentic AI systems in grounded environments, one can also mitigate the hallucinations of large foundation models and their tendency to generate environmentally incorrect outputs. The emerging ﬁeld of Agent AI subsumes the broader embodied and agentic aspects of multimodal interactions. Beyond agents acting and interacting in the physical world, we envision a future where people can easily create any virtual reality or simulated scene and interact with agents embodied within the virtual environment.

Contents
1 Introduction
1.1 Motivation
1.2 Background
1.3 Overview
2 Agent AI Integration
2.1 Infinite AI agent
2.2 Agent AI with Large Foundation Models
2.2.1 Hallucinations
2.2.2 Biases and Inclusivity
2.2.3 Data Privacy and Usage
2.2.4 Interpret ability and Explain ability
2.2.5 Inference Augmentation
2.2.6 Regulation
2.3 Agent AI for Emergent Abilities
3 Agent AI Paradigm
3.1 LLMs and VLMs
3.2 Agent Transformer Definition
3.3 Agent Transformer Creation
4 Agent AI Learning
4.1 Strategy and Mechanism
4.1.1 Reinforcement Learning(RL)
4.1.2 Imitation Learning(IL)
4.1.3 Traditional RGB
4.1.4 In-context Learning
4.1.5 Optimization in the Agent System
4.2 Agent Systems(zero-shot and few-shot level)
4.2.1 Agent Modules
4.2.2 Agent Infrastructure
4.3 Agentic Foundation Models(pretraining and fine tune level)
5 Agent AI Categorization
5.1 Generalist Agent Areas
5.2 Embodied Agents
5.2.1 Action Agents
5.2.2 Interactive Agents
5.3 Simulation and Environments Agents
5.4 Generative Agents
5.4.1 AR/VR/mixed-reality Agents
5.5 Knowledge and Logical Inference Agents
5.5.1 Knowledge Agent
5.5.2 Logic Agents
5.5.3 Agents for Emotional Reasoning
5.5.4 Neuro-Symbolic Agents
5.6 LLMs and VLMs Agent
6 Agent AI Application Tasks
6.1 Agents for Gaming
6.1.1 NPC Behavior
6.1.2 Human-NPC Interaction
6.1.3 Agent-based Analysis of Gaming
6.1.4 Scene Synthesis for Gaming
6.1.5 Experiments and Results
6.2 Robotics
6.2.1 LLM/VLM Agent for Robotics.
6.2.2 Experiments and Results
6.3 Healthcare
6.3.1 Current Healthcare Capabilities
6.4 Multimodal Agents
6.4.1 Image-Language Understanding and Generation
6.4.2 Video and Language Understanding and Generation
6.4.3 Experiments and Results
6.5 Video-language Experiments
6.6 Agent for NLP
6.6.1 LLM agent
6.6.2 General LLM agent
6.6.3 Instruction-following LLM agents
6.6.4 Experiment sand Results
7 Agent AI Across Modalities, Domains and Realities
7.1 Agents for Cross-modal Understanding
7.2 Agents for Cross-domain Understanding
7.3 Interactive agent for cross-modality and cross-reality
7.4 Sim to Real Transfer
8 Continuous and Self-improvement for Agent AI
8.1 Human-based Interaction Data
8.2 Foundation Model Generated Data
9 Agent Dataset and Leaderboard
9.1 “CuisineWorld” Dataset for Multi-agent Gaming
9.1.1 Benchmark
9.1.2 Task
9.1.3 Metrics and Judging
9.1.4 Evaluation
9.2 Audio-Video-Language Pre-training Dataset
10 Broader Impact Statement
11 Ethical Considerations
12 Diversity Statement

Historically, AI systems were deﬁned at the 1956 Dartmouth Conference as artiﬁcial life forms that could collect information from the environment and interact with it in useful ways. Motivated by this deﬁnition, Minsky’s MIT group built in 1970 a robotics system, called the “Copy Demo,” that observed “blocks world” scenes and successfully reconstructed the observed polyhedral block structures. The system, which comprised observation, planning, and manipulation modules, revealed that each of these subproblems is highly challenging and further research was necessary. The AI ﬁeld fragmented into specialized subﬁelds that have largely independently made great progress in tackling these and other problems, but over-reductionism has blurred the overarching goals of AI research.

To advance beyond the status quo, it is necessary to return to AI fundamentals motivated by Aristotelian Holism. Fortunately, the recent revolution in Large Language Models (LLMs) and Visual Language Models (VLMs) has made it possible to create novel AI agents consistent with the holistic ideal. Seizing upon this opportunity, this article explores models that integrate language proﬁciency, visual cognition, context memory, intuitive reasoning, and adaptability. It explores the potential completion of this holistic synthesis using LLMs and VLMs. In our exploration, we also revisit system design based on Aristotle’s Final Cause, the teleological “why the system exists”, which may have been overlooked in previous rounds of AI development.

With the advent of powerful pretrained LLMs and VLMs, a renaissance in natural language processing and computer vision has been catalyzed. LLMs now demonstrate an impressive ability to decipher the nuances of real-world linguistic data, often achieving abilities that parallel or even surpass human expertise (OpenAI, 2023). Recently, researchers have shown that LLMs may be extended to act as agents within various environments, performing intricate actions and tasks when paired with domain-speciﬁc knowledge and modules (Xi et al., 2023). These scenarios, characterized by complex reasoning, understanding of the agent’s role and its environment, along with multi-step planning, test the agent’s ability to make highly nuanced and intricate decisions within its environmental constraints (Wu et al., 2023; Meta Fundamental AI Research (FAIR) Diplomacy Team et al., 2022).

Building upon these initial efforts, the AI community is on the cusp of a significant paradigm shift, transitioning from creating AI models for passive, structured tasks to models capable of assuming dynamic, agentic roles in diverse and complex environments. In this context, this article investigates the immense potential of using LLMs and VLMs as agents, emphasizing models that have a blend of linguistic proficiency, visual cognition, contextual memory, intuitive reasoning, and adaptability. Leveraging LLMs and VLMs as agents, especially within domains like gaming, robotics, and healthcare, promises not just a rigorous evaluation platform for state-of-the-art AI systems, but also foreshadows the transformative impacts that Agent-centric AI will have across society and industries. When fully harnessed, agentic models can redefine human experiences and elevate operational standards. The potential for sweeping automation ushered in by these models portends monumental shifts in industries and socio-economic dynamics. Such advancements will be intertwined with multifaceted leader-board, not only technical but also ethical, as we will elaborate upon in Section 11. We delve into the overlapping areas of these sub-fields of Agent AI and illustrate their interconnectedness in Fig.1.

1.2 Background

We will now introduce relevant research papers that support the concepts, theoretical background, and modern implementations of Agent AI.

Large Foundation Models: LLMs and VLMs have been driving the effort to develop general intelligent machines (Bubeck et al., 2023; Mirchandani et al., 2023). Although they are trained using large text corpora, their superior problem-solving capacity is not limited to canonical language processing domains. LLMs can potentially tackle complex tasks that were previously presumed to be exclusive to human experts or domain-specific algorithms, ranging from mathematical reasoning (Imani et al., 2023; Wei et al., 2022; Zhu et al., 2022) to answering questions of professional law (Blair-Stanek et al., 2023; Choi et al., 2023; Nay, 2022). Recent research has shown the possibility of using LLMs to generate complex plans for robots and game AI (Liang et al., 2022; Wang et al., 2023a,b; Yao et al., 2023a; Huang et al., 2023a), marking an important milestone for LLMs as general-purpose intelligent agents.

Embodied AI: A number of works leverage LLMs to perform task planning (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), specifically the LLMs’ WWW-scale domain knowledge and emergent zero-shot embodied abilities to perform complex task planning and reasoning. Recent robotics research also leverages LLMsto perform task planning (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) by decomposing natural language instruction into a sequence of subtasks, either in the natural language form or in Python code, then using a low-level controller to execute these subtasks. Additionally, they incorporate environmental feedback to improve task performance (Huang et al., 2022b), (Liang et al., 2022), (Wang et al., 2023a), and (Ikeuchi et al., 2023).

Interactive Learning: AI agents designed for interactive learning operate using a combination of machine learning techniques and user interactions. Initially, the AI agent is trained on a large dataset. This dataset includes various types of information, depending on the intended function of the agent. For instance, an AI designed for language tasks would be trained on a massive corpus of text data. The training involves using machine learning algorithms, which could include deep learning models like neural networks. These training models enable the AI to recognize patterns, make predictions, and generate responses based on the data on which it was trained. The AI agent can also learn from real-time interactions with users. This interactive learning can occur in various ways: 1) Feedback-based learning: The AI adapts its responses based on direct user feedback (Li et al., 2023b; Yu et al., 2023a; Parakh et al., 2023; Zha et al., 2023; Wake et al., 2023a,b,c). For example, if a user corrects the AI’s response, the AI can use this information to improve future responses (Zha et al., 2023; Liu et al., 2023a). 2) Observational Learning: The AI observes user interactions and learns implicitly. For example, if users frequently ask similar questions or interact with the AI in a particular way, the AI might adjust its responses to better suit these patterns. It allows the AI agent to understand and process human language, multi-model setting, interpret the cross reality-context, and generate human-users’ responses. Over time, with more user interactions and feedback, the AI agent’s performance generally continuous improves. This process is often supervised by human operators or developers who ensure that the AI is learning appropriately and not developing biases or incorrect patterns.

1.3 Overview

Multimodal Agent AI (MAA) is a family of systems that generate effective actions in a given environment based on the understanding of multimodal sensory input. With the advent of Large Language Models (LLMs) and Vision Language Models (VLMs), numerous MAA systems have been proposed in fields ranging from basic research to applications. While these research areas are growing rapidly by integrating with the traditional technologies of each domain (e.g., visual question answering and vision-language navigation), they share common interests such as data collection, benchmarking, and ethical perspectives. In this paper, we focus on the some representative research areas of MAA, namely multimodality, gaming (VR/AR/MR), robotics, and healthcare, and we aim to provide comprehensive knowledge on the common concerns discussed in these fields. As a result we expect to learn the fundamentals of MAA and gain insights to further advance their research. Specific learning outcomes include:

•MAA Overview: A deep dive into its principles and roles in contemporary applications, providing researcher with a thorough grasp of its importance and uses.
•Methodologies: Detailed examples of how LLMs and VLMs enhance MAAs, illustrated through case studies in gaming, robotics, and healthcare.
•Performance Evaluation: Guidance on the assessment of MAAs with relevant datasets, focusing on their effectiveness and generalization.
•Ethical Considerations: A discussion on the societal impacts and ethical leader-board of deploying Agent AI, highlighting responsible development practices.
•Emerging Trends and Future leader-board: Categorize the latest developments in each domain and discuss the future directions.

Computer-based action and generalist agents (GAs) are useful for many tasks. A GA to become truly valuable to its users, it can natural to interact with, and generalize to a broad range of contexts and modalities. We aims to cultivate a vibrant research ecosystem and create a shared sense of identity and purpose among the Agent AI community. MAA has the potential to be widely applicable across various contexts and modalities, including input from humans. Therefore, we believe this Agent AI area can engage a diverse range of researchers, fostering a dynamic Agent AI community and shared goals. Led by esteemed experts from academia and industry, we expect that this paper will be an interactive and

enriching experience, complete with agent instruction, case studies, tasks sessions, and experiments discussion ensuring a comprehensive and engaging learning experience for all researchers.

This paper aims to provide general and comprehensive knowledge about the current research in the field of Agent AI. To this end, the rest of the paper is organized as follows. Section 2 outlines how Agent AI benefits from integrating with related emerging technologies, particularly large foundation models. Section 3 describes a new paradigm and framework that we propose for training Agent AI. Section 4 provides an overview of the methodologies that are widely used in the training of Agent AI. Section 5 categorizes and discusses various types of agents. Section 6 introduces Agent AI applications in gaming, robotics, and healthcare. Section 7 explores the research community’s efforts to develop a versatile Agent AI, capable of being applied across various modalities, domains, and bridging the sim-to-real gap. Section 8 discusses the potential of Agent AI that not only relies on pre-trained foundation models, but also continuously learns and self-improves by leveraging interactions with the environment and users. Section 9 introduces our new datasets that are designed for the training of multimodal Agent AI. Section 11 discusses the hot topic of the ethics consideration of AI agent, limitations, and societal impact of our paper.

2 Agent AI Integration

Foundation models based on LLMs and VLMs, as proposed in previous research, still exhibit limited performance in the area of embodied AI, particularly in terms of understanding, generating, editing, and interacting within unseen environments or scenarios (Huang et al., 2023a; Zeng et al., 2023). Consequently, these limitations lead to sub-optimal outputs from AI agents. Current agent-centric AI modeling approaches focus on directly accessible and clearly defined data (e.g. text or string representations of the world state) and generally use domain and environment-independent patterns learned from their large-scale pretraining to predict action outputs for each environment (Xi et al., 2023; Wang et al., 2023c; Gong et al., 2023a; Wu et al., 2023). In (Huang et al., 2023a), we investigate the task of knowledge-guided collaborative and interactive scene generation by combining large foundation models, and show promising results that indicate knowledge-grounded LLM agents can improve the performance of 2D and 3D scene understanding, generation, and editing, alongside with other human-agent interactions (Huang et al., 2023a). By integrating an Agent AI framework, large foundation models are able to more deeply understand user input to form a complex and adaptive HCI system. Emergent ability of LLM and VLM works invisible in generative AI, embodied AI, knowledge augmentation for multi-model learning, mix-reality generation, text to vision editing, human interaction for 2D/3D simulation in gaming or robotics tasks. Agent AI recent progress in foundation models present an imminent catalyst for unlocking general intelligence in embodied agents. The large action models, or agent-vision-language models open new possibilities for general-purpose embodied systems such as planning, problem-solving and learning in complex environments. Agent AI test further step in metaverse, and route the early version of AGI.

2.1 Inﬁnite AI agent

AI agents have the capacity to interpret, predict, and respond based on its training and input data. While these capabilities are advanced and continually improving, it’s important to recognize their limitations and the influence of the underlying data they are trained on. AI agent systems generally possess the following abilities: 1) Predictive Modeling: AI agents can predict likely outcomes or suggest next steps based on historical data and trends. For instance, they might predict the continuation of a text, the answer to a question, the next action for a robot, or the resolution of a scenario. 2) Decision Making: In some applications, AI agents can make decisions based on their inferences. Generally, the agent will base their decision on what is most likely to achieve a specified goal. For AI applications like recommendation systems, an agent can decide what products or content to recommend based on its inferences about user preferences. 3) Handling Ambiguity: AI agents can often handle ambiguous input by inferring the most likely interpretation based on context and training. However, their ability to do so is limited by the scope of their training data and algorithms. 4) Continuous Improvement: While some AI agents have the ability to learn from new data and interactions, many large language models do not continuously update their knowledge-base or internal representation after training. Their inferences are usually based solely on the data that was available up to the point of their last training update.

We show augmented interactive agents for multi-modality and cross reality-agnostic integration with an emergence mechanism in Fig. 2. An AI agent requires collecting extensive training data for every new task, which can be costly or impossible for many domains. In this study, we develop an inﬁnite agent that learns to transfer memory information from general foundation models (e.g., GPT-X, DALL-E) to novel domains or scenarios for scene understanding, generation, and interactive editing in physical or virtual worlds.

Figure 2: The multi-model agent AI for 2D/3D embodied generation and editing interaction in cross-reality.

An application of such an inﬁnite agent in robotics is RoboGen (Wang et al., 2023d). In this study, the authors propose a pipeline that autonomously run the cycles of task proposition, environment generation, and skill learning. RoboGen is an effort to transfer the knowledge embedded in large models to robotics.

2.2 Agent AI with Large Foundation Models

Recent studies have indicated that large foundation models play a crucial role in creating data that act as benchmarks for determining the actions of agents within environment-imposed constraints. For example, using foundation models for robotic manipulation (Black et al., 2023; Ko et al., 2023) and navigation (Shah et al., 2023a; Zhou et al., 2023a). To illustrate, Black et al. employed an image-editing model as a high-level planner to generate images of future sub-goals, thereby guiding low-level policies (Black et al., 2023). For robot navigation, Shah et al. proposed a system that employs a LLMtoidentify landmarks from text and a VLM to associate these landmarks with visual inputs, enhancing navigation through natural language instructions (Shah et al., 2023a).

There is also growing interest in the generation of conditioned human motions in response to language and environmental factors. Several AI systems have been proposed to generate motions and actions that are tailored to specific linguistic instructions (Kim et al., 2023; Zhang et al., 2022; Tevet et al., 2022) and to adapt to various 3D scenes (Wang et al., 2022a). This body of research emphasizes the growing capabilities of generative models in enhancing the adaptability and responsiveness of AI agents across diverse scenarios.

2.2.1 Hallucinations

Agents that generate text are often prone to hallucinations, which are instances where the generated text is nonsensical or unfaithful to the provided source content (Raunak et al., 2021; Maynez et al., 2020). Hallucinations can be split into two categories, intrinsic and extrinsic (Ji et al., 2023). Intrinsic hallucinations are hallucinations that are contradictory to the source material, whereas extrinsic hallucinations are when the generated text contains additional information that was not originally included in the source material.

Some promising routes for reducing the rate of hallucination in language generation involve using retrieval-augmented generation (Lewis et al., 2020; Shuster et al., 2021) or other methods for grounding natural language outputs via external knowledge retrieval (Dziri et al., 2021; Peng et al., 2023). Generally, these methods seek to augment language generation by retrieving additional source material and by providing mechanisms to check for contradictions between the generated response and the source material.

Within the context of multi-modal agent systems, VLMs have been shown to hallucinate as well (Zhou et al., 2023b). One common cause of hallucination for vision-based language-generation is due to the over-reliance on co-occurrence of objects and visual cues in the training data (Rohrbach et al., 2018). AI agents that exclusively rely upon pretrained LLMs or VLMs and use limited environment-speciﬁc ﬁnetuning can be particularly vulnerable to hallucinations since they rely upon the internal knowledge-base of the pretrained models for generating actions and may not accurately understand the dynamics of the world state in which they are deployed.

2.2.2 Biases and Inclusivity

AI agents based on LLMs or LMMs (large multimodal models) have biases due to several factors inherent in their design and training process. When designing these AI agents, we must be mindful of being inclusive and aware of the needs of all end users and stakeholders. In the context of AI agents, inclusivity refers to the measures and principles

employed to ensure that the agent’s responses and interactions are inclusive, respectful, and sensitive to a wide range of users from diverse backgrounds. We list key aspects of agent biases and inclusivity below.

•Training Data: Foundation models are trained on vast amounts of text data collected from the internet, including books, articles, websites, and other text sources. This data often reﬂects the biases present in human society, and the model can inadvertently learn and reproduce these biases. This includes stereotypes, prejudices, and slanted viewpoints related to race, gender, ethnicity, religion, and other personal attributes. In particular, by training on internet data and often only English text, models implicitly learn the cultural norms of Western, Educated, Industrialized, Rich, and Democratic (WEIRD) societies (Henrich et al., 2010) who have a disproportionately large internet presence. However, it is essential to recognize that datasets created by humans cannot be entirely devoid of bias, since they frequently mirror the societal biases and the predispositions of the individuals who generated and/or compiled the data initially.

•Historical and Cultural Biases: AI models are trained on large datasets sourced from diverse content. Thus, the training data often includes historical texts or materials from various cultures. In particular, training data from historical sources may contain offensive or derogatory language representing a particular society’s cultural norms, attitudes, and prejudices. This can lead to the model perpetuating outdated stereotypes or not fully understanding contemporary cultural shifts and nuances.

•Language and Context Limitations: Language models might struggle with understanding and accurately representing nuances in language, such as sarcasm, humor, or cultural references. This can lead to misinterpretations or biased responses in certain contexts. Furthermore, there are many aspects of spoken language that are not captured by pure text data, leading to a potential disconnect between human understanding of language and how models understand language.

•Policies and Guidelines: AI agents operate under strict policies and guidelines to ensure fairness and inclusivity. For instance, in generating images, there are rules to diversify depictions of people, avoiding stereotypes related to race, gender, and other attributes.

•Overgeneralization: These models tend to generate responses based on patterns seen in the training data. This can lead to overgeneralizations, where the model might produce responses that seem to stereotype or make broad assumptions about certain groups.

•Constant Monitoring and Updating: AI systems are continuously monitored and updated to address any emerging biases or inclusivity issues. Feedback from users and ongoing research in AI ethics play a crucial role in this process.

•Ampliﬁcation of Dominant Views: Since the training data often includes more content from dominant cultures or groups, the model may be more biased towards these perspectives, potentially underrepresenting or misrepresenting minority viewpoints. •Ethical and Inclusive Design: AI tools should be designed with ethical considerations and inclusivity as core principles. This includes respecting cultural differences, promoting diversity, and ensuring that the AI does not perpetuate harmful stereotypes.

•User Guidelines: Users are also guided on how to interact with AI in a manner that promotes inclusivity and respect. This includes refraining from requests that could lead to biased or inappropriate outputs. Furthermore, it can help mitigate models learning harmful material from user interactions.

Despite these measures, AI agents still exhibit biases. Ongoing efforts in agent AI research and development are focused on further reducing these biases and enhancing the inclusivity and fairness of agent AI systems. Efforts to Mitigate Biases:

•Diverse and Inclusive Training Data: Efforts are made to include a more diverse and inclusive range of sources in the training data.

•Bias Detection and Correction: Ongoing research focuses on detecting and correcting biases in model responses.

•Ethical Guidelines and Policies: Models are often governed by ethical guidelines and policies designed to mitigate biases and ensure respectful and inclusive interactions.

•Diverse Representation: Ensuring that the content generated or the responses provided by the AI agent represent a wide range of human experiences, cultures, ethnicities, and identities. This is particularly relevant in scenarios like image generation or narrative construction.

•Bias Mitigation: Actively working to reduce biases in the AI’s responses. This includes biases related to race, gender, age, disability, sexual orientation, and other personal characteristics. The goal is to provide fair and balanced responses that do not perpetuate stereotypes or prejudices.

•Cultural Sensitivity: The AI is designed to be culturally sensitive, acknowledging and respecting the diversity of cultural norms, practices, and values. This includes understanding and appropriately responding to cultural references and nuances.

•Accessibility: Ensuring that the AI agent is accessible to users with different abilities, including those with disabilities. This can involve incorporating features that make interactions easier for people with visual, auditory, motor, or cognitive impairments.

•Language-based Inclusivity: Providing support for multiple languages and dialects to cater to a global user base, and being sensitive to the nuances and variations within a language (Liu et al., 2023b).

•Ethical and Respectful Interactions: The Agent is programmed to interact ethically and respectfully with all users, avoiding responses that could be deemed offensive, harmful, or disrespectful.

•User Feedback and Adaptation: Incorporating user feedback to continually improve the inclusivity and effectiveness of the AI agent. This includes learning from interactions to better understand and serve a diverse user base.

•Compliance with Inclusivity Guidelines: Adhering to established guidelines and standards for inclusivity in AI agent, which are often set by industry groups, ethical boards, or regulatory bodies.

Despite these efforts, it’s important to be aware of the potential for biases in responses and to interpret them with critical thinking. Continuous improvements in AI agent technology and ethical practices aim to reduce these biases over time. One of the overarching goals for inclusivity in agent AI is to create an agent that is respectful and accessible to all users, regardless of their background or identity.

2.2.3 Data Privacy and Usage

One key ethical consideration of AI agents involves comprehending how these systems handle, store, and potentially retrieve user data. We discuss key aspects below:

Data Collection, Usage and Purpose. When using user data to improve model performance, model developers access the data the AI agent has collected while in production and interacting with users. Some systems allow users to view their data through user accounts or by making a request to the service provider. It is important to recognize what data the AI agent collects during these interactions. This could include text inputs, user usage patterns, personal preferences, and sometimes more sensitive personal information. Users should also understand how the data collected from their interactions is used. If, for some reason, the AI holds incorrect information about a particular person or group, there should be a mechanism for users to help correct this once identified. This is important for both accuracy and to be respectful of all users and groups. Common uses for retrieving and analyzing user data include improving user interaction, personalizing responses, and system optimization. It is extremely important for developers to ensure the data is not used for purposes that users have not consented to, such as unsolicited marketing.

Storage and Security. Developers should know where the user interaction data is stored and what security measures are in place to protect it from unauthorized access or breaches. This includes encryption, secure servers, and data protection protocols. It is extremely important to determine if agent data is shared with third parties and under what conditions. This should be transparent and typically requires user consent.

Data Deletion and Retention. It is also important for users to understand how long user data is stored and how users can request its deletion. Many data protection laws give users the right to be forgotten, meaning they can request their data be erased. AI agents must adhere to data protection laws like GDPR in the EU or CCPA in California. These laws govern data handling practices and user rights regarding their personal data.

Data Portability and Privacy Policy. Furthermore, developers must create the AI agent’s privacy policy to document and explain to users how their data is handled. This should detail data collection, usage, storage, and user rights. Developers should ensure that they obtain user consent for data collection, especially for sensitive information. Users typically have the option to opt-out or limit the data they provide. In some jurisdictions, users may even have the right to request a copy of their data in a format that can be transferred to another service provider.

Anonymization. For data used in broader analysis or AI training, it should ideally be anonymized to protect individual identities. Developers must understand how their AI agent retrieves and uses historical user data during interactions. This could be for personalization or improving response relevance.

In summary, understanding data privacy for AI agents involves being aware of how user data is collected, used, stored, and protected, and ensuring that users understand their rights regarding accessing, correcting, and deleting their data. Awareness of the mechanisms for data retrieval, both by users and the AI agent, is also crucial for a comprehensive understanding of data privacy.

2.2.4 Interpretability and Explainability

Imitation Learning → Decoupling. Agents are typically trained using a continuous feedback loop in Reinforcement Learning (RL) or Imitation Learning (IL), starting with a randomly initialized policy. However, this approach faces leader-board in obtaining initial rewards in unfamiliar environments, particularly when rewards are sparse or only available at the end of a long-step interaction. Thus, a superior solution is to use an infinite-memory agent trained through IL, which can learn policies from expert data, improving exploration and utilization of unseen environmental space with emergent infrastructure as shown in Fig. 3. With expert characteristics to help the agent explore better and utilize the unseen environmental space. Agent AI, can learn policies and new paradigm flow directly from expert data.

Traditional IL has an agent mimicking an expert demonstrator’s behavior to learn a policy. However, learning the expert policy directly may not always be the best approach, as the agent may not generalize well to unseen situations. To tackle this, we propose learning an agent with in-context prompt or a implicit reward function that captures key aspects of the expert’s behavior, as shown in Fig. 3. This equips the infinite memory agent with physical-world behavior data for task execution, learned from expert demonstrations. It helps overcome existing imitation learning drawbacks like the need for extensive expert data and potential errors in complex tasks. The key idea behind the Agent AI has two parts: 1) the infinite agent that collects physical-world expert demonstrations as state-action pairs and 2) the virtual environment that imitates the agent generator. The imitating agent produces actions that mimic the expert’s behavior, while the agent learns a policy mapping from states to actions by reducing a loss function of the disparity between the expert’s actions and the actions generated by the learned policy.

Decoupling → Generalization. Rather than relying on a task-specific reward function, the agent learns from expert demonstrations, which provide a diverse set of state-action pairs covering various task aspects. The agent then learns a policy that maps states to actions by imitating the expert’s behavior. Decoupling in imitation learning refers to separating the learning process from the task-specific reward function, allowing the policy to generalize across different tasks without explicit reliance on the task-specific reward function. By decoupling, the agent can learn from expert demonstrations and learn a policy that is adaptable to a variety of situations. Decoupling enables transfer learning, where a policy learned in one domain can adapt to others with minimal fine-tuning. By learning a general policy that is not tied to a specific reward function, the agent can leverage the knowledge it acquired in one task to perform well in other related tasks. Since the agent does not rely on a specific reward function, it can adapt to changes in the reward function or environment without the need for significant retraining. This makes the learned policy more robust and generalizable across different environments. Decoupling in this context refers to the separation of two tasks in the learning process: learning the reward function and learning the optimal policy.

Generalization → Emergent Behavior. Generalization explains how emergent properties or behaviors can arise from simpler components or rules. The key idea lies in identifying the basic elements or rules that govern the behavior of the system, such as individual neurons or basic algorithms. Consequently, by observing how these simple components or rules interact with one another. These interactions of these components of ten lead to the emergence of complex behaviors, which are not predictable by examining individual components alone. Generalization across different levels of complexity allows a system to learn general principles applicable across these levels, leading to emergent properties. This enables the system to adapt to new situations, demonstrating the emergence of more com plex behaviors from simpler rules. Furthermore, the ability to generalize across different complexity levels facilitates knowledge transfer from one domain to an other, which contributes to the emergence of complex behaviors in new contexts as the system adapts.

Figure 3: Example of the Emergent Interactive Mechanism using an agent to identify text relevant to the image from candidates. The task involves using a multi-modal AI agent from the web and human-annotated knowledge interaction samples to incorporate external world information.

2.2.5 Inference Augmentation

The inference ability of an AI agent lies in its capacity to interpret, predict, and respond based on its training and input data. While these capabilities are advanced and continually improving, it’s important to recognize their limitations and the inﬂuence of the underlying data they are trained on. Particularly, in the context of large language models, it refers to its capacity to draw conclusions, make predictions, and generate responses based on the data it has been trained on and the input it receives. Inference augmentation in AI agents refers to enhancing the AI’s natural inference abilities with additional tools, techniques, or data to improve its performance, accuracy, and utility. This can be particularly important in complex decision-making scenarios or when dealing with nuanced or specialized content. We denote particularly important sources for inference augmentation below:

Data Enrichment. Incorporating additional, often external, data sources to provide more context or background can help the AI agent make more informed inferences, especially in areas where its training data may be limited. For example, AI agents can infer meaning from the context of a conversation or text. They analyze the given information and use it to understand the intent and relevant details of user queries. These models are proﬁcient at recognizing patterns in data. They use this ability to make inferences about language, user behavior, or other relevant phenomena based on the patterns they’ve learned during training.

Algorithm Enhancement. Improving the AI’s underlying algorithms to make better inferences. This could involve using more advanced machine learning models, integrating different types of AI (like combining NLP with image recognition), or updating algorithms to better handle complex tasks. Inference in language models involves understand ing and generating human language. This includes grasping nuances like tone, intent, and the subtleties of different linguistic constructions. Human-in-the-Loop (HITL). Involving human input to augment the AI’s inferences can be particularly useful in areas where human judgment is crucial, such as ethical considerations, creative tasks, or ambiguous scenarios. Humans can provide guidance, correct errors, or offer insights that the agent would not be able to infer on its own. Real-Time Feedback Integration. Using real-time feedback from users or the environment to enhance inferences is another promising method for improving performance during inference. For example, an AI might adjust its recommendations based on live user responses or changing conditions in a dynamic system. Or, if the agent is taking actions in a simulated environment that break certain rules, the agent can be dynamically given feedback to help correct itself. Cross-Domain Knowledge Transfer. Leveraging knowledge or models from one domain to improve inferences in another can be particularly helpful when producing outputs within a specialized discipline. For instance, techniques developed for language translation might be applied to code generation, or insights from medical diagnostics could enhance predictive maintenance in machinery. Customization for Specific Use Cases. Tailoring the AI’s inference capabilities for particular applications or industries can involve training the AI on specialized datasets or fine-tuning its models to better suit specific tasks, such as legal analysis, medical diagnosis, or financial forecasting. Since the particular language or information within one domain can greatly contrast with the language from other domains, it can be beneficial to finetune the agent on domain-specific information. Ethical and Bias Considerations. It is important to ensure that the augmentation process does not introduce new biases or ethical issues. This involves careful consideration of the sources of additional data or the impact of the new inference augmentation algorithms on fairness and transparency. When making inferences, especially about sensitive topics, AI agents must sometimes navigate ethical considerations. This involves avoiding harmful stereotypes, respecting privacy, and ensuring fairness. Continuous Learning and Adaptation. Regularly updating and refining the AI’s capabilities to keep up with new developments, changing data landscapes, and evolving user needs. In summmary, winference augmentation in AI agents involves methods in which their natural inference abilities can be enhanced through additional data, improved algorithms, human input, and other techniques. Depending on the use-case, this augmentation is often essential for dealing with complex tasks and ensuring accuracy in the agent’s outputs. 2.2.6 Regulation Recently, Agent AI has made significant advancements, and its integration into embodied systems has opened new possibilities for interacting with agents via more immersive, dynamic, and engaging experiences. To expedite the process and ease the cumbersome work in agent AI developing, we are proposing to develop the next-generation AI-empowered pipeline for agent interaction. Develop a human-machine collaboration system where humans and machines can communicate and interact meaningfully. The system can leverage the LLM’s or VLM dialog capabilities and vast action to talk with human players and identify human needs. Then it will perform proper actions to help human players upon request. When employing LLM/VLMs for a human-machine collaboration system, it is essential to note that these operate as black boxes, generating unpredictable output. This uncertainty can become crucial in a physical setup, such as operating actual robotics. An approach to address this challenge is constraining the focus of the LLM/VLM through prompt engineering. For instance, in robotic task planning from instructions, providing environmental information within the prompt has been reported to yield more stable outputs than relying solely on text (Gramopadhye and Szafir, 2022). This report is supported by the Minsky’s frame theory of AI (Minsky, 1975), suggesting that the problem space to be solved by LLM/VLMs is defined by the given prompts. Another approach is designing prompts to make LLM/VLMs include explanatory text to allow users understand what the model has focused on or recognized. Additionally, implementing a higher layer that allows for pre-execution verification and modification under human guidance can facilitate the operation of systems working under such guidance (Fig. 4).

Figure 4: A robot teaching system developed in (Wake et al., 2023c). (Left) The system workflow. The process involves three steps: Task planning, where ChatGPT plans robotic tasks from instructions and environmental information; Demonstration, where the user visually demonstrates the action sequence. All the steps are reviewed by the user, and if any step fails or shows deficiencies, the previous steps can be revisited as necessary. (Right) A web application that enables uploading of demonstration data and the interaction between the user and ChatGPT.

2.3 Agent AI for Emergent Abilities

Despite the growing adoption of interactive agent AI systems, the majority of proposed methods still face a challenge in terms of their generalization performance in unseen environments or scenarios. Current modeling practices require developers to prepare large datasets for each domain to finetune/pretrain models; however, this process is costly and even impossible if the domain is new. To address this issue, we build interactive agents that leverage the knowledge-memory of general-purpose foundation models (ChatGPT, Dall-E, GPT-4, etc.) for a novel scenario, specifically for generating a collaboration space between humans and agents. We discover an emergent mechanism— which we name Mixed Reality with Knowledge Inference Interaction—that facilitates collaboration with humans to solve challenging tasks in complex real-world environments and enables the exploration of unseen environments for adaptation to virtual reality. For this mechanism, the agent learns i) micro-reactions in cross-modality: collecting relevant individual knowledge for each interaction task (e.g., understanding unseen scenes) from the explicit web source and by implicitly inferring from the output of pretrained models; ii) macro-behavior in reality-agnostic: improving interactive dimensions and patterns in language and multi-modality domains, and make changes based on characterized roles, certain target variable, influenced diversification of collaborative information in mixed-reality and LLMs. We investigate the task of knowledge-guided interactive synergistic effects to collaborated scene generation with combining various OpenAI models, and show promising results of how the interactive agent system can further boost the large foundation models in our setting. It integrates and improves the depth of generalization, conscious and interpretability of a complex adaptive AI systems.

Figure 5: Our proposed new agent paradigm for a multi-modal generalist agent. There are 5 main modules as shown in the figures: 1) Environment and Perception with task-planning and skill observation; 2) Agent learning; 3) Memory; 4) Agent action; 5) Cognition.

3 Agent AI Paradigm

In this section, we discuss a new paradigm and framework for training Agent AI. We seek to accomplish several goals with our proposed framework:

• Makeuse of existing pre-trained models and pre-training strategies to effectively bootstrap our agents with effective understanding of important modalities, such as text or visual inputs.
• Support for sufficient long-term task-planning capabilities.
• Incorporate a framework for memory that allows for learned knowledge to be encoded and retrieved later.
• Allow for environmental feedback to be used to effectively train the agent to learn which actions to take.

We show a high-level new agent diagram outlining the important submodules of such a system in Fig. 5.

3.1 LLMs and VLMs

We can use the LLM or VLM model to bootstrap the components of the Agent as showed in Fig. 5. In particular, LLMs have been shown to perform well for task-planning (Gong et al., 2023a), contain significant world knowledge (Yu et al., 2023b), and display impressive logical reasoning capabilities (Creswell et al., 2022). Additionally, VLMs such as CLIP (Radford et al., 2021) provide a general visual encoder that is language-aligned, as well as providing zero-shot visual recognition capabilities. For example, state-of-the-art open-source multi-modal models such as LLaVA (Liu et al., 2023c) and Instruct BLIP (Dai et al., 2023) rely upon frozen CLIP models as visual encoders.

3.2 Agent Transformer Definition

Instead of using frozen LLMs and VLMs for the AI agent, it is also possible to use a single-agent transformer model that takes visual tokens and language tokens as input, similar to Gato (Reed et al., 2022). In addition to vision and language, we add a third general type of input, which we denote as agent tokens. Conceptually, agent tokens are used to reserve a specific subspace of the input and output space of the model for agentic behaviors. For robotics or game playing, this may be represented as the input action space of the controller. When training agents to use specific tools, such as image-generation or image-editing models, or for other API calls, agent tokens can also be used. As showed in Fig. 7, we can combine the agent tokens with visual and language tokens to generate a unified interface for training multi-modal agent AI. Compared to using large, proprietary LLMs as agents, there are several advantages to using an agent transformer. Firstly, the model can be easily customized to very specific agentic tasks that may be difficult to represent in natural language (e.g. controller inputs or other specific actions). Thus, the agent can learn from environmental interactions and domain-specific data to improve performance. Secondly, it can be easier to understand why the model does or does not take specific actions by having access to the probabilities of the agent tokens. Thirdly, there are certain domains such as healthcare and law that have strict data privacy requirements. Finally, a relatively smaller agent transformer can potentially be significantly cheaper than a larger proprietary language model.

Figure 6: We show the current paradigm for creating multi-modal AI agents by incorporating a Large Language Model (LLM) with a Large Vision Model (LVM). Generally, these models take visual or language inputs and use pre-trained and frozen visual and language models, learning smaller sub-network that connect and bridge modalities. Examples include Flamingo (Alayrac et al., 2022), BLIP-2 (Li et al., 2023c), InstructBLIP (Dai et al., 2023), and LLaVA (Liu et al., 2023c).

Figure 7: The unified agent multi-modal transformer model. Instead of connecting frozen submodules and using existing foundation models as building blocks, we propose a unified and end-to-end training paradigm for agent systems. We can still initialize the submodules with LLMs and LVMs as in Figure 6 but also make use of agent tokens, specialized tokens for training the model to perform agentic behaviors in a specific domain (e.g., robotics). For more details about agent tokens, see Section 3.2

3.3 Agent Transformer Creation

As shown above in Fig. 5, we can use the new agent paradigm with LLM and VLM-bootstrapped agents, as well as leveraging data generated from large foundation models to train the agent transformer model for learning to execute specific goals. Within this process, the agent model is trained to be specialized and tailored for specific tasks and domains. This approach allows you to leverage a pre-existing, foundation model’s learned features and knowledge. We show a simplified overview of the process in two steps below:

Define Objectives within the Domain. In order to train the agent transformer, the objectives and the action-space of the agent within the context of each specific environment needs to be clearly defined. This includes determining which specific tasks or actions the agent needs to perform and assigning unique agent tokens for each. Furthermore, any automatic rules or procedures that can be used to identify successful completion of tasks can significantly improve the amount of data available for training. Otherwise, foundation-model generated or human-annotated data will be required for training the model. After the data is collected and it is possible to evaluate the performance of the agent, the process of continuous improvement can begin.

Continuous Improvement. Continuous monitoring of the model’s performance and collection of feedback are essential steps in the process. Feedback should be used for further fine-tuning and updates. It is also crucial to ensure that the model does not perpetuate biases or unethical outcomes. This necessitates a careful examination of the training data, regular checks for biases in outputs, and, if needed, training the model to recognize and avoid biases. Once the model achieves satisfactory performance, it can be deployed for the intended application. Continuous monitoring remains vital to ensure that the model performs as expected and to facilitate necessary adjustments. More details on this process, sources of training data, and details surrounding continous learning for agent AI can be found in Section 8.

4 Agent AI Learning

4.1 Strategy and Mechanism

The strategy of interactive AI on different domains which extends the paradigm of calling large foundation models with a trained agent that actively seeks to collect user feedback, action information, useful knowledge for generation and interaction. Some times, the LLM/VLM models are not need to trained again, and we improve their performance by providing improved contextual prompts at test time for an agent. On the other hand, it always involves a knowl edge/reasoning/commonsense/inference interactive modeling through a combination of triple systems- one performing knowledge retrieval from multi-model query, second performing interactive generation from the relevant agent, and last one the trained a new, informative self-supervised training or pre-training with reinforcement learning or imitation learning with improved way.

4.1.1 Reinforcement Learning (RL) There is a rich history of leveraging reinforcement learning (RL) to train interactive agents that exhibits intelligent behaviors. RL is a methodology to learn the optimal relationship between states and actions based on rewards (or penalties) received as a result of its actions. RL is a highly scalable framework that has been applied to numerous applications including robotics, however, it generally faces several leader-board and LLM/VLMs have shown their potential to mitigate or overcome some of those difficulties:

• Reward designing The efficiency of policy learning greatly depends on the design of the reward function. Designing the reward function requires not only knowledge of RL algorithms but also a deep understanding of the nature of the task, and thus often necessitates crafting the function based on expert experience. Several studies explored the use of LLM/VLMs for designing reward functions (Yu et al., 2023a; Katara et al., 2023; Maet al., 2023).

• Data collection and efficiency Given its exploratory nature, RL-based policy learning requires a significant amount of data (Padalkar et al., 2023). The necessity for extensive data becomes particularly evident when the policy involves managing long sequences or integrating complex actions. This is because these scenarios demand more nuanced decision-making and learning from a wider range of situations. In recent studies, efforts have been directed towards enhancing data generation to support policy learning (Kumar et al., 2023; Du et al., 2023). Additionally, in some studies, these models have been integrated into the reward function to improve policy learning (Sontakke et al., 2023). Parallel to these developments, another strand of research has focused on achieving parameter efficiency in learning processes using VLMs (Tang et al., 2023; Li et al., 2023d) and LLMs(Shi et al., 2023)

• Long-horizon steps In relation to the issue of data efficiency, RL becomes more challenging as the length of action sequences increases. This is due to the ambiguity in the relationship between actions and rewards, known as the credit assignment problem, and the increase in the number of states to be explored, necessitating a significant amount of time and data. One typical approach for long and complex tasks is to break them down into a sequence of subgoals and apply pretrained policies to solve each subgoal (e.g., (Takamatsu et al., 2022)). This idea falls within the framework called the task and motion planning (TAMP)(Garrett et al., 2021). TAMP is composed of two primary components: task planning, which entails identifying sequences of high-level actions, and motion planning, which involves finding physically consistent, collision-free trajectories to achieve the objectives of the task plan.

LLMsare well-suited to TAMP, and recent research has often adopted an approach where LLMs are used to execute high-level task planning, while low-level controls are addressed with RL-based policies (Xu et al., 2023; Sun et al., 2023a; Li et al., 2023b; Parakh et al., 2023). The advanced capabilities of LLMs enable them to effectively decompose even abstract instructions into subgoals (Wake et al., 2023c), contributing to the enhancement of language understanding abilities in robotic systems.

4.1.2 Imitation Learning (IL)

While RL aims to train a policy based on exploratory behavior and maximizing rewards through interactions with the environment, imitation learning (IL) seeks to leverage expert data to mimic the actions of experienced agents or experts. For example, in robotics, one of the major frameworks based on IL is Behavioral Cloning (BC). BC is an approach where a robot is trained to mimic the actions of an expert by directly copying them. In this approach, the expert’s actions in performing specific tasks are recorded, and the robot is trained to replicate these actions in similar situations. Recent BC-based methods often incorporate technologies from LLM/VLMs, enabling more advanced end-to-end models. For example, Brohan et al. proposed RT-1 (Brohan et al., 2022) and RT-2 (Brohan et al., 2023), transformer-based models that output an action sequence for the base and arm, taking a series of images and language as input. These models are reported to show high generalization performance as the result of training on a large amount of training data.

4.1.3 Traditional RGB

Learning intelligent agent behavior leveraging image inputs has been of interest for many years (Mnih et al., 2015). The inherent challenge of using RGB input is the curse of dimensionality. To solve this problem, researchers either use more data (Jang et al., 2022; Ha et al., 2023) or introduce inductive biases into the model design to improve sample efficiency. In particular, authors incorporate 3D structures into the model architecture for manipulations (Zeng et al., 2021; Shridhar et al., 2023; Goyal et al., 2023; James and Davison, 2022). For robot navigation, authors (Chaplot et al., 2020a,b) leverage maps as a representation. Maps can either be learned from a neural network aggregating all previous RGBinputs or through 3D reconstruction methods such as Neural Radiance Fields (Rosinol et al., 2022). To obtain more data, researchers synthesize synthetic data using graphics simulators (Mu et al., 2021; Gong et al., 2023b), and try to close the sim2real gap (Tobin et al., 2017; Sadeghi and Levine, 2016; Peng et al., 2018). Recently, there has been some collective effort to curate large-scale dataset that aims to resolve the data scarcity problem (Padalkar et al., 2023; Brohan et al., 2023). On the other hand, to improve sample complexity, data augmentation techniques have been extensively studied as well (Zeng et al., 2021; Rao et al., 2020; Haarnoja et al., 2023; Lifshitz et al., 2023).

4.1.4 In-context Learning

In-context learning was shown to be an effective method for solving tasks in NLP with the advent of large language models like GPT-3 (Brown et al., 2020; Min et al., 2022). Few-shot prompts were seen to be an effective way to contextualize model output’s across a variety of tasks in NLP by providing examples of the task within the context of the LLMprompt. Factors like the diversity of examples and quality of examples shown for the in-context demonstrations may improve the quality of model outputs (An et al., 2023; Dong et al., 2022).

Within the context of multi-modal foundation models, models like Flamingo and BLIP-2 (Alayrac et al., 2022; Li et al., 2023c) have been shown to be effective at a variety of visual understanding tasks when given only given a small number of examples. In context learning can be further improved for agents within environments by incorporating environment-specific feedback when certain actions are taken (Gong et al., 2023a).

4.1.5 Optimization in the Agent System

The optimization of agent systems can be divided into spatial and temporal aspects. Spatial optimization considers how agents operate within a physical space to execute tasks. This includes inter-robot coordination, resource allocation, and keeping an organized space.

In order to effectively optimize agent AI systems, especially systems with large numbers of agents acting in parallel, previous works have focused on using large batch reinforcement learning (Shacklett et al., 2023). Since datasets of multi-agent interactions for specific tasks are rare, self-play reinforcement learning enables a team of agents to improve over time. However, this may also lead to very brittle agents that can only work under self-play and not with humans or other independent agents since they over-fit to the self-play training paradigm. To address this issue, we can instead discover a diverse set of conventions (Cui et al., 2023; Sarkar et al., 2023), and train an agent that is aware of a wide range of conventions. Foundation models can further help to establish conventions with humans or other independent agents, enabling smooth coordination with new agents.

Temporal optimization, on the other hand, focuses on how agents execute tasks over time. This encompasses task scheduling, sequencing, and timeline efficiency. For instance, optimizing the trajectory of a robot’s arm is an example of efficiently optimizing movement between consecutive tasks (Zhou et al., 2023c). At the level of task scheduling, methods like LLM-DP (Dagan et al., 2023) and ReAct (Yao et al., 2023a) have been proposed to solve efficient task planning by incorporating environmental factors interactively.

4.2 Agent Systems (zero-shot and few-shot level)

4.2.1 Agent Modules

Our foray into the agent paradigm involves the development of Agent AI “Modules” for interactive multi-modal agents using LLMs or VLMs. Our initial Agent Modules facilitate training or in-context learning and adopt a minimalist design for the purposes of demonstrating the agent’s ability to schedule and coordinate effectively. We also explored initial prompt-based memory techniques that facilitate better planning and inform future actions approaches within the domain. To illustrate, our “MindAgent” infrastructure comprises 5 main modules: 1) environment perception with task planning, 2) agent learning, 3) memory, 4) general agent action prediction and 5) cognition, as shown in Figure 5.

4.2.2 Agent Infrastructure

Agent-based AI is a large and fast-growing community within the domains of entertainment, research, and industry. The development of large foundation models has significantly improved the performance of agent AI systems. However, creating agents in this vein is limited by the increasing effort necessary to create high-quality datasets and overall cost. At Microsoft, building high-quality agent infrastructure has significantly impacted multi-modal agent copilots by using advanced hardware, diverse data sources, and powerful software libraries. As Microsoft continues to push the boundaries of agent technology, AI agent platforms are poised to remain a dominant force in the world of multimodal intelligence for years to come. Nevertheless, agent AI interaction is currently still a complex process that requires a combination of multiple skills. The recent advancements in the space of large generative AI models have the potential to greatly reduce the current high cost and time required for interactive content, both for large studios, as well as empowering smaller independent content creators to design high quality experiences beyond what they are currently capable of. The current human-machine interaction systems inside multi-modal agents are primarily rule-based. They do have intelligent behaviors in response to human/user actions and possess web knowledge to some extent. However, these interactions are often limited by software development costs to enable specific behaviors in the system. In addition, current models are not designed to help human to achieve a goal in the case of users’ inability to achieve specific tasks. Therefore, there is a need for an agent AI system infrastructure to analyze users behaviors and provide proper support when needed.

4.3 Agentic Foundation Models (pretraining and finetune level)

The use of pre-trained foundation models offers a significant advantage in their wide applicability across diverse use cases. The integration of these models enables the development of customized solutions for various applications, circumventing the need for extensive labeled datasets for each specific task. Anotable example in the field of navigation is the LM-Nav system (Shah et al., 2023a), which incorporates GPT-3 and CLIP in a novel approach. It effectively uses textual landmarks generated by the language model, anchoring them in images acquired by robots for navigation. This method demonstrates a seamless fusion of textual and visual data, significantly enhancing the capabilities of robotic navigation, while maintaining wide applicability. In robot manipulation, several studies have proposed the use of off-the-shelf LLMs (e.g., ChatGPT) while using open vocabulary object detectors. The combination of LLM and advanced object detectors (e.g., Detic (Zhou et al., 2022)) fa cilitates the understanding of human instruction while grounding the textual information in scenery information (Parakh et al., 2023). Furthermore, the latest advancements showcase the potential of using prompt engineering with advanced multi-modal models such as GPT-4V(ision) (Wake et al., 2023b). This technique opens avenues for multi-modal task planning, underscoring the versatility and adaptability of pre-trained models in a variety of contexts.

5 Agent AI Categorization

5.1 Generalist Agent Areas

Computer-based action and generalist agents (GAs) are useful for many tasks. Recent progress in the field of large foundation models and interactive AI has enabled new functionalities for GAs. However, for a GA to become truly valuable to its users, it must be natural to interact with, and generalize to a broad range of contexts and modalities. We high-quality extended main Chapters on Agent foundation AI in Sec.6, especially in areas relevant to the themes in general of these topics:

Multimodal Agent AI (MMA) is an upcoming forum(https://multimodalagentai.github.io/) for our research and industry communities to engage with each other and with the broader research and technology communities in Agent AI. Recent progress in the field of large foundation models and interactive AI has enabled new functionalities for generalist agents (GAs), such as predicting user actions and task planning in constrained settings (e.g., MindAgent (Gong et al., 2023a), fine-grained multimodal video understanding (Luo et al., 2022), Robotics (Ahn et al., 2022b; Brohan et al., 2023)), or providing a chat companion for users that incorporates knowledge feedback (e.g., website customer support for healthcare systems (Peng et al., 2023)). More details about the representative works and most recent representative works are shown below. We hope to discuss our vision for the future of MAA and inspire future researchers to work in this space. This article and our forum covers the following main topics, but is not limited exclusively to these:

• Primary Subject Topics: Multimodal Agent AI, General Agent AI
• Secondary Subject Topics: Embodied Agents, Action Agents, Language-based Agents, Vision & Language Agents, Knowledge and Inference Agents, Agents for Gaming, Robotics, Healthcare, etc.
• Extend Subject Topics: Visual Navigation, Simulation Environments, Rearrangement, Agentic Foundation Models, VR/AR/MR, Embodied Vision & Language.

Next, we present a specific lists of representative agent categories as follows:

5.2 Embodied Agents

Our biological minds live in bodies, and our bodies move through a changing world. The goal of embodied artificial intelligence is to create agents, such as robots, which learn to creatively solve challenging tasks requiring interaction with the environment. While this is a significant challenge, important advances in deep learning and the increasing availability of large datasets like ImageNet have enabled superhuman performance on a variety of AI tasks previously thought intractable. Computer vision, speech recognition and natural language processing have experienced transformative revolutions at passive input-output tasks like language translation and image classification, and reinforcement learning has similarly achieved world-class performance at interactive tasks like game playing. These advances have supercharged embodied AI, enabling a growing collection of users to make rapid progress towards intelligent agents can interactive with machine.

5.2.1 Action Agents

Action agents refer to the agents that need to execute physical actions in the simulated physical environment or real world. In particular, they need to be actively engaging in activities with the environment. We broadly classify action agents into two different categories based on their application domains: gaming AI and robotics. In gaming AI, the agents will interact with the game environment and other independent entities. In these settings, natural language can enable smooth communication between agents and humans. Depending on the game, there may be a specific task to accomplish, providing a true reward signal. For instance, in the competitive Diplomacy game, training a language model using human conversation data along with an action policy with RL enables human-level play (Meta Fundamental AI Research (FAIR) Diplomacy Team et al., 2022).

There are also settings where we agents act as normal residents in a town (Park et al., 2023a), without trying to optimize a specific goal. Foundation models are useful in these settings because they can model interactions that appear more natural by mimicking human behavior. When augmented with external memory, they produce convincing agents that can have conversations, daily schedules, form relationships, and have a virtual life.

5.2.2 Interactive Agents

Interactive agents simply refer to agents that can interact with the world, a broader class of agents than action agents. Their forms of interaction do not necessarily require physical actions, but may involve communicating information to users or modifying the environment. For instance, an embodied interactive agent may answer a user’s questions about a topic through dialogue or help users parse through existing information similar to a chatbot. By extending an agent’s capabilities to include information sharing, the core designs and algorithms of Agent AI can be effectively adapted for a range of applications, such as diagnostic (Lee et al., 2023) and knowledge-retrieval (Peng et al., 2023) agents.

5.3 Simulation and Environments Agents

An effective approach for AI agents to learn how to act in an environment is to go through trial-and-error experiences via interactions with the environment. A representative method is RL, which requires extensive experience of failures to train an agent. Although there exist approaches that use physical agents (Kalashnikov et al., 2018), using physical agents is time-consuming and costly. Furthermore, training in the physical environment is often feasible when failure in actual environments can be dangerous (e.g., autonomous driving, underwater vehicles). Hence, using simulators to learn policies is a common approach.

Many simulation platforms have been proposed for research in embodied AI, ranging from navigation (Tsoi et al., 2022; Deitke et al., 2020; Kolve et al., 2017) to object manipulation (Wang et al., 2023d; Mees et al., 2022; Yang et al., 2023a; Ehsani et al., 2021). One example is Habitat (Savva et al., 2019; Szot et al., 2021), which provides a 3D indoor environment where human- and robotic-agents can perform various tasks such as navigation, instruction following, and question answering. Another representative simulation platform is Virtual Home (Puig et al., 2018), supporting human avatars for object manipulation in 3D indoor environments. In the field of gaming, Carroll et al. have introduced “Overcooked-AI,” a benchmark environment designed to study cooperative tasks between humans and AI (Carroll et al., 2019). Along similar lines, several works aim to incorporate real human intervention beyond the focus of interaction between agents and the environment (Puig et al., 2023; Li et al., 2021a; Srivastava et al., 2022). These simulators contribute to the learning of policies in practical settings involving agent and robot interactions, and IL-based policy learning utilizing human demonstrative actions.

In certain scenarios, the process of learning a policy may necessitate the integration of specialized features within simulators. For example, in the case of learning image-based policies, realistic rendering is often required to facilitate adaptability to real environments (Mittal et al., 2023; Zhong et al., 2023). Utilizing a realistic rendering engine is effective for generating images that reflect various conditions, such as lighting environments. Moreover, simulators employing physics engines are required to simulate physical interactions with objects (Liu and Negrut, 2021). The integration of physics engines in simulation has been shown to facilitate the acquisition of skills that are applicable in real-world scenarios (Saito et al., 2023).

5.4 Generative Agents

The recent advancements in the space of large generative AI models have the potential to greatly reduce the current high cost and time required for interactive content, both for large gaming studios, as well as empower smaller independent studios to create high quality experiences beyond what they are currently capable of. Additionally, embedding large AI models within a sandbox environment will allow users to author their own experiences and express their creativity in ways that are currently out of reach.

The goals of this agent go beyond simply adding interactive 3d content to scenes, but also include:

• Adding arbitrary behavior and rules of interactions to the objects, allowing the user to create their own VR rules with minimal prompting.
• Generating whole level geometry from a sketch on a piece of paper, by using the multimodal GPT4-v model, as well as other chains of models involving vision AI models
• Retexturing content in scenes using diffusion models
• Creating custom shaders and visual special effects from simple user prompts

One potential application in the short term is the VR creation of a storyboarding/prototype tool allowing a single user to create a rough (but functional) sketch of an experience/game an order of magnitude faster than currently feasible. Such a prototype then could be expanded and made more polished using these tools as well.

5.4.1 AR/VR/mixed-reality Agents

AR/VR/mixed-reality (jointly referred to as XR) settings currently require skilled artists and animators to create characters, environments, and objects to be used to model interactions in virtual worlds. This is a costly process that involves concept art, 3D modeling, texturing, rigging, and animation. XR agents can assist in this process by facilitating interactions between creators and building tools to help build the final virtual environment.

Our early experiments have already demonstrated that GPT models can be used in the few-shot regime inside of the Unity engine (without any additional fine-tuning) to call engine-specific methods, use API calls to download 3d models from the internet and place them into the scene, and assign state trees of behavior and animations to them (Huang et al., 2023a). This behavior likely emerges due to the presence of similar code in open source game repositories that use Unity. Therefore, GPT models are capable of building rich visual scenes in terms of loading in many objects into the scene from a simple user prompt.

The aim of this category of agents is to build a platform and a set of tools that provide an efficient interface between large AI models (both GPT-family ones as well as diffusion image models) and a rendering engine. We explore two primary avenues here:

• Integration of large models into the various editor tools in the agent infrastructure, allowing for significant speedups in development.
• Controlling the rendering engine from within a user experience, by generating code that follows user instruction and then compiling it at runtime, allowing for users to potentially edit the VR/simulation they are interacting with in arbitrary ways, even by introducing new agent mechanics.

Introducing an AI copilot focused on XR settings would be useful for XR creators, who can use the copilot to complete tedious tasks, like providing simple assets or writing code boilerplate, freeing creators to focus on their creative vision and quickly iterate on ideas.

Furthermore, agents can help users interactively modify the environment by adding new assets, changing the dynamics of the environment, or building new settings. This form of dynamic generation during runtime can also be specified by a creator, enabling the user’s experience to feel fresh and continue evolving over time.

5.5 Knowledge and Logical Inference Agents

The capacity to infer and apply knowledge is a defining feature of human cognition, particularly evident in complex tasks such as logical deduction, and understanding theory of mind(https://plato.stanford.edu/entries/cognitive-science). Making inferences on knowledge ensures that the AI’s responses and actions are consistent with known facts and logical principles. This coherence is a crucial mechanism for maintaining trust and reliability in AI systems, especially in critical applications like medical diagnosis or legal analysis. Here, we introduce agents that incorporate the interplay between knowledge and inference that address specific facets of intelligence and reasoning.

5.5.1 Knowledge Agent Knowledge Agents reason over their acquired knowledge systems in two directions: implicit and explicit. Implicit knowledge is typically what large-scale language models like the GPT series (Brown et al., 2020; OpenAI, 2023) encapsulate after being trained on vast amounts of text data. These models can generate responses that give the impression of understanding, as they draw on patterns and information implicitly learned during training. Explicit knowledge, conversely, is structured and can be directly queried, such as the information found in knowledge bases or databases, which was traditionally used to enhance AI reasoning capabilities by referencing verifiable external resources. Despite the advancements in language models, their implicit knowledge is static and becomes outdated as the world evolves (Lewis et al., 2020; Peng et al., 2023). This limitation necessitates the integration of explicit knowledge sources that are updated continuously, ensuring that AI systems can provide accurate and current responses. The fusion of implicit and explicit knowledge equips AI agents with a more nuanced understanding and the ability to apply knowledge contextually, akin to human intelligence (Gao et al., 2022). Such integration is crucial for crafting knowledge-centric AI agents that not only possess information but can also understand, explain, and employ it, thereby narrowing the chasm between extensive learning and profound knowledge (Marcus and Davis, 2019; Gao et al., 2020). These agents are designed to reason with flexibility and dynamic information about the world, enhancing their robustness and adaptability (Marcus, 2020).

5.5.2 Logic Agents

Generally, a logic agent is a component of a system designed to apply logical reasoning to process data or solve tasks specific to logical inference or logical reasoning. Logic agents within the context of large foundation models like GPT-4 refers to a specialized component or submodules designed to handle logical reasoning tasks. These tasks often involve understanding and manipulating abstract concepts, deducing conclusions from given premises, or solving problems that require a structured, logical approach. Broadly, foundation models like GPT-4 are trained on a vast corpus of text data and learn to perform a wide range of tasks, including those that require some form of logical reasoning. Thus, their capability for logical reasoning is integrated into the overall architecture, and they generally do not possess a distinct, isolated “Logic agent”. While GPT-4 and similar models can perform tasks that involve logic, their approach is fundamentally different from how humans or traditional logic-based systems operate. They do not follow formal logical rules or have an explicit understanding of logic; rather, they generate responses based on patterns learned from the training data. As a result, their performance in logical tasks can be impressive, but it can also be inconsistent or limited by the nature of the training data and the inherent limitations of the model’s design. One example of embedding a separate logical submodule into the architecture is (Wang et al., 2023e), which modifies the token embedding process used by LLMs during pre-training by parsing text into logical segments and explicitly modeling logical hierarchies in the token embeddings.

5.5.3 Agents for Emotional Reasoning

Emotional understanding and empathy are important skills for agents in many human-machine interactions. To illustrate, one important goal for creating engaging dialogue agents is to have the agents act with increased emotion and empathy while minimizing socially inappropriate or offensive outputs. To advance towards this goal for dialogue agents, we released the Neural Image Commenting with Empathy (NICE) dataset (Chen et al., 2021) consisting of almost two million images and the corresponding human-generated comments and a set of human emotion annotations. We also provided a novel pre-training model- Modeling Affect Gneration for Image Comments (MAGIC) (Chen et al., 2021) which aims to generate comments for images, conditioned on linguistic representations that capture style and affect, and to help generate more empathetic, emotional, engaging and socially appropriate comments. Our experiments show that the approach is effective in training a more human-like and engaging image comment agent. Developing empathy-aware agents is a promising direction for interactive agents, and it is important to create agents with emotional understanding capabilities across a wide range of groups and populations, especially considering that many current language models exhibit bias in their emotional understanding and empathetic reasoning capabilities (Mao et al., 2022; Wake et al., 2023d).

5.5.4 Neuro-Symbolic Agents Neuro-Symbolic agents operate on a hybrid system of neurons and symbols (d’Avila Garcez and Lamb, 2020). To solve problems stated in natural language is a challenging task because it requires explicitly capturing discrete symbolic structural information implicit in the input. However, most general neural sequence models do not explicitly capture such structural information, limiting their performance on these tasks. The work (Chen et al., 2020) propose a new encoder-decoder model based on a structured neural representation agent, The encoder of TP-N2F employs TPR ‘binding’ to encode natural-language symbolic structure in vector space and the decoder uses TPR ‘unbinding’ to generate, in symbolic space, a sequential program represented by relational tuples, each consisting of a relation (or operation) and a number of arguments. Instruction following vision-language (VL) models like GPT-4 offer a flexible interface that supports a broad range of multimodal tasks in a zero-shot fashion. However, interfaces that operate on full images do not directly enable the user to “point to” and access specific regions within images. This capability is important not only to support reference-grounded VL benchmarks, but also, for practical applications that require precise within-image reasoning. In (Park et al., 2023b), we build Localized Visual Commonsense model which allows users to specify (multiple) regions-as-input. We train our model by sampling localized commonsense knowledge from a large language model (LLM): specifically, we prompt a LLM to collect common sense knowledge given a global literal image description and a local literal region description automatically generated by a set of VL models. This pipeline is scalable and fully automatic, as no aligned or human-authored image and text pairs are required. With a separately trained critic model that selects high quality examples, we find that training on the localized commonsense corpus expanded solely from images can successfully distill existing VL models to support a reference-as-input interface. Empirical results and human evaluations in zero-shot settings demonstrate that our distillation method results in more precise VL models of reasoning compared to a baseline of passing a generated referring expression.

5.6 LLMsandVLMsAgent A number of works leverage LLMs as agents to perform task planning (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), and leverage the LLMs’ large internet-scale domain knowledge and zero-shot planning abilities to perform agentic tasks like planning and reasoning. Recent robotics research also leverages LLMs to perform task planning (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) by decomposing natural language instruction into a sequence of subtasks, either in the natural language form or in Python code , then using a low-level controller to execute these subtasks. Additionally, (Huang et al., 2022b), (Liang et al., 2022), and (Wang et al., 2023a) also incorporate environmental feedback to improve task performance. There have also been a number of works that demonstrate the ability of general-purpose visually-aligned large language models trained on large-scale text, image, and video data to serve as a foundation for creating multi-modal agents that are embodied and can act in various environments (Baker et al., 2022; Driess et al., 2023; Brohan et al., 2023).

6 Agent AI Application Tasks

6.1 Agents for Gaming

Games provide a unique sandbox to test the agentic behavior of LLMs and VLMs, pushing the boundaries of their collaborative and decision-making abilities. We describe three areas in particular that highlight agent’s abilities to interact with human players and other agents, as well as their ability to take meaningful actions within an environment.

6.1.1 NPC Behavior

In modern gaming systems, the behavior of Non-Player Characters (NPCs) is predominantly dictated by predefined scripts crafted by developers. These scripts encompass a range of reactions and interactions based on various triggers or player actions within the gaming environment. However, this scripted nature often results in predictable or repetitive NPC behavior which fails to evolve in response to player’s actions or the dynamic environment of the game. This rigidity hampers the immersive experience intended in a dynamic gaming environment. Therefore, there is a burgeoning interest in leveraging LLMs to induce autonomy and adaptability in NPC behavior, making interactions more nuanced and engaging. AI-driven NPCs can learn from player behavior, adapt to varying strategies, and provide a more challenging and less predictable gameplay experience. Large Language Models (LLMs) can significantly contribute to evolving NPC behavior in games. By processing vast amounts of text, LLMs can learn patterns and generate responses that are more varied and human-like. They can be utilized to create dynamic dialogue systems, making interactions with NPCs more engaging and less predictable. Furthermore, LLMs can be trained on player feedback and in-game data to continually refine NPC behaviors, making them more attuned to player expectations and game dynamics.

Figure 8: The embodied agent for user interactive gaming action prediction and interactive editing with Minecraft Dungeons gaming sense simulation and generation via GPT-4V.

6.1.2 Human-NPC

Interaction The interaction between human players and NPCs is a crucial aspect of the gaming experience. The conventional interaction paradigm is primarily one-dimensional, with NPCs reacting in a preset manner to player inputs. This limitation stifles the potential for a more organic and enriching interaction, akin to human-human interaction within the virtual realm. The advent of LLM and VLM technologies holds the promise of transforming this paradigm. By employing these technologies, gaming systems can analyze and learn from human behavior to provide more human-like interactions. This not only enhances the realism and engagement of the game but also provides a platform for exploring and understanding human-machine interaction in a controlled yet complex setting.

6.1.3 Agent-based Analysis of Gaming

Gaming is an integral part of daily life, estimated to engage half of the world’s population(https://www.dfcint.com/global-video-game-audience-reaches-3-7-billion/). Additionally, it exhibits a positive impact on mental health(https://news.microsoft.com/source/features/work-life/mind-games-how-gaming-can-play-a-positive-role-in-mental-health/). However, contemporary game systems exhibit a deficiency in interactions with human players since their behaviors are primarily hand-crafted by game developers. These pre-programmed behaviors frequently fail to adapt to players’ needs. Consequently, there exists a need for new AI systems in games that can analyze player behaviors and furnish appropriate support when necessary. Intelligent interactive systems bear the potential to revolutionize how gamers interact with gaming systems in general. NPCs’ interactions with gamers are no longer confined by the restricted rule sets designed by game developers. They have the potential to adapt seamlessly to gamers’ experiences, providing timely feedback to enrich the gaming experience and elevate the synergy of human-machine interaction.

Figure9: GPT-4V can effectively predict the high-level next actions when given the “action history” and a “gaming target” in the prompt. Furthermore, GPT-4V accurately recognized that the player is holding wooden logs in their hand and can incorporate this perceived information into its plan for future actions. Although GPT-4Vappearstobecapable of predicting some low-level actions (such as pressing ‘E‘ to open the inventory), the model’s outputs are not inherently suitable for raw low-level action prediction (including mouse movements) and likely requires supplemental modules for low-level action control.

LLMs can serve as a robust tool for analyzing in-game text data, including chat logs, player feedback, and narrative content. They can help in identifying patterns of player behavior, preferences, and interactions which can be invaluable for game developers to improve game mechanics and narratives. Additionally, VLMs can parse through large quantities of image and video data from gaming sessions to help analyze user intent and actions within the game world. Moreover, LLMs and VLMs can facilitate the development of intelligent agents within games that can communicate with players and other agents in a sophisticated and human-like manner, enhancing the overall gaming experience. Beyond LLMs and VLMs, user input data, provides a promising avenue for creating game-playing agents that model perception, game playing, and game understanding by imitating human players. By incorporating a combination of player interactions and feedback, pixel inputs, and natural language planning and understanding, agent models can assist in the continuous improvement of game dynamics, driving a more player-centric evolution of the gaming environment.

6.1.4 Scene Synthesis for Gaming

Scene synthesis is a vital component in the creation and enhancement of immersive gaming environments. It entails the automatic or semi-automatic generation of three dimensional (3D) scenes and environments within a game. This process includes the generation of terrain, placement of objects, creation of realistic lighting, and sometimes even dynamic weather systems.

Modern games often feature vast, open-world environments. Manually designing these landscapes can be in credibly time-consuming and resource-intensive. Automated terrain generation, often leveraging procedural or AI-driven techniques, can produce complex, realistic landscapes with less manual effort. LLMs and VLMs can utilize the internet scale knowledge to formulate rules to design non-repeating landscapes that are visually impressive and unique. Additionally, LLMs and VLMs can be used to ensure the semantic consistency and variability of generated assets. Placing objects such as buildings, vegetation, and other elements within a scene in a realistic and aesthetically pleasing manner is crucial for immersion.

Figure 10: Masked video prediction on unseen Minecraft videos. From left to right: the original frame, the masked frame, the reconstructed frame, and the reconstructed frame with patches.

VLMs and LLMs can assist in object placement by adhering to predefined or learned rules and aesthetics, thus speeding up the level design process. VLMs and LLMs can be further trained to understand the principles of design and aesthetics, aiding in the procedural generation of content. They can help formulate rules or guidelines that procedural algorithms can follow to generate objects, and scenes that are both visually appealing and contextually appropriate.

Realistic lighting and atmospheric effects are fundamental for creating a believable and engaging gaming environment. Advanced algorithms can simulate natural lighting conditions and dynamic weather effects, enhancing the realism and mood of the scene. LLMs can help develop systems to acheive more realistic lighting and atmospheric effects in several innovative ways. VLMs can analyze vast datasets from real-world lighting and atmospheric conditions to help develop more realistic algorithms for simulating these effects in games. By understanding the patterns and intricacies of natural lighting and weather, these models can contribute to the development of algorithms that mimic reality closely. LLMs and VLMs could also be used to develop systems that adjust lighting and atmospheric effects in real-time based on player actions, game states, or external inputs. They can process natural language commands from players to modify the game environment, providing a more interactive and immersive experience.

6.1.5 Experiments and Results

Zero-shot/Few-shot Learning with LLM or LVM. As we showed in the Fig. 8 and Fig. 9, we used GPT-4V for high-level description and action prediction. Fig. 8 showed some qualitative examples of action description generation and editing with GPT-4V. Agent-enhanced text opens up a novel method of generating 3D scenes with game action priors to help improve the naturalness of the scene. Consequently, GPT-4V generates relevant high-level descriptions that are appropriate for the gaming videos.

Small Agent Pretraining Model. To showcase our agent vision-language architecture, we first study its application in a widely used domain for gaming agents by pretraining on Minecraft data. As shown in Fig. 7, given an input action agent, key frame of video, and corresponding text, a standard encoder-decoder can be employed to convert the agent ac tion and image into action text token and image patch token and then use the agent-vision-language decoder to convert it into a action prediction sentence. The overall architecture is depicted in Fig. 7. We evaluate our approach with several Minecraft demonstrations. The Minecraft video data consists of 5min clips, and we use for pretraining contains 78K videos, and we used 5K videos (6% of pretraining data) for the first round pretraining. We train a 250M parameter model on 16 NVIDIAv100GPUsforonedayandvisualize our model out puts in Fig. 10 and Fig. 11. Fig. 10 shows that our relatively small agent architecture can produce reasonable outputs for Minecraft scenes unseen during training. Fig. 11 showed the model’s predictions compared to the ground truth human player actions indicating potential low-level understanding for our small agent model.

Figure 11: The low-level next step action prediction with the small agent pretraining model in gaming Minecraft scene.

Multi-Agent Infrastructure. As showed in the agent paradigm in Fig. 5, we designed a novel infrastructure for a new gaming scenario called “CuisineWorld” (Gong et al., 2023a). We detail our approach in Fig. 12. Our infrastructure allows for multi-agent collaboration by leveraging GPT-4 as a central planner and works across multiple gaming domains. We investigated our system’s multi-agent planning capabilities, and we deployed the infrastructure into real-world video games to demonstrate its multi-agent and human-AI collaboration effectiveness. Additionally, we presented “Cuisineworld”, a text-based multi-agent collaboration benchmark that provides a new auto-metric Collaboration Score (CoS) to quantify collaboration efficiency. Please refer to the Appendix for more examples and details for gaming description, high-level action prediction, and GPT-4V prompting. We show examples for Bleeding Edge in Fig. 32 and Appendix B, Microsoft Flight Simulator in Fig. 33 and Appendix C, ASSASSIN’s CREED ODYSSEY in Fig. 34 and Appendix D, GEARS of WAR 4 in Fig. 35 and Appendix E, and Starfield in Fig. 36 and Appendix F. We also provide a detailed screenshot of the prompting process for GPT4V used to generate Minecraft examples with Fig. 31 in Appendix A.

6.2 Robotics

Robots are representative agents that necessitate effective interaction with their environment. In this section, we will introduce key elements essential for efficient robotic operation, review research topics where the latest LLM/VLM technologies have been applied, and share findings from our most recent studies.

Visual Motor Control. Visual Motor Control refers to the integration of visual perception and motor action to execute tasks effectively in a robotic system. This integration is paramount as it enables robots to interpret the visual data from their environment and accordingly adjust their motor actions to interact with the environment accurately. For instance, in an assembly line, a robot equipped with visual motor control can perceive the position and orientation of objects and accurately align its manipulator to interact with these objects. This capability is essential for ensuring the precision and effectiveness of robotic operations across a myriad of applications, ranging from industrial automation to assisting the elderly in their daily chores. Moreover, visual motor control facilitates robots in adapting to dynamic environments where the state of the environment may change rapidly, requiring real-time adjustments to motor actions based on visual feedback.

Figure 12: The MindAgent of in-context learning gaming Infrastructure. Planning Skill and Tool Use: The game environment requires diverse planning skills and tool use to complete tasks. It generates relevant game information and converts the game data into a structured text format that the LLMs can process. LLM: The main workhorse of our infrastructure makes decisions, thus serving as a dispatcher for the multi-agent system. Memory History: A storage utility for relevant information. Action Module: Extracts actions from text inputs and converted them into domain-specific language and validates DSLs so that they cause no errors during execution.

Additionally, within the context of safe operation, visual information is crucial for detecting execution errors and confirming the pre- and post-conditions of each robot action. In uncontrolled environments, such as unknown domestic settings, robots are more likely to face unexpected outcomes due to unpredictable factors like changing furniture shapes, varied lighting, and slippage. Executing a pre-planned action plan solely in a feedforward manner can pose significant risks in these settings. Therefore, utilizing visual feedback to continually verify outcomes at each step is key to ensuring robust and reliable operation of robotic systems.

Language Conditioned Manipulation. Language Conditioned Manipulation entails the ability of a robotic system to interpret and execute tasks based on language instructions. This aspect is particularly crucial for creating intuitive and user-friendly interfaces for human-robot interaction. Through natural language commands, users can specify goals and tasks to robots in a manner similar to human-human communication, thereby lowering the barrier to operating robotic systems. In a practical scenario, for instance, a user could instruct a service robot to “pick up the red apple from the table,” and the robot would parse this instruction, identify the referred object and execute the task of picking it up (Wake et al., 2023c). The core challenge lies in developing robust natural language processing and understanding algorithms that can accurately interpret a wide array of instructions, ranging from direct commands to more abstract directives, and enable the robot to convert these instructions into actionable tasks. Furthermore, ensuring that robots can generalize these instructions across diverse tasks and environments is critical for enhancing their versatility and utility in real-world applications. The use of language input to guide robot’s task planning has gained attention in the context of a robot framework called Task and Motion Planning (Garrett et al., 2021).

Skill Optimization. Recent studies highlight the effectiveness of LLMs in robotic task planning. However the optimal execution of tasks, especially those involving physical interactions like grasping, requires a deeper understanding of the environment that goes beyond simply interpreting human instructions. For example, robot grasping necessitates precise contact points (Wake et al., 2023e) and arm posture (Sasabuchi et al., 2021) to efficiently execute subsequent actions. While these elements—precise contact points and arm posture—are intuitive for humans, articulating them through language is challenging. Despite advances in internet-scale VLMs, capturing these nuanced indirect cues from scenes and translating them effectively into robotic skills remains a significant challenge. In response, the robotics community is increasingly focusing on collecting enhanced datasets(e.g., (Wang et al., 2023d; Padalkar et al., 2023)) or developing methodologies for direct skill acquisition from human demonstrations (Wake et al., 2021a). Frameworks including Learning-from-Demonstration and Imitation Learning are leading these developments, playing a crucial role in the optimization of physical skills.

6.2.1 LLM/VLM Agent for Robotics.

Recent research has demonstrated the potential of LLM/VLMs for robotic agents that involve interactions with humans in an environment. Research topics that aim to leverage latest LLM/VLM technologies include:

Multimodal Systems: Recent research has been actively focusing on developing end-to-end systems that incorporate the latest LLM and VLM technologies as encoders for input information. Particularly, there is a significant trend towards modifying these foundation models to process multimodal information. (Jiang et al., 2022; Brohan et al., 2023, 2022; Li et al., 2023d; Ahn et al., 2022b; Shah et al., 2023b; Li et al., 2023e). This adaptation aims to guide robotic actions based on both linguistic instructions and visual cues, thus achieving an effective embodiment.

Task Planning and Skill Training: In contrast to end-to-end systems, Task And Motion Planning (TAMP) based systems first compute a high-level task plan and then achieve them with low-level robot control, known as skills. The advanced language processing abilities of LLMs have demonstrated the capability to interpret instructions and decompose them into robot action steps, greatly advancing task planning technologies (Ni et al., 2023; Li et al., 2023b; Parakh et al., 2023; Wake et al., 2023c). For skill training, several studies have explored the use of LLMs/VLMs for designing reward functions (Yu et al., 2023a; Katara et al., 2023; Ma et al., 2023), generating data to facilitate policy learning (Kumar et al., 2023; Du et al., 2023), or serving as part of a reward function (Sontakke et al., 2023). Together with training frameworks such as RL and IL, these efforts will contribute to the development of efficient robot controllers.

On-site Optimization: Executing long task steps in robotics can be difficult due to unexpected and unpredictable environmental conditions. Therefore, a significant challenge in the field of robotics involves dynamically adapting and refining robotic skills by integrating task plans with real-time environmental data. For instance, (Ahn et al., 2022b) proposed an approach that calculates the feasibility of actions (i.e., affordance) from visual information and compares it with planned tasks. Additionally, there are approaches that focus on enabling LLMs to output the pre-conditions and post-conditions (e.g., states of objects and their interrelationships) of task steps to optimize their execution (Zhou et al., 2023c) and detect pre-condition errors for necessary revisions to the task plan (Raman et al., 2023). These strategies seek to achieve environment-grounded robot execution by integrating environmental information and adjusting the robot’s actions at the task plan or controller level.

Conversation Agents: In creating conversational robots, LLMs can contribute to natural, context-sensitive interactions with humans (Ye et al., 2023a; Wake et al., 2023f). These models process and generate responses that mimic human conversation, allowing robots to participate in meaningful dialogues. Additionally, LLMs play a significant role in the estimation of conceptual (Hensel et al., 2023; Teshima et al., 2022) and emotional attributes (Zhao et al., 2023; Yang et al., 2023b; Wake et al., 2023d) of utterances. Those attributes facilitate the understanding of human intent and meaningful gesture generation, thus contributing to the naturalness and efficacy of human-robot communication.

Navigation Agents: Robot navigation has a long history of research, focusing on core aspects such as map-based path planning and Simultaneous Localization and Mapping (SLAM) for creating environmental maps. These functionalities have become standard in widely used robot middleware like the Robot Operating System (ROS) (Guimarães et al., 2016).

While classic navigation techniques remain prevalent in many robotics applications, they typically rely on static or pre-created maps. Recently, there has been an increased interest in advanced technologies that enable robots to navigate in more challenging environments, leveraging breakthroughs in fields like computer vision and natural language processing. One representative task is object navigation (Chaplot et al., 2020a; Batra et al., 2020; Gervet et al., 2023; Ramakrishnan et al., 2022; Zhang et al., 2021), where robots use object names for navigation instead of map coordinates, requiring the visual grounding of object names in the environment. Furthermore, recent attention has been given to technologies that navigate robots in entirely unfamiliar new environments on a zero-shot basis, on top of foundation models, so-called zero-shot object navigation (Gadre et al., 2023; Dorbala et al., 2023; Cai et al., 2023). Additionally, Vision-Language Navigation (VLN) (Anderson et al., 2018a) is a representative task, where the task involves navigating an agent by natural language instructions in previously unseen, real-world environments (Shah et al., 2023a; Zhou et al., 2023a; Dorbala et al., 2022; Liang et al., 2023; Huang et al., 2023b). VLN interprets sentences rather than object names, such as “go to the bathroom on your left.,” thus it requires a higher functionality to parse input text (Wang et al., 2019). The advent of foundation models contributes to the development of such adaptive, on-the-fly navigation technologies by enhancing the understanding of human language instructions and the visual interpretation of environmental information. More detailed explanations of representative VLN research are provided in 6.2.2.

Figure 13: Overview of the robot teaching system that integrates a ChatGPT-empowered task planner. The process involves two steps: Task planning, where the user employs the task planner to create an action sequence and adjusts the result through feedback as necessary, and Demonstration, where the user visually demonstrates the action sequence to provide information needed for robot operation. The vision system collects visual parameters that will be used for robot execution.

6.2.2 Experiments and Results.

An accumulating body of evidence suggests that recent VLMs and LLMs have promising capabilities for symbolic task planning (e.g., what-to-do). However, each task requires low-level control policy (e.g., how-to-do) to achieve successful interaction between the environment. While reinforcement learning and imitation learning are promising approach to learn policies in a data-driven manner, another promising approach is to obtain the strategy directly from humans through on-site demonstration, an approach called Learning-from-Observation (Wake et al., 2021a; Ikeuchi et al., 0). In this section, we introduce a study where we employ ChatGPT for task planning and enrich the plan by parameterizing it with affordance information to facilitate effective and precise execution (Fig. 13).

The pipeline was composed of two modules: task planning and parameterization. In task planning, the system is fed with language instructions and the description of the working environment. These instructions, along with a predefined set of robot actions and output specifications, are compiled into a comprehensive prompt provided to ChatGPT, which then generates a sequence of decomposed tasks with their textual descriptions (Fig. 13; left pane). Notably, we employ a few-shot approach, meaning ChatGPT is not trained on this task, offering an advantage in applicability as it eliminates the need for hardware-dependent data collection and model training. Additionally, the textual descriptions in the output enable the user to check and adjust the results as necessary, which is a crucial feature for a safe and robust operation. Fig. 14 shows the qualitative results conducted for an agentic simulation on top of VirtualHome (Puig et al., 2018). The results demonstrate a reasonable task plan and its flexibility in adjusting outputs, indicating the broad applicability of our approach.

Figure 14: Example of adjusting an output sequence through auto-generated feedback. We use an open-sourced simulator, VirtualHome for the experiment. Given an instruction “Take the pie on the table and warm it using the stove.,” the task planner plans a sequence of functions that are provided in VirtualHome. If an error in execution is detected, the task planner correct its output based on the auto-generated error message.

While the task planner guarantees coherency between the task sequences, successful operation in reality requires detailed parameters. For example, grasp type is crucial for carrying a container while spilling out the content, such a parameter is often ignored in a simulators (see Fig. 14 in grasping a pie). In our robot system, therefore, users are asked to demonstrate each action visually (Fig. 13; right pane). The tasks had predefined parameters necessary for execution, which our vision system extracts from the videos (Wake et al., 2021b). Notably, our robotic system is not designed for exact replication of human motions (i.e., teleoperation) but rather to handle varying real-world conditions, such as changes in object locations. Hence, the parameters extracted from human demonstrations encompass not precise motion paths but affordance information that dictates effective environmental movement (e.g., waypoints for collision avoidance (Wake et al., 2023a), grasp types (Wake et al., 2023e), and upper-limbs postures (Sasabuchi et al., 2021; Wake et al., 2021a)). The posture of the upper limbs is critical in robots with high degrees of freedom and is designed to assume predictable postures for humans coexisting with the operational robot. The task sequence endowed with affordances is transformed into a sequence of reusable robot skills acquired through reinforcement learning and executed by the robot (Takamatsu et al., 2022).

LLM-empowered task planning can be extended to a more versatile robotic system by integrating it with VLMs. Here, we show an example where we use the GPT-4V(ision) to broaden the aforementioned task planner in a multimodal input context (Fig. 15), a human performs actions that are intended to be replicated by the robot. In this paper, only part of the prompt is shown. The whole prompt is available at microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts.

This pipeline takes demonstration videos and text, then outputs a sequence of robot actions. A vision analyzer aims to understand the actions performed by humans in the video. We used GPT-4V and provided a prompt to generate text instructions in a style typical of human-to-human communication.Fig. 16 demonstrates how the usage of text input allows user to give feedback on GPT-4V’s recognition results for correction purposes. Such a feature, aiming at improving the accuracy of the recognition results, also enables more robust operation.

Figure 15: Overview of the multimodal task planner that leverages GPT-4V and GPT-4. The system processes video demonstrations and text instructions, generating task plans for robotic execution.

Figure 16: Examples of the output of the video analyzer. The five frames are extracted at regular intervals and fed into GPT-4V. We describe the entire pipeline in Section 6.2.2.

Next, the scene analyzer compiles the expected work environment into the text information based on the instructions and the first frame of the video data (or an image of the environment). This environmental information includes a list of object names recognized by GPT-4V, the graspable properties of objects, and the spatial relationships between objects. Although these computational processes are a black box within GPT-4V, the information is output based on the knowledge of GPT-4V and the image/text input. Fig. 17 shows the example outputs of our scene analyzer. As shown in the figure, GPT-4V successfully selects the objects that are related to the manipulation. For example, a table is included in the output when the human is relocating a spam container on the table, while the table is ignored for the fridge opening task. These results suggest that the scene analyzer encodes the scene information with respect to the human’s actions. We prompted GPT-4V to explain the results of the object selection process and the reasons behind those choices. In practice, we found this approach resulted in reasonable outputs. Finally, based on the given text instructions and environmental information, the task planner outputs a sequence of tasks (Wake et al., 2023c).

Figure 17: Examples of the outputs of the scene analyzer that leverages GPT-4V. We describe our entire pipeline in Section 6.2.2.

Embodied Agents for Robotics Navigation. Vision-language navigation (VLN) is the task of navigating an embodied agent to carry out natural language instructions inside real 3D environments. Navigation in 3D environments (Zhu et al., 2017a; Mirowski et al., 2016; Mousavian et al., 2018; Hemachandra et al., 2015) is an essential capability of a mobile intelligent system that functions in the physical world. In the past few years, a plethora of tasks and evaluation protocols (Savva et al., 2017; Kolve et al., 2017; Song et al., 2017; Xia et al., 2018; Anderson et al., 2018a) have been proposed as summarized in (Anderson et al., 2018b). VLN (Anderson et al., 2018a) focuses on language-grounded navigation in the real 3D environment. In order to solve the VLN task, (Anderson et al., 2018a) set up an attention-based sequence-to-sequence baseline model. Then (Wang et al., 2018) introduced a hybrid approach that combines model-free and model-based reinforcement learning (RL) to improve the model’s generalizability. Lastly, (Fried et al., 2018) proposed a speaker-follower model that adopts data augmentation, a panoramic action space and modified beam search for VLN, establishing the current state-of-the-art performance on the Room-to-Room dataset. Extending prior work, we propose a Reinforced Cross-Modal Matching (RCM) for VLN in (Wang et al., 2019). The RCM model is built upon (Fried et al., 2018) but differs in many significant aspects: (1) RCM combines a novel multi-reward RL with imitation learning for VLN while Speaker-Follower models (Fried et al., 2018) only uses supervised learning as in (Anderson et al., 2018a). (2) The RCM reasoning navigator performs cross-modal grounding rather than the temporal attention mechanism on single-modality input. (3) The RCM matching critic is similar to the Speaker in terms of the architecture design, but the former is used to provide the cycle-reconstruction intrinsic reward for both RL and SIL training while the latter is used to augment training data for supervised learning. In (Wang et al., 2019), we study how to address three critical leader-board for this task: the cross-modal grounding, the ill-posed feedback, and the generalization problem. As shown in Fig. 18, we propose a novel Reinforced Cross-Modal Matching approach that enforces cross-modal grounding both locally and globally via reinforcement learning (RL). Particularly, a matching critic is used to provide an intrinsic reward to encourage global matching between instructions and trajectories, and a reasoning navigator is employed to perform cross-modal grounding in the local visual scene. Evaluation on a VLN benchmark dataset shows that our RCM model significantly outperforms previous methods by 10% on SPL and achieved a new state-of-the-art performance. To improve the generalizability of the learned policy, we further introduce a Self-Supervised Imitation Learning (SIL) method to explore unseen environments by imitating its own past, good decisions. We demonstrate that SIL can approximate a better and more efficient policy, which tremendously minimizes the success rate performance gap between seen and unseen environments (from 30.7% to 11.7%). Moreover, in (Wang et al., 2019) we introduce a self-supervised imitation learning method for exploration in order to explicitly address the generalization issue, which is a problem not well-studied in prior work. Concurrent to the work, (Thomason et al., 2018; Ke et al., 2019; Ma et al., 2019a,b) studies the VLN tasks from various aspects, and (Nguyen et al., 2018) introduces a variant of the VLN task to f ind objects by requesting language assistance when needed. Note that we are the first to propose to explore unseen environments for the VLN task.

Figure 18: Demonstration of embodied agent for the VLN task (Wang et al., 2019). The instruction, the local visual scene, and the global trajectories in a top-down view is shown. The agent does not have access to the top-down view. Path A is the demonstration path following the instruction. Path B and C are two different paths executed by the agent.

6.3 Healthcare

In healthcare, LLMs and VLMs can act as diagnostic agents, patient care assistants, or even therapy aids, but they come with unique leader-board and responsibilities. With the tremendous potential for AI agents to improve patient care and save lives comes an equally dangerous possibility that their misuse or hasty deployment could endanger thousands or millions of people worldwide. We discuss some of the promising routes for AI agents within the context of healthcare and also discuss some of the key leader-board faced.

Diagnostic Agents. Using LLMs as medical chatbots for patient diagnosis has recently attracted great attention due to the high-demand for medical experts and the potential for LLMs to help triage and diagnose patients (Lee et al., 2023). Dialogue agents, especially those that can effectively communicate important medical information to a broad range of people from diverse patient populations, have the potential to provide equitable healthcare access to historically disadvantaged or marginalized groups. Furthermore, doctors and healthcare systems across the world are largely over-burdened and under-resourced, resulting in insufficient access to medical care for hundreds of millions of people worldwide (World Health Organization and World Bank, 2015). Diagnostic agents provide a particularly advantageous pathway to improve healthcare for millions since they have they can be built with the capability to understand a variety of languages, cultures, and health conditions. Initial results have shown that healthcare-knowledgeable LMMs can be trained by utilizing large-scale web data (Li et al., 2023f). Although an exciting direction, the promise of diagnostic agents does not come without risks. We highlight the risks of hallucination within medical contexts, as well as potential pathways for solutions in the following section.

Knowledge Retrieval Agents. Within the medical context, model hallucinations are particularly dangerous and may even result in serious patient harm or death, depending on the severity of the error. For instance, if a patient mistakenly receives a diagnosis suggesting they are free of a condition they actually have, it can lead to catastrophic outcomes. These include postponed or inappropriate treatments, or in some cases, a total lack of necessary medical intervention. The gravity of undiagnosed or misdiagnosed conditions can lead to escalated healthcare expenses, extended therapies causing further physical strain, and in extreme scenarios, severe harm or even death. Thus, approaches that can use agents to more reliably retrieve knowledge (Peng et al., 2023) or generate text in a retrieval-based manner (Guu et al., 2020) are promising directions. Pairing a diagnostic agent with a medical knowledge retrieval agent has the potential to significantly reduce hallucinations while simultaneously improving the quality and preciseness of the responses of the diagnostic dialogue agent.

Telemedicine and Remote Monitoring. Agent-based AI also has great potential within the world of Telemedicine and Remote Monitoring by improving the access to healthcare, improving communications between healthcare providers and patients, as well as improving the efficiency and reducing the costs of frequent doctor-patient interactions (Amjad et al., 2023). Primary care clinicians spend significant amounts of time sifting through patient messages, reports, and emails that are often irrelevant or unnecessary for them to view. There is significant potential to allow for support agents to help triage messages from doctors, patients, and other healthcare providers and to help highlight important messages for all parties. By enabling agentic AI systems to coordinate with patients, clinicians, and other AI agents, there is a massive potential to revolutionize the remote healthcare and digital health industry.

6.3.1 Current Healthcare Capabilities

Image understanding. We demonstrate the current capabilities and limitations of modern multimodal agents such as GPT-4V within the context of healthcare in Fig. 19. We can see that although GPT-4V possesses significant internal knowledge of the equipment and procedures involved in hospital care, it does not always respond to more prescriptive or diagnostic queries by the user.

Video understanding. We investigate the performance of VLM agents for medical video understanding in two contexts. First, we investigate the ability for VLM agents to identify important patient care activities in clinical spaces. Secondly, we explore the usage of of VLMs for more technical videos such as ultrasounds. Specifically, in Figure 20, we demonstrate some of the current capabilities and limitations of GPT-4V for hospital care and medical video analysis.

6.4 Multimodal Agents

The integration of visual and linguistic understanding is crucial for developing sophisticated multimodal AI agents. This includes tasks such as image captioning, visual question answering, video language generation, and video understanding, amongst others. We aim to delve into these visual-language tasks, exploring the leader-board and opportunities they present in the context of AI agents.

6.4.1 Image-Language Understanding and Generation

Image-language understanding is a task that involves the interpretation of visual content in a given image with language and the generation of associated linguistic descriptions. This task is critical to the development of AI agents that can interact with the world in a more human-like manner. Some of most popular ones are image captioning (Lin et al., 2014; Sharma et al., 2018; Young et al., 2014; Krishna et al., 2016), referring expression (Yu et al., 2016; Karpathy et al., 2014), and visual question answering (Antol et al., 2015; Ren et al., 2015; Singh et al., 2019).

More recently, knowledge-intensive Visual Question Answering tasks such as OKVQA (Marino et al., 2019), KB VQA(Wangetal.,2015), FVQA(Wangetal.,2017), and Web QA(Changetal.,2021)have been introduced. Multimodal agents should capable of identifying objects in an image, comprehending their spatial relationships, generating accurate descriptive sentences about the scene, and utilizing reasoning skills to handle knowledge-intensive visual reasoning. This requires not just object recognition capabilities, but also a deep understanding of spatial relationships, visual semantics, and the ability to map these visual elements to linguistic constructs with integration of the world knowledge.

Figure 19: Example prompts and responses when using GPT-4V within the domain of healthcare image understanding. From left to right: (1) an image of a nurse and doctor conducting a CT scan, (2) a synthetic image of an irregular EKG scan, and (3) an image from the ISIC (Codella et al., 2018) skin lesion dataset. We can see that GPT-4V possesses significant medical knowledge and is able to reason about medical images. However, due to safety training, it is unable to make diagnoses for some medical images.

6.4.2 Video and Language Understanding and Generation

Video-language generation. Video captioning or video storytelling is the task of generating a sequence of coherent sentences for a stream of video frames. Inspired by the successful use of recurrent large foundation models employed in video and language tasks, variants of agent driven enhanced models have shown promising results on the task of video-lanaguage generation. The fundamental challenge is that the strong performance of neural encoder-decoder models does not generalize well for visual storytelling, because the task requires a full understanding of the content of each image as well as the relation among different frames. One important goal for the field is to create an agent-aware text-synthesis model that can efficiently encode the sequence of frames and generate a topically coherent multi-sentence paragraph.

Video Understanding. Video understanding extends the scope of image understanding to dynamic visual content. This involves interpretation and reasoning about the sequence of frames in a video, often in conjunction with accompanying audio or textual information. An agent should be able interact with various modalities from visual, text, and also audio modalities to demonstrate their advanced comprehension of video content. Tasks in this domain include video captioning, video question answering, and activity recognition, amongst others. The leader-board in video understanding are manifold. They include the temporal alignment of visual and linguistic content, the handling of long sequences of frames, and the interpretation of complex activities that unfold over time. Regarding audio, the agent could process spoken words, background noises, music, and tone of voice to comprehend the mood, setting, and subtleties of the video content.

Figure 20: Example prompts and responses when using GPT-4V within the domain of healthcare video understanding. Weinput the example videos as 2×2 grids with overlaid text indicating the order of frames. In the first two examples, we prompt GPT-4V to examine the frames in the video to detect the clinical bedside activities performed on the volunteer patients. For the final example, we attempt to prompt GPT-4V to assess an echo cardiogram video, however due to GPT-4V’s safety training, it does not provide a detailed response. For clarity, we bold text that describes the activity of interest, and abbreviate model responses that are unnecessary. We gray-out faces from the individuals to preserve their privacy.

Figure 21: Interactive multimodal agents include four main pillars: Interaction, Speech, Vision, and Language. Co-pilot agents are made up of different services. 1) Interaction services help make a unified platform for automated actions, cognition, and decision-making. 2) Audio services integrate audio and speech processing into apps and services. 3) Vision services identify and analyze content within images, videos, and digital ink. 4) Language services extract meaning from structured and unstructured text.

Previous works have focused on employing existing video-language training data available online for establishing video foundational models (Li et al., 2020, 2021b; Fu et al., 2022; Bain et al., 2021; Zellers et al., 2021, 2022; Fu et al., 2023). Supporting such training pipelines and functionalities is, however, difficult due to the limited and often inconsistent nature of these datasets. Video foundational models are designed with masked and contrastive pretraining objectives and later tuned on their respective tasks. Despite showing remarkable results in multimodal benchmarks, these models encounter difficulties in video-only tasks such as action recognition due to their dependency on limited video-text data built from noisy audio transcriptions. This limitation also leads to the lack of robustness and fine-grained reasoning skills that large language models generally possess.

Other methods, similar to those used in image-language understanding, have drawn on the strong reasoning skills and broad knowledge of large language models to improve different facets of video interpretation. The task of video understanding is simplified by language only models like ChatGPT and GPT4 or image-language models like GPT4-V, which treat the audio, video, and language modalities as individual interpretable input data types and position the agents as strong open-source models. For example, (Huang et al., 2023c; Li et al., 2023g) transformed video understanding into a natural language processing (NLP) question-answering formulation by textualizing video content with open-source vision classification/detection/caption models. (Lin et al., 2023) integrated GPT4-V with specialized tools in vision, audio, and speech, to facilitate complex video understanding tasks, such as scripting character movements and actions in long-form videos.

Parallel research explores generating scaled datasets from large models, then applying visual instruction tuning (Liu et al., 2023c; Li et al., 2023c; Zhu et al., 2023) on the generated data. Considerable audio, speech, and visual expert perception models are subsequently used to verbalize videos. Speech is transcribed with automatic speech recognition tools, and video descriptions and related data are produced with various tagging, grounding, and captioning models (Li et al., 2023g; Maaz et al., 2023; Chen et al., 2023; Wang et al., 2023f). These techniques demonstrate how instruction tuning video-language models on generated datasets may lead to enhanced video-reasoning and communication abilities.

6.4.3 Experiments and Results

• Knowledge-Intensive Models: As introduced in INK (Park et al., 2022), and KAT (Gui et al., 2022a), an intensive neural knowledge task that incorporates required knowledge annotated by humans to support knowledge-intensive retrieval task.
• Multimodal-Agents: There has been a growing interest in multimodal language models like Chameleon (Lu et al., 2023) and MM-React (Yang et al., 2023c).
• Visual Instruction Tuning: VCL(Gui et al., 2022b), Mini-GPT4 (Zhu et al., 2023), MPLUG-OWL (Ye et al., 2023b), LSKD (Park et al., 2023c) generate image-level instruction tuning dataset.

Knowledge-Intensive Agent. As showed in Fig. 22 and Fig. 23, Knowledge-based visual question answering and vision-language retrieval tasks are challenging tasks in multi-modal machine learning that requires outside knowledge beyond image contents. Recent studies on large-scale transformers have primarily focused on maximizing the efficiency of the model’s parameters to store information. This line of research explores a different aspect: whether multimodal transformers can use explicit knowledge in their decision-making process. Pretraining methods based on transformers have shown remarkable success in implicitly learning knowledge representations across multiple modalities. However, traditional methods, mainly unimodal, have investigated knowledge retrieval and subsequent answer prediction, raising questions about the quality and relevance of the knowledge retrieved and the integration of reasoning processes using both implicit and explicit knowledge. To tackle these issues, we introduce the Knowledge Augmented Transformer (KAT), which outperforms others by 6% on the 2022 OK-VQA open-domain multimodal task. KAT combines implicit knowledge from GPT3 with explicit knowledge from websites using an encoder-decoder structure, and allows for concurrent reasoning with both knowledge types during answer generation. Furthermore, incorporating explicit knowledge enhances the interpretability of the model’s predictions. The code and pre-trained models are available at https://github.com/guilk/KAT.

Vision-language Transformer Agent. Next, we introduce the “Training Vision-Language Transformers from Cap tions” (VLC) model (Gui et al., 2022b), a transformer that has been pretrained exclusively with image-caption pairs. Despite using just a simple linear projection layer for image embeddings, VLC attains competitive results across various vision-language tasks, in contrast to other methods that depend on object detectors or supervised CNN/ViT networks.

Figure 22: Example of Intensive Neural Knowledge (INK) (Park et al., 2022) task that uses knowledge to identify text relevant to the image from a set of text candidates. Our task involves leveraging visual and text knowledge retrieved from web and human-annotated knowledge.

Figure 23: The KAT model (Gui et al., 2022a) uses a contrastive-learning-based module to retrieve knowledge entries from an explicit knowledge base and uses GPT-3 to retrieve implicit knowledge with supporting evidence. The integration of knowledge is processed by the respective encoder transformer and jointly with reasoning module and the decoder transformer via end-to-end training for answer generation.

Figure 24: The overall architecture of the VLC model (Gui et al., 2022b). Our model consists of three modules: (1) Modality-specific projection. We use a simple linear projection to embed patched images and a word embedding layer to embed tokenized text; (2) Multi-modal encoder. We use a 12-layer ViT (Dosovitskiy et al., 2021) initialized from MAE(Heet al., 2022) (ImageNet-1K without labels) as our backbone; (3) Task-specific decoder. We learn our multi-modal representations by masked image/language modeling and image-text matching which are only used during pre-training. We use a 2-layer MLP to fine-tune our multi-modal encoder for downstream tasks. Importantly, we find that the masked image modeling objective is important throughout second-stage pre-training, not only for initialization of the visual transformer.

Through extensive analysis, we explore the potential of VLC as a vision-language transformer agent. For instance, we show that VLC’s visual representations are highly effective for ImageNet-1K classification, and our visualizations confirm that VLC can accurately match image patches to corresponding text tokens. The scalability of performance with more training data highlights the promising potential for developing large-scale, weakly-supervised, open-domain vision-language models.

6.5 Video-language Experiments

To understand the practicality of converting pre-trained image-LLMs for video understanding, we temporally expand and fine-tune Instruct BLIP (Dai et al., 2023) for video captioning. Specifically, we expand the visual encoder of Instruct BLIP (EVA-CLIP-G (Sun et al., 2023b)) using the same divided space-time attention scheme as Frozen in Time (Bain et al., 2021) and keep the Q-former and LLM (Flan-T5-XL (Chung et al., 2022)) frozen during training. We freeze all spatial layers of the visual encoder, while keeping the temporal layers unfrozen during captioning training. This allows for our model to take image and videos as input (matching the image-level performance of Instruct BLIP). We train on a 5 million video-caption subset of WebVid10M (Bain et al., 2021). We visualize two example outputs in Figure 25. However, existing agents fail to fully comprehend precise, fine-grained visual details in the video content. A similar limitation is seen by visual instruction tuning methods, where they lack the general, human-level perception abilities that are remain to be solved by multimodal models and agents.

The instruction-tuned models show promise in accurately summarizing visible actions within videos and identifying actions like “person sitting on a bench” effectively in Fig. 25. However, they sometimes add incorrect details, such as “person smiling to the camera,” revealing a shortfall in capturing conversation topics or the video’s ambiance, elements that are readily apparent to human observers. This shortfall underscores another key limitation: the omission of audio and speech modalities that would enrich the video understanding with context, aiding in more accurate interpretation and preventing such misrepresentations. Bridging this gap requires a holistic integration of available modalities, allowing multimodal agents to reach a level of comprehension akin to human perception and ensuring a fully multimodal approach to video interpretation.

Figure 25: Example prompts and responses when using a video fine-tuned variant of InstructBLIP (method described in Section 6.5). Our model is able to produce long-form textual responses that describe scenes and is able to answer questions related to the temporality of events in the videos.

Figure 26: The audio-multimodal agent described in Section 6.5. Hallucinated content are highlighted in red. We use GPT-4V to generate 1) the videochat summary with video frames; 2) the video summary with the frame captions; 3) the video summary with frame captioning and audio information.

Figure 27: An interactive multimodal agent that incorporates visual, audio, and text modalities for video understanding. Our pipeline mines hard negative hallucinations to produce difficult queries for the VideoAnalytica challenge. More the related details of interactive audio-video-language agent dataset are described in Section 9.2.

Audio-Video-Language Agents with GPT-4V. We then evaluate the capabilities of GPT-4V as a multimodal agent that integrates vision, audio, and speech for a nuanced and precise understanding of videos, following the methodology outlined in (Lin et al., 2023). Results depicted in Fig. 26 compare the performance of various video agents on the task of video summarization. The video-instruction tuned model (Li et al., 2023g) provides accurate content but falls short on comprehensiveness and detail, missing specific actions like the methodical use of a broomstick to measure a tree’s height.

To enhance the accuracy of video descriptions, we employ GPT-4V to caption frames, while audio and its transcriptions are sourced from the OpenAI Whisper model. We then prompt GPT-4V to create video summaries using only frame captions and then using both frame captions and audio transcriptions. Initially, we observe that frame captions alone can lead to fabricated events, such as a person biting down on a stick in the third segment. These inaccuracies persist in the video summary, with descriptions like “in a playful twist, he bites down on it while holding it horizontally.” Without audio input, the agent cannot correct these captioning errors, resulting in descriptions that are semantically correct but visually misleading.

However, when we provide the audio transcriptions to the agent, it manages to accurately depict the content, even capturing detailed physical actions like “holding the broomstick perpendicular to the body and rotating it downwards.” This level of detail is significantly more informative and gives viewers a clearer understanding of the video’s purpose and key details. These findings highlight the importance of integrating audio, video, and language interactions to develop high-quality multimodal agents. GPT-4V emerges as a promising foundation for such advanced multimodal understanding and interaction.

Embodied Multi-modal Agents with GPT-4V. As shown in Fig. 27, We mainly used StackOverflow to get the initial Question, then we used the “Bing search” API to retrieve a related video and audio corresponding to the question. Next, we mainly use GPT-4V to get the relevant text information and high-level video description. On the other hand, we transfer the key frame audio to a low-level segment description of the key frames via ASR. Finally, we use GPT-4V to generate convincing “hallucinations” that serve as hard negative queries for video-question and answer tasks. We support interactions and question answering in the current frame of the video, as well as summarization for the overall high-level video description. During inference, we also combine external knowledge information via web search to improve answering capapbilities.

The main prompt information for GPT-4V is described as below. The entire prompt is indented for clarity; it is over one page long.

GPT-4V are an assistant to provide descriptive, informative, and full comprehensive details in the video for the visually impaired who can hear the video but cannot see. The job is to create high-quality, dense descriptions of the video by synthesizing the given annotations and output them as JSON. Specifically, GPT-4V will be given original query used to search the video, the video title, description, audio transcription, and potentially noisy descriptions for specific time in the video. Different segments of same video is annotated as “[time start- time end (in seconds)] ’text’ “. Utilize the transcriptions and descriptions all together to reason about the exact detail and visual demonstration that might be happening in the video. GPT-4V will to combine or segment the timestamps as necessary to provide the best segmentation of the video.

Expectations for GPT-4V Output:

1. Action-Oriented Descriptions: Prioritize plausible actions, motions, and physical demonstrations that the audio implies, enriching your narrative with dynamic visual cues.

2. Complete Video Coverage: Provide a continuous and consistent audio-descriptive experience that covers every moment of the video’s duration, ensuring no content is left undescribed.

3. Concise Segmentation: Construct your descriptions in focused, succinct segments of 1-2 sentences each to effectively communicate visual actions without overwhelming detail.

4. Contextual Audio-Visual Synthesis: Seamlessly blend the spoken audio content with inferred visual elements to form a narrative that reflects potential onscreen activities.

5. Imaginative and Plausible Speculation: Infuse your descriptions with creative yet believable visual details that correspond with the audio, enhancing scene comprehension.

6. Accurate Timecode Correspondence: Align your descriptive segments with corresponding time codes, ensuring that speculative visual details synchronize with the audio narrative’s timeline.

7. Confident Narrative Delivery: Present the descriptions with assurance, as though the speculated visuals are occurring, to instill confidence in the listener.

8. Omit Implausible Details: Exclude descriptions of objects or events that do not reasonably fit within the context established by the audio and visual information provided.

The final output should be structured in a JSON format containing a list of dictionaries, each detailing a segment of the video.

The final output should be structured in a JSON format containing a list of dictionaries, each detailing a segment of the video.

[‘start’: <start-time-in-seconds>, ‘end’: <end-time-in-seconds>, ‘text’: “<Your detailed single-sentence, audio-visual description here>”]

For MCCreation: our task is to create multiple-choice questions for video-to-text retrieval tasks that is trivially solved by looking at the title and reading through audio transcriptions. To do so, we will be given original query to get the video, description, audio transcription, and potentially noisy descriptions for specific time in the video.

• Format of audio transcription:-[start-end time in seconds] “transcription”
• Format of noisy description:- [time in seconds] “description”

We kindly ask GPT-4V to generate four queries, where the primary query is aligned with the video content, and the other three negatives are subtly different from our primary one. Selecting the primary one should not simply involve listening to audio transcriptions e.g. the text original query is contained in audio transcriptions. The negatives should be closely related but not fully aligned with the video content, requiring visual understanding of the video to differentiate. For example, modify the semantics in nuanced way so that one needs to watch the video than just listening to select the original query. Compile four queries in caption-like statement, with the first one being the rephrased original.

Think step by step how you can come up with negative statements using the information from the video. And justify the negative queries are incorrect but still compelling choices that demand nuanced understanding of the video. And how humans would not accidentally choose the negatives over the original query. Finally, we present the work in the following format of analyses and 4 queries. No need to generate how you translated the original query.

• Video Analysis: xxx
• Queries: [query1, query2, query3, query4]
• Justification: xxx

6.6 Agent for NLP

6.6.1 LLMagent

Recognizing task directives and taking action has been a fundamental challenge in interactive AI and natural language processing for decades. With the recent advances in deep learning, there is a growing interest in studying these areas jointly to improve human-agent collaboration. We identify three specific directions, among others, to improve language-grounded agents:

• Tool use and querying from knowledge bases. This direction emphasizes the importance of integrating external knowledge bases, web search, or other helpful tools into the reasoning processes of AI agents. By leveraging structured and unstructured data from various sources, agents can enhance their understanding and provide more accurate and context-aware responses. Furthermore, it fosters the agent’s ability to proactively seek out information when faced with unfamiliar scenarios or queries, ensuring more comprehensive and informed responses. Examples include Toolformer (Schick et al., 2023) and Retrieve What You Need (Wang et al., 2023g).

• Improved agent reasoning and planning. Enhancing the agent’s ability to reason and plan is pivotal for effective human-agent collaboration. This involves the development of models that can understand complex instructions, infer user intentions, and predict potential future scenarios. This can be accomplished by asking the agent to reflect on past actions and failures as in ReAct (Yao et al., 2023a), or by structuring the agent thought process as a form of search (Yao et al., 2023b). By simulating different outcomes and assessing the ramifications of various actions, agents can make more informed context-aware decisions.

• Incorporating system and human feedback. AI agents can frequently operate in two primary contexts: environments that provide explicit signals about the effectiveness of their actions (system feedback), and settings where they collaborate with humans who can offer verbal critiques (human feedback). This direction underscores the need for adaptive learning mechanisms that allow agents to refine their strategies and rectify mistakes, such as in AutoGen (Wu et al., 2023). The ability to continuously learn and adapt from diverse feedback sources ensures that agents remain helpful and aligned for user needs.

6.6.2 General LLM agent

Recognizing and understanding agent content and natural language has been a fundamental challenge in interactive AI and natural language processing for decades. With the recent advances in deep learning, there is a growing interest in studying these two areas jointly for deep understanding of both agent planning or human feedback for knowledge inference and natural language generation. These are the key components of many human-machine-interaction agents, such as “AutoGen”(Wu et al., 2023) and “Retrieve What You Need”(Wang et al., 2023g).

Figure 28: The training recipe used to train the Alpaca model (Taori et al., 2023). At a high level, existing LLMs are used to generate a large pool of instruction-following examples from a smaller set of seed tasks. The generated instruction-following examples are then used to instruction-tune an LLM where the underlying model weights are available.

6.6.3 Instruction-following LLM agents

Furthermore, the creation of LLM Agents that can be trained to effectively follow human instructions has become an important area of research. Initial models used human feedback to train a proxy reward model to simulate human preferences, through a process known as Reinforcement Learning with Human Feedback (RLHF) (Ouyang et al., 2022). This process produced models such as InstructGPT and ChatGPT. In order to more efficiently train instruction-following LLMagents without needing human labels, researchers developed a more efficient method for instruction-tuning that trains the LLM agent directly on instruction/response pairs, either generated by humans like Dolly 2.0(Dolly 2.0 blogpost link) or automatically from LLMs like Alpaca (Taori et al., 2023). We show the overall Alpaca training pipeline in Figure 28.

6.6.4 Experiments and Results

Despite the growing adoption of conversational and self-feedback systems, these forms of AI still do not perform well with regard to generating factually correct responses from their own implicit knowledge and therefore often use external tools like web search and knowledge retrieval mechanisms at inference-time to augment their response as a consequence. Addressing this would help create more engaging experiences for users in many real-life applications. In social conversations (such as those on social media platforms like Instagram and Facebook), or with Q+A websites (such as Ask or Quora), people usually engage with others through a series of comments and by web-searching for information and knowledge relevant to the discussion. Thus, the task of generating conversational turns in this context is not to simply bootstrap upon traditional NLP models and tasks, but to use agents to generate dialogue through intelligent behaviors that reflect knowledge search and acquisition (Peng et al., 2023). In this way, intelligent agents for NLP tasks extends the task description and improves upon the interpretability of the response by adding an explicit knowledge search and retrieval step during dialogue. Incorporating these web search and retrieval agents as feedback during dialogue will help to engage further and deeper the social interactions between humans and agents (Wang et al., 2023e). As the Fig 29 showed, we introduced a new modeling paradigm for transformer language models that detects and extracts important logical structures and information from input texts and then integrates them into the input embeddings through carefully designed multi-layer hierarchical logical projections to infuse logical structures into pre-trained language models as one kind of NLP agent. (Wang et al., 2023e) propose a novel approach to construct logic-aware input embeddings for transformer language models through a combination of logic detection, logic mapping and hierarchical logical projections, and then develop a corresponding new modeling paradigm that can upgrade all existing transformer language models into logical transformers to consistently boost their performance. The proposed logical transformer agent consistently achieve superior performance over their baseline transformer models through a deeper understanding of the logical structures of texts. To human users, it is often these aspects that are more important for delivering a meaningful and interesting conversation via a agent-based coordination between dialogue and information retrieval. Delving deep into natural language processing, this topic will discuss the advancements and leader-board in making LLMs more agentic and better suited for various language-centered tasks.

Figure 29: The logic transformer agent model (Wang et al., 2023e). We integrate a logical reasoning module into the transformer-based abstractive summarization model in order to endow the logic agent the ability to reason over text and dialogue logic, so that it can generate better-quality abstractive summarizations and reduce factuality errors.

An open-domain question answering (QA) system usually follows a retrieve-then-read paradigm, in which a retriever is used to retrieve relevant passages from a large corpus, and then a reader generates answers based on the retrieved passages and the original question. In (Wang et al., 2023g), we propose a simple and novel mutual learning framework to improve the performance of retrieve-then-read-style models via an intermediate module named the knowledge selector agent, which we train with reinforcement learning. The fine-grained knowledge selector into the retrieve-then reader paradigm, whose goal is to construct a small subset of passages which retain question-relevant information. As showed in Figure 30, The knowledge selector agent is trained as a component of our novel mutual learning framework, which iteratively trains the knowledge selector and the reader. We adopt a simple and novel approach employing policy gradients to optimize the knowledge selector agnet, using feedback from the reader to train it to select a small and informative set of passages. This approach avoids brute-force search or manually-designed heuristics, without requiring any annotated query-document pairs for supervision. We show that iteratively training the reader and the knowledge selector agent leads to better predictive performance on some public open-domain question answering benchmarks.

Figure 30: Architecture of one proposed NLP agent (Wang et al., 2023g) mutual learning framework. In each epoch, Phase 1 and Phase 2 are executed alternately. During Phase 1, the parameters of the reader model remain fixed, and only the weights of the knowledge selector are updated. Conversely, during Phase 2, the reader model’s parameters are adjusted, while the knowledge selector’s weights remain frozen.

7 AgentAIAcross Modalities, Domains, and Realities

7.1 Agents for Cross-modal Understanding

Multi-modal understanding is a significant challenge for creating generalist AI agents due to the lack of large-scale datasets that contain vision, language, and agent behavior. More generally, training data for AI agents is often modality specific. This results in most modern multi-modal systems using a combination of frozen submodules. Some notable examples are Flamingo (Alayrac et al., 2022), BLIP-2 (Li et al., 2023c), and LLaVA (Liu et al., 2023c), all of which utilize a frozen LLM and frozen visual encoder. These submodules are trained individually on separate datasets, and then adaptation layers are trained to encode the visual encoder into the LLM embedding space. In order to make further progress for cross-modal understanding for AI agents, it is likely that the strategy of using frozen LLMs and visual encoders will need to change. Indeed, RT-2, a recent visual-language model that is capable of taking actions within the domain of robotics showed significantly improved performance when jointly tuning the visual encoder and LLM for robotics and visual-language tasks (Brohan et al., 2023). 7.2 Agents for Cross-domain Understanding Akey challenge for creating generalist agents is the distinctive visual appearance and disparate action spaces across different domains. Humans possess the capability to interpret images and videos from various sources, including the real world, video games, and specialized domains such as robotics and healthcare, once they become familiar with the specific details of these areas. However, existing LLMs and VLMs often demonstrate significant differences between the data they were trained on and the varied domains in which they are applied. And notably, training agent models to predict specific actions presents a considerable challenge when trying to develop a single policy that can effectively learn multiple control systems across domains. Generally, the approach most modern works take when applying systems within specific domains is to start from a pretrained foundation model and then finetune a separate model for each specific domain. This fails to capture any commonalities between domains and results in a smaller total set of data used for training instead of leveraging each domain’s data.

7.3 Interactive agent for cross-modality and cross-reality

Developing AI agents that can successfully understand and perform tasks across different realities is an on-going challenge that has seen some recent success for image and scene generation (Huang et al., 2023a). In particular, it is challenging for agents to simultaneously understand real-world and virtual reality environments due to their visual dissimilarities and separate environment physics. Within the context of cross-reality, Sim to Real transfer is a particularly important problem when using simulation-trained policies for real-world data, which we discuss in the next section.

7.4 Simto Real Transfer

Techniques which enable models trained in simulation to be deployed in the real world. Embodied agents, especially one based on RL policies, are typically trained in simulated environments. These simulations do not fully replicate the characteristics of the real world (e.g., disturbances, light, gravity, and other physical properties). Due to this discrepancy between simulation and reality, models trained in simulation often struggle to perform well when applied in the real world. This issue is known as the “sim-to-real” problem. To solve this problem, several approaches can be taken:

• Domain randomization: domain randomization is a technique that trains a model while randomly varying parameters within a simulation environment (e.g., object appearance, sensor noise, and optical properties) in anticipation of the uncertainties and variations of the real world (Tobin et al., 2017). For instance, in the context of training a RL-based grasping skills, introducing randomness in the shapes of objects can lead to a policy capable of adapting to objects with somewhat different shapes (Saito et al., 2022).

• Domain adaptation: Domain adaptation, or domain transfer is a technique that bridges the gap between simulated and real-world domains by training models with a large number of simulated images and a smaller set of real-world images. In practical settings, unpaired image-to-image translation methods such as Cy cleGAN (Zhu et al., 2017b) are employed due to the difficulty in preparing paired images across domains. Several enhanced versions exist for reinforcement learning, including RL-CycleGAN (Rao et al., 2020), and for imitation learning, such as RetinaGAN (Ho et al., 2021).

• Improvement of simulation: Realistic simulation is a key for sim-to-real transfer. Part of this effort is achieved by a system identification techniques (Zhu et al., 2017c; Allevato et al., 2020), which aims to identify simulation parameters to mimic the real-world environments. Additionally, use of photorealistic simulators would be effective in image-based reinforcement learning (Martinez-Gonzalez et al., 2020; Müller et al., 2018; Shah et al., 2018; Sasabuchi et al., 2023). The sim-to-real transfer remains a central challenge in the study of Embodied Agents, as approaches keep evolving. Both theoretical and empirical research are essential to advance these technologies further.

8 Continuous and Self-improvement for Agent AI

Currently, foundation model based AI agents have the capacity to learn from multiple different data sources, which allow for more flexible sources for data for training. Two key consequences of this are (1) user and human-based interaction data can be used to further refine and improve the agent and (2) existing foundation models and model artifacts can be used to generate training data. We discuss each of these in more detail in the following sections, but we note that since current AI Agents are largely tied to existing pretrained foundation models, they generally do not learn from continuous interaction with their environments. We think this is an exciting future direction, and initial work by Bousmalis et al. has shown that self-improving agents for robotic control are able to continuous learn and improve through environmental interactions without supervision (Bousmalis et al., 2023). 8.1 Human-based Interaction Data The core idea behind using human-based interaction data is to leverage a large number of of agent-human interactions to train and improve future iterations of the agent. There are several strategies used to improve agents from human-agent interactions.

• Additional training data Perhaps the simplest usage of human-agent interactions is to use the interaction examples themselves as training data for a future iteration of the agent. This generally requires filtering strategies to differentiate successful agent examples from unsuccessful interaction examples. Filtering can be rules-based (e.g., reaching some desired end goal state), model-based (e.g., classifying successful vs unsuccessful interactions), or manually selected after a post hoc inspection and/or modification of the interaction examples.

• Human preference learning During interaction with the user, the agent system can prompt the user with several different model outputs and allow for the user to select the best output. This is commonly used by LLMs like ChatGPT and GPT-4, whereby users can select one output (out of several) that aligns best with their preferences.

• Safety training (red-teaming) Red-teaming within the context of Agent AI refers to having a dedicated team of adversaries (either human or computer) that seek to exploit and expose weaknesses and vulnerabilities within the Agent AI system. Although adversarial in nature, red-teaming is commonly used as a means for understanding how to improve AI safety measures and reduce the occurrence of harmful outputs. The core principle is to discover consistent methods for inducing unwanted agent outputs so that the model can be trained on data that explicitly corrects this behavior.

8.2 Foundation Model Generated Data

With the advent of powerful foundation model artifacts produced by academia and industry, there have been a variety of methods developed to extract and generate meaningful training data from these artifacts using a variety of prompting and data-pairing techniques.

• LLMInstruction-tuning Methods for generating instruction-following training data from LLMs have allowed for the finetuning of smaller, open-source models based on the outputs of larger proprietary LLMs (Wang et al., 2022b). For example, Alpaca (Taori et al., 2023) and Vicuna (Zheng et al., 2023) are LLMs based on the open-source LLaMA family (Touvron et al., 2023) that have been tuned on various outputs from ChatGPT and human participants. This method of instruction tuning can be viewed as a form of knowledge distillation, where the larger LLM serves as a teacher model to a smaller student model. Importantly, although LLM instruction-tuning has been shown to transfer the writing style and some instruction-following capabilities of the teacher model to the student model, significant gaps still exist between the factuality and capabilities of the teacher and student models (Gudibande et al., 2023).

• Vision-language pairs A number of recent works have sought to increase the number of diversity of pretraining data available to visual-language models by automatically generating captions and other text for visual content. For example, LLaVA (Liu et al., 2023c) uses 150,000 examples of instruction-following behavior from textual and visual inputs that are mainly LLM-generated. Other work has shown that using VLMs to re-caption images can improve the training data and subsequent quality of image generation models (Segalis et al., 2023). Within the realm of video understanding, using VLMs and LLMs to recaption videos has been shown to improve the performance and quality of subsequent VLMs trained on the recaptioned videos (Wang et al., 2023f; Zhao et al., 2022).

9 Agent Dataset and Leaderboard

To accelerate research in this domain, we propose two benchmarks respectively for multi-agent gaming and agentic visual language tasks. We will release two new datasets- “CuisineWorld” and “VideoAnalytica”- and a set of baseline models, encouraging participants to explore new models, systems, and submit their results on the test set of our leaderboard.

9.1 “CuisineWorld” Dataset for Multi-agent Gaming

CuisineWorld is a text-based game reminiscent of Overcooked! It offers a platform for AI-powered agents to cooperate and play in tandem. This dataset will test the collaboration efficiency of multi-agent systems, offering insights into how well LLMs and other systems can work together in dynamic scenarios. In particular, the dataset will focus on how well the agents understand goals, and how well the agents can coordinate among themselves. Two types of modes are supported in this dataset: a centralized dispatcher mode and a decentralized mode. Participants can choose a play mode and make a submission to our leaderboard.

9.1.1 Benchmark

For our competition, we will release a benchmark, the CuisineWorld benchmark, which includes a text interface that includes extendable task definition files, and an interface for multi-agent interaction, and human-machine interactions. Weintroduce the gaming interaction task in which the goal is to generate relevant, appropriate, multi-agent collaboration strategies that can maximize collaboration efficiency. We evaluate the collaboration efficiency with the proposed evaluation metric: CoS. The “CuisineWorld” dataset was collected by Microsoft, UCLA, and Stanford University. The goal of the competition is to explore how different, existing and novel, grounded-LLM and interactive techniques perform with this benchmark and establish strong baselines for the task of multi-agent gaming infrastructure. The dataset of CuisineWorld includes:- Aselection of well-defined multi-agent collaboration tasks.- An API system to facilitate agent interactions.- An automatic evaluation system. (The link for downloading the dataset will soon be made available and this article will be updated to include it here.)

9.1.2 Task

• Weprovide a dataset and related the benchmark, called Microsoft MindAgent and and correspondingly release a dataset “CuisineWorld” to the to the research community.

• Wewill provide benchmarks to evaluate and rank the submitted “MindAgent” algorithms. We will also provide baseline results generated using popular infrastructures. 9.1.3 Metrics and Judging The quality of multi-agent collaboration efficiency is determined by the new “cos” auto-metric (from MindAgent (Gong et al., 2023a)). The final rating of out metric is calculated as an average over the evaluated collaboration efficiency metrics of the multi-agent system on all tasks. Human evaluators will be asked to rate individual responses as well as provide subjective judgement of the engagement, breadth and an overall quality of the users’ interactions with the agents. 9.1.4 Evaluation

• Automated Evaluation. We plan to release a leaderboard, starting on the release date (TBA), registered participants will be asked to submit their results on the task associated with the dataset “CuisineWorld” (our publicly released dataset for the leaderboard). Submission of results will be closed on the end date (TBA). Each team will be required to submit their generated results on the testing set for automated evaluation of the “cos” metric.

• HumanEvaluation on our leaderboard. The leaderboard participants will need to provide a submission f ile generated by evaluation scripts locally. We will use the evalAI system to check the submission file and optionally rerun the code for top challenge contenders. Therefore, teams must also submit their code with a Readme file on how to run their code. Human evaluation will be performed by the organization team.

• Winner Announcement. We will make an announcement of the winners and post the final ratings of the submissions on our leaderboard.

9.2 Audio-Video-Language Pre-training Dataset.

We introduce VideoAnalytica: a new benchmark for analytical video demonstration comprehension. VideoAnalytica focuses on leveraging video demonstrations as aids to better understand complex, high-level reasoning embedded within long-formed instructional videos. The objective is to evaluate the cognitive reasoning abilities of video language models, pushing them beyond mere recognition tasks and basic comprehension, towards a more sophisticated and nuanced understanding of videos. Crucially, VideoAnalytica emphasizes the integration of multiple modalities, such as audio, video, and language, as well as the ability of models to apply domain-specific knowledge, to contextualize and interpret the information presented in the videos. Specifically, VideoAnalytica involves two primary tasks: 1. Video Text Retrieval: This task involves accurately retrieving relevant text from the instructional videos. The challenge lies in distinguishing between relevant and irrelevant information, thus requiring a deep understanding of the video content, and analysis of the demonstration to retrieve the correct query. To further increase the complexity of these tasks, we introduce hard negatives into our datasets generated by large language models. We run human validation on the generated negatives and remove instances that make the task invalid and unfair (e.g. negatives being valid). 2. Video Assisted Informative Question Answering: This task requires the model to answer questions based on the information extracted from the videos. The focus is on complex questions that require analytical reasoning and a thorough comprehension of the video demonstration. To facilitate the development of an audio-video-language agent for analytical video understanding, we introduce a benchmark leaderboard for the two tasks from VideoAnalytica.

• The leaderboard participants will need to submit their solutions for evaluation. The evaluation will be based on the model’s performance on the two tasks, and the results will be displayed on the leaderboard. Participants are required to submit their code, along with a detailed explanation of their approach and methodology.

• Ethical considerations: The leaderboard focuses on understanding and interpreting video content, which could potentially be used in surveillance or other privacy-invasive applications. Therefore, it’s crucial to consider the ethical implications and potential misuse of the technology. We encourage participants to consider these aspects in their submissions and promote the ethical use of AI.

10 Broader Impact Statement

This article and our associated forum (https://multimodalagentai.github.io) aim to be a catalyst for innovative research, fostering collaborations that will drive the next wave of AI applications. By focusing on multimodal agents, we emphasize the future direction of human-AI interactions, leader-board, and solutions. We detail three ways in which we make significant contributions to the broader community.

Firstly, we hope our forum grounds AI researchers to develop solutions motivated by real-world problems in gaming, robotics, healthcare, and long-video understanding. Specifically, the development of multimodal agents in gaming could lead to more immersive and personalized gaming experiences, thereby transforming the gaming industry. In robotics, the development of adaptive robotic systems could revolutionize industries ranging from manufacturing to agriculture, potentially addressing labor shortages and improving efficiency. In healthcare, the use of LLMs and VLMs as diagnostic agents or patient care assistants could lead to more accurate diagnoses, improved patient care, and increased accessibility to medical services, particularly in underserved areas. Furthermore, the ability of these models to interpret long-form videos could have far-reaching applications, from enhancing online learning to improving technical support services. In general, the topics covered in our forum will have significant downstream effects on a wide range of industries and humans across the world.

Secondly, we hope our forum stands as a valuable resource for AI practitioners and researchers alike, serving as a platform to explore and deeply comprehend the diverse and complex leader-board that come with implementing AI agents across a wide variety of environments and situations. This exploration includes, for instance, understanding the specific limitations and potential hazards linked to Agentic AI systems when they are developed for specialized sectors such as healthcare diagnostics. In this domain, issues like dangerous hallucinations in AI behavior can pose significant risks, highlighting the critical need for meticulous design and testing. However, these specific leader-board may not be equally relevant or noticeable when considering AI agents crafted for the gaming industry. In such recreational fields, developers might instead prioritize tackling different hurdles, such as the need for AI to perform more open-ended generation and exhibit creativity, adapting dynamically to unpredictable gameplay scenarios and player interactions. By attending the forum, participants will gain insights into how these varied environments dictate the focus and direction of AI development, and how best to tailor AI solutions to meet these distinct needs and overcome the pertinent leader-board.

Thirdly, the various elements of our event, including the expert presentations, informative posters, and notably the winners of our two leader-board, are set to offer a substantive yet succinct overview of the latest and significant trends, research directions, and innovative concepts in the realm of multimodal agents. These presentations will encapsulate pivotal findings and developments, shining a light on new systems, ideas, and technologies in the field of mulitmodal agent AI. This assortment of knowledge is not only beneficial for the attendees of our forum, who are looking to deepen their understanding and expertise in this domain, but it also serves as a dynamic and rich resource board. Those visiting our forum’s website can tap into this reservoir of information to discover and understand the cutting-edge advancements and creative ideas steering the future of multimodal agent AI. We strive to serve as a useful knowledge base for both newcomers and veterans in the field. By engaging with these resources, we hope participants and online visitors alike can remain informed of the transformative changes and novel approaches that are shaping the exciting landscape surrounding multimodal agent AI.

11 Ethical Considerations

Multimodal Agent AI systems have many applications. In addition to interactive AI, grounded multimodal models could help drive content generation for bots and AI agents, and assist in productivity applications, helping to re-play, paraphrase, action prediction or synthesize 3D or 2D scenario. Fundamental advances in agent AI help contribute towards these goals and many would benefit from a greater understanding of how to model embodied and empathetic in a simulate reality or a real world. Arguably many of these applications could have positive benefits. However, this technology could also be used by bad actors. Agent AI systems that generate content can be used to manipulate or deceive people. Therefore, it is very important that this technology is developed in accordance with responsible AI guidelines. For example, explicitly communicating to users that content is generated by an AI system and providing the user with controls in order to customize such a system. It is possible the Agent AI could be used to develop new methods to detect manipulative content- partly because it is rich with hallucination performance of large foundation model- and thus help address another real world problem. For examples, 1) in health topic, ethical deployment of LLM and VLM agents, especially in sensitive domains like healthcare, is paramount. AI agents trained on biased data could potentially worsen health disparities by providing inaccurate diagnoses for underrepresented groups. Moreover, the handling of sensitive patient data by AI agents raises significant privacy and confidentiality concerns. 2) In the gaming industry, AI agents could transform the role of developers, shifting their focus from scripting non-player characters to refining agent learning processes. Similarly, adaptive robotic systems could redefine manufacturing roles, necessitating new skill sets rather than replacing human workers. Navigating these transitions responsibly is vital to minimize potential socio-economic disruptions. Furthermore, the agent AI focuses on learning collaboration policy in simulation and there is some risk if directly apply ing the policy to the real world due to the distribution shift. Robust testing and continual safety monitoring mechanisms should be put in place to minimize risks of unpredictable behaviors in real-world scenarios. Our “VideoAnalytica” dataset is collected from the Internet and considering which is not a fully representative source, so we already go through-ed the ethical review and legal process from both Microsoft and University Washington. Be that as it may, we also need to understand biases that might exist in this corpus. Data distributions can be characterized in many ways. In this workshop, we have captured how the agent level distribution in our dataset is different from other existing datasets. However, there is much more than could be included in a single dataset or workshop. We would argue that there is a need for more approaches or discussion linked to real tasks or topics and that by making these data or system available.

We will dedicate a segment of our project to discussing these ethical issues, exploring potential mitigation strategies, and deploying a responsible multi-modal AI agent. We hope to help more researchers answer these questions together via this paper.

12 Diversity Statement

By examining the adaptability of AI agent models in various domains, we inherently embrace a diversity of leader-board, perspectives, and solutions. In this vein, our project aims to build a diverse community by exploring the wide array of subjects in multimodal and agentic AI.

With these principles in mind, this project focuses on advanced multimodal systems that interact effectively within both physical and virtual environments and facilitate effective interaction with humans. As such, we intend to engage a broad range of experts and practitioners across a wide-range of technical specialities, cultures, countries, and scholarly f ields to discuss important topics, including but not limited to:

• Application of foundation models: the development of agents with integrated modalities (audio, image, text, sensor inputs), aiming to enhance their recognition and response capabilities for a wide variety of applications.
• General-purpose end-to-end systems: the development of end-to-end models that are trained with large-scale data, seeking to create versatile and adaptable AI solutions.
• Methodologies for grounding modalities: integrating information across various modalities, enhancing the coherence and efficacy of data processing.
• Intuitive human interface: the development of effective and meaningful interaction between humans and agents.
• Taming LLM/VLMs: exploring new approaches to address common issues in large-scale models, such as hallucinations and biases in their outputs.

We aspire to broaden our collective understanding of the potential and limitations of agentic AI by leveraging our unique and diverse perspectives. We strongly believe that this approach will not only enrich individual perspectives, but will also enhance the community’s collective knowledge and promote a holistic view that is more inclusive of the wide-ranging leader-board faced by multimodal AI agents.

2026-03-15
李文奇：尼布楚谈判待议地区问题再探——以满文文献为线索

康熙二十八年(1689)签订的《尼布楚条约》确定了除乌第河流域外中俄两国的东段边界，但仍遗留下诸多问题。长期以来，由于缺乏相关档案史料，谈判中如乌第河待议地区的范围、乌第河与诺斯山的位置以及乌第河待议地区的性质等诸多问题存在争议。

目前对于乌第河待议地区的研究主要有三种观点，一是认为未定界范围为整个乌第河流域；①二是认为未定界范围为乌第河以南，外兴安岭以北；②三是认为未定界范围为外兴安岭东北支诺斯山以南，外兴安岭以北。③对于诺斯山位置问题，学界关注较少，且现有研究往往将其同乌第河待议地区联系起来。一是认为诺斯山为今朱格朱尔山脉的一部分，④二是认为其为外兴安岭最东端靠海处的一座山峰，⑤三是认为在楚科奇半岛。⑥

近年来对满文档案的利用为研究这一系列问题提供了全新的史料支持。满文文献《钦差大臣与俄国使臣交涉尼布楚国境记录》为尼布楚谈判中方代表团索额图等人交给康熙帝的汇报文件，原件保存于中国社会科学院民族学与人类学研究所图书馆。⑦而在中国第一历史档案馆所藏康熙朝满文宫中档中，亦有与《钦差大臣与俄国使臣交涉尼布楚国境记录》一致的记载。经笔者校对，其中第一历史档案馆题名为《议奏中俄尼布楚条约原件》的档案与《钦差大臣与俄国使臣交涉尼布楚国境记录》内容大致一致，且更加全面，补全了《钦差大臣与俄国使臣交涉尼布楚国境记录》中缺失的部分，但其中有部分内容有所差别。故可将二者相互对照使用，结合其他满文档案、地图等史料，对尼布楚条约中的待议地区范围、谈判中所提及诺斯山位置等问题进行考察，如有不当之处，敬请指正。

一、谈判中的诺斯山与乌第河

诺斯山，其名由雅库特语音译而来，⑧在中文文献中有“诺兹山”“诺寺山”“诺斯哈达”“诺斯阿林”等别名，满文中为“noosa alin” “nosy alin” “noosa hada”，在俄文文献中亦曾以“圣岬”“圣诺斯山”之名出现。诺斯山在其他外文中有多种写法，“noz” “noose” “noss”“noosa”都曾在不同的文献记载中出现过。乌第河，中文文献中曾以“乌第尔河”“无底儿河”出现，在满文中为“udi bira” “udir bira”，俄文中为“Удa” “Удью”。

有学者认为待议地区为诺斯山以南，外兴安岭以北，因此在此处先对诺斯山的位置进行探讨。首先，有必要对尼布楚谈判中所提及的诺斯山是山峰还是山脉这一问题进行讨论。在满语中，“alin”一词用于指“山川之山”，⑨而“hada”一词用于指“山峰之峰”，⑩二者所指对象有着明确的不同。但在对于诺斯山的记载中，出现了二者混用的现象。台北“故宫博物院”藏都统郎谈绘制的《吉林九河图》(11)《口外九大人图》(12)中，在极东北处延伸入海的山脉上标注满文“noosa alin”，即为诺斯山。而在《乾隆十三排图》(13)中，在“一排东一”中所标注的却为“诺斯哈达”，即为满文诺斯山的汉文音译。在《盛京五路图》(14)中则更为明显，在延伸入海并分为两支的山脉处标注为“nosy alin”。在关于尼布楚谈判出使报告的满文档案中，亦称其为“nosy alin”。在参与尼布楚谈判的传教士张诚、徐日升的记载中，诺斯山均是以“诺斯山脉”出现。俄方则记载为：“由格尔必齐河源开始，向东北方向延伸至东北海，最后以一道直接伸向海边的山脉告终。”(15)综上，可以初步认为，在尼布楚谈判中提及的诺斯山应当指的是山脉，而非山峰。

至于诺斯山的位置，《张诚日记》中记载：“这支山脉(诺斯山)抵达海滨之处，约在北纬80°。”(16)徐日升在其日记中则记载：“诺兹山脉……在北纬75度……一直延伸到北极。”(17)从中可见，张诚与徐日升均认为诺斯山地处极北，临近北极。但是从现今的俄罗斯远东地区地形图来看，张诚所记的北纬80度左右为北冰洋，不存在陆地，而徐日升所记北纬75度线所经地区也不存在大型山脉。因此，张诚与徐日升所记的诺斯山位置并不是其实际位置。考虑到当时的测绘技术以及当时欧洲人对远东地区地理的认知程度，以及清朝并未在此处开展地理测绘工作，张诚与徐日升所记的纬度很可能只是为了夸张地表现出诺斯山地处极北，至于其具体位置所在，二人并不知晓。

俄方代表团出使报告的正文中也有对诺斯山位置的阐述：“圣诺斯很早以前就隶属俄国方面的雅库次克寨”“从圣诺斯起，有些河流从该岭流入沙弗利河(也称乌第河)”“从圣诺斯到沙弗利河(也称乌第河)，需要走十个礼拜左右，而从沙弗利河到直接连海的另一条山脉(许多河流发源于该山脉并流入大河阿穆尔河)，需要走八个多礼拜。”(18)由上可知，出使报告所记载的诺斯山位置应当离现雅库茨克不远，且位于或部分位于乌第河流域。从乌第河流域的地形来看，乌第河夹于南北两条山脉之间，诺斯山当在乌第河流域的北方，即为北侧山脉，南侧山脉即报告中所提的“另一条山脉”，应当为黑龙江流域的分水岭之一，即为外兴安岭一支。

在《十七世纪俄中关系》中出使报告的注释部分，有苏联学者对诺斯山位置的探讨，认为诺斯山位于某一半岛临海之地，进而推测诺斯山位于楚科奇半岛，并以1706年德里尔所制地图为依据，认为“西伯利亚东北角的顶端是一个长长的半岛”，即为诺斯山。(19)同时，注释中还认为1714年利沃夫所制地图中位于楚科奇半岛的“阿纳德尔诺斯”亦是尼布楚谈判中中方所提之诺斯山。但是，注释中的这种推测与正文中俄方代表团的出使报告不符。出使报告中明确表明，诺斯山在雅库茨克附近，由乌第河至诺斯山需行十周，而楚科奇半岛距雅库茨克甚远，且绝非由乌第河行进十周可至之地。由此观之，诺斯山应不在楚科奇半岛。这一推断有其他材料可以加以佐证，1687年中方送至雅克萨的劝降书上曾说道，“即将返回的人们，回到你们的故土去吧，或越过诺斯，或到勒拿河上，回到那个地方去过活吧。”(20)如果诺斯山位于楚科奇半岛，那么令盘踞在黑龙江畔雅克萨的俄军不远万里跋涉至楚科奇半岛返回俄境就显得尤为荒谬。若诺斯山位于外兴安岭或朱格朱尔山脉则更符合逻辑，在外兴安岭以北、朱格朱尔山脉以西，有俄方于1632年建立的据点雅库茨克，令入侵俄军返回雅库茨克较之令俄军越过楚科奇半岛而言更为合理。

参与谈判清方使团的记载对于确定诺斯山位置无疑是最有力的证据，在使团代表索额图奏报康熙帝的《议奏中俄尼布楚条约原件》中，提出以诺斯山为界的划界方案如下：

再，自北方注入黑龙江，被称为绰勒纳的乌伦河附近的格尔必齐河为界，沿此河源方向纯石的大兴安岭的山脊，直到深入大海的诺斯山，山阳归我，山阴归俄罗斯。

黑龙江南岸归我，北岸归俄罗斯。

再，恩吉德河直到色楞格河对岸的楚克归喀尔喀。(21)

可以看出，中方代表在谈判中所提及的诺斯山，在中方代表的认知中应当同外兴安岭接续，并一路延伸至大海。在这一地区，朱格朱尔山脉与外兴安岭东段北支均同这一描述相一致。在中方提出这一划界方案后，俄方代表旋即表示反对：

诺斯山者，乃贵国之人向未到达之处。不言诺斯山，诺斯山这边之乌第河，贵国人亦不曾涉足。(22)

随后，索额图等人询问使团中的地方官员以及其他使团成员，情况是否如俄方代表所言，得到回复如下：

都统郎谈、班达尔善，护军统领马喇，黑龙江将军萨布素言：“都只是听说诺斯山、乌第河之名，咱们国家的人尚且一次也没到过。”(23)

从中方使团成员并未对此进行反驳可以看出他们对这一地区的地理缺乏认知，但也大致知道诺斯山应当与乌第河相邻，与郎谈《吉林九河图》《口外九大人图》所绘的诺斯山相一致。据日本学者吉田金一考证，《吉林九河图》即为尼布楚谈判中清朝使团所用之地图。(24)在此处档案中，二图的绘制者郎谈称未去过诺斯山，且《口外九大人图》绘制完成于康熙二十九年(1690)。(25)再加上日本学者松浦茂考证出郎谈在《尼布楚条约》签订后进行的九路巡边中并未翻过外兴安岭。(26)那么《吉林九河图》中诺斯山部分很可能受到俄罗斯使团影响或巡边成员询问当地鄂伦春等部落向导后画出，而非实勘绘制，并以此为基础影响了后续地图中诺斯山的形象。再加上诺斯山之名本非满语词汇，而属雅库特语音译，其分布也应当位于雅库特人居住之区域。雅库特人最晚在1686年就已经出现在乌第河流域，(27)因此乌第河北侧的分水岭为雅库特人所认知。

综上可以推断，清朝谈判人员在尼布楚谈判期间并不明晰诺斯山的具体情况，其在谈判中所指代的山脉应当为乌第河以北的外兴安岭东段北支。并且由于清朝方面对这一地区缺乏地理认知，故只知晓诺斯山源于外兴安岭，而不知晓其延伸向何方，未认识到乌第河以北的山脉同今朱格朱尔山脉等山脉并非为同一山脉，因而在《吉林九河图》等地图中构筑出了一条理想化的一直延伸入海的“诺斯山脉”，并因此被后世错误解读成一直延续至楚科奇半岛。

在谈判过程中，郎谈、班达尔善、马喇以及萨布素都称中国人未曾到达过乌第河。然而依据《黑龙江将军衙门档》记载，在尼布楚谈判之前的康熙二十三年(1684)，黑龙江鄂伦春人立克顶格便曾到达过乌第河流域：“我等随心所欲，越过罗刹居住之乌第尔河(udir bira)，游牧打牲行走至海。”(28)此处乌第尔河即乌第河。此外，亦有从乌第河流域前来的俄国人称其在乌第河流域筑有城池：“有罗刹前来我等游牧之地，向我等言称：我等在海的方向的无底儿河筑城居住。”(29)很明显，相对于诺斯山，黑龙江将军萨布素应当对乌第河更为熟悉，了解乌第河的所在，知晓乌第河有俄罗斯人筑城定居，且乌第河流域也并非中国人足迹未及之处。但为何在此处，萨布素对索额图称中国人未曾到达此地？在俄罗斯藏《黑龙江档》中记载：

罗刹居住之乌第尔河城之处，水路可通。若有可用马运抵红衣炮之路，我等遵照应派大军前往。鄂伦春等先前无定居之地，与达斡尔等易米时，在西里木迪约定地点，一年贸易一次。贸易结束后，游牧打猎，越过罗刹，返回到海的游牧之人。没有水路运送红衣炮，通往罗刹居住之乌第尔河之城。所以，不可派兵。(30)

萨布素在此时已经初步制订了作战计划，可见其有收复领土、维护边疆稳定的想法。但后来的情报中称无法将火炮输送至乌第河，这将使得清军缺乏攻城所需的武器。且翻越外兴安岭作战，清军即使能抵达俄人据点也将因长途跋涉而筋疲力尽，致使战斗力下降。同时，清军的补给线能否延伸至乌第河城亦是一个问题。

出于以上原因，萨布素在面对索额图的询问时缺乏声索这一地区领土的信心，因而为求稳妥选择谎称中国人未曾去过乌第河地区，进而使中方在谈判中对这一地区让步。

二、《尼布楚条约》待议地区的范围与性质

对于《尼布楚条约》待议地区范围的问题，《尼布楚条约》本身无疑是最有力的证据。谭其骧主编的《中国历史地图集》中对于这一地区的描绘亦是基于《尼布楚条约》满文本和俄文本制成的。(31)《尼布楚条约》满、俄、拉丁文三种文本的解读存在着差异，以下将三种版本关于待议地区的记载作对比，同时结合《议奏中俄尼布楚条约原件》对待议地区范围问题进行探讨。在《尼布楚条约》拉丁文本中，关于乌第河待议地区的记载如下：

惟介于乌第河和指定为边界的一系列山脉之间的任何陆地以及流入大海的河流，都暂时搁置。(32)

拉丁文本中，并未说明作为界山的山脉具体为何，仅是给出了一个大致的方向。待议地区也是乌第河与这支山脉之间。

而俄文本记载如下：

其余位于俄罗斯国家统治下的乌第河以及位于中国统治下的阿穆尔河附近的山脉中间流入大海的河流和陆地，在边界确定之前仍然维持现状。(33)

俄文记载中，亦未标明界山之名，仅称“阿穆尔河附近的山脉”，待议地区的范围为乌第河与这支山脉间的河流与陆地。由于未指明山脉名称，俄文记载令俄方能够更加灵活地解释条约内容，也使其成为后来入侵黑龙江流域的借口。后俄国经由黑龙江运兵时称“自乌迪河以东，黑龙江附近地方，原未分辨疆界”。(34)故意略去条约中的部分内容，来试图将待议地区向中国领土方向拓展。

满文则记载为：

惟乌第河以南，已确定的兴安岭以北，两处之间的一切土地河川暂使其中立。(35)

满文的记载明确指出界山即为“兴安岭”，并指出待议地区是乌第河以南。

可见，《尼布楚条约》三种不同文本中对于待议地区的划定大致都认为在乌第河至外兴安岭间。结合上文对于诺斯山位置的探讨，能够据此推翻谈判待议地区位于诺斯山以南，外兴安岭以北的说法。但是否指乌第河以南，拉丁文本与俄文本仍有模糊之处，而满文本则清晰地指出待议地区的范围是乌第河以南。三种文本中对于乌第河待议地区性质的记录也略有不同，满文本与拉丁文本的记载可以认为是将乌第河流域视为真空区，而俄文本的记载则是将乌第河流域“维持现状”。考虑到此时乌第河流域已经有俄国人建立的据点，很明显俄文文本传达出的隐意即是将乌第河流域由俄方暂管。

对于条约文本的分歧，满文档案中索额图使团的报告无疑是探求这一系列问题真相的有力证据之一。首先，对于待议地区范围，除上文提及“搁置乌第河地方使其暂时中立，以后再做商议”外，索额图在这一谈判记录中亦有其他关于乌第河待议地区的记载，这一提议是俄方代表最先提出的：

再，我等之察罕汗不曾降旨，若私自断理诺斯山之事，非但我等无颜面，我等身家性命尽皆不保矣。大人们慈悲为怀，可否体恤考虑此情，若大人定要此处，暂且搁置中立，我向我等之察罕汗请旨再交付，等语。(36)

俄方代表在拒绝中方以诺斯山划界的方案后，又称不能直接将诺斯山划给中国，只能暂时作为待议地区，等其返回禀报沙皇后，才能对诺斯山地区进行处置。由于中方使团成员称只是听说诺斯山、乌第河地区，加之俄方代表主动示弱，在讨论后中方使团为表诚意，也主动表示愿意对此做出让步：

再喀尔喀尚未安定，极为混乱，臣等共同商议，诺斯山、喀尔喀地方不谈，搁置乌第河地方暂使其中立，日后再议。(37)

随后双方便达成共识，具体如下：

惟乌第河以南，已确定的兴安岭以北，查明两处之间的一切土地后，将此或遣使商议，或行文商定，以后再做决定。(38)

由上可见，索额图的出使报告中的条约文本与《尼布楚条约》中的满文本内容大致相当，其中“已确定的兴安岭”即为外兴安岭。但对于待议地区的范围前后的记述不一致，前文提及在谈判过程中，中方使团商议后提出待议地区为整个乌第河流域。但在此处，待议地区又变成了乌第河以南，外兴安岭以北，如此反复之处，可能是在谈判过程中又同俄方代表讨价还价后得到的结果，亦可能是前文所提及之“乌第河地方”仅指乌第河以南、外兴安岭以北这片区域。

对于这一地区的性质，出使报告中未过多说明，仅言“暂时中立”，但能够看出，清朝对于待议地区的态度并非如俄文版本那样仅仅是为了维持现状。

在乾隆三十年(1765)黑龙江将军富僧阿主持的巡边行动中，副都统瑚尔起登上外兴安岭山脊，查看乌第河并记载如下：

登高眺望，从兴安山脊以西，分出二支脉，我们登上的兴安山脊，南支东南走向，北支沿兴安山脊呈东北走向，自二者间西侧，有一河向东流去，问鄂伦春向导，答曰：“乌第河”。望我等所登之兴安山脊之阴，全无俄罗斯人行迹，亦不见人烟。(39)

富僧阿此次巡边即是为确定中俄之间的边界并绘制地图，其仅行至外兴安岭山脊，看到待议地区无俄国人踪迹，便未继续前往乌第河地区。此或出于巡边官员将这一地区视为缓冲区或真空区，因而在未发现俄方进入此处时，也未进入此地。1777年，由于俄国人自乌第河城南下，进入兴衮河(俄文史料记载为阿姆贡河)一带，“中国政府用威胁的口吻声称，如果俄国人不停止在尚未划定边界的土地上经略活动，那么中国将中断恰克图的一切贸易关系”。(40)此处不谈俄方所言待议地区的范围，仅从此事看，清政府认为的待议地区仍应当是作为双方都不应进入的真空区。

在咸丰元年(1851)，俄国萨纳特衙门咨文理藩院：“最近本衙门得到关于外国船只航进黑龙江口，且在那些船中，还有许多战舰。”(41)1847年穆拉维约夫担任西伯利亚总督后，俄国多次进犯黑龙江流域。在此事发生前的1850年，俄国海军军官涅维尔科伊率领炮舰强占庙街，宣称“这一海湾沿岸地带和整个阿穆尔沿岸地区直至朝鲜边界，连同萨哈林岛在内均为俄国所领有”。(42)这次俄国再次向清政府称有外国船只进入作为中国内河的黑龙江，自然也就带有将已强占地区合法化的意图，清政府得知此消息后旋即派人巡查中俄边界以及黑龙江。佐领敖拉·昌兴作为巡查成员之一，奉命“先巡察罗刹动向，再派赴乌第河干”，(43)其留下诗作《巡查额尔古纳、格尔必齐河流域》多次提及乌第河流域，其中“从外兴安岭之巅，到乌第河滨，一段一段累算，艰苦跋涉二百余里”(44)能够看出敖拉·昌兴巡视中俄边界时到达过乌第河。在此时巡视乌第河待议地区，无疑是清政府将乌第河以南地区视为自己的管辖领域，而此次巡边也正是清朝面对近代边疆危机的积极应对。清政府对于外国军舰进入黑龙江江口等事件做出回应，宣示了对于这一地区的主权，同时也意图借此次巡边为边界布防提供参考。

由此观之，清朝对于乌第河以南待议地区性质的认识存在一个转变的过程。最初，乌第河待议地区被视为一个中立的缓冲地区，俄方不进入其中的情况下，清朝也选择不进入。但随着周边局势的演变以及清政府对于近代边界体系认知的进步，清朝意识到这一待议地区，因而加紧对其主权的宣示。

结语

在1689年中俄尼布楚谈判中，中方所提出的以诺斯山为界这一提案遭到俄方否决一事以及后面双方对于诺斯山地区以及乌第河流域的处理，都是在双方对这一地区的地理情况不甚了解的情况下做出的。这使得中俄谈判当中对于东部边界的划分产生了较大的冲突与分歧，也使在《吉林九河图》等地图中诺斯山东段的位置与走向存在着问题。

诺斯山作为一条雅库特语命名的山脉，清朝方面对其理解仅限于其西段，并不知晓其东段走向为何，因而在谈判过程中选择放弃该地区。而乌第河地区作为中方在先前就已经探查过并有一定了解的地域，清朝在谈判中保留了继续声索主权的机会。

至于乌第河待议地区的范围，索额图的《议奏中俄尼布楚条约原件》记述了尼布楚谈判中对于这一地区的拉锯，也记录了中方使团是如何在这一地区做出让步的，即从俄方提出将诺斯山、乌第河地区作为待议地区到中方放弃诺斯山，仅将乌第河南岸作为待议地区。由此得知，《尼布楚条约》中乌第河待议地区的范围即为乌第河以南到外兴安岭以北，而非整个乌第河流域，也不是诺斯山以南到外兴安岭以北。

清朝对于乌第河待议地区性质的认识也经历了一个演变的过程。最初，清朝将待议地区视为中俄间的缓冲区、真空区。但随着鸦片战争以后中国近代边疆危机的出现以及传统边疆观念遭到冲击，清朝对《尼布楚条约》中规定的这一地区待议性质有了全新的认识，并且积极派官员巡视，在这一地区宣示主权。这一转变无疑对于维护中国在这一地区的合法权利有着重要的意义。

注释：

①参见张维华、孙西：《清前期中俄关系》，山东教育出版社1997年版，第110页；陈述：《关于达斡尔地区与乌第河流域》，《学习与探索》1980年第4期；庞昌伟：《〈中俄尼布楚条约〉乌第河未定界范围及界碑考》，《学习与探索》2001年第4期。

②参见谭其骧主编：《中国历史地图集》第8册，中国地图出版社1987年版；吕一燃：《关于早期中俄东段边界的几个问题》，《中国边疆史地研究》1994年第4期。

③参见刘远图：《早期中俄东段边界研究》，中国社会科学出版社1993年版，第122页。

④参见高文风：《尼布楚谈判留下的一桩悬案——诺兹山问题初探》，《求是学刊》1982年第5期。

⑤参见北京师范大学清史研究小组：《一六八九年的中俄尼布楚条约》，人民出版社1977年版，第333页；张维华、孙西：《清前期中俄关系》，山东教育出版社1997年版，第110页。

⑥参见刘远图：《早期中俄东段边界研究》，中国社会科学出版社1993年版，第122页；苏联科学院远东研究所等编，黑龙江大学俄语系翻译组、黑龙江省哲学社会科学研究所第三室译：《十七世纪俄中关系》第2卷第3册，商务印书馆1975年版，第952页。

⑦本文所参考的是1958内蒙、东北少数民族社会历史调查组编著油印本《有关达呼尔鄂伦春与索伦族历史资料》。

⑧参见高文风：《尼布楚谈判留下的一桩悬案——诺兹山问题初探》，《求是学刊》1982年第5期。

⑨故宫博物院编：《清文汇书清文启蒙》，海南出版社2001年版，第5页。

⑩故宫博物院编：《清文汇书清文启蒙》，第51页。

(11)参见《吉林九河图》，台北“故宫博物院”藏，文献编号：平图021457。

(12)参见《口外九大人图》，台北“故宫博物院”藏，文献编号：平图021577。

(13)参见《乾隆十三排图》，汪前进、刘若芳整理：《清廷三大实测全图集》，外文出版社2007年版，一排东一。

(14)参见《盛京五路图》，台北“故宫博物院”藏，文献编号：平图021568。

(15)[俄]B.C.米亚斯尼科夫主编、徐昌翰等译：《19世纪俄中关系：资料与文献》第1卷中册，广东人民出版社2012年版，第559页。

(16)[法]张诚著、陈霞飞译：《张诚日记》，商务印书馆1973年版，第41页。

(17)[美]约瑟夫·塞比斯著、王立人译：《耶稣会士徐日升关于中俄尼布楚谈判的日记》，商务印书馆1973年版，第197页。

(18)苏联科学院远东研究所等编，黑龙江大学俄语系翻译组、黑龙江省哲学社会科学研究所第三室译：《十七世纪俄中关系》第2卷第3册，第843—844页。

(19)苏联科学院远东研究所等编，黑龙江大学俄语系翻译组、黑龙江省哲学社会科学研究所第三室译：《十七世纪俄中关系》第2卷第3册，第952页。

(20)苏联科学院远东研究所等编，黑龙江大学俄语系翻译组、黑龙江省哲学社会科学研究所第三室译：《十七世纪俄中关系》第2卷第3册，第951页。

(21)值得注意的是，本处清朝代表提出的“黑龙江南岸归我，北岸归俄罗斯”。宫中档满文原文即如此，但这同上面一条方案存在矛盾之处。既然外兴安岭以南已经划归中国，此处又以位于外兴安岭以南的黑龙江划界显然不合常理。依据同这份档案内容大体一致但版本不同的《钦差大臣与俄国使臣尼布楚谈判记录》“流入黑龙江的额尔古纳河的南岸作为我国的领域，而北岸作为俄国的领域”的记载，作为边界的是注入黑龙江的额尔古纳河，而非黑龙江。从前后的行文逻辑来看，《谈判记录》所载更加合理，因此可以认为宫中档所记应当有疏漏之处，也能看出宫中档所记版本应当并非该档案最初版本。此处满文原文如下：jai sahaliyan ula de amargi ci dosinjiha,corna sere urun birai hanci bisire,gerbici bira be jecen obufi,ere birai sekiyen i ergi wehe noho amba hinggan i jidun be jafahai,mederi dosime banjiha nosy alin de isitala antu i ergi be musengge obume,boso ergi be oros de obuki.sahaliyan ulai julergi dalin be musengge obume,amagi dalin be oros de obufi.jai enggide bira ci，cung selengge bira de isitala cargi dalin be kalka de obuki seme.《议奏中俄尼布楚条约原件》(康熙二十八年)，宫中档满文朱批奏折，中国第一历史档案馆藏，档案号：04-02-002-000001-0021。

(22)《议奏中俄尼布楚条约原件》(康熙二十八年)，宫中档满文朱批奏折，中国第一历史档案馆藏，档案号：04-02-002-000001-0021。

(23)《议奏中俄尼布楚条约原件》(康熙二十八年)，宫中档满文朱批奏折，中国第一历史档案馆藏，档案号：04-02-002-000001-0021。

(24)该论点学界尚存争议，承志指出《吉林九河图》并非谈判用图，且《口外九大人图》为《吉林九河图》原本，但由于二图中诺斯山位置一致，因此对于本文讨论的问题并无影响。参见[日]吉田金一：《郎谈〈吉林九河图〉与尼布楚条约》，《东洋学报》第62卷第1号，1981年；承志：《满文古地图与俄文古地图的邂逅》，《自然科学史研究》2022年第1期。

(25)参见承志：《满文古地图与俄文古地图的邂逅》，《自然科学史研究》2022年第1期。

(26)参见[日]松浦茂：《〈尼布楚条约〉签订后清朝对黑龙江左岸的调查》，《史林》第80卷第5号，1997年。

(27)参见[俄]Цapьков Олег Eвгеньевич.Очеpки истopии caxa Mосковскaя конкистa и политикa тoйонов.Concordе,2022,N 3。

(28)《委散骑郎参领尼喀塔持来文书》(康熙二十三年六月初九日)，俄罗斯科学院东方文献研究所藏：《黑龙江档》，转引自承志：《尼布楚条约界碑图的幻影——满文〈黑龙江流域图〉研究》，《故宫学术季刊》2011年第1期。

(29)《委散骑郎参领尼喀塔持来文书》(康熙二十三年六月初九日)，转引自承志：《尼布楚条约界碑图的幻影——满文〈黑龙江流域图〉研究》，《故宫学术季刊》2011年第1期。

(30)《委散骑郎参领尼喀塔持来文书》(康熙二十三年六月初九日)，转引自承志：《尼布楚条约界碑图的幻影——满文〈黑龙江流域图〉研究》，《故宫学术季刊》2011年第29卷第1期。

(31)参见葛剑雄：《悠悠长水：谭其骧传》，广东人民出版社2014年版，第428页。

(32)Сбоpникь Дorовopoь России сь Китaемь 1689-1881 гг.Сaнктпетеpбуpгь:Типoгpaфiя Импеpaтopской Aкaдемiи Нaукь.1889.C.4.拉丁文原文如-下：ut quicunque fluvii in mare influunt et quaecumque terrae sunt intermediae inter fluvium Vdi et seriem montium pro limitibus designatam prointerim indeterminatae relinquantur.

(33)Сбоpникь Дoговopoь Рocсии сь Китaемь 1689-1881 гг.Сaнктпетеpбуpгь:Типoгpaфiя Импеpaтopской Aкaдемiи Нaукь.1889.C.4.俄文原文如下：пpочиежь pѣки,кoтopые лежaть вь средине межь pькою Удью пoдъ Рoссǐйскoгo Гoсyдapствa владѣнǐемь и межь oгpаниченными гopами,кoтopые сoдеpжaтцa близь Aмуpa владънǐя Хинскoгo Гoсудapствa и впaдaють вь мopе и всянǐя земли пoсpеди сущǐе,межь тою вышепомянутою pѣкою Удью и межъ гopaми,кoтopые дo гpаницы нaдлежaтъ не oгpaничены,нынѣ дa пpебывaютъ.

(34)[苏联]巴尔苏科夫编著，黑龙江大学外语系、黑龙江省哲学社会科学研究所译：《穆拉维约夫-阿穆尔斯基伯爵(传记资料)》第2卷，商务印书馆1974年版，第132页。

(35)Сбоpникь Дoговopoь Рoссии съ Китaемь 1689-1881 гг.Санктпетеpбуpгь:Типoгpaфiя Импеpaтopской Aкaдемiи Нaукь.1889.C.4.满文原文如下：damu udi bira ci julesi，ere toktobuha hinggan i alin ci amasi,juwe siden de bisire,ba na,bira,birgan be taka siden de obufi.

(36)《议奏中俄尼布楚条约原件》(康熙二十八年)，宫中档满文朱批奏折，中国第一历史档案馆藏，档案号：04-02-002-000001-0021。

(37)《议奏中俄尼布楚条约原件》(康熙二十八年)，宫中档满文朱批奏折，中国第一历史档案馆藏，档案号：04-02-002-000001-0021。

(38)《议奏中俄尼布楚条约原件》(康熙二十八年)，宫中档满文朱批奏折，中国第一历史档案馆藏，档案号：04-02-002-000001-0021。

(39)《无题名》(乾隆三十年八月二十二日)，宫中档满文朱批奏折，中国第一历史档案馆藏，档案号：04-02-002-000521-0022。

(40)[俄]根·伊·涅维尔斯科伊著，郝建恒、高文风译：《俄国海军军官在俄国远东的功勋(1849-1855)》，商务印书馆1978年版，第51页。

(41)《左领常兴巡边录》，《达斡尔资料集》编委会编：《达斡尔资料集》第1集，民族出版社1996年版，第20页。

(42)[俄]根·伊·涅维尔斯科伊著，郝建恒、高文风译：《俄国海军军官在俄国远东的功勋(1849-1855)》，第156页。

(43)奥登挂、呼思乐译：《达斡尔族传统诗歌选译》，内蒙古人民出版社1991年版，第79页。

(44)奥登挂、呼思乐译：《达斡尔族传统诗歌选译》，第90—91页。

转自《中国边疆史地研究》(京)2025年第3期

2026-03-15
陈支平吴晓非：清代国家治理中的信息传递机制——以提塘制度为中心的历史考察

明清时期，中国古代驿政进入全盛时代。“凡置邮，曰驿，曰站，曰塘，曰台，曰所，曰铺”，①清代驿传主要通过以上几种形式得以实现。提塘，又称“提塘官”，是明清时期外省派驻京师传递文书的官员。提塘不仅是上传下达公文的得力工具，也是清代政治体系中维系统治的重要手段。目前，学术界对于提塘的研究主要集中在两个方面。一是立足政治制度史的视角，探讨提塘的设置、职能及制度影响等方面，②然而对提塘的铨选制度和运行经费方面着墨不多；二是新闻史学领域，较多关注古代信息传递机制的研究，在古代报纸、邸报等方面的研究中有所提及，③但侧重于历时性的演化趋势，并没有深入考察清代提塘在信息传递运行中的形态及对中央和地方的影响。近年来，档案资料广泛应用于史学研究中，为研究提塘制度提供新的材料和新的视野。奏折、地方档案等的运用，将提塘的研究推向深入，解决了更多细致化的问题，诸如提塘的选拔机制、运行经费及其在信息传递中的不法行为等。清代提塘利用职权之便，在传递政治信息的过程中施展手段，获取经制经费外的经济利益，而这必然与提塘自下而上的选拔制度和运作经费的来源产生关联。而现有研究对提塘铨选和经费来源及其非法活动提及较少。本文依据中国第一历史档案馆所藏奏折及清代县衙档案，试图厘清提塘的选拔机制和运行经费来源，以及提塘借助操控政治信息传递对中央和地方社会产生影响，并分析提塘在上述过程中参与清代政治生活的非预料性结果，以求教于诸方家。

一、清代的提塘制度及其铨选

提塘作为清代驿传体系的一种，承担着递送公文、刊发邸报等职责。清代的提塘有两种不同的类型，一为驻扎在省城的提塘，称为“省塘”；一为驻扎在京城的提塘，又称“京塘”，二者构成清代“两塘”并行的“双塘”管理体制。④清制，驻京提塘官共有十六人，由直隶、山东、山西、河南、江南、江西、福建、浙江、湖南、湖北、四川、广东、陕甘新疆、云贵等省及漕河分别派驻，隶属兵部捷报处，其主要职能为“凡钞刊章奏事件、寄交各省敕书印信物件以及各部院寻常咨行外省公文，俱交给递送”。⑤提塘的核心职能是递送公文和刊发邸报，另外负责一些特殊的递送，如皇帝敕印、官员印信以及一些礼制和表彰等事。各省驻京提塘与本省的信息递送有专门的塘递专线，以军兵充任塘拨，往返于京师与各省督抚驻地之间。

随着清政府统治的不断深入，提塘的铨选制度不断改进以适应统治的需要。提塘主要由各省督抚于本省武进士、武举人及守备中推荐咨送兵部，由兵部统一管辖。康熙六十一年(1722)规定：“各省提塘员缺限部文到日，该督抚即行拣选合例人员，送部顶补。”⑥可见，康熙时期对提塘的选用无任何条件限制，选任之权完全掌握在地方督抚手中。

雍正五年(1727)的程如丝案促使提塘铨选制度的初步变革。四川夔州府知府程如丝因私卖盐斤被革职，拟斩立决，但在刑部斩决部文下达到省之前，程如丝已先行得知消息畏罪自杀。提塘早于正式部文送达已将信息泄露，极大地削减了皇帝的权威。对此，时任四川巡抚宪德提出两点提塘敢于借邮传之名作奸滋弊的缘由。其一，提塘出身低微，且多系微末职衔，无爱惜功名之念；其二，对已经作奸犯科的提塘，没有及时送官府依法惩处。宪德还提出了革弊方案，并建议加大惩处力度。一旦各省督抚所选择的提塘出现过失，各省督抚亦负连带责任。⑦

由此，雍正六年(1728)对提塘的铨选进行改进：“各省提塘，令该督抚于本省武进士及候补候选守备内，拣选家道殷实小心谨慎之人，取具地方官印结，申送考验，咨部顶补。三年期满，如果勤劳无过，由部注册照本班即用。”⑧新规提高了提塘的选任条件，各省督抚须从本省武进士及候补备选守备中挑选，且将“家道殷实，小心谨慎”作为挑选的另一必备条件，并需得到地方官员的推荐，出具地方官印鉴，方可咨部顶补。这一改革措施缩小了地方督抚选择的范围，且使其在铨选的各个环节受到限制，很大程度上削弱各省督抚的选任权，使在京提塘的队伍更加专业化、职业化。

“武进士充补提塘，以三年为期，而后考成”，逐渐成为清代提塘铨选和晋升的重要制度。此后，在雍正六年(1728)改革的主体上，清廷不断完善提塘的铨选和晋升机制，并对提塘的失职行为加以约束。如嘉庆元年(1796)，对武进士的等级进行了细化，对任满提塘的准出设置标准。据兵部尚书庆桂奏，“各省提塘向由武进士充补，三年期满，劳无过，考验弓马，概行带领引见请旨分别营卫入于应选班内，以守备补用”。之后由于武进士分成两等，“其当差勤奋弓马可观者，列为一等，带领引见，分别营卫入于提塘本班，以守备选用；其循分当差，弓马中平者，毋庸引见，列为二等。以守御所千总注册候。其如何选用之处，向未设有班次。伏查定例，奉旨以守御所千总补用人员无班可归者。俱以奉旨之日起归入双月伍缺，后推用一人等语”。⑨

清代对提塘铨选制度的改革，体现了清代皇权与地方督抚权力的动态变化。从地方督抚完全掌握提塘的选任权，到中央不断提高提塘的铨选条件及考成标准，在这个过程中，皇权不断得到加强，地方督抚权力不断受到制约，体现了皇权与地方督抚权力的政治博弈。政治信息博弈作为政治博弈的重要组成部分，⑩而提塘作为清代政治信息传递的重要手段和工具，其在中央与地方政治信息博弈的角逐中无疑影响显著。尽管中央设计了一系列的严格管理制度，但在实际运行过程中，提塘则更加偏向于地方督抚，这在提塘的运作经费及信息传递中亦有展现。

二、提塘的运作经费——塘饷银

塘饷银即各省派驻的在京提塘及所设办事机构的运作经费，主要由各省自行负担，在京提塘定期赴司请领。“工食银两出自通省各衙门看报各官，按季解贮藩库，提塘赴司请领”，(11)“臣前开坐京塘公费银四百两是巡抚衙门中所给，以办公务。此条原系工墨银二千一百八十两，系州县捐给”，(12)“提塘料理本章部文，既有奔走之劳，且每年送看报抄，不无之墨之费，臣拟于协营中每年各捐一百二十金，共给银四百八十两，资其养赡，以便驱使”。(13)由上述几则材料可知，在京提塘的塘饷银，包括工食银两、公费银、工墨银等，均由各省自行承担。

有清一代，中央明令各省督抚将地方所必需的工费分析款项，立定章程，上报户部，并汇奏存案。光绪朝《清会典事例》中详定了各省的额定耗羡章程，其中便具体包含了各省的在京提塘维持运行所需的开支(见表1)。

各省提供了提塘及所属报房和塘兵们的各项开支，以便邸报、公文等及时传递，知晓各部册文。表1中各省提供的经费开支数量有明显差异，原因在于多个方面。第一，各省财力状况的差异，导致此项开支的预算存留不同。财力雄厚的省份，如山东、广东，其提供的经费明显高于其他省份。第二，省份疆域的大小导致二级衙门设置数量的不同，从而影响了收阅邸报的份数，相应地影响塘务所产生的花费。府州县等衙门设置数量越多，所需报资银便会增多。第三，到京城的距离与提塘花费之间呈正向比例关系。越偏远的省份，提塘官们传递公文所需各项成本越高，其工食银、脚价银、盘缠银等所需更甚。

那么，各省的塘饷银在本省财政中是如何兑现的呢？有学者将此项费用称为“通省阅报银两”，虽然名义上应出自“通省各衙门看报各官”，但实际上仍然由公库承担。(14)受限于资料，此种说法不免有一定的片面性。实际上，清代前中期，各省针对塘饷银已然建立起一套由各府州县定期按季出备报资的财政运行机制，各省的塘饷银由各地方官员额捐而成。

以甘肃省为例，陕西甘肃二省及新疆地区共同设在京提塘一人，且甘肃省每年须额捐塘饷银七百两，解交至西安布政司处。康熙六十一年(1722)七月，署理西和县正堂蒋培熙接到布政司发来信票，要求将康熙五十九年(1720)至六十一年“未完塘丁银两照依单开数目，刻速照数耑差起解司库，立等查收”。(15)署理甘肃布政使司傅德依据提塘官王世贵所开的详单，向西和县收取报资。

念该县任亦清俭，本署司于该提塘所开原单数目二十两之内，量为酌减银四两，官署报实有裨处，何可吝惜专费，拟合行知。为此仰县官吏查照来文事理，即将提塘王世贵所送京报照常收看，每年止应给银十六七两作四季解交司库以便给发，不得迟延逾季，致烦催提。(16)

提塘官所传递署报对州县官而言实有裨处，并要求县官照常收看，并将报资按季解交司库。即便受到布政司的酌减，西和县县官仍旧不能按时按季出具报资，屡屡拖延，借故托词，迟交少交。(17)可见，各省派驻的在京提塘所设办事机构及活动运作所需各项经费均由各省自行承担解决，而各省的经费来源于通省衙门收取看报的各官，在获取公文署报后，按季出具报资。而驻京的提塘官们需定期前往督抚处领取塘饷银，以维持日常运作。

各省所提供的塘饷银少则几百两，多则几千两。如此大数目的塘饷银，统一由驻京提塘支配，极易出现提塘官侵吞、贪污、挪用、冒领等事件。嘉庆八年(1803)，代办福建塘务浙江提塘吴大定呈控新任福建提塘郑上荣侵用报资银两一案，经核查，郑上荣借交代为名，迁延勒措本年福建春夏二季报资银两，前任提塘陈文晖与陈瑞彪有浮开索诈之弊，将三人均交刑部审拟。(18)在此事件中亦可知，提塘事务中传送往来文报的一切经费，系提塘官先行借垫，而后禀报藩司请领报资银。而且，新上任的提塘可以预领两季的报资，以备使用。同治十二年(1873)三月，山东巡抚丁宝桢上奏前任提塘马景阿冒领塘饷，请求革职查办。“前任提塘马景阿于现任提塘金凤舞接办之时，有支代外款未清，经各省提塘监支议明，将金凤舞任内应领同治九年秋季，十年、十一年春秋季，十二年春季共六季塘饷均归马景阿具领归款乃误，前提塘马景阿于应领冬季塘饷外，胆敢将现任应领十一年冬季饷银四百四十五两三钱七分二厘，用空白钤领，赴司冒领，致现任提塘办公无资。似此冒领饷项，任意侵渔，实属藐玩。请旨将前提塘马景阿即行革职并提省审办，以期水落石出。”(19)上述两个冒领侵用塘饷银的案件，其共通点在于均发生在前任提塘与现任提塘交接之际，直接反映了塘饷银申领机制上的弊端，各省藩司无法及时准确地了解在京提塘的具体支出，存在一定的滞后性。

塘饷银作为各省派驻的在京提塘所设办事机构的活动运作经费，由提塘官定期向地方藩司请领。各省向各级看报衙门按季收取报资银两，以充塘饷银。然而州县衙门地方官往往种种拖延，借故托词，迟交少交。由于塘饷银申领机制具有滞后性，在提塘官换届之际，塘饷银易被前任提塘冒领侵用。

三、提塘与政治信息交易

信息交易在中国古代是一个较为常见的现象。在一个较为发达的商业社会，无论是地方督抚、州县官员，还是士绅、举人，或者是长短途贩卖货物的商人，都对中央或各省的政治信息有着较为旺盛的需求，由此造就政治信息的市场。(20)努尔哈赤起兵之时，为得到关于明政府的有价值的情报，不惜花重金从明朝官员手中购买邸报。(21)提塘上传下达公文，本应成为官僚政治体系传达政令信息、保持中央与地方畅通的得力制度。然而，在提塘制度运行的实践过程中，提塘与各级官员、地方人员勾结买卖公文信息，在中央与地方逐渐编织成一张信息交易网络，以满足各自经济利益的需求。这与其制度设计背道而弛。

(一)中央层面的信息交易

传递公文邸报是提塘官的主要核心职能。为更好地发挥此项职能，提塘传递公文有着一套严密的程序，并在中央与各省之间形成了一条以提塘为轴心的传递链条：地方督抚→京师→提塘→通政司→内阁→皇帝→内阁→提塘→地方督抚。提塘代为传递的奏疏经由通政使司收受、内阁票拟、皇帝批旨、红本处批红、六科发抄、各驻京提塘抄录等环节后，形成邸报，并下传至所在各省督抚。(22)正是在这样复杂的环节中，为提塘更多地接触到核心的政治信息提供便利。

凭借提塘获取一些机密信息，是各地督抚、封疆大吏常用的手段。乾隆十一年(1746)四月，皇帝直接上谕，要求直隶、江南、浙江等省督抚申饬：

军机处乃系机要重地，凡事俱应慎密，不容宣泄。今乃有在京直隶江南浙江等处提塘，串通军机处写字之人，将不发抄之事件抄寄该省督抚者。朕看此情节，在提塘等微末之人，不过以此博督抚之欢心，在督抚亦乐其不时私递，得闻京师信息。此皆浅陋之见，且非始于今日。朕已将督抚等从宽免其查究。但那苏图、尹继善、陈大受、魏定国、常安等俱为封疆大臣，似此行私报秘等事，甚不光明，若有见闻，即当据实查办，何得身蹈其事，不能自检，尚得谓之正己率属乎？着密行传谕申饬之。(23)

在京提塘串通军机处“写字之人”，将“不发抄之事件”私抄寄给该省督抚，此乃泄露军机处机密的行为。对此，浙江巡抚常安奏报：“惟是在京提塘将不发抄之事件抄寄，臣因循缄默，不行据实查办，此即臣之不职，罪无可逭。”常安等深知此事对其带来之好处，自然缄默不语，乾隆帝亦朱批：“此事尚不仅汝，故不罪耳。”(24)同样，安徽巡抚魏定国解释道：“臣自任巡抚，每次接阅邸抄，虽间有提塘另抄偏报，总因相习已久，遂不留心查察，实臣疏忽之处。”(25)在魏定国看来，提塘私抄偏报于督抚，已成积习，其早已习以为常。可见驻京提塘抄写不应发抄之事件寄予督抚，已久为惯例。直隶总督那苏图在乾隆皇帝的追问下，只得勉强上奏：“臣平日刻自勉励，今提塘抄送偏报一事，未能实时察办。愚昧之罪，幸邀宽宥，实无可措词覆奏，惟有检身检心，随事省察。”(26)

地方督抚作为政治信息交易的最大获益者，掌握了更多的中央内部消息。乾隆皇帝认为驻京提塘的动机在于，“提塘等微末之人不过以此博督抚之欢心”。从署理广西巡抚托庸的上奏中可以洞察出其动机所在：

据驻京提塘武进士俞焯禀称，缘京塘办理报抄，俱系部科事件，此定例也。如军机折奏功令森严，京塘万难觅稿，何由得办报抄？然各省大宪中间有办理军机重件者，俱托亲信之人办理。提塘初到京时，委系不知，于去岁十月始得知焉。有原办军机密抄黄老八者，因买军机底稿，一时疏忽泄露，为九门提督题参，已经解回原籍。是以向来各省京塘，以身家性命为重，俱不敢办……提塘于无可报恩之中而思一报恩之路，央人向军机房老成谙事者，托其代为买取折奏事件，彼以性命攸关为辞，不敢轻允，求之再三，司事者始云重件中之详细不敢多抄，只可于中撮其最要者，密抄其十之二三或十之五六，却每月必需重费笔资，可能办理。提塘每年工墨仅可敷衍，谅蒙宪鉴，提塘虽非素封之家，而衣食颇足，情愿每月捐银十余两办理军机房折奏事件，以期图报于万……窃查提塘专司递发本章文移，此外传抄俱系发出部科露章等事件，至于军机处办理事件，皆系秘密不许泄漏者，乃提塘俞焯敢不畏法，胆敢贿求密抄，欲将军机秘密之重情，以作效力报酬之私具，且称随有随办，谨慎收贮等语。(27)

托庸一语道破提塘私抄泄密的真正动机在于“将军机秘密之重情，以作效力报酬之私具”。依照定例，在京提塘办理报抄，只得从部科公文中抄取。而在京提塘通过贿赂军机房中“老成谙事者”，每月捐银十余两便可买取军机折奏等事件，由于地方督抚在提塘的铨选制度中拥有较大的话语权，故提塘想方设法将规定外的重要政治信息传递给督抚。

各省提塘与中央的内阁、军机处等办公人员之间形成了一个以信息买卖为核心的商业化交易链条。由于提塘任期时间长，积攒大量人脉资源，他们能够从内阁、军机处等办公人员处买取信息，一省提塘还能从他省提塘处买取信息。乾隆元年(1736)，据步军统领鄂善奏报，在一件违例抄送邸报的案件中，兵部架阁科贴写方柱臣与内阁办事人员陈受益合谋，将内阁中未进呈的题本奏稿带至家中，雇人抄写，并转卖各省提塘。方柱臣供道：“上年十二月内，小的原向内阁供事陈受益商量，叫他将未经进呈之题奏本底带出来抄写了，交与汪九、吕九皋，经手转发各省塘报。言明每月直隶提塘给银十二两，广东给银九两五钱，山西给银五两，湖广给银六两，云贵给银二两二钱，四川给银二两五钱，江西给银四两，浙江给银二两五钱，东抄房给银五两，西抄房给银三两六钱，每月共得银五十三两六钱。”(28)说明在中央层面，提塘与中央办公人员之间存在较为成熟的信息交易模式，已出现定额化专卖。

提塘通过与军机处、内阁人员之间每月的金钱输送，买取折奏事件，再发回地方督抚，可以助推地方督抚突破层级限制，掌握更多法外的中央方面的信息。在经济利益的驱使下，提塘与办公人员之间通过买卖，将政治信息以商品交易的方式流向地方，政治信息的传递已然出现商业化迹象。

(二)地方层面的信息交易

各省负责塘递专线的提塘，负责将驻京提塘传来的公文递送至省内各衙门。自京至省的下行与平行公文，由驻京提塘统交塘丁赉送回省，在此过程中，由各省督抚标兵充任的塘丁与地方官吏甚至商旅百姓之间都存在信息买卖关系。以提塘吴士周传抄捏造逆语案和松江提塘陈公绶封寄伪稿案为例，探讨提塘与地方官吏、生员和商旅百姓之间的信息买卖，以及地方社会政治信息的传播。

在提塘吴士周传抄捏造逆语一案中，乾隆十六年(1751)七月初一日，贵州古州镇总兵官宋爱钉封密禀，内称六月廿二日驻安顺府普定县提塘吴士周禀内另有密禀一件，其内容“词殊不经，明系狂悖之徒捏造传播”，(29)试图传播以大干法纪。密禀内所抄传播之词，系假借大臣名目，大肆诽谤甚至捏造朱批。遂捉拿提塘吴士周，并以此为着落点根追，以免传播愈广。(30)

吴士周，系承办古州等镇公务之提塘，住居安顺府普定县。署普定县知县朱怀栻严鞫，吴士周始供出系往滇省卖黄连生理之四川客人谭永福所抄。讯据谭永福供，有伙计唐宽前在云南杂货信丰行见彼处店中人传说此言，因而抄出。后再审，据吴士周供：“六月初间有候补守备彭朝贵说他住的胡家店内有从云南来的客人，带有新奏章底稿拿与候补守备张忠，张忠不甚识字，拿与候补守备李全。我在李全手里要了来，只道是启奏过的，本章自然上报，故此抄禀并不知是讹传的。”据谭永福供：“我同伙计唐宽、郝彭祖、陈涛在云南五福行里卖黄连，因唐宽在信丰行里看见这奏稿，说是新间拿到五福行来看，是郝彭祖用草纸抄下，把原稿还了信丰行了，我得了这张稿底，住了十四五天，身上有病要先回家，留唐宽、郝彭祖在五福行发卖黄连，我同陈涛先回来。到了安顺府胡家店内，因害病住下，见郝彭祖抄的这张草纸稿一路操破，我自己另行照样抄写，被同店住的彭守备要了去看，不知怎样，传与提塘的。”(31)

经审讯，吴士周供述，该奏稿系四川商人谭永福贩卖黄连时在云南杂货信丰行中抄下，后因病归家途中，居住在安顺府胡家店内，经候补守备彭朝贵、李全抄写所得。当吴士周听说是一件新奏章底稿，便萌生向上级传递的意图，将此抄禀递送至古州镇总兵官处。一方面，这表现了提塘吴士周识见浅陋，无法判别各类公文的真伪；另一方面，吴一听说是新奏章底稿，并有朱批，便立即密禀传递，表现出其试图通过传递重要政治信息来讨好上级。在地方社会中，存在一个信息交换、交易以及传播的公共场所，如商行、旅店等，其极易成为信息的集散地，为商人、普通百姓、地方士绅和官吏生员等提供交流传播的公共平台，而来自天南海北的过往人员，均能成为传播信息的公共媒介。

而松江提塘陈公绶封寄伪稿一案，深刻地揭示了提塘与地方有司、生员之间暗中进行信息交易的现象，在地方官员中存在一个公文奏稿买卖的经济交易链条。

“陈公绶向充松江提标小提塘，吴进义前任松江提督时曾加恩待，每年给与报资，令其探听各衙门事件，抄送辕门报封；迨吴进义调任浙江，仍给与报资，照旧抄送。”(32)提塘将衙门事件抄送辕门报封，有司给予报资。陈公绶收取吴进义的报资，并在吴进义调任外省之后，仍然隔省封寄。东窗事发后，陈公绶想方设法为吴进义开脱，“陈公绶身充提塘，辙敢将伪稿隔省封寄，审实之后，复妄扳无辜，为吴进义留开脱地步，狡猾诡诈，情尤可恶”。(33)

对陈公绶而言：“因吴进义待伊有恩，调任浙江后仍给与报资，令其封送江南小抄。上年四月初十日前接得河标营书钱玉珍所寄伪稿，以为新闻，遂将原纸封送吴进义衙门。诘其塘递草簿无号之处，据供，附寄书禀向不列号……诘其因何狡展不行实供，据供父子受吴进义厚恩，希图诿卸为吴进义抵替，留开脱地步等语。”(34)陈公绶作为松江提标的提塘，其职责范围仅需抄送松江提督衙门的事件，然而，吴进义调任松江提督之后，陈公绶仍将各衙门事件抄送吴进义，这一违反规定的做法单单靠回报恩情的驱使是难以实现的。问题的根本在于“报资”，吴进义定期给予陈公绶一笔银两，陈公绶定期将江南衙门的各事件抄送封寄。二人私下交易官方信息，一方获取了经济利益，一方则掌握了江南各衙门的事件信息。

此事件亦从侧面反映地方公文传递人员对官方公文的辨识能力不一。本案中涉及松江提标提塘陈公绶、河标营书钱玉珍、河标千总孟宗、桃源县生员邵必胜等人，都未能准确判别稿件真伪，只为个人经济利益，导致伪稿肆意传播，对地方社会造成不利影响。

上述两案反映出，地方公文传递的过程中存在一个公文奏稿买卖的经济交易链。在浙江巡抚雅尔哈善的奏报中，提到这样一个细节，“江南河标右营书办钱玉珍因与陈公绶报资交关，将伪稿封寄”。(35)可见钱玉珍与陈公绶存在抄寄事件之间的经济往来，陈公绶从钱玉珍处获取有关衙门事件，并给予报资。而钱玉珍得自孟宗，孟宗得自邵必胜，在他们之间也必然存在类似的报资交易。

(三)提塘制度异化及其原因

清代政治信息传递系统中的信息买卖现象，尤其是提塘作为“中间商”的角色，反映了中央与地方在信息控制上的矛盾。提塘本为官方信息传递的枢纽，但在实际运作中缺乏有效监督，其职能逐渐异化，成为信息交易网络的核心节点。驻京提塘通过贿赂军机处、内阁人员获取机密奏折或谕旨内容，再抄寄给地方督抚，形成一条隐秘的利益链条。在地方层面，商行、旅店等公共场所逐渐成为各类人员信息交换、交易与传播的集散地。提塘为获取经济利益参与信息买卖，甚至伪造公文以牟利，严重削弱了政令的权威性。

中央与地方频繁出现信息买卖事件，主要源于制度设计的缺陷与有效监督管理的缺失。首先，提塘的铨选权由地方督抚把控，中央缺乏有效制衡，导致提塘易与地方势力勾结，形成利益共同体。清廷虽规定提塘需受兵部考核，但实际监管极为松散，地方督抚往往包庇提塘的违规行为，甚至参与信息交易。其次，提塘的运作经费(塘饷银)需从地方州县收取的邸报报资中支取，而非来自中央财政拨款，使其更易受地方利益驱使。最后，地方和民间对政治信息的旺盛需求与清朝不断强化的政治信息垄断之间的矛盾愈发凸显，刺激并催生了信息交易市场。

清廷虽采取了一些应对措施，如雍正时期强化密折制度、乾隆时期严查伪稿案，但未能从根本上解决提塘制度的问题。由于缺乏系统性改革，提塘的非法信息交易进一步加剧了政治腐败，削弱了中央对地方的控制力，成为清代中后期统治危机的一个缩影。

结语

传统中国中央集权政治体制的运作，围绕着对信息传递、政令颁行的控制而展开，通过对信息传递系统的垄断性掌控维系政治权威。(36)清代提塘制度及其铨选的发展演变，生动展现了这一体制在具体运作中的复杂面相。作为连接中央与地方的重要纽带，提塘虽位列官僚体系末端，却在帝国政治生态中扮演关键角色，对地方乃至中央的政治运行有着重要影响。

从制度设计的层面观察，清政府通过提塘这一中介机构，不仅实现了政令文书的高效传递，更构建了一套严密的信息过滤机制，以此强化中央对地方的政治控制。然而，深入考察提塘制度的运行实态，可以发现其中暴露的制度设计缺陷。在铨选制度上，地方督抚对提塘人选的实际掌控权，折射出清代中央与地方关系的微妙平衡。在经费机制上，完全依赖地方财政的塘饷银制度，暴露出中央集权体制下的财政结构性矛盾。由于缺乏有效的监管机制和风险防范措施，这种制度安排客观上催生了以信息为媒介的灰色交易网络——提塘为获取经费保障，不得不将重要政治情报作为“特殊商品”售予地方大员；而督抚们通过这一渠道提前获取中央动态，在权力博弈中抢占先机。由此形成的非正式信息流通体系，实际上消解了清廷通过提塘制度实现信息垄断的初衷。

从宏观的历史视角观察，提塘制度的兴衰演变揭示了传统政治体制的深层困境。18世纪政治实践中，提塘制度虽基本维持了帝国信息系统的运转，但随着官僚体系的腐化，其制度性弊端日益凸显，泄密事件频发、伪稿流传、效率低下等问题，不仅影响了行政效能，更动摇了民众对官方信息权威性的信任。至19世纪中后期，在内忧外患的交迫下，这套传统信息传递系统已难以应对近代化政务的需求。而新式邮政的引入，不仅代表着技术层面的革新，更标志着传统政治沟通模式的根本性变革——当信息传递不再完全受控于权力体系时，专制统治的基础也随之动摇。

提塘制度的最终消亡，象征着中国传统政治治理模式在现代性冲击下的调适与转型。这一历史过程表明：任何政治体制的存续，都与其信息控制能力密切相关。清代提塘制度的演变轨迹，既展现了传统中国“文书治国”的治理智慧，也暴露了集权体制应对社会变革的制度性缺陷。对这一微观制度的深入研究，不仅有助于我们理解清代政治运作的实际样态，更为审视中国传统政治制度的本质特征提供了重要的观察窗口。

注释：

①光绪《清会典》卷51《兵部·车驾清吏司》，中华书局1991年影印本，第462页。

②刘文鹏：《清代提塘考》，《清史研究》2007年第4期。李章程：《清代提塘与公文传递》，《档案学通讯》2015年第3期。马维熙：《清雍乾之际驻京提塘泄密问题研究》，《内蒙古大学学报》(哲学社会科学版)2016年第6期。刘良：《中国古代地方政府驻京办事机构的变迁研究》，《武汉大学学报》(人文科学版)2017年第5期。

③程丽红：《清代报人研究》，社会科学文献出版社2008年版。孔正毅、王书川：《试论清代邸报的发行体系》，《南昌大学学报》(人文社会科学版)2015年第1期。程丽红：《媒介变迁与乾隆朝的社会异动》，《现代传播(中国传媒大学学报)》2016年第7期。刘晓伟：《皇权政治与中国古代报纸的二重演化》，《新闻与传播研究》2022年第10期。

④李章程：《清代提塘与公文传递》，《档案学通讯》2015年第3期。

⑤光绪《清会典事例》卷703《邮政·塘务》，第8册，中华书局1991年影印本，第751页上。

⑥光绪《清会典事例》卷566《兵部·提塘录用》，第7册，第350页下。

⑦《清世宗实录》卷66，雍正六年二月丙午，中华书局1986年影印本，第1015-1016页。

⑧光绪《清会典事例》卷566《兵部·提塘录用》，第7册，第350页下。

⑨《兵部尚书庆桂奏为各省驻京提塘带领引见事》，嘉庆元年十二月初四日，档号：03-1651-077，中国第一历史档案馆藏。

⑩刘晓伟：《皇权政治与中国古代报纸的二重演化》，《新闻与传播研究》2022年第10期。

(11)《朱批谕旨》卷26《朱批塞楞额奏折》，于敏中等总纂：《景印摛藻堂四库全书荟要》第187册，世界书局1988年影印本，第629页上栏。

(12)《朱批谕旨》卷149下《朱批魏廷珍奏折》，第193册，第395页下栏。

(13)《朱批谕旨》卷168《朱批杨鲲奏折》，第193册，第657页上栏。

(14)方汉奇：《中国新闻事业通史》第1卷，中国人民大学出版社1992年版，第199页。

(15)《为支领月饷事》，康熙六十一年七月廿七日，档号：清01-0003-1，西和县档案馆藏。

(16)《信牌》，康熙六十一年八月初九日，档号：清01-0004-1，西和县档案馆藏。

(17)《为再恳天恩事》，雍正元年三月，档号：清02-0002-1、清02-0005-1，西和县档案馆藏。

(18)《巡视北城御史济兰奏为提塘郑上荣被控侵用报效银两请解任与陈文晖等交刑部审办事》，嘉庆八年七月初二日，档号：03-2388-012，中国第一历史档案馆藏。

(19)《山东巡抚丁宝桢奏为特参前任提塘马景阿冒领塘饷请革职讯办事》，同治十二年三月三十日，档号：03-5068-029，中国第一历史档案馆藏。

(20)刘文鹏：《盛世背后：乾隆时代的伪稿案研究》，“自序”，人民出版社2014年版，第3页。

(21)刘文鹏：《清代提塘考》，《清史研究》2007年第4期。

(22)李章程：《清代提塘与公文传递》，《档案学通讯》2015年第3期。

(23)《清高宗实录》卷264，乾隆十一年四月丁丑，第426页。

(24)《浙江巡抚常安奏为在京提塘将不发抄之件抄寄臣等不行查办传谕申饬谢恩事》，乾隆十一年五月初四日，档号：04-01-12-0049-001，中国第一历史档案馆藏。

(25)《安徽巡抚魏定国奏为钦奉上谕严饬提塘大改积习不许抄写密报军机处办理事宜事》，乾隆十一年五月二十四日，档号：04-01-01-0130-057，中国第一历史档案馆藏。

(26)《清高宗实录》卷267，乾隆十一年五月甲寅，第463页。

(27)《署理广西巡抚托庸奏为据实奏闻提塘俞焯贿求密抄请旨革去武进士严审治罪事》，乾隆十一年闰三月初八日，档号：04-01-01-0138-012，中国第一历史档案馆藏。

(28)《步军统领鄂善奏请将违例抄录书役交部审拟事》，乾隆元年四月四日，档号：03-0329-005，中国第一历史档案馆藏。

(29)(30)《贵州提督丁世杰奏为密陈根究古州镇提塘吴士周狂悖不经密禀一纸由来事》，乾隆十六年七月十五日，档号：04-01-01-0201-004，中国第一历史档案馆藏。

(31)《贵州巡抚开泰奏为严行密访根追安顺府提塘吴士周传抄捏造逆语案内给抄传播逆党事》，乾隆十六年七月二十二日，档号：04-01-38-0034-003，中国第一历史档案馆藏。

(32)(33)《浙江巡抚雅尔哈善奏为审明松江提塘陈公绶封寄伪稿案分别定拟请旨事》，乾隆十七年八月二十一日，档号：04-01-38-0038-023，中国第一历史档案馆藏。

(34)《浙江巡抚雅尔哈善奏为遵旨讯明松江提塘陈公绶封寄伪稿确凿无疑事》，乾隆十七年八月二十一日，档号：04-01-38-0038-025，中国第一历史档案馆藏。

(35)《浙江巡抚雅尔哈善奏为审明松江提塘陈公绶封寄伪稿案分别定拟请旨事》，乾隆十七年八月二十一日，档号：04-01-38-0038-023，中国第一历史档案馆藏。

(36)邓小南、曹家齐、平田茂树：《文书、政令、信息沟通：以唐宋时期为主》(上册)，“序言”，北京大学出版社2012年版，第1页。

转自《东南学术》(福州)2025年第5期

2026-03-15
蒋舸：“邻接权兜底保护”路径之反思——从古籍点校到人工智能生成内容

随着文艺活动形式的增多、文艺成果异质性的增强，各种具有文艺外观但不够传统、不够典型的信息成果正在不断测试“作品”的内涵与外延，从而导致版权法结构化经验的“守门人”概念持续承压。近年来热议的人工智能生成内容（AIGC）是否可能构成用户作品之话题，便是该趋势的具体表现。在非典型文艺成果的灰区中，已逐渐凝结出三条路径：其一是以“作品”概念为基础的版权路径（本文在狭义上使用“版权”一词，不含邻接权，以便与“可版权性”概念保持一致），其二是以反不正当竞争法一般条款为代表的原则条款路径，其三是不断扩张邻接权的路径。版权路径倾向于发掘“作品”概念的弹性，而后两条路径相当于在版权法结构化经验之外重建规则。

与原则条款扩张所受到的重视相比，邻接权路径的兜底化倾向尚缺乏关注。实际上，“增设邻接权”已经隐然展示出扩张趋势。例如针对独创性、艺术性或者控制程度较低的照片，不乏学者否认其作品资格，转而建议参考德国、法国等国的“邻接权照片”制度加以保护。又如，反对体育赛事直播画面构成作品者，建议“对现场直播的保护应通过立法对广播组织权的完善予以解决”。再如，在“AIGC是否构成AI用户的作品”问题上，亦有学者主张通过增设邻接权来实现利益平衡。总之，在面对因各种原因——例如艺术性不足、控制力不够、事实性太强、约束条件太多等——而受到可版权性挑战的文艺成果类型时，“增设邻接权”成为了可版权性反对者（下称“反对者”）在原则条款之外寄予厚望的兜底保护方案。

版权路径的深入理解往往有赖于对替代方案的充分反思。可版权性的赞同者（下称“赞同者”）过去仅侧重论证为何版权法可行，很少关心为何邻接权兜底路径不合理，这种考察方式削弱了可版权性的论证广度与力度，也留下了邻接权在立法层面不合理扩张的隐患。

在版权路径与邻接权路径的交叉地带，本文选取古籍点校作为方法论样本，目的在于揭示“邻接权兜底”路径上承载的不切实际的期待、在落实过程中逐渐呈现的内在矛盾。与照片、体育赛事直播画面，尤其是AIGC之“热”相比，古籍点校显得颇“冷”。然而这些议题背后的制度逻辑其实相通。热门议题之所以纷纭不定，往往是因为忽略了冷门议题所提供的制度经验。与其在一个接一个的热点问题中反复寄望于通过增设邻接权来兜底，不如深入剖析古籍点校样本，提炼可供新兴技术语境借鉴的分析框架。

一、点校成果可版权性之争

我国司法实践和学术讨论中所称古籍点校，指针对文字古籍的标点、分段和校勘行为，不包括汇编、注释、说明等行为。后者明显可版权，无需讨论。

古籍点校可版权性的赞同者认为点校成果具有构成演绎作品的可能性，应当具体案件具体分析。在点校成果不构成作品的情况下，不应再通过增设邻接权或者原则条款提供兜底保护。可版权性反对者的核心观点则是将点校成果排除在作品范围之外。笔者归纳出如下四类反对理由，并逐一予以驳斥。

（一）选择空间说

在部分反对者看来，古籍点校不可能构成作品的理由在于选择空间不足。该说存在三方面缺陷：

第一，选择空间的大小是事实问题，需要个案判断，不应类别化否定。

正如无法通过一篇文字属于“新闻报道”来判断选择空间大小，也无法通过一项成果源自点校活动来判断选择空间是否足够。一部具体的古籍点校是否构成作品，应当根据个案情况予以分析。对于篇幅较短、点校争议不大的古籍而言，成果有可能不构成作品。但是，随着分段、断句、标点和校勘的数量增多，差异化选择会逐步累积。达到一定程度之后，不同点校者的成果之间便有可能出现客观可识别的显著差异（下称“显著差异”）。反对意见混淆了作为局部的单处点校和作为整体的点校成果。前者的选择空间有限，但后者则有可能具备足够的选择空间。

第二，限制因素的存在不等于点校空间被剥夺。

反对者强调点校行为所受限制太多。这种通过强调限制来推论缺乏点校空间的逻辑值得商榷。因为“限制多”与“选择多”完全可以并存。只要选择空间足够大，哪怕存在大量约束条件，最终保留下来的可选空间仍然有可能相当庞大。在进行独创性判断时，应当关心作者能够做出选择的空间有多大，而不应当关心他不能做出选择的空间有多大；应当关心他贡献的内容是什么，而不应当关心他没有贡献的内容有哪些。

第三，既有案件中的点校成果几乎均不唯一，不同点校者完全有可能做出不同选择。

反对者认为：“同一古籍文本的原意以及正确的理解应当只有一种”“正确的标点方式应当也只有一种”。此种论断对于单个选择或许正确，却不符合司法实践中争议客体的状态。在绝大多数既有案件中，原告点校成果与其他版本之间存在显著差异。在法院拒绝承认作品资格的郑福臣诉大众文艺出版社等案（《术语丛刊》案）中，被告出版物与原告成果一致、但原告成果与第三方版本不相同之处接近19000处。即使每处差异的选择空间只有二选一，其他点校者与原告趋同的概率也只有一万九千的平方分之一，选择空间不可谓不大。

不同点校者的点校成果不尽相同乃是常态。许多看似微小的点校之处实为结合文本、历史、习俗等各项因素后做出的艰难推理。哪怕针对千年古籍，今人仍然能够发前人所未发、提出新见解，而这正是研究者源源不断投入点校工作的动力所在。例如元史专家洪金富先生便曾记录过《元典章》点校过程中的一些取舍依据。在不足二十字的一句话中，洪金富先生看似仅更改了三个汉字、两个标点。但这不仅耗费了大量考证与推理功夫，而且赋予了文本崭新的含义。不同点校者各出机杼、自成一家。倘若点校无法革故鼎新，很难想象一代又一代研究者会前赴后继地为点校投入毕生心血。点校是点校者个性的展现。而个性的载体，正是彼此存在显著差异的版本。

需要说明的是：假如个案中的点校成果确实难以体现点校者的个性化选择，则此种点校成果固然不构成作品，却也不应通过新设的邻接权来提供保护。拟议中针对古籍点校的邻接权制度与版权制度一样缺乏事前界权机制。当争议客体缺乏客观可识别差异时，单凭事后界权的侵权程序将难以认定被告是否构成抄袭。倘若为缺乏客观可识别的点校成果增设邻接权，将导致付出大量制度成本却难以实现禁止抄袭的制度收益，并不可取。笔者注意到，“邻接权兜底”方案并不以保护缺乏客观可识别差异的点校成果为诉求，而以保护被认为不可能构成作品、但是具有客观可识别差异的成果为目标。因此，本文的分析重点，也在具有客观可识别差异的点校成果上。总之，“选择空间有限说”在绝大多数争议场景下不符合争议客体的属性，而在少数与争议客体属性相符合的场景下又不能成为“增设邻接权”的理由。

（二）意图说

另一派反对意见没有从“选择空间不足”这一客观因素中寻求理由，而是转向主观意图。该说由尼莫在死海古卷案中提出，以点校者的意图是“重现”而非“创作”为由否认古籍再现成果的可版权性，梁志文对该说进行过详细介绍，在此不赘。“意图说”与后文“事实说”是反对古籍点校可版权性的核心理由。

“意图说”最明显的缺陷是对“创作意图”的解释过于狭隘，只关注点校者对意图中“旧”因素的描述，而忽略对“新”因素的追求。点校者固然有可能将自己的行动描述为“复原”，但也大可将此陈述为“推出新版本”。正是为了推陈出新，点校者才会孜孜以求体现自己个性化理解的新成果。如同其他演绎行为一样，点校同样新旧兼备。当裁判者在个案中判断作品资格时，关注对象应该是“新”元素的增量是否足够，而非“旧”元素的存量是否过大。

“意图说”的第二项缺陷是用版权法外行的描述替代版权法专业判断。在反对者看来，只要点校者用“重现”“复原”“修复”等词汇来描述自己的目标，就不可能具备“创作意图”；只有当点校者将自己的目标描述为“创作新作品”时，才满足意图说所要求的主观方面的条件。然而，点校者只是从古籍研究的专业角度使用“复原”等词汇，并非将其作为与版权法上“创作”相对应的概念。文艺工作者口中的“创作”和“非创作”经常与这些概念在版权法上的涵义相左。杜尚的《喷泉》在艺术史上占有一席之地，但艺术成就并不会自动转换为作品资格。无论点校者从文艺创作角度将意图描述为重现或者再创作、复原或者重新诠释，他们都不应由于缺乏版权知识而受到惩罚。

“意图说”的第三项缺陷是不符合版权法传统。版权实践表明：无论生产者是否追求产生新作品，结果都有可能构成作品。即便是临摹，当不同临摹者的成果彼此之间存在显著差异时，临摹成果同样构成作品。版权法甚至允许源自错误认识、偶然事件乃至拙劣技巧的差异成为权利客体，目的在于节约制度管理成本。“意图论”可能诱导创作者过度关心言辞的版权法效果，甚至引发虚假陈述。当点校者意识到使用“重现”“复原”等词汇将导致丧失版权时，会转而采取在版权法上更有利的方式重述意图与行为。被刻意包装的陈述既无助于获得更好的利益平衡效果，也无助于降低制度成本，反而可能给公众选择文艺成果造成不必要的障碍。类似现象也出现在AIGC可版权性问题上——用户掌握着关于AIGC创作意图与过程的一手资料。假设如实陈述可能导致版权被剥夺，用户就有动力作出虚假陈述。在设计制度时，此种制度成本不可不察。

为了判断成果是否属于文艺领域，在边缘地带考虑创作者的意图有助于区分“文艺成果”和“非文艺成果”。例如，一段连续身体动作如果源自日常生活则可能被认为不属于文艺领域；但如果出于戏剧效果而被刻意表演出来，则很可能构成作品。不过，此时的主观状态并非用于否定独创性，而只是从文艺成果角度做出的粗略分类，带有强烈的政策选择意味。但文艺目的并非意图论所关心的“意图”，故文艺目的与作品资格的关系并不影响本文对意图论的批评。

（三）事实说

反对可版权性的第三项理由是古籍点校的事实属性，即“对客观事实的‘复原’，显然不可能构成受著作权法保护的作品”。权且将这项理由称为“事实说”。该说不成立的理由主要有三：

第一，即便被“还原”的对象是事实，“还原”行为的结果仍可能构成作品。新闻报道、纪实文学、历史文献甚至前文分析的临摹都有事实“还原”属性，这并不意味着上述类型一概不可版权。

第二，“古籍原貌”的难以验证性意味着它并非典型的不受保护事实。

阻碍事实类信息成为作品的关键不是它与“事实”相关，而是该信息不适合版权法事后界权机制，以及该事实适合被保留在公有领域。当事实类信息的产生概率很小且版权私有化不会对公众福利造成封锁时，以还原事实为目标的信息同样有可能构成作品。正因如此，长篇新闻报道写实仍有可能构成作品。“事实”概念可以充当判断版权界权机制和公有领域范围的认知中介。但当存在争议时，这一中介概念需要被还原为底层问题才能实现制度效果。

在“古籍原貌”难以验证、长篇点校成果彼此之间区别明显的情况下，以“点校行为意在还原事实”为由一概否认其作品资格并不妥当。如果把“还原”视为通向终点的跋涉，那么临摹式“还原”的终点是一个鲜明的点，因而不同跋涉者的路径选择容易趋同；而对于古人原意未被确定记载的点校式“还原”而言，终点是一团边界不清的雾，因此不同跋涉者分道扬镳的可能性更大。尽管有人会给“古籍原貌”贴上“事实”标签，但是古籍的篇幅越长、“原貌”越不确定，分歧越多，通过特定点校者的视角呈现的“原貌”便有可能属于适合版权事后界权机制的小概率成果，且无需被保留在公有领域。

反对者举出“《谁毁坏了兴登堡号》案”（Hoehling v. Universal City Studios），意在说明无论“事实”是否可验证，都不受保护。这种观点将“事实”标签作为可以直接推论出作品资格的条件，而忽略了“事实”概念的认知中介功能。实际上，争议信息尽管被贴上“事实”标签，但真正导致作品资格被剥夺的理由并非其以反映事实为目标，而在于争议信息应当被保留在公有领域。假如被挪用的信息量大幅增加，或者针对“事实”的特定还原版本并没有重要到应当确保公众随意取用的地步，则法院有可能宣布被告的挪用行为构成版权侵权。从“事实”属性到“非作品”论断之间，仍有相当多的分析工作需要展开。可见，某些贴着“事实”标签且不可验证的信息不构成作品，并不意味着所有能被贴上“事实”标签且难以验证的信息都不可能构成作品。

第三，即便从事实的角度来认识“古籍原貌”，也应将“古籍原貌”之各种可能性组成的整体视为事实，而不是将每种单独的可能性视为事实。换言之，应当将各种点校成果构成的集合视为事实，而不是将特定点校成果视为事实。在“古籍原貌”不可考证或者没有共识的情况下，每个点校者的成果都是在他看来最能反映“古籍原貌”的再现方式。尽管对于每个点校者而言，自己的点校是最接近“原貌”的再现方式，但对于公众而言，每个点校成果都只是理解“古籍原貌”的角度之一，所有点校成果的总和才更接近对“古籍原貌”的全景再现。单个点校成果之于“古籍原貌”，犹如单张照片之于被拍摄的物体。尽管照片是对物体“事实”的再现，但照片仍有可能构成作品。在物体简单、不同照片之间不存在显著差异的情况下，照片不构成作品。而在物体比较复杂、不同拍摄者对如何再现物体的看法不同的情况下，每张照片都有可能构成作品。照片是否构成作品，只能在个案中判断，不能因为照片是每位拍摄者心目中对物体的最佳再现而笼统地否定照片构成作品的可能性。点校成果亦如此：即便将“古籍原貌”作为事实，当不同人关于应当如何呈现事实的看法不一时，彼此之间存在显著差异的每个呈现方式均有可能构成作品。

（四）知识垄断说

反对者担心：“如果对古籍点校成果给予著作权法保护，则有可能出现先点校者垄断、后点校者必然侵权的局面，这对于古籍的传播利用反而构成阻碍，显然不应是著作权法所追求的。”此种顾虑并无依据。

首先，承认可版权性，并不等于每个点校成果都是作品。其次，即便点校成果构成作品，公众仍然享有相当的行动自由。接触、实质性相似、合理使用甚至损害赔偿额等规则，都能为公众自由提供进一步保障。

此外，假如版权保护会导致垄断，那么邻接权或者原则条款保护同样会导致垄断。知识垄断说无法解释为什么版权受否定，而邻接权或者原则条款却受追捧。

综上，反对点校成果可版权性的各项理由均经不住推敲。点校是特殊的演绎行为，其特殊性体现在演绎者常常宣称自己意在“重现”，而且演绎空间所受限制较多。但是，上述两项因素都不会类别化地排除构成作品的可能性。与非演绎作品相比，确认演绎作品的独创性难度或许更大。因为针对以同一部原著为基础的不同演绎作品而言，读者更容易注意到其中的共性而非差异性。但是对于法院而言，仍然只需要根据显著差异部分来判断作品资格即可。遗憾的是，反对者将古籍点校问题移出版权法分析框架，转而求助于非版权规则。下文将对这种舍近求远的表现和后果进行分析。

二、作为兜底保护方案的邻接权

关于可版权性的种种质疑导致反对者对版权进路缺乏信心，但又认为点校成果需要激励。于是，反对者给出了两条替代路径，一是利用原则条款，二是增设邻接权，二者均具有为版权保护兜底的功能。利用原则条款兜底的具体表现，例如通过《民法通则》（1986）第五条来禁止被告挪用、要求被告赔偿损失，本文不赘。

在游戏规则和同人元素等客体的替代保护机制上，原则条款成为否认版权保护者的共识。与之不同，在古籍点校的替代保护机制上，可版权性反对者认为增设邻接权才是“最佳的立法对策”。

早期的反对文献，重点在于论证点校成果不构成作品的理由，邻接权只是文末被一笔带过的倡议。但随着讨论的推进，人们逐渐开始探索该权利的具体设定方式。近期已有文献提出了具体立法建议：

“第X条古籍作品科学版本权

不受著作权保护的古籍作品或者文本的科学版本准用本法有关作品著作权的规定而受保护。其中，科学版本是指对上述古籍作品或者文本进行点校形成的、与该作品或者文本在先已知版本存在实质性区别的版本。

该权利由版本的点校者享有。

该权利在版本出版之后10年消灭，但版本在制作完成后10年内未出版的，该权利亦消灭。”（下称“建议文本”）

建议文本采用德国《版权与邻接权法》第70条的术语，将邻接权命名为“科学版本权”。后文视上下文需要，交替使用“版本权”和“古籍点校邻接权”，内涵不作区别。

上述建议文本表明，邻接权的构造如下：第一，权利客体是狭义点校成果，不包含注释、点评等明显可版权的内容。客体获得保护的前提是存在显著差异。第二，权利内容、权利限制均与版权规则相同。第三，权利保护期显著短于版权保护期。至此，“古籍点校不可版权、而应通过增设邻接权加以保护”在论证层面踏出了关键一步，完成了从宽泛倡议到可操作性文本的转变。但是，建议文本的出现，也更明显地展现出“邻接权兜底”方案在本体论和认识论两个层面的缺陷，需要认真分析。

三、古籍点校邻接权方案提供的利益分配方案不合理

在邻接权的设计者看来，“古籍点校本的独创性极其有限”。既然如此，“给予其50年以上的法律保护，不利于优秀中华文化在新技术条件下，广泛传播和弘扬光大”。但实际上，“令贡献和保护期精确匹配”的制度成本远远超过制度收益，所以版权法并未选择这种思路。现行各类作品在贡献程度和激励必要性上存在天壤之别，却享有相同的保护期。此外，即使不考虑“精确匹配”思路本身的不合理性，为古籍点校配置更短保护期的方案仍然不合理。理由如下：

（一）短期保护不能反映点校者的贡献

“古籍点校的独创性贡献更小所以保护期应当更短”，这一认知并不符合现实。

第一，文艺成果的类别不能代替对具体文艺成果贡献程度的判断。

贡献程度需要个案判断。哪怕处于同一文艺类别之中，不同成果的贡献程度也完全可以有天壤之别：文字作品中既有鸿篇巨制，也有不足十个字的广告语；音乐作品中既有传世名作，也有短短数个小节构成的旋律片段。人们无法通过类别来判断特定作品的贡献。同理，尽管某些点校成果的贡献不大，但点校成果的贡献程度并不因此而类别化地低于其他作品类型。

第二，就平均值和最低值而言，点校成果的贡献很可能高于其他作品类型。

在至今为止成讼的纠纷中，每个争议成果的贡献都远远大于当代作品的平均贡献。在中华书局诉国学时代案（二十四史与《清史稿》案）中，每部史书少则数十万字、多则数百万字，原告称：“1959年到1978年间，中华书局公司从全国范围内调集了百余位文史专家，……投入巨大成本并克服种种困难”，方完成点校工作。在李子成诉葛怀圣案（《寿光县志》案）中，点校工作持续两年之久。在人民文学出版社有限公司诉人民教育出版社有限公司案（《镜花缘》案）中，争议成果篇幅接近60万字。即便是在法院否认作品资格的郑福臣诉大众文艺出版社等案（《术语丛刊》案）中，法院也不否认原告点校成果包含接近19000处与既有版本不同的选择。

在当今的作品中，包含海量的照片、短视频、演讲幻灯片以及商业文案等内容。这些作品平庸易逝，文艺贡献无法与古籍点校相提并论。难怪中华书局在面对“古籍点校不是作品”的论点时，不乏激动地谈到：“当年，在中华书局点校‘二十四史’和《清史稿》的这些公认的断代史各学科的大学者们：顾颉刚、陈垣、唐长孺、宋云彬、孙毓棠、王毓铨……无论如何想不到，以数十年之功完成的点校作品，竟被侵权盗版者说成谁都可以为之，甚至电脑都可以代劳之事。”就平均水平和下限而言，点校成果中包含的贡献明显高于典型作品类型。以贡献不足为由拒绝承认古籍点校为作品，缺乏事实依据。

（二）短期保护未必能提供足够激励

点校行为需要激励，而过于短暂的保护期很可能导致激励不足。

版权保护期极其漫长。一名活到北京市平均寿命的作者在30岁前完成的所有以自然人作者身份享有版权的作品都将享有百年以上的保护。如此漫长的保护期没有引发激烈的公众批评这一事实本身着实令人诧异。这从侧面说明，“低贡献成果不得享有长期保护”的说法并不符合版权秩序的现状。

然而，在“低贡献成果不得享有长期保护”的错误认知下，邻接权方案的核心规则是大幅缩短保护期。建议文本以10年为标准保护期，即便在点校完成后没有立刻发表的情况下，总保护期最长也不过20年。与版权保护期相比，邻接权的保护期短得可怜，与古籍点校的保护并不匹配。原因至少有二：

首先，古籍点校很少是日常生活的副产品。

大量照片的目的在于记录事实，大量日记的目的在于自我倾诉，大量文件的目的在于组织管理，大量演讲的目的在于分享观念。在大量满足正统版权法标准的“独创性表达”中，作者往往既不在意“独创”也不追求“表达”，所求常为独创表达之外的价值。即使没有版权激励，副产品类作品仍会大量出现。版权法将其纳入保护范围的原因并非激励，而是因为将它们与真正需要激励的作品区分开来的成本太高、收益太低。

相反地，古籍点校很少作为副产品出现。如果不是为了获得点校成果，点校者不会实施点校行为。这意味着与常见作品类型相比，点校成果更需要产权激励。如果点校者不能将点校成果主张为自己的成果，如果任何人都可以在短暂的保护期过去后便随意抄袭点校成果，则点校者最直接、最主要的诉求将落空，点校激励将大幅减损。有人可能会提出，古籍点校的主要激励并不来自版权许可费而来自学界认可和研究经费。但是如果依照这种思路，学术论文的版权正当性也将大受减损。

从副产品的角度来看，将古籍点校邻接权与版式设计邻接权同等对待的思路值得商榷。邻接权的主张者认为：“鉴于我国著作权法赋予版式设计权的保护期为10年，对科学版本权亦可拟定为10年。”然而，此“版本权”与彼“版本权”缺乏可比性。对版式设计而言，在邻接权之外，还存在强大的替代激励措施。因为任何出版内容都必须呈现为某种“对版心、排式、用字、行距、标点等版面布局因素的安排”，只要存在出版行为，出版社就会持续不断地产出新版式。古籍点校则不同，它不是出版其他作品的附随活动，它本身就是被出版的内容。点校者无法借助点校成果产权之外的产权来获得回报。如果法律拒绝为点校成果提供足够的保护，点校者将难以通过其他途径获得足够激励。可见，即便10年保护期对于版式设计而言具有正当性，人们却不能因此推出如此短暂的保护期对于古籍点校而言同样具有正当性。

其次，点校成果是“冷门”文艺成果，通常难以在短期内收回投资。

与视频、音乐、小说等常见的文艺活动相比，古籍点校的受众群体小、大众接受程度低、扩散速度慢、市场回报周期长。就生产而言，如果没有“板凳甘坐十年冷”的准备，点校者很难进入点校行业。就消费而言，常见作品类型或许会出现“病毒式传播”，古籍点校却没有“一夜爆红”的可能。在越来越快餐文化的当今社会，让公众接触古籍、接受古籍的难度已经很高。相当一部分公众的阅读意愿与能力早已远离古文，甚至远离文字，转而被图画、视频和游戏所控制。对于点校者而言，应对时代精神变迁、阅读习惯改变、柠檬市场压力和转投流行文化的诱惑都已消耗大量心力。如果将保护期缩短到10年，点校者将很难有足够的时间进行推广、积累口碑、提升销量并且最终获得回报。惨淡的回报难免不会成为压垮他们的“最后一根稻草”。

（三）缩短保护期对于增加公众行动自由的增益有限

反对者认为：更短的保护期“有助于特定科学版本及时向社会公开，进入公有领域，以实现公众获取知识的需求”。但实际上，即便给予古籍点校以正常的作品保护期，也并不会造成可怖的垄断效果。

第一，反对者认为：“如果对点校成果以著作权的角度予以保护，势必会造成点校行业的垄断，即一部古籍只允许一个点校者实施点校行为。”这种担心缺乏事实基础。长篇作品的古籍点校拥有相当可观的选择空间，分别独立完成的点校成果并不相同。前文已详述，不再重复。

第二，假如版权保护确实会导致“在后的点校者客观上无法避免其点校成果与在先的点校成果发生大部分甚至绝大部分点校处重合的情况”，则不仅版权保护不恰当，邻接权保护同样不恰当。人们需要在垄断激励和公众自由（包含后续点校自由）之间进行选择，而不是在版权与邻接权之间进行选择。

第三，只要法院正确适用侵权认定规则、权利限制规则和权利救济规则，版权给公众行动自由带来的限制便十分有限。版权既不剥夺公众接触作品的机会，也不阻止研究者进行后续点校，只要求使用者支付恰当许可费。在竞争压力下，点校者通常不会主张过高的许可费，因为过高的许可费会导致公众转向竞品。

在本应获得版权保护却被削减的期间内，公众固然拥有额外的不付费“自由”和抄袭“自由”。然而，如果针对常见类型作品的盗版和抄袭并非值得认可的“自由”，则针对古籍点校成果的盗版和抄袭同样不构成值得付出产权激励和公平回报代价去追求的“自由”。

（四）缩短保护期反而可能阻碍公众及时接触作品

反对者认为，缩短保护期能够扩张公众行动自由。然而，缩短保护期有可能导致权利人偏离最优定价，反而阻止公众及时获得作品。

古籍点校的受众群体原本相对较小，阅读态度相对谨慎。在漫长的版权保护期内，市场可以进行有效的声誉反馈，例如网购点评机制有助于消除信息差、让优质内容胜出。权利人能够从容地调整定价，在单价与销量之间求得平衡，无需将收回投资的希望寄托于短期高价之上。我们不应该只看到漫长保护期对于作品可及性的阻碍作用，还应当看到它给予权利人“薄利多销”的自信与从容。较低的单价能够减少无谓损失，让更多读者以合理的价格接触到最新的点校成果。

短暂的保护期意味着点校者必须尽快收回投资。在受众数量相当有限的情况下，即便薄利也未必能够多销，点校者为了收回投资或许将选择提高客单价。但是，高价必然会将部分原本兼具支付意愿和支付能力的读者拒之门外，导致无谓损失。如此一来，过短的保护期反而会阻碍公众及时接触作品。

“短期保护”是邻接权方案唯一有特点的规则供给。在这一规则缺乏利益平衡实质合理性的情况下，邻接权方案已然丧失正当性。

四、古籍点校邻接权缺乏认知经济性

理想的法律规则不仅有助于实现利益平衡，而且具备认知经济性，能以有限的认知资源来完成复杂的认知任务。如果增设一套“权利客体、权利内容、权利限制、权利救济、权利主体”分析框架之后，只是将大量决策资源耗费在新旧模块的区分上，却无法获得更为正确的利益平衡结果，则增设邻接权的方案并不值得提倡。

（一）增设邻接权的认知收益过低

从表面上看，古籍点校邻接权如同版权一样提供了利益平衡分析框架。这套分析框架同样以权利客体为启动条件，继而围绕“权利内容、权利限制、权利救济、权利主体”等环节给出结构化经验，有助于决策者在认知便捷性和认知正确性这对矛盾目标中实现总效用最大化。

然而，邻接权分析框架与版权分析框架的唯一实质差别在于不合理的保护期，除此之外没有提供任何新经验，因而缺乏认知收益。这种与版权高度重叠的邻接权设计思路来自德国《版权与相关权法》第70条。该条规定：“当不受著作权保护的作品或者文本的版本是体现可识别的科学活动的成果并且与既有版本存在显著差异（wesentliche Unterscheidung）时，准用第一部分规定获得保护。”所谓准用，指除保护期之外，版本邻接权与版权“完全一致”。尤其值得注意的是，邻接权在客体环节提出的“显著差异”标准，意味着如果争议成果缺乏“显著差异”性，则邻接权同样不会提供保护。在被浪漫主义创作观抬高的“作品”门槛下方，法院仍然需要本着务实精神，承担等同于独创性认定的裁量压力，将能获保护的争议客体筛选出来。为了刻意区分“作品”和“科学版本”，法院需要耗费相当精力。但在完成区分之后，两类客体享受的待遇，除了不合理的保护期差别之外，却又完全一致。这难免让人产生“多此一举”之感。

以下以权利内容为考察对象，展示邻接权方案与版权的一致性，具体而言包括受控行为清单和侵权认定标准两方面一致性。

一方面，邻接权与版权的受控行为清单完全一致。

古籍点校邻接权不仅包含财产权，而且包含人身权，例如署名权。权利人不仅能够禁止他人复制和发行受保护的版本，而且能够禁止他人的表演或广播行为。例如当邻接权指向古老乐谱的新版本时，他人未经许可不得表演或广播新版本。此外，科学版本邻接权的权利人如同作者一样享有演绎权。

另一方面，邻接权与版权的侵权判定规则完全一致。具体而言：

第一，古籍点校的原告必须证明接触和实质性相似，二者缺一不可。

只有当原告既能证明接触，也能证明实质性相似时，被告才承担责任。在理论上，如果被告没有接触过原告成果，则无论实质性相似程度多么高，被告都不承担责任。

第二，实质性相似判断是侵权认定的重中之重。

对于版权而言，“实质性相似”的对象必须是独创性表达。对于版本邻接权而言，实质性相似的对象必须是与既有版本存在显著差异的内容。如果相似内容不能体现点校者的个性化选择，则不能认定被告侵权。借助版权法上丰富的研究成果，可以发现针对古籍点校，专家视角可能比用户视角更为重要：当专家认为相似内容并不体现原告的个性化选择时，相似这一事实本身并不引发侵权责任；而当专家认为被告挪用了原告的个性化选择时，则被告应当承担责任。版权法经验有助于法院顺利完成古籍点校的实质性相似判断。

第三，接触可以通过显著差异内容的实质性相似程度来推定。

假如点校空间非常大、原告的点校成果与其他点校成果之间的差别显著，而被告恰好与原告的点校成果极度相似甚至一模一样，此时即便被告否认接触事实，法院仍然会认定侵权成立。因为原告在巨大点校空间中产出的点校成果是小概率成果，很难被重新独立完成。

按照版权法的经验，各个古籍点校案件的结论（而非推理）都很容易理解。各个案件中正确的判断均遵从版权法，而与版权法有所偏离之处则恰恰值得质疑。限于篇幅，只考察周锡山诉江苏凤凰出版社案（《金圣叹全集》案）二审判决。因为这是明确反对古籍点校可版权性的典型案例。

在该案中，法院以古籍点校不可版权为由拒绝支持原告的诉讼请求。版权法提供的利益平衡框架可以在相当程度上解释法院对原告诉讼请求的否认。如下事实确实对原告胜诉构成重大威胁：第一，原告“既没有校勘记，也没有底本、校本选择的说明”，这可能导致法官不能确信原告主张的点校成果是独立创作的而非抄袭的结果。第二，在被告与之相同的校勘内容中，绝大多数与第三方点校成果相同，或者属于繁简转化类缺乏选择空间的劳动成果，这意味着原告成果的独创性值得怀疑。第三，判决没有显示任何被告接触过原告点校版本的直接证据，法院也没有通过双方相似的程度就接触可能性给出判断。如果法院认为原告未能证明接触要件，则原告自然败诉。第四，被告提供了校勘记（尽管原告认为其中部分内容系伪造），这或许增加了关于被告独立创作、甚至被告没有接触过原告点校版本的确信。第五，双方点校成果并非完全相同，而是存在大量差异：“‘周版金批西厢记’与‘陆版金批西厢记’两书标点各2万余个，其中不同的标点为1779处。”考虑到不同点校者的点校成果本来就会存在大量相同之处，接近十分之一的不同之处实际上意味着双方成果相似的程度并不太高。上述分析意味着：如果法院适用版权法分析框架，不仅很可能会得出同样结论，而且推理过程将更加严密。

但是，由于法院拒绝适用版权法，因而判决并未清楚地告诉公众原告败诉的关键何在。尤其令人遗憾之处在于，判决并未明确讨论被告是否接触过原告的点校成果。判决虽然提供了相当多可以被用来判断接触要件的事实，却没有将这些事实与接触要件关联起来，读者因此无法知晓关于接触事实的不同认定结论会不会对本案造成影响。本文并不质疑判决结论，只是想通过上述分析强调如下道理：只有严格遵循版权法的分析框架，才能把复杂的事实置于有意义的结构之中。只有在将事实与正确的结构化分析框架——也就是版权框架——进行关联之后，人们才能以最正确也最便捷的方式做出决策。如果拒绝版权法分析框架，则原本可以条分缕析被解决的问题，即便获得同样正确的答案，其分析过程也将留下遗憾。

前述分析表明：在古籍点校问题上，邻接权方案无法提供认知增益。所有打着“邻接权”旗号的正确决策均与版权分析框架相一致；而一旦偏离版权分析框架，错误便接踵而至——轻则说理含混，重则判断失误。版权和邻接权之间的关系处于令人唏嘘的悖论之中：若要避免同质化，便会出错；如果要避免错误，就必须实行同质化。法律规则的首要任务自然是避免出错，因而德国法和我国现行的建议方案均选择容忍同质化。然而，如果法院和公众在两套分析框架下得到的最好结局只是不出错，那么将古籍点校从作品中分割出来区别对待的认知收益可谓乏善可陈。

实际上，“难以提供认知增益”是德国法上数项邻接权的通病。德国将照片分为摄影作品和受邻接权保护的照片，将视听作品分为电影和受邻接权保护的活动图片。从表面上看，作品与对应的邻接权客体分属两类；但实际上，两类之间的差别在实践中几乎可以忽略。犹如科学版本“准用”作品规定、仅保护期存在差别一样，照片与活动图片同样采取“准用”的立法技术，与对应作品仅存在微小差别：受邻接权保护的照片准用摄影作品的规定，仅保护期略有缩短；活动图片准用电影的规定，仅在能否依推定获得表演者授权方面存在差别。这种差异对司法实践中的保护力度几乎没有影响。以照片为例：邻接权保护的照片保护期为发表之日起50年，这已经是一段漫长的时间。人们很难想象存在如下照片：一方面，它的独创性低到只是邻接权保护的对象；另一方面，它的价值高到发表半个世纪之后还被人抄袭并且引发诉讼。实际上，笔者也确实没有在德国的主流教科书和法律评注上找到这样的案件。这意味着邻接权与作品之间的名义差异从未在实践中催生可查询的案件。即便缺乏照片邻接权条款，低独创性照片也不会因为更长的版权保护期而被过度保护；即便制定出照片邻接权条款，也未能阻碍狭义版权不保护的低独创性照片获得保护。即便笔者的检索略有遗漏，实践中摄影作品和邻接权照片的保护效果差别应当也处于微不足道的量级。从摄影作品中切割出低独创性照片作为邻接权客体的机制，除了维护基于典型作品而建立起来的“作品”概念之神圣性外，乏善可陈。德国法上这种不能提供有价值的新认知框架的邻接权，不应成为借鉴的对象。

（二）增设邻接权将推高制度成本

增设古籍点校邻接权将明显增加司法成本，并加剧法律适用的不确定性。

第一，受保护的版本与作品之间的差别难以把握。

在德国法上，科学版本受保护的核心前提是“显著差异”。其与作品独创性在内涵和制度功能层面都难以区分。就内涵观之，二者均以存在选择空间并且呈现差异形态为核心。而在功能层面，二者均以确认抄袭、提升法律预见性为目标。

实际上，德国式科学版本权存在的基础，是被浪漫主义作者观推高的作品门槛。一旦该前提在务实的司法实践中被修正，科学版本权也就成为了无源之水。“从案件数量观之，第70条的实践意义一直相当有限。”科学版本权于1965年被引入德国《著作权与邻接权法》后，等待了十年才迎来联邦最高法院第一案，即“帝国国防军审判案”。

该案的争议客体是一份350页的庭审材料。根据庭审时的德国刑事诉讼法，当事人的陈述不做书面记录，而帝国法院档案馆中与审判相关的资料也已失踪。原告方作者只能综合运用当年的各种新闻媒体资料，并辅以帝国首席检察官的起诉书、帝国首席检察官、帝国国防部长和帝国司法部长之间的通信和审讯办公室的日记等辅助资料，才“还原”了庭审过程。德国联邦最高法院本可以直接将其作为作品保护，却舍近求远地将其置于科学版本权的名义下进行保护，尽管连法院也承认“Bucher博士对审判过程的表述实际上不是重建（Rekonstruktion），而是对事实的‘构建（Konstruktion）’。”

在本案中，如果执意从“还原事实”的角度来描述Bucher博士的行为，那么被还原事实所并非Bucher博士“构建”的版本，而是所有现存资料构成的集合。假如争议客体是所有现存可搜集的相关材料之集合，则无论Bucher博士为搜集资料付出了多少努力，都难以获得版权保护，因为所有材料的集合可以被视为关于事实的无独创性再现——当然，所有材料的集合同样难以获得科学版本权保护。但是，如果Bucher博士从数量巨大、彼此矛盾的材料中筛选出部分材料，则只要筛选结果不容易与他人独立筛选的结果相重合，筛选出的部分材料很容易作为汇编作品获得版权保护。因为筛选可以被视为个性化视角下对整体的重现，尽管被重现的整体本身可以被视为事实，但针对事实做出的个性化重现却不应被当作事实排除在作品范畴之外。

批评意见正确地指出，该案混淆了作品和受保护的版本之间的界限。问题在于，只要存在科学版本权，它和版权之间的界限本来便不清晰。这种模糊性将持续带来司法压力。在此压力下，法院不得不在各种边缘案件中努力寻求分界线，其一念之差便会造成数十年的保护期差别。这种区分的努力对于单个案件中的法官而言是沉重的负担，对于全国法院的法律适用统一性而言更是构成巨大挑战。

第二，增设版本权将增加版权国际协调的难度。

在比较法上，版本权并无共识。《伯尔尼公约》和TRIPs均未规定版本权。即便在欧洲，也只有部分国家规定了版本权。我国文献将德国、意大利、波兰、葡萄牙、英国和西班牙作为比较法参考例。但实际上，英国法上的保护对象是“排版编排（typographical arrangement）”，西班牙法上的保护对象是“排版构成、展示方式和类似的编辑特征（typographic composition, layout, and similar editorial characteristics）”，二者更接近于我国《著作权法》第37条的版式设计权，与点校成果针对内容的选择有着明显区别，并不构成有效的参考。如此一来，真正有可能作为参考的外国法，仅德国、意大利、波兰和葡萄牙而已。不为点校成果设定邻接权才是绝大多数国家采用的规则。

版本权导致的国际版权秩序不协调已被北美学者所关注。有加拿大学者指出：即使在欧洲内部，版本邻接权已经造成了保护期混乱。欧洲只有少数国家引入了版本权，就连这几个数目有限的国家也无法就保护期长度达成一致：德国和葡萄牙提供25年的保护，波兰提供30年保护，而意大利则只提供20年保护。各国规定的不协调还体现为保护期的起算点不同：德国原则上以出版时为起点，但在未出版的情况下提供额外25年的保护，因此实际上最长可以享有50年保护。葡萄牙规定的保护期起算点为合法出版时，并未提及出版前能否享有版本权保护。如果出版前不享有版本邻接权保护而是商业秘密保护，则理论上总保护期可以无限延长。波兰关于起算点的规定与葡萄牙相似，均为出版时；但波兰法的措辞又不完全相同，只规定“出版时”，没有如同葡萄牙法一样规定为“合法出版时”。意大利法与葡萄牙法相同，均以“合法出版时”作为起算点。上述差异使得跨国版权交易只能“两害相权取其轻”：要么付出更高的交易成本、拟定更繁复的交易条款；要么搁置差异、容忍不确定性的乌云盘旋在交易上空。

欧盟《保护期指令（2006）》在前言中指出，成员国在保护期方面的差异阻碍了商品和服务的自由流动，需要消除差异以促成单一市场的发展。颇具讽刺意味的是，该指令允许各国引入（member states may）新的版本邻接权，其实际效果却加剧了各成员国在保护期方面的差异。加拿大学者忍不住叹息：“同一版本在不同国家仍然会受到不一样的待遇，甚至在这些国家均已引入版本邻接权时仍然如此。”

古籍既是我国的珍宝，也是人类的共同遗产。他国的文艺经典同样如此。立法者应当努力促成以人类文明共同遗产为基础的研究成果在不同国家之间便利流动，而不应刻意设置规则迷宫。无论从国内法律确定性还是国际交流规则明晰度观之，增设版本邻接权都会推高制度成本。赞同在我国引入邻接权的意见，既没有就作品与邻接权客体的区分给出足够明确的指引，也没有就增设邻接权的成本收益展开分析，尤其没有考虑到邻接权方案可能带来的负面影响。考虑到邻接权方案乏善可陈的认知收益，增设邻接权可谓事倍功半，应予拒绝。

五、警惕“向邻接权逃逸”倾向

在古籍点校可版权性的讨论中，增设邻接权成为一件简便的反对工具，但其在制度设计与理论论证层面均难以自洽。能在本体论与认识论层面均经受考验的邻接权并不多见，这也正是相当多国家并未大规模借助邻接权来解决非典型文艺成果利益平衡的重要原因。足够复杂但文艺独创性有限的照片或者连续画面，以及以“还原”不可考“文本原貌”作为目标的科学版本，在诸多国家均构成作品。多年来的实践表明，此种做法并未产生负面效果，反而节约了大量制度资源。多年来的实践同样表明，比较法上真正经受住时间检验的邻接权，是那些不仅在本体论层面利益衡量得当，而且在认识论层面能够切实提供独特且正确分析框架的邻接权，例如表演者权、录音制品制作者权以及广播组织权。它们的受控行为清单与版权之间存在显著差别，并且恰好适配该领域的利益平衡需求，故而能够获得广泛接纳，而非仅作为区域性现象而存在。可见，尽管在理论上，邻接权的正当性基础存在传播者说、投资说以及低独创性说等不同解释，但在实践层面，各国的立法和司法通过“用脚投票”选出了大致相同的有效邻接权清单。

“邻接权兜底”方案往往以虚构问题为起点，却制造出新的制度负担。例如，2020年《著作权法》修改时新增广播组织的信息网络传播权，便是“体育赛事直播画面不可版权”论断的后果。倘若当时对版权路径略加宽容，今日或无须面对邻接权扩张带来的问题。

意识到邻接权路径的局限性，对于非典型文艺成果的利益平衡路径选择至关重要。版权路径和邻接权路径是此消彼长、相互替代的两条路径。一者之无能意味着另一者之能动。邻接权兜底方案的存在，使拒绝版权路径的立场更为自信；反之，当邻接权兜底方案无法自圆其说时，人们将被迫反思抛弃版权法的弊端。版权、原则条款和增设邻接权三者构成彼此牵制的整体。表面上仅与一者相关的议题，其实往往只能在考察完替代方案之后才得出答案。笔者注意到，在AIGC的保护路径选择上，美国与欧洲近期相继表达了对新设邻接权提议的高度谨慎、乃至否定立场。这种谨慎态度体现出对“邻接权兜底”进路的反思，值得赞赏。与此同时，版权界对待AI用户版权主张的态度正趋于宽容，两者之间存在不应被忽略的联系。

笔者并不一味反对增设邻接权，但认为立法者有必要在“舍版权而取邻接权”之前对作为兜底方案的邻接权具体细节展开详细考察。

从立法论角度看，仅当以下条件具备时，“邻接权兜底”方具可行性：其一，能提出明确的权利内容与权利限制等邻接权制度构造细节；其二，在利益分配上具备正当性；其三，具备认知经济性，能够降低认知成本。若不具备上述条件，立法者应更耐心地探索版权路径的解释论方案。

古籍点校邻接权问题看似具体，却为AIGC等新兴议题提供了可资借鉴的制度经验。当前对AIGC作为用户作品资格的否定，往往伴随“增设邻接权”之呼声，但主张多停留在倡导层面，未见在本体论与认识论层面兼具合理性的具体方案。在用户针对AIGC提出的排它权主张上，用邻接权来承接激励功能的收益是什么？成本有多大？这些重要问题并未得到充分关注。在邻接权讨论素材尚不丰富的情况下，对邻接权的期待已经或多或少地减损了人们发掘“作品”概念解释空间的动力。在此情况下，深入研究古籍点校邻接权这一方法论样本，有助于降低其他争议客体面对邻接权路径时的试错成本。

本文“以古籍点校为方法”，旨在说明：针对局部议题的细致分析，正是理解版权制度整体逻辑的关键途径。关于可版权性的讨论不应局限于版权内部视角，而需要在与邻接权方案和原则条款方案进行反复比较之后得出结论。笔者希望，随着一次又一次“以具体问题为方法”地打磨知识产权法的结构化分析框架，在面对新问题时可以更有效地提出正确问题、获得正确答案，确保版权法持续生成合理而开放的解释力。

转自《清华法学》2026年第1期

2026-03-14
戴向明：中国农业起源与早期农业文化格局的形成

考古发现和研究表明，中国南稻北粟（黍）两类农业起源的时间都可追溯到距今万年以前。有学者将旧石器时代末期至新石器时代初期的东亚分为四个经济文化区，其中在中国“东北地区有陶定居渔猎文化”和“南方有陶定居渔猎文化”的一侧，即华北北部的东胡林文化和钱塘江流域的上山文化，分别诞生了最早的旱作农业和稻作农业。与东北和南方资源富集区不同，上述两处侧翼边地缺乏高度依赖水生动物资源的条件，在长期使用陶器炊煮食物的背景下，转而加大了对草本和禾本科食物资源的深度利用，从而导致种植农业的发生。该学说可称为有关农业起源的“新边缘论”。本文在此基础上尝试进一步探讨中国农业起源的时空范围、早期农业文化的来源，并重点分析从农业发生到农业文化格局初步形成的动态发展过程。

一、农业起源阶段的南方

中国南方最早有农业遗存出现的上山文化主要分布在钱塘江流域、浙江中部浅山丘陵地带。上山文化可分为早、中、晚三期，发掘报告根据碳十四测年推断，早期年代距今10000余年至9500年左右，中晚期年代大约在距今9300年至8400年之间。在上山早期阶段，目前只发现零星的炭化稻谷，但在红烧土块和夹炭陶胎中，却见有大量稻壳和茎叶印痕，其中个别可鉴定者显示出驯化稻的特点；从中还发现少量小穗轴，部分有野生稻特征，部分有栽培粳稻特征。另外从上山遗址剖面和早期堆积采集的样品中，发现少量有驯化稻特征的扇形和双峰型植硅体。这些发现表明，上山文化早期已经出现具有驯化特征的稻子，农业种植已经发生。不过，在农业起源初期，具有驯化特征的稻谷与大量野生性状的稻谷共存，而后者既可能来自初期人工栽培的收获物，也有可能来自自然生长的野生稻。当时人工栽培稻在稻属遗存中究竟占有多大比重，目前似乎还没有确切的认识，只是已有数据显示野生性状的稻谷应当占据多数。根据器物残留物中的淀粉粒分析，当时可食用的野生植物还有橡子、薏苡、菱角、根茎类和稗属植物等。动物骨骼保存不佳，出土数量不多，可知有猪（应为野猪）、大型鹿科、鱼类和鸟类。总体来看，此期生业是以野生动植物为主要食物来源、偏重植物利用并兼营稻作种植的广谱型经济。

在已知数量不多的包含上山文化早期遗存的遗址中，目前只有浦江上山遗址经过了较大规模发掘。该遗址发现的早期遗迹，主要有1座房址、46个柱洞、105个灰坑。房址（F1）近长方形，由带基槽的宽1米左右的墙基合围而成，室内面积10余平方米，不见灶等设施，具体功能不详。柱洞有集中分布的现象，应是一些干栏式小型房子的遗留。大量灰坑多为形状不太规整、体量不大的浅坑，不少坑里有集中堆放的大块陶片，可复原器物主要是大口盆，还有罐等。另外还有两小片集中堆积的红烧土遗迹。出土陶器主要有大口盆、双耳敛口罐、侈口罐，以及少量的圈足豆（或盘）、钵、杯等，器型简单，但总量不少。石器数量也很多，以打制的石核、石片为主，还有部分砾石工具，以及磨石、砺石和斧、锛、凿等磨制石器，既延续了南方旧石器时代晚期以来的石器传统，又有一些新石器特征，是南方广谱经济和木作加工的产物。以上发现表明，上山早期社会的定居聚落及种植农业已初具规模。

追寻一万年前的稻作农业起源，除了上山文化，在南岭以北、武夷山以西的浅山盆地和丘陵地带，还有一些值得注意的线索，目前皆见于洞穴遗址。位于长江中游的湖南道县玉蟾岩，出土遗物测年在距今18000—14000年左右。这里的石器皆为打制，以砾石石器为主导，基本承袭了华南旧石器文化传统。出土少量陶片，可复原者为尖圜底釜。出土大量野生哺乳动物、鸟类和鱼、龟鳖、螺蚌等水生动物骨骼，还有大量野生植物果核和种子。其中个别稻谷遗存主要是从钙质胶结层中发现的，其年代尚有疑问，此外在土样中还发现有稻属植硅体。这些都显示出典型的渔猎、采集主导下的广谱经济特征，并且至少已有对野生稻的利用。

比较而言，位于长江下游的江西万年仙人洞和吊桶环遗址更值得注意。两个遗址早期（距今25000—23000年）和中期（距今23000—20000年）的石器与生业主要呈现出华南旧石器时代晚期的特点。晚期前段（距今20000—12000年）大中型砍砸、切割与研磨工具构成石器组合的主体，出现了世界上最早的陶器，主要是圜底釜和钵，同时出现大量稻属植硅体，表明采集加工植物已成为主要的生计行为；晚期后段（距今12000—9000年），主要在气候由冷转暖的全新世初期，除延续以往石器传统，又出现砺石、穿孔重石、磨盘、梭形器等较多磨制石器，陶器数量增多，加速了新石器化的进程。据分析，1万年前的地层中出土的稻属植硅体，既有野生稻特征的，也有栽培稻特征的。因此在晚期阶段利用野生稻的过程中，不排除开始有稻作种植并出现驯化特征的稻谷。

上述这些发现为稻作农业起源于长江中下游地区的认识提供了进一步依据。由于长江中游尚未发现可早到距今一万年左右的驯化稻，近年来长江下游地区在探讨稻作起源中的重要性吸引了更多学者的目光。仙人洞和吊桶环遗址位于鄱阳湖东侧、武夷山北端的浅山盆地（大源盆地），与上山文化分布的浙西金衢盆地毗邻且连通，同属广义的长江下游地区。玉蟾岩位于南岭北侧，属长江中游最南端，但与上述两遗址的环境有相似之处。参照已有的稻属遗存线索，目前还不能排除长江中游某些地域同样也是稻作农业发源地的可能性。如果“南方有陶定居渔猎文化”的资源丰富区主要分布在岭南，那么南岭—武夷山的北、西侧，一直逶迤绵延到东北端的钱塘江流域，也许都属于有一定野生稻分布而自然食物资源又不很丰富的“侧翼丘陵区”，都有可能是稻作农业的起源地。只是目前相关考古资料尚少，证据还不很充分，尚不能确定稻作农业究竟是从一个小地域起源然后传播开的，还是在相似环境和条件下多地同时发生的。最终解决这些问题还需要做很多的田野考古工作。

至于上山文化的来源，在本地钱塘江流域及附近地区还没有找到直接的线索，稍向外扩展则与以仙人洞和吊桶环遗址为代表的、分布在武夷山北端、鄱阳湖东侧的旧—新石器时代过渡阶段的文化有一定关系，两者间的河谷地带本来就是相通的。上山早期与仙人洞和吊桶环晚期遗存在石器技术、类型和组合方面有些相似之处，如都有小型打制石核、石片工具，大型砍砸器、石锤等砾石工具，以及磨盘（磨石）、砺石、穿孔重石等磨制石器。两者间的陶器差异显著，但也有相似之处。上山早期双耳罐敛口、微束颈、球形鼓腹的特征，与仙人洞、吊桶环晚期束颈、鼓腹的陶釜风格近似。

二、农业起源阶段的北方

北方粟黍农业最早的迹象见于华北北部的东胡林文化（约前9000—前7500），目前只发现很少几个遗址。北京东胡林、转年都分布在燕山南麓山谷里的河边阶地，地形崎岖狭窄，河北徐水南庄头则位于太行山东侧山前倾斜平原区。东胡林遗址浮选土样获得1663粒炭化植物种子，其中粟、黍合计只有15粒。这是目前所见年代最早的粟黍实物遗存。其他农业遗存证据主要来自上述几个遗址少量器物上提取出的淀粉粒，以及南庄头2例家犬骨头的稳定同位素数据，此外各遗址还出土了很多动物遗存，以鹿科为主。东胡林、南庄头都发现有多座火塘，东胡林还发现几座墓葬、南庄头有几条灰沟和2个灰坑，显示出较长时间居住生活的状态。但没有较固定的房址或连续埋葬形成的墓地，上述遗址难以认定是长年乃至多年稳定定居的聚落。这些零星的火塘和墓葬，延续了旧石器时代晚期的一些特征，更像是季节性营地或半定居聚落的遗留（不排除重复利用，且连续或断续的居住时间应满足种植和收获一季谷物的需要）。此时的谷物已有驯化特征，说明经过了长时间的种植实践，但占比很低，生业经济仍以狩猎采集为主导，人群尚未对农业产生依赖性，因此才会形成这种设施简陋、不稳定的半定居聚落形态。

在近年河北西北部坝上高原新发现的“四台文化”中，找到一处形态更完备的早期定居聚落。张家口尚义四台遗址早期遗存可分前、后两段（简报中的第一、二组遗存），测定年代分别为距今10400—10000年、9400—9000年，每段都有多座密集分布的半地穴式房址，为不太规整的方形或长方形，室内四周有柱洞，地面上特别是灶的附近多见灰烬、石块和种类丰富的动物骨骼，有的灶面上还有支石，居住面上有打制石器、细石器、磨盘、磨棒和多种骨器，以及少量筒形罐和板状器等较粗糙的陶器。这些房子显然已经是较成熟的用于居住、生活的建筑，房内种类多样且成套的生产工具和生活用具表明，当时的四台已是一个长期稳定定居的小村落。不过房子周围少见灰坑、窖穴等其他遗迹，有别于农业社会的典型聚落，因此最初的定居仍宜在相对的意义上来理解，不能排除周期性迁徙和循环再利用。这里浮选出的植物遗存主要是蒿属、藜科、禾本科、菊科等，出土的动物骨骼种类非常多，包括多种大中小型野生动物，可能还有家养的犬。研究者分析认为，这一带当时为森林—草原植被景观，生业模式以狩猎经济为主，肉食来源主要为鹿类、野猪、野马、野牛等大中型哺乳动物，鱼类、鸟类和淡水贝类等是补充性肉食资源。当然还有对植物资源的大量利用，但尚无可确定的农业证据。由此观之，四台成熟定居聚落的形成，应该不是农业行为导致的结果。

四台文化中直口、直壁的筒形陶罐应源自东北很早就出现的筒形罐传统，连同定居模式一起，都显示出该文化与东北早期文化的渊源关系。这里的石器皆为北方旧石器时代晚期以来常见的打制石器、细石器和磨盘、磨棒等。其中细石叶石核以锥形为主，楔形石核较少，多为宽台面类型，呈现出华北旧石器时代晚期细石器的特征。其渊源可追溯到坝上北部康保兴隆遗址所见“旧石器—新石器时代过渡期遗存”，坝下邻近的泥河湾盆地则有阳原于家沟等遗址。于家沟较早文化层的测年为距今16000—9300年，该地点还挖出华北已知最早的陶片，可辨者为平底罐，距今约13600年。于家沟既有华北自身传统的宽台面细石核，又有许多源自东北亚技术传统的细石器，包括窄台面楔形石核、采用两面器技术加工的尖状器、矛形器等，而且其陶器很可能也是随东北亚的细石器一起传播过来的。这些文化因素都对后来四台文化的形成有直接或间接的影响。甚至可以推测，坝上地区的细石器文化，以及有定居聚落和使用陶器的四台文化，都与坝下泥河湾盆地及附近地区旧石器时代末期人群或文化的传播扩散有密切关系。

东胡林文化的来源与四台文化近似，各遗址所出少量陶器主要是直壁平底盂形器（或称陶盆），还有直腹（或微弧腹）平底罐，石器中也常见锥形和楔形细石核，总的看与东北亚旧—新石器过渡阶段的文化有关联，也有华北自身的石器传统，就近而言大概也与于家沟一类遗存有一定渊源关系。只是在泥河湾及其所属桑干河流域到燕山南麓一带，距今13000—11000年左右的遗存目前发现尚少，影响了对四台文化、东胡林文化直接源头的确切认识。不过通过上述各遗址的发现可知，受东北影响出现的趋于定居、使用陶器加工食物的聚落与生业模式，全新世初期在桑干河流域及附近的坝上高原和坝下山间盆地、山麓地带传播扩散，并在特定区域环境中随着对草本植物的强化利用，逐渐催生出了粟黍种植农业。至于最早的旱作农业只是在东胡林文化范围内发源，然后才传播到附近其他区域（包括坝下和坝上），还是在华北北部更大地域同时出现，目前尚难以准确断定。

坝上的四台遗址位于一小湖边上，稍远处还有更大的安固里淖。在森林—草原环境中散落着一些大大小小的湖泊，应该是当时坝上高原的一个显著景观。这些湖泊及附近的溪流乃是大中型哺乳动物饮水的集中场所，为人们捕猎提供了便利，四台文化及其后裕民文化的诸多遗址都发现有丰富的动物遗存，充分证明了这点。可以说，狩猎加采集就基本能维持四台文化聚落的长期稳定。由此可以判断，旱作农业最初的发源地应该在坝下的山麓和山间盆地，这一带大中型哺乳动物不如坝上高原丰富，更倾向于对植物类食物的强化利用；除了东胡林文化分布的燕山南麓和太行山东北侧，旧石器时代晚期遗存丰富的泥河湾盆地乃至整个桑干河流域，也是不可忽视的探索对象。上述这些地域构成了华北平原北端的“侧翼丘陵区”，是未来寻找更多粟黍农业起源证据的重点区域。

三、早期农业文化格局的形成

从农业起源到主要依靠农业为生的农业社会的形成，在东亚和西亚都经历了漫长的时间。有研究者从植物考古的角度提出，当驯化谷物在出土植物遗存中的占比为20%—80%时代表中间型经济，占比大于80%时可视为农业经济，小于20%时则被认为是以觅食为主导的经济模式，并据此判断西亚在前8500年以前几乎不存在农业经济，到前陶新石器时代Ｂ期中晚段才有了真正的农业经济并逐渐增多，直到前7000年以后农业经济才变得普遍，但其后很长时间里中间型经济仍然很常见。从聚落考古角度看，西亚前陶新石器A期（PPNA，前9500—前8500）已有一些定居或半定居的居址，到B期（PPNB，前8500—前7000）中晚段出现一些大遗址，如叙利亚北部的阿布胡赖拉在其鼎盛期面积达16公顷，大量泥砖房屋密集分布，显然已是成熟的农业社会。在中国，植物考古学家一般倾向认为南、北农业社会出现的时间都是距今6000年左右，此后农耕生产才取代采集狩猎成为生业经济的主体。

从农业发生到较成熟农业社会的出现，中国也经历了类似“中间型经济”的发展。即当驯化谷物在植物遗存中占比达到20%—80%时，尽管农业可能还未成为主导性经济，但往往已是重要的甚至不可或缺的生业资源，人群对其应有不同程度的依赖性，这样的社会可称之为“农业依赖型社会”，由此衍生出的文化被称为“农业文化”。本文的重点在于探讨各地农业文化的来源、聚落与生业特征和总体农业文化格局的形成。

在前7000年前后，即新石器时代早期后段，北方坝上高原的四台文化过渡为裕民文化（两者年代上虽暂有缺环，但文化面貌明显衔接），而东胡林文化后续的发展状况并不清楚；南方上山文化的中晚期继早期之后连续发展，不过仍局限于钱塘江流域及附近小范围之内，长江下游多数区域的情况也不清楚；长江中游、淮河上游等地此时出现有稻作遗存的彭头山文化和贾湖一期文化，但两个文化发现的遗址都很少。真正的巨变发生在前6500—前5000年间的新石器时代中期前段，具有农业经济和地方文化特色的诸多考古学文化，在长江、黄河的中下游和燕辽地区爆发式地涌现出来，在我国东部连片的平原丘陵地带几乎都有分布，很突兀地形成新石器时代最早的网络状、成体系的文化格局，而且这个格局一直持续到新石器时代末期都未发生根本变化，只是有所衍生和扩展。这样一种格局究竟是怎样形成的，它与农业的发展有怎样的关系？这些都是认识中国新石器时代发展进程所不能回避的重要问题。

（一）南方早期稻作农业文化

如前所述，始自1万年前的上山文化一直持续发展到距今8000多年。上山早期聚落虽然还不是一个很成熟的居址，但肯定经过了较长期或反复的定居。遗址中有一些简易的房子（众多柱洞所示）、密集分布的灰坑（包括很多器物坑，可能与储存或加工食物有关）、大量的陶器、石器等生活用具与生产工具。其中发现有较多的植物性食物遗存，在陶器和红烧土中夹杂大量稻壳，表明当时对稻属植物的利用已具有一定规模。

上山文化中晚期年代大致在前7000余年到前6000余年之间。浦江上山、嵊州小黄山都发现有二、三排柱洞组成的房址，应为长排干栏式建筑。各遗址中仍有大量密集分布的灰坑，包括众多的“器物坑”，出土大量种类丰富的陶器和石器，有的遗址还见有随葬器物的零星墓葬。仙居下汤等多处聚落都开始有壕沟环护。有柱网结构的建筑在下汤遗址被大量发现，表明聚落中房屋数量和人口的增多、聚落规模的扩大。出土的动植物遗存反映，尽管采集、渔猎经济仍很重要，但同时稻作农业的比重也有显著增长。有研究显示下汤遗址浮选出的炭化稻米和小穗轴占出土植物遗存总数的87.12%。由上可知，上山文化中晚期的聚落已具备较稳定的定居形态和早期农业社会的特征，甚至可能已超越了“中间型经济”状态。

随后本地区的跨湖桥文化（约前6200—前5000），在聚落、器物和生业经济等方面与上山文化中晚期有许多相似性和继承性，但也有不少变化。最显著变化的是从过去以打制石器为主变为以磨制石器为主，其中最多的是石锛、石锤和磨石，另外还出土了数量多、种类丰富的木器；跨湖桥文化开始流行的圜底釜、圈足盘等陶器应受到长江中游彭头山—城背溪文化的一定影响。萧山跨湖桥遗址浮选出1000多粒炭化稻，小穗轴分析显示其中41.7%属粳稻型（驯化稻），此外还有很多栎果（橡子）、菱角、芡实、桃、杏、酸枣等野生果实，加上大量种类多样的动物骨骼，反映出渔猎采集与稻作农耕并重的特点。跨湖桥文化开始从浙中浅山盆地向北部平原区和滨海地区扩展，在野生动植物资源特别是水生动植物更丰富的小区域环境中，渔猎采集经济仍占有重要地位。到其后的河姆渡—马家浜文化时期，农业广泛散布到宁绍平原及钱塘江以北的环太湖地区，但同时如余姚河姆渡、田螺山等遗址所示，在其整个生业构成中，野生动植物食物仍占据主导地位，其中栎果、菱角、芡实等野生果实在植物遗存中占据多数，稻作遗存尽管数量很大却并不占优。相较于上山文化中晚期遗存，跨湖桥、河姆渡文化一些聚落的稻作农业在生业中的占比有所下降，实际上是在林地和湿地兼备、自然食物资源丰富且容易获取的特定环境中，呈现出的特有经济形态，但并不能因此而低估大范围稻作农业的发展。

除上述长江下游地区，新石器时代中期前段稻作农业文化还广泛见于长江中游到黄淮平原间的广大地区。洞庭湖平原的彭头山文化是长江中游已知最早的农业文化（约前7000—前5500）。湖南澧县彭头山遗址的稻作遗存主要发现于陶片和红烧土内的掺合料，由于形态破碎难以做定性鉴别；稍晚一点的八十垱则出土了大量炭化稻，被认为是从普通野稻向籼、粳稻演化初期的原始栽培稻。彭头山遗址在约400平方米发掘区内发现6处房址、15个灰坑，还有数座墓葬（有些被称为墓葬的圆形小坑，有破碎陶器，但不见人骨，很可能为“储藏坑”）；八十垱遗址面积3.7万平方米，周围可能有古河道和人工修筑的墙垣、壕沟环绕，在1200平方米发掘区内，共发现各类建筑基址24处，还有大量灰坑和墓葬（绝大部分没有人骨，一些圆形“墓葬”底部集中分布大块陶片，也应是储藏坑）。彭头山文化陶器类型简单，主要是各种圜底釜、罐和盆、钵类；石器以打制的砾石石器为主，只有很少的斧、锛等磨制石器。其部分陶器（圜底釜、罐、钵等）、石器与华南洞穴遗址及本地八十垱下层那样的旧石器时代末期文化都存在一定的联系，甚至不排除有部分农业人群就来自长江中游平原的南部；同时其稻作农业、聚落形态及部分陶器（如双耳罐）又都与上山文化有很多相似之处。彭头山文化应是起源于南岭—武夷山“侧翼丘陵区”的农业文化向洞庭湖平原传播并汇聚、融合的结果，也呈现出较成熟的定居形态，经济上兼营渔猎采集和稻作种植，对农业有了一定程度的依赖。随后有本地的皂市下层文化（前5500—前4800）和江汉地区的城背溪文化（前6500—前5000），受考古发现所限，目前有关它们的聚落和生业形态还不甚清楚，不过据早期彭头山文化及后来汤家岗—大溪文化的情况，可推知它们的稻作农业也应该在“中间型经济”发展过程当中。

早到近前7000年的稻作农业，还有发现于淮河上游、汉水中游等地的贾湖一期文化。该文化的形成与长江流域早期文化的北传有关，最直接的证据是最早出现在上山文化，然后又出现在彭头山文化和贾湖一期文化的双耳罐（壶）。此外，贾湖一期文化的角把平底筒形罐可能直接源自本地区李家沟文化的直口平底筒形罐，其更早的渊源应是从东北到燕辽再南下的筒形罐传统。因此，贾湖一期文化应该是本地与外来因素融合发展的结果。从该文化中能够看出聚落布局的只有舞阳贾湖遗址，揭露出的遗迹中有10多座房址和30多座墓葬，大致可看出房址较集中分布、墓葬分布在房子周围，呈现出稳定、成熟的定居形态。属于该文化的贾湖和邓州八里岗遗址都发现有稻作遗存，而罕见粟黍。贾湖的炭化稻约占出土植物种子总数的10%（该数据主要来自贾湖一、二期），同时出土大量的野生动植物遗存。八里岗出土的植物食物遗存主要是稻和橡子，其中稻作遗存无论是出土数量还是出土概率都很高，驯化稻的比例也很高。由于此期植物遗存样品总量较少，尚难对稻作农业和采集经济的比重作出准确评估。这两个遗址不同的植物考古数据，或许反映了不同地域环境中生业结构上的一定差异，农业在八里岗的生业经济中占有更重要的地位。

淮河中下游的顺山集文化主要分布在江苏西北部和安徽东北部，年代约为前6500—前5500年。该文化多种素面陶釜可能受到其北面后李文化的影响，部分较浅的盆形斧、支脚与江汉地区的城背溪文化似有一定渊源，双耳罐、壶、盆、钵等器物组合的形成应与上山—跨湖桥文化的影响有关。其中双耳罐（壶）自上山文化最早出现后，到新石器时代中期广泛散布到长江中下游和黄淮地区。顺山集文化中的磨盘、磨石（磨球）、石锤、斧、锛等磨制石器也兼有南北特点。由此可见，顺山集文化的形成是长江中下游到黄淮地区多种文化因素汇集融合的结果。该文化的聚落以江苏泗洪顺山集最具代表性。顺山集遗址总面积达17.5万平方米，内有环壕围绕，面积7.5万平方米，壕内发现多处不同时期的房子（发掘报告分三期），但因发掘面积有限，总体布局尚不清楚。在壕外西北和西南部各发现一片墓地，分别清理出二期墓葬70座和三期墓葬21座。聚落中环壕、居住区和墓地各安其位，已是成熟的定居村落。该遗址发现的农作物主要是稻谷，未见粟和黍，各期遗迹中都有炭化稻米和驯化稻植硅体发现，但数量有限，生业资源仍以野生动植物为主，稻作农业和家畜饲养只起辅助作用。

淮河中下游继顺山集文化之后、年代在前5000年前后的有双墩文化，后者的形成与前者有密切关系，可能还受到裴李岗文化的一定影响。根据蚌埠双墩遗址发掘报告，该文化的生业以渔猎采集为主，稻作农业也占有重要地位。另外，这个时期在江淮东部的“里下河”地区还有兴化草堰港代表的文化遗存，也同时出有大量稻作和野生动植物遗存。

（二）北方早期旱作农业文化

如前所述，华北北部的东胡林文化（前9000—前7500）虽发现有最早的粟黍农业遗存，但在生业中占比较低，当时仍以觅食经济为主导，几个遗址发现的少量遗迹也都显示出半定居的形态。该文化还称不上农业文化，在本地区也未见直接的后继者。前7000年前后，整个华北目前只发现个别遗址有少量农业迹象，如济南张马屯。该遗址出有少量陶片，主要是平底器，但看不出同此前的东胡林文化和此后本地区的后李文化之间有直接的联系。接下来的新石器时代中期，北方地区很快就涌现出至少6个包含有农业经济、成套陶器和磨制石器、成熟定居聚落的地域文化，年代主要集中在前6500—前5000年之间，它们分别分布在坝上高原、燕辽地区、太行山东侧、海岱地区、中原腹地、秦岭南北。

坝上高原的裕民文化可在本地找到直接的源头，那就是此前的四台文化。裕民文化发掘过的遗址主要有内蒙古化德裕民、四麻沟和河北康保兴隆（第一至三期遗存）、尚义四台（第三、四组遗存）等。其中兴隆遗址第一期测年可追溯到前6700年。各遗址都有成片分布的房址，陶器、石器和居址形态都与之前的四台文化一脉相承，出土的动植物遗存也相似。不同的是，裕民文化各遗址都发现少量农作物，如兴隆遗址浮选出一些炭化粟、黍，但在出土的植物遗存里合计占比不足14%，说明农业作用有限，很难说人群已对其产生依赖性。而且据发掘简报分析，四麻沟和裕民很可能分别为夏季和冬季营地，显示出半定居的特征。总的看，从新石器时代早期到中期，坝上高原此类人群的聚落形态、器物类型和生业经济都保持了高度的连贯性和稳定性，始终坚持定居或半定居、以狩猎采集为主的生存方式，到中期虽有种植农业但并不重要（其农业有可能来自坝下河谷地带的传播扩散）。这些显然与本地高海拔的森林—草原生态环境有关。有研究显示，距今9000—7000年期间，坝上遗址附近的丘间沟谷中多浅湖或洼地，吸引众多大型草原动物（牛、鹿、猪等）聚集，为狩猎采集主导下的定居生活方式创造了条件；距今7000年以后，正当全新世大暖期最盛期，本地区却出现气候干旱、湖泊退化的现象。所以当新石器时代晚期其他地区的农业文化持续走向繁荣之时，该地区却因局地气候和环境的恶化反而早早衰落了。

分布在燕山至西辽河流域的兴隆洼文化已发现很多遗址。以前有学者提出的“小河西文化”遗存，其实可视为兴隆洼文化的初始阶段。兴隆洼文化的陶器以筒形罐为大宗，还有盆、钵等器物，其来源与年代较早的松嫩平原西部的双塔一期文化有关，同时还可能受到西边坝上高原四台—裕民文化的一定影响。兴隆洼文化多处发掘过的遗址都有大片成排有序分布的房屋，大多还有环壕围绕，呈现出成熟定居村落的特征。在敖汉兴隆沟遗址第一地点浮选出大量此期的炭化植物种子，其中黍1400余粒，粟只有60余粒，研究者认为两者合计在总数中占比不高。据统计，黍和粟合计占出土炭化植物种子总数的42.1%。还有研究者根据兴隆洼文化几个遗址人骨和动物骨骼的稳定同位素分析，认为人及其喂养的狗皆表现出典型的C4食物为主的特征，说明黍、粟类作物已是当地居民的主要食物来源。综合来看，兴隆洼文化的生业中既有较大比重的狩猎采集经济，但同时农业占比也较高，对农业已经有较高程度的依赖。

主要分布在河北中南部的磁山文化遗址出土了有很多陶盂和配套使用的陶支脚，其他还有筒形罐、双耳壶、三足钵等。其中盂、罐等与东胡林文化常见的同类器似有一定渊源，只是两者缺少连接。壶、钵等来自南边的裴李岗文化。有关磁山文化聚落形态的资料较缺乏，但磁山遗址集中发现80多座储藏坑，大部分有很厚的粮食堆积，经颍壳植硅体鉴定绝大部分为黍，极少数为粟。其数量之巨大，足显当时农业之重要与发达。

海岱地区的后李文化出土的陶器以圜底釜为多，其他还有双耳罐、小口壶、盆、钵等，与南边的顺山集文化有较多的共性和联系，但素面陶釜可能主要源自本地新石器时代早期文化，其中直口筒状釜的形制应还接受了北方筒形罐的影响。已发现的后李文化遗址有10多处，在发掘过的章丘西河、小荆山见有成片密集且有序分布的房址和墓葬，有的还有环壕，显然已是成熟形态的定居村落。后李文化出土的食物遗存中野生动植物占有一定优势，同时一些遗址所出农作物在植物遗存中占比不低于30%，农业应该已是许多定居聚落中不可缺少的经济类型。出土的农作物除黍和粟（一般也是黍多于粟）外，还有稻，呈现出旱、稻混作农业的特点。

中原腹地裴李岗文化主要承接前期的贾湖一期文化（也可视为裴李岗文化的早期阶段）发展而来。裴李岗文化遗址数量较多，已发现多处墓地，内有数十到百余甚至数百座墓葬，许多都可明显分区或分群。新郑唐户聚落则有多组呈环形分布的房址。这些现象表明，该文化已普遍存在长期定居的、由家族—氏族公社构成的成熟的村落。裴李岗文化的农作物中稻与黍、粟兼具，其中偏北区域以黍、粟为主，偏南区域如贾湖仍主要是稻。偏北区域如郑州朱寨遗址，有研究显示炭化谷物合计（多为黍，少量粟和稻）占出土植物种子总数的近40%。在另一项样品量较小的研究中，植硅体分析显示三种农作物占植物总数的40%多。其他一些微体植物研究结果也都与此接近。总的来看，裴李岗文化的生业经济以渔猎采集为主，植物性食物中以野生的居多，黍、稻和粟等农作物占比不太高但很重要。结合较完善的定居聚落（包括大规模规划有序的墓地）、众多的生产工具（出土较多的石铲、镰、刀等与农业相关的工具）等方面的资料，可推断裴李岗文化的居民对农业种植具有一定程度的依赖。

渭河流域和汉水上游老官台文化的形成应与裴李岗文化向西传播、演变有关。受资料所限，目前有关该文化的聚落形态和具体生业状况都不是很清楚。甘肃秦安大地湾等个别遗址采集有大植物遗存，其中炭化谷物的数量很少，主要是黍，而几个遗址的人骨和动物骨骼的碳氮稳定同位素分析则显示，当时粟黍类作物已是重要的食物资源，同时野生食物也很重要。参考邻近地区裴李岗文化的情况，大致推断秦岭南北此期总体生业结构应与之相似。

（三）早期农业文化格局的形成

从以上梳理和分析可以看出，自中国南、北农业产生后，分别从各自起源地向外扩散，在不同地域先后形成各具特色的地方文化，到新石器时代中期基本形成网络化的农业文化格局。

南方稻作农业从南岭—武夷山北、西侧的“侧翼丘陵区”往北传播，目前可看出主要有两条发展和传播带。一是从钱塘江流域沿近海平原北上，最终遍布环太湖地区，自上山文化之后依次出现跨湖桥文化和河姆渡—马家浜文化；二是从洞庭湖平原往北散布到江汉平原，由彭头山文化发展出皂市下层文化和江北的城背溪文化，之后就是范围更广的汤家岗—大溪文化。随着早期稻作农业的传播，源自以上两方面的人群或文化扩散到淮河流域，与当地已有文化交汇、融合，先后形成贾湖一期文化、顺山集文化、双墩文化，以及里下河地区草堰港那样的遗存，甚至往北涉及海岱地区。此外，跨湖桥文化中出现一些彭头山—城背溪文化的因素，说明此时长江下、中游之间还存在东西向的互动交流。

北方旱作农业从华北北端的“侧翼丘陵区”向外传播，首先影响到坝上高原和燕辽地区，裕民文化和兴隆洼文化分别在继承本地和东北筒形罐文化基础上形成，同时也都不同程度地存在粟黍遗存。旱作农业南下散播到太行山东侧、环泰沂山的海岱地区、环嵩山的中原腹地和秦岭的南北两侧，分别形成磁山文化、后李文化、裴李岗文化和老官台文化。黄河以南的黄淮地区为旱作农业与稻作农业混合共生的区域，其文化也同样融合南北文化因素，如后李文化和裴李岗文化皆是如此。

新石器时代早期，北方粟黍旱作农业起源后发展缓慢，且没有大范围扩散，农业呈现断裂或断续发展。但南方稻作农业呈现出较快速且连续发展状态，除了早期农业发生的钱塘江流域，早期末段还在洞庭湖平原和淮河上游、汉水中游等地出现农业文化。到新石器时代中期前段，南、北农业皆发展迅速，并广泛散布到长江中下游平原、黄淮平原和华北平原连片的平原丘陵地带，网络状的农业文化格局初步形成。此时南、北农业之所以从长江中下游平原和华北平原两端的侧翼丘陵区朝江、淮、黄连片地区相向传播扩散，是因为这些地区具有适合两种农业发展的最佳环境，以及各地人群对农作物不断增长的需求。农业大扩散、农业文化普遍出现的时期发生于前6500年以后，恰好是全新世大暖期来临之际。显然，农业的快速发展和传播扩散，还与适宜的气候变化直接相关。这种气候变化对北方旱作农业影响更大，在此条件驱动下，沉寂已久的粟黍农业爆发式增长，新石器时代中期前段旱作农业文化就已遍布华北平原及向西延伸的关中盆地，并在黄淮地区与南方传播而来的稻作农业文化交汇融合，构成了中国东部“核心文化区”的网状格局。

到新石器时代中期后段（约前5000—前4000），南北农业文化持续发展。北方有赵宝沟文化和红山早期文化、北辛文化、后岗一期文化、半坡文化。除坝上高原显示出衰落状态，其他各地文化皆继续发展，后岗一期和半坡文化甚至扩散到晋陕黄土高原及河套地区，北方农业文化的范围大大扩展，农业的重要性总体上也有显著提高。南方有河姆渡—马家浜文化、龙虬庄文化、汤家岗—大溪文化等，稻作农业也有长足的发展，尤其以长江中游的发展似更显充分。至此，南北农业文化格局在动态演变的基础上，得到进一步的扩展、巩固和充实。此种繁荣局面的产生，同样与全新世大暖期鼎盛期带来的暖湿气候密不可分。

值得注意的是，新石器时代中期前段北方各地出土的农作物中，大都是黍多于粟，直到仰韶早期前后，粟才逐渐取代黍成为主要的粮食品种。只是限于资料，目前有关两者转化的具体时间节点和过程尚不清楚。而稻作农业发展过程中，一个显著现象是不同时间、不同区域稻属植物的驯化率有明显波动，并非直线发展，其缘由目前学术界尚无一致的圆满解释。

结语

本文主要探讨的中国南稻北粟（黍）农业起源和早期农业文化格局形成两个问题相互关联，重点在新石器时代早、中期各地文化的来源、特点及总体农业文化格局的形成过程。

农业起源是多年来考古学探索的热门话题，但起源阶段农业遗存少、遗址规模小且形态简单、相关文化发展不充分，在考古发现上有很大难度。基于学术界已确认的最早农业发生地及相关文化，本文尝试在更大范围内探讨农业起源的可能性，提出华北平原北端和长江中下游平原南端狭长的“侧翼丘陵区”，都有可能是农业的发源地。这两个地带既有较丰富的草本、禾本科植物、林地果实和动物资源可资利用，又都存在季节性食物短缺；既有悠久的使用陶器炊煮食物的传统，又有适宜的作物祖本可供种植和驯化，因此都具备农业起源的条件。这种假说需要更多考古发现来验证，在未来持续探索农业起源的过程中，或许有助于将视野放到更大区域来考虑问题。

以往讨论农业起源，主要以驯化作物的出现为基础和前提。近年来人们逐渐意识到，最初作物栽培或种植行为的出现要远早于驯化物种的出现，农业起源可追溯到更早时期。从最初种植和收获野生谷物到出现驯化特征的谷物，再到谷物整体呈现完全的驯化形态，实际上经历了一个非常长的过程。有研究者认为，西亚“新月沃地”麦作种植的最初尝试，可上溯到旧石器时代末期黎凡特地区的纳吐夫文化（约前12500—前9500），不过直到前陶新石器B期驯化谷物才普遍出现（前8500年以后）。以往一般认为中国农业起源要比西亚晚很多，近些年的考古成果显示，南稻北粟（黍）种植农业的发生时间同样可早到距今一万年以前。南方的上山文化和北方的东胡林文化都已发现万年前后的炭化谷物。在此之前有关北方种植、利用狗尾草等草本植物（粟、黍的野生祖本）的历史还不太清楚，南方种植、利用野生稻的历史则可上溯到更新世之末的新仙女木期。最近有研究团队通过对浙江上山和荷花山遗址稻属植硅体样品的分析，认为当地人距今24000年前开始采集利用野生稻，距今13000年开始有前驯化阶段的种植，到距今11000年开始出现驯化稻。那么，到底是哪些要素几乎同时驱动了旧大陆东、西两部分早期的农业实践？

根据中国和西亚农业起源阶段的相关情况可以推知，谷物种植的最初发生，首先是在末次冰期气候波动情况下，旧石器时代晚期一些人群在广谱经济和趋于定居的生存模式中所进行的一种尝试与实践。冰后期的全新世早期，在特定环境中存在的定居生活、广谱经济和对植物资源的强化利用，人类认知能力的提高，陶器或石容器、谷物收割和加工工具的广泛利用，以及季节性食物匮乏等问题，多种因素相结合，促使部分人群开始持续地种植谷物，以获取相对稳定的食物来源，农业由此得以发生和发展。事实证明，距今一万年前后符合上述条件或具备多种要素的地域环境非常少，只存在于西亚和东亚的局部地区，也就是地中海东侧的黎凡特及附近区域和中国南北两个侧翼丘陵区。农业发生之初尚不足以使人群对其产生刚性依赖，农业规模的扩大是一个渐进的过程，在此过程中采集渔猎经济与农业生产相互补充、此消彼长。农业比重的逐渐增加可能得益于其生产与收获的稳定性和可预期性，并最终因产量高等优势而使人类对其产生不可分离的依赖性。正是在这种特殊关系的转化过程中，早期农业及其文化与社会逐步发展起来。

从农业起源到较成熟农业社会的建立，西亚和东亚都经历了漫长的过程。囿于遗址中动植物遗存保存状况、考古发现和各种科技考古手段的局限性，要想对新石器时代早中期生业结构，特别是农作物在食物资源中所占比重进行准确评估，是件很困难的事。本文参照前面所引“中间型经济”的标准（驯化谷物在出土植物遗存中的占比为20%—80%），提出“农业依赖型社会”的概念，希望对认识早期非成熟型农业社会有所助益。

通过前文的梳理可以看出，从新石器时代早期到中期，罕见农业主导的社会经济。似乎只有上山文化中晚期的稻作农业是个例外，微体植物考古显示驯化稻在植物遗存中占有很高比例，但从跨湖桥文化以后又有所下降，宁绍平原的河姆渡文化甚至呈现出以大量野生动植物为主、非常多元化的生业形态，不过其中稻谷仍是重要的食物资源。长江中游、淮河流域新石器时代中期稻作农业的发展也呈现出类似的情况，只是偏早阶段未见有占比很高者，而偏晚阶段特别是到大溪文化时期，局地稻作农业似有占主导地位的趋势。北方粟黍农业自起源后有过较长时间的沉寂，但到新石器时代中期发展迅速，特别是在临近发源地的燕辽东部、太行山东侧及海岱地区，农业发展更充分一些，而远处的中原腹地和关中盆地的一些聚落农业占比相对较低。总的来看，除地处高原特殊环境中的裕民文化之外，主要依靠在多湖泊的森林—草原环境中集中捕食大中型动物及采集植物果实而形成定居或半定居聚落，其农业似乎并不重要。其他新石器时代中期各地域文化中，无论南北，农作物在出土植物遗存中的占比大都能达到“中间型经济”状态，有具体数据者多在百分之二三十以上（个别遗址除外），有的还更高些。而且各文化都有成套的陶炊器和盛食器、磨制石器（尤其北方多见石镰、刀、铲等农业工具）、稳定且成熟的定居聚落，有些聚落、墓地内部甚至还能划分出不同的人群或社会单元。这样一种定居模式下的经济、文化与社会发展状况，与以往流动性高、小型的觅食者群体完全不同。新石器时代中期定居聚落的普遍出现，定居状态下集食生活方式的形成，应该或多或少都与发展农业有密切关系。如果不是种植农业已经不同程度地发挥了重要作用，很难想象这些在成熟农业社会常见的要素会在此期如此完备地出现并共存。这样的社会堪称“农业依赖型社会”，其文化也可谓“农业文化”。

实际上，提出这种概念意在强调农业对于该阶段社会、文化发展的重要性，这种定性的认识并不是本文的重点。本文更着重于从农业文化发展脉络的角度，梳理和分析早期农业文化格局的形成过程。新石器时代早、中期，南方稻作农业的发展有两个突出特点。一方面,不同时期、不同地区（环境）的农业在生业中的占比往往有较大波动而非线性发展，甚至稻子的驯化速率和驯化程度也未呈现均衡发展状态。另一方面，稻作农业文化又展现出连续、稳定的发展态势。自万年前稻作农业率先在钱塘江流域出现后（或许还有其他侧翼丘陵区），先是在本地连续发展，然后逐渐传播到江、淮各地，分别在环太湖地区、两湖地区（湖南和湖北）、淮河上游和汉水中游、淮河中下游形成多种稻作农业文化。北方粟黍农业虽起源同样早，但可能受到全新世初期北方气候波动影响，在前7000年前后表现出不充分的断续发展状态，直到前6500年以后，随着全新世大暖期到来才快速发展起来，从华北平原北端的侧翼丘陵区向外传播，并很快就散布到坝上高原、燕辽地区及华北平原的大部分地带，且沿黄河、渭河谷地往西一直扩散到关中盆地，在不同地理单元形成多种旱作农业文化（多数情况下出土的炭化黍多于粟）。其中，南稻北粟（黍）两种农业文化在黄、淮之间交汇融合，从而呈现出混合性特征。到新石器时代中期后段，农业人群持续迁徙扩散，农业文化进一步向内陆延伸。

由上可知，新石器时代早期农业发生之初，南、北农业皆发展缓慢、分布范围有限，最初只局限在起源地附近；稍后稻作农业发展相对较快，早期末段开始向外传播。南、北农业真正的爆发式发展是在新石器时代中期，这与全新世大暖期降临、气候明显好转直接相关，暖湿气候尤其对北方旱作农业的发展有更显著的催动作用。两种农业都从发源地或直接或间接接力式地迅速向外传播扩散，北起辽河、南抵南岭—武夷山北麓，先是传遍中国东部第三地理阶梯连片的平原丘陵地带，然后又漫延到第二阶梯的黄土高原和两湖地区西侧的山地。新石器时代中期前、后两个阶段分别出现10余种农业文化，这些文化星罗棋布，构成了网络状的中国早期农业文化的基本格局。此种农业文化格局的形成意义重大，为新石器时代晚期各区域文明的诞生奠定了基础，也一直影响到青铜时代甚至更晚时期中国政治、经济和文化的版图。

转自《中国社会科学》2025年第11期

2026-03-08
陈玉宇,方铭,王轩：象牙塔里的权力滥用：来自中国高校院长的实证

Yuyu Chen, Ming Fang, Xuan Wang: (Mis)use of Power in the Ivory Tower: Evidence from Deans in Chinese Universities”, 2026.02, Volume 242, Journal of Economic Behavior & Organization

背景概要

  中国高校院系的院长既是行政管理者，也是国家官僚体系中的公职人员，由校方任命并在校内晋升。院长通过以下渠道对科研人员和资源拥有较大控制权：选拔和晋升院内研究人员；分配政府提供的补贴、资助和奖项资格，这些是支持科研的主要资源。院长对人事问题拥有最终决定权，包括科研人员的选拔、评价和晋升。这些人事决策会直接影响教师的薪资和福利待遇。部分院长可能基于个人关系而非专业能力进行任命。除直接人事管理外，院长还能影响科研人员可获得的其他资源。例如，国家级资助和中央及地方政府的补贴均需院长推荐。因此，院长在决定研究人员是否符合重要资源资格方面发挥着关键作用。

  高校是中国创新快速发展的主要动力。2017年，中国高校专利申请量占专利总量的11%，在高价值发明专利中占比达16%。这些创新成果均来自1243所高校。此研究聚焦于中国“211工程”高校中，专注于科学、技术、工程和数学（STEM）领域的院系院长。中国高校创新活动（尤其是发明专利）的三分之一以上来自“211工程”高校。选择这些高校还因需要收集院长履历信息，而“211工程”以外的高校多数院长缺乏相关资料。

2013年，中国共产党发起了一场大规模反腐行动。该行动以向基层政府派遣检查组为开端，对各级政府官员（“老虎”与“苍蝇”）展开调查。尽管关于此次反腐行动最终目标的猜测不绝于耳，但人们普遍认为这是中国历史上规模最大、力度最猛的一次反腐行动。从政府部门到其他机构，众多个人和单位都受到了波及。该行动显著减少了地方官员和政治关联企业的寻租行为，国有企业和私营企业也以不同方式受到反腐行动的影响。作为官僚体系的一部分，高校官员同样要为腐败行为负责。许多反腐调查实际上针对的是高校中的官员和教授。反腐行动可能会影响院长的行为，尤其是当他们存在不当行为时。

数据来源

此研究整合了多源数据进行分析。通过人工检索，从211工程高校STEM学院现任及前任院长的在线简历和履历中，收集了截至2019年7月的个人履历信息。院长的关键信息包括就职日期、教育经历、是否退休及退休日期。

  此研究从国家知识产权局（NIPA）获取的专利申请数据库中收集了相关数据。专利记录包含专利名称、专利号、专利类型、申请日期、发明人姓名、专利权人机构名称、国际专利分类（IPC）代码，以及其他专利特征如引用文献和权利要求数量。专利主要分为三类：发明专利、实用新型专利和外观设计专利。发明专利通常更能体现重大创新活动。在分析中，此研究重点关注发明专利和实用新型专利的申请数量。由于NIPA可能需要长达18个月才能公布专利申请记录，为避免数据缺失问题，此研究剔除了2017年之后的专利记录。

  专利申请数量通过每年的总专利申请量及每年的发明专利申请量这两个指标来衡量，后者占所有专利申请的绝大部分。由于这些结果变量中存在大量零值，此研究为总专利和创新专利设置了两组因变量：申请数量的双曲正弦反函数变换

；用于捕捉超额边际效应的虚拟变量，表示某一年度是否提交过非零申请。此外，专利质量通过正向引用（1-3年）和申请权利要求数量进行评估。为确保院长任期对数量效应与质量效应分析的一致性，此研究在年度层面计算了这些质量指标的平均值。

其他数据包括国家自然科学基金（NSFC）资助项目详细信息，Retraction Watch数据库中各领域已发表科学论文撤稿记录，以及中央纪律检查委员会（CCDI）发布的反腐调查数据。

实证研究

（1）基准回归
此研究采用事件研究设定来估计院长职位对专利申请的影响，同时控制个体和时间固定效应，具体回归模型设定如下：

其中，k表示相对于就职年份的第k年，Dean_k是虚拟变量，表示个体i担任院长职务已达k年；此研究采用的因变量包括各年度个体专利申请量的双曲正弦倒数变换值，以及非零专利申请量的虚拟变量；exp代表潜在工作经验年限，即当前年份与毕业年份的差值；标准误聚类在个体层面。图1展示了事件研究估计结果。研究发现，无论是在集约边际还是广义边际上，院长上任后其总专利申请量和发明专利申请量都立即出现显著跃升。

表2评估了院长职务的平均处理效应，其中处理变量被定义为虚拟变量，用于标识个体是否被任命为院长。数据显示，担任院长职务平均可使总专利申请量增加14%，发明专利申请量增加12%。在广义边际上，院长职务与总专利申请概率提升8%、发明专利申请概率提升7%呈显著正相关。这些数据表明，院长职务的效应不仅具有统计学显著性，更具有重要的经济意义。

（2）专利质量
  若院长申请更多专利，是否意味着其获得的专利质量更高？此研究通过比较教授担任院长前后专利质量的变化来验证这一假设。专利质量评估指标包括专利申请后第一、第二及第三年的引用次数，以及申请中权利要求的总数。图2展示了专利质量指标与院长职位之间的关联性事件研究分析结果。研究未发现院长职位与专利质量指标之间存在显著关联。尽管无法完全排除能力或资源渠道的影响（因专利质量未下降），但研究结果并不支持以下假设：高产出的科研人员或获取资源更丰富的科研人员应产出更高质量的专利。

（3）机制分析
关于院长职位与专利申请之间的正相关关系，存在三种可能的解释：教授能力提升与晋升院长职位同时发生；院长职位的任命能为科研创新带来更多资源；通过政治权力与控制，院长可通过利益交换或政治影响力获得更多专利。

  专业领域转换：如果院长因工作效率提升或科研资源获取更便利而获得更多专利申请，应当预期他们在专业领域拥有更多专利。因此，此研究通过观察院长晋升后（从原有专业领域转移）其原有专业领域的专利数量变化来分析。专利领域根据国际专利分类（IPC）代码的前两位数字界定。若院长在就任前五年内曾申请过该领域的专利，则该领域被定义为其“原有”专业领域。此研究仅统计这些原有专业领域的专利，并重新评估院长任期对专利数量的影响。出乎意料的是，图3显示，院长上任后，其原有专业领域的专利申请数量并未增加，反而出现下降趋势。这表明院长获得专利的增长主要集中在他们原本不熟悉的领域。如果院长确实因能力提升或资源增加而获得更多专利，那么他们在原有专业领域本应享有至少与之前不熟悉的其他领域同等甚至更大的优势。因此，研究结果排除了个人能力与院长职位之间存在交互效应的可能性。

院长异质性效应：在表3的A组中，此研究按照院长所在领域的平均专利申请量是否高于中位数划分样本，高于中位数的领域为专利重要性较高的领域。结果显示，院长职务与专利申请之间的正向关联，主要源于专利重要性较高的领域。若院长效应源于权力滥用，那么这种现象很可能与其他形式的潜在不当行为存在关联。在表3的B组中，此研究通过论文撤回数据来考察院长效应与学术不端的关系。研究表明，曾经历论文撤稿的研究人员在晋升院长后提交的专利申请数量显著增加，这说明院长职位对专利的积极影响不太可能源于能力，而更可能与某种不当行为相关。此研究还分析了院长制效应如何随研究人员在劳动力市场中的外部选择而变化，预期当本地研究人员拥有更强的议价能力时，院长滥用职权的行为将受到限制。表3的C组数据表明，随着同城市内邻近高校数量的增加，院长效应会持续减弱。表3的D组显示，与非985高校相比，985高校的院长效应显著减弱，甚至几乎可以忽略不计。随着外部研究人员的选择渠道增多，院长制的影响逐渐减弱，这表明不当行为才是导致这种效应的真正原因。究其根源，可能是院长与本地研究人员之间存在自愿或非自愿的“勾结”，这种关系都可能削弱本地研究人员的激励机制。

科研资源：若晋升前后院长获得的各类科研资源（资金、设备等）均未增加，则可排除资源渠道的影响。此研究收集了所有申请国自科基金项目的行政记录，并将其与院长数据集进行匹配，随后采用相同的双向固定效应事件研究设计，评估院长职位对国自科资助经费获取的影响。由于国家自然科学基金提供多种资助类型，其金额和声望各不相同，故将样本中院长获得的资助划分为两类：面上项目资助和更高层级的项目资助。图4结果未发现晋升院长后个人获得的面上项目资助增加，但有迹象表明晋升院长后获得的重大项目资金有所增加，尽管这些估计值在统计学上并不一致显著。这些发现表明资源渠道不能完全排除。然而，对重大项目的积极影响仅具有边际显著性，且呈现渐进式增长。因此，与国家自然科学基金资助相关的科研资源似乎并非院长制影响专利申请的主要或唯一渠道。

（4）反腐败与院长效应
上文已证实权力滥用是导致院长效应的主要根源。若院长效应确实源于权力滥用，则旨在规范官员行为的政治改革应当能有效抑制此类效应。以中国近期的反腐运动为例，研究结果表明地方反腐举措已显著削弱了院长对专利的影响力。值得注意的是，政治运动本身具有显著影响，这表明院长对专利产生的积极效应，更可能源于其官僚职位所附带的政治权力。

利用反腐败工作中的地区差异，此研究采用三重差分法设计，具体回归模型如下：

其中，CuInvestigation表示t年c省政府官员案件累计调查次数（反双曲正弦值），用以评估地方反腐败工作成效。

在表4的A组中，此研究考察了各类政府官员的被调查情况。研究发现，随着反腐力度的加大，院长效应呈现显著减弱趋势。在B组中，此研究仅关注高等教育系统相关官员的反腐调查，这类案件显然与院长职责更直接相关。研究发现，这些高校反腐举措对院长效应的影响更为显著。这些结果进一步支持了研究假设：反腐运动削弱了院长对专利申请的影响力，这种现象只有在权力滥用行为受到约束的情况下才具有合理解释。

上述利用中纪委发布的反腐调查数据进行评估存在局限性，可能反映的是地方政治环境或腐败程度的差异，而非反腐工作的实际成效。为解决这一问题，此研究控制了城市层面的反腐运动前腐败代理变量，包括2012年CFPS数据中民众对腐败的平均感知程度、CFPS受访者中报告曾被索要贿赂或不正当费用的比例，以及企业用于贿赂政府官员的娱乐及差旅费用（ETC）。此外，通过加入城市-年份交互固定效应，此研究能控制可能影响大学创新的时变城市因素（包括当地政治环境变化）。图5汇总了院长职位与反腐调查交互作用的估计系数。综合来看，这些结果表明此研究的发现并非由地方政治环境异质性所驱动。

  如上所述，院长在晋升后并未在其原有专业领域获得更多专利。若院长职务对专利的影响源于政治权力，应当观察到反腐败运动并未影响院长在其原有专业领域的创新活动。此研究仅考察院长在其原有研究领域的专利申请情况，并检验反腐败运动的影响。表5展示了实证结果，再次采用地方调查和大学相关地方调查作为反腐败努力的衡量指标，发现院长与反腐调查交互项的系数均不显著。这一发现表明，反腐败运动冲击虽限制了权力滥用，但并未影响院长在其核心领域的真实生产力。

（5）院长合作网络
合作网络扩展：若能获得更多资源和权限，院长或许能拓展合作网络，接触更优质的科研人才资源，从而提升创新产出。此研究首先分析院长合作网络结构的潜在变化。图6展示了院长任命前后这些网络在多个维度上的变化情况，所有数据均以院长任职年度为单位取平均值。研究发现，尽管每项专利的共同发明人平均数量保持稳定，但院长上任后其合作网络中的独特合作者数量显著增加。进一步将共同发明人按院长原有研究领域与新研究领域进行分类，发现合作者数量的增长主要源于与新领域研究人员的深度合作。这一发现与先前的研究结论相吻合：院长们往往倾向于转向最初不熟悉的领域开展合作。

院长是否也会与更高产的科研人员建立合作关系？在图7中，此研究分析了院长职位与合作者产出之间的动态关联，通过专利申请数量和质量来评估合作者的产出水平，数据均按院长任职年份进行平均处理。此研究综合考量合作者所有专利申请的产出情况，同时排除与院长共同署名的专利，以此准确反映合作者的独立研究成果。图7结果表明，院长晋升后，合作者的专利申请数量有所增加，但专利质量并未提升。值得注意的是，在分析未与院长共同撰写的专利质量时，研究发现其质量呈现下降趋势。这种现象可能暗示存在微弱的负面溢出效应，当合作者需要重新调配精力与院长开展合作时，这种效应可能显现。

  对合作者的溢出效应：如果院长们因权力或资源的增强而获得额外专利，这是否会影响其所在机构关键科研资源的分配？政治权力的滥用可能通过多种方式降低生产力，例如通过降低预期回报来抑制年轻科研人员的产出，或将科研资源错误分配给那些愿意与院长进行利益交换的低效科研人员。为深入探讨这一问题，此研究分析了院长职位是否会对与院长存在关联的本地科研人员产生溢出效应，具体DID模型设定如下：

其中，因变量为表示t年本地研究者j是否获得过国自科基金资助的虚拟变量或获得国自科基金资助经费总额的反双曲正弦值；i代表就任前与j存在共同发明经历的院长；解释变量为i是否晋升院长职务的虚拟变量；此研究还加入了个体固定效应及年份固定效应。表6结果显示，院长上任后，与其曾合作过的研究者获得国自科基金资助的概率提升1.2%，平均资助金额增长约7.6%。相较于全体科研人员的平均资助水平，这些效应显著。结合先前关于院长权力滥用的证据，这些院长职务溢出效应的新证据表明，院长所掌握的权力可能扭曲科研资源配置。

结论启示

此研究表明，院长所掌握的权力对中国高校的创新活动具有显著影响。此研究首先证实了专利申请与院长职位间存在显著的正向关联。多项证据表明，这种院长效应主要源于政治资源分配或权力配置，而非院长个人能力或对科研资源的直接掌控。近期针对高校的反腐专项行动，似乎有效遏制了此类现象，可能优化了创新活动中的资源配置与人才分配。

剖析政治权力在创新活动中的作用，有助于我们更好地理解与创新过程相关的制度因素。研究结果表明，针对学术界制定能够限制权力滥用并减少资源错配的政策至关重要。

2026-03-04
董保民：“宗君合一”还是“宗君分离”？——西周宗法制度新探

宗法制乃中华文明之特质。梁启超推崇宗法制，认为“此制（宗法制）行之三千年，至今不变。我民族所以能蕃殖而健全者，亦食其赐焉。”[1]宗法制的本质，就是将宗族的血缘关系扩大化并转化为政权的组织基础。当宗族之长与执政者合一后，宗法国家也就随之形成，宗族之宗主也即一国之君主。这种“家国同构”的理想模式，构成了周人统治的合法性基础。然而，这种看似自然合理的解释，在具体的礼制规范与历史实践中却遭遇了巨大的理论挑战。这一挑战的核心在于：作为政治最高领袖的“君”（天子、诸侯），是否同时也必须是血缘组织中的“大宗”？换言之，“宗统”与“君统”在西周社会中究竟是合二为一的，还是截然分离的？围绕这一问题，历代学者展开了长达两千多年的争论。

一、宗统与君统问题之缘起

这一问题的缘起，最早可追溯至战国末期赵国人毛亨与东汉大儒郑玄对《诗经》的不同诠释。在解构《诗经·大雅·公刘》中“食之饮之，君之宗之”一句时，毛亨主张“为之君，为之大宗”，即认为君主同时也是大宗，二者合一；而郑玄则注曰：“宗，尊也。……群臣从而君之宗之”，将“宗”解释为尊崇之意，从而剥离了君主的宗法身份。这种分歧在对《诗经·大雅·板》“大宗维翰”的解释中更为尖锐：毛亨直言“王者天下之大宗”，坚持天子在宗法体系内的最高地位；郑玄则将其解释为“大宗，王之同姓之嫡子也”，暗示天子本人超脱于大宗之外，仅利用同姓嫡子作为屏障。这两条注释路线，实际上开启了后世关于“宗君合一”与“宗君分离”长达两千多年的学术拉锯。

清代礼学家是“宗君分离”说的主要拥趸。他们多据《礼记·郊特牲》中“诸侯不敢祖天子，大夫不敢祖诸侯”[2]的记载，认为在严格的礼制规范下，政治地位较高的君统必须与血缘地位的宗统相隔离。程瑶田在《宗法小记》中论断：“宗之道，兄道也。……自大夫以下达于庶人。而君之昆弟，乃犹散无友纪焉，可乎哉？此公子之宗道所由立也。”[3]程瑶田的观点非常明确：宗法是“兄统弟”的道理，其适用范围仅限于大夫、士及庶人阶层。对于天子和诸侯而言，他们是政治上的统帅，不应受制于宗法上的“宗子”身份。因此，他认为天子和诸侯是完全独立于宗法体系之外的。

江永亦据《礼记·大传》“有小宗而无大宗”之说[4]，推论诸侯无宗，认为若诸姬皆以鲁为大宗，则不合“五世而迁”之制。江永以鲁国为例，犀利地指出，如果诸侯也是大宗，那么当鲁君去世时，天下所有的姬姓诸侯都应当为他服丧三年（齐衰三月），这在政治现实中显然是不可能的。因此，他得出结论：宗法原则不可施于诸侯，君统必须独立于宗统。毛奇龄也持类似观点，他在《经问》中断言：“古者立宗法，国君无宗，只以相传之诸君为宗。……故曰国君无宗，列国不当宗武王，此宗法也。”[5]这一派观点在经学传统中占据主流，深刻影响了人们对周代政治结构的认知。

然而，近代以来，随着新史学的兴起与出土文献的涌现，学界开始对传统的“分离说”进行反思。王国维在《殷周制度论》中，虽然在继承系统上区分了君统与宗统，但他敏锐地指出，在“统治”的立意上，二者是合一的：“惟在天子诸侯，则宗统与君统合，故不必以宗名。”[6]这开启了“宗君合一”说的先河。

新中国成立后，这一问题的讨论更加深入。金景芳从“别子”这一核心概念入手，指出正确理解“别子”是理解整个宗法制度的关键。他认为，“别子”不仅有“自卑别于尊”的含义（即庶子别于嫡子），更有“自尊别于卑”的含义（即国君别于臣属）。他指出：“公子与嗣君虽然同是先君之子，同是一个系统传下来的。但是，由于公子不继君位，在政治地位上已与嗣君大大悬殊，即一方是君、为统治者，一方是臣、为被统治者，尊卑不同。公子须离开旧有的系统（君统）另建立自己的系统（宗统）。”[7]虽然也强调了君统与宗统的范畴区别，但他实际上揭示了二者在周代社会中的紧密嵌套关系：君主既是政治首领，也是宗族中拥有最高权力的家长。陈恩林进一步继承和发扬了这一观点，他认为在周代社会，天子、同姓诸侯、大夫这三个等级之间存在着事实上的亲缘关系，这种关系通过宗法制度被政治化了。[8]刘广明则从神权与君权合一、嫡长子继承制、“封建”制度以及族军制四个层面，全面论证了西周社会“宗君合一”的本质。[9]

综上所述，关于“宗君合一”与“宗君分离”的争论，实际上反映了不同时期、不同视角的学者对周代政治性质的不同理解。传统礼学家过于拘泥于《礼记》等战国、汉代儒生理想化的礼制文本，忽视了西周早中期的政治现实；而现代部分学者虽然强调了宗法的政治功能，但往往容易陷入另一种宏大叙事的陷阱，忽略了宗法制度内部的演变与张力。

因此，简单的“合一”或“分离”二分法，难以解释西周三百年的复杂历史动态。宗法制度并非一成不变的静态规范，而是一个动态的历史演进过程。正如王进锋所深刻指出的，西周宗法制度并非僵化的教条，而是具有一种内在的“调适”机制；它能够通过一系列制度安排来缓解“亲亲”与“尊尊”之间的张力，从而适应不断变化的政治形势。[10]这种动态视角对于我们理解西周政治结构至关重要。正如段陶所言：“西周贵族氏族的延续、分化及演变方式是影响西周政治结构的最重要的因素。”[11]我们必须引入时间维度，结合出土的金文资料，特别是那些记录了家族世系、土地纠纷和王命册封的“现场记录”，来重新检视这一问题。

二、概念的再厘定：宗法制度的构成要素

在深入讨论“宗君关系”之前，有必要重新厘定宗法制度中的几个核心概念。这不仅是术语的澄清，更是理解西周社会结构的基础。

（一）“宗”与“族”的辨析

“宗”字在甲骨文中作“宀”下有“示”，意为置于宗庙中的神主。《说文解字》云：“宗，尊祖庙也。”这表明“宗”的本义与祭祀祖先的场所有着直接联系。《说文解字》释“族”云：“族，矢锋也。束之族族也。……从旗，从矢。”这里的“族”强调的是一种带有军事性质的聚合体。

在周代社会中，“宗”与“族”往往连用，但各有侧重。高婧聪指出，宗族是周代最基本的社会结构单位，其主要特征在于拥有共同的始祖和宗庙，有特定的祭祀，并且宗族各级有族长，谓之“宗子”。[12]在宗法制度下，宗族不仅仅是血缘共同体，更是一个政治和经济实体。朱凤瀚也强调，宗族在组织结构上具有多级性，由主体家族与若干分支家族组成，且这种结构与政治权力同层同构。[13]因此，西周的“宗”不仅仅是私人的亲属集团，实际上更是国家政治机器的基层细胞。

（二）“别子”与“大宗”的政治内涵

“别子”是理解宗法分化机制的关键。《礼记·大传》云：“别子为祖，继别为宗，继祢者为小宗。”这里的“别子”，传统解释多指诸侯之庶子。但结合金文材料来看，其含义更为丰富。

高婧聪认为，“别子”一般为次子，从原来的宗族中分出另立一宗为始祖，其所在之宗百世不迁，世代为大宗。[14]这里的关键在于“分出”。在西周的分封制下，这种“分出”往往伴随着政治权力的授予。一个“别子”往往也是一个新的采邑主或诸侯。例如，周公之子伯禽就封于鲁，对于周王室而言，伯禽是“别子”；但对于鲁国而言，他又是始祖，是鲁国公室的“大宗”。

因此，“大宗”具有双重属性：在血缘上，他是始祖的直系继承人，拥有主祭权；在政治上，他往往是该宗族所在地域的最高统治者。这种“大宗”身份与政治职位的重合，正是“宗君合一”在制度设计上的体现。正如《白虎通·宗族》所言：“宗者，尊也。为先祖主者，宗人之所尊也。”[15]这种尊崇，既源于血缘的长幼有序，也源于政治权力的现实威慑。

（三）“庶子”的权利限制与宗法等级

在宗法体系中，与“宗子”（大宗）相对的是“庶子”（小宗）。这里的“庶子”并非仅指妾所生之子，而是泛指除宗子以外的所有旁系子孙。《礼记·丧服小记》规定：“庶子不祭祖者，明其宗也。”这一原则在学术界曾引起争议，但这恰恰是宗法等级森严的体现。

高婧聪指出，“庶子不祭”并非指庶子完全不能参与祭祀，而是指庶子没有主祭权（独立主持祭祀祖先的权利）。庶子若要祭祀祖先，必须通过宗子，或者在宗子的主持下进行。[16]这种对祭祀权的垄断，实际上是对政治权力的垄断。因为在西周，“国之大事，在祀与戎”（《左传·成公三十年》），掌握了祭祀权，就掌握了与祖先神沟通的渠道，从而掌握了统治的合法性。金文中的《作册益卣铭文》明确记载了庶子“不敢”直接祭祀祖先的案例，这有力地证明了宗法等级在西周社会的实际约束力。

综上可见，西周的宗法制度是一套将血缘关系政治化的精密体系。通过“别子为祖”的分宗机制和“庶子不祭”的等级规范，周人成功地将家族内部的父子、兄弟关系转化为国家层面的君臣、上下级关系。这一制度设计的初衷，正是为了实现“宗君合一”，从而确保政权的长期稳定。

三、“宗君合一”的制度实态：基于金文世系的深度考察

如果完全采信《礼记·郊特牲》“诸侯不敢祖天子”的说法，那么西周的政治结构应当是政治权威与血缘纽带的二元分立。然而，检视出土的金文资料，特别是那些记录了完整家族世系的重器，展示了一个截然不同的政治图景：在西周早中期的社会结构中，天子不仅是政治上的共主，更是宗法网络中的最高“大宗”。

（一）称谓中的宗法纽带与身份认同

在西周早期的青铜器铭文中，周王在与同姓贵族之间的互动中频繁使用宗法性称谓，这直接证伪了“天子绝宗”的绝对化论断。

1963 年出土于陕西宝鸡的何尊，记录了周成王对宗室子弟的训诫。铭文云：“王诰宗小子于京室曰：‘昔在尔考公氏，克逨文王。’”[17]这里的“宗小子”，指同姓贵族中小宗成员。周王在代表国家最高权力的“京室”中，以宗族长辈的口吻教导“宗小子”要效法其父祖辅佐文王，这本身就是宗法权力与政治权力合一的典型体现。如果天子已经如战国儒生所言“绝宗”，完全脱离于宗法体系之外，又何来对“宗小子”的宗法训诫权？

更为直接的证据来自盠驹尊。该铭文详细记载了周王册命“盠”的过程，其中周王说：“王弗望厥旧宗小子，懋皇盠身。盠曰：王倗下不其，则万年保我万宗。”[18]铭文中的“旧宗小子”，表明“盠”不仅是周王的臣子，更是周王室的远房宗亲。而“万年保我万宗”一句，更是意味深长。周王自称要“保我万宗”，并非虚指，而是强调周王作为天下大宗，对无数小宗（万宗）负有庇护之责，同时也拥有统辖之权。这种“保我万宗”的表述，清晰地构建了一个以周王为塔尖、层层分封的宗法金字塔结构。在这种结构中，政治上的“君臣”关系与宗法上的“大宗小宗”关系是高度重合的。

此外，关于诸侯是否可以祭祀天子的问题，金文也提供了反证。出土于河南的应公鼎的铭文说：“应公乍（作）尊彝……珷帝日丁于子孙孙永宝。”[19]学界对“珷帝”指文王还是武王虽有不同意见，但核心事实是确定的：作为诸侯的应公，正在祭祀周天子的先祖。这直接打破了“诸侯不敢祖天子”的礼制禁忌。事实上，在西周乃至春秋时期，诸侯祭祀天子先祖并非孤例。《左传·哀公二年》卫太子祷辞中亦有“昭告皇祖文王”之语。这些证据表明，在西周的政治实践中，君统并未切断宗统的脐带，相反，祭祀天子先祖正是诸侯确认自身政治合法性的重要手段。

（二）祭祀权的层级与宗法控制

宗法制度的核心在于祭祀权的分配。在“宗君合一”的体制下，祭祀权不仅是宗教特权，更是政治权力的象征。大宗通过掌控祭祀权，确立了其在宗族内部的绝对统治地位。

西周早期的作册益卣为我们揭示了这一制度的严苛性。该青铜器的铭文记载了作册益（父）为其子“子引”之祖（即作册益之父“父癸”）制作祭器的事情。铭文云：“不录益子子延先衋（尽）死，亡子。子引有孙，不敢……用作大御于厥祖妣。”[20]这段铭文透露出一段曲折的家族继承故事：作册益的长子“子延”早死且无后，这意味着大宗的继承链条在子辈发生了断裂。次子“子引”虽然有子孙，但在法理上仍属于庶子（小宗）。根据“庶子不祭”的原则，子引“不敢”直接主持对祖父“父癸”的祭祀。因此，必须由父亲作册益亲自出面，为“父癸”制作尊彝。

高婧聪指出，这一案例生动地说明了庶子在宗法体系中的尴尬地位：“庶子不能祭祀祖、祢，而要由嫡子来祭祀。所以说‘庶子不祭’是重要的宗法制原则。”[21]这种对祭祀权的严格限制，实际上是对大宗政治权威的维护。它确保了宗族内部只有一个权力中心，防止了因多头祭祀而导致的宗族分裂，从而在微观层面维护了“家国一体”的政治秩序。

与此同时，小宗若要祭祀，往往需要依托大宗，甚至是在大宗的宗庙中进行。出土于河南洛阳的沈子它簋记载：“它曰：拜稽首……沈子作于周公宗……用格多公。”[22]这里的“沈子它”作为沈氏小宗，却在“周公宗”（周公的大宗宗庙）中举行祭祀。这进一步证明，在西周时期，诸侯（大宗）与分出去的小宗之间保持着紧密的宗法联系，小宗在祭祀等核心礼仪上对大宗存在着依附关系。这种依附关系，正是“宗君合一”体制在贵族阶层内部的运作实态。

四、家国同构的终极样本：单氏家族与逨盘

如果说零散的铭文只能提供片段式的证据，那么2003年陕西眉县杨家村窖藏出土的逨盘，则为西周“宗君合一”的政治结构提供了全景式的铁证。这件作于西周宣王时期的青铜重器，其铭文长达372字，详细记载了单氏家族从建立之初到宣王时期长达十二代的世系，并将每一代祖先与所辅佐的周王一一对应。这一世系表不仅是单氏家族的家谱，更是一部缩微的西周政治史。

（一）家族史与国史的完全同步

逨盘的铭文以排比句式，历数了单氏先祖辅佐周王的功绩：“皇高祖单公，夹召文王、武王达殷。……皇高祖公叔，克逨匹成王，成受大令……皇高祖新室中……会召康王……皇高祖惠中盠父……用会昭王、穆王……皇高祖零伯……用辟龚（恭）王、懿王……皇亚祖懿中，克匍保厥辟孝王、夷王……皇考龚叔，享辟厉王。”[23]这段铭文揭示了三个极其重要的宗法政治特征。

第一，家族世代与王朝世系的严丝合缝。单氏家族的每一代宗子，其生命历程和政治生涯都严格对应于周王的世系。文王、武王对应单公，成王对应公叔，直至厉王对应龚叔。这种对应关系在世界古代史中亦属罕见。它证明了西周时期一个贵族家族的兴衰荣辱，是完全依附于王朝政治的。家族的延续（宗统）不再是孤立的血缘繁衍，而是服务于王朝统治（君统）的职能延续。

第二，以“辅佐”为核心的宗法义务。铭文中反复出现的“夹召”“克逨匹”“用会”“匍保”等词汇，皆为辅佐、保卫之意。这说明，对于单氏这样的畿内世族而言，其宗法上的最高义务就是对大宗（周王）的政治效忠。正如段陶在分析西周贵族家庭分化时所指出的，西周贵族氏族的延续与演变是影响西周政治结构的最重要因素。单氏家族作为小宗，其存在的最大价值就是作为大宗（周王室）的政治屏障和行政工具。这种“世守其职”的忠诚，是建立在宗法血缘认同基础之上的。

第三，官僚等级与宗法等级的重合。逨盘显示，单氏家族不仅是血缘上的贵族，更是世代世袭的王朝高官（如“虞林”等职）。这种“世官世禄”的制度，正是宗君合一体制的制度化体现。宗法上的“父子”关系，在政治上转化为“君臣”关系，而在行政上则表现为“上下级”关系。这种三位一体的结构，使得西周的政治体制具有极强的稳定性。

（二）宗法分封与政治权力的再分配

宗法制度在周代的全面实行，很大程度上依托于分封制。分封不仅是土地和人口的分配，更是宗法关系的政治化延伸。周初的“元子就封”是这一过程的典型表现。例如，周公之子伯禽就封于鲁，召公之子克就封于燕。这种安排使得分封出去的诸侯国君（如伯禽、克）在血缘上是周王室的小宗（或别子），但在政治上是一国之君（大宗）。正如《诗经·大雅·板》所云：“宗子维城，无俾城坏，无独斯畏。”宗子（诸侯）构成了周王朝的城墙屏障。

宜侯矢簋详细记录了周康王册封宜侯的过程：“王令虔侯矢曰：迁侯于宜……赐土：厥圳三百……赐在宜王人……赐宜庶人六百又□六夫。”[24]这种赏赐土地、人口的行为，实质上是周王作为天下大宗，将王室的资源分拨给小宗（宜侯），使其有能力在地方建立新的宗族（小宗之大宗）。

同样，西周中期的不其簋记载大宗“伯氏”赏赐小宗“不其”土地与臣仆：“白（伯）氏曰：不其，女（汝）小子。……易（赐）女（汝）弓一、矢束、臣五家、田十田。”[25]这里的伯氏是宗族的大宗，而不其是被称作“小子”的小宗成员。大宗伯氏因为不其在战争中的功劳，赏赐给他土地和人口。这种赏赐行为具有双重属性——既是宗法内部的财产分配，也是政治权力的确认。大宗通过掌握经济命脉，控制了小宗的生存基础，从而确保小宗在政治和军事上的绝对服从。

段陶在研究中指出：“西周时期氏族财产的分配主要由制作铜器或赏赐铭文的记录来佐证。铭文中的信息显示宗子在祭祀中占据统领地位，也常常有宗子令支子为其父考作器或赏赐族人的记载，这都显示了宗子在宗法关系与家族财富分配上的主导身份。”[26]这种经济上的依附关系，是“宗君合一”体制能够长期维持的物质基础。只要大宗（无论是周王还是诸侯）掌握着足够的土地和资源进行再分配，小宗就会紧密团结在大宗周围，形成稳固的政治屏障。

（三）宗法伦理的政治化：孝与德

在“宗君合一”的体制下，宗法伦理（如“孝”“友”）被赋予了极强的政治意义。“孝”不仅仅是家庭内部的伦理规范，更是臣对君的政治义务。西周金文中频繁出现的“追孝”“用享孝于宗室”等语，大多出现在臣子接受周王或大宗赏赐之后。例如《大克鼎铭文》中，膳夫克在列举祖父功绩、接受周王册命后，称“（克）敢对扬天子丕显鲁休，用作朕文祖师华父宝尊彝”。铭文中的“作器追孝”，其前提是“对扬天子休”。也就是说，对祖先的“孝”是建立在对天子“忠”的基础之上的。或者说，在西周人的观念中，服务好天子，就是对祖先最大的“孝”，因为家族的荣耀和地位来自于天子的恩赐。

高婧聪指出，周代的“德”实际上是宗法分封之德，是制度之德。[27]这种“德”通过宗法网络层层下移。周王有“德”，诸侯效法之；大宗有“德”，小宗效法之。金文中的“帅型祖考”（效法祖先）与“对扬王休”（宣扬王恩）往往并列出现，说明在周人意识中，维护宗族传统与效忠王朝政治是完全一致的。这种伦理上的同构，是“宗君合一”在意识形态层面的最高体现。

由上可见，无论是从家族世系的政治化、祭祀权力的等级化，还是从经济资源分配的宗法化来看，西周早中期的社会结构都呈现出鲜明的“宗君合一”特征。天子作为天下大宗，通过分封、册命、祭祀等手段，将政治权力深深植入血缘网络之中，实现了“家”与“国”的深度融合。

五、“宗君合一”的裂痕：家族内部的利益博弈与王权介入

虽然在西周早中期，“宗君合一”是维系国家政治稳定的基石，但这一体制并非坚不可摧。随着西周中后期社会经济的发展、人口的繁衍以及土地资源的日益稀缺，宗族内部——特别是大宗与小宗之间——的利益冲突逐渐浮出水面。这种冲突最为直观地体现在新出土的西周晚期金文中，其中以琱生三器所记录的家族诉讼案最为典型。这一案例生动地揭示了单纯依靠宗法伦理（“亲亲”）已难以维系家族内部的利益平衡，必须借助最高政治权力（周王/君统）来进行裁决，从而撕裂了原有的“家国一体”的温情面纱。

（一）宗法伦理的失效：琱生三器所见之争

琱生三器包括五年琱生簋、五年琱生尊和六年琱生簋，这组器物出土于陕西扶风，详细记录了召公家族内部一场关于土地与仆庸（人口）的复杂纠纷。纠纷的一方是作为大宗宗子的召伯虎，另一方是作为支子小宗的琱生。根据铭文记载，这场纠纷的核心在于土地资源的再分配。铭文云：

召伯虎告曰“余告庆。……余典（誓）勿敢封（邦），今余既讯有司，曰展令（命），今余既一名典（誓），献伯氏则报璧。”[28]

这段晦涩的铭文背后，隐藏着一场惊心动魄的家族内斗。段陶在对这组器物的深入研究中指出，琱生作为召氏家族的支系小宗，与大宗召伯虎之间发生了激烈的利益冲突。虽然召伯虎在铭文中强调“余既讯，禀我考我母令，余弗敢乱”，试图用祖先和母亲的命令（宗法伦理）来压服对方，但现实却是，单纯的宗法权威已经失效。

为了解决争端，双方不仅进行了长时间的博弈，甚至出现了类似商业交换的行为——“报璧”。即小宗琱生通过向大宗进献玉璧，来换取某种权益的确认或让步。更值得注意的是，铭文中出现了“君氏”这一关键人物，以及“讯有司”的法律程序。这意味着，宗族内部的矛盾已经无法在宗族内部通过“尊尊亲亲”的道德说教来解决，而必须诉诸外部的官僚体系和法律程序。

这起事件深刻地反映了西周晚期宗法制度的内在危机：第一，大宗权威的下降。在西周早期，大宗对小宗拥有绝对的支配权，如作册益卣中庶子“不敢”祭祀那样。但在琱生簋中，小宗琱生已经具备了与大宗讨价还价甚至对簿公堂的实力。这说明随着支族势力的膨胀，大宗的经济和政治控制力正在削弱。第二，宗法伦理的功利化。宗法关系本应是温情脉脉的血缘纽带，但在土地利益面前，这种纽带变得脆弱不堪。玉璧的交换、契约的签订（“誓”），取代了血缘亲情而成为解决问题的主要手段。

（二）王权的强制仲裁：君统对宗统的干预

如果说家族内部的纷争只是宗法制的“内伤”，那么王权的强制介入则是对“宗君合一”体制的结构性调整。在琱生三器的案例中，最终平息事态的并非宗族长老，而是周王（或其代表）。铭文记载，这起纠纷最终上诉到了周王廷，并由周王介入调停。段陶敏锐地指出，这一事件侧面体现出，小宗是否还绝对统属于大宗、家族内部事务是否还必须回归大宗处理，已经出现了松动。[29]当宗族内部的自我调节机制失灵时，必须依靠国家机器（君统）的强制力来维持秩序。

这种现象在西周中晚期并非孤例。出土于陕西岐山的五祀卫鼎同样记录了一场土地纠纷：

唯正月初吉庚戌。卫以邦君厉告于邢伯、伯邑父、定伯、伯、伯俗父。曰：“厉曰：‘余执恭王？工（功）……。’”[30]

在这里，卫（小宗）因为土地问题，将邦君厉（大宗或地位更高者）告上了法庭，并由王朝的五位执政大臣（井伯等）进行听讼裁决。最终，王朝官员判决邦君厉败诉，必须割让土地给卫，并由王朝派出的“三有司”实地勘定田界。

这一案例极具象征意义：它标志着“法”的权力开始凌驾于“宗”的权力之上。在传统的宗法观念中，大宗侵占小宗利益或许被视为“收族”或“统辖”的一部分，但在国家法律面前，这种行为被判定为非法。周王室通过司法裁决，直接干预了贵族家族内部的财产分配。这虽然在短期内维护了社会稳定，但从长远来看，它削弱了宗族大宗的绝对权威，使得小宗和庶子阶层开始越过大宗，直接效忠于周王或寻求国家权力的保护。

这种政治权力对宗法事务的深度介入，实际上是将“君统”从“宗统”中剥离出来的开始。它预示着一种新的政治逻辑正在形成：国家不再仅仅是宗族的放大，而是一个拥有独立司法和行政意志的公共权力机构。

六、从“合一”到“分离”的演进机制：宗法制的衰变

西周宗法制度从早期的“宗君合一”走向晚期的“分离”与瓦解，并非偶然的政治事件，而是社会结构深层变革的必然结果。导致这一演变的核心动力，在于小宗经济地位的独立化与政治权力的官僚化。

（一）小宗经济独立与宗法离心力

宗法制度得以维持的物质基础，是宗族财产的共有或大宗对财产的绝对支配权。然而，随着西周中期以来土地制度的变化，特别是私田的开垦和土地交换的频繁（如“卫鼎”所示），小宗（支子）逐渐获得了相对独立的经济地位。西周晚期至春秋初期，卿大夫家族内部结构发生了显著变化。与西周早期小宗完全依附于大宗不同，此时的小宗往往拥有独立的采邑和土田。[31]这种经济上的独立，必然带来政治上的诉求。以“不其簋”为例，虽然铭文表面上是大宗赏赐小宗田地，但实质上确认了不其（小宗）对这些土地的排他性占有权。当小宗拥有了足以自立的经济基础后，他们对大宗的依附关系便大大减弱。此时，宗法上的大宗往往只剩下祭祀上的名义尊崇，而在现实利益面前，小宗更倾向于维护自己的小家庭利益，甚至不惜与大宗分庭抗礼。这种经济基础的变动，产生了强大的离心力，直接冲击了“宗君合一”的政治架构。当天子（天下大宗）无法再通过分封土地来满足诸侯（小宗）的需求，当诸侯（国之大宗）无法再通过赏赐来笼络卿大夫（国之小宗）时，宗法纽带便开始断裂。

（二）政治官僚化对世卿世禄的侵蚀

另一方面，周王室为了应对日益复杂的统治危机，开始尝试突破传统的宗法世袭原则，任用非宗法系统的官员，这进一步加速了“宗君分离”的进程。

西周早期的官员选拔严格遵循“世官世禄”和“亲亲”原则，即官员多由王室宗亲或世袭贵族担任。然而，到了西周中晚期，面对戎狄的入侵和内部的动荡，周王开始提拔一些出身低微但有才干的人员，或者重用通过军功晋升的新贵。例如，《敔簋铭文》记载了厉王在征伐南淮夷的战争后，直接对作战有功的“敔”进行赏赐和提拔，赐予其“圭瓒”等高规格礼器。[32]这种基于军功而非血缘的提拔，实际上是对宗法世袭制的修正。正如高婧聪所论，厉王时期，王身边的近臣（如“善夫”）作用加强，王开始通过这些近臣直接向贵族传达命令，甚至监督贵族执行，这表明王权试图摆脱贵族宗族势力的控制，强化君权的行政属性。[33]这种政治权力的官僚化趋势，使得“君”的属性逐渐压倒了“宗”的属性。官员对君主的效忠，不再仅仅基于“宗子维城”的血缘义务，而是基于职位升迁和俸禄赏赐的行政契约。虽然这一过程在西周时期尚处于萌芽阶段，但它已经从根本上动摇了“宗君合一”的制度根基，为春秋时期“举贤任能”和战国时期官僚制度的全面建立开辟了道路。

（三）礼制变革中的观念分离

伴随着制度层面的松动，人们的观念也发生了微妙的变化。西周早期的金文多强调“对扬王休”“用享孝于宗室”，将对王的忠诚与对祖先的孝敬混为一谈。但在西周晚期的铭文中，虽然仍保留着宗法套话，但对个人功绩和现实利益的关注明显增加。例如，西周晚期的史墙盘，其铭文虽然仍以家族世系为主线，但其叙事的重点已经转向了对家族成员个人才德和政治成就的歌颂，而非单纯强调血缘身份的尊贵。这种观念的转变，反映了宗法血缘的神圣性正在消退，而政治功绩的世俗价值正在上升。

综上所述，西周宗法制度的演变是一个从“合”到“分”的辩证过程。在西周早中期，为了巩固新生的政权，周人利用宗法血缘构建了“宗君合一”的统治模式，实现了政治与家族的完美融合；然而，随着历史的发展，家族利益的私有化、经济结构的独立化以及政治运作的行政化，共同瓦解了这一模式的根基。到了西周晚期，“宗统”与“君统”虽然在形式上依然纠缠，但在实际运作中已经出现了明显的分离趋势，这正是周代社会转型的关键所在。

关于西周宗法制度究竟是“宗君合一”还是“宗君分离”的学术争论，不应止步于非此即彼的静态判断。结合传世文献与逨盘、作册益卣、琱生三器等出土金文资料的深度互证，我们可以勾勒出一幅动态演变的历史图景：

第一，“宗君合一”是西周立国的基石与早期实态。在西周早中期，通过“家国同构”的制度设计，宗统与君统实现了高度融合。天子既是天下之君，又是天下大宗；诸侯既是一国之主，又是王室小宗。如逨盘所展示的单氏家族世系与周王世系的完美对位，证明了在这一时期家族的政治效忠与血缘认同是浑然一体的。宗法伦理（如“孝”“友”）有效地支撑了政治统治，实现了“以族为国”的治理模式。

第二，利益分化与王权介入导致了体制裂痕。随着历史的演进，特别是到了西周中后期，随着土地私有化倾向的加剧和家族内部利益的分化，单纯的宗法伦理已不足以维系政治秩序。如琱生三器所揭示的那样，当大宗无法仅凭宗法权威解决内部纠纷时，不得不寻求最高政治权力（君统）的介入。这种“君”对“宗”的强制仲裁，标志着宗法权力开始让位于行政权力，体制内部出现了不可逆转的裂痕。

第三，“分离”是社会结构转型的必然结果。厉王、宣王时期的政治变革，以及小宗经济地位的独立，进一步加速了宗法与政治的剥离。这种从“浑然合一”到“内部裂痕”再到最终“分离”的过程，正是周代政治制度从以血缘为基础的“族天下”向以地缘和官僚为基础的“家天下”转型的缩影。

因此，传统礼学家所主张的“宗君分离”，并非西周初年的制度原貌，而是宗法制在春秋战国时期走向瓦解后的历史回响；而现代史学家强调的“宗君合一”，则准确把握了西周社会结构的本质特征。重新审视这一过程，不仅有助于我们理解西周宗法制的复杂面向，也为理解中国早期国家从“血缘政治”向“官僚政治”的演进提供了重要的历史线索。

注释

[1]梁启超：《先秦政治思想史》，北京：商务印书馆，2014年，第47页。

[2]（清）孙希旦撰，沈啸寰、王星贤点校：《礼记集解》，北京：中华书局，1989年，第681页。

[3]（清）程瑶田：《通艺录》卷六《宗法小记》，清嘉庆八年（1803）刻本。

[4]（清）江永：《礼书纲目》卷六十九《五宗通礼》，《四库全书》本。

[5]（清）毛奇龄：《经问》卷五，（清）阮元编：《清经解》，南京：凤凰出版社，2005年，第1248-1249页。

[6]王国维：《殷周制度论》，《观堂集林》，北京：中华书局，1959年，第453页。

[7]金景芳：《论宗法制度》，《东北人民大学人文科学学报》1956年第2期。

[8]陈恩林：《关于周代宗法制度中君统与宗统的关系问题》，《社会科学战线》1989年第2期。

[9]刘广明：《宗法中国：中国宗法社会形态的定型、完型和发展动力》，南京：南京大学出版社，2011年，第10-18页。

[10]王进锋：《论西周宗法制度中的限度与调适》，《中原文化研究》2024年第4期。

[11]段陶：《西周金文所体现的宗法关系及贵族家庭分化》，《饶宗颐国学院院刊》2021年第8期，第47页。

[12]高婧聪：《宗法制度与周代国家结构研究》，北京：中国社会科学出版社，2020年，第95-97页。

[13]朱凤瀚：《商周家族形态研究》，北京：商务印书馆，2020年，第19页。

[14]高婧聪：《宗法制度与周代国家结构研究》，第97页。

[15]（清）陈立撰，吴则虞点校：《白虎通疏证》，北京：中华书局，1994年，第393页。

[16]高婧聪：《宗法制度与周代国家结构研究》，第250页。

[17]中国社会科学考古研究所编：《殷周金文集成释文》第4卷，香港：香港中文大学中国文化研究所，2001年，第275页。

[18]中国社会科学考古研究所编：《殷周金文集成释文》第4卷，第273页。

[19]河南省文物考古研究所、平顶山市文物管理局：《河南平顶山应国墓地八号墓发掘简报》，《华夏考古》2007年第1期。

[20]中国社会科学院考古研究所编：《殷周金文集成释文》第4卷，第169页。

[21]高婧聪：《宗法制度与周代国家结构研究》，第250页。

[22]中国社会科学考古研究所编：《殷周金文集成释文》第3卷，第465页。

[23]参见段陶：《西周金文所体现的宗法关系及贵族家庭分化》，《饶宗颐国学院院刊》2021年第8期，第67-68页。

[24]中国社会科学院考古研究所编：《殷周金文集成释文》第3卷，第452页。

[25]中国社会科学院考古研究所编：《殷周金文集成释文》第3卷，第463页。

[26]段陶：《西周金文所体现的宗法关系及贵族家庭分化》，《饶宗颐国学院院刊》2021年第8期，第69页。

[27]参见高婧聪：《宗法制度与周代国家结构研究》，第76页。

[28]中国社会科学院考古研究所编：《殷周金文集成释文》第3卷，第414页。

[29]段陶：《西周金文所体现的宗法关系及贵族家庭分化》，《饶宗颐国学院院刊》2021年第8期，第67页。

[30]中国社会科学院考古研究所编：《殷周金文集成释文》第2卷，第402页。

[31]朱凤瀚：《商周家族形态研究》，第383-395页。

[32]中国社会科学院考古研究所编：《殷周金文集成释文》第3卷，第456页。

[33]高婧聪：《宗法制度与周代国家结构研究》，第76页。

转自《孔子研究》2026年第1期

2026-03-04
王旭东：金文“殷八师”与“成周八师”辨析——申论西周“八师”移驻之假说

一般认为西周王朝的军队由四部分组成：王室禁卫部队、王朝常备军、诸侯国军队与强宗雄族之私属武装。王朝常备军又包括“六师”与“八师”两套系统，“六师”或称“西六师”，日常驻扎在西土，此素无争议；“八师”的情形比较复杂，在金文中有“殷八师”与“成周八师”两种称谓，二者所指是否相同，相同的话为何称名有异、不同的话又有何关联，解释起来尚存分歧。有相当多学者默认“殷八师”就是“成周八师”，但对于称名方面的争议，却未给出清晰的回答或具有说服力的论证。近日在山西北白鹅墓地出土的夺簋铭文同时出现“殷八师”与“成周”，不仅提供了新的金文资料，也启发我们从不同角度思考“殷八师”迁移的可能性。窃以为欲厘清“八师”之始末，不惟铜器断代、金文考释各方面需仔细斟酌，西周王朝地缘政治等大的历史背景也要予以充分考虑。兹不揣梼昧，略述鄙见，以期辨明“殷八师”与“成周八师”的关系，对西周军队建置及管理体制，形成更深入的认知。

一、相关研究回顾

西周金文中既有“殷八师”，也出现过“成周八师”。[1]殷八师与成周八师之间的关系，是首先要考虑的问题。徐中舒、杨宽、刘雨等研究者认为，殷八师与成周八师是两支军队，分别驻扎在殷地与成周，[2]此说严格遵循史料原文，不掺杂任何阐发，却有违于周代东西二元并立的政治格局：[3]西土有“六师”，东方有“八师”，恰可构成一组军事力量上的平衡；如果东方有“殷”与“成周”两支“八师”——姑且不讨论兵员来源、物资供给等潜在困难——数量的对比本身就打破了预想中的“平衡”。而且禹鼎及新出夺簋铭文证明，“殷八师”在西周晚期确驻扎于成周（详后文），成周没有理由再容纳另一支“八师”。目前更多学者相信，金文中的“殷八师”与“成周八师”是同一支军队。

同一支“八师”为何拥有两个名称，前人的解释思路可归纳为两类倾向、四种看法：

第一类倾向认为“殷”表示人群范畴，代表观点即（1）于省吾主张“八师”由殷人的投降军队改编而成，故称“殷八师”；又经常驻扎在成周，所以称“成周八师”。[4]

第二类倾向认为“殷”表示地理范畴，具体又有（2）李学勤认为“八师”驻扎于成周，镇压殷人，而洛阳一带也属于“故殷之地”，因此又可称“殷八师”。[5]（3）王慎行提出“八师”经常换防，当屯驻于殷地时称为“殷八师”，屯驻于成周时便称“成周八师”。[6]（4）黄圣松主张“八师”原本常驻殷地，故称“殷八师”，后来移防至成周，才改称“成周八师”。[7]

第（1）说从者最众，但细究之下仍有值得继续推敲的地方。首先，就周初对殷遗民的政策看，周人任用殷遗民侧重于文化与技术，如祝卜、史官、工匠等，或分封给诸侯为“附庸”，如殷民六族、殷民七族之类（《左传》定公四年），军事层面则以防范态度为主，若谓专门组建以殷人为主体的庞大“八师”并用于东征，显于施政方针不协。其次，据金文资料看，虽不能否认有东方土著进入军队担任“师”职，[8]但“师氏”“司马”职官系统中的大部分贵族未显露出使用日名、族徽等典型殷人特征，殷遗民虽不是被绝对排斥于军队之外，却也只有少数人能够担任戎职，谈不上是“八师”的主力。而且，小臣簋（《集成》4238、4239）铭文记载“殷八师”的两处驻地为“”与“牧”，分别位于古济水以西的豫鲁交界地带与古黄河南岸的淇县附近，[9]也证明“八师”最早确实屯宿于豫北殷商故地。故将“殷八师”之“殷”解释为空间范畴“殷地”，绝非向壁虚造，若理解为“殷人”反而缺乏必要的根据。

第（2）说将“成周”与“殷”解释为相同的地理概念，未免过于宽泛。殷晚期豫西的考古学文化面貌不甚清楚，洛阳地区是否为殷商王朝故地，尚无明证；单就周人观念而言，洛邑最初处在广义的“东国”（《尚书·康诰》），成周营建后变为“中域”（何尊，《集成》6014），又被称为“新邑”（臣卿鼎，《集成》2595等）、“新邑洛”（《尚书·召诰》），尽显新生政权之蓬勃朝气，断无道理又将洛邑视为“故殷之地”。

第（3）（4）说思路相同，皆谓“八师”随驻地的变化而改名，如承认“殷”与“成周”均是地名，唯此推演才能在逻辑上讲通。至于“八师”究竟是反复换防，还是从一地移驻到另一地，只要将涉及“殷八师”与“成周八师”的金文按年代排序，辨别先后，区分首尾，自然可以寻得线索：如果时代彼此杂糅，则符合第（3）说；如果一者在前，一者在后，则符合第（4）说。以下便从相关金文年代考辨开始谈起。

二、金文所见“殷八师”与“成周八师”年代考辨

“殷八师”在金文中比较确凿的记载有三处，一见于小臣簋，其铭文云（释文用宽式，下皆同）：

㪥东夷大反，伯懋父以殷八师征东夷。唯十有一月，遣自（洛）师，述（遂）东，伐海眉（湄），厥复，归在牧师。伯懋父承王命，锡师䢦征自五贝。小臣蔑历，眔锡贝，用作宝尊彝。（《集成》4238、4239）

记伯懋父率殷八师征伐东夷事。一见于禹鼎，节录相关内容如下：

禹曰：……呜呼哀哉！用天降大丧于下域，亦唯鄂侯驭方率南淮夷、东夷广伐南域、东域，至于历、内。王廼命西六师、殷八师曰：“撲伐鄂侯驭方，勿遗寿幼。”肆师弥怵匌匩，弗克伐鄂。肆武公廼遣禹率公戎车百乘、厮御二百、徒千，曰：“于（将）朕肃，[10]慕惠西六师、殷八师伐鄂侯驭方，勿遗寿幼。”（《集成》2833、2834）

大意是鄂侯驭方叛乱，西六师、殷八师受命平叛，但进攻不顺，武公又派遣禹率领族兵助战，方取得胜利。一见于垣曲北白鹅墓地M3新出夺簋，摘引铭文前半段：

唯正月初吉，王在成周。庚午，各于大室，井叔入右夺，即位，王呼内史微册命夺曰：“命汝司成周讼事眔殷八师事，锡汝……”[11]

省略部分为赏赐的命服以及嘏辞。铭文言任命“夺”管理“殷八师事”，未提及作战。[12]

小臣簋造型独特，双附耳高出口沿，三柱足接在圈足下，器身素净，捉手与口沿下饰两周弦纹，其断代有“成王说”“康王说”“昭王说”等意见，[13]结合东征的背景与“伯懋父器组”其他铜器综合考量，[14]断在康昭之际更显妥帖。禹鼎立耳，浅垂腹，蹄足，属朱凤瀚划分的鼎Ae型Ⅲ式，[15]时代集中于西周晚期，根据铭文中出现的“武公”“鄂侯驭方”及淮夷叛乱的背景，基本可推定属厉王世。[16]夺簋共4件，形制相同，腹圆鼓微垂，半环形耳饰小珥，圈足下接三小足，器身饰弦纹，盖缘及口沿饰窃曲纹，属朱凤瀚划分簋Da型Ⅳ式，[17]发掘者根据同型器判断其年代属西周晚期早段，亦相当于厉王世。综言之，“殷八师”在金文中最早见于昭王，最晚及于厉王。

“成周八师”在金文中的明确记载有两处。一见于㫚壶盖：

唯正月初吉丁亥，王各于成宫。井公内（入）右㫚，王呼尹氏册命㫚曰：“赓乃祖考，作冢司徒于成周八师，锡汝秬鬯一卣……”（《集成》9728）

言㫚继承祖考职事，担任成周八师之冢司徒。另一处见于小克鼎：

惟王廿有三年九月，王在宗周，王命膳夫克舍令于成周、遹正八师之年，克作朕皇祖僖季宝宗彝……（《集成》2796—2802）

其大事纪年言“舍令于成周、遹正八师”，此“八师”为“成周八师”，当无疑问。

以上两篇铭文过去被定在西周中期，但目前更多证据显示它们应归在晚期。㫚壶全器不存，盖呈椭方体，有方形捉手并饰弦纹，盖侧壁饰凸目对称窃曲纹，郭沫若定在孝王世，[18]乃受㫚鼎之“㫚”影响，两人同名却未必是一人；彭裕商则根据其椭方体形制、“横G形”窃曲纹断为西周晚期器，[19]更可信。㫚壶盖与临潼零口村窖藏所出冟车父壶、晋侯墓地M64出土铜壶（M64:103）、M93出土叔家父壶（M93：30、31）盖部形制、装饰风格全同，按M64、M93在晋侯墓地中年代最晚，对应西周末年宣、幽之世，[20]不过㫚壶盖铭所记右者为“井公”，井氏卿族在西周中晚期煊赫一时，但至迟到宣王，井氏已遭逢变故而解体，[21]故㫚壶盖归于厉王晚段或较合适。小克鼎属于扶风任家村出土的“克”器组，这组铜器的断代旧存争议，但经过与晋侯墓地、眉县杨家村窖藏等新出资料的比对，可基本确认属西周晚期晚段，小克鼎之“廿有三年”，可排定为周宣王二十三年。[22]换言之，“成周八师”集中见于西周晚期厉宣之世。

综上，“殷八师”始见于康昭之际，其名称至少延续到厉王世；“成周八师”则集中出现在厉王末年至宣王时代，时间刚好接续，故“移驻”的假说是可以成立的。

三、金文“成师”与“成周师氏”解析

资料的年代排序本来简单清晰，然而“移驻”之说一直未获广泛支持，殆由于金文“成师”“成周师氏”等记载的干扰，使人误以为西周早中期便设有“成周八师”。按“成师”与“成周八师”名相似而实不同；“成周师氏”与“成周八师”亦不可直接划等号，为破除疑碍，需对几条材料稍作辨析。

“成师”最早见于周初小臣单觯铭文：

王后反克商，在成师。周公锡小臣单贝十朋，用作宝尊彝。（《集成》6512）

“反克”同义复合，训为颠覆，[23]“后”揭示铭文所述乃成王周公二次克殷及东征事，“在成师”可理解为驻扎在“成师”，也可径读作“在成次”，要之核心地名为“成”。当是时，成周尚未营建，洛邑无“成周”之名，附近也无名“成”之地；从克商及东征地理看，成王、周公也没必要往成周驻军。此“成”地郭沫若谓为成皋，陈梦家、唐兰认为是成叔武所封之“成（郕）”，新近陈絜结合卜辞资料提出应为鲁孟孙氏之“成”邑，[24]无论如何“成”与成周无关，“成师”自然牵扯不到“成周八师”。

相较而言，竞卣铭文的“成师”更富争议：

唯伯屖父以成师即东，命戍南夷，正月既生霸辛丑，在。伯屖父皇竞，各于官（馆），竞蔑历，赏竞璋。对扬伯休，用作父乙宝尊彝，子孙永宝。（《集成》5425）

竞卣属于扁罐形卣中最晚的一种形制，陈梦家将该器归入“师雍父”器组中，[25]学者皆从之，目前主流意见认为“师雍父”与“伯屖父”活跃于穆王时代，铭文中提到的“戍南夷”，即穆王征淮夷事。[26]所谓伯屖父“以成师即东”，意为率领“成师”东进，“成师”显然指代军队。于省吾提出“成师”是“成周八师”的省称，[27]得到部分学者支持。但遍查金文资料，并无其他“成周”省称为“成”的记载；从地名构成的角度分析，“成周”之“成”为修饰语而非核心要素，[28]“成周”也不应该省称为“成”，按诸“齐师”（《集成》4313等）“豳师”（《集成》4266等）等例证，“成师”解释为“成地或成国的军队”简洁明了，不宜贸然与“成周”牵连。

除“成师”外，与竞卣同组的录卣铭文中还提到“成周师氏”：

王命曰：“㪥淮夷敢伐内域，汝其以成周师氏戍于由师。”伯雍父蔑录历，锡贝十朋。录拜稽首，对扬伯休，用作文考乙公宝尊彝。（《集成》5419、5420）

簋铭又言率“有司、师氏”追击敌军（《集成》4322），“师氏”殆即此“成周师氏”。杨宽曾主张“成周师氏”是“成周八师”的高级军官，[29]暗示西周中期成周已有“八师”之设。“师氏”一名金文习见，常与“有司”“邑人”并列，含义丰富，除武职外，还可指代农人首领，总之是“某种等级较低而人数又比较多”的基层管理人员，[30]“高级军官”之说恐不可信。然则低等级的“师氏”之存在，不足以说明成周驻扎有建制完整的“八师”。黄圣松检出方鼎铭“王用肇使乃子率虎臣御淮戎”（《集成》2824）的记载，两相对照，主张前揭“师氏”实际是王室禁卫军“虎臣”。[31]今按黄说过于绝对，“师氏”“虎臣”应有区别，殆作铭时随文取用而已，但根据黄说的提示，至少可确认：从成周带走的部队，包括“有司”“师氏”“虎臣”等多种类别，构成十分复杂，这恰恰侧面佐证当时成周不设“八师”，否则直接遣“八师”出征即可。

四、“殷八师”移驻成周过程蠡测——基于地缘政治视角的分析

根据“殷八师”“成周八师”金文资料的排序，以及对“成师”“成周师氏”含义的辨析，笔者基本赞同前揭第四种观点即黄圣松的“移驻说”。但黄说犹有继续斟酌的余地——他判断“殷八师”移驻成周的时间点在厉王之后宣王世，这只是来自铜器断代的直观印象，若深入考虑铭文内容，不难发现“殷八师”移驻成周至迟不晚于厉王初年，最早在厉王前的孝、夷时代，只是到厉王末期才正式更名为“成周八师”，中间存在着一个名实转化的过程。兹举三事以证明。

（一）西周晚期早段的夺簋铭文记载，夺的职事为“司成周讼事眔殷八师事”，“殷八师事”当如韩巍说乃省一“讼”字，[32]所谓“司讼事”大概与金文“讯讼”“讯讼罚”相近，即命“夺”管理成周狱讼事务，兼管“殷八师”之诉讼。类似例证可举西周晚期簋铭文：“命汝司成周里人眔诸侯大亚，讯讼罚，取五锊。”（《集成》4215）“ ”被委任管理的“里人眔诸侯大亚”，均为成周城内居民，[33]同理“夺”既主管成周之狱讼，兼管的“殷八师”也当驻扎在成周附近，否则不便于“夺”履职。

（二）禹鼎铭文记载鄂侯驭方叛乱，周厉王调动“西六师、殷八师”征讨，按鄂在今湖北随州，[34]周人经略江汉，大多集结军队于成周，再穿过南阳盆地与随枣走廊南下。“殷八师”原驻扎在小东地区，用兵方向首要面向东土，此前未曾调动南征；当时如驻扎在成周，与“西六师”会合、南下伐鄂更加顺理成章。

（三）曶壶盖的时代虽晚至厉王晚期，但铭文言“㫚”任成周八师冢司徒，系“赓乃祖考”之职务，换言之，“㫚”的祖辈父辈已担任过类似的官职。“㫚”既活跃于厉宣时代，其祖父的供职至迟不晚于夷、厉之交。

综上，“殷八师”移驻成周的时间，早可至孝、夷之世，最迟不晚于厉王初年，故而当厉王世，“夺”主管成周狱讼要兼管“殷八师”讼事，征伐鄂侯也可直接调动“殷八师”从成周南下，惟“殷”之旧名延用未变。上古时代族名、地名等专名的使用具有很强惯性，迁入新地而不改旧名的例子屡见不鲜，军队的专名未必不能延续，简举二例：子犯编钟言“子犯及晋公䢦西之六师，搏伐楚荆”（《铭图》15201），则周室东迁之后，晋人作铭仍袭用“西六师”旧名称呼王师；[35]西汉初年设南、北军屯宿京师，北军因驻扎在长安城北而得名，后南军废置，武帝增设七校尉属北军，其中步兵校尉（掌上林苑门屯兵）、长水校尉（掌长水、宣曲胡骑）都在长安城外，不限于长安之北，但“北军”称号未改，[36]东汉徙都洛阳仍袭用之。[37]相较而言，“殷八师”名称在移驻后延续十数年，实非异事。到厉王末年，“㫚”继承司徒职官时，“殷八师”才正式改称为“成周八师”。

周王朝为什么要将“八师”从殷地调到成周？黄圣松认为，西周晚期，南方战事频繁，淮夷一度侵扰至伊洛腹地，迫于淮夷内侵的压力，为了提升作战的机动效率，厉王才将“八师”移至成周。[38]如果“八师”移驻的时间提前，淮夷尚未大规模内侵，黄说的因果关系便无法成立，但他提供的地缘政治视角仍具有较高价值，“八师”作为王朝在东方最重要的直辖军事力量，其空间分布一定与周人的经营策略直接关联。

回顾“殷八师”设立的初衷，离不开周人对东方的征服。“殷八师”的雏形或可追溯到克殷后“建管叔于东，建霍叔于殷”的布置，武庚叛乱后又以中旄父与康叔替代（《逸周书·作雒》），不单单要压制安阳周边殷遗民，还要监视殷遗与东夷族群的往来，必要时切断豫北与东土的联络；[39]及至东征胜利、康叔封卫，安阳的不安分因素已肃清，周人矛头完全转向东方，“殷八师”最重要的战略任务，转变为支援东土经略、平定东夷叛乱。豫北殷地扼守河、济之间“小东”，“八师”驻扎在此，便于控制关键交通节点，堵住东夷内侵的路线，并可迅速进入东土平叛。

自西周中期起，淮夷渐兴，从“师雍父”器组内容看，穆王阻击淮夷的防线稳定在淮河支流汝、颍流域，动用的军事力量有“师氏”“有司”“虎臣”等，未见“八师”参与东南作战的记载。不过穆王以后的东土局势发生明显变化：第一，东夷集团威胁减弱。尽管山东境内仍爆发零星战事，如懿、孝时期的史密簋（《铭图》5327）记载“杞夷、舟夷”作乱，但“东夷大反”之类记载未再出现，在考古学上表现为面貌一致的周文化在东土的广泛覆盖，[40]因此“殷八师”对东夷的作战任务大幅度减轻了。第二，王朝掌握“齐师”。西周中期晚段，周王室与齐国的关系一度紧张，发生“周烹哀公”之事，夷王立胡公后，王朝借机加紧对齐国的控制，一个凸出现象即强化掌控“齐师”，如懿、孝王世的史密簋铭云“师俗率齐师、遂人左周伐长必”（《铭图》5327）、孝王或夷王世的引簋铭云“引，余既命汝赓乃祖，总司齐师”（《铭图》5299、5300）、厉王世的师寰簋铭云“今余肇命汝率齐师、㠱、莱、僰、殿、左右虎臣征淮夷”（《集成》4313、4314）等，通过直接统率、册封“命卿”等方式，周王室将“齐师”掌握在手中，[41]用作维持东土稳定的军事力量，换个角度看，也就不再需要“殷八师”深入山东境内。第三，卫国建为“侯”。依《史记·卫康叔世家》所载，卫自康叔以下六世皆称“伯”，至西周中期顷侯“厚赂周夷王，夷王命卫为侯”，卫君才转变为“侯”。近年来陆续有学者指出，西周时代的“侯”往往拥有较强武力、承担重要军事职责，[42]早期卫君不任“侯”职，与封君无异，“殷八师”驻防豫北，某种意义上也是守卫“王畿”边缘；自顷侯后，卫重新被命为“侯”，“小东”的防务遂转移到卫侯手中。考虑以上西周中期“小东”“大东”的诸多变化，“殷八师”向东经略的任务已基本完成，既无必要也不便于继续屯宿于豫北殷地（实际已是卫侯防区），故移驻成周，转向南方开拓，亦可谓顺理成章，至于移驻的具体时机，还需发掘更多史料，结合西周中期政局以继续考察。

“殷八师”既在成周落脚，厉王遂开始发动对淮夷的大规模进攻，新出况盆铭文记厉王“二祀”应伯征伐“淮南夷”取得胜利，其中作战地点“为山”，赵庆淼、周颖昳考订为春秋楚国北边的“蒍”地，周人此役已深入桐柏山以北的淮水干流。[43]此中虽未见“八师”的身影，但周人军事攻势的加强十分明显，移驻成周的“殷八师”所发挥的作用可想而知。不过再参考禹鼎铭文，鄂侯驭方叛乱后，被寄予厚望的“西六师”“殷八师”并未取得理想战果，周人与淮夷的征战陷入长久的拉锯之中，在此过程中“殷八师”正式固定为“成周八师”，担负起巩卫东都、营建南征基地等战略任务。

最后简要总结全文观点，以清眉目：“殷八师”与“成周八师”不是两支军队，也不是一支军队同时段的两个称谓，而是“八师”因移驻而形成的前后两个阶段的名称。成康之世，周王朝延续“扼守小东以监视大东”的战略布局，设置“殷八师”屯驻于豫北殷商故地，配合东土经营；西周中期，王朝拓殖重心转向南土，东土局势渐趋稳定，又有齐师、卫侯等承担军事任务，至迟到中期晚段或晚期早段，“八师”遂由殷地移驻成周，唯“殷八师”之名在金文资料中未立刻更改，直到厉王晚期才改称为“成周八师”。由“八师”迁移假说出发，考察“六师”“八师”建置的演变，也可深化我们对早期国家“军事组织民政化”典型范式的理解。

引书简称对照表

《集成》  《殷周金文集成》
《铭图》  《商周青铜器铭文暨图像集成》
《续编》  《商周青铜器铭文暨图像集成续编》
《三编》  《商周青铜器铭文暨图像集成三编》

[1] 近年新见的《续编》228贤鼎铭文云“惟十有二月，辰在甲申，王大射在鲁。王眔右即西六师，左即东八师。王克西师，左克东师，贤克厥敌。王休锡贤贝百朋，用作宝尊鼎。”首次出现“东八师”一词并省称为“东师”。然而这篇铭文与义盉盖铭（《集成》9453）的时间、地点、事项一模一样，但“大射”程序又不相同，难免有照抄之嫌；且公布的照片不清，字体细部特征不能完全辨认，故其可靠性一直存在争议，姑附识于此，以俟后考。

[2] 徐中舒：《禹鼎的年代及其相关问题》，《考古学报》1959年第3期；杨宽：《西周史》，上海：上海人民出版社，2016年，第440页；刘雨：《西周金文中的军事》，《金文论集》，北京：紫禁城出版社，2008年，第89页。

[3] 此种认知最早可追溯至《公羊传》隐公五年所谓“自陕而东者，周公主之；自陕而西者，召公主之”。也可参看李峰著，吴敏娜、胡晓军、许景昭、侯昱文译：《西周的政体：中国早期的官僚制度和国家》，北京：生活·读书·新知三联书店，2010年，第47—54页。

[4] 于省吾：《略论西周金文中的“六”和“八 ”及其屯田制》，《考古》1964年第3期。

[5] 李学勤：《郿县李家村铜器考》，《文物参考资料》1957年第7期；李学勤：《论西周金文的六师、八师》，《华夏考古》1987年第2期。

[6] 王慎行：《吕服余盘铭考释及其相关问题》，《古文字与殷周文明》，西安：陕西人民教育出版社，1992年，第237页。

[7] 黄圣松：《六与八的若干问题》，《文与哲》（台湾）第3期，2003年12月。

[8] 一组典型而富有争议的例子即西周中期穆王世“录”组器之“录”与“ ”组器之“ ”，他们无疑是军队高级将领，但族属究竟是殷人还是周人，学者持不同意见，参看刘源：《读金短札：伯雍父是殷人还是周人》，《出土文献》第4辑，上海：中西书局，2013年，第130—135页。

[9] 关于“ （洛）师”地望考察，别详王旭东《小臣簋释地与伯懋父东征》（待刊）一文。

[10] 此处断读与前人略不同，“于”训为“往”，“”读为“将”训为“行”，“肃”训敏捷之义（参看[清]王引之：《经义述闻》卷十八，南京：凤凰出版社，2000年，第428页），句谓往行朕之敏捷，可类比《左传》成公二年“有先君之明与先大夫之肃”。下句“慕”训为“勉”，谓勉力襄助西六师、殷八师。

[11] 山西省考古研究院：《垣曲北白鹅墓地M3出土的两件有铭铜器》，《文物世界》2021年第1期。

[12] 另有近年新见的嗌甗（《三编》366）铭文云：“嗣乃先祖考，司南事卜事工卜、殷八师南事卜事，锡汝赤巿……”然这件资料不无可疑之处：出土地未知，流传情形不明；器型为西周晚期的联体方甗，与庄白二号窖藏所出父甗相似，但口沿下装饰的“S”形顾龙纹盛行于西周中期；铭文记载右者为武公，是西周晚期厉王世人物，但铭文书体呈现中期特征；铭文记“王各于文大室”，然金文中“某大室”为康宫等大型宗庙中某位先王的专门祭祀场所，而文王为周人建国始祖，祖庙应立于“宗宫”（金文称“京宫”），“文大室”之称似与礼制不符；册命给嗌的职事“南事卜事工卜”，不易断读，可比照者，惟新追缴所得免簋（《三编》516），其铭文云“官司六师卜□工卜”，第一个“卜”下一字不清，释文写作“事”并属上读，恐不确，盖“六师卜”“□工卜”是并列的两项职事，准此再考虑嗌甗铭文“卜事工卜”之辞，难免邯郸学步之嫌。考虑以上疑点，正文中暂不列入该器，附记于此以备考。需要申明的是，即便将来有证据能证明嗌甗不伪，它的时代亦不违背本小节“移驻”的推论。

[13] “成王说”以郭沫若（《两周金文辞大系》）、陈梦家（《西周铜器断代》）为代表，“康王说”以马承源（《商周青铜器铭文选》）为代表，“昭王说”以唐兰（《西周青铜器铭文分代史征》）为代表。

[14] 参看刘晓霞：《小臣簋新论》，《考古》2016年第4期。

[15] 朱凤瀚：《中国青铜器综论》，上海：上海古籍出版社，2009年，第92页。

[16] 李学勤：《禹鼎与张家坡井叔墓地》，《文物中的古文明》，北京：商务印书馆，2013年，第199—202页。

[17] 朱凤瀚：《中国青铜器综论》，第129页。

[18] 郭沫若：《两周金文辞大系图录考释》，上海：上海书店，1999年，第100页。

[19] 彭裕商：《西周青铜器年代综合研究》，成都：巴蜀书社，2003年，第486—487页。

[20] 山西省考古研究所、北京大学考古学系：《天马-曲村遗址北赵晋侯墓地第四次发掘》，《文物》1994年第8期；山西省考古研究所、北京大学考古学系：《天马-曲村遗址北赵晋侯墓地第五次发掘》，《文物》1995年第7期。

[21] 韩巍：《西周金文世族研究》，博士学位论文，北京大学，2007年，第146—147页。

[22] 参看李学勤：《眉县杨家村新出青铜器研究》，《文物》2003年第6期；韩巍：《册命铭文的变化与西周厉、宣铜器分界》，《文物》2009年第1期。

[23] 李守奎：《据清华简〈系年〉“克反商邑”释读小臣单觯中的“反”与包山简中的“钣”》，《简帛》第9辑，上海：上海古籍出版社，2019年，第129—136页。

[24] 郭沫若：《两周金文辞大系图录考释》，第2页；陈梦家：《西周铜器断代》，北京：中华书局，2004年，第10页；唐兰：《西周青铜器铭文分代史徵》，上海：上海古籍出版社，2016年，第36页；陈絜：《〈方鼎〉铭与周公东征路线初探》，《古文字与古代史》第4辑，台北：“中研院”历史语言研究所，2015年，第281—286页。

[25] 陈梦家：《西周铜器断代》，第116—120页。

[26] 李学勤：《从新出青铜器看长江下游文化的发展》，《新出青铜器研究（增订版）》，北京：人民美术出版社，2016年，第224页。

[27] 于省吾：《略论西周金文中的“六”和“八 ”及其屯田制》，《考古》1964年第3期。

[28] 依《公羊传》等典籍记载，成周之得名取意于“周道始成”，也有学者主张成周的命名是为了纪念成王亲政，参看李民：《说洛邑、成周与王城》，《郑州大学学报（哲学社会科学版）》1982年第1期。

[29] 杨宽：《论西周金文中“六 ”“八 ”和乡遂制度的关系》，《考古》1964年第8期。但在《西周史》书稿中，杨宽只强调“成周师氏”是高级军官，似乎放弃了与“成周八师”的直接联系。

[30] 陈絜：《周代农村基层聚落初探——以西周金文资料为中心的考察》，朱凤瀚主编：《新出金文与西周历史》，上海：上海古籍出版社，2011年，第143页。

[31] 黄圣松：《六与八的若干问题》，《文与哲》第3期，2003年。

[32] 韩巍：《垣曲北白鹅墓地族姓解谜——兼论春秋初年关中世族的东迁》，《出土文献研究》第20辑，上海：中西书局，2022年，第39页。

[33] 参陈絜、田秋棉：《商周宗亲组织的结构与形态》，《中国社会科学》2022年第4期。

[34] 李学勤：《由新见青铜器看西周早期的鄂、曾、楚》，《文物》2010年第1期；张昌平：《论随州羊子山新出噩国青铜器》，《文物》2011年第11期。

[35] 黄锡全：《新出晋“搏伐楚荆”编钟铭文述考》，《古文字论丛》，台北：艺文印书馆，1999年，第136页。晋在城濮战前只有三师，故将“西之六师”实指为晋国军队或晋文公组织的诸侯联军，均不妥帖，结合铭文明显的“尊王”倾向看，似宜理解为托名于周王、虚指“王师”而言之。

[36] 史书又称“北军五校士”，或谓长安城外步兵、长水诸校尉不在北军之属，有学者指出这可能是根据实际指挥系统而形成的狭义的区别，参看孙闻博：《秦汉军制演变史稿》，北京：中国社会科学出版社，2016年，第88页。

[37] 东汉置北军五校尉，守卫宫城之外，然史无明文记载北军五营的驻地是否皆在城北，大多认为是西汉“北军”之名的延续。

[38] 黄圣松：《六与八的若干问题》，《文与哲》第3期，2003年。

[39] 王旭东：《〈世俘〉、墙盘与牧野战后的武王东征》，《汉学研究》（台北）第40卷第4期，2022年。

[40] 曹斌：《周文化统治的历史格局在“东土”的形成》，《考古》2017年第6期。

[41] 李学勤：《高青陈庄引簋及其历史背景》，《文史哲》2011年第3期；赵庆淼：《高青陈庄引簋铭文与周代命卿制度》，《管子学刊》2015年第3期。

[42] 魏芃：《西周春秋时期“五等爵称”研究》，博士学位论文，南开大学，2012年，第114—120页；朱凤瀚：《关于西周封国君主称谓的几点认识》，陕西省考古研究院、上海博物馆编：《两周封国论衡：陕西韩城出土芮国文物暨周代封国考古学研究国际学术研讨会论文集》，上海：上海古籍出版社，2013年，第273—275页。

[43] 赵庆淼、周颖昳：《况盆铭文与周伐淮夷的史地背景》，《考古》2022年第5期。

转自《出土文献》2025年第4期

2026-03-04
李玉平刘纯：安徽南陵县三国东吴墓随葬衣物疏“檮”字考

1978年于安徽南陵县麻桥公社发现了三国东吴孙权时期的墓葬三座，在其中二、三号墓中共发现三件木方，木方上的文字系记录随葬物品的衣物疏。二号墓的木方M2:19正反两面均有文字。安徽省文物工作队在出土报告中公布了反面文字的摹本和照片，正面则只公布了摹本而没有照片。[1]正面摹本中记有随葬物品“木一一具”，该句中的“ ”字是什么字，学界考释意见尚无定论。安徽省文物工作队最早将文字摹写为“ ”，田河隶定作“”，[2]赵宁、[3]李世持[4]等隶定作“ ”，皆无释义；白彬释作“椅”，释文改作“木椅一具”；[5]窦磊释作“樹”，断句为“木一，樹一具”。[6]我们认为以往意见皆未得其实。[7]

一、释“椅”说。

从字形比较来看，“ ”字字形清楚，而所见“椅”字未见写作类似字形者。又《说文》木部：“椅，梓也。从木，奇声。”大徐本注音为“於离切”，今读“yī”，所指为一种树木名，即“山桐子”，用例较早，如《诗·鄘风·定之方中》“树之榛栗，椅桐梓漆”，毛传：“椅，梓属。”《诗·小雅·湛露》“其桐其椅，其实离离”，郑玄笺：“桐也，椅也，同类而异名。”高亨注：“椅，椅树，即山桐子。”很显然，此“椅”不符合随葬衣物疏语境。而读音为“yǐ”，表示现在有靠背的坐具的“椅”字用例时代较晚，《正字通·木部》：“椅，坐具后有倚者，今俗呼椅子。”明方以智《通雅·杂器》：“倚、卓之名，见于唐宋。”又据董志翘、[8]刘琴勇[9]等研究，“椅”作为坐具的字词用例最早见于唐代，最开始先是写作“倚”，后来才写作“椅”。如此则“椅”无论是字还是词当都是出现较晚的，在三国东吴时期可能还没有出现，白彬释作“椅”的意见[10]未可信从。

二、释“树”说。

窦磊依据《夏侯妙妙衣物疏》中有“采樹一具”，认为“具”是量词，在汉简衣物疏中多修饰成套物品，又依据甘肃高台骆驼城墓棺内出土木器座一件，上插一杉木神树，由此推断南陵东吴墓衣物疏中所记载的“木一”是指木器座，“ ”当即“树”，指神树。[11]此说只是通过出土衣物疏的材料相似性做了一个大胆的推断，但缺乏细致的证明。因为从字形角度而言，“树”的古今文字字形，没有与“ ”字形相同或相近者。在安徽南陵东吴墓中也没有相关材料证据佐证作者的观点。因此此说也不可信。

我们考察后认为，“ ”字，实则即“檮”字的一种俗写字形。左侧是“木”字旁，没有疑议，右边部分的“”实则即“寿”的俗体字写法。秦公辑《碑别字新编》中所列“寿”字写法就有（隋《范高墓志》）、（《龙门高灵寿造象》），与“ ”写法基本相同，书中所列与此相近的“寿”字写法还有（魏《敬史君碑》）、（魏《王诵墓志》）、（魏《米舍今造象记》）、（齐《同氏造象》）、（周《圣母寺四面造象》）、（隋《李领万造象》）、（隋《赵朗墓志》）等。[12]秦公等《广碑别字》中增加了“寿”的几个近似字形，如（周天和年《李由造像》）、（周保定年《杨丑黑等造像》）、（周《佛弟子百廿八人造像碑》）、（隋《仲思那造桥碑》）等。[13]《佛教难字字典》中“寿”字下列有、等字形。[14]这些字形与“ ”字形虽略有差异，然大体构形皆类似，诸多字形当皆由“寿”字的繁体字形“壽”减省而来，相关异体字形体皆有或多或少的形体演变联系。[15]

由此，我们可推知“ ”即“檮”字的俗写字，字形应该没问题。然“檮”所指为何呢？考察出土文献，“檮”字还见于以下一些材料：

（1）《敦煌汉简》[16]中简1394的“第一檮”、简1395的“第二檮”、简1397的“第三檮”、简1398的“第四檮”、简1396的“第五[17]檮”。

（2）《额济纳汉简》简99ES16SF2:4（分A、B、C、D四面书写）记有“第十候史日迹檮”，简2000ES7SH1:25有“甲渠第七隧长日迹檮”，简2000ES9SF1:1有“第七隧卒日迹檮”等；[18]《肩水关汉简》简73EJT23：286与简73EJT27:44记有“骍北亭卒日迹檮”； [19]《居延新简》中简EPT48：131、简EPT49:1与简EPT49:2记有“第六日中檮”，简EPT49:21、简EPT49:22与简EPT49:23记有“第六迹檮”，简EPT49:24、简EPT49:25与简EPT49:26记有“第六日中迹檮”。[20]

以上材料，（1）《敦煌汉简》中“第一檮”“第二檮”“第三檮”“第四檮”“第五檮”尚不确定（详后文）；（2）所列简牍文例皆为“日迹梼”。关于（2）中之“梼”，薛英群、[21]侯旭东[22]等一派学者主张此“梼”为当时各烽燧区分各自巡视地区和范围的界限标志。另一派学者则主张此“梼”通“筹”，白音查干、特日格乐、[23]邢义田[24]等认为此筹是汉代边郡戍卒、官吏日迹记录牌，作为日后赐劳、夺劳的依据；汪桂海、[25]张文翰、[26]马克冬等[27]则认为日迹梼是边塞吏卒日迹时所携表明身份的筹牌，“筹”与“符”同，为“符节、凭证”之义；冨谷至则释“檮”为“棒”，称边境上日迹之两隧戍卒相遇时需要刻符。[28]

对于出土文献中诸多“日迹梼”用例，我们倾向于“檮”通“筹”，与“符”同为“符节、凭证”之义的观点。诸多学者都提到“日迹符”实物见于居延新简，有“第廿三侯长迹符左”“第廿三侯长迹符右”（简EPT44:21-22），“第六平旦迹符”（简EPT49:69）等，[29]“日迹符”是烽燧卒吏巡察有无敌人混入的凭证。“符”表示凭证为常见义，“筹”也可以表示凭证义。例如：

（3）四年春正月，关东民相惊走，或持筹相与，号曰“西王母筹”。道中相逢多至数千人，或披发徒跣，斩斫门关，逾墙入屋，或乘骑奔驰，或致驿传行。经历郡三十六所，至京师。又聚会祀西王母，设祭于街巷阡陌，博奕歌舞。又传言：“西王母告百姓：‘佩此符者不死。’不信我言，视户枢中有白发。” （东汉荀悦《前汉纪·孝哀二》）

例（3）为东汉荀悦的作品，其中前文称民持“西王母筹”相与，后文言西王母告百姓“佩此符者不死”，则“筹”“符”同义，此为“筹”可表示凭证义之明证。[30]而汉简出土文献中“日迹檮”与“日迹符”互出，“檮（筹）”“符”亦当为同义，皆可为凭证。然安徽南陵东吴墓衣物疏中“梼一具”，而墓主并非边境日迹之吏卒，其中的“檮”与“日迹檮”当无关系，那么“檮”当为何义呢？

又据《汉语大字典》[31]《汉语大词典》[32]， “檮”下所列有四个相关读音和义项：（一）táo。《说文·木部》“（檮），断木也。”（二）chóu。此音义项有二：一是“刚木”，见“梼树”；二是通“筹”，指筹码。《马王堆汉墓帛书·老子甲本·道经》：“善数者不以檮”，今本《老子》第二十七章作“善数，不用筹策”。（三）dǎo，通“擣”，舂。《楚辞·九章·惜诵》：“檮木兰以矫蕙兮，申椒以为粮。”王逸注：“檮，一作擣。”朱熹集注：“舂也。”（四）dào。指棺。《集韵·号韵》：“檮，《博雅》：‘棺也。’”

这四个读音和义项，第四个指“棺”，不符合语境，因为出土报告中明确说明木方M2:19衣物疏所记载的是棺木中之物，不当在棺中再有“棺一具”；而第一个读音指“断木”，第二个读音中的第一个义项“刚木”“梼树”，都与量词“具”搭配不适当；第三个读音，通“擣”，南北朝以前罕见，唐宋以后渐多，当是“木”“扌”混用，且“檮”“擣”一般用作动词。如：

（4）又方取梅若桃叶，檮，绞取汁三升许，或干以少水，绞取汁，饮之。（唐孙思邈《备急千金要方》卷七十六《备急方》）

假如南陵东吴墓衣物疏之“檮”通“擣”的话，在语境中只能是表示舂捣的木制器具舂杵，而文献中指称舂捣工具这样一个名词，一般皆名为“杵”，其相应的舂捣动作才名之为“擣”，因此语境中读为“擣”并不合适。又根据语境中量词特点，如果是舂杵一类器物，一般用个体量词“枚”来称量，而不会用“具”来称量。文献中的证据亦可证明，如：

（5）《东宫旧事》曰：“太子妃有石砧一枚，又捣衣砧杵十枚。” （宋李昉等撰《太平御览》卷七百六十二）

（6）须用舂杵一枚，小凳一个，令患者立凳上，用杵撑在下出臼之处。（元危亦林《世医得效方》卷十八《正骨兼金镞科·秘论》）

（5）（6）中称量“杵”皆用量词“枚”称量。又据刘世儒、[33]张显成等[34]研究，量词“具”一般是集体量词，用来称量齐备成套的器具，凡配备具足、成套可用的东西，都可用“具”计量，此特点是与其本义“准备”“备办”（《说文》廾部：“具，共也。”）及引申义“完备”“齐全”密切相关的。汉晋时期简帛文献相关用法习见，如“角弩一具”（《马王堆3号墓汉简·遣册》34）、“瓦雍（瓮）、甗一具”（《马王堆3号墓汉简·遣册》297）、“毡席千具”（《史记·货殖列传》）、“具器一具、□一具、博一具、豫疎一具”（《大坟头汉简》4）、“受甲胄一具”（《汉书·王莽传》）等。

结合汉魏时期量词“具”的特点及“梼”的词义，我们认为南陵东吴墓衣物疏中的“梼”当通“筹”，即指古代常用来计算用的小棍状或小片状的东西，用竹、木或象牙制成。[35]“筹”从材料上则可分为木筹、竹筹、象牙筹、兽骨筹、金属筹等；[36]从具体功能而言则“筹”除了用于计算外，还有作为古代投壶所用的签子（形如箭笴）、[37]记取的凭证、[38]抽签决疑用的签筹、[39]酒筹[40]等其他功能。南陵东吴墓随葬衣物疏中所说的“梼一具”，当亦即生活中常用的算筹，这是“筹”最常见也是最基本的功能。《汉书·五行志》：“筹，所以纪数。”《仪礼·大射仪》：“实之弓矢与中、筹、豐，皆止于西堂下”郑玄注：“筹，算也。”卢连成等、[41]张沛、[42]王青建、[43]田鸣等、[44]邓亮[45]等不少学者都对中国古代算筹作过深入细致的研究，王青建根据已经搜集的15批出土算筹报道，从算筹的形态、质料、陪葬年代、出土地点及其用途等方面进行综合分析，总结了出土算筹的种类和用法，[46]这些相关信息可以佐证我们推断安徽南陵墓衣物疏中的“梼一具”属于算筹。如1954年湖南长沙市郊左家公山战国木槨墓葬出土竹签（竹算筹）40根，置于一竹筐内，伴随物品还有天平、砝码、木梳、竹片、铜削、毛笔、小竹筒等物；1955年河北石家庄北宋村出土东汉晚期骨条（算筹）17根，随葬物品有钱币、铁、铜、陶、骨等；1971年山西千阳西汉墓，出土骨筹31根，“算筹与带钩同出于男骨架腰胯部，经观察，算筹系裹在一丝绢囊内，系在死者腰部”；1973年山西浑源毕村西汉中期墓葬，出土铅制六博筹6根，随葬物品有墨、砚、铜、铁、陶、木等器；1973年湖北江陵八号西汉墓，出土竹筹6根，同时出土的遣册记载有“博、算、綦、梮、博席一具，博囊一”；1973年湖南长沙马王堆三号西汉墓出土博具筹码盒内有“箸状的筹码”，长者12枚（长22.7厘米，直径0.4厘米），短者30枚（长16.4厘米，直径0.3厘米），随葬遣册中记载有“象算三十枚”，当是指短的象牙筹；1975年湖北江陵168号秦墓出土竹算筹数十支；1975年湖北云梦秦墓出土木（竹）算筹6根，称“六博棍”；1976年江苏徐州西汉早期墓葬2号墓出土骨算筹41根；1978年陕西宝鸡东汉早期墓出土骨质算筹11根；1978年山东莱西西汉中晚期墓葬M2号墓出土算筹30枚；1980年河北石家庄振头村东汉早期墓葬出土骨算筹30根；1982年陕西西安三店村西汉墓出土铅算筹20根；1983年陕西旬阳县佑圣宫一号汉墓（西汉末至东汉初）出土象牙算筹28根；1986年甘肃天水党川乡放马滩秦墓（M1）出土竹算筹21枚。王青建认为这些出土算筹从功能上可分为博戏类和筹算类两大类，而从安徽南陵县东吴墓中的“木一，梼一具”中，推断当是木制算筹，但功能上是属于博戏类还是筹算类仍无法确定。前引《敦煌汉简》中“第一檮”至“第五檮”等说明“梼”也是一整套的，猜测很可能还有第六梼，放在一起就是秦汉时期流行的六博筹。

转自《出土文献》2025年第4期

2026-03-04
缪延亮：关于资本账户的若干迷思

扩大资本账户开放或许是最有共识但也最有争议的改革议题之一。资本账户涵盖一国居民与非居民之间、涉及金融资产和负债的各类交易。说最有共识，是因为大多数人都认同资本账户开放是市场化改革和高水平对外开放的应有之义，也是一个迟早要实现的目标。“十五五”规划建议明确提出“提升资本项目开放水平”。

说最具争议，是因为在政策、学界和市场参与者中间，围绕资本账户开放的担忧也从未停止：一旦放开，是否必然引发资本外流？是否会冲击汇率稳定、甚至引发金融风险？每当外部环境变化或资本流动出现波动，这些担忧便会被迅速放大，并在实践中表现为共识在开放和收紧之间的摇摆。

这些担忧有相当一部分源于对资本流动、汇率形成机制以及相关政策工具的认知偏差。还有部分经验判断，在当前的内外环境和制度条件下已未必成立。在全球货币秩序加速重构的战略窗口期，进一步推进资本账户开放的现实条件正在趋于成熟，更开放的资本账户对于中国从经济大国迈向金融与货币强国也有重要意义。但要稳步提升资本账户开放水平，前提是破除长期存在的认知偏差。

基于此，本文围绕资本外流、汇率决定、货币互换、外汇管理等关注度较高的议题，系统梳理资本账户开放过程中最常见的七个误区，力求在更理性、更完整的分析框架下，澄清误解、校准预期，为进一步提升资本账户开放水平提供参考。

需要强调的是，资本账户开放并非“0或1”的选择题，更不是一放了之。实践中，资本账户开放必须与宏观调控、金融改革和风险防范统筹推进，并根据内外部形势变化动态调整。只有在正确认知的基础上，资本账户开放才能成为提升金融体系韧性与资源配置效率的助力，而非风险的来源。

一、资本账户不开放就一定安全吗？

对于大多数新兴市场经济体而言，在汇率灵活性不足时，资本账户开放往往伴随着更频繁的资本跨境流动，甚至造成宏观和金融稳定风险，包括资本外逃、货币危机以及收入不平等加剧等问题（Furceri and Loungani，2015）。

1997-1998年亚洲金融危机期间，国际资本大进大出，泰国、马来西亚、菲律宾、印度尼西亚和韩国等经济体的汇率与股市剧烈下跌，冲击随即由金融体系蔓延至实体经济和社会层面。中国在2013-2016年也经历了资本流动逆转，在汇率弹性不足的背景下，我国的外汇储备在18个月内骤降约1万亿美元。基于这些经验教训，一个自然而然的想法是：既然资本账户开放有风险，那么是不是资本账户越不开放就越安全呢？

无论从理论还是现实经验看，资本账户封闭并不能将外部风险隔绝在国门之外。两个没有直接经济或金融联系的经济体和市场，仍可能通过风险溢价、共同债权人效应，以及共同基本面冲击等机制高度联动。1998年的俄罗斯债务违约就是一个经典案例。当时，俄罗斯与巴西之间几乎不存在明显的经贸或金融联系。但俄罗斯违约发生后，巴西主权债券利差显著走阔，本币面临强烈贬值压力。

其关键原因并不在于双边联系，而是来自共同债权人效应：当时大量专注投资新兴市场的对冲基金持有俄罗斯国债。俄罗斯作为大型新兴经济体发生违约，超出了市场预期。这些基金随即重新审视自己的投资组合——还有哪个经济体看起来和俄罗斯很相似？答案很快指向巴西：同为大型新兴经济体、没有储备货币地位、高度依赖大宗商品出口。结果，资金集中撤离巴西资产，巴西的外汇储备半年内从640亿美元降至320亿美元。最终，巴西央行不得不于1999年初放弃固定汇率。

这一案例表明，即便没有直接的跨境资本流动，金融体系仍可能通过其他渠道与全球金融市场联动。资本账户封闭并不能带来“绝对安全”，只是改变了风险的传导路径。相反，在压力集中释放时，冲击往往更加剧烈。

既然资本账户开放并非天然安全，封闭也无法隔绝风险，那政策到底应该如何抉择？资本账户开放和封闭之间的权衡，需要综合考量潜在的收益和风险，这种权衡具有显著的门槛效应：当一国在收入水平、金融深化程度和制度等方面达到一定阈值后，跨境资本流动更可能提升资源配置效率，而非引发系统性危机（Kose、Prasad和Taylor，2009[1]；Jeanne、Subramanian和Williamson，2011[2]；Wei，2018[3]）。对中国而言，随着经济体量持续扩大、金融体系逐步成熟，资本账户开放的收益与风险权衡可能逐步改善（Prasad 和 Rajan，2008[4]）。

归根到底，资本账户开放的关键，并不在于开放或封闭本身，也不是0或1的选择题，而在于一国是否具备与跨境资本流动相匹配的制度能力。真正的安全，不是靠紧锁门关，而是能够在开放的环境下吸收、缓冲与管理外部冲击。因此，资本账户开放从来都不是一项孤立的政策选择，而是需要汇率弹性、宏观审慎监管和金融改革协同配合。在这些制度条件逐步到位后，资本账户开放才能在可控风险下改善跨境资源配置效率，并助力人民币国际化行稳致远。

二、开放资本账户会出现大规模资本外流吗？

围绕中国的资本账户开放，一个始终萦绕在政策制定者和市场参与者心头的担忧是：资本账户一旦放开，是否会重演2015-2016年的大规模资本外流？

需要明确的是，当时发生的资本大进大出是在一系列特定的历史条件下形成的。首先，内外宏观金融环境差异推动了套息资本的大规模流入。2008年全球金融危机后，美国长期维持极低利率并实施量化宽松，利率水平明显低于中国。同时，美元处于贬值周期，而人民币还在持续升值。随着2010-2014年间中国资本项目开放明显提速，海外资金进入中国既能赚息差，又能赚汇差，大量投机资本流入中国，累计流入超过1万亿美元，中国外汇储备到2014年中一度上升至4万亿美元高点。

其次，企业跨境投融资行为带来货币错配。房地产和钢铁企业从海外获取低成本美元融资，形成美元债务，但是并没有对应的美元收入；一些企业从海外的借款规模甚至超过了自己的实际需求，把借来的资金转手借给融资难、融资贵的民企，扮演了类似“影子银行”的角色（Miao and Rao 2016; Huang, Panizza, and Portes 2018)。

最后，汇率灵活性不足让套利空间持续存在。大量的资本流入并未及时推升人民币升值，套利空间持续存在，进一步强化了企业的套利动机。然而，随着美联储货币政策转向，资金流动格局迅速逆转。2014年，美联储逐步退出量化宽松，美元转而进入升值周期。企业融资成本上升、汇兑损失开始显现，债券市场发生了集中的去杠杆，资本流动从此前的大量流入迅速逆转为集中流出，触发了资本外流、汇率贬值预期上升和外汇储备减少的负向螺旋。

十年过后，内外环境已经发生了明显变化，大规模资本外流很难重演。第一是货币错配已经明显缓解。当年房地产、钢铁等行业大量依赖美元债融资，形成明显的外币负债敞口；而近年来相关主体的外币融资渠道已明显收缩，美元债依赖度大幅下降，潜在的去杠杆压力已提前释放。第二是中美利差与汇率环境也发生逆转。当下人民币已经成为低息货币，汇率灵活性相比十年前也有所提升，没有了资本的大进，也就难以逆转为资本的大出。第三，随着资本账户的渐进式、管道式开放，居民和机构的海外配置需求已经部分实现，海外资产配置已达到一定规模，潜在的集中外流压力明显降低。

即便如此，中国居民配置海外资产的比例仍然结构性地偏低，尤其是高净值群体海外投资长期受限，一旦开放资本账户，居民配置海外资产是否仍会引发资本大幅流出？

IMF（2013）曾经对此做过测算，如果中国开放资本账户，在居民对外投资需求一次性集中释放的极端情形下，对应约有相当于GDP 11%-18%规模的资金净外流[5]。然而，中国股票市场中仍有相当比例的非流通股份，债券市场中也有大量债券由银行持有。对这些因素进行调整后，资本账户开放可能带来的资金净外流规模明显收敛至GDP的4%-8%。

需要强调的是，这一结果更多刻画的是长期存量再配置的理论上限，而非短期的流量预测。再考虑到近年来中国资本市场在市场深度、预期回报和监管框架等方面都有显著提升，此时提升资本账户开放水平，实际资金外流的规模应明显低于这一测算。

不管怎样，我们当然应该看到并合理满足中国老百姓扩大海外资产配置、中国企业走出去的需求，但同时也应该看到当前全球政治和货币格局已经发生深刻转变，海外资产的性价比已经明显下降。美国例外论的破产削弱了美股的光环，特朗普的一系列激进政策动摇了美债的安全共识，各国不断趋严的反洗钱与合规要求也在推高海外资产的投资成本。

更重要的是，在全球货币秩序重构的大背景下，相较于中国居民投资海外资产的需求，外国投资者对中国资产的配置不足更为突出，从这一角度看，海外投资者应有配置更多中国资产的需求。

首先，外资持有的中国国债占比显著偏低。截至2025年，外资持有的中国国债规模为2808亿美元，仅占中国国债市场总量的5.9%。相比之下，同期外资持有的美国国债规模高达9.13万亿美元，占比31.5%；而外资持有日本国债的规模也达到9378亿美元，占比11.6%。和债券相比，外资持有的中国股票比例更低。截至2025年11月，全球主动股票型基金配置于中国的比例不足2%，远低于美国（57%）和日本（5%）。

结合这些现实，中国的资本账户越是开放、汇率越是灵活，反而能吸引更多资本流入。尤其是在美元进入战略性、持续性贬值周期，而人民币进入升值周期的时候，正是提升资本账户开放水平的时机。

当然，提升资本账户开放水平并不意味着放任资本自由流动。现实中没有完全自由流动的资本账户，还需要“三反”（反洗钱、反恐怖融资、反逃税）要求约束。除此以外，还有赖于资本流动管理措施（CFMs）、宏观审慎监管对跨境资本流动做必要的管理和调节。因此，资本账户开放并不是简单的0或1选择，而是需要在多项政策协同下稳步推进、久久为功的连续变量。

三、经常账户顺差为什么没有带来外汇储备的增加？

在讨论外汇储备规模时，固有的思维定式是通过贸易赚来的经常账户顺差应当与外汇储备的变化一一对应。但事实是，2016年后中国经常账户盈余持续积累，但外汇储备规模并没有显著增加。这些顺差究竟去了哪里？是否能够据此推断资金在持续外流？

图表1：2016年后中国经常账户盈余持续积累，但外汇储备规模并没有显著增加

资料来源：人民银行，外管局，中金公司研究部

首先需要厘清“外汇储备”的含义。根据IMF的定义[6]，储备资产（reserve assets）是货币当局能够控制、可随时动用（readily available）、具有高流动性的对外资产；外汇储备（foreign currency reserves）是其中一部分，通常包括外币现金、存款及证券等。

换言之，央行披露的外汇储备反映的是央行持有的外汇资产，而非“国家整体”持有的全部外汇资产。居民、企业和商业银行同样可能持有外汇资产，但这部分并不计入央行外汇储备，通俗地讲就是“藏汇于民”。

因此，贸易顺差带来的外汇收入，只有在企业选择结汇、相关外汇头寸最终被央行吸纳时，才会体现为外汇储备的增加；若企业选择留存外汇，则央行外汇储备并不会上升。

为何在2012年以前，经常账户盈余与外汇储备同步变动？很大程度上源于当时的“强制结售汇制度”。20世纪90年代，为应对外汇短缺、增强宏观调控能力、维护经济金融安全，中国曾阶段性实施强制结售汇制度[7]：居民和企业获得外汇收入后必须卖给指定商业银行，商业银行再按规定将相应外汇头寸卖给央行。居民和企业没有保留外汇、使用外汇的自主权。在这一机制下，经常账户顺差基本直接转化为官方外汇储备增长。

2001年中国加入世贸组织后，贸易顺差和外商直接投资净流入同步扩大，外汇储备加速累积。2002至2011年，央行外汇储备年均增量接近3000亿美元，2011年末央行外汇储备余额突破3万亿美元。国际收支的主要矛盾逐渐从外汇短缺转为外汇储备增长过快，外汇占款扩张带来国内流动性过剩压力。为缓解这一状况，政策开始逐步放松对外汇收入的集中管理，通过改进外汇账户开立与限额管理等方式，扩大企业保留外汇的自主权。2008年修订后的《外汇管理条例》明确企业和个人可以按规定保留外汇[8]；2012年国家外汇管理局正式宣布强制结售汇制度退出历史舞台[9]。

此后，经常项目顺差并不必然对应外汇储备的增加。企业对外汇收入的处置拥有更大自主权。出于套期保值与流动性管理等因素考虑，企业可能选择不结汇，而是将部分出口收入留存在境外或外汇账户中。

例如，2015年“8·11”汇改后，人民币贬值预期显著上升，企业更倾向于保留外汇。因此，尽管2015至2016年经常项目仍累计顺差约4800亿美元，外汇储备却不升反降，累计下降约7000亿美元。2020至2022年疫情冲击期间，外部不确定性上升，也有不少出口企业提高了预防性的外汇留存比例。这一阶段中国经常项目顺差累计约1万亿美元，而银行代客结售汇净额仅约5600亿美元，大量顺差资金由企业自行持有；同期央行外汇储备总体维持在约3.2万亿美元水平。

与此同时，商业银行作为结售汇业务中介，也可在合规框架内保留部分外汇头寸，或通过境外同业存放、对外贷款等方式形成海外资产，进一步削弱经常项目顺差与外汇储备之间的机械对应关系。

总之，只要央行退出对外汇市场的常态化干预，外汇储备规模的变动就与经常账户的顺差无关。此时按国际收支恒等式，经常账户顺差必然等于资本与金融账户的逆差。通俗讲，通过经常账户赚了多少钱，就要通过资本与金融账户流出多少钱。

即便证券投资等领域存在一定资本管制，资本外流仍可通过多种渠道实现，例如私人部门增加外汇头寸留存、扩大对外直接投资等。早期更多表现为企业外汇留存上升——出口顺差扩大，但结汇比例下降，企业外汇收入并未流回国内，有“顺差”但没有对应的“顺收”。近年则更多体现为直接投资和证券投资的流入走弱、流出增加。在央行不对外汇市场实施常态化干预的情形下，国际收支将更多依靠汇率这一价格调节机制实现自主平衡。

那经常项目顺差是否全部转化为了海外净资产的积累？理论上，经常项目的顺差累计额要等于本国对外净资产的增加额；但在实际数据中，两者往往难以一一对应。以中国为例，2011年至2016年第三季度，累计经常项目顺差为1.2万亿美元，但海外净资产仅增加了0.2万亿美元，缺口高达1万亿美元。但“对不上”的缺口也不全然意味着资本外逃，因为其还包含汇率与资产价格变化带来的存量重估（valuation effects），以及统计误差与口径调整等非交易因素影响。

参照余永定（2017）的思路，总缺口可拆为两部分：

1）经常项目顺差与资本净输出之间的缺口。主要体现为BOP中的“误差与遗漏”（E&O）。由统计造成的“误差与遗漏”是白噪音，不应出现明显的趋势；但中国在一些特定阶段“误差与遗漏”规模大且方向单一，很难仅用技术性偏差解释，更可能反映未被记录的资金外流。

例如，2015年第二季度到2016年末，中国经常账户累计顺差约4500亿美元，同期误差与遗漏账户累计约4300亿美元。结合“8·11”汇改后人民币贬值预期升温、资本回报率下降等背景，这一时期的“误差与遗漏”更多反映了资本外逃，而非纯粹的统计上的误差与遗漏。根据余永定（2017）的计算，2011年至2016年第三季度，这一缺口累计额0.6万亿美元，解释了总缺口的57%。

2）资本净输出与海外净资产形成之间的缺口。造成这一缺口的常见因素是价值重估，即汇率与资产价格变动、以及其他非交易性调整引发的存量重估。此外，还包括公司股权变动的交易价值（transaction values）同其账面价值之间的差额、由于重新分类造成的价值变化等口径性因素。

但即便考虑价格、汇率及上述调整因素，资本净输出与海外净资产增量仍不相等。剩余的残留项除统计误差外，还可能包括未知的投资失败和资本外逃。例如，作为对外直接投资（ODI）流出的资金，可能因项目失败而减值核销，或通过违规转移规避监管，最终未形成可核对的海外资产，不会体现在年末投资头寸中。

需要注意的是，2021年以来，“误差与遗漏”明显变小。部分观点（Setser，2023[10]）认为，这是因为近年中国BOP口径下的经常账户顺差被系统性低估。经常账户顺差被“做小”，会在会计上机械性压低“误差与遗漏”项，从而弱化乃至掩盖仍可能存在的“热钱”外流或资本外逃。

针对海关口径顺差与BOP口径货物顺差的背离加深，官方的解释主要集中在两点[11][12]——投资收益赤字的扩大以及“无厂制造”导致经常账户顺差偏小。Setser（2025[13]）对此提出了质疑，他认为在美元利率上升且中国持有大量美元资产的背景下，中国报告投资收益赤字是不合逻辑的；“无厂制造”模式的会计调整，也应是经常账户内部不同科目之间的“左手倒右手”，不应导致顺差大幅缩水。

但上述质疑并不充分。其一，地缘政治因素驱动跨国企业将利润大量汇回其母国，同时在强美元环境下，中国出口企业更倾向于将利润留存海外，这两者均会推升投资收益逆差。其二，“无厂制造”确实会导致经常账户顺差低于海关顺差。

举例来说：假设外国品牌方委托中国企业生产，合同出厂价为400美元，境外批发（或进口）价为500美元，品牌方赚取100美元。若产品在境内销售，货物不出关，海关不记录（海关顺差为0）；但品牌方为非居民时，BOP可按合同出厂价记“出口”400美元，并在境内销售环节按更高交易价记“进口”500美元，BOP货物项呈现逆差100美元。若产品销往第三国，海关出口更接近批发价格（约500美元），而BOP可能按合同出厂价（400美元）记录出口，因此BOP出口值（进而顺差）偏小。

总而言之，经常账户顺差没有变成外汇储备，或没有对应对外净资产同步上升，并不一定意味着资本外逃。顺差只是外汇收入的来源，至于外汇最终由谁持有、以何种形式存在，取决于结售汇制度、市场主体的资产配置选择以及央行是否干预外汇市场。在停止强制结售汇和央行退出常态化干预后，经常账户顺差更多“藏汇于民”。同时，对外净资产还受到汇率波动、估值效应等因素影响，不能与经常账户顺差机械对应。

四、资本自由流动与固定汇率之间如何取舍？——布雷顿森林体系的思想之争

很多人怀念固定汇率，理由是固定汇率“没有风险”，至少可以让企业免于汇率波动的不确定性。然而，固定汇率并未真正消除风险。在笔者《从此岸到彼岸：人民币汇率如何实现清洁浮动》一书的序言中，陆磊教授一针见血地指出：“单一的过于稳定的汇率没有从根本上取消风险，实质是由中央银行替代市场主体实施风险管理，在微观上形成了市场主体的权责非对称制度安排并引发政策套利，在宏观上形成货币被动发行或被动回笼。”

对于固定汇率的偏爱还来源于现实中普遍存在的“现状偏好”（status quo bias）。当汇率升值时，担心出口企业盈利承压；汇率贬值时，又担心金融风险和资本外流。于是，一个看似稳妥的选择是让汇率“尽量不动”。但汇率不动并不一定更安全，而是要通过汇率价格变动来吸收冲击，就像骑自行车，静止不动是很难平衡的，要在运动中实现平衡。

在现实中，关于汇率制度如何选择，布雷顿森林体系的兴衰提供了一个极具代表性的历史样本。布雷顿森林体系在设计之初曾提出两种方案：其一是以凯恩斯为代表的英国方案，主张实行灵活的汇率，以及在必要时进行外汇和进口管制；若还是出现国际收支问题，则需要国际货币基金组织（IMF）予以救助，由盈余国承担主要资金和责任。其二，则是美国代表怀特的方案，主张不管制资本流动，同时各国在IMF的份额（Quota），也即可获得的救助资金，不应太多。

最终形成的体系以美国方案为主，有三个主要组成部分：1）固定但可调整的汇率，汇率调整的前提是被IMF认定发生“根本性失衡”。各国固定和美元的汇率，美元盯住黄金，以每盎司35美元的价格为各国央行持有的美元兑换黄金；2）一定程度的外汇和进口管制；3）以及IMF负责监察各国政策并在危机时提供必要的救助融资。

但在实际中，这三道防线却一一失灵了：首先，越强调调整有序且小幅，市场越不相信，反而招致投机攻击，导致各国拖延调整直至汇率调整压力集中爆发，英镑危机就是例子。其次，IMF的监督与救助能力也很快被日益庞大的跨境资本流动淹没，无法协调顺差国与逆差国的失衡。最后，1958年欧洲各国按IMF章程的要求宣布经常账户可兑换后，资本管制也越来越难。最终1971年8月15日尼克松宣布暂停美元对黄金的可兑换，关闭了美元的“黄金窗口”，随后1973年3月欧洲各国货币开始对美元自由浮动，标志体系正式终结。

关于布雷顿森林体系的解体，一个较为主流的解释是“特里芬难题”，但这实际上是一种误读，至少不是当年特里芬提出的本意。

特里芬真正指出的是，随国际贸易扩张，全球对美元流动性的需求不断上升，而美国黄金储备有限，美元对黄金可兑换的承诺终将动摇。而一旦美国为维护固定汇率而加息，各国也相应加息，可能让世界再陷入1930年代的通缩螺旋。但历史的吊诡之处在于，最终不是太少而是太多的美元流动性瓦解了布雷顿森林体系。在增长和就业压力下，美国政府不断采取扩张性政策，最终导致美元流动性泛滥。

还有人从特里芬难题出发，认为布雷顿森林体系解体源于美国经常账户赤字不断累积。但事实上，在1950-60年代大部分时期，美国保持着经常账户盈余。贸易逆差既非储备货币输出流动性的必要条件，也非其地位丧失的充分条件。

实际上，布雷顿森林体系解体的根本原因，在于固定汇率和日益频繁的跨境资本流动之间无法调和的张力。凯恩斯早在布雷顿森林会议期间就认为，国际收支能够自我平衡是一种幻觉。即便在金本位下，国际收支的调整也并非依赖黄金自动流动，而是通过央行的紧缩性政策完成。

因此固定汇率能否维持，关键不在制度形式，而在承诺是否可信，取决于一国是否愿意以高失业率和增长牺牲为代价来维持外部平衡。二战之后，这种调整方式在政治上已难以承受，若不实行外汇和资本管制，就只能让汇率浮动。正因如此，凯恩斯主张国际收支调整应主要依靠汇率变动，并辅之以必要的资本管制。所以归根结底，矛盾还是在资本的自由流动和汇率的有序调整之间。

凯恩斯敏锐地意识到，固定汇率和跨境资本流动之间的张力，本质上反映了国际货币体系的结构性矛盾：一国未必愿以牺牲内部平衡为代价维护外部平衡。正是在这一判断的基础上，凯恩斯在二战末期就曾提出一种超主权货币的Bancor设想，试图通过国际清算联盟和超主权货币Bancor，以制度设计代替单一国家信用。

理论上，Bancor试图通过清算规则和成员国承诺来建立国际信任；但实际上，其可行性完全依赖成员国对清算联盟的信用承诺，这在现实政治中几乎等同于国家信用。Bancor设想在当时不符合美国的利益，最终未能实现。这印证了国际货币的全球信任无法脱离主权信用而独立存在。如果国际货币缺乏国家信用，仅依靠制度设计，即使设想再周密，也难以获得全球范围内的接受和认可。

布雷顿森林体系的解体，为中国在汇率制度选择上的权衡取舍提供了重要参照。中国作为体量庞大、结构复杂的大型开放经济体，独立的货币政策是最重要的政策目标。布雷顿森林体系的经验表明，在跨境资本流动日益频繁的趋势下，固定汇率难以长期维系。因此，中国有赖于更灵活的汇率安排吸收外部冲击、实现内外平衡。

更重要的是，提升资本账户开放水平与汇率制度安排两个目标之间是相互匹配的。资本账户越是开放，对汇率清洁浮动的要求就越高。资本账户越开放，跨境资金流动越依赖价格信号完成配置，汇率作为关键出清价格的作用就越重要；如果汇率不灵活，会放大资本流动和外储波动，资本流出时外汇储备的向下刚性进一步带来贬值预期的自我强化，引发金融风险（缪延亮等，2021[14]）。

然而，浮动汇率知易行难。新兴经济体汇率制度改革的诸多失败案例引发了对浮动汇率的恐惧（Fear of Floating）。资本账户开放背景下，固定汇率难以长期维系，而汇率浮动也有改革失败的可能，能否通过介乎两者之间“有管理的浮动”取两者之长？这就是角点解和中间解之争。笔者认为，汇改的最终目标不完全是角点解，也不是一般意义上的中间解，而是在实现货币政策独立的前提下，让汇率尽可能地交由市场来决定，接近于资本自由流动的边解。

图表2：不可能三角框架下的汇改目标

资料来源：缪延亮. 从此岸到彼岸：人民币汇率如何实现清洁浮动[M]. 北京：中国金融出版社，2019.

五、汇率到底由资本账户还是经常账户决定？

布雷顿森林体系的终结表明，随着跨境资本流动增加，汇率也不可避免地要走向浮动。那么随之而来的一个现实担忧是：中国长期实行有管理的浮动汇率制度，一旦推进资本账户开放，跨境资本流动增加，是否会主导人民币汇率的波动？

回答这一问题，首先要厘清汇率到底由何决定？经常账户和资本账户对汇率均有影响。但因为资本账户的波动更为频繁和剧烈，任一时点上的汇率通常表现为资本账户决定。但经常账户才是汇率的最终决定者，资本外流增加海外净资产（NFA），其利息与收入汇回是经常账户和外汇供给的重要来源。比如日本，虽然贸易是赤字，但是对外投资每年产生大约GDP五个百分点的收入汇回，经常账户保持盈余。汇率的经常账户决定论往往不被市场理解，也未被政策制定者充分交流。

先从最基本的原则出发。汇率是一种价格。与任何价格一样，汇率由供需决定。外汇供给来自贸易赚来的美元、海外汇回的利息收入和外国人对国内的投资。外汇需求来自购买国外产品与到国外投资。因此，经常账户与资本账户都会影响汇率水平。

如果一个国家经常账户出现盈余而资本账户出现赤字，例如2015年的中国，那么经常账户构成外汇供给而资本账户构成外汇需求。从流入(flow)角度看，汇率受三种流入影响：贸易流动、投机性资本流入和非投机性资本流入。投机性资本取决于利差和汇率预期，非投机性流入主要取决于经济基本面的表现。因此，汇率、经济基本面和资本流入三者互相影响、互相决定，汇率的决定是动态的并且是多重均衡。

为什么谈到汇率，大家的关注都在资本账户？Fischer和Blanchard在1980年美国经济评论的一篇文章[15]中说任一时点上的汇率通常表现为资本账户决定。我想主要有三个原因。第一，资本流动如股票、债券投资远比贸易波动剧烈。它要么不下雨，一下就是暴雨倾盆。短时间内的大量资本流动使得经常账户变动显得微不足道。第二，短期内购汇需求会和经常账户的基本面相背离。比如，将来的出国旅游和海外求学等购汇需求可以被提前并且集中发生。第三，资本账户波动和汇率预期有可能相互强化，最后变成自我实现的均衡。

但是，经常账户才是汇率水平的最终决定因素。在资本流动的潮涌之中，这一点常被忽视和误解。简单来说，资本流出最终构成一国的海外净资产（NFA)，而海外资产赚来的利息与收入将被汇回国内，又成为经常账户和外汇供给的一部分。

以日本为例，该国贸易为赤字，但海外投资每年带来高达5% GDP的净收入，抵消贸易赤字使得经常账户为正，形成持续的外汇供给，对日元形成长期支撑。当然，并不是出去的资本都能赚钱，也不是所有赚到的钱都会汇回来。日本海外投资和利润汇回有很强的本国偏好（home bias）。中国呢？一方面民企有产权保护和地缘风险担忧；另一方面，我们国企为主且投资回报在全球范围看仍然较高。两方面综合考虑可能还会表现出一定的本国偏好。

那么，资本账户的存在改变了什么？回答这个问题，可以先设想一个极端情况，即没有任何资本流动，只有经常账户。此时，每一时期的汇率都是由当期的贸易状况决定。未来的顺差不会影响到今天的汇率，从国际资本市场上借不到钱，也不能出去投资，出口赚了外汇只能从贸易项下的进口花出去。

有了资本账户和跨国资本流动之后，跨期平滑消费和风险分担成为可能。这时，即期汇率不再仅仅取决于经常账户，还取决于有多少资本流入。不过借来的钱都是要还的，今天流入的钱多意味着将来要还的钱也多，今天因资本流入汇率多升值一点，将来就会因为资本流出而相对均衡价值多贬值一点。从这个意义上说，资本流动把即期汇率和远期汇率联系在了一起，它的存在和波动加剧了汇率波动。但资本流动是周期，资本流动主导的汇率波动因而也只是周期波动，决定汇率趋势的仍是经常账户等基本面因素。

利率决定论与基本面决定论是另外两个常见的汇率决定假说。经常账户决定论能否与这二者协调一致？我认为是的。一国经济基本面向好、生产率提高往往伴随均衡利率上升与经常账户改善，这三种理论在逻辑上是一致的。但是，短期内三者也可能存在背离。比如经常账户下的用汇需求可以加速与提前，但这种加速与提前不可持续，尤其是当外汇需求建立在真实需要之上时。

当然，以上分析的阿喀琉斯之踵在于预期会自我实现，资本流入有可能会突然停止（sudden stop)。此时，即期汇率的决定就只取决于自身提供外汇和流动性的能力，也即当期的顺差和外汇储备。正因为此，理解和沟通汇率的决定因素更显得重要。

六、货币互换会让人民币贬值吗？

虽然汇率的中长期走势主要由经常账户决定，但在短期内，跨境资本流动与市场预期的变化，确实可能放大汇率的起伏波动。在这一过程中，市场往往急于为汇率波动寻找原因，一些恰好处于汇率波动窗口期、又涉及跨境资金安排的官方流动性工具，便容易被误认为是推动汇率变化的“幕后元凶”。双边本币互换，正是在这种背景下，频繁被卷入对人民币汇率波动的讨论之中。

2022-2023年，中国与部分新兴经济体（如蒙古、阿根廷）签订或续签了双边本币互换协议。恰逢这一时期人民币面临阶段性贬值压力，市场上便流传一种猜测：是不是因为阿根廷等国动用了货币互换，把获得的人民币兑换为美元或其他货币，从而导致人民币汇率大幅贬值？

回答这一问题，首先要理解什么是货币互换。双边本币互换协议类似央行之间开立的一张“货币信用卡”，双方央行约定在一定条件下，任何一方可以一定数量的本币交换等值的对方货币，用于双边贸易投资结算或为金融市场提供短期流动性支持，到期后双方换回本币，资金使用方同时支付相应利息。

因此，从直觉出发，这一逻辑看似合理：如果互换额度被动用、相关资金流入离岸市场，似乎会增加人民币供给，进而压低汇率。截至2025年9月，中国人民银行已与超过40个国家和地区的央行或货币当局签订了双边本币互换协议，名义总规模约4.5万亿元人民币，表面上看数额不小。但对比人民币市场的交易量，2025年人民币在全球外汇市场的日均交易量约为8170亿美元[16]，折合人民币约6万亿元。所有国家的互换名义总量加起来，也不到全球人民币一天的成交量。因此，从量级上看，即便货币互换协议增加了离岸市场的人民币交易，其对人民币离岸汇率产生的边际影响也极为有限，不足以形成汇率贬值的压力来源。

事实上，“货币互换导致汇率贬值”这一误区的形成，不仅是忽略了量级差异，根本在于误解了货币互换本身的制度设计。货币互换并非直接向市场投放资金，而是一种授信安排。人民银行与其他央行签署互换协议，本质上是为对方提供一条在必要时可动用的流动性额度，而非即时交付人民币。是否动用、动用多少，完全取决于对方央行的实际需求。截至2025年9月末，货币互换的实际动用金额仅为793亿元人民币，远低于其名义规模。

那么，既然货币互换本质上是一种授信安排，而大部分互换额度并未被实际动用，那它是否就“形同虚设”？大量研究表明，即便央行互换额度未被持续、大规模动用，也足以稳定市场参与者的预期，降低离岸市场的融资溢价及其对风险情绪的敏感性，从而在压力时期稳定金融条件（Goldberg and Ravazzolo，2021；Albrizio et al.，2021；Bahaj and Reis，2022）。

即便在实际动用的情形下，互换资金的使用也伴随着严格的风险约束。互换通常要求提供合格抵押品，并在使用期间进行每日盯市结算。例如，当阿根廷比索出现明显贬值时，阿根廷需要持续补充保证金，否则相关互换头寸将被压缩，甚至提前终止。

因此，将人民币贬值简单归咎于货币互换国家抛售人民币，在机制和量级上都缺乏支撑。货币互换的主要功能是提供跨境流动性缓冲、稳定贸易与金融结算，而非影响汇率方向。

七、出国旅游和游学的用汇额度仅限于5万美元吗？

回到现实，当前中国的资本账户究竟开放到什么程度了？国际上对于资本账户开放并不存在统一的衡量标准。我国于1996年底接受国际货币基金组织（IMF）协定第八条款义务，实现了人民币经常项目完全可兑换，但资本项目仍属于部分可兑换。IMF将资本项目交易分为7大类40个子项。一般认为，我国只有个别项目（如对个人跨境资本交易尚有严格限制）“不可兑换”，其他30多个项目都已实现不同程度的可兑换。

但在资本账户改革中，市场主体“感受到的”开放程度，往往比名义上的开放程度更为重要（perception matters）。这种“体感偏差”，在外汇兑换环节尤为突出。在实际外汇管理中，最典型、也最普遍的误解，就是将“每人每年等值5万美元便利化额度”理解为“所有用途一年只能换5万美元”。由此不少人以为旅游、留学缴费等用汇额度仅限于5万美元。事实上，上述支出属于经常项目下的商品与服务交易。原则上，居民和企业基于真实、合规、合法的经常项目用汇需求不应受到任何不必要的限制。

5万美元“便利化额度”本质上设定的是个人结售汇业务的简化办理门槛：在年度5万美元便利化额度内，个人可凭有效身份证件直接办理，不需审查—— “no question asked”，较为便利；超过5万美元便利化额度的用汇，则需提交真实用途证明材料，如留学录取通知书、学费单等，由银行开展真实性审核后办理。总之，只要用途真实、合规且符合法律规定的个人经常项目用汇需求——无论金额大小——都应满足。

此外，便利化额度不仅适用于经常项目，还适用于可兑换的资本项目。鉴于经常项目的合理用汇不受限、不必然占用年度便利化额度，个人5万美元便利化额度可更多用于满足资本项目的购付汇需求。

既然经常项目已实现可兑换，为何超过等值5万美元的经常项目用汇仍需真实性审核？一个关键背景在于：我国资本账户尚未完全开放。目前中国资本项目7大类、40项交易中，多数已实现可兑换、基本可兑换或部分可兑换，但少数子项仍实行较为审慎的管理，包括居民个人境外直接投资，如个人赴海外购房、证券投资等；非居民在境内发行股票及衍生品；非居民参与境内货币市场等。

在资本账户尚未完全开放的背景下，监管需防范资金通过经常项目“借道”流动，因此不得不对经常账户项下的资金流动设置真实性审查，使经常账户“完全可兑换”在实际运行中受到影响。

比如，外商直接投资利润汇回，是典型的经常项目交易，在办理中需要补充完税证明及其他真实性材料；对于边界更模糊的跨境服务等交易，真实性更难核验，不同银行、不同地区的审核要求也存在差异。部分机构出于合规责任与内部风控考虑，会采取更为审慎的审核标准与流程。因此，市场主体在外汇兑换过程中遇到的交易摩擦、沟通成本较高，削弱了公众对资本账户开放的实际体感。

欧洲的经验表明，经常账户先开放而资本账户仍维持管制，往往会推高监管成本并加剧交易摩擦。1958年12月，英、法、德、意等西欧14国宣布恢复经常项目可兑换，但出于汇率稳定等考虑，多数国家仍对资本账户实施管制。矛盾很快显现：资本流动可以“借道”经常项目实现变相进出。

比如，出口商可能延迟收汇、进口商提前付汇，或通过贸易错报、虚报等方式进行资金套利与转移，从而削弱资本管制的有效性。随着时间推移，市场主体还会不断迭代规避手法，监管需要投入更多资源去甄别“真实贸易”与“资本转移”，导致管制成本与交易摩擦越来越高。

=欧洲各国逐渐意识到，在经常项目放开后，资本管制难以有效执行。1988年欧盟前身欧共体通过资本流动自由化指令（88/361/EEC），要求成员国最迟于1990年7月1日在欧共体内部实现资本的自由流动；1993年《马斯特里赫特条约》生效，欧盟将自由化范围延伸至成员国与第三国之间，进一步确立了资本开放的原则。

经验表明，经常账户一旦开放，资本账户在事实上就难以完全管控。对中国而言，进一步提升资本项目开放水平，可以有序新增开放项目，也可以提升既有开放项目的实际获得感，通过提升规则透明度、统一审核口径、减少不必要的程序性摩擦，增强外汇兑换的可预期性，切实降低跨境资金进出的摩擦系数，让外资和居民真正感受到资金“进得来、出得去”，从而更好地助力人民币国际化进程。

参考来源

[1]Kose, M. A., E. S. Prasad, K. Rogoff, and S. J. Wei. 2009. “Financial Globalization: A Reappraisal.” IMF Staff Papers 56 (1): 8–62. doi:10.1057/imfsp.2008.36

[2]Jeanne, O., A. Subramanian, and J. Williamson. 2011. Who Needs to Open the Capital Account? New York: Columbia University Press.

[3]Wei, S. J. 2018. “Managing Financial Globalization: A Guide for Developing Countries Based on the Recent Literature.” ADBI working paper 804.

[4]Prasad, E. S., and R. G. Rajan. 2008. “A Pragmatic Approach to Capital Account Liberalization.” Journal of Economic Perspectives 22 (3): 149–172. doi:10.1257/jep.22.3.149.

[5]Bayoumi, Mr Tamim, and Ms Franziska Ohnsorge. Do inflows or outflows dominate? Global implications of capital account liberalization in China. International Monetary Fund, 2013.

[6]国际货币基金组织（IMF），《国际收支与国际投资头寸手册（第六版）》（Balance of Payments and International Investment Position Manual, Sixth Edition，BPM6），Washington, D.C.: IMF，2009

[7]http://m.safe.gov.cn/safe/2012/0416/4533.html

[8]https://www.safe.gov.cn/heilongjiang/file/file/20170728/c8dd4cfd7f9b432faa691b7d23395809.pdf

[9]http://m.safe.gov.cn/safe/2012/0416/4533.html

[10]https://www.cfr.org/articles/chinas-current-account-surplus-likely-much-bigger-reported

[11]IMF《People’s Republic of China: 2024 Article IV Consultation》Appendix VII：Difference in Goods Trade Balance Between BOP and Customs Data

[12]SAFE《2024年上半年中国国际收支报告》专栏“国际收支货物贸易与海关进出口统计口径差异”

[13]https://www.cfr.org/articles/chinas-data-still-doesnt-add

[14]缪延亮,郝阳,杨媛媛.外汇储备、全球流动性与汇率的决定[J].经济研究,2021,56(08):39-55.

[15]https://economics.mit.edu/sites/default/files/2023-05/fischer_exchange_rates.pdf

[16]数据来源于BIS 2025 Triennial Central Bank Survey：

摘自中金公司2026年2月9日发布《关于资本账户的若干迷思》

2026-03-02
段天璟：黄河中游仰韶早期的史前生业与聚落——以山西夏县师村遗址为例[编]

运城盆地处于“以关中、晋南、豫西为中心的古中原”的中部。1926年，李济发掘了位于运城盆地的山西夏县西阴村遗址。

李济在西阴村的发掘不仅发现了包括属于仰韶时代、今被称为西阴文化在内的各时期多种考古遗存，更有趣的是，他在夏县西阴村遗址发掘出土了半枚碳化的蚕茧。这一发现，因运城地区旧有“黄帝正妃嫘祖养蚕缫丝”的传说，而颇引人注目。然而，囿于当时的田野考古工作水平和研究基础，学界难以确指这半枚碳化蚕茧的年代和文化属性。

近百年来，随着考古工作的不断深入和考古资料的不断丰富，运城盆地仰韶时代文化遗存的面貌不断明晰起来。运城盆地已成为探索中国文明起源问题的重要核心区域之一。深入探索该地区仰韶时代早期的聚落形态、文化面貌、生业方式等问题已成为中华文明起源以及考古学史研究中的重要课题。需要指出的是，据调查，运城盆地东部缺少大规模发掘的仰韶时代早期聚落遗址材料。因此，大规模整体揭示和研究这一区域的聚落遗址成为晋南乃至黄河中游地区田野考古发掘和研究工作的关键。

我们以山西运城夏县师村遗址的考古发现为例，简要介绍并讨论黄河中游地区仰韶时代早期史前生业与聚落等方面的问题。

师村遗址位于夏县县城西南15公里处，地处中条山北麓青龙河故道的河曲地带，直线距离“世界三大硫酸钠型内陆盐湖”之一的运城盐湖约7公里。

2019—2022年，吉林大学考古学院、山西省考古研究院、运城市文物保护中心等单位联合对夏县师村遗址进行了调查和发掘，揭示出了运城盆地年代最早、距离盐湖最近的仰韶早期聚落遗址，为研究仰韶时代黄河中游的聚落、文化与生业等问题提供了重要资料。

发掘工作在对师村遗址进行全面考古钻探的前提下，联合吉林大学黄大年团队对遗址采用航磁扫描、电阻率扫描、探地雷达等手段进行了无损勘探等多学科合作考察，并在此基础上进行布方，共发掘6363.25平方米。

师村遗址包括史前时期的仰韶时代早期、中期以及历史时期的东周、两汉和宋金等时期的遗存，以仰韶时代早期遗存为主。

聚落：揭示运城盆地仰韶时代早期的重要聚落遗址

师村遗址的主要遗存为仰韶时代早期的一处聚落遗址，面积约3.5万平方米。

师村遗址仰韶早期聚落被两座夯土围墙环绕，墙外侧有台基等附属设施，围墙和台基外围有环壕。围墙内有房址、陶窑和道路，围墙内外发现有墓葬和大量灰坑。

围墙形制规整，存在基槽，为人工挖槽填筑而成。

1号围墙早于2号围墙。在1、2号围墙的部分区域清晰可见高于原地表约20厘米的类似“平夯”而成的板块。

1号围墙基槽现存部分宽约1.8米，残深1.5米，基槽内堆积可分10余层，土质致密坚硬，系人工填埋并拍砸所致。

2号围墙基槽宽约2.8米，距地表深1至3.5米，发掘区内揭露部分长约134米。2号围墙中段与1号围墙平行。有趣的是，1号围墙在发掘区中部的一段墙基槽呈半径为6米左右的半圆形向南与2号围墙相依，1、2号围墙相依的部分基槽的宽度没有发生变化，两墙基槽内填土的颜色不同、界限清楚、清晰可辨。

2号围墙基槽底部的深度不同，最深处距地表深约3.5米，最浅处深约1米。2号围墙基槽底部呈现出规律的波浪状起伏，基槽深度每隔约10米～15米达最深。2号围墙基槽内填土均经过拍砸，土层最多达30余层，墙基槽的每段波浪状区域内填土的土质土色存在明显区别。很可能是在确定墙基区域后，采用分段施工的办法开挖基槽，每段中部挖掘最深，每段两端挖掘最浅，各段的浅端相连构成墙基槽，各段填入不同质地的填土，并逐层夯实。

我们通过对墙体的土壤微形态分析，并对比自然堆积，可以确认其为人工夯筑而成，是黄河流域目前发现年代最早的夯土。

同时发现了三个聚落出入口，形态各异，并揭示出了连接入口的踩踏面。

在1号围墙中段发现明显宽于其两侧围墙基槽的踩踏面，其上覆盖一层碎陶片，推测其为1号围墙的一个出入口，我们称为2号出入口。

2号围墙上揭示出两个出入口。1号出入口宽约6米，并发现有类似我国历史时期的“瓮城”结构。3号出入口位于2号围墙中段，宽约5米，3号出入口两侧的2号围墙基槽形状规整。3号出入口以北通向聚落内的方向上发现有向北延伸的踩踏面，其上覆盖有较多碎陶片，并叠压1号围墙使用时期形成的踩踏面。说明，在2号围墙上的3号出入口使用时期，1号围墙上的2号出入口仍作通行之用，并形成了踩踏面。

在3号出入口北部还发现了几处覆盖着碎陶片的踩踏面，其连线与3号出入口两侧的墙体呈垂直方向，推测其为一条通向聚落内部的道路。

在1号围墙和1号出入口类似“瓮城”结构的外侧，发现有4号台基，为西北依靠2号围墙中段起建的一处建筑的基址，整体呈西北—东南走向，平面呈不规则长方形，长约21.4米，宽约11.8米，基址表面堆积为依次相连、人工夯打而成的夯土块。夯土块平面形状为长方形、方形和不规则形等，边界清晰。基址起建的原始地表起伏不平，存在自然或人工形成的凹坑。可见，师村遗址的先民们对地表凹坑搬运土方、填平坑洼，逐层夯筑建成了该基址。

在围墙和4号台基外围发现有环壕。环壕已发掘部分宽约4米，深约3.5米。其东段与墙体走向基本平行，且与墙体保持约5米距离，西段向西南方向延伸。

在聚落内，也发现有作为地面式房屋基础的夯土台基。其中较大的一处台基，现存面积约557平方米，平面形状大致呈长方形，南部向外延伸出一部分，北部宽南部窄，最宽处约16米，长约32米。经解剖可见台基上存在依次相连的夯土块，系逐块夯打而成，台基表面仅残存几处柱洞和料礓石面。因此，台基上可能建有多座地面式房址。较小的一处台基，现存面积约18平方米，年代稍晚于较大台基，位于其西侧，呈不规则形，残存数个柱洞，有多层垫土，应为人工填平低洼处后在其上修建房屋。

房址有圆形和方形两种。例如，1号房址，方向为北偏西35度，残长约9米，残留有直线形的木骨泥墙，应为一座矩形地面式房址。2号房址的年代早于1号房址，为圆形的地面式房址，仅残存部分墙基，直径约5.4米。

灰坑包括袋形、直筒型、圜底和不规则形等。在1、2号房址西北约10米处，发现一座年代晚于1、2号房址的仰韶早期不规则形灰坑，该坑底距地表最深处5.3米，口径达6米以上。值得注意的是，灰坑中发现了大量红烧土和被火烧过的木骨泥墙、居住面残块，应为建筑堆积残块，很可能与房屋等建筑的废弃有关。灰坑内填埋大量带有木骨印痕的红烧土墙体碎块与居住面残迹，表明当时人们或存在通过“拆旧埋废”的方式循环利用居住空间的行为。

墓葬有土坑竖穴墓、偏洞室墓与瓮棺葬等类。

土坑竖穴墓的葬式包括俯身直肢葬与叠肢二次葬等类。叠肢二次葬又有多人合葬、双人合葬和单人葬等。如10号墓的墓穴为一东西长、南北窄的长方形土坑，最长边为东西向。墓内发现自西向东排放有5具人骨，皆为仰身屈肢二次葬。最西部人骨头向西，颅骨残损严重；其余四具人骨，头向均朝北，面向南，埋葬在西向人骨以东，四具人骨头自西向东依次平行排列于墓坑的中、东部。64号墓为双人二次合葬墓，墓穴为近圆角方形，墓内南北向并排放有两具人骨，头向朝西，肢骨叠放整齐，颅骨破损严重。82号墓为一偏洞室墓，单人二次葬，头向朝西北，肢骨叠放整齐，保存较完好。墓主人头向南，墓向163°，墓主人左侧股骨外侧洞室前出土随葬品红陶钵，为目前发现的年代较早的偏洞室墓。

在2号围墙的3号出入口外还发现了三座叠肢二次葬与一座俯身屈肢葬墓穴，整齐地排列在道路西侧。

瓮棺葬发现数量较多，均位于房址或台基附近，年代应与居址同时，由钵或盆倒扣在夹砂罐上组成。如7号瓮棺葬平面呈椭圆形，剖面为斜直壁，出土2件完整的陶器，红陶钵倒扣在弦纹灰陶罐上。

考古人员发现了仰韶时代早期结构最完整的陶窑。如6号陶窑，被仰韶时代的壕沟打破，现存部分窑室、火眼、火膛、火门。陶窑的挖建方式为在断崖上横向掏出窑室和火膛，中间由火眼连通，窑壁内侧有青色烧结面，故该窑可能使用时间较长且窑内烧造温度较高。

文化：呈现运城盆地仰韶时代早期遗存向西阴文化转化的进程

师村遗址出土了丰富的仰韶时代早期的枣园文化、东庄文化和部分仰韶时代中期的西阴文化遗存。

此前，在运城盆地尚未系统发掘过仰韶时代早期遗存。师村遗址仰韶早期遗存的发掘，填补了运城盆地腹地仰韶时代遗存发现的空白。师村遗址发现的枣园文化、东庄文化和西阴文化遗存呈现出运城盆地腹地的仰韶时代早期遗存向仰韶时代中期的西阴文化转化的进程。

师村遗址仰韶时代早期遗物以陶器为大宗，按用途可分为陶容器和陶制品，另外还有一定数量的石器和骨蚌器等。经类型学比对，结合碳十四测年分析，师村遗址仰韶早期遗存的绝对年代约为距今5900至6500年。

陶容器的质地可分为泥质和夹砂两类。泥质陶数量较多，其中，以泥质红陶为主，还有部分泥质红褐陶和黄褐陶。夹砂陶主要有夹砂红陶和灰褐陶等。器表除素面外，还有器表施纹和彩陶两种装饰方法。器表施有弦纹、绳纹、附加堆纹、戳压纹等。彩陶均为黑彩，主要包括直边三角形、直线、圆形、平行四边形等基本纹样，及其组成的复合纹，还发现了鱼纹彩陶片。陶器包括平底、尖底、圜底和三足器等，器类有小口尖底瓶、瓮、壶、碗、盆、罐、鼎、器盖等，陶制品有陶纺轮、小口尖底瓶、壶模型等。

石器主要由磨制或打制而成，器类有工具和石制品两种，工具包括石锄、石斧、石钻、石凿、磨石等，石制品有石球、石珠、石雕蚕蛹、绿松石坠饰等。骨蚌器包括骨簪、骨锥、蚌饰等。

师村遗址发现了部分属仰韶时代中期的西阴文化遗存，以几座袋形坑最具代表性。例如779号灰坑，袋形平底，堆积中包含较多草木灰，坑底有踩踏面，推测为窖穴，出土西阴文化时期的重唇口尖底瓶残片。943号灰坑出土曲腹彩陶盆、石制铲形礼器等遗物。

值得注意的是，师村仰韶早期遗存中见有与后冈一期文化酷似的鼎足和陶壶模型等器类。仰韶早期，后岗一期文化在黄河以北占据了汾河流域和张家口地区，在晋中地区的上土河遗址中就发现有后岗一期文化遗存。地处运城盆地的师村遗址仰韶早期遗存中发现的这些后冈一期文化因素与后岗一期文化的西进有关。

仰韶时代早期，运城盆地位于黄河流域的半坡文化和后岗一期文化强势影响形成的漩涡之中，文化的交流激发了师村遗址土著文化的发展机制，呈现出多元的文化特征，展现独具特色的文化面貌，从而向西阴文化转化。

这成为师村遗址仰韶早期聚落的文化背景，为研究地处“陕晋豫地区”地理中心的运城盆地由仰韶时代早期的枣园文化、东庄文化向仰韶时代中期的“西阴文化”的演进提供了重要资料。

生业：探讨黄河中游仰韶早期先民生业方式的重要线索

师村遗址的古环境分析研究显示，仰韶时代早期，师村遗址的植被类型为森林草原，气候温暖湿润。师村遗址出土了蚌镰、石臼、石杵等收割与加工谷物的工具。可见，当时农业已有了初步发展。出土的石球等遗物表明，狩猎采集或为补充农业产品的生产方式。

师村遗址出土了多枚仰韶早期的石制和陶制蚕蛹，是我国目前发现的年代最早的蚕蛹形象，如，2019年出土的一枚石雕蚕蛹，属仰韶时代早期的东庄文化，形态逼真、造型精美、工艺成熟。这枚石雕蚕蛹长约3厘米，宽约1.3厘米，采用中条山地产的鲕状灰岩制成，石雕整体呈黄褐色带有天然黑褐色斑点。石雕通体刻有螺旋状的横向弦纹，使用简洁的刻划纹勾勒出蚕蛹的头和尾部，形态酷似现代的家桑蚕蛹，但较小。

如前所述，运城地区旧有“黄帝正妃嫘祖养蚕缫丝”传说，1926年李济发掘山西夏县西阴村时，曾出土半个碳化的蚕茧。李济先生在《西阴村史前的遗存》（清华学校研究院丛书第三种，1927年）中指出：“我们最有趣的一个发现是一个半割的，丝似的，半个茧壳。用显微镜考察，那割的部分极平直。清华学校生物学教授，刘崇乐先生替我看过好几次，他说，他虽不敢断定这就是蚕茧，然而也没有找出什么必不是蚕茧的证据，与那西阴村现在所养的蚕茧比较，它比那最小的还要小一点。”此外还指出：“因为它是经过人工的割裂。当着我最初发现它的时候，我知道这意义很重大，就非常注意这件事，但是我没找到第二个。”夏鼐先生曾在《我国古代蚕、桑、绸的历史》（载《考古》1972年第2期）中讨论过我国古代发明蚕丝生产技术的年代问题。他也关注到了1926年李济在山西夏县西阴村发掘的仰韶文化遗址中发现了一个“半割”的蚕茧，但他很谨慎地认为，“其实，这个发现是很靠不住的，大概是后世混入的东西。”并指出，“我们不能根据这个靠不住的‘孤证’来断定仰韶文化已有养蚕业。”总之，囿于当时的情况，学界难以确指西阴遗址出土蚕茧的具体年代，关于仰韶时代黄河流域的先民是否存在养蚕、是否认识或利用桑以及丝、绸等方面的问题，在没有确切证据的情况下也很难进行讨论。

经实验室测试鉴定，师村遗址仰韶早期遗存中存在一定比例的桑科花粉，很可能与先民们养蚕有关。同时，还发现有碳化黍和粟的种子。这些共生的遗存及其文化属性显示，距今6000多年以前，地处黄河中游的运城盆地先民从事种植农业生产，并很可能已有条件了解、喜爱并崇尚桑蚕。

此前，学界也曾经在黄河流域发现过年代稍晚的与丝绸起源相关的遗存，如，20世纪80年代在华北地区的正定南杨庄遗址发现了距今约5500年的陶制蚕蛹模型；近年来，在运城盆地的闻喜上郭遗址发现有仰韶中期的石雕蚕蛹，在河洛地区的巩义双槐树遗址发现了仰韶中晚期的丝绸遗存等。

不断丰富的考古发现暗示着，仰韶时代早期东庄文化的先民们很可能已掌握了养蚕和处理蚕茧的技术。这一系列发现为我们探索后世丝绸之路上最重要的商品——丝绸的起源与传播等问题提供了重要的实物资料，也为探索当时运城盆地的自然环境以及先民对自然资源的改造利用等问题提供了重要参考。

师村遗址发现的石雕蚕蛹，在李济先生1926年发掘西阴村遗址百年前后，成为探讨学术史上提出的重要问题的关键证据，成为中华文化的重要标识之一。

师村遗址仰韶早期聚落已具备一定规模，沿用时间较长，围墙经两次修建，围墙外有依附墙体起建的夯土台基，围墙和台基外围有环壕，围墙内有大面积的建筑基址，且年代有早晚之分。从中可以窥见，遗址内的居住区范围存在逐步扩大的过程。师村遗址仰韶早期的围墙、台基等是黄河流域目前发现年代最早的夯土遗存。建筑基址附近发现了中原地区年代最早的偏洞室墓，聚落南部揭露出了迄今为止结构最完整、保存状况最好的仰韶早期陶窑，昭示师村遗址仰韶早期聚落处于时代发展的前沿，具有较大的先进性。

师村遗址仰韶早期聚落遗存的发现，填补了运城盆地考古学文化发现的空白。在考古学文化谱系研究上，为研究晋南地区新石器时代仰韶早期遗存向西阴文化的演化及其与周边文化区的关系具有重要意义；在聚落考古研究上，为研究陕晋豫地区以及黄河流域仰韶早期聚落形态提供了重要材料；在生业方式研究上，为进一步探索手工业生产及其对人类社会发展产生的影响问题提供了重要线索。师村遗址仰韶早期遗存的揭示将为黄河流域新石器时代“养蚕缫丝”、手工业发展、聚落形态以及生态环境、生业方式、文明起源等问题的研究提供重要启示。

师村遗址是晋南地区内涵最丰富的仰韶早期聚落遗址，其发掘成果具有多重突破性学术价值，从聚落布局、建筑工艺、手工业发展、文化互动、生业策略等多个维度，极大地深化了学界对仰韶时代早期社会复杂化进程的认识。师村遗址的重要考古发现，丰富了中华文明起源的历史脉络。

转自《光明日报》（2026年02月07日）

2026-03-02
上海文化五七干校忆往

(一)

钱伯城 (1922—) , 笔名钱东甫、钱冬父、阳湖等，江苏常州人。上海古籍出版社总编辑、《中华文史论丛》杂志主编。后为国家古籍整理规划小组成员、上海古籍整理规划小组副组长。著《问思集》等。
雷群明 (1940——) , 笔名钟严、雨田，湖南耒阳人。1967年复旦大学中文系研究生毕业，1969—1981年上海市新闻出版工军宣队团部和上海市出版局机关工作，1981年进学林出版社历任编辑、副总编辑、社长、总编辑，编审。2002年起任韬奋纪念馆馆长兼党支部书记。著《聊斋艺术通论》、《聊斋写作艺术鉴赏》等。

1968年8月, 在奉贤滨海地区, 先后出现了上海市电影、新闻、出版、文化系统各自建立的五七干校。到1973年2月, 电影、新闻出版和文化系统三所干校合并为上海市文化五七干校。在十年之间, 数以千计的著名作家、演员、编辑、记者、画家、教授等, 被送到那里改造思想, 其中有巴金、孔罗荪、师陀、柯灵、赵丹、孙道临、袁雪芬、丁是娥、张骏祥、白杨、张瑞芳、赵家璧、张乐平、王丹凤、秦怡、黄宗英、仲星火、蒋月泉、徐丽仙、张充仁、程十发、刘旦宅、童芷苓、陈佩秋、周小燕等等。在“文革”的极左环境下, 有些人被逼自杀, 更多人被批斗。

粉碎“四人帮”后, 1978年11月, 上海市文化五七干校停办撤销。1978年秋冬之交, 一个崭新的上海师范学院分院在杭州湾畔诞生, 12月开始招生。1985年5月, 该校改称上海技术师范学院。1994年10月, 经国家教委批准, 上海技术师院并入上海师范大学, 成为该校的奉贤校区。为迎接2014年10月上海师范大学建校60周年华诞, 我带领一个团队对在上海文化五七干校中生活过的老前辈进行了口述采访, 以下的两篇回忆便是其中的一组。从中可以一窥在“文革”非常时期, 在“五七干校”这样一个特殊空间中知识人的忧与喜, 苦与乐, 思与情, 彷徨与沉沦, 荒唐与抗争, 探索与期盼。

———苏智良谨识

一采访钱伯城先生

采访时间: 2014年5月18日

采访地点: 钱伯城先生寓所

钱伯城 ( 1922—) , 笔名钱东甫、钱冬父、阳湖等, 江苏常州人。原上海古籍出版社总编辑、《中华文史论丛》杂志主编。后为国家古籍整理规划小组成员、上海古籍整理规划小组副组长。著有《袁宏道集笺校》、《珂雪斋集》点校本, 《问思集》等文史论集。主编《古文观止新编》、《中华要籍集释丛书》等。

苏智良 ( 后文简称“苏”) : 钱老, 您是什么时间去的五七干校?

钱伯城 ( 后文简称“钱”) : 大概在60年代, 具体哪一年记不清了, 是蚕豆出来的季节, 应该是五六月份。我们从上海出版局所在的绍兴路出发, 走着去, 由闵行乘船过江到奉贤, 坐车到柘林车站下来, 再走到干校的。

苏: 那应该是早晨出发的, 出发队伍里您印象比较深的有哪些人?

钱: 我们当时的队伍大概前面是“革命群众”, 后面是“牛鬼蛇神”, 路上很多人在旁边看热闹。大家低着头, 我们古籍社编辑部的都下去了。

苏: 您那时职务是什么?

钱: 我是右派编辑。那时的总编辑是李俊民, 已经打倒了。

苏: 你们这批人到了五七干校后是什么情况?

钱: 我们去之前, 每个出版社都派出人组成尖刀连进行最初的建设, 记得我们出版社当时派汪贤度参加的尖刀连, 他是北大过来的。按照社里的规定, 刚过来的年轻人为了熟悉业务都是从校对开始做起, 这个汪贤度就是做校对的, 后来做了副总编辑。我们去的时候干校的房舍基本已经建好了。

苏: 您记得当年是几个人一间房?

钱: 房间是分上下铺, 按连队住宿。房间很大了, 因为宿舍里还会有一些活动, 比如连队的批斗会就在这里开。但连队人多, 有“革命群众”, 有“牛鬼蛇神”, 一个房间一个连是住不下的。

苏: 还记得您是几连的?

钱: 好像是十一连。

苏: 您对当时的哪个批斗会最有印象?

钱: 后来大家都老油条了, 讲讲空话, 但看上去很激烈很革命的。

苏: 那时吃饭是什么情况?

钱: 在食堂吃, 食堂是要钱的, 要饭票付钱, 但很便宜。吃得不好, 那时候全国粮食供应已经开始紧张了, 后来还减少口粮。上海的供应还稍微好一点。印象深的是在乡下还能吃到新鲜的莴笋。

苏: 除了学习, 还有劳动了。

钱: 主要是劳动。

苏: 劳动中您对什么印象最深?

钱: 当时我是连队的主要劳动力。有一幕记得很深, 就是为了开渠, 我们在当地农民的带领下把田里快要成熟的蚕豆苗铲掉, 感觉很可惜。

苏: 开渠是为了?

钱: 水渠开好后引水进来。记得当地的乡干部讲政治很有一套, 紧跟形势。那时候已经有军宣队和工宣队。管我们的是一个大胖子工人, 很会讲话, 一套一套的, 管我们管得很严, 名字忘记了。

苏: 那时除了劳动、政治学习、批斗会, 还有什么印象比较深的?

钱: 出版局长罗竹风、《文汇报》的黄裳在连队烧开水。在锅炉房内他们算是老弱残兵, 是被照顾的。

苏: 您与谁的关系比较要好的, 有哪些朋友?

钱: 比较要好的一个是原任北京人民出版社的总编辑曾彦修, 被打成右派, 他有个回忆录, 他现在还在做《炎黄春秋》杂志的编委, 写一些东西, 年龄比我小。另一个俄文翻译, 马雅可夫斯基的主要翻译者, 本名李毓珍, 北大的俄文系主任, 1957年也被打成右派, 是周扬特批的, 把他和曾彦修调到上海辞书出版社编《辞海》。

苏: 那曾彦修先生跟您一起劳动?

钱: 他在养猪场工作。每天经过我们连队拉猪食。他的特点是眼睛直直的, 不看旁边。我们关系比较好。

苏: 那时政治学习主要是工宣队、军宣队布置, 要写思想汇报吗?

钱: 思想汇报回来后写的, 在干校写得少点。在干校开大批斗会很热闹, 人才也多。

苏: 您印象中谁被批得最厉害?

钱: 每一次批斗罗竹风总要被带上去陪斗。还有《文汇报》的总编辑徐铸成, 也被批斗得多。这些徐铸成写过回忆录的。还有陈伯吹。

苏: 批儿童文学作家陈伯吹干什么?

钱: 说他在儿童文学里散布资产阶级思想。

苏: 批的时候要站在前面吗?

钱: 他们要站在台子上的。

苏: 那个时候搭有台子了。

钱: 搭台子很容易的。房子都造出来了。我们那个出版社最“左”。原来一个同事, 是参军回来的, 平时看不出什么。一造反很厉害, 很会讲。后来已经做到相当于出版局的书记了, 要掌权的, 粉碎四人帮之后调到别的出版社做领导。

苏: 李俊民也是到奉贤去了?

钱: 记不清了。“文革”前讨论清官贪官时, 他讲过“清官比贪官好”这句话, 于是就要被批斗, 因为当时人认为清官比贪官的欺骗性大。现在想想都是可笑的。

苏: 您在那里待了多长时间?

钱: 从开始起到后来号召“战高温”的时候, 我第一个报名, 就回上海了。当时家住在天平路的一个工厂, 做锁的, 后来改名字叫“四新”锁厂。

苏: 后来再也没有去奉贤了?

钱: 没有去了。“战高温”号召大家到工厂去, 我一个儿子已经到东北插队做农民。我就写信给儿子说, 以后写父亲的成分已经是“工人”了。

苏: 那个时候在干校的生活很枯燥吧, 有收音机吗?

钱: 没有, 不许带的, 书除了《毛泽东选集》也不能带。

苏: 有娱乐活动?

钱: 可以看一些革命群众打乒乓球。

苏: 有乒乓室?

钱: 也就是在大会场放一乒乓球桌, 每次的观众中都有徐铸成在, 我知道他是体育记者出身, 爱好看球。

苏: 除了打乒乓球还有什么活动?

钱: 还有晚会, 当然都是讽刺走资派。比如有一次由一个革命群众扮演儿童文学家陈伯吹劳动, 什么都不会, 洋相百出, 引起观众笑声。

苏: 看电影有吗?

钱: 不大看, 也不喜欢看。

苏: 您对赵丹、白杨等电影明星有印象吗?

钱: 他们跟我们隔条河, 没有往来。

杨琳琳 ( 后文简称“杨”) : 钱老, 您刚才提到在五七干校劳动的时候还有当地农民的参与?

钱: 他们每次要给我们训话的。

杨: 与你们五七干校的政治理论学习也有相关性吗?

钱: 有的。当地的农民还与我们联姻过。有干校学员做了他们的女婿。当然不是我们出版社, 是其他出版社。因为农村女孩子很革命, 劳动力强。

苏: 那时有一个农村妇女叫顾阿桃, 就被林彪、叶群树为典型。当时五七干校就两部分人, 一部分是“牛鬼蛇神”要改造的, 一部分是“革命群众”, 您是属于前面一种。

钱: 牛鬼蛇神呀。

杨: 批斗的时候农民参与吗?

钱: 不参与, 主要是劳动的时候训话。训话讲政治性的, 比工人还革命。这些人也是当地的农村干部。

苏: 当时讲究工农联盟。工宣队也会找一些农民来助威。

钱: 训话的时候地主富农要跪着的。那时到市里面去买毛主席像的时候, 都要说“请”, 说“请宝像”。

苏: 五七干校要不要早请示晚汇报?

钱: 都要的。尤其是“牛鬼蛇神”。我们在办公室也要早请示晚汇报。古籍出版社在绍兴路的办公室进去就放一尊毛主席的像。有一天晚上我们留下, 就坐在毛主席像下面交代与“牛鬼蛇神” 的关系, 不准回家。我在一篇文章里面提到了, 一人一张桌子, 就这么一整夜的交代。结果, 造成了古籍出版社在“文革”中三个人以现行反革命罪关进提篮桥监狱、两个人跳楼的悲剧。所以我们不希望“文革”再来。现在还有人认为那很浪漫, 认为“文革”再来最好, 不是这么简单的事情。家属受到牵连的人不计其数。

苏: 当时中国六亿人一共有两亿受到牵连, 这样的悲剧当然不能再来了。您有那时候照片留下来的吗?

钱: 没有。

苏: 那钱老感谢您接受我们的采访, 祝您身体健康。

二采访雷群明先生

采访时间: 2013年10月31日

采访地点: 雷群明先生寓所

雷群明 ( 1940———) , 笔名钟严、雨田。湖南耒阳人。著名作家, 中国作家协会会员。 1967年复旦大学中文系研究生毕业。中国作家协会会员。1969—1981年在上海市新闻出版工军宣队团部和上海市出版局机关工作, 1981年进学林出版社, 历任编辑、副总编辑、社长、总编辑。编审。曾主编《杂家》、《编辑学刊》和《邹韬奋研究》, 2002年起任韬奋纪念馆馆长兼党支部书记。长期从事图书编辑出版工作, 著有《聊斋艺术通论》、《聊斋写作艺术鉴赏》、《韬奋与出版》 ( 合作) 、《编辑修养十日谈》、《编辑应用写作》, 编著有《明代散文》、《中国古代童谣》 ( 合作) 、《韬奋论新闻出版》等, 译有《幼儿教育思想》等。

苏: 请雷老师介绍一下, 您是怎么到干校去的?

雷: 我是1968年4月份从复旦大学中文系毕业后, 分配到解放出版社 ( 原“古典文学”) 工作。第二年 ( 1969年) 5月份被借调到工宣队团部。干校的宣传队是在1968年底进驻, 进驻没多久我就过去了。1969年林彪发“一号令”, 调动全军进入战备状态。由上海市出版新闻系统组成的第一批尖刀连到干校去, 称为“尖刀一连”。后来第二批下去, 称为“尖刀二连”。

苏: 当年解放出版社挂过牌的吧?

雷: 挂过牌的。

苏: 工宣队的情况是怎么样的。

雷: 当时工宣队队长是吕应潮, 工作人员有4个。在干校, 我们既是领导又从事干校和上级的联络工作。在干校工作一年多, 我又回到城里团部的办事处。工作地点就是现在绍兴路的上海文艺出版社。1977年干校解散之前, 我参加了干校最后一期的轮训, 时间大概有半年之久。所以说干校的开始和结束我都有幸参加了。

苏: 您还记得在五七干校的主要工作吗?

雷: 我主要从事文字整理、革命思想宣传工作。当时给我留下深刻印象的有两次大的活动, 一个是要求知识分子到上海各个工厂去体验劳动的“战高温”, 另一个是号召知识分子到外省市去工作的“四个面向”。

苏: 您在这一段时期也碰到一些大的批斗吧?

雷: 1973年批判黑线回潮的时候, 有一个画家刘旦宅。

苏: 对。刘老是我们上海师范大学美术学院的名誉院长。刚刚去世不久。

雷: 是的。他当时是隶属于上海教育出版社的一位画家, 画了一幅画叫作《琵琶行》, 被认为是攻击社会主义, 于是, 针对他掀起了“批黑画”运动。还批斗过一位上海煤气公司的职工, 名字记不清了。

苏: 批刘的时候是在哪里批的?

雷: 当时刘本人就在干校学习, 这幅画也是在干校画的, 所以批斗也是在干校批的。

苏: 当时的批斗很残酷吧?

雷: 是的, 记得有一个年轻人姓陈, 是党员, 遭批判, 妻子还怀孕, 就在靠海边的地方投河自尽了。他怕自己挣扎, 还把自己的手脚绑上。对于他, 我是很同情的。出版系统因批斗而死的大概就他一个人了。还有桑伟川跳粪坑自杀没有成功。

苏: 陈自杀的原因是什么呢?

雷: 他是解放出版社的。说他篡改毛主席著作。因为他喜欢收集资料, 把《毛泽东选集》的不同版本收集起来, 前后对比不同之处, 然后把改动的地方进行考证, 于是被打成了现行反革命。

苏: 我们从材料上看当时干校的规模还是挺大的?

雷: 当时干校分两个营。一个是新闻、报社、电视台, 一个是出版社、书店, 一个营又分若干连。我们出版局机关是12连, 全校鼎盛时期有20多个连, 2000多人, 军代表是韩忠礼, 工宣队领导是沈鸿寿, 都长驻干校。当然, 出版局机关还是留了人的。但都是些老弱病残, 组成一个上海市出版革命小组留在绍兴路了。我有时也把出版社的一些工作带到干校去做, 比如做一些毛主席的大字本。

苏: 当时住宿情况是怎么样的?

雷: 作为工宣队成员第一次到干校去的时候条件比较艰苦, 住的都是尖刀连盖的茅草房, 用芦苇隔开。后来条件好一点, 是砖瓦房。我们工宣队稍微好一点, 四个人一间房, 学员大概七八个人住一间吧。学员大概一个月能回城里的家一次。

苏: 学员里面有没有夫妻分开住的?

雷: 肯定有, 因为条件有限, 没有夫妻房。像人民美术出版社有一对夫妻, 名字记不清了。其他肯定还有。

苏: 平时开会在什么地方?

雷: 就在学校的食堂, 比较大, 茅草屋。

苏: 有洗澡的地方吗? 有男女之分吗?

雷: 后来应该有的。在食堂附近, 有水塘, 有锅炉房。但澡堂开放时间有限。一般大家就在锅炉房里打点水回宿舍稍微洗一下。一开始也没有男女之分, 后来应该有的。

苏: 干校收尾的时候有财产吗?

雷: 有一点。但具体情况就不太清楚了。

苏: 在奉贤的时候那里出版社里作家也不少。

雷: 是不少。像刘金。因为大毒草《战斗的青春》被批。还有少儿作家陈伯吹, 但对他的批判不是重点。

苏: 雷老师记性真好, 很多细节记得很清楚, 谢谢您!

(二)

采访时间: 2012年10月20日
采访地点: 上海市斜土路沈寂先生寓所

沈寂 ( 1924上海-)，原名汪崇刚，笔名汪波等, 原籍浙江奉化。复旦大学西洋文学系肄业。20世纪40年代初开始写作, 曾主编《幸福》、《春秋》等杂志。后去香港任电影编剧, 编写《中秋月》、《狂风之夜》、《一年之计》等十部电影剧本。1952年, 被香港政府驱逐出境，回上海入上海电影制片厂, 任编辑、编剧。著《上海大亨》、《上海大班》、《上海大世界》等。

[采访者按] 1968年, 已经44岁的沈寂与他所在的电影系统的同事一起被下放到了奉贤五七干校, 据沈寂回忆, “文革”中开始的“斗批改”, 电影系统首当其冲, 而他所在的天马电影厂又是电影系统搞得最早的, 等到他去奉贤五七干校劳动改造时, 大部分人已经回到“革命队伍”了, 而他仍然是“牛鬼蛇神”。但是那时厂里的包括导演、演员甚至工人等都到五七干校去劳动, 当时领导说电影厂的工人也是知识分子, 也要接受改造, 连厂里的造反派也到了五七干校。在采访中, 沈寂回忆了他在五七干校时的所见所闻, 以及他的同事们所发生的故事。

到干校后, 我们最早开始造房子, 刚开始用芦苇, 后来用砖头; 后来插秧啊, 挖河啊, 什么活都干。冬天挖河泥, 下面的人用铁锹把泥巴往上扔, 上面的人再将泥挑走。

那时奉贤农村经过自然灾害, 没有什么东西吃, 我们电影系统将近1 000人, 没多少菜吃。我们种的菜自己都不够吃。什么活都干。当时的农民对我们干校这些人说过几句话: 衣服最破, 吃得最差, 学历最高, 工资最高, 斗得最苦。

我是在文学部的, 跟美工组一起, 我们将近十个人挤在一个小房间里, 组长是著名演员中叔皇。当时我睡上铺, 基本上是白天劳动, 中午休息, 晚上开会。

当时干校的造反派也受工宣队领导, 工人阶级领导一切。在五七干校发生了很多事情, 至今令我难忘。

顾而已绝望自杀

老演员顾而已与我非常熟悉, 我们关系非常好, 他出身资本家, 长得很胖, 不能劳动, 他开始没有去干校, 在家里接受改造。1970年6月份有一天, 造反派到他家里, 把他押到了干校, 并马上召开群众批斗大会批斗他。我们很多人都感到很奇怪, 说他“炮打无产阶级司令部”, 攻击江青! 这个罪名可是很重。我们都不敢相信。顾而已否认, 结果工宣队就拿出一封信来让他看, 看完信后, 顾而已面露绝望而失落的表情, 一声不吭了。原来这封信是他的老婆写给造反派揭发他, 说他曾说江青的坏话。没想到他老婆竟然揭发他, 他也没有什么好说的了。

顾而已怎么会说过江青的“坏话”? 这跟当年上海一桩著名的集体婚礼有关系。而这个著名的集体婚礼就是发生在1936年4月风景如画的西子湖畔, 证婚人是沈钧儒, 主婚人是著名导演郑君里, 三对新人是赵丹与叶露茜、顾而已和他的前妻杜小鹃, 还有蓝苹 ( 江青) 与唐纳。顾而已曾跟他当时的老婆讲过当年这件事情……没想到, 这却为他带来了意想不到的灾难。

第二天早晨起来, 我去吃饭, 在外面碰到了顾而已, 他坐在宿舍对面的一个椅子上, 面无表情。我对他说, 老顾, 去吃饭吧。他说, 你先去, 你先去。等我吃好饭后回来, 听到他房间里有人哇哇大叫, 一个医生正在给他做人工呼吸。原来顾而已上吊自杀了! 就在他去干校的第二天, 他拿了一根绳子, 坐在床上把自己勒死了。

我跟顾而已太熟悉了。在香港我们曾合作拍过很多影片, 在上海他也拍了很多好的影片, 他这个人对人非常好, 没想到竟然是他的亲人“害死”了他。这让我们所有的人感觉到, 白色恐怖就在身边。我知道, 他是绝望了, 他的绝望不在于“运动”, 而在于亲人, 连他最亲的人都这样对他, 他活下去还有什么意思! 他老婆过去曾经当过舞女。“文革”之后我们给顾而已开追悼会, 他老婆竟然也来了。赵丹当场把他老婆骂了, 赵丹和顾而已都是南通人, 他们关系也非常好。我感到一种前所未有的人性失落, 这场运动是每个人灵魂的大暴露。

桑弧“不爱红装爱武装”?

著名导演桑弧那时在五七干校也是经常被批斗的对象。经常在我们劳动时就接受批斗。记得有一次在插秧时, 天上还下着雨, 工宣队突然要批他, 他没有穿雨衣, 于是他就在田地里淋着雨挨批。

桑弧不太爱讲话。有一次, 我们被一起拉出来斗, 因为我们都是属于“三名三高”, 三名是指有名的人, 三高是高报酬、高工资、高职位。这次为何要批他呢? 原来是因为1965年桑弧拍了一部电影《上海之春》, 这是一部大型的歌舞剧。当时桑弧选用了毛泽东写的一首诗《为女民兵题照》, 因为里面有一句这样写道: “中华儿女多奇志, 不爱红装爱武装”, 那么如何在舞台上来表现呢? 武装, 可以让演员穿军装; 红装, 他就找了两个女演员穿红色的衣服。于是, 造反派就抓住这件事来批判他, 并当场打他……后来桑弧对我说: “我以后再也不拍电影了。”

汤晓丹“怀念蒋光头”被批

著名导演汤晓丹在五七干校是属于“隔离审查”的对象, 为什么他被下放到五七干校呢? 这也跟他曾拍过的一部影片《红日》有关。

《红日》是天马电影制片厂1963年拍的一部电影, 汤晓丹是导演, 主演有张伐、高博、杨在葆等。由于拍这部片子的时候天气很热, 汤晓丹本来是有头发的, 一场戏拍下来他感到非常热, 于是为了方便, 他就把头发剃掉了, 而这, 成为他的重要“罪行”, 造反派说他剃光头是“怀念蒋光头”, 无疑是给他按上了“莫须有”的罪名。

发生在舒适身上的“人间悲剧”

演员舒适在五七干校中也是“隔离审查”的对象。他的社会关系比较复杂, 妹妹在台湾, 因此他的“问题”比我们严重得多, 我们每个月可以回家一次, 他和汤晓丹是不能回家的。舒适的妻子慕容婉儿也是著名的电影演员, 拍过很多电影。舒适在五七干校劳动改造时, 婉儿不幸得了癌症, 这更让这个家庭雪上加霜。

有一天下午, 妻子的妹妹在厂里造反派的陪同下来到干校, 找到舒适说, 他妻子病得很厉害, 想让舒适回家看望一下妻子。当着造反派的面, 舒适说我不回去, 让我回去, 必须把我的问题搞清楚。没有问题为什么把我“隔离审查”? 我知道, 他是故意这样讲的, 平时不让我回家, 妻子病重才让我回家。

后来在妹妹的劝说下, 他同意回家了, 由干校的造反派押着他回家, 并必须当天返回。当时从奉贤干校到他在市区的家要一个多小时的车程。辗转回家后, 他看到婉儿在病魔的折磨下已经疼得昏过去了。于是舒适招呼她一下, 将她叫醒。她掉眼泪了, 没想到舒适会回来看她。舒适心里难过到了极点, 一下子说不出话来, 没想到妻子病重到晚期, 而子女都不在身边。二人就这样相视着, 病重的妻子嘱咐他一定要相信群众相信党, 他的事情一定会搞清楚。讲完这句话, 妻子又昏过去了。妻子的妹妹让他等妻子醒过来再走, 舒适说我不等了, 我就这样走吧, 再等她醒过来, 我更走不了了。于是, 造反派当天就要把他押回干校了。

第二天早上, 舒适接到电话: “婉儿没有醒过来。”舒适听到后大哭起来, 我当时就陪在他身边, 安慰他。这简直就是人间悲剧。舒适演过很多悲剧, 但却没有比这个更悲惨的了。

董霖床下的一张报纸

我们这里有一个演员叫董霖, 老是演反派人物。他在五七干校时, 也发生了一件意想不到的事情。

由于我们睡的是木板床, 上面铺个席子, 夏天嘛, 一般会在下面铺张报纸, 这也没有什么问题。没想到, 有一天有人把董霖铺的席子拉开一看, 是一张解放日报报纸, 可怕的是, 报纸上还印有毛主席的头像……于是, 他当场被打为“现行反革命”, 性质相当严重。董霖感到莫名其妙, 没想到后果这么严重。

丁景唐打扫礼堂引发的批斗

我们是属于电影系统, 在奉贤时隔着一条小河浜就是出版系统, 因此隔壁搞批斗喊口号, 我们都听得很清楚。

丁景唐是我的老朋友, 上世纪40年代我们就认识了。他当时是出版局局长。在五七干校时属于出版系统。因为我们离得不远, 所以经常一起劳动。

有一次, 派他去打扫礼堂, 他看到礼堂上的石雕毛主席像上布满了灰尘, 于是就用扫帚去扫。不巧这一举动被造反派发现了, 竟然敢用扫帚扫毛主席像? 这简直是重罪! 于是他立刻被批斗, “打倒丁景唐”口号传到我们这里, 我当时不知情, 还问别人为什么要打倒丁景唐。

我在干校读完了22本《马克思恩格斯全集》

我在干校是属于“审查对象”, 白天跟革命群众以及造反派一起劳动, 晚上学习。但是“牛鬼蛇神” 是不能参加学习的, 而我的问题没有解决也不能参加, 于是他们在宿舍里开会学习, 我就到外面去。

夏天蚊子多, 没有灯。我们那里有一个图书馆, 是一个很大的房间, 而且还有电灯, 一个小青年在那里管理, 他下面还点着蚊香。我没地方去, 就跟造反派说我要到图书馆去。造反派同意了。我跟小青年讲了, 他很欢迎我, 他说你来了, 我可以睡会觉了。

图书馆里的图书不多, 大部分是毛选, 还有农村赤脚医生手册什么的, 最让我欢喜的, 是有全新的《马克思恩格斯全集》。按说“牛鬼蛇神”不能看这种书, 我们连毛泽东头像都不能戴, 他们唱毛泽东语录, 我们就在旁边低头认罪。我想, 我就看这个书吧。

于是, 差不多每个晚上, 我都去看一个半小时。我看得很快, 不久全集22本就全部看完了。我对《资本论》的理解, 也就在这个时期。马克思写了五分之二的内容, 恩格斯写了五分之三。我被恩格斯深深地吸引了, 他的自然辩证法、社会发展史尤其吸引我, 由于在干校的劳动, 使我对这些问题的理解有了更深的体会。社会发展史我反复看, 对生产力与生产关系有了深刻的理解。我感到推动社会前进的, 是经济。但是当时不能做笔记, 也不能讨论, 我只能反复看, 反复想。因此, 进干校后我收获很大。马克思是经济学家, 他看到了经济对社会发展的作用。很科学, 很辩证。

“打倒沈寂”

我在干校和革命群众关系都处得很好, 有一次一个人事科的干部跟我讲, 你不要留在电影厂了, 有机会就走吧。他说运动结束他也走, 电影厂不是好人待的地方。看来, 大家对有些问题还是看得很清楚的。

由于我之前在香港写过不少东西, 存下来一些稿费, 是港币, 抄家的时候全部抄走, 被“冻结”了。

在干校的时候, 他们查这个问题, 查来查去查不出问题, 我就被“解放”了。有一次中午我在午睡, 中叔皇叫我说: “沈寂, 我去小便。”我便跟着一起出去了。出去后, 中叔皇对我说: “沈寂, 下午开会要斗你了! ”我问为什么, 他告诉我说: “那些港币啊, 被冻结的港币, 问你怎么处理, 你要表态, 千万不要说还给你。”后来下午工宣队果然召开我的批斗大会, 说: “沈寂, 你站起来, 你去香港放毒, 赚了很多港币啊, 你打算怎么办?”我说: “没收, 没收! ”中叔皇于是紧跟着说: “打倒沈寂”, 好, 批斗会就这样结束了。我知道他是在保护我。

接下来, 是去工厂战高温。由于工厂缺乏劳动力, 我们这些人被派到工厂去战高温, 一听到这个消息, 大家高兴死了, 因为不仅可以拿工钱, 也可以经常回家了。后来轮到我, 工宣队的人对我说, 你不是去战高温, 你是被清除出文艺队伍。我说好, 清除。我当时对电影绝望了, 宁可离开电影厂。当工人就工人嘛。当时整个电影系统就我一个人被清除出文艺队伍。

后来, 我去了燎原化工厂、光明化工厂等, 当起工人来。我在工厂待了六七年, 还升了车间主任, 它们一个生产厂长还让我担任副厂长。后来我回到电影厂做编辑工作, 一直到退休。去年上影厂成立60周年, 发给我一个奖状: “杰出的电影艺术家”。从香港被驱逐出境, “文革”中被清除出文艺队伍, 现在又是杰出, 我经历的“三出”, 是这个我们中国许多知识分子命运的缩影。不过, 我一生的青春才华没有白付出, 最后得到了肯定。

采访时间: 2012年11月24日
采访地点: 上海市中山西路518弄

武振平 (1927江苏扬州-)，1946年入复旦大学新闻系学习。1949年起在上海解放日报工作, 历任编辑、记者、评论员、文艺部副主任( 主任姚文元) 。“文革”后, 任上海社会科学院文学研究所副研究员, 1990年离休。著《冲开的闸门——当代文学题材问题》、《敝帚集——文学论文随笔选》、《速朽集——杂文散文选》。

第一次下马威

我记得很清楚, 第一天去五七干校我们就栽了一个“大跟头”。1969年11月份, 还没有进入冬天, 《解放日报》派一辆大卡车将我们一车人从市区拉到了奉贤海边的五七干校。那时奉贤海边完全是一片荒滩湿地, 一大片的芦苇荡。虽然前头部队已经去“扫荡”了一遍, 除掉了很多芦苇, 但还没有正常的道路, 到处是泥地, 卡车开到那里, 一下子陷了下去, 我们在车上感觉卡车渐渐地倒下去了, 幸好全车只有一个同事受了伤, 不过, 这第一天的经历, 还是给我一个始料不及的“下马威”。

我们到的时候, 先遣部队已经盖好了草棚房子, 是泥土房, 芦苇上面涂上泥巴, 上面再用草棚盖上, 很简陋的。我们《解放日报》是17连, 差不多100个人, 一个宿舍有4张床, 上下铺共8个人。

到干校后, 我们就开始劳动了。一开始是去挖河, 因为那边是盐碱地, 不能种庄稼, 因此要挖很多河沟将水引进来, 挖差不多三四米深, 四五米宽。天天挖, 越挖越深。在下面将泥巴甩上去, 我那时四十岁不到, 有的是力气, 但是甩多了, 后来肩膀就疼了。后来挑粪, 插秧, 盖房子, 养猪, 种田, 什么活都干。我们自己盖房子。干校里面原来没有大食堂, 我们就盖食堂。因为我们都是新手, 就跟着干校的一些老师傅盖, 他们比较有经验。盖好后的食堂看起来有七八米高, 因为没有水泥和钢筋, 我们就用木头。我们原来都没有做过体力劳动, 不会种地, 不会盖房子, 因此这也是一种难得的体验。

当时文艺活动也很多, 打乒乓球啊, 每个连都有乒乓室; 唱歌, 还有舞蹈队。大家也在大礼堂组织放电影。后来我们就读书, 读马列主义等。

马达掉到河里去了

劳动也有危险。当时五七干校的许多生产物资和生活物资都是从市区运过去, 有的用卡车, 还有的要用船载, 从黄浦江的小河道运到奉贤的柘林, 那里当时是一个港口。我们的任务就是将这些生产和生活物资从船上运到岸边, 然后挑回干校。然而从船上到岸边要经过一条又细又长的木板, 我们就踩着这条木板来回扛东西。由于跳板很窄, 而且我们肩膀上还扛着很重的东西, 因此这段路非常难走, 也发生过危险的事情。

记得有一次, 《解放日报》总编辑马达在扛东西的时候从跳板上掉下河了。那天我正好不在, 突然听到有人喊马达掉下河了, 马达当时劳动也很卖力, 因为他是走资派。我很吃惊, 工宣队也很害怕出事情, 马上把他送到医院了。当时我们觉得很危险, 但是也不敢讲, 因为当时号召我们劳动要 “一不怕苦, 二不怕死”。

张乐平爱“吃老酒”

在干校时我跟张乐平一个宿舍, 他在《解放日报》负责画连环画。他这个人蛮有趣的。

张乐平有一个特点, 他要吃酒。他嗜酒如命, 晚上他在编辑部美术组画插图, 有时我找他聊聊, 聊到很晚, 他就喝老酒。当时他在编辑部里当着我们的面讲话时, 酒气熏天。我说你又喝酒了, 他就笑笑, 我就调侃说他是酒鬼。到了干校后, 每天还是喜欢喝酒。那时喝酒是违反纪律的, 但他不管, 天天喝。这也没办法, 他不喝不行。他的酒从哪里来呢? 当时干校附近有一个镇 ( 名字我忘记了) , 在柘林附近, 他就经常去买些酒来喝。当时工宣队啊军宣队大家心里也都有数, 知道他爱喝酒, 也管不了, 也就算了。

后来我问别人, 张乐平什么问题来干校啊, 那个人说他是美国特务, 他在抗战时在美国新闻处工作过, 不过他那时主要是画漫画抗日。

“你救了我一命”

“文革”后, 有一次我陪香港一个朋友去家里看望张乐平。谈到“文革”时期在五七干校时, 张乐平对我说: “武振平, 谢谢你救了我一命, 你救了我一命! ”我感到很奇怪, 我说我怎么会救了你一命呢? 原来, 张乐平有小肠疝气这个毛病, 很麻烦的。有一次在干校, 他的小肠疝气复发了, 他这个毛病定期复发, 发了之后就要马上抢救治疗。那时我们一个月可以轮换着回家一次, 他突然疝气发作了, 必须回去治疗, 这次正好轮到他值班, 不能回上海, 我正好要回上海, 他就跟我商量说: “武振平, 你帮帮忙, 你替我值班, 我要回上海去! ”我说可以啊。后来他回到上海后马上抢救, 要是耽误了就糟糕了, 所以张乐平很感激我。

批尚古山房老板

当时我们每周开大会, 连里开小会, 搞批斗, 后来由于我表现好, 被调到了尖刀连。尖刀连由各个单位抽出来的人组成, 主要成员是上海书店和新华书店的, 还有上海解放初期很多私营书店的老板也到干校来接受再教育。批判他们什么呢? 他们卖书的有什么好批判的呢? 我记得有一次批一个书店的老板, 特别有趣。

解放前上海有一个很有名气的书店叫尚古山房, 专门印字帖的, 他的老板 ( 名字我忘记了) 是个光头, 因为当时每个连队每个星期都要开批判大会, 那么找谁来批判呢, 这要动脑筋的。大家当时都找他批判, 这个人也无所谓, 已经麻木了, 每次都只有一句话“我有罪, 我有罪”。大家都偷着笑。这个人有个爱好, 就是喜欢旅游。有一次, 他去蒋介石的老家溪口去旅游, 当时去旅游的人也不多, 他还带了一个小青年, 后来工宣队问他, 你为什么到那里去旅游? 他只好说: “我有罪, 我有罪。”

批判刘金大会

刘金是文艺批评家, 当时在上海很有名气。有一次干校召开了全校性的批判刘金大会, 这是比较严重的。为啥呢? 因为江青点了他的名。

他当时是文艺出版社的编辑, 编了一本小说叫《战斗的青春》, 是写河北抗日战争时期的故事。江青为何点名批判他呢? 这个小说的作者是天津文联主席雪克 ( 原名孙振) , 江青批他是“走资派”, 是“文艺黑线的代表人物”, 江青批他, 也连带着批判刘金, 说他是三青团。实际上刘金是抗日时期的三青团, 后来也成为一名共产党员。鉴于此, 到了干校, 刘金也成为一个很好的批判对象。他“档次”很高, 到全校批判, 各个连队组织发言, 批判他的材料到处都是。当时我们连长让我写批判材料, 当时这种事已经是家常便饭, 我一边写材料, 也觉得好笑。后来我们连长念, 我们都偷着笑, 感觉像是一场闹剧。刘金由于被批得多了, 他也不在乎了, 只是说“有罪有罪”。

记得开刘金批判大会时, 是在我们那个大饭厅里, 大家都带着一个小板凳, 围坐在一起, 一边批判一边喊口号: “打倒小爬虫! ”为啥说他是“小爬虫”呢, 因为江青当时批评他是“小爬虫”。

戴季安写《干校的黄昏》

译文出版社的戴季安, 大家叫他“十八戴”。在干校也有过几次小批判。有一次我们在干校里办墙报, 办墙报我们编辑是拿手活, 因此就叫我们来办。戴季安当时写了一篇稿子叫《干校的黄昏》, 描写在干校里每到黄昏大家劳动归来的景象, 为了扫除一天劳动的疲劳, 大家有的唱歌, 有的拉手风琴, 有的跳舞……一片热闹景象。本来也没什么问题, 突然工宣队要批判他, 问他怎么不写 “干校的早晨”? 为何要写“干校的黄昏”? 是不是希望干校到末日了? 于是, 他也很无奈地接受批判, 其实这本来是一篇很好的散文。

柴子豪插秧“碰钉子”

柴子豪是当时上海宣传部文艺报刊处的处长, 他也在五七干校接受劳动改造。记得当时我们在干校插秧时, 他碰了一次“钉子”。当时我们插秧的地方在海边的水田里, 水田是人造的水田, 虽然经过清理, 把水灌到里面一遍一遍地冲洗, 但是泥土里仍然不干净, 有一些“杂物”。因为插秧时要赤脚下去, 脚难免会受伤。有一次, 柴子豪刚刚脱了鞋把脚踏入水田里, 就哇哇地大叫起来, 把脚拔出来一看, 木板上一个铁钉子插入了他的脚底板, 痛得他要命, 后来马上被送到医院去了。后来他在家休息了一个多月才回到干校。

当时在干校接受改造的还有《解放日报》总编辑王维; 文艺出版社老总江曾培; 还有郝铭鉴, 他是政宣组的组长。

我于1974年年初回到上海, 在干校里待了四年。经历了这些事情, 我们对干校的感情是很复杂的, 本来是对我们的一种惩罚, 但是也让我们学会了劳动。

转自史林 Historical Review 2014年S1期

2026-03-02
孟天广：计算政治学的双重意涵：计算的政治与政治的计算

近年来，以ChatGPT等为代表的生成式人工智能推动了社会智能_{（Social Intelligence）}与机器智能_{（Machine Intelligence）}的深度交互与融合发展，其中，社会智能是指人类社会通过经验积累、演绎推理和知识生产所形成并传承的集体智能，而机器智能是指计算机通过高效计算、算法驱动、数据训练所形成的内容生成能力。而今，以 DeepSeek 为代表的开源大模型的普及应用，更是加速了社会智能与机器智能深度融合的进程，这对国家治理体系的构建乃至人类政治文明的发展带来了深刻影响。

在这一背景下，国家治理数字化转型成为时代命题，“科技革命”和“治理革命”的碰撞促使数字国家兴起。数字国家的兴起绝非单纯将大数据、人工智能、区块链等新技术应用于国家治理场景，而是国家形态的重塑、国家运行的变革和国家范畴的拓宽。一方面，数智技术促使国家形态、国家结构、国家社会关系快速演变，促进以数字治理、数字民主、数字科层制、AI 决策辅助等为代表的新生政治萌芽，这不仅给政治学乃至社会科学的既有知识体系带来了挑战，也为政治学知识体系更新创造了新机遇。另一方面，人类社会的数字化转型给社会科学研究范式转换带来了新空间。人们在互联网和移动设备上留下了海量可追溯、可分析和细颗粒度的行为数据，蕴含丰富的社会属性和关联关系，为刻画个体行为、社会运行和国家治理提供了新范式。因此，作为计算科学与政治学的交叉领域，计算政治学_{（Computational Political Science）}的快速兴起并成为政治学新生学科，有力推进了数智时代政治学理论与方法范式的创新。

数字国家的兴起

在人类政治文明的重大进程中，科技革命作为生产力飞跃的动力始终发挥着驱动国家治理体系变革的基础性作用。21 世纪以来，以信息化、数字化乃至智能化为核心特征的新一轮科技革命正在驱动一场全球范围内的治理革命，数智技术应用于国家治理的实践日益丰富、场景日趋多元，从而推进数智技术与治理实践的深度融合乃至互嵌重构，推动数字国家的兴起。信息化凸显了国家运行过程中信息处理效率的极大提升，在过去二十多年中推动了全球范围内电子政府_{（EGovernment）}的建设；数字化以数据为新生治理要素，运用数字技术破解了信息流动与时空的交互边界的难题，正在推进面向数据、基于数据和经由数据的数字政府_{（D-Government）}建设进程；在信息化和数字化基础上，智能化方兴未艾，通过数据驱动、算法支撑、算力保障构建强大的信息处理和内容生成能力，正在深度介入政务服务、政民互动、政务办公和决策辅助等国家治理全过程。以上实践进展，为我们认识和刻画数字国家的特征属性及运行机制奠定了充分而坚实的实践基础。

伴随数智时代的来临，数字国家逐渐兴起，并成为全新的国家形态。理解数字国家的兴起与发展，需要关注与其同步演化的两个方向：一是数智技术赋能国家，推动国家结构变革、治理技术更新，如数字治理体系、数字科层制的兴起；二是数智技术赋权社会，带来公众参与的爆炸式增长以及数字连接的社会团结方式、基于虚拟网络的组织协同方式的重构等［6］。简言之，数智技术在通过赋能国家和赋权社会的双重机制深刻影响国家治理进程的同时，也推动了强国家与强社会的协同发展。这既影响着现代国家形态的演变，也促进国家组织结构、国家-社会边界、国家运行机制发生巨大变化，还给科层制、结构论、关系论等传统理论认知带来巨大挑战，而且孕育着新理论形成的时代机遇。

数字国家的兴起给政治学研究带来以下两个方面的深刻影响：

一方面，政治学经典理论面临适应性困境。经典的国家理论、民主理论、权力理论等面临着理论重构的时代需求，这给中国政治学在新时代推进经典政治学理论的新发展、新拓展带来了创新契机。与传统国家相比，现代国家致力于解决超大规模和内部复杂性的治理挑战难题。现代国家通常采取横向分权、纵向分层的国家形态，这一国家形态有利于通过合法性塑造、理性化控制、层级化运行、效用导向激励的有机融合来提升国家能力，即所谓的“科层制国家”或“多层级治理体系”。

而今，数字国家的来临正全方位地重塑国家形态。一是国家组织形态正在从科层化、部门化变迁为扁平化、协同化。传统依赖正式制度和组织边界来加以界定的政府架构正在日益模糊化，跨层级、跨部门、跨系统的业务协同和统筹联动正在快速扩张，基于数字技术的业务流程重塑和组织结构变革正在快速推进，适应于数智时代的整体性政府成为世界各国政府改革的共同方向，同时国家治理数字化转型下的新组织机构、新制度规则、新协同机制已经在近年来的政府改革中成为现实。二是国家运行场域快速向数字空间拓展并日益与物理空间、社会空间深度融合。基于三重空间耦合效应，面对新生数字空间的公共问题和治理难题，国家权力通过进入数字空间建立新机构、新规则和新能力，加快推进政府数字化转型来促进数字空间与物理空间、社会空间融合，进而在优化国家治理体系的同时，提升国家治理能力。三是信息日益成为国家治理的基础要素和国家运行的关键机制。伴随着第四次科技革命加快推进，大数据、人工智能等科技快速迭代并渗透到日常社会运行中，数据、算法、算力等数智技术本质上都是信息技术，其广泛应用不仅切实提升了国家汲取、处理和应用信息的能力，而且增强了国家克服超大规模和超复杂性难题的能力。四是国家社会边界进一步模糊化，国家社会关系呈现交互性和协同化。数智技术的普及应用促使国家社会间信息交换成本进一步降低，政民互动渠道和机制进一步亲民化、普惠化，政府与社会间双向触达和协同交互成为国家治理的常规机制和常态模式。

另一方面，进入数智时代政治学前沿议题正在快速拓展。数智技术嵌入国家治理体系也产生了一系列新生政治现象，在数字治理、算法治理等技术治理逻辑的影响下，大数据、区块链、人工智能等技术工具被日益广泛地应用于国家治理实践，数字服务、数字监管、数字民主、数字协商等逐渐成为现代国家标配，成为现代国家实施理性化管理、科学化决策、精准化干预、交互性服务的新工具、新技术，这些现象推动着政治学新的研究领域、理论概念、研究范式的迭代发展。究其根源在于数智时代国家计算与社会计算两大系统的形成和快速发展。

国家计算_{（State Computing）}源于数智技术赋能国家，尤其是以数字政府在全球兴起并成为政府改革的新趋势为代表，集中反映为数据、算法、人工智能等新治理要素进入政府体系中：一方面，通过技术赋能对传统政府组织结构、规则制度、政府间关系产生重塑效应，即“科层政府数字化”；另一方面，加快了基于新要素的政府治理体系构建，如数据治理、算法治理、算力基础设施、智慧城市等，即“数字政府科层化”。

表1比较了国家计算与社会计算的特征差异，国家计算重在国家政治或行政事务，尤其是针对政治系统内部运行过程的各个环节，如政治决策、政策执行、监督问责、考核激励、政治安全等进行常态化和泛在性计算。国家计算系统在设计与构建时的核心逻辑是简约化和标准化，即通过标准化程序和技术工具对多来源、多模态、多属性的国家运行数据进行简化处理和理解，由此计算主体主要由采取中心化、科层制组织结构的行政体系来实施和运行。这确保了国家计算系统的制度化、稳定化和高效化运行，为简约化、标准化计算提供了组织基础。从这个意义上来讲，现代以来兴起的国家统计体系、登记认证体系、财税审计体系以及数智时代产生的数据治理体系、计算传播体系、国家算力基础设施等，均为现代国家治理实践中国家计算的典型案例，集中反映了现代国家治理体系中国家计算系统的关键性和基础性。

社会计算_{（Social computing）}则源于数智技术赋权社会，随着移动互联网和智能化应用的普及，计算系统与社会系统日趋深度融合，基于社会过程的高效计算与经由计算系统的社会协同在同步演化。一方面，广泛覆盖的互联网基础设施和弥散的数智化应用，为基于全社会的数据、算力和智慧提升计算系统运行的效率和效度提供了社会基础；另一方面，计算系统正在广泛嵌入社会运行的方方面面，为构建社会连接、加速社会交互、培育信任文化、促进社会协同提供了技术基础。由此社会计算也成为国家治理体系不可或缺的计算系统，并与全球范围内虚拟结社、社交媒体的快速扩散深度融合，进而深刻影响公共表达、数字参与乃至国家-社会关系的底层逻辑。

过去二十年间，社会计算系统正在重构公共参与、民意表达、协商议事、民意汇集等全过程，有力推进了数字时代民主模式的迭代与发展。不同于国家计算，社会计算重在社会或社群事务计算，尤其是围绕社会系统运行过程、国家社会互动过程，如在社会复杂性感知、社情民意分析、社会心态计算、公共舆论治理等领域的计算式治理。社会计算系统的设计逻辑尤为强调理解或应对复杂性，这与社会构成及运行的复杂性高度关联，因此非标准化地处理多样化数据和解读多维度信息是其内在特征。为了应对复杂性和发挥非标准化计算的优势，社会计算体系更依赖于多元主体的广泛介入和深度协同，如社会公众、专业机构、社会团体、媒体和社群网络等均为社会计算的主体，不同主体间通过构建生态性网络和发挥志愿性、互惠性优势来实现合作与协同。社会计算的早期雏形可以从哈贝马斯对近代欧洲城市社群中公共领域的论述中得到启示，数智时代的社会计算早已打破对物理空间和社会空间的依赖，而是在虚拟空间中构建起基于社会网络、社会关联的感知、认知乃至模拟社会运行的计算系统，为应对智能社会的复杂性提供了社会性基础设施。

计算的政治与政治的计算

“计算的政治”重在对人类政治文明发展中的国家计算或社会计算实践展开政治学分析，以帮助我们认识国家计算或社会计算的政治规律和政治过程；“政治的计算”则重在从方法论意义上对政治实践或政治现象进行计算化研究。

虽然计算政治学方兴未艾，但“计算的政治”，即对公共事务相关各类信息（数据）进行采集或处理的政治实践，如数量化度量、数目字管理和计算式治理源远流长。从早期国家到现代国家再到数字国家，信息始终是国家构建和国家运行日益重要的要素和机制，对政治过程、政治生活产生无处不在的渗透性影响。在东西方文明发展中，早期国家在构建过程中已经出现了各式各样的“数目字管理”，如人口登记、田亩登记等。在现代国家构建过程中，超大规模国家逐渐成型，因此在高度复杂且异质性强的超大规模国家中如何实现有效治理就成为国家构建的核心命题，统计、登记、认证等国家计算系统快速发展成为现代国家的必要构成，政府则在治理实践中形成了数字、地图、图表、标准、指数等治理技术。总之，无论是早期国家，还是现代国家实践，都充分展示了“计算的政治”具有悠久的传统。

计算的政治尽管涉及数据、算法、算力、人工智能等与计算相关的具体技术，但这些计算技术本质上都是在分析或理解信息的角色、作用或功能。因此，计算的政治重在理解政治过程的信息基础。值得关注的是，进入数智时代后，信息早已超越了传统意义上作为要素和机制的角色，正在成为一种新的智能体_（Agent），其具备能动性和主体性，既能够实施干预、监管和规制，也产生了无处不在的政治影响。概言之，一系列将信息作为要素、机制和主体的新生政治实践，均成为“计算的政治”这一路径的研究对象和理论要素。

不同于“计算的政治”的源远流长，“政治的计算”，即对政治实践或现象的实证化研究范式，如定性分析、定量分析或大数据分析等研究方法则兴起于近现代社会科学。社会科学的方法范式在不同科技条件下经历了多次范式转换，经历了宏大理论叙事（规范分析）、比较历史分析（定性分析）、行为主义革命（定量分析）乃至当下日益兴起的计算社会科学（大数据分析）。政治学引入计算范式具有积极意义，计算方法为政治学研究提供了丰富且多元的数据，在将半结构化、非结构化的多模态数据纳入政治分析的同时，也将机器学习、深度学习等新方法引入数据处理与分析中，显著提升了政治现象的跨学科研究能力。

长期以来，“政治的计算”存在两种范式：一是理论驱动的定量研究范式。该范式源于社会科学实证主义传统以及近代以来现代化进程中政治算术这一政治实践的快速扩散。现代统计学的诞生本质上源于西方国家现代化进程中日益普遍的数目字管理及其相应的科学研究范式。二是数据驱动的大数据研究范式。进入数智时代，伴随人们能够在更多数据、更广范畴乃至更大尺度上采集和分析数据，科学研究的“第四范式”也正在发挥日趋重要的作用。数据驱动范式不再需要预先设定的理论模型或研究假说，而是利用超级计算能力直接分析海量数据来理解社会运行的规律和趋势。这一范式转换直接推动计算社会科学蓬勃发展。

对于理论驱动与数据驱动范式的差异，James Evans 专门讨论了从理论驱动到数据驱动范式转换的根源。他认为，在前数字时代，因为收集数据成本高昂，研究者通常困于数据缺乏状态，因此只能发展“强模型”_{（Strong Model）}，即好的理论和模型来生产社会知识。数智时代的来临标志着数据丰富时代的开启，这时即便采用不那么好的模型_{（Weak Model）}，也能生产社会知识。因为数据获取成本非常低，数据供给很充分，所以社会科学研究正从“贫数据-强模型”_{（Poor Data-Strong Model）}阶段向“富数据-弱模型”_{（Rich Data-Weak Model）}阶段转化。

生成式人工智能驱动的范式变革

伴随人工智能技术的快速迭代和普及应用，以大语言模型代表的生成式人工智能正在驱动政治学乃至整个社会科学研究的范式变革。一方面，生成式人工智能的通用性、开放性和普惠性促使其在城市治理、社会治理、政府治理等场景中得以广泛应用及扩散；另一方面，生成式人工智能也促进其方法创新优势得以充分发挥，为社会科学研究的数据采集、变量测量、推理分析、因果推论和社会预测等奠定了坚实的方法论基础。以大语言模型为代表的生成式人工智能绝非一蹴而就，其发展经历了从浅层到深层、从特定到通用、从闭源到开源的迭代过程。厘清这一演化脉络，对于理解大语言模型驱动的范式变革至关重要。

从根源来讲，语言模型_{（Language Model，LM）}是自然语言处理_{（Natural Language Processing, NLP）}技术发展的成果，其目标旨在利用计算机分析、理解乃至生成人类自然语言，但传统语言模型受限于文本长度和参数规模，难以实现精准的语义理解和内容生成。大语言模型_{（Large Language Model，LLM）}则是基于海量数据训练、依赖海量参数预测的语言模型，其参数规模和复杂结构使之能够精确捕捉语言中的细微差别，因而在文本理解、内容生成等方面具有远超传统语言模型的优势。大语言模型发展的革命性突破源于2017年 Transformer 模型的提出，其核心是在机器学习框架中纳入自注意力机制，形成比传统神经网络模型更强的语义理解能力。第二次范式突破源于预训练加微调模型的引入，通过在大模型训练过程中纳入高质量预训练数据对通用大模型进行微调，以此将人类社会长期积累的社会智能_{（Social Intelligence）}专用数据集、语料库、知识库等应用于微调，提升了大语言模型在特定任务上的能力。第三次范式突破是大参数模型的引入，即通过增加训练数据规模和参数规模来增强模型能力，如 OpenAI 的 GPT4、Meta 的 Llama、百度文心一言等均基于上千亿参数，依赖超大规模参数形成智能涌现能力和内容生成技术。2024 年底，DeepSeek 的横空出世展示了大语言模型迭代的新范式。与其他模型相比，DeepSeek 的底层算法更为透明，且通过两项关键技术创新解决了传统Transformer模型的局限性，即动态计算资源分配与结构化数据的针对性优化。DeepSeek的开源属性改写了大语言模型的创新生态，进而极大降低了大语言模型创新、开发及应用的门槛和成本，促成一系列本地化部署、垂直应用类大模型的形成及快速应用。

大语言模型技术革新快速广泛地应用于治理实践，推进国家治理从数字化向数智化转型。数字化（Digitalization）是将治理实践中以文本、语音、图片、视频等为载体的多模态信息转化成电子化数据（计算机可读数据）等治理要素，进而经由技术赋能与组织-技术互构等机制，推动业务流程重塑、组织结构优化以及政社协同耦合的过程。数字化的核心是强化信息采集、分析和应用能力，以实现治理主体间信息要素的交换、流通、共享、开放和利用，有效推进数字治理体系的构建及发展。数智化是指从数字化到智能化的过渡期和转换期，是在数字化基础上逐步建设而形成的人机互融、虚实同构、数智赋能的新治理模式，本质上仍然是利用人工智能技术形成对信息的高效处理、精准分析和敏捷应用能力。在信息化、数字化的基础上，数智化通过全域数据的实时采集、智能解析与动态反馈，形成“数据信息知识决策”的闭环逻辑，推动社会系统与计算系统的深度耦合。从这个意义上来讲，数智化不仅是技术工具的迭代升级，更是一种治理范式的重构，其核心在于构建以人机交互为赋能性机制、以智能系统为枢纽型载体、以价值耦合为治理目标的国家治理新范式。

基于以上所述的数智化转变，生成式人工智能驱动的治理模式是融合社会智能与机器智能的治理实践创新。这一治理模式超越了传统的“人控机”模式，更加强调人机互融、虚实同构、人机共创的新机制，不仅反映了技术工具层面的升级迭代，更反映了以人机交互与协同为载体、以价值耦合为目标的治理变革正在加快推进。例如，深圳上线机器人公务员，北京、杭州等多地政府将 DeepSeek 介入数字政府系统中，应用于辅助政务咨询、公文写作、信息检索、数据分析与政务服务。此外，人工智能技术与机器人技术的结合成为科技创新的新趋势，具身智能_{（Embodied Intelligence）}将传统数字人通过机器人与外部环境的动态交互实现自主学习，快速发展并应用于政府治理实践。无论是数字公务员，还是机器人公务员的实验，均受到社会广泛关注。

大语言模型的兴起还给政治学研究带来了新范式。不同于理论驱动和数据驱动范式，大语言模型带来了算法驱动新范式，辅助研究者利用参数体量大、预训练数据丰富和算法高效优化的模型优势，实现了对文本、语音、图像、多媒体等多模态数据的序列化和高效处理以及对复杂多变的政治现象进行测量、推理和预测。从这个意义上来讲，大语言模型将发挥人工智能赋能作用，驱动社会科学研究范式转换，如利用大语言模型生成硅基样本、基于人工智能强化因果推论、开发大型社会模拟器等。伴随DeepSeek 等生成式人工智能的普及应用，越来越多的开源社区正在形成并积极探索开放科学协作新模式，在降低技术门槛的同时，也推进了跨学科研究，进而实现“理论驱动”“数据驱动”“算法驱动”等范式的融合，有力驱动了人工智能赋能社会科学研究_（AI4SS）新范式的探索创新。

计算政治学的起源：当计算的政治邂逅政治的计算

新一轮科技革命对国家治理发挥着“破坏性创设”效应。国家治理数字化转型不只是政府自身的数字化转型，也不是某个治理领域的孤立式变革，而是一个涉及政治、经济、社会、文化、生态等各领域的系统性重构过程。从这个意义上来讲，计算政治学的起源是政治学有关“计算的政治”的理论发展，是与有关“政治的计算”的方法创新相碰撞而融合的结果，这种融合产生的“化学反应”回应了数智时代政治学在理论和方法范式上双重转型的学理需求。一方面，传承和发扬了“计算”的政治传统，从政治计算的规律、机制和过程入手，聚焦国家构建、国家运行、国家治理的计算过程展开分析；另一方面，创新了“政治的计算”传统，从政治过程的计算方法入手，如引入计算科学、数据科学等新技术方法，利用大数据分析、大模型技术来分析和解释政治行为，开发算法模型、仿真模拟器对政治风险、政治选举、国际冲突等重要政治现象进行预测与研判。

从这个意义上来讲，我们可以从新要素和新范畴两个维度来理解计算政治学的研究议程。

首先，从新要素维度看，数智技术尤其是人工智能技术的最新发展，为国家治理提供了四个新要素，即数据、算法、算力和人工智能，由此产生了数据治理、算法治理、人工智能治理等新生研究领域。数据是对现实世界中事物、事件或概念的符号化表示，可以采用数字、文本、图像、音频或视频等多种形式。数据本质上是信息的载体，通过处理、分析和解释可转化为有意义的信息和知识。算法是计算科学和信息技术领域的核心概念，它是解决特定问题或完成特定任务的一系列明确、有限和可执行的指令集合，本质上体现为理解和处理信息的技术能力。算力是指计算系统在单位时间内处理信息的能力，本质上体现了计算系统将输入转化为输出的效率，是解决复杂问题的关键要素。人工智能集成了以上要素的优势，可理解为通过计算机系统模拟、延伸和扩展人类智能的一门科学，本质上是利用计算机执行通常需要人类智能才能胜任的任务。因此，有必要聚焦以上四个新要素的政治属性、介入政治过程的作用机制、发挥的政治功能、带来的政治效应乃至其背后的政治关系，进行深入系统的观察和分析，以增进学界对政治与科技关系的理解和认识。

其次，从新范畴维度看，数智时代政治学研究范畴的拓展，总体上涵盖国家组织形态数字化、国家社会关系数字化、政府-市场关系数字化、治理对象（经济社会）数字化四个重要范畴。可以说，数字国家建设离不开政府、市场与社会三者之间的互动与协同，三者既是具备不同属性、多元利益的治理主体，也体现为行政机制、市场机制和社群机制的多样化治理机制。这也就是说，在数字国家构建过程中持有不同类型的治理要素，基于差异且互补的治理机制具有不同属性的功能和角色。因此，只有从四个范畴入手，才能全面认识数字国家发展的规律、特征以及路径。

基于新要素和新范畴两个维度，本文简要梳理了相关领域的未来研究议程。国家组织形态数字化是指数智技术对国家组织形态的影响，尤其是国家内部纵向与横向权力关系、制度运行的演变，如对传统科层制、分职制的重塑，进而对条块关系、央地关系的影响；国家社会关系的数字化是指数字时代国家与社会进行交互、协同乃至冲突的影响，尤其是新技术如何赋权社会，进而对社会组织网络构建、社会参与能力提升、社会协同能力培育的过程及机制的影响；政府-市场关系的数字化是指在数字经济创新、发展与治理过程中涉及的政府角色定位及功能发挥，尤其是数字产业创新政策、数字经济产业政策、数字产业的政商关系、平台经济垄断治理等议题；治理对象的数字化是指从政治学视角探讨经济社会数字化的政治后果，尤其是第四次科技革命深刻影响产业结构、社会结构的变革，促使社会结构进一步多元化、政治偏好渐趋两极化以及社交媒体广泛应用而导致的社会网络虚拟化、社会交互商业化娱乐化等，这促使利益表达和聚合过程的复杂化。

计算政治学的未来：范式革命的机遇

全球范围内政治学正在经历范式变革，这既为中国自主知识体系构建提供了契机，也让我们能与西方学界在新生政治现象的研究上同台竞技。全球数字国家的兴起既为政治实践引入了数据、算法、算力、人工智能等新要素、新技术，也为政治研究提供了新对象、新方法，这为基于“计算的政治”与“政治的计算”两个路径的融合提出新命题、构建新理论、探索新范式创造了难得机遇。计算政治学并非单纯的方法类二级学科，而是兼具理论意涵与方法价值的二级学科。在实质性_{（Substantive）}意义上，计算政治学不仅推进政治学经典理论在数字时代的重构，还推动政治学前沿领域新概念、新理论的生成与发展；在方法性_{（Methodological）}意义上，它作为一种方法论基础，为中国政治、比较政治、国际政治等学科方向的学术研究提供了新方法新工具。这为推进数智时代的政治学范式变革、构建中国自主知识体系提供了先发实践和本土生态。计算政治学的未来发展应该聚焦以下三个方面，即推进新理论、新方法和新学科发展。首先，国家治理数字化转型的先发实践，推进数字国家理论的新发展。数字国家的实践进展正在挑战传统国家理论的解释力。大量实证研究发现，国家组织形态、国家-社会边界、政府-市场关系、国家运行机制均发生了巨大变化，因此学界有必要基于对数字国家构建先发实践的参与式观察与理论性反思，阐明数字国家的特征属性、运行机制及构建路径，厘清数字时代国家形态的“常”与“变”，推进国家理论等政治学基础理论的新发展，为推进中国式现代化贡献政治智慧。其次，聚焦大语言模型赋能社会科学研究新机遇，加快探索新范式。以大语言模型为代表的生成式人工智能的发展经历了从浅层到深层、从特定到通用、从闭源到开源的迭代过程。当下，以 DeepSeek 为代表的开源大模型的战略性突破对社会科学研究范式转换具有重大意义，这一开源大模型通过构建开放便捷、安全可控的智能化基础设施，为社会科学研究提供全过程赋能，进而重构社会科学研究的方法论基础，推进 AI 对社会科学新范式的探索。开源大模型有助于应对生成式人工智能应用中普遍存在的垄断性、区隔化、黑箱化及高成本挑战，其开放架构特性支持数据优势、算法能力与领域知识的融合应用，推动了社会科学知识生产的开放性、共享性、透明化和普惠化。

最后，面向数字国家构建的时代需求，加快构建计算政治学这一新学科。计算政治学的构建为中国政治学基于数字政府、数字治理、数字参与等先发实践推进自主知识构建、介入国际对话提供了时代机遇。随着人类社会迈入数字文明，学术共同体一方面应加快对数智时代的政治文明开展系统性研究并不断产出原创性成果，从而为我国的政治文明发展提供理论指引并在国际学术前沿贡献原创性知识；另一方面，应积极探索计算政治学的教学体系、课程体系和教材体系，加快培养国家急需的兼具数智素养和政治知识的复合型人才，从而为数字国家构建供给创新人才。

转自《行政论坛》2026年第1期

2026-02-28
向继东：陈寄生的悲剧人生

一

初版《建国以来毛泽东文稿》第一册于1987年11月由中央文献社出版发行，第490页收录了毛泽东写给陈寄生的一封信：

寄生先生：
惠书读悉，甚以为慰。先生所从事的学术，因我未曾研究，不能赞一词；惟觉中国的历史学，若不用马克思主义的方法去研究，势将徒费精力，不能有良好结果，此点尚祈注意及之。此复，顺颂
敬意
毛泽东
（1950）八月二十九日

建国初，毛泽东可谓日理万机。1950年8月共有三十五条批文或书信，其中8月29日有三条，前两条《关于希望西藏代表团九月中旬到京谈判的批语》和《关于催促西藏代表团马上动身来京的批语》，都是批给周恩来总理的，第三条是致陈寄生的信。

二

陈寄生何许人也？《建国以来毛泽东文稿》第一册490页注曰：“陈寄生，湖南溆浦人，长期担任中学教师，研究过少数民族历史。”时为省立九中（即后来的溆浦一中）教师，1957年底被错划为右派。我有幸参与过《溆浦县志》编撰，曾收集过陈的资料，并读过陈的全部案卷。要了解其人，还是先读他1958年4月写的“个人检讨”吧——其实这就是一份“自传”：
我是1895年阴历八月二十二日生的。世居在溆浦曹坡村。祖父陈延桐，父亲陈宗炳，两代是清朝秀才。母亲姓向，向达的姑祖母，她的父亲哥哥侄儿，三代在清朝作过知县。我在三岁时，父亲死了，母亲守寡，搬到外婆家麻阳水附近去居住。我从小读私塾，十二岁入县立高等小学堂读书，一共五年，辛亥革命（时）毕业，年十六岁，无力升学。1914年三月，母亲死，我教私塾，来养活我和妹妹。外婆家藏书很多，竹坳舒文泉先生家梓华山馆藏书更多，所以我在这两个地方读书都是中国的古书。因此受的教育，也完全是中国的封建教育。我的先生舒澳农先生他的宋学汉学都比较深，所以我受他的影响也比较大。因为我前后跟他接近有十多年，他是我一生最典型敬仰的人。

［按］向达（1900—1966），湖南溆浦人，土家族，字觉明，笔名觉明居士、佛陀耶舍、方回，历史学家，考古学家，目录版本学家，翻译家，中西交通史和敦煌学专家。中国科学院学部委员，北京大学历史系教授。1959年陈寄生服刑后，向达每月给陈妻寄去十五元救济，直到“文革”开始前。向达1957年被错划为右派，1966年11月不幸逝世。

我有一个朋友向五九，城里人，家里很穷，在长沙一中读书，开除了。他跟毛主席在文化书社住。毛主席教（叫）他到省立一师第二部去读书，他入了共产党。1924年正月，我们同到长沙，他得到组织的许可，介绍我到安源路矿工会工人子弟学校教书。我在第三校，他在□湘东第四校。这里的工会是共产党领导的，工作人员大半都是共产党员。刘少奇委员长这时在这里任工会副主任。我因一向住在溆浦，又没有出过门，不知世界大势。他们所说的马克思主义我都不懂得。我只知道中国弱，中国穷，中国乱，中国要富强，要统一。那时安源也有中国国民宣传刊物，这时正是国共合作时，我看到一本建设杂志，觉得内容很合中国国情的需要，所以我想参加中国国民党。暑假放假前，向五九因□□□□□□□□□□，我便要同他回长沙去。当时第三校主事黄五一、方与榘同志都留我，我仍然要走。到长沙，我在麻石巷会见蔡和森、向警予，谈到入党事。向警予说她和蔡和森没有加入国民党，何叔衡和夏曦是加入国民党的。因为共产党党员有入国民党的，也有不入国民党的。我和向五九去找夏曦和何叔衡，他给我们十本国民党第一次代表大会宣言和十本国民党党章。我们便回县作国民党活动。

［按］向五九（1902—1927），湖南溆浦人。1919年考入长沙一中。1921年5月9日，被校方无理开除；遂改名“向五九”。不久，被毛泽东介绍到长沙文化书社供职，后又考入湖南省立一师。1922年春，在校加入中国共产党；8月，随向警予回到溆浦。1927年1月，中共溆浦县委成立，向五九任宣传委员。1927年5月24日，驻溆湖南省警备旅旅长陈汉章奉省府密电，在溆浦县城制造了“敬日惨案”，向五九等十九人被杀害。
向警予（1895—1928），女，原名向俊贤，湖南溆浦人。中国共产党创始人及早期领导人之一。1928年3月20日，由于被叛徒出卖，向警予在汉口法租界被捕；同年5月1日，向警予在武口英勇就义，年仅33岁。向警予先后出席了中共党的二大至五大，并当选为党的二大、三大、四大中央委员，并连续担任中央妇女部部长。1925年5月增补为中央局委员。1936年毛泽东评价她是中国共产党“唯一的一个女创始人”。
向警予、向五九与陈寄生是有交际的。1968年12月10日陈寄生狱中交代说：“向五九在一师二部读书，他寄我很多毛主席主办的文化书社的共产党理论宣传小册子。向警予从法国回来，在溆浦和我见面，就送我她和蔡和森主编的《向导杂志》六期至十期，叫我学习共产党的机关刊物。”

我既然打算做革命活动，首先便要摆脱家庭的系累。我的女人看见我态度的转变，知道我要离开家，因之她才灰心失望，在1924的冬天服毒自杀。丢下一个儿子六个月，女儿两岁半，我也不管，托给岳母、妹妹、哥哥，后来这些儿女的一生不幸，就是由于这样的根源造成的。改组后的国民党，并没有打倒地主，没收地主土地，所以我便在溆浦同陈老二合作，去打倒另一派地主陈老五和钟质文(陈老五就是陈其桔的父亲，那时他任县议会会长)，来参加地主夺取政权的相互斗争。1926年国民革命军北伐，溆浦为黔军匪军杨锡钧所据，暴敛苛征，残暴凶恶，和张玉琳相同。陈老二强迫我任五区桥江区总一个月。我的捐派都集中在大地主和中小地主身上，不许乡村按粮摊派，因之丁汝康的二哥恨我最深。我因抗捐，被杨锡钧捆吊在旅部。释放之后，我便逃至长沙向蒋介石唐生智和国民党省党部控告，杨锡钧才被调走至常德解散；并由黔军总司令袁祖铭枪毙在溆浦作恶最多之连长和副官长。我在长沙就近出席全省农民代表大会。选出委员长易礼容和滕代远等为委员。开会时，对农民运动纲领和议决案，已提出消灭封建势力，打倒土豪劣绅。回县以后，溆浦县农会县党部已提出打倒陈老二口号，我不同意，我退出县党部，至高小教书。陈老二已被杀，刘绩成回溆浦任特派员，才要我出来办农民运动讲习训练班。长沙马日事变（后），溆浦同志刘绩成、向五九等人皆被匪军陈汉章所杀。这一天我因事未参加开会才不死。逃出溆浦至武汉，住一月，武汉开始反动分共，我才逃到上海依向达。

［按］张玉琳系湘西地方悍匪，1950年被我人民政府镇压。陈寄生“不同意”县党部打倒陈老二，“退出县党部”“至高小教书”。性格即命运。由此也可见其性格之一斑。
刘绩成（1895—1927），湖南溆浦人，1923年加入中国共产党，1926年曾入广州第六届农民运动讲习所学习，1927年1月任中共溆浦县委书记。1927年5月24日，刘绩成与向五九等十九人被陈汉章所杀害。

1928年一月，由苏拯介绍到江西，因江西朱培德犹未明目张胆的反共。我在第九师政治部工作，任科员，军队开至吉安，始知去永新、宁冈反共。三月，政治部派我至永新任前方办事处秘书，做反共宣传工作，我始知此地共产党之领导人为毛主席和陈毅。伪师长又指派我为军法会审政治部代表，参加审问农民一次。军法会审主任委员为军队李秘书，永新地方反动绅士委员为李策安。李策安说这个农民曾经仇杀过多少人，他主张杀。李秘书不肯，李策安反对甚力。李秘书问我，我说呈请伪师长核定。这个农民后来的结果我不清楚了。五月，朱总司令和毛主席会师，回攻永新、宁冈，伪团长刘某阵亡，伪师长杨如轩负伤，我等先一日回吉安。回政治部后，因和同事意不和被免职。在吉安住一个月，接到朋友武育干介绍信，才于八月去河南开封依国民党省党部常务委员邓飞黄。邓飞黄为武育干朋友，此人重旧谊，以后二十年待我如亲兄弟骨肉。此人为邓力群之兄，1953年在汉口病死，至今仍难忘其待人之厚谊。

［按］这里的苏拯为何方人士，不详。以陈寄生的性格，“和同事意不和被免职”是可信的。武育干（1898—1990），湖南溆浦人，著有《中国国际贸易史》《中国国际贸易概论》《中国关税问题》等，被视为中国国际贸易学开拓者，1949年前曾任教于中央大学、湖南大学、复旦大学等。邓飞黄（1895—1953），湖南桂东人，邓力群之长兄。1924年邓飞黄加入国民党，1935年留学英国伦敦大学经济系，抗战爆发后回国，任国民党河南省党部主任委员。1949年参与湖南和平起义，后任湖南省民政厅厅长。当年，武育干把陈寄生介绍给了邓飞黄。

我自己既不知马列主义，也不加入共产党，但我反共是不愿参加的。南方各地都在反共，所以我才到北方去。我相信冯玉祥，我想依附冯玉祥。邓飞黄是汪精卫派，冯玉祥不相信他。1927年汪冯合作反蒋，我去孙良诚政治部参加洛阳之战。1930年，阎冯汪又合作反蒋，我又去北京依附邓飞黄，成了军阀混战和政客的御用走卒。扩大会议失败，我去山东正谊中学教学，暑假到北京，在北京图书馆借得王国维先生的《静安文集》，始渐有志于历史考据之学。年假前，参加学校反对校董杨佩如。不久，淞沪事变起，我又参加这一运动。那年，山东主席韩复榘大捕人，我因在范县乡师，未被捕。暑假后，为避祸才去南京找邓飞黄。在铁道部职工教育委员会任津浦铁路教育委员四年。汪精卫遇刺，改组派下台，我失业回溆浦。1936年（原文如此）抗日战争起。我在溆浦筹办乡师。一年（后），因和丁汝康、陈抡、高澄碧意不和，乃辞职。

［按］“扩大会议”即“北平扩大会议”，是1930年8月7日在北京召开的。这次会议是由“西山会议派”、阎锡山、冯玉祥、李宗仁、谢持等反蒋势力共同组织的。会议决定成立“中国国民党中央党部扩大会议”，作为国民党的最高临时权力机关。会议推举阎锡山、汪精卫、冯玉祥、李宗仁、谢持等为国民政府委员，阎锡山为主席。这次会议的目的是组织政府，筹备召开国民会议，起草约法。但由于中原大战结束后张学良发出拥蒋通电，北平扩大会议迁至太原，最终因反蒋战争失败而终结。
丁汝康、陈抡、高澄碧均为溆浦县乡师教师。

1939年，我的前妻冯如芸欲回云南，我送她到贵阳，因去重庆找工作。这时童紫剑已先到重庆，在国民党军委会政治部调查室工作。他约我去调查室，将来可以任巡视员，至各地视查（察）。这里的第二科科长曾敬持过去在吉安已曾相识，所以我便答应了。这时政治部部长陈诚，因为不了解全国所属政治部情况，因之总务所长庄明远向他建议，组织调查室，成立通讯机构，以作个人耳目。各部队政治部通讯员，均为战干团学生，作为自己骨干；又在各重要地区设立调查站，就近调查附近部队中政治机构人事情况。后来通讯范围扩大，凡政治社会敌方以及异党活动（共产党为主）都有报告。我在调查室等待四个月，至九月一日才请派至西北去。西北是历史的发源地，是中国民族战争盛衰存亡的关键，所以我要到那里去看看。到西北去的任务，是约通讯员和建立五原调查站。这时国共已合作，我也想去延安看看刘少奇委员长和黄五一、李树彝诸同志。去时还兼为《扫荡报》通讯记者。1939年十二月，我到了延安，见到毛主席，参观抗日大学和女子抗日大学，在延安住一个星期，然后才到绥远、宁夏、甘肃、青海去，一共十个月才回重庆。这时调查室已撤销，陈诚已辞职。陈诚是被贺衷寒攻垮的。离调查室后，我想到西康去依靠刘文辉作边疆民族研究。在成都和刘文辉谈不合，因在成都失业。1941年由亲戚邵石痴介绍在成都建国中学教书半年，下年至四川屏山中学教书一年，曾至凉山考察倮儸民族。1942年十月由郑震宇介绍至重庆见伪教育部次长余井塘。郑震宇是龚励初的同学。余井塘介绍我至边疆学校研究二年。1944年，余又介绍我至康定师范教书一年。我在此三年中，搜集边疆民族研究资料甚多。

［按］童紫剑（1892—1966），湖南溆浦人，1912年考入湖南省立第二师范。1926年曾任溆浦县教育局长，1928年后辗转上海多地任教，1931年任中央大学商学院事务员。“一•二八”淞沪战争后投奔19路军。1935年由宁转沪去港，会见了李济深、蔡廷锴、陈铭枢等，参加香港“大同盟”爱国阵线。抗战时期，曾任职国民党170后方医院(湖南邵阳塘田市)监理员，中校军衔，1947年解甲归田。1949年前，与中共地下党组织谌鸿章等取得联系。1950年后，先后任溆浦县建设科长、怀化县水利局长等职。1958年6月被处分，回乡自谋生路。1966年病逝，1979年平反改正。

邵石痴‌，本名邵德铭，是民国时期的一位重要人物，曾任四川省政府驻蓉办事处主任，与刘文辉关系密切，并与刘文辉一起组织秘密政治团体“唯民社”，创办进步刊物《大学月刊》和《青年园地》‌。至于怎么为陈寄生亲戚，不详。龚励初（1906—1963），湖南溆浦人，教育活动家，曾任职溆浦县教育局长、省参议员、省立长沙一中校长、省立九中校长、长沙兑泽中学教员等。国民党员，与陈寄生关系密切。
日本投降后，我回溆浦，在省立九中教书四年。反共战争我极痛恨，因之伪宪戡乱我都不参加。解放时，童紫剑、张则生约我任临时维持治安委员会主任秘书。任之来，我仍回九中教书。因思想顽固，对社会主义集体思想抗拒甚力，所以次年被学生反对离职。闲居半年，1951年才去安江高农（安江农校）教书。1952年思想改造，因调查室一段历史无法交清，乃送去湖南革命大学学习一年，至1953年十月才派至晃县（今新晃县）中学教书。1956年安江肃反学习，请组织调回溆浦工作。因为年已衰老，不愿死在外县，在家有亲戚来往，家庭便于照顾。回溆浦一年多以来，因在大鸣大放时有反党反社会主义言论，被划为右派分子，斗争四个月，这是我很对不起新社会的。

［按］任之，河北遵化人，1949年10月—1952年8月任中共溆浦县委书记，南下干部。其他不详。省立九中1938年从沅陵迁来溆浦，1952年改名溆浦一中。

我出生在封建社会里，小时读的都是四书五经，没有学过外国科学，不知有世界大势，不知马列主义远大的理想。自己恬淡少欲，厌弃功利思想。只想退居深山，不闻外事，做一个自然派厌弃世事的人。这是一种极反动的消极思想。现在党不嫌弃我，还肯教育我，我是很感激的。
（陈寄生印章）
1958年4月6日

那个时代“社会运动”多，公职人员几乎每年都要填写“履历”。陈寄生是教师，教师是公职人员，况且已被打成“右派分子”，1958年全面开展“整风运动”，自然要填写一份《干部履历书》，交代自己的历史，尤其要交代自己的思想改造状况。这份“个人检讨”栏下的文字，是“履历书”的重中之重。从这篇随手写下的“检讨”文字看，其漂泊而复杂的一生，虽寥寥数笔，但勾勒完整，不卑不亢，坦诚磊落。把复杂的人生，用简洁明了的文字如实道来，也许不是一般人都能做到的。当然，他性格耿直、孤傲与倔犟的一面，也一览无余。

三

按照1955年12月29日国务院《国家机关工作人员退休处理暂行办法》文件规定，1895年出生的陈寄生已过六十周岁，为何不给他办理退休？原因不明。

陈寄生1958年4月填写的《干部履历书》，说他学历“高小毕业”，家庭出身“小土地经营”。曾加入中国国民党。“曾作短期中国民族探源研究”。填报的家庭情况是：土改前，“靠教书生活。硃沙溪有田八亩，系哥哥代置作（前妻）儿女食用之费。曹坡有房屋半幢。田系出租，儿女依大哥居住。自己薪水，存正大号代购油盐片糖，计有妻子一人，儿子二人，家中共三人”。土改后，“原有土地不动，妻子回硃沙溪居住。与长子分居，雇工耕种三年，我仍在安江高农及晃县中学教书。”现在“长子已死。现有妻子一人，儿子二人，女儿一人，我自己在内，共五口人。儿女都很小，妻子能出工，但出工很少。因儿女小又多”。

他的主要社会关系，陈寄生有这样的交代：和自己有关的亲友“大半已死”。现存者四人，其中有“向达，亲戚，北京大学图书馆长。民盟分子。既为亲戚，又为朋友，关系密切。”这时，向达已被错划为右派。还有童紫剑、龚励初、佘策源，以及个人履历的证明人刘少奇、邵石痴、凌纯声等，这些也许都算有头有脸的人，这里不赘。回答何时何地参加过何种训练和运动，他说“国民党时代未参加过任何训练。解放后参加的有中学教师学习会审干学习，土改运动，思想改造运动，在革大学习一年，肃反运动，整风学习”；并交代在反右运动中被划为右派。

填写这份《干部履历书》时，陈寄生已63岁。尽管他活了76岁，但此后十多年，他基本上都在牢狱中。

先看看溆浦县革命委员会“溆革教(1980)190号”文件吧：
关于补发陈寄生安葬费的通知
溆浦一中:
你校原教师陈寄生，男性，本县新田公社双其大队第七生产队人。陈在一九五七年反右运动中，被划为右派分子;一九五八年十一月因历史反革命罪被判刑六年，后因重新犯罪，于一九五九年二月加刑两年，刑满回家后，又因现行反革命罪，于六九年四月判刑五年，回村执行。一九七一年死亡。陈的问题经复查，五七年划为右派分子，属于错划，七九年予以改正。陈三次被判刑，经溆浦县人民法院一九八〇年十月重新判决，撤销原判。根据党的政策，经研究，补发陈寄生安葬费150元。
溆浦县文教局
一九八〇年十二月四日

读这份二百余字的“补发陈寄生安葬费”150元的公函，可知1957年后发生在他身上的一切，都是错误的。可惜，陈寄生没能等到这一天，假若地下有知，也许这是他一生最大的遗憾。

陈寄生在1957年“鸣放”些什么呢？根据案卷材料，5月19日他在全县宣传工作会议上发言说，毛主席《关于正确处理人民内部矛盾问题》是说专政与民主的关系。“就目前情况来看，人民要求民主，有些人不习惯”。5月23日，他在小组讨论会上说：“我们开会的目的是为了认识矛盾、解决矛盾。昨天我们就钻了牛角尖，我建议我们要就事论事，如推广‘青森五号’早稻，使农民减产，结果造成了农民与政府的矛盾。这矛盾是人为的，是主观主义和教条主义造成的……”“中国的主要矛盾是政府与农民的矛盾。农民是革命和建设社会主义的动力。天下是他们打下来的，可农民却是目前最苦的一个阶层，他们生活不能逐步提高，反而因天灾人祸陷于困境。”“寒冬里，农民大都穿着单薄，雪里来雨里去，一身冻得冷索索。夜里没有棉被，只得蜷缩在草窝里……”

1957年6月，在全县教职员会上他说：“教育方法有两种，一种是强迫方法，一种是说服方法。我认为前者很好，几十年的经验证明，用前者教出了不少革命干部。”8月22日在全县中小学教师学习会上，他为反革命分子鸣冤叫屈，说“过去对人民的概念没有讲清，因此肃反搞错了……”11月6日，他在一个小组鸣放会上说：“几年来，老师受了两层骂，一是学生骂，一是领导骂。老师不是老师，是老妈子，我七八十岁为什么还当老妈子？不当老妈子就要饿死，你想要负责任，上面有老爷太太压着你，下面有少爷小姐骂你。所以我的思想是苦命的，要我与你们一样是不行的。我不跟你们走，我有我的一套，我还要活几年，讨你们几年嫌。”11月12日，他在小组会上继续鸣放：“党的领导是明辨是非，而我校党的领导是外行，不能明辨是非，他们怎么能领导好……”

最后给陈寄生的结案材料说：他给学生出作文题时，讽刺新社会。在批改作文时，他把学生歌颂毛主席、共产党和新社会的词句一律删掉，认为是标语口号。在整个反右中，他千方百计企图滑过去。全面揭发时，他压制别人揭发自己；在批驳时，他捏造事实，狡辩抵赖；还对群众发脾气，拒不交代，或避重就轻，经过三次群众大会斗争，仍在目的、动机上含糊其辞，张冠李戴。当然，一顶右派的大帽还是严严实实地戴在他头上了。

打成右派后，陈寄生被开除教师队伍，下放到桥江公社河底江大队劳动改造。一个63岁的老人，满腹经纶，却落难至此，其内心痛苦是肯定的。以他的性格，说些牢骚话也是可能的，但在那个年代，又是一个右派，怎能不被重点“监督”呢？1958年11月7日，溆浦县人民法院(58)刑字第736号刑事判决书以历史“反革命罪”判处陈寄生六年有期徒刑，所谓“反革命”，就是上述“个人检讨”中所交代的内容。判决书最后说：其解放后思想一贯反动，死心踏地与人民为敌，于1951年在安江农校教书时，给学生出反动作文题《漆黑的一夜》；特别是趁此次整风之际，猖狂向党进攻，反对无产阶级专政，攻击党的领导，攻击我人民教师事业，攻击农业合作化，并公开诬蔑说“肃反搞错了，共产党骑在人民头上，教师队伍不要党的领导，靠拢人民是投机……”因此，被划为右派分子。在斗争中又抗拒交待，影响极坏，手段毒辣，情节严重，构成犯罪云云。

仅仅三个月之后，1959年2月又被加刑两年，理由是“投入劳改后，表现很坏，不但不认罪伏法，反而坚持反动立场，多次在犯人中蓄意歪曲党的政策，说“人民政府不人道，对犯人实行残酷劳动”，“劳教政策是残酷的劳改”。审理中还拒不交代，情节极其严重。服刑从1958年10月30日起至1966年10月29日刑满。

“三年困难时期”全民饥饿，何况一个劳改犯呢？陈寄生饿得皮包骨，神情恍惚，走路跌跌撞撞，看着来日无多了，于是通知他家人接回调养。经过两年多的调养，身体慢慢恢复，于1964年又被收监，送至岳阳劳改农场继续服刑，直到1968年春才刑满释放。

在十年“文革”中，除了好人，坏人还有“二十一种人”之说，“地、富、反、坏、右”是排头的黑五类。陈寄生是反革命，是右派，是劳改犯，在“清理阶级队伍”中，挨批挨斗，理所当然。这对于一个七十多岁的老人来说，是够难受的。他狱中坦白交代：“写反动诗词，我解放后十多年是没有间断过的。所以在诗词中，大多数流露出自己的被屈辱，都是现制度给我的。自己只有悲观失落，无人生趣味可言。”“前次，在刘家洞开斗争会，我被捆到这里，精疲力竭。斗争时跪在砂堤上，更是痛苦万分……”回到家里，他万念俱灰，去死嘛，心又不甘。于是把十岁的儿子叫到跟前，让儿子在《毛主席语录》本上写了几句：“打倒XXX！”“中国的赫鲁晓夫万岁！”“刘少奇万岁！”而当时，刘少奇已是被揪出的最大的走资派，是叛徒、内奸、工贼……于是，他成了“现行反革命”，1969年1月又被判了五年徒刑（1969年1月30日至1974年1月29日止）。鉴于陈寄生时年七十又四，年事已高，就给了个“回村交贫下中农监督劳动改造”。

陈寄生的孙女儿陈菲和陈营告诉我，此后，针对陈寄生的铁拳更是凶狠了，隔三差五被反绑着双手拉出去，批斗时往往还挂上二三十斤重的牌子，上书“现行反革命、劳改犯陈寄生”——要是他没有高大的身躯，肯定是杠不住的。有好几次批斗回家，他体力不支，躺倒床上呻吟不止。有一次批斗回来，头昏眼花，饥肠咕咕，他想吃点什么，可揭开锅盖什么也没有，因为妻子生产队出工没回来。男儿有泪不轻弹。他真想大哭一场，但听到门外有人经过，只得静默，强忍泪水——那时的“反革命”哭，也是对社会的不满和反抗……

1971年7月18日，是陈寄生结束生命的最后一个日子。劳动了一天，晚饭后又突然通知他去大队部开会，被批斗回来，已近午夜了。他想自己这一生，不但没有给妻儿家室带来什么，反而连累了他们；“五类分子”家属不好当，处处地方须“夹着尾巴做人”。妻子一字不识，看到他写字就夺下他的笔，生气地说：“你还要写，写，难道你还没有受够吗？”儿子拿起石头打他，以示“划清界限”，他也理解了。他从来没有想过去死，哪怕在战火不断的混乱年代；可这时候，他实在不堪凌辱和折磨，想一死了之。死是容易的。他却哭了，不舍的泪水，打湿了床头……第二天早晨，女儿陈德容起床看到他吊在房梁上，惊叫一声：“是谁又把我爸爸吊起来了？”其实，是她父亲悬梁自尽，去了另一个世界。

一个曾经蓬勃向上的生命，就这样消失在无边的黑夜里。

四

陈寄生是去过延安的，见过毛泽东、王震等人。

1939年，陈寄生前妻冯如芸要回云南，他送到贵阳，转道去重庆找工作。这时溆浦老友童紫剑已先到重庆，在国民党军委会政治部调查室工作。童对陈寄生说：“你可来调查室工作，可以当巡视员，可到各地视察。”他一直对边疆民族历史研究很有兴趣，于是就答应了。

1939年5月至1940年5月，陈寄生任职调查室巡视员，曾到西北历时十个月，先后到了内蒙、陕西、绥远、宁夏、甘肃、青海等七个省。等他回到重庆，调查室已解散了，他不得不去成都建国中学教书。巡视西北期间，他去了延安，在延安住了六天，并见到了毛泽东。他在1958年的“个人检讨”中曾简略说到此事，1968年入狱后的交代就更详细了：
……
我在西安等车最久，谷正鼎曾叫我到八路军（办事处）去问是不是有车去延安。我在西安到八路军张经武那里问过车。后来曾敬持来了，我才随同他们搭阎锡山兵站总监的车子去的。这车开到陕北洛川翻了，曾敬持负了伤，我在洛川停留一个多月服侍他，我才得车子去陕北。同车有教育部一个督学一个视察员。
头一天歇甘泉县，这里原来是共产党边区政府的地方。陕西伪省政府，强迫又在这里派一个姓杨的县长来。共产党诸事退让，还叫他管一条街，又划一个乡叫他管理。他还在这里叫苦叫屈，说他不能行使县长的职权。在这里，我和教育部的督学，还到边区的县长那里去了……
第二天中午到延安，车停在交际科门口。科长金耐问明我们的来意。教育部督学姓张，有个儿子在重庆读书，他要抗日救国，所以他跑到延安来进抗大。张督学要来看看（儿子）。一小时后，他们父子相见了。我是用《扫荡报》记者名义，请求在延安见见毛主席，也得到了允许，所以我就下了车，住在西北大旅社窑洞里。在这里，邓飞黄有一个弟弟邓力群，也在延安，我要见见他。第二天他来了。我告诉他的哥哥几家人的情况。延安生活苦，每人每月只有一元零用钱，我送了他四十元法币添制衣服。延安是派古从军同志招待我的。古从军，广东人，岭南大学学生。第二天下午，他领我去见毛主席。我在重庆出发（前），政治部《扫荡报》经理何联奎来约我做外勤记者，沿途写新闻材料寄报纸发表。我用“天马”笔名，沿途都写有新闻稿，寄交调查室看后，然后送报社去发表。我在延安见过毛主席，也写了一篇《在延安谒见毛主席记》的文章寄报社。这篇文章在1939年12月或次年1月报上登载的。

［按］陕甘宁边区政府交际处成立于1936年1月，处长由西北办事处秘书长伍修权兼任。不久，交际处改为招待科。1937年1月，招待科随中共中央机关进驻延安，设在延安城内大东门。后招待科多次易名。1939年，交际科改为交际处，下设秘书、联络、招待、总务等科，招待科长为金耐。陈寄生将招待科误为交际科。
《扫荡报》是中国国民党主办的报纸，历经多次更名与迁移，宣传抗日与国民党主张。抗战胜利后改名《和平日报》。1950年停刊。

毛主席我是1927年1月在长沙开第一次农民代表大会见过的，到现在已是十二年了。他为革命经历了多少艰苦的岁月，现在已是四十多岁的中年了。他在会客窑洞内接见了我。他穿蓝色工人的棉制服，当时是以边区政府主席（身份）来接见我的。他发表他抗日统一战线、一致团结救国的伟大政治主张。他希望全国爱国人士都到延安来，看看延安诚心救国的真实情况。我在谒见他的时候，我把和向五九、向警予的关系说明以后，我又向他谈到在开农民代表大会时情况，于是他对我更亲热起来。他和（我）坐在一张沙发椅子上，谈起很多的家常话来。他说他在延安的生活，他说已生有一个小孩子。他说他表哥从湘潭来看他。他说他一个月只领一元钱的零花费用，他的香烟是由公家开支的。可惜我在当时抱着一个要偏（遍）游西北研究中国民族西来的宏愿，未能留在延安……
我在延安住到第六天，一个人孤身不敢行走。我有点着急了。第六天，我正在散步，遇见了黄东楼，我就高兴起来了。黄东楼是我们在重庆同车到西安的。他是湖北黄陂人，参谋本部蒙藏语训练班毕业的。我们在车上谈话……谈得很亲密。现有了同伴，所以我们就请交际科代雇了两匹毛驴到绥德去。
绥德是由陕北通山西的军事要冲，共产党在这里设有警备司令部，司令员王震将军，政治部主任袁任远。国民党在这里设有专员公署，专员何国柱，政治部主任段南奎。我到绥德时，国民党和共产党冲突极尖锐。何国柱在黄河渡口吴堡扣留了共产党三千元银洋，王震要他退还，他不肯，因此王震用兵力威胁他，他吓得不敢见面，悄悄地跑到重庆去了。我到绥德这一天，段南奎代理专员邀请袁任远吃饭和解这一事件。袁任远在席上认识了我。他邀我去司令部看他。第二天我去看他，他介绍我和王震将军见了面，谈了话……

这份交代材料的落款是“劳改犯陈寄生写于桥江公社，1968年12月9日”。

圣地延安，与陈寄生有缘，却没有结缘。有人说，假如他当年留在延安，也许命运是另一种结局了；但历史没有假如。历史往往是诡谲‌的。也许他命运更糟糕，很可能还活不到1970年代，甚至活不过延安的“整风运动”……

五

我决定写陈寄生之前，联系到陈寄生的儿子陈德完和陈德宏，了解到他家的一些情况。陈寄生结过三次婚，第一任妻子贺碧兰是表亲结婚，贺服毒自杀后，所生一儿一女，儿子陈德镠，有智障问题，没结过婚，1957年去世，时年33岁；女儿陈德旋，结过两次婚，有儿女，但家境差，温饱一直成问题，1976年自缢身亡，才55岁。第二任妻子冯如芸，昆明人，1939年与陈寄生贵阳一别后，生死两茫茫。冯生有女儿陈德宁，直到2008年从福建来溆浦寻亲，才知自己的亲生父亲是陈寄生。第三任妻子颜腊英，与陈寄生结婚时年仅十八岁，比陈小了三十多岁，育有三个子女，儿子陈德完、陈德宏，女儿陈德容。前两任妻子，在陈寄生“个人检讨”中都有交代：“我既然打算做革命活动，首先便要摆脱家庭的系累。”他“摆脱”的办法就是不管妻子儿女了，独自离家出走。后来，他的妻子贺氏“灰心失望”，不久就服毒自杀了。才六个月的儿子和两岁半的女儿，就丢给岳母、妹妹、哥哥不管了。从这里，即可看到陈寄生当年对妻儿的冷漠无情，也可看到他豪情万丈、投身“革命”的大丈夫气概。

三十多年后，他忆及贺氏妻儿时承认，“后来这些儿女的一生不幸，就是由于这样的根源造成的。”但于事无补，他不仅毁了最初的家室，自己的人生也是一败涂地。1968年12月，他在第三次被判刑的交代材料中说：“解放以后，党对我留用，赤忱地争取我，教育我。我一味自以为是，不肯接受党的教育。1950年，我不肯参加学习。在反右斗争时，我不肯低头屈服，诚心认罪。劳改八年，始终消极，对社会主义社会无热忱，留恋旧学术。在文化大革命中，破旧立新，因为旧的打不破，新的思想就建立不起来。所以才成为‘二十一种人’，成为人民专政的对象……”

陈寄生年幼丧父，成人后母亲又早亡。虽然祖父、父亲都是秀才，但到他时家道衰落。他只读过五年小学，但旧书读得多，旧学底子深厚。我知道他有一部《夷夏考源》，书稿后来在历次政治运动中散失了。南昌高校段祖青博士因为撰著《向达年谱》，兼及陈寄生的资料蒐集，他发现陈寄生在上世纪四十年代撰写了大量历史考据文章，如《青海土人为吐谷浑后裔考》《皇帝族地考》《“黑水国”古城探异记》《甘肃青海“土族”之史的考察》《四川神话，杜鹃与乌龟》《安氏土司兴亡述考》《罗罗为中印民族桥梁刍论》《考黑番得姓来源:中华民族融合史实之一》《屏山“安氏土司”政权之由来及其覆亡的经过》《大凉山的边缘:去西宁沟程途上》等等，这些文章多发表在《新中国》《东方杂志》《现代西北》《中国边疆》《风土什志》等杂志，影响不小。段祖青先生告诉我，陈寄生的论文有很高的学术价值，肯定还有不少，完全可以编成一个集子出版。我想，假若陈寄生能有正常的生活，有正常的工作环境和条件，也许他能在学术研究的王国里有上佳的成果。

陈寄生对于学术的热爱，无论是在颠破流离的旧时代，还是在运动不断地新社会，他都念念不忘，交代材料里也不忘加上一句“留恋旧学术”。他交代材料里还有这么一段话，更能看出他对学术的执着：1940年代初，“我因研究边疆史地，由福建郑震宇的介绍，在重庆伪教育部谒见了余井塘。他是陈立夫的主要助手。这时陈任部长，余任次长。余介绍我到边疆学校研究部工作两年。我对边疆民族和中国民族的一元分化路线找出来了。使我知道夏人就是西藏人。东夷就是凉山倮儸——白夷，南蛮就是大凉山倮儸黑夷。余井塘还介绍我到西康康定国立师范当过教员，是我对西藏民族能进一步得到地理历史的实证。”边疆民族问题研究，是中国科学院的事。他先是请邓飞黄、向达介绍给历史研究所，都遭到了拒绝，所以他才转向求教育部的余井塘。今天看来，也许他的研究是阶段性的，未必被学界十分看重，但他对学术孜孜不倦的求真精神是值得肯定的。

陈寄生的《夷夏考源》完稿后，1950年他给毛泽东写信问询政府“是否需要史地研究人员”。至于他是否将书稿也寄去中南海了，不得而知；如果寄去了，也许此稿在将来的某一天会重见天日。他的问询得到了毛的回复，但也只是轻描淡写的一句“先生所从事的学术，因我未曾研究，不能赞一词；惟觉中国的历史学，若不用马克思主义的方法去研究，势将徒费精力，不能有良好结果”。陈寄生当然知道，自己对史地考据的兴趣，是来自读王国维的《静安文集》。王国维不会用“马克思主义的方法”去研究，他也不会，“一生研究史地”的必然结局也就是“徒费精力”了。于是，他彻底死心了，人生的悲剧也就这样酿成了。1958年后，他基本上都在服刑，直到1971年死在刑期中。

今年8月是陈寄生诞辰130周年，谨以此文悼念这位被历史遗忘的、生不逢时的乡贤！

2025年3月至4月完稿于广州、长沙

原载《随笔》2026年第1期，发表时略有删节。此为原稿

2026-02-28