摘要:2007年以来,上海交通大学涉足地方历史文献整理与研究。截止2014年,共计入藏35万余件民间文书,主要来自徽州、浙南、闽东、江西等地。基于文献收集过程及对文献内部联系的理解,我们借鉴档案学的“来源原则”及历史学中的“归户”概念建立文献整理原则。上海交通大学馆藏民间文书全部以6个标准化环节整理:收集、入藏、登记编号、修复、转化为可分析文本、保存。我们的最终目的是将全部文献转化为可分析数据,提供更大的研究效用。
关键词:民间文书;归户;有机联系;数字人文
01
文献收集与问题的提出
2007年,曹树基教授的研究团队在浙江松阳县之石仓乡发现一个宗族近300年来的契约文书及账簿等其他材料。这些材料近年来陆续整理出版,基于此也相继研究了石仓的地权结构、建筑、会社组织、人口增长等。石仓的研究经验被归纳为“在地”与“有机”的方法。
2009年,曹树基教授注意到由于村落开发、拆除旧屋等因素,大量民间文书流入徽州、浙南等地的古籍市场,这些材料如何流入市场,其最初来自哪个具体的持有者,已难以探知。但这些材料仍可通过书商了解到其来源的地域,尤其在徽州,特定的地域往往与某些宗族密切相关,从而可以间接地了解到文书曾经持有者的信息。此外,根据文书中的人物、地域信息,也可间接地推断文书所属家族或社会组织的信息,因而,这些信息仍然为“在地”与“有机”的研究提供了可能性。
此外,我们也认为在目前国内的文保、科研政策下,材料由高校或公藏机构收集整理更容易为学界所利用。基于以上原因,自2009年至2013年,在交通大学支持下,我们陆续抢救性收集来自徽州、浙南、江西、福建等地的民间文书近35万件。
如何整理与利用如此巨量的文献,是近年来我们面临的课题。自收集文献伊始,我们已经确定了以数据库建设为导向的文献整理策略,基于此,我们已经设计了应用于地方历史文献数据库的分类法。此外,如何整合文献整理与数据库建设的需求,相关的研究者也已经提出了工作原则与基本流程。在此基础上,我们也希望推进针对地方历史文献的文献学研究。民间文书,以及更宽泛意义上的地方历史文献具有有别于其他历史文献的特性,我们认为文献的特性可以通过整理的过程显现,文献的特性背后则反映了产生文献的历史背景与社会机制。
02
文献整理原则:依据文献的产生来源
民间文书的产生过程与保存形态和一般历史文献学处理的材料有显著差异。通常历史文献学处理的材料是传统典籍,这些典籍一般是某个人或机构的有意识书写,徽州文书等民间文书则是人们在经济活动与日常生活的过程中无意识生产出来的,或可称之为一种非组织化的文献。以明清史学界整理过程最久的徽州文书为例,以下学者们所提出的徽州文书特性,或可启发我们理解民间文书的特性。
资料来源:周绍泉:《徽州文书与徽学》,《历史研究》,2000年第1期;臼井佐知子:《徽州文书と徽州研究》,載森正夫编:《明清時代史の基本問題》,汲古書院,1997;中岛乐章著、郭万平、高飞译:《明代乡村纠纷与秩序:以徽州文书为中心》,南京:江苏人民出版社,2006;严桂夫、王国键:《徽州文书档案的特点与价值》,《档案学研究》,2001年第1期;刘伯山:《徽州文书的遗存及特点》,《历史档案》,2004年第1期。
周绍泉先生认为徽州文书具有真实性,因为徽州文书是从实际生活中直接形成的文件。他所说的典型性则是指利用徽州文书可以形成一个个具有代表性的个案研究。臼井佐知子和中岛乐章是日本徽州文书研究的代表学者。中岛乐章所说的原始性,其含义接近与周绍泉先生所述的真实性,特别强调徽州文书来自实际生活。另外,中岛乐章所说的丰富性是指:“徽州学研究的最大优势在于,以徽州文书为中心,大量地保存了长时期族谱等文献史料和建筑等非文献史料。……有可能恢复包括民众文化、日常生活在内的一个地方社会的全貌。”严桂夫和王国键是安徽档案馆的学者,他们所说的系统完整,与刘伯山所述的连续性具有相近含义,均强调徽州文书的来源是可追溯的,文书之间的内部联系是有机的,可以复原的。
以上各位代表性学者所提出的徽州文书特性,可以归纳为以下共同点:第一,所有学者都认为徽州文书存量之大,内容之丰富,是同时代其他文献群难以匹敌的。第二,相对于传世文献,徽州文书的特别之处是其保持了原始记录,同时具有完整的,有机的文献内部联系。
也就是说,徽州文书具有原始性、连续性等重要特点,这种特性与现代的档案概念颇有相通之处。凡一切个人与社会团体在日常生活中产生的文件、图片等各类未经知识重组的文书资料,由档案馆等专门机构收藏,即可谓之档案。民间文书虽未入藏档案馆,但就其作为一种组织化的文献来看,与档案是类似的。因而大学、公藏机构入藏民间文书之后,参照档案标准进行整理也是题中应有之义。
这一点之前已经有学者注意到,严桂夫、王国键等学者将徽州文书称为徽州文书档案、徽州历史档案。地方历史文献的保管、整理、分类、编目,应当更多地借鉴档案学已有的方法和理论,尤其是档案学最为基础的理论:全宗原则和来源原则。
全宗原则和来源原则是19、20世纪之交档案学逐渐发展出的档案管理原理。16至18世纪的欧洲国家,其档案管理本来依据“事由原则”,即按照档案内容对档案进行分类保管。19世纪之后,本来的王室档案馆与行政机关文件登记室逐渐转变为国家档案馆,并且从封闭保密转为开放查阅,档案来源与档案查阅需求也随之多元化,因而,本来封闭的,依照逻辑进行主题分类的档案管理办法不再能满足需要。有的档案可以归入多个分类,或者有的档案不能按照现有分类归档,都给档案管理造成困难。
1841年,法国内政部第14号通令颁布省档案馆条理,规定:“来源于一个团体、一个机构、一个家庭或者一个人的所有文件都要组成全宗;档案管理人员不得把全宗拆散或将不同的全宗混在一起。”这一条例所规定提出了“尊重全宗原则”(the principle of respect pour les fonds),成为“来源原则”、“全宗原则”之滥觞。
继法国之后,德国国家档案馆于1881年发布《国家机密档案馆档案整理条例》,其中提出“国家机密档案馆内文件按其组成部分的来源进行整理”以及“每一机关一旦开始移交文件,就要立即指定一部分库房专放该机关的文件,在这部分库房内,官方文件要保持它在有关机关活动过程中获得的顺序和标志。”也即“登记室原则”,这一原则之后发展为“来源原则”。
来源(provenance)在档案学中指“向文件中心或档案馆移交文件之前,在事务活动过程中形成、保管和/或利用文件的组织或个人。”在此基础上,来自一个组织或个人的全部档案应当作为一个单独的整体保存,不同来源的档案不能混合,这就是现代档案学中通行的“来源原则”。根据来源原则,档案保管必须保持档案的“来源联系”。也就是说,应当以文献产生时的来源单位作为文献保管的基本单位,从而避免打破文献之间既有的有机联系。在整理文献时,应当区别针对文献实体的分类法和文献内容的分类法,通过两套分类法的综合编目,达到对文献的整体使用。
03
归户:文献整理的核心概念
什么是民间文书的“来源”?倘若借鉴档案学的整理理论,必须考虑这一问题,基于此,我们将“归户”作为地方历史文献整理中的一个核心概念。
归户是一个来自明清赋役制度的概念,意指赋役过割至地权买入人户,如清初陆陇其总结地方官的为政经验,“受业之家”即地权买入方应当“割税归户”,这里的“归户”是一个动词,为归入买入人户之意。明清之际的赋役制度改革中,“归户”是一个总体性的原则。
夫有田则有赋,顽猾抵官者,诚所当治,而善良乐输者,要当与之覆议。其大要,则于移割宜加意焉。产去税存,不可不察,民又以出业报者,便当关会受业之家,割税归户,然后却、与、除、退,庶几无泛追、无滥罚、无推摊抵捱之弊。
清代徽州文书中“归户”也可作为一个名词使用。徽州文书中有一类被称为“归户清册”的文献,通常是一个纳税户所有应纳税粮之土地的登记,与陆陇其所称之“归户”涵义相通。根据目前学界对清代赋役制度的理解,这些纳税户通常是一些虚拟户名,其背后可以是个人、家庭、宗族、会社或其他社会团体。这些“户”是纳税单位,同时也即经济活动的单位,进而也正是产生契约文书、账簿等民间文书的基本单位。
整理、研究民间文书的学术史中,刘伯山较早将“归户”作为一项原则,认为徽州文书具有归户性。但在他的编辑和研究中,并未说明“归户”的含义,只是一般性地将同属一个家族的文书称为归户文书。正如档案学对“来源”的理解越趋复杂,随着文献收集越来越丰富,作为文献收集、整理基本单位的“户”、“归户”也应当具有更丰富的内涵。事实上,早在1962年严中平先生已经提出一项针对收集工作的建议,希望能够“完整地”收集徽州文书。我们认为严中平先生所说的“完整”已经包含了“归户”的整理原则。
“归户”如同地方历史文献的“全宗”,正如档案保管从事由分类转向来源分类,地方历史文献的保管、整理也必将从内容、年代等原则转向归户原则。因为这些文献正是以“户”为单位产生的,以“户”为单位进行保管、分类,最能够保持文献自身内部的有机联系。同时,“户”的所指也应更加丰富,举凡家户、家族、宗族、会社、寺庙等都可成为一“户”。
以“归户”作为文献征集、保藏、整理的基本原则,在迄今的工作中也是切实有效的。从目前上海交通大学已收藏的地方历史文献来看,不仅徽州地域,中国华南、东南、中南大部分区域的文献都具有归户性。也就是说,至少苏北、浙南、安徽、江西、福建、广东、广西、湖南、湖北的地方历史文献,都可以“户”为基本单元进行整理。
基于归户原则并借鉴档案学的来源原则,文献收藏入馆时,应当保持其来源信息。因此,我们依据文献的市场来源及收购日期为所有文献编号,编号不仅是检索文献的基础信息,也保留了文献间联系。目前我们使用的编号系统由14位组成。首两位数字代表收集来源,也即我们收购文书的不同市场来源。这些文献是在四五年时间中陆续收集的,因而文献的收集时间及同一收集时间中不同的批次,构成了文献编号的中间8位,最后4位则是某件文献在该批次中的自然顺序。
同一批次内文献的编号,就按照这批文书最初被打开时所看到的文献摆放顺序,依次编号。目前所收集的单一家族文献最多为900余件,即使其中有多件成册文献,总页数也很难超过10000页;所收集的典籍,单套图书超过10000页的恐亦难见,因此预留四位编号是可行的。在此后的数字化中,扫描时遇到簿册文献,以“-页码”的形式赋予每页编号。
例如,来自歙县26都6图的江氏家族的一本100页的抄契簿。文献的收购来源是01,收购时间是2011年12月16日,同一批共收购8个批次的文献,江氏家族序号为01,这本抄契簿恰好是打开包装时放置的第一份文献。
那么这本抄契簿的检索编号应为01111216010001。研究者和整理者在引用这一文献时的格式应为:《光绪十五年江氏抄契簿》,上海交通大学藏,档案号01111216010001。引用其中某一页的格式应为《光绪十五年江氏抄契簿》,第75页,上海交通大学藏,档号01111216010001,或档号01111216010001-0075。
基于归户原则对文献的进一步整理是在编目时登记归户信息。民间文书通常来自乡村,清代南方乡村中定位村落的有效线索无疑是各方志“乡都”、“都鄙”、“乡里”等篇次中记载的都—图—村之信息。都、图是明清时代南方通行的县以下行政区划方式,一个图的范围,大致相当于今天一个行政村的范围,以此来区分不同的户,基本可以保证归户后的每一个户都是一个独立的单元。同一批次同一包装的一组文书,通常具有相同的归户信息。
仍以上述歙县26都6图江氏文书为例,这批文书经过整理可确知来自同一家族。文书中所留存的归户册、契约中的买人信息、分家书等都可进而说明这批文书来自歙县26都6图,清代歙县26都下属7个图,其村落自清中叶的17个增加至清末的32个。这批文书究竟来自哪个村落必须经过专门研究才能确定,仅就整理而言,登记为安徽徽州府歙县26都6图足可为后来的研究者提供必要之线索。事实上,在徽州等较为发达的文书市场中,书商也会利用其收购线索或判读文书的经验,以“都、图”形式编制文书目录,在批量整理中,我们也会利用这些信息。
因而整理中归户所登记的信息包含6个层级,如下:
省—府(州)—县(州/厅)—都(区)-图(保)-村落名-姓氏(商号/寺庙名)
都、图的序号用阿拉伯数字输入目录。如果同时能确定所属村落,亦标明所属村落。有的文献来源不是家族,而是商号或寺庙,按照来源原则,就以该商号或寺庙作为基本单元。上述的江氏家族,归户格式为:安徽省徽州府歙县26都6图江氏。又如婺源的江湾乡大道号商铺,归户格式为:安徽省徽州府婺源县7都10图大道商号。
有的府、县的行政区划在历史时期发生过调整,我们的意见是以《清史稿·地理志》的划分为基准,因为本标准主要是适用于历史文献,尤其是明清文献。例如婺源县民国后被划入江西省,但在归户编目中,仍然将其划入安徽省。
有的地区县以下行政区划不是“都—图”,而是“都—保”或其他形式,应当遵照当地的区划,但仍以两个层级为准。民国推行保甲法之后,“都—图”的区划被改为“区—保”。一般情况下,区—保的编号与都—图的编号相同,这时归户仍用都、图表示。区—保的编号与辖属范围发生变化的,由整理者进行判断,能够确定其原属都、图的,同时用都、图和区、保归户,不能确定原属都、图的,用区、保归户。编制目录时,以都、图为主,或加注说明文字。实际操作中,我们的做法是选择各县清代最晚一版地方志中的都—图、都—保信息进行著录。
04
转化为可分析文本:扫描、录文、元数据
文献数字化事实上包含两部分内容,数字化(digitalization)与数据化(datalization),前者是将文献的物理形态转化为电子形态,予以储存、使用,后者则是将电子文本转化为可分析的数据,这些数据将在进一步的研究中发挥巨大效用。
这里所说的“可分析”包含定量与定性的分析方法。定量分析针对文献中包含的数字信息如物价、产量,以及文献本身所呈现出的数量特征,如文献数量,文献涉及人物数量等等。另一方面,应用词频分析、关系网络分析等方法,则可对文本做定性的研究。
基于此,我们陆续将全部馆藏文献处理为电子档,所有文献扫描时都形成高质量与标准质量两个文件,高质量版本用于本地存储或今后出版,标准质量版本则用于调取阅览或输入数据库。
扫描本身虽然没有技术障碍,但需要比较有效的现场管理。批量扫描中,遇到破损严重需要先修复后扫描的,需要建立跟踪档案,先送入修复,再返回扫描,最后放入原本的文献包,按照编号顺序摆放保藏。另外,遇到超大幅面不能用一般扫描仪处理的,也要转出用大幅扫描仪或高倍相机处理,同时建立跟踪档案,最后转回原文献包。
建立扫描图档后,提取可分析的数据或者是依靠制作全文档(full-text archives),或者是建立元数据(metadata)表,或对文本进行半自动标记(semi-automate tag)。目前为止,中文手写文献似乎还没有很好的OCR手段,因此制作全文档只能人工录入。在此前的《石仓契约》等出版文献中,我们曾经的录入标准是“原字仿真”,但在以数据库应用为目标的情况下,则应全部以GB32标准的繁体字录入。一方面原因是“原字仿真”应用于批量录入不论训练或校对,工作量都太过巨大,特别是一些异体字、俗字,究竟如何处理算作“仿真”也是整理者始终面临的难题,且需要耗费大量精力用于自造字库;另一方面,就数据库的使用需要来说,“原字仿真”并非特别有效的方式,使用者必然要用标准汉字进行检索,如果是对字体、俗字等问题感兴趣的研究者,数据库提供录文与图档的对照,一样可以满足需求。
文献数字化中,制作元数据是有效利用文献的主要方法之一。目前上海交通大学所藏地方历史文献所使用的元数据格式由17项元素组成,这一元数据格式的理论依据及论证过程已有专文阐述,这里仅说明整个元数据的基本结构及其在应用中的涵义。
我们所使用的元数据格式试图描述三类元素,其一是识别每一件文献,并说明文献的性质,如文献编号、资源类型。其二是对文献内容的描述,地方历史文献所涉及的内容千差万别,涉及能够适用于全部文献的元数据元素是非常困难的。因此元数据的设计必须具有高度的弹性,能够涵纳多数文献,如文献名称、涉及人名(事主)、文献归户、日期等,是几乎从所有文献中都能找到的。但另一方面,针对存量特别多的文献,也需要一些专门的设计。从目前粗略的统计看,契约、账簿所占比例占到文献收藏的60%左右,因此也涉及了如事由、金额等特别与此类材料有关的元素。
目前,我么已经按照以上元数据标准编目了13.5万条,再已经发布的《上海交通大学馆藏地方历史文献数据库》中,也采用了这一元数据格式。元数据格式中的各个项目可以在数据库中交叉检索,这一方法可以大大提高文献检索的准确率。
上海交通大学目前尚未在文献整理中应用或开发文本半自动标记工具,但是社会学界及数字人文领域已有一些可应用于中文文献的半自动标记工具,可以预见,这将成为今后的一个趋势。
05
小结
上海交通大学地方历史文献的整理可以分为收集、入藏、登记编号、修复、转化为可分析文本、保存五个环节,保存文献产生来源的信息,保持文献间的关联性,是我们在整个整理流程中始终贯彻的原则。基于此原则,我们参照档案学的“来源原则”并援引历史学界所提出的“归户”概念,最终的目标则是将所有文献转化为可分析文本,为学界提供一个真正的海量文献数据库。
附记:论文初稿完成后,申斌兄提出了非常详尽的修改意见。尤其是申斌兄提示我注意黄霄羽所著《魂系历史主义》一书,从而系统梳理西方档案学“全宗原则”、“来源原则的”的发展过程,使得本文对整理理论的论证有所依凭。申斌兄与我们几乎同于2012年间涉足民间历史文献整理,数年中每有疑惑,总与他讨论求解,如果没有这位挚友,我们对文献的整理与研究要困难得多。藉此文尾,稍陈谢意!
因篇幅所限,本文参考文献与注释皆省。
文章来源:《地方档案与文献研究(第三辑)》,国家图书馆出版社,2017年。
作者:赵思渊、汤萌
编排:秋水槿
|