第一节古籍书目数据库的概念
古籍书目数据库是随着计算机用于图书馆编目工作而发展起来的。随着图书馆普通图书书目数据库建设的深入开展,古籍书目数据库的建设也提上了日程。自20世纪90年代开始,大陆地区、台港地区以及国外开发出了大量的古籍书目数据库。书目数据库是指包含书目及与文献有关数据的机读记录的组织的集合,是机读版的书目数据汇编。由于书目数据库存储的书目数据属于二次文献,因此,也称二次文献数据库。而古籍书目数据库是指在统一的机读目录格式下,按照相应的标准和规范加工而成,并最终以计算机网络系统形式向用户提供相关古籍数据资源检索的大型目录数据库。
古籍书目数据库主要向读者提供藏书查询和借阅服务。古籍书目数据库的开发与建设是图书馆古籍管理的一次重大飞跃。传统的图书馆编目工作基本上是靠人工来进行的,而随着计算机技术的发展,图书馆自动化编目也日趋成熟。古籍书目数据库的开发与建设正是适应时代的发展而进行的有效变革。古籍书目数据库建设将使图书的编目工作更加快捷和高效。随着国际互联网的迅速发展,古籍书目数据库实现了网络共享。网络共享的出现又使得古籍书目数据库以海量的信息向世界的任何角落传播。古籍书目数据库具有快捷检索和交互流通的特点,它的出现将彻底改变以前查找资料不便的状态。
古籍书目数据库可充分开发古籍书目著录的信息资源。传统的古籍目录只能按照书名、责任者、分类以及出版社等途径进行书目信息检索。古籍书目数据库著录的书目信息则非常广泛,一般包括题名、责任者、资源描述项、出版者、资源形式、资源类型、资源来源、语种、资源标识、资源形式、时空范围、相关资源等项。古籍书目数据库全面反映了古籍书目信息,为开发利用古籍提供了最快捷、最准确的途径。
古籍书目数据库具有检索速度快、准确度高的优势。目录检索是图书馆向读者提供的基本参考咨询工具。通过目录检索读者可以迅速查找到所需的图书资料。传统图书检索目录一般按照书名、责任者或四部分类法进行笔画、音序或四角号码检索,检索速度慢,检索效果差。而古籍书目数据库具有多途径检索功能,可大大提高图书参考咨询工作。“古籍书目数据库,简化了查阅古籍的方法,增加了检索途径,可以极大地提高服务效率和质量。”
古籍书目数据库的建立,为实现网络化服务和文献资源共享提供了条件。古籍书目数据库打破了古籍资源长期封闭的状态并最终实现古籍文献信息的交流和资源共享。古籍书目数据库不仅要实现数字化,更为重要的是要实现古籍书目数据库的资源互通互享。随着互联网的发展,网际间的互联已完全能够实现,大量的古籍书目数据库资源均可实现网络检索。
第二节中文古籍的计算机编目
随着计算机技术的发展,实现图书编目的计算机化逐渐成为图书馆管理自动化的一项重要工作。20世纪60年代末,70年代初,美国国会图书馆开始尝试馆藏图书书目的机读格式设计,开发了LC-MARC(Machine Readable Catalog)系统。1965年推出MARC-Ⅰ,1968年MARC-Ⅱ问世。其后,美国俄亥俄大学图书馆中心(OCLC)开始利用MARC磁带为美国50个州图书馆编印目录卡片。
70年代,LC-MARC被国际图书馆协会联合会(IFLA)接受并通过为国际标准格式,即UNIMARC。其后,诸多国家生产并接受了UNIMARC磁带,进行本国的书目数据库的建库工作。同期,中文古籍方面也开始了机读编目的尝试。1983年,美国加州研究图书馆组织(简称RLG)建立了一个自动化信息系统“美国研究图书馆信息网络(简称RLIN)”。80年代末,该组织提出一项计划,拟将中国清·嘉庆以前的印本及抄稿本编制成计算机可读形式的中国古籍国际联合目录。“中国古籍国际联合目录”初期的工作是将台湾地区“中央图书馆”的编目磁带转录到RLIN数据库中。其后成立了一个由古籍研究专家组成的国际顾问委员会起草编目规则,并由专门的古籍编目人员及RLIN的CJK(Chinese,Japanese,and Korean)编目人员进行试行编目。1989年2月,第一次国际顾问委员会会议在美国国会图书馆召开。1991年9月“中国古籍国际联合目录”项目正式投入工作,到1996年4月结束,该项目共为7,495种中国古籍编目并输入美国研究图书馆信息网络(RLIN)数据库。参与该项目共有18个图书馆,中国方面有北京大学、中国科学院、辽宁图书馆、复旦大学和湖北图书馆参加。
在台湾,为了推行中文图书编目的计算机化,1980年4月由台湾“中国图书馆学会”及“中央图书馆”共同组建了“图书馆自动化作业规划委员会”,委员会积极开展中文图书编目的计算机化并制定了机读编目的作业规范。其中《中国机读编目格式》(Chinese-MARC)以UNIMARC为标准并参照《美国国会图书馆机读编目格式》(MARC Format for Bibliographic Data-1980)及其英国的UK-MARC、加拿大的Canadian-MARC、法国的Inter-MARC及澳洲Australia-MARC的机读格式。1981年1月出版第一版《中文图书机读编目格式》,1982年出版修订版《中国机读编目格式》。《中国编目规则》以《国立“中央图书馆”中文图书编目规则》及AACR-Ⅱ(AACR即英美编目规则,Anglo-American Cataloguing Rules)为蓝本,1983年9月正式出版《中国编目规则》。1984年3月编印出版了《中国图书分类法(试用本)》和《中文图书标题总目初稿》。计算机系统方面,1980年4月,台湾中国图书馆学会出版了《中文资讯交换码》(Chinese Character Code For Information Interchange,简称CCCI-I)。在具体古籍编目实践方面,台湾地区“国家图书馆”自1981年起开始着手以电脑机读方式建立书目数据库,1984年2月编目作业过度到全面自动化,采用《中国机读编目格式》和《中国编目规则》,数据库中涉及古籍的数据量有大陆出版品7,257笔,中国善本古籍26,396笔。
大陆地区的古籍计算机编目工作稍晚一些。20世纪80年代,北京图书馆和北京大学图书馆开始进行机读目录格式的编制试验。1991年《中国机读目录通讯格式》(书目文献出版社)正式出版。1996年,文化部正式颁发了行业标准的《中国机读目录格式》(CN-MARC),并于1997年7月1日正式实施。CN-MARC是在我国图书收藏机构特点的基础上,结合UNIMARC的一般规则修订而成,可进行中国与外国书目机构之间的计算机可读形式的信息交换。CN-MARC为书目数据库的建立提供了参照依据。CN-MARC适合于目前各种形态的文献,也包括古籍。CN-MARC于2001年又进行了修订,《中国机读目录格式使用手册(修订版)》由科学技术文献出版社出版。
在古籍编目方面,20世纪80年代,东北师范大学古籍所开始进行文献书目微机处理的试验。1988年初,古籍所所长吴枫教授到日本调研,看到日本国内各大学及研究机构已将文献书目输入了计算机,他由此而感到国内计算机古籍编目的意义重大,于是便开始了利用计算机收集和整理《中国现存古籍书目》的工作。1984年国家图书馆安装了具有汉字信息处理功能的M-150H计算机系统,开始利用美国国会图书馆的机读目录磁带(LC-MARC)进行西文图书的辅助编目工作,并为国内用户提供专题和定题检索服务。1987年利用PDP11/73计算机进行普通中文图书的机读目录编目工作,随后建立了一批书目数据库。1990年第225期《古籍整理出版情况简报》发表了《一次编制中国古籍善本书机读联合目录的试验》一文,文章肯定了中国古籍著录可以采用国际文献著录标准和方法编制机读目录。此后李致忠、沈乃文等古籍专家先后撰文,呼吁建立中国自己的古籍书目数据库。1995年,国家古籍整理出版规划小组决定筹建中国古籍书目数据库。此后,由于诸种原因,全国范围内古籍联合机读目录的编目一直未能付诸实践,代之而起的是各馆自行其事。
国家图书馆1995年下半年开始着手筹建普通古籍书目数据库的调研工作。1998年实施“中国数字图书馆工程”,同时着手进行古籍书目数据库的建设。1999年,编制了《古籍机读目录格式字段表》,其后,国家图书馆与北京大学共同研制了《古籍著录规则》(GB3792.7-87),编制了《汉语文古籍机读目录格式使用手册》等标准和规范。至2004年,馆藏善本古籍文献书目总库制作工作全部完成,实现了39万条数据的上网检索。南京图书馆于1988年就开始购置计算机,进行古籍书目数据库建设的尝试。最初的工作是将馆藏10多万张古籍书目卡片输入计算机,建成《馆藏古籍书目(草目)数据库》,数据库包含数据近20万条,包含馆藏古籍和影印、新印古籍。山东省图书馆一直关注国内外古籍书目数据库的建设情况,1996年10月,山东省图书馆选用“四库大汉字平台”和北京息洋电子信息技术研究所研制开发的通用编目系统开始了古籍书目数据库的回溯建库工作,数据库的设置按《中国文献编目规则·古籍》、CN-MARC执行,分类法采用《中国古籍善本书目》使用的四部分类法。
第三节古籍书目数据库的著录
古籍书目数据库的建设首先要确定的就是古籍的收录范围。但对于古籍的界定各图书馆存在着不同的认识。国家标准《古籍著录规则》的古籍主要是指1912年以前在中国书写或印刷的、具有中国古典装订形式的书籍。但是,在实际编目中各编目单位对《古籍著录规则》均有所扩大。如北京大学图书馆确立的《古籍描述元数据著录规则》,就将古籍的范围扩展为:民国年间乃至1949年以后,仍有用雕版印刷的方法印刷的,或虽是铅印或石印,但仍采用线装形式、其内容也是反映中国传统文化的书籍。对于这部分图书,人们一般将其与古籍一起统称为线装书,无论是收藏还是编目,与古籍都没有作严格的区分。所以,古籍元数据标准的著录范围,除《古籍著录规则》界定的古籍范围之外,也不排斥民国年间甚至1949年以后书写或印刷的,具有中国古典装订形式并反映中国传统文化的书籍。如北京大学图书馆《古籍描述元数据著录规则》的古籍编目适用范围为:1912年以前在中国书写或印刷的,具有中国古典装订形式的图书。在此之后用中国传统印刷方法印刷,或内容反映中国传统文化并采用中国古典装订形式装订的图书,也可视同古籍予以编目。浙江大学图书馆《古籍著录细则》的古籍编目适用范围为:除《古籍著录规则》界定的古籍范围之外,还包括民国年间甚至1949年以后书写或印刷的、具有中国古典装订形式并反映中国传统文化的书籍。
由于古籍的特殊性,古籍书目数据库建设不同于普通图书书目数据库的建设。古籍的特殊性首先表现为文字形态的多样性。从古至今记录我国文化信息的形式和书写方式发生了多次变化。在书写形式上,不仅有古老的甲骨文、金文、篆文,而且有多种书写形式如隶书、楷书、行书等;在书写方式上也是多种多样,如手工抄写本、雕刻印刷本以及活字印刷本。除了文字形态的多样性外,古籍的载体形态、编排体例和装帧形式等表现更为复杂。“这些变化的积累,给古籍发展史提供了丰富的内容,但同时也给古籍的编目带来繁重的任务。对古籍的描述性编目除了要反映古籍与普通图书具有共性的部分外(如书名、著者等),还需反映古籍自身的特色。”
另外,古籍书目数据库著录内容的选择也十分困难。普通图书的题名、责任者、出版地、出版者等著录均反映在版权页,编目人员很容易作出判断。而古籍的题名、责任者、出版地、出版者等较为分散,有时甚至缺失。如古籍的题名,古籍的题名可以著录在书签、封面、版心等处,有时还会出现在凡例或序跋中。另外同书异名、同名异书现象则更为复杂。又如,古籍的责任者也十分繁复,古籍的责任者既有姓名,又有字号,有时还会出现同一本书有多个责任者诸如著者、编者、注者、校考以及刻书者等。更为繁琐的是,古籍中有大量的丛书或合著,其责任者更难以确定。因此,古籍书目数据库不仅在著录标准上表现出巨大难度,而且在著录内容的选择上也十分困难。