20世纪80年代计算机技术的发展,使图书文献数字化成为现实。与此同时,数字图书馆的出现,是国际互联网普及和发展的必然。在数字图书馆的快速发展过程中,以古籍全文的数字化尤为引人关注。古籍全文数字化就是以古籍的内容为揭示对象,对古籍资源的全文进行数字化处理以便为读者提供全文阅读、全文检索或智能分析服务的数字化过程。古籍全文数据库是指以计算机可读的字符代码形式或以古籍文献扫描影像形式存贮的数据库。
第一节古籍全文数字化的实践
古籍全文数据库是在全文数据库技术实践基础上产生发展的。20世纪50年代,随着计算机技术的发展,全文数据库首先出现在法律和文学领域。1959年,美国匹兹堡大学卫生法律中心伯扬(Asp-en)数据系统公司首先建立了全文检索系统。60年代,美国米德(MEAD)公司研制了联机全文检索系统,称为“数据中心”(Data Centre)。1973年,美国米德公司建成的Lexis数据库是世界上第一个面向公众查询的大型全文数据库,它标志着全文数据库的诞生。其后,美国俄亥俄律师协会也建成了著名的法律文本检索系统;IBM公司推出了具有文本检索的功能的STAIRS;意大利西方出版公司也成功地开发了法学全文WESTLAW系统。这三大软件都为全文检索系统开辟了道路。1984年,美国斯坦福大学与美国IBM公司合作将莎士比亚的戏剧全文数字化,并命名为“Shakespeare Project”。1994年,美国政府公布了国家信息基础建设(NII)计划下的规划草案“人文和艺术上信息高速网络”(Humanities and Arts on Information Super Highway:A National Profile)。
由于台湾地区的计算机事业较早于大陆,因此古籍全文数据库的开发与建设也早于大陆。1984年7月台湾地区“中央研究院”历史语言研究所与计算中心合作开发“《二十五史》全文资料库”。1985年10月开发“汉代墓葬综合研究资料库”,1986年2月开发“台湾土著语言资料库”,1986年4月开发“台湾日据时代户籍资料库”,1987年1月开发“清代竹堑地区土地申告书资料库”,1989年计算中心开发了“《说文解字》和《玉篇》资料库”。其后,台湾地区“中央研究院”历史语言研究所在此基础上开始逐步实施“史籍自动化计划”,相继建立了“先秦两汉史籍资料库”,“《十三经注疏》资料库”,“《十通》资料库”等大型资料库,开发完成“汉简检索系统”。同时日本京都大学人文科学研究所也开发了“东洋学研究资料库”以及“简牍影像系统”。
大陆地区全文数据库的建设相对滞后一些。1987年秋,河南大学最早创建了“电脑化宋人笔记检索系统”。该系统共收录了《挥麈录》、《梦溪笔谈》等50种宋人笔记,涉及1,800余类、2,300余人、5万余条史料数据。系统采用Dos管理系统,将数据储存在计算机磁盘内。尽管这还是较为简单的全文数据库,但这一系统是国内首创的宋史高级科研电脑系统。同年12月,南京大学、河南大学、苏州大学又联合成功研制了《计算机甲骨文信息处理系统》。随后,国内科研院所与企业也开发了适合汉字特点的全文检索系统。1991年,山西大学计算机科学系刘开瑛等使用自动切词、自动分类、自动词性标注等自然语言处理技术研制了中文全文检索系统。1995年国家电子工业部计算机与微电子技术发展研究中心(CCID)中文信息处理开放实验室(CIPOL)研制了中文全文检索系统TIR系统。TIR系统可对中文的文本型数据,包括科技文献、新闻报道、文学作品、历史文献、电子书籍等进行检索。TIR系统避免了人工标引的困难和传统检索系统只能检索主题词的缺陷,拓展了用户查询的自由度,提高了查询效率,为大容量、大范围的数据检索提供了有效的工具。
20世纪90年代,我国的古籍全文数据库建设得到了迅速发展。1990年9月18日由武汉大学图书情报研究所陈光祚主持研制的国家教委文科博士点基金项目“湖北省地方志全文检索系统”(LOCALHIS)通过鉴定。该系统从地方志人名、地名、事件等固有词较多、语境较复杂的特点出发,采用手工选词(包括区分词类和加注标引等)和文字处理功能相结合的半自动标引方法,实现了全文检索,并具有法定数检索、人名地名聚类和后控制词表等功能。系统采用turbo-C为工具开发软件,基本功能包括“检索功能”、“输出功能”及“系统维护和操作功能”。其中,检词功能提供了截词、布尔逻辑检索以及后控词表控制的检索功能。文中检索则可对某一检索结果进行限制检索(二次检索)以取得更精确的结果,可使用4种位置逻辑算符。之后,中国社会科学院历史研究所开发了“中国古代简牍数据库”,四川大学开发了“《全宋文》电脑处理系统”,河北大学开发了“《续资治通鉴长编》全文检索系统”,陕西省中医研究院开发了中医经典古籍《素问》、《灵枢》、《甲乙》和《难经》的全文数据库,江苏省中医研究所开发了《伤寒论》、《金匮要略》和《脾胃论》等20余本中医古籍的全文数据库。这些全文数据库为古籍全文检索系统的进一步发展奠定了基础。全文数据库的发展必然带来全文检索技术的不断进步,使全文检索系统的软件功能不断得以完善。
除了科研院所积极参与古籍全文数据库的开发与建设外,一些从事数据库开发的数字化公司也瞄准古籍光盘市场,并参与古籍全文数据库的开发,进而出现了大量高质量的中文古籍数据库。数字化光盘具有图像稳定、容量巨大、成本低廉等优势,因此,数字化光盘一出现就引起了许多古籍收藏单位的青睐。1999年底上海世纪出版集团上海人民出版社和香港迪志文化出版有限公司推出了《文渊阁四库全书》电子版。该系统使用ISO/IEC10646-Unicode/CJK进行统一编码汉字,保证了文字识别的有效性。迪志《文渊阁四库全书》电子版除了采用文字字符录入保证全文高效检索外,还通过联机字典和原文图像对照为使用者提供了异体、通假、简繁、正讹、新旧、古今和形近等关联功能,大大提高了其学术研究价值。可以说,迪志《文渊阁四库全书》电子版无论是从技术上还是从市场上来讲,堪称这个阶段古籍数字化的杰作。
随着数字图书馆技术的发展,国内各大图书馆在进行数字图书馆的规划时,十分重视馆藏古籍的数字化建设。图书馆古籍全文数据库建设的重点在于古籍的保护和利用,因此,在古籍全文数据库开发上主要以图像数据库为主。国家图书馆十分重视向现代化图书馆的转型,它正逐步成为国家重要的知识枢纽和信息基地。发展数字图书馆已成为国家图书馆建设的核心和目标。国家图书馆从1995年起开始跟踪研发数字图书馆,1998年向文化部提出申请,要求在国家立项实施“中国数字图书馆工程”,同时着手进行数字资源建设。目前已开发的古籍全文数据库有:“敦煌遗珍”(国际敦煌项目)、“数字方志”、“西夏碎金”(西夏文献数字资源库)和“碑帖菁华”(中文拓片资源库)。1996年上海图书馆启动重点科研项目——古籍善本全文光盘,将馆藏古籍善本全部数字化,并分期实现上网服务,以满足海内外读者一览中国古籍善本的需要。辽宁省图书馆把对古籍文献的加工整理列为数字图书馆的重头戏,古籍图书与图片的扫描是数字图书馆首期建设的侧重点之一。1998年,辽宁省图书馆在IBM数字图书馆系统的基础上计划实现古籍的数字化处理并利用IBM的Time Delayand Integration(TDI)数字相机对古籍进行数字化加工。
第二节古籍全文数据库的类型
一、古籍全文数据库的存储方式
古籍全文数据库的存储方式主要有以下两种。
(1)图像保存。图像保存古籍文献的方式就是通过扫描的方式将古籍文献按原貌逐页录入,存储为图像文件并保存在数字光盘或计算机硬盘内,从而实现数据存储、处理、压缩和转换的一种数据储存方式。图像保存古籍文献的方式旨在保留古籍文献原貌,多被图书馆为保存古籍所采用。
(2)文本保存。文本保存古籍文献的方式就是通过手工录入或文字识别软件录入的方法将古籍文献文本内容储存在数字光盘或计算机硬盘内,从而实现数据的存储、处理、压缩和转换的一种数据储存方式。由于文本录入可以实现全文浏览阅读、检索、统计和智能分析等功能,多被部分科研院所和数字化公司所采用。
二、古籍全文数据库的类型
根据古籍全文数据库的存储方式,我们可以将古籍全文数据库分为图像版、文字版、图文版三种类型。
(1)图像版。其优势是技术实现容易,运行成本低廉,可以保存古籍原貌。图像版的缺陷是占据空间大,不能检索。图像版在技术处理上较为简单,只需要一台扫描仪器即可。因此,其开发成本较低,早期的古籍全文数据库多采用这种形式。图像版是以图像的形式存在,所以只能阅读,不能进行检索。另外,图像版占据的空间也比较大。
图像版主要格式有:①BMP文件格式。BMP(Bitmap-File)文件格式是Windows采用的图形文件格式,在Windows环境下运行的所有图像处理软件都支持BMP图像文件格式。②TIFF文件格式。TIFF(Tag Image File Format)图像文件是由Aldus和Microsoft公司为桌上出版系统研制开发的一种较为通用的图像文件格式,支持多种编码方法,具有扩展性、方便性和可改性。③JPEG文件格式。JPEG(Joint Photographic Experts Group)图像文件格式是最常用的图像文件格式,具有调节图像质量的功能,支持多种压缩级别。JPEG格式的应用非常广泛,特别是在网络和光盘读物上。④PSD文件格式。PSD是Adobe公司的图像处理软件PhotoShop图像处理软件的专用文件格式,是一种非压缩的原始文件保存格式。
(2)文字版。文字版可以利用计算机对数据进行多角度、多范围的检索、排序和分析,并可进行编辑和打印,使用非常方便。文字版古籍全文数据库的优势是:储存空间小,由于全文文本是以字符格式存在,文字版数字化古籍较图像版大大节约了储存空间;具备全文检索功能,可以支持学术研究。
文字版的缺陷是:文字输入难度较大,开发成本高,全文检索版采用的是人工输入,并且一般需要古籍专家的指导,开发成本较高;不能保持古籍原貌,由于全文检索版数字化古籍采用的是人工输入的方式,在输入转换原古籍书页内容难免有错误,因此,与原古籍的底本并不完本一致,对学术研究而言,还必须查阅原书。
文字版主要格式有:①TXT格式。TXT格式是最常见的一种文件格式,主要保存文本信息,但不能插入图片、图表和建立超链接。②DOC格式。DOC格式就是Office Word文档格式,可实现图表、图片嵌入和超级链接。③PDF格式。PDF格式(Portable Document Format)是Adobe公司开发的电子文件格式。这种文件格式可以通用于各种操作系统平台。④RTF格式。RTF(Rich Text Format),是微软公司的WordPad的标准格式。RTF文档可附加、嵌入或链接其他文本或二进制文本。⑤超文本格式。超文本是一种用户接口范式,用以显示文本及与文本相关的内容。超文本的格式目前最常使用的是HTML(Hyper Text Markup Language,即超文本标记语言)。HTML文件是带有格式标识符和超文本链接的内嵌代码的文本文件。⑥基于unicode、仓颉码、BIG5码或其他字符集,以HTML、TML(Text Markup Language)等为核心的全方位电子文献全文检索格式。这是目前最具发展潜力的一种数据库文件格式。台湾地区“中央研究院”的“汉籍电子文献资料库”、香港迪志的《四库全书》全文检索版、汉文化联盟开发的“汉文化资料库”等均属于这种形式。除此之外,许多数字化企业开发的数字化古籍多数采用了自己开发的专用格式。例如,北京华康信息技术有限公司的DynaDocReader格式;北京天安亿友公司开发的EDB格式(Eyousoft Digital Book);超星公司开发的PDG格式和国家图书馆的NLC格式(NLC Reader)等。