(2)古籍全文数据库的开发和建设缺乏计划性。古籍数字化是未来古籍保护和利用的重要趋势,古籍数据库的建设是一个庞大的系统工程,需要一个全国性协调机构或组织来全面实施全国统一的古籍数据库建设,以避免重复开发和资源浪费等现象。
(3)缺乏共享性。古籍数据库在数据库开发论证时就应考虑参照国家标准,制定出统一的数据库规范。由于缺少统一的规范,国内公共图书馆目前已建设的古籍数据库格式各不相同,互不兼容,这必将阻碍古籍文献资源的共享。
(4)古籍全文数据库的开发和建设存在地区分布不平衡现象。由于受经济条件和技术人才的限制,至今有部分地区的公共图书馆还未进行古籍全文数据库的开发和建设。
科研院所图书馆与公共图书馆的职能有所区别,其主要职责是为科研教学提供文献服务。因此,科研院所图书馆在古籍全文数据库的建设时更注重古籍数据库的检索和索引功能,侧重开发具有索引功能的检索型数据库。另外,从服务于教学和科研这一角度出发,科研院所图书馆也十分注重古籍专题特色数据库的建设,因为特色数据库更易集中资料,方便获取和数据分析。目前,国内科研院所图书馆中,大型的古籍全文数据库为北京大学“中国基本古籍库”。
合作开发是科研院所图书馆古籍数字化资源开发建设的一种重要形式。国内科研院所合作开发古籍数字化资源的主要形式有:国内科研院所间的合作、国内科研院所与数字化公司的合作、国内科研院所和国际科研单位间的合作。在此主要介绍国内部分的合作。
国内科研院所间合作的典型是全国高校专题特色数据库项目。全国高校专题特色数据库是中国高等教育文献保障体系(CALIS)“十五”建设的子项目之一。CALIS是国家教育部组织全国高校图书馆共建共享信息资源的一个合作项目。全国高校专题特色数据库项目在CALIS“十五”建设结束时,建成50个专题库组成的特色数据库群。该数据库群建立在可独立运行的各个特色库的基础上,除了具备可分布式检索的基本功能外,还将在CALIS管理中心的支持下,建立一个基于集中式元数据库的特色资源库中心门户。其中涉及古籍数字化的项目很多,如四川大学“巴蜀文化特色数据库”,独具巴蜀地域及其历史人文特色,全面覆盖巴蜀(四川和重庆)的地方历史、文化及相关的文献资源,体现了四川大学图书馆在巴蜀地方文献收藏上的特有优势和馆藏特色,其中包括“巴蜀文化文摘型数据库”和“巴蜀文化研究全文数据库”。
国内科研院所与数字化公司合作的代表是“中国古代文学史电子史料库”。“中国古代文学史电子史料库”由首都师范大学、南京师范大学、四川师范大学和鞍山师范学院等四所师范院校与国学时代公司合作开发,总字数达1.5亿字,数据库具有全文检索功能并附加联机字典。“中国古代文学史电子史料库”是广大文史研究工作者的首选数据库。
除了公共图书馆和科研院所图书馆参与古籍全文数据库的建设以外,部分数字化公司及文史爱好者也积极参与古籍全文数据库的建设。公司企业开发的数字资源主要针对市场需求,注重成本,避免版权纠纷,因此着重于已存古籍丛书的开发。例如,书同文数字化技术有限公司开发的《四库全书》、《四部丛刊》等全文检索型的古籍数据库;北京国学时代文化传播有限公司编制的大型古籍全文数据库《国学宝典》,收书6千余种、8亿多字,可以进行字、词、短语检索和出现统计;超星数字图书馆由北京世纪超星公司推出,为国家“863”计划中国数字图书馆示范工程。收有文史资料、地方志等古代文献以及中央档案馆、中国第一历史档案馆、中国第二历史档案馆的馆藏重要档案文献,另开发有《中国明清史档案文献光盘库》、《中华中医药文献光盘库》和《古今图书集成》等光盘数据库。超星图书馆是目前高校图书馆和公共图书馆使用最广泛的数字图书资源;南京科运隆信息技术有限责任公司开发有“《十三经》在线全文检索数据库”、“资治通鉴全文检索数据库”和“《二十五史》在线全文检索数据库”;天津永川技术有限公司开发有“《二十五史》全文检索系统”。
由北京时代瀚堂科技有限公司与北京龙戴特信息技术有限公司联合制作、社科文献出版社出版的《龙语瀚堂典籍数据库》是目前唯一可在微软平台上支持超大字符集、可进行自然语言全文检索的典籍类数据库。《龙语瀚堂典籍数据库》基于四字节汉字处理系统,自带了《说文解字》、《康熙字典》等字书类数据库。数据库共分为四个子库:小学工具类数据库、出土文献数据库、传世文献数据库和专题文献数据库。《龙语瀚堂典籍数据库》现有的古籍资源可进行自动累加,用户也可以自主添加各种图书资料。用户完全可以利用龙语瀚堂典籍数据库系统建立起自己的电子图书馆,查阅电子图书馆中的任何文字信息。
部分文史爱好者也参与制作以古代典籍为主题的数据库并借助网络传播。如家庭百宝箱系列软件制作室秦堤居士制作的“《诸子百家》全文检索阅读系统”、“《二十五史》全文检索阅读系统”、“《资治通鉴》全文检索阅读系统”和“文史系列软件浏览版——文史资料库”等。
随着互联网的普及与推广,古代典籍借助互联网这一媒介迅速传播。众多以古代典籍为主题的网站开始建立,并向广大读者提供免费阅读或检索服务。其中较典型如,中国国学文化传播参考网,提供四书五经、诸子百家、四库全书、古籍、诗词经典及国学经典等古籍资源;“白鹿书院”网站提供四大名著、四书五经、诗词、戏曲、小说及诸子百家等;国学网包括历代史书数据库、《十三经注疏》数据库、书画文献数据库、唐朝文献数据库及经学历史数据库等;“灵石岛”网站收录古典诗歌110,205首。诗词总汇网收录古诗词15,499首,设有在线字典、格律校验和诗词资料等栏目,还设有收录近10万首诗词的诗词总汇供查询使用。
公司、个人及专题网站开发的古籍全文数据库多数运行于网络。由于网络出版缺少规范和控制,这些数据库还存在着很多问题,如诸多文字错漏、不注明版本依据、网站不稳定等问题。但其在传播我国文化上的功绩还是不容忽视的。
第四节专题古籍全文数据库
一、地方志全文数据库
地方志是我国所特有的文献种类,其史料价值极高。目前,地方志全文数据库已开发出许多资源。以国家图书馆为例,国家图书馆的“数字方志”项目于2002年正式启动。国家图书馆所存文献数量与品质极高。中国国家图书馆于1990年专门成立了“地方志与家谱文献中心”。其目标是要“建设一个包括全文影像库、全文文本库、书目库及各种专题库在内的大型数字方志资源库。其用户服务系统具有多样检索、原文再现、多屏比较、版本校勘、关联查询、个性编辑、繁简转换、版权保护、电子商务等多种功能。”该项目在两年内分阶段完成。数据库采用数字图书馆方式,整理、加工编纂清代(含清代)以前的方志资源,将有利于保存、传播、研究和开发中华特色文化,推动数字资源建设。“数字方志”系统具有简单检索、高级检索、二次检索、关联检索和全文影像浏览功能。随着数据资源建设内容的不断扩大与完善,将会推介出更多更丰富的地方志数字资源。
各省市公共图书馆在数字化开发时选取极具地域特色的县志、乡镇志、村志及族谱、家谱作为主要内容,并提供免费的网络共享服务。例如,天津图书馆为庆祝天津建城600周年,将其珍藏的天津地区善本方志进行了数字化,并已链接到网络。其中包括许多珍贵方志,如,(康熙)《天津卫志》、(康熙)《宝坻县志》、(康熙)《静海县志》、《杨柳青小志》和《宝坻政书》等;台湾地区“中央研究院”开发的“台湾方志全文数据库”是将台湾银行经济研究室所出版的《台湾文献丛刊》全部数字化,全面展示了台湾地区的古旧志书;广西图书馆“广西地方志全文影像库”于2000年启动,数据库为PDF原文影像格式,可按原书卷次和页码浏览,也可按专题跨书目检索和浏览原文。
除国家和省市公共图书馆参与数字方志的开发与建设之外,各地市县也积极参与数字化方志的开发。如昆山图书馆、苏州图书馆、常熟图书馆、吴江图书馆等地方图书馆,都对馆藏地方志、家谱等进行了图像扫描或文档处理,并提供网络共享,读者既可以查询书目馆藏地,也可浏览或下载阅读全文。
由北京爱如生数字化技术研究中心研发的、中国地方志指导小组办公室与新华音像中心、中国音像协会出版发行的(光盘)是国内目前最为庞大的光盘版数字方志。《中国分省地方志》(光盘)按照“每地有志,一代一书”的原则,从国内外现存的8千余种地方志中精选出5千余种。所选地方志多为宋元、明清善本方志,包括全国总志、各省通志、府州县志、村镇志、名胜志和乡土志。数据库可提供文字与原版图像对照,总字数达30亿字,图像3000万页。检索途径有区域检索、条目检索和全文检索。
另外,一些地方政府为了地方经济的发展,也积极投入光盘方志的建设。镇江市地方志办公室与上海瑞雨编译咨询有限公司合作开发《镇江方志》,光盘内容包括宋嘉定《镇江志》、元至顺《镇江志》、清和民国版《镇江府志》及续志5种,以及20世纪90年代以来修纂出版的市志及县、区志,全盘收录内容跨度上千年,共计文字资料1,000多万字。
省(市/区)情信息网是一种新的地方志形式。省(市/区)情信息网一改过去纸质地方志的存在方式,建立起数字网页,并依托国际互联网将有地方特色的信息迅速进行传播。省(市/区)情信息网一般由当地地方史志办公室主办,其栏目丰富、信息多样、具有超级链接功能,代表着未来地方志撰修的发展方向。20世纪90年代以来,我国地方志网络建设在各地逐步开展起来。据统计,目前全国已建地情库省级7个,市级63个,县级154个。