登陆注册
42732600000014

第14章 古籍全文数据库的实现(1)

20世纪80年代计算机技术的发展,使图书文献数字化成为现实。与此同时,数字图书馆的出现,是国际互联网普及和发展的必然。在数字图书馆的快速发展过程中,以古籍全文的数字化尤为引人关注。古籍全文数字化就是以古籍的内容为揭示对象,对古籍资源的全文进行数字化处理以便为读者提供全文阅读、全文检索或智能分析服务的数字化过程。古籍全文数据库是指以计算机可读的字符代码形式或以古籍文献扫描影像形式存贮的数据库。

第一节古籍全文数字化的实践

古籍全文数据库是在全文数据库技术实践基础上产生发展的。20世纪50年代,随着计算机技术的发展,全文数据库首先出现在法律和文学领域。1959年,美国匹兹堡大学卫生法律中心伯扬(Asp-en)数据系统公司首先建立了全文检索系统。60年代,美国米德(MEAD)公司研制了联机全文检索系统,称为“数据中心”(Data Centre)。1973年,美国米德公司建成的Lexis数据库是世界上第一个面向公众查询的大型全文数据库,它标志着全文数据库的诞生。其后,美国俄亥俄律师协会也建成了著名的法律文本检索系统;IBM公司推出了具有文本检索的功能的STAIRS;意大利西方出版公司也成功地开发了法学全文WESTLAW系统。这三大软件都为全文检索系统开辟了道路。1984年,美国斯坦福大学与美国IBM公司合作将莎士比亚的戏剧全文数字化,并命名为“Shakespeare Project”。1994年,美国政府公布了国家信息基础建设(NII)计划下的规划草案“人文和艺术上信息高速网络”(Humanities and Arts on Information Super Highway:A National Profile)。

由于台湾地区的计算机事业较早于大陆,因此古籍全文数据库的开发与建设也早于大陆。1984年7月台湾地区“中央研究院”历史语言研究所与计算中心合作开发“《二十五史》全文资料库”。1985年10月开发“汉代墓葬综合研究资料库”,1986年2月开发“台湾土著语言资料库”,1986年4月开发“台湾日据时代户籍资料库”,1987年1月开发“清代竹堑地区土地申告书资料库”,1989年计算中心开发了“《说文解字》和《玉篇》资料库”。其后,台湾地区“中央研究院”历史语言研究所在此基础上开始逐步实施“史籍自动化计划”,相继建立了“先秦两汉史籍资料库”,“《十三经注疏》资料库”,“《十通》资料库”等大型资料库,开发完成“汉简检索系统”。同时日本京都大学人文科学研究所也开发了“东洋学研究资料库”以及“简牍影像系统”。

大陆地区全文数据库的建设相对滞后一些。1987年秋,河南大学最早创建了“电脑化宋人笔记检索系统”。该系统共收录了《挥麈录》、《梦溪笔谈》等50种宋人笔记,涉及1,800余类、2,300余人、5万余条史料数据。系统采用Dos管理系统,将数据储存在计算机磁盘内。尽管这还是较为简单的全文数据库,但这一系统是国内首创的宋史高级科研电脑系统。同年12月,南京大学、河南大学、苏州大学又联合成功研制了《计算机甲骨文信息处理系统》。随后,国内科研院所与企业也开发了适合汉字特点的全文检索系统。1991年,山西大学计算机科学系刘开瑛等使用自动切词、自动分类、自动词性标注等自然语言处理技术研制了中文全文检索系统。1995年国家电子工业部计算机与微电子技术发展研究中心(CCID)中文信息处理开放实验室(CIPOL)研制了中文全文检索系统TIR系统。TIR系统可对中文的文本型数据,包括科技文献、新闻报道、文学作品、历史文献、电子书籍等进行检索。TIR系统避免了人工标引的困难和传统检索系统只能检索主题词的缺陷,拓展了用户查询的自由度,提高了查询效率,为大容量、大范围的数据检索提供了有效的工具。

20世纪90年代,我国的古籍全文数据库建设得到了迅速发展。1990年9月18日由武汉大学图书情报研究所陈光祚主持研制的国家教委文科博士点基金项目“湖北省地方志全文检索系统”(LOCALHIS)通过鉴定。该系统从地方志人名、地名、事件等固有词较多、语境较复杂的特点出发,采用手工选词(包括区分词类和加注标引等)和文字处理功能相结合的半自动标引方法,实现了全文检索,并具有法定数检索、人名地名聚类和后控制词表等功能。系统采用turbo-C为工具开发软件,基本功能包括“检索功能”、“输出功能”及“系统维护和操作功能”。其中,检词功能提供了截词、布尔逻辑检索以及后控词表控制的检索功能。文中检索则可对某一检索结果进行限制检索(二次检索)以取得更精确的结果,可使用4种位置逻辑算符。之后,中国社会科学院历史研究所开发了“中国古代简牍数据库”,四川大学开发了“《全宋文》电脑处理系统”,河北大学开发了“《续资治通鉴长编》全文检索系统”,陕西省中医研究院开发了中医经典古籍《素问》、《灵枢》、《甲乙》和《难经》的全文数据库,江苏省中医研究所开发了《伤寒论》、《金匮要略》和《脾胃论》等20余本中医古籍的全文数据库。这些全文数据库为古籍全文检索系统的进一步发展奠定了基础。全文数据库的发展必然带来全文检索技术的不断进步,使全文检索系统的软件功能不断得以完善。

除了科研院所积极参与古籍全文数据库的开发与建设外,一些从事数据库开发的数字化公司也瞄准古籍光盘市场,并参与古籍全文数据库的开发,进而出现了大量高质量的中文古籍数据库。数字化光盘具有图像稳定、容量巨大、成本低廉等优势,因此,数字化光盘一出现就引起了许多古籍收藏单位的青睐。1999年底上海世纪出版集团上海人民出版社和香港迪志文化出版有限公司推出了《文渊阁四库全书》电子版。该系统使用ISO/IEC10646-Unicode/CJK进行统一编码汉字,保证了文字识别的有效性。迪志《文渊阁四库全书》电子版除了采用文字字符录入保证全文高效检索外,还通过联机字典和原文图像对照为使用者提供了异体、通假、简繁、正讹、新旧、古今和形近等关联功能,大大提高了其学术研究价值。可以说,迪志《文渊阁四库全书》电子版无论是从技术上还是从市场上来讲,堪称这个阶段古籍数字化的杰作。

随着数字图书馆技术的发展,国内各大图书馆在进行数字图书馆的规划时,十分重视馆藏古籍的数字化建设。图书馆古籍全文数据库建设的重点在于古籍的保护和利用,因此,在古籍全文数据库开发上主要以图像数据库为主。国家图书馆十分重视向现代化图书馆的转型,它正逐步成为国家重要的知识枢纽和信息基地。发展数字图书馆已成为国家图书馆建设的核心和目标。国家图书馆从1995年起开始跟踪研发数字图书馆,1998年向文化部提出申请,要求在国家立项实施“中国数字图书馆工程”,同时着手进行数字资源建设。目前已开发的古籍全文数据库有:“敦煌遗珍”(国际敦煌项目)、“数字方志”、“西夏碎金”(西夏文献数字资源库)和“碑帖菁华”(中文拓片资源库)。1996年上海图书馆启动重点科研项目——古籍善本全文光盘,将馆藏古籍善本全部数字化,并分期实现上网服务,以满足海内外读者一览中国古籍善本的需要。辽宁省图书馆把对古籍文献的加工整理列为数字图书馆的重头戏,古籍图书与图片的扫描是数字图书馆首期建设的侧重点之一。1998年,辽宁省图书馆在IBM数字图书馆系统的基础上计划实现古籍的数字化处理并利用IBM的Time Delayand Integration(TDI)数字相机对古籍进行数字化加工。

第二节古籍全文数据库的类型

一、古籍全文数据库的存储方式

古籍全文数据库的存储方式主要有以下两种。

(1)图像保存。图像保存古籍文献的方式就是通过扫描的方式将古籍文献按原貌逐页录入,存储为图像文件并保存在数字光盘或计算机硬盘内,从而实现数据存储、处理、压缩和转换的一种数据储存方式。图像保存古籍文献的方式旨在保留古籍文献原貌,多被图书馆为保存古籍所采用。

(2)文本保存。文本保存古籍文献的方式就是通过手工录入或文字识别软件录入的方法将古籍文献文本内容储存在数字光盘或计算机硬盘内,从而实现数据的存储、处理、压缩和转换的一种数据储存方式。由于文本录入可以实现全文浏览阅读、检索、统计和智能分析等功能,多被部分科研院所和数字化公司所采用。

二、古籍全文数据库的类型

根据古籍全文数据库的存储方式,我们可以将古籍全文数据库分为图像版、文字版、图文版三种类型。

(1)图像版。其优势是技术实现容易,运行成本低廉,可以保存古籍原貌。图像版的缺陷是占据空间大,不能检索。图像版在技术处理上较为简单,只需要一台扫描仪器即可。因此,其开发成本较低,早期的古籍全文数据库多采用这种形式。图像版是以图像的形式存在,所以只能阅读,不能进行检索。另外,图像版占据的空间也比较大。

图像版主要格式有:①BMP文件格式。BMP(Bitmap-File)文件格式是Windows采用的图形文件格式,在Windows环境下运行的所有图像处理软件都支持BMP图像文件格式。②TIFF文件格式。TIFF(Tag Image File Format)图像文件是由Aldus和Microsoft公司为桌上出版系统研制开发的一种较为通用的图像文件格式,支持多种编码方法,具有扩展性、方便性和可改性。③JPEG文件格式。JPEG(Joint Photographic Experts Group)图像文件格式是最常用的图像文件格式,具有调节图像质量的功能,支持多种压缩级别。JPEG格式的应用非常广泛,特别是在网络和光盘读物上。④PSD文件格式。PSD是Adobe公司的图像处理软件PhotoShop图像处理软件的专用文件格式,是一种非压缩的原始文件保存格式。

(2)文字版。文字版可以利用计算机对数据进行多角度、多范围的检索、排序和分析,并可进行编辑和打印,使用非常方便。文字版古籍全文数据库的优势是:储存空间小,由于全文文本是以字符格式存在,文字版数字化古籍较图像版大大节约了储存空间;具备全文检索功能,可以支持学术研究。

文字版的缺陷是:文字输入难度较大,开发成本高,全文检索版采用的是人工输入,并且一般需要古籍专家的指导,开发成本较高;不能保持古籍原貌,由于全文检索版数字化古籍采用的是人工输入的方式,在输入转换原古籍书页内容难免有错误,因此,与原古籍的底本并不完本一致,对学术研究而言,还必须查阅原书。

文字版主要格式有:①TXT格式。TXT格式是最常见的一种文件格式,主要保存文本信息,但不能插入图片、图表和建立超链接。②DOC格式。DOC格式就是Office Word文档格式,可实现图表、图片嵌入和超级链接。③PDF格式。PDF格式(Portable Document Format)是Adobe公司开发的电子文件格式。这种文件格式可以通用于各种操作系统平台。④RTF格式。RTF(Rich Text Format),是微软公司的WordPad的标准格式。RTF文档可附加、嵌入或链接其他文本或二进制文本。⑤超文本格式。超文本是一种用户接口范式,用以显示文本及与文本相关的内容。超文本的格式目前最常使用的是HTML(Hyper Text Markup Language,即超文本标记语言)。HTML文件是带有格式标识符和超文本链接的内嵌代码的文本文件。⑥基于unicode、仓颉码、BIG5码或其他字符集,以HTML、TML(Text Markup Language)等为核心的全方位电子文献全文检索格式。这是目前最具发展潜力的一种数据库文件格式。台湾地区“中央研究院”的“汉籍电子文献资料库”、香港迪志的《四库全书》全文检索版、汉文化联盟开发的“汉文化资料库”等均属于这种形式。除此之外,许多数字化企业开发的数字化古籍多数采用了自己开发的专用格式。例如,北京华康信息技术有限公司的DynaDocReader格式;北京天安亿友公司开发的EDB格式(Eyousoft Digital Book);超星公司开发的PDG格式和国家图书馆的NLC格式(NLC Reader)等。

同类推荐
  • 语文新课标课外必读第五辑——狼孩历险记

    语文新课标课外必读第五辑——狼孩历险记

    国家教育部颁布了最新《语文课程标准》,统称新课标,对中、小学语文教学指定了阅读书目,对阅读的数量、内容、质量以及速度都提出了明确的要求,这对于提高学生的阅读能力,培养语文素养,陶冶情操,促进学生终身学习和终身可持续发展,对于提高广大人民的文学素养具有极大的意义。
  • 春暖花开时

    春暖花开时

    作家刘吾福的小小说集《春暖花开时》,集萃了小小说130篇。本书积累了作者的写作精华,汇集厂作者对社会生活的理解和诠释。本仁品语言犀利、尖刻、洒脱。构思巧妙、嬉笑怒骂、褒扬正义、鞭笞丑恶、歌颂美好、针砭吋弊,引人向上,可渎性强,尤其适合青少年阅读。
  • 用美国小学课本学英语

    用美国小学课本学英语

    本书精选北美中小学课本中的标准课文,涵盖的学科广泛,包括数学、语文、科学、艺术、生物、化学、体育等等。藉此你可以从中体验到美式教育的精髓。我们试图让你真正“浸入”到纯正的英语环境中,实现有意识记与无意识记的完美结合,充分调动自己无意识记忆的潜在能力,让英语学习不再是一件辛苦的事情。
  • 中外民间故事

    中外民间故事

    语文新课标指定了中小学生的阅读书目,对阅读的数量、内容、质量以及速度都提出了明确的要求,这对于提高广大学生的阅读写作能力,培养语文素养,促进终身学习等具有深远的意义。
  • 影响青少年一生的中华典故——勤俭故事

    影响青少年一生的中华典故——勤俭故事

    《勤俭故事》每个典故包括诠释、出处和故事等内容,简单明了,短小精炼,具有很强的启迪性、智慧性和内涵性,非常适合青少年用于话题作文的论据,也对青少年的人生成长以及知识增长具有重要的作用。
热门推荐
  • 魔女的法则

    魔女的法则

    爸爸新娶的妻子绝对是个巫婆后母,但她白雪公主的外衣下裹着的可是“魔女”本质。嘿嘿,放马过来吧,看谁能够笑到最后,要知道如今魔镜已经为公主所拥有!但是该死的,后母皇后虽然没有魔镜,却有个撒旦投胎的“魔鬼侄子”当帮手,竟然无所不用其极地处处打压、折磨她,让她过去风光的好日子一去不复返。哼哼,他以为这样就会让她认输?那就错啦!来吧,本大小姐豁出去了,这世道谁怕谁呀?
  • 江湖多纷扰

    江湖多纷扰

    江湖多纷扰,万蝶谷谷主大人十分担忧自家的宝贝女儿柳玥误入江湖被人欺,捧在手里怕摔了,放在嘴里怕化了。在她及笄之前都将她看得牢牢的,不许她离了视线,可惜,这丫头片子比男子还要淘气遇上武林大会这么有意思的事,哪儿还能坐得住?于是!在一个月黑风高的晚上,她悄悄留书一封跑了!本想着一人一马快意恩仇岂不潇洒自在,哪知出门就给人调戏了!气的眼泪是哗哗的流本姑娘可不是好惹的!登徒子接招!江湖笑,人飘渺,世间多纷扰。
  • 天霸

    天霸

    这是一个充满热血的世界,每隔九百九十九年会有一个神秘而恐怖的异常生物重生,它的每一次出现都会给世界带来战争,给全宇宙带来巨大灾难!即便天界神族也在劫难逃,它也是为战争而生,人们给他起了一个名字,叫做天霸。天霸诞生于规律之外,是天地的错误,也是宇宙的漏洞!在天地两界各种力量全力打击下,天霸一次次被消灭,但又总按九百九十九年周期重新出现,这一现象被称为“天霸复活”纪元五千九百九十四年,又一个天霸复活之年,我们故事开始了……
  • 末世之暗黑召唤

    末世之暗黑召唤

    末世降临,普通学生获得神秘系统,面对无尽的外族入侵,叶琛凭借暗黑召唤兽,屹立于文明之巅。
  • 剑御洪荒

    剑御洪荒

    读灭世剑道,悟万物之理。掌握万物之生死,统领九代文明。血战到底,不惧生死,威临八方,一剑苍穹!
  • 斗罗大陆之一念神魔

    斗罗大陆之一念神魔

    二十一世纪新新青年一觉醒来发现自己竟然穿越到斗罗大陆的世界,本想平平淡淡才是真,没想到居然觉醒了究极武魂?还是先天满级魂力,甚至几个重要的女性角色对他破有好感,看许墨如何在扭转乾坤.........
  • 因为你是小白,所以我爱你

    因为你是小白,所以我爱你

    “喂,出去玩吗?”“对不起,你是谁,打错电话了吧!我是小白,白敬亭”“什么,哦,小白啊!”青春总有个YY的对象,也许有一天他真的是你呢?
  • 横行诸天世界

    横行诸天世界

    秦天意外得到战士培养系统,从此征战各个世界(电影电视小说),在黄飞鸿里学武,在主神空间成长,在僵约里战斗……
  • 穿越之最强王妃走天下

    穿越之最强王妃走天下

    血狼,雇佣兵界的头牌,神话般的存在,表面上是华夏医科大学有名教授在一次连续5场长达12小时的手术时精神不济猝死了但她却无缘无故地绑定了一个系统,“系统,帮我…”“系统,帮我…”“系统,帮我…”系统:我好命苦,居然帮人打理家务端茶递水,呜呜呜~看谢灵如何完转人生
  • 夫君,你节操掉了

    夫君,你节操掉了

    飞机上睡一觉醒来就穿越了?穿了就穿了,只是为啥别人穿越不是王妃就是皇后,再不济也是个官家小姐豪门千金,为啥她穿成个乡野小村姑?住的是春天漏雨冬天刮风的破茅屋,身边还围着一群如狼似虎自私势力的极品亲戚。苏梓筠抬头无语问苍天,这穿越是谁设定的?你给我滚出来,保证姑奶奶不打死你!一时手贱救了个命悬一线的神秘男人从此却被无耻纠缠上?“筠儿,昨日没有伺候好你,不然我们今日换个姿势再来一次?”某殿下食髓知味将那张倾城妖孽的俊脸凑过去恬不知耻的说道。某女一巴掌朝那张帅的人神共愤的脸挥过去:“滚!”【情节虚构,请勿模仿】