随着计算机技术的发展,我国的古籍索引研究和实践又有了新的成就和发展趋势。尤其是计算机技术与古籍索引编制的结合,使古籍索引工作与研究出现了前所未有的机遇,古籍索引的编制也迎来了电子化时代。电子化古籍索引具有容量大、体积小、检索效率高等诸多优势,其一出现就受到索引界的高度重视。在短短的20年间,国内外利用计算机技术编制了大量检索型古籍索引数据库。其中影响最为广泛的当属《古今图书集成索引》电子版。1988年广西大学在《古今图书集成索引》出版后就开始进入电子版的制作。经过10年的辛苦工作,1999年广西金海湾电子音像出版社出版了电子版《古今图书集成索引》。电子版《古今图书集成索引》出版以后,新华社、《中国新闻报》、《中华读书报》等10多家媒体报刊都作了报道。其重要的学术价值也受到索引学界的高度赞扬,电子版《古今图书集成索引》被认为是“古籍整理与现代科技的成功结合”,是“(电子版)古籍索引的一个范例”。
第三节古籍索引电子化实践
由于计算机技术首先在发达国家得到利用,因此利用计算机进行古籍索引的编撰实践也首先产生在国外。国外利用计算机进行古籍索引编撰实践的经验是从计算机语料库(Corpus)的建设中获取的。20世纪五六十年代,以N.Francis和H.Kucera为首的一批语言学家和计算机专家合作在美国布朗大学开始了机读布朗语料库(Brown Corpus)的建设。到20世纪90年代,西方各国已建立了用于语言研究和辞书编撰的大型语料库近200亿字。在计算机语料库建设经验的基础上,计算机用于中文古籍索引编制的探索也开始了。1978年美国人P·J·Ivanhoe运用计算机编制了朱熹《大学章句》索引、朱熹《中庸章句》索引和王阳明《大学》索引等。由此开始了古籍索引的电子化实践。此外,当时在德国汉堡大学任职的吴用彤于1975年编制出版了《诗经索引》,这是首次用电脑编制的英译本《诗经》索引。尽管这个版本是英文文本,但这应该是中国人最早的古籍索引的电子化实践。
台湾与香港地区的计算机技术早于大陆地区,因此,其古籍索引的电子化实践也较早于大陆。尽管早在1971年台湾地区国科委马志钦教授就倡议利用计算机进行中文资料处理研究,但台湾地区计算机与古籍整理的早期实践主要集中于汉字系统和数据库系统的设计与探索上。1982年,台湾地区“中央研究院”计算中心的张仲陶教授和谢清俊教授指导的硕士生张永铭、郑一雄和曾士熊分别撰著了《中文书籍自动拼版系统之设计》、《中文字形输出系统的设计》和《中国文字特性资料库的设计》等论文,这标志着台湾地区古籍索引的电子化实践的开始。而后张仲陶教授、谢清俊教授在“中央研究院”开始研发古籍资料库。“中央研究院”古籍全文资料库的开发宗旨是“为了中华文化的延续,务必要使古籍能活出现代风貌,不可任其在科技的洪流中式微没顶,而解决的方法,则是将古籍以电子媒体表达。”此后“汉代墓葬综合研究资料库”、“台湾土著语言资料库”、“台湾日据时代户籍资料库”、“清代竹堑地区土地申告书资料库”、“说文解字和玉篇资料库”、“善本书影像资料库”、“《二十五史》资料库”,等等相继推出。在香港,香港中文大学中国文化研究所据“先秦两汉一切传世文献电脑化资料库”先后编制成了《先秦两汉古籍逐字索引丛刊》(商务印书馆,1984年版)和《魏晋南北朝古籍逐字索引丛刊》(香港中文大学出版社,1990年版)。该索引具有单字使用频率和字句检索功能,并显示某字在古籍中的用例、出处等,为深入研究单部古籍提供了极大便利。
大陆地区在古籍索引与计算机结合的实践上较晚于台湾。1983年3月“全国语言学学科六·五规划会议”在太原召开,计算机与古籍整理研究成为这次会议的主要议题。会议上提出:“随着电子技术的发展,加上古籍整理工作者和计算机工作者的合作,计算机一定能够帮助我们在古籍整理研究方面做更多、更复杂的事情。我们相信,古籍整理研究手段的现代化和方法的现代化,不但是可能的,而且是必然的。”会议首次将3项计算机与古籍整理研究的课题列入国家重点科研项目。这3项课题是:山东省社会科学院语文研究所与武汉大学语言自动处理研究室合作的《论衡》逐词索引;中国社会科学院语言研究所与安徽师范大学合作的《儿女英雄传》虚词索引;兰州大学与兰州市计算中心合作的《朱子语类辑略》虚词引得。这3项计算机处理软件除了具有索引功能外,还具有统计功能、排序功能、辅助划词功能、版式设计功能、原文标引功能。随后,国内开始了古籍整理与计算机结合的实践。1985年深圳大学开发了《红楼梦》多功能检索数据库。1987年10月陕西师范大学在编撰《十三经辞典》和《十三经词语索引》的基础上开始探索辞书电脑处理系统。
东北师范大学古籍整理研究所是国内较早从事古籍整理与计算机结合的单位。20世纪80年代初,东北师范大学古籍整理研究所、电教研究所与计算机研究中心就开始尝试计算机与古籍整理相结合的探索。1987年,东北师范大学古籍整理研究所利用IBM-PC/XT计算机,对《贞观政要》进行了文献标引,实现了随意检索符号、字、词、句和句式等功能的检索,并可以将检索结果作多种处理。1988年中山大学于曼玲、余灼华等利用M-340中型计算机编制《高适诗集》逐字索引。1988年广西大学在《古今图书集成索引》出版后就开始进入电子版的制作。经过10年的辛苦工作,1999年广西金海湾电子音像出版社出版了电子版《古今图书集成索引》。
第四节古籍电子索引的检索
一、古籍电子索引的分类
按照古籍索引的索引款目,古籍索引可分为字词索引、句子索引、人名索引、传记索引、地方志索引、书目索引、篇目索引以及关键词索引。然而,由于古籍电子索引实现了款目多维化,古籍索引的索取对象除了可进行字、词、句、篇检索外,还可进行更多角度的分析或检索。例如,中国社会科学院开发的《史记》电子索引,具有单字索引、人名索引、地名索引、援引著作索引、专有名词索引、补遗索引、衍文索引等索引款目;台湾地区“中央研究院”资讯所的《二十五史》检索系统则可进行年号查询、人名查询、官职查询、地名查询、名词查询及统计分析等;解放军后勤学院的《孙子兵法》微机检索专家系统不仅具有字、词、句、段统计分析功能,同时还可进行量词统计分析、虚词统计分析、修辞统计分析和韵律统计分析;陕西中医研究院《黄帝内经素问》通检具有通检索引,通检编制,语句检索,随机扩展等功能,可对书中任何一部分内容从字、词、语、句、段、行和篇进行多级汉字检索。因此,若从古籍索引的索引款目对古籍电子索引进行分类显然无法实现。
下面我们以古籍索引的内容为对象将古籍电子索引分为:经部电子索引、史部电子索引、子部电子索引和集部电子索引。
经部电子索引以陕西师范大学的《十三经词语索引》系统为代表。1984年陕西师范大学辞书编撰研究所在充分调查的基础上编写出版《十三经辞典》及《十三经单字索引》、《十三经词语索引》、《十三经句子索引》和《十三经专有名词索引》等大型古籍索引工具书。《十三经辞典》后来成为“1988~2000年全国辞书编写出版规划”重点规划项目。《十三经词语索引》是同《十三经辞典》配套的国家重点项目,主要用于检索《十三经》各部经书中所有的词语,各词语后例句涵盖本书中所有含有该词语的句子。《十三经词语索引》系统的总体结构包括汉字信息库、原文信息库和单字信息提取三个信息库并最终形成索引,打印输出。形成的索引可以对所有经书中的单音节词、多音节词以及短语进行数频统计并排序。《十三经词语索引》系统可提供全部的词语信息,包括词语的频率、例句、页码等;还可提供《十三经》全部汉字的信息;词语索引的文本正文;按序排列的部首、拼音及四角号码检字表;以及带有方正排版命令的小样文件,供正式出版使用。
史部电子索引以《二十五史》检索系统为代表。《二十五史》检索系统是台湾地区“中央研究院”历史语言研究所与计算中心合作开发的索引资料库,该项目开始于1984年。第一阶段是将《二十五史》中的《食货志》共约66万字输入电脑,使之具备年号查询、人名索引、职官索引、地名索引及统计分析等功能;第二阶段是把《二十五史》全部的内容输入电脑,建立史籍全文资料库。数据库底本为台北鼎文书局翻印的中华书局点校本。系统的检索范围包括《二十五史》中的本纪、列传、志、表,乃至注释、校勘记的全部内容,可进行单著、单卷、单节检索,也可进行组合检索。用户可按标题、全文和段落三种形式直接查看检索结果;可对检索结果进行打印或文本文件输出,输出结果可直接转化为专用卡片系统,系统使用非常方便。
子部电子索引以华东师范大学中国文字研究与应用中心的《说文解字》全文检索系统为代表。《说文解字》全文检索系统于2004年4月由南方日报出版社出版发行,该系统由华东师范大学中国文字研究与应用中心臧克和、王平和刘志基等完成。该检索系统是教育部人文社科重大课题“《说文解字》、《原本玉篇》和《篆隶万象名义》比较研究”的成果之一。该检索系统兼具文本阅读和光盘检索两大功能。该系统的文献依据是清代孙星衍刻本,即目前流传最广的《说文解字》大徐本。整个文本信息包含了形、音、义三个方面:“形”包括楷书字头和篆书字头;“音”主要是根据大徐本《说文解字》中的反切拟定的现代音,不仅便于阅读,而且提供了中古语音和现代语音比较的重要参考信息;“义”就是大徐本《说文解字》的释义部分,经过了参编人员的整理和标点,整个释义部分方便易读。该系统的检索光盘是一个面向文本的智能信息处理软件,它包括了“《说文解字》部首检索”、“《说文解字》拼音检索”、“《说文解字》楷书字头检索”和“《说文解字》全文检索”四大部分。该软件能够为使用者提供准确、高效的信息检索系统,只要用户将需要查询的信息输入到相关的对话框中,就可以检索出用户所需求的有关大徐本《说文解字》的知识信息。
另外,深圳大学研发的《红楼梦》多功能计算机自动检索系统也很有特色。深圳大学《红楼梦》多功能计算机自动检索系统以人民文学出版社《红楼梦》(1982年版)作为底本。系统可以进行语言检索、写作方法、文艺、古代文化和索引等专题资料的自动检索、汇编和统计。语言文字方面包括单音节字、双音节词、四字格成语、助词、副词、介词、连词、象声词、量词和代词。写作方法方面包括修辞方法、爱情描写、心理描写、外貌描写和景物描写。文艺方面包括诗词、戏曲、音乐、绘画、对联、谜语和酒令。文化方面包括古代教育、古代典籍、神鬼巫术和园林建筑。索引包括官爵索引和人名索引。系统功能具有频率统计、自动检索、自动排序和汇编输出。例如,通过检索全书731,017字,有1,623个不同的四字格成语,使用了24种修辞手法。1987年月10月在慕尼黑举办的联邦德国第一届中文信息电脑处理研讨会上,《红楼梦》电脑检索系统成为一个最引人注目的项目,受到了与会者的高度关注和赞扬。
集部电子索引以南京师范大学《全唐宋金元词》检索与赏析系统为代表。南京师范大学《全唐宋金元词》检索与赏析系统属于江苏省教育科研计算机网二期工程应用课题,包括全唐宋金元词文库及赏析两部分。系统具有全文检索功能并链接有音像多媒体数据。系统内容包括:作者简介、词牌介绍、词调名对照表、词文检索、全文检索、逐页阅读、全宋词引得、三百首词赏析,可实现对作者、词牌、词牌正名、宫调、词句、几字句和第几句等项目的单项、双项或任意几项的组合检索。另外,系统具有“字频检索”功能,输入作者的姓名,便可以生成该作者的“字频表”,按汉字使用频率的高低,显示汉字总数和所占百分比等;如同时输入查询的字,可以查出该字的使用频率。2004年版增加了“统计”功能,可进行作者、词牌、词牌正名和宫调的统计。
二、古籍图谱电子索引
古籍图谱索引以古籍中的图谱为索取对象,属于古籍索引的一种。国内外所编撰的古籍图谱索引十分罕见,古籍图谱索引具有很高的学术价值,但是在古籍索引家族中,图谱索引却极为缺乏。近十几年来,随着计算机技术的发展,古籍图谱索引的编撰开始运用数字技术,开发建设了诸多古籍图谱数据库。