您的当前位置:首页正文

古籍资源数字化过程中的问题

2024-10-18 来源:威能网
古籍资源数字化过程中的问题

作者:刘金荣

来源:《吉林省教育学院学报·上旬刊》 2015年第8期

刘金荣

(吉林师范大学博迭学院,吉林四平136000)

摘要:本文结合古籍资源数字化的发展过程和出现的问题,提出了优化古籍资源数字化的几点建议:1.提高人员素质和加大经费投入;2.建立统一的文本格式,实行统一的著录规则;3解决文字转换的问题;4实现资源共享,统一开发利用;5.建立功能完善的古籍全文检索系统。

关键词:古籍资源数字化;文字转换;古籍保护计划;古籍数据库

DOI:10.16083/j. cnki. 22 - 1296/g4 2015. 08. 067

中图分类号:G255.1 文献标识码:A 文章编号:1671-1580(2015)08-0144-03

古籍资源数字化最早开始于20世纪七八十年代。近30年来,人们对古籍资源数字化的探索始终在不断向前推进。结合专家学者的不同认识,可以将古籍资源数字化做如下定义:从保护和利用古籍的目的出发,应用现代信息技术,将古籍中的文字或图像信息转化为能被计算机识别的数字符号,并使之结构化,从而实现古籍整理、存储、检索、阅读、传输的电子化,是古籍整理和开发的一项系统工作。

一、我国古籍保护的急迫性与严峻性

(一)古籍保护的急迫性

我国古代藏书丰富,官修古籍从西汉时期就有由刘向、刘歆编著的《别录》、《七略》。东汉时期,班固编撰了《汉书》,《汉书·艺文志》:“分六略三十八种,五百九十六家,三千二百六十九卷。清代编成第一部《四库全书》,分为经、史、子、集四部,装订成3.6万余册。另外,私人藏书也甚多,唐代私家藏书在万卷以上者就有近20家。宋代雕版印刷大兴,刻书成风,私藏之风渐盛,明清两代的知名藏书家多以千计,各家所藏几万、几十万不等。据有关部门统计,我国有关佛教、道教的估计藏书量超过3000万,其中善本古籍超过250万册。然而,这些图书历经朝代更迭,惨遭十次书厄,受到物理化学等外界因素的破坏,流传到今天实属不易,是中华民族的一大宝贵财富。

(二)古籍保护的严峻性

我国古籍保护与修缮工作从20世纪50年代开始,国家先后组织专家典校了“二十四史”、《资治通鉴》等古籍;建国不久后成立了古籍修缮出版组织;“文革”时期,“四人帮”组织对知识分子的迫害、对书籍的损毁使古籍工作停止下来,是我国近代史上最大的一次“书厄”:20世纪70年代,根据周恩来总理指示,集中全国图书馆界的力量,编纂出版了《中国古籍善本书目》,图书馆馆藏珍贵古籍情况得到初步梳理;从1989年开始,国务院批准实施了“中华大典”,这是新中国成立以来最大的文化出版工程。经过几十年的发展,我国已具备了比较成熟、规范的古籍修复技术,上百万册濒危古籍得到修复。但是,由于保存不善和人为的破坏,众多古籍断烂破损,等待修复,古籍的保护形势仍然很严峻。

二、古籍资源数字化的发展历程和现状

(一)古籍资源数字化的发展历程

1.第一阶段:古籍资源数字化的提出阶段

古籍资源数字化最早开始于20世纪70年代,美国人P.J.Ivanhoe利用电子计算机编制了《朱熹大学章句索引》、《戴震原善索引》等数据库。到20世纪80年代以后,台湾、香港和大陆受美国的影响,开展了中国古籍资源数字化事业,主要是利用新开发的计算机技术对古籍进行整理,由于当时计算机的运算能力远没有现在强大,这一阶段的古籍资源数字化还是以建立可检索的数据库为主要方向。因此说,直至20世纪90年代以前是古籍资源数字化的兴起阶段。

2.第二阶段:古籍资源数字化的发展阶段

20世纪90年代到21世纪初,计算机和互联网技术的发展使古籍资源数字化得到迅猛发展,文本化、数字化、图像化在这一阶段得到广泛的利用,形式也由单一化向多样化发展。这期间,古籍资源数字化的研究内容包括文字转化、全文检索、汉字字符集、元数据的建设等。这一阶段古籍资源数字化的理念与实践相结合,使古籍资源数字化的长远发展向前走了一步,为后来的古籍资源数字化奠定了基础。

3.第三阶段:古籍资源数字化的成熟阶段

从21世纪初到现在,古籍资源数字化在理论上显得更为成熟。互联网和新的计算机技术使得这些理论得以实现,古籍资源数据库的存储量、运算水平、检索能力都得到了大大的提高。这一时期的古籍资源数字化主要探讨理论,技术被忽略了很多。由古籍资源数字化的理论研究转向古籍深度挖掘和深度利用等方面的研究。古籍资源数字化的研究方向与目的更加明确。

(二)我国古籍资源数字化发展现状

《中华再造善本》工程是国家针对古籍损坏、残缺不全、散落民间等缺乏统一管理和保护的现象,委派相关部门对古籍修复、复制.出版印刷等。这样既能增加古籍副本量,有利于流通、利用,也能扩大保存量。

中国数字图书馆工程能有效利用和共享图书信息资源,上传古籍书目信息与内容,对古籍的内容进行研究。

北京大学《中国基本古籍库——光盘工程》从20世纪末启动,将经、史、子、集各部分光盘化,从秦朝之前到抗日战争之前,大约有10000多种,共制盘500余张,而且能够进行全文检索,有利于弘扬卉籍中的重要知识和优秀的文化传统。

三、古籍资源数字化过程中出现的问题

(一)经费不足

现有收藏大量古籍文献资料的图书馆大都缺少经费,许多公共图书馆虽有许多古籍文献资料,但是因为缺少经费,很难开展古籍数字化的项目。只有在充足的经费保障下,古籍资源数字化的大项目才能顺利无忧地进行。

(二)标点的问题

在《汉书·艺文志》的古籍善本中这样记载:“昔仲尼没而微言绝,七十子丧而大义乖。故春秋分为五。诗分为四。易有数家之传。”而在现有的被数字化的《汉书·艺文志》中却是这样记载的:“昔仲尼没而微言绝,七十子丧而大义乖。故春秋分为五,诗分为四,易有数家之传。”原文中是“故春秋分为五”句号,“诗分为四”句号,而被数字化的古籍都是逗号。在汉语中句号跟逗号是有差别的。逗号一般表示句子内的停顿,句号在一句话结束停顿时才会使用。标点的不同用法往往会改变一句话的含义,使原本不是很难懂的文章变得支离破碎,使文章变得晦涩难懂。

(三)没有统一的格式与著录规则

古籍资源数字化的制作单位都处在各自为战的状态,目前尚未有统一的国家标准,著录以后的数字化资源各不相同。以数字化格式为例,有HT-ML(超文本)、XML(可扩展标记语言)、PD(便携式文档)等众多格式,由于阅读器不同,难以相互兼容,不光给读者带来了很多麻烦,也影响了各个单位之间对已经数字化的古籍资源进行共享。

(四)文字转换的难题

根据目前的研究成果,古籍资源数字化的录入方式分为全文版和图像版。全文版是将古籍中的文字转录到计算机中,并在已建立的检索系统中检索关键词。然而,这种数字化方式会产生很多有误的地方。汉字中有很多同音字、繁体字、通假字、简化字、异体字等,如“昂首观之,项为之强”(《童趣》)中,“强”是通假字,而其本字是“僵”;如“不亦说乎”中,“说”是古字,“悦”是今字,在一个数据库中很难进行统一的处理。

(五)软件功能和精确检索难以统一

软件功能是否健全对古籍资源数字化的进程和质量起着至关重要的作用,选择适当的软件可以加速古籍资源数字化的进程。现在大多数单位选择的OCR软件,对部分繁体字和不规则用字的识别能力很差,需要大量人力时间校对。进行全文本数字化的古籍可以实现任意字符的检索,但是,检索到的内容精准度不高。图像版本可以提供精准的信息,但往往却不能在全文检索中体现出来,通过标引有效的检索点可以在一定程度上解决这个问题,但还是会漏检到某些重要的信息。由于古籍中的古汉字有很多同词不同意,同意不同词,使数字化的古籍在检索系统中很难制定一个标志词,将全部的有效词汇进行标引。如何建立关联检索和前控后控词表也很难统一。

四、优化古籍资源数字化的建议

(一)提高人员素质,加大经费投入

古籍资源数字化工作不仅繁杂,还需要系统认真地对待,因此,古籍资源数字化这项工作对人员的素质与工作能力的要求都要比一般的图书馆员高出许多。从事古籍资源数字化工作的人员不仅要掌握整理校对古籍的专业知识,还要精通新型的互联网及各种科技技术,同时还要内外兼修,崇尚文化,能够坐住冷板凳,能够创新。因此,必须培养一些优秀的具备整理古籍并精通现代网络信息技术的人才。有了资金的保证,古籍资源数字化才能从过去的混沌工作中扭转过来,在不断吸纳优秀人才的同时给予丰厚的待遇,鼓励研究人员坚守自己的工作岗位,为古籍资源数字化做出贡献。

(二)建立统一的文本格式,实行统一的著录规则

建立方便检索的统一机读目录格式是古籍资源数字化过程中必须遵循的著录标准,只有在一个标准下制作的古籍目录才能有效地实现古籍数据库的资源共享。在制作条目时执行统一分类方法和著录标准,这样才有利于读者利用,实现跨数据库的检索,便于读者学习和研究。除此之外,古籍资源数字化工作更应该注重古籍数据库的自动化、智能化的研究,开发古籍数目的元数据,自动翻译,自动校勘,自动编纂,开展古籍文献计量学的研究以及异体字的显示,字典词典、历史年代对照表、人名大辞典、地名大辞典、官名辞典等各种知识库和辅助工具库的配备等。有了以上研究的支持,可以极大地改善古籍检索和利用的质量。

(三)解决文字转换的问题

在古籍资源数据库中,如何解决古今汉字的转换问题,也是亟待解决的首要难题。Word虽然有简体字转换的功能,但是还不够强大,虽然有些研究人员提倡使用《简繁字对应表》,但是人们在使用过程中还要翻阅对照表,因此有人提议建设相关数据库,即使现在一些研究古籍资源数字化的人想到了一些可执行的方法,如Unicode字符集虽然可以解决字库问题,但是很多软件不支持,常用的输入法和搜索引擎不支持大字符集,很多生僻字仍不能正确显示和检索。用造字的方法费时费力,而且很难共享和检索,生僻汉字的处理仍是古籍资源数字化过程中的一大障碍。因此,还是应该建立一个标准可执行的文字数据库。

(四)实现资源共享,统一开发利用

古籍文献不仅种类繁多、数量庞大,并且分布不均匀,在古籍数字化过程中必须共同遵守一个可操作的标准,单靠个人力量或者是单个组织很难实现数量庞大的古籍数字化。因此需要有一个权威组织或带头人进行资源等各方面的协调,个人或组织之间要密切配合,相互帮助,对已经数字化的古籍资源实现资源共享,避免人力、物力的大量损耗,健全各个学科的古籍数据库,把数字化技术和资源充分地调配起来,最大限度地发挥资源优势。

(五)建立功能完善的古籍全文检索系统

古籍资源数字化最大的优势在于能够进行检索,所以有一个功能完善的检索程序是古籍数字化建设的重要标准。首先,检索速度要快,在几秒钟之内,应列出关键词所在页面的所有条目,并按一定顺序排列;其次,检索系统要符合学科特点;再次,满足多条件检索;最后,检索结果应显示详细出处并能复制。

古籍进行数字化是一个任重而道远的过程,在此过程中必然还会存在许多有待解决的问题。目前,只能通过转换古籍载体使其更久远地流传于世,造福人类。但是,数百年后面对更新换代的信息技术与各种软件,现在的技术和保存手段可能不足以支撑数字化的古籍资源在未来的流传,人们应该如何解决这个问题,使我们在古籍资源数字化前期过程中所付出的人力、物力、财力不被抹杀,这些问题都是值得后来的古籍资源数字化工作人员不断研究和探讨的问题。

因篇幅问题不能全部显示,请点此查看更多更全内容