基于利用全自动书刊扫描仪扫描的内容的古籍检索技术研究
一、全自动书刊扫描仪古籍检索技术现状
我国的古籍数字化经历了数据库版、光盘版、网络版三个建设阶段。数据库版古籍包括书目数据库和全文数据库两种形式。光盘版古籍一般有图像版、全文版和图文版三种类型。网络版古籍主要是将数字化的古籍资源在网络上有偿或无偿发布,供互联网用户使用,这是目前古籍数字化的主要目标。
目前,古籍数字化检索的核心技术仍然是传统的全文检索方法。全文数据库检索系统主要采用逐字标引形式,基于读者输入的检索字或词,在数据库中查找完全匹配的结果以返回给用户。但这种检索技术只是单纯基于关键词的检索,不论是单词检索,还是组合检索,都只能检索到与输入的词语严格匹配的资料,一是不可避免地带来检索效率低的问题,二是忽视了古籍文献中具有不同形式的内容间潜在的语义关联。
由于古籍文献对历史研究、文化探讨领域是非常珍贵的资源,有的甚至属孤本,大都具有非常重要的保存和利用价值,因此对这些古籍实施信息化的管理和网络共享,有利于对古籍知识的有效积累和应用,从长远来说,也是古籍研究发展的重要推动力。但目前,数字化古籍的检索领域仍然存在一些技术问题:
1.古籍数字化工作缺乏统一标准,制作时使用不同的格式和分辨率等,获得的古籍数字化文件格式多样,阅读器不同且不兼容,造成多数据来源下数字化古籍信息集成、数据交换困难;
2.未充分考虑古籍数字化的领域特点,对异形同义、异形近义、同形异义等问题未做深入探讨,其根本是未解决古籍检索技术中的关键性技术——古汉语词典切分技术,影响了古籍自动标引、名称主题检索及专有名词检索等的实现;
3.古籍数字化的工作仍局限将古典文献扫描形成电子出版物,并非建立在正确理解原文基础上的文字转化,这样的数字化方式只适用于保存,既不利于学者检索,也不利于传统文化的传播,但扫描只是数字化工作的预处理部分,并不能代替面向古籍保护领域的前期考证、标引以及字体转换、排版等;KABIS全自动书刊案卷扫描机器人
4.仅提供基于关键词检索的查询、展示方式,缺乏智能化的、个性化的、多元化的关联检索方式。
目前,大量古籍资料的数字化过程是将其进行扫描,同时以图片及文本形式存储。考虑到图像数据库的索引方式区别于传统的文本数据库,可以将二者分开进行存储、管理,但保持两个数据库中存储内容在语义、语用等方面的关联,以此为基础进行多维信息上的深度挖掘,获得多个古籍资料在属性或特征上的潜在相关性,从而为用户提供全面的、准确的检索结果。
要保证古籍检索的性能,追本溯源应着重研究古籍资料的全息无损清晰扫描。由于所有的古籍资料都是历史上遗留下来宝贵的档案,所以数字化工作不能对原始文档实行拆订扫描整理,只能采用全息无损清晰扫描。纸质文档资料无损扫描*关键的问题是遇到一些页数较多的资料时,会出现书页的装订线一侧无法清晰扫描或出现孤度的问题。为保证扫描图像的平整,确保页数较厚的资料装订线一侧能够扫描清楚、平整,必须使用全息书刊扫描技术及设备,实现零边距扫描。
之后,还需进行扫描成果去噪。扫描的图片歪斜,不清晰以及污点、折痕、噪点等,对以后OCR识别的影响都会很大,所以在扫描识别后要使用图象处理软件对图片进行纠偏和清晰度调整,包括图文纠编、去黑边、去噪声、任意旋转、影像增强等,以确保较高的识别率。
三是古籍图像的压缩存储。通常一页文档按300dpi分辨率扫描后的图像大小是900多K约1M,相对来说体积比较大。采用高倍的图像压缩比,以及二值化处理可对图文对象进行有效消肿,减小图文对象的存储空间,大大提高在线阅览和下载的速度。