档案数字化是指“利用数据库技术、数据压缩技术、高速扫描技术等技术手段,将纸质文件、声像文件等传统介质的文件和已归档保存的电子档案,系统组织成具有有序结构的档案信息库。”档案的数字化可以节省档案存贮空间,缓解库房压力,也可以减少因对档案原件频繁使用而造成的磨损,妥善解决珍贵档案文献的利用问题,有利于保护档案原件,尤其是珍贵档案的保存。目前,数字化在档案事业中发挥着重要的作用,已成为档案工作发展的必然趋势。
二、档案数字化与扫描技术
档案数字化实现文本的输入,主要是采用扫描方式将纸质的文件与档案转换为数字化的形式。扫描加工是通过中高速扫描仪和扫描软件将整理和分检好的档案资料批量转化成图像文件,并自动实现图像压缩存储的过程。
(一)国家规范中的有关标准
档案数字化直接标准除《电子文件归档与管理规范》外,就是《纸质档案数字化技术规范》。这一技术规范指出,“扫描应该根据档案幅面的大小选择相应规格的扫描仪或档案扫描仪进行扫描。大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。”另外,“纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率。”
扫描色彩模式一般有黑白二值、灰度、彩色等,通常采用的是黑白二值。具体又细分为三种:“页面为黑白两色,并且字迹清晰、不带插图的档案,可采用黑白二值模式进行扫描。页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可采用灰度模式扫描。页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。”
扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。因为高分辨率容易使文件遭到复制,基于此,国家规范中规定采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择≥100dpi。如遇到文字偏小、密集、清晰度较差等特殊状况,则可以适当提高分辨率。而需要进行OCR汉字识别的档案,扫描分辨率一般建议选择≥200dpi。
(二)实际操作中的做法
实际工作中,档案部门根据档案本身不同情况,一般都采用各类扫描仪进行扫描,数码相机则较少使用。另外,实际扫描中受档案状况或扫描设备所限,也存有一些暂时无法进行数字化转换的档案,如纸张过于破损、发脆,或者某些尺寸过大的图纸等。而这些只能等待设备或者技术的更进后才可以解决。
色彩模式的选择是依据现有的设备以及档案本身状况而定的,可以遵守循序渐进的原则。比如杭州市档案馆在进行纸质档案数字化时,一期以黑白扫描为主,二期对红头文件及其他带有红章的文件进行彩色扫描,三期则全部进行彩色扫描。无疑,彩色扫描的层次丰富,清晰度高,可以真实地显示档案原貌。
分辨率的选择与设备关系很大,在不同地区、不同部门也有所差别。如杭州市档案馆在纸质档案数字化的一期工程中,就将扫描分辨率定为300dpi,浙江省档案馆的数字化扫描分辨率一般在200~300dpi左右,有的高达600dpi;而在一些设备相对比较落后的部门与地区,其扫描分辨率大都是按照国家规范来设定的,甚至于很多部门还达不到200dpi。分辨率越高,扫描后的图像就越清晰,但同时必须考虑到图像文件的大小。
(三)扫描技术发展趋势
扫描技术中主要的是色彩模式选择和分辨率选择。
色彩模式无疑会朝着彩色扫描发展,而分辨率的选择需要根据实际业务进行灵活设置。一般情况下,为了满足网络化查询利用,黑白图像采用200dpi就可以满足要求,彩色图像的扫描分辨率还可以低一些,具体参数可以根据扫描清晰度和质量因素进行综合选择。对于一些特殊的利用如承办展览等可以采用较高的扫描分辨率来进行。值得注意的是,分辨率的选择既不可过低,也不可过高。如福建曾采用了50dpi的扫描分辨率,虽然容量小、费用低,但是根本无法实现上网查询利用,等于做了无用功;另一方面,如果一味追求过高的分辨率,则会导致容量过大,对于网上资源的传播也是一种负担。
档案数字化后还要考虑文字识别(OCR)的运用,一般来说,文字识别主要用于全文检索之用,而非真正将扫描后的图像文件还原为文档,因而,就这一点看,不要以OCR的识别率来设置扫描分辨率,《纸质档案数字化技术规范》建议需要OCR识别的图像文件,分辨率≥200dpi,这是一个比较中性的标准。
三、数字档案的存储格式
(一)文档数据的存储
如何在数字化过程中将馆藏档案统一转变为某些具有国际或国家标准的电子格式,是档案数字化首先应该考虑的问题。
《电子文件归档与管理规范》中推荐的通用文件格式为:文字型数据采用XML文档和RTF、TXT格式;扫描图像数据采用JPEG、TIFF格式。《纸质档案数字化技术规范》中规定:采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储;提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。从前者到后者,可看出存储格式是不断发展且多元的。
1.文本型数据存储格式比较
以下对常见的几种存储格式进行比较,其优缺点都比较显著。
2.文档数据存储格式发展趋势
电子文件的发展对电子文件的格式、元数据的封装及其管理提出了很高的要求,但决定文档格式是否具有长久可行的存储优势,主要取决于文档是否具有开放性。就电子文档而言,开放就意味着共享。从这个意义上说,XML文档格式是具优势的,它具有自定义“电子文件类型定义”及封装元数据等功能,又具有很强的开发性,因而是一种具有生命力的存储格式。另外,随着网上期刊的增多,PDF和CAJ等格式逐渐显现出其优势,在以后的数字化档案存储格式中也会占有重要的一席之地。
但是,某些格式如TXT、CEB等随着技术的发展,可能会变得不那么重要。TXT格式虽是国家规范中的推荐格式,但在当前的工作中已经较少使用;而CEB目前也只是在政府机关电子政务公文处理中使用比较广泛,《基于XML的电子公文格式规范》的出台将会进一步扩大其应用和影响。
(二)图像文件存储格式
1.各类存储格式比较
扫描之后图像文件采用何种格式存储,是需要不断随技术发展和运用作调整的。目前看来,许多格式都可以作为图像存储之用,当然,究竟采用哪些格式,还要根据情况作选择。以下特作一比对。
2.图像文件存储格式的发展
上述格式虽然有着各自的应用优势,但由于档案数字化技术还不成熟,所以数字化后的格式一般还是采用国家规范中所推荐的TIFF、JPEG等常见格式。但随着技术的发展,一些新的格式还是显示了强大的发展后劲。特别是JPEG2000和DjVu两种格式。
JPEG2000作为JPEG的升级版,其压缩率比JPEG高约30%左右,同时支持有损和无损压缩。JPEG2000格式有一个极其重要的特征在于它能实现渐进传输,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。此外,JPEG2000还支持所谓的“感兴趣区域”特性,可以任意指定影像上感兴趣区域的压缩质量,还可以选择指定的部分先解压缩。
JPEG2000和JPEG相比优势明显,且向下兼容,因此可取代传统的JPEG格式。JPEG2000既可应用于传统的JPEG市场,如扫描仪、数码相机等,又可应用于新兴领域,如网络传输、无线通讯等等。JPEG2000在当前的档案数字化中并未得到应用,但随着档案信息网络传输的开展,这一格式也可以成为档案数字化的标准格式。
DjVu是由美国电报电话公司实验室(AT&T Labs)于1996年开发成功的一项新的图片压缩技术,通过这项技术,几乎所有的传统印刷资料都可在网上以高速传播。DjVu具有1000:1的高压缩比,通过DjVu压缩格式,以300dpi的分辨率扫描的彩色页面可以从25MB缩小到30至80KB,而且图像质量十分优秀。它能分辨出文字及图片的部分,并且分别储存在不同层,再分别对每一层图像的方式进行压缩,因此能产生好的图像品质及小的档案。这种技术将能得到清晰的文件图像,而又能保持原始文件的图像品质。
同时,由于采用分层显示,而不是等到整幅图片都被解码之后才显示,也使得图片显示的速度大大提高,用户在两三秒之内就能够迅速看到文字,其他的图像信息也会在几秒钟之内陆续显示出来。这种网上高质量图像发布的体验在传统压缩格式上是无法实现的。DjVu下载后的图像直接储存在计算机的内存中,并且可以在浏览器上快速地对文件进行实时的移动、缩放。换句话说,DiVu能使人们只花很少的时间来扫描、储存及下载大量文件。
目前,DiVu技术正在杭州市档案馆进行试点研究,尚未引入国家标准。但DjVu技术不论是在静态存储还是网上传输方面都具有相当的优势,且这一技术在图书馆界也早已得以采用,事实证明,DjVu技术同样可以用于档案数字化的工作中。
四、结论及展望
(一)国内现行数字化技术标准评价
首先,《纸质档案数字化技术规范》作为我国差不多唯一的档案数字化标准,目前看来显然有些中庸意味,技术规范中的扫描标准已经低于实际工作中应用的标准。比如扫描技术中对于扫描分辨率的选择,《纸质档案数字化技术规范》中规定采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择≥100dpi。如遇到文字偏小、密集、清晰度较差等特殊状况,需要进行OCR汉字识别的档案,扫描分辨率可以选择≥200dpi。而实际工作中,国家规范中建议的200dpi分辨率显得过小,很多部门在数字化中所采用的分辨率都超过了这一规定。
其次,现行技术标准是国家规范,具有比较大的宏观性。这也就决定了具体到每一个部门时,所采用的技术具有较强的灵活性。例如,对于扫描后的图像,相关国家标准一般推荐采用TIFF、JPEG等格式存储,而在实际工作中,根据具体情况,除TIFF、JPEG等格式外,还采用RAW、PSD、BMP、PNG、DjVu等格式。
第三,标准与实践运用是一种悖论。档案数字化应该以统一标准为基础进行,但要制订统一的标准又需要比较成熟的数字化工作实践经验,这样就势必出现这一种结果:数字化工作开展越早,“学费”交得越高。从博弈论上说,似乎等待标准出台再进行档案数字化,是每个档案部门决定是否进行数字化的绝对优势策略。但如果每个部门都在等待,那档案数字化工作将都得等待。因而,如何既进行档案数字化,又能小程度地减少不必要的损失,是目前我国档案信息化中值得认真研究的课题。
(二)档案数字化技术标准发展展望
我国虽已进入档案数字化的标准化时期,但由于档案数字化工作受多方因素制约,要建立起大范围的统一规范与标准并不容易。
首先,档案数字化的工作主要受经费、软硬件设备等的制约比较大。据调查,在全国49个省级(含副省级城市)综合档案馆中,除北京、上海、青岛、深圳、杭州等少数档案馆,其它地方普遍存在经费投入不足的问题,其中还有10多个省市至今对档案信息化建设没有专项投入。许多档案馆虽然购置了硬件设备,但软件系统及其应用相对薄弱,其应用水平和利用效率不高,没有发挥真正的作用。
其次,档案数字化文件格式的选择是一个受制于多种因素的综合性决定,不同数字化背景下做出的选择可能不同。我们当然希望全国乃至大范围内档案数字化工作规范、统一,但必须指出,对于不同目的下何种格式适宜于某类档案数字化,至少就目前的技术环境和研究基础而言是很难给出指导性建议的,因而档案数字化工作必定要建立在现实需求基础上,先试点后推广。
当然,在档案数字化过程中,如能遵循档案管理及电子文件管理等方面的国内外标准与规范,将档案信息采用统一的标准进行规范化处理,相信档案数字化业务将会以快的速度发展起来。随着基于XML的电子文件元数据标准的出台,不同系统间的数据交换也将有望实现,同时随着图像工具软件的改进,JPEG2000、DjVu等格式也必将成为档案数字化中的主流,也会成为图像存储中的标准。