历史古旧报刊数字化流程概述:历史古旧报刊数字化技术与*近十多年普通的报刊数字化技术不尽相同。自从报业实现数字化工作流程以来,报纸的采编发排都采用计算机技术,其信息已经实现了数字化,而历史报刊由于早期使用铅字印刷或者石印、油印等,没有对应的数字信息,因此需要通过相应的技术手段将纸质信息数字化提取到计算机当中。
历史报刊特别是早期报纸是历史文档的重要资料,虽然人们对报纸的格式十分熟悉和认可,但从数字化处理的角度来看,报纸的格式是相当复杂的:文章长短不一,早期报纸有竖排版面、繁体字等,字体也不是当代的标准化字库里的字体,有照片图表,长篇的文字分布在不同的版面或页面中。另外,早期报纸的印刷质量和纸张质量不是很好,随着时间推移,有的字体可能会模糊,纸质会变得非常脆、易碎,难于处理,还有一些报纸只能在缩微胶片上找到。所有这些因素都使历史报刊的数字化面临很多困难,需要进行一些特殊处理。
目前,历史报刊数字化有比较标准的制作流程和技术工艺,不同的厂商可能会有自己的特点,不过制作流程一般会包括以下几个步骤:
1.报刊的清点。按照日期、版面清点数量,确认其完整性、可识别性、可扫描性。由于报刊一般都有一定的发行量,不止一个复本,应尽可能寻找*佳的一份,如果现实中找不到可用的报刊实体,可以用缩微胶片替代。
2.扫描和修图。利用大幅面扫描仪扫描纸质报刊,用胶片扫描仪扫描缩微胶片。对扫描得到的TIF图片进行修正,去除污渍、裂纹等。
3.OCR文字识别与校对。OCR(光学字符识别)是一种通过计算机自动识别图片上文字的技术,标准印刷汉字的OCR识别正确率可达到99%以上。由于早期报刊印刷技术简单和保存环境的原因,识别率可能稍低一些,需要进行多次校对以保证*终的质量。校对包括人工校对和智能化自动校对。
4.版面分析和划分。将修正后的版面扫描图片按照主题文章进行区域划分和标识。
5.制作版式文件。根据步骤2、3、4得到的信息制作可检索的数字版式文件,比如PDF等。
6.数字数据验收。对上述步骤得到的文字、图片、版式文件等数字数据进行再检验,以确保完整性和正确性。
7.数据入库。文字入全文数据库,图片入图片数据库,版式文件入版面数据库,三种数据库是相关联的,可以联合检索。
8.建立双平台检索系统。一般采用B/S架构,用户通过浏览器即可检索上述三种数据库。
经过上述步骤的处理加工后,*终的产品是一个完整的系统,其中包括:包含全部报刊文字和元数据的全文数据库、包含报纸照片和版面扫描图片的图片、可检索的PDF版式文件、基于B/S架构的双平台检索系统等。此外,为了支持高质量的再印刷,也包括修正后的版面扫描TIF图片。
历史报刊数字化关键技术研究
历史报刊数字化的关键技术包括:
1.图像获取:主要通过扫描,包括纸质扫描和胶片扫描等。
2.OCR文字识别与校对、版面分析和划分等:将修正后的版面扫描图片按照主题文章进行区域划分,目前有自动识别主题文章区域的技术。
3.元数据抽取和分类标引:文章的元数据抽取包括对文章主题、副题、引题、作者、来源、关键词、摘要、引文、外部特征等信息的自动识别和自动抽取;分标引类是按照国家新闻标准分类法对文章进行分类标识。
4.全文数据库和图片数据库:全文数据库是实现全文检索的数据库系统,为按关键字检索整篇文章带来很大便利;图片数据库一般按照文件存储、按照标引检索。
5.数字版式文件的制作、检索技术:制作数字化版式文件是为了能够展现历史报刊的原始风貌,使读者能直观地感受到是在阅读一份早期的报刊,更具有视觉震撼力。目前报刊的数字版式文件一般采用Adobe的PDF格式,根据扫描图像制作成可检索PDF一般采用双层和重构技术。
下面进行更详细的阐述。
1.扫描技术
扫描是历史报刊数字化制作流程中的关键,因为后续工作完全基于扫描后得到的TIF图片,其扫描质量、分辨率的选择、所使用的设备和参数设定都对后期制作有重要影响。特别是分辨率的选择,需要考虑到当代印刷术和近代的印刷术,当代彩色报刊的印刷一般要求彩色图片在200~300dpi即可,既不宜过低也不宜过高,而近代的印刷主要是以铅印、油印等为主,历史报刊的扫描精度一般采用300~600dpi,其目的是为了保存更多的细节,更具参考和研究价值。扫描精度越高,所得到扫描图片的容量也越大,因此,在选择扫描精度的时候也需要考虑硬件方面的存储容量。
由于报刊在印刷时是靠细小点阵来显示图像,并不是连续的色彩,高精度扫描会扫描出网状条纹,这种情况可能会降低OCR软件的处理速度。现在许多扫描仪有去除网纹的功能,可以解决此类问题。对于没有去除网纹功能的扫描仪,如对图像要求不高的话,可用降低扫描分辨率的办法。因此,如果考虑到下一步的文字识别率, 5号以上字体使用300dpi扫描,6号、7号字体使用400~600dpi扫描。综合考虑上述因素,可以统一使用400dpi左右的扫描精度。
纸质报纸和缩微胶片扫描所使用的设备和参数设定也有所差别,纸质报纸一般使用大幅面的快速扫描设备,而缩微胶片扫描仪在扫描前需要进行预先光学处理,目的是为了达到和纸质扫描相同的分辨率。
2.OCR技术与校对
OCR技术原理是对光学仪器产生的影像(比如扫描图片)进行处理,消除一些影响识别的可忽略因素(自动或者手工),将影像进行区域分割,使之成为可以独立识别的单元,然后从这些影响单元中提取形态特征,再与标准特征库中的数据进行对比,根据对比的结果决定该单元的识别结果。由于不确定因素较多,比如扫描设备的质量、扫描资料的质量、扫描精度、识别软件、学习和测试样本等都会影响到识别的准确率。
文字识别之前的影像预处理是该过程中需要处理问题*多的阶段,其中包括影像的正规化、除噪声、图像矫正、图文分析、文字行与字分离等步骤。举例说明,对于历史报刊而言,如果其扫描图片出现倾斜,超出计算机自动识别的误差范围,就需要就行图像旋转矫正;如果原始报刊本身由于存放时间过长,出现污点裂痕较多,影响到正常文字的识别,那么就需要将扫描图片上的这些污点裂痕去除、背景化;此外,早期报纸有竖排版,在行、字分离上需要进行特殊处理。
从识别技术的难度角度来看,印刷体识别相对要容易、正确率更高一些,因此对于历史报刊而言,只要预处理做得比较完善,其自动识别不会产生过多的错误。为了保证更高的文字正确率(比如差错率在万分之一以下),需要进行校对。校对包括软件自动校对和人工校对,自动校对是根据自然语言处理技术对识别出的文字语句的正确性进行判断和标注,然后进行纠错;人工校对是完全依赖校对员的判断。OCR的校对一般都是结合自动和人工两种方式进行反复多遍的排查纠错。
3.元数据抽取和标引技术
在建立全文数据库、图片数据库和版式文件数据库之前,需要对文章进行元数据抽取和标引,其目的是从多角度对文章、图片和版面文件进行标注说明,以完善检索系统。文章的元数据主要包括题名信息、作者信息、来源信息、关键词信息、摘要信息、引文信息、外部特征信息等。对于报刊而言,题名信息、作者信息、来源信息一般都在版面上明确标出,在OCR识别的版面区域划分过程中获得相应的信息;而对于其他元数据,比如关键词信息、摘要信息、引文信息等,因为没有明确标出,需要从报刊正文中提取,由于历史报刊数字化需要在短时间内处理海量的报刊文章,依靠人工无法完成,所以必须要进行元数据的自动抽取,需要结合自然语言处理、机器学习等技术。
在文本中抽取元数据标引,可分为全关键词标引和主关键词标引。自动标引过程与人工标引过程相似,其特点是标引速度快,标引的前后一致性好,在随机存储介质容量允许、软件检索功能具备的情况下,可以实现文摘、甚至全文的无人工标引自动检索。目前自动标引系统抽出的表述文献主题的主关键词准确性较差,还不能完全代替人工标引。
4.版式文件制作技术
版式文件是一种具有版权保护、加密、防止非法复制、防止屏幕拷贝、能够全面展示版面多媒体内容和样式、并且能够精确输出到打印设备的文件格式,目前比较流行的版式文件是Adobe公司的PDF,国内北大方正采用了CEB,另外还有epub等。报刊的版式文件一般采用PDF格式。
制作版式文件是历史报刊数字化的一项重要工作,其意义有以下几个方面:(1)首先通过版式文件能够直观地展示历史报刊的外观,包括版面布局、文字样式和图片等。(2)支持版面检索,在双平台检索平台通过关键字检索就能找到包含关键字的版面。(3)支持再印刷,矢量字体的版式文件能够进行更大幅面的印刷输出,不会有字体的变形。(4)标准化的文件格式便于存储和交换。
目前历史报刊数字化的PDF版式文件制作有两种技术:双层和重构。对于前期历史报刊而言,因为没有对应的电子版面文件,所以需要制作双层或者重构PDF。制作双层PDF的重点在于扫描图片处理成合适清晰度的压缩图片用于双层PDF的上层图片层,并将文本按照原始版面结构重排并与图片层对应,形成隐藏的下层文字层;重构PDF则是利用图片和文本数据按照原始版面结构进行整版的图文混合重排,是单层结构。这两种PDF的主要区别有以下几方面:
(1)在PDF文件结构方面:双层PDF,顾名思义,该PDF逻辑上具有两层(一层纯图片层、一层纯文本层),上层是用于浏览的可视图片层(为了避免文件体积过大,该图片层一般使用高清扫描图片的压缩格式),能够浏览版面扫描原貌;下层是用于文字检索的隐藏文本层(浏览时不可见),文本层中的文字就是版式图片经OCR识别校正后的文本,它与上层图片层版式图片中的文字是一一对应的,一个是图片化文字、一个是文本化的文字。这样形成的双层PDF既可以100%保留原始版面效果,又可以通过下层的文字信息支持选择、复制、文字检索等功能。重构PDF,是当代流行的单层图文混排结构。
(2)在PDF版式重排方面:对于历史报刊而言,双层和重构PDF都要进行相应的版面重排,但是双层PDF仅对其文字层的文字按照原始版面位置进行重排和对应;而重构PDF则要按照当今的图文混排方式重现原始版面的样貌,所以制作方面工作量要大一些。对于组版出版数字化之后的近期历史报刊而言,由于已经存在可印刷的数字PS版面文件和对应的数字矢量字库,而且这些PS版面文件可以精确地批量生成当今流行的图文混排的PDF版,不必再进行版面重排,就没有制作双层或者重构PDF之说了。
(3)在视觉浏览方面:双层PDF是100%保留扫描版面视觉效果,但受图片层的精度所限,其中的文字缩至较小时会产生字体变形,而放大到一定程度字体会产生马赛克模糊;重构PDF中的文字是矢量字体,可对字体进行任意缩放,保持字体边缘依然光滑,字体色素不会丢失,因此不会变形和模糊。但是,重构PDF中的文字字体可能与原始字体有所差别。特别是早期铅字或者油印的报刊,由于没有对应的数字矢量字库,所以无法100%保留原始效果。但数字化以后的历史版面,就不存在这个问题。
(4)在用于印刷方面:同视觉浏览方面相类似,双层PDF是100%保留扫描版面视觉效果(原汁原味),但受图片层的精度所限,不能进行大幅的放大印刷,字体会产生马赛克模糊。对此可以直接使用修正后的高清TIF扫描图片进行大幅面的印刷。重构PDF支持任意放大的印刷,字体边缘光滑清晰,不会产生变形和模糊,印刷质量好于双层PDF。
(5)在版式文字检索和定位方面:双层和重构PDF都支持版面文字检索和定位,在检索速度上,双层的速度慢于重构,因为双层PDF的文件较大。
(6)在存储容量方面:重构PDF文件的存储容量比双层PDF文件小得多,一般是其1/4至1/6左右。因此重构PDF文件的打开和网络传输都要比双层PDF快,更适合于网络浏览。
(7)在文字差错率方面:理论上,历史报刊数字化的文字差错率和PDF采用双层和重构并无关系,差错率只和OCR识别准确率和人工校正等有关。在这方面,双层和重构的差别在于:对于双层PDF来说,即使文字层有错字,由于其本身是隐藏的(上层是可视图片),也不会被看见,但会在文本检索和复制过程中体现出来;对于重构PDF来说,文字如果有错误,则直接能看到。出错率的产生,很大程度上取决于原始扫描图的修正、文字识别准确率、校改人员的责任心、新闻常识、历史经验和承接公司的项目管理经验等。
(8)在发布渠道方面:双层PDF适合在本地电脑和局域网上浏览,重构PDF除本地电脑和局域网上之外,也适合在互联网上、手机、平板电脑、户外大屏上浏览。
(9)在专辑出品方面:这两种技术都能够满足个性化专辑出品的需求。
(10)费用方面:由于重构PDF的制作工作量相对大一些,所以制作重构PDF的费用比双层PDF高15%~20%左右。
总的来说,实施历史报刊数字化项目,如果仅从保护、存档的角度考虑,那么扫描历史报版面建立图片数据库,进而进行文字识别、校正、标引、入库、建立全文数据库和检索网站即可;如果进一步从满足版式检索和PDF浏览功能考虑,可采用双层PDF技术;如果考虑未来媒体终端的应用(例如苹果的iPhone手机、iPad平板电脑)、开发更多的衍生产品,那么可采用重构PDF的技术方案。
德国Book2net报纸大幅面扫描仪系列:Flash报纸专业大幅面扫描仪。可为超A1幅面的古籍、字画、古旧报纸数字化提供仿真级别数字化。
德国Book2net书刊扫描仪Flash报纸专业大幅面扫描仪图解:
德国Book2net书刊扫描仪产品参数:
北京方圆慧图科技有限公司(以下简称“方圆慧图”)是中国*具规模的集档案数字化设备销售、档案管理系统研发、业务咨询服务、数字化加工建设的整体解决方案提供商,总部位于北京。自成立以来,一直专注于档案图书数字化和文档信息资源管理领域帮助用户获得成功,是中国领先的档案图书数字化方案提供商。
方圆慧图是档案图书数字化领域*专业的扫描设备提供商。是多款高端扫描设备的中国地区总代理,包括德国Book2net书刊扫描仪全国总代理,德国Proserv书刊扫描仪亚太地区总代理,奥地利奇能书刊扫描仪全国总代理......。公司主要经营的数字化扫描设备有全自动书刊扫描仪、非接触式古籍扫描仪、零边距档案专用扫描仪、报纸数字用化专扫描仪、缩微胶片扫描仪、工业探伤胶片扫描仪、医疗胶片扫描仪、高速文件扫描仪等。可以为您提供*专业的数字化扫描设备方案。