高速扫描仪,书籍扫描仪-方圆智能科技有限公司
收藏本站 | 设为首页 | 联系电话:400-616-0007
您的位置:首页 >> 产品中心
  •          
汉王OCR录入工厂系统(网络版)
汉王OCR录入工厂系统(网络版)

第一部分  背景概述

    互联网的普及,改变了人类获得、拥有、利用、处理、交流知识的方式。但在互联网上,英文信息占97%,法文信息占2%,中文只占千分之几。中文信息资源开发和建设已成当务之急。建设中国数字图书馆工程不仅将扭转互连网上中文信息匮乏的状况,而且将极大促进国民经济新的增长,推动我国信息技术的发展和信息化的建设,同时,图书馆 的工作方式和服务模式将得到跟本性的改变,全面实现自动化、网络化和信息化。目前,我国各级政府对数字化图书馆工程非常重视,国家成立了“863”计划数字化图书馆战略小组,北京市把数字图书馆建设列为四项高科技基础工程之一。这是一个运用现代高科技的数字资源系统工程,涉及到信息资源加工、存储、传输、检索和利用的全过程,是信息基础建设的重要组成部分。

    数字图书馆就是对有高度价值的图像、文本、语音、音响、影视、软件和科学数据等多媒体信息进行收集,组织规范性的加工,进行高质量保存和管理,实施知识增值,并提供在广域网上高速横向跨库连接的电子存取服务。同时还包括知识产权、存取权限、数据安全管理等范畴。简而言之,数字图书馆是超大规模的、可以跨库检索的海量数字化信息资源库,能为读者方便、快捷地提供信息的服务机制。数字图书馆的特点是:收藏数字化、操作电脑化、传递网络化、信息存贮自由化和资源共享化。

    数字图书馆作为一个海量、宽带多媒体网络系统,还有很多需要进一步研究开发的技术问题,这些问题主要表现在:

    1) 信息资源建设
    数字图书馆要把文本、声频、视频等各种信息资源整理入库。自动分类、自动标引、自动文摘、工业化的OCR技术等技术都是技术瓶颈所在。 

    2) 存储与压缩
    数字图书馆面临的数据是多种类型的、海量的。如何保存和管理海量数据是系统设计的核心任务之一。

    3) 分类、索引、检索:
    对不同的内容,不同的数据类型需要不同的分类体系和索引机制。检索工具应保证提供给用户的信息恰恰是用户需要的。因此,海量数据的搜索效率与速度是系统面临的巨大挑战,其中包括中文搜索、图像搜索、语音搜索、智能搜索。

    4) 传输与保护问题: 
    海量信息的快速浏览需要建立一个合理的分层传输机制,保护包括版权的保护和系统安全性的保护。
    基于领先的OCR(光学字符识别)技术和内容管理技术,汉王科技推出包括资源建设、资源检索利用两个重要环节的数字图书馆应用方案。


第二部分   数字图书资源建设

一、“汉王OCR录入工厂系统(网络版)”加工方案:

    信息资源对于网络时代,正如蒸汽机于工业社会,我们致力于信息资源建设,正是在构建未来社会的基石。要丰富网络资源,提高原有信息知识的利用效率,对图书、文献、档案等信息资料的数字化就显得尤其重要。

    但如何将种类繁多的文档资料、行业信息进行自动化处理,以满足各种数字化信息的应用,这就是OCR技术(光学字符识别)在信息数字化建设中起到的至关重要的作用。

    1、总体功能:

    实现大量原始资料的快速扫描录入与保存;
    OCR录入、校对、整理;
    数据库存储、备份、检索和管理;
    对各工序环节能进行监督和调度协调;
    员工岗位的管理;
    质量控制;
    系统管理。

    2、系统特点:

    1) 大量原始资料的快速扫描录入与保存
    各种版式的现代书籍: 横版、竖版、简体、繁体;
    古籍:特别是珍本、善本;
    各年代的报刊杂志及内部资料;
    各年代公文档案;
    各种报表或票据。

    2) 汉字识别之王:国际领先的OCR录入、校对、整理功能

    采用汉王先进的OCR识别技术,识别率高、速度快;快捷精确的横校、纵校、对比校对;支持多种电子文档存储格式:PDF、HTML、RTF、TXT、XLS,方便地实现全文检索,并将逐步与国际标准电子文档格式接轨。

    3) 完善的员工管理功能

    综合了考勤管理、岗位管理、工资管理三大功能,系统自动记录员工出勤情况,自动为各岗位分配工作并记录分配情况及工作量,并根据以上记录情况生成员工工资明细表;提供轻松友好的工作界面。

    4) 自动进行各工序环节的监督和调度协调

    服务器给各岗位分配任务,并进行任务协调,使各客户端的任务既相互形成完整的生产流程,提高工作效率,使得文字处理速度可达到每人班10-12万字,比手工录入的效率提高5-8倍。系统自动进行员工工作量计算、差错量监控,可将整体差错量控制在万分之二以内,从而达到了出版质量要求。

    5) 对本套系统的监控、管理及日常维护,并定期生成安全日志

二、系统结构:

    1、系统网络结构

    2、网络拓扑结构:


三、系统功能描述:

    汉王OCR海量录入软件系统具备四大功能:文字自动录入、流水线管理、质量控制和员工管理、系统管理。

    1) 文字自动录入功能
    OCR海量录入系统采用汉王在OCR领域领先的成熟的文字自动录入技术,可实现自动图像预处理、版面分析,能识别中文简体、繁体、英文及混排,多字体多字号文档。

    2) 流水线管理功能
    OCR海量书籍录入系统的操作分为几个步骤:纸质资料的整理、扫描、图像预处理、版面分析、识别、校对和保存。单机OCR系统要求操作员熟悉每个步骤:扫描、图像预处理、版面分析、识别、校对和保存,这种串行的工作方式会降低效率,对操作员技能要求也较高。但是,如果将冗长、复杂的生产过程合理地划分成若干道工序,每道工序操作简便,合理安排工作岗位,并行操作,生产效率和质量就能得到很大的提高。OCR海量录入系统就是采用生产流水线管理方式,根据OCR技术和操作的特点,将生产过程划分成以下几道工序:


四、工序说明:

    1) 图书资料整理:
    为了便于扫描和以后的查询、检索而进行的图书分类、拆装、命名、编号等。

    2) 扫描:
    扫描是纸质文稿图像输入计算机的过程。一般把相关文稿顺序扫描,在扫描质量控制程序自动检测并修正后,自动保存到数据库中。

    3) 图像处理:
    为了提高识别率,对图像进行“消蓝去污”的处理,即去掉图像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理质量。

    4) 版面分析:
    能自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。

    5) 识别:
    把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字) 、表格、中英文混排, 识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。

    6) 纵向校对:
    具有很强的查错、纠错能力。纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。

    7) 横向校对:
    这是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不高的文字。

    8) 版面还原:
    将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。

    9) 数据入库:
    版面还原数字文档的保存。

    10) 质量控制和员工管理:
    质量控制是为了保证和控制系统的录入质量而采取的一整套方法与措施。主要是在各工序中加入对员工工作完成情况及差错量的监控和工作量的计算,以求将整体差错量控制在万分之五以内。
    员工的工作态度将会直接影响到数据录入的质量和工作效率,要使员工保持一种积极的工作态度,必须有好的管理制度和客观的评价标准及依据。OCR 海量录入系统还可以详尽地提供员工考勤情况和工作质量数据,对员工的工作情况给予公正的评估。
    员工管理系统在整个系统中处于支配地位。该部分由考勤管理、工资管理、质量控制、工作分配、返工单管理和建立用户等几个模块组成。

    11) 考勤管理:
    记录各员工的出勤、缺勤状况。

    12) 岗位管理:
    记录各岗位的工作分配及员工的工作量、差错量(质、数量的差错要求控制在万分之五以内)的状况。

    13) 系统管理功能
    “OCR海量录入软件系统”是一个大型的Intranet网络系统,它包含成千上万的加工数据资料和员工详尽的工作信息。管理人员通过简明友好的系统管理界面可以方便地查询数据、备份数据和系统维护。OCR海量录入系统还提供安全日志,供管理人员查询。
 
五、系统逻辑模型:



六、说明:

    整个系统围绕两个互相联系的数据库:员工管理数据库、OCR扫描文件数据库展开工作。

    员工管理数据库由员工信息表、工种信息表、员工考勤表、员工工作量表、班次表、工资管理表等构成一个完整的员工资料库。员工依流程指定的步骤登录、考勤、申请工作、执行操作并接受管理监督。

    OCR录入资料数据库经由扫描录入、图像处理、版面分析、识别、纵校、横校、版面还原等工序处理终形成。

    其中在信息传输上采取申请任务方式与分配任务方式相结合使用:

    1) 申请任务方式:

    用户完成一件工作包的同时查看是否有已经分配的工作包,如没有,则申请另一个工作包。 

    2) 分配任务方式:

    由管理员分配工作包给每一个员工。
    为对此流程进行有效管理,我们建立了原始工作包表、工序跟踪表、返工单表、员工工作分配表、工作包表等。

第三部分  数字资源的检索、利用

    数字图书馆建设内容为根,服务为本。汉王图书馆数字化内容管理解决方案是以图书馆的各种类型数字资源为中心,以为读者提供方便、快捷的信息服务机制为目的,围绕内容的收集和加工整理、内容的创建、内容的存贮和管理、内容的发布和传递、内容的查询和检索、内容挖掘等内容管理所涉及的项目提供的一整套基于WEB的数字化内容管理解决方案。

    一、方案特点:

    成熟稳定、独具特色的非结构化数据库支撑环境;
    国际领先的中文全文检索技术;
    全面、高效、灵活的信息服务体系。

    二、系统功能:

    汉王图书馆数字化内容管理解决方案包含三个层面的内容:

    通过汉王图书馆数字化内容管理解决方案,以各种方案存贮和管理的各种类型数据资源可以进行有效的加工、索引、管理并在网络上提供各种贴近读者的信息服务。


    三、便捷、高效的网站建设和维护:

    图书馆信息服务的网络化已成必然。信息发布是网上图书馆的基本要求,是实现图书馆信息共享的主要途径,而通过普通Web服务器来发布信息无法满足具体应用中在易维护性、安全性、检索等方面的需求。汉王网站建设和维护方案的宗旨就是便捷、高效。汉王信息发布系统一方面可以把Web站点繁杂的维护工作转换为数据库记录的维护,轻松管理海量数据,另一方面,可以利用动态访问数据库技术实现信息检索、动态导航、简繁内码自动转换等普通Web服务器所无法实现的功能。

    基于5年多来在Internet/Intranet应用信息系统开发方面积累的经验,汉王目前可以提供多层次的信息发布方式,满足多种应用的需求。用户既可以完全依赖汉王的发布功能,轻松完成Web站点的全部维护工作,也可以把汉王信息发布的各种功能按照“组件”的形式使用,按照自己的意愿创建Web服务。

    所涉及汉王相关产品:

    1) 汉王 WEB 应用服务器    

    包括汉王 Web控制台和汉王 Web Plugin两部分,是Web浏览器和数据库服务器(包括汉王数据库服务器、Oracle、SQL S其他关系型数据库)之间的中间层。它利用数据库技术和动态网页生成技术,通过频道维护工具可以方便地将数据库中的信息按照一定的导航策略发布到Web服务器,为Web服务器提供各种信息服务。

    2) 汉王静态发布工具  

    可以方便地按照各种设置将数据库中的数据自动生成HTML文件,加载到Web服务器上,并可按设定的时间每天自动进行。通过这种方式,Web站点维护人员只需维护数据库,系统就会定时Web服务器的网页。

    四、 数字化资源的有效开发和管理:

    信息资源的建设是开展信息服务的物质基础。面对浩如烟海的历史文献和互联网信息,选择恰当的题材,采用优秀的软件、切实可行的技术方案进行资源的数字化和整理入库,并结合自身的客观条件分阶段边建设、边服务,是进行数字化资源开发的有效途径。汉王是通过网络化、全方位的信息采集和海量费结构全文和多媒体信息的有效管理手段来实现图书馆数字化资源的有效开发和管理。

    五、 网络化全方位的信息采集:

    1) 支持各种流行格式的文档和数据处理

    汉王 CEL数据加工、预处理、辅助标引和数据库加载的集成环境。灵活、方便、有效地对MARC、HTML文件、Word文件、PDF文件、ISO2709文件和北大方正或华光激光照排系统生成的S2文件、PS文件、PS2文件等多种格式进行文本转换,并进一步提供浏览、标引、压缩和装库等多种功能。并且通过提供将照排文件转换输出为标准的PDF和HTML文件,有效实现了图书、期刊等原版式文件的上网和浏览。

    2) 基于Web空间的网页搜索引擎汉王 Transcend 

    汉王 Transcend可以帮助您从互连网上成批或有选择地收集您感兴趣的信息,它通过一个智能机器人收集您指定的Web站点上的信息。对于搜索到的信息,一方面您可以使用汉王 Catalog进行标引加工处理,然后用汉王 Indexer工具入库到汉王 数据库中,也可以选择先入库,再用后台分类工具进行数据库联机标引,建立类Yahoo!的网站、网页搜索引擎应用;另一方面您可以通过该搜索,建立网站或网页的镜像应用。

    3) 电子化网站而设计的网络出版采编系统汉王 Exchange 

    汉王网络出版采编系统是为建立电子化网站而设计的业务系统,主要完成上网信息的收发,流转,审校以及实时发布等任务。该系统有利于实现无纸办公,使工作过程合理,提高工作效率。利用该系统不仅可以通过合理的工作流程把上网信息发布到网站上,还可以利用汉王全文信息检索系统为发布的信息提供基于内容和标引的检索服务。

    六、 海量非结构化全文和多媒体信息的管理:

    1) 成熟稳定、独具特色的非结构化数据库支撑环境

    汉王 Sever 全文数据库服务器和 汉王 DBA数据库管理员工具为各种格式文档、多媒体信息的存储、管理和检索提供了支撑环境。系统提供了完整的数据库维护、安全控制、备份恢复、用户管理、权限管理等功能,同时还支持跨平台计算、支持Unicode,是全文、图片、声音、动画、电影、图像等非结构化数据管理的选择。

    2) 开放的数据存贮机制和高效的应用开发组件

    通过汉王 for RDBMS Gateway,可以透明地连接DB2、Oracle、Informix、Sybase、SQL Server等关系数据库管理系统。系统可以监控关系数据库中数据,自动维护数据索引,利用强大的汉王全文检索引擎,实现对数据库中文本或文档的内容检索。同时汉王还提供了汉王 COM组件和汉王 JavaBeans组件,这满足了主流平台和跨平台快速应用开发的需求,开发者只需要掌握ASP, JSP等主流开发技术便可高效生产具有自己特色的应用和中间件。汉王结合关系型数据库和文档型数据库的各自优势,采用面向对象跨平台的Java技术和组件化可伸缩的三层结构的软件系统构造方法,可以在多媒体数据库建设方面提供灵活的应用服务。针对多媒体数据库数据量大的特点,在多媒体数据库建设中将充分利用易宝北信公司全文检索的强大检索能力,在网上快速方便准确地获取多媒体资料,从而提供多媒体服务。

    汉王科技----数字资源建设事半功倍

    目前大量的纸本文献数据数字化通常采用人工录入或OCR自动识别技术。人工录入的优缺点自不用谈,再采用OCR这种技术路线的时候,结合汉王国际领先的全文管理和全文检索技术将能得到事半功倍的效果。因为尽管目前OCR技术已达到相当的识别率,但剩余10%左右的误码率将需要耗费约占总量80%的工作量来纠正,因此耗时长、成本高。而如果将识别产生的有10%误码率的全文数据提交汉王检索,检索结果的错检和漏检率将远远小于10%,这样一方面大量节约了时间、人力和资金,另一方面提供了全文检索原版浏览的服务手段,可谓事半功倍。

    七、面向读者的全方位信息服务:

    1、国际领先的多语种智能信息内容检索引擎、全方位高性能的信息检索服务

    信息检索是读者在图书馆网站获取信息的重要手段。汉王是全文检索的著名品牌,汉王系列检索引擎系统充分利用汉王强大的信息检索功能和高性能满足对海量信息的多线索、智能全文检索的要求。

    2、全文数据库检索 

    可以实现图书馆数字化全文内容的高性能检索服务。其性能特点包括:
检索一切数据来源,包括Text, HTML, Postscript, WPS, S2/PS2/PS, Microsoft Office, Adobe PDF, RDBMS等结构化数据。

    全方位检索功能,内核支持多语种, 同时支持结构化数据和非结构化数据的检索、多达48种检索逻辑,每次检索可以跨越多50个数据库等。

    领先的查询性能,汉王对海量数据业界领先的查询功能是得到大量实际应用检验的,能够确保在大量并发用户对海量数据库具有秒级响应。汉王领先的检索响应时间是在多种先进技术的支持下取得的,包括SKIP技术、索引高效压缩、搜索优化、Cache技术、大内存技术、多线程技术以及Web服务和检索服务的分布式体系结构。对52年人民日报(1947-1998)100多万篇文章,超过10亿汉字(2.1G)的各种检索条件的实际测试表明,检索平均响应时间为0.7秒(PII400, Windows NT Server)。

    智能检索有效改善检索效果,汉王提供中文字词混合索引机制,既能保证查准率,又不丧失查全率,彻底解决了中文全文检索的难点,同时主题词典的检索控制和智能相关排序(Relevance Ranking),能够极大地改善检索的效果。

    空间膨胀上的新突破,汉王采用多种数据和索引压缩技术,使得空间膨胀率达到创纪录的0.0-0.3左右。汉王空间膨胀率方面的技术突破不是以牺牲检索速度为代价的,相反由于减少了数据库访问I/O次数, 检索速度得到了提高,对于规模小的数据库,可选择不压缩。

    多语种检索核心,汉王内核支持ASCII、GBK、BIG5、Unicode(ISO10646/UCS2)多种编码,有效解决了多语种的全文检索问题。

    3、网站页面检索 

    汉王站点检索工具在不影响图书馆网站的原有功能的基础上对站点所有网页建立有效的内容索引,可以同时提供分类检索,全文检索和高级检索多种检索手段;检索功能可以链接在网页的任意位置;该系统可以在Internet/Intranet上自动搜索网站新的网页信息,自动建立和维护索引,并自动生成信息导航页面的Web导航系统,从而可以快速准确地检索到网络上或网站上的信息。

    4、WEB+CD的多途径信息传递

    信息传递的途径是多种多样的。信息一方面可以通过Internet/Intranet发布,另一方面可以通过CD-ROM光盘进行发行和存档。汉王光盘制作工具可以将图书馆已经建立的各种数据库和特色数据库等网络信息库数据与检索软件打包在一起,制成各种具有保存价值和易于交流发放的CD-ROM数据产品; 汉王光盘出版系统和汉王企业版数据兼容,检索功能和性能相同;

    5、满足不同用户需求的其他在线信息服务应用

    新闻信息服务。
    网上论坛BBS。在网上为用户提供一个提出问题、讨论问题和解决问题的社区,拉近图书馆与读者的关系,建立图书馆与读者的反馈机制,使图书馆为读者服务,满足市场和读者的需求。

    会员管理。汉王提供了独立的用户管理机制。用户可以申请成为本站点的会员,享受会员的服务。非会员用户只能得到一些基本资讯服务。系统区分会员与非会员身份,对于会员可提供全方位的信息资料,提供高质量的服务;对于非会员,提供初级服务。

    统计分析工具。利用网站分析工具分析页面和栏目的访问率;利用汉王的服务器日志文件和分析工具分析用户的检索需求。利用这些信息调整站点内容。

 

企业简介  |   荣誉资质  |   联系我们  |   友情链接
地址:天津武清开发区新兴路1号北欧绿色产业园6号厂房2层 邮编:100101 热线咨询:010-84980609 总机:010-84980609
方圆智能科技   京ICP备11024537号
友情链接:
  •   

展开