古籍扫描仪助中国古籍出版档案数字化一臂之力:中国是世界上唯一有持续不间断文献记载的文明古国,因而古籍存佚数量也是庞大,号称“浩如烟海”、“汗牛充栋”,实不为过。从古迄今,先哲存留下来的文献整理与研究便是后人绵延不绝的一项基本工作,也是海外汉学得以昌盛不衰的基础课题。历史经验证明,昌明盛世的一个显著标志,便是对古代文献编纂、整理的总量递进以及大型古籍集成性成果的界标式出版(问世)。随着时代的进步,古籍整理出版借助网络数字技术的平台得以迅捷的发展,为人类文明成果的集结与分析研究提供了新颖的视角、广阔的领域和无以超越的可能。
古籍扫描仪: 古籍档案数字化是延续文化传统的重要手段
通过古籍扫描仪进行的古籍档案数字化内容出版(digital content publishing)是内容出版与信息技术结合的新型出版模式,是将传统出版中的图像、文字、视频、声频等内容进行档案数字化和数字资源整合,并在档案数字化信息技术平台上呈现、发布和应用。自20世纪90年代以来,新兴信息网络通信技术给传统出版业带来挑战,古籍出版同样受到冲击。
档案数字化出版经历了桌面印刷、电子出版、网络出版、复合出版(跨媒体平台)*后到使用古籍扫描仪进行扫描版并出版的一系列过程。从档案数字化出版的样式变化来看,包括:软件读物与数据库、多媒体光盘产品、电子与网络游戏、电子书与电子纸、网络书店、按需印刷、移动出版等形式。
古籍档案数字化就是利用现代信息技术(包括古籍扫描仪)对古代文献进行整理、研究与保护,并以电子数据的方式传播与使用。中国古籍是中华民族历史发展和思想智慧集聚的珍贵文献,是传统文化的重要载体,而档案数字化正是延续文化传统的重要手段。近20年来,古籍产品的数字化与数据资源整合开发方兴未艾,兹列举大型项目如下:
l 《国学宝典》,收录古籍4000余种,逾10亿字,还有历代笔记、小说备览等,由国学时代文化传播有限公司制作。
l 《文渊阁四库全书》、《四部丛刊》全文检索光盘版,由香港迪志文化出版有限公司投资,书同文数字有限公司制作。
l 《中国古籍基本库》,收录古籍1万种,全文18亿字,1200万页影像,由北京爱如生数字化技术研究中心制作,黄山书社出版发行。
l “宋元善本全文数据库”,由上海图书馆1996年启动全部数字化,并分期实现上网服务。
l “中国历代典籍总目分析系统”(Historical Book Catalogue of China,简称HBCC)。2008年,由国家图书馆与北京大学资料分析中心联合制作,国家图书馆出版社出版发行。
l “中华字库工程”,是国家“十一五”重大建设项目,建立汉字及少数民族文字的编码和主要字体字符库,新闻出版总署组织实施,项目总体组由中国出版集团承担,裘锡圭先生为首席专家。
l “日本所藏中文古籍数据库”,由日本京都大学人文科学研究所等多家机构企划设计,有55个图书馆加入数据库,数据总数达748585笔。
l 《汉及以前全部传世文献电脑化资料库》和《魏晋南北朝全部传世文献电脑化资料库》,由香港中文大学中国文化研究所中国古籍研究中心研制,其前身为汉达中国古代传世文献电脑化资料库,1988年~2005年建设了上述项目。将扫描魏晋南北朝之前的全部传世文献悉数输入数据库。数据库输入文献所据版本,均为未经后人恣意改动的旧刻善本,然后由研究人员重新标点、校勘;凡经校改之处,均加上校改符号,以此建立原始文献资料库。
l 《汉籍全文资料库》,由台湾中研院史语所研制,始建于1984年,是目前台湾地区*具规模、资料统整*为严谨的中文全文资料库。资料库内容包括经、史、子、集四部,其中以史部为主,经、子、集为辅。从类别上讲又可分为宗教文献、医药文献、文学与文集、政书、类书与史料汇编等,20余年来累计收录历代典籍已达460多种、3.91亿字,内容几乎涵括了所有重要的典籍。并附有比较完备的检索工具可供利用。
l “中华古籍语料库”,2002年立项,前期收录350种,约2亿字,差错率在万分之一以下,将中华书局古籍资源的主体部分数字化,并开发建设了“资治通鉴知识分析系统”,可以对《资治通鉴》全文进行关键字检索,基于时间、人物、地名、事件等文本信息重组,并以图形方式展现分析成果。待今明年结项,推出部分数字化产品。
l 《中国口头文学遗产数据库》。“中国口头文学遗产”是中国文联民间文艺家协会60年来征集、记录、整理的我国民间口述文学的成果集合,统计有8.4亿字。《中国口头文学遗产数据库》是将全部5000余种口头文学资料数字化,保留原文图像,以原始分类为依据,建立文本资料库。它具有各种形式的检索、统计、分类浏览等功能。该数据库是“中国口头文学遗产”的第一次大规模数字化整理,具有重要资料价值和学术价值。目前与中华书局合作正在开发中。
古籍档案数字化 是嘉惠学术文化界重大工程
古籍整理出版本质上是具有特定读者对象、受众群体定位清晰的*出版,建设标准化的数据库,进行已有古籍内容出版资源的整合开发,实现多重开发利用与下载使用,可以通过售卖数据库的服务和多种形态的产品,产生复合效益,包括定制个性化需求的产品。将来立足于建立内容管理的复合出版系统平台并推广使用,使不同版本图书实现立体开发,使不同内容组合成新的知识内涵。
目前,古籍扫描仪扫描后的古籍档案数字化后再根据数据库出版正在逐步成为传统文化资源的主流出版形式,电子图书和按需出版成为新的产业链,付费阅读和下载是其直接的赢利模式。此外还有会员收费、交易佣金、广告收入等方式。另外的商业模式将是与门户网站和搜索引擎联手实现海量信息存储处理。
*古籍出版社提供相对精准的经过点校整理的从古迄今的传统文化资源,实施网络营销,建立直销渠道,特别是开发各个图书馆客户与*读者客户,实行定向营销和定制出版。且移动手机内容信息定制服务也是未来发展方向。将来的电子阅读器(电纸书)会逐步被海量传输、运行速度快的移动终端所取代。
根据《中国古籍总目》编纂工作中的统计显示,现存古籍品种应在20万种左右。另据不完全统计,全国图书馆系统保存的古籍有2750万册,其中可列入善本的图书250万册。国家投资建设“善本再造工程”一期、二期可使民众罕见珍本化身千百,但毕竟是极少量的。为遗憾的是,据调查,全世界所藏的宋元善本图书5500部左右,其中我国大陆只存有3500部。海外所藏的这部分中国善本图书,则难与民众见面。钱存训、王重民、昌彼得、严绍璗、沈津诸位先生均对中国古籍在台港地区图书馆收藏情况做过详尽的调查与介绍,一些图书馆也编有各类古籍目录,但颇不完整又有缺漏,急需由政府主管部门出面组织编纂《海外所藏中国古籍总目》(约10万种),与今年年内出齐的《中国古籍总目》对读比勘,并适时推出便于民众检索浏览的机读网络版,这将是嘉惠学术文化界的重大工程。
古籍档案数字化建“中国国家历史文献资源库”
未来古籍数字化的重点发展方向是:古文字知识库与数字化平台建设(中华字库工程为主体)、历史地理信息系统的综合开发与推广使用、古代文本文献的自动标点以及语义分析、人工翻译等智能功能的完善,及构建一个集平面图像、三维动画、立体声响、虚拟现实等多媒体技术手段,穿越今古时空的历史人物交往对话的文化休闲平台,这是一个高度集成化的数字古籍创新技术平台,集研究与信息传布、休闲娱乐、教学科研于一体的综合功能。就像物联网联结空间区域于一隅,该平台将时空交错于一瞬,实现人类多重梦想。
2008年,加拿大国家人文基金会资助佛罗里达州一所大学,利用多媒体技术和地球空间信息技术,以数字化方式重现1964年~1965年的纽约世界博览会,使游客们能够在博览会场景中获取档案文件、图片和电影镜头。随着“三网”融合进程提速以及古籍资源库建设平台的有效利用,这一梦想可以早日实现。
根据我国古籍档案数字化的现状和存在的重复建设、标准不统一、内容割裂、资源庞杂等隐忧,笔者建议,建设一个国家级长远工程,构建基于信息技术高速发展下的海量存储的云端资源库,集存中华五六千年历史文献,暂名“中国国家历史文献资源库”。这是抢救和保护中华传统文化的重要手段,是*大规模的文化整理和传承的宏大工程。它不仅是对国民进行传统文化教育的工具,也是向世界展示中国传统文化博大精深的途径。其内容是集聚中国历代文献的资源总集。不仅有我们习见的版刻图书,亦应该涵盖甲骨文、金文、简帛、碑刻等各种载体和类型的存世文献。这些资源是中华传统文化的重要构成,是与版刻纸书相印证、相补充的珍贵资源。
“中国国家历史文献资源库”内容宠大,但不是一个单一的、孤立的文献平台,应当是一个了解与研究中国传统文化与学术的开放式生态系统。在文献资源的基础上,包括有一个知识平台做支撑。这个知识平台利用已有的古籍研究成果、辞书工具书构建,通过知识支撑平台,使用者可以对自己需要的知识点做检索,辅助阅读和学习。知识支撑库可包括如下内容:人物库,包括中国历史人物的相关信息;地名库,包括中国历朝行政规划,辅以电子地图供使用者参考;古代名物库:包括文献中出现的各种名物信息,如天象、衣食、器具、果蔬、禽鸟等;事件库,包括对历史事件的介绍与说明。良好的知识支持系统可反映历史文献中人物的关系、地理的沿革,乃至生态物种的变迁。知识支撑库亦应当包括阅读和研究古籍的重要工具,如字典词典、历史纪年与公元的对照转换、版本比较、字词统计工具等。
“中国国家历史文献资源库”要能够灵活地为使用者服务,让使用者可以按照多种方式筛选出个性化的数字资源库。比如,可以形成某一朝代或某一长时间段的文献总集(如英国已构建一个十八世纪历史文献的数据库供民众使用),可以筛选出某一作者合集,可以指定筛选某一类别的图书,还可以按照不同载体形成不同类型的资源库。
承担“中国国家历史文献资源库”项目,将有利于全国古籍整理出版队伍的稳定和持续培养锻炼。累经数年,在项目规划运作过程中,通过人才吸纳与项目培育,逐步建设成“国家历史文献编纂出版中心”,聚合全国的优势出版资源,为中国优秀传统文化的创新与弘扬作出应有贡献。
“中国国家历史文献资源库”是自成体系的中国文献资源总集,也是学术研究和文化普及的基础性平台。是将中国古籍文献集成化供全国人民乃至全世界人民使用,*终受益的将是全体民众和我们的后代子孙。