DjVu格式是美国AT&T公司于1996年开发的用于彩色图像传送的图形格式,是为在互联网上有效存储、传递和显示扫描文档而设计的压缩技术,利用这一技术可以在互联网上发布高精度的图像、扫描文档和彩色相册。
它的原理是把图像分离成前景层和背景层进行压缩。通过将文字和背景分离开来,DjVu可以用高分辨率来还原文字,使锐利边缘得以保留,并限度地提高可辨性;同时用较低的分辨率来压缩背景图片,从而使整个图像的质量得到了保证。
以一张400dpi,24位真彩色的标准彩色杂志页为例:
TIFF文件通过DjVu转换后可以缩小1000倍
JPEG或PDF文件通过DjVu转换后可以缩小5到20倍
以一份110页、全彩300dpi高分辨率的商业演示文稿为测试,DjVu能以电子书形式呈现,并可直接通过网络快速下载,清晰打印,并能针对扫描后的图像做实时的文件图像识别。
2.5GB TIFF
155MB PDF
128MB JPEG
3MB DjVu
DjVu的主要功能—支持文本字段检索,支持100多种语言的OCR识别及检索
DjVu的主要功能—支持超链接功能及图片内容/区域注释功能:
DjVu拥有图像超级链接的功能,只要利用鼠标点选就可以轻易地建立超级链接,将所选定的区块连接至其它网站,或开启另一份新的文件。使用者的界面也极简便易学,您可以直接将扫描文件转成DjVu格式,也可以建立各种样式的超级链接。另外,DjVu提供免费下载的插件,让任何人都可以在浏览器之下观赏DjVu的文件。由于DjVu压缩后的档案相当小,您甚至可以将文件以E-mail附件的形式进行传送。
电子书功能
若您的一份文件有数百页之多,DjVu可以将其压缩成单一档案,也就是变成一本电子书的形式。您可以直接从工具栏中选取欲观看的页数或是使用上下键来观赏数百页的文件。数百页的图像能压缩成极小的档案、快速地呈现、清晰地观赏及打印,使得DjVu成为Scan-to-Web工具。另外,DjVu还可以针对扫描后图像的文字部分做实时的图像识别(PDF仅能对由文本文件转换成图像格式后的文字进行识别)。
DjVu的优势:
文件容量小
利于文件的快速浏览,传送和下载
支持IE,NS等多种浏览器,插件免费下载
支持多种格式文件的转换(pdf,dwg,jpg,tif,bmp,doc等)
支持网页中的图文打印
能够快速获取档案中的文字内容
支持文本关键字搜索
支持本地路径和网络路径超链接
支持水印、数字等多种图像加密技术
DjVu应用范围非常广泛:图书档案、古籍数字化,政府单位、金融档案单据的电子化管理,加工制造业相关说明书、维修手册、图纸等的电子化,城市建设,地图等
对于彩色扫描影像而言,它的内容元素特性是不同的,如果针对这些不同的元素采用与其相适应的压缩技术进行处理,就有可能获得较小的文件尺寸。DjVu真实遵循这一原理,根据扫描影像的内容特点,将其分离为蒙皮、背景、前景三大层次,分别应用JB2数据压缩方法和IW44 Wavelet的方法进行处理,从而大大减小文件的尺寸。
DjVu格式与tiff,pdf,jpg压缩对比表:
1,彩色:
2,黑白:
3,灰度: