易书在线,易学书籍,易学光盘.易学教程,周易
Google
      
发新话题
打印

djvu在周易书籍上的应用

djvu在周易书籍上的应用

基于DjVu格式的数字图书馆摘 要 介绍了一种针对高解析度、高质量彩色扫描文档的发布技术:DjVu。利用这一技术,任何上网的PC都可以接收和还原扫描文档的字体、颜色、绘图以及文字。用300dpi扫描的标准期刊页可以被压缩至30-60KB,几乎是相同质量的JPEG压缩的1/5-1/10。而黑白文档一般只有15-30KB,是利用CCITT-G4算法的1/4-1/8。它同时还内置了实时的内存渲染编码器,并且提供对于流行的WEB浏览器的插件。

1 背 景

中美百万册书数字化工程(CADAL)是由中美双方科学家共同发起的旨在建设包含100万册图书的数字图书馆研究与开发项目[1]。计划通过4至5年的工作,组织100万册数字图书(中英文各50万册)上网。经过中美专家的共同研讨,CADAL决定选择OEB(OpeneBook)作为工程的实施标准。OEB的最大优点是基于XML的描述方法,便于开放数字图书馆系统的数据交流。[2]在这样一个开放框架之下,特别是对于一个TB量级的数字图书馆项目,选择合适的内容格式(contentformat)至关重要。

目前大部分的数字资源格式或者是由ASCII字符流和一些标记(tag)语言比如HTML/SGML,或者是页面描述(pagede scription)语言象Adobe公司的PDF所组成。但当我们传递的文档具有视觉元素(visualcontent)相关性时,上述格式就存在局限了。这里所谓的视觉元素包括:不规则字体、纸张的颜色和质地(这对于古籍尤其重要),当然还有表格、图形、公式以及手写体等等诸多方面。一种简单的方案就是通过扫描和图形压缩,将文件发布出去。有些学者提出了基于图形,当然主要是黑白(B&W)图像的数字图书馆解决方案,这其中最为著名的就是所谓联机期刊业务(rightpagessystem)[3]。那么如果我们需要传递的图像是具有灰度(grayscale)或彩色(color)的呢?从技术现状考虑首先会面对三个问题:

a.标准的彩色图像压缩算法产生的图像文件仍然是巨大的。一页期刊在100dpi(dotsperinch)的扫描精度下(可读性很差)会生成100-200KB的JPEG文件,如果提高到300dpi精度,同样的页面将会是500KB。

b.我们能够有耐心等待图像出现在屏幕上的时间是有限的。利用目前普及的56K调制解调器(Modem)进行数据传输,单位页面必须压缩在20-30KB。

c.即使不考虑网络传输,文档图像的巨大尺寸对于目前的压缩技术也是一种挑战。300dpi期刊页的尺寸为3300像素(pixels)X2500像素,解压以后的容量是25MB,这已经超过了目前很多仍在使用的计算机内存容量。我们需要一种能够实时解压的方案,即只有屏幕上显示的部分才作解压计算。

2 作为图像格式的DjVu

我们注意到由AT&T实验室在1996年提出的DjVu算法可以解决上面提到的问题。正如AT&T在1999年发布的白皮书中所定义的[5]:DjVu是为在万维网上有效存储、传递和显示扫描文档而专门设计的压缩算法,其发音类似于法文的d啨j劋vu。利用这一技术可以在互联网上发布高解析度的图像、扫描文档、数字化文档和彩色像册。

传统的压缩算法或者是针对模糊边缘(fewedges)的自然图像(JPEG),或者是对锐利边缘(sharpedges)的文本图像(CCITTG3,G4,JBIG1)进行优化。而DjVu的基本思路是将文本与背景区分开,采用不同的压缩算法,也就是兼取了两者的长处。前景与背景分离的算法使原图被分解成三个可重建的图像编码层:背景图像、前景图像和修饰(MASK)图像。前两者是低分辨率的彩色图像(100dpi),后者则是高分辨率的位图图像(300dpi)。   

修饰图像采用的位图压缩算法是JB2编码[6],而背景图像采用的是先进的基于小波变换的压缩算法IW44,同时应用了多比例连续投影技术(multiscalesuccessiveprojections)以避免对前景区覆盖的背景图像编码。JB2和IW44都是基于目前最快的二进制编码算法ZP-coder发展起来的。表1就是关于JPG和DjVu压缩的效率和效果的比较:

在http://www.vincent-net.com/djvumaterial/scanned/还可以看到TIF、JPG与DjVu转换后的尺寸、效果比较。通过分离的编码和压缩技术,DjVu的压缩效率对于彩色图像比常规的JPEG高5-10倍,而对黑白图像它比通用的TIFF格式高3~8倍。一张25MB的300dpi全彩页面可以压缩到30-100KB,黑白图像只需要5-30KB。这使得高质量的图像应用到HTML页面中(一张典型的HTML页面的容量大约为50KB)成为可能。

3 基于DjVu的内容格式

需要特别指出的是,DjVu不仅仅是一种图像压缩技术,尽管MIME[2]mediatype将它归结为一种图像格式[10],实际上它已经发展成为如同PDF那样的内容格式。之所以称PDF是一种内容格式,是因为PDF不仅仅是一种文本呈现方式,它拥有完整的导航、搜索、超链接等可编程模块。MIME媒体类型中将PDF定义为应用(application)格式[11],在我们看来,PDF作为一种资源的呈现手段,称其为内容格式更为合理。而DjVu也具备了相似的功能,并且在某些方面更为突出。

PDF采用的是CCITTIV无损(lossless)压缩算法,只是按照PDF的文件结构进行了封装,这和二值TIF格式采用的算法是一致的。所以黑白扫描的PDF文档其尺寸至少会和相同的TIF文档一样大;另一方面,TIFF-G4格式最初设计应用于存储而不是WEB发布,所以直至IE5.5SP2之前,我们都必须下载插件才能完成对TIF图的浏览。

DjVu对于黑白文档可以采用有损和无损两种压缩格式,有损压缩的文档小于TIF格式3~10倍,且页面越多优势越明显,因为DjVu可以对文档中重复的字符形状进行优化处理。对于单页文档、模糊或分辨率低的文档以及有很多插图的文档等等,DjVu要小于TIF格式3~5倍,至于DjVu的无损压缩也可以使TIF容量减半。而且所谓的“有损"模式在视觉上几乎是无损的,所以有着更广泛的应用。

我们也可以在http://www.vincent-net.com/djvumaterial/electronic/看到很多同一文件的PDF、DOC与DjVu格式的对比视觉效果。

DjVu具有极小的文件尺寸,显示方便,而且几乎可以在所有平台上浏览。它提供了扫描文档与数字文档的统一发布平台,而且效率极高。考虑到它支持将PDF、PT、HTML和DOC资源转换成DjVu格式,这就保证了我们可以充分利用已有的数字资源。

DjVu格式的先进性还在于,用户可以很快下载到初始页面,可视效果会依据随后到达的像素信息逐渐提高:比如期刊页的文本信息在56Kmodem连接的情况下只需3秒钟就可以出现,背景图像会在接下来的一两秒内到达,再经过几秒钟,高质量的页面就完全呈现出来了。这样用户就无需等待很长时间才能开始阅读了。

另外,通常的图像程序都是首先将图像全部解压然后再显示,这种方式由于需要过多的磁盘交换空间,在低端PC上对于高精度的文档图像就无能为力了。我们的屏幕通常设定为800X600或者1024X768,对于2500X3300的图像(300dpi标准页面的尺寸),总是有大部分没有出现在屏幕上,所以DjVu采用了一种实时的解压方式(on-the-flydecompression),也就是只有屏幕上的部分才解压缩,其余的仍然以压缩格式保留在内存里。利用这一技术,通常需要25MB内存显示的图像现在只要有2MB内存就可以了。

正如上述,对于扫描文档,DjVu应该是不二选择,因为PDF的扫描文档不会小于二值压缩的TIF文件(彩色文档对于PDF更是不切实际)。而对于数字化文档,DjVu在某些方面也胜过PDF,这主要表现在:如果数字化文档含有图片,DjVu将小于PDF封装;纯文本情况下,尺寸也略小于PDF;完全便携和兼容,没有字体问题;与WEB浏览器更好地集成,在屏幕上高质量地呈现文本内容;即时地显示、平移和缩放;平台无关的浏览器安装,超轻便的浏览器插件(DjVu插件只有600KB而AcrobatReader有6MB)实时解压,没有内存容量溢出的问题。

实际上,PDF更适合于下载打印(downloadandprint)应用,而DjVu在直接的屏幕浏览和阅读方面具有绝对的优越性。有鉴于此,我们认为在“中美百万册书数字化工程"中采用DjVu作为资源格式是非常有吸引力的。

4 应用与展望

DjVu的商业化产品由AT&T实验室的合作者,西雅图的LizardTech公司所掌握,但作为一种开放的文档格式,我们可以在很多站点下载其技术白皮书以及所有的解码算法和部分编码算法的C++源码库[14]。另一方面,我们已经可以下载到基于多种平台的WEB浏览器的DjVu插件[15],只要简单地安装这一插件就可以方便地浏览DjVu文档,当然这是完全免费的。

同时,DjVu已经有许多成功的应用实例,象全球语言资源站点(GlobalLanguageResources)已经把基于DjVu格式的12卷1万多页的世纪大字典(CenturyDictionary)和人名大辞典(CyclopediaofNames)1914版发布在互联网上,是目前网上最大的免费辞典(http://www.global-language.com/CENTURY/);捷克国家图书馆馆也建成了基于DjVu的馆藏阿拉伯文献数字图书馆(http://www.nkp.cz/start/knihcin/digit/KatalogCD/EN/COLLEC-1/gallery.htm);美国声学会(http://asa.aip.org/djvu/)则将其学术期刊的光盘版全部采用DjVu格式。

注意到这些应用的成功表现,我们有理由考虑建设一个基于DjVu格式的数字图书馆。作为一种建设性的尝试,第一步可以考虑利用DjVu作为数字图书馆中的图像和所有扫描文档的格式以替代传统的二值TIF格式。这一方面可以节省存储空间,另一方面还能够呈现更为清晰的图形和文字。在完成这一工作后,再进一步将DjVu作为一种内容格式来完成电子书的封装和发布,这可能比现有的任何一种格式都更为经济和高效。
  
参考文献

1 http://www.cadal.net/
2 http://www.openebook.org/oebps/index.htm
3 G.Story,L.O'Gorman,D.Fox,L.Shaper,H.Jagadish.TheRightPagesImage-basedElectronicLibraryforAlertingandBrowsing.1EEEComputer,25(9),1992
4 I.H.Witten,A.Mofltt,T.C.Bell.ManagingGigabytes:CompressingandIndexingDocumentsandImages.VanNostrandReinhold,NewYork,1994
5 L.Bottou,P.Hafther,P.G.Howard,P.Simard,Y.Bengio,Y.LeCun.HighQualityDocumentImageOmpressionwithDjvu.JournalofElectronicImaging,7(3):410428,1998
6 http://www.djvuzone.org/djvu/djvu/djvuspec/001.djvu
7 P.G.Howard.TextImageCompressionUsingSoftPatternMatching.Com puterJournal,40(2/3):146156,1997
8 L.BottouandS.Pigeon.LossyCompressionofPartiallyMaskedStillImages.InProceedingsof1EEEDataCompressionConference,Snowbird,UT,March-April1998
9 L.Bottou,P.G.Howard,Y.Bengio.TheZ-coderAdaptiveBinarycoder.InProceedingsof1EEEDataCompressionConference,pages1322,Snowbird,UT,1998
10 L啨onBottou,PatrickHaffner,PaulG.Howard,PatriceSimard,YoshuaBengio,YannLeCun.BrowsingthroughHighQualityDocumentImageswithDjVu.InProceedingsofIEEEAdvancesinDigitalLibraries'98,IEEE,1998
11 http://www.iana.org/assignments/media-types/image/
12 http://www.iana.org/assignments/media-types/application/
13 http://www.vincent-net.com/luc/papers/02das_vpd.djvu/,其中转换时间基于P41.4GPC平台
14 进一步的比较请参看http://www.djvuzone.org/support/results.djvu
15 http://djvu.sourceforge.net/
16 http://www.djvu.com/download/

作者简介:黄晨 浙江大学 杭州 310027
来源:《情报技术》

TOP

发新话题