20
스캔문서의 고효율 압축의 대명사-DjVu 기 술 소개 DjVu High Compression Technology 전자화문서 고효율 압 축 배포 기술 스캔문서(전자화문서)의 고효율 압축을 유지하고 디지털 문서로서의 속성 을 모두 갖춘 DjVu 포맷 및 압축 기술에 대한 소개 및 대용량 이미지 및 문 서 조회를 위한 문서/페이지 스트리밍 기술에 대한 고찰 콘텐츠 DjVu 압축 포맷 및 페이지 스트리밍 기술 소개 1.소개 2. DjVu 압축 방식 소개 3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비교 4. JPEG 포맷과 DjVu와의 비교 5. DjVu 와 JPEG2000의 비교 6. DjVu 와 PDF 비교 7. DjVu Page Streaming Server (DPSS) 기능 8. 본문 내용 검색 (페이지 단위 검색)을 위한 기술 9. Ajax 기반의 DjVu 뷰어 펼치기 DjVu 압축 포맷 및 페이지 스트리밍 기술 소개 작성자 : 최흥식( [email protected] ) 1.소개 DjVu는 한마디로 정의하자면 오프라인상에서의 흑백 또는 컬러 종이문서의 세계를 온라인 디지털 웹에서도 그 품 질 그대로 유지하고 검색, 배포, 압축, 저장할 수 있게 한 새로운 압축 기술이다. 이 기술은 1990년대 후반에 미국 AT&T Lab에서 연구 개발된 것으로 2000년 초에 미국 시애들 소재의 Lizadtech에서 관련 기술을 인수하면서 보급 되기 시작한 솔루션이다. 현재는 Lizartech 사는 Celartem 사의 100% 자회사로서 흡수 통합되었다. DjVu 기술이 주는 주요 사상은 Scan-to-Web이다. 그 동안 스캐닝을 통해서 디지털화되는 일반 문서나 고화질 의 사진 등이 그 파일의 크기가 커서 웹을 통해서 서비스가 불가능 하던 문제점을 일소에 해소하는 기술인 것이다. 최근에는 고품질의 컬러 스캐너와 디지털 카메라의 보급으로 인하여 오프라인상의 종이 문서나 책자들에 대한 디 지털화 요구가 증대되고 있는 시점에서 이러한 기술은 더더욱 진가를 발휘하게 된다. DjVu라는 단어는 불어 ‘déjà vu’ 에서 온 것으로 어디서 듯한 느낌 또는 착각이란 뜯을 갖고 있다고 한다. 우리 말로는 데자뷰발음한다. DjVu상에서 통용되는 TIFF, PDF, JPEG 같이 다른 하나의 파일 포맷이기도 . DjVu만들어진 문서는 확장자가 djvu또는 djv표시 된다. DjVu로 표시된 문서는 PDF문서와 마찬가지로 자유롭게 웹에서 저장, 배포, 다운로드, 이메일 전송 등이 가능하다. DjVu 문서를 보기 위해서는 데자뷰테크놀러지 ( DjVu 뷰어자동설치)사 홈페이지에서 무료로 다운로드 받을 수 있다. 사용자의 브라우져에 따라서 윈도우시스템 에서는 익스플로러용 유닉스에서는 네스케이프용 그리고 Mac 사용자는 Mac용 reader 기를 다운로드 받아서 사 용할 수 있다. 1000페이지가 넘는 컬러 책자를 300DPI 해상도로 스캐닝 하여 웹에서 서비스 한다고 할 때 300DPI 해상도의 품질 을 웹에서 유지 하기 위해서는 적어도 400Mbytes (JPEG으로 페이지당 500Kbyte 정도 소요)이상의 파일 크기가 필요하게 된다. 400Mbytes 나 되는 책자를 웹에서 서비스하는 것은 거의 불가능하다고 볼 수 있을 것이다. DjVu는 2009-09-25 스캔문서의 고효율 압축의 대명사-… knol.google.co.kr/k/-/djvu/…/3 1/20

Dj vu 기술-백서-update

Embed Size (px)

Citation preview

Page 1: Dj vu 기술-백서-update

스캔문 고 축 -DjVu 술 개

DjVu High Compression Technology 전 문 고 축 포 술

스캔문 (전 문 ) 고 축 하고 문 갖춘 DjVu 포맷 축 술에 한 개 량 미 문 조 한 문 / 스트 술에 한 고찰

DjVu 축 포맷 스트 술 개1. 개2. DjVu 축 식 개3. 흑 문 한 TIFF 포맷과 DjVu 4. JPEG 포맷과 DjVu 5. DjVu JPEG2000 6. DjVu PDF 7. DjVu Page Streaming Server (DPSS) 능8. 본문 내 검 ( 단 검 ) 한 술9. Ajax DjVu 뷰

DjVu 압축 포맷 및 페이지 스트리밍 기술 소개

작성자 : 최흥식([email protected])

1.소개

DjVu는 한마 하 프 상에 또는 컬러 계 지 웹에 도 그 질 그 지하고 검색, 포, 압 , 할 수 게 한 새 운 압 술 다. 술 1990 후 에 미AT&T Lab에 연 개 것 2000 에 미 시애들 재 Lizadtech에 술 수하 보

시 한 루 다. 재는 Lizartech 사는 Celartem 사 100% 사 수 통합 었다.

DjVu 술 주는 주 사상 “Scan-to-Web’ 다. 그 동안 스 닝 통해 지 는 나 고 질 사진 등 그 가 커 웹 통해 스가 가능 하 에 해 하는 술 것 다.근에는 고 질 컬러 스 지 보 하여 프 상 나 책 들에 한

지 가 고 는 시 에 러한 술 욱 진가 하게 다.

DjVu 는 단어는 어 ‘déjà vu’ 에 것 ‘어 본 듯한 느낌 또는 착각’ 갖고 다고 한다. 우리말 는 ‘ 뷰’ 한다. DjVu는 웹 상에 통 는 TIFF, PDF, JPEG과 같 또 다 하나 포맷 도 하다. DjVu 만들어진 는 가 ‘djvu’ 또는 ‘djv’ 시 다. DjVu 시 는 PDF 마찬가지

게 웹에 , 포, 다운 드, 등 가능하다. DjVu 보 해 는 뷰 러지(DjVu 뷰어 동 )사 지에 료 다운 드 수 다. 사 우 에 도우시스에 는 스플 러 닉스에 는 스 프 그리고 Mac 사 는 Mac reader 다운 드 아 사

할 수 다.

1000 지가 는 컬러 책 300DPI 해상도 스 닝 하여 웹에 스 한다고 할 300DPI 해상도 질 웹에 지 하 해 는 어도 400Mbytes (JPEG 지당 500Kbyte 도 ) 상 가

필 하게 다. 400Mbytes 나 는 책 웹에 스하는 것 거 가능하다고 볼 수 것 다. DjVu는

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 1/20

Page 2: Dj vu 기술-백서-update

400Mbytes 1/20 압 하여 20Mbtyes 만들 수 고 지 단 스트리 술 하여 책 지수 에 상 없 고 질 지 한 검색 도(1-2 도) 보 하 검색할 수 게 한

다.

지도나 도 지 할 경우 한 는 100Mbyt�s 또는 200Mbyt�s 상 는 경우가 보통 다. 도 웹에 스할 수 는 도 어 게 다. DjVu는 러한 지도나 도 과 같

한 미지 가 경우도 한 압 할 뿐만 아니 웹에 스할 경우 진

미지 술 통해 아 리 미지 도 사 에는 다림 없 미지 순식간에 볼 수가

게 하여 다.

스 닝 또는 지 통해 만들어진 든 지 료나 사진들 DjVu 변 가능하다. 뿐만 아니

MS-Offic� (워드, 워포 트, 엑 )나 아 아한 , PDF 등등 DjVu 변 할 수 다.

2. DjVu 압축 방식 소개

DjVu는 게 3가지 압 식 공한다.

(biton�l) 미지 압 JBIG2 술 한 JB2 압 식, 식 미지에 하여

Lossl�ss/Visu�l Lossl�ss 식 하여 압 할 수 다.

컬러 미지 압 W�v�l�t 식 IW44 압 . 식 JPEG2000과 같 w�v�l�t 술 사 한다.

MRC (Mixed Raster Content) 압 식- 식 앞에 개 것과 같 미지 내 하여 3개

계 동 리하여 각각 계 에 맞는 미지 압 식 한다

3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비

우리는 스 통해 하거나 수신하 도 한다. 스 는 통해 껏 해야 9600bps

도 도 필 한 수신 한다. 러한 낮 도 통해 가능 한한 많 보 보

내 해 는 보량 한 는 것 건 것 다.

1980 에 CCITT 그룹에 는 Bi-level 미지( 미지) 하 한 Group 3 포맷 했다. 1984 에는 G3 향상 시 압 고안 Group 4가 었다. 스 뿐만 아니 지 도

야에 원 스 닝 하여 미지 하는 가 많 사 하고 는 포맷 G4 압 식

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 2/20

Page 3: Dj vu 기술-백서-update

는 TIFF G4 타 다.

G4 후 1993 에 Joint Bi-level Images Experts Group (JBIG)에 는 새 운 미지 JBIG1 하 나 G4 보다 압 갖고 에도 하고 G4 만 리 보

지는 못하 다. 2000 에는 G4 보다 약 3 - 4 도 압 JBIG2가 었다. AT&T 는 당시

에 JBIG2 에 근거하여 미지 압 포맷 개 하 는 것 DjVu JB2 다.

DjVu JB2 포맷 TIFF G4 미지 보다 약 3-5 도 압 갖고 다..

TIFF G4는 단순 미지 압 하는 포맷 뿐 지 그 상도 아니다. TIFF 포맷 안에 PDF 같 차 보여주는 책갈피 보 삽 하여 할 수 게 하는 능, 타 미지 안에 삽 하여 검색

시 하는 능, 원 본 내 검색할 수 도 스트 보 원 미지 같 할 수 는 능 등 지원하지 않 에 러한 능 해 는 별도 프 그 만들어 공해야 하는 들 갖고

다.

다 미지 포맷과는 다 게 여러 지 하나 에 들 할 수 는 Multi-TIFF 능 공하도 하지만 에 언 한 능들 한 프 그 에 는 러한 Multi-TIFF 능과 함께 할 수 없 에

별 없는 것 어 다.

TIFF는 포맷 식 어 에도 하고 스플 러 같 우 에 직 TIFF 볼 수없 에 별도 TIFF vi�w�r 하여 하여야 하는 TIFF vi�w�r 능도 어 지 않 에

스 하는 나 업체에 그 사 과 안 는 갖고 도 하다.

비항목

DjVu TIFFG4/JBIG1

비고

개 처

미 AT&T에 개

한 에 는 Celartem Korea에공 술지원

Joint Bi-levelImage ExpertsGroup에 재 한

미지 압 규약

JBIG1 압 는 public domain에 source 가 공개S/W

지원 압식

- 미지는JBIG2/JB2 압

- 실/ 실 압 식 지원

-컬러 미지는 IW44 압 사

- DjVu는 /컬러 지원

- 미지 만 JBIG1 식

- 실 식만 지원

객 JBIG2/JB2 식 JBIG1 보다 2 - 4 압 것 평가 고

압 - 미지 TIFF G4 식보다 20– 40% 수

- JBIG1 미지 TIFF G4 식보

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 3/20

Page 4: Dj vu 기술-백서-update

-컬러 미지 JPEG 보다 1/10 –1/30

다 60 – 80% 수

- 컬러 미지 가

내검색 능

- DjVu 내에 OCR texthidden text XML 삽하여 viewer 내에 full text 검색

검색 결과 highlight 처리

- 검색엔진과 연동하여 page단 검색 가능

- 가능

티 지 지원

- 본 티 지 지원

- 차 삽 display 능

- Multi-TIFF 지원

- TIFF 포맷에는 차 처리 능 공하지 않

OCR 처리능

- DjVu는 OCR 엔진 본공

- 3rd party OCR 과 어플리

level 연동

타 보삽 능

DjVu 안에 타 보 삽 능

- 가능 DjVu 안에 hidden text-XML 타 보 삽 하고 하는 능

컬러 미지 압 지원

지원 포맷

시각 애

스508 지원

-시각 애 한 스 508

- 가능 - 508 IT 어플리 시각 애 들

해 든 는 스트나 내 에 해 3rd

pary screen reader(508 ) 통해 text-to-speech 할 수 게 하는 스

vi�w�r공

Windows/Unix/Mac/PocketPC

플랫폼 공

-IE/Netscape plug-in 공

- C/S 경 지원

Windows 만 공

- C/S 경 지원

능 압 능 JBIG1 과 동

viewing 복원 도는 JBIG1보다2 -5 능 향상

-Viewing 복원도는 DjVu 보다 2

– 5 도 느림

[TIFF-G4/ JBIG/ JBIG2 DjVu ]

GIF Image Name

(200 dpi)

Horizontal x

Vertical Size

TIFF

Uncompressed

Size (bytes)

TIFF G4

(bytes)

JBIG

(bytes)

JBIG2

(MQ)

JBIG2

(CSM, G4)

JBIG2

(CSM, MQ)

DjVu (bitonal

JB2)*

f01_200 1728x2339 505286 16618 12732 12732 6879 6424 5213

f02_200 1728x2339 505286 10464 8140 7756 10863 8260 7960

f03_200 1728x2339 505286 25590 19982 19278 14241 11732 10796

f04_200 1728x2339 505286 64058 48171 46195 16126 15529

12017

f05_200 1728x2339 505286 29285 23442 22443 12400 10574

10374

f06_200 1728x2339 505286 15774 11771 11554 14944 11255

10470

f07_200 1728x2339 505286 66433 52106 50832 42009 35248

23163

f08_200 1728x2339 505286 17984 13993 12724 18075 13252

13274

f10_200 1728x2336 504638 142091 63886 51405 133359 50228

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 4/20

Page 5: Dj vu 기술-백서-update

52124

Totals: 4546926 388297 254223 234919 268896 162532

145391

Percentages: 100% 8.54% 5.59% 5.17% 5.91% 3.57% 3.2%

4. JPEG 포맷과 DjVu와의 비

컬러 미지 하는 식 에 가 보편 포맷 JPEG 다. JPEG 나 압 식 공하 에

컬러 미지 하고 하는 매우 당한 포맷 식 고 다.

JPEG 보다 압 향상 시 JPEG2000 안 2000 에 가 었다. JPEG 압 식과 다 Wavelet 알고리 하여 만들어진 안 다. 나 능, 미지 질 에 JPEG 보다 훨씬 것

평가 고는 나 아직 지 JPEG2000 보편하게 지 않고 는 실 다.

JPEG 한 는 사진과 같 하고 하는 당하다고 할 수 나. 컬러 컬러 스 닝 하여 여러 하나 책 어 하고 스하는 에는 맞지 않 단

다. TIFF 포맷과 같 여러 미지 한 개 들 수 는 Multi-TIFF 같 식 지원 지

않 다.

DjVu는 컬러 미지 압 해 JPEG2000과 같 Wavelet 압 식 IW44 식 한다. 압 JPEG과 하여 같 질 보 하 그 는 JPEG보다 1/10 – 1/20 도 압 수 다. [그림-3]

DjVu는 JPEG 포맷과 마찬가지 낱 단 압 할 수 지만 Multi-TIFF 식과 같 여러 미지 하나 어 스 할 수 다.

원본 미지가 고해상도 미지 경우 DjVu 압

미지 고 할 지 도 가 수 가 다. 그러나 웹에 우 에 플러그 DjVu vi�w�r 통해 보게 경우 TIFF나 JPEG과 같 체 다운 드 후 스플 하는 식 하지

않고 진 미지 술 하 에 사 는 원하는 미지 지연 시간 없 시 볼 수가 게

다.

[그림-4]에 고 앨 샘플 보 50 지 는 고 질(600dpi) 원본 JPEG 하 231.3Mbytes가 나 DjVu 압 (segment 식 압 ) 하 1.85Mbyt�s가 다. 또한 고 헌 샘플 보 918

지나 는 책 JPEG 하 378.20Mbyt�s가 나 DjVu 압 (photo 식 압 ) 하 181.57 Mbytes가다. 압 도 지 수가 918 나 에 180M 게 다. 그러나, 웹에 180M나 는

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 5/20

Page 6: Dj vu 기술-백서-update

DjVu 검색하여 보 체 180M 다운 드 아 스플 하지 않고 필 한 지만 택 스트리 해 보여 지 에 지연 시간 없 볼 수가 게 다.

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 6/20

Page 7: Dj vu 기술-백서-update

항 DjVu JPEG 고본 사상 ‘Scan-to-Web’

(AT&T에 개 술)

미지 포맷

(ISO 그룹에 지한 포맷)

JPEG 한 미지 하는 포맷

DjVu는 개 갖고 에 한 복수 지 미지나

압 식 하 리드 식

- 미지 : 실 JB2압 식

-컬러 미지 visuallossless wavelet IW44 식

컬러 미지에한 실 압

실 압JPEG-LS 포맷

지원

업계에 실 JPEG-LS 는 거 지원하지 않

압 평균 JPEG 보다 1/10-1/20 압 DjVu 보다 10 20 도

JPEG과 DjVu 같 미지할 DjVu 미지가 훨씬 quality

가 우수

Multi page지원

Single Page/Multi-page포맷 지원

Single page식

JPEG 여러 미지 하나 file bundle 하여 포하거나 스 할

수 없 . JPEG 낱 단 포맷

타 삽

XML 타DjVu 포맷 안에 삽

할 수 는 능 공

가 JPEG 포맷 안에 스트나 타 다 타 보 삽 하거나 할 수 없

스트 검색능

컨 내에 스트 검색 검색 워드에 한 하

가 JPEG 미지 하는 수단컨 내 내 처리할 수 능

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 7/20

Page 8: Dj vu 기술-백서-update

트 능 공 없

ProgressiveDisplay 지원

본 능 지원 JPEG도 Progressive display 식 지원하고 나 거 지 못하고

는 실

항 DjVu JPEG 고지 단 스트

리공 가 지 단 스트리 많 지

미지나 원 들에 해웹 통해 스 할 매우 한 능

One-source,Multipleextraction 능

공 가능

(별도 미지,간 미지, 게

보 미지 같 스 별 미지

여러 갖고 어야함)

능 한 미지만 갖고 고스 할 실시간 원하는

미지 미지내 역 만 하게 하는 능

SelectiveDecompression

지원 가능 가 미지 웹 통해 포 할 한 술

( 에 보 는 특 역 만 실시간 / / 동하게 하는 능)

vi�w�r plug-in 지원

- 웹 우 plug-in

-OCX 듈 공 C/S

가능

- viewer커스 마

능 가능

-plug-in 없 웹 우

-viewer 한 커스마 능 가

(third party tool )

JPEG 웹 우 안에 원하는 / /PAN 할 수 없고. 90도 능, 보 능등 공

지 않

시각 애 스 508

지원

-시각 애한

스 508

- 가능 - 508 IT 어플리 시각 애 들 해 든 는

스트나 내 에 해 3rd pary screenreader(508 ) 통해 text-to-speech 할 수 게 하는 스

포맷 변 능 JPEG,TIFF,GIF,BMP,PBM 포맷DjVu 압 복원 능

포맷 변 해third p�rty 변 사

5. DjVu 와 JPEG2000의 비

5.1 칼라 이미지 quality 비

다 동 한 원본 미지 jp�g2000과 DjVu 각각 가 1.5 KByt�가 도 압 했 압 미지

다.

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 8/20

Page 9: Dj vu 기술-백서-update

5.2 흑백 이미지 비

미지 압 할 경우 Jp�g2000 본 Run L�ngth Coding 식 또는 그 사한 식 지만 DjVu는Run Length Coding 에 Shape Dictionary 식 사 한다. 여 Shape Dictionary는 한 미지에 복

는 동 태( 들어 미지 ) 한 만 압 해 하고 나 지 경우는 그 태 보만 수 하는 식 복 는 수가 많 수 압 가한다. DjVu 포맷 한 에 여러 지 미지 수 하는 식(bundled 포맷)에 는 여러 지에 하나 공통 Shape Dictionary 참 할

경우 압 상당 향상 다.

다 동 한 미지 미지 별 료 다.

KBytes

미지 포맷 BMP TIF (G4) JP2000 DjVu

드 신청

미지( )

466 65 64 44

지 사

미지( )

960 584 99 35

5.3 파일 포맷

DjVu 는 한 개 안에 여러 지 미지 포함하는 bundled 포맷과 한 에 다 연결 는link가 는 indirect 포맷도 지원한다. DjVu는 여러 지 하나 어 (bundle) 가능하고,

체 지 보 갖고 웹 스 시 지 단 싱 검색 가능

JPEG2000 든 미지 낱 . 여러 지 bundle 는 개 없 .

5.4 압축 속도

다 10 MB true colour BMP 도 그 프 다.

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 9/20

Page 10: Dj vu 기술-백서-update

5.5. 화면 표시 속도

다 동 한 압 한 것 에 시하는 걸리는 시간 한 그 프 다.

항 DjVu JPEG2000 고본 사상 ‘Scan-

to-Web’미지 포맷 JPEG2000 한 미지

하는 포맷

DjVu는 개 갖고 에 한 복수

지 미지나

압 식 하 리드 식

- 미지:실 JB2 압 식

-컬러 미지visual losslesswavelet IW44

컬러 미지에 한 실 압 본

미지 에 한

실 압 지원하지 않

JPEG2000 컬러 미지 압 식 미지

압 시 실 압 지원않함

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 10/20

Page 11: Dj vu 기술-백서-update

압 1. 항 컬러미지 quality 참

1. 항 컬러 미지quality 참

JPEG2000과 DjVu 같 미지 할 DjVu

미지가 훨씬 quality 가 우수

Multi page 지원 SinglePage/Multi-page포맷 지원

Single page 식 JPEG2000 여러 미지 하나 file bundle 하여

포하거나 스 할 수 없 .JPEG2000 낱 단 포맷

타 삽 XML 타 DjVu 포

맷 안에 삽 할 수 는

능 공

가 JPEG2000 포맷 안에 스트나타 다 타 보 삽 하

거나 할 수 없

스트 검색 능 컨 내에 스트 검색 검색

워드에 한하 트 능

가 JPEG2000 미지 하는 수단 컨 내 내

처리할 수 능 없

ProgressiveDisplay 지원

본 능 지원

지 단 스트리

공 가 지 단 스트리 많 지 미지나 원

들에 해 웹 통해 스 할 매우 한 능

One-source,Multipleextraction 능

공 가능

(별도 미지, 간 미지, 게 보

미지 같 스 별 미지 여러 갖고

어야 함)

능 한 미지만 갖고 고 스 할 실시간

원하는 미지

미지내 역 만 하게 하는 능

SelectiveDecompression

지원 가능 가 미지 웹통해 포 할 한 술

( 에 보 는 특 역 만 실시간 / / 동하게 하는 능)

보안 통 능 -프린트 통 능

-다운 드 통능

-프린트 시 실시간 워 마 삽

능 공

가능

vi�w�r plug-in 지원

- 웹 우 plug-in 공

-OCX 듈 공 C/S 가능

- viewer 커스 마 능가능

-plug-in 없 웹 우

-viewer 한 커스 마 능 가(third party

tool )

JPEG2000 웹 우 안에 원하는 //PAN 할 수 없고. 90도

능, 보 능등 공지 않

포맷 변 능 JPEG,TIFF,GIF,BMP,PBM 포맷DjVu 압

포맷 변 해 thirdp�rty 변 사

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 11/20

Page 12: Dj vu 기술-백서-update

복원 능

6. DjVu 와 PDF 비

PDF 포맷 본 지 들 웹 통해 리싱하 한 루 어 다. 워드나 아 아한 ,매 시 쿽 스프 스등 스트 웹 통해 포하 해 는 PDF 포맷만

없 것 다.

PDF 는 Acrobat Reader 료 사 하 누 나 쉽게 PDF 수 는 다. 뿐만 아니 PDF 는 내 수 할 수 없고 수 만 게 어 에 욱 포 는 매우 당

한 루 것 다. 그러나 스 닝 한 미지 PDF 포맷 하고 포하는 는 그 한계 고는 실 다.. 스 닝 한 는 그 체가 미지 포맷 지 스트 보다는 가 나

수 에 없다. PDF는 본 압 하지 않고 에 스 닝 미지 PDF 담 해

는 그 상 하게 다.

[그림-5]에 들 스 닝 해 PDF 포맷과 DjVu 포맷 한 료가 다. 원 경우 평균PDF 가 DjVu 보다 4 도 것 볼 수가 것 다.

그 에도 연간 업보고 110 지 책 300DPI 컬러 스 닝 하여 PDF 하게 약 140Mbyt�s 도가 나. 그러나 DjVu 하 약 3Mbyt�s 도 하게 다. ([그림-6] 에 업 Annu�l R�port 참

하시 니다)

에 신 지 스 PDF 포맷 많 고 다. 그러나, [그림-6]에 알 수 듯 신 66

도 지 에 컬러 고 지 포함 하 PDF 는 70Mbyt�s가 게 다. 각 신 사는 신지 스 해 66 하나 PDF 어 포하지는 못하고 각 단 PDF 만들어 포하고 는 실 다.

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 12/20

Page 13: Dj vu 기술-백서-update

워드 같 지 포하 한 포맷 PDF 가 당하다 DjVu는 고 질 컬러/ 스 닝한 해 는 PDF 포맷 보다 훨씬 뛰어 남 알 수 가 다.

항 DjVu PDF

본사상 'sc�n-to-w�b' -to-

DjVu는 지 하여 웹스 하 한 루 탄생

가 합한 야

많 양 /컬러 스 닝 하여 웹 검색 스하는

야에 합

- 원 50지 상 스에 합

- 원 고해상도 컬러 포함하고 한 지

가 경우에 합

- 향후 컬러 원 스시에는 욱 진가

-CAD 나 엔지니어링 매뉴얼, Parts Book등 포하고 하는

(hwp,워드,GUL) 포

하는야에 합

-50 지 미만 스

에 합

PDF는 프린트하고 포하 한 루 탄생 술

재는 DjVu 도 뿐만 아니지 ( 피스 )도 DjVu

변 하여 PDF 보다 경량 하여 포가 가능

사에

체 지수 상 없 1 미만

검색 스플

체 지수 가 수 검

색 스플 시간

사 들 PDF 스시 가 만 사항 ‘ 느리다’,

‘너 겁다’,‘ 필 한 능 많다’

에 는

약 0.75 T�r�Byt�s 약 3 T�r�Byt�s DjVu가 PDF 보다 평균 1/4 도 원

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 13/20

Page 14: Dj vu 기술-백서-update

(5000만 지

원시)

/ 통합 스

- 고 /

검색 도

- 통합 능

- 고 / 같 질 같 도 지 능

- 한 변경없 / 동시

가능 통합 능 한 / 같 질 스 할 수

는 능

통합 vi�w�r능

공 가능 가능 사 는 한개 vi�w�r에 TIFF/DjVu/ PDF/ JPEG 검색할 수

는 능

vi�w�r

없 검색할 수 는

DjVu Express Server능

- 가능한든 스에 검색

가능

가능 vi�w�r 없 도 DjVu 나미지 스플 / // /다 지/ 지/

지 동 능 공

항 DjVu PDF

웹 스 식

지 단 웹 스트리능 (indir�ct 능)

체 단 (bundl� 능) 공

- Byte streaming 나Fast Web 식 아닌DjVu만 고 한 지스트리 술)

Bundle 식 만 공

( FastWeb view

능)

PDF에 도 Fast Web view 식 공한다고 하나. Acrobat Reader 5.0 상에 만

( 스 사 트에 는 한 개 가 경우 지 단 리하거나 강 10M 미만 단 지 리해

스하는 식 취함)

-각 신 사 지 스는 한 단 스 한 학술 보원(k�ris)는 10M단 강

vi�w�r

900KB 17M DjVu viewer 시간 5-10

Acrobat Reader 시간 약 5-10

원 미지압 지원

Lossless/VisualLossless 식 지원

PDF내 객체들만

지원

체 상 압 복원 DjVu 만 지원

DjVu압 식 실/ 실 압 지원

압 원 미지 복원 능

든 압 원 미지 는 원본 복귀 가능

가능 DjVu는 압 복원 공

고해상도 컬러 원 미지 검색

포 능

/ / vi�w�r/no-vi�w�r 에게 픽 스트리 술 하여 액

스 가능

가능 -한 개 미지 10M 상 (고지도/고헌/고 ) 경우 PDF는 스 가능

지도 - Google book 검색

-미 도 /미 /

- PDF는 량 원 도 지 하여검색 스 공하는 에 스만 도는 매우 낮

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 14/20

Page 15: Dj vu 기술-백서-update

럽/ 본 학

도 에 PDF

안 루 사

- 미 archive.org

- 본 립공

아시아 역사

(www.j�c�r.go.jp)

다수 공공

- 울 도 , 한행, 원도

- 보

- , 행

- 청

-삼 , LG

-삼 재

- 산 프 어

- 리어

- 계 openformat 600만 사

-PDF 에 한 안 루 DjVu루 고 는 실

항 DjVu PDF

- 든 (PDF,아 아 한

포함) DjVu변 능 공

- 든 컬러 원 미지 DjVu 변

- / 통합능

- 변 능

- 티미어 삽 능

DjVu도 든 지 압 변 할 수 는 공

타삽

XML 타 삽

능 공

지원 DjVu Hidden text 삽 하는 능

지 단 검색

지원 지원

XML 연동 본 능 지원 DjVu는 든 스트 보는 XML 어

시각 애 스 508 지원

-시각 애한

스 508

-AcrobatReader6.0 에만 지원

- 508 IT 어플리 시각 애 들

해 든 는 스트나 내 에 해 3rd

pary screen reader(508 ) 통해 text-to-speech 할 수 게 하는 스

하 링동 삽

- 지원 - 가 - 동삽 에 하여 내 안에 원하는 만골 동 하 링 보 삽 하는 능

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 15/20

Page 16: Dj vu 기술-백서-update

DB 연동 지원 지원 고해상도

미지 스 식

진(Progr�ssiv�)스플

체 미지 다운 드후

스플

PDF는 체 미지 다운 드 후 스플 하는 식 시간 많 걸림

Document

PDF Image with

G4 Comp-

ression

PDF Image with

JBIG2 Comp-

ression

(PDF-Capture)

DjVu Image using

JB2 Comp-

ression

Searchable Image

with TIFF-G4

Searchable Image with

JBIG2 Comp-

ression

(PDF-Capture)

Searchable Image Dj Vuusing JB2 Comp-

ression

Contract 58k 14k 10k 72k 28k 12kAnnual

Report

2.89M 511k 396k 2.0M 755k 527k

Technical

Report

2.02M 431k 368k 2.15M 582k 419k

Patent 815k 153k 123k 908k 240k 162k

Total

5.84M

1.11M

897k

5.13M

1.61M

1.12M

Average 100% 19% 15% 100% 31% 22%

7. DjVu Page Streaming Server (DPSS) 능

DjVu는 다 포맷들과는 다 게 하게 DjVu 문 웹 스트

능 제공하고 다. 동 웹 에 전 하 한 동 스트 술 져 만, 문 스트 할 수 는 술 생 할 것 다.

DjVu는 축 문 크 수 , 웹 에 량 미 문 스캔 컨 트 고 전 검 한 문 단 스트능 제공하고 다.

들들 5000 고 DjVu 축 하여 한개 문 만들 경 에 한개 크 가 100M 수가 고 웹에 존 식 포하 꽤 시간 걸 것 나, DPSS 능 하게 전체 다 드

다 고 원하는 접 검 하여 해당 는 게 동 가능하여문 단 뿐만 니라 단 검 하여 고 검 뷰 가능한 것 DjVu만 갖는 한 술 하다

래 트는 미 에 911 러 생하 추 들 찍 5248 DjVu 축하여 하나 DjVu 태 해 DPSS 적 하여 싱한 트

니다.

http://demo.djvutech.com/DPSS/dpsserv.dll/acrocube/911-5000p.djvu/index?DJVUOPTS&thumbnails=yes

내에 는 원 에 제공하는 원 료 에 1390 스캔하여 웹해 스 하고 하다. 1000 가 넘는 스캐닝 문 하고 웹 에 매 검 볼 수 가 다.

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 16/20

Page 17: Dj vu 기술-백서-update

http://library.scourt.go.kr/jsp/common/c_djvuview.jsp?v_path=djvu1/%B9%FD%BF%F8%BB%E7.djvu

8. 본문 내 검 ( 단 검 ) 한 술

8.1 Notes

- DjVu 는 문 내에 OCR 처 스트 Office 문 에 스트들 Djvu문 내에 hidden text 존 (hidden text는 XML 또는 plain text export 할 수 ) - hidden text는 word 단 ( /한 과 같 white space 묶여 는 문 열 한것) 또는 char 단 ( / 본 같 띄 쓰 가 는 문 열 한 것) 문 치정보 갖고 . - DjVu 시 에 해 word 단 할 것 니 char 단 할 것 결정 해 함. - Djvu문 는 본적 hidden text들 DjVu active/x plug-in viewer에 하여 하 라

트 처 시가 니다. ( 한 항 래 내 참조) - DjVu 뷰 에 는 검 엔 과 같 검 능 제공하 는 , PDF Acrobatreader 에 같 뷰 내에 검 스트 단 매칭에 해 sequential 하게 찾 가는 태 동

8.2. Hidden tex t 조

- 원문 스트 sample: "스캔문 / 량 미 고 축/고 전 /보 술"

1). word-공 (nospace) 스트가 경 - DjVutoText 추출하 : "스캔문 / 량 미 고 축/고 전 /보술" 같 추출 (단 단 에 공 는 태) - DjVuToXml 추출하 : <LINE>

<WORD coords="849,690,1464,611">스캔문 / 량</WORD> <WORD coords="1497,690,1819,611"> 미 </WORD></LINE><LINE> <WORD coords="721,788,967,713">고 </WORD> <WORD coords="1000,790,1362,711"> 축/고 </WORD> <WORD coords="1393,790,1757,711">전 /보 </WORD> <WORD coords="1791,790,1953,711"> 술</WORD> </LINE>

- DjVu plug-in 뷰 에 검 시 하 라 트: 뷰 는 "스캔문 / 량 미 고축/고 전 /보 술" hidden text에 해 pattern matching 검

= 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술 = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 " 축/고 전

/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 " 전" -> 하 라 트 "스캔문 / 량 미 고 축/고 전

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 17/20

Page 18: Dj vu 기술-백서-update

/보 " = 키워드 " 고" -> 하 라 트 "스캔문 / 량 미 고 축/고 전

/보 "

2). word-공 (space) 스트가 경 - DjVutoText 추출 하 : 원문 스트 동 "스캔문 / 량 미 고 축/고 전 /보 술" (단 에 공 ) - DjVuToXML 추출 하 : 1) XML 과 동 - DjVu plug-in 뷰 에 검 시 하 라 트 = 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 "보 " -> 결과 = 키워드 " 전" -> 결과 = 키워드 " 고" -> 결과 3). char-공 (nospace) 스트가 경 - DjVutoText 추출하 : "스캔문 / 량 미 고 축/고 전 /보 술"

같 추출 (단 에 공 ) - DjVuToXml 추출하 : <LINE>

<WORD> <CHAR coords="849,680,928,615">스</CHAR> <CHAR coords="934,688,1009,613">캔</CHAR> <CHAR coords="1016,688,1095,613">문</CHAR> <CHAR coords="1098,690,1174,611"> </CHAR> <CHAR coords="1181,688,1213,611">/</CHAR> <CHAR coords="1222,690,1295,611"> </CHAR> <CHAR coords="1301,690,1380,613"> </CHAR> <CHAR coords="1390,690,1464,613">량</CHAR>

</WORD> <WORD>

<CHAR coords="1497,690,1568,611"> </CHAR> <CHAR coords="1583,690,1652,611">미</CHAR> <CHAR coords="1662,690,1736,611"> </CHAR> <CHAR coords="1746,690,1819,611"> </CHAR>

</WORD></LINE><LINE> <WORD>

<CHAR coords="721,780,800,717">고</CHAR> <CHAR coords="804,782,883,713"> </CHAR> <CHAR coords="888,788,967,713"> </CHAR>

</WORD> <WORD>

<CHAR coords="1000,790,1076,711"> </CHAR> <CHAR coords="1081,790,1160,711">축</CHAR> <CHAR coords="1163,788,1195,711">/</CHAR> <CHAR coords="1199,780,1278,717">고</CHAR> <CHAR coords="1283,790,1362,711"> </CHAR>

</WORD>- <WORD>

<CHAR coords="1393,788,1467,711">전</CHAR> <CHAR coords="1477,790,1556,713"> </CHAR> <CHAR coords="1559,788,1591,711">/</CHAR> <CHAR coords="1596,780,1675,717">보</CHAR>

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 18/20

Page 19: Dj vu 기술-백서-update

<CHAR coords="1596,780,1675,717">보</CHAR> <CHAR coords="1681,788,1757,713"> </CHAR>

</WORD> <WORD>

<CHAR coords="1791,790,1863,711"> </CHAR> <CHAR coords="1874,788,1953,711">술</CHAR>

</WORD></LINE>

- DjVu plug-in 뷰 에 검 시 하 라 트: 뷰 는 "스캔문 / 량 미 고축/고 전 /보 술" hidden text에 해 pattern matching 검

= 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술 = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 " 축/고 전

/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전

/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전

/보 술" = 키워드 " 전" -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 " = 키워드 " 고" -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 " 4). char-공 (space) 스트가 경 - DjVutoText 추출하 : "스캔문 / 량 미 고 축/고 전 /보

술" (단 에 공 ) - DjVuToXml 추출하 : 3) 과 동

- DjVu plug-in 뷰 에 검 시 하 라 트: = 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전

/보 술 = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 축/고 전

/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전

/보 술" = 키워드 "보 " -> 결과 = 키워드 " 전" -> 결과 = 키워드 " 고" -> 결과

8.3 DjVu Active/X plug-in 뷰 에 하 라 트 처

- DjVu viewer active/x componet 는 내 method 래 같 함수 제공합니다. = HighlightTerm(exp, bMatchCase, bMatchWord, bAllMatches, color) :

exp 문 열 식에 매칭 는 첫 째 또는 든 스트 정 컬러 하 라 트 시킵니다. = (VB6, JScript) myDjVu.HighlightTerm(" 축", 0, 0, 1, 0x0000FF); /* VB나 JScript 에 뷰 함수 출 하 해당 는 에 ' 축' 스트 치하는 든 스트는 color(0x0000FF) 하 라 트 - 하 라 트 처 는 태는 에 한 Hidden text 조에 해 결정

9. Ajax DjVu 뷰

DjVu는 실시간(on-the-fly) 원하는 크 미 추출하는 능 갖고 다.DjVu Streaming Server(DPSS)는 웹 http 프 에 해 DjVu문 원하는크 미 추출하는 능 제공한다.

DjVu Ajax 뷰 는 DPSS 연계하여 Fixed 태 Resizable 태 뷰

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 19/20

Page 20: Dj vu 기술-백서-update

가능하다

- 한 Fixed Windows demo : (* 래 는 한 신문 나 든 저 해당 신문 에 *) http://demo.djvutech.com/ajax_viewer/DjVuTech-AJAXViewer/examples/oneimage2.html - 티 문 - Resizable Window demo (* PPT DjVu 1/10크 축한문 *) http://demo.djvutech.com/ajax_viewer/DjVuTech-AJAXViewer/examples/spiderman.html

10. 평가 S/W 다운 드

스캔 문 들 DjVu 축 해 보고 OCR (한 / / / 포함 수십개 원) 처 접 체험 하 래 트에 접 가 S/W 다 드 수

다. 가 30 간 또는 500 만 생 할 수 는 full 능 제공하고 다

- http://www.djvutech.com/download/01.asp

11. 한 트

에 DjVu 주 특징 들 능들 실제 체험할 수 는 트.

- http://demo.djvutech.com

쓰 그 해 주 .

러시 첨단 술 전러시 공동 술 원 학

02-769-6707www.sbc.or.kr

축 다 공개 료실, 틸, 축, 드라 , 프 웨 ,쉐 웨 등 료 제공.www.goodfile.net

2009-09-25 스캔문 고 축 -…

knol.google.co.kr/k/-/djvu/…/3 20/20