El algoritmo de compresión de datos de Lempel Ziv y la...

El algoritmo de compresión de datos de Lempel Ziv y la

catástrofe del bit

Elvira MayordomoWorkshop MOISES

Febrero 2004

Contenido

• Algoritmos de compresión sin pérdidas• LZ78: idea principal• ¿Cuánto comprime?• La catástrofe del bit

• Ziv, Lempel: “Compression of individual sequences via variable rate coding” IEEE Trans. Inf. Th., 24 (1978), 530-536

• Sheinwald: “On the Ziv-Lempel proof and related topics”. Procs. IEEE 82 (1994), 866-871

Algoritmos de compresión

• La entrada y la salida son strings (cadenas, secuencias finitas)

Cx C(x)

compresor

Algoritmos de compresión

• A partir de la salida se puede reconstruir la entrada siempre: lossless compressor

C(x) xD

descompresor

Objetivo

• Comprimir lo máximo posible todos los strings ???

• Eso es imposible, ¿por qué?

• Nos conformamos con comprimir “lo fácil de comprimir”

El LZ78

• Es el algoritmo de compresión más utilizado (y estudiado)

• De él se derivan el compress de Unix, el formato GIF y los algoritmos LZW, LZMW

LZ78: idea principal• Partimos el string en trozos (frases) de forma

que cada trozo es uno de los anteriores más un símbolo

ababbabaaabaaabba

LZ78: idea principal• Partimos el string en trozos (frases) de forma

que cada trozo es uno de los anteriores más un símbolo

ababbabaaabaaabba

LZ78: idea principal

ababbabaabaababbabaa

• Numeramos las frases

ababbabaaabaaabba12 3 4 5 6 7 8 9

• Numeramos las frases

• Cada frase es una de las anteriores más un símbolo

(0,a) (0,b) (1,b) (2,a) (4,a) (3,a) (1,a) (2,b) (1,)1 2 3 4 5 6 7 8 9

0 es la frase vacía

• Se trata de “parsear” la entrada en frases diferentes

• ¿Cuál es la salida exactamente?

(0,a) (0,b) (1,b) (2,a) (4,a) (3,a) (1,a) (2,b) (1,)1 2 3 4 5 6 7 8 9

• Codificamos (0,a)(0,b)(1,b)(2,a)...

LZ78: la salida

• Codificamos la parte correspondiente a la frase número n que es

(i,s) utilizando log2(n) bits para i

y para el símbolo s, depende de cuantos símbolos diferentes haya

LZ78: ¿cuánto comprime?

• El tamaño de LZ(x) depende sólo del número de frases en que dividimos x

a ab aba abaa abaab 15 símbolos

b a ba bb aa 8 símbolos

LZ78: ¿cuánto comprime?

• Si t(x) es el número de frases en que LZ78 divide a x:

|LZ(x)| = Σ1t(x) (log2(n+1) + log2α )

≈ t(x) ( log2(t(x)) + log2α )

Compresores de estados finitos

• Dado A FSC y una partición cualquieraen frases distintas de x = w(1) ... w(f(x)):

|A(x)| ≥ f(x) log2(f(x)) – o(|x|)

Compresores de estados finitos

• Dado A FSC

limn ≥ limn

• Luego el algoritmo de LZ es asintóticamente mejor que los FSC.

|A(z[1..n])|n

|LZ(z[1..n])|n

El algoritmo LZ

Al ser universal para los compresores de estados finitos, se puede creer que sólo tendrá propiedades “óptimas”

Pero no es así ...

La catástrofe del bit

¿Qué pasa si añades un bit delante de una secuencia muy compresible?

1001010010101010 ...

11001010010101010 ...

Preguntas abiertas

• ¿Existe la catástrofe del bit?

Experimentalmente parece que sí ??

No hay demostración

Preguntas abiertas

• Si existe, ¿cómo la solucionamos?

Aunque sea una solución parcial ...

El algoritmo de compresión de datos de Lempel Ziv y la...

Documents

Space-Efficient Construction of Lempel-Ziv Compressed Text Indexes

Data Compression Lempel-Ziv Coding

Computer Science 1001.py Lecture 22: Ziv Lempel Compressiontau-cs1001-py.wdfiles.com/local--files/lecture... · Ziv-Lempel: Riding on Text Repetitions The basic idea of the Ziv-Lempel

Lempel - Ziv Vizualizacija

Information Theory and Statistics Lecture 4: Lempel-Ziv codeldebowsk/docs/wyklady/IT_and_statistics_IPI_PAN/... · Universal compression Lempel-Ziv code R measure Information Theory

Optimized Relative Lempel-Ziv Compression of Genomes

Lempel-Ziv Algorithms - Dipartimento di Informaticapages.di.unipi.it/ferragina/Teach/InformationRetrieval/3-Lecture.pdf · Lempel-Ziv Algorithms ... Prof. Paolo Ferragina, Algoritmi

Stronger Lempel-Ziv Based Compressed Text Indexing⋆

Lempel–Ziv–Welch (LZW) Universal lossless data compression algorithmlossless data compressionalgorithm Created by Abraham Lempel, Jacob Ziv, and Terry

On the Suitability of Suﬃx Arrays for Lempel-Ziv Data ...mtf/Ferreira-Oliveira-Figueiredo-2009.pdf · On the Suitability of Suﬃx Arrays for Lempel-Ziv Data Compression Artur J

Lempel-Ziv-Markov Chain Algorithm Modeling using Models of ... · Lempel-Ziv-Markov Chain Algorithm Modeling using Models of Computation and ForSyDe - 10th Aerospace Technology Congress,

LZgrep: A Boyer-Moore String Matching Tool for Ziv-Lempel

Compression Algorithms: Huffman and Lempel-Ziv-Welch

Space-Efﬁcient Construction of Lempel-Ziv Compressed … · Space-Efﬁcient Construction of Lempel-Ziv Compressed Text Indexes? ... @dcc.uchile.cl ... but 15 GB of main memory

Lempel-Ziv Compression Techniques

Time and Memory Eﬃcient Lempel-Ziv Compression Using Suﬃx Arrays

1 Lempel-Ziv Compression Techniques Introduction to Run-Length Encoding Introduction to Lempel-Ziv Encoding: LZ77 & LZ78 Example 1: Encoding using

Linear Time Lempel-Ziv Factorization: Simple, Fast, Smallstelo/cpm/cpm13/16_kempa.pdf · Linear Time Lempel-Ziv Factorization: Simple, Fast, Small Juha K arkk ainen Dominik Kempa

Đề Tài Mã Hóa LZW(Lempel-Ziv-Wech) - Tài Liệu, eBook, Giáo Trình

Enhancement of Lempel-Ziv Algorithm to Estimate Randomness … · 2016-11-04 · A. Lempel-Ziv Algorithm: The steps for obtaining normalized complexity in the Lempel-Ziv Algorithm