TH´EORIE DE L'INFORMATION ET DU CODAGE

  • View
    259

  • Download
    12

Embed Size (px)

Text of TH´EORIE DE L'INFORMATION ET DU CODAGE

  • UNIVERSITE DE LIEGEFACULTE DES SCIENCES APPLIQUEES

    THEORIE DE LINFORMATIONET DU CODAGE

    Informatique

    thorique

    Kolmogorov

    deComplexit

    Physiquedynamique

    Thermo

    Limites

    ultimes

    communications

    Ingalits

    Tl

    des

    Thorie

    Statistique

    EconomieJeux

    portefeuillesTh. des

    Mathmatiques

    Thorie

    de

    linformation

    Probabilits

    Thormes

    limites

    Ev. rares

    Tests

    Inf. Fisher

    NOTES DE COURS

    Louis WEHENKEL

    SEPTEMBRE 2003.

  • COPYRIGHT c UNIVERSITE DE LIEGE, BELGIQUE. 1998, 1999, 2000, 2001

  • iii

  • Table des matieres

    1. INTRODUCTION 1

    Partie I MODELISATION PROBABILISTE DE L'INFORMATION

    2. MOTIVATION 7

    2.1 Exercices 9

    3. CALCUL DES PROBABILITES 11

    3.1 Probabilites versus statistique 11

    3.2 Notion de probabilite - Interpretations 12

    3.2.1 Intuitivement 12

    3.2.2 Formellement 14

    3.2.2.1 Espace probabilise 14

    3.2.2.2 -Algebre des evenements 15

    3.2.2.3 Systeme complet d'evenements 15

    3.2.2.4 Probabilites 16

    3.2.2.5 Proprietes remarquables 16

    3.2.2.6 Theoreme des probabilites totales 17

    3.2.3 Dierentes interpretations de la notion de probabilite 17

    3.2.3.1 Le point de vue objectiviste 17

    3.2.3.2 Le point de vue subjectiviste 18

    3.2.4 Ensembles innis, voire non-denombrables 19

    3.3 Elements de base du calcul de probabilites 19

    3.3.1 Loi de probabilite conditionnelle 19

    3.3.2 Notion d'independance d'evenements 20

    3.3.3 Sur la notion d'independance 21

    3.3.4 Formules de Bayes 22

    3.4 Espace produit 23

    3.4.1 Denition 23

    3.4.2 Series d'epreuves identiques et independantes 24

    3.4.3 Factorisation 24

    3.4.4 Marginalisation 25

    3.5 Variables aleatoires 25

    3.5.1 Denition generale 25

    v

  • vi

    3.5.2 Fonction d'une variable aleatoire 26

    3.5.3 Variable aleatoire discrete 26

    3.5.4 Variables aleatoires reelles 27

    3.5.4.1 Fonction de repartition 27

    3.5.4.2 Variable aleatoire (reelle) continue 27

    3.5.4.3 Cas general 28

    3.5.5 Independance de variables aleatoires 28

    3.5.6 Esperance mathematique 29

    3.5.7 Variance et ecart-type 30

    3.5.8 Inegalite de Jensen 31

    3.6 Couples de v.a. et conditionnement 31

    3.6.1 Cas discret 31

    3.6.1.1 Lois associees 31

    3.6.1.2 Moments conditionnels 32

    3.6.2 Variables continues 33

    3.6.2.1 Une des deux variables est continue 33

    3.6.2.2 Cas le plus general 33

    3.6.3 Illustration 34

    3.7 Modeles probabilistes 35

    3.8 Suites de v.a. et notions de convergence 36

    3.9 Exercices 37

    4. MESURE QUANTITATIVE DE L'INFORMATION 39

    4.1 Quantite d'information de messages 39

    4.1.1 Information algebrique logarithmique 40

    4.1.2 Prise en compte des probabilites 40

    4.1.3 Discussion 42

    4.2 Information propre et mutuelle d'evenements 43

    4.3 Entropie et information mutuelle de v.a. 45

    4.3.1 Entropie ou quantite d'information moyenne de la source sans memoire 46

    4.3.2 Entropie conjointe de deux variables aleatoires 47

    4.3.3 Entropie conditionnelle moyenne 47

    4.3.4 Information mutuelle moyenne 49

    4.3.5 Information mutuelle moyenne conditionnelle 50

    4.3.6 Regles de chanage 50

    4.4 Positivite, convexite et monotonicite 51

    4.4.1 Positivite de la fonction d'entropie 52

    4.4.2 Maximum de la fonction d'entropie 52

    4.4.3 Concavite de la fonction d'entropie 54

    4.4.4 Proprietes de monotonicite 55

    4.4.5 Diagrammes de Venne 56

    4.4.5.1 Deux variables 56

    4.4.5.2 Trois variables 57

    4.4.6 Principe de non-creation d'information 58

    4.4.6.1 Corollaires 59

    4.4.6.2 Generalisation a un nombre quelconque de variables aleatoires 59

  • Table des matieres vii

    4.5 Unicite de l'expression de l'entropie 63

    4.6 Entropie relative 63

    4.7 Generalisation au cas continu 64

    4.7.1 Entropie relative 64

    4.7.2 Quantite d'information mutuelle 64

    4.7.3 Entropie dierentielle 65

    4.8 Resume 68

    Appendices au chapitre 4 69

    4.A Exercices 69

    4.B Formules utiles 72

    5. MODELES GRAPHIQUES ET INFERENCE PROBABILISTE 75

    5.1 Introduction 75

    5.2 Reseaux Bayesiens 75

    5.2.1 Exemple illustratif 76

    5.2.2 Terminologie 76

    5.2.3 Modele probabiliste et semantique 77

    5.2.4 D-separation 79

    5.2.5 Inference 81

    5.2.5.1 Approche brutale 82

    5.2.5.2 Approche structuree par le graphe 82

    5.2.6 Cas particuliers importants et exemples 86

    5.2.6.1 Double \pile ou face" 86

    5.2.6.2 Graphes non connexes 87

    5.2.6.3 Chanes de Markov 87

    5.2.6.4 Arbres 87

    5.2.6.5 Structures arborescentes (poly-arbres) 88

    5.2.6.6 Duplication et fusion de noeuds d'un reseau Baysien 88

    5.2.6.7 Autres exemples pratiques 89

    5.3 Chanes de Markov cachees 89

    5.3.1 Exemples 89

    5.3.2 Invariance temporelle 90

    5.3.3 Deux problemes d'inference 90

    5.3.3.1 Probabilite d'une suite d'observations 90

    5.3.3.2 Explication des sorties observees 92

    5.4 Inference en general dans les reseaux arborescents 95

    5.5 Inference dans les reseaux Baysiens quelconques 95

    5.6 Arbres de decision 95

    5.6.1 Construction d'un questionnaire 96

    5.6.1.1 Une seule question 96

    5.6.1.2 Serie de questions susantes 97

    5.6.1.3 Arbre de decision 97

    5.6.2 Synthese 98

    5.7 Resume 99

    Appendices au chapitre 5 100

    5.A Exercice 100

  • viii

    6. APPRENTISSAGE AUTOMATIQUE DE MODELES GRAPHIQUES 101

    6.1 Introduction 101

    6.2 Apprentissage de Reseaux Bayesiens 102

    6.2.1 Structure du reseau completement speciee et donnees totalement observees 102

    6.2.2 Donnees partiellement observees 105

    6.2.3 Structure inconnue et donnees totalement observees 105

    6.2.4 Variables cachees 105

    6.3 Apprentissage de Chanes de Markov 106

    6.4 Apprentissage Supervise par Arbres de Decision 106

    6.4.1 Application au probleme de pesees 108

    Partie II LES GRANDS THEOREMES DE LA THEORIE DE L'INFORMATION

    7. MOTIVATION 113

    7.1 Au restaurant \Chez Bill" 113

    7.1.1 Probleme de communication ecace de recettes 113

    7.1.2 L'age d'or 114

    7.2 Exegese 116

    8. SOURCES DISCRETES 117

    8.1 Introduction 117

    8.2 Sources de Markov 118

    8.2.1 Sources reelles 118

    8.2.2 Modeles de sources 118

    8.3 Debits d'information et extensions d'une source 119

    8.4 La propriete d'equipartition asymptotique 120

    8.4.1 Theoreme AEP 120

    8.4.2 Ensemble de messages typiques A(n) 121

    8.4.3 Resultat general 124

    8.4.4 Compression de donnees 124

    8.4.5 Discussion 125

    8.5 Sources discretes en temps discret 125

    8.5.1 Processus aleatoires discrets en temps discret 125

    8.5.2 Chanes de Markov 126

    8.5.2.1 Denitions 126

    8.5.2.2 Entropie 132

    8.5.2.3 Memoire nie 132

    8.5.2.4 Extensions d'ordre eleve 132

    8.5.2.5 Source adjointe 132

    8.5.3 Entropie de sources stationnaires 132

    8.6 Codage de source 134

    8.6.1 Position du probleme 134

    8.6.2 Proprietes souhaitees des codes 134

    8.6.3 Inegalite de Kraft 135

    8.7 Premier theoreme de Shannon 137

  • Table des matieres ix

    8.7.1 Limite inferieure de la longueur moyenne du code 137

    8.7.2 Borne superieure de la limite superieure (code de Shannon) 138

    8.7.3 Code absolument optimal 138

    8.7.4 Extension de la source et theoreme du codage sans bruit 138

    8.7.5 Remarques 139

    8.8 Codage instantane optimal 140

    8.8.1 Codes instantanes et arbres q-aires 140

    8.8.2 Arbres, codes instantanes et inegalite de Kraft 141

    8.8.3 Probabilites des noeuds 142

    8.8.4 Algorithmes de construction de codes 142

    8.8.5 Algorithme de Human pour un alphabet de code binaire 144

    8.8.5.1 Algorithme 144

    8.8.5.2 Demonstration de l'optimalite du code de Human 145

    8.8.5.3 Extension au cas d'un alphabet d'ordre quelconque 146

    8.8.5.4 Codage et questionnaires 146

    8.9 Resume 147

    Appendices au chapitre 8 148

    8.A Exercices 148

    8.B Suites de v.a. et notions de convergence 150

    Notions de convergence 150

    Theoremes de convergence 151

    9. CANAUX DISCRETS 153

    9.1 Communications a travers un canal 154

    9.1.1 Canal discret 154

    9.1.2 Capacite en information du canal sans memoire 155

    9.1.3 Exemples de capacites de canaux 156

    9.1.3.1 Canal binaire sans bruit 156

    9.1.3.2 Canal bruite sans recouvrement des sorties 156

    9.1.3.3 La machine a ecrire bruitee 156

    9.1.3.4 Canal symetrique binaire 157

    9.1.3.5 Canal binaire avec eacement 157

    9.1.4 Canaux symetriques 158

    9.1.5 Proprietes de la capacite en information d'un canal 159

    9.2 Codage de canal 159

    9.2.1 Systeme de communication 159

    9.2.2 Preview du second theoreme de Shannon 163

    9.2.3 Sequences conjointement typiques 164

    9.2.4 Second theoreme de Shannon 166

    9.2.4.1 Preuve de la condition susante de realisabilite 166

    9.2.4.2 Inegalite de Fano et reciproque du second theoreme 168

    9.2.5 De l'egalite dans la reciproque 171

    9.2.6 Generalisation 171

    9.3 Construction de bons codes de canal 171

    9.4 Capacite de feedback 172

    9.5 Interpretation geometrique du codage de canal 172

  • x

    9.6 Synthese : codage conjoint source et canal 174

    9.7 Resume 176

    10. CANAL A BRUIT ADDITIF GAUSSIEN 179

    10.1 Processus aleatoires en temps continu 180

    10.1.1 Denitions et discussion intuitive 180