Codage des documents hypermédias

  • View
    33

  • Download
    0

Embed Size (px)

DESCRIPTION

Codage des documents hypermédias. Romulus GRIGORAS ENSEEIHT. Coder du texte. La mémoire de l'ordinateur conserve toutes les données sous forme numérique. Il n'existe pas de méthode pour stocker directement les caractères. Chaque caractère possède donc son équivalent en code numérique: - PowerPoint PPT Presentation

Text of Codage des documents hypermédias

  • Codage des documentshypermdiasRomulus GRIGORASENSEEIHT

  • Coder du texte La mmoire de l'ordinateur conserve toutes les donnes sous forme numrique. Il n'existe pas de mthode pour stocker directement les caractres. Chaque caractre possde donc son quivalent en code numrique: c'est le code ASCII (American Standard Code for Information Interchange).Le code ASCII de base reprsentait les caractres sur 7 bits (c'est--dire 128 caractres possibles, de 0 127). Le code ASCII a t mis au point pour la langue anglaise, il ne contient donc pas de caractres accentus, ni de caractres spcifiques une langue. Pour coder ce type de caractre il faut recourir un autre code. Le code ASCII a donc t tendu 8 bits (un octet) pour pouvoir coder plus de caractres (on parle d'ailleurs de code ASCII tendu...). Ce code attribue les valeurs 0 255 (donc codes sur 8 bits, soit 1 octet) aux lettres majuscules et minuscules, aux chiffres, aux marques de ponctuation et aux autres symboles (caractres accentus dans le cas du code iso-latin1). Les codes 0 31 ne sont pas des caractres. On les appelle caractres de contrle car ils permettent de faire des actions telles que: retour la ligne (CR) Les codes 65 90 reprsentent les majuscules (A est cod comme 65, B comme 66)Les codes 97 122 reprsentent les minuscules (il suffit de modifier le 5me bit pour passer de majuscules minuscules, c'est--dire ajouter 32 au code ASCII en base dcimale) Le caractre est cod 233Voir http://www.mathrice.org/rencontres/mars.2006/codages.pdf

  • Coder du texte Il y a bien plus de 256 caractres dans le monde - pensez au cyrillique, l'hbreu, l'arabe, au chinois, au japonais au coren et au tha -, et de temps autres, de nouveaux caractres sont invents. Do lmergence du standard UNICODELunit de base dencodage reste loctet (8bits) mais on peut sen servir de diffrentes manires : UTF-8 128 caractres sont encods en utilisant 1 octet: les caractres ASCII. 1920 caractres sont encod en utilisant deux octets: le latin, le grec, le cyrillique, le copte, l'armnien, l'hbreu, les caractres arabes. 63488 caractres sont encods en utilisant 3 octets, le chinois et le japonais entre autres. Les 2147418112 caractres restant (non encore assigns) peuvent tre encods en utilisant 4, 5 ou 6 caractres.UCS-2 Chaque caractre est reprsent par deux octets. Cet encodage peut reprsenter seulement les 65536 premiers caractres d'Unicode

  • HTMLHyper-Text Markup Language Langage de description des pages Web driv de SGML (Standard Generalized Markup Langage)

    Les pages contiennent du texte mais aussi des lments multimdia, des programmes etc.

    Les pages incorporent un mcanisme dhypertexte

  • HTML - exemples (1)Mon premier document achethmelle

    Ceci est un lien vers la page de Paul.

  • HTML - exemples (2)

    YearSales 2000$18M 2001$25M 2002$36M

    Ceci est un paragraphe.

  • HTML - exemples (3)

    Nom: Surnom:

  • Manque de gnralitInteractivit ?

    Sparation du contenu et de la forme ?

    Donnes diffrentes ?

  • XMLXML : entendez eXtensible Markup Language et traduisez Langage balises tendu contenu textuel XML permet de sparer le contenu de la prsentationXML a t mis au point par le XML Working Group sous l'gide du World Wide Web Consortium (W3C) ds 1996. Depuis le 10 fevrier 1998, les spcifications XML 1.0 ont t reconnues comme recommandation par le W3C XML est un sous ensemble de SGML (Standard Generalized Markup Language), dfini par le standard ISO8879 en 1986, utilis dans le milieu de la Gestion Electronique Documentaire (GED).

  • Document XML

    Pillou Jean-Francois 555-123456 webmaster@commentcamarche.net

    ...

    Attribut : plutt ddi au fonctionnement dune appli XMLContenu TextuelEx: urlparseurlment

  • Mise en page XML

    XML est un format de description des donnes et non de leur reprsentation, comme c'est le cas avec HTML. La mise en page des donnes est assure par un langage de mise en page tiers. Il existe plusieurs solutions pour mettre en forme un document XML : CSS (Cascading StyleSheet), la solution la plus utilise actuellement, tant donn qu'il s'agit d'un standard qui a dj fait ses preuves avec HTML XSL (eXtensible StyleSheet Language), un langage de feuilles de style extensible dvelopp spcialement pour XML. XSL=XSL-FO + XSLTXSLT (eXtensible StyleSheet Language Transformation), langage de transformation des donnes, permet de transformer la structure des documents XML

  • Structure dun document XMLEn ralit un document XML est structur en 3 parties: La premire partie, appele prologue permet d'indiquer la version de la norme XML utilise pour crer le document (cette indication est obligatoire) ainsi que le jeu de caractres (en anglais encoding) utilis dans le document (attribut facultatif, ici on spcifie qu'il s'agit du jeu ISO8859-1, jeu LATIN, pour permettre de prendre en compte les accents franais). Ainsi le prologue est une ligne du type Le prologue se poursuit avec des informations facultatives sur des instructions de traitement destination d'applications particulires. Leur syntaxe est la suivante: Le second lment est une dclaration de type de document ( l'aide d'un fichier annexe appel DTD - Document Type Definition) Et enfin la dernire composante d'un fichier XML est l'arbre des lments (comme celui ci-dessus).

  • XML file exampleannuaire.xml

  • DTD XMLXML permet d'utiliser un fichier afin de vrifier qu'un document XML est conforme une syntaxe donne. La norme XML dfinit ainsi une dfinition de document type appele DTD (Document Type Definition), c'est--dire une grammaire permettant de vrifier la conformit du document XML. La norme XML n'impose pas l'utilisation d'une DTD pour un document XML, mais elle impose par contre le respect exact des rgles de base de la norme XML. Ainsi on parlera de document valide pour un document XML comportant une DTD document bien form pour un document XML ne comportant pas de DTD mais rpondant aux rgles de base du XML Une DTD peut tre dfinie de 2 faons: sous forme interne, c'est--dire en incluant la grammaire au sein mme du document sous forme externe,soit en appelant un fichier contenant la grammaire partir d'un fichier local ou bien en y accdant par son URL

  • DTD XML : dclarer des lmentsPour dfinir un lment on utilisera la syntaxe suivante: Le paramtre modle reprsente soit un type de donn prdfini, soit une rgle d'utilisation de l'lment. Les types prdfinis utilisables sont les suivants: Type prdfini ANY : L'lment peut contenir tout type de donnesType prdfini EMPTY : L'lment ne contient pas de donnes spcifiquesType prdfini #PCDATA : L'lment doit contenir un chane de caractreAinsi un lment nomm Nom contenant un type #PCDATA sera dclar de la faon suivante dans la DTD:

    Cet lment pourra tre crit de la faon suivante dans le document XML: Pillou

  • DTD XML : dclarer des lmentsD'autre part il est possible de dfinir des rgles d'utilisation, c'est--dire les lments XML qu'un lment peut ou doit contenir. Cette syntaxe se fait l'aide dexpressions rgulires dont voici un rcapitulatif: L'lment doit tre prsent au minimum une fois A+L'lment peut tre prsent plusieurs fois (ou aucune) A*L'lment peut tre optionnellement prsent A?L'lment A ou B peuvent tre prsents (pas les deux)A|BLlment A doit tre prsent et suivi de l'lment B A,BLes parenthses permettent de regrouper des lments afin de leur appliquer les autres oprateurs (A,B)+Ainsi on peut crer la dclaration suivante dans la DTD:

  • DTD XML : dclarer des attributsIl est possible d'ajouter des proprits un lment particulier en lui affectant un attribut, c'est--dire une paire cl/valeur. Ainsi avec XML la syntaxe pour dfinir un attribut est la suivante:

    Type reprsente le type de donne de l'attribut, il en existe trois: littral: il permet d'affecter une chane de caractres un attribut. Pour dclarer un tel type il faut utiliser le mot cl CDATA Lnumration: cela permet de dfinir un liste de valeurs possibles pour un attribut donn, afin de limiter le choix de l'utilisateur. La syntaxe de ce type d'attribut est: Pour dfinir une valeur par dfaut il suffit de faire suivre l'numration par la valeur dsire entre guillemets: atomique: il permet de dfinir un identifiant unique pour chaque lment

  • DTD XML : dclarer des attributsEnfin chacun de ces types d'attributs peut-tre suivi d'un mot cl particulier permettant de spcifier le niveau de ncessit de l'attribut: #IMPLIED signifie que l'attribut est optionnel, c'est--dire non obligatoire #REQUIRED signifie que l'attribut est obligatoire #FIXED signifie que l'attribut sera affect d'une valeur par dfaut s'il n'est pas dfini. Il doit etre immdiatement suivi de la valeur entre guillemets Ainsi on pourra avoir une dclaration d'attribut du type: Ce qui signifie que l'on affecte l'lment disque deux attributs IDdisk et type. Le premier attribut est de type atomique, il s'agit d'un identifiant unique obligatoire. L'lment type peut tre soit K7,MiniDisc,Vinyl ou CD, sachant que ce dernier sera affect par dfaut...

  • XML Les avantages de XMLLa lisibilit : aucune connaissance ne doit thoriquement tre ncessaire pour comprendre un contenu d'un document XML Autodescriptif et extensible Une structure arborescente : permettant de modliser la majorit des problmes informatiques Universalit et portabilit : les diffrents jeux de caractres sont pris en compte Dployable : il peut tre facilement distribu par n'importe quels protocoles mme de transporter du texte, comme HTTP Intgrabilit : un document XML est utilisable par toute application pourvue d'un parser (c'est--dire un logiciel permettant d'analyser un code XML) Exensibilit : un document XML doit pouvoir tre utilisable dans tous les domaines d'applications

  • XML Ainsi, XML est particulirement a