Vous êtes sur la page 1sur 8

Session 1

Reprsentation et Codage de linformation Introduction


1. Prambule
Le terme "Informatique", cr en 1962, partir des mots information et automatique, signifie le traitement automatique de linformation. Linformation est un terme gnrique qui peut englober des donnes numriques, textuelles, graphiques, mais aussi du son (Parole, musique, ) et de limage (Photo, vido, 3D, ). Le traitement automatique consiste extraire et exploiter linformation contenue dans les donnes traiter. Un ordinateur est un systme de traitement automatique de linformation; mais il nest pas le seul : le rcepteur/dcodeur de la tlvision numrique en est un autre exemple; ce systme de traitement de linformation reoit des donnes binaires en Entre pour produire des images TV en Sortie. La reprsentation binaire de linformation est appele "Codage binaire". Elle est binaire car les systmes lectroniques de traitement de linformation emploient une logique deux tats ou binaire. Coder linformation consiste faire correspondre chaque lment dinformation une reprsentation binaire qui lui est propre (relation de correspondance bijective). Un lment dinformation est appel symbole. Lensemble des symboles, partir desquels on peut produire une information de type donn, est appel "alphabet. Le systme produisant cette information est appel "source dinformation". Ainsi, une source dinformation est caractrise par son alphabet, qui doit ncessairement tre de cardinal fini. Une source dinformation gnre des messages : Un message est dfini comme une suite dlments choisis chacun parmi les symboles de lalphabet de la source.
EXEMPLE 1

La suite 010001001000101 peut tre considre comme un message produit par une source dinformation binaire dont lalphabet est form de deux symboles {0, 1}.
EXEMPLE 2

Une information de type "texte" (le contenu dune page dactylographi par exemple) est le produit dune source dont lalphabet est constitu des lettres [a..z, A..Z], des signes de ponctuation [. , ; : ? ! etc] et de mise en page [saut de ligne, saut de page, tabulation, etc.], des chiffres [0..9], et des autres caractres quon souhaite faire apparatre dans ce texte

[caractres nationaux, franais: etc., grecs ou autres]. Tous ces symboles et bien dautres constituent ce quon appelle des caractres alphanumriques. Le codage de ce texte consiste associer chaque symbole de cet alphabet une reprsentation binaire unique (quon appelle mot-code). Lensemble de ces mots-code est dsign par le terme "Code". Il reprsente la table dassociation entre les symboles de la source et les motscode qui les reprsentent. La figure 1 prsente une partie du "Code Morse" invent en 1835 par Samuel Morse pour la tlgraphie.
EXTRAIT DU CODE MORSE INTERNATIONAL
LETTRES CHIFFRES PONCTUATION

Lettre Mot-Code Lettre Mot-Code

A B C D E F G H I J K L M

- -- - - -- ---- --

N O P Q R S T
U

- ---- --- ------

Mot-Code

[Caractre]

Mot-Code ------- ---- -- --- --- --- --

0 1 2 3 4 5 6 7 8 9

---------- - -- --- ---- Mot-Code

[.] [,] [?] ['] [/] [( )] [&] [:] [;] [=]

V W X Y Z

CARACTERES SPECIAUX DE CONTROLE

Signe

Signification

(8 points) +,AR @,VA AS BT


-- -- --

Erreur Stop (fin de message) fin (fin de contact) Attente Sparation appel de dtresse international

SOS --- FIGURE 1

2. Codage des donnes Alphanumriques


2.1 Pourquoi Coder ? Les donnes alphanumriques ou textuelles occupent une grande partie des informations changes quotidiennement et ceci depuis linvention de lalphabet jusquaux nos jours. L'tre humain mit en place des langages et cra l'crit. Au dbut, l'crit consistait

essentiellement dans des dessins puis vint un alphabet plus simple utiliser qui offrait de multiples combinaisons pour une plus grande richesse de l'expression. En ralit, les caractres de l'crit ne sont que des symboles interprtables. L'crit se dveloppa au fil des annes et la communication par la voie crite fut institutionnalise en France par la cration de la poste royale en 1464 par Louis XI. L'invention du tlgraphe lectrique (1832) par P. Shilling a rvolutionn le monde de la communication qui allait dornavant s'effectuer par la voie lectrique. Le "fil qui chante" et qui va plus vite que le messager tait si important que le ministre de l'intrieur franais allait crer l'Administration du Tlgraphe en 1837. Mais, la transmission des caractres ncessitait leur codification. Ce fut l'uvre de S. Morse qui, en 1835, dveloppa l'alphabet tlgraphique. Le "Morse" codait chaque caractre en une suite de signaux lectriques de courte (point) ou de longue (trait) dure. L'autorisation d'accs priv au tlgraphe ne fut donne, en France, qu'en 1851 par Napolon III. En 1879, le premier ministre des postes et du tlgraphe (P et T) fut cr. Le tlphone allait apparatre cette poque. En 1917, mile Baudot mit au point un code qui allait tre utilis sur le rseau tlgraphique commut (Tlex). Des machines spciales munies d'un clavier permettaient de gnrer le signal correspondant au texte tap. Ainsi, si dans le "Morse", il fallait que la personne connaisse le codage pour le gnrer, ceci n'tait pas ncessaire avec le tlex. Les premiers terminaux "numriques" apparaissaient. Lorsque l'Informatique se dveloppa dans les annes 60, il tait ncessaire de constituer un codage adapt capable de prendre en considration un plus grand nombre de caractres et symboles alphanumriques. Ceci tait assur, pour longtemps, par le fameux code "ASCII" (American Standard Code for Information Interchange, connu aussi sous dautres appellations: Alphabet International n 5 ou Code CCITT n 5 ou ISO 646). Dautres codes ont vu le jour pour coder des ensembles plus ou moins grands des symboles alphanumriques. Dans le paragraphe suivant, nous prsentons brivement les principaux codes utiliss depuis le code "Morse" jusquau code universel "UniCode" actuellement utilis.

2.2 Comment Coder ? Le Code Morse Le code Morse, le premier code permettre une communication longue distance, est considr comme le prcurseur des communications numriques. Les lments binaires (ou bits: Binary elements/digits) utiliss par ce code sont le point (.) et le tiret (-). Chaque caractre est cod par une combinaison de points et de traits. Cest un code longueur variable : chaque symbole est reprsent par un mot-code constitu de plusieurs lments binaires dont le nombre diffre dun symbole lautre (cf. Figure 1). On dit quil est un code statistique: les caractres les plus frquemment utiliss sont cods avec peu d'lments binaires tandis que les caractres les moins frquemment utilis auront une longueur plus importante : A: .- B: -... C: -.-. D: -.. E: . L'inconvnient technique de ce code est que, par exemple, DE peuvent tre confondus avec B

(-...). C'est pourquoi, un silence (pause) entre deux caractres est ncessaire. Ce code fut invent et utilis pour la communication tlgraphique en gnral et maritime en particulier. Lalphabet reprsent par ce code est relativement peu nombreux ; les lettres accentues et les symboles semi-graphiques ne sont pas cods par le code Morse. Le Code Baudot (ou Murray Code) Le code Baudot, utilis principalement dans le rseau tlex, est un autre code tlgraphique mais mots-code de longueur fixe. Chaque mot-code est form dune combinaison de 5 bits (0 ou 1). Avec 5 bits, on ne peut avoir que 25= 32 combinaisons binaires possibles de 5 bits chacune; Ainsi, on ne peut reprsenter avec ce code que 32 symboles ou caractres diffrents, ce qui est insuffisant pour reprsenter les 26 lettres de lalphabet latin et les 10 chiffres dcimaux sans parler des commandes et des symboles de contrle. Pour rsoudre ce problme, une astuce a t utilise pour augmenter le nombre de combinaisons tout en conservant les 5 bits: deux mots-code ["Inversion Lettres" (code 11111) et "Inversion Chiffres" (code 11011)] sont rservs pour basculer entre le mode "Lettres" et le mode "Chiffres" et vice-versa. Ainsi, le mme mot-code peut reprsenter deux caractres diffrents selon quon est en mode "Lettres" ou en mode "Chiffres". Le mode "Chiffres" contient aussi d'autres symboles de ponctuation, de commande et de contrle. La figure 2 donne le tableau de codage dans les deux modes. Bien qu'il soit plus riche que le code Morse, ce code ne traite pas les minuscules et certains symboles et son inconvnient majeur rside dans des commutations frquentes. Le code Baudot original a t modifi pour devenir ce quon a appel Alphabet International n 2 ou code CCITT n 2.
TABLE DE CODAGE DU CODE INTERNATIONAL NO. 2 00010 00011 00100 00101 00110 Mot-code 00000 00001 Symbole NUL E 3 LineFeed A - Space S I 8 01010 01011 01100 01101 01110 Mot-code 01000 01001 Carriage ENQ D R J BELL N , F ! C : Symbole 4 Return uiry 10010 10011 10100 10101 10110 Mot-code 10000 10001 L H Y 6 P 0 Symbole T 5 Z + ) W 2 11010 11011 11100 11101 11110 Mot-code 11000 11001 G M . X / V ; Symbole O 9 B ? & FIGS Les chiffres et caractres de contrle sont en gras FIGURE 2 00111 U 7 01111 K

10111 Q 1 11111 LTRS

Le Code ASCII Dans les annes 1960, le code ASCII (American Standard Code for Information Interchange Code Amricain Standard pour l'change d'Information) est adopt comme standard pour reprsenter les caractres alphanumriques dans les ordinateurs. Il permet le codage de caractres sur 8 bits (=1 octet ou 1 Byte en anglais), soit 256 caractres possibles.

La mmoire de l'ordinateur conserve toutes les donnes sous forme binaire. Il n'existe pas de mthode pour stocker directement les caractres. Chaque caractre est reprsent par une combinaison de 8 bits. Le code ASCII de base reprsentait les caractres sur 7 bits (c'est--dire 128 caractres possibles) :

Les 32 premiers mots-code (numrots de 0 31) reprsente les caractres de contrle car ils permettent de faire des actions telles que : retour la ligne (CR), saut de page (FF), saut de ligne (LF), Tabulation horizontale (HT), Tabulation verticale (VT), Retour arrire (BS), Bip sonore (BEL), etc. Les mots-code numrots de 65 90 reprsentent les lettres majuscules de lalphabet anglais dans leur ordre alphabtique. Les mots-codes numrots de 97 122 reprsentent les lettres minuscules. (Il suffit de modifier le 6me bit pour passer de majuscules minuscules, c'est--dire ajouter 32 au numro du code ASCII.)

Notons que le numro du mot-code ASCII nest autre que la valeur dcimale du motcode pris dans le systme de numration base 2 naturel. La figure 3 donne la table du code ASCII de base.
TABLE DU CODE ASCII DE BASE (7 BITS) En hexadcimal Caractre NUL (Null) SOH (Start of heading) STX (Start of text) ETX (End of text) EOT (End of transmission) ENQ (Enquiry) ACK (Acknowledge) BEL (Bell) BS (Backspace) TAB(Tabulation) LF (Line Feed, saut ligne) VT(Vertical tabulation) FF(Form feed, saut page) CR (Carriage return, retour la ligne) SO (Shift out) SI (Shift in) DLE (Data link escape) DC1 (Device control 1) DC2 (Device control 2) DC3 (Device control 3) DC4 (Device control 4) NAK (Negative acknowledgement) SYN (Synchronous idle) ETB (End of transmission block) CAN(Cancel) EM (End of medium) SUB (Substitute) ESC (Escape) Code ASCII 0000000 0000001 0000010 0000011 0000100 0000101 0000110 0000111 0001000 0001001 0001010 0001011 0001100 0001101 0001110 0001111 0010000 0010001 0010010 0010011 0010100 0010101 0010110 0010111 0011000 0011001 0011010 0011011 Caractre @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ Code ASCII 1000000 1000001 1000010 1000011 1000100 1000101 1000110 1000111 1001000 1001001 1001010 1001011 1001100 1001101 1001110 1001111 1010000 1010001 1010010 1010011 1010100 1010101 1010110 1010111 1011000 1011001 1011010 1011011 En hexadecimal 40 41 42 43 44 45 46 47 48 49 4A 4B 4C 4D 4E 4F 50 51 52 53 54 55 56 57 58 59 5A 5B Valeur Dcimale Valeur dcimale 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

00 01 02 03 04 05 06 07 08 09 0A 0B 0C 0D 0E 0F 10 11 12 13 14 15 16 17 18 19 1A 1B

FS (File separator) GS (Group separator) RS (Record separator) US (Unit separator) SP (Space) ! " # $ % & ' ( ) * + , . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ?

0011100 0011101 0011110 0011111 0100000 0100001 0100010 0100011 0100100 0100101 0100110 0100111 0101000 0101001 0101010 0101011 0101100 0101101 0101110 0101111 0110000 0110001 0110010 0110011 0110100 0110101 0110110 0110111 0111000 0111001 0111010 0111011 0111100 0111101 0111110 0111111

28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63

1C 1D 1E 1F 20 21 22 23 24 25 26 27 28 29 2A 2B 2C 2D 2E 2F 30 31 32 33 34 35 36 37 38 39 3A 3B 3C 3D 3E 3F

\ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~ Delete

1011100 1011101 1011110 1011111 1100000 1100001 1100010 1100011 1100100 1100101 1100110 1100111 1101000 1101001 1101010 1101011 1101100 1101101 1101110 1101111 1110000 1110001 1110010 1110011 1110100 1110101 1110110 1110111 1111000 1111001 1111010 1111011 1111100 1111101 1111110 1111111

92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127

5C 5D 5E 5F 60 61 62 63 64 65 66 67 68 69 6A 6B 6C 6D 6E 6F 70 71 72 73 74 75 76 77 78 79 7A 7B 7C 7D 7E 7F

FIGURE 3

Le Code ASCII Etendu Le code ASCII a t mis au point pour la langue anglaise, il ne contient donc pas de caractres accentus, ni de caractres spcifiques une autre langue. Pour cela, le code ASCII a t tendu 8 bits (un octet) pour pouvoir coder plus de caractres (on parle alors de code ASCII tendu...). Ce code attribue les valeurs 0 255 (donc codes sur 8 bits, soit 1 octet) aux lettres majuscules et minuscules, aux chiffres, aux marques de ponctuation et aux autres symboles (caractres accentus dans le cas du code iso-latin1). Le code ASCII tendu n'est pas unique et dpend fortement de la plateforme utilise. Les deux jeux de caractres ASCII tendus les plus couramment utiliss sont :

Le code ASCII tendu OEM, c'est--dire celui qui quipait les premires machines de type IBM PC, et qui est donn par la table complmentaire de la figure 4. Les chiffres

de la 1re colonne reprsentent la moiti gauche du code ASCII en binaire, alors que ceux de la 1re ligne reprsentent la moiti droite du mme code.
TABLE COMPLEMENTAIRE DU CODE ASCII ETENDU OEM

FIGURE 4

Le code ASCII tendu ANSI, utilis par les systmes d'exploitation rcents, et qui est donn par la table complmentaire de la figure 5.
TABLE COMPLEMENTAIRE DU CODE ASCII ETENDU ANSI

FIGURE 5

Le code EBCDIC Le code EBCDIC (Extended Binary-Coded Decimal Interchange Code), dvelopp par IBM, permet de coder des caractres sur 8 bits. Bien que largement rpandu sur les machines IBM, il n'a pas eu le succs qu'a connu le code ASCII. LUnicode Les 8 bits du code ASCII tendu ne suffisent pas pour prendre en compte tous les alphabets existants au monde et dont le codage est devenu une ncessit. Le code Unicode est un systme de codage des caractres sur 16 bits mis au point en 1991.

Le systme Unicode permet de reprsenter n'importe quel caractre par un code sur 16 bits, indpendamment de tout systme d'exploitation ou langage de programmation. Thoriquement, il est capable de reprsenter 216=65536 caractres, ce qui couvre la quasitotalit des alphabets existants (arabe, armnien, cyrillique, grec, hbreu, latin, ...) et est compatible avec le code ASCII.