Vous êtes sur la page 1sur 1

II REPRESENTATION DES CARACTERES ET DES TEXTES

1) Représentation des caractères


Le code ASCII attribut à chaque caractère un code qui est un nombre : 65 pour « A », 66
pour « B », 97 pour « a », 98 pour « b ». Il y a également un code pour la ponctuation, les
blancs, les sauts de lignes, etc...
Le code ASCII est représenté par un mot de 8 bits dont le premier est toujours égal à 0. Il
permet donc de coder 27 =128 caractères différents ce qui n'est pas suffisant pour
certaines langues notamment le français qui utilise des accents, cédilles. Il a été conçu pour
coder des textes écrits en anglais comme l'indique son nom : American Standart Code for
Information Interchange.
Une extention a été conçue, le code Latin-1, qui contient 191 caractères qui permet de coder
la majorité des langues de l'Europe de l'Ouest mais n'est pas suffisant pour celles d'Europe
de l'Est. Une deuxième extension, le code Latin-2, le permet. Ensuite, un format universel
Unicode a été proposé pour coder le chinois, le japonais, le grec, le russe … Unicode
recence environ 110 000 caractères et associe un nom et un numéro à chacun. Chaque
caractère est codé sur 32 bits. Cependant Unicode existe en plusieurs versions : UTF-32 où
chaque caractère est codé sur 32 bits, UTF-8 où les caractères les plus courants sont
exprimés sur 8 bits, les autres sur 16, 32 ou 64 bits. UTF-8 tend à devenir le code standart
mais il ne l'est pas encore.

Exercice 14
Rechercher sur le web, les tables de codage ASCII et UTF-8.

2) La représentation des textes


Un texte étant une suite de caractères, son codage se fait en codant les caractères qui le
constitue l'un à la suite de l'autre.

Exercice 15
a) Traduire en ASCII binaire, en oubliant les accents, de la phrase suivante :
« Le commencement de toutes les sciences, c'est l'étonnement. »
b) Traduire la même phrase en UTF-8 (avec les accents).

Exercice 16
Le texte suivant est codé en ASCII binaire.

Vous aimerez peut-être aussi