Vous êtes sur la page 1sur 3

1.

Introduction

Coder du texte

Nous avons tous un jour reu un courriel bizarre ou lu une page web telle que celle-ci :
Elle leva les yeux, mais tout tait noir au-dessus de sa tte. Devant
elle stendait un autre couloir o elle vit le Lapin Blanc en train
de courir toute vitesse.
Nous allons essayer de comprendre pourquoi on comprend peu prs ce texte mais pas compltement...

2. Un premier codage

Pour reprsenter des caractres, il suffit d'attribuer un nombres


chacun d'eux.
Le code ASCII (American Standard Code for Information
Interchange), par exemple, se base sur un tableau contenant les
caractres les plus utiliss en langue anglaise : les
lettres de lalphabet en majuscule, en minuscule , les dix chiffres
arabes, des signes de ponctuation , quelques symboles et certains
caractres spciaux invisibles.

Remarque
Les crateurs de ce code limitrent le nombre de ses caractres 128, cest--dire 2 7 , pour quils puissent tre
cods avec seulement 7 bits. Les ordinateurs utilisaient des cases mmoires de un octet, mais ils rservaient
toujours le 8e bit pour le contrle de parit (cest une scurit pour viter les erreurs, qui taient trs frquentes
dans les premires mmoires lectroniques).
Exercice 2.1
Trouver le texte reprsent en ASCII binaire par la suite de bits
0111010001110010011011110111000000100000011001100110111101110010011101000000110100001010

Exercice 2.2
Quelle est la taille (en octets) de la phrase : Bravo ! Tu as tout compris. (attention, il faut compter les espaces,
et signes de ponctuation) ?
Vrifier en tapant cette phrase avec un diteur de texte quelconque comme le bloc-notes de Windows.
crire la mme chose dans un logiciel de traitement de texte (comme LibreOffice Writer ou Microsoft Word)
Quelle est la taille du fichier? Quelle peut en tre lexplication ?
Exercice 2.3
Peut-on coder en binaire la phrase Es-tu l ? laide de la table ASCII ? Justifier.

3. Encore un codage
Vous avez remarqu : Il n'y a aucun caractre accentu ! Les amricains nous ont oubli.
Il va donc falloir tendre la table ASCII pour pouvoir coder les nouveaux caractres. Les mmoires devenant
plus fiables, le 8ime bit a pu tre utilis pour coder plus de caractres.
Exercice 3.1
Combien de caractre peut-on coder en plus en utilisant le 8ime bit ?
La norme ISO 88591 appele aussi Latin-1 ou Europe occidentale est la premire partie dune norme plus
complte appele ISO 8859 (qui comprend 16 parties) et qui permet de coder tous les caractres des langues
europennes. Cette norme ISO 88591 permet de coder 191 caractres de lalphabet latin qui avaient lpoque
t jugs essentiels dans lcriture, mais omet quelques caractres fort utiles (ainsi, la ligature ny figure pas).
Dans les pays occidentaux, cette norme est utilise par de nombreux systmes dexploitation, dont Linux et
Windows. Elle a donn lieu quelques extensions et adaptations, dont Windows-12527 (appele ANSI) et ISO
8859-158 (qui prend en compte le symbole cr aprs la norme ISO 8859-1). Cest source de grande
confusion pour les dveloppeurs de programmes informatiques car un mme caractre peut tre cod
diffremment suivant la norme utilise.

4. Un peu d'ordre : Unicode et UTF-8


Unicode
Au lieu d'utiliser seulement les codes 0 127, il utilise des codes de valeur bien plus grandes. Le code
UNICODE permet de reprsenter tous les caractres spcifiques aux diffrentes langues. De nouveaux codes
sont rgulirement attribus pour de nouveaux caractres: caractres latins (accentus ou non), grecs, cyrillics,
armniens, hbreux, tha, hiragana, katakana... L'alphabet Chinois Kanji comporte lui seul 6879 caractres.
Mme si lUnicode est bien conu, il reste assez peu utilis par rapport l'ASCII. Ce standard se dveloppe de
plus en plus. Les langages Java, .Net (C#) et Python supportent dj nativement lUnicode. La plupart des
systmes d'exploitation (Windows, Linux, MacOS X...) supportent dj l'Unicode.

UTF-8
Gnralement en Unicode, un caractres prend 2 octets. Autrement dit, le moindre texte prend deux fois plus de
place qu'en ASCII. De plus, si on prend un texte en franais, la grande majorit des caractres utilisent
seulement le code ASCII. Seuls quelques rares caractres ncessitent l'Unicode.
On a donc trouv une astuce: l'UTF-8. Un texte en UTF-8 est simple: il est partout en ASCII, et ds qu'on a
besoin d'un caractre appartenant l'Unicode, on utilise un caractre spcial signalant "attention, le caractre
suivant est en Unicode".
L'UTF-8 rassemble le meilleur de deux mondes: l'efficacit de l'ASCII et l'tendue de l'Unicode. D'ailleurs
l'UTF-8 a t adopt comme norme pour l'encodage des fichiers XML. La plupart des navigateurs rcents
supportent galement l'UTF-8 et le dtectent automatiquement dans les pages HTML.
Exercice 4.1
Tlcharger le fichier web.html. Quel est l'encodage utilis pour coder le texte ?

5. Du texte enrichi : le html


Quand on crit un texte, on peut souhaiter lui donner une forme spciale, plus jolie, plus lisible.
On peut jouer sur la police de caractres Times, Courier, etc. , sur la taille des caractres 11 points, 12
points, etc. , sur leur forme romain, italique, etc. , leur graisse maigre, gras, etc.
On peut aussi souhaiter dcouper un texte en chapitres et mettre en valeur les titres des chapitres, etc. Or, les
seules caractristiques que lon puisse exprimer avec un code comme lASCII, par exemple, sont la casse dune
lettre minuscule ou majuscule et le dcoupage en paragraphes, grce au symbole retour chariot.
Les traitements de texte sont les logiciels qui permettent ces mises en pages plus labores.
Ceci a amen enrichir les formats existants. Lun de ces formats enrichis, qui est utilis en particulier pour
crire des pages web est appel le format HTML.
L'Hypertext Markup Language, HTML en abrg, est un langage de description destin reprsenter des
pages web. Il permet la cration de documents structurs, l'utilisation de textes enrichis.
Il facilite notamment la cration d'hyperliens (liens vers une autre page web ou une autre partie de la mme
page web), l'insertion d'images et beaucoup d'autres choses.
Les pages HTML sont de simples fichiers textes pouvant tre lus directement l'aide d'un diteur de texte.
Tous les enrichissements sont symboliss par un systme de balisage l'intrieur du texte. Ces balises sont
interprtes par le navigateur internet qui produit l'affichage la page web avec sa mise en forme.
Les balises HTML sont toutes dlimites par les caractres < et >. La plupart des balises ont une partie ouvrante
<mabalise> et une partie fermante </mabalise>.
Une page HTML peut thoriquement tre affiche sous tout systme d'exploitation et tout navigateur avec le
mme aspect final.
Exercice 5.1
En regardant le code source de la page web.html tlcharge prcdemment, expliquer comment mettre de
texte en gras, en italique, comment insrer une image et comment crer un lien vers une page.
Exercice 5.2
Dans ce texte, vers quel site web pointe le lien ? Comment ce texte saffiche-t-il dans un navigateur ?
Votre compte bancaire prsente une anomalie. Cliquer <a href="http://grosse-arnaque.com">ici</a> pour
avoir de l'aide.

Feuille de style
L'utilisation de feuilles de style au format CSS repose sur l'ide de sparation du contenu et de la mise en
forme. Le contenu est fourni par le fichier au format HTML ; la mise en forme est dfinie dans le fichier au
format CSS.
Plusieurs avantages cette technique :
La mme mise en forme peut tre automatiquement applique plusieurs pages HTML : une mme
feuille de styles peut tre appele par autant de page HTML que souhait.
Pour modifier un style, une modification dans la feuille de styles sera rpercute dans toutes les pages
web appelant cette feuille.
Exercice 5.3
En regardant le code source de la page web2.html, comment indique t-on la page que l'on veut utiliser une
feuille de style ? Tlcharger la.
Quelle est la couleur du fond du titre h1 ?

Mini-projet
Ce travail doit tre ralis par groupes de 2 ou 3 lves.
Raliser une page de prsentation de loption ISN comprenant des liens hypertextes internes (ancres) et
externes la page (programmes, modalits dexamen, des images) et une feuille de style css (titres, font de
page, couleurs, polices, liens,).
Cette page est destine tre consulte par les lves de 1reS pour les informer quant leur choix de spcialit
en terminale.
L'ensemble des documents utiliss (page html, fichier css, images, ) sera rassembl dans un fichier
compress et envoy par mail: ameistermann@ac-montpellier.fr
L'valuation de votre travail prendra en compte la validit W3C de la page web.

Vous aimerez peut-être aussi