Vous êtes sur la page 1sur 1

Le codage UTF-8, qui signifie "Unicode Transformation Format - 8 bits", est un

standard d'encodage de caract�res Unicode. Il a �t� con�u pour repr�senter


l'ensemble des caract�res Unicode de mani�re efficace en utilisant des octets
variables. En d'autres termes, la quantit� d'octets utilis�e pour repr�senter un
caract�re d�pend de son point de code Unicode.

Prenons quelques exemples de caract�res cod�s en UTF-8 avec diff�rentes longueurs


d'octets :

Caract�res cod�s sur 2 octets :


En UTF-8, les caract�res Unicode dont le point de code est inf�rieur � 128 sont
repr�sent�s sur un octet. Par exemple, le caract�re '�' (U+00E9) est cod� en UTF-8
sur deux octets : 11000011 10101001.

Caract�res cod�s sur 3 octets :


Les caract�res Unicode dont le point de code est compris entre 128 et 2047 sont
cod�s sur trois octets. Par exemple, le caract�re '' (U+20AC) est encod� en UTF-8
sur trois octets : 11100010 10000010 10101100.

Caract�res cod�s sur 4 octets :


Les caract�res Unicode dont le point de code est compris entre 2048 et 1114111
sont cod�s sur quatre octets. Un exemple est le caract�re '' (U+1F30D) repr�sent�
en UTF-8 sur quatre octets : 11110000 10011111 10011000 10001101.

En r�sum�, UTF-8 offre une flexibilit� dans la repr�sentation des caract�res


Unicode en utilisant des longueurs d'octets variables. Cela permet de couvrir
l'ensemble des caract�res du standard Unicode tout en maintenant une compatibilit�
avec les encodages ASCII pour les caract�res de base.

Vous aimerez peut-être aussi