Le codage UTF-8, qui signifie "Unicode Transformation Format - 8 bits", est un
standard d'encodage de caract�res Unicode. Il a �t� con�u pour repr�senter
l'ensemble des caract�res Unicode de mani�re efficace en utilisant des octets variables. En d'autres termes, la quantit� d'octets utilis�e pour repr�senter un caract�re d�pend de son point de code Unicode.
Prenons quelques exemples de caract�res cod�s en UTF-8 avec diff�rentes longueurs
d'octets :
Caract�res cod�s sur 2 octets :
En UTF-8, les caract�res Unicode dont le point de code est inf�rieur � 128 sont repr�sent�s sur un octet. Par exemple, le caract�re '�' (U+00E9) est cod� en UTF-8 sur deux octets : 11000011 10101001.
Caract�res cod�s sur 3 octets :
Les caract�res Unicode dont le point de code est compris entre 128 et 2047 sont cod�s sur trois octets. Par exemple, le caract�re '' (U+20AC) est encod� en UTF-8 sur trois octets : 11100010 10000010 10101100.
Caract�res cod�s sur 4 octets :
Les caract�res Unicode dont le point de code est compris entre 2048 et 1114111 sont cod�s sur quatre octets. Un exemple est le caract�re '' (U+1F30D) repr�sent� en UTF-8 sur quatre octets : 11110000 10011111 10011000 10001101.
En r�sum�, UTF-8 offre une flexibilit� dans la repr�sentation des caract�res
Unicode en utilisant des longueurs d'octets variables. Cela permet de couvrir l'ensemble des caract�res du standard Unicode tout en maintenant une compatibilit� avec les encodages ASCII pour les caract�res de base.