Table des matières

~~stoggle_buttons~~

Principes de base

Chaînes de caractères

Unicode

Le site Officel : très fourni

Un site plus simple et plus utilitaire

UTF-8

Un exemple :

Vous voulez représenter, en UTF-8, le symbole "Angstrom". Il faut partir de son code Unicode.

Å U+212B ANGSTROM SIGN
Son code Unicode est : 212B.
Donc la réprésentation se fera sur 16 bits qui seront stockés sur 3 octets (voir le tableau ci-dessous)
au format indiqué dans les 6 colonnes de droite du tableau.

Ensuite, vous aurez besoin du tableau de référence de la tranformation (voir en bas de page). Dans la suite du document, en gras : les bits ajoutés par la transformation UTF-8, les autres bits sont issus du code Unicode.

 Le nombre de bits de l'en-tête du premier octet indique le nombre d'octets de la transformation.

La table de correspondance

Bits of First Last Bytes in
code point code point code point sequence Byte 1 Byte 2 Byte 3 Byte 4 Byte 5 Byte 6
7 U+0000 U+007F 1 0xxxxxxx
11 U+0080 U+07FF 2 110xxxxx 10xxxxxx
16 U+0800 U+FFFF 3 1110xxxx 10xxxxxx 10xxxxxx
21 U+10000 U+1FFFFF 4 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
26 U+200000 U+3FFFFFF 5 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
31 U+4000000 U+7FFFFFFF 6 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx