Warning: Cannot modify header information - headers already sent by (output started at /mnt/114/sda/4/2/kanji/docs.php:1) in /mnt/114/sda/4/2/kanji/include/html.inc.php on line 85

Warning: Cannot modify header information - headers already sent by (output started at /mnt/114/sda/4/2/kanji/docs.php:1) in /mnt/114/sda/4/2/kanji/include/html.inc.php on line 88
Dico des kanji japonais - Codage des kanji
Dictionnaire des kanji japonais

Codage des kanji - 3 / 5

1.4 - UNICODE

Unicode est un autre système d'encodage multilangues développé par le consortium du même nom (en anglais Unicode Consortium). Cet encodage qui n'est pas spécifiquement destiné à encoder le japonais commence à être de plus en plus utilisé et tend à s'imposer comme un standard même si les japonais eux-mêmes ne l'utilisent pas beaucoup. Il présente pour nous européens plusieurs avantages. Grâce à son support multilangue, nos signes diacritiques (lettre accentuées, cédilles) peuvent ainsi cohabiter aisément avec les caractères japonais contrairement aux autres codes décris plus haut..

1.5 - UTF-8

Unicode ne peut pas être utilisé directement pour l'encodage d'un texte. C'est pourquoi, on doit se tourner vers une de ses variantes dont la plus courante est l'UTF-8. Celle-ci offre un encodage variable selon le type de caractère ce qui permet une optimisation de la taille du document encodé. Les caractères européens sont encodés normalement en utilisant leur valeur ASCII, tandis que les caractères japonais utiliseront un encodage sur 3 octets issu de leur code Unicode (sur 2 octets).

Maintenant, comment se fait la transformation du code Unicode d'un caractère vers son code UTF-8 ?
Voici un petit tableau qui récapitule les deux méthodes de transformation selon le type de caractères. On suppose qu'un caractère ASCII comporte les 7 bits suivants (1 octet) xxxxxxx et qu'un caractère japonais comporte les 16 bits suivants (2 octets) yyyyyyyy yyyyyyyy :

Types de caractère Nb d'octets Représentation UTF-8
ASCII standard 1 octet (7 bits) 0xxxxxxx
Caractère japonais 2 octets (16 bits) 1110yyyy 10yyyyyy 10yyyyyy

Prenons un exemple : considérons le caractère japonais suivant : , celui-ci a pour code Unicode 8EAB ce qui nous donne en binaire : 1000 1110 1010 1011. Pour nous faciliter un peu les choses, on regroupe ses bits par paquet de 4, 6 et 6 bits, ce qui nous donne : 1000 111010 101011. Maintenant, il suffit juste de faire la substitution avec le modèle de représentation sur 3 octets, ce qui donnera 11101000 10111010 10101011 soit en hexadécimal : E8BAAB.


1 2 3 4 5
Codage des kanji
Accueil | Historique | Tracé | Classement | Codage | Kana | Navigateurs
Nb de traits | Prononciation | Signification | Codes informatiques | Code SKIP | Lexique
Liens | Téléchargements | Foire aux questions | Préférences
© 2011 kanji.free.fr Tout droits réservés - Email :