1 - Codage informatique
Certains langues notamment d'origine latine ont l'avantage de posséder un nombre restreint de symboles grâce à leur système alphabétique. Pour celles-ci, un encodage de type ASCII est largement suffisant. Cependant, les langues à base d'idéogrammes que sont le chinois ou le japonais nécessitent à l'inverse plusieurs milliers de symboles. L'encodage ASCII avec ses 256 symboles ne suffit alors plus, et l'on a besoin de recourir à d'autres types d'encodages. En ce qui concerne le japonais, il en existe plusieurs :
1.1 - JIS (Japanese Industrial Standards)
Le groupe JIS n'est ni plus ni moins que l'équivalent japonais de l'organisme américain ANSI (American National Standards Institute). Le terme JIS est également utilisé pour identifier leur standard de codage. Il s'agit d'un codage des caractères sur 2 x 7 bits permettant d'inclure à la fois des caractères japonais et du texte ASCII standard. Pour basculer aisément entre les deux types de texte, il a été mis en place un système de deux séquences d'échappement, la première indique le début de l'encodage du japonais tandis que la dernière en indique la fin.
En réalité, l'encodage JIS n'est pas uniforme car il en existe plusieurs variantes qui se distinguent en grande partie par leurs séquences d'échappement. En effet, les caractères qui les composent varient légèrement selon les versions. Voici un tableau récapitulant les différentes séquences en fonction des encodages JIS (Le caractère ESC correspond au caractère d'échappement qui a pour valeur ASCII 27).
Encodage |
Début du japonais |
Fin du japonais |
New-JIS |
ESC $ B |
ESC ( J |
Old-JIS |
ESC $ @ |
ESC ( J |
JIS NEC |
ESC K |
ESC H |
Par exemple, pour encoder en New-JIS la chaîne suivante : "Japon 日本", on utilisera les caractères suivants :
Chaîne |
J |
a |
p |
o |
n |
|
|
日 |
本 |
|
Encodage JIS |
Caractères ASCII |
Séquence d'échappement |
Caractères JIS |
Séquence d'échappement |
74 |
97 |
112 |
111 |
110 |
32 |
ESC $ B |
46 7C |
4B 5C |
ESC ( J |
|