Lire et Ecrire des courriels en Espéranto et en Arménien.

(Mise à jour le 12/12/2013)

Qui suis-je ?

Je m'appelle Michel SLAGMULDER. Je suis ingénieur en informatique et ce n'est pas par hasard si je me suis intéressé à la question. Je milite depuis déjà quelques temps dans des associations espérantistes et grâce à l'espéranto j'ai rencontré ma femme qui, elle est arménienne.

Il se trouve qu'à la fois l'espéranto et l'arménien utilise un alphabet différents du notre et que ces deux langues rencontrent des problématiques similaires en matière d'envoi et de réception de courriel.

En fait le problème est plus général et concerne toute langue qui à des caractères différents de l'anglais. Le français est inclus dans cette liste, toutefois les logiciels sont depuis très longtemps configurés correctement dans leurs versions francophone pour que le problème ait disparu. Mais si vous vous souvenez des débuts de l'Internet en France, il n'était pas toujours évident d'envoyer des courriels avec les accents.

Historique.

Pour bien comprendre comment procéder, il est absolument nécessaire de faire un retour historique sur les techniques de codage des alphabets.

Comme tout le monde le suppose, l'informatique est née quasiment aux Etats-Unis, pays anglophone. Donc le premier réflexe des informaticiens fut de à la possibilité d'écrire en anglais uniquement. Malheureusement pour le reste du monde, cette langue est pauvre en caractères. En effet, elle n'y a pas d'accent et se satisfait de l'alphabet latin majuscule et minuscule, des chiffres et des caractères de ponctutation. A ceux ci, il faut ajouter quelques caractères purement informatiques nécessaire par exemple à la gestion des imprimantes et des écrans.

Tout cela tenait sur 128 caractères, c'est à dire qu'un caractère était codé sur 7 bits.

A l'arrivée de l'informatique en Europe, ces 128 caractères ont été très insuffisants en nombres, on a alors décidé de rajouter un bit de codage ce qui doublait le nombre possible de caractères.

Le code ASCII étendu était né. Ce codage permet d'écrire la plupart des langues européennes. Il comporte notamment les caractères français, hongrois etc...

Ce code est connu aussi sous le nom de Latin-1 ou ISO-8859-1.

Notre codage est maintenant constitué de deux parties. une commune à toutes les langues utilisant l'alphabet latin ( 0-127 ) et l'autre (128-255) comportant des lettres à accents et cédilles.

C'est alors que les éditeurs de programmes commencèrent à développer des applications qui traitaient les lettres comme étant codées sur un octet (soit 256 caractères possibles)

Malheureusement 256 caractères ne suffisaient pas. Même pour des langues à base latine, le compte n'y était pas. Certaines langues comme le turc, ou le vietnamien ne pouvaient être représentées. De plus des langues non latines comme le grec, l'arménien ou le russe étaient oubliées.

Les polices bilingues.

C'est alors que l'on a eu l'idée, de créer d'autres normes qui modifiaient la deuxième partie de notre codage. Les derniers caractères représentaient alors les caractères spécifiques aux diverses langues.

Pour l'arménien, fut créé le code AM ou armscii-8. Les premiers caractères représentent les caractères latins de bases et les derniers l'arménien

Pour l'espéranto, on utilise une autre norme appelée Sud-Euro, latin3 ou ISO-8859-3.

Le russe, par exemple, utilise l'ISO-8859-5.

Il suffit de créer des normes pour de nouvelles langues. Mais ce système a de nombreux inconvénients:

  1. A la réception d'un courriel, le programme est incapable de deviner la langue donc la police de caractères à utiliser. Mais ce n'est pas le plus grave.

  2. Il est impossible de faire un e-mail à la fois en français et en arménien. En effet, les normes AM et Latin-1 se chevauchent, si on lit un courriel franco-arménien avec une police Latin1, l'arménien est illisible. Si le même courriel est lu avec une police AM, les lettres accentuées françaises deviennent des lettres arméniennes.

  3. Enfin des langues avec beaucoup de caractères comme le chinois ne peuvent être représentées

Unicode

Pour résoudre ces trois problèmes, Unicode est né. Cette fois-ci, les lettres sont codées sur deux octets, ce qui donnent 65536 caractères possibles. On peut y loger tous les alphabets du monde.

Ainsi suivant le code du caractère, le système est tout de suite capable de savoir à quelle langue il appartient.

Il est donc tout à fait possible d'envoyer des courriels en plusieurs langues sans aucun problème.

Les programmes de courriel et mappage de clavier.

A l'heure actuelle,  Outlook Express 5.0+ et Netscape4.6+  permettent de lire et d'écrire de l'unicode. On peut donc sans complexe envoyer et lire des courriels en arménien et en espéranto en utilisant ce codage.

Le problème reste cependant la redéfinition du clavier.

Vous êtes sous XP, vista, (W 7 non testé)s:

Dans ce cas c'est beaucoup plus simple.

Vous êtes sous Linux:

Lire un courriel en Espéranto.

Quand vous recevez un courriel en Espéranto et que vous n'arrivez pas à le lire, il faut déterminer s'il est en Latin3 ou Unicode. Les deux exemples suivants vont vous aider.

Si votre courriel ressemble à ça æu vi manøas. þuo ambaý. Il est tapé en latin3. Il y a un caractère par lettre accentuée.

Si votre courriel ressemble à ça ĉu vi manÄ?as. Å?uo ambaÅ. c'est de l'Unicode. Beaucoup de A accentués.

Pour lire du latin3, changer le code de votre courriel en ISO-8859-3.

Pour lire de l'Unicode, changer le code de votre courriel en UTF-8

Lire un courriel en Arménien.

A rédiger.

Références:

J'ai trouvé un site fait par des québécois plutôt pas mal: http://www3.sympatico.ca/esperanto/fr-accents.htm

Avis au lecteur

Ce document est loin d'être terminé. Je remercierai toute personne qui pourrait m'aider à le compléter et à le corriger s'il y a lieu.