Combien de fois nous sommes-nous retrouvés face à des personnes qui n’utilisent pas les accents lorsqu’ils écrivent en espagnol ou qui affirment que leur PC ne possède pas la lettre « ñ », déclarant « je ne la vois pas sur mon clavier » ? De même, ils nous arrivent parfois de ne pas réussir à visualiser correctement un document au format PDF ou Word reçu lors du dernier achat en ligne en provenance de Chine ou de Corée. Dans cet article, nous essaierons de comprendre pourquoi cela arrive ou a pu arriver.
Commençons par la définition d’un CARACTÈRE.
Caractère : il s’agit d’une lettre, d’un idéogramme, d’un numéro ou d’un symbole. Ces caractères représentent les éléments d’un langage naturel, c’est-à-dire d’un alphabet ou d’un syllabaire. L’alphabet est, par conséquent, un ensemble de caractères, qui se lit dans un ordre déterminé et dont les graphies utilisées pour représenter le langage servent de système de communication.
Cette courte introduction est essentielle puisque nous essaierons d’expliquer de manière simple le fonctionnement de ces caractères dans le domaine de l’informatique et le lien avec les langues asiatiques et les alphabets non latins.
Si nous faisons un peu d’anthropologie, en passant de l’écriture manuscrite à l’imprimerie, nous pouvons affirmer qu’avec l’écriture manuscrite, le problème ne se pose pas. Avec l’imprimerie, le problème a été résolu en son temps, grâce à la création de types ou caractères donnant ensuite naissance à la typographie. L’étape suivante a été les machines à écrire, comme celles de la marque Remington. Cette société a commercialisé différents modèles selon les langues comme le français ou l’espagnol, et c’est ainsi que l’agencement des lettres sur le clavier a été inventé. La disposition de clavier QWERTY est devenue le standard pour les machines à écrire anglaises et espagnoles (ce standard a été, à son tour, adopté pour les claviers d’ordinateur). D’autres langues aux alphabets latins utilisent des variantes de l’agencement QWERTY, comme AZERTY en français, QZERTY en italien et QWERTZ en allemand.
Pour revenir au sujet de cet article, avec l’arrivée des ordinateurs, la nécessité d’établir un standard de codification pour les caractères, de manière à ce que son interprétation soit universelle, uniforme et unique, était tangible. En d’autres termes, cette codification devait admettre qu’un caractère lié à un symbole dans un système possédant des règles bien établies, puisse être défini par une série de nombres ou une séquence d’impulsions électriques.
C’est ainsi qu’est né le code ASCII (acronyme pour American Standard Code for Information Exchange, le Code américain normalisé pour l’échange d’information), basé sur l’alphabet latin, qui fonctionne selon un système 8 bits (dont 7 sont des chiffres binaires ou digitaux et le huitième sert à détecter des erreurs, comme les erreurs de transmission). Toutefois, ce système a très rapidement montré des limites : il est limité à 128 caractères, en d’autres termes, il ne contient pas les caractères accentués nécessaires aux autres langues que l’anglais. Il n’est donc pas universel.
D’autres systèmes de codification sur 8 bits type ASCII Étendu ont alors été créés, mais ils présentent également des limites puisque chacun de ces systèmes ne pouvait être utilisé uniquement par un groupe de langues similaires, ce n’est donc pas une solution unique. Elle n’est pas non plus universelle puisque 8 bits ne sont pas suffisants pour codifier tous les alphabets existants.
Un nouveau standard, l’UNICODE, a alors été mis au point :
« Fondamentalement, les ordinateurs ne comprennent que les nombres. Ils codent les lettres et autres caractères sous forme de nombres. Avant l’invention d’Unicode, des centaines de systèmes de codage de caractères ont été créés. Pas un seul d’entre eux n’était satisfaisant : par exemple, l’Union européenne a besoin de plusieurs systèmes de codage pour couvrir toutes ses langues de travail. Même pour une seule langue comme le français, aucun système de codage ne couvrait toutes les lettres, les signes de ponctuation et les symboles techniques couramment utilisés.
Ces systèmes de codage sont souvent incompatibles entre eux. Ainsi, deux systèmes peuvent utiliser le même nombre pour deux caractères différents ou utiliser différents nombres pour le même caractère. Les ordinateurs, et plus particulièrement les serveurs, doivent prendre en charge plusieurs systèmes de codage de caractères, ce qui crée un risque de corruption des données à chaque transition. »
Cette codification répond aux objectifs d’universalité, d’uniformité et d’unicité.
« Unicode inclut tous les caractères d’usage commun à l’heure actuelle. La version 5.1 contient 100 713 caractères issus de différents alphabets, systèmes idéographiques et collections de symboles (mathématiques, techniques, musicaux, icônes). Le nombre de caractères augmente avec chaque version. »
Ainsi, il existe enfin une codification qui inclut le plus grand nombre de caractères possibles.
Il peut être très utile de consulter la page web de ce code car elle est actualisée en permanence afin de résoudre les possibles erreurs possibles qui subsistent actuellement.
Afin d’avoir une meilleure idée du sujet, visitez ce lien :