Skip to content
3 janvier 2015 / gallegre

Voyage en Unicode (2/14) – l’arabe

(où l’on fait mine de rien)

Nouvelle année, nouvelle motivation pour reprendre cette série (et non, je n’ai pas parlé de résolution).

L’année dernière, je vous parlais des systèmes d’écriture et de leur recensement dans la norme ISO 15924, qui est un standard parallèle à Unicode, mais évidemment lié à ce dernier. Notre point de vue d’occidental nous a habitués à l’alphabet latin, mais d’autres écritures plus ou moins exotiques introduisent des notions qu’il faut bien gérer si on vise un traitement universel des jeux de caractères. Parmi toutes ces écritures, l’une des plus proches, géographiquement et culturellement, est l’alphabet arabe. Il introduit cinq différences principales avec le latin :

  1. il s’écrit de droite à gauche
  2. il ne comporte pas de voyelles
  3. il ne fait pas de différence de casse (majuscules/minuscules)
  4. il comporte en revanche 4 formes pour chaque caractère, en fonction de sa position dans le mot
  5. il impose la ligature entre les caractères

Ces cinq caractéristiques doivent d’une façon ou d’une autre être gérées à la fois dans Unicode et dans les systèmes qui interagissent avec.

Mais avant d’examiner ces cinq points, notons quand même une similarité avec le latin : l’alphabet arabe est un outil commun à de nombreuses langues différentes : l’arabe, le farsi (persan), le kashmiri, le sindhi, l’ourdou, le kurde, sans oublier le turc jusqu’en 1928.

Sens d’écriture

C’est sans doute le point le plus évident, l’alphabet arabe s’écrit de droite à gauche, à l’inverse du latin :

يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق.

(vous aurez bien sûr reconnu le début de la Déclaration universelle des droits de l’homme)

Cela force Unicode à gérer une propriété particulière : la direction d’écriture, qui est affectée à tout caractère référencé. Unicode possède aussi deux caractères de contrôle spéciaux, pour forcer cette direction : U+200E LEFT-TO-RIGHT MARK et U+200F RIGHT-TO-LEFT MARK.  À partir de là, on peut construire des textes « amusants », comme

Le texte ci-dessus utilise le mot الناس pour traduire « les hommes » (êtres humains).

Essayez de sélectionner à la souris le texte ci-dessus, y compris pour une zone enjambant la partie en arabe. Ce genre de situation arrive naturellement en arabe quand un nombre est intégré au texte, puisque les nombres sont écrits « à l’occidentale », c’est-à-dire en chiffres « arabes » et de gauche à droite. Avec les dates, on a donc ce type d’affichage :

التاريخ 14 تموز 1789م

Notez que même avec des chiffres arabes « orientaux », l’écriture des nombres se fait de gauche à droite :

پس از کودتای ۲۸ مرداد سال ۱۳۳۲، محمدرضا شاه به تثبیت قدرت خود پرداخت

Après le coup d’Etat du 28 Août 1332, le Shah consolidé son pouvoir (persan, traduit par Google Translate)

En fait, l’un des problèmes les plus compliqués avec Unicode est de gérer l’affichage, mais aussi la saisie, la sélection, etc. des textes bidirectionnels (BiDi). Pour cela, Unicode définit plus de 20 classes de direction, les deux principales étant L-to-R (gauche à droite) et R-to-L (droite à gauche).

Alphabets et abjads

Simplement pour mémo : comme l’écriture hébraïque, l’écriture arabe est un abjad, c’est-à-dire un alphabet sans voyelles. Les lettres sont uniquement des consonnes. Les sons voyelles peuvent soit se déduire du contexte (en particulier si on connaît le mot), soit être notés à l’aide de signes diacritiques.

L’alphabet latin comporte des consonnes et des voyelles, pourtant ces dernières sont relativement redondantes :

T·s l·s ·tr·s h·m··ns n··ss·nt l·br·s ·t ·g··x ·n d·gn·t· ·t ·n dr··ts.

Pour unicode, cela n’introduit pas de problème particulier, si ce n’est qu’il faudra, comme avec les lettres latines, permettre l’insertion de diacritiques « autour » du caractère principal.

Casse et formes de caractères

Ligature

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :