Skip to content
24 septembre 2013 / gallegre

À la recherche de l’apostrophe perdue

Les grands problèmes du monde – épisode 1.

Vous connaissez probablement Unicode, ce standard qui vise à répertorier, décrire et accessoirement représenter tous les systèmes d’écriture du monde, et quelques autres. Unicode a l’immense avantage d’offrir un inventaire très complet, et une description normalisée de tous les caractères courants. Par exemple, notre bon vieil A latin, c’est : U+0041 LATIN CAPITAL LETTER A.

Le ton est donné : ça ne rigole pas. C’est écrit tout en capitales (et pas en majuscules), la preuve que c’est sérieux. Les caractères sont donc regroupés en charts, des séries de référence, classés par langues et systèmes d’écriture. Les charts sont documentés et à peu près aussi sexy à lire que les standards ISO, mais au moins c’est complet.

Du moins c’est ce que j’ai cru un certain temps, jusqu’à ce que je m’aperçoive que notre apostrophe française standard (dite apostrophe d’élision) manquait à l’appel dans le standard, jusqu’à ce jour.

Dans le standard Unicode, tout ce qu’on trouve à se mettre sous la dent en termes d’apostrophes, c’est ça :

  • U+0027 APOSTROPHE
  • ʼ U+02BC MODIFIER LETTER APOSTROPHE
  • ՚ U+055A ARMENIAN APOSTROPHE
  • ߴ U+07F4 NKO HIGH TONE APOSTROPHE
  • U+FF07 FULLWIDTH APOSTROPHE
  • et un outsider : U+2019 RIGHT SINGLE QUOTATION MARK

U+0027, c’est l’apostrophe informatique ASCII habituelle, droite donc graphiquement non conforme, qui date du temps (1963) où il fallait économiser les codes ASCII (pensez, seulement 127 places contre plus de cent mille codepoints Unicode). Elle est vénérable et mérite notre considération pour les service rendus depuis 50 ans, mais ce n’est pas une bonne candidate pour une vraie apostrophe à la française.

U+02BC ne convient pas non plus car c’est un signe modificateur, qui se rapporte en théorie à la lettre précédente. Elle sert par exemple en breton, où l’apostrophe est une lettre (ie un caractère interne à un mot, et non séparant deux mots), comme dans Ploumanacʼh.

U+055A et U+07F4 sont hors jeu d’entrée puisque réservées par définition à d’autres langues que le français.

U+FF07 c’est une perversité d’informaticien, qui a jugé que la U+0027 était seulement moche, mais pas tellement visible. U+FF07 est donc sa grande sœur, à la fois moche et bien visible. Un plaisir d’esthète.

Et enfin, on tombe sur U+2019, le guillemet simple fermant anglais, qu’on trouve recommandé comme « apostrophe typographique » sur de nombreux forums de typo, ce qui constitue -à mon avis- une hérésie absolue. Certes, le glyphe est élégant, et graphiquement il peut faire illusion, mais ce n’est pas une apostrophe. C’est un guillemet fermant, qu’on utilise couramment en anglais ʻto be or not to beʼ , avec à peu près la même valeur que les guillemets doubles “isn’t it?”.

En particulier, ce signe est apparié à son symétrique (U+2018 LEFT SINGLE QUOTATION MARK), et l’utiliser comme apostrophe casse cette parité. Si on veut par exemple vérifier automatiquement qu’un texte est -dans une certaine mesure- bien ponctué, on vérifie qu’on trouve autant d’ouvrants que de fermants, mais cela n’est plus possible si on utilise U+2019 comme apostrophe.

Donc, même si je répugne à l’écrire car je suis assez porté sur Unicode, on a là affaire à un gros fail du standard. Il manque un codepoint réservé l’apostrophe française, qui serait à la fois un séparateur, un élément de ponctuation et un caractère interne à un mot (puisque j’ -par exemple- est un mot, mais pas j tout seul).

Au lieu de ça, on a pléthore de tirets et traits d’union, et des petits singes 🐵 🙉 🙊 🙈.

La prochaine fois, je vous parlerai des petits singes.

Le coin du linuxien

Sous GNU/Linux, vous avez une commande magique pour jouer avec les caractères unicode en ligne de commande : unicode (paquets unicode et unicode-data sous Debian), et sa petite sœur paracode. Elle vous permet d’identifier un caractère unicode rencontré, ou inversement de rechercher un caractère à partir de son codepoint ou sa description.

Pour les fontes « exotiques », je trouve généralement mon affaire dans les paquets unifont et ttf-unifont (Debian toujours).

Pour les autres distributions, ça ne devrait pas différer beaucoup. Pour les autres unixes, je ne sais pas, désolé.

Post-scriptum

Je suis très loin d’être un expert en Unicode, et j’ai appris plein de choses rien que pour rédiger ce billet, et il m’en reste encore bien plus à apprendre. Les spécialistes et les puristes me pardonneront les simplifications (sinon, ils connaissent le chemin de la sortie), mais en cas d’erreur grossière, râlez dans les commentaires, et je corrigerai. Si d’aventure j’ai tort, bien sûr.

Pour information, j’utilise dans tout le code de l’article des apostrophes U+0027 basiques, mais WordPress, perversité suprême, les transforme automatiquement en U+2019 à l’affichage, indépendamment de ma volonté. Personnellement, je refuse d’utiliser un succédané tant qu’on n’aura pas une vraie apostrophe d’élision, mais la technique censure mon acte militant !

Évidemment, la lecture de cet article nécessite d’avoir des fontes Unicode installées, sinon, vous aurez droit à des petits carrés – avec un code hexadécimal dedans si vous êtes chanceux.

Publicités

6 commentaires

Laisser un commentaire
  1. Lomalarch / Sep 25 2013 07:38

    Autant je comprends ton souci pour les glyphes ouvrant et fermants, (tu n’es pas mathématicien pour rien 😛 ), autant le simple fait qu’ils appellent « apostrophe » le machin qui, précisément a été inventé pour servir d’apostrophe ET de guillemet simple anglais (ouvrant et fermant) rend toute la norme suspecte ! Qui sont ces gens ?

    Moi, je reste à ma bonne vieille U+2019 pour les apostrophes parce que c’est JOLI (rep a sa !) et, par surcroit, j’écris en français, alors le guillemet simple fermant anglais ne risque pas de me servir de guillement… De toute façon, dans la mesure où le glyphe est identique dans les casses de typo, je ne suis pas convaincu de la nécessité de le dupliquer.

    Et toc et paf, mes deux centimes, toussa 😀

    • gallegre / Sep 25 2013 08:28

      Zut, un chipoteur ! 😉

      Dans ton 1er paragraphe, si tu parles bien de U+0027, ouais, c’est sans doute aussi un fail de nommage.
      C’est probablement dû à la reprise verbatim de la norme ASCII, qui en 1963 avait plutôt pour préoccupation d’économiser de la place dans la table, et qui pour des bonnes raisons (compatibilité ascendante) constitue les 127 premiers codepoints unicode.
      Mais je n’aurais pas aimé être à leur place pour lui trouver un nom. Peut-être simplement “ASCII apostrophe” aurait été acceptable ?

      Quant à U+2019, je peux comprendre son usage dans les travaux purement graphiques (genre affiche), mais pour ceux qui sont destinés à un usage numérique (notamment publication web), je ne peux pas m’y résoudre. Le texte peut servir à autre chose que la lecture par un humain, par exemple en TAL, indexation, etc. A-t-on pensé à tous ces pauvres algorithmes de recherche des citations qui butent sur un appariement faussé de guillemets simples ? Tous ces robots d’indexation qui èrent dans le texte à la recherche du guillemet ouvrant qui n’a jamais vu le jour ? Ah ! encore de l’anthropo-centrisme.

      De toute façon, dans la mesure où le glyphe est identique dans les casses de typo, je ne suis pas convaincu de la nécessité de le dupliquer.

      C’est la logique d’Unicode de distinguer les caractères sur leur usage logique et pas sur leur forme, par exemple A (U+0041 LATIN), Α (U+0391 GREEK) et А (U+0410 CYRILLIC) sont distingués, alors qu’ils ont la même forme. Donc Unicode n’est pas cohérent sur ce coup-là. Je veux dire : OK, ça ne gêne pas les typographes, mais la typographie n’est pas le seul usage d’Unicode. Na aussi.

      • Lomalarch / Sep 25 2013 10:27

        Au demeurant, l’apostrophe d’élision existe aussi en angliche. Tout ça prouve que les concepteurs de la norme Unicode sont des feignasses épicétou.

        Après, tu m’excuseras, je n’arrive pas à me décider à plaindre les pauv’ parsers 😀

        Au demeurant, il n’est pas difficile, je pense de différencier les guillemets fermants, nécessairement suivis d’une espace des guillemets d’élision attrapés entre deux lettres, non ?

        Sinon, il faut pétitionner 😀

  2. Sacrip'Anne / Sep 25 2013 08:21

    Que personne ne bouge, mes panneaux « libérez l’apostrophe d’élision » et « Unicode, stop à la discrimination apostrophale » sont en train de sécher !

Trackbacks

  1. OpenStreetMap vs Wikipedia – 1/3 – les convergences | GallAxie
  2. OpenStreetMap vs Wikipedia – 2/3 – Différences et divergences | GallAxie

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :