La prise en charge d'EMu pour Unicode

EMu a intégré la prise en charge complète de la version standard d’Unicode 8.0 avec la version 5.0. Alors que les versions antérieures d'EMu permettaient de stocker et d'extraire les caractères Unicode, le système n’arrivait pas à interpréter les caractères saisis, ce qui entraînait une fonctionnalité de recherche limitée. Pour récupérer un caractère Unicode, il était nécessaire de saisir le terme recherché exactement dans la même casse (majuscule ou minuscule) et avec les mêmes signes diacritiques. Par exemple, la recherche de Frederic ne correspondait pas à Fréderic car le caractère é n’était pas interprété comme un caractère e avec un diacritique associé.

Maintenant, EMu comprend la casse unique et le mappage des caractères de base :

  • La casse unique est similaire à la conversion d'un caractère en son équivalent en minuscule, sauf qu'il gère certains cas particuliers. L'objectif est de rendre ici la recherche insensible à la casse. Un cas particulier est le caractère minuscule allemand s aigu (ß), généralement écrit en majuscule sous la forme SS. Ainsi, Großen serait converti en GROSSEN en majuscules. Lors d'une recherche, nous aimerions saisir l'un ou l'autre des termes précédents et trouver toutes les variations de casse. Pour ce faire, le caractère ß doit être transformé en ss pour faciliter la recherche.
  • La version de base d'un caractère est sa représentation la plus élémentaire après suppression de tous les diacritiques et points. Par exemple, le caractère de base de é est e.

La combinaison de la casse unique et des caractères de base fournit les mécanismes élémentaires nécessaires pour offrir une recherche flexible sur toute la gamme des caractères Unicode.

Toutes les données stockées dans EMu sont encodées au format UTF-8. UTF-8 est une manière compacte de représenter les caractères Unicode, en particulier les caractères ASCII. Le World Wide Web a adopté UTF-8 comme format d’encodage des caractères à utiliser dans les documents Web. EMu impose désormais l'utilisation de UTF-8 en n'autorisant aucune séquence d'octets invalide à être stockée dans le système. Ce changement a des répercussions sur les importations de données, car toutes les données importées doivent être encodées en UTF-8. Dans les versions antérieures d'EMu, les systèmes peuvent avoir été configurés pour autoriser ISO-8859-1 (latin1) comme format de saisie standard. L’encodage ISO-8859-1 n'est plus pris en charge.

Tip: L'outil d'importation est capable de convertir ANSI en UTF-8.

Avec la prise en charge d’Unicode, la recherche dans EMu a été étendue pour inclure les signes de ponctuation. Cela améliore considérablement la recherche dans EMu, ce qui permet, par exemple, de rechercher des signes de ponctuation soit en tant que caractères individuels (?), soit en tant que partie d'une chaîne plus complexe (fred@global.com).

Icône du lien vers les rubriques connexesRubriques connexes