Aperçu d'Unicode

Vous trouverez ici des détails sur la gestion des informations dans Unicode.

Points de code

L'unité d’information de base dans Unicode est le point de code. Un point de code est simplement un nombre compris entre zéro et 10FFFF16 qui représente une entité unique. Les points de code sont généralement représentés sous forme de nombres hexadécimaux, c'est-à-dire en base 16. Une entité peut être l'un des éléments suivants :

Saisie de caractères Unicode

Maintenant que nous savons que le texte est constitué d'une séquence de points de code Unicode, regardons comment saisir ces caractères dans EMu.

Graphèmes

Il est important de comprendre que ce que nous considérons comme un caractère, c'est-à-dire une unité d'écriture de base, peut ne pas être représenté par un seul point de code Unicode. Au contraire, cette unité de base peut être constituée de plusieurs points de code Unicode.

Termes d'index

Un terme d'index est l'unité de base pour la recherche. Il s'agit d'une séquence d'un ou plusieurs graphèmes qui peut être trouvée lors d'une recherche mais pour laquelle la recherche de sous-parties n'est pas prise en charge (sauf si des expressions régulières sont utilisées). EMu fournit une recherche par mots : un terme d'index correspond donc à un mot. Vous pouvez rechercher un mot, et les enregistrements contenant ce mot seront renvoyés. Dans les langues qui définissent un mot comme une séquence de lettres séparées par des espaces ou une ponctuation, un terme d'index correspond à un mot. Dans les langues où une seule (ou parfois plusieurs) lettre(s) composent un mot, comme les kanji, un terme d'index correspond à chaque lettre individuelle. EMu 5.0 a ajouté la prise en charge de la recherche de ponctuation. Ainsi, chaque caractère de ponctuation est considéré comme un terme d'index.

Phrase automatique

Les graphèmes Unicode sont répartis en trois catégories pour être utilisés dans EMu.

Collation

La collation est le terme général pour le processus de détermination de l'ordre du tri des chaînes de caractères. EMu 5.0 et suivants utilisent la Default Unicode Collation Element Table (DUCET), telle que définie dans le standard Unicode 8.0, pour déterminer comment le texte doit être trié. DUCET fournit un mécanisme de locales indépendant pour trier les valeurs.

Si vous êtes intéressé par l'ordre utilisé par DUCET, consultez le tableau de collation Unicode.