Marque d’ordre de l’octet (BOM)

Qu’est-ce qu’un Byte Order Mark (BOM) ?

Une marque d’ordre d’octet (BOM) est un type spécial de caractère Unicode utilisé pour indiquer l’encodage d’un fichier. Il est généralement invisible lorsque le document est visualisé dans un éditeur de texte, mais peut être vu lorsque le fichier est ouvert dans un éditeur hexagonal. Il est souvent appelé « signature » ou « numéro magique » et est utilisé pour s’assurer que le fichier est lu correctement.

Historique de la nomenclature

La nomenclature a été proposée pour la première fois en 1993 par le comité technique d’Unicode afin de garantir que les documents Unicode puissent être lus correctement, quel que soit l’ordre des octets. Elle a ensuite été adoptée par le World Wide Web Consortium (W3C) et est maintenant largement utilisée dans de nombreuses applications différentes.

Lorsqu’un fichier est codé en Unicode, la nomenclature est placée au début du document pour indiquer l’ordre des octets utilisé. Cela permet au logiciel de déterminer l’ordre correct des octets pour le fichier, et donc la manière correcte de l’interpréter.

Il existe plusieurs types de nomenclatures, chacune d’entre elles étant utilisée pour différents types de fichiers. Les nomenclatures les plus couramment utilisées sont la nomenclature UTF-8 et la nomenclature UTF-16.

Avantages de l’utilisation de la nomenclature

L’utilisation de la nomenclature garantit que les fichiers texte sont correctement interprétés, quel que soit leur ordre d’octet. Ceci est particulièrement important lorsque vous travaillez avec des jeux de caractères à plusieurs octets, car une interprétation incorrecte peut entraîner un texte déformé ou une perte de données.

Inconvénients de l’utilisation de la nomenclature

Le principal inconvénient de l’utilisation de la nomenclature est qu’elle prend de l’espace dans le fichier, ce qui peut entraîner une augmentation de la taille des fichiers. De plus, certains logiciels peuvent ne pas reconnaître la nomenclature et donc ne pas interpréter le fichier correctement.

Lorsque vous créez un nouveau fichier texte en utilisant Unicode, il est important d’inclure la nomenclature au début du document. Cela peut généralement être fait en sélectionnant l’option d’encodage appropriée dans le logiciel que vous utilisez.

La nomenclature est également utilisée dans certains langages de programmation, tels que JavaScript et Python, pour indiquer le codage des chaînes de caractères. Dans ces langages, la nomenclature doit être incluse pour que le code soit interprété correctement.

Conclusion

Le Byte Order Mark (BOM) est un caractère spécial utilisé pour indiquer le codage d’un fichier. Il est utilisé pour s’assurer que les fichiers texte sont correctement interprétés, quel que soit leur ordre d’octet. L’utilisation de la BOM permet d’éviter les textes déformés et la perte de données, mais peut également augmenter la taille du fichier.

FAQ
Que signifie UTF-8 avec BOM ?

UTF-8 avec BOM signifie que le fichier est codé en utilisant le schéma de codage UTF-8 et qu’une marque d’ordre des octets (BOM) est incluse au début du fichier. La BOM est utilisée pour indiquer le caractère endiablé du fichier (s’il utilise l’ordre des octets little-endian ou big-endian).

Comment se débarrasser de la marque de l’ordre des octets ?

Pour vous débarrasser de la marque d’ordre des octets, vous devez la supprimer du fichier. Vous pouvez le faire en utilisant un éditeur de texte ou un éditeur hexagonal.

Comment ajouter une BOM à un fichier UTF-8 ?

Il existe plusieurs façons d’ajouter une BOM à un fichier UTF-8 :

1. utiliser un éditeur de texte qui prend en charge l’ajout d’une nomenclature aux fichiers UTF-8. Par exemple, Notepad++ peut ajouter une nomenclature aux fichiers UTF-8 à partir du menu Encodage.

2. Utilisez un éditeur hexadécimal pour ajouter la nomenclature manuellement. La BOM pour UTF-8 est la séquence d’octets EF BB BF.

3. utilisez un outil tel que le module codecs de Python pour ajouter la nomenclature automatiquement.

Qu’est-ce qu’une nomenclature dans un fichier ?

Une BOM est une marque d’ordre d’octet, et est utilisée pour indiquer l’endiannité d’un fichier. Elle se trouve généralement au début d’un fichier et est utilisée pour s’assurer que le fichier est lu correctement par l’ordinateur.

Comment supprimer la nomenclature d’un fichier texte ?

Il existe plusieurs façons de supprimer la nomenclature d’un fichier texte. La première consiste à utiliser un éditeur de texte qui prend en charge Unicode et à enregistrer le fichier en UTF-8 sans la nomenclature. Une autre façon est d’utiliser un utilitaire comme Notepad++ et de choisir le menu « Encodage », puis de choisir « Convertir en UTF-8 sans BOM ».