L'encodage One Hot en français

Qu'est-ce que l'encodage One Hot ?

L'encodage one hot est une technique permettant de convertir des variables catégorielles en vecteurs binaires, facilitant ainsi leur utilisation par les algorithmes d'apprentissage automatique. Les algorithmes préférent travailler avec des chiffres comme 0 et 1, au lieu des valeurs catégorielles comme "Texas" ou "bicyclette". Cependant, les données que ces algorithmes doivent analyser contiennent souvent des valeurs sous forme catégorielle. Grâce à l'encodage one hot, ces valeurs peuvent être transformées en représentations numériques compréhensibles par les algorithmes.

Comment fonctionne l'encodage ?

Le fonctionnement de l'encodage one hot se déroule en plusieurs étapes :

  1. Attribution d'entiers : Chaque valeur unique dans les données à encoder se voit attribuer un identifiant entier distinct.
  2. Création de vecteurs binaires : Chacune de ces valeurs est représentée par un vecteur binaire, où chaque position correspond à un entier particulier.
  3. Remplissage des vecteurs : Chaque vecteur aura une valeur de 1 à la position correspondant à son entier, et 0 ailleurs.
  4. Remplacement des valeurs initiales : Les valeurs catégorielles originales des données sont alors remplacées par les vecteurs correspondants.

Selon l'implémentation, les valeurs encodées peuvent être intégrées en tant que types de vecteurs réels ou ajoutées comme colonnes supplémentaires dans le jeu de données.

Exemple Concret

Voici un exemple pour illustrer le processus d'encodage one hot :

Données d'origine :

| Catégorie | Valeur | |-----------|--------| | A | 24 | | A | 90 | | A | 75 | | A | 36 | | B | 45 | | B | 28 | | B | 62 | | C | 65 | | C | 97 |

Attribution d'entiers aux catégories :

| Catégorie | Valeur Entière | |-----------|-----------------| | A | 0 | | B | 1 | | C | 2 |

Assignation des vecteurs aux valeurs :

| Catégorie | Valeur Entière | Vecteur | |-----------|-----------------|------------| | A | 0 | [1,0,0] | | B | 1 | [0,1,0] | | C | 2 | [0,0,1] |

Application des vecteurs comme colonnes au jeu de données d'origine :

| Catégorie | Valeur | A | B | C | |-----------|--------|---|---|---| | A | 24 | 1 | 0 | 0 | | A | 90 | 1 | 0 | 0 | | A | 75 | 1 | 0 | 0 | | A | 36 | 1 | 0 | 0 | | B | 45 | 0 | 1 | 0 | | B | 28 | 0 | 1 | 0 | | B | 62 | 0 | 1 | 0 | | C | 65 | 0 | 0 | 1 | | C | 97 | 0 | 0 | 1 |