Qu'est-ce que la Tokenisation ?
La tokenisation est un processus fondamental en traitement du langage naturel (NLP) qui consiste à fragmenter un texte en unités plus petites appelées tokens. Ces tokens peuvent représenter des mots, des caractères ou même des signes de ponctuation, en fonction de l'approche