Les chaînes de caractères en R

Introduction aux chaînes de caractères en R

Les chaînes de caractères représentent un type de donnée essentiel dans le langage R, permettant de stocker des informations textuelles. On peut créer des chaînes en utilisant des guillemets, qu'ils soient simples (‘) ou doubles (“). Les chaînes peuvent inclure un mélange de lettres, de chiffres et de symboles. Dans les sections suivantes, nous verrons comment créer et manipuler ces chaînes.

Création de chaînes de caractères

La création d'une chaîne de caractères dans R est très simple ; il suffit d'entourer le texte désiré avec des guillemets. Voici quelques exemples :

# Citations simples
ma_chaine_1 <- 'Bonjour, le monde!'
# Citations doubles
ma_chaine_2 <- "Ceci est une chaîne."

Concaténation de chaînes

Pour assembler plusieurs chaînes, nous utilisons la fonction paste(), qui combine les chaînes en ajoutant un espace par défaut.

# Concatenation de deux chaînes
chaine_1 <- "Bonjour"
chaine_2 <- "le monde"
ma_chaine <- paste(chaine_1, chaine_2)
# Résultat : "Bonjour le monde"

Pour concaténer sans séparateur, la fonction paste0() est idéale :

# Concatenation sans séparateur
ma_chaine <- paste0(chaine_1, chaine_2)
# Résultat : "Bonjourlemonde"

Extraction de sous-chaînes

On peut extraire une partie précise d'une chaîne à l'aide de crochets [] pour indiquer les indices de début et de fin :

ma_chaine <- "Bonjour, le monde!"
sous_chaine <- ma_chaine[1:7]
# Résultat : "Bonjour"

La fonction substr() permet également d'extraire une sous-chaîne, simplifiant ainsi cette opération :

# Extraction avec substr
sous_chaine <- substr(ma_chaine, start = 1, stop = 7)
# Résultat : "Bonjour"

Modification de chaînes de caractères

R propose diverses fonctions pour altérer des chaînes. Par exemple, pour transformer une chaîne en majuscules ou en minuscules, on utilise respectivement les fonctions toupper() et tolower() :

ma_chaine <- "Bonjour, le monde!"
chaine_majuscule <- toupper(ma_chaine)
# Résultat : "BONJOUR, LE MONDE!"
chaine_minuscule <- tolower(ma_chaine)
# Résultat : "bonjour, le monde!"

On peut aussi supprimer les espaces en début et en fin d'une chaîne avec la fonction trimws() :

ma_chaine <- "   Bonjour, le monde!   "
chaine_epuree <- trimws(ma_chaine)
# Résultat : "Bonjour, le monde!"

Calcul de la longueur d'une chaîne

Pour mesurer combien de caractères contient une chaîne, la fonction nchar() est utilisée :

# Définir une variable chaîne
ma_chaine <- "Bonjour, le monde!"
# Calculer la longueur de la chaîne
longueur_chaine <- nchar(ma_chaine)
# Résultat : 16