Les bases

Rappel des bases

R est un langage de programmation fait pour l’analyse de données et les statistiques

Un objet permet de stocker des valeurs. On créé un objet en lui donnant un nom, et on lui assigne une valeur avec la flèche d’assignation <-

Chaque valeur appartient à une (ou plusieurs) classes, qui définissent sa nature

On regroupe plusieurs valeurs dans des vecteurs. Un vecteur ne contient que des valeurs de même classe

Les dataframes sont une classe d’objets correspondant à des tableaux (format Excel par exemple). Chaque colonne est un vecteur

Les fonctions permettent d’interagir avec les objets, afin de les modifier. On écrit toujours une fonction avec des parenthèses à la fin, en indiquant au milieu l’objet sur lequel on l’applique et si besoin les arguments (options) à activer. Certaines fonctions sont vectorisées et renvoient un vecteur de même longueur modifié, d’autres sont des fonctions d’aggrégation et renvoient une seule valeur pour tout un vecteur (somme, nombre de valeurs, etc)

{dplyr} est un package, une extension, qui permet d’appliquer des fonctions en chaîne en utilisant l’opérateur %>% (pipe), avec une logique de chaîne d’assemblage sur une usine. Par exemple : on souhaite filtrer le jeu de données iris, puis sélectionner deux colonnes.

Les fonctions en R ont généralement un nom simple, en anglais, qui correspond à ce qu’elles font : mean(), min(), max(), median(), sqrt(), sont des fonctions permettant de calculer respectivement la moyenne, le minimum, le maximum, la médiane et la racine carrée d’un vecteur numérique.

filter() permet de filtrer les lignes d’un tableau, et select() permet de sélectionner les colonnes.