Comment bien préparer ses données pour les stats!
Section issue du cours ” Data pour ton mémoire” de Nicolas Vannson, PhD
Avant de réaliser une analyse statistique, il est indispensable d’effectuer un data preprocessing.
Cette étape permet d’obtenir des données propres, cohérentes et fiables, afin d’éviter des erreurs dans les résultats et les interprétations.
Mais comment fait-on du data preprocessing ?
Le data preprocessing correspond à l’ensemble des opérations de collecte, de nettoyage et de préparation des données avant toute analyse (statistique ou non). Il s’agit d’une étape préliminaire essentielle, car elle garantit la qualité des données et la validité des conclusions que vous en tirerez.
Tu auras ci-dessous un aperçu simple des bonnes pratiques à suivre, depuis le recueil des données jusqu’à leur préparation avant de poursuivre dans de bonnes conditions l’analyse statistique (tu trouveras de l’aide dédiée dans l’onglet dédié aux statistiques ).
Si besoin, contacte-nous.
Bonne collecte !
Bon mémoire.
La transparence des datas est très importante
Un bon mémoire c’est comme une bonne expérience, il doit être reproductible et vérifiable.
C’est pour cela que tes datas doivent être accessibles en annexes et ta section Matériels & Méthodes bien rédigées afin de pouvoir retrouver les mêmes résultats que les tiens.
C’est quoi une donnée ?
Une donnée (d’après Le Robert) est un nom féminin qui signifie :
1 – Ce qui est donné, connu, déterminé dans l’énoncé d’un problème.
Par exemple : Les données du problème
2 – Élément qui sert de base à un raisonnement, de point de départ pour une recherche
Par exemple : Données statistiques
Pour ton mémoire : « analyse de data » ou « analyse de données » sont identiques
Types de données ?
Figure 1. Type de données. 2 grandes familles existes : qualitatives et quantitatives.
Afin de bien trier tes données et de choisir, in fine, les bonnes analyses à faire, il est donc important de bien comprendre le type de données.
Tu as 2 grandes familles (Fig. 1) : les données qualitatives et les données quantitatives.
Les données qualitatives se subdivisent en 2 groupes : nominales et ordinales, tandis que les quantitatives se divisent en deux groupes : continues et discrètes.
Dès que tu as ces notions en tête, il te suffira ensuite l’appliquer dans ton fichier excel ( que tu placeras en annexes de ton mémoire par transparence) et ainsi bien vérifier le type de données dans tes tests stats sous JASP.
étape 1 : Comment collecter un donnée ?
Collecter des données n’est pas savoir. La véritable connaissance est un processus de réflexion, un savoir faire, et non une accumulation de données, à rebours de l’idée reçue que la connaissance se trouverait toute faite dans quelque chose : un livre, un ordinateur, une encyclopédie en ligne.
La longue montée de l’ignorance de Dimitri Casali
Une donnée peut se collecter de plusieurs façon :
-
- Manuellement : questionnaire/interview/ annotation sur un cahier de labo/d’expérience
- Informatiquement : questionnaire (forms)/ logiciel (audiométrie par exemple)/ site web/ etc
Pour ton mémoire, il est indispensable de bien les enregistrer dans un fichier excel ou Google Sheet (par exemple) sous format brut afin de reproduire l’expérience.
Pour rappel, ta collecte (ou recueil de données) est à placer en Annexes obligatoirement.
RGPD : anonymiser vos données !
Personne à part vous ne doit connaître l’identité des patients/sujets qui ont participé à votre expérience afin de ne pas faire de recoupements d’informations. . Il faut donc pour cela anonymiser vos données!
Voici un exemple:
Votre sujet Paul Martin devient PAUMAR ou bien tout simplement S1.
Exemple(s) de data en annexes
Lemaire, J. Cahors, 2020
Baldy, M, Cahors, 2025
étape 2 : Comment bien nettoyer ses données ?
Lors de son expérience, on a plus souvent la tête dans l’expérience et parfois l’annotation est un peu rapide.
C’est pour cela qu’il faut absolument prendre un temps avant l’analyse afin de vérifier si les données sont propres.
Ci dessous tu verras des erreurs bêtes à éviter.
Figure 2. Erreurs à éviter. Lors du remplissage des datas, il faut bien normaliser ses données.
Imagine ton fichier Excel suite à la collecte des datas en fin d’expérience (Fig. 2). Il est inutilisable comme tel et doit être nettoyer et préparer pour la suite de tes analyses.
Par exemple, tu as gardé les noms et prénoms de tes sujets, ton PTA est correct mais pas tes SRT (pour l’exemple SRT est un score de compréhension de la parole dans le bruit) et tes données du questionnaire SSQ ne sont pas bien remplies. Ce questionnaire contient un score total et 3 domaines, donc tu représentes quoi ici ?
Voici donc plusieurs étapes indispensables afin d’avoir un fichier propre et exploitable :
-
- Étape 1 : anonymiser tes sujets
- Étape 2 : avoir un titre correct pour chaque colonne
- Étape 3 : en fonction du type de données (voir plus haut), laisser soit un mot ou nombre mais pas mélanger les deux dans ta colonne. Exemple pour la colonne sujet, tu auras S1 (données qualitatives nominales) alors que pour les autres colonnes tu auras plutôt de la donnée quantitative continue.
Attention, pour le SRT de ton sujet S2, tu n’as pas de donnée. Le mieux est de laisser la case vide si tu n’as pas l’info plutôt que créer une valeur.
étape 3 : Comment bien préparer ses données ?
Une fois que ton fichier est propre (bien rempli), il va se falloir se pencher sur deux choses importantes :
-
- vérifier la validité de ses données
- faire une figure avant de se poser une question et donc de faire intervenir les stats.
Afin d’illustrer la logique de cette étape, nous utiliserons un jeu de données simulées. Je t’invite à reproduire l’exemple de ton côté !
Le jeu de données à télécharger /utiliser :
| 12 | 3 | 2 | 2 | 10 | 1 | 10 | 4 | 9 | 1 | -2 | 11 | -2 | 2 |
étape 1 : Observer ses données pour vérifier leur validité
La première chose à faire est de bien visualiser tes datas (Fig. 3 – haut) par colonne (par exemple celle du SRT de la Fig. 2) afin de voir si tu as des données aberrantes (outlier en anglais), des erreurs d’enregistrement ou bien de simples erreurs de manipulation. Toutes ses erreurs arrivent, il faut simplement être honnête et vigilant.
Figure 3. Jeu de données brutes.
Haut : simple affichage afin de vérifier les données. Bas : deux données sont négatives. Est-ce une erreur ou un score normal ?
Une fois les données visualisées par sujets (Fig 3. – haut), tu peux te poser la question des deux sujets qui présentent un score négatif (Fig. 3 – bas).
Est-ce une erreur, des outliers ?
Cela va dépendre de ton expérience et de tes paramètres. Par exemple, si tu mesures un score à un test de maths allant de 0 à 20, alors -2 pour les sujets 11 et 13 sont clairement des valeurs aberrantes (ou outlier) et tu pourras exclure tes sujets de l’analyse. Mais si c’est un test de compréhension de la parole dans le bruit, tes 2 sujets sont peut-être très voir trop bons et il faudra creuser lors de la l’analyse ou bien expliquer ses données dans la discussion MAIS surtout ne pas les supprimer (biais de sélection) pour t’aider dans ton histoire.
étape 2 : Faire une figure pour bien formuler la question
Tes données sont maintenant propres, sans outliers et exploitables.
Maintenant, imaginons que ta question évalue la différence hommes (en vert sur la Fig. 4) versus femmes (en rouge sur la Fig. 4) à un test quelconque. Disons que les scores peuvent aller de – 20 à + 20, sachant que plus le score est positif meilleur est le score.
Vaut-il mieux pour les stats visualiser tes datas sous forme individuelle (Fig 4. – haut) ou bien groupée (Fig 4. – bas) ?
Figure 4. Jeu de données brutes avec information sur le genre.
Haut : simple affichage par sujet en fonction du genre. Bas : affichage par genre.
Clairement groupée avec un boxplot (boîte à moustaches) afin de mieux visualiser l’ensemble des données !
La question statistique sera dès lors : existe-t’il une différence significative entre les hommes et les femmes à ce test ?
Synthèse du data preprocessing !
Nous venons de voir que le data preprocessing est une étape essentielle afin d’être dans les meilleurs conditions pour réaliser tes stats.
Le data preprocessing consiste donc :
- La mise en place d’une bonne collecte de donnée
- Le nettoyage des données
- La préparation des données pour les statistiques
- Mise en annexes de tes données pour reproduire ton mémoire et être transparent scientifiquement
Bonne analyse et bon mémoire!