Ce site est en cours de reconstruction certains liens peuvent ne pas fonctionner ou certaines images peuvent ne pas s'afficher.

Cette page fait partie du cours de polytech PeiP1 et 2 Bio

12. Analyse de données

12.1. Données

On dispose d'un jeu de données concernant des étudiants de l'université de Malibu (jeu fictif) et notamment les notes qu'ils ont obtenues en fin de licence dans différentes matières (maths, physique, chimie, informatique et français) et on désire savoir, globalement et en fonction du sexe, si on peut prédire la moyenne qu'ils auront en master et le fait qu'ils poursuivront en doctorat.

Les données sont accessibles ici.

Le fichier contient les colonnes suivantes :

n° de ligne (sans libellé) variant de 0 à 496, soit 497 étudiants
sex : 1 pour un garçon, 0 pour une fille
dob (Date of Birth) : date de naissance
math : moyenne de mathématiques en licence
phys : moyenne de physique en licence
chim : moyenne de chimie en licence
info : moyenne d'informatique en licence
fran : moyenne de français en licence
master : moyenne générale en master
doctorate : 1 poursuite en doctorat, 0 pas de poursuite d'étude

12.2. Analyse

L'analyse consiste à essayer de déduire des relations pour garçon et filles, garçons seuls ou filles seules.

Pour chacune de ces cohortes on demande donc s'il est possible de prédire :

la moyenne que les étudiants auront en master (et éventuellement à partir de quels critères)
s'ils poursuivront en doctorat (éventuellement à partir de quels critères)

Il faut donc dans un premier temps isoler les données et les analyser (dessiner, trouver les corrélations éventuelles), puis mettre en oeuvre les outils qui vont permettre de répondre aux questions posées.

12.2.1. Elimination des données inutiles

Eliminer les colonnes qui ne seront pas prises en compte pour l'analyse, comme par exemple une colonne qui comprend un numéro de ligne, ou un numéro d'étudiant ou une date de naissance.

12.2.2. Prétraitement

Le prétraitement consiste à :

remplacer les données textutelles en données numériques : par exemple transformer
- 'oui', 'infecté', 'positif', etc en 1
- 'non', 'sain', 'negatif', etc en 0
transformer les données anormales ou manquantes en données valides : une pression artérielle, une taille ou un poids à 0 est faux, on utilise alors la moyenne des valeurs (cf. TP Réseaux de Neurones)

12.2.3. Données corrélées

Il peut être intéressant d'afficher la matrice de corrélation des données et ce afin de vérifier si deux colonnes sont corrélées de manière forte.

Par exemple si on essaye de prédire l'obésité en fonction d'autres facteurs et que l'on dispose de l'IMC (Indice de Masse Corporelle), alors on risque de fausser l'analyse car IMC et obésité sont liés. Il faudra donc supprimer l'IMC de la matric $X$ des données caractéristiques.

Si la corrélation est positive entre $x$ et $y$ cela implique que si $x$ augmente alors $y$ augmente également. Par contre si la corrélation est négative si $x$ augmente alors $y$ diminue.