Cette page fait partie du cours de polytech PeiP1 et 2 Bio
On dispose d'un jeu de données concernant des étudiants de l'université de Malibu (jeu fictif) et notamment les notes qu'ils ont obtenues en fin de licence dans différentes matières (maths, physique, chimie, informatique et français) et on désire savoir, globalement et en fonction du sexe, si on peut prédire la moyenne qu'ils auront en master et le fait qu'ils poursuivront en doctorat.
Les données sont accessibles ici.
Le fichier contient les colonnes suivantes :
L'analyse consiste à essayer de déduire des relations pour garçon et filles, garçons seuls ou filles seules.
Pour chacune de ces cohortes on demande donc s'il est possible de prédire :
Il faut donc dans un premier temps isoler les données et les analyser (dessiner, trouver les corrélations éventuelles), puis mettre en oeuvre les outils qui vont permettre de répondre aux questions posées.
Eliminer les colonnes qui ne seront pas prises en compte pour l'analyse, comme par exemple une colonne qui comprend un numéro de ligne, ou un numéro d'étudiant ou une date de naissance.
Le prétraitement consiste à :
Il peut être intéressant d'afficher la matrice de corrélation des données et ce afin de vérifier si deux colonnes sont corrélées de manière forte.
Par exemple si on essaye de prédire l'obésité en fonction d'autres facteurs et que l'on dispose de l'IMC (Indice de Masse Corporelle), alors on risque de fausser l'analyse car IMC et obésité sont liés. Il faudra donc supprimer l'IMC de la matric $X$ des données caractéristiques.
Si la corrélation est positive entre $x$ et $y$ cela implique que si $x$ augmente alors $y$ augmente également. Par contre si la corrélation est négative si $x$ augmente alors $y$ diminue.