Vous êtes sur la page 1sur 6

Universit Paris 2 L3 conomie et Gestion Parcours analyse conomique

Analyse des donnes

Introduction l'analyse discriminante

Les chiers sont accessibles l'adresse www.di.ens.fr/ccheval/SAS.


1 Analyse discriminante avec SAS

La procdure proc discrim s'utilise de la faon suivante :


proc discrim [options]; class [variable dpendante]; var [variables indpendantes]; priors prop; /* optionnelle, si les tailles des groupes sont diffrentes */

Citons deux des options possibles :


list, pour obtenir les rsultats du classement de chaque observation ; list, pour obtenir les rsultats du classement de chaque observation mal classe ; short, pour rduire l'ampleur des rsultats ; simple, pour obtenir des statistiques de base des variables de l'chantillon complet et

pour chaque groupe.

Par exemple, on a identi dans une petite municipalit deux groupes de personnes, le groupe 1 de celles qui possdent une piscine et le groupe 2 de celles qui n'en possdent pas. On a relev sur un chantillon de 24 individus leur groupe, leur revenu (en milliers d'euros) et la supercie de leur terrain (en m2 ). Les rsultats sont regroups dans le tableau ci-dessous :
1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 25.0 33.5 26.6 25.5 34.0 41.7 41.0 32.6 28.0 36.0 22.0 32.0 30.0 22.6 26.6 19.4 33.0 21.4 24.8 680 590 750 710 860 620 530 800 770 710 880 770 640 710 510 790 530 530 550

2 2 2 2 2

27.0 20.8 16.0 22.0 26.0

680 570 600 440 480

Les questions auxquelles l'analyse discriminante tente de rpondre sont :


Les variables revenu et terrain permettent-elles de faire une distinction entre les deux

groupes ? Peut-on, connaissant les valeurs de ces deux variables, pour un individu quelconque, prvoir s'il serait un client potentiel pour l'achat d'une piscine ?

Exercice 1 1. Eectuer avec SAS une analyse discriminante sur les donnes ci-dessus. 2. Que remarquez-vous sur les observations 1, 13 et 20 ? 3. Quel est le rsultat nal sur le taux d'erreur ? 4. On peut reprsenter graphiquement les rsultats l'aide des deux lignes
proc plot; plot revenu*terrain=groupe;

Que peut-on en conclure sur les relations entre les direntes variables ?
2 Classement d'observations externes

Pour classer des individus qui ne font pas partie de l'chantillon initial, il sut de les introduire la suite des donnes de l'chantillon en mettant un point   la place du numro du groupe (1 ou 2 ici).

Exercice 2 Modier votre programme pour classer un individu ayant un revenu de 36 500 euros et un terrain de 770 m2 et un autre ayant un revenu de 30 000 euros et un terrain de 550 m2 . Avec quelles probabilits ces classements sont-ils exacts ?
3 Validit de l'analyse discriminante

crosslist en SAS), qui revient retirer une par une les observations de l'chantillon, eectuer une analyse discriminante selon les n 1 restantes et classer la premire en utilisant la fonction

La validit de l'analyse peut se mesurer l'aide de la mthode  jacknife  (c'est l'option

discriminante obtenue. Le taux d'erreur ainsi obtenu est plus raliste : s'il n'est pas beaucoup plus lev que celui obtenu avec la option list, la fonction discriminante est dite valide.

Exercice 3 L'analyse discriminante de l'exemple sur les piscines est-elle valide ?


4 Choix des variables indpendantes

La procdure stepdisc, qui s'utilise comme la procdure disc permet de ne conserver que les variables indpendantes qui permettent de direncier le mieux les groupes. On peut lui prciser en option la mthode utiliser par methode=[mthode], o la mthode peut-tre pas--pas (stepwise), l'introduction progressive (forward) et l'limination progressive (backward). Le seuil pour l'introduction est prcis en option par sle=[seuil] et celui pour le retrait est prcis en option par sls=[seuil]. Introduisons deux nouvelles variables : le nombre d'enfants et l'ge moyen des propritaires :

1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2

25.0 33.5 26.6 25.5 34.0 41.7 41.0 32.6 28.0 36.0 22.0 32.0 30.0 22.6 26.6 19.4 33.0 21.4 24.8 27.0 20.8 16.0 22.0 26.0

680 590 750 710 860 620 530 800 770 710 880 770 640 710 510 790 530 530 550 680 570 600 440 480

0 4 0 3 4 3 4 3 4 4 4 0 1 1 1 1 2 2 0 2 2 0 0 1

37 56 58 44 82 59 51 57 36 35 33 65 36 69 38 32 50 36 35 59 30 22 67 39

Exercice 4 En utilisant la mthode pas--pas et des seuils de 25 %, quelles sont les variables les plus pertinentes pour cet exemple ?
5 Conditions d'application de l'analyse discriminante

Pour utiliser l'analyse discriminante, les conditions suivantes doivent tre respectes :
le nombre de groupes doit tre suprieur ou gal 2 ; le nombre de rpondants dans chaque groupe doit tre suprieur 2 ; le nombre de variables indpendantes doit tre compris entre 1 et n 2, n tant la taille

de l'chantillon ; les variables  indpendantes  doivent tre indpendantes ; les matrices de variance-covariance de chaque groupe doivent tre gales pour pouvoir utiliser une fonction discriminante linaire (par dfaut). Sinon, nous devons utiliser une fonction quadratique (avec method=normal pool=no). Pour tester cette condition, utiliser method=normal pool=test.

Exercice 5 L'utilisation d'une fonction discriminante linaire est-elle valide dans l'exemple prcdent ?

Exercices

Exercice 6 Le responsable du recrutement d'une grande compagnie a un taux d'ecacit de 50 %. Il souhaiterait obtenir un modle an de pouvoir mieux prvoir si un employ va faire l'aaire et pouvoir rester dans l'entreprise. Il pense que cette capacit dpend des facteurs suivants : age (ge), apt (rsultats aux tests d'aptitude), exp (exprience en annes), sco (scolarit en annes), gen (genre, 1 si masculin, 0 si fminin). Les rsultats sur un chantillon sont les suivants (la variable cap vaut 0 si l'employ a d tre renvoy et 1 s'il est rest dans l'entreprise) :
34 48 26 32 34 38 37 23 32 28 24 42 25 27 23 37 43 30 42 21 95 55 91 63 89 90 75 56 71 96 68 83 92 65 64 60 87 78 88 81 9 6 4 7 9 7 4 2 1 1 2 7 1 5 1 4 5 7 9 1 15 15 15 14 10 15 12 13 11 12 10 14 13 12 12 11 15 12 11 13 1 1 0 0 0 1 1 1 0 1 1 1 1 0 1 1 0 0 0 1 1 1 0 1 0 1 1 0 0 0 0 1 1 0 0 1 1 1 0 0

1. Peut-on utiliser une fonction discriminante linaire ? 2. Quelles variables semblent importantes pour la discrimination, en utilisant la mthode d'limination progressive, et un seuil de retrait de 25 % ? Pour les questions suivantes, rpondre d'une part en utilisant toutes les variables, et d'autre part en utilisant seulement les variables retenues la question prcdente. 3. Dans quelle catgorie a t class l'homme de 28 ans, qui a obtenu 96 au test d'aptitude, qui a un an d'exprience, 12 ans de scolarit ? A-t-il t bien class ? 4. Deux candidats se prsentent pour un poste. Le premier est un homme de 22 ans, qui a obtenu 90 au test d'aptitude, qui n'a pas d'exprience et 18 ans de scolarit. Le second est une femme de 24 ans, qui a obtenu 88 au test d'aptitude, qui a 2 ans d'exprience et 18 ans de scolarit. Lequel devriez-vous engager ? 5. Quelle est l'ecacit de l'analyse discriminante ? 6. Parmi les deux modles tudis (avec toutes les variables ou non), lequel semble le meilleur ? 7. Le modle semble-t-il valide ?

Exercice 7 Un parieur essaie de dterminer un modle qui lui permettrait de gagner plus souvent ses paris sur les matchs de hockey de la ligue locale. Il dcide d'utiliser l'analyse discriminante avec les variables suivantes :
PRED : prdiction (1 si l'quipe locale gagne, 2 si elle perd, 3 si le match est nul) RV : rang de l'quipe visiteuse au classement gnral RL : rang de l'quipe locale au classement gnral NPGV : nombre de parties gagnes par l'quipe visiteuse (sur les 10 dernires) NPGL : nombre de parties gagnes par l'quipe locale NPGD : nombre de parties gagnes par l'quipe locale domicile NPGE : nombre de parties gagnes par l'quipe visiteuse l'extrieur

Les rsultats des dernires parties sont les suivants :


2 3 1 1 2 1 2 1 1 3 3 10 26 5 1 1 8 2 11 22 6 3 6 5 13 14 5 5 6 4 2 5 4 5 5 12 8 16 17 4 4 5 8 2 1 15 7 2 6 10 26 12 1 5 5 1 2 7 23 5 1 8 8 10 6 5 6 10 8 1 19 3 3 8 14 5 11 2 4 6 12 4 1 15 13 5 4 7 7 8 21 4 3 5 7 1 23 6 3 5 10 4 3 7 7 4 9 7 1 26 16 2 4 9 1 12 1 3 7 13 7 1 24 14 2 5 9 2 5 10 8 7 8 7 1 20 22 4 4 3 6 6 23 5 3 5 4

1. Doit-on employer une fonction discriminante quadratique ? 2. Quelles variables le parieur devrait-il retenir (mthode pas--pas, seuils de 25 %) ? 3. Quelle est l'ecacit de l'analyse discriminante si le parieur conserve toutes les variables dans son modle ? 4. Quelle est l'ecacit de l'analyse discriminante si le parieur ne conserve que les variables RV, RL, NPGL et NPGE ? 5. Parmi les deux modles proposs, lequel semble tre le plus performant ? 6. Le parieur dcide d'utiliser le modle avec les variables RV, RL, NPGL et NPGE pour prdire les 7 parties suivantes :
visiteur : San Jose, local : Anaheim, 21 25 3 2 3 6 visiteur : Montral, local : New-Jersey, 18 10 4 5 8 2 visiteur : Vancouver, local : Edmonton, 17 19 4 5 9 5 visiteur : NY Rangers, local : Philadelphie, 15 6 2 6 10 7 visiteur : Ottawa, local : Qubec, 26 1 1 7 13 1 visiteur : Saint Louis, local : Dtroit, 5 2 5 8 14 8 visiteur : Chicago, local : Calgary, 4 9 5 4 10 12

Quelles quipes devraient gagner, perdre ou faire match nul ? Indiquer pour chaque partie la probabilit que le choix soit correct. 7. Les rsultats rels de ces parties sont : New-Jersey gagnant, Vancouver gagnant, Qubec gagnant, Philadelphie gagnant, Anaheim gagnant, Calgary gagnant et match nul entre Dtroit et Saint Louis. Combien y a-t-il eu de bonnes prvisions sur 7 parties ? Quelle est maintenant l'ecacit du modle compte tenu de ces rsultats ?

Exemple du cours

Dans une exprience ralise par J-C Amiard, 23 poissons sont rpartis dans trois aquariums soumis dirents niveaux de contamination. On dsire dterminer dans quelle mesure la contamination des poissons est lie l'intensit de la radiocontamination. Le caractre qualitatif prend ici trois modalits : l'appartenance l'un des trois aquariums. On mesure les quinze caractres quantitatifs suivants en moyenne sur les 23 poissons : Caractre Radioactivit (yeux) Radioactivit (branchies) Radioactivit (opercules) Radioactivit (nageoires) Radioactivit (foie) Radioactivit (tube digestif) Radioactivit (cailles) Radioactivit (muscles) Poids Longueur Longueur standard Largeur de la tte Largeur du museau Diamtre des yeux Eectif Population 15,4 105 109,1 164,9 27,2 281,6 297,7 3,3 82,1 190,5 170,7 42,8 13,6 9,7 23 Classe 1 8,2 57 52,3 91,1 15,2 162,6 144 1,7 92,2 197,1 177,8 44,7 13,4 9,7 8 Classe 2 15,5 108,3 79,5 133,1 33,5 341,9 260,8 4,7 75,4 187,5 165,6 41,6 14 9,9 8 Classe 3 23,6 156,3 207,9 285,4 33,7 348,7 515,7 3,4 78,1 186,3 168,4 41,8 13,3 9,6 7

Vous aimerez peut-être aussi