Vous êtes sur la page 1sur 29

Statistiques Descriptives

Serge Iovle 5 avril 2007

Table des mati`res e


1 Introduction 1.1 Quest ce que les statistiques ? . . . . . . . . 1.2 Recueil des donnes statistiques . . . . . . . e 1.2.1 Le recensement . . . . . . . . . . . . 1.2.2 Le plan dexprience . . . . . . . . . e 1.2.3 Lexploitation des bases de donnes e 1.3 Dnitions . . . . . . . . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 2 3 3 4 5 5 5 6 7 7 9 12 13 13 14 15 15 16 17 19 22 24 24 25 28 28 29

2 Statistiques descriptives univaris e 2.1 Etude statistique dune variable qualitative . . . . . . . 2.1.1 Distributions deectifs et de frquences . . . . . e 2.1.2 Reprsentations de la distribution . . . . . . . . e 2.2 Etude statistique dune variable quantitative . . . . . . 2.2.1 Reprsentation de la distribution . . . . . . . . . e 2.2.2 Rsums statistiques de position : La moyenne et e e 2.2.3 Rsums statistiques de dispersion . . . . . . . . e e

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . la mdiane e . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

3 Statistiques descriptives bivaris e 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Etude statistique de deux variables qualitatives . . . . . . . . . . . . . . . 3.2.1 Distributions marginales et conditionnelles . . . . . . . . . . . . . 3.2.2 Indpendances de deux variables . . . . . . . . . . . . . . . . . . . e 3.3 Etude statistique dune variable qualitative et dune variable quantitative 3.4 Etude statistique de deux variables quantitatives . . . . . . . . . . . . . . 4 La rgression linaire e e A Liste des variables pour les clientes dune socit de VPC e e

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

B Programmes R B.1 Traitements univaris : Etude dune variable qualitative . . . . . . . . . . . . . . . . . . . . . e B.2 Traitements univaris : Etude dune variable quantitative . . . . . . . . . . . . . . . . . . . . e C Traitements bivaris e C.1 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.2 Rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e

1
1.1

Introduction
Quest ce que les statistiques ?

Denition 1. On appelle Statistique Descriptive lensemble des mthodes et techniques mathmatiques e e permettant de prsenter, dcrire et rsumer un ensemble de donnes. e e e e Les mthodes utilises en Statistique descriptive sont tr`s vite limites. e e e e Denition 2. La Statistique Infrentielle est lensemble des techniques visant ` modliser un ensemble de e a e donnes en vue dune extrapolation ventuelle ` un ensemble plus vaste. e e a La statistique infrentielle utilise de mani`re importante les probabilits. Elle atteint ses limites lorsque e e e lon est en prsence dun trop grand nombre de donnes, ou en prsence de donnes htrog`nes. e e e e ee e Denition 3. Lapprentissage statistique est lensemble des techniques visant ` modliser et ` extraire a e a automatiquement une connaissance dune grande base de donnes. e On atteint la fronti`re avec les mthodes utilises en Intelligence Articielle. e e e

1.2
1.2.1

Recueil des donnes statistiques e


Le recensement

Exemple 4. Pour tudier la rpartition des terres agricoles dune rgion, on ralise le recensement des exploie e e e tations agricoles (soit n leur nombre) et on note pour chacune delles un certains nombre de caractristiques e comme : leurs tailles, le type de cultures, lge de lexploitant, .... a

Les rsultats obtenus sont consigns dans un tableau : e e N 1 2 3 . . . 630 Taille(ha) 50 50,5 35 . . . 10 Age (annes) e 50 45 38 . . . 57 Culture bl e vigne orge . . . vigne Nbre demploys e 2 4 3 . . . 1

Tab. 1 Rsultat du recensement des exploitations agricoles de la rgion e e A partir de cette table on pourra raliser direntes tudes statistiques. e e e 2

1.2.2

Le plan dexprience e

Exemple 5. Pour tudier leet dun antidpresseur, on administre en double aveugle un placebo et un e e principe actif. On mesure ` intervalle rgulier lvolution de la maladie. On cherche ensuite ` en tirer des a e e a conclusions sur lecacit du traitement. e Pour mesurer lecacit du produit on demande aux patients de rpondre ` un questionnaire de ce type e e a tous les mois pendant un an : 1. I say how bad or useless I am, for example, that I am a burden on others 2. I laugh or cry suddenly 3. I often moan and groan in pain or discomfort 4. I act nervous or restless 5. I keep rubbing or holding areas of my body that hurt or are uncomfortable 6. I talk about the future in a hopeless way 7. I get sudden frights Les rsultats obtenus sont consigns dans un tableau : e e Visite 1 1 . . . 1 2 2 . . . 2 12 12 . . . 12 Individu 1 2 . . . 175 1 2 . . . 175 1 2 . . . 175 Rep1 0 0 . . . 1 1 0 . . . 1 1 0 . . . 1 ... ... ... . . . ... ... ... . . . ... ... ... . . . ... Rep7 1 0 . . . 0 1 0 . . . 0 1 0 . . . 0 Groupe 2 1 . . . 1 2 1 . . . 1 2 1 . . . 1

Tab. 2 Rponses de 175 personnes tous les mois pendant un an e

Cet exemple est particulier dans la mesure o` les individus sont indexs par le temps : cest ce que lon u e appelle une srie chronologique. e 1.2.3 Lexploitation des bases de donnes e

Exemple 6. Un VPCiste poss`de environ 3 millions de clientes. Pour chaque cliente il dispose denviron 3000 e donnes. En vue davoir une protabilit maximum, lenvoi dune promotion est faite sur une partie de ces e e clientes. Lobjectif est didentier les clientes qui sont le plus susceptible dacheter. Pour raliser son objectif, la socit doit pouvoir exploiter les bases de donnes internes et externes qui e ee e vont nous renseigner sur le comportement dachat des clientes. Cela ncessite de stocker un maximum dinformation utile sur les clientes (comportements dachats e passs, mode dachat, ge, boutiques dachats,...) et ventuellement davoir recours ` des pan`listes (INSEE, e a e a e SECODIP,...)

Liste des variables Numcli numro de client e Dep dpartement e Com commune Reg Rgion e Sig Signaltique e Agepro Age Probable RpQuEn Rponse ` la question Avez vous des enfants ? e a RpQuTr Rponse ` la question Travaillez vous ? e a Unitur Taille dunit urbaine e Niveauvie Niveau de vie PROPRIETAIRES proportion de propritaires de leur logement dans liris e STABILITE mesure du lien employeurs-employs dans liris par type de contrat. e CONFORT mesure de lquipement en bien ou pi`ces de conforts des logements de liris e e REVENU ralis ` partir des chiers des impts e ea o

1.3

Dnitions e

Denition 7. Une population statistique est lensemble sur lequel on eectue des observations. Elle est bien spcie sil ny a pas dambigu e sur la dnition de lensemble. e e t e Dans la partie Statistique Descriptive on appellera population lensemble des individus eectivement tudis, sans chercher ` tendre les constatations faites ` une population plus vaste, ce qui rel`ve de la e e a e a e Statistique Infrentielle. e Dans les exemples prcdents, les populations taient : e e e 1. Lensemble des exploitation agricole de la rgion, e 2. Lensemble de personnes interroges dans le cadre dun essai thrapeutique, e e 3. Lensemble des clientes dun VPCiste ` un instant donn. a e Denition 8. Les individus (ou units statistiques) sont les lments de la population statistique tudie. e ee e e Pour chaque individu, on dispose dune ou plusieurs observations. Dans les exemples prcdents, les individus taient : e e e 1. Une exploitation agricole, 2. Un patient, 3. Une cliente. Denition 9. Une variable statistique (ou caract`re statistique) est ce qui est observ ou mesur sur les e e e individus dune population statistique. Denition 10. Une variable est dite, selon le cas : 1. Quantitative : ses valeurs sont des nombres exprimant une quantit, sur lesquels les oprations arithe e mtiques (somme, etc...) ont un sens. e La variable peut alors tre discr`te ou continue selon la nature de lensemble des valeurs quelle est e e susceptible de prendre (valeurs isoles ou intervalle de R). e 2. Qualitative : ses valeurs sont des modalits, (ou catgories, ou caract`res) exprimes sous forme littrale e e e e e ou par un codage numrique sur lequel des oprations arithmtiques nont aucun sens. e e e On distingue des variables qualitatives ordinales ou nominales, selon que les modalits peuvent tre e e naturellement ordonnes ou pas. e

Une variable est dichotomique si elle na que 2 modalits. e

Fig. 1 Rsum des dirents types de variables e e e

2
2.1
2.1.1

Statistiques descriptives univaris e


Etude statistique dune variable qualitative
Distributions deectifs et de frquences e

En prsence dune variable qualitative X pouvant prendre K modalits x1 , x2 , ..., xK , on commence par e e raliser un tri ` plat, cest ` dire faire linventaire des modalits ou valeurs rencontres dans la srie, avec les e a a e e e eectifs correspondants. On construit donc un tableau de la forme : Modalits e x1 x1 . . . xK Total Eectifs n1 n2 . . . nK n

Tab. 3 Tri ` plat (distribution deectifs) a

On parle alors de la distribution deectifs de la variable X. On calcule ensuite les proportions (ou frquence) de chaque modalit en divisant leectif de chaque e e modalit par leectif total e nk fk = n On rsume cette distribution dans un tableau de la forme : e

Modalits e x1 x1 . . . xK Total

frquences e f1 f2 . . . fK 1

Tab. 4 Distribution de Frquences e

Denition 11. Le mode de la variable X est la modalit ayant leectif le plus important. e Par exemple, si on a un tableau de la forme Numro de Cliente e 1 2 3 . . . 627630 Signaltique e M. Mme Mlle . . . Mme

Tab. 5 Variable Signaltique e

On va par un tri ` plat construire un tableau de la forme : a Signaltique e M. Mme Mlle Total Nombre de Clientes 60985 424641 142004 627630 Proportions 0,0972 0,6766 0,2262 1

Tab. 6 Distributions de la Variable Signaltique e

Le mode de la variable Signaltique est Mme. e 2.1.2 Reprsentations de la distribution e

Une variable qualitative peut se reprsenter ` laide de trois types de diagrammes : e a 1. Un diagramme rectangulaire 2. Un diagramme en camembert (ou semi-camembert) 3. Un diagramme en bton a Remarque 12. A lire dans la documentation en ligne de R :  Pie charts are a very bad way of displaying information. The eye is good at judging linear measures and bad at judging relative areas. A bar chart or dot chart is a preferable way of displaying this type of data.  En prsence dune variable ordinale il est impratif de respecter lordre naturel des modalits e e e

Fig. 2 Distribution de la taille des habits achets par les clientes e

2.2

Etude statistique dune variable quantitative

Soit X une variable quantitative observe sur une population P de taille n. Le but dune tude de e e statistique descriptive de cette variable est : de visualiser ` laide de graphique la distribution de cette variable, les principales reprsentations a e utilises sont : e 1. lhistogramme en bton si la variable est discr`te a e 2. lhistogramme des densits si la distribution est continue e 3. la courbe des frquences cumules (ou des eectifs cumuls) e e e 4. les bo ` moustache tes a de rsumer la distribution de cette variable ` laide de quelques Statistiques, les principales statistiques e a sont : 1. des statistiques de positions comme la moyenne et la mdiane e 2. des statistiques de dispersions comme la variance ou lintervalle inter-quartile 3. des statistiques de formes comme le kurtosis et le skewness 4. des dcoupages de la distribution de la variable en quantits dintrt comme les quartiles, les e e ee dciles, les percentiles,... et dune mani`re gnrale les fractiles. e e e e 2.2.1 Reprsentation de la distribution e

Lhistogramme en btons a On consid`re une variable X quantitative discr`te qui prend un nombre ni de valeurs {x1 , x2 , . . . , xK }. e e On dispose pour chacune de ces valeurs de leectif correspondant {n1 , n2 , . . . , nK }. Exemple 13. On sintresse au nombre denfants des clientes dun VPCiste et on a un tableau de la forme : e Nombre denfants Nombre de Clientes 0 81023 1 123050 2 110532 3 76298 4 42087 5 10965 6 782

Tab. 7 Distribution deectif des clientes pour la variable  Nombre denfants 

Fig. 3 Un exemple dhistogramme en bton a Lhistogramme des densits e La variable est continue et prend ses valeurs dans un intervalle [l, L[. On va chercher ` regrouper les a valeurs proches, en dcoupant lintervalle des valeurs en classes contigus, de la forme : e e [l0 ; l1 [, [l1 ; l2 [, [l2 ; l3 [, . . . [lK1 ; lK [ On appelle ce dcoupage, et on note n1, n2, . . . , nK les eectifs associs. On calcule pour chaque intervalle, e e la frquence associe puis la densit de frquence. On rsume les calculs dans un tableau de la forme : e e e e e No k 1 . . . k . . . K Intervalles [lk1 , lk [ [l0 , l1 [ . . . [lk1 , lk [ . . . [lK1 , lK [ Amplitudes ak a1 . . . ak . . . aK Eectifs nk n1 . . . nk . . . nK Frquences e fk f1 . . . fk . . . fK Densits de e frquence e dk d1 . . . dk . . . dK

Lamplitude de lintervalle k est donne par ak = lk lk1 , la frquence des individus dans lintervalle k est e e f e e e donne par fk = nk , nalement la densit de frquence dans lintervalle k est donne par dk = ak . e n k Denition 14. Lhistogramme des frquences associe au dcoupage est le graphe de la fonction f e e e constante par morceau sur R dnie par e 0 si x < l0 dk si x [lk1 ; lk [ f (x) = 0 si x lk Proposition 15. La fonction f vrie e
lk

f (x)dx = fk
lk1

et

f (x)dx = 1.

Exemple 16. On sintresse au montant des achats des clientes au cours de lanne : e e NO k 1 2 3 4 5 6 7 8 9 Intervalles [lk1 , lk [ [0, 20[ [20, 50[ [50, 80[ [80, 100[ [100, 150[ [150, 300[ [300, 500[ [500, 1000[ [1000, 2000[ Amplitudes ak 10 30 30 20 50 150 200 500 1000 Eectifs (en millier ) nk 71 80 112 123 132 96 40 2 0, 1

Courbes des frquences cumules e e Denition 17. Si X est une variable quantitative discr`te, la courbe des frquences cumules est la fonction e e e F constante par morceau sur R dnie par e 0 si x < x0 Fk1 si x [xk1 ; xk [ F (x) = 1 si x xK avec Fk = l=1 fl . Si X est une variable quantitative continue, la courbe des frquences cumules associe au dcoupage e e e e est la fonction F linaire par morceau sur R dnie par e e 0 si x < l0 k Fk1 Fk1 + (x lk1 ) Fk lk1 si x [lk1 ; lk [ F (x) = l 1 si x lk avec Fk =
k l=0 k

fl .
x

Proposition 18. On a F (x) =

f (t)dt

2.2.2

Rsums statistiques de position : La moyenne et la mdiane e e e

Calcul de la moyenne sur la srie brute e La moyenne est le rsum statistique le plus souvent utilis pour caractriser la position de la variable e e e e X. On la note m(X) o` X. La mdiane est aussi tr`s souvent utilise, on la note M (X). Pour calculer la u e e e moyenne, on fait la somme des valeurs observes et on divise par leectif total : e m(X) = 1 n
n

Xi
i=1

Exemple 19. Par exemple, si on a un tableau de la forme

Numro de Cliente e 1 2 3 . . . 627630 Total

CA (en euros) 0,00 50,40 10,00 . . . 10,70 20 460 738,00

Tab. 8 Variable C.A. On trouve que le chire daaire moyen par cliente est de : m(CA) = 20460738 = 32, 6 627630

Calcul de la moyenne dans le cas de regroupement deectifs On a un tableau de la forme : NO k 1 . . . k . . . K Intervalles (cas continu) [lk1 , lk [ [l0 , l1 [ . . . [lk1 , lk [ . . . [lK1 , lK [ Valeur (ou milieu) xk x1 . . . xk . . . xK Eectifs nk n1 . . . nk . . . nK Frquences e fk f1 . . . fk . . . fK

Dans ce cas on eectue une moyenne pondre par les eectifs : ee m(X) = 1 n
K K

nk xk =
k=1 k=1

fk xk

Proposition 20. Soit X une variable statistique et soient a et b deux nombres rels. Considrons la nouvelle e e variable Z = aX + b, on a alors m(Z) = m(aX + b) = am(X) + b. On peut utiliser cette proposition pour calculer la moyenne de X en utilisant un changement de variable. Cela permet de simplier les calculs. Calcul de la mdiane sur la srie brute e e Pour calculer la Mdiane, on commence par ordonner les valeurs prises par la variable statistique. On e note X(1) la premi`re valeur, X(2) la deuxi`me valeur, ..., X(n) la plus grande valeur. On a donc : e e X(1) X(2) . . . X(n) On pose ensuite X( n+1 ) 2 M (X) = X +X ( n ) ( n +1) 2 2
2

si n est impair si n est pair

10

Exemple 21. Si on rordonne les clientes par CA, on aura un tableau de la forme e Rang de la cliente 1 2 3 . . . 313815 313816 . . . 627630 Total Numro de Cliente e 1 126 260 . . . 42004 4816 . . . 608524 20 460 738,00 Tab. 9 Variable C.A. On trouve que le chire daaire mdian des clientes est de : e M (CA) = Les fractiles Denition 22. On appelle fractiles dordre k les valeurs G1 , G2 , . . . , Gk1 qui divisent la srie en k parties e deectifs gaux. e Par exemple les quartiles Q1 , Q2 , Q3 divisent la srie statistique ordonne en 4 parties deectifs gaux. e e e Les dciles, D1 , D2 , ..., D9 divisent la srie ordonne en dix parties deectifs gaux. e e e e Sur la srie brute, les fractiles se dterminent en ordonnant les valeurs et en faisant des paquets gaux e e e en eectifs. Calcul de la mdiane (et des fractiles) ` laide de la courbe des frquences cumules e a e e On ne traite que le cas de la mdiane, les autres fractiles se traitent de mani`re similaire. e e On cherche le nombre M tel que F (M ) = 0, 5. On commence par dterminer lintervalle [lk1 , lk [ tel e que Fk1 0, 5 < Fk . Si Fk1 = 0, 5 alors M = lk1 , sinon M est une nombre dans lintervalle ]lk1 , lk [ ` a dterminer par interpolation linaire. e e 40, 70 + 41, 00 = 40, 85 2 CA (en euros) 0,00 0,00 0,00 . . . 40,70 41,00 . . . 6275,70

Fig. 4 Calcul de la mdiane e

11

Dapr`s la dnition 17, on doit rsoudre en M lquation e e e e 0, 5 M lk1 0, 5 Fk1 = = lk lk1 Fk Fk1 lk lk1 Fk Fk1 Fk1 + (M lk1 ) Fk Fk1 lk lk1

Cest un rapport daccroissement. On en dduit que e M = lk1 + (0, 5 Fk1 )

2.2.3

Rsums statistiques de dispersion e e

La moyenne et la mdiane sont des valeurs autour desquelles les observations sont rparties. On cherche e e dsormais ` quantier la dispersion des mesures autour de ces valeurs centrales. e a

Fig. 5 Deux distributions galement positionnes mais plus ou moins disperses e e e Les statistiques utilises sont e 1. Ltendue E = Xmax Xmin , cette mesure est peu pratique et tr`s sensible aux valeurs extrmes de la e e e srie (erreurs de saisie,...) e 2. Lintervalle interquartile Q3 Q1 n 3. Lcart absolu moyen 1/n i=1 |Xi X| mais il est peu utilis car il se prte mal au calcul e e e 4. La variance est la statistique la plus utilise, elle est dnie comme la moyenne des carrs des carts ` e e e e a la moyenne. Pour une srie brute e n 1 V (X) = (Xi m(X))2 n i=1 et lorsque lon a des eectifs regroups : e V (X) = 1 n
K

nk (xk m(X))2
k=1

Lcart-type est dni comme la racine carre de la variance s(X) = e e e 12

V (X)

Proprits de la Variance e e Proposition 23. Soit X une variable statistique. 1. On a V (X) 0 et V (X) = 0 ssi Xi = c pour tout i. 2. On a V (X) = m(X 2 ) m(X)2 , cest ` dire que la variance est la moyenne de la variable X 2 moins la a moyenne de X leve au carr. e e e 3. Pour tous rels a et b, V (aX + b) = a2 V (X) et s(aX + b) = |as(X) e 4. Pour toute population de moyenne m et dcart-type s , la proportion dindividus appartenant ` des e a intervalles de la forme [m ks; m + ks] est suprieure ou gale ` 1 1/k 2 , pour tout k > 1 (ingalit e e a e e de Bienaym-Tchbichev). e e Les bo tes ` moustaches a La bo a moustache (le box-plot) est un graphique qui permet de visualiser la distribution dune variable te ` X. On la construit de la mani`re suivante : e 1. On trace une bo de longueur Q3 Q1 te 2. On partage la bo par un trait ` la position M te a 3. on trace la moustache de gauche de longueur min(Q1 Xmin , 1, 5 (Q3 Q1 )) 4. on trace la moustache de droite de longueur min(Xmax Q3 , 1, 5 (Q3 Q1 )) 5. Si certains individus sont en dehors des moustaches, on les reprsente par des . e

3
3.1

Statistiques descriptives bivaris e


Introduction
A la suite dune tude statistique, on a tudi un certain nombre de variables, par exemple : e e e 1. le nombre denfant par cliente, 2. le montant des achats sur lanne dpens par cliente, e e e 3. les types des produits les plus achets par les clientes, e 4. ...

Mais ceci ne nous permet pas de mettre en vidence les liens existant peut tre entre lge et les produits e e a achets : e les clientes  jeunes ach`tent elles les mmes produits que leurs a ees ? e e n le type de produit achet est-il le mme quelle que soit le nombre denfant de la cliente ? e e Le montant moyen dpens par une cliente est-il fonction de sa CSP ? e e ... On a jusqu` maintenant fait de la statistique descriptive univarie, cest-`-dire de la description dune a e a srie statistique selon une seule variable (lge par exemple). e a En plus de ltude spare de chaque variable, on veut visualiser, et mesurer le cas chant, les liens e e e e e existant entre les variables prises deux ` deux : cest lobjet de la statistique descriptive bivarie. a e Ceci se fera, comme prcdemment, au moyen de tableaux, graphiques, et calcul de param`tres-cls. e e e e On traitera donc maintenant du cas o` lon dispose de deux variables, X et Y , observes sur les mmes u e e n individus. Chacune des deux variables pouvant tre qualitative, quantitative discr`te, quantitative continue, on e e envisagera chaque cas de gure.

13

3.2

Etude statistique de deux variables qualitatives

X est une variable qualitative pouvant prendre K modalits x1 , . . . , xK et Y est une variable qualitative e pouvant prendre L modalits y1 , . . . , yL . On construit le tableau de contingence : e X \Y x1 . . . xk . . . xK Total y1 n11 . . . nk1 . . . nK1 n.1 ... ... ... ... ... yl n1l . . . nkl . . . nKl n.l ... ... ... ... ... yL n1L . . . nkL . . . nKL n.L Total n1. . . . nk. . . . nK. n.. = n

qui reprsente la distribution deectif du couple de variable (X, Y ). Par dnition e e


L

nk.

=
l=1 K

nkl

n.l

=
k=1

nkl .

Exemple 24. On a une variable binaire qui prend la valeur 1 si la cliente ach`te du haut de gamme et 0 e sinon, et une variable binaire qui prend la valeur 1 si la cliente fait ses achats par internet 0, sinon. Lorsque lon croise ses deux variables, on obtient un tableau de la forme : Haut de Gamme \ Internet Vrai Faux Total Faux 52482 154852 207334 Vrai 126214 205007 331221 Total 178696 359859 538555

Tab. 10 Les clientes qui ach`tent par internet ach`tent elles plus facilement du haut de gamme ? e e La distribution de frquence du couple de variable (X, Y ) est rsume dans un tableau similaire : e e e X \Y x1 . . . xk . . . xK Total y1 f11 . . . fk1 . . . fK1 f.1 ... ... ... ... ... yl f1l . . . fkl . . . fKl f.l ... ... ... ... ... yL f1L . . . fkL . . . fKL f.L Total f1. . . . fk. . . . fK. f.. = 1

Exemple 25. On obtient un tableau de la forme : Haut de Gamme \ Internet Vrai Faux Total Faux 0,097 0,287 0,384 Vrai 0,234 0,382 0,616 Total 0,331 0,669 1,000

Tab. 11 Les clientes qui ach`tent par internet ach`tent elles plus facilement du haut de gamme ? (suite) e e 14

3.2.1

Distributions marginales et conditionnelles

Denition 26. On appelle distribution marginale des frquences (des eectifs) la distribution des frquences e e (eectifs) obtenue dans la marge dun tableau de contingence, en ajoutant les frquences (eectifs) ligne par e ligne, ou colonne par colonne. La distribution conditionnelle de la variable Y , pour X = xk x, est la distribution statistique des e valeurs de Y obtenue en se limitant aux individus pour lesquels X est gal ` xk . e a La distribution conditionnelle de Y sachant X = xk sobtient en calculant les quantits : e fkl nkl /n nkl = = fk. nk. /n nk. La distribution conditionnelle de X sachant Y = yl sobtient en calculant les quantits : e fkl nkl /n nkl = = f.l n.l /n n.l Exemple 27. On obtient les distributions conditionnelles du  Haut de Gamme sachant  Internet suivantes : Haut de Gamme \ Internet Vrai Faux Total Faux 0,25 0,75 1,00 Vrai 0,38 0,62 1,00

Tab. 12 Les clientes qui ach`tent par internet ach`tent elles plus facilement du haut de gamme ? (suite) e e On observe sur cet exemple que parmi les acheteuses sur internet, une proportion plus importante ach`te e du haut de gamme. Il semble quil existe une liaison entre ces deux variables. 3.2.2 Indpendances de deux variables e

Notion dindpendance e Denition 28. Deux variables statistiques X et Y sont dites indpendantes si la distribution conditionnelle e de Y , pour tout x, est constante (cest-`-dire ne dpend pas de x). Cela signie que les lignes du tableau de a e contingence sont proportionnelles, ou de faon quivalente que les colonnes du tableau de contingence sont c e proportionnelles, et donc que la distribution conditionnelle de X, pour tout y, est constante. Remarque 29. Cette dnition nest (presque) jamais vrie. En pratique, il faut vrier que les lignes e e e e (ou les colonnes) sont  presque proportionnelles. Le crit`re du 2 e Denition 30. On appelle frquences et eectifs thoriques sous lhypoth`se dindpendance du couple de e e e e variable X et Y les quantits : e nk. n.l fkl = fk. f.l et nkl = nfkl = n Le crit`re du 2 permet de tester lindpendance entre deux variables en mesurant la distance entre la e e distribution observe et la distribution thorique. e e
K L

2 =
k=1 l=1

(nkl nkl )2 =n nkl 15

k=1 l=1

(fkl fkl )2 fkl

En premi`re approximation, on considrera que les variables X et Y ne sont pas indpendantes si e e e 2 p + 2 2p

o` p = (K 1)(L 1) est le nombre de degr de libert. Un crit`re plus prcis sera construit en statistique u e e e e infrentielle. e

3.3

Etude statistique dune variable qualitative et dune variable quantitative

Soient Y une variable quantitative et soit X une variable qualitative de modalits x1 , ..., xK . e On note I lensemble des individus {1, . . . , n}. La variable X induit une partition de cet ensemble en K sous-ensembles I1 , ..., IK vriant e
K

Ik = I,
k=1

et

Ik Il = si k = l

de plus on a Card(Ik ) = nk et donc n1 + . . . + nk + . . . + nK = n. On parlera alors de sous-population. Exemple 31. Le montant moyen dachat ralis (en euros) a t relev parmi trois groupes de clients classs e e ee e e suivant les crit`res  FID , (d`le),  OCC (Occasionnel)  NOU (Nouvelle) e e FID No OCC No NOU No 79 1 51 17 52 11 62 2 88 18 51 12 78 3 58 19 44 13 81 4 57 20 37 14 75 5 59 21 79 15 87 6 69 22 36 16 71 7 51 23 85 8 71 24 75 9 38 25 91 10

Moyennes et Variances conditionnelles Denition 32. Pour k = 1, . . . , K, on dnit la moyenne conditionnelle de Y sachant que X = xk par : e m(Y |X = xk ) = Yk = et la variance conditionnelle de Y sachant que X = xk par V (Y |X = xk ) = s2 = k 1 nk (Yi Yk )2 =
iIk

1 nk

Yi
iIk

1 nk

2 Yi2 Yk
iIk

Les sommes sont faites sur les nk individus qui ont pris la modalit xk . e Formule de dcomposition de la variance e On rsume les moments conditionnels dans le tableau suivant : e Populations 1 2 . . . K Eectifs n1 n2 . . . nK Moyennes conditionnelles m(Y |X = x1 ) m(Y |X = x2 ) . . . m(Y |X = xK ) Variances conditionnelles V (X|X = x1 ) V (X|X = x2 ) . . . V (X|X = xK )

16

Proposition 33. La moyenne gnrale de Y est gale ` la moyenne des moyennes : e e e a m(Y ) = 1 n
K

nk m(Y |X = xk )
k=1

Denition 34. On appelle Variance Intra-Classe la moyenne des variances Vintra (Y ) = 1 n


K

nk V (Y |X = xk ) =
k=1

1 n

nk s2 k
k=1

et on appelle Variance Inter-Class la variance des moyennes Vinter (Y ) = 1 n


K

k=1

1 nk (Yk Y )2 = n

2 nk Yk Y 2
k=1

Proposition 35. La variance de la variable Y se dcompose sous la forme e V (Y ) = Vintra (Y ) + Vinter (Y ) Lanalyse de la variance Cette technique a t dveloppe au dbut du si`cle par lagronome Fischer. On veut mesurer leet dun ee e e e e facteur sur une variable dintrt. Voici des exemples : ee 1. On pand des niveaux dengrais {faible, moyen, fort} (variable X) sur des parcelles de bl et on rel`ve e e e le rendement ` lhectare (variable Y ). a 2. On nourrit des rats avec trois sources de protines {boeuf, porc, soja} (variable X) et on rel`ve la prise e e de poids au bout dun mois (variable Y ). 3. On soumet ` un groupe de patient un placebo ou un principe actif (variable X) et on tudie lvolution a e e de leur maladie (variable Y ). Un crit`re pour mesurer leet de ce facteur est de calculer la variance intra-classe et la variance inter-classe e et de faire le rapport : Vinter (Y ) e2 = V (Y ) Plus e2 est grand et plus cela indique quil y a un eet facteur.

3.4

Etude statistique de deux variables quantitatives

Reprsentation graphique e Pour reprsenter deux variables quantitatives, on trace un nuage de points e

17

Fig. 6 Reprsentation de la taille et du poids par un nuage de point e Le point de coordonne (m(X), m(Y )) est appel le centre de gravit du nuage. e e e Mesures de liaison linaire : La Covariance et la Corrlation e e Denition 36. On appelle Covariance des variables X et Y et on note Cov(X, Y ) la quantit : e Cov(X, Y ) = 1 n
n

(Xi m(X))(Yi m(Y ))


i=1

On appelle Corrlation des variables X et Y et on note r(X, Y ) la quantit : e e r(X, Y ) = Cov(X, Y ) V (X)V (Y )

Proposition 37. Soient X et Y , Z trois variables et soient a, b, c, d 4 nombres rels, la covariance vrie : e e 1. Cov(aX + b, cY + d) = acCov(X, Y ) 2. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z) 3. Cov(X, Y ) = m(XY ) m(X)m(Y ), en particulier en prenant X = Y , V (X) = Cov(X, X) Le coecient de corrlation vrie e e 1 r(X, Y ) 1 de plus r(X, Y ) = 1 ssi les points (Xi , Yi ) sont aligns sur une droite. e La variance vrie e V (X + Y ) = V (x) + V (Y ) + 2Cov(X, Y ) Quelques exemples de nuages de points :

18

Fig. 7 Coecients de corrlations importants e Dautres exemples de nuages de points :

Fig. 8 Coecients de corrlations faibles e Remarque 38. Ce nest pas parce que le coecient de corrlation est proche de 0, quil nexiste pas de e relations entre les variables. Il peut exister une relation qui nest pas linaire. e Remarque 39. Ce nest pas parce que le coecient de corrlation est proche de 1, quil existe une relation e entre les variables ! ! ! Par exemple si on rel`ve au cours des annes coules les eectifs de lenseignement suprieur (X) et le e e e e e nombre de chmeurs au Canada (Y ) on trouve un coecient de corrlation r = 0, 94. o e En fait ces deux variables ont augment en mme temps. e e

La rgression linaire e e

Introduction Relations fonctionnelles et tendancielles Un physicien mesure ` dirents moments : a e la temprature e la longueur dune barre mtallique. e 19

Des ingnieurs, procdant ` ltude dun nouveau syst`me de freinage sur un vhicule, mesurent au cours de e e a e e e plusieurs essais : la vitesse du vhicule e la distance parcourue en ligne droite avant larrt. e Un mdecin scolaire note pour chaque enfant : e sa taille son poids. Un conomiste rassemble pour plusieurs pays, ` une date donne, les informations suivantes : e a e le nombre dhabitants le produit national brut (PNB). Un comptable, tudiant lvolution des comptes dune entreprise note sur plusieurs annes : e e e lanne tudie e e e le chire daaires ralis cette anne l`. e e e a Relation Fonctionnelle et corrlations linaires e e

(a)

(b)

(c)

Fig. 9 (a) Temprature (X) et Longueur (Y ), (b) Taille (X) et Poids (Y ), (c) PNB (Y ) et Nombre e dhabitants (X) en Europe. Le premier graphique reprsente une relation fonctionnelle, cest ` dire que ` chaque valeur de la variable e a a X est associe une valeur et une seule de la variable Y . Les deux autres graphiques reprsentent des cas de e e corrlation linaire entre deux variables. Dans ce cas on dira que Y a tendance ` croitre (ou ` dcro e e a a e tre) lorsque X croit. Absence de relation

20

(d)

(e)

Fig. 10 (d) Balance des paiements (X), taux de change (Y ), (e) Eectifs du secteur priv en Loz`re (Y ), e e Dates (X). Dnition de la droite des moindres carrs e e On cherche ` exprimer la relation entre deux variables X et Y : a X est appele la variable indpendante ou explicative. Les valeurs de X sont xes par lexprimentateur e e e e ou connues sans erreur (exemple : concentrations dun produit ` doser, dates, ...). a Y est la variable dpendante ou explique (exemple : rponse de lanalyseur). Les valeurs de Y peuvent e e e tre dtermines ` partir de la variable X ` une erreur pr`s. Lun des buts de la rgression sera e e e a a e e prcisment destimer cette erreur. e e On va chercher une relation de la forme : Y = aX + b + E. Cest lquation dune droite, do` le terme de rgression linaire, plus un terme derreur. e u e e Solution de la droite des moindres carrs e La mthode des moindres carrs consiste ` chercher les valeurs des param`tres a et b qui rendent la e e a e somme des carrs des erreurs rsiduelles minimale. e e
n n

(1)

min
a,b i=1

e2 = i
i=1

(yi axi b)2 .

Proposition 40. Si V ar(X) = 0 alors la droite des moindres carrs a pour coecient directeur e a= et pour constante = m(Y ) am(X). b Proprits de la droite des moindres carrs e e e Proposition 41. La droite des moindres carrs passent par le centre de gravit du nuage (m(Y ), m(X)). e e (3) Cov(X, Y ) V ar(X) (2)

21

la variable E est centre (m(E) = 0). e La variable Y = aX + sappelle la valeur prdite par le mod`le et on a la formule de dcomposition b e e e de la variance : V ar(Y ) = V ar(Y ) + V ar(E), ce qui se lit variance totale = variance explique + variance rsiduelle. e e On appelle R2 la part de variance explique : e R2 = Cest un indicateur de la qualit de la rgression. e e V ar(Y . V ar(Y )

Liste des variables pour les clientes dune socit de VPC e e

1. Numcli : numro de client e 2. Dep : dpartement e 3. Com : commune 4. Reg : Rgion e 5. Sig : Signaltique e 1-Mr 2-Mme 3-Mlle 6. Agepro : Age Probable 1- moins de 30 ans 2- 30-40ans 3- 40-50ans 4- 50-60 ans 5- 60-70ans 6- plus de 70 ans 7. bf RpQuEn Rponse ` la question :  Avez vous des enfants ?  e a 8. RpQuTr Rponse ` la question :  Travaillez vous ?  e a 9. TypFem : Typologie Femme F1 :femme ge traditionnelle a e F2 :femme classique plus ge a e F3 :femme sportive pratique F4 : femme classique sophistique e F5 : femme classique diversie e F6 : femme mode haut de gamme F7 : jeune femme, urbaine, mode F8 : jeune femme sportwear basique F9 : Jeune femme mode petit prix 10. Unitur : Taille dunit urbaine e 0- rural 1-moins de 5 000 habitants 2-5 000-10 000 habitants 3-10 000-20 000 habitants 4-20 000-50 000 habitants 5-50 000-100 000 habitants

22

11.

12.

13.

14.

6-100 000-200 000 habitants 7-200 000-2 Millions habitants 8- Rgion parisienne + agglo e Groupe : typologie iris TYPE 1 : Rural g modeste a e TYPE 2 : Rural profond peu attractif TYPE 3 : Saisonnier petites villes TYPE 4 : Saisonnier villages TYPE 5 : Rural jeune TYPE 6 : Rural ais e TYPE 7 : Urbain prcaire e TYPE 8 : Urbain moyen TYPE 9 : Urbain dynamique TYPE 10 : Urbain ais e Niveauvie : -La classe 1 :  iris prcariss , qui regroupe les zones les plus pauvres, fortement touches par e e e le chmage, et avec un niveau dtudes tr`s bas. De plus, cest la classe contenant la plus faible o e e proportion de cadres. -La classe 2 :  iris modestes actifs , contient elle aussi des zones aux revenus faibles. Mais cest aussi la classe la moins touche par le chmage. Les CSP ouvriers et agriculteurs y sont le plus e o sur-reprsentes, Et elle est compose de 87% diris appartenant ` des communes rurales. e e e a -La classe 3 :  iris intermdiaires , est compose de zones au revenu moyen, avec un niveau dtudes e e e moyen et un taux de chmage assez lev. Les habitants de ces zones appartiennent ` peu pr`s o e e a e quitablement ` toutes les CSP. e a -La classe 4 :  iris moyens suprieurs poss`de un revenu moyen par contribuable de 30% suprieur e e e au revenu global franais. Les habitants de ces zones sont dun niveau dtudes lev, et appartiennent c e e e a ` toutes les catgories de CSP. Le taux de chmage de cette zone est assez faible. e o -La classe 5 :  iris aiss est la classe qui contient la plus forte proportion de cadres (2 fois plus que e la moyenne). Le revenu moyen par contribuable est tr`s lev, et le niveau dtudes galement. e e e e e propritaires (La proportion de propritaires de leur logement dans liris) : 6 valeurs qui correspondent e e a ` la proportion de logements avec propritaires dans liris par rapport au total des logements. e Valeur 1 : 25% > x. Valeur 2 : 25% <= x < 4%. Valeur 3 : 5% <= x < 6%. Valeur 4 : 6% <= x < 6%. Valeur 5 : 6% <= x < 7%. Valeur 6 : 7% <= x. STABILITE (Valeurs bases sur des coecients reprsentant le lien employeur-employ des habitants e e e de liris selon la stabilit des contrats) : 5 valeurs selon la solidit des contrats de travail des habitants e e de liris (fonctionnaire, CDD, Emploi jeune, CDI). Pour les CES, contrats jeunes, apprentis sous contrats et stage rmunr un coef de 30 a t appliqu. e ee ee e Pour les intrims un coef de 60. e Pour les CDD un coef de 80. Pour les CDI un coef de 110. Pour les fonctionnaires un coef de 140. Valeur 1 : Le lien de contrat employeur-employ est tr`s faible concernant les habitants de cette zone e e 20% des iris. Valeur 2 : Le lien de contrat employeur-employ est faible concernant les habitants de cette zone e 20% des iris. Valeur 3 : Le lien de contrat employeur-employ est moyen concernant les habitants de cette zone e 20% des iris. 23

Valeur 4 : Le lien de contrat employeur-employ est fort concernant les habitants de cette zone 25% e des iris. Valeur 5 : Le lien de contrat employeur-employ est tr`s fort concernant les habitants de cette zone e e 15% des iris. 15. CONFORT (Valeurs bases selon lquipement en bien ou pi`ces de conforts des logements de liris) : e e e 5 valueurs selon lquipement des maisons. Une courbe de percentiles de confort est ralis ` partir de e e ea coecients puis dcoupe : e e Le pourcentage de taudis*10 + le pourcentage de logement sans salles deau et toilettes intrieurs*8 e + le pourcentage de logement avec wc intrieur et sans salles deau*5 + le pourcentage de logement e avec salle deau sans wc intrieur*5 +% dhabitats sans chauages centrales*3 +% des logements e quips dune fosse sceptique*1 +% des logements avec tout ` lgout *-0.05 +% des logements tout e e a e conforts*-0.05 +% habitats avec garage*-0.05. Valeur 1 : 20% des iris, Logements tr`s peu quips. e e e Valeur 2 : 20% des iris, Logements peu quips. e e Valeur 3 : 20% des iris, Logements moyennement quips. e e Valeur 4 : 20% des iris, Logements quips. e e Valeur 5 : 20% des iris, Logements tr`s quips. e e e 16. ENFANTS (Proportion dindividus de la tranche dge 0 ` 15 ans sur la population totale de liris) : a a 10 valeurs. Valeur 1 : x<10.5%. Valeur 2 : 10.5%<=x<12%. Valeur 3 : 12%<=x<14.5%. Valeur 4 : 14.5%<=x<16%. Valeur 5 : 16%<=x<17.5%. Valeur 6 : 17.5%<=x<18.5%. Valeur 7 : 18.5%<x<=20%. Valeur 8 : 20%<x<=22%. Valeur 9 : 22%<x<=24%. Valeur 10 : 24%<x. : 17. REVENU (ralise ` partir des chiers des impts), elle comprend 10 valeurs allant des communes e e a o les plus pauvres aux communes les plus riches (en Frs). Ddonnes COMPLEX DATA. e Valeur 1 : 60000 frs>x. Valeur 2 : 60000<=x<65000. Valeur 3 : 65000<=x<70000. Valeur 4 : 70000<=x<75000. Valeur 5 : 75000<=x<82000. Valeur 6 : 82000<=x<88000. Valeur 7 : 88000<=x<95000. Valeur 8 : 95000<=x<105000. Valeur 9 : 105000<=x<115000. Valeur 10 : 115000<=x. 18. Macrocible : segmentation RFM (3 types de cliente : bonne, d`le, ni bonne ni d`le) e e

B
B.1

Programmes R
Traitements univaris : Etude dune variable qualitative e
La commande R pour obtenir un graphique en camembert est la commande pie(..)

pie.sales <- c(0.12, 0.3, 0.26, 0.16, 0.04, 0.12)

24

names(pie.sales) <- c("Blueberry", "Cherry", "Apple", "Boston Cream", "Other", "Vanilla Cream") pie(pie.sales, col = c("purple", "violetred1", "green3","cornsilk", "cyan", "white")) title(main = "January Pie Sales", cex.main = 1.8, font.main = 1) title(xlab = "(Dont try this at home kids)", cex.lab = 0.8, font.lab = 3) et la commande correspondante pour obtenir un diagramme en bton est la commande dotchart(...) ou a la commande barplot(...). pie.sales <- c(0.12, 0.3, 0.26, 0.16, 0.04, 0.12) names(pie.sales) <- c("Blueberry", "Cherry", "Apple", "Boston Cream", "Other", "Vanilla Cream") colors = c("purple", "violetred1", "green3","cornsilk", "cyan", "yellow") op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, # dotchart dotchart( pie.sales , col = colors , xlim = c(0,0.4)) title( main = "January Pie Sales" , cex.main = 1.8, font.main = 1 , xlab = "(Dont try this at home kids)" , cex.lab = 0.8, font.lab = 3 ) # barplot barplot( pie.sales , space = 1.5 , col = colors) title( main = "January Pie Sales" , cex.main = 1.8, font.main = 1 , xlab = "(Dont try this at home kids)" , cex.lab = 0.8, font.lab = 3 ) ## At end of plotting, reset to previous settings: par(op)

B.2

Traitements univaris : Etude dune variable quantitative e

On obtient un diagramme en bton de la distribution des eectifs puis des frquences ` laide de la a e a commande plot(...) : nbenf <- c(81023, 123050, 110532, 76298, 42087, 10965, 782) names(nbenf) <- c("0", "1", "2", "3", "4", "5", "6") op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, 25

f.tit <- "Distribution en effectif" x.tit <- "Nombre denfants par clientes" plot( , , , , , ) names(nbenf) nbenf type="h" xlab = x.tit cex.lab = 0.8 font.lab = 3

title( main = f.tit , cex.main = 1.8 , font.main = 1 ) n = sum(nbenf) n freqenf <-nbenf/n nbenf f.tit <- "Distribution en frquence" e plot( names(nbenf) , freqenf , type="h" , xlab = x.tit , cex.lab = 0.8 , font.lab = 3 ) title( main = f.tit , cex.main = 1.8 , font.main = 1 ) ## At end of plotting, reset to previous settings: par(op) Il existe une commande hist qui ralise lhistogramme sur la srie brute. e e # # Variables quantitatives continues : srie brute e # data(islands) op <- par(mfrow=c(2, 2)) # histogramme basique... hist(islands) # histogramme moins basique... str(hist(islands, col="gray", labels = TRUE)) #-- Intervalles non-equidistant # histogramme de la racine carr e 26

r <- hist( sqrt(islands) , br = c(5*0:4, 10*3:5, 70, 100, 140) , col=blue1 ) #Ajout des nombres text(r$mids, r$density, r$counts, adj=c(.5, -.5), col=blue3) # combien valent... sapply(r[2:3], sum) sum(r$density * diff(r$breaks)) # toujours 1 !!! # initialisation du device par(op) op <- par(mfrow = c(2, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, # histogramme faux -> 0/20 # histogramme de la racine carr e hist( sqrt(islands) , br = c(5*0:4, 40, 70, 100, 140) , col="lightblue" , border="pink" ) #-- Intervalles non-equidistant # histogramme de la racine carr e hist( sqrt(islands) , br = c(5*0:4, 40, 70, 100, 140) , col=blue1 , border="pink" , freq = TRUE , main = "WRONG histogram" ) # and warning # histogramme de la srie brute e # look at default str(hist(islands, br=6, plot= FALSE)) # str(hist( islands , br=c(12,20,36,80,200,1000,17000) , col="lightblue" , border="pink" , plot = TRUE )) hist( islands , br=c(12,20,36,80,200,1000,17000) , freq = TRUE

27

, , , ) # you

col=blue1 border="pink" main = "WRONG histogram" get warning

par(op) La command ecdf permet de calculer la courbe des frquences cumules. e e data(islands) fc<-ecdf(islands) summary(fc) plot(fc) Commandes R pour le trac des bo ` moustache : e tes a data(iris) par(bg = "cornsilk") boxplot(split(iris[1], iris[5]), col = "lavender", notch = TRUE) title(main = "Iris Sepal Length", xlab = "Group", font.main = 4, font.lab = 1) boxplot(split(iris[2], iris[5]), col = "lavender", notch = TRUE) title(main = "Iris Sepal Width", xlab = "Group", font.main = 4, font.lab = 1)

C
C.1

Traitements bivaris e
Analyse de la variance
On ralise une analyse de la variance des donnes ` laide du programme R suivant e e a

ventes <- list() ventes$obs <- c(79, 62, 78, 81, 75, 87, 71, 85, 75, 91 ,51, 88, 58, 57, 59, 69, 51, 71, 38, ,52, 51, 44, 37, 79, 36) ventes <-as.data.frame(ventes) ventes$factor<- as.factor(c("FID", "FID","FID","FID","FID","FID","FID","FID","FID","FID", "OCC", "OCC","OCC","OCC","OCC","OCC","OCC","OCC","OCC", "NOU","NOU","NOU","NOU","NOU","NOU",)) boxplot(split(ventes$obs, ventes$factor), col = "lavender", notch = TRUE) hist.ventes <-hist( ventes$obs, br=8, col="lightblue" , border="pink" , freq = TRUE , main = "Histogramme des ventes" ) text( hist.ventes$mids , hist.ventes$density , hist.ventes$counts , adj=c(.5, -.5) , col=blue3) analyse <- lm(ventes$obs ~ ventes$factor ) 28

analyse ventes$fitted.values <- analyse$fitted.values ventes On peut ensuite obtenir e2 en faisant le rapport des variances : e2 <- var(ventes$fitted.values) / var(ventes$obs) e2

C.2

Rgression e

On obtient une rgression ` laide de la commande lm que nous avons utilis en analyse de la variance : e a e data(cars) x<-lm(dist~speed, data=cars) # regression de dist par speed

par(bg ="lightsteelblue") plot( dist~speed, data=cars , main = "Distance et Vitesse" , fg = "blue" , xlab= "Vitesse" , ylab = "Distance" , pch = 9 # diamond ) abline(x, col="red") # trac de la droite de rgression e e print(x) names(x) x$coefficients x$fitted.values x$residuals

# # # #

elements de x coefficients de la droite de rgression e valeurs prdites e erreurs

var(x$fitted.values)/var(cars$dist) # R^2

29

Vous aimerez peut-être aussi