Vous êtes sur la page 1sur 29

Statistiques Descriptives

Serge Iovle 5 avril 2007

Table des mati` eres


1 Introduction 1.1 Quest ce que les statistiques ? . . . . . . . . 1.2 Recueil des donn ees statistiques . . . . . . . 1.2.1 Le recensement . . . . . . . . . . . . 1.2.2 Le plan dexp erience . . . . . . . . . 1.2.3 Lexploitation des bases de donn ees 1.3 D enitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 2 3 3 4 5 5 5 6 7 7 9 12 13 13 14 15 15 16 17 19 22 24 24 25 28 28 29

2 Statistiques descriptives univari es 2.1 Etude statistique dune variable qualitative . . . . . . . 2.1.1 Distributions deectifs et de fr equences . . . . . 2.1.2 Repr esentations de la distribution . . . . . . . . 2.2 Etude statistique dune variable quantitative . . . . . . 2.2.1 Repr esentation de la distribution . . . . . . . . . 2.2.2 R esum es statistiques de position : La moyenne et 2.2.3 R esum es statistiques de dispersion . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . la m ediane . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

3 Statistiques descriptives bivari es 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Etude statistique de deux variables qualitatives . . . . . . . . . . . . . . . 3.2.1 Distributions marginales et conditionnelles . . . . . . . . . . . . . 3.2.2 Ind ependances de deux variables . . . . . . . . . . . . . . . . . . . 3.3 Etude statistique dune variable qualitative et dune variable quantitative 3.4 Etude statistique de deux variables quantitatives . . . . . . . . . . . . . . 4 La r egression lin eaire A Liste des variables pour les clientes dune soci et e de VPC

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

B Programmes R B.1 Traitements univari es : Etude dune variable qualitative . . . . . . . . . . . . . . . . . . . . . B.2 Traitements univari es : Etude dune variable quantitative . . . . . . . . . . . . . . . . . . . . C Traitements bivari es C.1 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.2 R egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
1.1

Introduction
Quest ce que les statistiques ?

Denition 1. On appelle Statistique Descriptive lensemble des m ethodes et techniques math ematiques permettant de pr esenter, d ecrire et r esumer un ensemble de donn ees. Les m ethodes utilis ees en Statistique descriptive sont tr` es vite limit ees. Denition 2. La Statistique Inf erentielle est lensemble des techniques visant ` a mod eliser un ensemble de donn ees en vue dune extrapolation eventuelle ` a un ensemble plus vaste. La statistique inf erentielle utilise de mani` ere importante les probabilit es. Elle atteint ses limites lorsque lon est en pr esence dun trop grand nombre de donn ees, ou en pr esence de donn ees h et erog` enes. Denition 3. Lapprentissage statistique est lensemble des techniques visant ` a mod eliser et ` a extraire automatiquement une connaissance dune grande base de donn ees. On atteint la fronti` ere avec les m ethodes utilis ees en Intelligence Articielle.

1.2
1.2.1

Recueil des donn ees statistiques


Le recensement

Exemple 4. Pour etudier la r epartition des terres agricoles dune r egion, on r ealise le recensement des exploitations agricoles (soit n leur nombre) et on note pour chacune delles un certains nombre de caract eristiques comme : leurs tailles, le type de cultures, l age de lexploitant, ....

Les r esultats obtenus sont consign es dans un tableau : N 1 2 3 . . . 630 Taille(ha) 50 50,5 35 . . . 10 (ann Age ees) 50 45 38 . . . 57 Culture bl e vigne orge . . . vigne Nbre demploy es 2 4 3 . . . 1

Tab. 1 R esultat du recensement des exploitations agricoles de la r egion A partir de cette table on pourra r ealiser di erentes etudes statistiques. 2

1.2.2

Le plan dexp erience

Exemple 5. Pour etudier leet dun antid epresseur, on administre en double aveugle un placebo et un principe actif. On mesure ` a intervalle r egulier l evolution de la maladie. On cherche ensuite ` a en tirer des conclusions sur lecacit e du traitement. Pour mesurer lecacit e du produit on demande aux patients de r epondre ` a un questionnaire de ce type tous les mois pendant un an : 1. I say how bad or useless I am, for example, that I am a burden on others 2. I laugh or cry suddenly 3. I often moan and groan in pain or discomfort 4. I act nervous or restless 5. I keep rubbing or holding areas of my body that hurt or are uncomfortable 6. I talk about the future in a hopeless way 7. I get sudden frights Les r esultats obtenus sont consign es dans un tableau : Visite 1 1 . . . 1 2 2 . . . 2 12 12 . . . 12 Individu 1 2 . . . 175 1 2 . . . 175 1 2 . . . 175 Rep1 0 0 . . . 1 1 0 . . . 1 1 0 . . . 1 ... ... ... . . . ... ... ... . . . ... ... ... . . . ... Rep7 1 0 . . . 0 1 0 . . . 0 1 0 . . . 0 Groupe 2 1 . . . 1 2 1 . . . 1 2 1 . . . 1

Tab. 2 R eponses de 175 personnes tous les mois pendant un an

Cet exemple est particulier dans la mesure o` u les individus sont index es par le temps : cest ce que lon appelle une s erie chronologique. 1.2.3 Lexploitation des bases de donn ees

Exemple 6. Un VPCiste poss` ede environ 3 millions de clientes. Pour chaque cliente il dispose denviron 3000 donn ees. En vue davoir une protabilit e maximum, lenvoi dune promotion est faite sur une partie de ces clientes. Lobjectif est didentier les clientes qui sont le plus susceptible dacheter. Pour r ealiser son objectif, la soci et e doit pouvoir exploiter les bases de donn ees internes et externes qui vont nous renseigner sur le comportement dachat des clientes. Cela n ecessite de stocker un maximum dinformation utile sur les clientes (comportements dachats pass es, mode dachat, age, boutiques dachats,...) et eventuellement davoir recours ` a des pan` elistes (INSEE, SECODIP,...)

Liste des variables Numcli num ero de client Dep d epartement Com commune Reg R egion Sig Signal etique Probable Agepro Age RpQuEn R eponse ` a la question Avez vous des enfants ? RpQuTr R eponse ` a la question Travaillez vous ? Unitur Taille dunit e urbaine Niveauvie Niveau de vie PROPRIETAIRES proportion de propri etaires de leur logement dans liris STABILITE mesure du lien employeurs-employ es dans liris par type de contrat. CONFORT mesure de l equipement en bien ou pi` eces de conforts des logements de liris REVENU r ealis e` a partir des chiers des imp ots

1.3

D enitions

Denition 7. Une population statistique est lensemble sur lequel on eectue des observations. Elle est bien sp eci ee sil ny a pas dambigu t e sur la d enition de lensemble. Dans la partie Statistique Descriptive on appellera population lensemble des individus eectivement etudi es, sans chercher ` a etendre les constatations faites ` a une population plus vaste, ce qui rel` eve de la Statistique Inf erentielle. Dans les exemples pr ec edents, les populations etaient : 1. Lensemble des exploitation agricole de la r egion, 2. Lensemble de personnes interrog ees dans le cadre dun essai th erapeutique, 3. Lensemble des clientes dun VPCiste ` a un instant donn e. Denition 8. Les individus (ou unit es statistiques) sont les el ements de la population statistique etudi ee. Pour chaque individu, on dispose dune ou plusieurs observations. Dans les exemples pr ec edents, les individus etaient : 1. Une exploitation agricole, 2. Un patient, 3. Une cliente. Denition 9. Une variable statistique (ou caract` ere statistique) est ce qui est observ e ou mesur e sur les individus dune population statistique. Denition 10. Une variable est dite, selon le cas : 1. Quantitative : ses valeurs sont des nombres exprimant une quantit e, sur lesquels les op erations arithm etiques (somme, etc...) ont un sens. La variable peut alors etre discr` ete ou continue selon la nature de lensemble des valeurs quelle est susceptible de prendre (valeurs isol ees ou intervalle de R). 2. Qualitative : ses valeurs sont des modalit es, (ou cat egories, ou caract` eres ) exprim ees sous forme litt erale ou par un codage num erique sur lequel des op erations arithm etiques nont aucun sens. On distingue des variables qualitatives ordinales ou nominales, selon que les modalit es peuvent etre naturellement ordonn ees ou pas.

Une variable est dichotomique si elle na que 2 modalit es.

Fig. 1 R esum e des di erents types de variables

2
2.1
2.1.1

Statistiques descriptives univari es


Etude statistique dune variable qualitative
Distributions deectifs et de fr equences

En pr esence dune variable qualitative X pouvant prendre K modalit es x1 , x2 , ..., xK , on commence par r ealiser un tri ` a plat, cest ` a dire faire linventaire des modalit es ou valeurs rencontr ees dans la s erie, avec les eectifs correspondants. On construit donc un tableau de la forme : Modalit es x1 x1 . . . xK Total Eectifs n1 n2 . . . nK n

Tab. 3 Tri ` a plat (distribution deectifs)

On parle alors de la distribution deectifs de la variable X . On calcule ensuite les proportions (ou fr equence ) de chaque modalit e en divisant leectif de chaque modalit e par leectif total nk fk = n On r esume cette distribution dans un tableau de la forme :

Modalit es x1 x1 . . . xK Total

fr equences f1 f2 . . . fK 1

Tab. 4 Distribution de Fr equences

Denition 11. Le mode de la variable X est la modalit e ayant leectif le plus important. Par exemple, si on a un tableau de la forme Num ero de Cliente 1 2 3 . . . 627630 Signal etique M. Mme Mlle . . . Mme

Tab. 5 Variable Signal etique

On va par un tri ` a plat construire un tableau de la forme : Signal etique M. Mme Mlle Total Nombre de Clientes 60985 424641 142004 627630 Proportions 0,0972 0,6766 0,2262 1

Tab. 6 Distributions de la Variable Signal etique

Le mode de la variable Signal etique est Mme. 2.1.2 Repr esentations de la distribution

Une variable qualitative peut se repr esenter ` a laide de trois types de diagrammes : 1. Un diagramme rectangulaire 2. Un diagramme en camembert (ou semi-camembert) 3. Un diagramme en b aton Remarque 12. A lire dans la documentation en ligne de R :  Pie charts are a very bad way of displaying information. The eye is good at judging linear measures and bad at judging relative areas. A bar chart or dot chart is a preferable way of displaying this type of data.  En pr esence dune variable ordinale il est imp eratif de respecter lordre naturel des modalit es

Fig. 2 Distribution de la taille des habits achet es par les clientes

2.2

Etude statistique dune variable quantitative

Soit X une variable quantitative observ ee sur une population P de taille n. Le but dune etude de statistique descriptive de cette variable est : de visualiser ` a laide de graphique la distribution de cette variable, les principales repr esentations utilis ees sont : 1. lhistogramme en b aton si la variable est discr` ete 2. lhistogramme des densit es si la distribution est continue 3. la courbe des fr equences cumul ees (ou des eectifs cumul es) 4. les bo tes ` a moustache de r esumer la distribution de cette variable ` a laide de quelques Statistiques, les principales statistiques sont : 1. des statistiques de positions comme la moyenne et la m ediane 2. des statistiques de dispersions comme la variance ou lintervalle inter-quartile 3. des statistiques de formes comme le kurtosis et le skewness 4. des d ecoupages de la distribution de la variable en quantit es dint er et comme les quartiles, les d eciles, les percentiles,... et dune mani` ere g en erale les fractiles. 2.2.1 Repr esentation de la distribution

Lhistogramme en b atons On consid` ere une variable X quantitative discr` ete qui prend un nombre ni de valeurs {x1 , x2 , . . . , xK }. On dispose pour chacune de ces valeurs de leectif correspondant {n1 , n2 , . . . , nK }. Exemple 13. On sint eresse au nombre denfants des clientes dun VPCiste et on a un tableau de la forme : Nombre denfants Nombre de Clientes 0 81023 1 123050 2 110532 3 76298 4 42087 5 10965 6 782

Tab. 7 Distribution deectif des clientes pour la variable  Nombre denfants 

Fig. 3 Un exemple dhistogramme en b aton Lhistogramme des densit es La variable est continue et prend ses valeurs dans un intervalle [l, L[. On va chercher ` a regrouper les valeurs proches, en d ecoupant lintervalle des valeurs en classes contigu es, de la forme : [l0 ; l1 [, [l1 ; l2 [, [l2 ; l3 [, . . . [lK 1 ; lK [ On appelle ce d ecoupage, et on note n1, n2, . . . , nK les eectifs associ es. On calcule pour chaque intervalle, la fr equence associ ee puis la densit e de fr equence. On r esume les calculs dans un tableau de la forme : No k 1 . . . k . . . K Intervalles [lk1 , lk [ [l0 , l1 [ . . . [lk1 , lk [ . . . [lK 1 , lK [ Amplitudes ak a1 . . . ak . . . aK Eectifs nk n1 . . . nk . . . nK Fr equences fk f1 . . . fk . . . fK Densit es de fr equence dk d1 . . . dk . . . dK

Lamplitude de lintervalle k est donn ee par ak = lk lk1 , la fr equence des individus dans lintervalle k est fk k e de fr equence dans lintervalle k est donn ee par dk = a . donn ee par fk = n n , nalement la densit k Denition 14. Lhistogramme des fr equences associ ee au d ecoupage est le graphe de la fonction f constante par morceau sur R d enie par 0 si x < l0 dk si x [lk1 ; lk [ f (x) = 0 si x lk Proposition 15. La fonction f v erie
lk

f (x)dx = fk
lk 1

et

f (x)dx = 1.

Exemple 16. On sint eresse au montant des achats des clientes au cours de lann ee : NO k 1 2 3 4 5 6 7 8 9 Intervalles [lk1 , lk [ [0, 20[ [20, 50[ [50, 80[ [80, 100[ [100, 150[ [150, 300[ [300, 500[ [500, 1000[ [1000, 2000[ Amplitudes ak 10 30 30 20 50 150 200 500 1000 Eectifs (en millier ) nk 71 80 112 123 132 96 40 2 0, 1

Courbes des fr equences cumul ees Denition 17. Si X est une variable quantitative discr` ete, la courbe des fr equences cumul ees est la fonction F constante par morceau sur R d enie par 0 si x < x0 Fk1 si x [xk1 ; xk [ F (x) = 1 si x xK avec Fk = l=1 fl . Si X est une variable quantitative continue, la courbe des fr equences cumul ees associ ee au d ecoupage est la fonction F lin eaire par morceau sur R d enie par 0 si x < l0 k Fk1 Fk1 + (x lk1 ) F F (x) = lk lk1 si x [lk1 ; lk [ 1 si x lk avec Fk =
k l=0 k

fl .
x

Proposition 18. On a F (x) =

f (t)dt

2.2.2

R esum es statistiques de position : La moyenne et la m ediane

Calcul de la moyenne sur la s erie brute La moyenne est le r esum e statistique le plus souvent utilis e pour caract eriser la position de la variable . La m X . On la note m(X ) o` uX ediane est aussi tr` es souvent utilis ee, on la note M (X ). Pour calculer la moyenne, on fait la somme des valeurs observ ees et on divise par leectif total : m(X ) = 1 n
n

Xi
i=1

Exemple 19. Par exemple, si on a un tableau de la forme

Num ero de Cliente 1 2 3 . . . 627630 Total

CA (en euros) 0,00 50,40 10,00 . . . 10,70 20 460 738,00

Tab. 8 Variable C.A. On trouve que le chire daaire moyen par cliente est de : m(CA) = 20460738 = 32, 6 627630

Calcul de la moyenne dans le cas de regroupement deectifs On a un tableau de la forme : NO k 1 . . . k . . . K Intervalles (cas continu) [lk1 , lk [ [l0 , l1 [ . . . [lk1 , lk [ . . . [lK 1 , lK [ Valeur (ou milieu) xk x1 . . . xk . . . xK Eectifs nk n1 . . . nk . . . nK Fr equences fk f1 . . . fk . . . fK

Dans ce cas on eectue une moyenne pond er ee par les eectifs : m(X ) = 1 n
K K

nk xk =
k=1 k=1

fk xk

Proposition 20. Soit X une variable statistique et soient a et b deux nombres r eels. Consid erons la nouvelle variable Z = aX + b, on a alors m(Z ) = m(aX + b) = am(X ) + b. On peut utiliser cette proposition pour calculer la moyenne de X en utilisant un changement de variable. Cela permet de simplier les calculs. Calcul de la m ediane sur la s erie brute Pour calculer la M ediane, on commence par ordonner les valeurs prises par la variable statistique. On note X(1) la premi` ere valeur, X(2) la deuxi` eme valeur, ..., X(n) la plus grande valeur. On a donc : X(1) X(2) . . . X(n) On pose ensuite X( n+1 ) 2 M (X ) = X +X n ( 2 +1) (n 2)
2

si n est impair si n est pair

10

Exemple 21. Si on r eordonne les clientes par CA, on aura un tableau de la forme Rang de la cliente 1 2 3 . . . 313815 313816 . . . 627630 Total Num ero de Cliente 1 126 260 . . . 42004 4816 . . . 608524 20 460 738,00 Tab. 9 Variable C.A. On trouve que le chire daaire m edian des clientes est de : M (CA) = Les fractiles Denition 22. On appelle fractiles dordre k les valeurs G1 , G2 , . . . , Gk1 qui divisent la s erie en k parties deectifs egaux. Par exemple les quartiles Q1 , Q2 , Q3 divisent la s erie statistique ordonn ee en 4 parties deectifs egaux. Les d eciles, D1 , D2 , ..., D9 divisent la s erie ordonn ee en dix parties deectifs egaux. Sur la s erie brute, les fractiles se d eterminent en ordonnant les valeurs et en faisant des paquets egaux en eectifs. Calcul de la m ediane (et des fractiles) ` a laide de la courbe des fr equences cumul ees On ne traite que le cas de la m ediane, les autres fractiles se traitent de mani` ere similaire. On cherche le nombre M tel que F (M ) = 0, 5. On commence par d eterminer lintervalle [lk1 , lk [ tel que Fk1 0, 5 < Fk . Si Fk1 = 0, 5 alors M = lk1 , sinon M est une nombre dans lintervalle ]lk1 , lk [ ` a d eterminer par interpolation lin eaire. 40, 70 + 41, 00 = 40, 85 2 CA (en euros) 0,00 0,00 0,00 . . . 40,70 41,00 . . . 6275,70

Fig. 4 Calcul de la m ediane

11

Dapr` es la d enition 17, on doit r esoudre en M l equation 0, 5 M lk1 0, 5 Fk1 = = lk lk1 Fk Fk1 lk lk1 Fk Fk1 Fk1 + (M lk1 ) Fk Fk1 lk lk1

Cest un rapport daccroissement. On en d eduit que M = lk1 + (0, 5 Fk1 )

2.2.3

R esum es statistiques de dispersion

La moyenne et la m ediane sont des valeurs autour desquelles les observations sont r eparties. On cherche d esormais ` a quantier la dispersion des mesures autour de ces valeurs centrales.

Fig. 5 Deux distributions egalement positionn ees mais plus ou moins dispers ees Les statistiques utilis ees sont 1. L etendue E = Xmax Xmin , cette mesure est peu pratique et tr` es sensible aux valeurs extr emes de la s erie (erreurs de saisie,...) 2. Lintervalle interquartile Q3 Q1 n | mais il est peu utilis 3. L ecart absolu moyen 1/n i=1 |Xi X e car il se pr ete mal au calcul 4. La variance est la statistique la plus utilis ee, elle est d enie comme la moyenne des carr es des ecarts ` a la moyenne. Pour une s erie brute n 1 V (X ) = (Xi m(X ))2 n i=1 et lorsque lon a des eectifs regroup es : V (X ) = 1 n
K

nk (xk m(X ))2


k=1

L ecart-type est d eni comme la racine carr ee de la variance s(X ) = 12

V (X )

Propri et es de la Variance Proposition 23. Soit X une variable statistique. 1. On a V (X ) 0 et V (X ) = 0 ssi Xi = c pour tout i. 2. On a V (X ) = m(X 2 ) m(X )2 , cest ` a dire que la variance est la moyenne de la variable X 2 moins la moyenne de X elev ee au carr e. 3. Pour tous r eels a et b, V (aX + b) = a2 V (X ) et s(aX + b) = |as(X ) 4. Pour toute population de moyenne m et d ecart-type s , la proportion dindividus appartenant ` a des intervalles de la forme [m ks; m + ks] est sup erieure ou egale ` a 1 1/k 2 , pour tout k > 1 (in egalit e de Bienaym e-Tch ebichev). Les bo tes ` a moustaches La bo te a ` moustache (le box-plot) est un graphique qui permet de visualiser la distribution dune variable X . On la construit de la mani` ere suivante : 1. On trace une bo te de longueur Q3 Q1 2. On partage la bo te par un trait ` a la position M 3. on trace la moustache de gauche de longueur min(Q1 Xmin , 1, 5 (Q3 Q1 )) 4. on trace la moustache de droite de longueur min(Xmax Q3 , 1, 5 (Q3 Q1 )) 5. Si certains individus sont en dehors des moustaches, on les repr esente par des .

3
3.1

Statistiques descriptives bivari es


Introduction
A la suite dune etude statistique, on a etudi e un certain nombre de variables, par exemple : 1. le nombre denfant par cliente, 2. le montant des achats sur lann ee d epens e par cliente, 3. les types des produits les plus achet es par les clientes, 4. ...

Mais ceci ne nous permet pas de mettre en evidence les liens existant peut etre entre l age et les produits achet es : les clientes  jeunes ach` etent elles les m emes produits que leurs a n ees ? le type de produit achet e est-il le m eme quelle que soit le nombre denfant de la cliente ? Le montant moyen d epens e par une cliente est-il fonction de sa CSP ? ... On a jusqu` a maintenant fait de la statistique descriptive univari ee, cest-` a-dire de la description dune s erie statistique selon une seule variable (l age par exemple). En plus de l etude s epar ee de chaque variable, on veut visualiser, et mesurer le cas ech eant, les liens existant entre les variables prises deux ` a deux : cest lobjet de la statistique descriptive bivari ee. Ceci se fera, comme pr ec edemment, au moyen de tableaux, graphiques, et calcul de param` etres-cl es. On traitera donc maintenant du cas o` u lon dispose de deux variables, X et Y , observ ees sur les m emes n individus. Chacune des deux variables pouvant etre qualitative, quantitative discr` ete, quantitative continue, on envisagera chaque cas de gure.

13

3.2

Etude statistique de deux variables qualitatives

X est une variable qualitative pouvant prendre K modalit es x1 , . . . , xK et Y est une variable qualitative pouvant prendre L modalit es y1 , . . . , yL . On construit le tableau de contingence : X \Y x1 . . . xk . . . xK Total y1 n11 . . . nk 1 . . . nK 1 n.1 ... ... ... ... ... yl n1 l . . . nkl . . . nKl n.l ... ... ... ... ... yL n1 L . . . nkL . . . nKL n.L Total n1 . . . . nk. . . . nK. n.. = n

qui repr esente la distribution deectif du couple de variable (X, Y ). Par d enition
L

nk.

=
l=1 K

nkl

n.l

=
k=1

nkl .

Exemple 24. On a une variable binaire qui prend la valeur 1 si la cliente ach` ete du haut de gamme et 0 sinon, et une variable binaire qui prend la valeur 1 si la cliente fait ses achats par internet 0, sinon. Lorsque lon croise ses deux variables, on obtient un tableau de la forme : Haut de Gamme \ Internet Vrai Faux Total Faux 52482 154852 207334 Vrai 126214 205007 331221 Total 178696 359859 538555

Tab. 10 Les clientes qui ach` etent par internet ach` etent elles plus facilement du haut de gamme ? La distribution de fr equence du couple de variable (X, Y ) est r esum ee dans un tableau similaire : X \Y x1 . . . xk . . . xK Total y1 f11 . . . fk1 . . . fK 1 f.1 ... ... ... ... ... yl f1l . . . fkl . . . fKl f.l ... ... ... ... ... yL f1L . . . fkL . . . fKL f.L Total f1. . . . fk. . . . fK. f.. = 1

Exemple 25. On obtient un tableau de la forme : Haut de Gamme \ Internet Vrai Faux Total Faux 0,097 0,287 0,384 Vrai 0,234 0,382 0,616 Total 0,331 0,669 1,000

Tab. 11 Les clientes qui ach` etent par internet ach` etent elles plus facilement du haut de gamme ? (suite) 14

3.2.1

Distributions marginales et conditionnelles

Denition 26. On appelle distribution marginale des fr equences (des eectifs) la distribution des fr equences (eectifs) obtenue dans la marge dun tableau de contingence, en ajoutant les fr equences (eectifs) ligne par ligne, ou colonne par colonne. La distribution conditionnelle de la variable Y , pour X = xk x e, est la distribution statistique des valeurs de Y obtenue en se limitant aux individus pour lesquels X est egal ` a xk . La distribution conditionnelle de Y sachant X = xk sobtient en calculant les quantit es : fkl nkl /n nkl = = fk. nk. /n nk. La distribution conditionnelle de X sachant Y = yl sobtient en calculant les quantit es : fkl nkl /n nkl = = f.l n.l /n n.l Exemple 27. On obtient les distributions conditionnelles du  Haut de Gamme sachant  Internet suivantes : Haut de Gamme \ Internet Vrai Faux Total Faux 0,25 0,75 1,00 Vrai 0,38 0,62 1,00

Tab. 12 Les clientes qui ach` etent par internet ach` etent elles plus facilement du haut de gamme ? (suite) On observe sur cet exemple que parmi les acheteuses sur internet, une proportion plus importante ach` ete du haut de gamme. Il semble quil existe une liaison entre ces deux variables. 3.2.2 Ind ependances de deux variables

Notion dind ependance Denition 28. Deux variables statistiques X et Y sont dites ind ependantes si la distribution conditionnelle de Y , pour tout x, est constante (cest-` a-dire ne d epend pas de x). Cela signie que les lignes du tableau de contingence sont proportionnelles, ou de fa con equivalente que les colonnes du tableau de contingence sont proportionnelles, et donc que la distribution conditionnelle de X , pour tout y , est constante. Remarque 29. Cette d enition nest (presque) jamais v eri ee. En pratique, il faut v erier que les lignes (ou les colonnes) sont  presque proportionnelles. Le crit` ere du 2 Denition 30. On appelle fr equences et eectifs th eoriques sous lhypoth` ese dind ependance du couple de variable X et Y les quantit es : nk. n.l f kl = nf kl = fk. f.l et n kl = n Le crit` ere du 2 permet de tester lind ependance entre deux variables en mesurant la distance entre la distribution observ ee et la distribution th eorique.
K L

2 =
k=1 l=1

(nkl n kl )2 =n n kl 15

k=1 l=1

2 (fkl f kl ) f kl

En premi` ere approximation, on consid erera que les variables X et Y ne sont pas ind ependantes si 2 p + 2 2p

o` u p = (K 1)(L 1) est le nombre de degr e de libert e. Un crit` ere plus pr ecis sera construit en statistique inf erentielle.

3.3

Etude statistique dune variable qualitative et dune variable quantitative

Soient Y une variable quantitative et soit X une variable qualitative de modalit es x1 , ..., xK . On note I lensemble des individus {1, . . . , n}. La variable X induit une partition de cet ensemble en K sous-ensembles I1 , ..., IK v eriant
K

Ik = I ,
k=1

et

Ik Il = si k = l

de plus on a Card(Ik ) = nk et donc n1 + . . . + nk + . . . + nK = n. On parlera alors de sous-population. Exemple 31. Le montant moyen dachat r ealis e (en euros) a et e relev e parmi trois groupes de clients class es suivant les crit` eres  FID , (d` ele),  OCC (Occasionnel)  NOU (Nouvelle) FID No OCC No NOU No 79 1 51 17 52 11 62 2 88 18 51 12 78 3 58 19 44 13 81 4 57 20 37 14 75 5 59 21 79 15 87 6 69 22 36 16 71 7 51 23 85 8 71 24 75 9 38 25 91 10

Moyennes et Variances conditionnelles Denition 32. Pour k = 1, . . . , K , on d enit la moyenne conditionnelle de Y sachant que X = xk par : k = m(Y |X = xk ) = Y et la variance conditionnelle de Y sachant que X = xk par V (Y |X = xk ) = s2 k = 1 nk k )2 = (Yi Y
iIk

1 nk

Yi
iIk

1 nk

2 k Yi2 Y iIk

Les sommes sont faites sur les nk individus qui ont pris la modalit e xk . Formule de d ecomposition de la variance On r esume les moments conditionnels dans le tableau suivant : Populations 1 2 . . . K Eectifs n1 n2 . . . nK Moyennes conditionnelles m(Y |X = x1 ) m(Y |X = x2 ) . . . m(Y |X = xK ) Variances conditionnelles V (X |X = x1 ) V (X |X = x2 ) . . . V (X |X = xK )

16

Proposition 33. La moyenne g en erale de Y est egale ` a la moyenne des moyennes : m(Y ) = 1 n
K

nk m(Y |X = xk )
k=1

Denition 34. On appelle Variance Intra-Classe la moyenne des variances Vintra (Y ) = 1 n


K

nk V (Y |X = xk ) =
k=1

1 n

nk s2 k
k=1

et on appelle Variance Inter-Class la variance des moyennes Vinter (Y ) = 1 n


K

k=1

k Y )2 = 1 nk (Y n

K 2 k 2 nk Y Y k=1

Proposition 35. La variance de la variable Y se d ecompose sous la forme V (Y ) = Vintra (Y ) + Vinter (Y ) Lanalyse de la variance Cette technique a et e d evelopp ee au d ebut du si` ecle par lagronome Fischer. On veut mesurer leet dun facteur sur une variable dint er et. Voici des exemples : 1. On epand des niveaux dengrais {faible, moyen, fort} (variable X ) sur des parcelles de bl e et on rel` eve le rendement ` a lhectare (variable Y ). 2. On nourrit des rats avec trois sources de prot eines {boeuf, porc, soja} (variable X ) et on rel` eve la prise de poids au bout dun mois (variable Y ). 3. On soumet ` a un groupe de patient un placebo ou un principe actif (variable X ) et on etudie l evolution de leur maladie (variable Y ). Un crit` ere pour mesurer leet de ce facteur est de calculer la variance intra-classe et la variance inter-classe et de faire le rapport : Vinter (Y ) e2 = V (Y ) Plus e2 est grand et plus cela indique quil y a un eet facteur.

3.4

Etude statistique de deux variables quantitatives

Repr esentation graphique Pour repr esenter deux variables quantitatives, on trace un nuage de points

17

Fig. 6 Repr esentation de la taille et du poids par un nuage de point Le point de coordonn ee (m(X ), m(Y )) est appel e le centre de gravit e du nuage. Mesures de liaison lin eaire : La Covariance et la Corr elation Denition 36. On appelle Covariance des variables X et Y et on note Cov (X, Y ) la quantit e: Cov (X, Y ) = 1 n
n

(Xi m(X ))(Yi m(Y ))


i=1

On appelle Corr elation des variables X et Y et on note r(X, Y ) la quantit e: r(X, Y ) = Cov (X, Y ) V (X )V (Y )

Proposition 37. Soient X et Y , Z trois variables et soient a, b, c, d 4 nombres r eels, la covariance v erie : 1. Cov (aX + b, cY + d) = acCov (X, Y ) 2. Cov (X, Y + Z ) = Cov (X, Y ) + Cov (X, Z ) 3. Cov (X, Y ) = m(XY ) m(X )m(Y ), en particulier en prenant X = Y , V (X ) = Cov (X, X ) Le coecient de corr elation v erie 1 r(X, Y ) 1 de plus r(X, Y ) = 1 ssi les points (Xi , Yi ) sont align es sur une droite. La variance v erie V (X + Y ) = V (x) + V (Y ) + 2Cov (X, Y ) Quelques exemples de nuages de points :

18

Fig. 7 Coecients de corr elations importants Dautres exemples de nuages de points :

Fig. 8 Coecients de corr elations faibles Remarque 38. Ce nest pas parce que le coecient de corr elation est proche de 0, quil nexiste pas de relations entre les variables. Il peut exister une relation qui nest pas lin eaire. Remarque 39. Ce nest pas parce que le coecient de corr elation est proche de 1, quil existe une relation entre les variables ! ! ! Par exemple si on rel` eve au cours des ann ees ecoul ees les eectifs de lenseignement sup erieur (X ) et le nombre de ch omeurs au Canada (Y ) on trouve un coecient de corr elation r = 0, 94. En fait ces deux variables ont augment e en m eme temps.

La r egression lin eaire

Introduction Relations fonctionnelles et tendancielles Un physicien mesure ` a di erents moments : la temp erature la longueur dune barre m etallique. 19

Des ing enieurs, proc edant ` a l etude dun nouveau syst` eme de freinage sur un v ehicule, mesurent au cours de plusieurs essais : la vitesse du v ehicule la distance parcourue en ligne droite avant larr et. Un m edecin scolaire note pour chaque enfant : sa taille son poids. Un economiste rassemble pour plusieurs pays, ` a une date donn ee, les informations suivantes : le nombre dhabitants le produit national brut (PNB). Un comptable, etudiant l evolution des comptes dune entreprise note sur plusieurs ann ees : lann ee etudi ee le chire daaires r ealis e cette ann ee l` a. Relation Fonctionnelle et corr elations lin eaires

(a)

(b)

(c)

Fig. 9 (a) Temp erature (X ) et Longueur (Y ), (b) Taille (X ) et Poids (Y ), (c) PNB (Y ) et Nombre dhabitants (X ) en Europe. Le premier graphique repr esente une relation fonctionnelle, cest ` a dire que ` a chaque valeur de la variable X est associ ee une valeur et une seule de la variable Y . Les deux autres graphiques repr esentent des cas de corr elation lin eaire entre deux variables. Dans ce cas on dira que Y a tendance ` a croitre (ou ` a d ecro tre) lorsque X croit. Absence de relation

20

(d)

(e)

Fig. 10 (d) Balance des paiements (X ), taux de change (Y ), (e) Eectifs du secteur priv e en Loz` ere (Y ), Dates (X ). D enition de la droite des moindres carr es On cherche ` a exprimer la relation entre deux variables X et Y : X est appel ee la variable ind ependante ou explicative. Les valeurs de X sont x ees par lexp erimentateur ou connues sans erreur (exemple : concentrations dun produit ` a doser, dates, ...). Y est la variable d ependante ou expliqu ee (exemple : r eponse de lanalyseur). Les valeurs de Y peuvent etre d etermin ees ` a partir de la variable X ` a une erreur pr` es. Lun des buts de la r egression sera pr ecis ement destimer cette erreur. On va chercher une relation de la forme : Y = aX + b + E. Cest l equation dune droite, do` u le terme de r egression lin eaire, plus un terme derreur. Solution de la droite des moindres carr es La m ethode des moindres carr es consiste ` a chercher les valeurs des param` etres a et b qui rendent la somme des carr es des erreurs r esiduelles minimale.
n n

(1)

min
a,b i=1

e2 i =
i=1

(yi axi b)2 .

Proposition 40. Si V ar(X ) = 0 alors la droite des moindres carr es a pour coecient directeur a = et pour constante b = m(Y ) a m(X ). Propri et es de la droite des moindres carr es Proposition 41. La droite des moindres carr es passent par le centre de gravit e du nuage (m(Y ), m(X )). (3) Cov (X, Y ) V ar(X ) (2)

21

la variable E est centr ee (m(E ) = 0). =a La variable Y X + b sappelle la valeur pr edite par le mod` ele et on a la formule de d ecomposition de la variance : ) + V ar(E ), V ar(Y ) = V ar(Y ce qui se lit variance totale = variance expliqu ee + variance r esiduelle. On appelle R2 la part de variance expliqu ee : R2 = Cest un indicateur de la qualit e de la r egression. V ar(Y . V ar(Y )

Liste des variables pour les clientes dune soci et e de VPC

1. Numcli : num ero de client 2. Dep : d epartement 3. Com : commune 4. Reg : R egion 5. Sig : Signal etique 1-Mr 2-Mme 3-Mlle Probable 6. Agepro : Age 1- moins de 30 ans 2- 30-40ans 3- 40-50ans 4- 50-60 ans 5- 60-70ans 6- plus de 70 ans 7. bf RpQuEn R eponse ` a la question :  Avez vous des enfants ?  8. RpQuTr R eponse ` a la question :  Travaillez vous ?  9. TypFem : Typologie Femme F1 :femme ag ee traditionnelle F2 :femme classique plus ag ee F3 :femme sportive pratique F4 : femme classique sophistiqu ee F5 : femme classique diversi ee F6 : femme mode haut de gamme F7 : jeune femme, urbaine, mode F8 : jeune femme sportwear basique F9 : Jeune femme mode petit prix 10. Unitur : Taille dunit e urbaine 0- rural 1-moins de 5 000 habitants 2-5 000-10 000 habitants 3-10 000-20 000 habitants 4-20 000-50 000 habitants 5-50 000-100 000 habitants

22

11.

12.

13.

14.

6-100 000-200 000 habitants 7-200 000-2 Millions habitants 8- R egion parisienne + agglo Groupe : typologie iris TYPE 1 : Rural ag e modeste TYPE 2 : Rural profond peu attractif TYPE 3 : Saisonnier petites villes TYPE 4 : Saisonnier villages TYPE 5 : Rural jeune TYPE 6 : Rural ais e TYPE 7 : Urbain pr ecaire TYPE 8 : Urbain moyen TYPE 9 : Urbain dynamique TYPE 10 : Urbain ais e Niveauvie : -La classe 1 :  iris pr ecaris es , qui regroupe les zones les plus pauvres, fortement touch ees par le ch omage, et avec un niveau d etudes tr` es bas. De plus, cest la classe contenant la plus faible proportion de cadres. -La classe 2 :  iris modestes actifs , contient elle aussi des zones aux revenus faibles. Mais cest aussi la classe la moins touch ee par le ch omage. Les CSP ouvriers et agriculteurs y sont le plus sur-repr esent ees, Et elle est compos ee de 87% diris appartenant ` a des communes rurales. -La classe 3 :  iris interm ediaires , est compos ee de zones au revenu moyen, avec un niveau d etudes moyen et un taux de ch omage assez elev e. Les habitants de ces zones appartiennent ` a peu pr` es equitablement ` a toutes les CSP. -La classe 4 :  iris moyens sup erieurs poss` ede un revenu moyen par contribuable de 30% sup erieur au revenu global fran cais. Les habitants de ces zones sont dun niveau d etudes elev e, et appartiennent a toutes les cat ` egories de CSP. Le taux de ch omage de cette zone est assez faible. -La classe 5 :  iris ais es est la classe qui contient la plus forte proportion de cadres (2 fois plus que la moyenne). Le revenu moyen par contribuable est tr` es elev e, et le niveau d etudes egalement. propri etaires (La proportion de propri etaires de leur logement dans liris) : 6 valeurs qui correspondent a la proportion de logements avec propri ` etaires dans liris par rapport au total des logements. Valeur 1 : 25% > x. Valeur 2 : 25% <= x < 4%. Valeur 3 : 5% <= x < 6%. Valeur 4 : 6% <= x < 6%. Valeur 5 : 6% <= x < 7%. Valeur 6 : 7% <= x. (Valeurs bas STABILITE ees sur des coecients repr esentant le lien employeur-employ e des habitants de liris selon la stabilit e des contrats) : 5 valeurs selon la solidit e des contrats de travail des habitants de liris (fonctionnaire, CDD, Emploi jeune, CDI). Pour les CES, contrats jeunes, apprentis sous contrats et stage r emun er e un coef de 30 a et e appliqu e. Pour les int erims un coef de 60. Pour les CDD un coef de 80. Pour les CDI un coef de 110. Pour les fonctionnaires un coef de 140. Valeur 1 : Le lien de contrat employeur-employ e est tr` es faible concernant les habitants de cette zone 20% des iris. Valeur 2 : Le lien de contrat employeur-employ e est faible concernant les habitants de cette zone 20% des iris. Valeur 3 : Le lien de contrat employeur-employ e est moyen concernant les habitants de cette zone 20% des iris. 23

Valeur 4 : Le lien de contrat employeur-employ e est fort concernant les habitants de cette zone 25% des iris. Valeur 5 : Le lien de contrat employeur-employ e est tr` es fort concernant les habitants de cette zone 15% des iris. 15. CONFORT (Valeurs bas ees selon l equipement en bien ou pi` eces de conforts des logements de liris) : 5 valueurs selon l equipement des maisons. Une courbe de percentiles de confort est r ealis e` a partir de coecients puis d ecoup ee : Le pourcentage de taudis*10 + le pourcentage de logement sans salles deau et toilettes int erieurs*8 + le pourcentage de logement avec wc int erieur et sans salles deau*5 + le pourcentage de logement avec salle deau sans wc int erieur*5 +% dhabitats sans chauages centrales*3 +% des logements equip es dune fosse sceptique*1 +% des logements avec tout ` a l egout *-0.05 +% des logements tout conforts*-0.05 +% habitats avec garage*-0.05. Valeur 1 : 20% des iris, Logements tr` es peu equip es. Valeur 2 : 20% des iris, Logements peu equip es. Valeur 3 : 20% des iris, Logements moyennement equip es. Valeur 4 : 20% des iris, Logements equip es. Valeur 5 : 20% des iris, Logements tr` es equip es. 16. ENFANTS (Proportion dindividus de la tranche d age 0 ` a 15 ans sur la population totale de liris) : 10 valeurs. Valeur 1 : x<10.5%. Valeur 2 : 10.5%<=x<12%. Valeur 3 : 12%<=x<14.5%. Valeur 4 : 14.5%<=x<16%. Valeur 5 : 16%<=x<17.5%. Valeur 6 : 17.5%<=x<18.5%. Valeur 7 : 18.5%<x<=20%. Valeur 8 : 20%<x<=22%. Valeur 9 : 22%<x<=24%. Valeur 10 : 24%<x. : 17. REVENU (r ealis ee ` a partir des chiers des imp ots), elle comprend 10 valeurs allant des communes les plus pauvres aux communes les plus riches (en Frs). Ddonn ees COMPLEX DATA. Valeur 1 : 60000 frs>x. Valeur 2 : 60000<=x<65000. Valeur 3 : 65000<=x<70000. Valeur 4 : 70000<=x<75000. Valeur 5 : 75000<=x<82000. Valeur 6 : 82000<=x<88000. Valeur 7 : 88000<=x<95000. Valeur 8 : 95000<=x<105000. Valeur 9 : 105000<=x<115000. Valeur 10 : 115000<=x. 18. Macrocible : segmentation RFM (3 types de cliente : bonne, d` ele, ni bonne ni d` ele)

B
B.1

Programmes R
Traitements univari es : Etude dune variable qualitative
La commande R pour obtenir un graphique en camembert est la commande pie(..)

pie.sales <- c(0.12, 0.3, 0.26, 0.16, 0.04, 0.12)

24

names(pie.sales) <- c("Blueberry", "Cherry", "Apple", "Boston Cream", "Other", "Vanilla Cream") pie(pie.sales, col = c("purple", "violetred1", "green3","cornsilk", "cyan", "white")) title(main = "January Pie Sales", cex.main = 1.8, font.main = 1) title(xlab = "(Dont try this at home kids)", cex.lab = 0.8, font.lab = 3) et la commande correspondante pour obtenir un diagramme en b aton est la commande dotchart(...) ou la commande barplot(...). pie.sales <- c(0.12, 0.3, 0.26, 0.16, 0.04, 0.12) names(pie.sales) <- c("Blueberry", "Cherry", "Apple", "Boston Cream", "Other", "Vanilla Cream") colors = c("purple", "violetred1", "green3","cornsilk", "cyan", "yellow") op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, # dotchart dotchart( pie.sales , col = colors , xlim = c(0,0.4)) title( main = "January Pie Sales" , cex.main = 1.8, font.main = 1 , xlab = "(Dont try this at home kids)" , cex.lab = 0.8, font.lab = 3 ) # barplot barplot( pie.sales , space = 1.5 , col = colors) title( main = "January Pie Sales" , cex.main = 1.8, font.main = 1 , xlab = "(Dont try this at home kids)" , cex.lab = 0.8, font.lab = 3 ) ## At end of plotting, reset to previous settings: par(op)

B.2

Traitements univari es : Etude dune variable quantitative

On obtient un diagramme en b aton de la distribution des eectifs puis des fr equences ` a laide de la commande plot(...) : nbenf <- c(81023, 123050, 110532, 76298, 42087, 10965, 782) names(nbenf) <- c("0", "1", "2", "3", "4", "5", "6") op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, 25

f.tit <- "Distribution en effectif" x.tit <- "Nombre denfants par clientes" plot( , , , , , ) names(nbenf) nbenf type="h" xlab = x.tit cex.lab = 0.8 font.lab = 3

title( main = f.tit , cex.main = 1.8 , font.main = 1 ) n = sum(nbenf) n freqenf <-nbenf/n nbenf f.tit <- "Distribution en fr equence" plot( names(nbenf) , freqenf , type="h" , xlab = x.tit , cex.lab = 0.8 , font.lab = 3 ) title( main = f.tit , cex.main = 1.8 , font.main = 1 ) ## At end of plotting, reset to previous settings: par(op) Il existe une commande hist qui r ealise lhistogramme sur la s erie brute. # # Variables quantitatives continues : s erie brute # data(islands) op <- par(mfrow=c(2, 2)) # histogramme basique... hist(islands) # histogramme moins basique... str(hist(islands, col="gray", labels = TRUE)) #-- Intervalles non-equidistant # histogramme de la racine carr e 26

r <- hist( sqrt(islands) , br = c(5*0:4, 10*3:5, 70, 100, 140) , col=blue1 ) #Ajout des nombres text(r$mids, r$density, r$counts, adj=c(.5, -.5), col=blue3) # combien valent... sapply(r[2:3], sum) sum(r$density * diff(r$breaks)) # toujours 1 !!! # initialisation du device par(op) op <- par(mfrow = c(2, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, # histogramme faux -> 0/20 # histogramme de la racine carr e hist( sqrt(islands) , br = c(5*0:4, 40, 70, 100, 140) , col="lightblue" , border="pink" ) #-- Intervalles non-equidistant # histogramme de la racine carr e hist( sqrt(islands) , br = c(5*0:4, 40, 70, 100, 140) , col=blue1 , border="pink" , freq = TRUE , main = "WRONG histogram" ) # and warning # histogramme de la s erie brute # look at default str(hist(islands, br=6, plot= FALSE)) # str(hist( islands , br=c(12,20,36,80,200,1000,17000) , col="lightblue" , border="pink" , plot = TRUE )) hist( islands , br=c(12,20,36,80,200,1000,17000) , freq = TRUE

27

, , , ) # you

col=blue1 border="pink" main = "WRONG histogram" get warning

par(op) La command ecdf permet de calculer la courbe des fr equences cumul ees. data(islands) fc<-ecdf(islands) summary(fc) plot(fc) Commandes R pour le trac e des bo tes ` a moustache : data(iris) par(bg = "cornsilk") boxplot(split(iris[1], iris[5]), col = "lavender", notch = TRUE) title(main = "Iris Sepal Length", xlab = "Group", font.main = 4, font.lab = 1) boxplot(split(iris[2], iris[5]), col = "lavender", notch = TRUE) title(main = "Iris Sepal Width", xlab = "Group", font.main = 4, font.lab = 1)

C
C.1

Traitements bivari es
Analyse de la variance
On r ealise une analyse de la variance des donn ees ` a laide du programme R suivant

ventes <- list() ventes$obs <- c(79, 62, 78, 81, 75, 87, 71, 85, 75, 91 ,51, 88, 58, 57, 59, 69, 51, 71, 38, ,52, 51, 44, 37, 79, 36) ventes <-as.data.frame(ventes) ventes$factor<- as.factor(c("FID", "FID","FID","FID","FID","FID","FID","FID","FID","FID", "OCC", "OCC","OCC","OCC","OCC","OCC","OCC","OCC","OCC", "NOU","NOU","NOU","NOU","NOU","NOU",)) boxplot(split(ventes$obs, ventes$factor), col = "lavender", notch = TRUE) hist.ventes <-hist( ventes$obs, br=8, col="lightblue" , border="pink" , freq = TRUE , main = "Histogramme des ventes" ) text( hist.ventes$mids , hist.ventes$density , hist.ventes$counts , adj=c(.5, -.5) , col=blue3) analyse <- lm(ventes$obs ~ ventes$factor ) 28

analyse ventes$fitted.values <- analyse$fitted.values ventes On peut ensuite obtenir e2 en faisant le rapport des variances : e2 <- var(ventes$fitted.values) / var(ventes$obs) e2

C.2

R egression

On obtient une r egression ` a laide de la commande lm que nous avons utilis e en analyse de la variance : data(cars) x<-lm(dist~speed, data=cars) # regression de dist par speed

par(bg ="lightsteelblue") plot( dist~speed, data=cars , main = "Distance et Vitesse" , fg = "blue" , xlab= "Vitesse" , ylab = "Distance" , pch = 9 # diamond ) abline(x, col="red") # trac e de la droite de r egression print(x) names(x) x$coefficients x$fitted.values x$residuals

# # # #

elements de x coefficients de la droite de r egression valeurs pr edites erreurs

var(x$fitted.values)/var(cars$dist) # R^2

29

Vous aimerez peut-être aussi