Vous êtes sur la page 1sur 36

Universit Cadi Ayyad Facult des Sciences et techniques Marrakech

Rappel de la statistique descriptive

NASSEK Yousra Semestre 4 2012/2013

Donnes relatives aux employs dune banque

Questions se poser ? Comment peut-on rendre plus intelligibles ces donnes ? Quelles sont les reprsentations graphiques requises pour mieux visualiser le comportement de ces variables et quelles interprtations peut-on en faire ?
Existe-t- ils des valeurs typiques qui permettraient de rsumer lensemble des donnes ?

Statistique Ensemble des mthodes qui permettent de rassembler et d'analyser les donnes numriques

Les diffrentes tapes de toute tude statistique


Dfinition de la problmatique de ltude Collecte des donnes : Simple observation Exprimentation : i.e en provoquant volontairement l'apparition de certains phnomnes contrls 3. Prparation des donnes Consolidation, fiabilit, calcul de nouveaux indicateurs 4. Analyse statistique Analyse "dductive" ou descriptive a pour but de synthtiser et de prsenter les donnes observes pour que l'on puisse en prendre connaissance facilement : tableaux, graphiques ... Analyse "inductive" ou infrence permet d'tendre ou de gnraliser dans certaines conditions les conclusions obtenues. Cette phase comporte certains risques d'erreur qui peuvent tre mesurs en faisant appel la thorie des probabilits. 5. Production et diffusion des rsultats 1. 2.

Dfinitions
Population La population dsigne un ensemble dunits statistiques. Les units statistiques, aussi appeles individus, sont les entits abstraites qui reprsentent des personnes, des animaux Individu Unit de la population peut tre tudi selon certaines proprits. Ces proprits sont appeles caractres ou variables statistiques. Enqute Ensemble des oprations qui ont pour but de collecter de faon organise des informations relatives un groupe d'individus ou d'lments observs dans leur milieu ou leur cadre habituel. Recensement (Enqute exhaustive) Toutes les units de la population sont observes Sondage (Enqute partielle) Une partie de la population est observe (l'chantillon)

Dfinitions
Srie statistique Une srie statistique est la suite des observations dune (ou plusieurs) variable(s), releves sur les individus dune population. Exemple : Les notes des tudiants classes dans lordre croissant.

Variable qualitative: Ne peut faire lobjet dune mesure car il ne se prsente pas sous forme numrique. Les caractres qualitatifs se dclinent en plusieurs modalits Modalits: Les diffrentes valeurs prises par un caractre qualitatif 2 modalits pour la variable sexe : Masculin Fminin 5 modalits pour la variable couleurs des yeux : Noir Brun Bleu Vert Gris Variable quantitative: Exprimes selon une unit de mesure Les oprations arithmtiques ont un sens

Variables qualitatives
Nominal : chelle nominale : les codes utiliss ne servent qu identifier la modalit laquelle appartient lindividu.

Observations nominales

Dans cette chelle, il ny a pas de relations dordre entre les codes. Sexe : Fminin , Masculin Catemp : Cadre suprieur, Directeur, etc.

Variables qualitatives
Ordinal: Les codes utiliss permettent: didentifier la modalit laquelle appartient lindividu dtablir une relation dordre entre les modalits observables. Exemples : Groupe dge : 1. moins de 18 2. de 18 24; 3. 25 29; 4. 30 34; etc Niveau de scolarit : 1. primaire, 2. secondaire, 3. collgial, 4. universitaire

Variables quantitatives
Discrte : ne peut prendre quun nombre limit de valeurs (souvent entires) Continue : peut prendre toutes les valeurs dun intervalle fini ou infini Saldeb: Salaire du dbut Temps: Anciennet de lemploy EDUC : Nb dannes dtude

Observations quantitatives

Classes de modalits
On peut choisir de regrouper les diffrentes valeurs (modalits) dune variable en classes

Chaque classe est caractrise par: Borne infrieure Borne suprieure Amplitude (ai) Centre (ci)

Classes de modalits
Lamplitude de classe = la diffrence entre la valeur de lextrmit suprieure et la valeur de lextrmit infrieure Lamplitude a dune classe i sera donne par la formule suivante :

Exemple: Nombre denfants par femme

Classes de modalits
Le centre de classe=la moyenne des extrmits de classe Le centre c dune classe i sera donne par la formule suivante :

Exemple1: Nombre denfants par femme

Effectif et frquence
Considrons une population statistique de n individus dcrite selon le caractre x dont les k modalits sont x1, x2, ..., xi, ...., xk Leffectif dune valeur ni reprsente le nombre dindividus prsentant la modalit xi Leffectif total est la somme de tous les effectifs dune variable. La frquence dune valeur donne est le rapport de leffectif correspondant leffectif total. La frquence totale est toujours gale 1.

Effectif et frquence
Le tableau statistique initiale se prsentera sous la forme suivante :

Effectif et frquence
Exemple : une tude sur le niveau de scolarit des salaris de la socit X Population : salaris de la socit X. Unit statistique (individu) : chaque salari de la socit X. Variable (caractre) tudie : niveau de scolarit avec 4 modalits :primaire, collgial, secondaire, universitaire Effectif : leffectif de la modalit primaire = np, collgial = nc, secondaire = ns, universitaire = nu. Effectif total : N = np+ nc+ ns+nu Frquence : frquence de la modalit primaire = np/N, collgial =nc/N, secondaire =ns/N, universitaire =nu/N Frquence totale = (np+nc+ns+nu)/N=N/N=1

Effectifs cumuls
Quand les modalits ou les classes dune variable sont ranges dans lordre croissant (resp. dcroissant), les effectifs cumuls croissants (resp. dcroissants) dune valeur sobtiennent en ajoutant chaque effectif les effectifs des valeurs qui la prcdent. Les frquences cumules sobtiennent en divisant les effectifs cumuls par leffectif total. Exemple deffectif cumul : notes dune population de 21 tudiants.

Paramtres caractristiques dune variable


Paramtres de position/tendance centrale permettent de savoir autour de quelles valeurs se situent les valeurs dune variable statistique.
Mode Moyenne Mdiane

Paramtres de dispersion donnent des informations sur la rpartition des valeurs autour de la valeur centrale de rfrence.
Quantiles Variance Ecart type

Paramtres de position/tendance centrale


Mode
Pour une variable discrte, le mode est la modalit qui reprsente le plus grand effectif. Exemple : Exemple de srie statistique pour une variable discrte (qualitative ici).

Pour une variable quantitative continue, (du fait quil existe une infinit de modalits), on a recours des classes modales : cest la classe dont leffectif est maximum. Exemple : Notes dune population de 21 tudiants

Paramtres de position/tendance centrale


Moyenne Moyenne arithmtique La moyenne arithmtique dune srie statistique est la somme des valeurs divise par le nombre total des valeurs. Exemple, la moyenne de lanne est la somme des notes de tous les examens divise par le nombre dexamen. La moyenne de X se calcule par Dans cette formule, sont les notes et N est le nombre total des notes. Moyenne pondre Les valeurs sont affectes des coefficients (ici deffectifs) La moyenne pondre de X se calcule de la manire suivante :

Dans cette formule,

sont les effectifs correspondants aux modalits

Paramtres de position/tendance centrale


Moyenne Exemple 1:

Moyenne de la variable qualit de service (QS) : Exemple 2: La moyenne nest pas toujours un indicateur prcis, elle est sensible aux valeurs extrmes. Dans une classe, 5 tudiants obtiennent 9, 5 au partiel et un tudiant 18, 5. La moyenne du groupe est de 11 et pourtant seul un tudiant a valid le module correspondant...

Paramtres de position/tendance centrale


Mdiane La mdiane (Me) est la valeur, observe ou possible, dans la srie des donnes classes par ordre croissant (ou dcroissant) qui partage cette srie en deux parties comprenant exactement le mme nombre de donnes de part et dautre de Me

Exemple : Mdiane de la srie statistiques suivante : 15, 7, 22, 4, 12, 30, 9, 18, 6.
Pour dterminer la mdiane, il faut ordonner la srie : 4, 6, 7, 9, 12, 15, 18, 22, 30. La mdiane est le 12 car dans cette srie, il y a 4 nombres infrieure et 4 suprieure de 12. 4 nombres infrieures

4, 6, 7, 9, 12, 15, 18, 22, 30


4 nombres suprieures Mdiane

Paramtres de position/tendance centrale


Mdiane pour des donnes non rparties en classes Leffectif total est impair (2n+1) La mdiane est parfaitement dtermine : la modalit correspondant n+1. Il sagit dune valeur observe.

Exemple : une tude sur le nombre denfant dune chantillon de 51 individus (225+1).
Calcul de mdiane en utilisant les effectifs cumuls croissants : cas dune variable discrte

La mdiane est la modalit "1 enfant" qui correspond au foyer 26.

Paramtres de position/tendance centrale


Mdiane pour des donnes non rparties en classes Leffectif total est pair (2n) On ne peut pas dfinir prcisment la mdiane. On peut prendre pour valeur mdiane, indiffremment lune ou lautre des valeurs centrales ou nimporte quelle valeur intermdiaire entre ces deux valeurs. Par exemple, la moyenne arithmtique de ces deux valeurs, mais, dans ces conditions, ce nest pas une valeur observe

Exemple : Une srie reprsentant les notes dune classe : 15, 7, 20, 4, 12, 20, 9, 18, 6, 4 Lintervalle mdian : 9 et 12

4, 4, 6, 7, 9, 12,15, 18, 20, 20


Mdiane:(9+12)/2=10.5

Paramtres de position/tendance centrale


Mdiane pour des donnes rparties en classes Calcul de la classe mdiane Pour une variable continue, on dtermine la classe mdiane de la mme faon que pour une variable discrte en utilisant les effectifs cumuls.

Exemple : Une tude sur la note dune population de 50 tudiants (cas dune variable continue)

La mdiane se trouve dans lintervalle [8;12[

Paramtres de position/tendance centrale


Mdiane pour des donnes rparties en classes Calcul de la mdiane (interpolation linaire) Les points A, X, B sont aligns et les droites AX, BX et AB ont le mme coefficient directeur (la pente est la mme). Le coefficient directeur de la droite AB se calcule par : Pour trouver la valeur Me, on peut calculer et rsoudre la rgle de trois suivante : La mdiane Me est donc 10.33. Cela signifie que: environ 50% des personnes ont eu moins de 10.33 et 50% plus de10.33

Paramtres de dispersion
Etendue Ltendue dune srie statistique quantitative est la diffrence entre la plus grande valeur de la variable (discrte ou continue) et la plus petite valeur. Exemple: Srie statistique prsentant les notes des tudiants

Ltendue est 19 2 = 17

Paramtres de dispersion
Quantiles Pour dcrire des sries statistiques, le concept de mdiane est adapt non plus pour sparer les mesures en 2 sous ensembles, mais en k. On appelle ces mesures quantiles . Si k = 4 on parle de quartile.

Quartiles Pour k = 4, les quantiles, appels quartiles, sont trois nombres Q1, Q2, Q3 tels que 25% des valeurs prises par la srie sont infrieures Q1 ; 25% des valeurs prises par la srie sont suprieures Q3 ; Q2 est la mdiane Me ; [Q1, Q3] est lintervalle interquartile, il contient 50% des valeurs de la srie. EQ = Q3 Q1 est lcart interquartile bien une mesure de dispersion.

Paramtres de dispersion
Exemple Quartiles : La srie ordonne par ordre croissant S a 12 termes : S = {11, 12, 13, 15, 16, 16, 17, 17, 18, 19, 20, 22}

(25%) des donnes <=> 12 0.25 = 3 Q1 = la valeur du 3me terme de la srie =13 (75%) des donnes <=> 12 0.75 = 9

Q3 = la valeur du 9me terme de la srie =18


Lintervalle interquartile est [13 ;18] Lcart interquartile est 18-13 = 5

Paramtres de dispersion
Variance La variance est un indicateur de la dispersion dune srie par rapport sa moyenne. La dfinition de la variance dune srie statistiques est donne par la formule :

dsigne la variance des n valeurs associes aux n units statistiques de la population est la moyenne de ces units statistiques Ecart-type La dfinition de lcart-type dune srie est donne par la formule :
Ecart-type faible => Les valeurs sont assez concentres autour de la moyenne Ecart-type lev => Les valeurs sont plus disperses autour de la moyenne

Paramtres de dispersion
Exemple Variance et Ecart-type Dans une usine, le fait davoir un cart-type aussi bas que possible peut constituer un objectif de contrle de qualit. Soit une entreprise qui fabrique un certain composant et quun des lments du contrle de la qualit consiste mesurer le diamtre du composant. Chaque composant aura donc son diamtre mesur. On calculera ensuite le diamtre moyen, puis lcart-type.

Si lcart-type est faible, cela signifie que les pices ont dans lensemble un diamtre proche de la moyenne, donc que leur diamtre se ressemble.
Inversement, plus lcart-type est lev, plus il y a de pices dont le diamtre scarte de la moyenne et qui risque de ne pas cadrer avec le systme auxquelles elles sont destines.

Reprsentation deffectifs/frquences
Pour obtenir une meilleure comprhension de la rpartition des valeurs dune variable donne dune srie, plusieurs types de diagrammes existent. Le choix de quel type de diagramme utiliser dpend directement du type de variable dont il sagit.

Variables qualitatives Diagramme en barre Diagramme circulaire Variables quantitatives Diagramme en btons Histogramme :

Reprsentation deffectifs/frquences
Variables qualitatives Diagramme en barre : Axe horizontal: les modalits de la variable Axe vertical: les effectifs (ou les frquences) La hauteur de la barre est proportionnelle leffectif
Exemple: Diagramme en barre (Moyen de transport privilgi par une population dtudiants )

Reprsentation deffectifs/frquences
Variables qualitatives Diagramme circulaire : Leffectif total est reprsent par un disque. Chaque modalit est reprsente par un secteur circulaire dont la surface est proportionnelle leffectif correspondant Langle de chaque modalit se calcule par : Exemple: Diagramme circulaire (Moyen de transport privilgi par une population dtudiants )

Reprsentation deffectifs/frquences
Variables quantitatives Diagramme en btons : Axe des abscisses: Les valeurs discrtes xi prises par les variables Axe vertical: Les effectifs (ou les frquences) La hauteur du bton est proportionnelle leffectif .

Exemple Diagramme en btons (Nombre de sries suivies assidment par un population).

Reprsentation deffectifs/frquences
Variables quantitatives Histogramme :
On utilise lhistogramme pour les variables classes. Cest un ensemble de rectangles. Chaque rectangle est associ une classe et il a une surface proportionnelle leffectif (ou frquence) de cette classe.

Amplitudes gaux Les classes ont la mme amplitude En ordonne =>leffectif (ou frquence)

Amplitudes diverses : Les classes ont des amplitudes diffrentes En ordonne =>la densit di (effectif divis par lamplitude de la classe)

Box-plot ou Boite moustaches


La boite moustache ou box-plot est un rsum graphique dune distribution.
Les valeurs atypiques

Le corps de la boite est form par le premier et troisime quartile et coup par le deuxime quartile (mdiane) plus deux autres valeurs qui sont Min(1,5*(Q3-Q1)+Q3,Max(xi)) et Max(Q1-1,5(Q3-Q1),Min(xi)).

Min(1,5*(Q3-Q1)+Q3,Max(xi))=859

Q3=583 13 17 19 31 42 45 94 103 104 217 222 248 290 295 297 335 375 387 444 463 492 711 583 859 609 1693 618 1816 700

Q1=103

Q2=297: mdiane

Max(Q1-1,5(Q3-Q1),Min(xi))=13