La dmarche statistique
Toute tude statistique se fonde sur une population forme de nombreux individus sur lesquels on peut observer des caractres. Le terme statistique recouvre deux techniques qu'il est essentiel de distinguer : La statistique descriptive pallie simplement une faiblesse de l'esprit humain: l'impossibilit d'apprcier de manire synthtique le contenu d'une population nombreuse. Elle permet de procder des rductions statistiques faciles interprter: valeurs centrales, valeurs de dispersion, histogrammes, etc.
3
La dmarche statistique
La statistique mathmatique ou infrentielle a un objectif plus ambitieux: interprter une population en utilisant une loi de probabilit. Dans cette dmarche, le statisticien se fixe une hypothse et dtermine ensuite si celle-ci s'accorde avec les faits (matrialiss par des chiffres). Cette technique consiste induire les caractristiques inconnues d'une population partir d'un chantillon issu de cette population. Les caractristiques de l'chantillon, une fois connues, refltent avec une certaine marge d'erreur possible celles de la population.
4
Vocabulaire statistique
Population: ensemble des personnes, objets ou lments sur lesquels on veut effectuer ltude statistique. Individu: chacun des lments de la population. Caractre (variable) : caractristique relative chacun des individus de la population et sur laquelle on veut faire porter ltude.
5
Variable continue
C'est une variable quantitative pouvant prendre par nature une infinit de valeurs, gnralement tout un intervalle rel. Exemples : tailles, poids, salaires, surfaces cultives, tempratures, ...
11
Variable discrte :
C'est une variable quantitative pouvant prendre par nature un nombre fini (ou dnombrable) de valeurs. Exemples : nombre d'enfants par famille nombre de pices d'un appartement nombre de pices dfectueuses dans un lot de pices mcaniques ...
12
Rsum
15
Statistique descriptive
La statistique descriptive forme une branche des statistiques qui supporte nimporte lesquelles des nombreuses techniques utilises pour analyser un ensemble de donnes. Nous avons deux objectifs pour notre analyse statistique: choisir une statistique qui montre comment diffrents individus semblent similaires. Le moyen datteindre cet objectif sappelle la mesure de la tendance centrale. choisir une autre statistique qui montre comment les individus diffrent. Ce genre de statistique est souvent appele une mesure de variabilit statistique.
16
La Mdiane (suite)
Si n est impair (2n+1 valeurs), la mdiane correspond alors prcisment la donne du milieu lorsque les donnes sont mises en ordre croissant (xn+1). Si n est pair (2n valeurs), la mdiane correspond alors tout nombre situ entre les deux valeurs centrales des donnes mises en ordre croissant (xn et xn+1).
19
Les Quantiles
Ceux-ci gnralisent la notion de mdiane qui coupe la distribution en deux parties gales. On dfinit notamment les quartiles, dciles et centiles (ou percentiles) sur la population, ordonne dans l'ordre croissant, que l'on divise en 4, 10 ou 100 parties de mme effectif. On parlera ainsi du centile 90 pour indiquer la valeur sparant les premiers 90% de la population des 10% restants.
20
Mesures de dispersion
Maintenant que nous connaissons la
tendance centrale dune distribution, nous pouvons nous demander si les valeurs de la variable sont fortement concentres autour de cette tendance centrale ou, au contraire, si elles sont trs diffrentes, trs disperses.
21
Ltendue
Ltendue (R) : dune distribution est la
22
La Variance
La Variance : dune distribution est la
moyenne des carrs des carts, par rapport la moyenne, de toutes les valeurs de celle-ci.
1 = ( Xi n i= 1
2
23
Lcart-type
Lcart-type : dune distribution est
1 = 1 ( X i ni
24
Interprtation de Lcart-type
En gnral, on retrouve :
une grande proportion des donnes dans lintervalle [ - , + ] (souvent entre 50 et 70%), souvent plus de 95% des donnes dans lintervalle [ - 2 , + 2 ], toutes les donnes (ou presque 100%) dans lintervalle [ - 3 , + 3 ].
25
Coefficient de corrlation
Coefficient de corrlation (linaire) : Le coefficient de corrlation entre deux variables statistiques X et Y sur les mmes individus est le nombre : R = cov (X,Y)/sX sY o cov ( X , Y ) est la covariance entre X et Y et sX sY les carts-types de X et Y. Ce coefficient est toujours compris entre -1 et + 1. S'il est proche de + 1 ou - 1 , X et Y sont bien corrles, c'est--dire qu'elles sont lies entre elles par une relation presque affine ; le nuage de points est presque align le long d'une droite (croissante si r = + 1, dcroissante si r = - 1). S'il n'y a aucun lien entre X et Y, ce coefficient est nul, ou presque nul.
26
Exemples :
27
Exemples
28
Histogramme (suite)
30
Loi Normale
La distribution de donnes la plus couramment utilise est la distribution normale. Elle est symtrique et sous forme de cloche. Elle est utile car:
Beaucoup de donnes sont naturellement normales Facile dutilisation et de calcul Hypothse de normalit demande Thorme central limite.
31
33
34