Déf. :
- La statistique : étude d’un ensemble de fait numérique.
- Les statistiques : ensemble de données recueillir à la suite d’une étude statistique.
Ex : Les collégiennes sont-elles réellement moins bonnes en maths que les collégiens ?
Introspection, l’observateur et l’observé sont la même personne « je crois que je suis nulle en
maths » pose problème par la subjectivité car un système entré dans les sciences dois être cultivé, et
car une partie de la vie n’est pas consciente.
Pour répondre à ce problème là on essaye une observation naturelle « mon neveu est meilleur en
maths que ma nièce » toutefois il y a toujours un problème qui est de conclure quelque chose à
partir de quelque cas particulier, on conclus de manière abusive est ceci peut être accidentel (ex : je
porte des lunettes et je bois beaucoup d’eau, si je vois quelqu’un d’autre avec des lunettes et avec
juste une bouteille d’eau alors j’en conclus que les personnes portant des lunettes boivent beaucoup
d’eau or c’est faux ! )
Pour pallier à sa on essaye une observation systématique, cad déterminer si deux variables sont
liées, certaine enquête montre que.. Mais le problème unefois cette observation faite est que l’on ne
peut pas déterminer les causes du phénomène.
L’expérimentation, intervenir activement afin de tester des hypothèses relatives aux causes du
phénomène étudié.
- Hypothèse : il y a un stéréotype sur un groupe de personne, par ce stéréotype elles sont
dévalorisé et ont la crainte d’échoué lorsque qu‘ils sont évalués.
- Expériences :2 groupes (filles/garçons) réalisent des calculs présenté sous forme de contrôle
(-> pression) et le même plus tard sous la forme de jeux, dans ce cas-là les filles ne sont plus
dans le même contexte, elles n’ont plus la crainte d’échoué et donc on observe des résultats
totalement différent.
- Résultat : La différence entre les 2 groupes disparait lorsque les calculs sont présentés sous
forme de jeux
Le stéréotype de base (les filles sont en maths moins bonne que les garçons) la situation
de « contrôle » a influencé sur les compétences des filles est donc à engendré un résultat
« faussé ».
Souvent on se trompe sur la cause de causalité, par exemple c’est ceci qui entraine ceci par exemple
les filles ayant en majorité les cheveux plus long que les garçons donc c’est à cause des cheveux
long que une personne est meilleur en math que une personne ayant des cheveux court =>cause de
causalité. Hors c’est faux on le sait très bien maintenant.
Derrière une relation stat. Il peut avoir une relation causale différente, les stat ont beau parlé ça ne
peut avoir aucun rapport. Ex : le village et les cigognes
Variable : caractéristique d’un élément qui peut prendre différentes modalités (ex : l’âge, sexe, ..)
Rejeté a tort l’hypothèse nulle, dire quel est fausse alors qu’elle est vrai
Rappel :
Statistique inférentielles :
Effet significatif = la relation observé entre deux variable dans un échantillon peut être retranscrit
sur la population en entier. On bâti un échantillon de sorte qu’il soit le plus représentatif de la
population pour perdre de diminuer (il y a toujours une erreur) l’erreur d’échantillonnage. Question
que l’on peut se poser, « y a-t-il une relation entre deux variable ? », on va se poser l’hypothèse
nullequi signifie qu’il n’y a pas de relation, donc on va essayer de voir si on va pouvoir rejeter
l’hypothèse nulle. p= risque de première espèce (=risque de rejeté a tort l’hypothèse nul/ c’est dire
que hypothèse nul est fausse alors qu’elle est vrai/ dire qu’il existe une relation entre les variable
alors qu’il y en a pas). Seuil de significativité est inférieur à 5% (0.5) ex : si on obtient 0,2, ça veut
dire que l’on a trouvé 2% est donc que l’on a trouvé une erreur de 2%, le seuil étant à 5% la relation
entre les deux variable est acceptable -> il existe une relation significative entre les deux variables.
Dans le deuxième cas de figure le seuil est trop important donc ont rejeté l’hypothèse nul, malgré sa
ce n’est pas parce que une hypothèse nul est rejeté mais ne dis pas qu’elle est fausse, on a peur de
d’accepté a tort l’hypothèse nul, le risque de dire qu’il n’existe pas de relation alors qu’elle existe =
risque second espèce.
Echelle de mesure : défini par les relations d’entretiens ces modalités cad le faite que rapide est plus
que lent donc dire que l’un est plus que l’autre.
Pour travail avec une variable il faut satisfaire les critères d’exclusivitéet d’exhaustivité(on doit
rentrer dans au moins une des case, soit un homme, soit une femme) c’est être en situation de lui
associé une seul modalité de la variable, si l’on ne satisfait pas ces critères on ne pourra pas avancer
dans nos donné. Ex : Pour déterminé la variable sexe il faut pouvoir dire si sujet est un homme ou
une femme critère d’exclusivité. Cela peut être difficile car plusieurs facteur rentre en compte cad
il faut voir au point de vue génétique (XX), au point de vue juridique (les hommes qui ce
travestisse,…), …
- Echelle nominal : dans cette échelle A est différent de B mais on ne peut pas dire que A est
supérieur/inférieur à B.
- Echelle ordinale :dès que l’on peut statuer que l’un est plus que l’autre, on peut dire que l’un
est plus que l’autre/ qu’un grade est plus qu’un autre (ex : colonel, général,…A<B et B<C.
On ne peut pas dire que la différence entre pas du tout et un peu est supérieur entre la différence en
un peu est beaucoup, non donc c’est ordinal
- Echelle d’intervalle : échelle ordinal avec une égalité entre deux variables. Par exemple sur
une échelle de 0 à 6, du point de vue statistique la différence entre 0 et 1 est différente de la
différence entre 4 et 5, car il peut y avoir de distorsion dans l‘échelle ça ne peut pas être
égale
Ex : taille des gens, si on les mesures en cm alors sa sera nominal toutefois si c’est en petit –
moyen – grand sa deviens de l’ordinale car il y a un effet de supérieur.
- Echelle de rapport : origine non arbitraire cad l’origine a été choisi de sorte à ce quel
corresponde à la chose mesuré/étudier. S’il est question de zéro ce n’est pas l’absence de la
modalité zéro qui permet de statué sur l’échelle de mesure, c’est le sens du zéro. Ex l’âge,
un âge de zéro, celui si ne se produit que en clinique lors d’accouchement mais en amphi
actuellement on ne trouvera pas quelqu’un ayant un âge zéro. Ex : les degrés C° sont
totalement arbitraires car même au degré 0 il y a toujours une température.
On peut dire que la différence entre 1 et 2 = a la différence en 3 et 4 mais on ne peut pas dire
que la différence entre 1 et 3 est = 1 et 2 multiplié par 2.
NB : on voit que chaque échelle reprend les concepts de la précédente.
Distribution :
La distribution peut être présentée sous un tableau ou sous un graphique. Les effectifs peuvent se
transformer en fréquence.
Effectif cumulé croissant : on de sens que si l’on a une échelle ordinal. Effectif croissant de la
modalité est égal à l’effectif + celui qui précède.
Choix du graphe :
- Diagramme en secteur, idéal pour des représentations de variable nominal.
- Diagramme en barre sont mieux pour comparer.
- Diagramme en 3D peut induire en erreur.
- Diagramme en tronçon : très bien pour une échelle ordinal
- Histogramme pour les variables quantitatives
- Courbe, pousse à raisonner sur des pentes
Nb : utiliser la couleur pour montrer une différence, ce demander la nature de ce que l’on veut
montrer.
Le degré d’aplatissement : Donne beaucoup d’information sur l’écart avec la moyenne moyenne
Tendance centrales et asymétrie :
- Asymétrie négative/vers la gauche : sommet vers la droite du graphe
- Asymétrie nulle : sommet au milieu
- Asymétrie positive/vers la droite : sommet vers la gauche
Notation de calcul :
ab= a x b
∑x = on prend chacun des x est on en fait la somme
∑x²=x1²+x2²+…xn²
(∑x) ²=(x1+…+xn)²
La médiane ne ce calcul pas mais ce détermine
Mode :
Avantage :
- Seul indice de tendance centrale, on voit la valeur la plus fréquemment observé.
- Modalité avec la plus grande probabilité d’être observé
Inconvénients :
- Parfois plusieurs modes
- Dépend du type de regroupement en classes
- Parfois très éloigné de la moyenne
Médiane
Avantage :
- Fournit un indice de tendance centrale pour l’échelle ordinal
- Permet de positionner un individu par rapport à un groupe
- Non influencée par les scores extrêmes, la médiane est insensible aux valeurs extrêmes.
Inconvénients :
- Les calculs algébriques à partir de la médiane sont impossibles
- Ne prend pas en compte toutes les valeurs
Moyenne :
Avantage :
- Prend en compte toutes les valeurs
- Permet les calculs algébriques
- La moyenne est un estimateur plus stable de la tendance centrale de a population
Inconvénient :
- Sensible aux valeurs extrêmes
Entropie : permet de quantifié la dispersion pour tout type d’échelle de mesure y compris les
variable quantitatives. Permet de quantifier le degré avec lequel on se réparti équitablement dans
les différentes modalités de la variable. On peut même l’utiliser pour une échelle nominale. La
valeur minimal de l’entropie est toujours 0 et l’entropie maximal dépend des modalités.
Dispersion d’une distribution sur une échelle nominale ou ordinale
Ecart interquartile : dispersion autour de la médiane. C’est l’écart dans lequel sont comprise les
50% d’observation autour de la médiane
Q1, Q2, Q3, Q4 ; 4 parties de 25%.
Une fois défini le quartile supérieur et inférieur on soustrait Qs-Qi
Dispersion et variance :
Moyenne du carré des écarts à la moyenne.
Utiliser la formule théorique pour comprendre et formule pratique pour calculer
Variance :
m=11,11 m²=123,46
∑x²=x1²+x2²+…xn²/N – m²
∑x²= 6²+8²+9²+10²+… /N – 11,11 = 11,21
L’écart type (=écart par rapport à la moyenne) est la racine carré de la variance s= √s²
Il y a deux variances :
Statistique calculées à partir des mesures de l’échantillon
- Pour décrire l’échantillon -> statistique de l’échantillon m, s² s
- Pour estimer les paramètres de la population -> statistique de l’échantillon en tant
qu’estimateurs : m, s²corriger, s corrigé
Paramètre calculés à partir des mesures de la population
- Paramètre de la population, µ, ơ, ơ²
Plus l’écart type est élevé plus il y a de répartition est donc il est plus facile est méritent de s’écarté
de la moyenne. Un écart type de 3 (on trouve plus facilement par exemple des notes très hautes et
des notes très basses) est moins méritant qu’un écart de 2.
Calcul des notes centrées réduite (z)
Z= x-µ/ơ
Z est exprimé en écart type.
Philo math
Moyenne 10 12
Ecart type 2 3
Notes 12 14
10-12=2 2/2=1
12-14=2 2/3= 0,66…
On en conclut que cette élève est meilleure en philo qu’en maths.
Xstandard= az+b=a[(x-µ)/ơ]+b
La standardisation des variables peut se faire peu importe la variable mais certaine suivent
uniquement la loi normale.
Exam !
µ=181 ; ơ=6 ; Tony mesure 186 cm ;Tony fait-il partie des 10% de joueurs les plus grands ?
AN :(186-181)/6= 0,83 = z
Ensuite on regarde dans le tableau en ordonnée (z=0,8) et en abscisse (z=,03) donc on trouve
0,203 soit 20,3%.
Tony ne fais pas partie des 10% les plus grand car il fait partis des 20,3% les plus grands.
NB : si on regard sur le polycop on voit que on ne peut pas trouver un z supérieur à 3,00. Même
Exercice :
Rappel : (x-m)/s
Distribution du QI : m=100 ; s=15
2. P (Qi > 130) z=(130-100)/15 = 2 => 2,00 =>0,023 => 2,3% = z On constate
qu’il y a un écart type de 2
Si la question été quel est la probabilité de personnes P (QI<70) on aurait également trouvé
-2 soit également 2,3%
NB : on a la majorité des observations lorsque l’écart types est de 1 (68,3%), la quasi-totalité avec
un écart type de 3 (99,7%) et donc à un écart type de 2 (95,4%).
Mx= Moyenne x
∑xy= somme de chaque x et y
La covariance est dépendante des unités de mesures. La covariance ne donne que le signe (ex : 0,3
peut être un résultat énorme comme il peut être minuscule).
Comment neutraliser une unité de mesure ? Avec la note z
La corrélation, c’est la covariance de deux variables standardisés.
Coefficient de corrélation de Bravais-Pearson = cov(x,y)/sx*sy
Rappel : s= écart type
Pour le calculer :
Somme de (xy) pour chaque sujet
On la divise par N
On fais la moyenne de x et y, (∑(xy)/N) – mxmy
Pour finir [(∑ (xy)/N) – mxmy]/ sx*sy
Problème d’interprétation :
- il peut y avoir des relations forte mais qui peut être non linéaire. Si on a un coefficient de
relation fort on peut dire qu’il y a relation, mais si il est faible soit il n’y a pas de relation ou
qu’il se résume mal par une droite.
- Effet cigogne : pensé qu’une variable agis sur l’autre ou inversement alors que c’est une ou
des variables extérieures qui agissent sur les deux variables de base. Les comportements ne
seront pas totalement prédit par qu’une seule variable. L’interprétation d’un résultat
statistique doit bien prendre en compte les analyses précédentes qui ont été faite (stéréotype,
stigmatisation,…).