Vous êtes sur la page 1sur 8

Psycho Statistique

Owell deux premières page

Déf. :
- La statistique : étude d’un ensemble de fait numérique.
- Les statistiques : ensemble de données recueillir à la suite d’une étude statistique.

I) L’intérêt des stat.

Ex : Les collégiennes sont-elles réellement moins bonnes en maths que les collégiens ?

Introspection, l’observateur et l’observé sont la même personne « je crois que je suis nulle en
maths » pose problème par la subjectivité car un système entré dans les sciences dois être cultivé, et
car une partie de la vie n’est pas consciente.
Pour répondre à ce problème là on essaye une observation naturelle « mon neveu est meilleur en
maths que ma nièce » toutefois il y a toujours un problème qui est de conclure quelque chose à
partir de quelque cas particulier, on conclus de manière abusive est ceci peut être accidentel (ex : je
porte des lunettes et je bois beaucoup d’eau, si je vois quelqu’un d’autre avec des lunettes et avec
juste une bouteille d’eau alors j’en conclus que les personnes portant des lunettes boivent beaucoup
d’eau or c’est faux ! )
Pour pallier à sa on essaye une observation systématique, cad déterminer si deux variables sont
liées, certaine enquête montre que.. Mais le problème unefois cette observation faite est que l’on ne
peut pas déterminer les causes du phénomène.
L’expérimentation, intervenir activement afin de tester des hypothèses relatives aux causes du
phénomène étudié.
- Hypothèse : il y a un stéréotype sur un groupe de personne, par ce stéréotype elles sont
dévalorisé et ont la crainte d’échoué lorsque qu‘ils sont évalués.
- Expériences :2 groupes (filles/garçons) réalisent des calculs présenté sous forme de contrôle
(-> pression) et le même plus tard sous la forme de jeux, dans ce cas-là les filles ne sont plus
dans le même contexte, elles n’ont plus la crainte d’échoué et donc on observe des résultats
totalement différent.
- Résultat : La différence entre les 2 groupes disparait lorsque les calculs sont présentés sous
forme de jeux
 Le stéréotype de base (les filles sont en maths moins bonne que les garçons) la situation
de « contrôle » a influencé sur les compétences des filles est donc à engendré un résultat
« faussé ».

Souvent on se trompe sur la cause de causalité, par exemple c’est ceci qui entraine ceci par exemple
les filles ayant en majorité les cheveux plus long que les garçons donc c’est à cause des cheveux
long que une personne est meilleur en math que une personne ayant des cheveux court =>cause de
causalité. Hors c’est faux on le sait très bien maintenant.
Derrière une relation stat. Il peut avoir une relation causale différente, les stat ont beau parlé ça ne
peut avoir aucun rapport. Ex : le village et les cigognes

Population & échantillon


La population c’est l’ensemble d’individu à qui on pose une question. Unepopulation peut être plus
ou moins facile a observé (facile : une entreprise de 50 salariés, difficile voire impossible :
l’ensemble des schizophrènessur terre)
L’échantillon est la partie de la population à partir de laquelle des mesures sont recueillies
L’échantillon est donc une partie de la population.
Comment on s’y prend pour choisir des personnes : c’est l’échantillonnage
Un échantillon est représentatif si toute les unités qui le constitue on était choisie de sorte que les
membres de la population ont la même probabilité de faire partie de l’échantillon (cad 5% de blond,
5% de surdoué,..).

Technique d’échantillonnage aléatoire : chaque élément de la population a une chance égale


d’être choisi. Toutefois il peut y avoir une erreur d’échantillonnage c’est la différence entre
l’estimation fourni par l’échantillon et ce qui existe dans la population. Après par accumulation de
données on pourra avoir de plus en plus de certitude, malgré tout il y a toujours une incertitude.

Technique d’échantillonnage par quotas : échantillonnage permettant de retrouvé les mêmes


proportions de caractéristiques jugées essentielles dans l’échantillon que dans la population.

Variable : caractéristique d’un élément qui peut prendre différentes modalités (ex : l’âge, sexe, ..)

Objectifs des stats :


- Ecrire un ensemble de donné recueillis sur un ensemble d’individu.
- Présenter une distribution (=identifié les objectifs partiel)
- Résumer une distribution cad on substitue à cette population les valeurs qui leurs correspond
le mieux. (l’indice centrale/moyenne est tout aussi important que l’écart entre les données).
- Situer une observation par rapport à un ensemble
- Relation entre des variables (ex : existe-t-il une relation entre la situation professionnelle &
l’anxiété)

Statistiques inférentielles : relation entre 2 variables


Plus l’effectif est important est moins l’erreur d’échantillonnage est constater.
Il faut quantifier le risque de ce trompé en généralisant ce qui est observé dans l’échantillon a
l’ensemble de la population = risque de première espèce (ex : pour lancé un médicament s’il y a un
grand risque par exemple le risque de 10% de développer un infarctus, dans ces cas-là on ne va pas
le lancer hors si le risque est de 2% il aura plus de chance que le médoc soit lancé sur le marché).

Test del’hypothèse nulle (HO)


- H1= relation entre les deux variable dans la population
- H0 = pas de relation entre les deux variables
P = risque de première espèce = risque de rejeté à tort H
 P<(inférieur) seuil de signification -> H0 rejeté -> H1 acceptée
 P> seuil de significativité -> non rejet de H0 -> s’abstenir de conclure

Rejeté a tort l’hypothèse nulle, dire quel est fausse alors qu’elle est vrai

Rappel :
Statistique inférentielles :
Effet significatif = la relation observé entre deux variable dans un échantillon peut être retranscrit
sur la population en entier. On bâti un échantillon de sorte qu’il soit le plus représentatif de la
population pour perdre de diminuer (il y a toujours une erreur) l’erreur d’échantillonnage. Question
que l’on peut se poser, « y a-t-il une relation entre deux variable ? », on va se poser l’hypothèse
nullequi signifie qu’il n’y a pas de relation, donc on va essayer de voir si on va pouvoir rejeter
l’hypothèse nulle. p= risque de première espèce (=risque de rejeté a tort l’hypothèse nul/ c’est dire
que hypothèse nul est fausse alors qu’elle est vrai/ dire qu’il existe une relation entre les variable
alors qu’il y en a pas). Seuil de significativité est inférieur à 5% (0.5) ex : si on obtient 0,2, ça veut
dire que l’on a trouvé 2% est donc que l’on a trouvé une erreur de 2%, le seuil étant à 5% la relation
entre les deux variable est acceptable -> il existe une relation significative entre les deux variables.
Dans le deuxième cas de figure le seuil est trop important donc ont rejeté l’hypothèse nul, malgré sa
ce n’est pas parce que une hypothèse nul est rejeté mais ne dis pas qu’elle est fausse, on a peur de
d’accepté a tort l’hypothèse nul, le risque de dire qu’il n’existe pas de relation alors qu’elle existe =
risque second espèce.

II) Les variables

Echelle de mesure : défini par les relations d’entretiens ces modalités cad le faite que rapide est plus
que lent donc dire que l’un est plus que l’autre.
Pour travail avec une variable il faut satisfaire les critères d’exclusivitéet d’exhaustivité(on doit
rentrer dans au moins une des case, soit un homme, soit une femme) c’est être en situation de lui
associé une seul modalité de la variable, si l’on ne satisfait pas ces critères on ne pourra pas avancer
dans nos donné. Ex : Pour déterminé la variable sexe il faut pouvoir dire si sujet est un homme ou
une femme critère d’exclusivité. Cela peut être difficile car plusieurs facteur rentre en compte cad
il faut voir au point de vue génétique (XX), au point de vue juridique (les hommes qui ce
travestisse,…), …

- Echelle nominal : dans cette échelle A est différent de B mais on ne peut pas dire que A est
supérieur/inférieur à B.

- Echelle ordinale :dès que l’on peut statuer que l’un est plus que l’autre, on peut dire que l’un
est plus que l’autre/ qu’un grade est plus qu’un autre (ex : colonel, général,…A<B et B<C.

Ex : Pas du tout un peu beaucoup à la folie -> Ordinale

On ne peut pas dire que la différence entre pas du tout et un peu est supérieur entre la différence en
un peu est beaucoup, non donc c’est ordinal

Pas du tout un peu beaucoup à la folie je ne sais pas -> Nominal

- Echelle d’intervalle : échelle ordinal avec une égalité entre deux variables. Par exemple sur
une échelle de 0 à 6, du point de vue statistique la différence entre 0 et 1 est différente de la
différence entre 4 et 5, car il peut y avoir de distorsion dans l‘échelle ça ne peut pas être
égale

Ex : taille des gens, si on les mesures en cm alors sa sera nominal toutefois si c’est en petit –
moyen – grand sa deviens de l’ordinale car il y a un effet de supérieur.

- Echelle de rapport : origine non arbitraire cad l’origine a été choisi de sorte à ce quel
corresponde à la chose mesuré/étudier. S’il est question de zéro ce n’est pas l’absence de la
modalité zéro qui permet de statué sur l’échelle de mesure, c’est le sens du zéro. Ex l’âge,
un âge de zéro, celui si ne se produit que en clinique lors d’accouchement mais en amphi
actuellement on ne trouvera pas quelqu’un ayant un âge zéro. Ex : les degrés C° sont
totalement arbitraires car même au degré 0 il y a toujours une température.
On peut dire que la différence entre 1 et 2 = a la différence en 3 et 4 mais on ne peut pas dire
que la différence entre 1 et 3 est = 1 et 2 multiplié par 2.
NB : on voit que chaque échelle reprend les concepts de la précédente.

III) Décrire une distribution .

Distribution :
La distribution peut être présentée sous un tableau ou sous un graphique. Les effectifs peuvent se
transformer en fréquence.
Effectif cumulé croissant : on de sens que si l’on a une échelle ordinal. Effectif croissant de la
modalité est égal à l’effectif + celui qui précède.
Choix du graphe :
- Diagramme en secteur, idéal pour des représentations de variable nominal.
- Diagramme en barre sont mieux pour comparer.
- Diagramme en 3D peut induire en erreur.
- Diagramme en tronçon : très bien pour une échelle ordinal
- Histogramme pour les variables quantitatives
- Courbe, pousse à raisonner sur des pentes
Nb : utiliser la couleur pour montrer une différence, ce demander la nature de ce que l’on veut
montrer.

La forme globale de la distribution permet de se poser des questions et commencer à rechercher


quelque chose.

Mode = modalité comportant l’effectif le plus important


- Distribution amodale : tous est égale
- Distribution unimodale : suit une loi normale (sommet au milieu)
- Distribution bimodale (plusieurs sommets dans le graphe) nb : le faite d’avoir deux mode ne
signifie pas qu’il y a deux cause (ex : la consommation d’alcool chez les femmes, pic à 20
ans et plus tard)

Le degré d’aplatissement : Donne beaucoup d’information sur l’écart avec la moyenne moyenne
Tendance centrales et asymétrie :
- Asymétrie négative/vers la gauche : sommet vers la droite du graphe
- Asymétrie nulle : sommet au milieu
- Asymétrie positive/vers la droite : sommet vers la gauche

Distribution : Effectif partiel pour chacune des modalités de la variable


Résumer une distribution est d’essaye de trouver des valeurs typique qui résume l’ensemble des
valeurs de la distribution.

Notation de calcul :
ab= a x b
∑x = on prend chacun des x est on en fait la somme
∑x²=x1²+x2²+…xn²
(∑x) ²=(x1+…+xn)²
La médiane ne ce calcul pas mais ce détermine

Indice de tendance centrale : mode


Mode = effectif partiel le plus important
Ex : 1 2 3 4 5 6 7 8 9
3 4 1 5 6 1 2 2 4 => ici le mode est 5 car l’effectif est le plus grand
Revoir !
Médiane : valeur de l’observation placer au rang médian
Pour la déterminé :
Calcul du rang médian (N+1)/2 N= effectif total
Effectif cumulé croissant d’une modalité est la somme de l’effectif de la modalité + ce qui précédé

La médiane est la moyenne de x et le rang médian est la moitié de n


Dans une échelle d’intervalle on peut dire 4,5 mais dans une échelle ordinale on dira que le résultat
se trouve entre 4 et 5

Moyenne= point d’équilibre de la distribution, m= ∑x/n


Moyenne pondérée = (n1 x m1)+(n2 x m2)/N

Ordinal -> mode médiane


Nominal -> médiane moyenne

Mode :
Avantage :
- Seul indice de tendance centrale, on voit la valeur la plus fréquemment observé.
- Modalité avec la plus grande probabilité d’être observé

Inconvénients :
- Parfois plusieurs modes
- Dépend du type de regroupement en classes
- Parfois très éloigné de la moyenne

Nb : selon la question posé un avantage peut être un inconvénient et inversement

Médiane
Avantage :
- Fournit un indice de tendance centrale pour l’échelle ordinal
- Permet de positionner un individu par rapport à un groupe
- Non influencée par les scores extrêmes, la médiane est insensible aux valeurs extrêmes.

Inconvénients :
- Les calculs algébriques à partir de la médiane sont impossibles
- Ne prend pas en compte toutes les valeurs

Moyenne :
Avantage :
- Prend en compte toutes les valeurs
- Permet les calculs algébriques
- La moyenne est un estimateur plus stable de la tendance centrale de a population

Inconvénient :
- Sensible aux valeurs extrêmes

Déterminez tous les indices de tendance centrale :


5 6 0 6 4 3 2 3 0 6 5 6 4 5 6 3 5 6 3 4

Trouver vous ce logiciel facile ? Sur une échelle de 0 à 6

Echelle ordinale mais plus d’intervalle. Variable quantitative.


Nominal l’indice de temps central que l’on peut calculer est mode.
Le rang médian est 10,5 = (20/2+1/2)
La médiane ce détermine par le rang médian, la médiane est 4,5 si l’on résonne en échelle
d’intervalle mais l’on peut dire entre 4 et 5 pour une échelle ordinal
Pour la moyenne on fait (réponse1 x effectif1 + réponse 2 x effectif2+…) -> 82/20= 4,1

Entropie : permet de quantifié la dispersion pour tout type d’échelle de mesure y compris les
variable quantitatives. Permet de quantifier le degré avec lequel on se réparti équitablement dans
les différentes modalités de la variable. On peut même l’utiliser pour une échelle nominale. La
valeur minimal de l’entropie est toujours 0 et l’entropie maximal dépend des modalités.
 Dispersion d’une distribution sur une échelle nominale ou ordinale

Entropie= ∑Pi log 2 (1/Pi)

Etendu= Xmax – Xmin


On ne peut faire l’étendu que avec des valeurs quantitative (ex : on ne peut pas faire un homme
moins une femme !)
L’étendu n’est sensible qu’aux valeurs extrêmes, un seul X peut changer toute la dispersion.

Ecart interquartile : dispersion autour de la médiane. C’est l’écart dans lequel sont comprise les
50% d’observation autour de la médiane
Q1, Q2, Q3, Q4 ; 4 parties de 25%.
Une fois défini le quartile supérieur et inférieur on soustrait Qs-Qi

Total des n/4+1/2= 18/4+1/2= 5


Qi = n/4+1/2 -> 18/4+0,5= 5
Qs=3N/4+1/2 -> (3x18)/4 + 0,5= 14
14 sur le tableau ce trouve à x=8 donc on fait Qs-Qi soit 8-5=3
Donc l’écart interquartile est donc 3 !
 50% des personnes on entre 3 et 8 ans.

Dispersion et variance :
Moyenne du carré des écarts à la moyenne.
Utiliser la formule théorique pour comprendre et formule pratique pour calculer

Variance :
m=11,11 m²=123,46
∑x²=x1²+x2²+…xn²/N – m²
∑x²= 6²+8²+9²+10²+… /N – 11,11 = 11,21

L’écart type (=écart par rapport à la moyenne) est la racine carré de la variance s= √s²

Il y a deux variances :
 Statistique calculées à partir des mesures de l’échantillon
- Pour décrire l’échantillon -> statistique de l’échantillon m, s² s
- Pour estimer les paramètres de la population -> statistique de l’échantillon en tant
qu’estimateurs : m, s²corriger, s corrigé
 Paramètre calculés à partir des mesures de la population
- Paramètre de la population, µ, ơ, ơ²

La moyenne d’échantillonnage est égale à la moyenne de la population, m n’est pas biaisés.


La variance corriger est utilisé comme estimateur de la variance de l’échantillon.

Standardisation des variables :

Plus l’écart type est élevé plus il y a de répartition est donc il est plus facile est méritent de s’écarté
de la moyenne. Un écart type de 3 (on trouve plus facilement par exemple des notes très hautes et
des notes très basses) est moins méritant qu’un écart de 2.
Calcul des notes centrées réduite (z)
Z= x-µ/ơ
Z est exprimé en écart type.

Philo math
Moyenne 10 12
Ecart type 2 3
Notes 12 14

10-12=2 2/2=1
12-14=2 2/3= 0,66…
 On en conclut que cette élève est meilleure en philo qu’en maths.

La moyenne d’une distribution de note z est toujours 0


La transformation n’affecte pas la forme global de la distribution, si elle est normale au départ elle
le sera à l’arrivé et inversement.
La transformation en note z ne change pas la position relative des individus.

La standardisation des variables permet de transformer la variable.


 Moyenne=0
 Ecart type=1
Les notes de QI sont des distributions. La note z est un cas particulier de la standardisation des
variables.

Xstandard= az+b=a[(x-µ)/ơ]+b

La standardisation des variables peut se faire peu importe la variable mais certaine suivent
uniquement la loi normale.

A loi normale : on la retrouve souvent lorsque l’on a des informations naturelles.


Mode=médiane=moyenne. Tous d’abord elle est symétrique, distribution unimodale (un seul pic),
plus on s’écarte de la moyenne tout d’abord on a une chute puis de plus en plus faible => courbe en
cloche.
On situe l’individu par rapport à un ensemble en clinique.
On détermine une surface entre les points de cette courbe = proportion.
Pour déterminer une probabilité, on transforme la ou les valeurs d’intérêt en notes centrées réduites
(z), et l’on utilise la table de loi(polycop) normale centrée réduites.

Exam !
µ=181 ; ơ=6 ; Tony mesure 186 cm ;Tony fait-il partie des 10% de joueurs les plus grands ?
AN :(186-181)/6= 0,83 = z
Ensuite on regarde dans le tableau en ordonnée (z=0,8) et en abscisse (z=,03) donc on trouve
0,203 soit 20,3%.
Tony ne fais pas partie des 10% les plus grand car il fait partis des 20,3% les plus grands.
NB : si on regard sur le polycop on voit que on ne peut pas trouver un z supérieur à 3,00. Même

La probabilité et la proportion de valeurs supérieur à z lorsque z est positif ou inférieur à z lorsque


z est négatif.

Exercice :
Rappel : (x-m)/s
Distribution du QI : m=100 ; s=15

1. P (Qi > 100), 100 étant la moyenne donc 50 % ont un QI supérieur.

2. P (Qi > 130) z=(130-100)/15 = 2 => 2,00 =>0,023 => 2,3% = z On constate
qu’il y a un écart type de 2
Si la question été quel est la probabilité de personnes P (QI<70) on aurait également trouvé
-2 soit également 2,3%

3. P (85<Qi>120) z= (85-100)/15 = -1 = 15,9%=z z= (120-100)/15=


1,33 = 9,2% = z
 P=1-(.159+.092)=.749 => 74,9%

4. P=.10>x z= .100 (dans le polycop) = 1,28 x=1,28x15 +100 = 119,2

NB : on a la majorité des observations lorsque l’écart types est de 1 (68,3%), la quasi-totalité avec
un écart type de 3 (99,7%) et donc à un écart type de 2 (95,4%).

Relation entre 2 variables qualitatives :


Dépendance total = relation parfaite

Relation entre variable qualitative et quantitative :


Ex : stress (qualitative) et performance (quantitative)=> dépendance entre les deux variables.
On peut conclure un effet statistiques mais on ne peut pas dire laquelle cause l’autre, il faut
recourir à l’expérimentation.

Relation entre deux variables quantitatives :


Relation positive = plus x augmente plus y augmente et inversement.
La droite de régression est celle qui est la droite moyenne de tous les points = moindre carré.

La covariance quantifie le degré de relation entre deux variables quantitatives.


Cov (x,y)= [∑(x-mx)(y-my)]/N  ∑xy/N – mxmy

Mx= Moyenne x
∑xy= somme de chaque x et y

La covariance est dépendante des unités de mesures. La covariance ne donne que le signe (ex : 0,3
peut être un résultat énorme comme il peut être minuscule).
Comment neutraliser une unité de mesure ? Avec la note z
La corrélation, c’est la covariance de deux variables standardisés.
 Coefficient de corrélation de Bravais-Pearson = cov(x,y)/sx*sy
Rappel : s= écart type

Une corrélation de -1 ou +1 détermine une relation parfaite.


 Un coefficient de corrélation est une covariance de deux variables standardisés, a une valeur
nécessairement comprise entre -1 et +1 et permet de quantifier le degré de liaison entre
deux variable quantitative

Pour le calculer :
Somme de (xy) pour chaque sujet
On la divise par N
On fais la moyenne de x et y, (∑(xy)/N) – mxmy
Pour finir [(∑ (xy)/N) – mxmy]/ sx*sy

Problème d’interprétation :
- il peut y avoir des relations forte mais qui peut être non linéaire. Si on a un coefficient de
relation fort on peut dire qu’il y a relation, mais si il est faible soit il n’y a pas de relation ou
qu’il se résume mal par une droite.
- Effet cigogne : pensé qu’une variable agis sur l’autre ou inversement alors que c’est une ou
des variables extérieures qui agissent sur les deux variables de base. Les comportements ne
seront pas totalement prédit par qu’une seule variable. L’interprétation d’un résultat
statistique doit bien prendre en compte les analyses précédentes qui ont été faite (stéréotype,
stigmatisation,…).

Vous aimerez peut-être aussi