Vous êtes sur la page 1sur 69

Statistical

Pratique de la statistique
Package
avec le logiciel SPSS
for

Social

Sciences
Initiation à SPSS

Atelier 2: Analyse des données

Formateur: Douzi Mohamed Ahmed


Contact : ahmeddouzi@hotmail.com
Plan du formation
1 Distribution de fréquences

Analyse 2 Mesures de tendances centrales


uni variée 3 Mesures de dispersion
4 Les représentations graphiques

Atelier 2: 1 Tableau croisé et test de Khi deux (χ2)


Analyse 2 Comparaison de la moyenne et ANOVA
bi variée
Analyse des 3 Corrélation et régression simple
données
1 La régression linéaire multiple

Analyse 2 La régression logistique


multivariée 3 Arbre de décision

4 Analyse de survie
2
Objectifs
▪ Être capable de :
▪ Faire des analyses uni variées, bi variées
et multivariées
▪ Interpréter les résultats de ces analyses

2
Trois types d’analyse

▪ Analyse uni variée:


▪ Porte sur une seule variable dans le but de
décrire l’échantillon.
▪ Analyse bi variée:
▪ Porte sur les relations entre deux variables
(une variable dépendante et une variable
indépendante)
▪ Analyse multi variée:
▪ Porte sur les relations entre plus de deux
variables

4
Analyse univariée

➢ Calculer la fréquence
➢ Calculer la moyenne, le mode, la variance…
➢ Création des graphiques

✓ Prendre connaissance des données


✓ Observer les résultats
✓ Découvrir valeurs manquantes et erreurs
d’entrée de données

5
Outils de l’analyse uni variée

▪ Distribution de fréquences
(ex.: rangement, tableau et graphique)

▪ Mesures de tendances centrales


(ex.: moyenne, mode et médiane)

▪ Mesures de dispersion
(ex.: étendue, variance et écart-type)

▪ Les représentations graphiques

(ex.: Camembert, histogramme, box plot…)


6
Analyse uni variée

❖ Variable qualitative: La description d’une variable


qualitative consiste à présenter les effectifs, c’est-à-
dire le nombre d’individus de l’échantillon pour
chaque modalité de la variable, et les fréquences,
c’est-à-dire le nombre de réponses associées aux
modalités de la variable étudiée
Avec SPSS :
Onglet Analyse
▪ statistiques descriptives Effectifs
▪ Choisissez les variables pour lesquelles vous
désirez des statistiques.
▪ Cliquez sur “ok”.
7
Analyse uni variée
❖ Présenter l’effectif de la variable région (base femme.sav)

7
Analyse uni variée

8
Résultat et interprétation

➢ Le tableau montre immédiatement que la


majorité (66%) des femmes âgées de 30 ans et
plus issues, une minorité représente 4% âgée
entre 15 et 19ans, un tiers des femmes (30%)
âgée entre 20 et 29ans.Ces résultats peuvent
également être visualisés sous forme de
graphiques (diagrammes en bâtons, en
secteurs), dans lesquels les surfaces associées
aux différentes modalités sont
proportionnelles à leur fréquence, exprimée
en valeur ou en pourcentage, comme le
montre la figure
9
Analyse uni variée

Variable quantitative: La description d’une variable


quantitative consiste à calculer la moyenne, le
médiane et la Variance
▪ la moyenne représente le centre d'équilibre d'une
distribution

▪ La médiane : la valeur qui sépare une distribution


ordonnée en deux groupes qui contiennent le même
nombre de données.

▪ Le mode : représente la valeur présentant la plus


grande fréquence d’occurrence

10
Analyse uni variée

❖ Onglet Analyse

➢ Statistique descriptives Effectif


➢ Choisissez les variables pour les quelles vous
désirez des statistiques.
➢ Choisissez les statistiques que vous désirez
rapporter en cliquant sur le bouton “Option”
(moyenne, médiane, écart-type, etc...).
➢ Cliquez sur “ok”.

10
Analyse uni variée
❖ Analyser la variable poids(BASE Formation.sav)

11
Résultat et interprétation

Le poids moyen était de


70,36 ± 14,96 kg

11
Représentations graphiques
Boîte à moustaches

les valeurs
aberrantes
Maximum

Q3:75%
Médiane
Q1:25%

Minimum
SPSS: Graphes Générateur de SPSS: Graphes Générateur de
diagrammes Histogramme diagrammes Boîte à moustaches

▪ L'histogramme représente mieux la ▪ La boîte à moustaches permet de


distribution d'une variable continue, récapituler une variable numérique
puisqu’il décrit toutes les valeurs en représentant la médiane, les
possibles comprises entre la plus quartiles et les valeurs extrêmes.
petite et la plus grande
11
Représentations graphiques

SPSS: Analyse Prévision


Diagrammes séquentielles

Variables
quantitatives
continues

Variable de Graphique temporel: Permet de


type date
visualiser l’évolution d’une
variable quantitative continue
en fonction du temps(base
Evolution de la mortalité.sav)
11
Analyse bi variée

❑ L’objectif de l’analyse bidimensionnelle est


d’étudier les liens entre deux variables
d’une enquête à l’aide :

❖ Tableau croisé et test de Khi deux (χ2)


❖ Comparaison de la moyenne et ANOVA
❖ Corrélation et régression simple

13
Analyse bi variée
I. Tableau croisé et test de Khi deux (χ2)
▪ Croisements entre 2 variables catégorielles
Ex. La connaissance de la maladie SIDA selon le
milieu(base femme.xls)

▪ Onglet Analyse
Statistiques descriptives Tableaux croisés
Choisissez les deux variables que vous désirez
croisées (une dans “ligne” et une dans
“colonne”).
▪ Cliquez sur le bouton “cellules” et cochez les
trois choix sous “pourcentages” (ligne,
position, total)
▪ Cliquez statistiques et choisissez Chi-deux.
▪ Cliquez sur “poursuivre” et “ok”. 14
Croisement entre 2 variables
catégorielles

15
Test statistique
➢ Dans la logique d'un test d'hypothèse, il y a toujours
deux hypothèses statistiques:
❖ La première - l'hypothèse nulle ou Ho - est, comme son
nom l'indique, une hypothèse qui postule que la
relation entre X et Y est due au hasard, autrement dit
qu'il n'y a pas de relation entre X et Y (nulle= absence
de relation).
❖ La seconde - l'hypothèse alternative ou H1 - correspond
habituellement à l'hypothèse de votre recherche.
Contrairement à l'hypothèse nulle, cette hypothèse
suggère que la relation entre X et Y ne peut être attribuée
au hasard; il existe donc un lien entre X et Y au sein de la
population.
15
Test statistique
➢ Rappelons qu'en sciences humaines, le risque
maximum d'erreur est de 0.05 (= seuil de signification).

❖ Si votre SIG. ou valeur de p est supérieure à


0.05, vous devez accepter l'hypothèse nulle et
conclure que l'association ou la co-occurrence
observée entre X et Y est due au hasard.

❖ Si votre SIG. ou valeur de p est inférieure à 0.05, vous


devez rejeter l'hypothèse nulle et accepter l'hypothèse
alternative, et donc conclure qu'il existe une relation entre
X et Y au sein de la population.

15
Résultat ‘’Outpout’’

▪ 69,4% des femmes qui


connaissaient la maladie SIDA
habitant les zones urbaines
contre
▪ 30,6% des femmes habitant les
zones rurales ne connaissaient
pas cette maladie

Valeur de P<0.05: On rejette


l’hypothèse H0 donc il existe une
relation entre le milieu à une influence
sur la connaissance de la maladie
SIDA

16
Analyse bi variée
II. Comparaison de la moyenne et ANOVA
Lorsqu’on confronte une variable quantitative à une
variable qualitative (nominale ou ordinale), on recourt très
généralement à la comparaison de moyennes ou à
l’analyse de variance (ANOVA).

1. Comparaison de la moyenne (test Student « t »)


On utilise cette technique pour comparer deux groupes, créés
par une variable catégorielle, en fonction de leur moyenne à
une mesure (variable continue) sous les deux hypothèses
suivantes :
H0: µ1=µ2 : Il n'y a pas de différence entre les moyennes

H1: µ1≠µ2 : Il y a une différence entre les deux moyennes.


17
Test Student
❖ Comparer le nombre de décès selon le genre(Base déces.sav)

17
Résultat et interprétation

Le tableau des moyennes qui


décrit les deux groupes

Sig=0.00<0,05 Donc on rejette


Le tableau du Test-t qui permet H0 et conclure qu'il y’a une
de comparer les deux groupes. différence significative entre
ces deux groupes

17
Analyse bi variée
2. Analyse de variance (ANOVA)
Cette technique permet de comparer les moyennes de trois
groupes ou plus, créés par une variable catégorielle en
fonction de leur moyenne à une mesure (variable continue)
sous les deux hypothèses suivantes :

❖H0: µ1=µ2=µ3=µ4=….=µn : Il n'y a pas de différence


entre les moyennes

❖ H1: µ1≠µ2 ≠ µ3 ≠ µ4 ≠ …. ≠ µn : il y a une différence entre


les moyennes, c'est-à-dire qu'au moins une des moyennes
est différente des autres.

17
Analyse de variance (ANOVA)
❖ La question qui nous aidera à illustrer l'analyse de variance
est la suivante : Peut-on croire que l'obésité a une influence
sur l’augmentation du cholestérol ? (Base Formation.xlsx)

17
Résultat et interprétation

la variabilité échantillonnale
de la moyenne

Sig <0,05 donc on rejette HO et


conclure que l’obésité a une
influence sur l’augmentation de
cholestérol .

17
Analyse bi variée

III. Corrélation et régression simple


Lorsqu’on confronte une variable quantitative à une
variable quantitative on recourt très généralement au
calcule du coefficient de corrélation ou de réaliser une
régression simple.

1. L’analyse de corrélation
Renseigne sur l’intensité du lien entre les deux variables :
ex : « le lien est fort et très significatif ».
Coefficient de corrélation de Pearson r est une mesure
d’association (d’interdépendance) entre deux variables
quantitative

17
L’analyse de corrélation

❑ r est toujours compris entre –1 et 1

❑ si r est proche de –1 alors le lien est fort et négatif


(quand 1 des 2 variables augmente l’autre diminue),
alors que si r est proche de 1 le lien est fort et positif
(quand 1 des deux variable augmente, l’autre augmente
aussi).

❑ si r est proche de 0 alors il n’y a pas de lien entre x et y

17
L’analyse de corrélation
❖ Dans cet exemple, nous avons réalisé une corrélation entre l'espérance
de vie des femmes (LIFEEXPF) et le taux de natalité par 1 000 habitants
(BIRTHRAT). Nous désirions savoir s'il existait une relation linéaire
significative entre ces deux variables.(base naissance.sav)

17
L’analyse de corrélation

Nous voyons que pour cet échantillon, il y a 122 valeurs


valides pour l'espérance de vie des femmes et 121 pour le
taux de natalité. Les femmes vivent en moyenne 66 ans et
le taux de natalité moyen est de 31 enfants par 1 000
habitants

17
L’analyse de corrélation

La corrélation est significative


sig<0,05, nous pouvons donc
rejeter l'hypothèse nulle d'absence
de relation entre le taux de natalité
et l'espérance de vie

Le coefficient de corrélation significatif nous donne deux informations


que l'on doit interpréter:

✓ le sens de la relation entre les variables : Comme le coefficient est


négatif, plus le taux de natalité d'un pays est élevé, plus l'espérance
de vie diminue.

✓ la force de la relation (la taille d'effet) : En examinant la valeur du


coefficient (r = - 0,87), nous pouvons dire que l'effet de la relation
entre ces deux variables est de grande taille et que l'association est
très forte.
17
L’analyse de corrélation

➢ Nous avions vu que les


points semblaient se
regrouper autour d'une
droite et qu'en ce sens, il
s'agissait d'une relation
linéaire négative. En effet,
plus le nombre de
naissances par 1 000
habitants augmente, plus
l'espérance de vie des
femmes diminue.

SPSS: Graphes Générateur de


diagrammes Dispersion

17
Régression simple.
2. Régression simple
Elle consiste à déterminer une équation qui relie 2 variables
quantitatives. Contrairement à la corrélation simple, elle
nécessite d’identifier l’une des 2 variables comme étant
dépendante (à expliquer) et l’autre comme étant indépendante
(explicative).
Le modèle type est de la forme :

Y = β0 + β1X + ε avec

Y = variable dépendante (à expliquer)


X = variable indépendante (ou explicative)
β0 = ordonnée à l’origine de la droite
β1 = pente de la droite
ε = terme d’erreur
19
Régression simple.

19
Régression simple.
➢ Évaluation de la pertinence du modèle de régression

Sig<0.05 Dans ce cas-ci, nous devons rejeter


l'hypothèse nulle « la variable indépendante ne
permet pas de prédire la variable dépendante ».
Il y a donc une relation statistiquement
significative entre la variable dépendante et la
variable indépendante.

19
Régression simple.

➢ l'ajustement des données au modèle de régression

Valeur absolue
de la corrélation

Si nous élevons au carré le coefficient de corrélation,


nous obtenons la valeur R2 (0,756). Celui-ci indique la
proportion de la variabilité de la variable dépendante
(y) expliquée par le modèle de régression. Nous
pouvons donc dire que le taux de natalité peut expliquer
près de 75 % de la variation de l’espérance de vie des
femmes.

19
Régression simple.
➢ Les paramètres du modèle

Y = β0 + β1X + ε
Β0= 89.57
β1=-0.744
ε=1.357
Donc:
l'espérance de vie des femmes=89.57-0,744*taux de
natalité+1,357
19
Régression simple.
➢ Courbe d’ajustement

A partir des menus dans l’éditeur du diagramme


sélectionnez :

▪ Eléments Ajouter une courbe d’ajustement au


total.

▪ Cliquez en dehors de diagramme.

➢ La représentation précédente se présente ainsi


comme suit:

19
Régression simple.

19
Analyse multi variée

L’analyse multi variée vise à expliquer une variable à l'aide


de deux ou plusieurs variables explicatives.
Nous verrons ci-dessous les principales méthodes
utilisables dans les enquêtes que sont la régression
multiple et la régression logistique.

La régression linéaire multiple:


Généralise l’approche adoptée dans la régression linéaire
simple. Dans la régression multiple, le nombre de variables
indépendantes(k) est supérieur ou égal à 2, mais inférieur
au nombre de situations (observations) considérées(n).
Y = β0 + β1X1 + β1X1+….+ βkXk +ε Avec k<n

22
Analyse multi variée
❑ Le choix des variables indépendantes:
Un bon modèle comprend un nombre optimal de
variables et par la présence d’un lien théorique connu
ou présumé avec la variable dépendante. Il y a des
éléments à considérer lors de cette étape:

1. La nature des objectifs ou des hypothèses de recherche :


Les variables mises en cause dans l’énoncé d’un objectif
ou d’une hypothèse doivent forcément se retrouver dans
le modèle.

22
Analyse multi variée

2. La présence de corrélation avec la variable dépendante :


Dans certains contextes, il est possible de choisir les
variables indépendantes en fonction de leur degré
d’association avec la variable dépendante. Des variables
n’ayant pas de lien assez fort avec celle-ci pourrait être
exclues du modèle.

3. La puissance statistique du devis :


Le nombre d’observations détermine la quantité
maximale de variables qu’un modèle peut supporter.
Plus on a d’observations, plus on peut inclure de
variables dans le modèle.

22
Régression linéaire multiple
❖ Dans notre exemple, nous voulons savoir quelles variables
influencent l’augmentation du cholestérol (BASE FORMATION.sav)

22
Régression linéaire multiple

❖ Entrée (par défaut) : toutes les variables d’un bloc


sont introduites en une seule opération ;

❖ Pas à pas : les variables indépendantes sont ajoutées


à l’équation une par une et peuvent être enlevées
subséquemment si elles ne contribuent plus
significativement à la régression.

❖ Eliminer bloc : toutes les variables dans un bloc sont


supprimées en une seule étape .

22
Régression linéaire multiple
❖ Descendante : toutes les variables sont entrées initialement
dans l’équation et sont ensuite éliminées une à une. La
variable ayant la plus petite corrélation avec la variable
dépendante est d’abord étudiée pour l’élimination. Si elle est
éliminée par le modèle, la prochaine variable avec le plus
petit coefficient de corrélation est étudiée, jusqu’à ce
qu’aucune variable ne satisfasse plus au critère d’élimination.

❖ Ascendante : les variables sont introduites séquentiellement


une par une. Si la première variable est introduite dans
l’équation, la variable explicative ne figurant pas dans
l’équation et présentant la plus forte corrélation partielle est
considérée ensuite. La procédure s’arrête lorsqu’il ne reste
plus de variables satisfaisant le critère d’introduction.
22
Régression linéaire multiple
Le modèle
contribue à mieux
prédire la VD

L’augmentation
d’un kilo au niveau
du poids entraine
l’augmentation du
cholestérol de 25%

Taux de chol=8,86+0,016*Poids-0,037*Taille+0,70*Fume+0,19*Triglycerides

Pour quelqu’un qui a un poids=85,Taille=183,Ne fume pas et Triglyce=2,5


Taux de chol =3,92 Mm
22
Régression logistique

➢ La régression logistique est une technique statistique qui a


pour objectif, à partir d’un fichier d’observations, de
produire un modèle permettant de prédire les valeurs
prises par une variable catégorielle, le plus souvent
binaire(codée 0-1), à partir d’une série de variables
explicatives continues ou catégorielle

Y=exp (β0 + β1 X1 + β2 X2 +…+βnXn) / [1 + exp (β0 + β1


X1 + β2 X2 +…+βnXn)]

➢ L’intérêt de cette équation réside dans la simplicité du


passage à l’estimation d’un odds-ratio (OR = exp (β)) ou
rapport des cotes qui mesure la force de l'association entre
Y et les Xi.
22
Régression logistique
❖ les facteurs socio-économiques susceptibles d’améliorer
la connaissance du SIDA(base femme reg logis.sav)

22
Régression logistique
➢ Bloc 0 = Modèle n’incluant que la constante(autres coefficients=0)
➢ Bloc 1 = Modèle suivant, incluant un ou plusieurs prédicteurs

β0 = 1,132

➢ Ils testent si le modèle incluant les


prédicteurs(modèle complet, dans le
«Etape» ou dans le «Bloc») est
significativement meilleur que le
modèle n’incluant que la constante

[0,1] = Mesure de la force d’association

22
Régression logistique
Test de Wald: tester H0: βi= 0
contre H1: βi≠0

Si OR=1 : CSIDA est indépendante de


la modalité de la variable.
Si OR>1 : CSIDA est plus fréquente
dans cette modalité que dans
la modalité de référence.
Si OR<1 : CSIDA est moins fréquente
dans cette modalité que dans
la modalité de référence.

Être en milieu rurale diminue de


71% la chance de connaitre la
maladie sida que d’étre en milieu
urbain

22
Arbre de décision

❖ Un arbre de décision est un outil d'aide à la décision


représentant un ensemble de choix sous la forme graphique
d'un arbre. Les différentes décisions possibles sont situées
aux extrémités des branches (les « feuilles » de l'arbre), et
sont atteints en fonction de décisions prises à chaque étape

Avec SPSS :
Onglet Analyse
▪ Classification Arbre
▪ Choisissez le variable dépendent et les variable
indépendantes
▪ Cliquez sur “ok”.

26
Arbre de décision
❖ Dans le but de déterminer une prédiction de la prévalence
contraceptive en fonction des facteurs socio-économiques un arbre
d’aide à la décision a été tracé(base femme.sav)

26
Arbre de décision

la « racine » de l’arbre

26
Arbre de décision

❖ La segmentation des variables selon l'arbre de décision est


effectuée selon leurs importance, donc, le nombre d'enfants
vivants est la variable la plus importante qui explique bien
l'utilisation contraceptive suivie de l’âge, la région,
l’éducation, l’âge du mari et enfin le niveau socio-
économique.

❖ Pour classer un nouvel individu, il suffit de l’injecter


dans l’arbre, et de lui associer la conclusion attachée à la
feuille dans laquelle il aboutit

26
Arbre de décision

❖ Par exemple soit les trois femmes « A », « B » et « C » avec


les caractéristiques suivantes :
✓ La femme « A » est nullipare(NENF=0).
✓ La femme « B » est primipare(NENF=1), âgée de 20 à 24
ans et de niveau socio-économique pauvre
✓ La femme «C » est multipare(NENF>2), âgée de 30 à 34
ans, de niveau supérieur

➢ Selon notre arbre de décision la femme « A » n’utilise pas la


contraception avec une probabilité de 0.96, la femme « B »
utilise la contraception aves une probabilité de 0.82 et enfin
la femme « C » utilise la contraception avec une probabilité
de 0.80
26
Arbre de décision

Femme A
Femme B
Femme C

26
Arbre de décision

705 représente les faux


positifs

47 représente les faux


Matrice de confusion
négatifs

Taux d’erreur =(705+47)/3061=0,246

26
L'analyse de survie

L’analyse de la survie est l’estimation de la probabilité de


survenue d’un événement (décès, complication post
opératoire, rechute…) dans le temps, en fonction de facteurs
pronostiques (éléments influençant l’estimation)
*Par convention, on nomme l’événement attendu : « décès ».

❖ Probabilité de survivre au moins un certain temps « t » à


compter d’un instant de référence.
❖ Probabilité pour que l’évènement attendu survienne après
un certain délai.

Exemple : Probabilité pour que le décès d’un patient


survienne après un certain délai sachant que le cancer dont il
souffre est au stade 4.
26
L'analyse de survie

L’analyse de la survie c’est aussi l’étude comparative de la


survenue dans le temps d’un événement dans différents
groupes (Test du log-rank).

Exemple : On teste des traitements contre le cancer. Pour


chaque groupe on donne un traitement. On étudie dans les
différents groupes la survenue dans le temps des décès et on
compare les résultats afin d’établir l’efficacité éventuelle des
traitements.

26
L'analyse de survie

Mots Clés de l’analyse de survie:


• Evénement d’intérêt : événement auquel on s’intéresse au cours de
l’étude (Décès, décès lié à un AVC, complication, rechute, disparition
de symptômes…)
• Durée de survie : Délai entre la date d’origine et la date de
survenue ou la date des dernières nouvelles.
• Date des dernières nouvelles: C’est la date la plus récente à
laquelle on a recueilli des informations sur le patient, notamment la
survenue ou non de l’événement d’intérêt.
• Censure : Une durée de survie d’un individu est dite censurée
lorsque l’événement d’intérêt n’a pas été observé. Elle concerne : les
sujets perdus de vus (C) et ceux vivant à la date des dernières
nouvelles.
26
L'analyse de survie

❑ Exemple: Base survie.sav

Supposons que l’étude soit un essai clinique portant sur


trois groupes de patients, recevant 3 types de traitements.
La questions qui se pose:

L’un des trois traitements est-il plus efficace que l’autre


en terme d’amélioration de la survie des patients ?

26
L'analyse de survie

26
L'analyse de survie

26
L'analyse de survie

26
L'analyse de survie

Le traitement 2 est le plus efficace que


les autres en terme d’amélioration de la
survie des patients

26
L'analyse de survie

26
La meilleure façon d’apprendre à

utiliser un nouveau logiciel

c’est la pratique

26

Vous aimerez peut-être aussi