Atelier 2 SPSS Biostate 2eme Atelier

Statistical
Pratique de la statistique
Package
avec le logiciel SPSS
for
Social
Sciences
Initiation à SPSS
Atelier 2: Analyse des données
Formateur: Douzi Mohamed Ahmed

Contact : ahmeddouzi@hotmail.com
Plan du formation
1 Distribution de fréquences
Analyse 2 Mesures de tendances centrales

uni variée 3 Mesures de dispersion
4 Les représentations graphiques
Atelier 2: 1 Tableau croisé et test de Khi deux (χ2)

Analyse 2 Comparaison de la moyenne et ANOVA
bi variée
Analyse des 3 Corrélation et régression simple
données
1 La régression linéaire multiple
Analyse 2 La régression logistique

multivariée 3 Arbre de décision
4 Analyse de survie
2
Objectifs
▪ Être capable de :
▪ Faire des analyses uni variées, bi variées
et multivariées
▪ Interpréter les résultats de ces analyses
2
Trois types d’analyse
▪ Analyse uni variée:

▪ Porte sur une seule variable dans le but de
décrire l’échantillon.
▪ Analyse bi variée:
▪ Porte sur les relations entre deux variables
(une variable dépendante et une variable
indépendante)
▪ Analyse multi variée:
▪ Porte sur les relations entre plus de deux
variables
4
Analyse univariée
➢ Calculer la fréquence
➢ Calculer la moyenne, le mode, la variance…
➢ Création des graphiques
✓ Prendre connaissance des données

✓ Observer les résultats
✓ Découvrir valeurs manquantes et erreurs
d’entrée de données
5
Outils de l’analyse uni variée
▪ Distribution de fréquences
(ex.: rangement, tableau et graphique)
▪ Mesures de tendances centrales

(ex.: moyenne, mode et médiane)
▪ Mesures de dispersion
(ex.: étendue, variance et écart-type)
▪ Les représentations graphiques
(ex.: Camembert, histogramme, box plot…)

6
Analyse uni variée
❖ Variable qualitative: La description d’une variable

qualitative consiste à présenter les effectifs, c’est-à-
dire le nombre d’individus de l’échantillon pour
chaque modalité de la variable, et les fréquences,
c’est-à-dire le nombre de réponses associées aux
modalités de la variable étudiée
Avec SPSS :
Onglet Analyse
▪ statistiques descriptives Effectifs
▪ Choisissez les variables pour lesquelles vous
désirez des statistiques.
▪ Cliquez sur “ok”.
7
Analyse uni variée
❖ Présenter l’effectif de la variable région (base femme.sav)
7
Analyse uni variée
8
Résultat et interprétation
➢ Le tableau montre immédiatement que la

majorité (66%) des femmes âgées de 30 ans et
plus issues, une minorité représente 4% âgée
entre 15 et 19ans, un tiers des femmes (30%)
âgée entre 20 et 29ans.Ces résultats peuvent
également être visualisés sous forme de
graphiques (diagrammes en bâtons, en
secteurs), dans lesquels les surfaces associées
aux différentes modalités sont
proportionnelles à leur fréquence, exprimée
en valeur ou en pourcentage, comme le
montre la figure
9
Analyse uni variée
Variable quantitative: La description d’une variable

quantitative consiste à calculer la moyenne, le
médiane et la Variance
▪ la moyenne représente le centre d'équilibre d'une
distribution
▪ La médiane : la valeur qui sépare une distribution

ordonnée en deux groupes qui contiennent le même
nombre de données.
▪ Le mode : représente la valeur présentant la plus

grande fréquence d’occurrence
10
Analyse uni variée
❖ Onglet Analyse
➢ Statistique descriptives Effectif

➢ Choisissez les variables pour les quelles vous
désirez des statistiques.
➢ Choisissez les statistiques que vous désirez
rapporter en cliquant sur le bouton “Option”
(moyenne, médiane, écart-type, etc...).
➢ Cliquez sur “ok”.
10
Analyse uni variée
❖ Analyser la variable poids(BASE Formation.sav)
11
Le poids moyen était de

70,36 ± 14,96 kg
11
Représentations graphiques
Boîte à moustaches
les valeurs
aberrantes
Maximum
Q3:75%
Médiane
Q1:25%
Minimum
SPSS: Graphes Générateur de SPSS: Graphes Générateur de
diagrammes Histogramme diagrammes Boîte à moustaches
▪ L'histogramme représente mieux la ▪ La boîte à moustaches permet de

distribution d'une variable continue, récapituler une variable numérique
puisqu’il décrit toutes les valeurs en représentant la médiane, les
possibles comprises entre la plus quartiles et les valeurs extrêmes.
petite et la plus grande
11
Représentations graphiques
SPSS: Analyse Prévision

Diagrammes séquentielles
Variables
quantitatives
continues
Variable de Graphique temporel: Permet de

type date
visualiser l’évolution d’une
variable quantitative continue
en fonction du temps(base
Evolution de la mortalité.sav)
11
Analyse bi variée
❑ L’objectif de l’analyse bidimensionnelle est

d’étudier les liens entre deux variables
d’une enquête à l’aide :
❖ Tableau croisé et test de Khi deux (χ2)

❖ Comparaison de la moyenne et ANOVA
❖ Corrélation et régression simple
13
Analyse bi variée
I. Tableau croisé et test de Khi deux (χ2)
▪ Croisements entre 2 variables catégorielles
Ex. La connaissance de la maladie SIDA selon le
milieu(base femme.xls)
▪ Onglet Analyse
Statistiques descriptives Tableaux croisés
Choisissez les deux variables que vous désirez
croisées (une dans “ligne” et une dans
“colonne”).
▪ Cliquez sur le bouton “cellules” et cochez les
trois choix sous “pourcentages” (ligne,
position, total)
▪ Cliquez statistiques et choisissez Chi-deux.
▪ Cliquez sur “poursuivre” et “ok”. 14
Croisement entre 2 variables
catégorielles
15
Test statistique
➢ Dans la logique d'un test d'hypothèse, il y a toujours
deux hypothèses statistiques:
❖ La première - l'hypothèse nulle ou Ho - est, comme son
nom l'indique, une hypothèse qui postule que la
relation entre X et Y est due au hasard, autrement dit
qu'il n'y a pas de relation entre X et Y (nulle= absence
de relation).
❖ La seconde - l'hypothèse alternative ou H1 - correspond
habituellement à l'hypothèse de votre recherche.
Contrairement à l'hypothèse nulle, cette hypothèse
suggère que la relation entre X et Y ne peut être attribuée
au hasard; il existe donc un lien entre X et Y au sein de la
population.
15
Test statistique
➢ Rappelons qu'en sciences humaines, le risque
maximum d'erreur est de 0.05 (= seuil de signification).
❖ Si votre SIG. ou valeur de p est supérieure à

0.05, vous devez accepter l'hypothèse nulle et
conclure que l'association ou la co-occurrence
observée entre X et Y est due au hasard.
❖ Si votre SIG. ou valeur de p est inférieure à 0.05, vous

devez rejeter l'hypothèse nulle et accepter l'hypothèse
alternative, et donc conclure qu'il existe une relation entre
X et Y au sein de la population.
15
Résultat ‘’Outpout’’
▪ 69,4% des femmes qui

connaissaient la maladie SIDA
habitant les zones urbaines
contre
▪ 30,6% des femmes habitant les
zones rurales ne connaissaient
pas cette maladie
Valeur de P<0.05: On rejette

l’hypothèse H0 donc il existe une
relation entre le milieu à une influence
sur la connaissance de la maladie
SIDA
16
Analyse bi variée
II. Comparaison de la moyenne et ANOVA
Lorsqu’on confronte une variable quantitative à une
variable qualitative (nominale ou ordinale), on recourt très
généralement à la comparaison de moyennes ou à
l’analyse de variance (ANOVA).
1. Comparaison de la moyenne (test Student « t »)

On utilise cette technique pour comparer deux groupes, créés
par une variable catégorielle, en fonction de leur moyenne à
une mesure (variable continue) sous les deux hypothèses
suivantes :
H0: µ1=µ2 : Il n'y a pas de différence entre les moyennes
H1: µ1≠µ2 : Il y a une différence entre les deux moyennes.

17
Test Student
❖ Comparer le nombre de décès selon le genre(Base déces.sav)
17
Le tableau des moyennes qui

décrit les deux groupes
Sig=0.00<0,05 Donc on rejette

Le tableau du Test-t qui permet H0 et conclure qu'il y’a une
de comparer les deux groupes. différence significative entre
ces deux groupes
17
Analyse bi variée
2. Analyse de variance (ANOVA)
Cette technique permet de comparer les moyennes de trois
groupes ou plus, créés par une variable catégorielle en
fonction de leur moyenne à une mesure (variable continue)
sous les deux hypothèses suivantes :
❖H0: µ1=µ2=µ3=µ4=….=µn : Il n'y a pas de différence

entre les moyennes
❖ H1: µ1≠µ2 ≠ µ3 ≠ µ4 ≠ …. ≠ µn : il y a une différence entre

les moyennes, c'est-à-dire qu'au moins une des moyennes
est différente des autres.
17
Analyse de variance (ANOVA)
❖ La question qui nous aidera à illustrer l'analyse de variance
est la suivante : Peut-on croire que l'obésité a une influence
sur l’augmentation du cholestérol ? (Base Formation.xlsx)
17
la variabilité échantillonnale
de la moyenne
Sig <0,05 donc on rejette HO et

conclure que l’obésité a une
influence sur l’augmentation de
cholestérol .
17
Analyse bi variée
III. Corrélation et régression simple

Lorsqu’on confronte une variable quantitative à une
variable quantitative on recourt très généralement au
calcule du coefficient de corrélation ou de réaliser une
régression simple.
1. L’analyse de corrélation
Renseigne sur l’intensité du lien entre les deux variables :
ex : « le lien est fort et très significatif ».
Coefficient de corrélation de Pearson r est une mesure
d’association (d’interdépendance) entre deux variables
quantitative
17
L’analyse de corrélation
❑ r est toujours compris entre –1 et 1
❑ si r est proche de –1 alors le lien est fort et négatif

(quand 1 des 2 variables augmente l’autre diminue),
alors que si r est proche de 1 le lien est fort et positif
(quand 1 des deux variable augmente, l’autre augmente
aussi).
❑ si r est proche de 0 alors il n’y a pas de lien entre x et y
17
❖ Dans cet exemple, nous avons réalisé une corrélation entre l'espérance
de vie des femmes (LIFEEXPF) et le taux de natalité par 1 000 habitants
(BIRTHRAT). Nous désirions savoir s'il existait une relation linéaire
significative entre ces deux variables.(base naissance.sav)
17
Nous voyons que pour cet échantillon, il y a 122 valeurs

valides pour l'espérance de vie des femmes et 121 pour le
taux de natalité. Les femmes vivent en moyenne 66 ans et
le taux de natalité moyen est de 31 enfants par 1 000
habitants
17
La corrélation est significative

sig<0,05, nous pouvons donc
rejeter l'hypothèse nulle d'absence
de relation entre le taux de natalité
et l'espérance de vie
Le coefficient de corrélation significatif nous donne deux informations

que l'on doit interpréter:
✓ le sens de la relation entre les variables : Comme le coefficient est

négatif, plus le taux de natalité d'un pays est élevé, plus l'espérance
de vie diminue.
✓ la force de la relation (la taille d'effet) : En examinant la valeur du

coefficient (r = - 0,87), nous pouvons dire que l'effet de la relation
entre ces deux variables est de grande taille et que l'association est
très forte.
17
➢ Nous avions vu que les

points semblaient se
regrouper autour d'une
droite et qu'en ce sens, il
s'agissait d'une relation
linéaire négative. En effet,
plus le nombre de
naissances par 1 000
habitants augmente, plus
l'espérance de vie des
femmes diminue.
SPSS: Graphes Générateur de

diagrammes Dispersion
17
Régression simple.
2. Régression simple
Elle consiste à déterminer une équation qui relie 2 variables
quantitatives. Contrairement à la corrélation simple, elle
nécessite d’identifier l’une des 2 variables comme étant
dépendante (à expliquer) et l’autre comme étant indépendante
(explicative).
Le modèle type est de la forme :
Y = β0 + β1X + ε avec
Y = variable dépendante (à expliquer)

X = variable indépendante (ou explicative)
β0 = ordonnée à l’origine de la droite
β1 = pente de la droite
ε = terme d’erreur
19
Régression simple.
19
Régression simple.
➢ Évaluation de la pertinence du modèle de régression
Sig<0.05 Dans ce cas-ci, nous devons rejeter

l'hypothèse nulle « la variable indépendante ne
permet pas de prédire la variable dépendante ».
Il y a donc une relation statistiquement
significative entre la variable dépendante et la
variable indépendante.
19
Régression simple.
➢ l'ajustement des données au modèle de régression
Valeur absolue
de la corrélation
Si nous élevons au carré le coefficient de corrélation,

nous obtenons la valeur R2 (0,756). Celui-ci indique la
proportion de la variabilité de la variable dépendante
(y) expliquée par le modèle de régression. Nous
pouvons donc dire que le taux de natalité peut expliquer
près de 75 % de la variation de l’espérance de vie des
femmes.
19
Régression simple.
➢ Les paramètres du modèle
Y = β0 + β1X + ε
Β0= 89.57
β1=-0.744
ε=1.357
Donc:
l'espérance de vie des femmes=89.57-0,744*taux de
natalité+1,357
19
Régression simple.
➢ Courbe d’ajustement
A partir des menus dans l’éditeur du diagramme

sélectionnez :
▪ Eléments Ajouter une courbe d’ajustement au

total.
▪ Cliquez en dehors de diagramme.
➢ La représentation précédente se présente ainsi

comme suit:
19
Régression simple.
19
Analyse multi variée
L’analyse multi variée vise à expliquer une variable à l'aide

de deux ou plusieurs variables explicatives.
Nous verrons ci-dessous les principales méthodes
utilisables dans les enquêtes que sont la régression
multiple et la régression logistique.
La régression linéaire multiple:

Généralise l’approche adoptée dans la régression linéaire
simple. Dans la régression multiple, le nombre de variables
indépendantes(k) est supérieur ou égal à 2, mais inférieur
au nombre de situations (observations) considérées(n).
Y = β0 + β1X1 + β1X1+….+ βkXk +ε Avec k<n
22
❑ Le choix des variables indépendantes:
Un bon modèle comprend un nombre optimal de
variables et par la présence d’un lien théorique connu
ou présumé avec la variable dépendante. Il y a des
éléments à considérer lors de cette étape:
1. La nature des objectifs ou des hypothèses de recherche :

Les variables mises en cause dans l’énoncé d’un objectif
ou d’une hypothèse doivent forcément se retrouver dans
le modèle.
22
2. La présence de corrélation avec la variable dépendante :

Dans certains contextes, il est possible de choisir les
variables indépendantes en fonction de leur degré
d’association avec la variable dépendante. Des variables
n’ayant pas de lien assez fort avec celle-ci pourrait être
exclues du modèle.
3. La puissance statistique du devis :

Le nombre d’observations détermine la quantité
maximale de variables qu’un modèle peut supporter.
Plus on a d’observations, plus on peut inclure de
variables dans le modèle.
22
Régression linéaire multiple
❖ Dans notre exemple, nous voulons savoir quelles variables
influencent l’augmentation du cholestérol (BASE FORMATION.sav)
22
❖ Entrée (par défaut) : toutes les variables d’un bloc

sont introduites en une seule opération ;
❖ Pas à pas : les variables indépendantes sont ajoutées

à l’équation une par une et peuvent être enlevées
subséquemment si elles ne contribuent plus
signiﬁcativement à la régression.
❖ Eliminer bloc : toutes les variables dans un bloc sont

supprimées en une seule étape .
22
❖ Descendante : toutes les variables sont entrées initialement
dans l’équation et sont ensuite éliminées une à une. La
variable ayant la plus petite corrélation avec la variable
dépendante est d’abord étudiée pour l’élimination. Si elle est
éliminée par le modèle, la prochaine variable avec le plus
petit coefficient de corrélation est étudiée, jusqu’à ce
qu’aucune variable ne satisfasse plus au critère d’élimination.
❖ Ascendante : les variables sont introduites séquentiellement

une par une. Si la première variable est introduite dans
l’équation, la variable explicative ne ﬁgurant pas dans
l’équation et présentant la plus forte corrélation partielle est
considérée ensuite. La procédure s’arrête lorsqu’il ne reste
plus de variables satisfaisant le critère d’introduction.
22
Le modèle
contribue à mieux
prédire la VD
L’augmentation
d’un kilo au niveau
du poids entraine
l’augmentation du
cholestérol de 25%
Taux de chol=8,86+0,016*Poids-0,037*Taille+0,70*Fume+0,19*Triglycerides
Pour quelqu’un qui a un poids=85,Taille=183,Ne fume pas et Triglyce=2,5

Taux de chol =3,92 Mm
22
Régression logistique
➢ La régression logistique est une technique statistique qui a

pour objectif, à partir d’un fichier d’observations, de
produire un modèle permettant de prédire les valeurs
prises par une variable catégorielle, le plus souvent
binaire(codée 0-1), à partir d’une série de variables
explicatives continues ou catégorielle
Y=exp (β0 + β1 X1 + β2 X2 +…+βnXn) / [1 + exp (β0 + β1

X1 + β2 X2 +…+βnXn)]
➢ L’intérêt de cette équation réside dans la simplicité du

passage à l’estimation d’un odds-ratio (OR = exp (β)) ou
rapport des cotes qui mesure la force de l'association entre
Y et les Xi.
22
❖ les facteurs socio-économiques susceptibles d’améliorer
la connaissance du SIDA(base femme reg logis.sav)
22
➢ Bloc 0 = Modèle n’incluant que la constante(autres coefficients=0)
➢ Bloc 1 = Modèle suivant, incluant un ou plusieurs prédicteurs
β0 = 1,132
➢ Ils testent si le modèle incluant les

prédicteurs(modèle complet, dans le
«Etape» ou dans le «Bloc») est
significativement meilleur que le
modèle n’incluant que la constante
[0,1] = Mesure de la force d’association
22
Test de Wald: tester H0: βi= 0
contre H1: βi≠0
Si OR=1 : CSIDA est indépendante de

la modalité de la variable.
Si OR>1 : CSIDA est plus fréquente
dans cette modalité que dans
la modalité de référence.
Si OR<1 : CSIDA est moins fréquente
dans cette modalité que dans
la modalité de référence.
Être en milieu rurale diminue de

71% la chance de connaitre la
maladie sida que d’étre en milieu
urbain
22
Arbre de décision
❖ Un arbre de décision est un outil d'aide à la décision

représentant un ensemble de choix sous la forme graphique
d'un arbre. Les différentes décisions possibles sont situées
aux extrémités des branches (les « feuilles » de l'arbre), et
sont atteints en fonction de décisions prises à chaque étape
Avec SPSS :
Onglet Analyse
▪ Classification Arbre
▪ Choisissez le variable dépendent et les variable
indépendantes
▪ Cliquez sur “ok”.
26
Arbre de décision
❖ Dans le but de déterminer une prédiction de la prévalence
contraceptive en fonction des facteurs socio-économiques un arbre
d’aide à la décision a été tracé(base femme.sav)
26
Arbre de décision
la « racine » de l’arbre
26
Arbre de décision
❖ La segmentation des variables selon l'arbre de décision est

effectuée selon leurs importance, donc, le nombre d'enfants
vivants est la variable la plus importante qui explique bien
l'utilisation contraceptive suivie de l’âge, la région,
l’éducation, l’âge du mari et enfin le niveau socio-
économique.
❖ Pour classer un nouvel individu, il suffit de l’injecter

dans l’arbre, et de lui associer la conclusion attachée à la
feuille dans laquelle il aboutit
26
Arbre de décision
❖ Par exemple soit les trois femmes « A », « B » et « C » avec

les caractéristiques suivantes :
✓ La femme « A » est nullipare(NENF=0).
✓ La femme « B » est primipare(NENF=1), âgée de 20 à 24
ans et de niveau socio-économique pauvre
✓ La femme «C » est multipare(NENF>2), âgée de 30 à 34
ans, de niveau supérieur
➢ Selon notre arbre de décision la femme « A » n’utilise pas la

contraception avec une probabilité de 0.96, la femme « B »
utilise la contraception aves une probabilité de 0.82 et enfin
la femme « C » utilise la contraception avec une probabilité
de 0.80
26
Arbre de décision
Femme A
Femme B
Femme C
26
Arbre de décision
705 représente les faux

positifs
47 représente les faux

Matrice de confusion
négatifs
Taux d’erreur =(705+47)/3061=0,246
26
L'analyse de survie
L’analyse de la survie est l’estimation de la probabilité de

survenue d’un événement (décès, complication post
opératoire, rechute…) dans le temps, en fonction de facteurs
pronostiques (éléments influençant l’estimation)
*Par convention, on nomme l’événement attendu : « décès ».
❖ Probabilité de survivre au moins un certain temps « t » à

compter d’un instant de référence.
❖ Probabilité pour que l’évènement attendu survienne après
un certain délai.
Exemple : Probabilité pour que le décès d’un patient

survienne après un certain délai sachant que le cancer dont il
souffre est au stade 4.
26
L'analyse de survie
L’analyse de la survie c’est aussi l’étude comparative de la

survenue dans le temps d’un événement dans différents
groupes (Test du log-rank).
Exemple : On teste des traitements contre le cancer. Pour

chaque groupe on donne un traitement. On étudie dans les
différents groupes la survenue dans le temps des décès et on
compare les résultats afin d’établir l’efficacité éventuelle des
traitements.
26
L'analyse de survie
Mots Clés de l’analyse de survie:

• Evénement d’intérêt : événement auquel on s’intéresse au cours de
l’étude (Décès, décès lié à un AVC, complication, rechute, disparition
de symptômes…)
• Durée de survie : Délai entre la date d’origine et la date de
survenue ou la date des dernières nouvelles.
• Date des dernières nouvelles: C’est la date la plus récente à
laquelle on a recueilli des informations sur le patient, notamment la
survenue ou non de l’événement d’intérêt.
• Censure : Une durée de survie d’un individu est dite censurée
lorsque l’événement d’intérêt n’a pas été observé. Elle concerne : les
sujets perdus de vus (C) et ceux vivant à la date des dernières
nouvelles.
26
L'analyse de survie
❑ Exemple: Base survie.sav
Supposons que l’étude soit un essai clinique portant sur

trois groupes de patients, recevant 3 types de traitements.
La questions qui se pose:
L’un des trois traitements est-il plus efficace que l’autre

en terme d’amélioration de la survie des patients ?
26
L'analyse de survie
26
L'analyse de survie
26
L'analyse de survie
26
L'analyse de survie
Le traitement 2 est le plus efficace que

les autres en terme d’amélioration de la
survie des patients
26
L'analyse de survie
26
La meilleure façon d’apprendre à
utiliser un nouveau logiciel
c’est la pratique
26

Atelier 2 SPSS Biostate 2eme Atelier

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Atelier 2 SPSS Biostate 2eme Atelier

Transféré par

Droits d'auteur :

Formats disponibles

Statistical

Atelier 2: Analyse des données

Formateur: Douzi Mohamed Ahmed

Analyse 2 Mesures de tendances centrales

Atelier 2: 1 Tableau croisé et test de Khi deux (χ2)

Analyse 2 La régression logistique

▪ Analyse uni variée:

✓ Prendre connaissance des données

▪ Mesures de tendances centrales

▪ Les représentations graphiques

(ex.: Camembert, histogramme, box plot…)

❖ Variable qualitative: La description d’une variable

➢ Le tableau montre immédiatement que la

Variable quantitative: La description d’une variable

▪ La médiane : la valeur qui sépare une distribution

▪ Le mode : représente la valeur présentant la plus

➢ Statistique descriptives Effectif

Le poids moyen était de

▪ L'histogramme représente mieux la ▪ La boîte à moustaches permet de

SPSS: Analyse Prévision

Variable de Graphique temporel: Permet de

❑ L’objectif de l’analyse bidimensionnelle est

❖ Tableau croisé et test de Khi deux (χ2)

❖ Si votre SIG. ou valeur de p est supérieure à

❖ Si votre SIG. ou valeur de p est inférieure à 0.05, vous

▪ 69,4% des femmes qui

Valeur de P<0.05: On rejette

1. Comparaison de la moyenne (test Student « t »)

H1: µ1≠µ2 : Il y a une différence entre les deux moyennes.

Le tableau des moyennes qui

Sig=0.00<0,05 Donc on rejette

❖H0: µ1=µ2=µ3=µ4=….=µn : Il n'y a pas de différence

❖ H1: µ1≠µ2 ≠ µ3 ≠ µ4 ≠ …. ≠ µn : il y a une différence entre

Sig <0,05 donc on rejette HO et

III. Corrélation et régression simple

❑ r est toujours compris entre –1 et 1

❑ si r est proche de –1 alors le lien est fort et négatif

❑ si r est proche de 0 alors il n’y a pas de lien entre x et y

Nous voyons que pour cet échantillon, il y a 122 valeurs

La corrélation est significative

Le coefficient de corrélation significatif nous donne deux informations

✓ le sens de la relation entre les variables : Comme le coefficient est

✓ la force de la relation (la taille d'effet) : En examinant la valeur du

➢ Nous avions vu que les

SPSS: Graphes Générateur de

Y = variable dépendante (à expliquer)

Sig<0.05 Dans ce cas-ci, nous devons rejeter

➢ l'ajustement des données au modèle de régression

Si nous élevons au carré le coefficient de corrélation,

A partir des menus dans l’éditeur du diagramme

▪ Eléments Ajouter une courbe d’ajustement au

▪ Cliquez en dehors de diagramme.

➢ La représentation précédente se présente ainsi

L’analyse multi variée vise à expliquer une variable à l'aide

La régression linéaire multiple:

1. La nature des objectifs ou des hypothèses de recherche :

2. La présence de corrélation avec la variable dépendante :

3. La puissance statistique du devis :

❖ Entrée (par défaut) : toutes les variables d’un bloc

❖ Pas à pas : les variables indépendantes sont ajoutées

❖ Eliminer bloc : toutes les variables dans un bloc sont

❖ Ascendante : les variables sont introduites séquentiellement

Pour quelqu’un qui a un poids=85,Taille=183,Ne fume pas et Triglyce=2,5

➢ La régression logistique est une technique statistique qui a