Vous êtes sur la page 1sur 5

DOSSIER II- Analyse bivariée – Régression - Correlation

STATISTIQUES BIVARIEES LICENCES– SEMESTRE 6 –Année2007 - 2008


Breton Didier / Virginie Jourdan / Mohamed Ouardani

EXERCICE I : DEPENDANCE ENTRE 1 VARIABLE QUALITATIVE ET 1 VARIABLE


QUANTITATIVE.
En 2002, une équipe d’étudiants pour leur recherche en sciences sociales s’intéressent aux effets
des caractéristiques familiales sur le niveau de formation et l’histoire de formation des individus.
Ces étudiants explorent deux terrains. Le premier situé en Alsace et l’autre en Ile de France. Dans
le cadre d’un premier travail exploratoire ils ont eu la possibilité d’exploiter une enquête nationale
réalisée dans l’ensemble des régions françaises en 1999. Ils s’intéressent dans un premier temps
aux hommes et aux femmes nées entre 1968 et 1970 qui ont terminé leurs études. Dans cette
enquête on a demandé notamment aux hommes et aux femmes :

« À QUEL ÂGE AVEZ-VOUS CESSÉ DE FRÉQUENTER RÉGULIÈREMENT L’ÉCOLE OU L’UNIVERSITÉ


(pour la première fois) ?»

Voici les résultats statistiques obtenus à partir de l’enquête :


Age moyen
Effectif à la fin des
SEXE REGION enquêté études Ecart type
Hommes Ile de France 335 20,04 3,29
Femmes Ile de France 563 20,25 3,04
Hommes Alsace 260 19,30 3,34
Femmes Alsace 369 19,28 3,05

Dites, en utilisant les éléments de cours et les tests vu en deuxième année (rappel dans le cours)
si :
- Pour les hommes, il existe une relation significative entre l’âge à la fin des études et la
région d’habitation au moment de l’étude ? Plus précisément ; déterminer la probabilité exacte de
vous tromper en affirmant qu’il existe une relation significative entre les deux variables ?

Considérons deux populations :


- Une première d’hommes vivant en Ile de France dans laquelle l’âge moyen doit être égal à
µ1 (inconnue)
- Une seconde d’hommes vivant en Alsace dans laquelle l’âge moyen doit être égal à µ2
(inconnue).

Posons l’hypothèse H0 comme quoi il n’y a pas de dépendance entre la variable REGION et la
variable « AGE A LA FIN DES ETUDES ».
{Ho : µ1= µ2 / Ho µ1> µ2} - Test 6 de la deuxième année en unilatéral.

De plus :
- Ici les effectifs enquêté d’hommes et de femmes sont suffisamment importants pour
utiliser le Théorème Central limite (n1 = 335 >30 et n2=260>30)
- On peut donc utiliser les écarts types mesurés dans les échantillons comme des
estimateurs des écarts types dans les populations totales.

s1² s 2²
Alors : La loi de X 1 − X 2 = L( X 1 − X 2) = Ν (0; + )
n1 n2
DOSSIER II- Analyse bivariée – Régression - Correlation
STATISTIQUES BIVARIEES LICENCES– SEMESTRE 6 –Année2007 - 2008
Breton Didier / Virginie Jourdan / Mohamed Ouardani

Avec X 1 et X 2 des estimateurs de : µ1et µ2 et s1 et s2 les écarts types mesurés dans les
échantillons qui sont de bons estimateurs des écarts types inconnus dans les populations totales.

Intervalle de confiance sous HO :


s1² s 2²
IA = ]-α ; t * + ] avec t = 1,645 si le risque retenu est 5%
n1 n2

IA = ]-α ; 0,45]

Or dans les échantillons on a mesuré une différence de (20,04 – 19,3) soit 0,74 an. La différence
mesurée dans l’échantillon n’appartient pas à l’Intervalle, on rejette donc H0, les hommes de ces
générations ont terminé leurs études plus tôt en Alsace qu’en Ile de France.

Quelle est la probabilité exacte de se tromper en rejetant H0.


Pour répondre à cette question il faut trouver le t tel que
s1² s 2²
t* + =0,74
n1 n2

10,8 11,15
t* + =0,74 donc t = 0,74 / 0,220 = 2,69 donc 1-0,9964 = 0,0036 soit 0,36%.
335 260
Par lecture de la table normale, cette valeur de t correspond à un risque de 0,36%. On peut donc
être certain que l’âge moyen des hommes à la fin des études est plus faible en Alsace.

- Pour une région donnée, il existe une relation significative entre le sexe et l’âge à la fin des
études ? Plus précisément ; déterminer la probabilité exacte de vous tromper en affirmant qu’il existe
une relation significative entre les deux variables ?

Sans refaire tout le calcul, pour la région Alsace.


Considérons deux populations vivant en Alsace
- Une première d’hommes dans laquelle l’âge moyen doit être égal à µ1 (inconnue)
- Une seconde de femmes dans laquelle l’âge moyen doit être égal à µ2 (inconnue).

Posons l’hypothèse H0 comme quoi il n’y a pas de dépendance dans la région Alsace entre la
variable SEXE et la variable « AGE A LA FIN DES ETUDES ».
{Ho : µ1= µ2 / Ho µ1> µ2} - Test 6 de la deuxième année en unilatéral.

De plus :
- Ici les effectifs enquêté d’hommes et de femmes sont suffisamment importants pour
utiliser le Théorème Central limite (n1 = 260 >30 et n2=369>30)
- On peut donc utiliser les écarts types mesurés dans les échantillons comme des
estimateurs des écarts types dans les populations totales.

s1² s 2²
Alors : La loi de X 1 − X 2 = L( X 1 − X 2) = Ν (0; + )
n1 n2
Avec X 1 et X 2 des estimateurs de : µ1et µ2 et s1 et s2 les écarts types mesurés dans les
échantillons qui sont de bons estimateurs des écarts types inconnus dans les populations totales.
DOSSIER II- Analyse bivariée – Régression - Correlation
STATISTIQUES BIVARIEES LICENCES– SEMESTRE 6 –Année2007 - 2008
Breton Didier / Virginie Jourdan / Mohamed Ouardani

Intervalle de confiance sous HO :


s1² s 2²
IA = ]-α ; t * + ] avec t = 1,645 si le risque retenu est 5%
n1 n2

IA = ]-α ; 0,42]

Or dans les échantillons on a mesuré une différence de (19,30 – 19,28) soit 0,02 ans La différence
mesurée dans l’échantillon appartient à l’Intervalle, on ne peut donc pas rejeter H0 jusqu’à nouvel
ordre. En Alsace, les hommes de ces générations n’ont pas terminé leurs études plus tôt que les
femmes.

Quelle est la probabilité exacte de se tromper en rejetant H0.


Pour répondre à cette question il faut trouver le t tel que
s1² s 2²
t* + =0,02
n1 n2

t * = 0,02 / 0,261 = 0,07 alors t = 1- 0.5279 = 0,47217 (table 1) - .


C’est la probabilité exacte de se tromper en affirmant que H0 est fausse. Cette probabilité est trop
forte dans ce cas pour que l’on puisse affirmer que la différence de l’âge moyen des femmes et
des hommes est significativement différente entre les Hommes et les femmes en Alsace.

Pour la région île de France

Dans ce second cas il est plus facile de considérer la population 1 comme celle des femmes et la
population comme celle des hommes. Ensuite on peut poser :
{Ho : µ1= µ2 / Ho µ1> µ2} - Test 6 de la deuxième année en unilatéral.

Sans refaire toutes les étapes et après avoir vérifier que les conditions d’application du TCL sont
vérifiées, passons directement à la Décision
IA = ]-α ; 0,36]
Différence observée = 0,21 ; je ne peux donc pas rejeter H0…

Probabilité exacte :
=1-0,9838 = 1,62%
La conclusion de cet exercice c’est qu’il n’existe pas d’effet du sexe sur la durée des études dans ces
générations Plus qu’un effet de sexe c’est un effet de région qui apparaît. En île de France l’âge à la fin
des études est plus important qu’en Alsace (vérifiée ici pour les hommes seulement mais vrai aussi pour
les femmes – ce n’est pas la peine de la vérifier puisque la différence observée est plus forte et les
effectifs et écarts types sont sensiblement les mêmes).

Derrière ces effets peut « se cacher » un effet « rural/urbain ». De plus attention, les personnes vivant en
Ile de France ne sont pas forcément natifs de cette région. On vient s’installer en Ile de France souvent
pour des raisons professionnelles et pour des emplois souvent qualifiés.
DOSSIER II- Analyse bivariée – Régression - Correlation
STATISTIQUES BIVARIEES LICENCES– SEMESTRE 6 –Année2007 - 2008
Breton Didier / Virginie Jourdan / Mohamed Ouardani

EXERCICE 2 : DEPENDANCE ENTRE 2 VARIABLES QUALITATIVE OU QUANTITATIVES


DISCRETISEE
Une des hypothèses de travail était de dire que la durée des études était d’autant plus longue que
la taille de la famille était restreinte. Autrement dit, certains étudiants affirmaient que d’appartenir
à une famille nombreuse était un critère défavorable pour réaliser des études longues
(supérieures). D’autres affirmaient que plus que la taille de la famille c’était le rang de naissance
qui était discriminant. Pour trancher en partie la question (au moins statistiquement) ils ont réalisé
pour chacune des régions les croisements entre d’une part la taille de la famille et l’âge à la fin des
études (Tableau a et b) et d’autre part le rang de naissance et l’âge à la fin des études (tableau c et
d).

1- Déterminer les distributions conditionnelles et marginales pour le tableau a.


Distributions marginales
Fréquences
Age à la fin des marginales
études
Fin des études avant
18 ans 33,4%
Famille de Famille de
1 ou 2 4 enfants
Fin des études entre
enfants ou plus Total
18 et 22 ans 48,5%
Fréquences
Fin des études après
marginales 46,6% 53,4% 100,0%
22 ans 18,1%
Total 100,0%

Fréquences conditionnelles lignes :


Famille de
Age à la fin des Famille de 1 4 enfants
études ou 2 enfants ou plus Total
Fin des études avant
18 ans 32,7% 67,3% 100%
Fin des études entre
18 et 22 ans 50,2% 49,8% 100%
Fin des études après
22 ans 62,8% 37,2% 100%
46,6% 53,4% 100,0%
Total
Fréquences conditionnelles colonne :
Famille de
Age à la fin des Famille de 1 4 enfants
études ou 2 enfants ou plus Total
Fin des études avant
18 ans 23,4% 42,1% 33,4%
Fin des études entre
18 et 22 ans 52,3% 45,3% 48,5%
Fin des études après
22 ans 24,3% 12,6% 18,1%
Total 100,0% 100,0% 100,0%
DOSSIER II- Analyse bivariée – Régression - Correlation
STATISTIQUES BIVARIEES LICENCES– SEMESTRE 6 –Année2007 - 2008
Breton Didier / Virginie Jourdan / Mohamed Ouardani

Les fréquences ci-dessous laissent supposer une relation assez nette. LA proportion des familles
nombreuse est nettement plus forte chez de l’exercice. Ceux qui ont terminé tôt leurs études (2/3
contre ½ dans l’ensemble de la population). Inversement, la proportion parmi ceux qui sont issus
de famille de 4 enfants qui ont terminé tôt leurs études est deux fois plus forte que ceux issus de
familles plus restreintes.
Mais encore faut il que cette différence observée soit significative. C’est ceux que va vérifier la
suit
2- D’après les tableaux a et b la relation est elle significative entre les deux variables dans les
deux régions ? Dans quelle région est-elle la plus forte ? (utilisez le Phi-coefficient) ?
Commenter la relation dans chacune des régions en appuyant votre commentaire sur des
pourcentages.

Tableau a : relation entre âge à la fin des études et Tableau b : relation entre âge à la fin des
taille de la famille d’origine. études et taille de la famille d’origine.
Région Alsace Région Ile de France
Taille de la fratrie Taille de la fratrie
Famille de Famille de 4 Famille de Famille de 4
Age à la fin des 1 ou 2 enfants ou Age à la fin des 1 ou 2 enfants ou
études enfants plus Total études enfants plus Total
Fin des études Fin des études
avant 18 ans 52 107 159 avant 18 ans 52 94 146
Fin des études Fin des études
entre 18 et 22 entre 18 et 22
ans 116 115 231 ans 203 169 372
Fin des études Fin des études
après 22 ans 54 32 86 après 22 ans 106 52 158
Total 222 254 476 Total 361 315 676
ddl=2 x²=22,6 p<0,0001 ddl=2 x²=30,7 p<0,0001

Pour juger de la significativité de la relation il faut regarder si « p », la probabilité de se tromper en


rejetant l’hypothèse H0 d’indépendance, est inférieure à 5%. Ici il est dit qu’elle est inférieure à 1
°/°°° (1 pour 10 000). Donc la dépendance est significative dans les deux régions.

Dans laquelle la relation est elle plus forte ? On utilise pour répondre à cela le Phi –
coefficient :
Les deux Phi-coefficients sont presque identique, légèrement supérieurs à 0,21 [faire les calculs,
on trouve respectivement 0,218 et 0,213 en Alsace et Ile de France). La relations est en terme
d’intensité très proche et relativement faible (car assez éloigné de 1).

Pour tenir compte du rang de naissance dans la fratrie, les étudiants ont choisi de regarder la
répartition des enfants de rang 1 selon la durée de leurs études selon qu’ils viennent d’une famille
nombreuse (4 enfants ou plus) ou non (1 ou 2 enfants). Les résultats sont consignés dans les
tableaux c et d. Commenter

Les probabilités sont très nettement supérieures à 5%, notamment pour l’Alsace. Dans ce cas on
peut conclure que si l’on est un enfant de rang 1, que l’on soit issu d’une famille « nombreuse »
ou non la répartition selon la durée des études n’est pas significativement différente. L’effet est
particulièrement inexistant en Alsace. La relation mise en évidence en 1 montre doit alors être
discutée.

Vous aimerez peut-être aussi