Vous êtes sur la page 1sur 22

Projet n°1 MQQ

Intitulé :
Analyse Exploratoire d’une Base
de donnée
Projet réalisé par :
Emna Ben Zrig Sabrine Jenane
1MP QSE
2021-2022
Sommaire
1 Description et présentation de la base de donnée choisie

2 But d’utilisation de la base de donnée

3 Hypothèses et démarche choisies à suivre

4 Interprétation des résultats du Tri à plat et du croisement


1. Description et présentation de la base de donnée choisie

a) Description de la problématique de la base de donnée choisie :


La base de donnée choisie permet d’étudier le secteur médical
public et privé selon les gouvernorats.
b) Présentation de la base de donnée choisie :
2. But d’utilisation de la base de données choisie

On a choisie cette base de donnée dans le but d’étudier les


inégalités entre les 24 gouvernorats tunisiens dans le secteur
médical (Nombre de docteurs, hôpitaux, cliniques, laboratoires..),
aussi les inégalités en terme de répartition démographique
(population et densité démographique)
3. Hypothèses et démarche choisies à suivre
a) Les hypothèses choisies :
• Il y’a une inégalité entre les 24 gouvernorats au niveau du secteur
médical tunisien et au niveau de la répartition démographique de
la population.
b) La démarche à suivre
• Après avoir choisie la base de données avec laquelle on va travailler , on a transférer le
document Excel en document SPSS par le logiciel Stat Transfer.
• Une fois la forme SPSS est prête on passe à la démarche de l’analyse exploratoire.
• On a choisie la case ‘’Vue des variables’’ et on a effectuer quelques modifications au niveau
de la libellé et de la mesure
• On a assurer la codification des valeurs qualitatives :
• Au niveau ‘’Valeurs’’ on codifie chaque valeur qualitative par un nombre
• Ensuite par la barre Transformer on choisie ‘’Recoder des variables’’ qui nous permet de
choisir toutes variables qualitatives à recoder , en donnant à chaque variable le même
nombre déjà choisi dans l’étape précédente.
• Finalement on change pour ces variables recodés leur type en passant de ‘’chaine’’ à
‘’Numérique ’’
• . On a trier toutes nos variables de manière croissante( vue qu’on a quelques variables = 0)
• Analyse Tri à plat :
Faire un Résumé numérique : on passe au Vues des données , on choisie la barre en haut Analyse ,
on passe à ‘’Analyse statistique descriptive’’ , c’est ce qui nous permet de voir les paramètres de
tendance centrale (la moyenne, le mode, quartile…) et les paramètres de dispersion ( variance, écart
type…)
• Analyse croisée : pour étudier les relations entre les différentes variables :
Dans le cas de deux variables qualitatives :
Etude du tableau croisé : on choisie la barre Analyse on passe à ‘’Statistique descriptive ’’ pour choisir
Tableaux croisés afin de réaliser un Test Chi-deux
Dans le cas de deux variables quantitatives :
Afin d’étudier la corrélation on choisie la barre Analyse on passe à ‘’Bivarié’’
Dans le cas d’une variable qualitative et une autre quantitative:
Pour réaliser le ‘’Test d’égalité des moyennes’’ on choisie ‘’ANOVA’’
• On a trier les observation de manière croissante selon les 2 variables
nombre de cliniques par gouvernorat et capacité des cliniques par
gouvernorat , et c’est ce qui va faciliter le travail du reste de l’analyse.
4. Interprétation des résultats du Tri à plat et du croisement

A) Tri à plat:
Nombre d’hôpitaux par gouvernorat :

Le nombre moyen des hôpitaux dans les 24 gouvernorats est de 7.04, avec un écart type de 3.198. En termes de dispersion, la variance
est élevée (10.225) en raison de valeurs extrêmes importantes entre les gouvernorats dont la valeur maximum est de 14 hôpitaux à
Tunis. Le nombre d’hôpitaux le plus fréquent est 7 et c’est ce qui est confirmé par le mode.
Statistiques

Nombre d'hôpitaux par gouvernorat


N Valide 23

Manquant 0

Moyenne 7,04

Médiane 7,00

Mode 7

Ecart type 3,198

Variance 10,225

Minimum 2

Maximum 14
Selon le graphique obtenu, qui est sous forme d’un
histogramme montrant le nombre d’hôpitaux par
gouvernorat selon la fréquence, on peut dire que la
moyenne est de l’ordre de 7 avec la fréquence la plus
élevée (=5), la fréquence la plus faible est celle qui est
relative au nombre le plus élevé d’hôpitaux 14, selon ce
graphe cette fréquence est égale à 1 .
Selon cet histogramme on voit que la courbe gaussienne
montre une répartition normale puisque moyenne =
mode= médiane (Mo = Me = X) , ce qui est indiqué dans
le résultat du tableau statistique.
Nombre d'habitants par gouvernorat :
Nombre d'habitants par gouvernorat
N Valide 23

Manquant 0

Moyenne 462840,00

Médiane 439824,00

Mode 114474

Ecart type 241212,587a

Variance 58183512244,636

Minimum 114474

Maximum 1073110

a. Présence de plusieurs modes. La plus petite valeur est


affichée.

Le nombre moyen d'habitants par gouvernorat est de 462840 qui sont à peu près égale à la valeur de la médiane
(439824), ce qui montre que la distribution de la population est symétrique chose qui est démontrée aussi par
l'histogramme est la courbe gaussienne associée.
En termes de dispersion, la variance est élevée (58183512244,636) en raison de valeurs extrêmes importantes.
En fait, il existe des gouvernorats dont la population est très importante (Tunis, Arianna, Sfax..) et d'autres
gouvernorats a faible population (Zaghouan, Tataouine, Tozeur..). Notre population est donc très hytérogène en
terme de nombre d'habitants.
Nombre de cliniques par gouvernorat:

Statistiques

Nombre de cliniques par gouvernorat


N Valide 23
Selon le graphique obtenu, qui est sous forme d’un
Manquant 0
histogramme montrant le nombre des cliniques par
Moyenne 3,96 gouvernorat selon la fréquence, on peut dire que la
Médiane 2,00 fréquence la plus élevée (=12.5) qui représente le
Mode 0a nombre des cliniques entre 0 et 3, la fréquence la
Ecart type 6,832
plus faible est celle qui est relative au nombre le
plus élevé des clinique 33, selon ce graphe cette
Variance 46,680
fréquence est égale à 1.
Minimum 0

Maximum 33
Selon cet histogramme on voit que la courbe
gaussienne montre une répartition anormale, la
a. Présence de plusieurs modes. La plus petite valeur est affichée.
répartition des cliniques est dispersée et s’éloigne
Le nombre moyen des cliniques dans les 24 gouvernorats est de 3.96, avec un écart type plus fortement de la loi normale, puisque la
de 6.832 moyenne diffère du mode et diffère de la médiane,
ce qui est indiqué dans le résultat du tableau
En termes de dispersion, la variance est très élevée (46.680) en raison de valeurs extrêmes statistique
importantes entre les gouvernorats dont la valeur maximale est de 33 cliniques à Tunis
alors que dans d’autres gouvernorats y’a aucune clinique notant comme exemple
‘’Manouba’’.
Le nombre de clinique le plus fréquent est exprimé par le mode ,dans cet exemple on a
plusieurs modes et ce qui est affiché dans le tableau statistiques est la plus petite valeur 0 .
Nombre de laboratoires publics par gouvernorat 
Statistiques
Nombre de laboratoire public par gouvernorat
N Valide 23

Manquant 0

Moyenne 9,39

Médiane 11,00

Mode 6a

Ecart type 4,346

Variance 18,885

Minimum 1

Maximum 18

Somme 216

a. Présence de plusieurs modes. La plus petite valeur est


affichée.

Le nombre moyen de laboratoire dans le secteur public est de 9.39.


En termes de dispersion, la variance est très élevée (18.885) en raison de l'hétérogénéité
de la population en terme de nombre de laboratoires étatiques (un maximum de 18
laboratoires étatiques dans le gouvernorat de sidi bouzid et un minimum d'un seul
laboratoire public dans le gouvernorat de mannouba ). Cela est démontré aussi par la
différence entre la valeur de la médiane, celle de la moyenne et du mode
La densité démographique par gouvernorat :

Statistiques

Densité démographique par gouvernorat


N Valide 23

Manquant 0

Moyenne 368,17

Médiane 82,00

Mode 55

Ecart type 795,070

Variance 632135,787

Asymétrie 3,770

Erreur standard d'asymétrie ,481

Minimum 4

Maximum 3717

La densité moyenne est de 368 habitants par kilomètre carrée avec un écart type de 795.
La différence importante entre les valeurs de la moyenne, le mode et la médiane montre que la distribution n'est
plus symétrique. Ce qui est démontré aussi par l'histogramme et la courbe gaussienne qui montrent une
distribution déséquilibrée de densité démographique entre les différentes zones.
La valeur très élevée de la variance (632135) montre une hétérogénéité très importante en terme de densité
démographique entre les 24 gouvernorats et donc la présence de zones surpeuplées (Tunis, Ariana et Ben arous)
et de zones désertiques (Tatouine et Kebeli).
Zone développement régionale ou non :
Zone de développement régionale ou non

  Fréquence Pourcentage Pourcentage valide Pourcentage cumulé


Valide oui 17 73,9 73,9 73,9

non 6 26,1 26,1 100,0

Total 23 100,0 100,0  

Ce résultat correspond à un tri à plat de la variable qualitative


« Zone développement régionale ou non »; en d’autres termes,
il reprend les effectifs et les fréquences (présentés ici en
pourcentage) pour une variable. L’intérêt du tri à plat est de
fournir une description rapide de la variable étudiée. Le tableau
montre immédiatement que 73.9% des gouvernorats sont des
zones développement régionale et que 26.1% sont n’y sont pas.
Ces résultats peuvent également être visualisés sous forme de
graphiques (qui est dans notre cas sous la forme d’un
diagramme en secteurs), dans lesquels les surfaces associées
aux différentes modalités sont proportionnelles à leur
fréquence.
Présence ou pas d’un centre hôpital universitaire par gouvernorat :

Présence ou pas d'un centre hôpital universitaire par gouvernorat

Pourcentage
  Fréquence Pourcentage Pourcentage valide cumulé
Valide oui 12 52,2 52,2 52,2

non 11 47,8 47,8 100,0

Total 23 100,0 100,0  

Ce résultat correspond à un tri à plat de la variable qualitative « Présence


ou pas d’un centre hôpital universitaire ».
Le tableau montre immédiatement que 52.2% des gouvernorats tunisiens
ont des centres d’hôpitaux universitaires et que 47.8% n’ont pas ces
centres.
Ces résultats peuvent également être visualisés sous forme de graphiques
(qui est dans notre cas sous la forme d’un diagramme en secteurs), dans
lesquels les surfaces associées aux différentes modalités sont
proportionnelles à leur fréquence.
B) Tri Croisé :
L'analyse bivariée communément appelée tri croisé a pour objectif de mettre en évidence les relations
éventuelles qui existent entre deux variables étudiées simultanément. Cette analyse cherche à identifier ou à
mesurer essentiellement le degré de liaison ou d'interdépendance mais également l'effet d'une variable sur
une autre.
 une variable quantitative et une variable qualitative :
analyse de la relation entre le développement régionale et le nombre de clinique privés :
ANOVA

Zone développée ou non


Le test de Fischer entre les deux variables nombre de cliniques
 
Somme des
carrés ddl Carré moyen F Sig.
par gouvernorat et le développement régionale indique que F =
Intergroupes 3,135 8 ,392 4,220 ,009 4,22 > 0,1. On admet donc H0. Les deux variables sont donc
dépendantes. C'est à dire le développement régionale influe
Intragroupes 1,300 14 ,093 sur le nombre de cliniques. Ce qui est logique car au titre de
    développement régional, l’état accorde des avantages fiscaux et
financières aux investissements privés tel que dans notre cas
Total 4,435 22
     
les cliniques.
Nombre d’hôpitaux par gouvernorat et zone de développement
régionale ou pas :
Descriptives

Nombre d'hôpitaux par gouvernorat

Intervalle de confiance à 95 % pour la


moyenne

  N Moyenne Ecart type Erreur standard Borne inférieure Borne supérieure Minimum Maximum
oui 17 6,94 2,331 ,565 5,74 8,14 3 12

non 6 7,33 5,241 2,140 1,83 12,83 2 14

Total 23 7,04 3,198 ,667 5,66 8,43 2 14

ANOVA

Nombre d'hôpitaux par gouvernorat

  Somme des carrés ddl Carré moyen F Sig. L'analyse des données des deux variables nombre d’hôpitaux
Intergroupes ,682 1 ,682 ,064 ,803
par gouvernorat et zone de développement régionale ou pas
Intragroupes 224,275 21 10,680     indique que (F = 0,064, ddl = 22, p = 0,803). On peut donc
Total 224,957 22       conclure que le développement régionale n'influence pas le
nombre d’hôpitaux par gouvernorat.
 
 deux variables quantitatives :
Relation entre les deux variables quantitatives : nombre d'hôpitaux et nombre de médecins :
Mesures symétriques

Erreur Signification
asymptotique T approximativ
  Valeur standarda approximatifb e
Intervalle par R de Pearson ,547 ,151 2,993 ,007c
Intervalle

Ordinal par Ordinal Corrélation de Spearman ,437 ,205 2,229 ,037c

N d'observations valides 23      
a. L'hypothèse nulle n'étant pas considérée.
b. Utilisation de l'erreur asymptotique standard en envisageant l'hypothèse nulle.
c. Basé sur une approximation normale.

Le coefficient de corrélation de Pearson est de 0,547 > 0,5, il existe donc une forte
corrélation positive entre le nombre d'hôpitaux publics et le nombre de médecins.
C'est à dire plus que le nombre d'hôpitaux dans les gouvernorats augmente plus que
le nombre de médecins augmente aussi.
 Deux variables qualitatives :
Zone développée ou pas et présence ou pas de CHU
 
Statistiques descriptives
Corrélations
Présence ou pas des
  Moyenne Ecart type N
Zone développée ou centres hôpitaux
Zone développée ou non 1,26 ,449 23
  non universitaires
Zone développée ou non Corrélation de Pearson 1 -,569**
Présence ou pas des centres 1,48 ,511 23
Sig. (bilatérale)   ,005
hôpitaux universitaires
N 23 23
Présence ou pas des centres hôpitaux Corrélation de Pearson -,569 **
1
universitaires Sig. (bilatérale) ,005  
N 23 23
**. La corrélation est significative au niveau 0.01 (bilatéral).

Lors d’une analyse factorielle, la matrice des corrélations est employée pour regrouper des
variables deux à deux au sein de différents facteurs. La corrélation représente le lien entre
deux variables parmi toutes les observations. L’analyse factorielle regroupe donc au sein
d’un même facteur toutes les variables ayant de fortes corrélations entre elles.
En regardant les résultats dans le tableau ci-dessus, on peut voir que la corrélation entre zone
développée ou non et la présence ou pas des CHU a donné une valeur de coefficient de corrélation
de Pearson (r) de -0,569, ce qui indique une association négative entre les deux variables. De plus, la
valeur P de l'association était de 0,005.
• Pour conclure, lors de l’analyse exploratoire de notre base de
données, notre hypothèse est validée .
• Il existe une inégalité entre les 24 gouvernorats tunisiens au niveau du
secteur médical et au niveau de la répartition démographique de la
population.

Vous aimerez peut-être aussi