Académique Documents
Professionnel Documents
Culture Documents
Activités
Après avoir lu le cours ci-après exercez-vous avec les activités suivantes :
- Comment définissez-vous le traitement des données et l’analyse des données
- Quels sont les étapes d’un bon traitement des données
- Et pour l’analyse des données ?
- Quels sont les différents types d’analyse des données ?
- Remplir ce tableau :
Rubriques Définition Différence Techniques à suivre Commentaires
Traitement
des données
Analyse des
données
- Codification ex-post : elle consiste à établir les questions sans mettre les
numéros ou les code. On le fait au bureau et c’est applicable quand on est en
présence des questions ouvertes.
- Codification ex-ante : consiste à coder ou numéroter les questions.
2. La saisie de donnée :
Une fois qu’on ait codifié ou numéroter les questions/variables, on passe maintenant
à la saisie des donnée.
3. Tabulation :
Une fois qu’on ait saisi les données, on procède à la tabulation. Elle consiste en la
sortie des tableaux de fréquences. Elle nous permet de corriger les erreurs provenant
de la saisie ou de marquage sur papier.
4. Test de cohérence des données :
C’est un test interne à la tabulation. On essaie de mettre les variables entre elles pour
tester leurs cohérences les unes par rapport aux autres.
Ex : Prenons le cas de la variable : « avez-vous une fois été à l’école ? »
Supposons pour un total de 1500 individus, 1000 ont répondu OUI et 500 ont répondu
NON. Le tableau de fréquence de la variable OUI j’ai été une fois à l’école doit être
1000 et si dans ce cas on trouve dans le tableau de fréquence OUI j’ai été une fois à
l’école 1100, il se pose alors un problème. Le test de cohérence (mise en relation des
variables OUI j’ai été une fois à l’école, NON je ne suis jamais allé à l’école) nous
permet de corriger ces erreurs.
Population cible
Type d’enquête
- axes thématiques
- thèmes spécifiques,
Après l’entretien individuel il faut rédiger un rapport. Traitement manuel : on vérifie les
notes prises pour les nœuds et des sous nœuds.
Exemple : nœud est une position centrale sur lequel on se base pour exploiter les
données.
Exemple :
Un entretien individuel
Analyser les résultats d’une recherche consiste à «faire parler» les données recueillies
en vue de confirmer ou d’infirmer l’hypothèse de recherche. Pour cela, il importe que
le chercheur examine longuement et minutieusement ses données. Les données
doivent être saisies, vérifiées et vérifiées au moins deux fois avant de pouvoir être
considérées comme fiables.
Par manque de minutie, des chercheurs font régulièrement des erreurs, même à
l’étape de la saisie. On observe régulièrement que jusqu’à 5 % des données sont
erronées à cette étape. Cela peut avoir des conséquences importantes sur la suite du
travail.
Définition
Histoire
Les pères de l’analyse des données modernes sont Jean-Paul Benzécri, Louis
Guttman, Chikio Hayashi (concepteur des méthodes dénommées « Data Sciences »),
Douglas Carroll et R.N. Shepard.
Mais bien avant leur temps, les techniques de base de l'analyse des données sont
déjà connues. Les tableaux de contingences, par exemple, sont présents tôt dans
l'histoire : l'invincible armada est décrite, par Paz Salas et Alvarez dans un livre publié
en 1588, sous la forme d'un tableau où les lignes représentent les flottes de navires et
les colonnes les caractéristiques telles que le tonnage, le nombre de gens d'armes,
etc. Nicolas de Lamoignon de Basville, intendant du roi Louis XIV, compte et
caractérise les couvents et le monastère de la région du Languedoc en 1696.
Les notions requises pour une analyse des données modernes commencent à être
maitrisées au début du 17e siècle. Adolphe Quetelet, astronome, statisticien belge,
exploite ce qu'il connait de la loi gaussienne à l'anthropométrie pour examiner la
dispersion autour de la moyenne (la variance) des mesures des tailles d'un groupe
d'hommes. Puis, Francis Galton, parce qu'il veut étudier la taille des pères et des fils,
s'intéresse à la variation conjointe (la covariance et la corrélation) de deux grandeurs,
qui est à l'origine de ce qu'on appelle aujourd'hui la régression. Quand Karl Pearson
et Raphael Weldon s'emparent des travaux de Francis Galton, ils peuvent généraliser
la régression de Galton aux données multidimensionnelles, puis Karl Pearson a l'idée
de changer les axes de présentation pour les exprimer en fonctions de variables
indépendantes en 1901, établissant ainsi les prémisses de l’analyse en composantes
principales. Celle-ci est développée en 1933 par Harold Hotelling qui définit en 1936
l'Analyse canonique.
L'analyse des correspondances multiples est initiée par Louis Guttman en 1941, Cyril
Burt en 1950 et à Chikio Hayashi en 1956. Cette technique est développée au Japon
en 1952 par Shizuhiko Nishisato sous la dénomination « Dual Scaling » et aux Pays-
Bas en 1990 sous le nom de « Homogeneity analysis » par le collectif Albert Gifi.
La saisie est l’opération qui consiste à transférer les informations contenues dans le
questionnaire sur un support magnétique. Après la saisie on procède à l’épuration
(contrôle de cohérence et validité des données), à l’exploitation statistique (tabulation,
graphisme) avant de passer à l’analyse proprement dite. Pendant la phase de
validation des données il peut être nécessaire de retourner sur le terrain pour vérifier
une information douteuse.
Analyse proprement dite : une analyse quantitative se situe à 3 niveaux : analyse uni
variée, bi variée et multi variée.
- Analyse uni variée : c’est l’analyse qui concerne une seule variable et elle consiste
à tester la validité et la robustesse de ce variable.
Titre du tableau : répartition des enquêtés selon l’âge et selon le lieu de résidence.
Il se peut, par exemple, qu’une étude démontre l’existence d’un lien causal entre les
conditions économiques d’une population et certains des problèmes qu’on y observe,
comme la fréquence élevée de certaines maladies nutritionnelles; si des gens
attribuent plutôt leurs difficultés à des causes surnaturelles (l’influence des esprits des
ancêtres, par exemple), il faudra alors se demander pourquoi il en est ainsi.
Les chercheurs doivent toujours se montrer prudents, et même pointilleux, tant dans
la formulation de leurs hypothèses que dans l’analyse et l’interprétation de leurs
résultats. Il importe donc de tracer soi-même les limites possibles des résultats
obtenus, en interrogeant la fiabilité et la validité de ceux-ci, en remettant en question
la valeur des instruments de mesure et du plan d'expérience et en cherchant à établir
le degré de signifiance des résultats. Si des difficultés sont apparues, il faut en rendre
compte et expliquer comment on aurait pu modifier le plan de recherche ou les
instruments pour obtenir des résultats plus fiables.