Vous êtes sur la page 1sur 9

INF 103 SEANCE 4

Activités
Après avoir lu le cours ci-après exercez-vous avec les activités suivantes :
- Comment définissez-vous le traitement des données et l’analyse des données
- Quels sont les étapes d’un bon traitement des données
- Et pour l’analyse des données ?
- Quels sont les différents types d’analyse des données ?
- Remplir ce tableau :
Rubriques Définition Différence Techniques à suivre Commentaires
Traitement
des données
Analyse des
données

CHAPITRE II- TRAITEMENT ET ANALYSE DES DONNEES

II.1- Traitement des données

En informatique, le terme traitement de données renvoie à une série de processus


qui permettent d'extraire de l'information ou de produire du savoir à partir de données
brutes (description élémentaire d'une réalité). Ces processus, une fois programmés,
sont le plus souvent automatisés à l'aide d'ordinateurs. Si les résultats finaux produits
par ces processus sont destinés à des humains, leur présentation est souvent
essentielle pour en apprécier la valeur. Cette appréciation est cependant variable
selon les personnes.

Si la finalité n'est pas de présenter des résultats à un utilisateur humain, l'objectif du


traitement de données est généralement d'offrir une information de plus haut niveau
ou une information de meilleure qualité à un autre outil de traitement ou d'analyse. Ce
traitement de l'information peut alors relever de la fusion de données, de l'extraction
d'information ou de la transformation de la représentation. Par exemple, la fusion peut
consister à combiner plusieurs sources de données afin de les compiler en une
information plus sûre et l'extraction peut être un traitement destiné à sémantiser ou
synthétiser les données.
L'ensemble des processus de traitement des données d'un système compose le
système d'information (ensemble organisé de ressources qui permettent de collecter,
stocker, traiter et distribuer de l'information, en général grâce à un ordinateur

Une fois les donnes collectées, il revient au chercheur de procéder au traitement et à


l’analyse des données. Le traitement des données quantitatives se fait sous quatre
formes successives :
1- Codification des données
2- La saisie des données
3- La tabulation
4- Test de cohérence des données
1. Codification des données :
La codification permet d'attribuer des numéros aux questions. Elle est importante pour
la saisie des données. On distingue deux types de codification :

- Codification ex-post : elle consiste à établir les questions sans mettre les
numéros ou les code. On le fait au bureau et c’est applicable quand on est en
présence des questions ouvertes.
- Codification ex-ante : consiste à coder ou numéroter les questions.

2. La saisie de donnée :

Une fois qu’on ait codifié ou numéroter les questions/variables, on passe maintenant
à la saisie des donnée.

On distingue généralement deux types de saisie des données : les données


quantitatives et celles qualitatives. La saisie des données quantitatives se fait
généralement à l'aide de logiciels spécifiques : EPI-INFO, SPSS, STATA etc.. La saisie
des données qualitative consiste à enregistrer sur un support magnétique (software)
les données collectées. On se sert des logiciels comme Ethnograph, NUDIST etc...

3. Tabulation :
Une fois qu’on ait saisi les données, on procède à la tabulation. Elle consiste en la
sortie des tableaux de fréquences. Elle nous permet de corriger les erreurs provenant
de la saisie ou de marquage sur papier.
4. Test de cohérence des données :
C’est un test interne à la tabulation. On essaie de mettre les variables entre elles pour
tester leurs cohérences les unes par rapport aux autres.
Ex : Prenons le cas de la variable : « avez-vous une fois été à l’école ? »

La réponse imposée à cette question est OUI ou NON.

Supposons pour un total de 1500 individus, 1000 ont répondu OUI et 500 ont répondu
NON. Le tableau de fréquence de la variable OUI j’ai été une fois à l’école doit être
1000 et si dans ce cas on trouve dans le tableau de fréquence OUI j’ai été une fois à
l’école 1100, il se pose alors un problème. Le test de cohérence (mise en relation des
variables OUI j’ai été une fois à l’école, NON je ne suis jamais allé à l’école) nous
permet de corriger ces erreurs.

Le traitement des données qualitatives se fait autrement.

 Choix de la zone choisie

 Population cible

 Type d’enquête

- Méthodologie qualitative en terme de score i.e. Nombre de fois qu'une réponse


à une question revient.

- Pourquoi cette technique d’enquête : afin de cerner les opinions, attitudes et


comportements des individus face à des situations données où la collecte
quantitative ne peut se faire de façon plus approfondie

L'enquête qualitative est souvent subdivisée en :

- axes thématiques

- thèmes spécifiques,

- sous thèmes et questions

 La gestion des données

Après l’entretien individuel il faut rédiger un rapport. Traitement manuel : on vérifie les
notes prises pour les nœuds et des sous nœuds.
Exemple : nœud est une position centrale sur lequel on se base pour exploiter les
données.

Exemple :

Axe1 : Structure et dynamique de la famille

Thème 1 : identification et représentation sociale de la famille

Nœud : comment concevons nous la famille aujourd’hui ?

Un entretien individuel

Q1 : Que représente pour vous la famille actuellement?

Q2 : Selon vous la famille est composée de qui et qui (relance)

Q3 : Quelle importance accordez-vous à la famille aujourd'hui ?

Ces trois questions deviennent ce nœud : la perception de la famille

Il y a sous nœud quand il y a plusieurs thèmes.

II.2- Analyse des données

Analyser les résultats d’une recherche consiste à «faire parler» les données recueillies
en vue de confirmer ou d’infirmer l’hypothèse de recherche. Pour cela, il importe que
le chercheur examine longuement et minutieusement ses données. Les données
doivent être saisies, vérifiées et vérifiées au moins deux fois avant de pouvoir être
considérées comme fiables.

Ensuite, on doit se familiariser avec ses données: ne pas précipiter l’analyse et


l’interprétation, et plutôt prendre le temps de maîtriser les données recueillies. Il faut
les relire de manière à s’assurer de ne passer à côté d’aucune constatation ou
d’aucune question importante. Ensuite, vient l’étape de l’analyse en tant que telle.

Par manque de minutie, des chercheurs font régulièrement des erreurs, même à
l’étape de la saisie. On observe régulièrement que jusqu’à 5 % des données sont
erronées à cette étape. Cela peut avoir des conséquences importantes sur la suite du
travail.
Définition

Dans l'acception française, la terminologie « analyse des données » désigne un sous-


ensemble de ce qui est appelé plus généralement la statistique multivariée. L'analyse
des données est un ensemble de techniques descriptives, dont l'outil mathématique
majeur est l'algèbre matriciel, et qui s'exprime sans supposer a priori un modèle
probabiliste.

Elle comprend l’analyse en composantes principales (ACP), employée pour des


données quantitatives, et ses méthodes dérivées : l'analyse factorielle des
correspondances (AFC) utilisée sur des données qualitatives (tableau d’association)
et l'analyse factorielle des correspondances multiples (AFCM ou ACM) généralisant la
précédente. L'analyse canonique et l'analyse canonique généralisée, qui sont plus des
cadres théoriques que des méthodes aisément applicables, étendent plusieurs de ces
méthodes et vont au-delà des techniques de description. La classification automatique,
l’analyse factorielle discriminante (AFD) ou analyse discriminante permettent
d’identifier des groupes homogènes au sein de la population du point de vue des
variables étudiées.

Histoire

Les pères de l’analyse des données modernes sont Jean-Paul Benzécri, Louis
Guttman, Chikio Hayashi (concepteur des méthodes dénommées « Data Sciences »),
Douglas Carroll et R.N. Shepard.

Mais bien avant leur temps, les techniques de base de l'analyse des données sont
déjà connues. Les tableaux de contingences, par exemple, sont présents tôt dans
l'histoire : l'invincible armada est décrite, par Paz Salas et Alvarez dans un livre publié
en 1588, sous la forme d'un tableau où les lignes représentent les flottes de navires et
les colonnes les caractéristiques telles que le tonnage, le nombre de gens d'armes,
etc. Nicolas de Lamoignon de Basville, intendant du roi Louis XIV, compte et
caractérise les couvents et le monastère de la région du Languedoc en 1696.

Les notions requises pour une analyse des données modernes commencent à être
maitrisées au début du 17e siècle. Adolphe Quetelet, astronome, statisticien belge,
exploite ce qu'il connait de la loi gaussienne à l'anthropométrie pour examiner la
dispersion autour de la moyenne (la variance) des mesures des tailles d'un groupe
d'hommes. Puis, Francis Galton, parce qu'il veut étudier la taille des pères et des fils,
s'intéresse à la variation conjointe (la covariance et la corrélation) de deux grandeurs,
qui est à l'origine de ce qu'on appelle aujourd'hui la régression. Quand Karl Pearson
et Raphael Weldon s'emparent des travaux de Francis Galton, ils peuvent généraliser
la régression de Galton aux données multidimensionnelles, puis Karl Pearson a l'idée
de changer les axes de présentation pour les exprimer en fonctions de variables
indépendantes en 1901, établissant ainsi les prémisses de l’analyse en composantes
principales. Celle-ci est développée en 1933 par Harold Hotelling qui définit en 1936
l'Analyse canonique.

Jean-Paul Benzécri et Brigitte Escofier-Cordier proposent l'Analyse factorielle des


correspondances en 1962-65, mais en 1954 Chikio Hayashi a déjà établi les
fondations de cette méthode sous le nom Quantification de type III.

L'analyse des correspondances multiples est initiée par Louis Guttman en 1941, Cyril
Burt en 1950 et à Chikio Hayashi en 1956. Cette technique est développée au Japon
en 1952 par Shizuhiko Nishisato sous la dénomination « Dual Scaling » et aux Pays-
Bas en 1990 sous le nom de « Homogeneity analysis » par le collectif Albert Gifi.

L'avènement de l'ordinateur, et surtout du micro-ordinateur, est un saut technologique


qui rend possible les calculs complexes, les diagonalisations, les recherches de
valeurs propres sur de grands tableaux de données, avec des délais d'obtention de
résultats très courts par rapport à ce qui est fait dans le passé.

La représentation des données multidimensionnelles dans un espace à dimension


réduite est le domaine des analyses factorielles, analyse factorielle des
correspondances, analyse en composantes principales, analyse des correspondances
multiples. Ces méthodes permettent de représenter le nuage de points à analyser dans
un plan ou dans un espace à trois dimensions, sans trop de perte d'information, et
sans hypothèse statistique préalable. En mathématiques, elles exploitent le calcul
matriciel et l'analyse des vecteurs et des valeurs propres.

C’est une analyse qui s’exécute essentiellement au bureau. Elle comprend : le


contrôle, la correction des données au cas échéant, l’exploitation statistique et
l'analyse proprement dite.

La saisie est l’opération qui consiste à transférer les informations contenues dans le
questionnaire sur un support magnétique. Après la saisie on procède à l’épuration
(contrôle de cohérence et validité des données), à l’exploitation statistique (tabulation,
graphisme) avant de passer à l’analyse proprement dite. Pendant la phase de
validation des données il peut être nécessaire de retourner sur le terrain pour vérifier
une information douteuse.

II.2.1- Analyse des données quantitatives

Analyse proprement dite : une analyse quantitative se situe à 3 niveaux : analyse uni
variée, bi variée et multi variée.

- Analyse uni variée : c’est l’analyse qui concerne une seule variable et elle consiste
à tester la validité et la robustesse de ce variable.

Exemple : tableau de fréquence (le tableau de l’âge).

- Analyse bi variée : concerne 2 variables ; dans ce cas on met en relation deux


variables.

Example : L’âge et la résidence.

Titre du tableau : répartition des enquêtés selon l’âge et selon le lieu de résidence.

- Analyse multi-variée : on met en relation plusieurs variables : variables


indépendante et dépendantes. Y = f(x,z,t,w…)

Le titre de mémoire détermine la variable indépendante

Example : contribution à l’analyse de la pauvreté en milieu rural

La variable dépendante : la pauvreté en milieu rural

La variable dépendante est reliée aux objectifs principaux

La variable indépendante : ne dépend d’aucune variable dépendante

Variable dépendante = variable expliquée

Variable indépendante = variable explicative

Il y a trois types principaux d’analyse des résultats : l’analyse descriptive, l’analyse


explicative et l’analyse compréhensive.
1. Analyse descriptive : c’est dresser un portrait de la situation telle qu’elle nous
apparaît suite à la compilation et du classement des données qualitatives ou
quantitatives obtenues. Par exemple, on indiquera les caractéristiques d’un groupe,
on établira les liens statistiques ou fonctionnels entre les composantes étudiées, on
fera ressortir la valeur des variables significatives, etc.

2. Analyse explicative : permet de prendre une décision quant à la confirmation ou à


la réfutation de l’hypothèse de recherche; on expose alors les raisons qualitatives ou
statistiques pour lesquelles on doit retenir ou rejeter l’hypothèse. Si des liens
significatifs sont apparus entre des variables, on prendra soin de les analyser: s’agit-il
de liens causaux, ou plutôt de rapports accidentels explicables par des variables
intervenantes ou parasites?

On pourra expliquer la dynamique du phénomène observé ou rendre compte des


mécanismes internes et externes du système observé.

3. Analyse compréhensive : On parle d’analyse compréhensive lorsqu’il s’agit de


rendre compte des rapports entre les résultats obtenus et les perceptions des sujets.
Au cours d’une telle analyse, plus ou moins éclairante mais particulièrement
nécessaire s’il s’agit d’une étude qualitative, on cherchera à définir les perceptions des
acteurs ou des sujets eux-mêmes et à voir quels rapports on peut établir entre ces
perceptions et les résultats: y a-t-il cohérence entre les deux, ou les uns contredisent-
ils les autres? Autrement dit, les perceptions des sujets sont-elles du domaine de
l’illusion et comment peut-on expliquer leurs croyances vis-à-vis du phénomène
étudié?

Il se peut, par exemple, qu’une étude démontre l’existence d’un lien causal entre les
conditions économiques d’une population et certains des problèmes qu’on y observe,
comme la fréquence élevée de certaines maladies nutritionnelles; si des gens
attribuent plutôt leurs difficultés à des causes surnaturelles (l’influence des esprits des
ancêtres, par exemple), il faudra alors se demander pourquoi il en est ainsi.

Les chercheurs doivent toujours se montrer prudents, et même pointilleux, tant dans
la formulation de leurs hypothèses que dans l’analyse et l’interprétation de leurs
résultats. Il importe donc de tracer soi-même les limites possibles des résultats
obtenus, en interrogeant la fiabilité et la validité de ceux-ci, en remettant en question
la valeur des instruments de mesure et du plan d'expérience et en cherchant à établir
le degré de signifiance des résultats. Si des difficultés sont apparues, il faut en rendre
compte et expliquer comment on aurait pu modifier le plan de recherche ou les
instruments pour obtenir des résultats plus fiables.

Vous aimerez peut-être aussi