Académique Documents
Professionnel Documents
Culture Documents
net/publication/230823353
CITATIONS READS
0 121
1 author:
Régis Gras
Polytech Université de Nantes
262 PUBLICATIONS 1,938 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Régis Gras on 04 March 2019.
1- PROBLEMATIQUE DIDACTIQUE
Par exemple, à travers l'analyse a priori d'une situation - problème, on conjecture l'apparition
de certaines procédures de résolution et une hiérarchie de difficultés. L'observation fait apparaître un
écart entre le modèle a priori et l'ensemble des procédures effectivement observées. Quelles
conclusions peut-on tirer de la distorsion ?
Autre exemple, un questionnaire, tel celui d'EVAPM, est présenté à une vaste population
d'élèves, portant sur une partie hétérogène d'un cursus scolaire. On présume des complexités
spécifiques, l'indépendance de certains items, de certains champs de savoirs (par exemple, des
questions sur "Pythagore" et sur le calcul algébrique), des compétences particulières de certaines
familles d'élèves, etc. L'observation met en évidence l'existence de certains facteurs discriminants.
Quels sont-ils ? Quelle est leur hiérarchie effective ? Comment se positionnent les familles d'élèves
par rapport à ceux-ci ?
Autre exemple, ayant observé des stratégies utilisées par les élèves dans la résolution de
problèmes, peut-on leur associer des conceptions consistantes ? Sont-elles évolutives et comment ?
Dernier exemple, en psychologie cognitive, est-il possible de mettre en évidence, à travers un
questionnaire adapté, des relations implicatives entre certains comportements ?
1Ce texte s'inspire pour une large part de l'article du même auteur : "L'analyse statistique des données : une
méthodologie de traitement de questions de didactique" R.D.M. Vol. 12/1
Des difficultés surgissent à tout moment et l'enseignant ou le chercheur isolé se trouve démuni
devant les choix présentés et les décisions à prendre. Par exemple, comment traiter les informations
qualitatives ? Comment coder les données ? A partir de quel effectif d'élèves la crédibilité d'un résultat
est-elle assurée ? Quelle méthode statistique peut-on adopter pour dégager des invariants, des
structures dans les données? Comment interpréter les résultats ? Il s'agit de trouver un juste équilibre,
dans la recherche d'une validation d'hypothèses, entre la péjoration des méthodes statistiques, le refus
d'investissement dans ce domaine et la statisticomanie qui conduit à une pléthore de résultats
inexploitables, accompagnée de l'illusion de la transparence (cf. exposé d'Antoine Bodin).
La statistique descriptive classique permet, entre autres, de décrire quelquefois de façon très
suggestive la distribution d'une variable, ou mieux l'interaction de deux variables. Cette méthode
utilise d'une part des paramètres indicateurs de cette distribution (moyenne, médiane, écart-type,
coefficient de corrélation, ...), d'autre part des représentations graphiques (histogrammes, droites des
moindres carrés,...). Elle apparaît cependant limitée dans ses objectifs et mutilante dans le cas de
données multidimensionnelles. En effet, elle limite son étude aux croisements successifs de 2, voire 3
variables, ce qui nécessite des calculs longs, répétitifs et insuffisants pour rendre compte d'une
globalité.
Les modes de réponse de la statistique inférentielle et décisionnelle sont compatibles avec les
démarches dites scientifiques. En effet, relisant Didier Dacunha - Castelle, on note le schéma suivant
de la situation générale :
Discussion Statisticien - praticien sur les buts de l'expérience
Construction d'un ensemble de modèles
Choix de l'observation, calcul de sa réduction et de l'information de l'observation
Réalisation de l'expérience par le praticien
Validation d'un ou des ensembles de modèles
Exposé des résultats aux praticiens
Construction d'un nouveau modèle, etc
Ce schéma recoupe l'essentiel des conduites du statisticien et de ses relations avec le réel. Ces
conduites peuvent être résumées ainsi : à partir d'un échantillonnage d'une population,
l'échantillonnage étant supposé effectué par des épreuves indépendantes et de même distribution (dans
le cas de la statistique dite paramétrique) :
. on estime, en vue de construire des modèles probabilistes, des paramètres relatifs aux
variables observées dans l'expérience ou, tout au moins, des intervalles de confiance censés contenir
ces paramètres ;
. on ajuste inductivement, à une ou deux autres variables, une variable dépendante dans
un but de prédiction ou d'explication ;
. savoir formuler des hypothèses dites "nulles" i.e. mises en question et réfutables à
l'issue de l'expérience avec un risque d'erreur donné ;
Par exemple, supposons que nous voulions examiner la liaison éventuelle entre deux
phénomènes présentant plusieurs modalités. C'est le cas lorsque nous "interrogeons les comportements
réussite-échec-non-réponse des élèves soumis à un questionnaire présentant différents items. Le test,
dit du , a pour fonction principale de mettre à l'épreuve d'observations expérimentales l'hypothèse
2
de l'indépendance, susceptible de tenir lieu de modèlisation théorique. Une certaine "distance" entre la
liaison observée et la liaison dans le cas où il y aurait indépendance sert d'indicateur de la distorsion
entre modèle et réalité. Si l'expérience montre qu'elle est incroyablement grande sous l'hypothèse
d'indépendance, alors celle-ci est rejetée, avec un risque d'erreur qu'elle soit cependant vraie, risque
que l'on minimise autant que faire se peut. Ce test, s'il présente l'intérêt de la simplicité, présuppose
que les effectifs des populations observées selon chaque modalité sont suffisamment importants pour
qu'une approximation gaussienne soit valide. De plus, si, comme c'est le cas pour un questionnaire-
élève, nous devons croiser ainsi un nombre important d'items, la tâche est longue et souffre du défaut
déjà évoqué d'un regard non global, non systémique dirait-on. D'autres méthodes sont donc à trouver.
Une double conjoncture va permettre d'apporter des réponses plus satisfaisantes à notre
problématique :
. d'autre part, l'ordinateur va permettre de les engranger, de pratiquer des calculs rapides sur
des structures complexes sans mutiler la taille des tableaux à traiter et de fournir des représentations
variées de l'information obtenue.
En effet, l'analyse des données, méthodologie de traitement des données en vue de visualiser
mais aussi de structurer, modéliser et aider à expliquer des phénomènes, fournit à ce jour de multiples
méthodes, dites analyses de données, qui permettront d'obtenir, contrairement à leur désignation, des
condensations, des synthèses des données, en vision multidimensionnelle, holographique, des facteurs
discriminants, des typologies, des hiérarchies, etc.
La rupture épistémologique concerne donc à la fois les objectifs visés et atteints, les moyens
techniques pour y parvenir (informatique), les données traitées (nombre, nature, variété, ...), les sujets
de l'analyse (variables ou individus), les modes de restitution de l'information, les démarches (aller des
données vers les modèles et non l'inverse), les méthodes mathématiques employées, les concepts en
jeu dans celles-ci, etc. En ce sens, l'analyse des données se distingue donc à la fois de la statistique
inférentielle et décisionnelle et de la statistique descriptive classique.
Mais les nouvelles perspectives offertes, apparemment dithyrambiques sans réserve, créent ou
entretiennent la fiction que des données recueillies et traitées sans choix opportun de la méthode et
sans hypothèses préalables, vont fournir des informations en clair et des résultats organisés. Trop de
chercheurs qui ont d'ailleurs ensuite abandonné cette méthodologie pour cette raison, se sont retrouvés
avec des amas de papier de données et des résultats numériques ou graphiques non exploitables. Gâchis
économique et intellectuel ! Il me paraît indispensable, plus de vingt ans après mes premières
rencontres avec l'analyse de données, de procéder ainsi :
. formuler des hypothèses, sans entrer dans l'illusion qu'elles seront réfutables ou
définitivement acquises, mais seulement mises en doute ou confortées ;
. choisir une méthode d'analyse adaptée parmi les deux grandes classes : analyse
factorielle et classification automatique ; par exemple, si l'on cherche à mettre en évidence :
Il sera nécessaire, pour le chercheur, de dépasser les évidences de certains résultats, de se servir
de cet accord pour crédibiliser les interprétations plus cachées, plus surprenantes qui justifient à elles-
seules l'emploi d'une méthode sophistiquée.
Elle se propose de donner une représentation géométrique, dans un espace de grande dimension
en général, d'une distribution conjointe de deux ensembles E (en général des sujets) et V (en général
des variables ou des modalités de variables).
Chacun de ces ensembles E et V admet un espace de représentation où les points, affectés d'une
pondération égale à leur occurrence, sont les "profils" de l'un sur l'autre, traduisant ainsi les relations,
les correspondances entre E et V. Ces espaces sont munis d'une distance euclidienne (dite du ) :
2
nous dirons, par exemple, que 2 sujets sont d'autant plus voisins qu'ils ont eu le même comportement
à l'égard des variables et, en particulier, celles qui sont le moins fréquentes, donc les moins triviales.
La méthode analytique consiste alors à extraire, à partir des espaces de représentation, des sous-
espaces dont la dimension est réduite, mais tels que le nuage de points E ou V y soit représenté de
façon optimale par ses différentes projections. Aux axes de ces sous-espaces correspondent des
facteurs discriminants dans les ensembles E et V : le premier est le plus informatif à ce sujet, le second
l'est moins, etc. Le didacticien doit alors, par un jeu d'opposition - ressemblance des projections de
points, déterminer la signification de ces facteurs. Elle lui servira à analyser puis à interpréter les
informations qui sont plus cachées et qui découlent de cette signification. Il s'intéressera aux
contributions de certains points à ces facteurs et, entre autres, par exemple, aux positions relatives de
sous-groupes de la population étudiée.
Dans sa thèse, A. Robert met, par exemple, en évidence la séparation entre plusieurs modèles
(primitif, statique, dynamique) dont disposent les étudiants relativement aux suites et séries, identifie
les procédures qui en relèvent et apprécie leur efficacité et leur pertinence.
Comme dans toutes les méthodes de classification, on cherche à constituer sur l'ensemble V
des variables des partitions de moins en moins fines, construites de façon ascendante en un arbre à
l'aide d'un critère de similarité entre variables. Le didacticien s'intéresse à ce type d'analyse qui lui
permet d'étudier puis d'interpréter en termes de typologie et de ressemblance (et de dissemblance)
décroissante des noyaux de variables, constitués significativement à certains niveaux de l'arbre et
s'opposant à d'autres à ces mêmes niveaux.
E
Figure 1
L'indice entre les variables qui lui correspond n'est donc pas biaisé par les effectifs. Il sert
ensuite à définir un indice de similarité entre deux classes de variables.
Ainsi, pour construire un arbre de classification, on réunit en une classe au plus bas niveau,
tout d'abord, les 2 variables qui se ressemblent le plus à travers cet indice, puis 2 autres variables ou
une variable et la classe déjà formée, puis d'autres variables ou des classes de variables.
f c b d a c
Figure 2
Dans ma propre thèse, ce type d'analyse met en évidence une typologie intéressante de tâches
dans la résolution d'exercices portant sur la symétrie centrale, typologie où s'opposent en particulier
les traitements dans le cadre géométrique et le cadre algébrique. La contribution de certaines catégories
d'élèves à cette typologie présente un grand intérêt puisqu'elle permet de mettre en évidence la relation
existant entre des descripteurs d'élèves et leurs comportements vis-à-vis des questins posées.
5- L'ANALYSE IMPLICATIVE
5.1- Implication entre variables
B(b) Y(b)
E
A(a) X(a)
Figure 3
Si A et B sont les sous-populations des sujets ayant respectivement satisfait les variables a et
b, dans quelle mesure peut-on dire : "si a alors b", l'implication ne devant pas être connotée a priori de
causalité.
Si A B , la proposition est vérifiée, mais généralement les cas courants présentent une
intersection A B non vide, mais qui peut être petite.
"a ==> b" est admissible au niveau de confiance ou avec l'intensité implicative 0,95 si et
seulement si : Prob [card ( X Y )) < card ( A B )] < 0,05.
En effet, on démontre que, pour une certaine modélisation, la variable aléatoire card ( A B )
card A. card B
suit une loi de Poisson de paramètre n . Si nous centrons et réduisons cette variable
aléatoire, la nouvelle variable suit approximativement, pour des effectifs assez grands, une loi normale
centrée réduite. Si ces effectifs ne sont pas suffisants pour légitimer l'approximation gaussienne, il
suffit de rester dans le modèle poissonnien. Dans la pratique, il suffit donc de déterminer :
card A. card B
card A -
n
q a, b =
card A. card B
n
t2
dt Probcard(X Y ) card(A B )
1 + −
(a,b ) =
2
q(a,b )
e 2
Cette notion est étendue, depuis les thèses d' A.Larher et de M.Bailleul, à des variables modales
et numériques, unifiées en variables fréquentielles, prenant leurs valeurs sur [0,1].
Un graphe implicatif rend compte de l'ordre partiel induit par cette intensité d'implication. Par
exemple :
c
b
d
g f
Figure 4
Dans sa thèse, A. Robert explicite un ordre partiel entre des procédures employées par des
étudiants dans le traitement d'exercices sur suites et séries, procédures rentrant dans la définition de
conceptions ou de modèles plus ou moins fonctionnels. Elle souligne les apports respectifs des
méthodes d'analyse qu'elle emploie. H. Londeix met en évidence, à partir d'un test, une hiérarchie de
stades selon Piaget et un décalage différentiel du fait des contextes des exercices du test. A.Totohasina
montre que deux conceptions limitatives, l'une chronologiste, l'autre causaliste, font obstacle chez les
élèves et les étudiants à la compréhension de la notion de probabilité conditionnelle.
Précisons. La cohésion d'une classe de deux variables C(a,b) est définie ainsi :
posant (a,b ) = p alors C(a,b) = [1-[plog2p + (1-p) log2(1-p)]2]1/2 si p> 0,5
= 0 si p = 0,5
De là, nous construisons la cohésion d'une classe A de r variables (a1, a2, ..., ar), ordonnées
suivant un algorithme maximisant pas à pas la cohésion de la classe formée, définie comme une
moyenne géométrique des cohésions des couples :
C( A) = c(ai, aj)r(r −1) ,
2
Finalement, la force implicative d'une classe A composée des variables (a1, ..., ar) sur
la classe B composée des variables (b1, ..., bs), ordonnées de la même façon, est donnée par:
A, B = sup a b j rs
C A C B 1 /2
i r
j s
Un algorithme, comparable à celui qu'utilise I.C. LERMAN pour construire une hiérarchie des
similarités, permet de mettre en évidence l'agrégation successive de classes de cohésion significative
et le sens dans lequel elles s'impliquent. Une sélection des niveaux de la hiérarchie auxquels
correspond une classe de variables significative, de même que la détermination de la contribution des
sujets à celles-ci sont possibles grâce au travail théorique de H.Ratsimba-Rajohn et de M.Bailleul.
Par exemple, cette notion a permis à A. Larher de rejeter la liaison implicative entre deux
classes de procédures erronées dans des exercices où de jeunes élèves, devant compléter des
inférences, substituent, respectivement = à // et // à =.
Par contre, l'analyse des hiérarchies des similarités et des implications permet de faire
apparaître une genèse de l'inférence à un pas en géométrie :
* deux formes primitives :
. répétition de l'hypothèse dans la conclusion,
. changement des instanciations des variables, accompagné ou
non de celui de la relation attendue dans la conclusion ;
* une forme plus évoluée où les relations attendues sont échangées avec des relations
voisines, sans symétrie entre ces échanges ;
* une forme presque achevée où la conclusion diffère de l'attendu par la seule écriture
(confusion des signifiants seuls) ;
De façon générale, les deux méthodes basées sur la similarité et l'implication nous ont permis,
dans des travaux divers, de définir, à partir de classes de comportements, des procédures voire des
conceptions stables et consistantes permettant de les repérer, de façon anticipée, dès l'apparition de
quelques signes. On verra, en Intelligence Artificielle, l'avantage de partir de conceptions réellement
synthétisées en vue d'une modélisation de l'élève à travers une hiérarchie de règles, au lieu de partir
d'un hypothétique écart au modèle ou à un sous-modèle de l'expert.
EN CONCLUSION, soulignons deux points qui nous paraissent importants dans l'emploi
d'une telle méthodologie d'analyse didactique :
. les méthodes ayant des fondements mathématiques différents, comme nous l'avons vu,
conduisent à des résultats qui, certes fréquemment se confortent, mais le plus souvent se
complètent ; ceci doit nous encourager à doubler telle méthode par telle autre ;
BIBLIOGRAPHIE
BAILLEUL M. 1994- "Analyse statistique implicative: variables modales et contribution des sujets.
Application à la modélisation de l'enseignant dans le système didactique", thèse d'Université.
Université de Rennes 1, juin 1994.
* 1993- En deçà et au-delà de la genèse d'un test. Actes de l'Université d'Eté de Statistique
de La Rochelle. I.R.E.M. de Rouen.
GRAS R. et LARHER A., 1992- L'implication statistique, une nouvelle méthode d'analyse de
données, Mathématiques, Informatique et Sciences Humaines, n° 120.
LEBART L., MORINEAU A., FENELON J.P. 1979- Traitement des données statistiques -
Dunod
LERMAN I.C., GRAS R., ROSTAM H. 1981- Elaboration et évaluation d'un indice
d'implication pour des variables binaires - Mathématiques et Sciences Humaines n°74
et 75 .