Apport de L'analyse Sémantique Latente À L'analyse Des Politiques Publiques

Revue Internationale de Politique Comparée, Vol.
23, n° 1, 20167
L’apport de l’analyse sémantique latente à

l’analyse des politiques publiques multiniveaux :
un exemple avec la politique de formation tout
au long de la vie1
Frédéric BERTRAND
Les politiques de formation sont engagées dans un processus de décentra

lisation et d’européanisation qui est caractérisé par une multiplication des
scènes et des niveaux d’élaboration et de mise en œuvre des politiques. Ce
processus soulève à la fois la question de l’évolution du rôle de l’État nation
dans les nouvelles formes de gouvernance européenne, de l’appropriation
nationale des normes communautaires, de la place accordée au dialogue
social dans la définition et la mise en œuvre des politiques nationales, de la
participation de la société civile ou encore de la territorialisation de l’action
publique. Dès lors les politistes ont proposé d’analyser ces politiques sous
le prisme de la gouvernance multiniveau pour mieux appréhender leur
dynamique et leur complexité. L’intégration européenne a offert un terrain
de recherche privilégié pour les travaux pionniers sur la gouvernance
multiniveau conduits dans les années 1990. Ceux-ci ont mis en évidence le
rôle des acteurs infranationaux dans le processus faiblement imbriqué des
décisions communautaires2, et le dilemme dans lequel se trouvent les États
membres engagés dans une double logique de négociation et de reddition
de comptes3 avec les différents niveaux. Il est apparu ainsi que le concept
de gouvernance multiniveau offrait un cadre d’analyse de l’articulation
des politiques susceptible d’expliquer comment se concilient, au sein des
démocraties modernes, la demande croissante de participation des acteurs
1. Une première version de ce texte a été présentée au colloque international à Amiens « Les sciences
sociales européennes face à la globalisation de l’éducation et de la formation : vers un nouveau cadre
réflexif et critique ? », 17, 18, 19 novembre 2014.
2. MARKS G., HOOGHE L., BLANC K., « European Integration since the 1980s, State-Centric
versus Multilevel Governance », in Journal of Common Market Studies, vol. 34, n° 3, 1996, p. 343-378.
3. BENZ A., « Compound Representation in EU Multi-Level Governance », in KOHLER-KOCH B.
(ed), Linking EU and National Governance, Oxford, Oxford University Press, 2003.
DOI: 10.3917/ripc.231.0007
8 Frédéric BERTRAND
infranationaux et les impératifs nationaux ou internationaux d’efficacité

collective4. En ce sens il a été montré que les politiques multiniveaux
procédaient d’un double mouvement de convergence entre les niveaux et
d’autonomisation des différents niveaux. Ce phénomène a été bien décrit
sur-le-champ de la formation tout au long de la vie. Éric Verdier5, par
exemple, a expliqué la genèse des politiques européennes de formation
tout au long de la vie et celle des « régimes nationaux d’éducation et de
formation » qui caractérisent les spécificités nationales de mise en œuvre.
Dans la perspective des approches en politique comparée internationale

ou transnationale6, différents courants de la sociologie politique ont entrepris
de rendre compte de l’articulation entre les niveaux des politiques, certains
centrés sur les transferts internationaux7, d’autres sur l’européanisation des
politiques publiques8, d’autres encore sur l’analyse de l’action publique9.
Nombre de chercheurs relevant de ces différents courants abordent
l’articulation multiniveau sous un angle cognitif, et montrent le rôle que
jouent les idées, les normes ou les valeurs des parties prenantes dans la
construction ou la mise en œuvre des politiques multiniveaux. Certains
chercheurs ont en ce sens mis en évidence les déterminants cognitifs qui
conduisent un pays à s’approprier des dispositifs mis en œuvre dans un
pays voisin, à identifier des priorités d’action ou à initier des réformes
engagées ailleurs. D’autres ont étudié les dimensions cognitives verticale
ou horizontale de l’européanisation selon que l’appropriation nationale du
cadre communautaire procède de contraintes européennes (soft law) ou de la
concertation et de l’échange argumenté. D’autres encore ont montré que les
4. PETERS B.G., PIERRE J., « Multi-Level Governance and Democracy: A Faustian Bargain ? »

in BACHE I., FLINDERS M. (eds), Multi-Level Governance, Oxford, Oxford University Press,
2004 ; MARKS G., HOOGHE L., « Contrasting Visions of Multi-level Governance », in BACHE I.,
FLINDERS M. (eds), Multi-Level Governance, Oxford, Oxford University Press, 2004.
5. VERDIER E., « L’éducation et la formation tout au long de la vie : une orientation européenne, des
régimes d’action publique et des modèles nationaux en évolution », in Sociologie et sociétés, vol. 40,
n° 1, 2008, p. 195-225.
6. BEROUD S., « Retour sur quelques enjeux de la politique comparée », Les cahiers Irice, vol. 1,
n° 5, 2010, p. 21-35 ; HASSENTEUFEL P., « De la comparaison internationale à la comparaison
transnationale », in Revue française de science politique, vol. 55, n° 1, 2005, p. 113-132.
7. DELPEUCH T., « Comprendre la circulation internationale des solutions d’action publique :
panorama des policy transfer studies », in Critique internationale, vol. 43, n° 2, 2009, p. 153-165.
8. BARBIER J. C., « Réflexions sociologiques sur l’européanisation des politiques sociales », in
Socio-logos. Revue de l’association française de sociologie [en ligne] : URL : http://socio-logos.revues.
org/2810 consulté le 25 octobre 2014 ; GUIGNER S., « L’UE acteur de la biopolitique contemporaine :
les mécanismes d’européanisation normative et cognitive de la lutte contre le tabagisme », in Revue
internationale de politique comparée, vol. 18, n° 4, 2012, p. 77-90 ; GUIGNER S., « L’européanisation
cognitive de la santé : entre imposition et persuasion », in BAISNEE O., PASQUIER R. (dir.), L’Europe
telle qu’elle se fait. Européanisation et sociétés politiques nationales, Paris, CNRS Éditions, 2007,
p. 263-281.
9. FAURE A., LERESCHE J.P., MULLER P., NAHRATH S. (dir.), Action publique et changements
d’échelles : les nouvelles focales du politique, L’Harmattan, 2007, 380 p.
L’apport de l’analyse sémantique latente à l’analyse des politiques publiques multiniveaux9
politiques publiques sont constituées au carrefour d’un référentiel global,

qui engage une représentation du monde des acteurs, et d’un référentiel
local qui traduit cette représentation dans un secteur social déterminé et
l’oriente vers l’action.
Sur un plan méthodologique les sciences politiques ont majoritairement

adossé leurs analyses multiniveaux à des études de cas, privilégiant la
richesse de l’analyse qualitative institutionnaliste aux méthodes formelles
développées par exemple en démographie ou en sciences de l’éducation10.
Par ailleurs la difficulté méthodologique à démontrer le rôle de la cognition
dans la construction et la mise en œuvre des politiques publiques que
soulignait Surel en 200011, semble persister malgré le travail conceptuel
engagé par les néo-institutionnalistes12.
Nous proposons dans cet article de montrer que l’analyse sémantique

latente (LSA) couplée à une analyse statistique multiniveau offre un cadre
méthodologique qui permet d’analyser formellement et d’un point de
vue cognitif les politiques multiniveaux. L’hypothèse centrale qui sous-
tend l’approche cognitive des politiques multiniveaux est que les idées,
les normes ou les valeurs, influent sur la décision des acteurs aux niveaux
inférieurs et supérieurs. Cette hypothèse implique que les idées, normes
ou valeurs d’un niveau supérieur peuvent être différentes de celles qui
structurent l’action au niveau inférieur et que ces idées sont potentiellement
sous influence réciproque. La méthode proposée permet de tester cette
dernière proposition en réélaborant la question de l’analyse multiniveau
des politiques sous l’angle de l’analyse des données textuelles. Il s’agit
de faire porter l’analyse sur les textes significatifs des différents niveaux,
c’est-à-dire des textes où s’expriment les idées, les normes et les valeurs qui
structurent la politique à un niveau donné, et de mettre en évidence les liens
qui existent entre les textes des différents niveaux. L’intérêt du recours à la
LSA tient au fait que cette méthode permet de constituer des indicateurs de
la proximité sémantique latente des textes, en estimant le poids sémantique
des termes qui les composent. Au sein d’un corpus donné, des textes avec un
poids sémantique proche sont réputés avoir une sémantique latente proche.
Nous partons du postulat que les termes à travers lesquels s’expriment les
10. BRESSOUX P., LIMA L., « La place de l’évaluation dans les politiques éducatives : le cas de la
taille des classes à l’école primaire en France », in FELOUZIS G., HANHART S. (eds.), Gouverner
l’éducation par les nombres ? Usages, débats, controverses, Bruxelles, De Boeck, 2011, p 99-123 ;
BRESSOUX P., LEROY-AUDOUIN C., COUSTERE P., « Les extensions des modèles multiniveau et
leur application pour l’évaluation en éducation », in Mesure et Évaluation en Éducation, vol. 21, n° 1,
1988, p. 39-59.
11. SUREL Y., « L’intégration européenne vue par l’approche cognitive et normative des politiques
publiques », in Revue française de science politique, 50e année, n° 2, 2000, p. 235-254.
12. BÉLAN D., COX H. (eds.), Ideas and Politics in social sciences research, Oxford University press,
2011, 288 p. ; GOFAS A., HAY C., The role of ideas in political analysis, Routledge, 2010, 210 p.
idées, les normes ou les valeurs qui structurent une politique auront un poids
sémantique important dans le texte à travers lequel cette politique s’écrit.
Pour vérifier l’existence d’un lien entre les idées aux différents
niveaux de la politique nous analyserons la sémantique latente de trois
documents-cadres liés à la mise en œuvre du fonds social européen
(FSE) en France sur la période 2007-2013 : les Orientations stratégiques
communautaires 2007‑201313 (OSC)  ; le cadre stratégique national
pour la France14 (CRSN) ; le programme opérationnel pour la France
métropolitaine15 (PO). Avec un budget de plus de soixante-quinze milliards
d’euros sur la programmation 2007-2013, le FSE est le principal levier
financier de l’Union européenne pour la promotion de l’emploi, de la
formation professionnelle et de l’insertion. Il soutient la mise en œuvre
de la Stratégie européenne pour l’Emploi (SEE). Les procédures de
production et de validation des documents de cadrage du FSE assurent la
bonne articulation des programmes d’action nationaux avec la stratégie
européenne, pour autant les États membres se positionnent dans le cadre
communautaire en fonction de leurs stratégies et de leurs priorités propres.
Nous testerons donc deux hypothèses au regard de l’organisation multiniveau
de la politique de formation professionnelle (Europe/France) et des textes
qui la retranscrivent. Hypothèse 1 : le CRSN et le PO sont proches du point
de vue de leur sémantique latente, et plus éloignés de celle des OSC – c’est
l’hypothèse d’une relative distance sémantique entre la France et l’Europe
au sujet de la politique de formation professionnelle. Hypothèse 2 : le
poids sémantique du PO est en partie déterminé par celui du CRSN et des
OSC – c’est l’hypothèse de la traduction sémantique de l’effet multiniveau
des politiques. La théorie admet que ces hypothèses sont valides, l’intérêt du
présent travail consiste donc moins à les valider à nouveau qu’à proposer un
cadre méthodologique compatible avec le modèle théorique et susceptible à
terme de discuter ce dernier.
Cet article comporte quatre sections. Après avoir présenté les textes et
rappelé comment ils ont été élaborés dans une logique multiniveau, nous
explicitons la méthodologie utilisée pour les analyser. Nous présentons
ensuite les principaux résultats obtenus. Pour finir nous indiquons les
trois intérêts principaux du recours à la LSA pour l’analyse cognitive
des politiques multiniveaux appliquée à la politique de formation. Nous
montrerons que cette analyse permet : 1) d’objectiver la convergence
13. Communication de la Commission – Une politique de cohésion pour soutenir la croissance et

l’emploi – Orientations stratégiques communautaires 2007 2013 {SEC(2005) 904}/* COM/2005/0299
final.
14. DIACT, Cadre de référence stratégique nationale 2007-2013, 2007.
15. DGEFP, Programme opérationnel 2007-2013 http://www.fse.gouv.fr/IMG/pdf/Le_Programme_
Operationnel.pdf (consulté le 25 octobre 2014).
cognitive qui sous-tend cette politique aux différents niveaux, et qui renvoie,
en l’espèce, à la promotion d’une logique compétence ; 2) de souligner les
points de divergence entre les conceptions de la politique considérées aux
différents niveaux qui embarque la France dans un processus normatif où
une stratégie de promotion de la souveraineté nationale est mise en balance
avec une stratégie de défense des intérêts nationaux ; 3) de donner une
base empirique à une réflexion plus générale sur les idées, les normes et
les valeurs qui sous-tendent les représentations du monde des acteurs où
la formation est présentée comme la clé de voûte du modèle social par sa
vocation à articuler les logiques de protection sociale et de développement
économique.
Présentation des textes analysés
La LSA a été mise en œuvre sur trois textes à travers lesquels s’organise
la mise en œuvre multiniveau des politiques de formation professionnelle
continue à l’échelle européenne  : les Orientations stratégiques
communautaires 2007‑2013 (OSC), le cadre de référence stratégique
national pour la France (CRSN) et le programme opérationnel pour la
France métropolitaine (PO). La dimension multiniveau apparaît clairement
à travers le processus d’élaboration et de validation des textes et le jeu
des références normatives qui sont les leurs. Une des spécificités de la
programmation 2007‑2013 par rapport à la programmation précédente a
précisément été de rechercher une cohérence accrue entre les différents
niveaux. C’est la raison pour laquelle il a été demandé aux États membres
de ne présenter qu’un seul document stratégique de référence, et que le PO
présente une matrice unique pour les niveaux national et régional. Cette
recherche de cohérence fait du PO un texte où les priorités et principes définis
au niveau européen et national s’articulent avec une visée opérationnelle.
Nous avons retenu ces textes parce qu’ils constituent des références centrales
pour les concepteurs du PO. Nous avons uniquement retenu pour l’analyse
les sections de ces textes traitant explicitant de formation professionnelle.
Les OSC ont été présentées par une communication de la Commission

européenne de 2005. Les États membres ont été associés à la production
de la communication à travers des discussions engagées au sein des
différents services de la Commission. Le texte présente les orientations
de la politique européenne de cohésion qui doit soutenir la croissance et
l’emploi en réponse aux priorités et objectifs de la stratégie de Lisbonne,
et conformément aux lignes directrices intégrées pour la croissance et
l’emploi. La cohésion sociale est comprise dans ce cadre comme une
condition à un développement équilibré, harmonieux et durable, qui articule
un développement économique fondé sur la connaissance, l’innovation

et la valorisation du capital humain, le développement de l’emploi, et le
respect de l’environnement. Le texte dispose qu’après adoption par le
Conseil, les OSC serviront de socle pour l’élaboration des CRSN et des
PO correspondants. La communication présente également les instruments
financiers, leviers de la mise en œuvre effective de la politique de cohésion,
que sont les fonds structurels – le Fonds européen de développement
régional (FEDER) et le Fonds social européen (FSE) –, ainsi que le Fonds
de cohésion. Il revient aux États membres d’assurer la complémentarité, la
cohérence et la mise en synergie des différents fonds sur leur territoire. Dans
le détail, le texte identifie trois grands axes prioritaires et douze orientations
communautaires. Il est traité de la formation tout au long de la vie dans les
trois orientations suivantes dont nous avons retenu le texte pour l’analyse :
• Attirer et retenir un plus grand nombre de personnes sur le marché du
travail et moderniser les systèmes de protection sociale
• Améliorer la capacité d’adaptation des travailleurs et des entreprises et
accroître la flexibilité du marché du travail
• Investir davantage dans le capital humain en améliorant l’éducation et
les compétences
La formation tout au long de la vie y apparaît comme un levier essentiel

de la politique de cohésion définie dans le cadre de la stratégie de Lisbonne,
parce qu’elle est susceptible de donner aux salariés, notamment les moins
qualifiés, les compétences nécessaires à leur maintien en emploi et qu’elle
est un facteur de développement macroéconomique.
Le cadre de référence stratégique national (CRSN) 2007-2013 est un texte

publié en 2007 qui précise comment les États membres entendent mettre en
œuvre sur leur territoire les orientations stratégiques communautaires et
mobiliser pour cela les fonds structurels. Le CRSN répond aux règlements
communautaires sur la politique de cohésion et relève d’une volonté
européenne d’optimiser l’emploi des fonds structurels et d’assurer la bonne
intégration des priorités européennes dans les politiques nationales. Ce texte
qui est élaboré après que chaque État membre ait défini un plan national de
réforme (PNR) tient compte des priorités des politiques nationales d’emploi
et de développement économique, des contextes institutionnels des réformes
engagées dans chaque État membre, ainsi que des réalités économiques et
sociales aux échelles nationales et régionales. Ce texte résulte d’une très
large concertation sur la stratégie d’emploi des fonds structurels en France
qui a été organisée par la délégation interministérielle à l’aménagement et à
la compétitivité des territoires (DIACT) à partir de 2004. Cette concertation
a mobilisé notamment les ministères, les associations nationales d’élus,
les partenaires sociaux, de grandes associations intervenant sur-le-champ,
les chambres consulaires ainsi que la Commission européenne elle-même.

Cette vaste concertation est apparue comme une condition importante de
la cohérence de la politique aux différents niveaux régionaux, nationaux
et européens, et en l’occurrence de la bonne articulation des politiques
d’emploi et de formation professionnelle de la France avec la politique
de cohésion communautaire. Cette concertation a permis également de
prioriser les axes d’intervention des fonds dans une logique de concentration
des fonds et de recherche d’un effet levier maximal. Le CRSN précise que
le FSE sera mobilisé pour soutenir l’emploi, le capital humain et assurer
l’inclusion sociale et à cette fin il poursuivra sept priorités. Nous avons
retenu pour l’analyse le texte des trois priorités suivantes qui sont centrées
explicitement sur la formation professionnelle :
• Contribuer à l’adaptation des travailleurs et des entreprises aux mutations
économiques
• Améliorer l’accès à l’emploi des demandeurs d’emploi
• Investir dans le capital humain
La formation professionnelle continue est présentée dans ces textes

comme un moyen de sécuriser les parcours des salariés.
Le dernier texte que nous analyserons est le PO « objectif Compétitivité

régionale et Emploi » déployé en métropole. La rédaction du PO 2007-2013
s’est étendue sur l’année 2006, le texte a été publié en 2007. Il a donné lieu
à une forte concertation mise en œuvre au niveau de chacune des régions
et au niveau national. Au niveau régional la concertation organisée par un
correspondant FSE a porté tant sur l’élaboration du diagnostic régional
permettant d’identifier les priorités d’intervention du FSE, que sur la
maquette financière. Les éléments produits ont été mis en perspective avec le
CRSN. Selon les régions, les réunions plénières le plus souvent coprésidées
par le Préfet et le Président du conseil régional, ont rassemblé les acteurs
du service public de l’emploi, les conseils généraux, les Plans locaux
pour l’insertion et l’emploi (PLIE), le Rectorat, le Conseil économique et
social, les chambres consulaires notamment, pour une prise en compte des
attentes et avis des principaux acteurs susceptibles de porter des actions sur
les différents axes du FSE. À ces réunions plénières se sont ajoutées des
réunions bipartites qui ont permis à l’État déconcentré de travailler de façon
rapprochée avec certains grands acteurs, en particulier le Conseil régional et
le service public pour l’emploi. La concertation au niveau national, démarrée
en 2005 pour l’élaboration du CRSN s’est poursuivie pour l’élaboration du
PO FSE. À côté des instances de concertation, plusieurs groupes de travail
ont été mis en place pour traiter d’axes d’intervention qui ont largement
structuré le PO. Si l’on met à part l’axe concernant l’assistance technique,
le PO cible les priorités suivantes :
• Contribuer à l’adaptation des travailleurs et des entreprises aux mutations

économiques
• Améliorer l’accès à l’emploi des demandeurs d’emploi
• Renforcer la cohésion sociale, favoriser l’inclusion sociale et lutter
contre les discriminations
• Investir dans le capital humain et la mise en réseau, l’innovation et les
actions transnationales
Seul le troisième axe ne comporte pas de mesures ou de sous-mesures

explicitement orientées sur la formation. Les trois autres principaux axes
d’intervention du PO orientent le FSE sur la formation des salariés accédant
peu à la formation ou sur des demandeurs d’emploi, sur le développement
de certains dispositifs comme l’alternance ou la validation des acquis
de l’expérience (VAE), ainsi que sur les innovations et les adaptations
pédagogiques. Nous incluons à l’analyse les textes qui présentent les
finalités poursuivies par les différentes mesures ou sous-mesures de ces
trois principaux axes d’intervention.
Méthodologie
La méthodologie, employée pour analyser ces trois textes, procède en quatre

temps. Le premier temps permet, grâce au recours à l’analyse sémantique
latente (LSA), d’attribuer un poids sémantique aux mots employés dans
les textes du corpus étudié. Le deuxième temps propose de comparer les
trois textes composant le corpus à l’aide d’indicateurs de similarité. Le
troisième temps permet de décrire l’organisation du corpus étudié à l’aide de
techniques statistiques de classification. Le dernier temps teste l’hypothèse
d’un effet de la sémantique communautaire sur les textes nationaux.
Procéder à une analyse sémantique latente (LSA)
La LSA est une méthode développée au début des années 2000, dans le champ
des recherches sur les processus cognitifs et épistémiques en particulier
l’induction16. La LSA a trouvé de nombreux domaines d’application en
16. LANDAUER T.K., DUMAIS S.T., « A solution to Plato’s problem: The Latent Semantic Analysis
theory of the acquisition, induction, and representation of knowledge » in Psychological Review,
vol. 104, n° 2, 1997, p. 211-240 ; FOLTZ P.W., KINTSCH W., LANDAUER T.K., « The measurement
of textual Coherence with Latent Semantic Analysis », in Discourse Processes, vol. 25, n° 1-2,
1998, p. 285‑307 ; LANDAUER T.K., FOLTZ P.W., LAHAM D., « Introduction to Latent Semantic
Analysis », in Discourse Processes, vol. 25, n° 1-2, 1998, p. 259-284.
psychologie ou en traitement d’information textuelle. Elle a notamment été

utilisée pour simuler le processus humain de compréhension des textes17.
Des expériences ont montré en effet que la LSA était en mesure de prédire ce
que les lecteurs apprenaient d’un texte, grâce à son algorithme qui lui permet
d’extraire et de représenter le sens des mots. D’un point de vue théorique,
elle adopte les principes de la linguistique distributionnelle de Harris18
selon laquelle le sens d’un mot peut être défini statistiquement, à partir de
l’ensemble des contextes (phrases, paragraphes, textes) dans lesquels ce mot
apparaît. La LSA suppose que deux mots ont un sens voisin s’ils apparaissent
dans des contextes similaires et que deux contextes sont similaires s’ils
comportent des mots avec un sens voisin. Cela peut être illustré simplement.
Le mot « formation » par exemple, est parfaitement ambigu, son sens sera
différent selon que le corpus dans lequel il est employé traite de la formation
tout au long de la vie ou bien de la formation de la croûte terrestre. Dans le
premier cas il se trouverait le plus souvent au voisinage de termes comme
« entreprise », « salarié », etc. dans le second, au voisinage de termes
comme « magma » ou « géologie » par exemple. Sur un plan statistique,
ce sont les liens de cooccurrence entre les termes de textes appartenant à
un même corpus qui permettent de déterminer la valeur des mots utilisés.
Cette valeur peut être interprétée comme un poids sémantique qui dénote
l’importance d’une notion dans un texte. Un mot aura un poids sémantique
d’autant plus élevé qu’il apparaît fréquemment dans le corpus étudié et que
les mots auxquels il est associé apparaissent fréquemment. Pour calculer
les valeurs des mots, la LSA recourt à la procédure mathématique de la
décomposition des matrices (occurrences X textes) afin d’en extraire les
valeurs singulières19. La LSA procède en quatre étapes :
1. La construction de la matrice des occurrences X
2. La décomposition de la matrice X en deux matrices orthogonales T0 et
D0 et en une matrice diagonale de valeurs singulières S0
3. La réduction des matrices S0, T0 et D0 au rang k
4. Le calcul de la matrice X’, matrice approchée au rang k de la matrice X
17. KINTSCH W., « On the notions of theme and topic in psychological process models of text
comprehension », in LOUWERSE M.W., PEER V., (eds.), Thematics: Interdisciplinary Studies,
Amsterdam, Benjamins, 2002, p. 157-170 ; KINTSCH W., « Metaphor comprehension: A computational
theory », in Psyhonomic Bulletin and Review, vol. 7, n° 2, 2000, p. 257-266 ; WOLFE M.B.,
SCHREINER M.E., REHDER B., LAHAM D., FOLTZ P.W., KINTSCH  W., LANDAUER  T.K.,
« Learning from text: Matching readers and text by Latent Semantic Analysis », in Discourse Processes,
vol. 25, n° 1-2, p. 309-336, 1998 ; LANDAUER T.K., LAHAM D., REHDER B., SCHREINER M.E.,
« How well can passage meaning be derived without using word order? A comparison of Latent Semantic
Analysis and humans », in SHAFTO M.G., LANGLEY P., (eds.), Proceedings of the 19th annual
meeting of the Cognitive Science Society, Mahwah, Erlbaum, 1997, p. 412-417.
18. HARRIS Z.S, Mathematical Structures of Language, Krieger Pub Co, 1968, 230 p.
19. DEERWESTER S., DUMAIS S.T., FURNAS G.W., LANDAUER T.K., HARSHMAN R.,
« Indexing By Latent Semantic Analysis » in Journal of the American Society For Information Science,
vol. 41, n° 6, 1990, p. 391-407.
La matrice approchée (X’) comporte ainsi la valeur de chacun des mots

des textes constituant le corpus étudié. Celle-ci prend en compte la présence/
absence du mot dans les textes du corpus, mais également la présence/
absence de l’ensemble des mots auquel ce terme est associé le plus souvent.
Pour reprendre notre illustration, considérons un corpus composé des deux
phrases ci-dessous :
• «  La formation des demandeurs d’emploi porte un enjeu de développement
des compétences » ;
• « Des dispositifs permettent aux demandeurs d’emploi de valider des
compétences ».
Bien que le terme « formation » n’apparaisse pas dans la seconde phrase,

cette dernière contribue à la détermination du poids sémantique de ce terme
dans le corpus, compte tenu de l’association au sein du corpus entre le terme
« formation » et les termes « demandeurs d’emploi » et « compétence ». De
fait, dans la seconde phrase, le qualificatif latent probable du terme dispositif
est la formation. Et cette probabilité paraîtra suffisamment forte au lecteur de
ce corpus pour lui laisser peu de doute à ce sujet. La LSA propose ainsi une
procédure formelle et automatique de traitement des textes dont les résultats
avoisinent ceux réalisés par des lecteurs humains. Elle permet ainsi de lever
une faiblesse importante de la méthodologie d’analyse compréhensive
des textes qui repose très fortement sur la subjectivité du chercheur, tout
en accordant une importance manifeste aux textes, aux mots ou aux idées.
Qu’elle ne produise pas de résultats contre-intuitifs ne saurait être en soi une
limite à cet égard, au-delà des résultats l’intérêt de la méthode est bien de
soumettre au débat scientifique les principes qui gouvernent notre lecture et in
fine notre compréhension des textes pour en permettre une analyse objective.
Pour autant la LSA présente plusieurs limites. La première concerne

la taille minimale des corpus, nécessaire pour que les résultats soient
satisfaisants ; en deçà de soixante mots, la LSA n’offre pas une analyse
optimale20. La seconde concerne la terminologie employée dans les différents
textes, si celle-ci est trop homogène ou que le vocabulaire est pauvre, la LSA
n’offre pas une solution méthodologique d’analyse appropriée21. Ajoutons
que la LSA semble ne pas résoudre automatiquement les difficultés liées
à la désambiguïsation des synonymes contrairement à ce qu’a soutenu
Kintsch22. Si l’on reprend notre exemple précédent, l’analyse sémantique
20. REHDER B., SCHREINER M., WOLFE M., LAHAM D., LANDAUER T., KINTSCH W., « Using

latent semantic analysis to assess knowledge: some technical considerations », in Discourse Processes,
vol. 25, n° 1-2, 1998, p. 337-354.
21. ROCHE M., CHAUCHE J., « LSA : les limites d’une approche statistique », in Proceedings of
atelier FDC’ 06 (Fouille de Données complexes), conférence EGC’ 2006, 2006, p. 95-106.
22. KINTSCH W., « Predication », in Cognitive science, vol. 25, n° 2, 2001, p. 173-202.
latente d’un texte qui traiterait de la formation des géologues spécialistes de

la formation de la croûte terrestre pourrait surévaluer le poids sémantique
du terme formation si l’analyste ne procède pas à un travail préalable de
recodage du texte susceptible de spécifier les deux acceptions du terme.
Bien que formalisée et instrumentée, cette méthodologie ne saurait donc
être mise en œuvre sans aucune intervention du chercheur.
Analyser la similarité des textes
Une fois la valeur des mots des différents textes calculée, les textes
peuvent être comparés entre eux à l’aide d’indicateurs de similarité.
La littérature sur l’analyse de données textuelles ou sur la recherche
documentaire identifie classiquement plusieurs indicateurs de similarité,
dont le coefficient de corrélation de Pearson et l’indice de Dice dont nous
nous sommes servis23. Le coefficient de corrélation de Pearson calcule la
similarité entre deux documents d1 et d2 comme le cosinus de l’angle entre
leurs représentations vectorielles centrées-réduites. La similarité obtenue
simpearson (d1 ; d2) Є [–1 ; 1].
simpearson(d1 ; d2) = simcosinus(d1 – d1 ; d2 – d2)
où d1 et d2 représentent la moyenne de d1 et d2.24
Le coefficient de corrélation appliquée aux données textuelles produites

à partir de la LSA (matrice X’) mesure la similarité sémantique des textes.
Un coefficient proche de 1 signifie alors que les textes traitent du même
sujet et dans les mêmes termes ; un coefficient proche de –1 signifie ou bien
que les textes traitent de sujets différents ou bien qu’ils traitent des mêmes
sujets, mais de manière différente.
L’indice de Dice quant à lui, se base sur le nombre de termes communs

entre les textes comparés. Il mesure une similarité lexicale. Plus les termes
communs sont nombreux et plus ils apparaissent de fois dans les textes, plus
l’indice est élevé. Contrairement à l’indicateur précédent, l’indice de Dice
prend en compte la taille des corpus, et le cas échéant la différence de taille
entre les textes comparés. Il se mesure de la manière suivante :
2Nc
simdice(d1 ; d2) =
N1 + N2
23. NEGRE E., « Comparaison de textes, quelques approches », in Cahier du LAMSADE, n° 338,
avril 2013, 28 p.
24. Op. cit., p 8.
où Nc est le nombre de termes communs à d1 et d2, et N1 est le nombre de

termes de d1 et N2 le nombre de termes de d2. L’indice peut varier de 0 à 1,
plus il est proche de 1 et plus les textes recourent à des lexiques similaires.
Décrire l’organisation du corpus par classification des textes
Le processus de production et de validation des textes ainsi que leurs

références normatives reflètent le caractère multiniveau de la politique sur
laquelle ils portent. Les textes sont en quelque sorte emboîtés les uns dans
les autres : le PO décline sous un angle opérationnel la stratégie nationale
qui elle-même s’inscrit à l’intérieur des orientations européennes. Mais
est-ce que cette structure emboîtée des textes a un corrélat sémantique ?
Est-ce que les différents niveaux de la politique s’accompagnent d’inflexions
sémantiques significatives ? Est-ce que ces inflexions sont constitutives des
niveaux eux‑mêmes ou en constituent simplement une strate sémantique qui
se superpose à d’autres strates notamment institutionnelles ? Les méthodes
statistiques de classification, qui mobilisent des techniques de partitionnement
ou de classification ascendante hiérarchique (CAH), peuvent apporter
des éléments de réponse à ces questions. La classification ascendante
hiérarchique permet de constituer des classes de mots ou de textes à partir
de leur poids sémantique. Elle mobilise des algorithmes qui d’une part,
minimisent la différence intra-classe et maximisent la différence entre les
classes, et d’autre part hiérarchisent les données en fonction de leurs valeurs.
L’intérêt de la classification est de mettre en évidence les textes qui peuvent
être considérés comme porteurs d’un référentiel de l’action publique, c’est-
à-dire des textes particulièrement structurants d’un point de vue sémantique
pour le champ considéré. La classification des mots permet d’analyser les
termes qui concourent le plus fortement au poids sémantique du corpus et à
celui de chacun des textes qui le composent. Cela est notamment un moyen
d’observer des déplacements sémantiques opérés d’un texte à l’autre. Il est
utile de faire précéder la CAH par une analyse en composante principale
(ACP) afin de sélectionner les principaux termes du corpus à classer.
Estimer un effet multiniveau sur la sémantique latente des textes

du corpus
Les modèles statistiques multiniveaux sont utilisés pour analyser les données
hiérarchisées c’est-à-dire des données emboîtées dans différents niveaux. Ils
permettent d’expliquer la variance constatée entre les individus de chaque
niveau et entre les niveaux eux-mêmes. Rappelons que, dans un exercice
de modélisation statistique, expliquer une variable par une autre signifie
déterminer la fonction qui lie les variables entre elles, ce qui n’emporte en
aucun cas l’affirmation d’un lien de causalité entre ces variables. L’intérêt
des modèles multiniveaux par rapport aux modèles linéaires généralisés
est qu’ils peuvent s’appliquer à des données non indépendantes, corrélées
entre elles – comme le sont a priori les données hiérarchisées. Dans notre
cas les mots dont la valeur a été calculée avec la LSA sont des unités-
individus regroupées dans des textes constitutifs des niveaux. Chacun
des textes constitue un niveau, il s’agit d’estimer dans quelle mesure la
sémantique latente des orientations européennes explique celle des deux
textes caractérisant la position française. L’analyse multiniveau procède
en deux temps. Le premier temps consiste à estimer comment les valeurs
sémantiques varient dans les différents textes. Ce modèle est équivalent
à une analyse de variance avec effet aléatoire25. Nous partons en effet de
ce double constat que des termes identiques du dictionnaire ont des poids
sémantiques différents au sein des différents textes, et que des termes
différents ont des poids différents au sein de chacun des textes. L’analyse
de variance permet d’estimer la part de la variance liée aux poids des termes
dans les différents textes (analyse intra-groupe) et celle liée aux poids des
termes pour l’ensemble du corpus (analyse intergroupe). Elle permet ainsi
de tester l’hypothèse d’égalité du poids sémantique moyen des termes des
textes. L’hypothèse d’un relatif éloignement entre les textes français et les
OSC du point de vue de leur sémantique latente (hypothèse 1) implique que
les termes identiques aient un poids moyen significativement différents au
sein des deux corpus. Le second temps, qui s’appuie sur l’estimation d’un
modèle linéaire mixte à constante aléatoire26, permet de tester l’hypothèse 2
d’une traduction sémantique de l’organisation multiniveau de la politique.
Celle-ci sera avérée si la sémantique latente du PO est influencée à la fois
par celle du CRSN et celle du PO.
Présentation des résultats
Les Orientations stratégiques communautaires 2007-2013 (OSC), le cadre

de référence stratégique national pour la France (CRSN), et le Programme
opérationnel (PO), présentés plus haut, ont été analysés après avoir été
lemmatisés selon la procédure standard27 à partir d’un dictionnaire constitué
des termes des textes eux-mêmes. Ce dictionnaire comporte 256 entrées.
Seuls les textes portants directement sur la formation professionnelle tout
au long de la vie ont été retenus. Les mots outils au nombre de 204 ont été
25. BRESSOUX P., Modélisation statistique appliquée aux sciences sociales, De Boeck, 2008, p. 291.
26. Op. cit., p 296.
27. LEBART L., SALEM A., Analyse textuelle, Paris, Dunod, 1994, p. 36-38.
supprimés de l’analyse. Le corpus analysé comporte finalement 451 mots

différents pour 1 377 occurrences (voir annexe 1). L’analyse sémantique
latente réalisée sur ce corpus a permis de produire 768 valeurs sémantiques.
Analyser la similarité des textes
La matrice de corrélation obtenue sur les valeurs produites à l’aide de la

LSA indique que les textes sont significativement corrélés deux à deux.
Tableau 1 : Tableau croisé des corrélations de Pearson

OSC CRSN PO
OSC 1 r=0,607 ; p<.001 r=0,473 ; p<.001
CRSN 1 r=0,775 ; p<.001
PO 1
La proximité des textes ici ne doit pas surprendre elle reflète notre parti
pris de ne sélectionner que les paragraphes traitant de la formation tout au
long de la vie. Ce qui retient l’attention est plutôt la force de la corrélation :
très forte entre les OSC et le CRSN, plus encore entre le CRSN et le PO,
mais nettement moins marquée entre les OSC et le PO. Le calcul de l’indice
de Dice montre que la corrélation ne repose qu’en partie sur une proximité
lexicale entre les textes.
Tableau 2 : Calcul de l’indice de Dice par paire de textes

Indice de Dice
OSC/CRSN 0,18
OSC/PO 0,17
PO/CRSN 0,25
L’indice reste en effet relativement faible même lorsque la corrélation

est forte entre le PO et le CRSN. C’est donc bien d’abord sur un plan
sémantique et non lexical qu’il convient d’analyser la proximité entre les
textes considérés. Ces résultats confirment la pertinence de l’hypothèse 1, à
savoir que le CRSN et le PO sont proches du point de vue de leur sémantique
latente, et qu’ils sont sémantiquement éloignés des OSC.
Décrire l’organisation du corpus par classification des textes
Il s’agit ici d’entrer plus avant dans l’analyse de l’articulation des textes.
Une analyse en composante principale (ACP) a permis d’identifier les mots
du dictionnaire qui contribuent le plus fortement au premier axe factoriel.

Ce premier axe explique 74 % de la variance totale des valeurs sémantiques
du corpus. Ont été retenus les 42 mots du dictionnaire dont la contribution
au premier axe était supérieure à la contribution moyenne des mots à l’axe.
Ce sont par conséquent ces mots qui portent l’essentiel de la sémantique du
corpus et des textes qui le composent. L’analyse ascendante hiérarchique
a permis quant à elle d’identifier cinq classes de mots qui donnent une
indication de l’importance relative des 42 retenus au sein des textes et du
corpus (annexe 2). Il apparaît sans surprise – compte tenu de la manière
dont le corpus a été constitué – que le terme formation est celui dont la
valeur sémantique latente est la plus importante au sein du corpus, il est en
revanche intéressant d’analyser la manière dont chacun des textes utilise ce
terme en lien avec les autres mots ayant une valeur sémantique forte et en
particulier ceux du deuxième groupe de l’ACP (Annexe 4). Compte tenu
de l’éloignement sémantique constaté entre les OSC et le PO, une ACP a
été réalisée pour identifier les termes qui contribuent le plus fortement à cet
éloignement (Annexe 3). Il apparaît que l’éloignement sémantique témoigne
d’une différence significative entre les conceptions des politiques d’emploi
et de formation promues par les OSC ou le PO. Là où les OSC déploient
une vision plutôt libérale des politiques d’emploi axées sur développement
économique par l’investissement dans les compétences et la réforme du
marché du travail, le PO en propose une lecture plus sociale-libérale qui
met davantage l’accent sur la sécurisation des trajectoires professionnelles
des salariés et les enjeux d’accès à la formation. La mise en évidence de
ces différentes approches de la formation est un des intérêts de la démarche
abordée dans la section suivante.
Estimer un effet multiniveau sur la sémantique latente des textes

du corpus
L’analyse de variance avec effet aléatoire a été effectuée sur les valeurs
sémantiques (non centrées réduites) des textes pour l’ensemble des entrées
du dictionnaire.
Tableau 3 : Résultats de l’ANOVA28

Somme des carrés Ddl Moyenne des carrés F Signification
Intergroupes ,045 2 ,022 19,540 ,000
Intra-groupes ,877 765 ,001
Total ,921 767
28. Si l’hypothèse d’homogénéité des variances doit être rejetée après le test de Leven (Leven (2 ;
765)=21,45 ; p<.001), le test de Welch est quant à lui significatif (Welch (2 ; 465,78)=20,61 ; p<.001).
L’analyse de variance permet de vérifier l’hypothèse 1 selon laquelle

les poids sémantiques moyens des termes diffèrent de manière significative
entre les textes du corpus (f (2 ; 765)=19,54 ; p<0,001).
Tableau 4 : Moyennes des valeurs sémantiques par texte

Textes Moyenne des valeurs sémantiques
OSC 0,296
CRSN 0,110
PO 0,188
Total 0,198
Il est clair que les OSC ont un poids sémantique particulièrement

important. Cela signifie que les parties de ce texte portant sur la formation
tout au long de la vie sont structurées autour de notions récurrentes ou ayant
de nombreuses cooccurrences qui sont de fait structurantes pour l’ensemble
du corpus. Ces notions ont été identifiées à l’étape précédente, nous savons
à présent que leur poids sémantique est significativement plus important
dans le texte des OSC que dans le reste du corpus. Le test de Tukey permet
de confirmer que les poids sémantiques moyens des termes du CRSN et du
PO sont proches les uns des autres et s’écartent de manière significative de
ceux des OSC.
Tableau 5 : Résultats du test de Tukey

(I) (J) Différence de Erreur Signification Intervalle de confiance
Textes Textes moyennes (I-J) standard à 95 %
Num Num Borne Borne
inférieure supérieure
CRSN PO –,00789* ,00299 ,023 –,0149 –,0009
OSC –,01863 *
,00299 ,000 –,0257 –,0116
PO CRSN ,00789* ,00299 ,023 ,0009 ,0149
OSC –,01074 *
,00299 ,001 –,0178 –,0037
OSC CRSN ,01863*
,00299 ,000 ,0116 ,0257
PO ,01074* ,00299 ,001 ,0037 ,0178
Pour autant à ce stade la question demeure de savoir si les valeurs

sémantiques des termes des OSC ou du CRSN expliquent celles du PO
(hypothèse 2). L’hypothèse que l’organisation multiniveau de la politique
de formation – telle du moins que saisie à travers les trois textes – a une
dimension sémantique, suppose qu’un tel effet soit avéré. L’utilisation du
modèle linéaire mixte va nous permettre de tester cette hypothèse. Les
valeurs sémantiques des termes des OSC et du CRSN sont introduites
dans le modèle comme des variables explicatives, celles du PO comme les

variables à expliquer29. Les résultats montrent qu’en effet la sémantique
latente du PO dépend de manière significative des OSC (f=6,4 ; p<.0001),
du CRSN (f=58,7 ; p<.0001), mais également d’un effet emboîté des deux
textes où les OSC et le CRSN influent ensemble sur la sémantique des PO
(f=4,4 ; p<.0001).
Tableau 6 : Résultats du modèle mixte

Tests des effets fixes de type IIIa
Source Numérateur Dénominateur F Sig.
ddl dll
Constante 1 198 1012,782 ,000
OSC 16 198 6,436 ,000
CRSN 7 198 58,769 ,000
OSC*CRSN 32 198 4,408 ,000
a. Variable dépendante : PO_France.
Ces derniers résultats vérifient donc l’hypothèse 2 selon laquelle le poids

sémantique du PO est en partie déterminé par celui du CRSN et des OSC.
Intérêts de la LSA pour l’analyse des politiques

multiniveaux – application à la formation professionnelle
Au regard des résultats présentés l’analyse cognitive a trois intérêts à recourir

à la LSA pour appréhender les politiques publiques multiniveaux. Il ressort
en premier lieu qu’avec la LSA l’analyse des politiques multiniveaux
dispose d’une méthodologie permettant d’objectiver la convergence
cognitive qui sous-tend la politique. Cela apparaît dès lors que l’on se
montre attentif aux termes du 2e groupe de l’ACP qui sont les plus souvent
associés au terme « formation ». Parmi ces derniers se trouvent les trois
verbes « développer », « améliorer », « accéder » (Annexe 2). D’un point
de vue grammatical la formation est parfois le complément d’objet de ces
verbes, elle en est parfois le sujet, mais la liaison entre ces termes est le plus
souvent à appréhender du point de vue de la sémantique latente au sens
où ces verbes concourent globalement au sein du corpus à la construction
d’une certaine idée ou d’un certain référentiel de la formation tout au long
de la vie. Un retour au texte pour contextualiser ces mots permet de préciser
29. L’analyse a été effectuée sur les valeurs sémantiques (non centrées réduites) des textes pour
l’ensemble des entrées du dictionnaire.
à quoi ils se réfèrent. Il s’est agi de trouver dans chacun des textes la réponse
aux questions : « développer quoi ? » ; « améliorer quoi ? » ; « accéder à
quoi ? » et « pour quoi faire ? » (Annexe 4). En première lecture c’est la
proximité entre les contextes d’emploi des trois verbes qui frappe. Les trois
textes précisent par exemple que la formation doit développer les ressources
humaines, le capital humain ou le développement des compétences à
l’échelle des entreprises et des individus, qu’il s’agit d’améliorer l’accès
à la qualification et qu’un enjeu principal des politiques de formation est
de favoriser l’accès à l’emploi. On reconnaîtra ici les principaux traits
du référentiel européen sur la formation tout au long de la vie. Celui-ci
semble bien intégré dans les politiques nationales au point de passer pour
un lieu commun : le développement des compétences par la formation est
un levier important du développement économique et social. On pourrait
parler ici d’une convergence cognitive qui rend possibles l’articulation des
niveaux et l’appropriation nationale du référentiel. Si la méthode ouverte
de coordination a favorisé cette convergence cognitive, d’autres acteurs y
ont contribué par d’autres canaux, notamment les partenaires sociaux qui
ont entrepris dès la fin des années 1980 en France de mettre la compétence
individuelle au cœur des enjeux de qualification dans l’entreprise30. Nous
sommes ici à ce moment de l’histoire sociale où, pour reprendre l’analyse
de Zarfian la logique compétence est venue supplanter la logique de la
qualification31.
Le deuxième intérêt de la LSA est de souligner les points de divergence

entre les conceptions de la politique considérées aux différents niveaux. Il
est possible de donner plusieurs interprétations de cette divergence. Elle
peut apparaître par exemple comme un élément intrinsèque du processus
dynamique d’européanisation, elle peut témoigner également d’une
recherche d’opportunités qui met en balance la souveraineté nationale avec
les intérêts nationaux. Si le FSE paraît être à cet égard un puissant moyen
d’appropriation par les États du cadre européen, on ne peut estimer que
ces derniers soient dupes de ce qui se joue ici d’un point de vue normatif.
Il apparaît au contraire que pour une part au moins, le positionnement
national à l’égard du FSE, relève d’une stratégie opportuniste. Cela apparaît
clairement si l’on se rend attentif aux contextes d’emploi des trois verbes
mentionnés plus haut, qui associent la formation à des priorités nationales
fortes comme l’apprentissage, les partenariats territoriaux, le ciblage des
publics jeunes ou seniors, la validation des acquis de l’expérience, ou encore
la sécurisation des parcours (Annexe 4). Or c’est bien sur de tels sujets que
30. ZIMMERMANN B., « Logiques de compétences et dialogue social », in Travail et emploi, n° 84,

octobre 2000 , 15 p ; TALLARD M., « L’introduction de la notion de compétence dans les grilles de
classification : genèse et évolution », in Sociétés Contemporaines, vol. 1-2, n° 41-42, 2001, p. 41-42.
31. ZARIFIAN P., Le modèle de la compétence, Paris, Éditions Liaisons, 2004.
le FSE a été mobilisé. Ainsi le CRSN et le PO renvoient en dernière instance

à des politiques décidées, des lois votées ou des plans et priorités d’actions
déjà engagés avant la programmation 2007-2013 du FSE. Le FSE vient ainsi
soutenir des actions qui auraient dû être conduites de toute manière. C’est
ainsi que l’accent mis fortement sur l’alternance et l’apprentissage dans le
CRSN et le PO s’explique dans le cadre de la politique gouvernementale
de développement et de modernisation de l’apprentissage et de la loi de
programmation pour la cohésion sociale du 18 janvier 2005 qui visait un
accroissement de 40 % du nombre d’apprentis en cinq ans. L’apprentissage
a par ailleurs été un axe fort des partenariats territoriaux que le CRSN
et le PO proposaient de développer dans la mesure où, suite à la loi de
janvier 2005, se sont mis en place des Contrats d’objectifs et de moyen
(COM) signés par l’État avec les Conseils régionaux et associant les branches
professionnelles ou les chambres consulaires. Un autre axe important de ces
partenariats territoriaux concernait la politique contractuelle de l’État ; or la
programmation FSE 2007-2013 a correspondu à la nouvelle génération de
Contrat de plan État région (CPER) qui a été bien articulée avec l’emploi du
fonds dans les régions notamment pour prolonger des actions de prévention
des mutations économiques et de soutien à la mobilité et au reclassement
des salariés via des actions de formation. Le ciblage par le CRSN et le PO
des jeunes et des seniors s’explique quant à lui dans un contexte national
où les taux d’emploi de ces publics sont plus faibles en France que dans
le reste de l’Union européenne et où l’enjeu de l’accès à la qualification
par l’alternance pour les jeunes et notamment les décrocheurs du système
scolaire ou par la validation des acquis de l’expérience (VAE) pour les
salariés peu qualifiés, est par conséquent important. Par ailleurs les actions
de maintien en emploi ou du reclassement des seniors sur lesquels le PO
et CRSN ont fortement mobilisé le FSE, étaient opportunes compte tenu
des enjeux de la prise en compte des âges dans la politique de l’emploi.
L’on songe ici à la réforme des retraites d’août 2003 et aux travaux des
partenaires sociaux sur la santé au travail et notamment à l’accord national
interprofessionnel du 13 octobre 2005 relatif à l’emploi des seniors en vue
de promouvoir leur maintien et leur retour à l’emploi. Une sous-mesure du
PO a dans cette perspective été consacrée à la stratégie d’accompagnement
du vieillissement actif. Le CRSN et le PO sont aussi marqués par la réforme
de la formation professionnelle de 2004 qui donne un contenu juridique
en droit français à la notion de formation tout au long de la vie – notion
apparue il y a une quarantaine d’années et qui structure les travaux des
institutions internationales et de la Commission européenne sur les leviers
de la croissance économique et sociale. Notons enfin que le développement
de politiques actives de formation et du travail qu’évoquent le CRSN et
le PO, a été un axe à part entière du programme opérationnel (l’axe 2 :
« Améliorer l’accès à l’emploi des demandeurs d’emploi »). Le FSE a ainsi
été mobilisé pour soutenir le service public de l’emploi dans sa mission

d’accompagnement des demandeurs d’emploi non indemnisés, dans un
contexte de profonde réforme de l’opérateur historique de placement. Cette
réforme a débouché avec la loi de février 2008 sur la fusion de l’ANPE et
de l’assurance chômage et la création de Pôle emploi. La réforme du SPE
comme celle de la formation professionnelle témoignent de l’appropriation
nationale du référentiel international et européen de la thématique de la
flexicurité traduite en France dans les termes de la sécurisation des parcours
professionnels, mais elle témoigne aussi de la manière dont le FSE est
mobilisé opportunément pour développer des actions qui répondent à des
enjeux et un calendrier national.
Le troisième intérêt que peut représenter la LSA appliquée à l’analyse

des politiques multiniveaux est de donner une base empirique à une réflexion
plus générale sur les idées, les normes et les valeurs qui sous-tendent les
représentations du monde des acteurs. L’analyse des textes par la sémantique
latente peut s’approfondir en effet en une socio-histoire des représentations
du monde et des modèles cognitifs qui les sous-tendent. Il s’agit finalement
de retourner aux textes pour éclairer sous l’angle de la politique considérée
ce qui se joue sur le plan sémantique. Cela apparaît si l’on est attentif aux
contrastes qui existent entre le PO et les OSC relativement aux valeurs
sémantiques de plusieurs mots qui ne sont élevées que pour un seul des
deux textes. Ce contraste ressort nettement de l’analyse factorielle effectuée
sur les principaux mots du dictionnaire pour ces deux textes (Annexe 4).
Les OSC accordent une importance particulière aux termes « emploi » ;
« politique » ; « action » ; « compétence » ; « chômeur » ; « soutenir » ;
« priorité » ; « économie » ; « investissement » ou « marché du travail »,
tandis que le PO accorde relativement peu de poids à ces termes, mais
en revanche, et contrairement aux OSC, en accorde aux termes suivants :
« entreprise » ; « salarié » ; « sécuriser » ; « trajectoire » « qualification »
ou « dispositif » (nous laissons de côté la VAE ou l’alternance que nous
avons déjà évoquée). Deux extraits de chacun des textes illustrent bien ce
qui est en question : « Il convient de les accompagner [les entreprises] dans
toutes les démarches qui visent à faire de la formation un investissement
stratégique pour le développement de leur capital humain et mieux prendre
en compte toutes les catégories de salariés, notamment les moins qualifiés
et les plus exposés à des risques de perte d’emploi ou dont l’employabilité
est faible, dans une perspective d’accompagnement et de sécurisation des
trajectoires professionnelles ». Programme opérationnel
« Ces institutions [responsables du marché du travail] doivent jouer un
rôle pivot dans la mise en œuvre des politiques d’activation du marché du
travail et dans la prestation de services personnalisés visant à promouvoir
la mobilité professionnelle et géographique et à mettre en rapport offre et
demande de travail, y compris au niveau local. Elles doivent contribuer à

anticiper les pénuries et les goulets d’étranglement sur le marché du travail et
l’évolution des exigences professionnelles et des compétences requises ».
Orientations stratégiques communautaires
Le contraste entre les termes mis en avant par l’analyse factorielle

renvoie donc à des passages qui jouent sur la polysémie du terme formation,
tantôt comprise comme un vecteur de protection sociale contre les risques
du chômage et de l’exclusion, tantôt comme une réponse aux besoins de
l’économie. Le PO et les OSC traitent de la formation sous ses deux aspects,
mais le PO met davantage l’accent sur la prévention des risques liés au
chômage que sur la mobilité professionnelle et les réformes du marché du
travail. Ce point n’a pas échappé au Conseil européen qui a formulé en 2008
une recommandation à la France concernant la mise en œuvre de sa politique
d’emploi. Cette recommandation émise au regard des objectifs fixés par la
stratégie de Lisbonne a précisément porté sur le plan de réforme national
publié par la France en 2007. Dans ce texte, le Conseil recommande à la
France de développer une stratégie de réforme du marché du travail axée,
d’une part, sur la sécurisation des parcours par la formation tout au long
de la vie, et axée d’autre part, sur une modernisation des mécanismes de
protection contre le risque du chômage32. Notons que ces recommandations
sont émises à peine trois ans après le rejet avec une nette majorité de
Français (55 %) du traité établissant une constitution pour l’Europe et que
ce rejet est intervenu suite à une intense campagne d’opposition au traité,
menée sur le thème de la perte de la souveraineté nationale et des risques
qu’une Europe libérale ferait courir au modèle social national33 ; notons
également qu’elles sont émises au lendemain de la signature de l’accord
national interprofessionnel de janvier 2008 sur la modernisation du marché
du travail. Si celui-ci a bien traité de la flexicurité, celle-ci a été présentée
comme une flexicurité à la française prioritairement axée sur la sécurisation
des parcours. La réaction de la CGT, notamment, qui s’est félicitée que
l’accord évitait les risques d’une flexicurité à l’européenne dénote bien nous
semble-t-il ce qui se joue sur le plan de la politique de formation et de
l’emploi, et plus globalement des logiques d’organisation de la protection
sociale, dans les écarts que nous constatons sur un plan sémantique entre
le PO et les OSC. Certes le consensus apparent des partenaires sociaux
32. Programme national de réforme français – 2008-2010, p. 62 online : http://www.sgae.gouv.

fr/webdav/site/sgae/shared/03_Autorites_FR_et_UE/Autres-positions/EU2020/PNR_2008_2010_
France.pdf (consulté le 27 octobre 2014) ; Recommandation du conseil du 14 mai 2008 concernant
les grandes orientations des politiques économiques des États membres et de la Communauté (2008-
2010) – (2008/390/CE) http://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri=CELEX:32008H039
0&from=FR (consulté le 27 octobre 2014).
33. FOUGIER E., « Le « non » français à la Constitution européenne – Référendum du 29 mai 2005 :
radiographie d’un rejet », in Futuribles, n° 318, avril 2006, p. 31-45.
autour de l’ANI ne doit pas masquer les divergences de lecture que les
organisations syndicales françaises ont de la sécurisation des parcours et
des modalités de sa mise en œuvre34 ; de la même façon, les « principes
communs de flexicurité » adoptés en 2005 par le Conseil européen ne
doivent pas masquer les différences entre les modèles nationaux – pour
autant, la position française sur la flexicurité témoigne bien sur ce sujet des
tensions cognitives sous-jacentes au processus d’européanisation35.
Conclusion
Les approches cognitives des politiques multiniveaux proposent une analyse

des politiques non exclusivement centrées sur l’intérêt des acteurs et en
mesure de prendre en compte les idées, les normes ou les valeurs des parties
prenantes. Les limites des théories de la rationalité centrées sur l’intérêt
des acteurs sont aujourd’hui bien documentées et l’enjeu pour les sciences
sociales et la sociologie politique en particulier est de parvenir à proposer un
modèle scientifique capable d’intégrer une dimension cognitive. Nous avons
essayé de montrer à partir de la politique européenne de la formation tout au
long de la vie que la LSA couplée avec une analyse statistique multiniveau
offrait l’exemple d’un tel modèle. Le recours à cette méthodologie présente
plusieurs intérêts pour l’analyse des politiques multiniveaux : elle objective
la convergence cognitive qui sous-tend la politique à ses différents niveaux ;
elle permet de décrire et d’expliquer les divergences qui caractérisent les
politiques aux différents niveaux ; elle donne une base empirique à une
réflexion plus générale sur les référentiels globaux des politiques. Ce faisant,
cette approche met l’hypothèse centrale d’une structuration cognitive des
politiques multiniveaux à l’épreuve des données textuelles.
34. GRIMAULT S., « Sécurisation des parcours professionnels et flexicurité : analyse comparative des
positions syndicales », in Travail et emploi, n° 113, janvier-mars 2008, p. 75-89.
35. CAUNE H., « Les États providence sont aussi des États membres. Comparaison des logiques
nationales de l’européanisation des politiques de l’emploi en France et au Portugal », Thèse de doctorat,
IEP Paris, 2013.
Annexes
Annexe 1
Présentation du corpus analysé :
  Nombre Nombre Nombre Nombre de Moyenne

de mots d’occurrences moyen valeurs séman des valeurs
différents d’occurrences tiques calculées sémantiques
par mot par LSA
OSC 188 686 3,65 256 0,296
CRSN 157 437 2,78 256 0,110
PO 106 254 2,40 256 0,188
Total 451 1 377 3,05 768 0,198
Le nombre de valeurs sémantiques est supérieur au nombre de mots du corpus

parce que des mots peuvent avoir une valeur sémantique dans un texte où ils sont
littéralement absents.
Annexe 2
L’ACP a été mise en œuvre sur les 256 termes du dictionnaire dont les valeurs
calculées avec la LSA ont été centrées et réduites. Le premier axe dégagé par l’ACP
explique 74,7 % de la variance totale des valeurs sémantiques du corpus.
Résultats de l’ACP
Composante Valeurs propres initiales

Total % de la variance % cumulés
1 ,003 74,681 74,681
2 ,001 21,937 96,617
3 ,000 3,383 100,000
Nous avons retenu pour la classification ascendante hiérarchique (CAH)

les termes dont la contribution à l’axe était plus forte en valeur absolue que la
contribution moyenne de l’ensemble des termes à l’axe. La CAH a mobilisé la
méthode d’agrégation de Ward, et la distance entre les observations a été mesurée
par le carré de la distance euclidienne afin de mettre en exergue les valeurs ayant
une forte contribution. Nous retenons de la CAH une classification en 5 classes qui
expliquent 78,8 % de la somme totale des carrés.
Poids sémantique, fréquence et classe des principaux termes du dictionnaire
Valeurs sémantiques des termes par textes du Fréquence

corpus d'apparition du mot Contribution
Termes du Classification
(nbre d'occurrences du au 1er facteur
dictionnaire par CAH
Cadre mot / occurrences de l'ACP
Orientations
strategique PO_France totales (1377))
EU
France
formation 0,20 0,26 1,6% 8,72 1
developper 0,19 0,12 0,17 0,7% 5,21 2
entreprise 0,11 0,09 0,25 0,8% 4,98 2
salarie 0,09 0,06 0,14 1,7% 2,83 2
ameliorer 0,12 0,04 0,12 0,9% 2,61 2
acceder 0,10 0,04 0,10 0,9% 2,18 2
action 0,17 0,06 0,03 1,9% 2,14 3
competence 0,11 0,04 0,04 0,7% 1,61 3
chômeur 0,11 0,06 0,02 0,9% 1,56 3
soutenir 0,10 0,04 0,04 1,2% 1,52 3
Region 0,09 0,03 0,06 1,3% 1,34 3
priorite 0,11 0,04 0,01 0,9% 1,21 3
marche du travai 0,18 0,02 0,00 3,1% 1,17 3
objectif 0,10 0,01 0,07 0,7% 1,12 3
economie 0,13 0,01 0,03 1,2% 0,99 3
Etat 0,14 0,00 0,04 1,1% 0,99 3
adaptation 0,09 0,04 0,00 3,0% 0,91 3
renforcer 0,12 0,02 0,01 3,0% 0,86 3
education 0,14 0,01 0,01 1,2% 0,82 3
investissement 0,14 0,00 0,02 0,0% 0,73 3
emploi 0,29 0,08 0,09 4,9% 4,2 4
politique 0,25 0,02 0,01 1,0% 1,91 4
trajectoire 0,02 0,06 0,10 0,0% 1,78 5
qualifier 0,02 0,03 0,10 0,7% 1,34 5
FSE 0,02 0,02 0,11 1,1% 1,25 5
tout au long de l 0,06 0,03 0,07 0,8% 1,21 5
travail 0,08 0,04 0,03 0,7% 1,21 5
contribuer 0,04 0,06 0,03 1,3% 1,17 5
Alternance 0,02 0,03 0,08 0,7% 1,08 5
territoire 0,02 0,04 0,06 1,2% 1,03 5
acteur 0,03 0,04 0,04 0,9% 0,99 5
VAE 0,00 0,02 0,10 1,9% 0,94 5
orientation 0,06 0,01 0,08 0,0% 0,9 5
besoin 0,06 0,02 0,06 1,1% 0,86 5
individualisation 0,03 0,04 0,03 1,0% 0,86 5
securiser 0,01 0,03 0,07 1,2% 0,86 5
la qualite 0,06 0,03 0,03 0,0% 0,82 5
les jeunes 0,02 0,03 0,06 1,0% 0,81 5
dispositif 0,01 0,03 0,06 0,0% 0,73 5
augmenter 0,06 0,03 0,02 1,9% 0,68 5
accompagner 0,03 0,03 0,03 0,7% 0,64 5
nouveaute 0,03 0,03 0,03 1,2% 0,64 5
Annexe 3 : ACP sur les termes des OSC et du PO
L’ACP a porté sur les 42 termes du dictionnaire les plus importants pour les seuls
OSC et PO
1er facteur 2e facteur 1er facteur 2e facteur

(59,4 %) (40,59 %) (59,4 %) (40,59 %)
formation 4,35 0,503 soutenir –0,262 1,109
entreprise 2,485 2,115 priorité –0,334 –0,704
salarie 2,207 –1,639 éducation –0,342 0,38
développer 2,169 0,276 acteur –0,363 –0,945
accéder 0,975 0,393 adaptation –0,469 –0,839
chômeur 0,948 –2,256 contribuer –0,477 1,324
améliorer 0,919 0,987 orientation –0,481 0,241
action 0,502 0,344 renforcer –0,532 –0,246
compétence 0,338 –1,117 trajectoire –0,536 0,835
tout au long de 0,254 –0,763 besoin –0,75 –0,027
la vie
politique 0,098 –0,059 individualisation –0,776 0,814
investissement 0,052 –1,622 la qualité –0,805 0,566
travail 0,011 –0,789 qualifier –0,805 0,566
les jeunes –0,01 –1,029 Alternance –0,818 –0,751
Région –0,069 –0,439 FSE –0,834 0,325
État –0,132 1,239 emploi –0,859 0,081
sécuriser –0,144 –1,163 augmenter –0,881 –0,158
objectif –0,153 –0,086 dispositif –0,914 0,675
marche du –0,175 –0,333 accompagner –0,969 0,19
travail
territoire –0,211 0,511 nouveauté –0,969 0,19
économie –0,262 1,109 VAE –0,969 0,19
Les résultats de l’ACP montrent les termes qui contribuent le plus fortement à
l’éloignement sémantique entre les OSC et le PO.
Il apparaît que l’éloignement sémantique témoigne d’une différence significative

entre la conception des politiques de formation professionnelle promues par les
OSC ou le PO. Là où les OSC déploient une vision plutôt libérale des politiques
d’emploi axées sur le développement économique par l’investissement dans les
compétences et la réforme du marché du travail, le PO en propose une lecture
plus sociale-libérale qui met davantage l’accent sur la sécurisation des trajectoires
professionnelles des salariés et les enjeux d’accès à la formation.
Annexe 4 : contextualisation des verbes du 2e groupe de l’ACP

Apport de L'analyse Sémantique Latente À L'analyse Des Politiques Publiques

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apport de L'analyse Sémantique Latente À L'analyse Des Politiques Publiques

Transféré par

Droits d'auteur :

Formats disponibles

Revue Internationale de Politique Comparée, Vol.

L’apport de l’analyse sémantique latente à

Les politiques de formation sont engagées dans un processus de décentra­

infranationaux et les impératifs nationaux ou internationaux d’efficacité

Dans la perspective des approches en politique comparée internationale

4. PETERS B.G., PIERRE J., « Multi-Level Governance and Democracy: A Faustian Bargain ? »

politiques publiques sont constituées au carrefour d’un référentiel global,

Sur un plan méthodologique les sciences politiques ont majoritairement

Nous proposons dans cet article de montrer que l’analyse sémantique

13. Communication de la Commission – Une politique de cohésion pour soutenir la croissance et

Présentation des textes analysés

Les OSC ont été présentées par une communication de la Commission

un développement économique fondé sur la connaissance, l’innovation

La formation tout au long de la vie y apparaît comme un levier essentiel

Le cadre de référence stratégique national (CRSN) 2007-2013 est un texte

les chambres consulaires ainsi que la Commission européenne elle-même.

La formation professionnelle continue est présentée dans ces textes

Le dernier texte que nous analyserons est le PO « objectif Compétitivité

• Contribuer à l’adaptation des travailleurs et des entreprises aux mutations

Seul le troisième axe ne comporte pas de mesures ou de sous-mesures

La méthodologie, employée pour analyser ces trois textes, procède en quatre

Procéder à une analyse sémantique latente (LSA)

psychologie ou en traitement d’information textuelle. Elle a notamment été

La matrice approchée (X’) comporte ainsi la valeur de chacun des mots

Bien que le terme « formation » n’apparaisse pas dans la seconde phrase,

Pour autant la LSA présente plusieurs limites. La première concerne

20. REHDER B., SCHREINER M., WOLFE M., LAHAM D., LANDAUER T., KINTSCH W., « Using

latente d’un texte qui traiterait de la formation des géologues spécialistes de

Analyser la similarité des textes

simpearson(d1 ; d2) = simcosinus(d1 – d1 ; d2 – d2)

où d1 et d2 représentent la moyenne de d1 et d2.24

Le coefficient de corrélation appliquée aux données textuelles produites

L’indice de Dice quant à lui, se base sur le nombre de termes communs

où Nc est le nombre de termes communs à d1 et d2, et N1 est le nombre de

Décrire l’organisation du corpus par classification des textes

Le processus de production et de validation des textes ainsi que leurs

Estimer un effet multiniveau sur la sémantique latente des textes

Présentation des résultats

Les Orientations stratégiques communautaires 2007-2013 (OSC), le cadre

supprimés de l’analyse. Le corpus analysé comporte finalement 451 mots

Analyser la similarité des textes

La matrice de corrélation obtenue sur les valeurs produites à l’aide de la

Tableau 1 : Tableau croisé des corrélations de Pearson

Tableau 2 : Calcul de l’indice de Dice par paire de textes

L’indice reste en effet relativement faible même lorsque la corrélation

Décrire l’organisation du corpus par classification des textes

du dictionnaire qui contribuent le plus fortement au premier axe factoriel.

Estimer un effet multiniveau sur la sémantique latente des textes

Tableau 3 : Résultats de l’ANOVA28

L’analyse de variance permet de vérifier l’hypothèse 1 selon laquelle

Tableau 4 : Moyennes des valeurs sémantiques par texte

Il est clair que les OSC ont un poids sémantique particulièrement

Tableau 5 : Résultats du test de Tukey

Pour autant à ce stade la question demeure de savoir si les valeurs

dans le modèle comme des variables explicatives, celles du PO comme les

Tableau 6 : Résultats du modèle mixte

Ces derniers résultats vérifient donc l’hypothèse 2 selon laquelle le poids

Intérêts de la LSA pour l’analyse des politiques

Au regard des résultats présentés l’analyse cognitive a trois intérêts à recourir

Le deuxième intérêt de la LSA est de souligner les points de divergence

30. ZIMMERMANN B., « Logiques de compétences et dialogue social », in Travail et emploi, n° 84,

le FSE a été mobilisé. Ainsi le CRSN et le PO renvoient en dernière instance

été mobilisé pour soutenir le service public de l’emploi dans sa mission

Les politiques de formation sont engagées dans un processus de décentra

4. PETERS B.G., PIERRE J., « Multi-Level Governance and Democracy: A Faustian Bargain ? »

13. Communication de la Commission – Une politique de cohésion pour soutenir la croissance et

Le dernier texte que nous analyserons est le PO « objectif Compétitivité

Bien que le terme « formation » n’apparaisse pas dans la seconde phrase,

20. REHDER B., SCHREINER M., WOLFE M., LAHAM D., LANDAUER T., KINTSCH W., « Using

Les Orientations stratégiques communautaires 2007-2013 (OSC), le cadre

supprimés de l’analyse. Le corpus analysé comporte finalement 451 mots

Tableau 1 : Tableau croisé des corrélations de Pearson

Tableau 2 : Calcul de l’indice de Dice par paire de textes

Tableau 3 : Résultats de l’ANOVA28

L’analyse de variance permet de vérifier l’hypothèse 1 selon laquelle

Tableau 4 : Moyennes des valeurs sémantiques par texte

Tableau 5 : Résultats du test de Tukey

Tableau 6 : Résultats du modèle mixte

Ces derniers résultats vérifient donc l’hypothèse 2 selon laquelle le poids

30. ZIMMERMANN B., « Logiques de compétences et dialogue social », in Travail et emploi, n° 84,

32. Programme national de réforme français – 2008-2010, p. 62 online : http://www.sgae.gouv.

Présentation du corpus analysé :

  Nombre Nombre Nombre Nombre de Moyenne

Poids sémantique, fréquence et classe des principaux termes du dictionnaire

Annexe 3 : ACP sur les termes des OSC et du PO

1er facteur 2e facteur 1er facteur 2e facteur

Annexe 4 : contextualisation des verbes du 2e groupe de l’ACP