Vous êtes sur la page 1sur 33

QuentinTAILLEFER

P1044490

Travailderecherche:
Sujet:levotepourlesextrmes

METHODESQUANTITATIVESDANALYSE
POL2809

Remettre:EricGuntermann
14dcembre2015

RemerciementMarieVachelard
Le Travail de recherche suivant est en corrlation avec le cours de mthodes quantitatives
danalyse suivie lhiver 2015. Lobjectif de ce travail est de raliser une recherche sur un sujet
politique, en utilisant les mthodes quantitatives tudier tout au long de la session, telle que la
rgression logistique ou linaire (en utilisant le logiciel R studio). La mthode de ltude devra
suivre la dmarche de recherche empirique, dveloppe par Ptry et Glineau dans le chapitre 1 de
leur ouvrage Guide pratique : dintroduction la rgression en sciences sociales . Cest--dire
quil nous faut suivre les six tapes suivantes, formuler un problme, construire un cadre
opratoire, structurer la preuve et par la suite cueillir des donnes (ici nous avons choisi la base
donne proposer par le professeur) pour finalement analyser les donnes est interprter les
rsultats. Dans un souci defficacit, le sujet devras suivre un modle dans lequel l'esprance
conditionnelle de Y sachant X est une transformation affine de X ou bien un model o un vecteur
de variables alatoires fait effet sur une variable alatoire binomiale :
Depuis une trentaine dannes, un peu partout en Europe, les extrmes droites ont le vent
en poupe , Les droites extrmes Europe, seuil, paris. Cette constatation faite par Jean Yves Camus
politologue reconnue est lorigine de notre tude. Effectivement ce constat, est observable depuis
les trois dernires dcennies avec une croissance de la reprsentativit pour lextrme droite de 90
siges sur 750 au parlement europen ainsi que lapparition de partie tel que lAube dore en
Grce ou bien le NPD en Allemagne. Au vu de lavancer de ces parties dextrmes droites qui
vhicule des idaux deuroscepticisme, de nationalisme et de souverainisme en Europe. Nous
avons voulu dvelopper notre tude sur ce sujet trs prsent sur la scne mdiatique et politique,
puisquil inquite la sphre politique qui fait face une radicalisation des parties. La recherche
que nous allons effectuer se concentrera sur le vote pour les partis extrmes en France. Notre
choix a t vritablement influenc par la situation en France, puisque la suite du Premier tous
des lections rgionales Franaise le dimanche 6 dcembre 2015, le parti dextrme droite (FN)
cest retrouv en tte de six rgions. La base de donnes, que nous utiliserons pour le projet est
base sur la seconde partie dun sondage sur les lections et la dmocratie en France, la veille
des lections lgislatives de 2012 (base de donnes : France2012.dta). La recherche que nous
allons faire sur le sujet a pour but dobserver linfluence du niveau de revenu et dducation des
rpondants quant leurs choix de vote. Ici la variable dpendante (qualitative) de notre recherche
est le vote et nos variables indpendantes sont le revenu annuel brut des mnages avant impts

ainsi que le niveau dducation le plus haut, complter par le rpondant. Le fondement scientifique
de notre recherche se base sur la revue douvrage scientifique telle que revue franaise de
sciences politiques : les hauts et les bas du vote Le Pen, Nonna Mayer, 2002/5 au sain du quelle
est thoriser des ides comme Le Pen russit toujours mieux chez les moins diplms p 4 ainsi
qu Il slve en raison inverse du revenu et du nombre dlments de patrimoine mobilier ou
immobiliers possds, ainsi que chez les chmeurs et les salaris sous CDD (20 et 22 %) p 4
mai nous observerons cela dans la partie concernant la revue de la littrature. Les lments que
nous venons dexposer concernant la vision de notre recherche nous amnent poser la
problmatique suivante pour guider notre recherche. Dans ltude politique suivante, nous
chercherons laide de mthodes quantitatives savoir, si les rpondants de notre base de donnes
ayant un niveau dducation faible et/ou niveau de revenus faible votent plus ou moins pour
les partis dextrme droite ? Pour procder lanalyse suivante qui a pour unit dAnalyse les
citoyens Francais, nous partirons de lhypothse de base suivante. Les rpondants ayant un niveau
dducation plus faible Tende voter pour des parties dextrmes droites, la recherche nous
amnera valider ou rfuter le modle. Dans un premier temps il nous faudra faire une brve
revue de la littrature scientifique soutenant notre modle. Par la suite nous allons prsenter les
diffrentes mthodes de lanalyse quantitative que nous avons utilise ainsi que les donnes
employes. Les deux sections concernant ltude, servirons as prsenter les rsultats pour ensuite
interprtez et expliqu la signification de ces derniers. Pour finir, nous mentionnerons les limites
de ltude.

Lun des fondements scientifiques nous permet de soutenir notre hypothse de dparts,
selon laquelle les rpondants ayant un niveau dducation plus faible tendent voter pour des
partis dextrme droite. Est issu du journal lexpress. En effet, larticle de lexpress datant du trois
avril 2012 est rdig par Yann Duvert, celui-ci est une explication du sociologue Sylvain Crpon
au sondage de lIFOP (institut franais dopinion publique) qui affirme que lintention de vote
pour Marine Le Pen au premier tour des lections prsidentielles est de 23% chez les jeunes de 1822 ans. La rponse donne par ce sociologue, concernant les motifs de cette population de jeune
votant FN, quil qualifie comme ayant le moins dinstruction ce sont les jeunes ayant le moins
d'instruction qui se tournent vers le Front national. . Sexpliquent par la figure moderne que
reprsente Marine Le Pen, ainsi que le vote transgressif et le rejet de la politique chez ces jeunes.
Il va mme jusqu' dire Moins on est instruit, plus on vote FN . Le deuxime article qui vient
soutenir notre questionnement est louvrage de Nonna Mayer selon lequel, les sympathisants du
3

Front national qui est un parti dextrme droite fond en 1972 sont moins diplms et que suivant
leurs situations financires (emploi) influence leurs votes. Ces fondements nous ont amens faire
une recherche utilisant des mthodes quantitatives, pour rfuter ou non les auteurs suivants.
1- Mthode et donnes employes :

Cette section concerne les mthodes et les donnes employes au cours de notre tude,
nous dbuterons celle-ci par faire une courte introduction au logiciel Rstudio. Par la suite nous
dfinirons lensemble de notre base de donnes, de nos variables (dpendante, indpendante,
qualitative, quantitative) et pour finir la mthode utilise. Par la suite nous verrons la construction
de notre projet et son volution qui est ici divis en 4 modles. Effectivement, ici nous avons
dvelopp quatre modles, car nous avons fait face des problmes de reprsentativit dans notre
variable dpendante (Y) choisie. Nous expliquerons par la suite ces problmes et lvolution vers
laquelle nous avons men notre recherche.
A-

Logiciel Rstudio :

Rstudio, est un programme utilis pour le traitement de donnes et


danalyse

statistique.

Celui-ci

crit

grce

un

langage

de

programmation C++ et volue sur un environnement de dveloppement


multiplateforme qui est libre. Le fait quil soit libre dsigne lide que les
personnes utilisant ce dernier ont la possibilit de crer eux mme une
formule pouvant tre effectue sur le logiciel. Nous utilisons le langage de
programmation R, qui nous a t donn au cours de POL 2809 LUniversit
de Montral.
B- La base de donnes :
La base de donnes suivante est issue dun projet de recherche sur les
lections et la dmocratie, elle est issue dun sondage sous forme de
questionnaire. Les seules informations prcises que nous avons au sujet de la
population est le faite que les citoyens tudier ont plus de 18 ans, sont tous
de nationalit franaise et sont tous rsidents en France. La mthode utilise

pour lchantillonnage semble tre de formes alatoires simples cest--dire le


choix au hasard des individus dune population. Cette mthode est
reprsentative, mais peut tre trs longue suivant la taille de la population. Ici
la base de donnes, se prsente sous la forme de tableaux avec les units
dans les ranges et les variables dans les colonnes. Elle est compose de 339
variables est de 1949 observations :
n = 1949
q = 339
prsent, nous allons observer les diffrentes manipulations quil faut apporter
la base de donnes pour pouvoir tudier, celle-ci est faire notre rgression linaire
multiple par la suite :
La premire des choses que nous devons faire lorsque nous tudions une
base de donnes de la sorte avec un nombre de variables q trs lev, est de
garder seulement les variables au quelle notre tude porte de lintrt. Ici
nous avons gard environ une quinzaine de variables (prsenter dans la
suite). Pour enlever les variables au quelle on porte un faible intrt nous
avons effectu la syntaxe suivante.
Syntaxe :
# take the variables of interest

newdata <- select(data, AGE, female, townsize, income, education,


turnout_1, turnout_2, partychoice_1, partychoice_2, SD4, Q2, Q3B,
Q6A1, Q6B1, Q8A)

newdata<-data.frame(newdata)

La deuxime des actions que nous allons effectuer au sain de la base de


donnes, est de renommer les variables qui ont une forme qui ne convient pas
a dvelopp une tude comprhensive et soigne :
Syntaxe :
5

Pour les variables indpendante :


names(newdata)[names(newdata)=="AGE"] <- "age"
names(newdata)[names(newdata)=="female"] <- "sexe"
names(newdata)[names(newdata)=="SD4"] <- "educ_level"
names(newdata)[names(newdata)=="Q2"] <- "pol_int"
names(newdata)[names(newdata)=="Q3B"] <- "partie_pol"
names(newdata)[names(newdata)=="Q6A1"] <- "vote_pres_1"
names(newdata)[names(newdata)=="Q6B1"] <- "vote_pres_2"
names(newdata)[names(newdata)=="Q8A"] <- "partie_vote_next"

Pour les variables dpendantes (pour les 4 modle, une variable


dpendante par modle) :
names(newdata)[names(newdata)=="vote_pres_1"] <- "Y_1"
names(newdata)[names(newdata)=="partie_vote_next"] <- "Y_2"
names(newdata)[names(newdata)=="Y"] <- "Y_3"
names(newdata)[names(newdata)=="Y_bis"] <- "Y_4"
Pour

faire

que

notre

rgression

linaire

multiple

soit

effectue

correctement il nous faut prsent, convertir nos vecteurs numriques de la


forme facteur la forme caractre pour cela nous effectuons la syntaxe
suivante :
Syntaxe :
#factor to character
newdata$educ_level<-as.character(newdata$educ_level)
newdata$pol_int<-as.character(newdata$pol_int)
newdata$partie_pol<-as.character(newdata$partie_pol)
newdata$vote_pres_1<-as.character(newdata$vote_pres_1)
newdata$vote_pres_2<-as.character(newdata$vote_pres_2)
newdata$partie_vote_next<-as.character(newdata$partie_vote_next)
Nous verrons dans la section concernant les variables, la mthode de dummy que nous
avons appliques certaines variables dans un souci de facilit ltude et de ce concentrer sur
lintrt de notre recherche. Ici, la seule critique que nous pouvons faire la base de donnes
rcuprer sur studium est la syntaxe des valeurs concernant les variables quantitatives. En effet, la
syntaxe adopte dans ces valeurs comporte des caractres spciaux (le chmage). Laccent
circonflexe est un caractre spcial qui va tre lorigine dun message derreur. Notre rsolution
a t dexporter la base de donne dans un fichier Excel pour pouvoir modifier les erreurs de

syntaxe et importer de nouveau le fichier en forme CSV et non DTA.


La dernire des actions que nous avons effectues pour amliorer notre base de donnes est de
supprimer les valeurs manquantes (NA) :
Syntaxe :
newdata[is.na(newdata)]<-0

c- Les variables :
Pour notre recherche nous avons dfini au pralable trois variables, 2
variables

indpendantes

Education

et

revenus

ainsi

que

variables

dpendantes qui est le vote. Ici nous verrons, les diffrentes statistiques
descriptives simples de celle-ci et nous distinguerons les variables qualitatives
ds variables quantitatives. Il faut bien not que nous avons ajout de
nombreuse variables contrle, car la reprsentativit de notre modle est
incertaine et le fait dajouter celle-ci nous permet de contrler les variables du
modle. Aprs avoir observ les diffrentes statistiques descriptives, nous
expliquerons la fonction dummy ainsi que sa pertinence dans notre tude.
1- les diffrentes statistiques simples en distinguant les variables
quantitatives et les variables qualitatives :
-

variables indpendantes :

Quantitative :
-

age : en annes

incom : annuel brut du mnage avant impts (in_1 = faible,

in_10= lev, 0 tant la rfrence).


Qualitative :
-

sexe : 0 pour homme/1 pour femme

Education : avec 1 pour rfrence, ed_2 = faible, ed_9 = lev

Townsize : Big =4 , small =1

Les variables suivantes sont des variables indpendantes qualitatives


concernant limportance de certaines politiques intrieures :
-

Imm : importance de limmigration (1 if rest )

Sec : importance de la scurit (1 if rest)

Chom : importance du chomage (1 if rest)

Tableau 1 : variables quantitatives :


Nous avons utilis une procdure de S.A.S afin davoir une statistique descriptive (moyenne,
variance, cart-type etc...), des variables quantitatives.
Variable
Age

N
1949

Moyenne
46,03

mdiane
47

Minimum
18

Maximum
82

1758

3,91

11

in
com

Graphique : en boite moustache

Age :

80
20

30

40

50

60

70

Ici nous pouvons observer la dispersion de la variable


ge, avec en abscisse lge en anne. Les valeurs reprsentes
sont la valeur maximale (82) ainsi que la valeur minimale
(18). Lobservation gnrale qui peut tre faite est que le
corps de la boite a moustache est grand donc ont est face a des
valeurs du milieu qui sont htrogne. Ltendue de la
moustache tant grand nous sommes face une population trs
disperse.

10

Income :

Ici, nous pouvons observer le revenu, avec en


abscisse le revenu annuel brut du mnage avant
impt. premier vu lon peut observer que le centre
de lchantillon est vers la partie infrieure de la
moustache. En effet nous observons une moyenne de
3,91 avec une valeur maximale de 9 et une valeur
minimale de 1. Les trois ronds en haut de notre boite
reprsentent des valeurs exognes non prises en
compte dans notre systme. Le corps de la boite a
moustache tant petit nous pouvons en conclure que
les valeurs du milieu sont homogne et la grandeur
de la moustache montre que les valeurs sont
moyennement disperses.

Tableau 2 : variables qualitatives :

Nous avons utilis une procdure de S.A.S afin davoir une statistique descriptive, des la variables
qualitatives.

variables
sexe
0 = femme
1= homme
Education
2= faible
9= lev
townsize
1= small
4= big
Imm
Sec
chom

Frquence

pourcentage

917
1032

47,05
52,95

33
33

1,69
1,69

661
62
211
139
412

34.00
10.24
10,83
7,13
21,14

* la remarque que lon peut faire ici est que la frquence de la variable
ducation choisi est faible, ce qui peut entrainer un problme de
reprsentativit dans notre modle.
-

variables dpendantes :
Pour notre tude nous avons observ des modles avec plusieurs
variables dpendantes. En effet au cours de notre recherche nous avons
rencontr un problme de reprsentativit par rapport la variable
dpendante choisie pour le modle 1, modle 2, modle 3 ce qui nous a
amen a dvelopper 4 modles pour trouver une certaine significativit
dans nos variables indpendantes. Nous dvelopperons cela lorsque
nous verrons chaque modle, pour le moment observons les diffrentes
statistiques simples de nos variables Y.

P -

Qualitative :

Modle 1
Y_1 = correspond la question Q6A1 : pour quel candidat avez-vous

10

vot au premier tour des lections prsidentielles.


-

Marine Le Pen prend la valeur 1 et le reste 0 (1= 290 /0= 1659)

Modle2
Y_2 = correspond la question Q8A : si vous votez pour le candidat de
quel parti allez-vous voter. (Lgislative)
-

Front national prend la valeur 1 et le reste 0 (1= 300, 0=1649)

Modle3
Y_3= correspond la question Q8B : pour le candidat de quel parti avezvous le plus de chance de voter (lgislative)
-

Front national prend la valeur 1 et le reste 0 (1= 9, 0= 1940)

Modle4
Y_4= correspond la question 30A : o vous situeriez vous sur une
chelle de 0 10, 0 tant lextrme gauche et 10 tant lextrme droite.
-

[10 ; 7[prend la valeur 1 et le reste 0 (1 = 348, 0= 1601)

Tableau 3 : variables qualitatives dpendante :


Variable
Y_1
1
0
Y_2
1
0
Y_3
1
0
Y_4
1
0

Frquence

Pourcentage (%)

290
1659

14,8 %
85,12 %

300
1649

15,39 %
84,60 %

9
1940

0,46 %
99,53 %

348
1601

17,8 %
82,14 %

Commentaire :
Le tableau suivant montrant les statistiques descriptives de nos diffrentes
variables dpendantes (qualitatives) peut expliquer les rsultats avec des

11

significativit faibles dans le modle 1, 2 et 3. En effet, lon observe que ces


trois modles ont une reprsentativit faible, car la variable choisie une
frquence faible respectivement 14,8 %/15,39 %/ 0,46 %. Tant dit que dans
notre modle final la variable tudie est reprsentative 17,8 %.
Pour simplifier et permettre dappliquer notre modle sur des variables
spcifiques, nous avons adopt des variables dummy, cest--dire que les
variables prennent prsent seulement deux valeurs possibles : 1 ou 0.
Contrairement un modle, gnralisez ou lon peut appliquer nimporte
quelle valeur notre variable.
Syntaxe dummy applique sur toutes les variables dpendantes, ainsi que les
variables : income, townsize, ducation et pol_int. :
imm<ifelse(newdata$pol_int=="L'immigration",1,0)
newdata["imm"]<-imm

2- Application de ltude :
P
P Ltude de notre projet de recherche est de montrer une relation entre le niveau dducation
ainsi que le revenue, avec le vote. Donc ont tudie, le modle : vote = +
P Daprs notre hypothse de dpart, lon sattend as une forte significativit du modle
suivant est que et est une valeur leve et donc montre que lvnement vote pour
lextrme droite est plus probable darriver dans ce cas. Nous observerons donc la
significativit de nos variables indpendante ainsi que les variables contrlent pour en
venir a rfut ou non ces dernires.

P A-

Modle de rgression (mthodologie) :

P Pour effectuer notre application des mthodes quantitatives, nous appliquons dans ltude,
une rgression logistique de modle Probit. Commenons par comprendre la rgression
logistique et son modle ainsi que les raisons qui nous ont pousss vers ce choix.
P La rgression logistique :

12

P Le choix de la rgression tant dpendant de la variable dpendante tudi, nous avons ici
choisi la rgression logistique, car nous tudions une variable qualitative. La rgression
logistique est un des modles multivariables couramment utilises en conomtrie avec la
rgression linaire multiple. Elle sutilise lorsque la variable expliquer (variable
dpendante Y) est qualitative, le plus souvent binaire. Les variables explicatives (variables
indpendantes Xi ) peuvent tre par contre soit qualitatives, soit quantitatives. La variable
dpendante est habituellement la survenue ou non dun vnement et les variables
indpendantes sont celles susceptibles dinfluencer la survenue de cet vnement.
P
P Modle Probit :
Le choix du modle probit cest fait d au fait que la variable
dpendante est binaire. En effet, les variables dpendantes des
diffrents modles prennent des valeurs 1 ou 0 (extrme droite o soit
autres). Le modle probit tant un modle binomial issu dun cas
particulier de rgression linaire gnralis. Il est introduit en 1934 par
Chester Bliss.

Modle 1 :
Y_1 =

0 + 1 age + 2 sexe +

3 big+ 4 smal + 5 I n1 + 6 I n10+ 7 e d2 + 8 e d 9 + 9 chom+ 10 sec+ 11 imm


Y_1 = la variable dpendante binomial qui prend les valeurs 1 si Marine Le Pen ou 0 si autre, Le
Nombre d'observations lues est de n=1949 qui est gal au Nombre d'observations utilises : 1949.
Il ny a donc pas dobservations manquantes.
Syntaxe de la rgression logistique de modle probit 1 :
summary(newdata$Y_1)
unique(newdata$Y_1)
MLP<-ifelse(newdata$Y_1=="Marine Le Pen",1,0) dummy
newdata["MLP"]<-MLP
probit1<-glm(MLP ~ age + sexe + big + smal + in_1 + in_10 + ed_2 + ed_9 + chom + sec + imm,
data = newdata, family = binomial(link="probit")) modle probit
summary(probit1) affiche les rsultats de la rgression

13

Tableau 4 : Rsultats de la rgression du modle 1


variables
(Intercept)
Age
Sexe
Big
Smal
in_1
in_10
ed_2
ed_9
Chom
Sec
imm

Estimate
-1.411605
0.002509
0.029771
0.063084
- 0.076984
0.205268
-0.434220
-0.063248
-0.264742
-0.087535
0.671844
1.233811

Std.error
0.139060
0.002553
0.074016
0.121423
0.081679
0.134653
0.439388
0.280215
0.334781
0.101883
0.125559
0.100343

Z value
-10.151
0.983
0.402
0.520
- 0.943
1.524
-0.988
-0.226
-0.791
-0.859
5.351
12.296

Pr(>|z|)
< 2e-16 ***
0.326
0.688
0,603
0.346
0.127
0.323
0.821
0.429
0.390
8.76e-08 ***
< 2e-16 ***

Infrence dans le modle 1 :


Nous allons Tester avec un risque de 10% lhypothse 0 : 1 = 2 = 3 = 4 = 5 .= 0 (Aucune
des variables explicatives na deffet. Tous les coefficients sont nuls, sauf la constante) contre
: 1 =0
2 =0
3 =0
4 =0
5 =0 (Il y a au moins une variable explicative qui a un effet
non nul).

Nombrede?=12(nombre de paramtres estims = 11 btas (nombre de


variables explicatives) + 1 constante = 12)
n=1949
q=11(nombre de contraintes)

Tester avec un risque de =10% la significationde chaque coefficient.


:
:

:
:

=0

variable

Pvalue

=0
significativit

14

Intercep
t

< 2e-16
***

< 0,1

Significatif

On ne rejette pas
niveau =10%

Age

0.326

> 0,1

Pas
Significatif

On rejette
=10%

au niveau

Sexe

0.688

> 0,1

Pas
Significatif

On rejette
=10%

au niveau

Big

0,603

> 0,1

Pas
Significatif

On rejette
=10%

au niveau

Smal

0.346

> 0,1

Pas
Significatif

On rejette
=10%

au niveau

In_1

0.127

> 0,1

Pas
Significatif

On rejette
=10%

au niveau

In_10

0.323

> 0,1

Pas
Significatif

On rejette
=10%

au niveau

Ed_2

0.821

> 0,1

Pas
Significatif

On rejette
=10%

au niveau

Ed_9

0.429

> 0,1

Pas
Significatif

On rejette
=10%

au niveau

chom

0.390

> 0,1

Pas
Significatif

On rejette
=10%

au niveau

Sec

8.76e-08
***

< 0,1

Significatif

On ne rejette pas
niveau =10%

au

imm

< 2e-16
***

< 0,1

Significatif

On ne rejette pas
niveau =10%

au

au

P -
Si les variables ont un p-value suprieure notre risque de premire espce, elles ne
sont pas statistiquement significatives. C'est--dire que la variable indpendante laquelle
ils correspondent n'a pas d'impact sur la variable dpendante dans ce modle. Aprs avoir
fix la probabilit de rejeter H0 quand H0 vrai 10%, nous avons pu trouver les variables
significatives et non significatives. A laide des prcdentes estimations, nous pouvons
alors prsenter les deux causalits suivantes :
(i) En moyenne, lorsque le rpondant choisi la politique intrieure
immigration comme tant la plus importante, lvnement vote extrme
droite est plus probable.

15

(ii) En moyenne, lorsque le rpondant choisi la politique intrieure


scurit comme tant la plus importante, lvnement vote extrme
droite est plus probable.
Lon peut alors remarquer dans se premier modle que lhypothse de base de la
recherche selon laquelle lducation et le revenue aurais une influence sur la probabilit de
lvnement vote extrme droite est rejet au niveau =10%. En effet lindicateur Pvalue qui reprsente la significativit est suprieur 0,1.

P Face ce rsultat, lon cherche savoir do proviennent de tels rsultats, ainsi


quune faible significativit sur les nombreuses variables indpendantes de contrle. Quels
lments faut-il changer pour amliorer notre modle ?
P Nous savons que la reprsentativit de la variable dpendante Y_1 est trs faible (voir
annexe, schmas1). En effet, dans la section sur les statistiques descriptives nous avons pu
observer que les rpondants la question Q6A1 ayant rpondu Marine Le Pen ont une
frquence de 290 sur une population totale n= 1949. Cette reprsentativit peut avoir un
effet sur notre modle.
P Pour amliorer le modle, nous dcidons de changer la variable Y_1, pour la variable Y_2 :
Correspondant la question Q8A : si vous votez pour le candidat
de quel parti allez-vous voter. (Lgislative)
P
P Suite changement de variable dpendante nous esprons avoir une plus grande cohrence
dans les rsultats ainsi que de voir apparatre une significativit dans notre hypothse de
base.

Modle 2 :
Y_2 =

0 + 1 age + 2 sexe +

3 big+ 4 smal + 5 I n1 + 6 I n10+ 7 e d2 + 8 e d 9 + 9 chom+ 10 sec+ 11 imm


Y_2 = la variable dpendante binomial qui prend les valeurs 1 si Front national et 0 autre,
Le Nombre d'observations lues est de n=1949 qui est gal au Nombre d'observations utilises :
1949. Il ny a donc pas dobservations manquantes.
Syntaxe de la rgression logistique de modle probit 2 :
summary(newdata$Y_2)
unique(newdata$Y_2)
16

dep_FN2<-ifelse(newdata$Y_2=="Rassemblement Bleu Marine (Front National)",1,0) dummy


newdata["dep_FN2"]<-dep_FN2
probit2<-glm(dep_FN2 ~ age + sexe + big + smal + in_1 + in_10 + ed_2 + ed_9 + chom + sec +
imm, data = newdata, family = binomial(link="probit")) modle probit
summary(probit2)affiche les rsultats de la rgression

Tableau 5 : Rsultats de la rgression du modle 2

variables
(Intercept)
Age
Sexe
Big
Smal
in_1
in_10
ed_2
ed_9
Chom
Sec
imm

Estimate
-1.2251944
-0.0003495
0.0031724
0.0825592
-0.1323294
-0.0357946
-0.1172214
0.1073637
-0.2615144
0.1607364
0.8094910
1.2769076

Std.error
0.1371699
0.0025495
0.0738825
0.1203650
0.0822063
0.1446524
0.3794605
0.2681877
0.3302422
0.1046276
0.1223224
0.1000207

Z value
-8.932
-0.137
0.043
0.686
-1.610
-0.247
-0.309
0.400
-0.792
-1.536
6.618
12.766

Pr(>|z|)
< 2e-16 ***
0.891
0.966
0.493
0.107
0.805
0.757
0.689
0.428
0.124
3.65e-11 ***
< 2e-16 **

Infrence dans le modle 2 :


Nous allons Tester avec un risque de 10% lhypothse 0 : 1 = 2 = 3 = 4 = 5 .= 0 (Aucune
des variables explicatives na deffet. Tous les coefficients sont nuls, sauf la constante) contre
: 1 =0
2 =0
3 =0
4 =0
5 =0 (Il y a au moins une variable explicative qui a un effet
non nul).

Nombrede?=12(nombre de paramtres estims = 11 btas (nombre de


variables explicatives) + 1 constante = 12)
n=1949
q=11(nombre de contraintes)

Tester avec un risque de =10% la significationde chaque coefficient.

17

:
:

:
:

=0

=0

variable

Pvalue

Intercep
t

< 2e-16
***

<

Age

0.891

Sexe

0.966

Big

0.493

significativit

0,1

Significatif

On ne rejette pas
niveau =10%

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

au

Smal

0.107

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

In_1

0.805

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

In_10

0.757

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

Ed_2

0.689

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

Ed_9

0.428

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

chom

0.124

>

0,1

Pas >
Significatif

On rejette
=10%

au niveau

Sec

3.65e-11
***

Significatif

On ne rejette pas
niveau =10%

au

<

0,1

imm

< 2e-16
**

0,1

Significatif

On ne rejette pas
niveau =10%

au

<

P - Si les variables ont une p-value suprieure notre risque de premire espce, elles ne sont
pas statistiquement significatives. C'est--dire que la variable indpendante laquelle ils
correspondent n'a pas d'impact sur la variable dpendante dans ce modle. Aprs avoir fix
la probabilit de rejeter H0 quand H0 vrai 10%, nous avons pu trouver les variables
significatives et non significatives. laide des prcdentes estimations, nous pouvons
alors prsenter les deux causalits suivantes :
(i) En moyenne, lorsque le rpondant choisi la politique intrieure
18

immigration comme tant la plus importante, lvnement vote extrme


droite est plus probable.
(ii) En moyenne, lorsque le rpondant choisi la politique intrieure
scurit comme tant la plus importante, lvnement vote extrme
droite est plus probable.
P
-

Lon peut alors remarquer dans se second modle que lhypothse de base de la

recherche selon laquelle lducation et le revenue aurais une influence sur la probabilit de
lvnement vote extrme droite est rejet nouveau au niveau =10%. En effet
lindicateur P-value qui reprsente la significativit est suprieur 0,1.

P -

Face ce rsultat, lon cherche savoir do proviennent de tels rsultats, ainsi

quune faible significativit sur les nombreuses variables indpendantes de contrle. Quels
lments faut-il changer pour amliorer notre modle ?
P Nous savons que la reprsentativit de la variable dpendante Y_2 est faible (voir annexe,
schmas 2). En effet, dans la section sur les statistiques descriptives nous avons pu
observer que les rpondants la question Q8A ayant rpondu Front National ont une
frquence de 300 sur une population totale n= 1949. Cette reprsentativit peut avoir un
effet sur notre modle. Mais aussi, le faite que la question soit une intention de vote
pourrait jouer sur linterprtation finale de notre recherche
P Pour amliorer le modle, nous dcidons de changer la variable Y_2, pour la variable Y_3 :
P

Correspondant la question Q8B : Pour le candidat de quel parti avezvous le plus de chance de voter (lgislative)
Suite changement de variable dpendante nous esprons avoir une plus grande
cohrence dans les rsultats ainsi que de voir apparatre une significativit dans notre
hypothse de base.

19

Modle 3 :
Y_3 =

0 + 1 age + 2 sexe +

3 big+ 4 smal + 5 I n1 + 6 I n10+ 7 e d2 + 8 e d 9 + 9 chom+ 10 sec+ 11 imm


Y_3 = la variable dpendante binomial qui prend les valeurs 1 si Front national et 0 autre,
Le Nombre d'observations lues est de n=1949 qui est gal au Nombre d'observations utilises :
1949. Il ny a donc pas dobservations manquantes.
Syntaxe de la rgression logistique de modle probit 3 :
summary(newdata$Y_3)
unique(newdata$Y_3)
dep_FN3<-ifelse(newdata$Y_3=="Rassemblement Bleu Marine (Front National)",1,0) dummy
newdata["dep_FN3"]<-dep_FN3
probit3<-glm(dep_FN3 ~ age + sexe + big + smal + in_1 + in_10 + ed_2 + ed_9 + chom + sec +
imm, data = newdata, family = binomial(link="probit")) modle probit
summary(probit3) )affiche les rsultats de la rgression

Tableau 6 : Rsultats de la rgression du modle 3


variables
(Intercept)
Age
Sexe
Big
Smal
in_1
in_10
ed_2
ed_9
Chom
Sec
imm

Estimate
-2.862211
-0.000146
0.047858
0.463590
-0.079946
0.160120
-3.408716
-3.522438
-3.341413
-0.021833
0.739148
0.417738

Std.error
0.467013
0.008466
0.244463
0.304266
0.295272
0.419982
519.168842
413.593324
415.482680
0.369252
0.315430
0.329697

Z value
-6.129
-0.017
0.196
1.524
-0.271
0.381
-0.007
-0.009
-0.008
-0.059
2.343
1.267

Pr(>|z|)
8.86e-10 ***0.9862
0.8448
0.1276
0.7866
0.7030
0.9948
0.9932
0.9936
0.9529
0.0191 *
0.2051

20

Infrence dans le modle 3 :


Nous allons Tester avec un risque de 10% lhypothse 0 : 1 = 2 = 3 = 4 = 5 .= 0 (Aucune
des variables explicatives na deffet. Tous les coefficients sont nuls, sauf la constante) contre
: 1 =0
2 =0
3 =0
4 =0
5 =0 (Il y a au moins une variable explicative qui a un effet
non nul).

Nombrede?=12(nombre de paramtres estims = 11 btas (nombre de


variables explicatives) + 1 constante = 12)
n=1949
q=11 (nombre de contraintes)

Tester avec un risque de =10% la significationde chaque coefficient.


:
:

:
:

=0

=0

variable

Pvalue

significativit

Intercep
t

8.86e-10
***-

<

Age

0.9862

Sexe

0,1

Significatif

On ne rejette pas
niveau =10%

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

0.8448

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

Big

0.1276

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

Smal

0.7866

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

In_1

0.7030

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

In_10

0.9948

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

Ed_2

0.9932

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

Ed_9

0.9936

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

au

21

chom

0.9529

Sec

0.0191 *

imm

0.2051

>

<
>

0,1

Pas
Significatif

On rejette
=10%

0,1

Significatif

On ne rejette pas
niveau =10%

0,1

Pas
Significatif

On rejette
=10%

au niveau

au

au niveau

P - Si les variables ont une p-value suprieure notre risque de premire espce, elles ne sont
pas statistiquement significatives. C'est--dire que la variable indpendante laquelle ils
correspondent n'a pas d'impact sur la variable dpendante dans ce modle. Aprs avoir fix
la probabilit de rejeter H0 quand H0 vrai 10%, nous avons pu trouver les variables
significatives et non significatives. A laide des prcdentes estimations, nous pouvons
alors prsenter la causalit suivante :
P
(i) En moyenne, lorsque le rpondant choisi la politique intrieure
immigration comme tant la plus importante, lvnement vote extrme
droite est plus probable.
P lon peut alors remarquer dans se troisime modle que lhypothse de base de la
recherche selon laquelle lducation et le revenue aurais une influence sur la probabilit de
lvnement vote extrme droite est rejet pour la troisime fois au niveau =10%. En effet
lindicateur P-value qui reprsente la significativit est suprieur 0,1.

Face ce rsultat, lon cherche savoir do proviennent de tels rsultats, ainsi quune
faible significativit sur les nombreuses variables indpendantes de contrle. Quels
lments faut-il changer pour amliorer notre modle ?

P Nous savons que la reprsentativit de la variable dpendante Y_3 est extrmement faible
(voir annexe, schmas 3). En effet, dans la section sur les statistiques descriptives nous
avons pu observer que les rpondants la question Q8B ayant rpondu Marine Le Pen ont
une frquence de 9 sur une population totale n= 1949. Cette reprsentativit peut avoir un
effet sur notre modle. Mais aussi, le faite que la question soit une intention de vote
pourrait jouer sur linterprtation finale de notre recherche
P Pour amliorer le modle, nous dcidons de changer la variable Y_3, pour la variable Y_4 :
Correspondant la question 30A : o vous situeriez vous sur une
chelle de 0 10, 0 tant lextrme gauche et 10 tant lextrme droite.
P
P Suite changement de variable dpendante nous esprons avoir une plus grande cohrence
dans les rsultats ainsi que de voir apparatre une significativit dans notre hypothse de
base.

22

Modle 4 :
Y_4 =

0 + 1 age + 2 sexe +

3 big+ 4 smal + 5 I n1 + 6 I n10+ 7 e d2 + 8 e d 9 + 9 chom+ 10 sec+ 11 imm


Y_4 = la variable dpendante binomial qui prend les valeurs 1 si dextrme droite 0 si
autre, Le Nombre d'observations lues est de n=1949 qui est gal au Nombre d'observations
utilises : 1949. Il ny a donc pas dobservations manquantes.
Syntaxe de la rgression logistique de modle probit 4 :
summary(newdata$Y_4)
unique(newdata$Y_4)
dep_FN4<-ifelse(newdata$Y_4=="10",1,0) dummy
newdata["dep_FN4"]<-dep_FN4
probit4<-glm(dep_FN4 ~ age + sexe + big + smal + in_1 + in_10 + ed_2 + ed_9 + chom + sec +
imm, data = newdata, family = binomial(link="probit")) modle probit
summary(probit4) )affiche les rsultats de la rgression

Tableau 7 : Rsultats de la rgression du modle 4


variables
(Intercept)
Age
Sexe
Big
Smal
in_1
in_10
ed_2
ed_9
Chom
Sec
imm

Estimate
-1.218171
0.003562
-0.131276
0.041432
0.045798
-0.077491
0.016916
-0.119149
-0.002763
-0.202747
0.631652
1.108581

Std.error
0.130940
0.002413
0.069765
0.116897
0.076081
0.140166
0.336897
0.270387
0.268202
0.097431
0.120804
0.098218

Z value
-9.303
1.476
-1.882
0.354
0.602
-0.553
0.050
-0.441
-0.010
-2.081
5.229
11.287

Pr(>|z|)
< 2e-16 ***
0.1399
0.0599 .
0.7230
0.5472
0.5804
0.9600
0.6595
0.9918
0.0374 *
1.71e-07 ***
< 2e-16 ***

23

Infrence dans le modle 4 :


Nous allons Tester avec un risque de 10% lhypothse 0 : 1 = 2 = 3 = 4 = 5 .= 0 (Aucune
des variables explicatives na deffet. Tous les coefficients sont nuls, sauf la constante) contre
: 1 =0
2 =0
3 =0
4 =0
5 =0 (Il y a au moins une variable explicative qui a un effet
non nul).

Nombrede?=12(nombre de paramtres estims = 11btas (nombre de


variables explicatives) + 1 constante = 12)
n=1949
q=11 (nombre de contraintes)

Tester avec un risque de =10% la significationde chaque coefficient.


:
:

:
:

=0

=0

variable

Pvalue

significativit

Intercep
t

< 2e-16
***

Significatif

<

0,1

On ne rejette pas
niveau =10%

Age

0.1399

>

0,1

Pas
Significatif

On rejette
=10%

Sexe

0.0599 .

0,1

Significatif

On ne rejette pas
niveau =10%

Big

0.7230

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

Smal

0.5472

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

In_1

0.5804

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

In_10

0.9600

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

Ed_2

0.6595

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

Ed_9

0.9918

>

0,1

Pas
Significatif

On rejette
=10%

au niveau

<

au

au niveau

au

24

chom

0.0374 *

Sec

1.71e-07
***

<

imm

< 2e-16
***

<

<

0,1

Significatif

On ne rejette pas
niveau =10%

0,1

Significatif

On ne rejette pas
niveau =10%

0,1

Significatif

On ne rejette pas
niveau =10%

au

au

au

P - Si les variables ont une p-value suprieure notre risque de premire espce, elles ne sont
pas statistiquement significatives. C'est--dire que la variable indpendante laquelle ils
correspondent n'a pas d'impact sur la variable dpendante dans ce modle. Aprs avoir fix
la probabilit de rejeter H0 quand H0 vrai 10%, nous avons pu trouver les variables
significatives et non significatives. laide des prcdentes estimations, nous pouvons
alors prsenter les quatre causalits suivantes :
(i) En moyenne, lorsque le rpondant choisi la politique intrieure
immigration comme tant la plus importante, lvnement vote extrme
droite est plus probable. Ici P-value < 0 ***, cette causalit est donc
lune des plus significatives de notre recherche.
(ii) En moyenne, lorsque le rpondant choisi la politique intrieure
scurit comme tant la plus importante, lvnement vote extrme
droite est plus probable. Ici P-value < 0 ***, cette causalit est donc
lune des plus significatives de notre recherche.
(iii) En moyenne, lorsque le rpondant choisi la politique intrieure
chmage comme tant la plus importante, lvnement vote extrme
droite est moins probable. Ici P-value < 0,01 *, cette causalit est donc
significative dans notre recherche.
(iiii) En moyenne, lorsque le rpondant est une femme, lvnement
vote extrme droite est, plus probable. Ici P-value < 0,001 ., cette
causalit est donc trs peux significative dans notre recherche.
Lon peut alors remarquer dans se quatrime modle que lhypothse de base de la
recherche selon laquelle lducation et le revenue aurais une influence sur la probabilit de
lvnement vote extrme droite est rejet pour la nime fois au niveau =10%. En effet
lindicateur P-value qui reprsente la significativit est suprieur 0,1.

Nous arrterons notre recherche sur le modle suivant, car il est pour le
moment celui o nous avons observ le plus de causalits entre la variable

25

dpendante et les variables indpendantes. Le modle crer, nest


effectivement pas parfait, car la reprsentativit de la variable Y nest pas
suffisamment lev (annexe : graph 4) dans le contexte de notre
problmatique. Dautre part la base de donne utilise pourrait tre amliore
pour arriver un modle scientifique plus laborer.

Observations graphiques de la significativit du model :


Variable ducation faible (ed_2) :
Le graphique, permet de dire que lon ne peut observer dans le modle
suivant de significativit dans la relation de lducation et du vote pour
lextrme droite (pente de la courbe faible ou inexistante)

0.6
0.4
0.0

0.2

vote extreme droite

0.8

1.0

Graphique :

0.0

0.2

0.4

0.6

0.8

1.0

education

Variable revenu faible (in_1) :


Le graphique, permet de dire que lon ne peut observer dans le modle
suivant de significativit dans la relation du revenu et du vote pour lextrme
droite (pente de la courbe faible ou inexistante)
Graphique :

26

1.0
0.8
0.6

vote extreme droite

0.4
0.2
0.0

0.0

0.2

0.4

0.6

0.8

1.0

revenufaible

Variable immigration (imm) :


Le graphique, permet de dire que lon observe dans le modle suivant une
significativit lorsque le rpondant choisi la politique intrieur immigration
comme tant la plus importante et que cela entraine une hausse de la
probabilit de lvnement vote pour lextrme droite (pente de la courbe,
lorsque Y augmente, X augmente)

0.6
0.4
0.0

0.2

vote extreme droite

0.8

1.0

Graphique :

0.0

0.2

0.4

0.6

0.8

1.0

immigration

Variable scurit (sec) :


Le graphique, permet de dire que lon observe dans le modle suivant une
significativit lorsque le rpondant choisi la politique intrieur scurit comme
tant la plus importante et que cela entraine une hausse de la probabilit de
lvnement vote pour lextrme droite (pente de la courbe, lorsque Y
augmente, X augmente)
Graphique :

27

1.0
0.8
0.6

vote extreme droite

0.4
0.2
0.0

0.0

0.2

0.4

0.6

0.8

1.0

sec

Variable chmage (chom) :


Le graphique, permet de dire que lon observe dans le modle suivant une
significativit lorsque le rpondant choisi la politique intrieur chmage
comme tant la plus importante et que cela entraine une baisse de la
probabilit de lvnement vote pour lextrme droite (pente de la courbe,
lorsque Y baisse, X augmente)
Graphique :

28

1.0
0.8
0.6

vote extreme droite

0.4
0.2
0.0

0.0

0.2

0.4

0.6

0.8

1.0

chomage

Conclusion :
Pour clturer ltude suivante qui avait pour but dobserver linfluence du niveau de revenu
et dducation des rpondants sur leurs choix de vote, nous dvelopperons de faon trs brve les
lments pertinents retenir. Le premier des faits quil faut retenir est que dans notre recherche
nous avons fait un choix risqu quant notre choix de modle de mthodes quantitatives,
puisquau lieu de choisir un modle OLS classique, lon a pris un modle PROBIT. Ce choix nous
a permis dtudier notre problmatique de faon binaire, cest--dire que notre variable
dpendante pour valeur 0 ou 1. Dautre part le fait davoir appliqu le modle suivant ne nous a
pas permis dappliquer le test de significativit globale du modle en appliquant le test de Fisher.
Le deuxime lment que lon pourrait mettre en avant est que, dans cette recherche a t
dvelopp quatre modles diffrent dans le but darriver des rsultats tant les plus reprsentatifs
29

possible et le plus de significatifs possible. Le modle nest donc pas parfait dun point de vue
scientifique puisquil pourrait tre largement amlior et que la base de donnes utilise nest pas
trs reprsentative, pour cela il faudrait avoir une population plus grande o utilis une mthode
dchantillonnage diffrente comme un chantillonnage alatoire par grappe. Les conclusions que
lon peut faire suite au modle sont que lhypothse de base de la recherche selon laquelle
lducation et le revenue aurais une influence sur la probabilit de lvnement vote extrme
droite est rejet au niveau =10%. En effet lindicateur P-value qui reprsente la significativit
est suprieur 0,1, la thse souleve par Nonna Mayer est donc rfute par le modle. Dautre part
nous sommes arrivs, observer les quatre causalits suivantes. La premire

tant que en

moyenne, lorsque le rpondant choisi la politique intrieure immigration comme tant la plus
importante, lvnement vote extrme droite est plus probable. Ici P-value < 0 ***, cette causalit
est lune des plus significatives de notre recherche. La seconde est que en moyenne, lorsque le
rpondant choisi la politique intrieure scurit comme tant la plus importante, lvnement vote
extrme droite est plus probable. Ici P-value < 0 ***, cette causalit est aussi lune des plus
significatives de notre recherche. La troisime est, en moyenne, lorsque le rpondant choisi la
politique intrieure chmage comme tant la plus importante, lvnement vote extrme droite est
moins probable. Ici P-value < 0,01 *, cette causalit est donc significative dans notre recherche. La
dernire montre quen moyenne lorsque le rpondant est une femme, lvnement vote extrme
droite est, plus probable. Ici P-value < 0,001 ., cette causalit est donc trs peux significative dans
notre recherche. Ses conclusions sont vrifier de faon plus scientifique, ici nous naffirmons
rien, ce sont seulement des suppositions tires de notre modle. Pour pouvoir affirmer des
conclusions sur le sujet il nous faudrait amliorer le modle et le rendre plus scientifique. La
recherche pourrait se prciser sur la variable immigration qui est aussi une thse que lon retrouve
dans la littrature scientifique 96 % des lecteurs qui ont choisi Le Pen au premier tour
estiment quil y a trop dimmigrs Nonna Mayer.

BIBLIOGRAPHIE :
Liens internet :

http://www.lexpress.fr/actualite/politique/moins-on-est-eduque-plus-onvote-fn_1100733.html

http://www.cairn.info/revue-francaise-de-science-politique-2002-5-page505.htm
30

http://ifmt.auf.org/IMG/pdf/Qu_est-ce_qu_une_regression_logistisque__Rev_Mal_Respir_2005_22_159-162.pdf

http://r.789695.n4.nabble.com/GLM-problems-td819635.html

http://www.columbia.edu/~so33/SusDev/Lecture_9.pdf

http://stats.stackexchange.com/questions/86351/interpretation-of-rsoutput-for-binomial-regression

ANNEXE :
Graph 1 :

31

400
300
200
100
0

Fran.ois Bayrou

Marine Le Pen

Nicolas Sarkozy

100

200

300

400

Graph 2 :

Front de Gauche

Ne sait pas

Parti Socialiste

Graph 3 :

32

1500
1000
500
0

Front de Gauche

Ne sait pas

Parti Socialiste

50

100

150

200

250

300

350

Graph 4

10

33