Copie de Méthodes D'enquêtes S2

Note de Laure, s’il y a des choses dont vous ne comprenez pas, demandez-moi
ps : il n’y a pas tous les cours, car j’étais absente
03/02/2022
Validation
- Examen de deux heures

- Entre 15 et 20 qsts courtes
- Savoir lire correctement un tableau
- Il faut très bien connaître son cours !
Parfois vont ds des concepts statistiques
Exemple de qst :
Généraliser une popu/résultat qu’on a eu ds un échantillon (statistique inférentielle)
Expliquer ce qu’est un sondage aléatoire et expliquer ce qu’est une inférence statistique
Exemple : Si ds une enquête, je ne sélectionne que des idv nés le 1 er de chaque mois, pourrais-je
estimer le revenu de la population à partir de cette enquête ? Justifier votre réponse
Mauvaise : le 1er de chaque mois n’a rien à voir avec le revenu, ça n’a rien à voir
Meilleur : on peut si on ft une exposition et effectivement s’il n’y a pas de corrélation entre les 2
variables. S’il n’y a pas de corrélation, pourrait alors en déduire
Sondage aléatoire et sondage normal
On considère qu’il y a un bon sondage en méthode de quota, en stats c’est le contraire
Connaître bien son couuuuuuuuuuuuuuuuuurs
Première partie : + théorique, les méthodes d’enquête classique en sciences sociales
- Chap 1 théorie et construction de l’objet

- Chap 2 Intro à la théorie des sondages
- Chap 3 Les grandes enquêtes en sciences sociales
Deuxième partie : Corrélations, causalités et expérimentation
- CHap 4 Corrélations, causalité et paradoxes statistiques

- Chap 4 effet propre et modèles de régression
- Chap 6 Expérience randomisée et expérience naturelle
Troisième partie : Méthodes quantitatives non classiques
- Chap 7 Théorie des jeux et analyse mathématique de la démocratie

- Chap 8 Analyse des réseaux, big data et sciences sociales
INTRODUCTIOOON :
Les méthodes quantitatives sont appliquées depuis très longtemps pr comprendre la société.
Elles servent au départ des objectifs fiscaux et militaires
- Civilisation sumérienne ‘ fin du 4ème millénaire avant J-C et durant le 3eme)

- Egypte Antique
- Etc.
Statistiques associées au développement de l’Etat démocratique
- Recensement, mesure des variables démographiques et économiques, pauvreté, etc.
On peut concevoir différentes def des statistiques, d’habitude une branche mathématique mais
c’est aussi des statistiques très associés à l’etat, ils vont plutôt compter pour l’etat, dans tous les
pays développés ont une institut national de stats
Finalement avec ces développements d’état, ils vont compter sur les stats, il y a développement
de stats avec les développements de l’Etat
Combien y a-t-il d’habitants pour les territoires ? Il faut savoir qui a le droit de voter, avec le
développement de l’Etat, nous avons un développement important des statistiques
Résistance importance ds les sciences importantes, que l’humain serait particulier
Leur application en SHS et plus généralement celle des mathématiques ft souvent l’objet de
résistances : l’humain serait « particulier ».
Il est vrai qu’il existe sans doute pas de théorie mathématique qui permette de faire des
prédictions très précises des comportements humains (mais c’est aussi le cas dans de
nombreuses sciences de la nature)
Les statistiques jouet néanmoins un grand rôle ds les SHS : Elles permettent d’observer des
phénomènes macrosociologiques, de généraliser à une population les résultats obtenus sur un
échantillon ou encore de tester de théories sociologies.
Généraliser un résultat obtenu d’un échantillon, on a ft un échantillon, exemple : on a donné des

médicaments à un tel, on se demande si ça va marcher sur toute la population
Tester les théories sociologiques, par exemple : la réussite scolaire, les gens qui ont une certaine
origine sociale, ont + de chance de réussir leur étude, théorie générale
Appliquer les stats aux comportements humains ?
« les experts qui travaillent avec des moyennes, des pourcentages, des courbes, les calculateurs
froids qui se nourrissent des tendances et de forces invisibles ne furent pas meilleurs que les
échantillonneurs de cartes portales… Comment pouvons-nous appliquer des pourcentages au
comportement collectif humain ? » Editorial du New York Times du 7 Novembre 1936
Resistance spontané, il y a aucun argument à part dire que l’humain est particulier
Qql exemple :
En 2012, Nate Silver prévoit correctement les résultats de l’élection présidentielle américaine ds 49
Etats.
Après sa victoire, il eut un statisticien, Nate silver, il est spécialiste des prédictions sportifs,
performance des joueurs, il a essayé de prévoir les sondages à partir des nouveaux sondages,
élection très difficile à prévoir car il y a des élections ds chaque Etat
Il a été accuser par des américains d’être démocrate, de faire gagner Obama, accuser de triche
On peut avoir raison sur une prédiction mais pas sur 49, il a réussi alors à prédire, on ne peut pas
avoir de chance à chaque fois
Election de Trump
Trump : une victoire prévisible ?
Le 6 novembre, Nate Silver donne une probabilité de 64% à Clinton de gagner
Il prévient que Clinton pourrait néanmoins perdre :
Elle a une avance de 3 points :
- Il arrive souvent que les sondages se trompent de 3 points.

- En 2020, Obama a fait 3 points de plus que de ce que prévoyaient les sondages
Il s’est tout de même trompé mais moins que les autres, il était au moins prévoyant de la défaite de
Clinton
Le collectif prévisible ?
Souvent les comportements individuels sont imprédictibles, pourtant leur agrégation l’est
En revanche ds une base d’individu, les comportements vont devenir prédictibles
Exemple : Planche de Galton
On lâche des boules et nous avons un ensemble de petit obstacle, ils vont à gauche ou droite
Si nous la lâchons, nous ne savons ou pas elle ira, mais si on raisonne, on peut supposer sa direction
mais nous ne savons tout de même pas ou elle ira
Elle va être prédictible ds le long terme, puisqu’une courbe va se former (sorte de colline)
Le trajet d’une boule est imprévisible tandis que si nous suivons ds le long terme, nous verrons que le
résultat est déterminé
2 manière de rep à la qst :
Si on est un physicien, la boule sera attirait par la gravité et nous pouvons selon son poids, on peut
présumer ou elle va partir mais peut devenir très vite compliqué
Statisticien : on s’en fiche de tout ça, finalement la ou elle va arriver va correspondre au nombre de
fois ou elle ira, si elle va toute à droite, ça veut dire qu’elle n’est jms allée à gauche et inversement
Quel type d’expérience, on peut présumer ds l’aléatoire, on peut montrer que le résultat peut arriver
ds une voie normale
Exemple du pile ou face
Exemple : la distribution des boules correspond pas mal à la distribution des poids des enfants à la
naissance en 2011
Les notes pas vrm prédictibles mais les comportements d’individu si
Mesurer des faits sociaux
Mesurer des réalités mal connues ou perçues de façon biaisée

Plus le sujet est politique, plus sa perception risque d’être biaisée ou fausse
Mesurer des faits sociaux pr obtenir des résultats attendus
Plusieurs objectifs
⮚ Informer le débat public les politiques publiques

- Statistiques du chômage, richesse du pays pauvreté, fécondité, migration, résultats
électoraux, etc…
Inégalités augmentent-elles ?
L’immigration augmente-t-elle ?
Est-ce qu’il y a une mobilité sociale ?
Les femmes sont-elles moins bien payées que les hommes ?
Evaluer les violences faites aux femmes
Observer et quantifier le quotidien de la popu française
⮚ Tester des hypothèses sociologiques

- La relation entre des caractéristiques sociologiques et des comportements
Essayer de voir s’il y a des corrélations entre les comportements
Tester des hypothèses sociologiques
Le taux de suicide dépend-t-il de la religion ? (Durkheim)
La probabilité de réussir ses études dépend-t-elle de la profession de ses parents ? (Bourdieu,

Boudon, etc.)
La probabilité de voter pr un candidat aux élections dépend-t-elle du métier que l’on exerce ?
Qql exemple : Milieu social et comportements
- Grp socioprofessionnel et espérance de vie
Grp socioprofessionnel (catégorie socio pro), nomenclatures des PCS (professions et catégorie
socio pro, agriculteur, artisans)
- Grp socioprofessionnel et trajectoire scolaire

- Grp socioprofessionnel et pratiques culturelles
Recherche de lois ?
On recherche des tendances, des régularités pr la plupart du temps et non des lois.
10/02/2022
Suite sur la recherche de loi :
- On ne recherche ps vrm des lois

- Mais des tendances, des régularités, mais aussi des phénomènes historiques importants >
qui vont pouvoir suivre les évolutions différentes comme le ft qu’il y a différents
phénomènes, les idv qui appartiennent au mm grp pro que leur pair
On peut avoir une tendance aussi qui peut se retourner (croissant)
Evolution de la mobilité sociale :
La barre des idv que expliquent leur pair, garder le groupe socio-pro qui vont abréger de la
montature (l’augmentation ?) des CSP
Evolution de l’endogamie :
Les femmes avaient tendance à se marier avec un homme hom ome de mm profession qu’eux
avant, mais ça a diminué au fil du temps
Prédire les sondages électoraux, résultats présidentielles
Prédiction des élections > un peu compliqué, cela dépend des élections, faire des erreurs de 2 ou
3 points change largement le résultat
Autre exemple : réseaux sociaux, on peut retracer les gens et savoir un peu près des informations
nécessaires
Données numériques : covid 2019, est-ce que les idv respectent le confinement ou pas ? utiliser
les données des tel pr savoir si les gens cherchent des plans itinéraire, grâce au tel, suivre des
informations nécessaires
Le marketing
Prédire le comportement des consommateurs, parfois le site commercial va traquer les infos et
reproposer qql chose de + intéressant
Utilisation des cartes de fidélité, algorithme de recommandation
Conclusion :
Il y a bcp d’utilisation de stats en sciences sociales, ça nécessite aux compétences diverses > la
statistique mathématique : compréhension des concepts
Stats info : compétences en termes de manipulation des données
Expertise : connaissance + du domaine dont relève les stats
Chapitre 1
Théorie et construction de l’objet
Les relations entre observations, mesure et concept
Décrire la hiérarchie sociale
Décrire la mobilité sociale
Finalement toute mesure nécessite des théories et des concepts, sujet trait philosophique, il n’a pas
d’observation pur mais des théories concrètes
L’EMPIRISME
Henri Poincaré : considéré comme l’un des plus grands mathématiciens du 20 ème siècle
Il a fait un certain nmbr d’ouvrage qui décrit finalement ses démarches, intitulé également
philosophies des sciences
Considéré aussi comme un empirisme naïf
C’est quoi l’empirisme : l’idée que la connaissance vient de l’extérieur, là ou il y a du monde, de

l’observation et de l’innocence > s’appuie que sur la démonstration et non la théorisation
Opposition…………….
Rationalisme : connaissance viendrait seulement de la raison, du raisonnement
Le physicien > + empirique, démonstration
L’idée de la science serrait d’observer la chose avec le + possible de neutralité possible
Finalement s’y faire de la science, accumuler des données.
« On dit souvent qu’il faut expérimenter sans préconçue… »
Fait important sur fait et théorie : « on ft la science avec des faits, comme on ft une maison avec des
pierres… » suite moodle
L’observation n’est pas neutre :
Prblm : pr observer la réalité, on ne peut pas vrm la réalité, l’observer d’une manière instinctive,
nécessite pas avec des concepts et des théories
Exemple : cmt observer le chômage ? c’est quoi ? dimension générale qui est évident mais que veut
dire ne pas avoir d’emploi ? Certains vont penser qu’il faut cela pour survivre ?
Le simple fait de vouloir avoir un autre emploi > chômage
Quelle mesure on considère que la prs veut chercher un emploi ? Psq idv découragé ? ou sinon il
voulait bien avoir un chômage
Elle va impliquer d’un certain nrmbre d’heure, chercher un emploi, mais que cela veut dire ?
Définir le chômage avant.
Mise en couple : sondage en France, mais c’est quoi un couple ? > pareil notion plutôt évidente,
pleins de nuances plusieurs pr déterminer un couple, est-ce qu’il faut vivre ensemble ? est-ce qu’un
couple c’est forcément à deux ? ce n’est pas évident pr prouver que qqln est en couple ou célibataire
Donc ça demande, la def des catégories
Empirique naive : je me contente d’observer la réalité > mais il y a plusieurs notions qui se considère
importante
Durkheim s’intéresse aux stats de suicide, lien entre le suicide et l’intégration sociale
Faut chercher ce qu’un phénomène implique réellement
Exemple : Newton va étudier une pomme selon la gravité, il ne suffit pas d’observer pour savoir les
lois de la gravité, c’est pq la pomme tombe sur la terre et pas la lune ? s’intéresser sur les ft évidents
et les interroger
Il n’a pas d’observation pure, il faut des concepts
Exemple : courant électrique passe, il faudrait des théories monsieurs, dames
Finalement ça a mis énormément de temps pr l’élaborer
Ex : comment compter la richesse, pib (concepts ds les années 30 du 20 e siècle, ça a nécessité bcp de
travaux pr mesurer la richesse d’un pays), croissance de l’éco
Physiocrate : pr eux, seul la Terre est une ressource, tout vient de la terre, c’est ceux qui ont bcp de
terre qui ont une grande richesse
Cmt mesurer la pauvreté d’un pays ? LE PIB A DECIDE DE SE MANIFESTER ET FAIRE DES BRAS DE FER
pour mesurer l’économie/la richesse.
« Egal à la somme des valeurs ajoutées brutes différents secteurs… »
Echange marchand, Pib indicateur de la richesse mais encore une fois il faut la def de la richesse
(échange marchand)
Ciritique du PIB
- Aider gratuitement un collégien à faire ses exercices de math, vous n’ajoutes rien à la
richesse du pays
- Si vous vous faites payer sans le déclarer, le pays ne s’enrichit pas (officiellement)
- Si vous vous faites payer et que vous le déclarer, le pays s’enrichit
Indicateur de la seule richesse économique
Pas de prise en compte du bonheur, de la santé, etc
La rupture avec les prénotions
Construction de l’objet : nous ne pouvons pas les construire nous même
Construire son objet : terme souvent vu, l’objet finalement, à nous de le construire ds des concepts
pr pouvoir l’observer
Plus généralement : conquis, construit et constaté
La rupture : le ft est conquis contre l’illusion du savoir immédiat
Le fait est construit : il faut élaborer des concepts et des catégories pr saisir le réel
Le fait est ensuite constaté
Pierre Bourdieu a construit de nombreux concepts : champ, habitus, capital symbolique, violence
symbolique
Les qst posées sont alors spécifiques à cette théorie :
- Cmt s’est transformé le champ de la littérature ?

- Comment accumule-t-on du capital symbolique ds le champ du cinéma ?
Il existe de nombreux concepts et oppositions : riche/pauvre, bourgeois/prolétaire, classe

supérieure/classe populaire
Classe sociale, grp social, milieu social, catégorie socioprofessionnelle, etc
Hiérarchie des salaires :
Dépend de la manière des mesures, tendance général
Différentes mesures des inégalités économiques
En sociologie, nous pouvons souvent parler de cadre, d’ouvrier, peut ê mesurer de nombreuses
stations différentes, il y a plusieurs façon d’aborder ne veut pas dire qu’on fait ce qu’on veut
Pr mesurer la richesse, les instituts de stats vont développer différents concepts, revenue salaire,
niveau de vie > on rapport le RDB au nombre d’unité de consommation
1 UC pr le premier adulte 0,5 pr les autres prs de + de 14 ans et 0,3 pr les enfants de moins de 14 ans
On suppose une mutualisation complète des ressources, pq ? si on prend un ménage si un des

adultes gagne 4K euros et l’autre rien, le deuxième vivra de ses 4K euros également, on ft comme si
les adultes partageaient leur argent mais pas forcément le cas
Nomenclatures des professions
Une inspiration marxiste : mesurer la position ds les rapports de production économique
Des nmbreuses nomenclatures nationales (PCS) et internationales (ISCO, ESeC)
Revenu et patrimoine
Patrimoine : ensemble de l’argent qu’on a, la totalité, les revenus du patrimoine nous traite
différemment psq la plupart des gens ont au moins un salaire, c’est finalement un patrimoine qui ont
un revenu des prs
Manière de décrire la hiérarchie
COURS SUR FEUILLE
24/02/2022
La qst initiale « la mobilité sociale a-t-elle diminué ? »
Peut donc recevoir des reps différentes selon le type de mobilité sociale dont on parle
Elle suscite une autre qst : ds l’évolution du lien entre origine sociale et position cmt faire la plupart
entre
- Une transformation structurelle de la distribution des positions sociales

- La détermination de la position d’un idv par celle de son milieu d’origine
Mobilité parfaite : lien stats entre l’origine et position sociale > mesurer la fluidité sociale ?
Mobilité absolu et lien < parfaitement diff
Mobilité sociale < dépend de la taille des grps sociaux
Position social et origine < aucun lien

Rupture avk les prénotions : écarter toutes les prénotions, traits de base ds tous les bails
scientifiques
Conclusion : Parler de rupture est trop fort
- On commence avec les concepts du sens commun (inégalité, ascension sociale, chômage) et
on les améliore au fil du travail scientifique
Une rupture graduelle :
Quine : citation moodle
Chapitre 2 Introduction à la théorie des sondages
Deux querelles des méthodes :
Une ancienne et une à peu près new
- Sondage contre recensement :

⮚ Recensement : étudier ts les idv d’une popu. En mettant en place une enquête par
opposition au sondage, nous avons interrogé une partie des idv ds l’ensemble (échantillon),
on interroge une partie des membres d’une popu
⮚ 1895 > commence un débat entre partisans des méthodes par sondages et échantillonnages,
mais aussi par méthode ésautive (jsp l’écrire mais ça se prononce comme ça), Kiaer, un des
seuls qui va défendre la méthode représentative, recenser la popu, Kier voulait étudier le
chômage (il avait très peu de donnés dans les recensements de son pays), le problème c’est
que ça coute très cher de faire un énorme sondage sur toute la popu, il a donc décidé de
faire un échantillon (recensement = très cher), donc faire une enquête par échantillonnage,
on va étudier encore + de chose grâce à ça, étudier de nombreuses enquêtes
⮚ Défend l’idée qu’on peut étudier une partie de la popu pr étudier le tout < très forte
opposition de la part des statisticiens (on ne peut pas généraliser), qu’est-ce que nous
permet de savoir en interrogeant juste une partie de la popu ? , position au départ critique
sur cette méthode mais va qd mm progressivement s’imposer, Kier considère que c’est
légitime
Exemple : qd on goute une soupe, on la goutte un peu, on la considère comme chaude donc on
attend pas la suite, on la laisse refroidir, parfois en connaissant une toute petite partie, ça peut
comprendre la grosse partie
Soupe extrêmement homogène < tout mixer = ouais c’est mm goût, mais un brouillon, imagine la
viande pas cuite lol
Alors construire un échantillon de manière représentatif, critiqué mais s’est imposé
1925 > institut des stats vont reconnaître 2 méthodes d’échantillons, on l’appelle à l’époque du choix
judicieux (devient méthode par quotas) et l’autre s’appelle méthode aléatoire, reconnaissance des
deux méthodes mais la méthode aléatoire va s’imposer
Méthode par quotas : + connus
En réalité, pr les statisticiens la méthode la plus correcte est la méthode aléatoire, institut
scientifique > mène uniquement les méthodes aléatoires et non méthode par quotas
Même par la suite, il peut s’avérer de moins bien bonne qualité, il faut avoir les moyens de bonne
qualité pour bien les interroger, enquête + biaisé ? car on n’a pas réussi à toucher énormément de
popu, ça serait une trop grande popu < entraîne moins bonne qualité
Exemple du fondateur :
1936, The literary Digest et george Gallup.
Controverse : pr illustrer l’importance d’avoir un échantillon bien construit, + important que avoir
qu’un grand échantillon, mettre l’accent sur la représentativité et sa traduction par l’application de
quotas
USA : vote de paille > traduction direct de vote blanc, des journaux qui organisent des journées pr
apprêter les élections, envoyer des bulletins de votes pr voir pr qui ils vont voter
Le journal américain organise comme ça un vote blanc et obtient 2m de réponses, George Gallup
vient de fonder une institution de sondage (l’un des prems), prédit la victoire d’Alfred Landon,
prédiction du gagnant juste en se basant sur 4k de votes
Qst : comment les américains se sont trompés avec un échantillon bcp plus grand ?
Echantillon bcp mieux construit, représentation des grps sociaux (supposition), tentative de
construire les groupes sociaux de manière représentative ds l’échantillon et qu’il soit associé à la
population
Sondage américain : aucun des américains ont ft cette technique, juste envoyer en masses les votes
Cmt sont construites les listes d’adresse auxquels vont ê adresser des bulletins de vote ? cmt ils ont ft
leur liste ?
Ils ont utilisé les possesseurs de tel ou d’automobiles, si on a un échantillon biaisé > popu
surreprésenter, alors un énorme échantillon ne compenserait pas cela
Erreurs aléatoires : échantillon tout court ne suffit pas
Sondages par quotas :
⮚ Sondage par quotas : on essaye de construire un échantillon qui est représentative de la

population, cmt on ft ça ? def compliqué, on ft en sorte que certaines variables clés soit la
mm ds l’échantillon et ds la populations, variables souvent dites économique ou
sociodémographique
⮚ On ft en sorte que certaines variables soient vrm les mm, pq ça nous permettrait de dire le
tout, d’interpréter ? Psq certaines variables sont bien représentés, mais c’est pas psq variable
représentatives, les autres le sont, à part si y a corrélation incroyableuh
Méthode par quotas : utilisé par les instituts, méthode bcp moins coûteuse que les sondages
aléatoires, méthode + facile à mettre, nécessite pas une liste de l’ensemble de la popu (aléatoire veut
ça), souvent c’est la seule méthode possible dans l'absence des bases de sondages, méthodes assez
intuitives > grand public comprend le mieux, c’est l’idée qu’on retrouve tout le temps, dans toute
enquête s’appuie sur un échantillon représentatif de la popu, idée qui s’est imposée dans l’espace
public, cette méthode revient en force
Besoin de connaître certaines caractéristiques de la popu > difficile si ce n’est pas un sondaj national
Variables utiliser pr les quotas ? on estime que mesurer un certain nmbr de variables qui sont en
corrélations avec la politique par exemple, repose sur la méthode de représentativité, caractère de
variable qui font les mm dans la popu
Critique de la notion d’échantillon représentatif
Représentativité et théorie de l’échantillonnage : concept qui pose prblm, représentatif ? On peut

dire qu’une variable est représentative mais la qst est est-ce qu’un échantillon est représentatif ?
Échantillon représentatif = variable toute bien représentative, mais le fondement > on peut espérer
que tout soit bien représentée > problème : raisonnement faux
Ex : interroger que les idv qui sont né le premier du mois, à partir de ça, mesurer le revenu de la
popu ? > est-ce que la variable est corrélée ? pas corrélé ça veut dire quoi ? > globalement les gens
qui sont né le premier mois, ils vont avoir un résultat de revenus mais non ils ne vont pas vrm avoir
un revenu diff car tout le monde n’est pas né le premier jour du mois
Si on prenait seulement les gens qui sont né en janvier, on est + âgés, fin année (+ tendance à
redouté que les autres, peut-être maturité ?), phénomène plus sociale, sociologique > + redoublé les
gens en fin d’année, ils sont jeunes, c’est pas grv qu’ils redoublent mais les + âgés c’est grv askip
Sondage non aléatoire :
⮚ Sondage par unité-type : une seule unité statistique peut en elle-même avoir des
caractéristiques celle des autres, une peut ê représentative de l’ensemble
Ex : ds tel bureau arrondissement de bidul, finalement les résultats seront les mm et on n’a pas
besoin d’interroger un échantillon
Un achat peut ê représenté de milliers d’achats, et on ira voir son évolution, d’essayer de constituer
un panier de bien et non plusieurs paniers de biens (unité-type), cas particulier mais assez courant
dans certains domaines
Théorie des sondages et sondages aléatoires :
⮚ Ce sont des méthodes d’enquêtes normales ds les sciences socials, fournit la plus grosse
partie des données
Sondage aléatoire : sondage probabiliste, calcule des probités et la statistique mathématique
Aléatoire ou probabiliste : probabilité c’est quoi ? point important : def (IMPORTAAAANT) tous les
membres ont la mm probabilité, probabilité inégale selon les idv (ça peut arriver mais souvent assez
vrai), plus générale : on connait une probabilité que chaque idv est sélectionné dans la population,
sélectionner un échantillon ds une probabilité que chaque idv est ds la popu, probabilité que la
variable soit diff entre les variables, pouvoir déterminer une probabilité qu’une variable est pareille
aux autres
Attribuer la mm probabilité à tout le monde (plus simple), statistique sur notre échantillon : par
exemple le salaire
Stats inférentielle : étendre les stats d’un échantillon à la population dont est issue l’échantillon
Quelle est la probabilité que dans mon échantillon, ou 52% de la popu souhaite voter pr un certain
candidat, j’obtienne moins de 50% ?
Les calculs de probabilité :
La loi des grands nombres (calculer les probabilités qui sont associés au résultat d’une expérience, 3
lois importantes : loi bernoulli, loi binomiale, loi normale) et le théorème
3 lois : une complexité croissante : la loi bernoulli > loi simple : décrire expérience ou il y a 2
possibilités (ex : sexe de l’enfant)
Loi binomiale : décrit nombre de succès à n épreuves de bernoulli
Cmb de fille parmi 3 enfants ?
Suite voir moodle
Biais, variations aléatoires et erreurs
Cmt faire un sondage d’étude par approche quantitative ?
CM 10/03/2022
Sondage probabiliste et statistiques mathématiques
Stats inférence : généraliser une popu à partir d’un échantillon
Loi de Bernoulli > une expérience ds laquelle, il n’y a que deux résultats possibles. L’un est nommé
réussite et l’autre échec
On note p la probabilité de succès et q la probabilité d’échec.
P = probabilité d’avoir une fille
K : ce qui est pris, total sur ce qu’on va prendre
Loi des grands nombres : très important, si on répète une expérience, la proportion de la réalisation à
un événement devrait tendre vers le la probabilité, si on répète une expérience (= interroger de + en
+ d’idv), idée plus on a d’idv, plus la proportion des prs qui vont voter doit s’approcher du résultat de
la probabilité, plus notre échantillon est diff, plus cela va ressembler au résultat obtenu > la
proportion se rapproche de la probabilité, ds une enquête, plus l’échantillon est élevée, plus ses
caractéristiques sont proches de la population
Plus c’est grand, plus les caractéristiques de la popu augmentent
Les barrières d’indépendance : résultats de chacun de nos expériences, il ne faut pas que le résultat
de qql chose influence notre résultat
Les variables sont les résultats de chaque expériences, chaque expérience sont les mêmes
Boule de neige : interroger un idv et s’orienter vers un autre grâce à ça
Une somme de variables indépendantes et identiquement distribuées tend vers une loi normale
Territoire limite : quelle est la probabilité de se tromper ?
Les non réponses : les votes blancs, ceux qui ne répondent pas aux enquêtes, ils ne sont pas du tout
compris ds le calcul < difficulté
Difficile à mener, pr mener un sondage aléatoire, il faut qu’on sélectionne nous-mm les idv ds une
liste, ce qui peut qu’on affectait à chaque idv une probabilité du sondage
Sondage aléatoire : on peut affecter une probabilité pr chaque idv (choisi dans une liste), mais le
problème c’est qu’on n’a pas de liste sur les idv, c’est un coup très élevé
Un sondage par quota : respecter les quotas, interroger les idv, pas obligé d’envoyer les gens au bout
de l’international, moins cher
Sondage aléatoire simple : def des sondages aléatoires des cours, chaque membre de la popu a la
mmn proba d’être sélectionné ds l’échantillon, chaque membre a la mm proba, def pas insuffisante
Sondage aléatoire stratifié : on s’assure que les échantillons sont constitués de popu, on ft des tirages
séparés, au lieux de sélectionner toutes les prs comme ça, on ft deux tirages au sort séparés (ex : 50%
femmes, 50% hommes)
Sondages à plusieurs degrés : manière de répondre à l’absence de base de sondage (liste de tous les
idv), c’est d’abord sélectionner des groupes ensuite de sélectionner aléatoirement des idv ds ces
groupes, pq ça répond en partie les problèmes ? imaginez on veut une enquête sur des lycéens, donc
on n’a pas forcément de bases de données qui composent tous les lycéens de tout notre pays, on ft
la liste des lycées, après avoir sélectionné un certain nombre de lycée, on va sélectionner des lycéens
à l’intérieur, on peut aussi prendre le ft de sélectionner des régions ensuite des lycées ensuite des
lycéens
Cas particulier : sondage en grappe : sondage à plusieurs degrés, on sélectionne ts les idv d’un mm
groupe, si on sélectionne des lycées, on interroge tous les lycéens de lycée, exemple : enquête qui
mesure le chômage, on interroge un très grand nombre d’idv, pour les interroger, on interroge
d’abord des unités géographiques qui sert à diviser le territoire, faire en grappe : sélectionner les
territoires géographique aléatoirement et sélectionne les idv, on n’a pas besoin de liste de toute la
popu française, on a juste besoin des unités
Sondage à probabilités inégales : certains idv, en fonction de certains caractéristiques, on donne

certaine chance d’être sélectionné, on va exprès biaisé le sondage pr que la popu soit sur-représenté,
on introduit ds le sondage, un biais de sélection ou certains idv auront + de chance d’être sélectionné
selon les caractéristiques donnés, l’une des plus utilisés comme méthode en sociologie
Pour tourner un biais de sélection, pr bcp de calcul, on peut souvent corriger ce biais comme ds les
construction de coefficients de pondérations (moyenne pondéré), si on a un biais de sélection, nous
pouvons pondéré afin de rétablir l’équilibre
Biais, variations aléatoires et erreurs
Variation aléatoire ou erreur aléatoire : deux composantes d’erreurs aléatoires de mesure, il est
important de savoir distinguer, mesure imprévisible (mesurages répétés, varie de façon imprévisible),
va entrainer une imprécision de la mesure ( pas pouvoir être certain de la valeur de notre mesure,
intervalle de confiance, qd je dis que jai 95% de chance d’avoir telle valeur, si jmélange de l’autre
sens, on interroge mnt 1000 idv et jvais mnt exprimer le salaire moyen ds la popu, jpeux faire une
estimation que c’est entre 1000 et 2000, c’est qd beaucoup de chance que ça soit ds la popu > je fais
alors une intervalle de confiance, plus mon intervalle est grande, plus mon résultat est + précis, les
erreurs aléatoires créent des imprécisions, on ne sait pas vrm ou se situe l’erreur
Erreur qui varie mais qui peut se compenser, c’est vrm aléatoire l’erreur lol
Def de la distinguer : variation aléatoire ou erreur aléatoire vs biais ou erreur systématique (opposé
de erreur aléatoire)
Biais : une erreur qui est constante, erreur qui varie de manière très vive, dans ce cas-là, ça ne cause
pas une imprécision mais une surestimation ou sous-estimation, en moyenne, on aura pas le bon
résultat, résultat prévisible (erreur prévisible), un biais n’est pas corrigé par la taille de l’échantillon,
le fait d’interroger + idv ne changera rien, on ft que continuer l’erreur (biais) à grande échelle
Plus l’échantillon est grand, on a peu de chance de faire une erreur aléatoire
Si il y a un taux de non rep, peut-être qu’il y a un taux de biais de sélection, le taux de non rep très
important car il indique un biais de sélection, on va sélectionner un taux d’iv, quelle est la proportion
que le taux de non rep ? Il nous indique s’il y a un biais de sélection ou pas
Le biais de sélection va poser une erreur si la population sous sélectionné font des caractéristiques
particulières
Si ma variable d’intérêt est liée aux variables qui connaissent une erreur, ma variable d’intérêt n’est
pas touché car elle ne connaît pas de corrélation
Un biais de sélection affecte une si :
- Les idv surreprésentés ou sous-représentés ont des comportements particuliers du pdv de la

variable que vous voulez mesurer
- Vous ne pouvez pas leur affecter un coefficient de pondération parce que vous ne connaissez
pas leur répartition réelle dans la population ou que vous ne pouvez pas mesurer leur
caractéristiques particuliers
Par exemple : jveux mesurer le biais d’un objet et je n’ai interrogé que les idv né de chaque
début de mois, biais présumé non corrélé à la variable d’intérêt
Il manque un cours ici, janna m’a envoyé via mail
CM 24/03/2022
Souvent on regarde une corrélation qui peut être expliquer par une autre variable, le sophisme
écologique > déduire une corrélation individuelle à partir d’une corrélation entre données agrégées
(corrélation au niveau agrégé ne veut pas dire corrélation au niveau individuel)
Données agrégées > données individuelles, pr chaque idv, on a son âge et données (pour le
chômage)
Exemple : chez Durkheim, il a observé qu’il y a + de suicide ds les régions ou il y a + de protestants
Est-ce que dans les régions il y a + de protestants, il y a + de suicide ? Il ne faut pas qu’il y a que des
protestants dans des régions de protestants
Robinson W
Selon le type de niveau d’agrégation, il prenait le compte et prenait des corrélations individuelles,
pour se rapprocher d’un idv, il faut qu’il se rapproche de 0
La recherche des effets propres et les méthodes de régression
Qql exemple :
D’abord comprendre c’est quoi un effet propre > quelle est la diff entre les filles et les garçons qd le
niveau est ??
Les garçons réussissent mieux que les filles, un sondage plus élevé > effet brute de différence entre
fille et garçons, + de 20 points pr les garçons
Mais on a distingué les lycées, cette fois-ci c’est +20 pr les filles, effet brute c’est la garçon, et l’effet
propre de la variable sexe c’est + pour les filles, variable du lycée maintenu constante, le +20 c’est le
lycée maintenu constant
Les méthodes de régression, nous permet de trouver des effets propres d’une variable sur une autre
qd de nombreuses autres variables sont maintenues constantes
Modélisation stats (régression)
Construire une équation, un modèle mathématiques permettant d’estimer les effets propres. On
peut alors estimer l’effet d’une variable sur une autre qd de nombreuses variables sont contrôlés
Un exemple de recherche :
Caille J-P, Vallet L-A …
Niveau en fr et en maths des élèves étrangers ou issus de l’immigration
Il compare les différences bruts, comparaison biaisés car les élèves fr sont souvent + favorisés, en
moyenne ils sont + favorisés, maintenant si on compare, on tient compte des milieux sociales, on ne
compare que les immigrés et les français qui ont des milieux identiques, dans ce cas-là, la différence
en mathématique disparait
C’est pas psq qu’ils sont issues d’une famille immigrée qu’ils sont moins bons en maths, c’est psq ils
sont nés ds une famille désavantagés de milieux immigrés
Limite de la régression : toutes kes variables de contrôle nécessaire ne sont pas observés. Si on
observe corrélation entre deux variables, peut ê expliquer de nombreuses façon. Certaines
observables d’autres non, jamais qu’on a toute observé
La corrélation qu’on observe peut ê du à de nombreuses variables non observés qui biaisent notre
résultat. Ex : les petites classe ont de meilleures résultats. Dois-je en conclure qu’il existe une relation
de causalité entre taille de classe et réussite scolaire ?
Régression multiple :
Toute une différence non observé des enfants qui peuvent expliquer le résultat, ce qu’on ne peut pas
contrôler, c’est dû aux données d’observations, on verra qu’à l’inverse, on ne peut pas contrôler tous
les variables cachées, les données d’observation (= mesurer les caractéristiques de la réalité sociale
sans les modifier)
Ds les sciences sociales, le + souvent, on utilise les données d’observations car on peut modifier la
réalité, on peut essayer de mettre par exemple un objet, une particule dans pleins de conditions
différente, par exemple un humain, on ne sait pas quoi faire, psq il y a des limités.
Justement on peut tjr être limiter par ce problème de variable caché, mais on verra que c’est pas le
cas sur les données d’expérimentations
Expérimentation :
3 types
L’expérimentation en psychologie sociale :
Observer : récolter des données sur la réalité sans la modifier
Expérimentation : changer la réalité, voir moodle mon gars
Bernard : ù Ds les sciences qui, comme dans l’astronomie, resteront tjr pour nous des sciences
d’observation, psq les phénomènes qu’elles étudient sont hors de notre sphère d’action etc voir
moodle
Expérience : modalité des variables, les caractéristiques sont décidés par l’acteur, l’acteur va décider
quel idv va être désigner sur telle place
Analyse d’observation : toutes les variables sont non assignées
Psychologie : partage psychologie, + proche de la socio, c’est la psychologie sociale
Stanley Milgram : effet d’autorité, sujet d’expérience, choc électrique s’il répond mal, pas mal de
personnes obéissent à des ordres données, idée d’expliquer les crimes nazies, défendu par les ordres
(moi j’obéis aux ordres, pas ma fot), la personne qui donne l’ordre qui est responsable et non celui
qui l’exécute, influencer par le directeur Asch (son expérience sur le conformisme, 3 bâtons et on
peut dire parmi les bâtons ici, lequel est le plus grand, on ft passer de faux sujets que le vrai sujet
entend, on se trompe systématiquement car 6 personnes répondent ça et cela va influencer l’autre)
Effet d’ancrage :
Combien mesure une baleine bleue de + 49m ?, ds le deuxième groupe, combien mesure une baleine
bleu ?
La première qst a influencé l’idv dans un sens, effet d’ancrage qd on a donné un premier chiffre et on
se ft influencer par celui-ci
Loi des gd nombres
Sur une année, ds un plus grand hôpital, on répète les chances, on va avoir des variations + grand,
c’est comme si on allait avoir un sondage moins grand
Sophisme du Joueur :
Toutes les familles de 6 enfants d’une ville sont étudiées, ds 72 familles l’ordre exact des naissances
filles-garçons est F-G-F-G-G-F
Quelle est votre estimation du nombre de famille ds lesquelles l’ordre exact des naissances est G F G
GGG?
Réponse : 72 psq chaque séquence à la mm probabilité
Le sophisme du joueur c’est de penser qu’un mélange de résultat serait + probable qu’un autre
résultat, chaque séance a la même probabilité
Je peux soumettre les idv à des conditions très particulières, le problèle de l’expérimentatuin, c’est
qu’elle se déroule ds un cadre particulier, un laboration (pas celui de la vie réelle). On peut manipuler
de nombreux facteurs pour voir les conséquences de ces variables
On ne sait pas si les résultats sont généralisables hors du cadre de l’expérimentation.

Expérimentation avantage : isoler un facteur
Le problème des données d’observation
Le problème c’est qu’il y a des variables cachés
Randomiser :
Exemple : assigné des idv à des grandes classes et petite classe, si on fait ça, cela veut dire que toutes
les variables cachés vont être répartis équitablement, on ft en sorte que les variables non observés
soient réparties dans différents groupes
On a des groupes, la seule diff entre les groupes, c’est les traitements, par exemple on a assigné des
petites classes et grandes classe = traitements, c’est comme ça, qu’on peut mesurer
Le fait de construire aléatoirement les groupes, les différents groupes seront du qu’au hasard,
constitué de manière aléatoirement (par l’expérimentateur)
Deux utilisations de l’aléatoire :
L’échantillonnage aléatoire est très différent face à l’expérience aléatoire, la sélection aléatoire, est
une validité externe (représentation de la réalité), interne > estimation de la causalité
Ds les statistiques, l’échantillonnage : estimer les paramètres d’une population, expérience : évaluer
l’effet causal d’un traitement
Validité interne, externe et compromis
Très souvent il n’est pas possible d’assigner des idv aléatoirement à des groupes, exemple des ptites
classes et grandes, si on dit à des parents d’élèves qu’on va faire selon ptites classes et grandes =
parents pas content, vont donc essayer de biaisé l’expérience
Aussi assigné aléatoirement des enseignants, l’enfant devrait rester dans leur classe pendant 3 ans,
voir l’effet à long terme
Par ailleurs, seulement des écoles assez grosses pouvaient mettre en place l’expérimentation, on
sélectionne 79 écoles parmi une popu de 100 écoles volontaire qui respectent les critères de taille. La
def de la popu à laquelle on peut inférer les résultats ‘n’est pas entièrement claire, la généralisation
est problématique, mais pas l’établissement de la causalité/problème de validité externe mais pas de
radicalité interne
Problème posés à la validité interne : certains parents ont réussi à obtenir que leur enfant soit ds les
classes les plus petites, on va observer un écart important
Effet Hawthorne : idv changement de comportement parce qu’ils font partie d’une expérience
Effet John Henry : l’expérimentateur et le participant ne savent pas ds quel groupe ils sont
Attrition : idv abandonne l’expérience, des gens qui déménagent, est-ce que ces non réponses, par
exemple si les grandes classes abandonnent souvent les résultats, ça va biaiser le résultat
Meilleures expériences
Randomisée, double aveugle, contrôlé de l’effet placebo > le simple fait que c’est un médicament
même si cela n’en ai pas, car on pense que s’en un ça nous soigne alors que de base ça nous fait rien
Les expérimentations sont en théorie bien meilleures pour prouver la causalité, Elles sont néanmoins
bcp plus difficiles à faire dans les scuebces sociales. Elles posent de nombreux problèmes éthique et
politique à faire les sciences sociales. Elles posent de nombreux problèmes éthiques et politiques.
Méthode standard ou en médecine, difficile à appliquer dans les scuences sociales
Expérience naturelle :
Va être un compromis entre expérience et bidul, quasi-expérimentation vont essayer de trouver des
situations naturelles ds lesquelles l’assignations est exogène, apprendre des expériences qui ont lieu
naturellement
Exemple : idée que les idv qui sont des ptites classes ont peut ê des caractéristiques particulière, vont
essayer de passer aux grandes classes, forme d’assignation aléatoirement, forme d’ouragan qui va
décider quel élève qui va décider quel élève va passer dans une autre école, y a pleins en économie
qui vont de ces associations d’exogènes chercher des phénomènes climatiques

Copie de Méthodes D'enquêtes S2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Copie de Méthodes D'enquêtes S2

Transféré par

Droits d'auteur :

Formats disponibles

Note de Laure, s’il y a des choses dont vous ne comprenez pas, demandez-moi

ps : il n’y a pas tous les cours, car j’étais absente

- Examen de deux heures

Parfois vont ds des concepts statistiques

Généraliser une popu/résultat qu’on a eu ds un échantillon (statistique inférentielle)

Expliquer ce qu’est un sondage aléatoire et expliquer ce qu’est une inférence statistique

Sondage aléatoire et sondage normal

On considère qu’il y a un bon sondage en méthode de quota, en stats c’est le contraire

Connaître bien son couuuuuuuuuuuuuuuuuurs

Première partie : + théorique, les méthodes d’enquête classique en sciences sociales

- Chap 1 théorie et construction de l’objet

Deuxième partie : Corrélations, causalités et expérimentation

- CHap 4 Corrélations, causalité et paradoxes statistiques

Troisième partie : Méthodes quantitatives non classiques

- Chap 7 Théorie des jeux et analyse mathématique de la démocratie

Elles servent au départ des objectifs fiscaux et militaires

- Civilisation sumérienne ‘ fin du 4ème millénaire avant J-C et durant le 3eme)

Statistiques associées au développement de l’Etat démocratique

- Recensement, mesure des variables démographiques et économiques, pauvreté, etc.

Résistance importance ds les sciences importantes, que l’humain serait particulier

Généraliser un résultat obtenu d’un échantillon, on a ft un échantillon, exemple : on a donné des

Appliquer les stats aux comportements humains ?

Trump : une victoire prévisible ?

Le 6 novembre, Nate Silver donne une probabilité de 64% à Clinton de gagner

Il prévient que Clinton pourrait néanmoins perdre :

Elle a une avance de 3 points :

- Il arrive souvent que les sondages se trompent de 3 points.

En revanche ds une base d’individu, les comportements vont devenir prédictibles

Exemple : Planche de Galton

2 manière de rep à la qst :

Exemple du pile ou face

Les notes pas vrm prédictibles mais les comportements d’individu si

Mesurer des faits sociaux

Mesurer des réalités mal connues ou perçues de façon biaisée

Mesurer des faits sociaux pr obtenir des résultats attendus

⮚ Informer le débat public les politiques publiques

Est-ce qu’il y a une mobilité sociale ?

Les femmes sont-elles moins bien payées que les hommes ?

Evaluer les violences faites aux femmes

Observer et quantifier le quotidien de la popu française

⮚ Tester des hypothèses sociologiques

Essayer de voir s’il y a des corrélations entre les comportements

Tester des hypothèses sociologiques

Le taux de suicide dépend-t-il de la religion ? (Durkheim)

La probabilité de réussir ses études dépend-t-elle de la profession de ses parents ? (Bourdieu,

Qql exemple : Milieu social et comportements

- Grp socioprofessionnel et espérance de vie

- Grp socioprofessionnel et trajectoire scolaire

Suite sur la recherche de loi :

- On ne recherche ps vrm des lois

On peut avoir une tendance aussi qui peut se retourner (croissant)

Evolution de la mobilité sociale :

Prédire les sondages électoraux, résultats présidentielles

Utilisation des cartes de fidélité, algorithme de recommandation

Stats info : compétences en termes de manipulation des données

Expertise : connaissance + du domaine dont relève les stats

Théorie et construction de l’objet

Les relations entre observations, mesure et concept

Décrire la hiérarchie sociale

Décrire la mobilité sociale

Considéré aussi comme un empirisme naïf

C’est quoi l’empirisme : l’idée que la connaissance vient de l’extérieur, là ou il y a du monde, de

Rationalisme : connaissance viendrait seulement de la raison, du raisonnement