Vous êtes sur la page 1sur 18

Note de Laure, s’il y a des choses dont vous ne comprenez pas, demandez-moi

ps : il n’y a pas tous les cours, car j’étais absente

03/02/2022

Validation

- Examen de deux heures


- Entre 15 et 20 qsts courtes
- Savoir lire correctement un tableau
- Il faut très bien connaître son cours !

Parfois vont ds des concepts statistiques

Exemple de qst :

Généraliser une popu/résultat qu’on a eu ds un échantillon (statistique inférentielle)

Expliquer ce qu’est un sondage aléatoire et expliquer ce qu’est une inférence statistique

Exemple : Si ds une enquête, je ne sélectionne que des idv nés le 1 er de chaque mois, pourrais-je
estimer le revenu de la population à partir de cette enquête ? Justifier votre réponse

Mauvaise : le 1er de chaque mois n’a rien à voir avec le revenu, ça n’a rien à voir

Meilleur : on peut si on ft une exposition et effectivement s’il n’y a pas de corrélation entre les 2
variables. S’il n’y a pas de corrélation, pourrait alors en déduire

Sondage aléatoire et sondage normal

On considère qu’il y a un bon sondage en méthode de quota, en stats c’est le contraire

Connaître bien son couuuuuuuuuuuuuuuuuurs

Première partie : + théorique, les méthodes d’enquête classique en sciences sociales

- Chap 1 théorie et construction de l’objet


- Chap 2 Intro à la théorie des sondages
- Chap 3 Les grandes enquêtes en sciences sociales

Deuxième partie : Corrélations, causalités et expérimentation

- CHap 4 Corrélations, causalité et paradoxes statistiques


- Chap 4 effet propre et modèles de régression
- Chap 6 Expérience randomisée et expérience naturelle

Troisième partie : Méthodes quantitatives non classiques

- Chap 7 Théorie des jeux et analyse mathématique de la démocratie


- Chap 8 Analyse des réseaux, big data et sciences sociales

INTRODUCTIOOON :

Les méthodes quantitatives sont appliquées depuis très longtemps pr comprendre la société.

Elles servent au départ des objectifs fiscaux et militaires

- Civilisation sumérienne ‘ fin du 4ème millénaire avant J-C et durant le 3eme)


- Egypte Antique
- Etc.

Statistiques associées au développement de l’Etat démocratique

- Recensement, mesure des variables démographiques et économiques, pauvreté, etc.

On peut concevoir différentes def des statistiques, d’habitude une branche mathématique mais
c’est aussi des statistiques très associés à l’etat, ils vont plutôt compter pour l’etat, dans tous les
pays développés ont une institut national de stats

Finalement avec ces développements d’état, ils vont compter sur les stats, il y a développement
de stats avec les développements de l’Etat

Combien y a-t-il d’habitants pour les territoires ? Il faut savoir qui a le droit de voter, avec le
développement de l’Etat, nous avons un développement important des statistiques

Résistance importance ds les sciences importantes, que l’humain serait particulier

Leur application en SHS et plus généralement celle des mathématiques ft souvent l’objet de
résistances : l’humain serait « particulier ».

Il est vrai qu’il existe sans doute pas de théorie mathématique qui permette de faire des
prédictions très précises des comportements humains (mais c’est aussi le cas dans de
nombreuses sciences de la nature)

Les statistiques jouet néanmoins un grand rôle ds les SHS : Elles permettent d’observer des
phénomènes macrosociologiques, de généraliser à une population les résultats obtenus sur un
échantillon ou encore de tester de théories sociologies.

Généraliser un résultat obtenu d’un échantillon, on a ft un échantillon, exemple : on a donné des


médicaments à un tel, on se demande si ça va marcher sur toute la population

Tester les théories sociologiques, par exemple : la réussite scolaire, les gens qui ont une certaine
origine sociale, ont + de chance de réussir leur étude, théorie générale

Appliquer les stats aux comportements humains ?

« les experts qui travaillent avec des moyennes, des pourcentages, des courbes, les calculateurs
froids qui se nourrissent des tendances et de forces invisibles ne furent pas meilleurs que les
échantillonneurs de cartes portales… Comment pouvons-nous appliquer des pourcentages au
comportement collectif humain ? » Editorial du New York Times du 7 Novembre 1936

Resistance spontané, il y a aucun argument à part dire que l’humain est particulier

Qql exemple :

En 2012, Nate Silver prévoit correctement les résultats de l’élection présidentielle américaine ds 49
Etats.

Après sa victoire, il eut un statisticien, Nate silver, il est spécialiste des prédictions sportifs,
performance des joueurs, il a essayé de prévoir les sondages à partir des nouveaux sondages,
élection très difficile à prévoir car il y a des élections ds chaque Etat

Il a été accuser par des américains d’être démocrate, de faire gagner Obama, accuser de triche
On peut avoir raison sur une prédiction mais pas sur 49, il a réussi alors à prédire, on ne peut pas
avoir de chance à chaque fois

Election de Trump

Trump : une victoire prévisible ?

Le 6 novembre, Nate Silver donne une probabilité de 64% à Clinton de gagner

Il prévient que Clinton pourrait néanmoins perdre :

Elle a une avance de 3 points :

- Il arrive souvent que les sondages se trompent de 3 points.


- En 2020, Obama a fait 3 points de plus que de ce que prévoyaient les sondages

Il s’est tout de même trompé mais moins que les autres, il était au moins prévoyant de la défaite de
Clinton

Le collectif prévisible ?

Souvent les comportements individuels sont imprédictibles, pourtant leur agrégation l’est

En revanche ds une base d’individu, les comportements vont devenir prédictibles

Exemple : Planche de Galton

On lâche des boules et nous avons un ensemble de petit obstacle, ils vont à gauche ou droite

Si nous la lâchons, nous ne savons ou pas elle ira, mais si on raisonne, on peut supposer sa direction
mais nous ne savons tout de même pas ou elle ira

Elle va être prédictible ds le long terme, puisqu’une courbe va se former (sorte de colline)

Le trajet d’une boule est imprévisible tandis que si nous suivons ds le long terme, nous verrons que le
résultat est déterminé

2 manière de rep à la qst :

Si on est un physicien, la boule sera attirait par la gravité et nous pouvons selon son poids, on peut
présumer ou elle va partir mais peut devenir très vite compliqué

Statisticien : on s’en fiche de tout ça, finalement la ou elle va arriver va correspondre au nombre de
fois ou elle ira, si elle va toute à droite, ça veut dire qu’elle n’est jms allée à gauche et inversement

Quel type d’expérience, on peut présumer ds l’aléatoire, on peut montrer que le résultat peut arriver
ds une voie normale

Exemple du pile ou face

Exemple : la distribution des boules correspond pas mal à la distribution des poids des enfants à la
naissance en 2011

Les notes pas vrm prédictibles mais les comportements d’individu si

Mesurer des faits sociaux

Mesurer des réalités mal connues ou perçues de façon biaisée


Plus le sujet est politique, plus sa perception risque d’être biaisée ou fausse

Mesurer des faits sociaux pr obtenir des résultats attendus

Plusieurs objectifs

⮚ Informer le débat public les politiques publiques


- Statistiques du chômage, richesse du pays pauvreté, fécondité, migration, résultats
électoraux, etc…

Inégalités augmentent-elles ?

L’immigration augmente-t-elle ?

Est-ce qu’il y a une mobilité sociale ?

Les femmes sont-elles moins bien payées que les hommes ?

Evaluer les violences faites aux femmes

Observer et quantifier le quotidien de la popu française

⮚ Tester des hypothèses sociologiques


- La relation entre des caractéristiques sociologiques et des comportements

Essayer de voir s’il y a des corrélations entre les comportements

Tester des hypothèses sociologiques

Le taux de suicide dépend-t-il de la religion ? (Durkheim)

La probabilité de réussir ses études dépend-t-elle de la profession de ses parents ? (Bourdieu,


Boudon, etc.)

La probabilité de voter pr un candidat aux élections dépend-t-elle du métier que l’on exerce ?

Qql exemple : Milieu social et comportements

- Grp socioprofessionnel et espérance de vie

Grp socioprofessionnel (catégorie socio pro), nomenclatures des PCS (professions et catégorie
socio pro, agriculteur, artisans)

- Grp socioprofessionnel et trajectoire scolaire


- Grp socioprofessionnel et pratiques culturelles

Recherche de lois ?

On recherche des tendances, des régularités pr la plupart du temps et non des lois.

10/02/2022

Suite sur la recherche de loi :

- On ne recherche ps vrm des lois


- Mais des tendances, des régularités, mais aussi des phénomènes historiques importants >
qui vont pouvoir suivre les évolutions différentes comme le ft qu’il y a différents
phénomènes, les idv qui appartiennent au mm grp pro que leur pair

On peut avoir une tendance aussi qui peut se retourner (croissant)

Evolution de la mobilité sociale :

La barre des idv que expliquent leur pair, garder le groupe socio-pro qui vont abréger de la
montature (l’augmentation ?) des CSP

Evolution de l’endogamie :

Les femmes avaient tendance à se marier avec un homme hom ome de mm profession qu’eux
avant, mais ça a diminué au fil du temps

Prédire les sondages électoraux, résultats présidentielles

Prédiction des élections > un peu compliqué, cela dépend des élections, faire des erreurs de 2 ou
3 points change largement le résultat

Autre exemple : réseaux sociaux, on peut retracer les gens et savoir un peu près des informations
nécessaires

Données numériques : covid 2019, est-ce que les idv respectent le confinement ou pas ? utiliser
les données des tel pr savoir si les gens cherchent des plans itinéraire, grâce au tel, suivre des
informations nécessaires

Le marketing

Prédire le comportement des consommateurs, parfois le site commercial va traquer les infos et
reproposer qql chose de + intéressant

Utilisation des cartes de fidélité, algorithme de recommandation

Conclusion :

Il y a bcp d’utilisation de stats en sciences sociales, ça nécessite aux compétences diverses > la
statistique mathématique : compréhension des concepts

Stats info : compétences en termes de manipulation des données

Expertise : connaissance + du domaine dont relève les stats

Chapitre 1

Théorie et construction de l’objet

Les relations entre observations, mesure et concept

Décrire la hiérarchie sociale

Décrire la mobilité sociale

Finalement toute mesure nécessite des théories et des concepts, sujet trait philosophique, il n’a pas
d’observation pur mais des théories concrètes

L’EMPIRISME
Henri Poincaré : considéré comme l’un des plus grands mathématiciens du 20 ème siècle

Il a fait un certain nmbr d’ouvrage qui décrit finalement ses démarches, intitulé également
philosophies des sciences

Considéré aussi comme un empirisme naïf

C’est quoi l’empirisme : l’idée que la connaissance vient de l’extérieur, là ou il y a du monde, de


l’observation et de l’innocence > s’appuie que sur la démonstration et non la théorisation

Opposition…………….

Rationalisme : connaissance viendrait seulement de la raison, du raisonnement

Le physicien > + empirique, démonstration

L’idée de la science serrait d’observer la chose avec le + possible de neutralité possible

Finalement s’y faire de la science, accumuler des données.

« On dit souvent qu’il faut expérimenter sans préconçue… »

Fait important sur fait et théorie : « on ft la science avec des faits, comme on ft une maison avec des
pierres… » suite moodle

L’observation n’est pas neutre :

Prblm : pr observer la réalité, on ne peut pas vrm la réalité, l’observer d’une manière instinctive,
nécessite pas avec des concepts et des théories

Exemple : cmt observer le chômage ? c’est quoi ? dimension générale qui est évident mais que veut
dire ne pas avoir d’emploi ? Certains vont penser qu’il faut cela pour survivre ?

Le simple fait de vouloir avoir un autre emploi > chômage

Quelle mesure on considère que la prs veut chercher un emploi ? Psq idv découragé ? ou sinon il
voulait bien avoir un chômage

Elle va impliquer d’un certain nrmbre d’heure, chercher un emploi, mais que cela veut dire ?

Définir le chômage avant.

Mise en couple : sondage en France, mais c’est quoi un couple ? > pareil notion plutôt évidente,
pleins de nuances plusieurs pr déterminer un couple, est-ce qu’il faut vivre ensemble ? est-ce qu’un
couple c’est forcément à deux ? ce n’est pas évident pr prouver que qqln est en couple ou célibataire

Donc ça demande, la def des catégories

Empirique naive : je me contente d’observer la réalité > mais il y a plusieurs notions qui se considère
importante

Durkheim s’intéresse aux stats de suicide, lien entre le suicide et l’intégration sociale

Faut chercher ce qu’un phénomène implique réellement

Exemple : Newton va étudier une pomme selon la gravité, il ne suffit pas d’observer pour savoir les
lois de la gravité, c’est pq la pomme tombe sur la terre et pas la lune ? s’intéresser sur les ft évidents
et les interroger
Il n’a pas d’observation pure, il faut des concepts

Exemple : courant électrique passe, il faudrait des théories monsieurs, dames

Finalement ça a mis énormément de temps pr l’élaborer

Ex : comment compter la richesse, pib (concepts ds les années 30 du 20 e siècle, ça a nécessité bcp de
travaux pr mesurer la richesse d’un pays), croissance de l’éco

Physiocrate : pr eux, seul la Terre est une ressource, tout vient de la terre, c’est ceux qui ont bcp de
terre qui ont une grande richesse

Cmt mesurer la pauvreté d’un pays ? LE PIB A DECIDE DE SE MANIFESTER ET FAIRE DES BRAS DE FER
pour mesurer l’économie/la richesse.

« Egal à la somme des valeurs ajoutées brutes différents secteurs… »

Echange marchand, Pib indicateur de la richesse mais encore une fois il faut la def de la richesse
(échange marchand)

Ciritique du PIB

- Aider gratuitement un collégien à faire ses exercices de math, vous n’ajoutes rien à la
richesse du pays
- Si vous vous faites payer sans le déclarer, le pays ne s’enrichit pas (officiellement)
- Si vous vous faites payer et que vous le déclarer, le pays s’enrichit

Indicateur de la seule richesse économique

Pas de prise en compte du bonheur, de la santé, etc

La rupture avec les prénotions

Construction de l’objet : nous ne pouvons pas les construire nous même

Construire son objet : terme souvent vu, l’objet finalement, à nous de le construire ds des concepts
pr pouvoir l’observer

Plus généralement : conquis, construit et constaté

La rupture : le ft est conquis contre l’illusion du savoir immédiat

Le fait est construit : il faut élaborer des concepts et des catégories pr saisir le réel

Le fait est ensuite constaté

Pierre Bourdieu a construit de nombreux concepts : champ, habitus, capital symbolique, violence
symbolique

Les qst posées sont alors spécifiques à cette théorie :

- Cmt s’est transformé le champ de la littérature ?


- Comment accumule-t-on du capital symbolique ds le champ du cinéma ?

Décrire la hiérarchie sociale

Il existe de nombreux concepts et oppositions : riche/pauvre, bourgeois/prolétaire, classe


supérieure/classe populaire
Classe sociale, grp social, milieu social, catégorie socioprofessionnelle, etc

Hiérarchie des salaires :

Dépend de la manière des mesures, tendance général

Décrire la hiérarchie sociale

Différentes mesures des inégalités économiques

En sociologie, nous pouvons souvent parler de cadre, d’ouvrier, peut ê mesurer de nombreuses
stations différentes, il y a plusieurs façon d’aborder ne veut pas dire qu’on fait ce qu’on veut

Pr mesurer la richesse, les instituts de stats vont développer différents concepts, revenue salaire,
niveau de vie > on rapport le RDB au nombre d’unité de consommation

1 UC pr le premier adulte 0,5 pr les autres prs de + de 14 ans et 0,3 pr les enfants de moins de 14 ans

On suppose une mutualisation complète des ressources, pq ? si on prend un ménage si un des


adultes gagne 4K euros et l’autre rien, le deuxième vivra de ses 4K euros également, on ft comme si
les adultes partageaient leur argent mais pas forcément le cas

Nomenclatures des professions

Une inspiration marxiste : mesurer la position ds les rapports de production économique

Des nmbreuses nomenclatures nationales (PCS) et internationales (ISCO, ESeC)

Revenu et patrimoine

Patrimoine : ensemble de l’argent qu’on a, la totalité, les revenus du patrimoine nous traite
différemment psq la plupart des gens ont au moins un salaire, c’est finalement un patrimoine qui ont
un revenu des prs

Manière de décrire la hiérarchie

COURS SUR FEUILLE

24/02/2022

La qst initiale « la mobilité sociale a-t-elle diminué ? »

Peut donc recevoir des reps différentes selon le type de mobilité sociale dont on parle

Elle suscite une autre qst : ds l’évolution du lien entre origine sociale et position cmt faire la plupart
entre

- Une transformation structurelle de la distribution des positions sociales


- La détermination de la position d’un idv par celle de son milieu d’origine

Mobilité parfaite : lien stats entre l’origine et position sociale > mesurer la fluidité sociale ?

Mobilité absolu et lien < parfaitement diff

Mobilité sociale < dépend de la taille des grps sociaux

Position social et origine < aucun lien


Rupture avk les prénotions : écarter toutes les prénotions, traits de base ds tous les bails
scientifiques

Conclusion : Parler de rupture est trop fort

- On commence avec les concepts du sens commun (inégalité, ascension sociale, chômage) et
on les améliore au fil du travail scientifique

Une rupture graduelle :

Quine : citation moodle

Chapitre 2 Introduction à la théorie des sondages

Deux querelles des méthodes :

Une ancienne et une à peu près new

- Sondage contre recensement :


⮚ Recensement : étudier ts les idv d’une popu. En mettant en place une enquête par
opposition au sondage, nous avons interrogé une partie des idv ds l’ensemble (échantillon),
on interroge une partie des membres d’une popu
⮚ 1895 > commence un débat entre partisans des méthodes par sondages et échantillonnages,
mais aussi par méthode ésautive (jsp l’écrire mais ça se prononce comme ça), Kiaer, un des
seuls qui va défendre la méthode représentative, recenser la popu, Kier voulait étudier le
chômage (il avait très peu de donnés dans les recensements de son pays), le problème c’est
que ça coute très cher de faire un énorme sondage sur toute la popu, il a donc décidé de
faire un échantillon (recensement = très cher), donc faire une enquête par échantillonnage,
on va étudier encore + de chose grâce à ça, étudier de nombreuses enquêtes
⮚ Défend l’idée qu’on peut étudier une partie de la popu pr étudier le tout < très forte
opposition de la part des statisticiens (on ne peut pas généraliser), qu’est-ce que nous
permet de savoir en interrogeant juste une partie de la popu ? , position au départ critique
sur cette méthode mais va qd mm progressivement s’imposer, Kier considère que c’est
légitime

Exemple : qd on goute une soupe, on la goutte un peu, on la considère comme chaude donc on
attend pas la suite, on la laisse refroidir, parfois en connaissant une toute petite partie, ça peut
comprendre la grosse partie

Soupe extrêmement homogène < tout mixer = ouais c’est mm goût, mais un brouillon, imagine la
viande pas cuite lol

Alors construire un échantillon de manière représentatif, critiqué mais s’est imposé

1925 > institut des stats vont reconnaître 2 méthodes d’échantillons, on l’appelle à l’époque du choix
judicieux (devient méthode par quotas) et l’autre s’appelle méthode aléatoire, reconnaissance des
deux méthodes mais la méthode aléatoire va s’imposer

Méthode par quotas : + connus

En réalité, pr les statisticiens la méthode la plus correcte est la méthode aléatoire, institut
scientifique > mène uniquement les méthodes aléatoires et non méthode par quotas
Même par la suite, il peut s’avérer de moins bien bonne qualité, il faut avoir les moyens de bonne
qualité pour bien les interroger, enquête + biaisé ? car on n’a pas réussi à toucher énormément de
popu, ça serait une trop grande popu < entraîne moins bonne qualité

Exemple du fondateur :

1936, The literary Digest et george Gallup.

Controverse : pr illustrer l’importance d’avoir un échantillon bien construit, + important que avoir
qu’un grand échantillon, mettre l’accent sur la représentativité et sa traduction par l’application de
quotas

USA : vote de paille > traduction direct de vote blanc, des journaux qui organisent des journées pr
apprêter les élections, envoyer des bulletins de votes pr voir pr qui ils vont voter

Le journal américain organise comme ça un vote blanc et obtient 2m de réponses, George Gallup
vient de fonder une institution de sondage (l’un des prems), prédit la victoire d’Alfred Landon,
prédiction du gagnant juste en se basant sur 4k de votes

Qst : comment les américains se sont trompés avec un échantillon bcp plus grand ?

Echantillon bcp mieux construit, représentation des grps sociaux (supposition), tentative de
construire les groupes sociaux de manière représentative ds l’échantillon et qu’il soit associé à la
population

Sondage américain : aucun des américains ont ft cette technique, juste envoyer en masses les votes

Cmt sont construites les listes d’adresse auxquels vont ê adresser des bulletins de vote ? cmt ils ont ft
leur liste ?

Ils ont utilisé les possesseurs de tel ou d’automobiles, si on a un échantillon biaisé > popu
surreprésenter, alors un énorme échantillon ne compenserait pas cela

Erreurs aléatoires : échantillon tout court ne suffit pas

Sondages par quotas :

⮚ Sondage par quotas : on essaye de construire un échantillon qui est représentative de la


population, cmt on ft ça ? def compliqué, on ft en sorte que certaines variables clés soit la
mm ds l’échantillon et ds la populations, variables souvent dites économique ou
sociodémographique
⮚ On ft en sorte que certaines variables soient vrm les mm, pq ça nous permettrait de dire le
tout, d’interpréter ? Psq certaines variables sont bien représentés, mais c’est pas psq variable
représentatives, les autres le sont, à part si y a corrélation incroyableuh

Méthode par quotas : utilisé par les instituts, méthode bcp moins coûteuse que les sondages
aléatoires, méthode + facile à mettre, nécessite pas une liste de l’ensemble de la popu (aléatoire veut
ça), souvent c’est la seule méthode possible dans l'absence des bases de sondages, méthodes assez
intuitives > grand public comprend le mieux, c’est l’idée qu’on retrouve tout le temps, dans toute
enquête s’appuie sur un échantillon représentatif de la popu, idée qui s’est imposée dans l’espace
public, cette méthode revient en force

Besoin de connaître certaines caractéristiques de la popu > difficile si ce n’est pas un sondaj national
Variables utiliser pr les quotas ? on estime que mesurer un certain nmbr de variables qui sont en
corrélations avec la politique par exemple, repose sur la méthode de représentativité, caractère de
variable qui font les mm dans la popu

Critique de la notion d’échantillon représentatif

Représentativité et théorie de l’échantillonnage : concept qui pose prblm, représentatif ? On peut


dire qu’une variable est représentative mais la qst est est-ce qu’un échantillon est représentatif ?

Échantillon représentatif = variable toute bien représentative, mais le fondement > on peut espérer
que tout soit bien représentée > problème : raisonnement faux

Ex : interroger que les idv qui sont né le premier du mois, à partir de ça, mesurer le revenu de la
popu ? > est-ce que la variable est corrélée ? pas corrélé ça veut dire quoi ? > globalement les gens
qui sont né le premier mois, ils vont avoir un résultat de revenus mais non ils ne vont pas vrm avoir
un revenu diff car tout le monde n’est pas né le premier jour du mois

Si on prenait seulement les gens qui sont né en janvier, on est + âgés, fin année (+ tendance à
redouté que les autres, peut-être maturité ?), phénomène plus sociale, sociologique > + redoublé les
gens en fin d’année, ils sont jeunes, c’est pas grv qu’ils redoublent mais les + âgés c’est grv askip

Sondage non aléatoire :

⮚ Sondage par unité-type : une seule unité statistique peut en elle-même avoir des
caractéristiques celle des autres, une peut ê représentative de l’ensemble

Ex : ds tel bureau arrondissement de bidul, finalement les résultats seront les mm et on n’a pas
besoin d’interroger un échantillon

Un achat peut ê représenté de milliers d’achats, et on ira voir son évolution, d’essayer de constituer
un panier de bien et non plusieurs paniers de biens (unité-type), cas particulier mais assez courant
dans certains domaines

Théorie des sondages et sondages aléatoires :

⮚ Ce sont des méthodes d’enquêtes normales ds les sciences socials, fournit la plus grosse
partie des données

Sondage aléatoire : sondage probabiliste, calcule des probités et la statistique mathématique

Aléatoire ou probabiliste : probabilité c’est quoi ? point important : def (IMPORTAAAANT) tous les
membres ont la mm probabilité, probabilité inégale selon les idv (ça peut arriver mais souvent assez
vrai), plus générale : on connait une probabilité que chaque idv est sélectionné dans la population,
sélectionner un échantillon ds une probabilité que chaque idv est ds la popu, probabilité que la
variable soit diff entre les variables, pouvoir déterminer une probabilité qu’une variable est pareille
aux autres

Attribuer la mm probabilité à tout le monde (plus simple), statistique sur notre échantillon : par
exemple le salaire

Stats inférentielle : étendre les stats d’un échantillon à la population dont est issue l’échantillon

Quelle est la probabilité que dans mon échantillon, ou 52% de la popu souhaite voter pr un certain
candidat, j’obtienne moins de 50% ?
Les calculs de probabilité :

La loi des grands nombres (calculer les probabilités qui sont associés au résultat d’une expérience, 3
lois importantes : loi bernoulli, loi binomiale, loi normale) et le théorème

3 lois : une complexité croissante : la loi bernoulli > loi simple : décrire expérience ou il y a 2
possibilités (ex : sexe de l’enfant)

Loi binomiale : décrit nombre de succès à n épreuves de bernoulli

Cmb de fille parmi 3 enfants ?

Suite voir moodle

Biais, variations aléatoires et erreurs

Cmt faire un sondage d’étude par approche quantitative ?

CM 10/03/2022

Sondage probabiliste et statistiques mathématiques

Stats inférence : généraliser une popu à partir d’un échantillon

Loi de Bernoulli > une expérience ds laquelle, il n’y a que deux résultats possibles. L’un est nommé
réussite et l’autre échec

On note p la probabilité de succès et q la probabilité d’échec.

P = probabilité d’avoir une fille

K : ce qui est pris, total sur ce qu’on va prendre

Loi des grands nombres : très important, si on répète une expérience, la proportion de la réalisation à
un événement devrait tendre vers le la probabilité, si on répète une expérience (= interroger de + en
+ d’idv), idée plus on a d’idv, plus la proportion des prs qui vont voter doit s’approcher du résultat de
la probabilité, plus notre échantillon est diff, plus cela va ressembler au résultat obtenu > la
proportion se rapproche de la probabilité, ds une enquête, plus l’échantillon est élevée, plus ses
caractéristiques sont proches de la population

Plus c’est grand, plus les caractéristiques de la popu augmentent

Les barrières d’indépendance : résultats de chacun de nos expériences, il ne faut pas que le résultat
de qql chose influence notre résultat

Les variables sont les résultats de chaque expériences, chaque expérience sont les mêmes

Boule de neige : interroger un idv et s’orienter vers un autre grâce à ça

Une somme de variables indépendantes et identiquement distribuées tend vers une loi normale

Territoire limite : quelle est la probabilité de se tromper ?

Les non réponses : les votes blancs, ceux qui ne répondent pas aux enquêtes, ils ne sont pas du tout
compris ds le calcul < difficulté
Difficile à mener, pr mener un sondage aléatoire, il faut qu’on sélectionne nous-mm les idv ds une
liste, ce qui peut qu’on affectait à chaque idv une probabilité du sondage

Sondage aléatoire : on peut affecter une probabilité pr chaque idv (choisi dans une liste), mais le
problème c’est qu’on n’a pas de liste sur les idv, c’est un coup très élevé

Un sondage par quota : respecter les quotas, interroger les idv, pas obligé d’envoyer les gens au bout
de l’international, moins cher

Sondage aléatoire simple : def des sondages aléatoires des cours, chaque membre de la popu a la
mmn proba d’être sélectionné ds l’échantillon, chaque membre a la mm proba, def pas insuffisante

Sondage aléatoire stratifié : on s’assure que les échantillons sont constitués de popu, on ft des tirages
séparés, au lieux de sélectionner toutes les prs comme ça, on ft deux tirages au sort séparés (ex : 50%
femmes, 50% hommes)

Sondages à plusieurs degrés : manière de répondre à l’absence de base de sondage (liste de tous les
idv), c’est d’abord sélectionner des groupes ensuite de sélectionner aléatoirement des idv ds ces
groupes, pq ça répond en partie les problèmes ? imaginez on veut une enquête sur des lycéens, donc
on n’a pas forcément de bases de données qui composent tous les lycéens de tout notre pays, on ft
la liste des lycées, après avoir sélectionné un certain nombre de lycée, on va sélectionner des lycéens
à l’intérieur, on peut aussi prendre le ft de sélectionner des régions ensuite des lycées ensuite des
lycéens

Cas particulier : sondage en grappe : sondage à plusieurs degrés, on sélectionne ts les idv d’un mm
groupe, si on sélectionne des lycées, on interroge tous les lycéens de lycée, exemple : enquête qui
mesure le chômage, on interroge un très grand nombre d’idv, pour les interroger, on interroge
d’abord des unités géographiques qui sert à diviser le territoire, faire en grappe : sélectionner les
territoires géographique aléatoirement et sélectionne les idv, on n’a pas besoin de liste de toute la
popu française, on a juste besoin des unités

Sondage à probabilités inégales : certains idv, en fonction de certains caractéristiques, on donne


certaine chance d’être sélectionné, on va exprès biaisé le sondage pr que la popu soit sur-représenté,
on introduit ds le sondage, un biais de sélection ou certains idv auront + de chance d’être sélectionné
selon les caractéristiques donnés, l’une des plus utilisés comme méthode en sociologie

Pour tourner un biais de sélection, pr bcp de calcul, on peut souvent corriger ce biais comme ds les
construction de coefficients de pondérations (moyenne pondéré), si on a un biais de sélection, nous
pouvons pondéré afin de rétablir l’équilibre

Biais, variations aléatoires et erreurs

Variation aléatoire ou erreur aléatoire : deux composantes d’erreurs aléatoires de mesure, il est
important de savoir distinguer, mesure imprévisible (mesurages répétés, varie de façon imprévisible),
va entrainer une imprécision de la mesure ( pas pouvoir être certain de la valeur de notre mesure,
intervalle de confiance, qd je dis que jai 95% de chance d’avoir telle valeur, si jmélange de l’autre
sens, on interroge mnt 1000 idv et jvais mnt exprimer le salaire moyen ds la popu, jpeux faire une
estimation que c’est entre 1000 et 2000, c’est qd beaucoup de chance que ça soit ds la popu > je fais
alors une intervalle de confiance, plus mon intervalle est grande, plus mon résultat est + précis, les
erreurs aléatoires créent des imprécisions, on ne sait pas vrm ou se situe l’erreur

Erreur qui varie mais qui peut se compenser, c’est vrm aléatoire l’erreur lol
Def de la distinguer : variation aléatoire ou erreur aléatoire vs biais ou erreur systématique (opposé
de erreur aléatoire)

Biais : une erreur qui est constante, erreur qui varie de manière très vive, dans ce cas-là, ça ne cause
pas une imprécision mais une surestimation ou sous-estimation, en moyenne, on aura pas le bon
résultat, résultat prévisible (erreur prévisible), un biais n’est pas corrigé par la taille de l’échantillon,
le fait d’interroger + idv ne changera rien, on ft que continuer l’erreur (biais) à grande échelle

Plus l’échantillon est grand, on a peu de chance de faire une erreur aléatoire

Si il y a un taux de non rep, peut-être qu’il y a un taux de biais de sélection, le taux de non rep très
important car il indique un biais de sélection, on va sélectionner un taux d’iv, quelle est la proportion
que le taux de non rep ? Il nous indique s’il y a un biais de sélection ou pas

Le biais de sélection va poser une erreur si la population sous sélectionné font des caractéristiques
particulières

Si ma variable d’intérêt est liée aux variables qui connaissent une erreur, ma variable d’intérêt n’est
pas touché car elle ne connaît pas de corrélation

Un biais de sélection affecte une si :

- Les idv surreprésentés ou sous-représentés ont des comportements particuliers du pdv de la


variable que vous voulez mesurer
- Vous ne pouvez pas leur affecter un coefficient de pondération parce que vous ne connaissez
pas leur répartition réelle dans la population ou que vous ne pouvez pas mesurer leur
caractéristiques particuliers

Par exemple : jveux mesurer le biais d’un objet et je n’ai interrogé que les idv né de chaque
début de mois, biais présumé non corrélé à la variable d’intérêt

Il manque un cours ici, janna m’a envoyé via mail

CM 24/03/2022

Souvent on regarde une corrélation qui peut être expliquer par une autre variable, le sophisme
écologique > déduire une corrélation individuelle à partir d’une corrélation entre données agrégées
(corrélation au niveau agrégé ne veut pas dire corrélation au niveau individuel)

Données agrégées > données individuelles, pr chaque idv, on a son âge et données (pour le
chômage)

Exemple : chez Durkheim, il a observé qu’il y a + de suicide ds les régions ou il y a + de protestants

Est-ce que dans les régions il y a + de protestants, il y a + de suicide ? Il ne faut pas qu’il y a que des
protestants dans des régions de protestants

Robinson W

Selon le type de niveau d’agrégation, il prenait le compte et prenait des corrélations individuelles,
pour se rapprocher d’un idv, il faut qu’il se rapproche de 0

La recherche des effets propres et les méthodes de régression

Qql exemple :
D’abord comprendre c’est quoi un effet propre > quelle est la diff entre les filles et les garçons qd le
niveau est ??

Les garçons réussissent mieux que les filles, un sondage plus élevé > effet brute de différence entre
fille et garçons, + de 20 points pr les garçons

Mais on a distingué les lycées, cette fois-ci c’est +20 pr les filles, effet brute c’est la garçon, et l’effet
propre de la variable sexe c’est + pour les filles, variable du lycée maintenu constante, le +20 c’est le
lycée maintenu constant

Les méthodes de régression, nous permet de trouver des effets propres d’une variable sur une autre
qd de nombreuses autres variables sont maintenues constantes

Modélisation stats (régression)

Construire une équation, un modèle mathématiques permettant d’estimer les effets propres. On
peut alors estimer l’effet d’une variable sur une autre qd de nombreuses variables sont contrôlés

Un exemple de recherche :

Caille J-P, Vallet L-A …

Niveau en fr et en maths des élèves étrangers ou issus de l’immigration

Il compare les différences bruts, comparaison biaisés car les élèves fr sont souvent + favorisés, en
moyenne ils sont + favorisés, maintenant si on compare, on tient compte des milieux sociales, on ne
compare que les immigrés et les français qui ont des milieux identiques, dans ce cas-là, la différence
en mathématique disparait

C’est pas psq qu’ils sont issues d’une famille immigrée qu’ils sont moins bons en maths, c’est psq ils
sont nés ds une famille désavantagés de milieux immigrés

Limite de la régression : toutes kes variables de contrôle nécessaire ne sont pas observés. Si on
observe corrélation entre deux variables, peut ê expliquer de nombreuses façon. Certaines
observables d’autres non, jamais qu’on a toute observé

La corrélation qu’on observe peut ê du à de nombreuses variables non observés qui biaisent notre
résultat. Ex : les petites classe ont de meilleures résultats. Dois-je en conclure qu’il existe une relation
de causalité entre taille de classe et réussite scolaire ?

Régression multiple :

Toute une différence non observé des enfants qui peuvent expliquer le résultat, ce qu’on ne peut pas
contrôler, c’est dû aux données d’observations, on verra qu’à l’inverse, on ne peut pas contrôler tous
les variables cachées, les données d’observation (= mesurer les caractéristiques de la réalité sociale
sans les modifier)

Ds les sciences sociales, le + souvent, on utilise les données d’observations car on peut modifier la
réalité, on peut essayer de mettre par exemple un objet, une particule dans pleins de conditions
différente, par exemple un humain, on ne sait pas quoi faire, psq il y a des limités.

Justement on peut tjr être limiter par ce problème de variable caché, mais on verra que c’est pas le
cas sur les données d’expérimentations

Expérimentation :
3 types

L’expérimentation en psychologie sociale :

Observer : récolter des données sur la réalité sans la modifier

Expérimentation : changer la réalité, voir moodle mon gars

Bernard : ù Ds les sciences qui, comme dans l’astronomie, resteront tjr pour nous des sciences
d’observation, psq les phénomènes qu’elles étudient sont hors de notre sphère d’action etc voir
moodle

Expérience : modalité des variables, les caractéristiques sont décidés par l’acteur, l’acteur va décider
quel idv va être désigner sur telle place

Analyse d’observation : toutes les variables sont non assignées

Psychologie : partage psychologie, + proche de la socio, c’est la psychologie sociale

Stanley Milgram : effet d’autorité, sujet d’expérience, choc électrique s’il répond mal, pas mal de
personnes obéissent à des ordres données, idée d’expliquer les crimes nazies, défendu par les ordres
(moi j’obéis aux ordres, pas ma fot), la personne qui donne l’ordre qui est responsable et non celui
qui l’exécute, influencer par le directeur Asch (son expérience sur le conformisme, 3 bâtons et on
peut dire parmi les bâtons ici, lequel est le plus grand, on ft passer de faux sujets que le vrai sujet
entend, on se trompe systématiquement car 6 personnes répondent ça et cela va influencer l’autre)

Effet d’ancrage :

Combien mesure une baleine bleue de + 49m ?, ds le deuxième groupe, combien mesure une baleine
bleu ?

La première qst a influencé l’idv dans un sens, effet d’ancrage qd on a donné un premier chiffre et on
se ft influencer par celui-ci

Loi des gd nombres

Sur une année, ds un plus grand hôpital, on répète les chances, on va avoir des variations + grand,
c’est comme si on allait avoir un sondage moins grand

Sophisme du Joueur :

Toutes les familles de 6 enfants d’une ville sont étudiées, ds 72 familles l’ordre exact des naissances
filles-garçons est F-G-F-G-G-F

Quelle est votre estimation du nombre de famille ds lesquelles l’ordre exact des naissances est G F G
GGG?

Réponse : 72 psq chaque séquence à la mm probabilité

Le sophisme du joueur c’est de penser qu’un mélange de résultat serait + probable qu’un autre
résultat, chaque séance a la même probabilité

Je peux soumettre les idv à des conditions très particulières, le problèle de l’expérimentatuin, c’est
qu’elle se déroule ds un cadre particulier, un laboration (pas celui de la vie réelle). On peut manipuler
de nombreux facteurs pour voir les conséquences de ces variables

On ne sait pas si les résultats sont généralisables hors du cadre de l’expérimentation.


Expérimentation avantage : isoler un facteur

Le problème des données d’observation

Le problème c’est qu’il y a des variables cachés

Randomiser :

Exemple : assigné des idv à des grandes classes et petite classe, si on fait ça, cela veut dire que toutes
les variables cachés vont être répartis équitablement, on ft en sorte que les variables non observés
soient réparties dans différents groupes

On a des groupes, la seule diff entre les groupes, c’est les traitements, par exemple on a assigné des
petites classes et grandes classe = traitements, c’est comme ça, qu’on peut mesurer

Le fait de construire aléatoirement les groupes, les différents groupes seront du qu’au hasard,
constitué de manière aléatoirement (par l’expérimentateur)

Deux utilisations de l’aléatoire :

L’échantillonnage aléatoire est très différent face à l’expérience aléatoire, la sélection aléatoire, est
une validité externe (représentation de la réalité), interne > estimation de la causalité

Ds les statistiques, l’échantillonnage : estimer les paramètres d’une population, expérience : évaluer
l’effet causal d’un traitement

Validité interne, externe et compromis

Très souvent il n’est pas possible d’assigner des idv aléatoirement à des groupes, exemple des ptites
classes et grandes, si on dit à des parents d’élèves qu’on va faire selon ptites classes et grandes =
parents pas content, vont donc essayer de biaisé l’expérience

Aussi assigné aléatoirement des enseignants, l’enfant devrait rester dans leur classe pendant 3 ans,
voir l’effet à long terme

Par ailleurs, seulement des écoles assez grosses pouvaient mettre en place l’expérimentation, on
sélectionne 79 écoles parmi une popu de 100 écoles volontaire qui respectent les critères de taille. La
def de la popu à laquelle on peut inférer les résultats ‘n’est pas entièrement claire, la généralisation
est problématique, mais pas l’établissement de la causalité/problème de validité externe mais pas de
radicalité interne

Problème posés à la validité interne : certains parents ont réussi à obtenir que leur enfant soit ds les
classes les plus petites, on va observer un écart important

Effet Hawthorne : idv changement de comportement parce qu’ils font partie d’une expérience

Effet John Henry : l’expérimentateur et le participant ne savent pas ds quel groupe ils sont

Attrition : idv abandonne l’expérience, des gens qui déménagent, est-ce que ces non réponses, par
exemple si les grandes classes abandonnent souvent les résultats, ça va biaiser le résultat

Meilleures expériences

Randomisée, double aveugle, contrôlé de l’effet placebo > le simple fait que c’est un médicament
même si cela n’en ai pas, car on pense que s’en un ça nous soigne alors que de base ça nous fait rien
Les expérimentations sont en théorie bien meilleures pour prouver la causalité, Elles sont néanmoins
bcp plus difficiles à faire dans les scuebces sociales. Elles posent de nombreux problèmes éthique et
politique à faire les sciences sociales. Elles posent de nombreux problèmes éthiques et politiques.

Méthode standard ou en médecine, difficile à appliquer dans les scuences sociales

Expérience naturelle :

Va être un compromis entre expérience et bidul, quasi-expérimentation vont essayer de trouver des
situations naturelles ds lesquelles l’assignations est exogène, apprendre des expériences qui ont lieu
naturellement

Exemple : idée que les idv qui sont des ptites classes ont peut ê des caractéristiques particulière, vont
essayer de passer aux grandes classes, forme d’assignation aléatoirement, forme d’ouragan qui va
décider quel élève qui va décider quel élève va passer dans une autre école, y a pleins en économie
qui vont de ces associations d’exogènes chercher des phénomènes climatiques

Vous aimerez peut-être aussi