Vous êtes sur la page 1sur 4

Thème 4 : Régression linéaire Statistique pour ingénieur

Statistique pour ingénieur


Thème 4 : Exercices
T. Verdel & A. Badea, 27 mars 2017

Exercice 1
Quand des anthropologues étudient des ossements humains, l’un des points importants
est de déterminer la taille des individus. Comme les squelettes sont souvent incomplets,
on estime cette taille à partir de mesures sur des petits os. Dans un article intitulé The
Estimation of Adult Stature from Metacarpal Bone Length, une équipe de chercheurs a
ainsi présenté une méthode permettant d’estimer la taille d’un individu en fonction de la
longueur des métacarpes, les os de la paume de main, validée sur les données suivantes
où x est la longueur de l’os metacarpal du pouce et y la taille de l’individu.

x (mm) 45 51 39 41 52 48 49 46 43 47
y (cm) 171 178 157 163 183 172 183 172 175 173

On a représenté à la figure 1 les données et la droite des moindres carrés reliant y à x.

185 −
• •
180 −

175 − •
• • •
170 −

165 −

160 −


155 −
| | | | |
35 40 45 50 55

Figure 1 – Données de l’exercice 1

1. Calculer les coefficients de la droite des moindres carrés. Vérifiez avec le graphique.
2. Pour quel risque minimal peut-on considérer que la relation entre x et y est significative ?

3. Donner l’intervalle de confiance à 95% de la hauteur moyenne des individus dont l’os
métacarpal du pouce serait long de 50mm.
4. Des éléments anthropologiques complémentaires ont permis d’estimer à 1m90 la taille
d’un individu dont l’os metacarpal du pouce est de 50mm. Que penser de cet individu ?
5. Tracer les résidus. Qu’est-ce qu’il faut faire pour vérifier s’il s’agit de réalisations de
variables aléatoires normales ?

Institut Mines-Télécom 1
Statistique pour ingénieur Thème 4 : Régression linéaire

Exercice 2
La figure 2 suivante indique, pour les 21 régions françaises de province et de métropole
N°4

dans la haute technologie,


Profils
(en vigueur jusqu’en 2015), le PIB (y) par région en fonction du nombre d’emplois (x)
pour l’année 2000 (source : INSEE Nord-Pas-de-Calais). Le
NORD-PAS-DE-CALAIS

nuage de points, de forme allongée, suggère l’existence d’une relation linéaire (figurée par
ets déposés placent LES EMPLOIS DANS
la droite des moindres LES ACTIVITÉS DE HAUTE TECHNOLOGIE, VECTEUR DE LA CROISSANCE ÉCONOMIQUE
carrées) entre ces deux variables.
mie, la fabrication Nombre d’emplois dans la haute technologie et PIB en valeur par région de province
s médicochirurgicaux Millions d'euros
trie pharmaceutique 160 000

des activités de haute


140 000
ologie régionales
Rhône-Alpes
120 000
élaboration ne suive pas la
rche, car la nomenclature 100 000
Provence-Alpes-Côte d'Azur
férente, les brevets fournis-
eignements importants sur 80 000
Pays de la Loire
Nord-Pas-de-Calais
nir des industries de haute 60 000
Aquitaine
Bretagne Midi-Pyrénées
ans le Nord-Pas-de-Calais. Languedoc-Roussillon
Lorraine Alsace Centre
echerche et développement 40 000 Picardie Bourgogne Haute-Normandie
Champagne-Ardennes
de fournir aux entreprises Poitou-Charentes
Basse-Normandie
20 000 Auvergne Franche-Comté
x produits. Ces derniers Limousin
par leurs caractéristiques 0
Corse

es avantages considérables 0 10 000 20 000 30 000 40 000 50 000 60 000 70 000 80 000 90 000
Nombre de salariés
ffrir à l’extrême une position
ue, par le dépôt de brevets, Source : Insee - Comptes nationaux 2000, Unedic 2000

é. Figure 2 – Données de l’exercice 2


GUIDE DE LECTURE AFIN DE DÉCELER LE LIEN EXISTANT ENTRE LE NOMBRE D'EMPLOIS RELEVANT DE LA HAUTE TECHNOLOGIE ET LE
essus de dépôt de brevets, PIB DÉGAGÉ DANS UNE RÉGION, LA MÉTHODE DE LA RÉGRESSION LINÉAIRE A ÉTÉ EMPLOYÉE. ELLE PERMET EN EFFET DE RECHERCHER
région Île-de-France On est donne
ET D'ESTIMER L'ADÉQUATION D'UNE MODÉLISATION DU TYPE : Y=aX+b. LES RÉSULTATS PERMETTENT BIEN DE CONCLURE À UNE RELATION
par ailleurs les résultats intermédiaires suivants :
LINÉAIRE ENTRE LE NOMBRE D'EMPLOIS DES SECTEURS DE LA HAUTE TECHNOLOGIE ET LE PIB RÉGIONAL. L'ÉQUATION FINALE S'ÉCRIT :
effet, en raison de cabinets
PIB = 1,44 (EMPLOIS HT)+17 781 (EN MILLIONS D'EUROS).
tués dans cette région et SP P ENREGISTRENT DESPPIB TRÈS
I DE NOMBREUSES RÉGIONS PROCHES DE CEUX, "THÉORIQUES ", QUI SERAIENT OBTENUS
P À L'AIDE DE LA
x2i SUR LA DROITE DE RÉGRESSIONy),i2 D'AUTRES, AU CONTRAIRE, Sx'ENi yÉLOIGNENT
P
tion des sièges sociaux, la xi LINÉAIRE (LES POINTS
RELATION yi SERAIENT ALORS SITUÉS i .
demandes de dépôt de C'EST PARTICULIÈREMENT LE CAS DES RÉGIONS NORD-PAS-DE-CALAIS ET PROVENCE-ALPES-CÔTE D'AZUR : CES DEUX RÉGIONS
431 200 992 600 15 078 020 000 64 038 160 000 29 144 300 000
PRODUISENT EN EFFET UN PIB SENSIBLEMENT SUPÉRIEUR À CELUI QU'ELLES DEVRAIENT THÉORIQUEMENT DÉGAGER SI LE MODÈLE
ffectuent. Ainsi, les faibles LINÉAIRE DÉCRIVAIT PARFAITEMENT LA RÉALITÉ. AVEC QUELQUE 12 000 EMPLOIS DÉDIÉS À LA HAUTE TECHNOLOGIE, LA RÉGION
es aux régions de province NORD-PAS-DE-CALAIS POURRAIT EN THÉORIE DÉGAGER UN PIB BEAUCOUP PLUS FAIBLE ALORS QU'IL SE SITUE À 76 MILLIARDS D'EUROS.
e avec précaution.1. CalculerCELA SEMBLE INDIQUER QU'IL S'AGIT
les coefficients
DE RÉGIONS QUI TIRENT UNE PARTIE IMPORTANTE DE LEUR RICHESSE, D'ACTIVITÉS AU CARACTÈRE
et βb1 , ,estimations des paramètres β0 et
TECHNOLOGIQUE MOINS PRONONCÉ βb.0EFFECTIVEMENT LE NORD-PAS-DE-CALAIS SE CARACTÉRISE DEPUIS LONGTEMPS PAR LA 1 de la relation
βPRODUCTION
uatre domaines technolo- D'UNE VALEUR AJOUTÉE FORTE DANS LES INDUSTRIES DE L'AUTOMOBILE, DES BIENS INTERMÉDIAIRES ET DE L'AGRO-ALIMENTAIRE. LA RÉGION
linéaire y =PACA,
objet de dépôts significatifs + β1ÀxELLEqu’on
β0 QUANT cherche à mettre en évidence.
, ENREGISTRE UNE VALEUR AJOUTÉE CONSÉQUENTE DANS LE SECTEUR TERTIAIRE (ACTIVITÉS IMMOBILIÈRES,
ans la région Nord-Pas-de- ADMINISTRATION , TRANSPORTS ).
2. La relation obtenue est-elle significative au risque 5% ?
technologie qui représente
dépôts de l’ensemble 3. Pour
des 12(33,7%)
000 emplois et l’industriede haute technologie,
chimique de haute quelle plus élevéestpour
l’espérance
les activités mathématique
de haute techno- du PIB
et son intervalle
ovince, l’ingénierie médicale technologie de confiance
(29,6%). à 95% ? logie que pour l’ensemble des activités,
mie organique fine (2,9%) Dans une moindre mesure, deux secteurs 30,8% contre 23,7% pour l’ensemble des
4. Dans cette
macromoléculaire (2,9%). étude, àlalarégion
contribuent production Nord-Pas-de-Calais
de la valeur (cliente
activités, ce quide l’étude)
tendrait afficheque
à montrer unlesPIB de 76
onfirment donc les Milliards
résultats d’euros
ajoutée dans pourla régionenviron 12de000
: l’activité emplois activités
production de haute technologie.
de haute technologie Que pensez
créent plus de cette
ui placent la chimie,régionla par de matériel aux
rapport électrique autres ? technologie de richesse.
de haute
d’appareils médicochirur- (8,7%) et celle de production de matériel En 1999, le chiffre d’affaires total des
dustrie pharmaceutique5. Laaurégion Nord-Pas-de-Calais
médicochirurgical (9,0%). ainsi Enfin, que il estla régionindustries Provence-Alpes-Côte
de haute technologie représente d’Azur sont en
vités de haute technologie
effet assez intéressant
éloignées de dunoter modèle que obtenu.
le ratio “valeur Selon vous, 1,5% quelles
du chiffre d’affaires
raisons cumulé depropres à
structurelles
ajoutée / chiffre d’affaires” est en moyenne l’ensemble des industries de la région, soit
ces régions pourraient expliquer cet écart ?
6. Quel défaut présente le modèle de régression choisi ici et comment aurait-on pu le
OLOGIE EST EMPLOYÉ corriger ? UNE INDUSTRIE RÉGIONALE DE HAUTE TECHNOLOGIE AXÉE SUR QUATRE SECTEURS D’ACTIVITÉ
UE
Répartition des effectifs salariés dans les industries de haute technologie
gie dans le Nord-Pas-de-Calais dans le Nord-Pas-de-Calais et dans la France de province
Exercice 3
Effectif salarié Unité : %
Effectif
total salarié
Les
données ci-dessous sont
moyen relatives
Secteur d’activité à l’étalonnage d’une méthode
Nord-Pas-de-Calais France gravimétrique
de province pour
Nombre % le dosage de la chaux en présence de magnésium. La variable en x est la teneur vraie et
3 687 31,8 46 Industrie électrique de haute technologie 31,8 21,2
la variable en y estIndustrie
la teneur mesurée (en mg).
médicale de haute technologie 16,9 6,8
1 956 16,9 6
1 840 15,9 63 Industrie chimique de haute technologie 15,9 6,6
1 761 15,2 77 Industrie pharmaceutique 15,2 13,4
2 Fabrication d’instrumentation scientifique
Institut Mines-Télécom
523 4,5 8 et technique 4,5 5,4
1 820 15,7 13 Autres 15,7 46,7
11 587 100,0 18 Ensemble 100,0 100,0
Thème 4 : Régression linéaire Statistique pour ingénieur

Vraie (x) 20 22,5 25 28,5 31 35,5 33,5 37 38 40


Mesurée (y) 19,8 22,8 24,5 27,3 31 35 35,1 37,1 38,5 39
On donne

x2i = 10 100 yi2 = 10 055,09


X X X X X
xi = 311 yi = 310,1 xi yi = 10 074,8

1. Estimer par la méthode des moindres carrés les paramètres β0 et β1 de la relation


linéaire y = β0 + β1 x qu’on cherche à mettre en évidence.
2. Caractériser la précision de la méthode gravimétrique.
3. Tester l’hypothèse β0 = 0 de telle façon que la probabilité d’accepter l’hypothèse si elle
est vraie soit égale à 90%.
4. Tester l’hypothèse β1 = 1 de telle façon que la probabilité d’accepter l’hypothèse si elle
est vraie soit égale à 90%.
5. Bâtir et mettre en œuvre un test permettant de tester simultanément que β0 = 0 et
que β1 = 1, la probabilité d’accepter l’hypothèse si elle est vraie étant encore égale à 90%.

Exercice 4
Le tableau ci-après donne les résultats d’un certain nombre de déterminations de
la distance nécessaire (y en mètres) à l’arrêt par freinage d’une automobile lancée à
différentes vitesses (x en km/h). Une étude graphique montre que la courbe représentant
y en fonction de x est manifestement concave vers les y positifs, mais que si l’on utilise x2
au lieu de x, la liaison apparaît sensiblement linéaire. Peut-on justifier ce fait par une loi
physique ? Admettant la validité de ce type de liaison entre y et x2 , on suppose de plus
que la vitesse x peut être déterminée avec une grande précision et que les écarts constatés
sont dus à des fluctuations aléatoires de y autour d’une vraie valeur correspondant à une
liaison linéaire représentée par l’équation y = β1 x2 + β0 .

Vitesse (x) 33 49 65 33 79 49 93
Distance (y) 5,3 14,45 20,26 6,5 38,45 11,23 50,42
x2 1 089 2 401 4 225 1 089 6 241 2 401 8 649
x2i = 26,095
X X
yi = 146,61
yi2 = 4 836,3019 x4i = 145 507 351 x2i yi = 836 155,41
X X X

1. Quelle est la meilleure estimation de β0 et β1 ? Quelle hypothèse supplémentaire suppose


cette estimation ?
2. Déterminer les limites de confiance à 95% pour les estimations précédentes.
3. Considérant le cas d’une voiture dont la vitesse est de 85km/h, estimer la valeur
moyenne correspondante de y. En donner une limite supérieure au seuil de confiance 99%.

4. On suppose que pour une voiture se déplaçant à 85km/h, on observe une distance
de freinage y = 55 mètres. Cette valeur peut-elle être considérée comme étant, à des
fluctuations aléatoires admissibles près, d’accord avec l’équation d’estimation trouvée ?

Institut Mines-Télécom 3
Statistique pour ingénieur Thème 4 : Régression linéaire

Exercice 5
Il y a des situations où la droite de régression passe par l’origine. Le modèle devient
alors Yi = β1 xi + εi .
1. En utilisant la méthode des moindres carrés, donner les expressions de :
(a) βb1 ,
     
(b) E βb1 , V βb1 , V Ybi .
εbi 6= 0.
P
2. Montrer algébriquement que

4 Institut Mines-Télécom