Vous êtes sur la page 1sur 28

ANNALES

Janvier 1999 à Septembre 2007

1
Partiel de Janvier 1999
QUESTION de COURS : 3 Points
Démontrez que la moyenne de l'échantillon d'une loi normale est l'estimateur du maximum de vraisemblance de
l'espérance mathématique m.

EXERCICE 1 : 5 Points
Au cours d'une enquête sur les mœurs des français on a demandé, individuellement à chaque homme interrogé,
combien de fois par an il offrait des fleurs à sa compagne. On a recueilli les résultats suivants en fonction de
l'âge des individus :

Nb de fois…\ Age ]18 - 25] ]25 -50] > 50 Total


[0 - 2] 23 54 16 93
>3 22 21 14 57
Total 45 75 30 150
Peut-on en déduire, avec un risque de 1ère espèce de 5 %, que l'âge de l'individu a une influence sur le nombre
annuel de bouquets offerts ?

EXERCICE 2 : 7 Points
Soit X le nombre des accidents qui se produit par mois, en scooter des mers, sur une plage déterminée. Nous
supposons que X est une variable aléatoire suivant une loi de poisson de paramètre θ.

La municipalité inquiète, décide de relever durant 5 mois le nombre d'accidents sur cette plage. Si ce total
dépasse la valeur k, la municipalité décidera d'interdire l'usage des scooters (θ=3), sinon elle les tolèrera (θ=1).

1. On choisit k=9
Définissez entièrement le problème de test ainsi posé ainsi que la règle de décision adoptée. Quels sont les deux
risques associés à cette règle de décision ?

2. Nous retenons comme hypothèse de base, la situation jugée "acceptable". Donnez l'interprétation de ce
choix. Quelle est la valeur critique k1 correspondant à un risque de 1ère espèce α1=0.014 ? Quelle est la
puissance de ce test ?

3. Nous retenons désormais l'autre hypothèse comme hypothèse de base. Donnez l'interprétation de ce choix.
Quelle est la valeur critique k2 correspondant à un risque de 1ère expèce α2=0.018 ? Quelle est la puissance
de ce test ?

4. Nous avons dénombré un total de 8 accidents sur 5 mois sur cette plage. Quelles décision prendra la
municipalité dans chacun des cas 2 et 3 ?

5. Représentez graphiquement α1 et α2.

EXERCICE 3 : 5 Points
La durée d'une communication téléphonique peut être représentée par une variable aléatoire D. On admet que la
loi de probabilité de D est la loi uniforme sur [0, θ], et nous cherchons à estimer θ.
Nous observons alors les durées de n communications.

1. Calculez l'espérance mathématique de D. En déduire la justification, comme estimateur de θ, de :

Cet estimateur est-il sans biais ? convergent ?

2. Trouvez l'estimateur --- du maximum de vraisemblance de θ. Quelles est sa loi ? Est-il sans biais ? convergent
?
Soit --- l'estimateur sans biais proportionnel à
Comparez ----

2
3. Calculez la quantité d'information relative à θ et concluez.

Partiel de Septembre 1999


QUESTION de COURS : 5 Points
"Estimation par intervalle de confiance de la différence des espérances de deux lois normales"

EXERCICE 1 : 5 Points
On suppose que la distribution des salaires mensuels de l'ensemble des étudiants en stage suit une distribution
log-normale, c'est-à-dire si X désigne le salaire mensuel : X = e m + σU
avec U : variable normale centrée réduite
m et σ : constantes, et σ strictement positive.

1. Calculez les deux paramètres de cette loi, sachant que :


- le salaire médian est de 6 881,68 FF brut mensuel
- 3 % des étudiants gagnent plus de 10 000 FF brut mensuel
2. Déterminez la moyenne et l'écart-type de la distribution de X.

EXERCICE 2 : 5 Points
1. Testez au seuil de 5 % l'hypothèse de base suivante "le taux de réussite au permis de conduire, des personnes
de sexe masculin, est de 50 %". On dispose d'un échantillon de 429 440 individus sur lequel on a dénombré 221
023 personnes de sexe masculin et 208 417 personnes de sexe féminin.
2. Etudiez la puissance du test
3. Calculez cette puissance pour p = 0,505
4. Construisez alors un test unilatéral.

EXERCICE 3 : 10 Points
Afin de déterminer la santé financière d'une banque on détermine son ratio de liquidité X.

Dans le secteur des banques d'affaires, on admet que ce rapport est une variable aléatoire X qui suit une loi
normale N ( m1 , σ1 ) .
On observe un échantillon de 10 banques de ce secteur et on trouve
10

∑ (x − x)
2
i
1
x = 6,1% et s1 = = 0,3 %
9

Dans le secteur des banques commerciales, on admet que ce rapport est une variable aléatoire Y qui suit une loi
normale N ( m 2 , σ 2 )
On observe un échantillon de 20 banques de ce secteur et on trouve
20

∑ (y − y)
2
i
1
y = 6,6% et s 2 = = 0,45 %
19

H : m 1 = m 2
1. Testez au seuil α:
 K : σ1 p σ 2
α = 0,05 ?
A quelle décision conduisent les observations réalisées pour un risque
2. Comparez le test précédent à celui de H contre K lorsque m1 et m 2 sont supposés connus et respectivement
égaux à 6,1 % et 6,6 %, pour un même risque α = 0,05 .
3. On suppose que les variances sont inconnues mais égales.

3
H a : m 1 = m 2
Testez au seuil β:
K a : m 1 ≠ m 2
4. Comparez les régions critiques obtenues pour
α = 0,001
α = 0,01
α = 0,05
Concluez.

Partiel de Janvier 2000

QUESTION de COURS : 4 Points

Similitudes et différences entre la méthode de Bayes et la méthode de Neyman-Pearson.


(minimum : 1 page / maximum : 2 pages)

EXERCICE 1 : 5 Points
Le gouvernement cherche à réduire le chômage des jeunes diplômés. Il se propose d'attribuer au niveau
national une aide financière pour la création de start-up sur le marché du web. Avant de lancer ce programme le
Ministère de l'Economie et des Finances détermine un échantillon représentatif. Il cherche à savoir si le
Ministère de l'emploi peut atteindre son objectif.

avec aide sans aide


jeunes aidés 18 18
jeunes non aidés 22 42
n1 = 40 n2 = 60

1. Peut-on considérer que cette politique est efficace pour un risque de 1ère espèce de 10 %, de 3 % ?
2. Si maintenant n1 = 40 k et n2 = 60 k, et si la différence des fréquences observée est la même, à partir de
quelle taille globale de l'échantillon pourra-t-on considérer la politique comme efficace avec un risque de 3
%?

EXERCICE 2 : 4 Points
Dans un grand magasin, sur un échantillon de 300 boîtes de jeux de construction pour enfants, on a dénombré 60
boîtes destinées aux 0-2 ans. Démontrez quelle est l'estimation du maximum de vraisemblance de la proportion
de jeux de constructions destinés aux jeunes enfants et les propriétés de l'estimateur correspondant ?

EXERCICE 3 : 7 Points
Un commissaire aux comptes doit certifier si les comptes annuels d'une entreprise sont sincères et
représentent une image fidèle de la situation de l'entreprise. L'accord entre le commissaire aux comptes et son
client stipule que si la proportion des redressements ne satisfaisant pas aux normes convenues est p = 0,05, le
commissaire aux comptes certifiera les comptes annuels. Si cette proportion est p = 0,10 le client devra corriger
ses états financiers.
Afin de déterminer la décision à prendre, on procède à l'examen de n justificatifs.
1. Formalisez le problème ainsi posé.
2. Quelle est l'hypothèse de base du commissaire aux comptes ? Justifiez la.
2.1. Quelle est la région critique du test de puissance maximale correspondant à un risque de 1ère espèce
α.
2.2. Application numérique : α = 0,10 et n = 100.
2.3. Si le commissaire aux comptes observe 7 mauvais justificatifs dans cet échantillon, quelle décision
doit-il prendre ?
3. . Quelle est l'hypothèse de base du client? Justifiez la.
3.1. Quelle est alors son erreur de 1ère espèce ?

4
3.2. Quelle est la région critique du test le plus puissant correspondant à un risque de 1ère espèce de 10
%, pour un échantillon de taille 100 ?
3.3. Si le client observe 7 mauvais justificatifs dans cet échantillon, quelle décision doit-il prendre ?
4. Comparez les décisions du commissaire aux comptes et de son client (au vu de l'échantillon). A partir de
quelle valeur de n, leurs règles de décision seront-elles compatibles ?

Partiel de Septembre 2000

QUESTION de COURS : 2 Points


Comment peut-on comparer deux estimateurs sans biais ?

EXERCICE 1 : 5 Points
On considère le nombre d'accidents domestiques qui se produisent chaque mois dans une ville donnée.
L'observation se prolonge pendant 23 mois et fourni la répartition suivante (Observations / nb de mois pendant
lesquels les accidents ont eu lieu) :
Observation 0 1 2 3 4 5 6 7
nb de mois 1 2 5 8 3 2 0 2
1. Après avoir calculé la moyenne de l'échantillon, vous tracerez l'histogramme de cette distribution.
2. Avec un risque de première espèce de 10 %, l'ajustement à une loi de Poisson de paramètre λ=3 est-il
acceptable ?

EXERCICE 2 : 10 Points
Soit X, une variable aléatoire suivant une loi normale N(m,σ). On dispose de 40 observations.
On suppose m connue et égale à 2.
1. On pose Ho : σ =1
H1 : σ >1
a. Si on fixe un seuil α, existe-t-il un test Ho contre H1 qui soit u.p.p. parmi les tests de seuil α ?
b. Déterminez la région critique de ce test pour α=0,05 ?et la puissance de ce test pour σ =1,5.
2. On pose Ho : σ =1
H2 : σ ≠1
a. Si on fixe un seuil α, existe-t-il un test Ho contre H2 qui soit u.p.p. parmi les tests de seuil α ?
b. Déterminez le test dont la région critique est définie comme réunion de celles qui seraient obtenues pour
tester σ =1 contre σ >1 et pour tester σ =1 contre σ <1, au seuil de 0,025. Déterminez alors la puissance de ce
test pour σ =1,5.
3. Comparez et discutez les réponses aux questions 1b et 2b.

EXERCICE 3 : 3 Points
Soit X, une variable aléatoire suivant une loi normale d'espérance m et de variance σ2. Soit un échantillon de
taille n de X : (X1,…Xn).
Construisez un intervalle de confiance à 95 % pour m, quand σ est inconnu. Vous prendrez soin de détaillez
votre raisonnement.

A.N. : n=30, Sn=16, et X=8.5.

5
Partiel de Février 2001

Un horticulteur cherche à créer une nouvelle variété de roses "Eternité". Il souhaite que sa rose, une fois coupée,
puisse avoir une durée de vie moyenne de 15 jours. Etant donnés les coûts élevés de conception du produit
engagés, pour que sa rose soit rentable, il ne peut pas se permettre de supporter de nouveaux coûts de
développement. Afin d'obtenir une aide à la décision à propos de la commercialisation potentielle de sa rose, il
fait appel à un statisticien.

L'horticulteur dispose d'un plant expérimental de 150 roses, toutes étiquetées et répertoriées. Le statisticien
coupe 30 roses au hasard et enregistre leur durée de vie ( d i ) :

réf. de la rose di réf. de la rose di


1 18 16 18
2 14 17 16
3 13 18 14
4 16 19 17
5 15 20 14
6 14 21 14
7 15 22 16
8 18 23 17
9 14 24 16
10 13 25 11
11 15 26 16
12 17 27 13
13 14 28 11
14 17 29 13
15 14 30 17

1. Décrivez la série ainsi obtenue en en précisant les principales caractéristiques.

2. Soit p 0 la proportion de roses dont la durée de vie est au moins de 15 jours.


Soit p1 la proportion de roses dont la durée de vie est au plus de 12 jours.
2.1. Précisez les échantillons.
2.2. Donnez des estimations pour chacun des paramètres.
2.3. Proposez un intervalle de confiance à risques symétriques pour chacun des paramètres, en supposant que
l'horticulteur tolère un risque de 10 %. Commentez les résultats ainsi obtenus. Donnez une fourchette pour
le nombre de roses ayant une durée de vie d'au moins 15 jours.

3. Supposons que D est une variable aléatoire représentant la durée de vie des roses, dont les d i sont les
réalisations.
3.1. Calculez les estimations usuelles pour chacun de ces deux paramètres. Justifiez vos réponses afin
d'expliquer toutes les formules utilisées. On notera :
E ( D) = m
Var (D) = σ 2
3.2.Peut-on considérer que D suit une loi normale ? Justifiez votre réponse pour un risque toléré de 10%.

4. Peut-on commercialiser la variété de roses "Eternité" d'après les résultats du statisticien ?


4.1. Formalisez le problème à l'aide de la Théorie des Tests et justifiez votre réponse. Discutez le risque toléré.
4.2. Définissez le risque de 1ère espéce ? le risque de 2nd espèce ? l'efficacité d'un test ?

5. L'horticulteur ne peut attendre les résultats du statisticien et décide de commercialiser sa rose. Il s'intéresse
désormais au rendement potentiel de cette nouvelle variété. Le rendement d'une variété dite classique est une

6
variable aléatoire qui suit une loi normale d'espérance m=10 et d'écart-type σ = 2 . Cette nouvelle variété
est-elle rentable si l'horticulteur tolère un risque de 10 % ? Justifiez votre réponse en utilisant la Théorie des
2
Tests. On suppose alors la moyenne égale à 15 et S = 3,5.

6. Qu'en concluez-vous ?

NB. Les cinq premières parties sont indépendantes les unes des autres.

Partiel de Septembre 2001

Chaque année en période de départ en vacances le péage du "Sud" est saturé et des milliers d'automobilistes sont
bloqués plusieurs heures dans leurs voitures pour franchir ce péage.

PARTIE 1 5 points

On cherche à améliorer le flux de voitures et on étudie ainsi, à un point fixe, le débit par heure par
opérateur, pendant plusieurs heures déterminées au hasard :

N° var Péage Sud Péage Sud-Ouest N° var Péage Sud Péage Sud-Ouest
var X var Y var X var Y

1 220 126 26 546 368


2 234 231 27 564 435
3 235 236 28 564 453
4 235 237 29 600 456
5 237 237 30 602 456
6 245 237 31 627 456
7 247 246 32 645 458
8 250 247 33 645 459
9 257 249 34 645 531
10 264 258 35 651 534
11 265 259 36 654 542
12 300 264 37 654 546
13 321 264 38 654 564
14 324 268 39 654 564
15 354 276 40 657 569
16 354 326 41 746 624
17 355 327 42 750 647
18 356 349 43 750 651
19 357 354 44 750 657
20 453 357 45 752 657
21 456 357 46 753 657
22 456 357 47 753 741
23 523 358 48 756 752
24 524 364 49 756 754
25 546 368 50 756 762

Décrivez les séries ainsi obtenues (taille de l'échantillon, moyenne , médiane, écart-type, variance, max,
min)

7
avec ∑ x i2 = 14 577 816 et ∑ y i2 = 10 620 295
Représentez les graphiquement.
Commentez (justifiez votre intuition concernant la loi suivie par la distribution)

PARTIE 2 5 points

Etudiez chacune des deux séries de données


2.1. Estimez les paramètres suivants :

m X = E (X ), σ 2X = var(X) m Y = E (Y ), σ 2Y = var(Y)

2.2. Après avoir rappelé ce qu'était le meilleur estimateur, vous les déterminerez et en proposerez d'autres si
nécessaire.

PARTIE 3 10 points

3.1. A partir des données, déduisez en une conclusion concernant la variation du flux de voitures au Péage "Sud"
(effectuez des regroupements de classes (par 100) si nécessaire). Discutez selon les valeurs de α .

3.2. Si on considère que la distribution associée au flux de voitures du Péage "Sud" suit une loi Normale
N (500, σ 1 ) , et que la distribution associée au flux de voitures du Péage "Sud-Ouest" suit une loi Normale
N (400, σ 2 ) , peut-on considérer que les distributions sont identiques ?
Formalisez le problème ainsi posé en fonction des différents paramètres. Résolvez le problème en prenant soin
de détailler chacune des étapes en fonction des différents paramètres. On considèrera un seuil critique α = 0,05 .

3.3. Concluez.

Partiel de Février 2002

Un patineur de vitesse sélectionné pour les Jeux Olympiques d'hiver cherche à évaluer ses
performances, sur une distance donnée de 500 m, afin de déterminer ses chances de médaille. Il s'intéresse alors
aux temps qu'il a réalisé ses 5 dernières années. Son entraîneur a relevé ses temps (en secondes) au hasard sur
160 semaines durant ses 4 dernières années :

N° variable X N° variable X

1 35 21 46
2 36 22 45
3 37 23 44
4 38 24 43
5 39 25 42
6 40 26 41
7 41 27 40
8 42 28 39
9 43 29 38
10 44 30 37
11 45 31 36
12 46 32 35
13 47 33 34
14 48 34 33

8
15 49 35 32
16 50 36 31
17 51 37 30
18 50 38 29
19 49 39 28
20 47 40 27

On suppose que la variable aléatoire X suive une loi normale de moyenne m=E(X ) et de
variance σ
2
= Var ( X ) . On considère que les temps aberrants sont dus à des erreurs de chronométrage.

Première partie___________________________________________7,5 points


1. Etude préliminaire succincte de la série 2 pts
Décrivez la série aussi précisément que possible (taille de la population, taille de l'échantillon, moyenne,
médiane, écart-type, variance, max, min)

2. Donnez un intervalle de confiance pour σ ² à 90 % et à risques symétriques. 1,5 pts


2.1. Peut-on accepter un écart-type de 56 comme valeur possible de σ à 90 % ? 1 pt
2.2. Donnez l'ensemble des niveaux de l'intervalle de confiance qui conduisent à accepter 75 comme valeur
possible de σ ². 1,5 pts
2.3. Donnez un intervalle de confiance pour m à 90 % et à risques symétriques. 1,5 pts

Deuxième partie__________________________________________12,5 points


3. L'entraîneur se demande si son athlète a des chances d'obtenir une médaille d'or. Selon lui, il faudrait que la
moyenne des temps, lors des entraînements, soit de 45.
3.1.Après avoir donné un estimateur de m et démontré ses propriétés, vous formaliserez le problème sous forme
d’un test, le résoudrez et conclurez. 1,5 + 0,5 + 2,5 pts
3.2. Déterminerez le niveau critique du test . 1,5 pts
3.3. Déterminez l'efficacité du test. 1,5 pts

4. Lors de précédents Jeux Olympiques, on a observé une moyenne de 44 pour une variabilité de 7. Donnez un
estimateur de σ ² (sans préciser ses propriétés). 1 pt
4.1. Pensez-vous que la variabilité des observations est différente de la précédente ? Formalisez ce problème et le
résoudre. 2 pts
4.2. Pensez-vous que la moyenne soit équivalente à la précédente ? Formalisez ce problème et le résoudre.
2 pts

Barème :
Question 1 2 pts
Question 2 5,5 pts (1,5+1+1,5+1,5)
Question 3 7,5 pts (1,5+0,5+2,5+1,5+1,5)
Question 4 5 pts (1+2+2)

Bonification : + 0,5 point pour une rédaction soignée.

Dans la mesure où les tables statistiques fournies ne donneraient pas exactement la valeur souhaitée, il est
admis de prendre la valeur correspondant aux paramètres disponibles les plus proches.

NB.
Sur 500 m, le meilleur temps, pour les hommes, au dernier Championnat du Monde était de 43,58 s.

9
Partiel de Septembre 2002
Afin de déstocker, le directeur commercial d'un grand magasin souhaite évaluer, entre deux lots de
téléviseurs (TV1 et TV2), celui qui se vend le moins bien afin de pouvoir le solder. Dans ce but il fait appel au
responsable du rayon concerné afin d'obtenir quelques informations….

PARTIE 1 4 points
1.1. Les ventes, sur 15 périodes identiques, sont les suivantes :

TV1 TV2
15 10
16 12
20 15
30 19
35 24
40 30
43 32
40 34
35 35
30 36
20 34
17 32
16 30
15 26
15 21
Décrivez les séries ainsi obtenues (taille de l'échantillon, min, max, médiane, écart-type, variance)
1.2. Représentez les graphiquement et commentez (justifiez votre intuition concernant la loi suivie par chacune
des distributions)

PARTIE 2 11 points
2.1. Déterminez l'intervalle de confiance des ventes moyennes pour chaque lot, pour un niveau de confiance de
90 %.
2.2. Comparez les ventes moyennes des deux lots à l’aide d’un test que vous déterminerez, pour un niveau de
confiance de 90%. Après justifications vous supposerez que l'écart type des deux lots est égal à 10.
2.3. Donnez les définitions des risques de 1ère et 2nde espèces ainsi que de la puissance d'un test.

PARTIE 3 5 points
3.1. L’objectif moyen de ventes est de 10 téléviseurs, par période. Cet objectif a-t-il été respecté ? Justifiez votre
réponse à l’aide de tests, pour chacun des lots.
3.2. Quel lot, le chef de rayon, va-t-il conseiller de solder ? Justifiez vos réponses.

10
Partiel de Février 2003

Un site Internet "DVDiscount" possède un stock de 25 000 DVD. Ces DVD sont vendus exclusivement
sur Internet et envoyés par voie postale aux acheteurs. Les données relatives au nombre de DVD vendus sont
envoyés tous les mois au Siège qui gère plusieurs autres sites identiques sur Internet. Sur les 15 premières années
de fonctionnement de ce site, on a prélevé au hasard et avec remise 18 relevés. Si on appelle xi le nombre de
DVD vendus dans le ième relevé, on obtient :

i xi i xi
1 10 797 10 9 706
2 7 926 11 11 180
3 12 281 12 7 975
4 8 733 13 8 970
5 10 445 14 7 774
6 8 492 15 6 986
7 9 586 16 10 098
8 9 126 17 10 349
9 11 889 18 9 626

1. Décrivez la série des 18 observations (min, max, moyenne, écart-type, médiane, variance,
1er et 3ème quartiles,… )

2. Peut-on "raisonnablement" considérer les xi comme des réalisations d'une variable aléatoire
normale X ? Justifiez votre réponse.

3. Si on appelle m et v=σ², la moyenne et la variance de X donner des estimateurs de ces


paramètres; quelles sont leurs propriétés ? En déduire de estimations de m et v. Pouvez-
vous donner une estimation de l'écart-type σ de X ? Si oui, que pouvez-vous en dire ?

4. Calculez les intervalles de confiance IC(m) et IC(σ²) à 95% et à risques symétriques de m et


σ². Peut-on obtenir un intervalle de confiance pour σ ? Si oui, indiquer comment. Y a-t-il 95
% de chance que m appartienne à IC(m) ? Entre quelles limites devrait se situer la taille
d'un échantillon pour que la précision relative sur m soit de 1 % ?

5. Un site identique, est également suivi par le Siège depuis sa création. Pour ce site, on sait
que le nombre de DVD vendus est de 8 998 par mois en moyenne avec un écart-type de
602. Comparez les deux sites pour ce qui concerne le nombre de DVD vendus. Que vaut
cette comparaison ?

6. On envisage, pour simplifier, deux cas :


a. tous les internautes achètent un DVD au bout d'un mois de découverte du site
b. les 3/4 des DVD sont vendus au bout d'un mois, le 1/4 restant au bout de deux mois
Le nombre de places en matière de stockage étant limité à 24 000, simuler (dans chacun des
deux cas) la situation (nombre de DVD vendus et manque éventuel de place pour le stockage)
pendant les quatre mois qui suivent la réouverture du site (pour cause d'inventaire) et où tous
les DVD proposés sont disponibles (stock initial).

7. Sachant que le nombre de salariés est de 7, caractérisez la variable Y dont la réalisation est
le nombre de "DVD vendus/mois/envoyé par salarié". En relevant les données du Siège au
hasard et avec remise pendant 20 mois, on a obtenu les chiffres concernant le nombre z de
"DVD vendus/mois/envoyé par salarié" sur un autre site. Les données permettent de
supposer un risque négligeable que la variable Z dont z est la réalisation, est normale, que
sa moyenne peut être estimée à 1 212 et son écart-type à 299. Comparez le nombre de
"DVD/mois/envoyé par salarié" dans les deux sites.

8. On cherche à estimer la proportion des DVD abîmés lors de l'envoi, pa, et la proportion, pv,
de ceux qui sont volés (en consultant le fichier des DVD, comprenant pour chaque DVD les

11
réclamations éventuelles). Pour ce faire on extrait au hasard 70 DVD dans le fichier et on
constate que 12 DVD sont abîmés et que 4 DVD ont été volés. Que pensez-vous de cette
procédure ? Donnez des estimations de pa et de pv ainsi que des intervalles de confiance à
90 % et à risques symétriques pour ces deux paramètres.

∑x i = 171939
∑ (x i )
− x ² = 6005,13
NB.

Partiel de Septembre 2003


Deux groupes, de 10 auditeurs chacun, de jeux radiophoniques, sont créés, au hasard, parmi l'ensemble
des auditeurs potentiels afin de déterminer le jeu le plus populaire de l'été sur les ondes. Un questionnaire, est
soumis, par courrier, à chaque auditeur des deux groupes. Chaque réponse vaut un certain nombre de points et
ces points sont comptabilisés par questionnaire pour chaque auditeur testé. Le nombre de points, pouvant être
compris entre 0 et 10, correspond à une note attribuée au jeu, par l'auditeur.

Les notes ainsi créées sont les suivantes :


Groupe "Blue Note" (BN) et Groupe "Jazz Quizz" (JQ)

i BN JQ
1 0 0
2 0,5 0,4
3 0,9 0,5
4 1,2 0,9
5 1,5 1,2
6 2,1 1,7
7 6,5 2,1
8 6,7 3,4
9 6,9 4
10 7 4,8
11 7,3 5,2
12 7,5 5,7
13 7,7 6
14 8 7,5
15 8,2 7,8
16 8,4 8
17 8,5 8,2
18 8,8 8,8
19 8,9 9
20 9 9,4

PARTIE 1 4 points
1.1. Décrivez les séries ainsi obtenues (taille de l'échantillon, min, max, moyenne, écart-type, variance,
médiane)
1.2. Commentez ces séries.

PARTIE 2 16 points
2.1. Soit X la variable aléatoire dont la réalisation est la note attribuée au jeu par un auditeur. On pose : XBN
la variable aléatoire associée à la note d'un auditeur du jeu BN
XJQ la variable aléatoire associée à al note d'un auditeur du jeu JQ
m=E(X) σ²=Var(X)
mBN=E(XBN) σ²BN=Var(XBN)

12
mJQ=E(XJQ) σ²JQ=Var(XJQ)

Après avoir rappelé les propriétés d'un bon estimateur,


2.1.1. vous déterminerez les propriétés des estimateurs MBN et MJQ de mBN et mJQ définis par :
2.1.2. vous donnerez les deux estimations correspondantes,

i = n BN i = n JQ

∑ X i BN
i =1
∑X
i =1
i JQ
M BN = M JQ =
n BN n JQ

2.1.3. vous donnerez les estimateurs usuels pour σ²BN et σ²JQ ainsi que les estimations correspondantes S²
BN et S² JQ

2.2. Peut-on considérer que XBN et XJQ sont normales ?

2.3. Donnez des intervalles de confiance à 90 % et à risques symétriques pour mBN et mJQ

2.4. Les auditeurs ont-ils une préférence pour l'un des deux jeux ? Justifiez votre réponse en posant et résolvant
un ou plusieurs tests.

Partiel de Janvier 2004

On cherche à déterminer la durée de vie d'un nouveau modèle de graveur de DVD, afin de compléter la notice
d'utilisation et ainsi vanter les mérites de ce nouveau produit. On suppose que cette durée de vie est une variable
aléatoire qui suit une loi normale de paramètres m et σ inconnus.

On cherche à estimer m à partir d'observations x1,..,xn d'un échantillon de taille n. Dix essais sont effectués et
fournissent les résultats suivants (en nombre de DVD gravés) :

x1 = 43 000 x2 = 47 000 x3 = 44 000 x4 = 41 000


x5 = 49 000 x6 = 37 000 x7 = 35 000 x8 = 39 000
x9 = 34 000 x10 = 51 000

Première Partie

1.1. Décrivez la série des 10 observations (min, max, moyenne, écart-type, médiane, variance).
1.2. Donnez une estimation ponctuelle sans biais de m.
1.3. Donnez une estimation ponctuelle sans biais de σ.
1.4. Construisez un intervalle de confiance pour m de niveau 95 %.
1.5. Peut-on considérer une valeur de 40 000 comme décision plausible pour la notice, en tolérant un
risque de 5 % ?
1.6. Le responsable marketing hésite entre deux valeurs : 40 000 et 45 000, en tolérant le même risque.
Quelle décision devrait-il prendre ?
1.7. Quelle décision prendre concernant un σ² = 36 000 000 ? en considérant toujours le même risque de 5
%?

Deuxième Partie

On suppose désormais que σ = 6 000. Quatre nouveaux tests sont effectués et fournissent les résultats suivants :

x11 = 50 000 x12 = 43 000 x13 = 40 000 x14 = 37 000

13
2.1. En tenant compte des tests précédents, construisez un intervalle de confiance pour m de niveau 95 %.
2.2. Combien de tests aurait-il fallu effectuer pour que la largeur de l'intervalle de confiance soit inférieure à
4 000 ?

Troisième Partie

Une enquête par sondage sur quelques arrondissements de Paris, concernant des individus potentiellement
intéressés par l'achat d'un tel graveur de DVD, étant donné le prix de commercialisation, a donné les résultats
suivants :

Individus intéressés Individus non Individus interrogés


intéressés
Hommes 314 2 086 2 400
Femmes 182 1 418 1 600
Total 496 3 504 4 000

On se demande si le rapport nombre d'individus intéressés/ nombre d'individus interrogés, pour les hommes est
significativement différent du rapport correspondant pour les femmes. Autrement dit , est-ce que le facteur sexe
a une influence sur le fait d'être intéressé ou non ?

3.1. Justifiez votre réponse de deux manières différentes :

- Test du Chi-deux de l'indépendance de 2 facteurs

- Test de comparaison de fréquences

et montrez que la règle de décision adoptée est la même quelque soit la méthode de résolution choisie, en
tolérant un risque de première espèce de 15%.

Partiel de Septembre 2004

Un casting télévisé destiné à sélectionner le chanteur lyrique de l’année, ouvert aux jeunes de 18 à 25 ans,
voit se présenter 3 485 candidats. Ceux-ci sont répartis en 2 catégories :
- la catégorie A, réservée aux amateurs, comprend 2 320 candidats
- la catégorie B, réservée aux professionnels, comprend 1 165 candidats

Le jury est composé de 8 personnalités du monde artistique. Chacune estime pouvoir auditionner jusqu’à 15
candidats par jour. Chaque audition est résumée par une fiche, sur laquelle figure la note d’évaluation du
candidat comprise entre 0 et 20. Afin d’obtenir un bref aperçu du niveau des candidats, la production décide de
prélever au hasard un certain nombre de fiches dans chacune des catégories considérées. Pour avoir rapidement
une idée de l’espérance m des notes et de la dispersion σ de celles-ci par rapport à m, il est décidé de prélever n A
= 96 fiches dans la catégorie A et n B = 24 fiches dans la catégorie B, soit n = 120 fiches au total. Les résultats
sont résumés dans le tableau suivant :

Catégorie A Catégorie B
8.25 8.25 9.75 6.5 4.5 6 4 5.5 9.75 8.75
7.75 4.75 7 9.25 8.5 6.5 6.75 9 9.75 6.75
7.75 7.75 7.75 5.5 8 5.5 7.25 6.75 15 11
8.5 7.5 7 8 16.75 7.75 7.5 13.25 10.75 10.25
5.75 6 7.25 8 8.25 12 7.5 6.25 7.75 10.75
7.75 15.25 8.25 7.25 7 7.5 7 10.5 5.75 13.25
8.5 7.5 5.5 14.25 8.5 9.25 14 6.25 8.75 10.25
7.25 7.25 9 5 7.75 6.5 7.25 16.75 9.25 8.25
6.75 7.25 7.5 7.5 8.5 7.5 6.75 7.25 16 11.75

14
5.75 5.75 14.25 8.5 6 13.25 8.75 7 9.5 6.75
2.5 7.5 7.75 9 5 9.25 8.5 6.25 9.5 8.75
7.25 5 8.25 9.25 5.75 6 4.5 7.5 11 6.5

1. Etudiez les deux séries statistiques A & B.


2. Soit X la variable aléatoire dont la réalisation est la note obtenue par un candidat et on pose : m = E(X)
et σ² = Var(X). De même on appelle
a. XA la variable aléatoire associée à la note d’un candidat de la catégorie A
b. XB la variable aléatoire associée à la note d’un candidat de la catégorie B
et on note

mA = E(XA) σA² = Var(XA) mB = E(XB) σB² = Var(XB)

Donnez les propriétés des estimateurs MA et MB de mA et mB définis par :


nA nB

∑ X iA
i =1
∑Xi =1
B
i
MA = MB =
nA nB

Donnez les deux estimations correspondantes m̂ A et m̂ B . Calculez une estimation mn de m. De quelle variable
aléatoire est-elle la réalisation ?

3. Peut-on considérer que XA et XB sont normales ? On justifiera la réponse en effectuant les tests
adéquats, après avoir fait les justifications nécessaires.

4. Donnez les intervalles de confiance à 90% et à risques symétriques pour mA et mB. Que pensez-vous des
intervalles de confiance à 95 % et à risques symétriques de σA² et σB² suivants :
Pour xA : [5.01872 ; 8.88967] 95 ddl
Pour xB : [3.74412 ; 12.1966] 23 ddl

5. La note moyenne des candidats de la catégorie A (resp. B) avait été de 7.5 (resp. 10) lors du casting de
l’année précédente ; que pensez-vous des candidats de chacune des catégories qui se présentent cette
fois-ci ? Les données en votre possession suffisent-elles à émettre un jugement pertinent ? Quelle(s)
données demanderiez-vous à consulter ? Qu’en feriez-vous ?

6. Les candidats ayant une note strictement inférieure à 6 sont éliminés dès la première audition. Donnez
un intervalle de confiance à 95 % et à risques symétriques de la proportion des candidats de la
promotion qui seront éliminés. Peut-on considérer que cette proportion p est supérieure à 10 % ?
Justifiez votre réponse en effectuant un test et en prenant soin de préciser la région critique.

7. Soit M la variable aléatoire définie par


nb candidats cat. A nb candidats cat. B
M= MA + MB
nb total de candidats nb total de candidats

( )
Montrez que ∀ n A et n B : E M = m .
Que représente cette variable aléatoire ? Calculez alors une réalisation mn de M.

15
Annexes

Annexe 1 :

Catégorie A Catégorie B
2.5 5.75 6.5 7.25 7.5 7.75 8.5 9.25 5.75 9.75
4 5.75 6.5 7.25 7.5 7.75 8.5 9.75 6.5 9.75
4.5 5.75 7.25 7.5 8 8.5 10.5 6.75 10.25
6.75
4.5 5.75 7.25 7.5 8 8.5 12 6.75 10.25
6.75
4.75 6 7.25 7.5 8 8.5 13.25 7.75 10.75
6.75
5 6 7.25 7.5 8.25 8.75 113.25 8.25 10.75
6.75
5 6 7.25 7.75 8.25 9 14 8.75 11
6.75
5 6 7.25 7.75 8.25 9 14.25 8.75 11
7
5.5 6.25 7.5 7.75 8.25 9 14.75 8.75 11.75
7
5.5 6.25 7.5 7.75 8.25 9.25 15.25 9.25 13.25
7
5.5 6.25 7.5 7.75 8.5 9.25 16.75 9.5 15
7
5.5 6.5 7.5 7.75 8.5 9.25 16.75 9.5 16
7.25

Annexe 2 :

96 24

∑xi =1
A
i = 754.75 ∑xi =1
B
i = 235.75

96 24

∑ (x iA )2 = 6555.44
i =1
∑ (x
i =1
B 2
i ) = 2458.31

16
Partiel de Février 2005

Un sociologue cherche à déterminer, parmi la population des étudiants universitaires de France, s’il
existe une différence entre le Q.I.(*) des garçons et celui des filles. Il effectue 42 entretiens et obtient
les résultats suivants :

Filles Garçons
xi yi
145 146
123 122
130 135
146 143
96 96
87 86
98 101
137 136
144 145
124 122
117 118
101 98
97 96
100 99
95 97
99 100
102 103
98 95
134 132
89 88
155 155

1. Décrivez chacune des séries (taille de la population, taille de l’échantillon, min, max,
moyenne, médiane, écart-type, intervalle interquartile)
2. Peut-on supposer que la distribution de ces variables, pour la série des femmes, suit une loi
normale ?
3. Construisez, pour chacune des séries, un intervalle de confiance pour m et σ² à 95 % et à
risques symétriques. Représentez-les graphiquement.
4. Peut-on accepter un écart-type de 25 comme valeur possible de σ à 95 % ?
5. Pensez-vous que la variabilité des observations chez les filles est supérieure à celle des
garçons ? Formalisez ce problème pour un risque toléré de 5 % et résolvez-le.
6. Le sociologue se pose le problème de savoir si ces résultats concordent en moyenne ? Justifiez
votre réponse.
7. Définissez puis calculez les risques de 1ère et 2nde espèces, pour la série des filles, du test dont
l’hypothèse de base correspond à supposer une valeur moyenne strictement inférieure à celle
de la série et l’hypothèse alternative correspond à supposer une valeur supérieure ou égale à
celle de la série.
8. Pour cette même série, déterminez le seuil du test et sa puissance, puis définissez et
représentez la courbe d’efficacité de ce test.
9. Concluez d’après les documents fournis en annexe.

17
(*) Le QI (Quotient Intellectuel) est le terme générique employé depuis 1912, pour désigner
les différents tests psychométriques d'intelligence, ou pour désigner le résultat obtenu à un
de ces tests.
Le QI n'est pas une mesure de l'intelligence mais une évaluation des capacités intellectuelles
qui permet de comparer le fonctionnement intellectuel d'une personne par rapport à une
autre personne du même âge.

ANNEXE 1 :
i = 21 2 i = 21 2

∑ (x i − x ) = 9 490 ∑ (y i − y ) = 9 608
i =1 i =1

ANNEXE 2 :Données concernant la population française

- 70% de la pop. réalisent un score entre 85 et 115


- la médiane a pour valeur 100
- 50% de la pop. Réalise un score au dessus de 100

Partiel de Septembre 2005

Afin de déterminer les effectifs de l’année universitaire 2005/2006, 25 copies sont prélevées au hasard,
après l’épreuve de statistiques, pour déterminer le taux de réussite de l’ensemble des candidats. Les
copies sont corrigées en double correction par deux professeurs, Monsieur «TB» et Monsieur «Z». Le
1er correcteur remet ses notes dès le lendemain. Les copies de chaque candidat (i) sont notées sur 100 :

Candidat i Note obtenue TBi Candidat i Note obtenue TBi


1 57 13 57
2 69 14 77
3 42 15 31
4 30 16 42
5 83 17 32
6 60 18 68
7 49 19 45
8 28 20 37
9 24 21 55
10 40 22 65
11 75 23 58
12 45 24 44
25 55

PARTIE I
1. Décrivez la série des 25 notes observées (min, max, moyenne, variance, écart-type, médiane)
2. Montrez que les notes mises par « TB » peuvent raisonnablement être considérées comme des
réalisations d’une variable aléatoire normale X.
3. Si m=E(X) et σ= σ(X), donner les estimateurs et les estimations de m, σ et σ².
4. Si, au lieu de 25 copies, on en avait donné 30 à A, quelles auraient pu être les notes des 5
copies supplémentaires ?

18
5. Donnez un intervalle de confiance à 95 % et à risques symétriques pour m et σ².
6. La note 50 est-elle dans l’intervalle IC0,95(m) ? Commentez la réponse obtenue. Quelle est
alors pour m la précision relative obtenue ? Quelle taille d’échantillon (min, moyenne, max)
aurait-il fallu prendre pour avoir une précision relative de 5 % ?

PARTIE II
Le second correcteur « Z » remet ses copies 3 jours après et obtient les notes suivantes :

Candidat i Note obtenue Zi Candidat i Note obtenue Zi


1 58 13 32
2 56 14 77
3 37 15 17
4 55 16 34
5 18 17 52
6 33 18 28
7 76 19 31
8 43 20 57
9 47 21 35
10 27 22 64
11 65 23 58
12 52 24 51
25 81

1. Les notes attribuées par chacun des deux correcteurs concordent-elles en moyenne ?
2. On pose Di = TBi – Zi, pouvez-vous supposer que la loi des Z (dont les zi sont des
réalisations) est normale ? Quelle est la loi de Di ? Quelle est la loi de D* = Σ Di/n (n=25) ?
Calculez une réalisation d* de D*.
3. Justifiez le fait que si l’hypothèse de base est vraie, alors T suit une loi de Student à (n-1) ddl
D*
où T est définie par T=
S
n −1
4. La règle de décision du test est de rejeter H0 si t f γ . Justifiez cette règle. Déterminez le
seuil critique γ . Quelle hypothèse adopte-t-on ? Qu’en pensez-vous ?
5. Le test précédent est-il le seul test possible pour répondre à la question de départ ? Imaginez
un autre test qui réponde à la question posée (surtout on ne vous demande pas de la faire !
uniquement de le poser !).

ANNEXES

i = 25 i = 25
∑ TBi = 1268 ∑ di = 84 ∑ di ² = 12182
i =1 i =1

19
Partiel du 20 Janvier 2006

Un entraîneur sportif cherche à étudier les performances d’un espoir junior, sur 400 m haies, en
relevant, au hasard et avec remise, le meilleur temps de 99 séances d’entraînement parmi toutes les
séances d’entraînement effectuées par l’adolescent (les temps improbables peuvent s’expliquer par des
erreurs de chronométrage). Soit ti le meilleur temps du ième entraînement (unité de mesure : la
seconde).

i ti 26 67,7 52 66,3 78 38,2


1 62,5 27 60,8 53 58,3 79 56,1
2 45,8 28 61,5 54 59,2 80 62,6
3 63,1 29 60,4 55 71,1 81 68,3
4 72,2 30 70,5 56 65,7 82 58,8
5 64,3 31 49,1 57 71,5 83 69,1
6 60,1 32 70,6 58 41,5 84 63,4
7 49,8 33 78,3 59 63,3 85 58,8
8 71,4 34 59,7 60 74,1 86 59,2
9 45,1 35 71,9 61 67,1 87 65,9
10 66,8 36 64,5 62 56,8 88 69,6
11 65,2 37 68,6 63 56,7 89 70,8
12 55,3 38 61,7 64 65,8 90 73,6
13 60,6 39 40,1 65 42,6 91 59,4
14 54,6 40 58,7 66 60,1 92 61,5
15 70 41 59,6 67 61,9 93 75,2
16 61 42 74,2 68 36,8 94 58,5
17 62,8 43 55,1 69 72,1 95 36,6
18 68,9 44 59,8 70 63,8 96 52,4
19 48,5 45 69,8 71 60,9 97 57,4
20 53,3 46 22,7 72 58,8 98 72,8
21 54,6 47 51,6 73 60,3 99 72,4
22 62,5 48 56,2 74 53
23 44,6 49 68,6 75 53,2
24 63,1 50 65,9 76 47,5
25 53,4 51 60,3 77 46,3

1. Décrivez la série statistique observée d’ap. les données de l’annexe 1 (min, max, moyenne,
variance, écart-type, médiane, intervalle interquartile). Décrivez la population ?
2. On appelle p la proportion des temps réalisés inférieurs à 45 s. et π celle des temps supérieurs
à 60 s..Donnez des estimations ainsi que des intervalles de confiance à 90% et à risques
symétriques de ces deux paramètres. Le nombre total de courses effectuées par l’adolescent
est évalué à 1 500; après en avoir défini le sens, donner une fourchette pour le nombre δ des
temps supérieurs à 60 s..
3. On appelle T la variable aléatoire associée au temps réalisés, dont ti sont les réalisations. On
note, comme d’habitude : E(D)=m et Var(D)=σ². Donnez des estimations mn et Sn² de ces
deux paramètres.
( )
4. Peut-on considérer que la variable T suit une loi Ν m n , S n ? On pourra utiliser le tableau
de l’annexe 2 après l’avoir expliqué et dûment complété. Qu’en résulte-t-il pour un risque de
5% ?
5. Donnez les définitions
- d’un intervalle de confiance à droite IC1d−α (m ) pour m à 1- α

20
- d’un intervalle de confiance à gauche IC1g−α (m ) pour m à 1- α
( )
- d’un intervalle de confiance bilatéral à risques symétriques IC1−α m pour m à 1- α
Donnez les expressions de ces intervalles de confiance. Que se passe-t-il lorsque α =0 et lorsque
α =1 ? Démontrez que :
IC1−α (m ) = ICg α (m ) ∩ ICd α (m )
1− 1−
2 2
Le calcul informatique donne les résultats suivants pour les intervalles de confiance pour m et
pour σ2 à 95 % et à risques symétriques :

IC0,95 (m ) = [58,2525;62,2061] et IC0,95 (σ² ) = [75,6359;132,7864]


Qu’en pensez-vous ?
6. On cherche à savoir s’il est raisonnable de qualifier cet athlète et on cherche à savoir si son
temps moyen est supérieur, ou non, à 65s., temps éliminatoire. Qu’en pensez-vous ? On
formalisera le problème avant de le résoudre.
7. Pour modéliser le problème, le statisticien propose de poser X=ln(105-T) (où ln est le
logarithme népérien). Il transforme ainsi les données pour obtenir celles de l’annexe 3.
Montrer qu’on peut effectivement considérer que la loi de X est la loi N(3,78918 ;0,222271).
On pourra utiliser les résultats de l’annexe 4 après avoir expliqué comment on a obtenu les
paramètres de la loi normale et en quoi la conclusion peut s’imposer.
8. Que pensez-vous du modèle décrit dans la question précédente ? Quelle est alors la probabilité
qu’un temps soit inférieur à 55 s., supérieur à 65 s., compris entre 50 et 60 s. ?
On prendra les valeurs suivantes :
ln 55 = 4,00733319 ln 50=3,91202301 ln 45 = 3,80666249 ln 40 = 3,68887945

ANNEXES

ANNEXE 1.

i =99 i =99
∑ t i = 5 962,70 & ∑ t i2 = 368 756,29
i =1 i =1

Série des ti rangée par ordre croissant (en colonne) :

22,7 48,5 55,3 59,2


36,6 49,1 56,1 59,2
36,8 49,8 56,2 59,4
38,2 51,6 56,7 59,6
40,1 52,4 56,8 59,7
41,5 53 57,4 59,8
42,6 53,2 58,3 60,1
44,6 53,3 58,5 60,1
45,1 53,4 58,7 60,3
45,8 54,6 58,8 60,3
46,3 54,6 58,8 60,4
47,5 55,1 58,8 60,6

21
60,8 63,3 67,7 71,4
60,9 63,4 68,3 71,5
61 63,8 68,6 71,9
61,5 64,3 68,6 72,1
61,5 64,5 68,9 72,2
61,7 65,2 69,1 72,4
61,9 65,7 69,6 72,8
62,5 65,8 69,8 73,6
62,5 65,9 70 74,1
62,6 65,9 70,5 74,2
62,8 66,3 70,6 75,2
63,1 66,8 70,8 78,3
63,1 67,1 71,1

ANNEXE 2.

TEST du KHI-DEUX POUR T :

Limite inférieure Limite supérieure Fréquence Fréquence Khi-deux


observée espérée
<= 44 7 5,03 0,78
44 50 ? 9,92 0,37
50 56 10 ? ?
56 62 30 23,37 1,88
62 68 20 21,05 0,05
68 74 20 13,28 3,4
> 74 ? ? ?

Khi-deux = ? d.d.l. = ? P-value=0,0153651

ANNEXE 3.

3,74950408 3,55534806 3,79773386 3,910021


4,08092154 3,78418963 3,54095932 3,81109709
3,73528583 3,74242022 4,02356438 3,56104608
3,49042852 3,58629287 3,53805656 4,41037111
3,70622809 4,03424064 3,28466357 3,97781075
3,80443779 3,94545778 3,81330703 3,88773031
4,01096295 3,91999118 3,49953328 3,59456877
3,51452607 3,74950408 3,70130197 3,66612247
4,09267651 4,1009891 3,59456877 3,7999735
3,64283552 3,73528583 3,76815264 3,6558396
3,68386691 3,94352167 4,17284762 3,84374416
3,90600493 3,61899333 3,83514196 3,82428409
3,79323947 3,78872479 3,81551211 3,52341501
3,91999118 3,77276094 3,42751469 3,67122452

22
3,51154544
4,15103991
3,73050113
3,43075618
3,63495111
3,87535902
3,87743156
3,66867675
4,13356528
3,80443779
3,763523
4,22244456
3,49347266
3,71843826
3,78645978
3,8329798
3,7999735
3,95124372
3,94739015
4,05178495
4,07243973
4,20170308
3,8897774
3,74714836
3,60277676
3,8329798
3,5807373
3,72810017
3,8329798
3,82428409
3,66612247
3,56671182
3,53222564
3,44680789
3,81990772
3,77276094
3,39450839
3,83945231
4,22537282
3,96271612
3,86283276
3,47196645
3,48431229

23
ANNEXE 4.

TEST du KHI-DEUX POUR X :

Limite inférieure Limite supérieure Fréquence Fréquence Khi-deux


observée espérée
<= 3,5 9 9,57 0,03
3,5 3,6 13 9,97 0,92
3,6 3,7 10 14,53 1,41
3,7 3,8 22 17,35 1,24
3,8 3,9 19 16,98 0,24
3,9 4,0 10 13,62 0,96
4,0 4,1 7 8,95 0,43
> 4,1 9 8,02 0,12

Khi-deux = 5,35882 d.d.l. = 5 P-value=0,373675

Partiel du 8 Septembre 2006

Au sein du département production d’un équipementier automobile, un responsable qualité


effectue quelques vérifications…
Question 1 :
Un responsable qualité prélève deux échantillons et souhaite vérifier s’ils sont issus de lots
homogènes.
Les données prélevées sont les suivantes :
Echantillon 1 (E1) 7,9 7,7 8,0 8,3 8,2 8,3 7,6

Echantillon 2 (E2) 8,0 8,2 7,8 7,9 7,7 7,6 7,8

1.1 Discutez les données (taille échantillon, max, min, variance, écart-type, moyenne)
1.2. Les échantillons proviennent-ils de deux lots homogènes ? (risque unilatéral toléré de 5
%)

Question 2 : Expliquez comment on détermine la variance empirique de la moyenne


empirique d’un échantillon tiré au hasard avec remise ? sans remise ?

Question 3 : Existe-t-il une différence entre les deux résultats précédents ? justifiez votre
réponse

Question 4 : Une machine produit des pièces de diamètre aléatoire X suivant une loi normale
N(m,σ²) avec σ0 = 0,08 cm connue. La machine est réglée si m=m0, déréglée si m>m0. On
dispose d’un n-échantillon (X1, X2, …Xn). Quelle doit être la taille minimum N de
l’échantillon pour que le test de l’hypothèse H0 « m=m0 » contre H1 « m>m0 » de niveau 5%
soit de puissance au moins 99 % en m1>m0 ? (on expérimentera N en fonction de m1 et m0).
Application numérique : m0=6 cm, m1=6,01 cm.

24
Question 5 : On cherche à tester si la couleur des voitures et le volume du coffre sont deux
caractères indépendants ou non. Une enquête menée sur 6 684 ventes de véhicules
automobiles a donné les résultats consignés dans le tableau ci-après. Testez cette
indépendance au seuil de 5 %.
Couleur \ Volume petit moyen grand
Couleur claire 1768 807 189
Couleur foncée 946 1387 746
Couleur vive 115 438 288

Barème : Q1 : 2+2,25 / Q2 : 5 / Q3 : 1 / Q4 : 4 / Q5 : 6

Partiel du 19 Janvier 2007

Un jeu concours, organisé par une même marque de Céréales, reçoit des réponses sur 10 mois. Ces
réponses correspondent à des bulletins découpés sur deux gammes différentes : les « Chocomiam », et
les « Fraisymiam ». La marque cherche à déterminer si l’opération promotionnelle intéresse davantage
les clients de l’une de ses deux gammes.

Semaine i Chocomiam Fraisymiam


1 350 522
2 264 394
3 342 510
4 134 200
5 235 351
6 632 351
7 237 353
8 128 192
9 367 547
10 378 564
11 216 322
12 326 487
13 328 467
14 318 474
15 127 190
16 376 571
17 239 345
18 302 461
19 507 781
20 421 253
21 356 531

9. Décrivez les séries (taille de la population, taille de l’échantillon, min, max,


moyennes, médianes, variances, intervalles interquartiles)

10. Peut-on considérer les « Chocomiam » comme des réalisations d'une variable
aléatoire normale X ? Justifiez votre réponse.

11. Si on appelle m et σ², la moyenne et la variance de X, donnez les estimateurs de ces


paramètres; et leurs propriétés ? En déduire leurs estimations.

25
12. Construisez pour chacune des séries les intervalles de confiance IC(m) et IC(σ²) à
90% et à risques symétriques de m et σ². Entre quelles limites devrait se situer la
taille d'un échantillon pour que la précision relative sur m soit de l’ordre de 1 % ?

13. Peut-on considérer que les deux gammes fournissent des résultats équivalents ?
Justifiez votre comparaison.

14. Définissez puis déterminez les risques de 1ère espèce et seconde espèces, pour
chacune des séries, ainsi que le seuil et la puissance du test que vous représenterez
graphiquement.

15. Complétez chaque série par 5 données cohérentes en utilisant la méthode de


simulation des nombres au hasard.

16. Commentez vos résultats et concluez.

Barème :

Question 1 3 points
Question 2 3 points
Question 3 1 point
Question 4 4 points
Question 5 4 points
Question 6 2 points
Question 7 3 points
Question 8 1 point

21 points

26
Partiel de Septembre 2007

Le directeur qualité d’une usine produisant des écrans plasma, souhaite


déterminer si le nouveau composant intégré dans ses écrans augmente
significativement leur durée de vie.

i di (heures)
1 25 000
2 32 000
3 35 000
4 22 000
5 18 000
6 39 000
7 27 500
8 26 500
9 31 500
10 28 000
11 24 000
12 35 000
13 41 000
14 27 500
15 25 000

16 30 000
17 30 000
18 28 000
19 29 000
20 34 000
21 37 500
22 24 500
23 26 500
24 34 000
25 27 000
26 29 000
27 36 000
28 30 500
29 24 000
30 29 000

27
28
7. Décrivez la série ainsi obtenue en en précisant les principales caractéristiques
(taille population, taille échantillon, min, max, moyenne, variance empirique).

8. Soit la proportion d’écrans :


- p 0 , dont la durée de vie est au moins de 29 000 heures.
- p1 , dont la durée de vie est au plus de 22 000 heures.
8.1. Précisez les échantillons.
8.2. Donnez les estimations correspondantes.
8.3. Proposez un intervalle de confiance à risques symétriques pour
chacun des paramètres, en supposant que le directeur qualité tolère un
risque de 10 %. Commentez les résultats ainsi obtenus. Donnez un
intervalle du nombre d’écrans ayant une durée de vie d'au moins 29 000
heures.

9. Supposons que D est une variable aléatoire représentant la durée de vie des
écrans, dont les d i sont les réalisations.
9.1. Calculez les estimations usuelles pour chacun de ces deux
paramètres. Justifiez vos réponses afin d'expliquer toutes les formules
utilisées. On notera :
E ( D) = m
Var (D) = σ 2
3.2.Dans la mesure où l’on ne connaît pas la loi suivit par D, proposez une
autre estimation de E(D).
3.3.Peut-on considérer que D suit une loi normale ? Justifiez votre
réponse.

10.Le directeur qualité ne peut attendre les résultats et décide de commercialiser


les écrans. Il s'intéresse désormais à la variabilité du rendement potentiel du
produit. Le rendement est une variable aléatoire qui suit une loi normale
d'espérance m=25 000 et d'écart-type σ = 5500 .
10.1. Formalisez le problème pour justifier votre réponse
10.2. Ces produits sont-ils rentables si le risque toléré est de 10 % ?
Justifiez votre réponse en utilisant la Théorie des Tests (étudiez la
dispersion de ces produits).

11.Peut-on commercialiser les écrans d'après les résultats précédemment


obtenus ?
11.1. Formalisez le problème pour justifier votre réponse
11.2. Définissez le risque de 1ère espèce ? le risque de 2nd espèce ?

12.Qu'en concluez-vous ?

NB.1. Les cinq premières parties sont indépendantes les unes des autres.
NB.2. Le nombre total d’écrans plasma produits est de 300.

Gaultier-Gaillard Statistiques Paris I

Vous aimerez peut-être aussi