Vous êtes sur la page 1sur 14

LU1INMA1 : Sciences des données

Année 2023-2024

Exercices de TD
1re période

1 Rappels : Variables discrètes


Exercice 1.1 : Manipulation de sommes et d’indices
Calculer les sommes suivantes pour x ∈ R, n ∈ N∗
Pn
1. i=1 1.
Pn
2. i=1 i .
3. Montrer que
n
X n(n + 1)(2n + 1)
i2 = .
6
i=1
Pn Pn
4. − x) où x =
i=1 (xi i=1 xi /n.
Pn Pn
5. i=1 j=1 min(i , j)

Exercice 1.2 : Autour des sommes géométriques


Pn j.
1. Soit x un nombre réel ou complexe. Rappeler que vaut j=0 x
2. On organise un tournoi de tennis, pour lequel 32 joueurs sont inscrits. Le tournoi s’effectue en
seizièmes, huitièmes, quarts, demis et finale. Combien de matchs sont nécessaires pour désigner le
vainqueur ?
3. Imaginons que l’on ait 32 sprinteurs dont on veut trouver le meilleur. On propose la procédure
suivante : ils effectuent une première course et le dernier est éliminé. Puis une deuxième et le
dernier est éliminé, etc. Le vainqueur de la dernière course (à 2 coureurs donc) est déclaré meilleur
sprinteur. Combien de courses sont nécessaires pour désigner le vainqueur ? Comparer au résultat
de la question précédente.
4. On reprend le tournoi de tennis à 32 joueurs. Combien y a-t-il de déroulements possibles du tournoi,
sachant que la place des joueurs sur la feuille de match est fixée ?

Exercice 1.3 : Dénombrement : constitution d’un comité


Dans un groupe de 10 femmes et 8 hommes, on doit former un comité de 3 hommes et 3 femmes.
Combien de comités différents peut-on former si :
a) 2 des hommes refusent d’être ensemble dans le comité ?
b) 2 des femmes refusent d’être ensemble dans le comité ?
c) 1 homme et 1 femme refusent d’être ensemble dans le comité ?

Exercice 1.4 : Tables de contingence : éducation


1
On se propose de décrire l’évolution de l’éducation des enfants d’une génération à l’autre. L’étude
porte sur un échantillon d’individus âgés de 25 à 40 ans mariés et ayant des enfants. On dispose pour
chaque individu d’un couple d’observations : (le type d’éducation que cet individu donne à ses enfants ;
le type d’éducation que cet individu a reçu quand il était enfant). On considère ainsi deux variables :
Variable x : Education actuelle, le type d’éducation que cet individu donne à ses enfants.
Variable y : Education d’origine, le type d’éducation que cet individu a reçu quand il était enfant.
On dispose du tableau de contingence en effectifs de ces deux variables :

y Sévère Juste Laxiste


x
Sévère 60 30 20
Juste 20 80 60
Laxiste 80 50 100

1. Donner la population étudiée, l’unité statistique, les variables étudiées et leur type. Quels dia-
grammes sont adaptés pour la représentation graphique de telles variables ?
2. Déterminer le tableau de contingence en fréquences des deux variables étudiées et donner les
fréquences marginales.
3. Quelle est la proportion d’individus qui ont reçu une éducation laxiste et éduquent pareillement
leurs enfants ?
4. Donner la proportion d’individus ayant reçu une éducation laxiste qui éduquent ainsi leurs enfants.
5. Représenter par un diagramme en barres les fréquences marginales des modalités de la variable
Éducation actuelle.
6. Donner les fréquences conditionnelles de la variable Éducation d’origine sachant la variable Éduca-
tion actuelle.
7. Représenter par des diagrammes en barres les fréquences conditionnelles de la variable Education
actuelle sachant la variable Education d’origine.

Exercice 1.5 : « Paradoxe » de Simpson


Une étude médicale compare le succès de deux traitements notés A, B contre les calculs rénaux datant
de 1989 (journal BMJ, auteurs : Charig, Webb, Payne & Wickham). La première table montre le succès
global et le nombre patients pour chaque méthode :

A B
273/350 (78%) 289/250 (83%)

Petits calculs Gros calculs


A B A B
81/87 (93%) 234/270 (87%) (192/263) ( 73%) (55/80) ( 69%)
1. Quelles conclusions pouvez-vous donner à partir des deux tables précédentes ?
2. Quel est le paradoxe et quelle variable y conduit ?

2
2 Rappels : Variables continues
Exercice 2.1 : Moyenne pondérée
Montrer que
n
, n
X X

u = wi xi wi
i=1 i=1
minimise la fonction
n
X
C(u) = wi (xi − u)2
i=1
où, pour tout 1 ≤ i ≤ n : wi > 0.

Exercice 2.2 : Décomposition de la variance


On considère des observations réparties en I groupes. On note ni le nombre d’observations dans le
i -ème groupe (1 ≤ i ≤ I) et xij la valeur de la variable d’intérêt pour le j-ème individu (1 ≤ j ≤ ni ) du i
groupe. On note de plus n le nombre total d’observations : n = Ii=1 ni .
P

On note x i la moyenne du i -groupe :


ni
1 X
xi = xij
ni
j=1

et x la moyenne générale.
1. Ecrire la formule de la moyenne générale et montrer qu’elle se décompose comme suit :
I
X ni
x= xi.
n
i=1

2. Montrer que la dispersion autour de la moyenne générale se décompose comme


X ni
I X X ni
I X I
X
2 2
(xij − x) = (xij − x i ) + ni (x i − x)2 .
i=1 j=1 i=1 j=1 i=1

Exercice 2.3 : Application


Sur l’île d’Eutopia, on a réalisé une étude portant sur le temps que consacrent chaque jour les
habitants de l’île aux tâches domestiques. Le tableau de contingence ci-dessous donne la répartition des
224 habitants selon leur sexe et le temps consacré quotidiennement aux tâches domestiques. Les valeurs
de ces durées ont été réparties en 4 classes.

Temps (en min) [0, 60[ [60, 100[ [100, 180[ [180, 280[ Total
Sexe
Femme 0 1 18 71 90
Homme 51 53 29 1 134
Total 51 54 47 72 224
1. Vérifier par le calcul que le temps moyen consacré aux tâches domestiques des femmes est égal à
210.33 min et que la variance est égale à 1483.22 min2 .
2. Retrouver, par le calcul, que la part de variabilité du temps consacrée aux tâches domestiques qui
est expliquée par le sexe est de 71, 92%. Vous utiliserez les éléments de calculs adéquats fournis
dans le tableau ci-dessous.

Temps consacré aux tâches domestiques Moyenne Variance Ecart-type


Femme 210.3 1483.22 38.51
Homme 75.07 1874.25 43.29
Total 129.42 6114.40 78.19
3
3. Interpréter dans ce cadre la formule de décomposition de la variance.

Exercice 2.4 : Description

1. Dans un casino, lorsqu’un joueur joue à la roulette et mise 1 euro sur le rouge, alors il a une
probabilité de gagner de 18/38 (et de 20/38 de perdre). On observe 100 fois le nombre de parties
qu’il faut à un joueur qui parie toujours cela, pour perdre 5 euro. On obtient la répartition suivante.
Sur la figure, la moyenne a été ajoutée par une croix rouge. Commentez ce graphique.

2. On note le poids d’un groupe de 100 femmes et d’un groupe de 80 hommes, sous l’eau. Voici les
données pour les femmes puis pour les hommes :

2.0 2.0 2.1 1.6 1.9 2.0 2.0 1.3 1.3 1.2 2.3 1.9
2.1 1.2 2.0 1.6 1.1 2.2 2.2 1.4 1.7 2.4 1.8 1.7
2.0 2.1 1.6 1.7 1.8 0.7 1.9 1.7 1.7 1.1 2.0 2.3
0.5 1.3 2.7 1.8 2.0 1.7 1.2 0.7 1.1 1.1 1.7 1.7
1.2 1.2 0.7 2.3 1.7 2.4 1.0 2.4 1.4 1.9 2.5 2.2
2.1 1.4 2.4 1.8 2.5 1.3 0.5 1.7 1.9 1.8 1.3 2.0
2.2 1.7 2.0 2.5 1.2 1.4 1.4 1.2 2.2 2.0 1.8 1.4
1.9 1.4 1.3 2.5 1.2 1.5 0.8 2.0 2.2 1.8 2.0 1.6
1.5 1.6 1.5 2.6

3.7 3.6 4.0 4.3 3.8 3.4 4.1 4.0 3.7 3.4 3.5 3.8 3.7 4.9
3.5 3.8 3.3 4.8 3.4 4.6 3.5 5.3 4.4 4.2 2.5 3.1 5.2 3.8
3.3 3.4 4.1 4.6 4.0 3.7 4.3 3.8 4.7 4.4 5.0 3.2 3.1 4.2
4.9 4.5 3.8 4.2 2.7 3.8 3.8 2.0 3.4 4.9 3.3 4.3 5.6 3.2
4.7 4.5 5.2 5.0 5.0 4.0 3.8 5.3 4.5 3.8 3.8 3.4 3.6 3.3
4.2 5.1 4.0 4.7 4.4 3.6 4.7 4.5 2.3 4.0
(a) Pour chaque groupe dessiner l’histogramme en faisant des classes de largeur 0.5kg et comparer
les deux histogrammes obtenus.
(b) Pour chaque série tracer la boite à moustache associée (il vous faudra calculer la médiane, le
premier et le 3ème quartile).
(c) Commenter.

4
3 Corrélation, régression linéaire
Exercice 3.1 : Démonstration de l’inégalité de Cauchy-Schwarz
L’objectif est de démontrer que, pour tous vecteurs u et v, on a

< u, v >2 ≤ ∥u∥2 ∥v∥2 . (1)

Pour cela, on définit

n
X n
X n
X
A = ∥u∥2 = ui2 , B = ∥v∥2 = vi2 , C =< u, v >= ui vi .
i=1 i=1 i=1

1. Montrer que

∥u + v∥2 = ∥u∥2 + ∥v∥2 + 2 < u, v > .

En déduire que

∥tu + v∥2 = At 2 + 2Ct + B.

2. On définit le polynôme du second degré en t

f (t) = At 2 + 2Ct + B.

Montrer que (1) est vraie si le polynôme f admet au plus une racine.

3. Conclure.

Exercice 3.2 : Calculs de coefficients de corrélation.

Individu 1 2 3 4 5 6 7 8 9 10
xi 2.42 2.54 2.45 2.53 2.64 2.52 2.6 2.64 2.6 3.12
yi 6.6 6.58 6.56 6.55 6.54 6.52 6.51 6.5 6.49 6.28

1. Représenter graphiquement la série des valeurs du couple (xi , yi ).

2. Calculer le coefficient de corrélation linéaire des séries x et y.

3. Commenter.

Exercice 3.3 : Corrélation linéaire et régression


Voici un extrait de données recueillies en 2011 au cours d’une étude sur la population mondiale :
pour n = 45 pays, on dispose de l’espérance de vie en années et de l’indice de fécondité (nombre moyen
d’enfants par femme), ces données sont accessibles sur la site de l’unesco. L’objectif est d’analyser
l’évolution de l’espérance de vie (notée y ) en fonction de l’indice de fécondité (noté x). Les données sont
5
représentées dans la figure suivante.

Pour les calculs, on pourra utiliser les résultats intermédiaires suivants :


45
X 45
X 45
X 45
X 45
X
yi = 3423; xi = 94.6; xi yi = 6946.1; yi2 = 262163; xi2 = 250.42
i=1 i=1 i=1 i=1 i=1

où pour chaque pays i = 1, . . . , 45, xi représente l’indice de fécondité et yi l’espérance de vie.


1. Semble-t-il pertinent d’envisager une relation linéaire entre l’espérance de vie et le taux de fécon-
dité ? Justifier.
2. Vérifier par le calcul que la droite des moindres carrés de y en x a pour équation y = −4.845931x +
86.253891.
3. Que peut-on dire de la qualité de l’ajustement linéaire ?
4. Quelle est l’espérance de vie approchée fournie par cette régression linéaire pour un pays d’indice
de fécondité égal à 2.8 ? Pour un indice égal à 4 ? Et un indice de 5.5 ?
5. Comment une augmentation de 1 de la fécondité influence-t-elle l’approximation de l’espérance de
vie ?
6. Peut-on déduire des résultats précédents que donner la vie à beaucoup d’enfants fait mourir plus
jeune ?

6
4 Classification non-supervisée
Exercice 4.1 : Algorithme des k-means
On s’intéresse à la classification fournie par l’algorithme de k-means. La figure suivante présente deux
jeux de données (à gauche) et le résultat de leur classification en k = 2 groupes (au centre) et k = 5
groupes (à droite) en prenant, à chaque fois, le meilleur résultats parmi 100 tirages de points initiaux.

Données originales Classification en 2 groupes Classification en 5 groupes

1. Commenter les classifications obtenues. Quelle classification auriez-vous espéré ?

Transformation de données. On s’intéresse plus particulièrement au second exemple. Il existe plusieurs


façons de repérer un point M dans le plan R2 . La plus classique consiste à utiliser un repère orthogonal
et des coordonnées cartésiennes (x, y ) donnant la position du point le long de chacun des deux axes.
Un façon alternative consiste à le repérer par ses coordonnées polaires (r, θ) où r désigne la distance du
point à l’origine et θ l’angle formé par le vecteur OM avec l’axe des abscisses :

r = ∥OM∥, \
θ = (Ox, OM)

4. Montrer que les couples (x, y ) et (r, θ) vérifient les équations suivantes :

x = r cos(θ), y = r sin(θ).
7
La figure suivante donne le résultat de la classification par k-means des données du second exemple,
après passage en coordonnées polaires.

Coordonnées cartésiennes Coordonnées polaires


Retour en
coordonnées cartésiennes Classification en 2 groupes

5. Etablir la correspondance entre les points représentés selon les coordonnées cartésiennes et les
points représentés en coordonnées polaires.
6. Commenter les classifications obtenues après le changement de coordonnées.
7. Donner un exemple de deux groupes de points dans le plan R2 pour lesquels la transformation en
coordonnées polaires ne permettrait pas de retrouver une classification satisfaisante.

Exercice 4.2 : Comparaison des algorithmes des k-means et de classification hiérar-


chique

Décroissance de la dispersion intra-classe. On s’intéresse à la classification non supervisée de n


points x1 , . . . xn de Rp représentant n observations i = 1 . . . n. On note

Pk = Pk ({1, . . . n})

l’ensemble des partitions de n éléments en k ensembles. On mesure la qualité d’une partition en k groupes
par la dispersion intra-classes
k X
X
Dintr a (C) = ∥xi − xg ∥2
g=1 i∈Cg

qui doit être la plus faible possible. On note Dk∗ le minimum de la dispersion intra-classes parmi l’ensemble
des partitions en k classes :
D∗ (k) = min Dintr a (C).
C∈Pk

8
1. On considère une partition quelconque C = {C1 , C2 } de P2 pour n ≥ 2 observations. Montrer que

Dintr a (C) ≤ Dintr a (C1 )

où C1 est la seul partition possible en un ensemble : C1 = {{1, . . . n}}.


2. En déduire que
D∗ (2) ≤ D∗ (1).

3. En déduire que, pour n > k,


D∗ (k + 1) ≤ D∗ (k).

Comparaison de deux algorithmes. On cherche maintenant à établir une classification de n = 150


points dans R4 . On compare les résultats obtenus avec l’algorithme des k-means et la classification
ascendante hiérarchique (’CAH’) d’autre part.
La figure suivante donne la valeur de Dintr a (k) obtenu avec les k-means (▲ : un seul tirage des points
initiaux est effectué pour chaque valeur de k) et la CAH (•). La figure de gauche donne l’ensemble des
résultats, celle du centre est un zoom sur les petits nombres de groupes k, celle de droite un zoom sur
les grands nombres de groupes k.

k = 1 . . . 150 k = 1 . . . 10 k = 100 . . . 150

4. Ces deux fonction sont-elles strictement monotones ? Pourquoi ?


5. Que peut-on dire des qualités relatives des classifications fournies par les deux algorithmes pour les
grandes valeurs de k ?
6. Que peut-on dire de ces qualités relatives pour les petites valeurs de k ?
7. Quelle classification choisiriez-vous pour k = 3 groupe ? Est-ce la classification optimale du point
de vue de la dispersion intra-groupes ?

Exercice 4.3 : Nombre de partitions


On note S(n, k) le nombre de partitions d’une ensemble à n éléments en k parties. On a vu que
S(n, k) vérifie

∀n ≥ 1, S(n, 0) = 0 et S(n, 1) = 1, ∀k > n ≥ 1, S(n, k) = 0

ainsi que la formule de récurrence

∀n ≥ 2, ∀1 ≤ k ≤ n, S(n, k) = S(n − 1, k − 1) + kS(n − 1, k).

L’objectif est de donner une formule directe pour S(n, k).


1. Pour k ≥ 1 et 1 ≤ g ≤ k, montrer que
   
k k k −1
= .
g g g−1
9
2. Pour k ≥ 1 et 0 ≤ g ≤ k, montrer que
     
k k −1 k −1
− = .
g g g−1

3. Montrer (en utilisant (1.) et (2.)) que, pour tout n ≥ 1 et tout 1 ≤ k ≤ n,

k  
1 X k−g k
S(n, k) = (−1) gn.
k! g
g=1

Exercice 4.4 : Classification ascendante hiérarchique


On considère les n = 5 observations suivantes :

x1 x2
1 6.4 1.0
2 1.1 3.0
3 6.9 2.3
4 7.8 5.0
5 2.9 3.8

On note xi le vecteur de R2 associé à l’observation i . On associe à chaque observation le même poids


wi = 1. On souhaite appliquer un algorithme de classification hiérarchique sur ces observations. Pour
cela, on commence par calculer la matrice des carrés des distances entres les points xi :

∥xi − xj ∥2 1 2 3 4 5
1 0 32 2 18 20
2 32 0 34 50 4
3 2 34 0 8 18
4 18 50 8 0 26
5 20 4 18 26 0

On rappelle que, à chaque étape, l’algorithme choisit de réunir deux points mg et mℓ (affectés des poids
Wg et Wℓ ) en leur barycentre
1
m= (Wg mg + Wℓ mℓ )
Wg + Wℓ

en minimisant le critère
D(g, ℓ) = Wg ∥mg − m∥2 + Wℓ ∥mℓ − m∥2 .

1. Montrer que
ab a2
=a− .
a+b a+b

2. En déduire que
Wg Wℓ
D(g, ℓ) = ∥mg − mℓ ∥2 .
Wg + Wℓ

3. Calculer la matrice de D(i , j) pour 1 ≤ i , j, ≤ n.


4. Appliquer l’algorithme de classification hiérarchique aux données présentées plus haut et représen-
10
tées ci-dessous.

11
12
5 Méthodes numériques
Exercice 5.1 : Recherche de la racine d’une fonction
On veut résoudre l’équation x = e −x . On définit pour cela la fonction

f (x) = x − e −x .

Méthode de Newton
1. Montrer que l’équation x = e −x admet une solution unique x ∗ ∈ [0, 1].
2. Écrire la formule d’itération de l’algorithme de Newton pour la recherche de la racine de f (x).
3. Calculer la première itération de l’algorithme pour x (0) = 0.

Méthode du point fixe On rappelle que la solution de l’équation f (x) = x peut être recherchée au
moyen de l’algorithme du point fixe qui vise à résoudre une équation de la forme g(x) = x au moyen de
la récurrence
x (h) = g(x (h−1) ).
Il suffit pour cela de prendre, par exemple, g(x) = f (x) + x.
4. Partant toujours de x (0) = 0, calculer les deux premières itérations de l’algorithme du point fixe
pour la fonction g1 (x) = f (x) + x.
5. On considère la fonction g2 (x) = x − f (x). Montrer que les solutions de f (x) = 0 sont les mêmes
que celles de g2 (x) = x.
6. Partant toujours de x (0) = 0 calculer les deux premières itérations de l’algorithme du point fixe
pour la fonction g2 .
7. Que peut-on dire de |g1′ (x)| pour x ∈ R∗+ ? Même question pour |g2′ (x)|. Commenter.

Exercice 5.2 : Recherche du maximum d’une fonction


On s’intéresse au maximum de la fonction

f (x) = xe −x .

Algorithme de Newton
1. Montrer que f (x) est maximale pour x ∗ = 1.
2. Écrire la formule de mise à jour l’algorithme de Newton visant à trouver le maximum de la fonction
f.
3. Vérifier que x ∗ est bien un point stationnaire de la formule de mise à jour.
4. Calculer les trois premières itérations de l’algorithme en partant de x (0) = 0.

Convergence de l’algorithme On souhaite maintenant démontrer la convergence de la suite (x (h) )h≥0


définie par
x (h−1) − 1
x (0) = 0, ∀h > 1, x (h) = x (h−1) +
x (h−1) − 2
vers x ∗ = 1.
5. Montrer que x (h−1) ∈ [0, 1] ⇒ x (h) ∈ [0, 1]. En déduire que tous les éléments de la suite (x (h) )h≥0
appartiennent à l’intervalle [0, 1] dès que x (0) ∈ [0, 1].
6. Montrer que
x −1 1
x ∈ [0, 1] ⇒ 0≤ ≤ .
x −2 2
13
7. Montrer que pourvu que x (0) ∈ [0, 1], pour h > 1,
1 (h−1)
|x (h) − x ∗ | ≤ |x − x ∗|
2
et conclure.

14

Vous aimerez peut-être aussi