Analyse Exploratoire Des Données

Machine Translated by Google
Section 2 : Enregistrement des données/Description et

visualisation des données (analyse exploratoire des données)
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Objectifs d'apprentissage Ce matin ?
Tout le monde devrait pouvoir nommer et décrire

des types de variables
Être capable de décrire numériquement des données
Être capable de décrire graphiquement des données

Être capable de calculer des intervalles de confiance et
les interpréter.

Et maintenant quoi ???
Hourra!!!!!!!!! .
Vous avez le financement/soumis votre

proposition
Et maintenant quoi???

De quoi auriezvous besoin pour mesurer votre

résultat ???
•Formulaire de rapport
de cas. • Sur papier •
Électronique
Les variables
•Questionnaires contiennent les valeurs des mesures
•Entretiens
• courrier
• téléphone

Classement des variables
Intervalle
Quantitatif
Rapport
2 types principaux Nominal
Qualitatif Ordinal

Variable nominale nominale

• Catégories sans ordre naturel
– Cas particulier : variables

dichotomiques (2 catégories) •
Valeurs des variables :
– Noms des catégories
– Pas de chiffres (bien que des
chiffres puissent être utilisés
comme codes) • Une seule
opération valide :
– Juger l'égalité/

Exemple de variables nominales nominales

• Sexe/genre •
Maladie (présente/absente) •
Exposition (présente/absente)
• Traitement (actif/placebo) •
État matrimonial • Numéro de
sécurité sociale • Ethnicité •
Groupe sanguin • Diagnostic
principal • Type de tumeur

Variables qualitatives ordinales
• Catégories ordonnées ( variables de

classement) • Valeurs des variables :
– Pas de chiffres (bien que des

chiffres puissent être utilisés)
– Distances entre catégories
non quantifiées
– Pas d'équidistance •
Opérations valides :
– Juger l'égalité/la nonégalité
– Juger les relations supérieures/
inférieures

Exemple de variable ordinale
• Stade de la tumeur
pT • Notes scolaires
• Statut socioéconomique •
Attitudes ( données d'entrevue
typiques) : – « Dans quelle mesure
êtesvous d'accord ou en désaccord
avec les énoncés suivants ... »

Variables quantitatives

Échelle d'intervalle
• Échelle numérique –
Les valeurs variables sont
des nombres – Les unités
sont équidistantes • Le point
zéro est arbitraire • Opérations
valides : – Comme
précédemment – Plus : addition
et soustraction – (La
multiplication et la division
n'ont aucun sens.)

Exemple d'échelle d'intervalle
• Température en degrés
Celsius ou Fahrenheit
• Date calendaire

Échelle de rapport
• Échelle numérique
• Zéro absolu (naturel) •
Opérations valides : –
Comparaison, addition,
soustraction, multiplication,
division ... tout est permis !

Exemple d'échelle de ratio

• Âge
• Taille, poids, IMC •
Mesures de laboratoire :
hémoglobine, érythrocytes,
leucocytes, concentrations
d'électrolytes, activités
enzymatiques... • Nombre
d'enfants • Revenu mensuel •
Cigarettes fumées par jour


Continu ou discret
Certaines variables discrètes
prennent un très grand nombre
de valeurs : – Consommation
de cigarettes tout au long de
la vie – Erythrocytes par μl de
sang En pratique, elles sont traitées
en continu.

Résumé : Échelles de mesure et type de données

Objectifs d'apprentissageSection 2
Description des données
Enregistrement des données dans Excel pour

analyse Transformation des données Description
numérique des données Représentation graphique

des données

Données et variables (exemple : Une feuille excel)
DONNÉES : les réponses aux

questions ou aux mesures de l' Une variable par
colonne
expérience
VARIABLE = mesure qui varie

entre les sujets , par exemple la
taille ou le sexe
Une ligne
par sujet

La description des données dépend des types de

données
variables
Escalader
Catégorique
Continu Discret: Ordinal: Nominal:

Des mesures Comptes/ ordre Non
prend n'importe quelle valeur entiers évident ordre

significatif

Décrire les données numériquement
Décrire les données numériquement
Tendance centrale Variation
Moyenne arithmétique Gamme
Médian Gamme interquartile

Mode Variance
Moyenne géométrique Écarttype
Coefficient de variation
Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Mesures de tendance centrale

Aperçu
Tendance centrale
Moyenne Médian Mode
n
X
je
je= 1
X=
n
Arithmétique Milieu des Valeur la plus

moyenne valeurs classées fréquemment observée
4_5_6_7_Dr. Akindeh
Comment résumer les données des notes d'examen ?
Notes d'examen pour 60 étudiants (notées sur 65)
moyenne = 30,3 é.t. = 14,46

Statistiques récapitulatives
n
Moyenne = X
je =1 = X
n
L'écart type (s) est une mesure de l'écart entre les individus et la
moyenne
n
xx je− )
2
( 1=
s =
je
n − 1
Grand écarttype = données très dispersées
Petit écarttype = il y a peu de variation par rapport à la moyenne
Pour les scores aux examens, moyenne = 30,5, écarttype = 14,46

Caractéristiques de la moyenne arithmétique
l. Chaque ensemble de données mesuré sur un intervalle ou un niveau de rapport a une moyenne.
2. La moyenne a des propriétés mathématiques intéressantes qui la rendent commode pour

utiliser dans des calculs ultérieurs.
3. La moyenne est sensible aux valeurs extrêmes.
4. La somme des écarts des nombres d'un ensemble de données par rapport à la moyenne est
zéro
5. La somme des écarts au carré des nombres d'un ensemble de données par
moyenne est une valeur minimale.

Moyenne géométrique
La moyenne géométrique est la mesure la plus courante

de la tendance centrale des taux (taux de croissance,
taux d'intérêt, etc.)
N
Pour les valeurs N :
N N
μgéo = xi = x 1 x2 xN
je=1
4_5_6_7_Dr. Akindeh
Médian
La valeur numérique au milieu lorsque l'ensemble de
données est organisé dans l'ordre (50 % audessus,
50 % audessous)
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Médiane = 3 Médiane = 3
Non affecté par les valeurs extrêmes
4_5_6_7_Dr. Akindeh
Trouver la médiane
L'emplacement de la médiane :
n1+
Position médiane = position dans les données ordonnées
2
Si le nombre de valeurs est impair, la médiane est le nombre du

milieu Si le nombre de valeurs est pair, la médiane est la moyenne des deux nombres du milieu
n +1
Notez que n'est pas la valeur de la médiane, seulement la position de la
2
médiane dans les données classées
4_5_6_7_Dr. Akindeh
Mode
Une mesure de tendance centrale

Valeur qui revient le plus souvent
Non affecté par les valeurs extrêmes
Utilisé pour les données numériques ou catégorielles
Il se peut qu'aucun mode
Il peut y avoir plusieurs modes
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0123456
Aucun mode
Mode = 9
4_5_6_7_Dr. Akindeh
Exemple d'examen :
Statistiques récapitulatives
Prix des maisons :

Moyenne : (3 000 000 €/5) =
2 000 000 €
600 000 €
500 000
300 000
100 000
100 000 Médiane : valeur médiane des données
Somme 3 000 000 classées = 300 000 €
Mode : valeur la plus fréquente =

100 000 €
4_5_6_7_Dr. Akindeh
Quelle mesure de localisation est

la « meilleure » ?
La moyenne est généralement utilisée, sauf si

des valeurs (outliers) existent
Ensuite, la médiane est souvent utilisée lorsqu'il y a des

valeurs extrêmes, car la médiane n'est pas sensible aux
valeurs extrêmes.
Exemple : Les prix médians des maisons peuvent être

rapportés pour une région – moins sensible aux valeurs
aberrantes
4_5_6_7_Dr. Akindeh
Moyennes arithmétiques de données discrètes
• Au cas où vous vous êtes

toujours demandé :
La moyenne n'a pas besoin d'être
un
valeur de variable valide.

– Il n'y a rien de mal à
avoir en moyenne 1,7
enfant par famille.


Université de Yaoundé I, NNNNNN

Université de Yaounde I
Faculté des sciences Faculté de Science
Département de biochimie Département de biochimie

Mesures de la variabilité
Variation
Gamme Interquartile Variance Standard Coefficient

Gamme Déviation de variation
Les mesures de variation donnent

des informations sur la dispersion
ou la variabilité des valeurs des
données.
Même centre,
variation différente
4_5_6_7_Dr. Akindeh
Gamme
Mesure de variation la plus simple

Différence entre la plus grande et la plus petite observation :
Plage = Xplus grand – Xplus petit
Exemple:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Plage = 14 1 = 13
4_5_6_7_Dr. Akindeh
Inconvénients de la gamme
Ignore la manière dont les données sont distribuées
7 8 9 10 11 12 7 8 9 10 11 12
Plage = 12 7 = 5 Plage = 12 7 = 5
Sensible aux valeurs aberrantes
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Plage = 5 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Plage = 120 1 = 119

quartiles
Les quartiles divisent les données classées en 4
segments avec un nombre égal de valeurs par segment
25% 25% 25% 25%
Q1 Q2 Q3
Le premier quartile, Q1 , est la valeur pour laquelle 25 % des

observations sont plus petites et 75 % sont plus grandes Q2
est identique à la médiane (50 % sont plus petites, 50 % sont
plus grand)
Seulement 25 % des observations sont supérieures au tiers

quartile
4_5_6_7_Dr. Akindeh
quartiles
Exemple : Trouver le premier quartile
Exemple de données classées : 11 12 13 16 16 17 18 21 22
(n = 9)
Q1 = est dans la position 0,25(9+1) = 2,5 des données
classées , utilisez donc la valeur à michemin entre les 2e et 3e valeurs,
donc Q1 = 12,5
4_5_6_7_Dr. Akindeh
Gamme interquartile
Résumé à cinq chiffres – Boîte à moustaches
Exemple:
Médian X
X Q1 Q3 maximum
minimum (Q2)
25% 25% 25% 25%
12 30 45 57 70
Intervalle interquartile
= 57 – 30 = 27
4_5_6_7_Dr. Akindeh
Gamme interquartile
Peut éliminer certains problèmes de valeurs aberrantes en utilisant l' intervalle interquartile
Éliminer les observations de valeur élevée et faible et calculer la plage de

le milieu 50% des données
Écart interquartile = 3ème quartile – 1er quartile
IQR = Q3 – Q1
4_5_6_7_Dr. Akindeh
Écart démographique
Moyenne des écarts au carré des valeurs par rapport à la moyenne
Variance démographique :
N N
(x m)
je
− 2
(x m)
je
−
2
n
je
je=1 2 je=1
2p = (simple) ou p = (pondéré)
N N
Où m = moyenne de la population
N = taille de la population
xi = ième valeur de la variable x

4_5_6_7_Dr. Akindeh ni = fréquence absolue
Écart d'échantillon
Moyenne (approximativement) des écarts au carré des valeurs par rapport à la moyenne
Écart d'échantillon :
n n
(xx)je
− 2
(xx)
je
− 2
n
je
2s
= je=1
(simple) ou s =
2 je=1
(pondéré)
n1 n1
Où X = moyenne arithmétique
n = taille de l'échantillon
xi = ième valeur de la variable x

4_5_6_7_Dr. Akindeh
ni = fréquence absolue
Écarttype de la population
La racine carrée de la variance de la population

La mesure de variation la plus couramment utilisée
Montre la variation autour de la moyenne
A les mêmes unités que les données d'origine
Écarttype de la population :
N N
(x m)
je
− 2
(x m)
je
−
2
n
je
je=1 je=1
p = (simple) ou p = (pondéré)
N N
4_5_6_7_Dr. Akindeh
Ecart type de l'échantillon

La racine carrée de la variance de l'échantillon
La mesure de variation la plus couramment utilisée
Montre la variation autour de la moyenne
A les mêmes unités que les données d'origine
Exemple d'écart type :
n n
(xx)
je
−
2
(xx)
je
−
2
n
je
je= 1 je= 1
s= (simple) ou s = (pondéré)
n1 n1
4_5_6_7_Dr. Akindeh
Exemple de calcul :
Ecart type de l'échantillon
Goûter
Données (xi ) : 10 12 14 15 17 18 18 24
n=8 Moyenne = x = 16
2 2 2 2
(10 X)−(12
+ −X)
+− ++
(14 X)−n 1 (24 fois)
s =
−
− 2 2 2 2
= (10 16) (12 16) + − 16) 8 1
(14 +− ++− (24 16)
−
126 Une mesure de la dispersion

= = 4.2426 "moyenne" autour de la moyenne
7
4_5_6_7_Dr. Akindeh
Écart de mesure
Petit écart type
Grand écart type
4_5_6_7_Dr. Akindeh
Comparaison des écarts types
Données A
Moyenne = 15,5 s =
11 12 13 14 15 16 17 18 19 20 21 3,338
Données B
Moyenne = 15,5
11 12 13 14 15 16 17 18 19 20 21 s = 0,926
Données C
Moyenne = 15,5
11 12 13 14 15 16 17 18 19 20 21 s = 4,570
4_5_6_7_Dr. Akindeh
Avantages de la variance et de l'écart type
Chaque valeur du jeu de données est utilisée dans le calcul
Les valeurs éloignées de la moyenne reçoivent un poids

supplémentaire (car les écarts par rapport à la moyenne sont mis au carré)
4_5_6_7_Dr. Akindeh
Coefficient de variation
Mesure la variation relative
Toujours en pourcentage (%)
Montre la variation par rapport à la moyenne
Peut être utilisé pour comparer deux ou plusieurs ensembles de données

mesurées dans différentes unités
s
CV = 100%
X
4_5_6_7_Dr. Akindeh
Comparer le coefficient
de variation
Stock A :
Prix moyen l'an dernier = 50 $

Écarttype = 5 $
s 5$
CVUN = 100% = =
100% 10% Les deux
X 50 $ actions ont le
même écart
Stock B : type, mais
l'action B est
Prix moyen l'an dernier = 100 $ moins variable
par rapport à son prix
Écarttype = 5 $
s 5
CVB = 100% = =
100% 5%
X $ 100 $
4_5_6_7_Dr. Akindeh
Choisir des statistiques récapitulatives
Quelle moyenne et mesure de

propagation ?
catégoriel _
Escalader
Normalement Données biaisées Ordinal: Nominal:

distribué Médian Médian Mode
Moyenne ( écart ( Étendue (Gamme (Aucun)
type) interquartile) interquartile)

Exercice : Comparaison du coût des billets
Statistiques récapitulatives du coût du billet du Titanic par survie
Survécu?
Survécu
Moyenne 49,4
Médian 26
Écarttype 68,7
Gamme interquartile 46,6 0
Le minimum 512,33
Maximum Décédé 23,4 10,5 34,2 18,2 0 263
a) Y atil une grande différence dans le prix moyen des billets par groupe ?
b) Quel groupe a des données plus dispersées ?
c) Les données sontelles faussées ?

www.statstutor.ac.uk
d) La moyenne ou la médiane estelle une meilleure mesure récapitulative ?
Description des données
Graphiquement et tableaux

Recherche clinique : beaucoup de patients,

beaucoup de variables
Regarder les valeurs individuelles

ne mène nulle part. • Au lieu de
cela, nous nous intéressons aux
distributions de valeurs : –
Distribution par âge – Distribution
par sexe/genre – Distribution des
plaintes principales – Distribution du
sang systolique
pressions
– Distribution de sérum
taux de cholestérol
Description des variables nominales
• Description numérique
– Tableaux de
fréquences • Fréquences
absolues • Fréquences relatives
– Seule mesure de localisation : mode •
Graphique
Diagramme à barres
Camemberts

Fréquence absolue et relative

Considérons 1000 patients à l'hôpital et supposons que 500 sont des patients atteints de paludisme, 100 sont
diabétiques et 400 sont des patients tuberculeux
fi' : la fréquence
Les fréquences absolues sont absolue fi divisée
respectivement de 500, 100 et 400 par le total n est un meilleur
pour les patients atteints de paludisme, comparateur.
diabétiques et tuberculeux.
Par exemple. 50% des patients

ont le paludisme, 10% sont
diabétiques et 40% sont des
patients tuberculeux

les tables
• Utile en particulier pour
représenter des variables
catégorielles
• Généralement une étape de départ

pour les tests d'association
• Les groupes doivent être distincts
• Une image approximative de

l'association est possible

Graphiques circulaires
•Aussi appelé graphique à secteurs.
• Utilisé pour représenter les parties
d'une image entière.
• Les portions doivent être
exprimées en centiles et
totaliser 100 %.

Graphiques à barres et
linéaires • Utilisés pour démontrer la relation entre
deux variables.
• Axe X variable indépendante la variable qui

est modifiée pour voir si elle produit un résultat.
• variable de résultat variable dépendante de l'axe Y

qui est mesuré.
• Convention de dénomination des titres : axe Y et axe X

Exemple de graphique à barres
L'axe des abscisses est catégorique


Graphiques linéaires
• Utilisé le plus souvent pour interpréter les résultats

chimiques.
• Variable indépendante tracée sur l'axe des x •

Variable dépendante tracée sur l'axe des y. •
Pente=pente de la ligne.
– Pente positive = la variable dépendante augmente à
mesure que la variable indépendante augmente. (Direct)
– Pente négative = la variable dépendante
diminue à mesure que la variable indépendante
augmente. (Inverse)
Exemple de graphique linéaire

Histogrammes
L'axe X est un
quantitatif

Boîtes à moustaches
80
70
60
50
40
partition
lecture
de
30
20
N= 47 95 58
faible milieu haut
SES

Nuages de points
Représente la
relation d'une
variable
quantitative avec
une autre variable
quantitative .

Faire attention
• Qu'estce que je veux
montrer ?
• Quelles sont les données ?
type que je veux utiliser
• Comment puis je le
faire ?




Où est notre intérêt ?????.
Échantillons vs population

Rappel rapide1


Rappel : Forme des Distributions de Fréquence(1)
• Distribution asymétrique
vers la gauche
Ou
• Inclinaison négative

Rappel : Forme des Distributions de Fréquence(II)
• Distribution asymétrique
vers la droite
Ou
• Inclinaison positive

Rappel : Forme des Distributions de Fréquence(III)

• Distribution symétrique autour de la
moyenne
• La moyenne et la médiane ne diffèrent

pas beaucoup en termes de
leur valeur.
• C'est une bonne description de la

distribution de nombreuses variables.
•C'est ce qu'on appelle une

distribution normale
Pourquoi faire beaucoup de bruit sur la distribution normale

• Ressemble beaucoup à la distribution de nombreuses Variables
• La distribution d'échantillonnage de la moyenne peut s'avérer normale même

si les observations individuelles ne le sont pas ( échantillon pas trop petit)
• Utilisé pour dériver des intervalles de confiance et des valeurs p pour tester
Hypothèse
• Les méthodes statistiques pour les proportions et les taux sont basées sur
des approximations à partir de distributions normales

La distribution normale
• Unimodal
• Moyenne au centre
• Forme en cloche (symétrique autour de la

moyenne)
• 66,27 % des observations se situent à moins

d'un écarttype de la moyenne
• 95,45 % des observations se situent à moins de

2 écartstypes de la moyenne
• 99,73 % des observations se situent à moins de

3 écartstypes de la moyenne

La distribution normale standard

Scores Z
• Basé sur le
nombre
d'observations
d'écartstypes par
rapport à la moyenne
4_5_6_7_Dr. Akindeh
Intervalles de confiance (IC)

• Une estimation ponctuelle est un nombre unique,

– Quelle est l'incertitude associée à une estimation ponctuelle
d'un paramètre de population ?
• Une estimation par intervalle fournit plus d'informations sur une

caractéristique de la population qu'une estimation ponctuelle. Il
fournit un niveau de confiance pour l'estimation. Ces estimations
d'intervalle sont appelées intervalles de confiance
Supérieur
Inférieur
Confiance Estimation ponctuelle

Confiance
Limite Limite
Largeur de
l'intervalle de confiance

• Un intervalle donne une plage de valeurs :

– Prend en considération la variation des statistiques
d'échantillon d'un échantillon à l'autre
– Basé sur les observations d'un échantillon

– Donne des informations sur la proximité avec des
paramètres de population inconnus
– Exprimé en termes de niveau de confiance. (Peut

ne jamais être sûr à 100 %)
• La formule générale pour tous les intervalles de confiance est
égal à:
Estimation ponctuelle ± (valeur critique) (erreur standard)
Théorème central limite
Quelle que soit la forme de la distribution sousjacente de la population, en augmentant la

taille de l'échantillon, les moyennes et les proportions de l'échantillon se rapprocheront
des distributions normales si les tailles d'échantillon sont suffisamment grandes.
N>=30

Rappel : Exemple de distribution de la moyenne et de l'erreur standard
SI vous tirez plusieurs fois un échantillon de la population d'intérêt et calculez la moyenne des
caractéristiques de cet échantillon à chaque fois, la distribution résultante des différentes moyennes
est appelée la distribution d'échantillon de la
moyenne
La moyenne de la distribution de l'échantillon de la moyenne est très proche de la moyenne de la

population qui vous intéresse.
Cependant, les moyennes que vous obtenez après chaque processus d'échantillonnage ne
correspondent pas toujours exactement à la moyenne de la population. Il y a donc un écart type
d'une moyenne à l'autre qui est l'erreur d'échantillonnage dans le processus.
L'erreur d'échantillonnage =

Principe des intervalles de confiance
Un intervalle de confiance à 95 %, par exemple une

moyenne (M) d'une caractéristique, peut être interprété
comme :
La vraie moyenne de la population (μ) est

comprise entre M1,96 x SE et M+1,96x SE)
Où SE=
4_5_6_7_Dr. Akindeh
Intervalles de confiance
Pour les
grands échantillons (>30)
Pour les petits
échantillons (<30)

Intervalle de confiance à 95 % autour d'une proportion
np≥5
Et
nq≥5
4_5_6_7_Dr. Akindeh
Tutoriel Utilisation des tables de

distribution pour les tests statistiques
et les intervalles de confiance
Dr Akindeh, Département du BCH

Biostats_BCH_4088_Conférence4_5_6_7_Dr. Akindeh
Intervalles de confiance (IC)
Un médecin veut connaître le poids

Q1 :
probable des patients de ceux qui viennent

à l'hôpital pour des problèmes d' obésité.
Il échantillonne 10 patients avait une
moyenne poids de 240 kg. L' écarttype
de l'échantillon faisait 25 kg. Trouver une
confiance a IC à 95% du poids des
patients obèses dans la population.
Rappelezvous que vous avez affaire à

10 patients<30
Votre bon ami

ne peut utiliser
que la distribution
t.
Étapes du calcul de l'IC…
Étape 1 : Soustrayez 1 de la taille de votre échantillon. 10 1 = 9. Cela vous donne des degrés
de liberté, dont vous aurez besoin à l'étape 3.
Étape 2 : Soustrayez le niveau de confiance de 1, puis divisez par deux.

(1 – .95) / 2 = .025=α/2

Étape 3 :
Recherchez vos
réponses aux
étapes 1 et 2 dans
le tableau de
distribution t . Pour
9 degrés de liberté
(df) et α = 0,025,
mon résultat est
2,262.
Étapes du calcul de l'IC…

Étape 4 : Divisez l'écart type de votre échantillon par la racine carrée de la taille de votre échantillon. 25 /
√(10) = 7,90569415
Étape 5 : Multipliez l'étape 3 par l'étape 4.

2,262 × 7,90569415 = 17,8826802
Étape 6 : Pour l'extrémité inférieure de la plage, soustrayez l'étape 5 de la moyenne de l'échantillon.

240 – 17,8826802 = 222,117
Étape 7 : Pour l'extrémité supérieure de la plage, ajoutez l'étape 5 à la moyenne de

l'échantillon. 240 + 17,8826802 = 257,883

95% Ci=(222.117,257.883)
Encore un problème d'IC...
Construire un intervalle de confiance à 95 %

Q2 :
pour une expérience qui a révélé que la

température moyenne de l'échantillon pour une
certaine ville en août était de 101,82, avec un
écart type de la population de 1,2.
Il y avait 6 villes dans cette expérience.

Prenez des notes s'il vous plaît…
Si vous ne connaissez pas la moyenne de votre population (μ)

mais que vous connaissez l'écart type (σ) de la population
Ou si vous avez une taille d'échantillon supérieure ou égale à 30,
vous pouvez trouver un intervalle de confiance pour la moyenne de

la population, avec la formule :
x ± z* σ / (√n)

Étape 1 : Soustrayez le niveau de confiance (donné à 95 % dans la question) de 1, puis

divisez le résultat par deux. C'est votre niveau alpha, qui représente la zone d'une queue.
(1 – .95) / 2 = .025

Étape 2 : Soustrayez
votre résultat de l'étape 1
de 1, puis regardez cette
zone au milieu de la table
z pour obtenir le score z :
1 – 0,025 = 0,975 score z
= 1,96.

Étape 3 : Branchez les nombres dans la deuxième partie de la formule et résolvez :

z* σ / (√n) = 1,96
*
1,2/√(6)
*
= 1,96 0,49
= 0,96
Étape 4 : Pour l'extrémité inférieure de la plage, soustrayez l'étape 3 de la
moyenne. 101,82 – 0,96 = 100,86 Étape 5 : Pour l'extrémité supérieure de la
plage, ajoutez l'étape 3 à la moyenne. 101,82 + 0,96 = 102,78.
L'IC est (100.86,102.78)

Hypothèse de recherche vs statistique

Hypothèse
• Hypothèse de recherche : la conjecture, la supposition

ou l'énoncé général de ce qu'un chercheur prédit.
• Hypothèse statistique : résume l'hypothèse de

recherche en référence au(x) paramètre (s) de la
population.

L'hypothèse de recherche estelle vraie ??
• N'OUBLIEZ PAS CE NE SONT QUE DES HYPOTHÈSES
• IL PEUT ÊTRE VRAI AINSI QUE FAUX
•NOUS DEVONS DONC TESTER CETTE HYPOTHÈSE

La prochaine classe que nous allons regarder
Principe des tests d'hypothèses et nous

examinera quelques tests statistiques

Nous creuserons la semaine prochaine
MERCI ET RENDEZ
VOUS aux conférences
8 et 9.

Analyse Exploratoire Des Données

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Exploratoire Des Données

Transféré par

Droits d'auteur :

Formats disponibles

Machine Translated by Google

Section 2 : Enregistrement des données/Description et

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Objectifs d'apprentissage Ce matin ?

­ Tout le monde devrait pouvoir nommer et décrire

­ Être capable de décrire graphiquement des données

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Et maintenant quoi ???

Vous avez le financement/soumis votre

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

De quoi auriez­vous besoin pour mesurer votre

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Classement des variables

2 types principaux Nominal

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Variable nominale nominale

– Cas particulier : variables

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Exemple de variables nominales nominales

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Variables qualitatives ordinales

• Catégories ordonnées ( variables de

– Pas de chiffres (bien que des

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Exemple de variable ordinale

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Exemple d'échelle d'intervalle

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Exemple d'échelle de ratio

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Résumé : Échelles de mesure et type de données

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Enregistrement des données dans Excel pour

numérique des données Représentation graphique

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Données et variables (exemple : Une feuille excel)

DONNÉES : les réponses aux

VARIABLE = mesure qui varie

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

La description des données dépend des types de

Continu Discret: Ordinal: Nominal:

prend n'importe quelle valeur entiers évident ordre

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Décrire les données numériquement

Décrire les données numériquement

Tendance centrale Variation

Moyenne arithmétique Gamme

Médian Gamme interquartile

Moyenne géométrique Écart­type

Mesures de tendance centrale

Moyenne Médian Mode

Arithmétique Milieu des Valeur la plus

Comment résumer les données des notes d'examen ?

Notes d'examen pour 60 étudiants (notées sur 65)

moyenne = 30,3 é.­t. = 14,46

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Pour les scores aux examens, moyenne = 30,5, écart­type = 14,46

Caractéristiques de la moyenne arithmétique

Tout le monde devrait pouvoir nommer et décrire

Être capable de décrire graphiquement des données

De quoi auriezvous besoin pour mesurer votre

Moyenne géométrique Écarttype

moyenne = 30,3 é.t. = 14,46

Pour les scores aux examens, moyenne = 30,5, écarttype = 14,46

c) Les données sontelles faussées ?