Vous êtes sur la page 1sur 104

Machine Translated by Google

Section 2 : Enregistrement des données/Description et


visualisation des données (analyse exploratoire des données)

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Objectifs d'apprentissage Ce matin ?

­ Tout le monde devrait pouvoir nommer et décrire


des types de variables
­ Être capable de décrire numériquement des données

­ Être capable de décrire graphiquement des données


­ Être capable de calculer des intervalles de confiance et
les interpréter.

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Et maintenant quoi ???

Hourra!!!!!!!!! .

Vous avez le financement/soumis votre


proposition

Et maintenant quoi???

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

De quoi auriez­vous besoin pour mesurer votre


résultat ???

•Formulaire de rapport
de cas. • Sur papier •
Électronique

Les variables
•Questionnaires contiennent les valeurs des mesures
•Entretiens
• courrier

• téléphone

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Classement des variables

Intervalle
Quantitatif
Rapport

2 types principaux Nominal

Qualitatif Ordinal

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Variable nominale nominale


• Catégories sans ordre naturel

– Cas particulier : variables


dichotomiques (2 catégories) •
Valeurs des variables :
– Noms des catégories
– Pas de chiffres (bien que des
chiffres puissent être utilisés
comme codes) • Une seule
opération valide :
– Juger l'égalité/

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Exemple de variables nominales nominales


• Sexe/genre •
Maladie (présente/absente) •
Exposition (présente/absente)
• Traitement (actif/placebo) •
État matrimonial • Numéro de
sécurité sociale • Ethnicité •
Groupe sanguin • Diagnostic
principal • Type de tumeur

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Variables qualitatives ordinales

• Catégories ordonnées ( variables de


classement) • Valeurs des variables :

– Pas de chiffres (bien que des


chiffres puissent être utilisés)
– Distances entre catégories

non quantifiées

– Pas d'équidistance •
Opérations valides :
– Juger l'égalité/la non­égalité
– Juger les relations supérieures/
inférieures

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Exemple de variable ordinale

• Stade de la tumeur
pT • Notes scolaires
• Statut socio­économique •
Attitudes ( données d'entrevue
typiques) : – « Dans quelle mesure
êtes­vous d'accord ou en désaccord
avec les énoncés suivants ... »

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Variables quantitatives

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Échelle d'intervalle
• Échelle numérique –
Les valeurs variables sont
des nombres – Les unités
sont équidistantes • Le point
zéro est arbitraire • Opérations
valides : – Comme
précédemment – Plus : addition
et soustraction – (La
multiplication et la division
n'ont aucun sens.)

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Exemple d'échelle d'intervalle

• Température en degrés
Celsius ou Fahrenheit
• Date calendaire

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Échelle de rapport

• Échelle numérique
• Zéro absolu (naturel) •
Opérations valides : –
Comparaison, addition,
soustraction, multiplication,
division ... tout est permis !

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Exemple d'échelle de ratio


• Âge
• Taille, poids, IMC •
Mesures de laboratoire :
hémoglobine, érythrocytes,
leucocytes, concentrations
d'électrolytes, activités
enzymatiques... • Nombre
d'enfants • Revenu mensuel •
Cigarettes fumées par jour

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Continu ou discret
Certaines variables discrètes
prennent un très grand nombre
de valeurs : – Consommation
de cigarettes tout au long de
la vie – Erythrocytes par μl de
sang En pratique, elles sont traitées
en continu.

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Résumé : Échelles de mesure et type de données

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Objectifs d'apprentissage­Section 2
Description des données

Enregistrement des données dans Excel pour


analyse Transformation des données Description

numérique des données Représentation graphique


des données

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Données et variables (exemple : Une feuille excel)

DONNÉES : les réponses aux


questions ou aux mesures de l' Une variable par
colonne
expérience

VARIABLE = mesure qui varie


entre les sujets , par exemple la
taille ou le sexe

Une ligne
par sujet

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

La description des données dépend des types de


données

variables

Escalader
Catégorique

Continu Discret: Ordinal: Nominal:


Des mesures Comptes/ ordre Non

prend n'importe quelle valeur entiers évident ordre


significatif

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Décrire les données numériquement

Décrire les données numériquement

Tendance centrale Variation

Moyenne arithmétique Gamme

Médian Gamme interquartile


Mode Variance

Moyenne géométrique Écart­type

Coefficient de variation

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Mesures de tendance centrale


Aperçu

Tendance centrale

Moyenne Médian Mode

n
X
je
je= 1
X=
n

Arithmétique Milieu des Valeur la plus


moyenne valeurs classées fréquemment observée

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Comment résumer les données des notes d'examen ?

Notes d'examen pour 60 étudiants (notées sur 65)

moyenne = 30,3 é.­t. = 14,46

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Statistiques récapitulatives
n

Moyenne = X
je =1 = X
n
L'écart type (s) est une mesure de l'écart entre les individus et la
moyenne
n

xx je− )
2

( 1=
s =
je

n − 1
Grand écart­type = données très dispersées
Petit écart­type = il y a peu de variation par rapport à la moyenne

Pour les scores aux examens, moyenne = 30,5, écart­type = 14,46


Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Caractéristiques de la moyenne arithmétique

l. Chaque ensemble de données mesuré sur un intervalle ou un niveau de rapport a une moyenne.

2. La moyenne a des propriétés mathématiques intéressantes qui la rendent commode pour


utiliser dans des calculs ultérieurs.
3. La moyenne est sensible aux valeurs extrêmes.

4. La somme des écarts des nombres d'un ensemble de données par rapport à la moyenne est
zéro

5. La somme des écarts au carré des nombres d'un ensemble de données par
moyenne est une valeur minimale.

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Moyenne géométrique

La moyenne géométrique est la mesure la plus courante


de la tendance centrale des taux (taux de croissance,
taux d'intérêt, etc.)

N
Pour les valeurs N :
N N
μgéo = xi = x 1 x2 xN
je=1

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Médian
La valeur numérique au milieu lorsque l'ensemble de
données est organisé dans l'ordre (50 % au­dessus,
50 % au­dessous)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Médiane = 3 Médiane = 3

Non affecté par les valeurs extrêmes

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Trouver la médiane

L'emplacement de la médiane :
n1+
Position médiane = position dans les données ordonnées
2

Si le nombre de valeurs est impair, la médiane est le nombre du


milieu Si le nombre de valeurs est pair, la médiane est la moyenne des deux nombres du milieu

n +1
Notez que n'est pas la valeur de la médiane, seulement la position de la
2
médiane dans les données classées

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Mode

Une mesure de tendance centrale


Valeur qui revient le plus souvent

Non affecté par les valeurs extrêmes

Utilisé pour les données numériques ou catégorielles

Il se peut qu'aucun mode

Il peut y avoir plusieurs modes

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0123456

Aucun mode
Mode = 9
Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Exemple d'examen :
Statistiques récapitulatives

Prix des maisons :


Moyenne : (3 000 000 €/5) =
2 000 000 €
600 000 €
500 000
300 000
100 000
100 000 Médiane : valeur médiane des données
Somme 3 000 000 classées = 300 000 €

Mode : valeur la plus fréquente =


100 000 €

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Quelle mesure de localisation est


la « meilleure » ?

La moyenne est généralement utilisée, sauf si


des valeurs (outliers) existent

Ensuite, la médiane est souvent utilisée lorsqu'il y a des


valeurs extrêmes, car la médiane n'est pas sensible aux
valeurs extrêmes.

Exemple : Les prix médians des maisons peuvent être


rapportés pour une région – moins sensible aux valeurs
aberrantes

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Moyennes arithmétiques de données discrètes

• Au cas où vous vous êtes


toujours demandé :
­ La moyenne n'a pas besoin d'être
un

valeur de variable valide.


– Il n'y a rien de mal à
avoir en moyenne 1,7
enfant par famille.

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Université de Yaoundé I, NNNNNN


Université de Yaounde I
Faculté des sciences Faculté de Science
Département de biochimie Département de biochimie

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Mesures de la variabilité

Variation

Gamme Interquartile Variance Standard Coefficient


Gamme Déviation de variation

Les mesures de variation donnent


des informations sur la dispersion
ou la variabilité des valeurs des
données.

Même centre,
Biostats_BCH_4088_Conférence
variation différente
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Gamme

Mesure de variation la plus simple


Différence entre la plus grande et la plus petite observation :

Plage = Xplus grand – Xplus petit

Exemple:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Plage = 14 ­ 1 = 13
Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Inconvénients de la gamme

Ignore la manière dont les données sont distribuées

7 8 9 10 11 12 7 8 9 10 11 12
Plage = 12 ­ 7 = 5 Plage = 12 ­ 7 = 5

Sensible aux valeurs aberrantes

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Plage = 5 ­ 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Plage = 120 ­ 1 = 119

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

quartiles
Les quartiles divisent les données classées en 4
segments avec un nombre égal de valeurs par segment

25% 25% 25% 25%

Q1 Q2 Q3

Le premier quartile, Q1 , est la valeur pour laquelle 25 % des


observations sont plus petites et 75 % sont plus grandes Q2
est identique à la médiane (50 % sont plus petites, 50 % sont
plus grand)

Seulement 25 % des observations sont supérieures au tiers


quartile

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

quartiles

Exemple : Trouver le premier quartile

Exemple de données classées : 11 12 13 16 16 17 18 21 22

(n = 9)
Q1 = est dans la position 0,25(9+1) = 2,5 des données
classées , utilisez donc la valeur à mi­chemin entre les 2e et 3e valeurs,

donc Q1 = 12,5

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Gamme interquartile
Résumé à cinq chiffres – Boîte à moustaches

Exemple:
Médian X
X Q1 Q3 maximum
minimum (Q2)
25% 25% 25% 25%

12 30 45 57 70

Intervalle interquartile
= 57 – 30 = 27

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Gamme interquartile

Peut éliminer certains problèmes de valeurs aberrantes en utilisant l' intervalle interquartile

Éliminer les observations de valeur élevée et faible et calculer la plage de


le milieu 50% des données

Écart interquartile = 3ème quartile – 1er quartile

IQR = Q3 – Q1

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Écart démographique

Moyenne des écarts au carré des valeurs par rapport à la moyenne

Variance démographique :

N N

(x m)
je
− 2
(x m)
je

2
n
je
je=1 2 je=1
2p = (simple) ou p = (pondéré)
N N

Où m = moyenne de la population

N = taille de la population

xi = ième valeur de la variable x


Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh ni = fréquence absolue
Machine Translated by Google

Écart d'échantillon

Moyenne (approximativement) des écarts au carré des valeurs par rapport à la moyenne

Écart d'échantillon :

n n

(xx)je
− 2
(xx)
je
− 2
n
je

2s
= je=1
(simple) ou s =
2 je=1
(pondéré)
n­1 n­1

Où X = moyenne arithmétique

n = taille de l'échantillon

xi = ième valeur de la variable x


Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
ni = fréquence absolue
Machine Translated by Google

Écart­type de la population

La racine carrée de la variance de la population


La mesure de variation la plus couramment utilisée
Montre la variation autour de la moyenne

A les mêmes unités que les données d'origine

Écart­type de la population :
N N

(x m)
je
− 2
(x m)
je

2
n
je
je=1 je=1
p = (simple) ou p = (pondéré)
N N
Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Ecart type de l'échantillon


La racine carrée de la variance de l'échantillon
La mesure de variation la plus couramment utilisée
Montre la variation autour de la moyenne

A les mêmes unités que les données d'origine

Exemple d'écart type :

n n

(xx)
je

2
(xx)
je

2
n
je
je= 1 je= 1
s= (simple) ou s = (pondéré)
n­1 n­1

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Exemple de calcul :
Ecart type de l'échantillon

Goûter
Données (xi ) : 10 12 14 15 17 18 18 24
n=8 Moyenne = x = 16

2 2 2 2
(10 X)−(12
+ −X)
+− ++
(14 X)−n 1 (24 fois)
s =

− 2 2 2 2
= (10 16) (12 16) + − 16) 8 1
(14 +− ++− (24 16)

126 Une mesure de la dispersion


= = 4.2426 "moyenne" autour de la moyenne
7
Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Écart de mesure

Petit écart type

Grand écart type

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Comparaison des écarts types

Données A
Moyenne = 15,5 s =

11 12 13 14 15 16 17 18 19 20 21 3,338

Données B
Moyenne = 15,5

11 12 13 14 15 16 17 18 19 20 21 s = 0,926

Données C
Moyenne = 15,5

11 12 13 14 15 16 17 18 19 20 21 s = 4,570

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Avantages de la variance et de l'écart type

Chaque valeur du jeu de données est utilisée dans le calcul

Les valeurs éloignées de la moyenne reçoivent un poids


supplémentaire (car les écarts par rapport à la moyenne sont mis au carré)

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Coefficient de variation

Mesure la variation relative

Toujours en pourcentage (%)

Montre la variation par rapport à la moyenne

Peut être utilisé pour comparer deux ou plusieurs ensembles de données


mesurées dans différentes unités
s
CV = 100%
X

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Comparer le coefficient
de variation

Stock A :

Prix moyen l'an dernier = 50 $


Écart­type = 5 $
s 5$
CVUN = 100% = =
100% 10% Les deux
X 50 $ actions ont le
même écart­
Stock B : type, mais
l'action B est
Prix moyen l'an dernier = 100 $ moins variable
par rapport à son prix
Écart­type = 5 $

s 5
CVB = 100% = =
100% 5%
X $ 100 $
Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Choisir des statistiques récapitulatives

Quelle moyenne et mesure de


propagation ?

catégoriel _
Escalader

Normalement Données biaisées Ordinal: Nominal:


distribué Médian Médian Mode
Moyenne ( écart ( Étendue (Gamme (Aucun)
type) interquartile) interquartile)

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Exercice : Comparaison du coût des billets

Statistiques récapitulatives du coût du billet du Titanic par survie

Survécu?
Survécu
Moyenne 49,4
Médian 26
Écart­type 68,7
Gamme interquartile 46,6 0
Le minimum 512,33
Maximum Décédé 23,4 10,5 34,2 18,2 0 263

a) Y a­t­il une grande différence dans le prix moyen des billets par groupe ?

b) Quel groupe a des données plus dispersées ?

c) Les données sont­elles faussées ?


www.statstutor.ac.uk
d) La moyenne ou la médiane est­elle une meilleure mesure récapitulative ?
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Description des données

Graphiquement et tableaux

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Recherche clinique : beaucoup de patients,


beaucoup de variables

Regarder les valeurs individuelles


ne mène nulle part. • Au lieu de
cela, nous nous intéressons aux
distributions de valeurs : –
Distribution par âge – Distribution
par sexe/genre – Distribution des
plaintes principales – Distribution du
sang systolique
pressions
– Distribution de sérum
taux de cholestérol
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Description des variables nominales

• Description numérique
– Tableaux de
fréquences • Fréquences
absolues • Fréquences relatives
– Seule mesure de localisation : mode •
Graphique
­ Diagramme à barres

­ Camemberts

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Fréquence absolue et relative


Considérons 1000 patients à l'hôpital et supposons que 500 sont des patients atteints de paludisme, 100 sont
diabétiques et 400 sont des patients tuberculeux

fi' : la fréquence
Les fréquences absolues sont absolue fi divisée
respectivement de 500, 100 et 400 par le total n est un meilleur
pour les patients atteints de paludisme, comparateur.

diabétiques et tuberculeux.

Par exemple. 50% des patients


ont le paludisme, 10% sont
diabétiques et 40% sont des

patients tuberculeux

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

les tables
• Utile en particulier pour
représenter des variables
catégorielles

• Généralement une étape de départ


pour les tests d'association

• Les groupes doivent être distincts

• Une image approximative de


l'association est possible

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Graphiques circulaires

•Aussi appelé graphique à secteurs.

• Utilisé pour représenter les parties

d'une image entière.

• Les portions doivent être

exprimées en centiles et
totaliser 100 %.

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Graphiques à barres et
linéaires • Utilisés pour démontrer la relation entre
deux variables.

• Axe X ­ variable indépendante ­ la variable qui


est modifiée pour voir si elle produit un résultat.

• variable de résultat variable dépendante de l'axe Y


qui est mesuré.

• Convention de dénomination des titres : axe Y et axe X


Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Exemple de graphique à barres

L'axe des abscisses est catégorique

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Graphiques linéaires

• Utilisé le plus souvent pour interpréter les résultats


chimiques.

• Variable indépendante tracée sur l'axe des x •


Variable dépendante tracée sur l'axe des y. •
Pente=pente de la ligne.
– Pente positive = la variable dépendante augmente à
mesure que la variable indépendante augmente. (Direct)
– Pente négative = la variable dépendante
diminue à mesure que la variable indépendante
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
augmente. (Inverse)
Machine Translated by Google

Exemple de graphique linéaire

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Histogrammes

L'axe X est un
quantitatif

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Boîtes à moustaches

80

70

60

50

40

partition
lecture
de

30

20
N= 47 95 58

faible milieu haut

SES

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Nuages de points

Représente la
relation d'une
variable
quantitative avec
une autre variable
quantitative .

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Faire attention

• Qu'est­ce que je veux

montrer ?

• Quelles sont les données ?

type que je veux utiliser

• Comment puis­ je le

faire ?

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Où est notre intérêt ?????.

Échantillons vs population

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Rappel rapide1

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Rappel : Forme des Distributions de Fréquence(1)

• Distribution asymétrique
vers la gauche

Ou

• Inclinaison négative

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Rappel : Forme des Distributions de Fréquence(II)

• Distribution asymétrique
vers la droite

Ou

• Inclinaison positive

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Rappel : Forme des Distributions de Fréquence(III)


• Distribution symétrique autour de la
moyenne

• La moyenne et la médiane ne diffèrent


pas beaucoup en termes de

leur valeur.

• C'est une bonne description de la


distribution de nombreuses variables.

•C'est ce qu'on appelle une


distribution normale­
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Pourquoi faire beaucoup de bruit sur la distribution normale


• Ressemble beaucoup à la distribution de nombreuses Variables

• La distribution d'échantillonnage de la moyenne peut s'avérer normale même


si les observations individuelles ne le sont pas ( échantillon pas trop petit)

• Utilisé pour dériver des intervalles de confiance et des valeurs p pour tester
Hypothèse

• Les méthodes statistiques pour les proportions et les taux sont basées sur
des approximations à partir de distributions normales

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

La distribution normale
• Unimodal

• Moyenne au centre

• Forme en cloche (symétrique autour de la


moyenne)

• 66,27 % des observations se situent à moins


d'un écart­type de la moyenne

• 95,45 % des observations se situent à moins de


2 écarts­types de la moyenne

• 99,73 % des observations se situent à moins de


3 écarts­types de la moyenne

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

La distribution normale standard


Scores Z

• Basé sur le
nombre
d'observations
d'écarts­types par
rapport à la moyenne

Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Intervalles de confiance (IC)

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

• Une estimation ponctuelle est un nombre unique,


– Quelle est l'incertitude associée à une estimation ponctuelle
d'un paramètre de population ?

• Une estimation par intervalle fournit plus d'informations sur une


caractéristique de la population qu'une estimation ponctuelle. Il
fournit un niveau de confiance pour l'estimation. Ces estimations
d'intervalle sont appelées intervalles de confiance

Supérieur
Inférieur

Confiance Estimation ponctuelle


Confiance
Limite Limite

Largeur de
l'intervalle de confiance

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

• Un intervalle donne une plage de valeurs :


– Prend en considération la variation des statistiques
d'échantillon d'un échantillon à l'autre

– Basé sur les observations d'un échantillon


– Donne des informations sur la proximité avec des
paramètres de population inconnus

– Exprimé en termes de niveau de confiance. (Peut


ne jamais être sûr à 100 %)
• La formule générale pour tous les intervalles de confiance est
égal à:
Estimation ponctuelle ± (valeur critique) (erreur standard)
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Théorème central limite

Quelle que soit la forme de la distribution sous­jacente de la population, en augmentant la


taille de l'échantillon, les moyennes et les proportions de l'échantillon se rapprocheront
des distributions normales si les tailles d'échantillon sont suffisamment grandes.

N>=30

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Rappel : Exemple de distribution de la moyenne et de l'erreur standard

SI vous tirez plusieurs fois un échantillon de la population d'intérêt et calculez la moyenne des
caractéristiques de cet échantillon à chaque fois, la distribution résultante des différentes moyennes
est appelée la distribution d'échantillon de la
moyenne

La moyenne de la distribution de l'échantillon de la moyenne est très proche de la moyenne de la


population qui vous intéresse.

Cependant, les moyennes que vous obtenez après chaque processus d'échantillonnage ne
correspondent pas toujours exactement à la moyenne de la population. Il y a donc un écart type
d'une moyenne à l'autre qui est l'erreur d'échantillonnage dans le processus.

L'erreur d'échantillonnage =

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Principe des intervalles de confiance

Un intervalle de confiance à 95 %, par exemple une


moyenne (M) d'une caractéristique, peut être interprété
comme :

La vraie moyenne de la population (μ) est


comprise entre M­1,96 x SE et M+1,96x SE)
Où SE=
Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Intervalles de confiance

Pour les

grands échantillons (>30)

Pour les petits

échantillons (<30)
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Intervalle de confiance à 95 % autour d'une proportion

np≥5

Et

nq≥5
Biostats_BCH_4088_Conférence
4_5_6_7_Dr. Akindeh
Machine Translated by Google

Tutoriel Utilisation des tables de


distribution pour les tests statistiques
et les intervalles de confiance

Dr Akindeh, Département du BCH


Biostats_BCH_4088_Conférence4_5_6_7_Dr. Akindeh
Machine Translated by Google

Intervalles de confiance (IC)

Un médecin veut connaître le poids


Q1 :

probable des patients de ceux qui viennent


à l'hôpital pour des problèmes d' obésité.
Il échantillonne 10 patients avait une
moyenne poids de 240 kg. L' écart­type
de l'échantillon faisait 25 kg. Trouver une
confiance a IC à 95% du poids des
patients obèses dans la population.
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Rappelez­vous que vous avez affaire à


10 patients<30

Votre bon ami


ne peut utiliser
que la distribution
t.
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Étapes du calcul de l'IC…

Étape 1 : Soustrayez 1 de la taille de votre échantillon. 10 ­ 1 = 9. Cela vous donne des degrés
de liberté, dont vous aurez besoin à l'étape 3.

Étape 2 : Soustrayez le niveau de confiance de 1, puis divisez par deux.


(1 – .95) / 2 = .025=α/2

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Étape 3 :
Recherchez vos
réponses aux
étapes 1 et 2 dans
le tableau de
distribution t . Pour
9 degrés de liberté
(df) et α = 0,025,
mon résultat est
2,262.
Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh
Machine Translated by Google

Étapes du calcul de l'IC…


Étape 4 : Divisez l'écart type de votre échantillon par la racine carrée de la taille de votre échantillon. 25 /
√(10) = 7,90569415

Étape 5 : Multipliez l'étape 3 par l'étape 4.


2,262 × 7,90569415 = 17,8826802

Étape 6 : Pour l'extrémité inférieure de la plage, soustrayez l'étape 5 de la moyenne de l'échantillon.


240 – 17,8826802 = 222,117

Étape 7 : Pour l'extrémité supérieure de la plage, ajoutez l'étape 5 à la moyenne de


l'échantillon. 240 + 17,8826802 = 257,883

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


95% Ci=(222.117,257.883)
Machine Translated by Google

Encore un problème d'IC...

Construire un intervalle de confiance à 95 %


Q2 :

pour une expérience qui a révélé que la


température moyenne de l'échantillon pour une
certaine ville en août était de 101,82, avec un
écart type de la population de 1,2.
Il y avait 6 villes dans cette expérience.

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Prenez des notes s'il vous plaît…

Si vous ne connaissez pas la moyenne de votre population (μ)


mais que vous connaissez l'écart type (σ) de la population
Ou si vous avez une taille d'échantillon supérieure ou égale à 30,

vous pouvez trouver un intervalle de confiance pour la moyenne de


la population, avec la formule :

x ± z* σ / (√n)

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Étape 1 : Soustrayez le niveau de confiance (donné à 95 % dans la question) de 1, puis


divisez le résultat par deux. C'est votre niveau alpha, qui représente la zone d'une queue.

(1 – .95) / 2 = .025

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Étape 2 : Soustrayez
votre résultat de l'étape 1
de 1, puis regardez cette
zone au milieu de la table
z pour obtenir le score z :
1 – 0,025 = 0,975 score z
= 1,96.

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Étape 3 : Branchez les nombres dans la deuxième partie de la formule et résolvez :


z* σ / (√n) = 1,96
*
1,2/√(6)
*
= 1,96 0,49
= 0,96
Étape 4 : Pour l'extrémité inférieure de la plage, soustrayez l'étape 3 de la
moyenne. 101,82 – 0,96 = 100,86 Étape 5 : Pour l'extrémité supérieure de la
plage, ajoutez l'étape 3 à la moyenne. 101,82 + 0,96 = 102,78.

L'IC est (100.86,102.78)

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Hypothèse de recherche vs statistique


Hypothèse

• Hypothèse de recherche : la conjecture, la supposition


ou l'énoncé général de ce qu'un chercheur prédit.

• Hypothèse statistique : résume l'hypothèse de


recherche en référence au(x) paramètre (s) de la
population.

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

L'hypothèse de recherche est­elle vraie ??

• N'OUBLIEZ PAS CE NE SONT QUE DES HYPOTHÈSES

• IL PEUT ÊTRE VRAI AINSI QUE FAUX

•NOUS DEVONS DONC TESTER CETTE HYPOTHÈSE

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

La prochaine classe que nous allons regarder

Principe des tests d'hypothèses et nous


examinera quelques tests statistiques

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh


Machine Translated by Google

Nous creuserons la semaine prochaine

MERCI ET RENDEZ­
VOUS aux conférences
8 et 9.

Biostats_BCH_4088_Conférence 4_5_6_7_Dr. Akindeh

Vous aimerez peut-être aussi