Académique Documents
Professionnel Documents
Culture Documents
Biostatistique
Objectif du cours :
Initiation des étudiants de licence aux traitements des données liées à leurs thématiques de
travail via les biostatistiques.
Quelques exemples :
1- Comment s’assurer (tester) l’efficacité d’un bioengrais ou d’un biopesticide sur une
population de pommier.
2- Comment évaluer la production de blé dans la région de khenchela.
3- Quels sont les facteurs d’environnement qui influent sur une telle végétation.
2
Population statistique finie : population dont le nombre d’éléments est fini, c’est-à-
dire qu’ils peuvent être comptés.
Population statistique infinie : population dont le nombre d’éléments est infini, c’est-
à-dire qui n’a pas de fin.
Exemples :
Le nombre de voitures qui circulent sur une route au cours d’une journée constitue une
population finie.
Nombre de planètes dans l’univers constitue une population infinie car toutes les planètes n’ont
pas encore été découvertes et ne peuvent donc pas être comptées.
3
2. Les méthodes d’échantillonnage
En statistiques, les méthodes d'échantillonnage correspondent aux différentes manières de
constituer un échantillon de la population étudiée.
Si l'échantillon n'est pas constitué de manière aléatoire, il peut ne pas être représentatif de la
population c'est-à-dire ne pas posséder les mêmes caractéristiques que la population que l’on
souhaite étudier. Les résultats obtenus sur l'échantillon ne peuvent alors être extrapolés à la
population. L'étude est dite biaisée et non valide (le biais désigne une erreur systématique dans
l’estimation d’un paramètre).
Il existe différentes méthodes d'échantillonnage, aléatoires ou non.
2.1.1. Échantillon aléatoire simple : Tous les éléments de la population ont la même
probabilité de faire partie de l’échantillon. On peut utiliser un générateur de nombres aléatoires
ou bien utiliser des méthodes telles que le tirage en aveugle d'un nombre donné de nom
d'individus rassemblés dans un chapeau.
Exemple : Un enseignant met le nom des élèves du collège dans un chapeau et, sans regarder,
il en tire un certain nombre de noms des élèves qui constitueront l'échantillon.
Cette méthode permet d'obtenir un échantillon représentatif de la population car elle donne la
même probabilité à chaque individu de faire partie de l'échantillon.
Dans le contexte d’une recherche, les concepts sont généralement appelés variables. UN
variable est, comme son nom l'indique, quelque chose qui varie.
Exemples de variables
Ce sont tous des exemples de variables car chacune de ces propriétés varie ou diffère d'un
individu à l'autre.
Âge,
sexe,
recettes et dépenses,
la taille de la famille,
pays de naissance,
dépenses en capital,
les notes de classe,
mesures de tension artérielle,
5
niveaux d'anxiété préopératoires,
la couleur des yeux,
Type de véhicule.
Une variable est toute propriété, caractéristique, nombre ou quantité qui augmente ou diminue
avec le temps ou peut prendre différentes valeurs (par opposition aux constantes, telles que n,
qui ne varient pas) dans différentes situations.
Lors de la réalisation de recherches, les expériences manipulent souvent des variables. Par
exemple, un expérimentateur pourrait comparer l’efficacité de quatre types d’engrais.
Dans ce cas, la variable est le « type d'engrais ». Un spécialiste des sciences sociales peut
examiner l'effet possible du mariage précoce sur le divorce. Le mariage précoce est la variable.
L'efficacité, le divorce sont des variables car ils varient également en raison de la manipulation
des engrais, des mariages précoces.
3.2.Variables qualitatives
Une distinction importante entre les variables réside dans les variables qualitatives et
quantitatives.
Variables qualitatives sont ceux qui expriment un attribut qualitatif, comme la couleur des
cheveux, la religion, la race, le sexe, le statut social, le mode de paiement, etc. Les valeurs d'une
variable qualitative n'impliquent pas un ordre numérique significatif.
Par exemple, la variable sexe comporte deux catégories distinctes : « homme » et « femme ».
Puisque les valeurs de cette variable sont exprimées en catégories, nous appelons cela une
variable catégorielle.
De même, le lieu de résidence peut être classé comme urbain et rural et constitue donc une
variable catégorielle.
Les variables catégorielles peuvent à nouveau être décrites comme nominal et ordinal.
Les variables ordinales peuvent être logiquement ordonnées ou classées plus haut ou plus bas
qu'une autre, mais n'établissent pas nécessairement une différence numérique entre chaque
catégorie, comme les notes aux examens (A+, A, B+, etc., et la taille des vêtements (Extra
grand, grand, moyen, petit).
Les variables nominales sont celles qui ne peuvent ni être classées ni ordonnées logiquement,
comme la religion, le sexe, etc.
6
Une variable qualitative est une caractéristique qui ne peut pas être mesurée mais qui peut être
classée comme possédant ou non certaines caractéristiques.
Variables quantitatives, aussi appelé variables numériques, sont ces variables qui sont
mesurées en termes de nombres. Un exemple simple de variable quantitative est l’âge d’une
personne.
L'âge peut prendre différentes valeurs car une personne peut avoir 20 ans, 35 ans, etc. De même,
la taille de la famille est une variable quantitative car une famille peut être composée d'un, deux
ou trois membres, etc.
Chacune de ces propriétés ou caractéristiques évoquées ci-dessus varie ou diffère d'un individu
à l'autre. A noter que ces variables sont exprimées en nombres, que l'on appelle variables
quantitatives ou parfois numériques.
Une variable quantitative est une variable pour laquelle les observations résultantes sont
numériques et possèdent donc un ordre ou un classement naturel.
Les variables quantitatives sont encore une fois de deux types : discrètes et continues.
Des variables telles que le nombre d'enfants dans un ménage ou le nombre d'articles défectueux
dans une boîte sont des variables discrètes puisque les scores possibles sont discrets sur
l'échelle.
Par exemple, un ménage peut avoir trois ou cinq enfants, mais pas 4,52 enfants.
D'autres variables, telles que le « temps nécessaire pour réaliser un test QCM » et le « temps
d'attente dans une file d'attente devant un guichet bancaire », sont des variables continues.
Le temps requis dans les exemples ci-dessus est une variable continue, qui pourrait être, par
exemple, 1,65 minutes ou 1,6584795214 minutes.
Bien entendu, les aspects pratiques de la mesure empêchent la plupart des variables mesurées
d’être continues.
Une variable discrète, limitée à certaines valeurs, est généralement (mais pas nécessairement)
constituée de nombres entiers, tels que la taille de la famille et le nombre d'articles défectueux
dans une boîte. Ils sont souvent le résultat d’un dénombrement ou d’un comptage.
7
Le nombre de visites hebdomadaires effectuées par le personnel de santé au cours des
12 derniers mois.
Une variable continue peut prendre un nombre infini de valeurs intermédiaires sur un intervalle
spécifié. Les exemples sont :
Aussi proches que soient deux observations, si l’instrument de mesure est suffisamment précis,
une troisième observation peut être trouvée, se situant entre les deux premières.
Une variable continue résulte généralement d'une mesure et peut prendre d'innombrables
valeurs dans la plage spécifiée.
Dans de nombreux contextes de recherche, deux classes spécifiques de variables doivent être
distinguées : la variable indépendante et la variable dépendante.
Dans chacune des requêtes ci-dessus, nous avons deux variables indépendantes et dépendantes.
Dans le premier exemple, on pense qu'une « faible consommation de nourriture » est à l'origine
du « problème d'insuffisance pondérale ».
C'est donc ce qu'on appelle la variable indépendante. L'insuffisance pondérale est la variable
dépendante car nous pensons que ce « problème » (le problème de l'insuffisance pondérale) a
été causé par « la faible consommation alimentaire » (le facteur).
8
De même, le tabagisme, les dividendes et la publicité sont tous des variables indépendantes,
tandis que le cancer du poumon, la satisfaction au travail et les ventes sont des variables
dépendantes.
La variable utilisée pour décrire ou mesurer le facteur censé causer ou au moins influencer le
problème ou le résultat est appelée une variable. variable indépendante.
Selon le contexte, une variable indépendante est parfois appelée variable prédictive, régresseur,
variable contrôlée, variable manipulée, variable explicative, variable d'exposition (telle
qu'utilisée dans la théorie de la fiabilité), facteur de risque (tel qu'utilisé dans les statistiques
médicales), caractéristique (telle qu'utilisée dans les statistiques médicales). en apprentissage
automatique et en reconnaissance de formes) ou variable d'entrée.
La variable explicative est préférée par certains auteurs à la variable indépendante lorsque les
quantités traitées comme variables indépendantes peuvent ne pas être statistiquement
indépendantes ou manipulables indépendamment par le chercheur.
Si la variable indépendante est appelée variable explicative, alors le terme variable de réponse
est préféré par certains auteurs pour la variable dépendante.
3.4.2.3.Variable dépendante
La variable utilisée pour décrire ou mesurer le problème ou le résultat étudié est appelée un
variable dépendante.
Dans une relation causale, la cause est la variable indépendante et l’effet est la variable
dépendante. Si nous émettons l'hypothèse que le tabagisme provoque le cancer du poumon, le
« tabagisme » est la variable indépendante et le cancer la variable dépendante.
Un chercheur en affaires peut trouver utile d’inclure le dividende dans la détermination du cours
des actions. Ici, le dividende est la variable indépendante, tandis que le cours de l'action est la
variable dépendante.
Dans la recherche sur le cancer du poumon, c’est le carcinome qui intéresse réellement le
chercheur, et non le comportement tabagique en soi. La variable indépendante est la cause
présumée, l’antécédent ou l’influence sur la variable dépendante.
9
Selon le contexte, une variable dépendante est parfois appelée variable de réponse, variable de
régression, variable prédite, variable mesurée, variable expliquée, variable expérimentale,
variable de réponse, variable de résultat, variable de sortie ou étiquette.
Certains auteurs préfèrent une variable expliquée à la variable dépendante lorsque les quantités
traitées comme variables dépendantes peuvent ne pas être statistiquement dépendantes.
Si la variable dépendante est appelée variable expliquée, alors le terme variable prédictive est
préféré par certains auteurs pour la variable indépendante.
Si une expérience devait comparer cinq types de régimes, alors les variables indépendantes
(types de régimes) auraient cinq niveaux.
En traitant des relations entre les variables dans la recherche, nous observons diverses
dimensions dans ces relations.
Deux variables ou plus peuvent avoir une relation positive, négative ou inexistante. Dans le cas
de deux variables, une relation positive est une relation dans laquelle les deux variables varient
dans le même sens.
Cependant, on dit qu’ils ont une relation négative lorsqu’ils varient dans des directions
opposées.
Si l’augmentation du niveau d’éducation d’un individu diminue son désir d’avoir des enfants
supplémentaires, la relation est négative ou inverse.
10
Si le niveau d'éducation n'a aucune incidence sur le désir, on dit que les variables désir d'enfants
supplémentaires et « éducation » ne sont pas liées.
Une fois qu’il a été établi que deux variables sont liées, nous voulons déterminer dans quelle
mesure elles sont liées.
Une statistique courante pour mesurer la force d'une relation est ce qu'on appelle Coefficient
de corrélation symbolisé par r. r est une mesure sans unité, comprise entre -1 et +1 inclus, zéro
signifiant aucune relation linéaire.
Jusqu’à présent, nous n’avons discuté que des relations symétriques dans lesquelles un
changement dans l’autre variable accompagne un changement dans l’une ou l’autre variable.
Cette relation n'indique pas quelle variable est la variable indépendante et quelle variable est la
variable dépendante.
En d’autres termes, vous pouvez qualifier l’une ou l’autre variable de variable indépendante.
Une telle relation est symétrique relation. Dans un relation asymétrique, un changement de
variable X (disons) s'accompagne d'un changement de variable Oui, mais pas l'inverse.
La quantité de pluie, par exemple, augmentera la productivité, mais celle-ci n’affectera pas les
précipitations. Il s'agit d'une relation asymétrique.
Indiquer une relation entre deux variables ne garantit pas automatiquement que les changements
dans une variable entraînent des changements dans une autre.
Il est cependant très difficile d’établir l’existence d’une causalité entre variables. Même si
personne ne peut jamais être certain que la variable UN provoque une variable B, on peut
rassembler des preuves qui renforcent notre conviction que UN mène à B.
1. Y a-t-il une relation entre UN et B? Lorsque de telles preuves existent, elles indiquent
un possible lien de causalité entre les variables.
11
2. La relation est-elle asymétrique de sorte qu'un changement dans UN résulte en B mais
pas l'inverse ? En d'autres termes, est-ce que UN se produire avant B? Si nous trouvons
cela B se produit avant UN, nous ne pouvons pas avoir confiance que UN causes.
3. Un changement dans A entraîne-t-il un changement dans B indépendamment des actions
d’autres facteurs ? Ou est-il possible d'éliminer d'autres causes possibles de B? Peut-on
déterminer que C, D, et E (disons) ne co-varie pas avec B d'une manière qui suggère des
liens de causalité possibles ?
Une relation linéaire est une relation linéaire entre deux variables, dans laquelle les variables
varient au même rythme, que les valeurs soient faibles, élevées ou intermédiaires.
Cela contraste avec les relations non linéaires (ou curvilignes), dans lesquelles la vitesse à
laquelle une variable change de valeur peut différer pour différentes valeurs de la deuxième
variable.
Si une variable est liée linéairement à l'autre variable ou non, il est simplement possible de
déterminer en traçant les valeurs K par rapport à X valeurs.
Si les valeurs, une fois tracées, semblent se situer sur une ligne droite, l'existence d'une relation
linéaire entre X et Oui est suggéré.
La taille et le poids ont presque toujours une relation approximativement linéaire, tandis que
l'âge et les taux de fécondité ont une relation non linéaire.
12