Académique Documents
Professionnel Documents
Culture Documents
INTERETS DE LA BIOSTATISTIQUE :
La biostatistique présente de nombreux intérêts dans le domaine de la
biologie, de la médecine et des sciences de la vie. Voici quelques-uns des
principaux avantages et intérêts de la biostatistique :
1. Planification des études : La biostatistique aide à concevoir des études
et des expériences de manière rigoureuse, en déterminant la taille
d'échantillon appropriée, en définissant des protocoles expérimentaux et
en minimisant les biais potentiels.
2. Collecte de données : Elle propose des méthodes pour collecter des
données de manière systématique et précise, en minimisant les erreurs
expérimentales et en garantissant la qualité des informations recueillies.
3. Analyse statistique : La biostatistique offre un large éventail de
techniques pour analyser les données, que ce soit pour tester des
hypothèses, estimer des paramètres, comparer des groupes ou identifier
des tendances. Cela permet d'obtenir des conclusions fiables et
significatives.
4. Interprétation des résultats : Elle contribue à interpréter les résultats
de manière appropriée, en mettant en évidence les associations
significatives et en évaluant la validité des conclusions. Cela permet
d'éviter des interprétations erronées ou biaisées.
5.Décisions éclairées : La biostatistique fournit des outils pour prendre
des décisions éclairées dans le domaine médical, que ce soit dans le choix
de traitements, l'évaluation de l'efficacité d'une intervention ou la gestion
des risques.
6. Épidémiologie : En épidémiologie, la biostatistique est essentielle pour
étudier la répartition des maladies dans les populations, évaluer les
facteurs de risque, estimer les taux d'incidence et de prévalence, et
contribuer à la prévention et à la gestion des maladies.
7. Recherche médicale : Elle joue un rôle crucial dans la recherche
médicale en aidant à identifier des associations entre variables, à évaluer
l'efficacité des médicaments et des traitements, et à contribuer au
développement de nouvelles thérapies.
8. Optimisation des ressources : En optimisant la conception des études
et en maximisant l'utilisation des ressources disponibles, la biostatistique
permet une utilisation plus efficace du temps, des budgets de recherche
et des efforts déployés dans le cadre des investigations scientifiques.
INTERETS DU COURS
Le cours sur l'utilisation de Statistica, un logiciel de statistiques et
d'analyse de données, présente plusieurs avantages et intérêts. Voici
quelques raisons pour lesquelles ce cours peut être bénéfique :
1. Maîtrise de l'outil : Apprendre à utiliser Statistica permet de maîtriser
un outil puissant pour l'analyse statistique et la visualisation des
données. Cela peut être utile dans divers domaines tels que la recherche,
la médecine, la finance, l'industrie, etc.
2. Conception d'études : Le cours peut enseigner comment utiliser
Statistica pour concevoir des études et des expériences, en planifiant des
enquêtes, en définissant des protocoles expérimentaux, et en prenant des
décisions éclairées sur la collecte de données.
3. Analyse des données : Statistica offre une variété de techniques
statistiques. Apprendre à les utiliser permet d'analyser efficacement des
ensembles de données, de tester des hypothèses, d'identifier des
tendances et de dériver des conclusions significatives.
4. Visualisation des données : Le cours peut inclure des compétences
pour créer des graphiques et des visualisations à partir des données, ce
qui facilite la communication des résultats de manière claire et
compréhensible.
5. Interprétation des résultats : Comprendre comment interpréter les
résultats générés par Statistica est essentiel. Cela inclut la capacité à
évaluer la signification statistique, à interpréter les intervalles de
confiance et à tirer des conclusions pertinentes à partir des analyses
effectuées.
6. Optimisation des workflows : Apprendre à utiliser Statistica
efficacement peut améliorer la productivité en optimisant les flux de
travail d'analyse des données, en automatisant des tâches répétitives et
en réduisant le temps nécessaire pour obtenir des résultats.
7. Application pratique : Le cours peut fournir des exemples pratiques et
des cas d'utilisation concrets, permettant aux apprenants d'appliquer
leurs connaissances de manière concrète dans des contextes réels.
PROBLEMATIQUE DU TRAVAIL
On doit faire des analyses sur logiciel statistica 8.0 des données :
-Une démonstration de l’installation du logiciel
- Analyse mono variée d’une variable quantitative
- Analyse bi variée
- Analyse multivariée
Selon la méthode donnée.
OBJECTIF DU TRAVAIL
D’effectuer des analyses statistiques approfondies sur des ensembles de
données. Cela peut inclure des analyses descriptives, des tests
d'hypothèses, des modélisations statistiques, des analyses de régression,
etc.
Utiliser Statistica pour créer des graphiques et des visualisations efficaces
afin de présenter les résultats de manière claire et compréhensible. Cela
peut inclure des histogrammes, des diagrammes en boîte, des graphiques
linéaires, des cartes thermiques, etc.
I/ MATERIEL ET METHODES :
INSTALLATION DE STATISTICA 8.0 :
Pour installer statistica 8.0 on doit tout d’abord recevoir un CD qui
contient le dossier du logiciel (statistca 8.0)
➢ Cliquer sur « édit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « édit » puis sur « copy with headers », puis
dans le Word on colle.
Histogram of Var3
Spreadsheet1 12v*73c
Var3 = 73*13,6714*normal(x; 31,2712; 18,9363)
26
24
22
20
18
16
No of obs
14
12
10
0
5,3000 18,9714 32,6429 46,3143 59,9857 73,6571 87,3286 LT
Var3
Observations et interprétations
Bien que l’observation générale de de la répartition de l’histogramme par
rapport à la ligne rouge (qui représente la loi normale) nous indique que
les colonnes sont majoritairement inclues dedans néanmoins
L’histogramme est presque symétrique.
Ainsi donc c’est la valeur de p pour les tests KSD et LILIFORS qui nous
permettras de faire notre conclusion finale Dans ce cas-ci, P KSD >0.05
P LILIEFORS <0.05
Donc la variable VAR3 ne suit pas la loi normale car la condition pour
suivre la loi normale est que la valeur de p pour les deux tests soit
supérieure à 0.05.
Test T méthode par groupe :
Méthode :
- cliquer dans l’ordre sur :
➢ « Statistics », ➢ « Basic statistis », ➢ « Test t Independent by groups »
➢ « Variable » ; dans mon cas j’ai choisi la variable VAR 3, ➢ « Groups » ;
dans mon cas j’ai choisi le groupe 1(LT«21») et le groupe 2(NFA«32»);
➢ Cliquer sur « édit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « édit » puis sur « copy with headers », puis
dans le Word on colle.
➢ On obtient le tableau suivant
T-tests; Grouping: Var9 (Spreadsheet1) Group 1: 21 Group 2: 32
p-
Mean Mean t- d Valid N Valid N Std.Dev. Std.Dev. F-ratio -
p Variance
- 21 - 32 value f - 21 - 32 - 21 - 32 Variances
s
-
Va 39,400 54,650 0,478 9,87724 33,0218
0,807 3 3 2 11,17717 0,158020
r3 00 00 714 7 9
001
Tableau 2 : Test de Student par groupe.
T-test for Independent Samples (Spreadsheet1) Note: Variables were treated as independent samples
t p - Valid N Valid N
Mean - Mean - t- Std.Dev Std.Dev F-ratio - p -
d separ. 2- - -
Group Group val p df .- .- Varianc Varia
f - side Group Group
1 2 ue Group 1 Group 2 es nces
var.est. d 1 2
Var3 3,9 1 0,0 119
31,271 20,917 3,9737 0,00 18,9362 11,7032 2,61805 0,000
vs. 737 4 001 ,99 73 73
23 81 69 0121 8 2 3 065
Var9 69 4 11 97
Tableau 3: Test de Student par variables
Observations et interprétations :
Nous observons que la valeur de p = 0,158020 donc p >0.05 (non-
significative), par conséquent nous concluons que les moyennes pour les
deux groupes choisis (1 et 2) sont différentes.
df = (valid N21 + valid N32) -2 = (3+2) -2 = 3.
Anova
L'analyse de la variance (ANOVA) uni variée est une méthode statistique
permettant de comparer des moyennes de trois groupes ou plus.
• Méthode des différences significatives :
- cliquer dans l’ordre sur :
➢ « Statistics ».
➢ « Ok ».
➢ « All affects ».
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le word on colle.
Résultat dans le tableau n 4.
Observations et interprétation
Nous observons que la valeur de p est inferieure a 0.05.
P<0.05 donc nous déduisons que la moyenne pour le groupe GR n’est pas
égales ; il y a au moins une moyenne parmi les quatre groupes qui diffère
des autres.
• Puisque les 4 moyennes sont différentes nous allons procédera de
nouveaux tests
Tout d’abord on va cliquer sur :
➢ « Statistics ».
➢ « Anova ».
➢ « Ok ».
➢ « Ok ».
➢ « More results ».
➢ « Significant difference ».
➢ « Ficher LSD ».
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le word on colle.
Résultat dans le tableau n 5.
LSD test; variable Var3 (Spreadsheet1) Probabilities for Post Hoc Tests Error: Between MS = 173,46,
df = 68,000
Var2 {1} - 42,278 {2} - 38,072 {3} - 27,728 {4} - 13,133 {5} - 101,00
1 1 0,341473 0,001476 0,000000 0,000049
2 2 0,341473 0,021346 0,000000 0,000016
3 3 0,001476 0,021346 0,001430 0,000001
4 4 0,000000 0,000000 0,001430 0,000000
5 GR 0,000049 0,000016 0,000001 0,000000
Tableau 5: Test LSD différence significative pour la variable VAR3
Observations et interprétations:
P<0.05 dans toutes les cases ce qui confirme notre hypothèse précédente
les moyennes pour les 4 groupes sont différentes.
• Nous allons procéder à un autre test ( méthode des groupe homogénes):
➢ « Statistics ».
➢ « Anova ».
➢ More results.
➢ post-hoc.
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le word on colle.
Résultat dans le tableau n 6.
LSD test; variable Var3 (Spreadsheet1) Homogenous Groups, alpha = ,05000 Error: Between MS =
173,46, df = 68,000
Var2 Var3 - Mean 1 2 3 4
4 4 13,1333 ****
3 3 27,7278 ****
2 2 38,0722 ****
1 1 42,2778 ****
5 GR 101,0000 ****
Observations et interprétations :
Nous obtenons 4 groupes homogènes
Les moyennes sont classées par ordre croissant ; la moyenne du groupe 4
étant la plus petite et celle du groupe 2 est la plus grande.
Les moyennes de groupe 1, 2 et 3 ne sont pas différentes, seront pas sur
la même colonne.
. Analyse bivariée
Matrice de correlation avec R et P :
La matrice de corrélation permet d'étudier l'association (ou dépendance)
entre deux ou plusieurs variables.
Méthode:
on clique dans l’ordre sur
➢ « Statistics ».
➢ « Basics statistics ».
➢ « Correlation matrice », ➢ « Ok ».
➢ « Variable » (choisir toute les variables sauf GR dans les deux cases);
➢ « Summury ».
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le word on colle.
Resultat tableau n7.
Correlations (Spreadsheet1) Marked correlations are significant at p < ,05000 N=73 (Casewise
deletion of missing data)
Var2 Var3 Var4 Var5 Var6 Var7 Var8 Var9 Var10 NewVar1 NewVar2
Var2 1,00 0,38 0,85 0,78 0,91 0,83 0,92 0,76 0,87 0,98 0,99
Var3 0,38 1,00 0,68 0,65 0,64 0,70 0,60 0,66 0,63 0,50 0,48
Var4 0,85 0,68 1,00 0,97 0,97 0,96 0,95 0,90 0,97 0,91 0,90
Var5 0,78 0,65 0,97 1,00 0,92 0,93 0,90 0,86 0,94 0,85 0,83
Var6 0,91 0,64 0,97 0,92 1,00 0,97 0,99 0,92 0,97 0,97 0,96
Var7 0,83 0,70 0,96 0,93 0,97 1,00 0,96 0,94 0,96 0,90 0,89
Var8 0,92 0,60 0,95 0,90 0,99 0,96 1,00 0,95 0,97 0,97 0,96
Var9 0,76 0,66 0,90 0,86 0,92 0,94 0,95 1,00 0,94 0,86 0,84
Var10 0,87 0,63 0,97 0,94 0,97 0,96 0,97 0,94 1,00 0,94 0,92
NewVar1 0,98 0,50 0,91 0,85 0,97 0,90 0,97 0,86 0,94 1,00 1,00
NewVar2 0,99 0,48 0,90 0,83 0,96 0,89 0,96 0,84 0,92 1,00 1,00
Tableau 7: Matrice des corrélations entre les variables
Observations et interprétations:
R = coefficient de corrélation
-1<R <1; plus la valeur de R se rapproche de 1 plus les variables sont
fortement corrélées, et a partir de 0,7 jusqu’a 1, R est significatif.
Dans ce cas de figure toutes les valeurs sont significativement différentes
de 0; les valeurs de R sont comprises entre 0 et 1; c’est à dire 0<R<1.
Observations et interprétations:
Nous observons que les valeurs de p sont significativement différentes de
0
p<0.05 Nous pouvons donc conclure que toutes ces variables sont
significativement corrélées.
P = -1 (les variables sont fortement négative corrélées).
P = 1 (les variables ont fortement positive corrélées).
-Régression linéaire
Méthode :
- On clique dans l’ordre sur:
➢ « Statistics »
➢ « Advanced linear »
➢ « Simple regression », ➢ « Ok »
➢ « Quick »
➢ « Assumption »
➢ « Scater plot ».
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le word on colle.
En nous basons sur le tableau N 6 :
100
80
60
Var6
40
20
-20
0 20 40 60 80 100 120
Var4 95% confidence
Observations et interprétations :
Y = ax + b
Nous observons que le nuage de point est éparpillé et dispersé autour de
la droite, ne formant pas une droite parallèle.
Var 6= -5,5259+0,9775*x
Plus la valeur de x augmente plus la valeur de y augmente aussi donc les
deux variables sont positivement corrélées.
L’intervalle de confiance est grand donc nous concluons que les variables
sont faiblement corrélées
Régression linéaire des variables LDB et LFA1 figure 11
100
80
60
Var5
40
20
-20
0 20 40 60 80 100 120
Var4 95% confidence
Observations et interprétations:
LFB2 = -0,6622+1,0468*x.
Plus la valeur de x augmente plus la valeur de y augmente aussi donc les
variables
LFB2 et LFB1 sont positivent corrélées
Nous observons que le nuage de point est serré autour de la droite
formant presque une droite parallèle contrairement au premier cas de
figure
L’intervalle de confiance est étroit donc nous déduisons que les variables
sont fortement corrélées.
. Analyse en composante principale (ACP )
L’ACP va réduire le nombre de variables en définissants des groupes en
corrélations entre les variables.
Méthode :
on clique dans l’ordre sur:
➢ « Eigenvalues ».
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le word on colle.
Eigenvalues of correlation matrix, and related statistics (Spreadsheet1) Active variables only
Eigenvalue % Total - variance Cumulative - Eigenvalue Cumulative - %
1 9,698676 88,16978 9,69868 88,1698
2 0,815803 7,41639 10,51448 95,5862
3 0,224312 2,03920 10,73879 97,6254
4 0,177176 1,61069 10,91597 99,2361
5 0,040267 0,36607 10,95623 99,6021
6 0,020413 0,18557 10,97665 99,7877
7 0,010856 0,09869 10,98750 99,8864
8 0,005748 0,05225 10,99325 99,9386
9 0,004582 0,04166 10,99783 99,9803
10 0,001648 0,01498 10,99948 99,9953
11 0,000519 0,00472 11,00000 100,0000
Tableau 9: Analyse en composante principale ACP
Nous allons représenter ces valeurs sur un graphe pour cela nous devons
cliquer sur Screen plot.
➢ « Screeplot »;
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le word on colle.
10 88,17%
6
Eigenvalue
1 7,42%
2,04%1,61% ,37% ,19% ,10%
,05% ,04% ,01% ,00%
0
-1
-2 0 2 4 6 8 10 12 14
Eigenvalue number
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une
deuxième fois sur « edit » puis sur « copy with headers », puis dans le
word on colle.
Factor coordinates of the variables, based on correlations (Spreadsheet1)
Factor 1 Factor 2 Factor 3 Factor 4 Factor 5
Var2 -0,908120 0,373872 0,171567 -0,066490 0,007687
Var3 -0,655525 -0,705339 0,267718 -0,019768 0,024759
Var4 -0,978604 -0,081849 -0,085659 -0,137517 0,003579
Var5 -0,937497 -0,122850 -0,210719 -0,237935 0,041103
Var6 -0,995404 0,025181 0,016037 -0,003903 -0,042403
Var7 -0,973967 -0,119080 -0,071906 0,026875 -0,171007
Var8 -0,990331 0,064456 0,008791 0,099977 0,014685
Var9 -0,934189 -0,125341 -0,150341 0,292433 0,043195
Var10 -0,985849 -0,010652 -0,107442 0,020946 0,067027
NewVar1 -0,964858 0,229693 0,120124 0,005586 0,010840
NewVar2 -0,954967 0,263015 0,131844 0,010944 0,012653
Tableau 10: Corrélations facteurs-variables.
Observations et interprétations :
Pour chaque variable on aura une corrélation avec la nouvelle variable
(facteur 1, facteur 2…).
Les corrélations nous permettent de sélectionner les variables qui
définissent les axes, plus elles seront fortes plus elles contribueront à la
définition des axes.
Nous allons retenir allons retenir les corrélations qui ont une valeur
supérieure ou égale à 0 .9.
Dans ce cas de figure nous allons retenir les deux premiers axes (facteur1
et facteur 2).
Cercle de correlations
➢ Cliquer sur « plot var factors coordinated 2D »;
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite cliquer
une deuxième fois sur « edit » puis sur « copy with headers », puis dans le
word on colle.
1,0
0,5
Var2
NewVar2
NewVar1
Factor 2 : 7,42%
Var8
Var6
Var10
0,0 Var4
Var7
Var5
Var9
-0,5
Var3
-1,0
➢ « Graph »;
➢ « Scater plot »;
➢ « Advanced »;
➢ « Ok »;
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le word on colle.
1
Factor2
-1
-2
GR=1
GR=2
GR=3
-3 GR=4
-26 -24 -22 -20 -18 -16 -14 -12 -10 -8 -6 -4 -2 0 2 4 Other
2
Factor1:Factor2: r = -0,0000; p = ---; r = 0,0000
Factor1
➢Data
➢transpose
➢file
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le word on colle.
On obtient les tableaux suivant :
Descriptive Statistics (GROUPE 1)
G
LT LFB1 LFB2 PDB NFB PDA NFA NDA LSA LDA
R
Me 42,4736 17,5842 17,5368 11,4789 24,3684 12,1157 30,3157 14,0526 4,75789 2,45789
1
an 842 105 421 474 211 895 895 316 474 474
Tableau 12: Moyennes des variables du groupe 1.
Descriptive Statistics (GROUPE2)
G
LT LFB1 LFB2 PDB NFB PDA NFA NDA LSA LDA
R
Me 38,0722 17,5055 21,3222 8,76111 22,6666 6,88888 19,7777 10,9444 3,44444 1,13333
2
an 222 556 222 111 667 889 778 444 444 333
Tableau 13: Moyennes des variables du groupe 2
Descriptive Statistics (GROUPE3)
G NF
LT LFB1 LFB2 PDB PDA NFA NDA LSA LDA
R B
Me 27,7277 8,09444 5,48333 5,40555 16, 4,92222 16,8888 3,61111 3,25555 1,80555
3
an 778 444 333 556 5 222 889 111 556 556
Tableau 14: Moyennes des variables du groupe 3.
Descriptive Statistics (GROUPE4)
G
LT LFB1 LFB2 PDB NFB PDA NFA NDA LSA LDA
R
Me 13,1333 8,92222 7,67222 2,79444 12,7222 2,83888 12,4444 3,66666 1,81666 0,22222
4
an 333 222 222 444 222 889 444 667 667 2222
Tableau 15: Moyennes des variables du groupe 4.
➢ « Statistics »;
➢ « Cluster analysis»;
➢ « Advanced »;
➢ « Distance matrix ».
➢ Cliquer sur « edit » puis sur « select all » tout sélectionner ensuite
cliquer une deuxième fois sur « edit » puis sur « copy with headers », puis
dans le Word on colle.
On obtient le tableau suivant :
Euclidean distances (Spreadsheet14)
GR1 GR2 GR3 GR4
GR1 0,0 14,0 30,0 42,2
GR2 14,0 0,0 23,7 33,9
GR3 30,0 23,7 0,0 16,4
GR4 42,2 33,9 16,4 0,0
Tableau 17: Matrice de distance euclidienne pour le groupe moyen
Dendrogramme avec distance absolues:
Méthode : cliquer dans l’ordre sur :
➢ « Stistics »;
➢ « Cluster analysis »;
C_1
C_2
C_3
C_4
10 15 20 25 30 35
Linkage Distance
C_1
C_2
C_3
C_4
30 40 50 60 70 80 90 100 110
(Dlink/Dmax)*100