Vous êtes sur la page 1sur 50

Statistica analitica

Probabilitati
Probabilitatea unui eveniment specificat
este fractiunea sau proportia din toate evenimentele posibile ale evenimentului specificat intr-o succesiune aproape nelimitata a probelor in conditii similare. Probabilitatea unui eveniment nu poate fi mai mare de 1 (100%) sau mai mica decat 0 (0%).

Aplicatii
Valorile probabile intr-o populatie sunt
distribuite intr-o maniera definita care poate fi folosita pentru a analiza populatia. Valorile probabile care nu urmeaza o distributie pot fi analizate folosind metode neparametrice.

Tipuri
Cele mai uzuale distributii de probabilitate
sunt: a. distributia binomiala b. distributia normala c. distributia t d. distributia 2 (Chi)

Calcul
Probabilitatea unui eveniment este
determinata de formula: Pr (A) = n/N Pr (A) = probabilitatea evenimentului A n = nr. de cate ori evenimentul A s-a produs N = nr. de cate ori evenimentul A este posibil sa se produca (nr. total de evenimente posibile)

Reguli de calcul a probabilitatilor


Regula aditiva: daca avem cel putin doua
evenimente mutual exclusive sau disjuncte (realizarea unuia inseamna automat nerealizarea celuilalt) atunci probabilitatea lui A sau B se calculeaza prin insumarea probabilitatilor fiecarui eveniment. Calcul: Pr(A sau B)=Pr(A)+Pr (B)

Reguli de calcul a probabilitatilor


Regula multiplicativa: se aplica in situatia
a 2 sau mai multe evenimente independente care se produc concomitent si consta in multiplicarea probabilitatilor individuale ale evenimentelor. Calcul: Pr(A si B)=Pr(A)xPr(B)

Ipoteza nula
H0 este ipoteza care postuleaza faptul ca
esantioanele sau populatiile pe care le avem de comparat in cadrul unui studiu, experiment sau test sunt similare, sau cu alte cuvinte, orice diferenta este atribuita sansei si nu unui anumit factor.

Aplicatii si caracteristici
Ipoteza nula postuleaza absenta unor deosebiri
care pot aparea in orice problema de comparare statistica. Este folosita pentru a defini semnificatia diferentei. Semnificatia diferentei, numita si semnificatie statistica, este concluzia ca diferenta intre esantioane, populatii sau ambele, este datorata unor factori altora decat sansa. Diferenta semnificativa apare cand ipoteza nula este respinsa.

Cand ipoteza nula este respinsa, cel putin una

din ipotezele alternative este acceptata, deci diferenta poate fi explicata prin alt factor decat sansa. Cand nici o diferenta nu poate fi sustinuta intre 2 populatii, inseamna ca se accepta ipoteza nula, dar nu inseamna ca mediile populatiilor sunt identice. Valoarea probabilitatii pentru care diferenta se datoreaza numai sansei se numeste nivel de semnificatie. Daca el este de maximum 5% atunci ipoteza nula este respinsa si o ipoteza alternativa este acceptata; spunem ca diferenta este statistic semnificativa.

Nivelul de semnificatie se noteaza cu

sau p-value si este ales de cercetator a priori. In orice procedeu de comparare se pot emite 2 tipuri de erori: Eroarea de speta I care reprezinta decizia de a respinge ipoteza nula cand ea este adevarata; Eroarea de spata aII-a care reprezinta decizia de a accepta ipoteza nula cand aceasta este falsa.

Probabilitatile erorilor asociate sunt:

Pr (respH0/H0=adevarat)==riscul erorii de speta I Pr(acceptH0/H0=fals)==riscul erorii de speta aIIa 1- = puterea testului Pe baza acestei interpretari, in spatiul esantioanelor multimea valorilor posibile calculate se divide in 2 intervale: Intervalul de acceptare sau intervalul critic reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate se inscrie printre valorile sale, se accepta ipoteza nula. Intervalul de respingere reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate prin test se inscrie printre valorile sale se respinge ipoteza nula.

Diferentele statistic semnificative pot sa

nu fie semnificative clinic, si diferentele clinic importante pot sa nu fie statistic semnificative. Ipoteza nula poate fi testata fie prin test unilateral one-tailed test sau bilateral two-tailed test

Testul unilateral
Este acel test pentru care intervalul de
respingere este format (dupa distributia normala) dintr-o singura coada stanga sau dreapta testul fiind unilateral stang sau drept. Este folosit pentru a testa o ipoteza nula pentru care ipoteza alternativa este directionata, comparatia facandu-se intrun singur sens , si este mai puternic ca un test bilateral.

Testul bilateral
Este acel test pentru care intervalul de

respingere este format din 2 cozi-in stanga si in dreapta curbei Este folosit pentru a testa o ipoteza nula nefiind necesara nici o presupunere privind ipoteza alternativa Se folosesc cand generam ipotezele alternative si sunt mai utilizate in comparatie cu testele unilaterale

Calcul
H0:P1-P0=0 sau P1=P0 Ha:P1-P0=0 sau P1=P0
Unde P1 este probabilitatea caracteristicii studiate in esantion, iar P0 este probabilitatea aceleiasi caracteristici in populatie sau o probabilitate teoretica sau din literatura.

Tabele de contingenta si grade de libertate


Reprezinta o clasificare a datelor in functie de 2
criterii in cadrul carora datele sunt in continuare divizate in 2 sau mai multecategorii discrete si mutual exclusive. Tabelul de contingenta in care sunt mai mult de 2 categorii pentru fiecare din cele 2 criterii este numit tabelul rxc. Un tabel de contingenta in care avem numai 2 categorii pentru fiecare din cele 2 criterii de grupare este numit tabelul 2x2

Aplicatii
Este o metoda simpla de prezentare a
datelor si mult folosita cand aplicam testul chi patrat sau alte teste neparametrice. Tabelul 2x2 se foloseste in domeniul epidemiologiei.

Grade de libertate
Este un numar legat de efectivul valorilor dintr-o

serie sau o distributie; el poate fi in mod liber atribuit cand suma valorilor este fixata. Intr-un tabel de contingenta, gradele de libertate reprezinta numarul celulelor din tabel carora li se pot atribui in mod liber valori, presupunand totalul si valorile marginale stabilite. Daca valorile din aceste celule au fost stabilite, valorile tuturor celulelor ramase din tabel sunt determinate in mod automat.

Aplicatie si calcul
In cadrul unor distributii de probabilitate, cum ar
fi distributia t si distributia 2 valorile probabilitatilor de respingere a ipotezei nule variaza in functie de numarul de grade de libertate ale esantionului. Calcul: cand distributia are fie o singura linie, fie o singura coloana, numarul de grade de libertate este determinat prin formula: df=c-1, daca r=1 sau df=r-1, daca c=1 Cand tabelul are cel putin 2 linii si/sau cel putin 2 coloane, nr. de grade de libertate este determinat de formula: df=(r-1)x(c-1)

Distributia unui esantion de 100 nounascuti in functie de sex si de mediul de rezidenta


Criteriul A (sex)
Criteriul B (mediu) Urban Rural Total Masculin a (21) c (32) a+c (53) Feminin b (19) d (28) b+d (47) Total a+b (40) c+d (60) n (100)

Distributia binomiala
Este
acea distributie a rezultatelor obtinute in cadrul unui experiment, cand acestea au numai valori discrete si mutual exclusive. Aplicatii: este folosita cand ne referim la probabilitatea a 2 rezultate mutual exclusive intr-un numar cunoscut de probe. Probabilitatea fiecaruia dintre cele 2 rezultate este aceeasi in fiecare proba, dar rezultatul fiecarei probe este independent de rezultatul altei probe.

Calcul
Pentru o distributie binomiala, probabilitatea este data
de formula: f(x) =[n!/x!(n-x)!]pxqn-x f(x)= probabilitatea obtinerii valorii x in probe p=probabilitatea unuia din cele 2 rezultate posibile (un succes) intr-o singura proba q=probabilitatea celuilalt rezultat posibil (un esec) intr-o singura proba n=nr. total de probe din cadrul experimentului x=nr. de succese obtinute in cadrul unui experiment de n probe n-x=numarul de esecuri obtinute in cadrul aceluiasi experiment !=semnul factorial

aleatorie discreta x pentru care valoarea medie si dispersia sunt date de formulele: x=np 2=npq Pentru diverse valori ale lui n si p se obtin diverse curbe reprezentative pentru probabilitatile f(x). Pentru np>10 si nq>10, curbele devin insuficient de simetrice in jurul valorii lui x si se poate asimila distributia binomiala cu o distributie normala.

Distributia binomiala se refera deci la o variabila

foarte mare si probabilitatea p foarte mica, astfel ca produsul np==x devin: f(x)=e- . x/x! probabilitati care conduc la distributia Poisson. Se demonstreaza ca valoarea medie si dispersia pentru aceasta distributie sunt: x= 2 x= Prin cresterea lui se obtin curbe cat mai simetrice, astfel pentru >20 sau =20, distributia lui Poisson poate fi asimilata cu o distributie normala.

Daca in cazul distributiei binomiale consideram n

Distributia normala (Gauss Laplace)


Este o distributie teoretica, continua,
simetrica, unimodala, si poate, teoretic, sa varieze intre infinit si +infinit. Curba distributiei normale are doua cozi simetrice si este determinata prin media si deviatia standard a populatiei . Media, mediana si modulul unei populatii distribuite normal sunt egale.

Aplicatii
Poate fi folosita pentru a studia multe
populatii si esantioane, esantioanele trebuie sa fie de minimum 30 de cazuri. Distributia normala si aproximarea normala constituie bazele unui numar de teste analitice, cum ar fi testul t sau chi patrat.

Raportul critic sau scorul z


Este numarul deviatiilor standard ce separa un

indicator calculat in esantion de parametrul corespunzator intr-o populatie normala. Cresterea raportului critic corespunde descresterii probabilitatii de acceptare a ipotezei nule Pot fi calculate si listate proportiile populatiei in interiorul intervalului si/sau in afara intervalului.

Intr-o populatie distribuita normal,

aproximativ 68% din populatie este situata in interiorul unui raport critic, aproximativ 95% din populatie este situata in interiorul a 2 rapoarte critice ale mediei si in jur de 99,7% este situata in interiorul a 3 rapoarte critice mediei. In esantioanele numeroase, raportul critic este folosit pentru a calcula intervalele de incredere in jurul mediei de esantion.

Calcul
z=lx-l/
z=raportul critic x=valoarea de testat =media populatiei =deviatia standard a populatiei

Testul t (student)
Este bazat pe distributia t, distributie care
reflecta o mai mare variatie datorata sansei in comparatie cu distributia normala. Este continua, simetrica, unimodala, variaza de la infinit la +infinit, este mult mai larga in comparatie cu distributia normala.

Este utilizata pentru a analiza esantioane

mici. Cand volumele esantioanelor cresc, distributia t se apropie de distributia normala, astfel ca pentru un numar infinit de grade de libertate cele 2 distributii sunt identice si valorile critice ale lui t sunt egale cu raportul critic al distributiei normale.

Testul t pentru un esantion mic


Testul t pentru un singur esantion mic
compara o singura medie (x) a esantionului cu media populatiei.

Aplicatii si caracteristici
Sunt folosite pentru a evalua ipoteza nula pentru
variabile cantitative, pentru esantioane de volum mai mic de 30 de cazuri. Sunt utilizate in analiza pentu care SD din esantioane sunt substituite ca estimatii pentru SD din populatii. Valoarea probabilitatii de respingere a ipotezei nule, cand aceasta este adevarata =p-value este obtinuta din tabela t corespunzatoare lui df=n-1 grade de libertate. In cazul esantioanelor mici, sub 30 de cazuri, distributia t este folosita pentru a calcula intervalele de incredere in jurul mediei esantioniului.

Calcul
Valoarea calculata a testului pentru compararea mediei

esantionului cu media populatiei este determinata prin formula: t(df)=lx-l/(SD/n) t(df)=valoarea calculata a testului la df. gr. de libertate df=nr. de grade de libertate x=valoarea medie a esantionului =media populatiei SD=deviatia standard n=volumul esantionului Numitorul ecuatiei se numeste eroarea standard a mediei esantionului.

Testul t pentru esantioane independente


Compara valori medii a 2 esantioane mici. Utilitatea si restrictiile sunt aceleasi cu
exceptia ca esantioanele trebuie sa fie sub 30 de cazuri. Este nepotrivit cand avem de comparat mai multe valori medii.

Calcul
t(df)=lx-yl/SDp1/n1+1/n2 SDp=(xi-x)2+ (yi-y)2/(n1-1)+(n2-1) SDp=deviatia standard ponderata a celor
2 esantioane

Testul t pentru esantioane perechi


Compara valorile medii a 2 esantioane
perechi. In acest caz numarul de perechi trebuie sa fie sub 30. t(df)=d /(SDp/n) SDp= (di-d)2/(n-1) di=diferentele in cadrul fiecarei perechi d=valoarea medie a diferentelor

Numitorul testului t pe perechi este

eroarea standard a diferentei mediilor. Valoarea calculata a testului t este folosita pentru a stabili probabilitatea ca diferenta intre esantioanele perechi, la gradele de libertate respective sa se datoreze sau nu sansei.

Eroarea standard si limitele de incredere


Este bazata pe un esantion al populatiei si este o

estimatie a deviatiei standard a masuratorilor pentru populatie. Este o masura a acuratetei mediei esantionului ca o estimatie a mediei populatiei. Este raportul dintre deviatia standard si radical de ordinul 2 din volumul esantionului. Este folosita pentru a construi limitele de incredere in jurul mediei esantionului. Este folosita la testul t. SEM=SD/n unde n=nr. de obs. in esantion

Limitele de incredere ale valorii medii


Definesc valorile probabile pentru un parametru

al populatiei, pe baza volumului esantionului si a valorii erorii standard. Intervalele de incredere sunt exprimate in termenii probabilitatii bazate pe eroarea . Un interval de incredere (1- ), exprima faptul ca probabilitatea ca parametrul populatiei sa se gaseasca in intervalul de incredere este 1- , iar probabilitatea ca parametrul populatiei sa se gaseasca in afara intervalului de incredere este .

Limitele de incredere ale mediei populatiei

() definesc intervalul de incredere pentru media populatiei pe baza mediei esantionului. Pentru esantioane mai mari sau egale cu 30 limitele de incredere sunt bazate pe raportul critic corespunzator probabilitatii asociate. Pentru esantioane mici sub 30 limitele de incredere sunt bazate pe valorile lui t din tabele, corespunzator numarului de grade de libertate si probabilitatii asociate.

Utilitate
Sunt folosite pentru a estima media
populatiei pe baza mediei esantionului extras din populatie. Cel mai des folosite sunt limitele de incredere de 95%, care indica faptul ca probabilitatea ca valoarea mediei necunoscuta din populatie sa se afle intre aceste limite este de 95%, iar in afara lor este de 5%.

Calcul
Pentru esantioane mari
Limitele de incredere (1- )=xzSEM

Pentru esantioane mici


Limitele de incredere (1- )=xtdf,SEM

Testul chi patrat 2


Compara o distributie de frecvente absolute
observate cu o distributie teoretica (asteptata) de frecvente absolute pe baza distributiei de probabilitate chi patrat. Este o distributie continua, simetrica si se bazeaza pe aproxiamtia normala a distributiei binomiale. Distributia chi patrat cu 1 grad de libertate este identica cu distributia patratului raportului critic.

Aplicatii si caracteristici
Testul chi patrat de tip rxc este folosit pentru a compara

o distributie observata cu o distributie teoretica sau compara 2 sau mai multe distributii observate. Categoriile de date folosite trebuie sa fie mutual exclusive si discrete. Trebuie folosite numai valori absolute. Frecventele teoretice trebuie sa fie mai mari decat 5, cele observate pot fi mai mici decat 5. Valorile probabilitatii pentru respingerea ipotezei nule sunt obtinute din tabele speciale pentru distributia chi patrat corespunzator numarului de grade de libertate.

Corectia Yates
Deoarece distributia chi patrat este bazata
pe aproximatia normala a distributiei binomiale, se impune o corectie de continuitate numita corectia Yates, aceasta consta intr-o modificare in formula de calcul a testului chi patrat Corectia Yates se foloseste pentru esantioane mici si scade valoarea lui chi patrat, deci scade probabilitatea respingerii ipotezei nule.

Calcul
2c(df)= (|Oi-Ei|-1/2)2/Ei 2c(df)=valoarea calculata a testului chi

patrat cu corecta Yates Oi=frecventele absolute observate din fiecare celula a tabelului Ei=frecventele teoretice corespunzatoare frecventelor observate =corectia yates

Testul chi patrat 2x2


Este un caz particular si se aplica pantru
tabelele de contingenta de tip 2x2 si are un grad de libertate. 2c(1)=n(|ad-bc|n/2)2/(a+b)(c+d)(a+c)(b+d)

Testul McNemar
Este un test chi patrat 2x2 specific pentru
compararea esantioanelor perechi. Ipoteza nula care este de testat este aceea ca frecventele asteptate pentru perechile discordante sunt egale. Testul are un grad de libertae si se poate calcula dupa formula: 2c=(|f-g|-1)2/f+g unde f si g sunt valorile perechilor discordante