Académique Documents
Professionnel Documents
Culture Documents
Cuza" Ia³i
Facultatea de Matematic
[Iulian Stoleriu]
ii
Contents
1 Introducere în Statistic 3
1.4.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
iii
2.5 Probabilit µi condiµionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
iv
3.4 Alte comenzi utile în Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
v
6.1 Punerea problemei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.6.1 Interval de încredere pentru medie, cand dispersia este cunoscuta . . . . . . . . 128
6.6.2 Interval de încredere pentru medie, cand dispersia este necunoscuta . . . . . . . 132
vi
7.6 Teste parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
vii
viii
List of Figures
1.4 Reprezentarea pe disc a frecventelor relative ale notelor din tabelul cu note . . . . . . 16
3.4 Simularea arunc rii unei monede corecte (a) ³i a unui zar corect (b) . . . . . . . . . . . 68
4.2 Functia de repartitie empirica si functia de repartitie teoretica pentru distributia normala. 87
ix
4.3 Reprezentare pentru numarul de accidente. . . . . . . . . . . . . . . . . . . . . . . . . 89
x
List of Tables
xi
7.7 Teste pentru dispersie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
1
2
Chapter 1
Introducere în Statistic
de organizarea ³i interpretarea lor, în vederea explic rii unor fenomene reale. De regula, oamenii au
anumite intuitii despre realitatea ce ne inconjoara, pe care le doresc a conrmate intr-un mod cat
mai exact. De exemplu, daca intr-o anumita zona a tarii rata somajului este ridicata, este de asteptat
ca in acea zona calitatea vietii persoanelor de acolo sa nu e la standarde ridicate. Totusi, ne-am dori
sa m cat mai precisi in evaluarea legaturii dintre rata somajului si calitatea vietii, de aceea ne-am
dori sa construim un model matematic ce sa ne conrme intuitia. Un alt gen de problema: ardem de
nerabdare sa aam cine va noul presedinte, imediat ce sectiile de votare au inchis portile (exit-pole).
Chestionarea tuturor persoanelor ce au votat, colectarea si unicarea tuturor datelor intr-un timp
record nu este o masura deloc practica. In ambele probleme mentionate, observatiile si culegerea de
date au devenit prima treapta spre întelegerea fenomenului studiat. De cele mai multe ori, realitatea nu
poate complet descrisa de un astfel de model, dar scopul este de a oferi o aproximare cat mai dela si
cu costuri limitate. In ambele situatii mentionate apar erori in aproximare, erori care tin de intamplare.
De aceea, ne-am dori sa putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de
la colecµiile de date obµinute dintr-o colectivitate, Statistica introduce metode de predicµie iprognoz
pentru descrierea ³i analiza propriet µilor întregii colectivit µi. Aria de aplicabilitate a Statisticii este
Statistica ap rut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre populaµiile
3
4
pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai bune administr ri.
Datorit originii sale, Statistica este considerat de unii ca ind o ³tiinµ de sine st t toare, ce utilizeaz
Din punct de vedere etimologic, cuvântului statistic i³i are originile în expresia latin statisticum
collegium (însemnând consiliul statului) ³i cuvântul italian statista, însemnând om de stat sau politician.
În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat pentru a analiza
datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a extrapolat termenul la
• în Agricultur , de exemplu, pentru a studia care culturi sunt mai potrivite pentru a cultivate
pe un anumit teren arabil;
• în Economie, pentru studiul rentabilit µii unor noi produse introduse pe piaµ , pentru corelarea
cererii cu oferta, sau pentru a analiza cum se schimb standardele de viaµ ;
• în Biologie, pentru clasicarea din punct de vedere ³tiinµic a unor specii de plante sau pentru
selectarea unor noi specii;
• în tiinµele educaµiei, pentru a g si cel mai ecient mod de lucru pentru elevi sau pentru a studia
impactul unor teste naµionale asupra diverselor caregorii de persoane ce lucreaz în înv µ mânt;
• în Meteorologie, pentru a prognoza vremea într-un anumit µinut pentru o perioada de timp, sau
pentru a studia efectele înc lzirii globale;
• în Politologie, pentru a verica daca un anumit partid politic mai are sprijinul populaµiei;
• în tiinµele sociale, pentru a studia impactul crizei economice asupra unor anumite clase sociale;
• etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai întâi
care este colectivitatea asupra c reia se dore³te studiul. Aceast colectivitate (sau populaµie) poate
populaµia unei µ ri, sau numai elevii dintr-o ³coal , sau totalitatea produselor agricole cultivate
Introducere în Statistic 5
într-un anumit µinut, sau toate bunurile produse într-o uzin . Dac se dore³te studiul unei tr s turi
comune a tuturor membrilor colectivit µii, este de multe ori aproape imposibil de a observa aceast
tr s tur la ecare membru în parte, de aceea este mult mai practic de a strânge date doar despre
toat colectivitatea. Exist o ramur a statisticii ce se ocup cu descrierea acestei colecµii de date,
numit Statistic descriptiv . Aceast descriere a tras turilor unei colectivit cti poate f cut aât
numeric (media, dispersia, mediana, quantile, tendinµe etc), cât ³i grac (prin puncte, bare, histograme
etc). De asemenea, datele culese pot procesate într-un anumit fel, încât s putem trage concluzii
foarte precise despre anumite tr s turi ale întregii colectivit µi. Aceast ramur a Statisticii, care
trage concluzii despre caracteristici ale întregii colectivit µi, studiind doar o parte din ea, se nume³te
Statistic inferenµial . În contul Statisticii interenµiale putem trece luarea de decizii asupra unor
ipoteze statistice, descrierea gradului de corelare între diverse tipuri de date, estimarea caracteristicilor
numerice ale unor tr s turi comune întregii colectivit µi, descrierea leg turii între diverse caracteristici
etc.
Statisticii, cautand sa extraga informatii si sa le interpreteze din datele culese pe cale experimentala.
Aceasta utilizeaza Teoria probabilitatilor, dar si notiuni din alte ramuri ale Matematicii, cum ar :
De obicei, punctul de plecare este o problema din viata reala, e.g., care partid are o sustinere mai buna
din partea populatiei unei tari, daca un anumit medicament este relevant pentru boala pentru care a
fost creat, daca este vreo corelatie intre numarul de ore de lumina pe zi si depresie). Apoi, trebuie sa
decidem ce date avem nevoie sa colectam, pentru a putea da un raspuns la intrebarea ridicata si cum
le putem colecta. Modurile de colectare a datele pot diverse: putem face un sondaj de opinie, sau
prin experiment, sau prin simpla observare a caracteristicilor. Este nevoie de o metoda bine stabilita
de colectare a datelor si sa construim un model statistic potrivit pentru analiza acestora. In general,
date culese de noi pot potrivite intr-un model statistic prin care
unde f este o functie ce verica anumite proprietati, x este vectorul ce contine variabilele masurate
si θ e un parametru, care poate determinat sau nedeterminat. Termenul de eroare apare deseori in
pratica, deoarece unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat
este testat, si eventual revizuit, astfel incat sa se potriveasca intr-o masura cat mai precisa datelor
culese.
Aceasta poate nita sau innita, reala sau imaginara. Elementele ce constituie o colectivitate statis-
in procesul prelucrarii statistice. Caracteristicile pot : cantitative (masurabile sau variabile) si cal-
itative (nemasurabile sau atribute). La randul lor, variabilele cantitative pot discrete (numarul de
sosiri ale unui tramvai in statie) sau continue (timpul de asteptare intre doua sosiri ale tramvaiului in
statie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii ind astfel caracter-
istici numerice ale colectivitatii. Suntem interesati in a masura una sau mai multe variabile relative
la o populatie, insa aceasta s-ar putea dovedi o munca extrem de costisitoare, atat din punctul de
vedere al timpului necesar, cat si din punctul de vedere al depozitarii datelor culese, in cazul in care
volumul colectivitatii este mare sau foarte mare (e.g., colectivitatea este populatia cu drept de vot
a unei tari si caracteristica urmarita este candidatul votat la alegerile prezidentiale). De aceea, este
foarte intemeiata alegerea unei selectii de date din intreaga populatie si sa urmarim ca pe baza datelor
O selectie (sau esantion) este o colectivitate partiala de elemente extrase (la intamplare sau nu) din
colectivitatea generala, in scopul cercetarii lor din punctul de vedere al unei caracteristici. Daca ex-
tragerea se face la intamplare, atunci spunem ca am facut o selectie intamplatoare. Numarul indivizilor
din selectia aleasa se va numi volumul selectiei. Daca se face o enumerare sau o listare a ecarui element
component al unei a populatii statistice, atunci spunem ca am facut un recens mânt. Selectia ar trebui
sa e reprezentativa pentru populatia din care face parte. Numit o selectie repetata (sau cu repetitie) o
selectie in urma careia individul ales a fost reintrodus din nou in colectivitate. Altfel, avem o selectie
nerepetata. Selectia nerepetata nu prezinta interes daca volumul colectivitatii este nit, deoarece in
acest caz probabilitatea ca un alt individ sa e ales intr-o extragere nu este aceeasi pentru toti indivizii
colectivitatii. Pe de alta parte, daca volumul intregii populatii statistic este mult mai mare decat cel
al esantionului extras, atunci putem presupune ca selectia efectuata este repetata, chiar daca in mod
Introducere în Statistic 7
practic ea este peretata. Spre exemplu, daca dorim sa facem o prognoza a cine va noul presedinte
la alegerile din toamna, esantionul ales (de altfel, unul foarte mic comparativ cu volumul populatiei
cu drept de vot) se face, in general, fara repetitie, dar il putem considera a o selectie repetata, in
Selectiile aleatoare se pot realiza prin diverse metode, in functie de urmatorii factori: disponibilitatea
informatiilor necesare, costul operatiunii, nivelul de precizie al informatiilor etc. Mai jos prezentam
• selectie simpla de un volum dat, prin care toti indivizii ce compun populatia au aceeasi sansa de a
alesi. Aceasta metoda mininimizeaza riscul de a partinitor sau favorabil unuia dintre indivizi.
Aceasta metoda are neajunsul ca, in anumite cazuri, nu reecta componenta intregii populatii.
Se aplica doar pentru colectivitati omogene din punctul de vedere al trasarurii studiate.
• selectie sistematica, ce presupune aranjarea populatiei studiate dupa o anumita schema ordonata
si selectand apoi elementele la intervale regulate. (e.g., alegerea a ecarui al 10-lea numar dintr-o
carte de telefon, primul numar ind ales la intamplare (simplu) dintre primele 10 din lista).
• selectie straticata, in care populatia este separata in categorii, iar alegerea se face la intamplare
din ecare categorie. Acest tip de selectie face ca ecare grup ce compune populatia sa poata
reprezentat in selectie. Alegerea ar poate facuta si in functie de marimea ecarui grup ce compune
colectivitatea totala (e.g., aleg din ecare judt un anumit numar de persoane, proportional cu
• selectie cota, (care este un caz particular de selectie straticata) care se construieste prin selectarea
unui numar de elemente din ecare strat dupa o anumita cota sau proportional cu marimea
• selectie ciorchine, care este un esantion straticat construit prin selectarea de selectii din anumite
straturi (nu din toate).
• selectia de tip experienta, care tine cont de elementul temporal in selectie. (e.g., diversi timpi de
pe o encefalograma).
• si altele.
• selectie de convenienta: de exemplu, alegem dintre persoanele care trec prin fata universitatii.
• selectie de judecata: cine face selectia decide cine ramane sau nu in selectie.
• selectie de cota: selectia ar trebui sa e o copie a intregii populatii, dar la o scara mult mai mica.
Asadar putem selecta proportional cu numarul persoanelor din ecare rasa, de ecare gen, origine
etnica etc) (e.g., persoanele din Parlament ar trebui sa e o copie reprezentativa a persoanelor
• si altele.
colectivitatea este multimea tuturor studentilor dintr-o universitate inrolati intr-un anumit timp, iar
caracteristica este numarul de credite obtinute de studenti in decursul acelui an). Vom numi date
informatiile obtinute in urma observatiei valorilor acestei caracteristici. Datele pot calitative sau
cantitative, dupa cum caracteristica (sau variabila) observata este calitativa sau, respectiv, cantitativa.
Aceste date poti date discrete, daca sunt obtinute in urma observarii unei caracteristici discrete (o
variabila aleatoare discreta), sau date continue, daca aceasta caracteristica este continua (o variabila
aleatoare de tip continuu). In cazul din exemplu, datele vor cantitative si discrete.
Primul pas in analiza datelor proaspat culese este de a le ordona si reprezenta grac, dar si de a calcula
anumite caracteristici numerice pentru acestea. Datele inainte de prelucrare, adica exact asa cum au
fost culese, se numesc date negrupate. De exemplu, numarul de apeluri la 112 in luna Iulie, specicat
zilnic, este:
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948
598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmareste a
se grupa datele, pentru o mai usoara gestionare. Imaginati-va ca enumeram toate voturile unei selectii
intamplatoare de 15000 de votanti, abia iesiti de la vot. Mai degraba, este util sa grupam datele dupa
Gruparea datelor
Datele prezentate sub forma de distributie (tabel) de frecvente se numesc date grupate. Datele de se-
lectie obtinute pot date discrete sau date continue, dupa cum caracteristicile studiate sunt variabile
(1) Daca datele de selectie sunt discrete (e.g., {x1 , x2 , . . . , xn }) si au valorile distincte
x01 , x02 , . . . , x0r , r ≤ n, atunci ele pot grupate intr-un asa-numit tabel de frecvente (vezi exemplul din
Figura 1.1) sau intr-un tablou de frecvente, dupa cum urmeaza:
x01 x02 ... x0r
data :
f1 f2 ... fr
unde fi este frecventa aparitiei valorii x0i , (i = 1, 2, . . . , r ), si se va numi distributia empirica de selectie
a lui X .
Aceste frecvente pot absolute sau de relative. Un tabel de frecvente (sau o distributie de frecvente) con-
tine toate categoriile ce sunt observate din datele colectate si numarul de elemente ce apartine ecarei
categorii in parte, adica frecventa absoluta. O frecventa relativa se obtine prin impartirea frecventei
absolute a unei categorii la suma tuturor frecventelor din tabel. Astfel, suma tuturor frecventelor
relative este egala cu 1. Elementele unui tabel sunt, de regula: valori pentru variabile, frecvente sau
frecvente relative.
In tabelul 1.1, sunt prezentate notele studentilor din anul al III-lea la examenul de Statistica. Acesta
Observaµia 1.1 O gluma povestita de matematicianul ungur György Pólya, despre cum NU ar trebui
interpretata frecventa relativa. Un individ suferind merge la medic. Medicul il examineaza indelung
"Of... draga domnule pacient, am o veste foarte proasta si una buna. Mai intai va aduc la cunostinta
vestea proasta, daca nu e cu b nat. Suferiti de o boala groaznica. Statistic vorbind, din zece pacienti
Pacientul, deja in culmea disperarii, este totusi consolat de doctor cu vestea cea buna:
"Dar dumneavoastra ati venit la mine si asta va face tare norocos", continua optimist doctorul. "Am
avut deja noua pacienti ce au avut aceeasi boala si toti au murit, asa ca veti supravietui."
10
2 2 2.22%
3 4 4.44%
4 8 8.89%
5 15 16.67%
6 18 20.00%
7 17 18.89%
8 15 16.67%
9 7 7.78%
10 4 4.44%
Total 90 100%
(2) Daca X este de tip continuu, atunci se obisnuieste sa se faca o grupare a datelor de selectie in
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76 0.13
3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14 2.98 4.33 5.08 4.67
0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28 0.94 3.44 1.35 3.64 2.92 2.67 2.86
5.41 5.14 2.75 1.67 3.89 1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40
3.74 4.85 3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80
0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88 5.36 1.32
5.32 3.97 0.79 3.14 2.41 3.19 1.50 0.83 4.12 3.12
reprezentand timpi (in min.sec) de asteptare pentru primii 100 de clienti care au asteptat la un ghiseu
[a0 , a1 ) [a1 , a2 ) ... [ar−1 , ar )
data : ,
f1 f2 ... fr
[a0 , a1 ) f1 x01
[a1 , a2 ) f2 x02
.. .. ..
. . .
[ar−1 , ar ) fr x0r
Asadar, putem grupa datele de tip continuu de mai sus in tablou de distributie:
[0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)
.
14 17 21 18 16 14
Uneori, tabelul de distributie pentru o caracteristica de tip continuu mai poate scris si sub forma:
x01 x02 ... x0r
data :
f1 f2 ... fr
unde
ai−1 + ai
• x0i = este elementul de mijloc al clasei [ai−1 , ai );
2
r
X
• fi este frecventa aparitiei valorilor din [ai−1 , ai ), (i = 1, 2, . . . , r)), fi = n.
i=1
Asadar, daca ne sunt data o insiruire de date ale unei caracteristici discrete sau continue, atunci le
putem grupa imdiat in tabele sau tablouri de frecvente. Invers (avem tabelul sau tabloul de repartitie si
vrem sa enumeram datele) nu este posibil decat in cazul unei caracteristici de tip discret. De exemplu,
daca ni se da tabelul 1.3, ce reprezinta rata somajului intr-o anumita regiune a tarii pe categorii de
varste, nu am putea sti cu exactitate varsta exacta a persoanelor care au fost selectionate pentru studiu.
Observam ca acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare
de mijloc pentru o clasa, valoarea obtinuta prin media valorilor extreme ale clasei. In cazul tabelului
1.3, valorile de mijloc sunt scrise in coloana cu varsta medie. Frecventa cumulata a unei clase este suma
frecventelor tuturor claselor cu valori mai mici.
12
Vom numi o serie de timp (sau serie dinamica ori cronologica) un tablou de forma
x1 x2 ... xn
data : ,
t1 t2 ... tn
unde valorile xi sunt variabile de raspuns, iar ti momente de timp (e.g., seria de raspunsuri pe care le
citeste un electrocardiograf).
Un tabel de frecvente sau o distributie de frecvente (absolute sau relative) sunt de cele mai multe ori
baza unor reprezentari grace, pentru o mai buna vizualizare a datelor. Aceste reprezentari pot
Este folosita pentru selectii de dimensiuni mici. Sunt reprezentate puncte asezate unul peste celalalt,
reprezentand numarul de aparitii ale unei valori pentru caracteristica data. Un astfel de grac este
0.6
0.4
0.2
0
5 6 7 8 9 10
Sa presupunem ca urmatoarele date sunt punctajele (din 100 de puncte) obtinute de cei 20 de elevi ai
50 55 59 61 62 64 68 68 73 75 77 77 77 79 81 85 96 86 92 96
Tabelul 1.4 reprezinta aceste date sub forma stem-and-leaf (ramura-frunza). Se observa ca acest tabel
arata atat cum sunt repartizate datele, cat si forma repartitiei lor (a se privi gracul ca avand pe OY
drept axa absciselor si OX pe cea a ordonatelor). Asadar, 7|5 semnica un punctaj de 75.
steam leaf
9 26
8 1566
7 357779
6 12488
5 059
Este utila pentru reprezentarea variabilelor discrete cu un numar mic de valori diferite. Barele sunt
dreptunghiuri ce reprezinta frecventele si nu sunt unite intre ele. Fiecare dreptunghi reprezinta o
singura valoare. In Figura 1.21 sunt reprezentate datele din tabelul cu note.
bar(X, w); deseneaza vectorul X vs. 1:N (N este lungimea lui X ); w = latimea barelor.
De exemplu, comanda care produce primul grac din Figura 1.2 este:
Comanda Matlab urmatoare produce gracul din Figura 1.3, corespunzator datelor din tabelul 1.4:
barh(5:9,[3 5 6 4 2],.5)
Introducere în Statistic 15
1.4.4 Histograme
O histograma este o forma pictoriala a unui tabel de frecvente, foarte utila pentru selectii mari de
date de tip continuu. E un set de dreptunghiuri, ale caror numar este numarul de clase, latime este
intervalul clasei, iar inaltimea este asa incat aria ecarui dreptunghi reprezinta frecventa, asa incat aria
totala a tuturor dreptunghiurilor este egala cu numarul total de observatii. De exemplu, histograma
asociata tabelului cu varstele somerilor este cea reprezentata in Figura 1.22 . Comenzile MATLAB
vectorului Y .
De exemplu, codul care produce gracul al doilea din Figura 1.2 este:
Se poate desena distributia unei caracteristici folosind sectoare de disc, ecare sector de disc reprezen-
tand cate o frecventa relativa. Aceasta varianta este utila in special la reprezentarea datelor calitative.
Comanda MATLAB pentru un pie chart pentru un vector X este pie(X). De exemplu, comanda care
Nota 5
10% Nota 6
16% Nota 7
Nota 8
Nota 9
11% Nota 10
22%
16%
26%
Figure 1.4: Reprezentarea pe disc a frecventelor relative ale notelor din tabelul cu note
Chapter 2
Elemente de Teoria probabilit µilor
Numim experienta aleatoare (sau experiment aleator) orice act cu rezultat incert, care poate repetat
in anumite conditii date. Opusul notiunii de experiment aleator este experimentul determinist, sem-
nicand un experiment ale carui rzultate sunt complet determinate de conditiile in care acesta se
desfasoara. Rezultatul unui experiment aleator depinde de anumite circumstante intamplatoare ce pot
aparea. Exemple de experiente aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de
viata a unui individ, observarea vremii de a doua zi, observarea numarului de apeluri telefonice recep-
tionate de o centrala telefonica intr-un timp dat. Aplicarea experientei asupra unei colectivitati date
se numeste proba. Rezultatul potential al unei experiente aleatoare se numeste eveniment aleator. De
exemplu: aparitia unei duble (6, 6) la aruncarea a doua zaruri, extragerea unei bile albe dintr-o urna.
Se numeste caz favorabil pentru evenimentul aleator un caz in care respectivul eveniment se realizeaza.
Un eveniment aleator poate avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz
al lui Ω il vom nota cu ω . Vom numi evenimentul sigur, acel eveniment care se poate realiza in urma
oricarei experiente aleatoare. Evenimentul imposibil este acel eveniment ce nu se realizeaza in nicio
proba. Evenimentele aleatoare le vom nota cu A, B, C, . . . . Prin Ac vom nota evenimentul comple-
Pentru a putea cuantica sansele de realizare a unui eveniment aleator, s-a introdus notiunea de prob-
17
18
abilitate. Probabilitatea poate denita in 3 moduri diferite: denitia clasica, denitia statistica sau
In ce priveste probabilitatea clasica, aceasta este denita doar pentru cazul in care experienta aleatoare
are un numar nit de cazuri egal posibile. In acest caz, probabilitatea de realizare a unui eveniment este
raportul dintre numarul cazurilor favorabile realizarii evenimentului si numarul cazurilor egal posibile
Sa consideram o experienta aleatoare (e.g., aruncarea unui zar) al carei rezultat posibil este evenimen-
tul aleator A (e.g., aparitia fetei cu 6 puncte). Aceste experiment aleator il putem efectua de N ori in
conditii identice (spunem ca efctuam N probe ale experimentului), astfel incat rezultatul unei probe sa
(a) 0 ≤ fN ≤ 1;
(b) fN (Ω) = 1;
Mai mult, exista lim fN (A) si aceasta este denita ca ind probabilitatea de realizare a evenimen-
N →∞
tului A, notata P (A). Asadar, in cazul denitiei statistice a probabilitatii, aceasta este limita sirului
frecventelor relative de producere a respectivului eveniment cand numarul de probe tinde la innit
In cele ce urmeaza, vom deni notiunea de probabilitate din punct de vedere axiomatic. Aceasta ax-
iomatica a fost introduse de matematicianul rus A. N. Kolmogorov (1929) si are la baza teoria masurii.
Deniµia 2.1 Numim algebr sau câmp o colecµie F de submulµimi ale lui Ω astfel încât:
(a) ∅ ∈ F ;
Deniµia 2.3 Numim σ−algebr sau σ−câmp (sau corp borelian) o colecµie F de submulµimi ale lui
Ω astfel încât (a), (b) din deniµia anterioar sunt satisf cute ³i, în plus, avem
∞
[
(c') dac (An )n∈N ∈ F, atunci An ∈ F; (inchidere la reuniune numarabila) (2.2)
n=1
(5) Dac Ω e o mulµime nevid ³i F este o σ−algebr pe Ω, atunci perechea (Ω, F) se nume³te spaµiu
m surabil.
Deniµia 2.5 Fie F o colecµie de submulµimi ale lui Ω. Numim σ−algebr generat de F cea mai
Dac E e un spaµiu topologic, vom numi σ -algebr Borel, notat B(E), σ -algebra generat de familia
mulµimilor deschise din E , i.e. cea mai mic σ -algebr ce conµine deschi³ii lui E .
Dac E = Rd , atunci B(Rd ) (sau B d ) este σ -algebra generat de cuburile deschise din Rd . O mulµime
Deniµia 2.6 O funcµie P : (Ω, F) → R, care asociaza oricarui eveniment A ∈ F numarul real P (A),
cu proprietatile:
(a) P (A) ≥ 0, ∀A ∈ F;
(b) P (Ω) = 1;
[ \
(c) P (A B) = P (A) + P (B), ∀A, B ∈ F, A B = ∅,
20
se numeste probabilitate.
Aceasta este denitia axiomatica data de A. N. Kolmogorov. Un camp de evenimente (Ω, F) inzestrat
atunci P se va numi probabilitate σ− aditiva pe corpul borelian (Ω, F), iar (Ω, F, P ) se va numi camp
borelian de probabilitate.
card A
P (A) = (2.5)
card Ω
(2) In cazul in care conditia (b) din denitia probabilitatii lipseste, atunci spunem ca P deneste o
masura pe spatiul masurabil (Ω, F ), iar tripletul (Ω, F, P ) se va numi spatiu cu masura. O probabil-
itate este astfel un caz particular al notiunii de masura, in cazul in care masura intregului spatiu este
P (Ω) = 1.
Spunem c o proprietate are loc a.s. (aproape sigur) dac are loc întotdeauna, cu excepµia unei mulµimi
Principalul concept al teoriei probabilit µilor este spaµiu probabilistic sau câmp de probabilitate. In
cele ce urmeaza, cand ne vom referi la camp de probabilitate, vom intelege un triplet (Ω, F, P ), cu
urmatoarele proprietati:
(i) Ω este o mulµime abstract (mulµimea tuturor evenimentelor elementare ale unui experiment
stochastic);
(σ1 ) Ω ∈ F ;
(σ2 ) A ∈ F =⇒ Ac ∈ F ;
[
(σ3 ) ∀(An )n∈N ∈ F =⇒ An ∈ F ;
n∈N
(iii) P : F → R e o funcµie satisf cînd condiµiile:
(P1 ) P (Ω) = 1;
(P2 ) ∀A ∈ F , P (A) ≥ 0;
[ X
(P3 ) ∀(An )n∈N , An Am = ∅, ∀n 6= m, avem P ( P (An ).
T
An ) =
n∈N n∈N
Terminologie:
Denim o baz stochastic ca ind un qvadruplu (Ω, F, P, (Ft )t≥0 ), unde (Ω, F, P ) este un cîmp de
probabilitate complet în raport cu P (i.e. F conµine mulµimile P −nule), iar (Ft )t≥0 este o ltrare pe
F.
În general, lim inf An ⊆ lim sup An . În caz de egalitate vom spune c ³irul (An )n∈N are limit ³i vom
n→∞ n→∞
scrie
Observaµia 2.9 Din punct de vedere euristic, lim inf An reprezinta evenimentul care se realizeaza cand
n→∞
toate An se realizeaza, mai putin un numar nit. Pe de alta parte, lim sup An inseamna realizarea unei
n→∞
innitati de evenimente din sirul A1 , A2 , . . . .
∞
X
(i) Daca P (An ) < ∞, atunci P lim sup An = 0.
n→∞
n=1
∞
X
(ii) Daca P (An ) = ∞ si evenimentele {An }n sunt independente, atunci
n=1
P lim sup An = 1.
n→∞
S presupunem c am dispune de un procedeu prin care putem alege la întâmplare un punct dintr-un
interval [a, b]. În plus, vom presupune c acest procedeu ne asigur c nu exist porµiuni privilegiate
ale intervalului [a, b], i.e. oricare ar dou subintervale de aceea³i lungime, este la fel de probabil ca
punctul sa cad într-unul dintre intervale ca ³i celalalt. Dac am folosi de mai multe ori procedeul
pentru a alege un num r mare de puncte, acestea vor repartizate aproximativ uniform in [a, b],
i.e. nu vor exista puncte în vecinatatea c rora punctul ales sa cad mai des, ori de câte ori e ales.
De aici reiese c probabilitatea ca un punct sa cad într-un subinterval al lui [a, b] este dependent
de lungimea acelui subinterval ³i nu de poziµia sa în interiorul lui [a, b]. Este chiar proporµional cu
lungimea subintervalului.
Se poate observa analogia cu experienµa alegerii dintr-un num r de cazuri egal posibile.
Dac [a, b] e mulµimea cazurilor egal posibile ³i [c, d] ⊂ [a, b] este mulµimea cazurilor favorabile, atunci
În particular, daca x ∈ (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval sa coincid
cu un punct dinainte stabilit este zero ³i, astfel, întrez rim posibilitatea teoretic ca un eveniment sa
În mod cu totul analog, dac se ia la întâmplare un punct dintr-un domeniu planar D , astfel ca s
nu existe puncte sau porµiuni privilegiate, atunci probabilitatea ca punctul sa cad în subdomeniul
D0 ⊂ D este aria D 0
.
aria D
Observaµia 2.11 PB (A) astfel denit va o probabilitate pe F , iar tripletul (Ω, F, PB ) este un
camp de probabilitate.
Propoziµia 2.12 (a) (formula probabilit µilor totale) Fie (Bi )i∈I , (I ⊂ N) o partiµie a lui Ω, astfel
încît P (Bi ) > 0, ∀i ∈ I . Atunci
X
P (A) = P (Bi ) · PBi (A), ∀A ∈ F. (2.9)
i∈I
(b) (formula lui Bayes) În condiµiile de la (a) ³i, în plus, P (A) > 0, avem:
P (Bi ) · PBi (A)
PA (Bi ) = X , ∀i ∈ I. (2.10)
P (Bj ) · PBJ (A)
j∈I
numeroase astfel de functii, e.g., numerele ce apar la extragerea loto, numarul clientilor deserviti la un
anumit ghiseu intr-o anumita perioada, timpul de asteptare a unei persoane intr-o statie de autobuz
pana la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfarsitul alfabetului
În particular, dac :
Deoarece multimile {(−∞, x], x ∈ R} genereaza B(R), pentru ca X : (Ω, F, P ) → R sa e o v.a. reala
este sucient ca
∀x ∈ R, {ω ∈ Ω | X(ω) ≤ x} ∈ F. (2.13)
not
Vom utiliza notatiile {X ≤ x} = {ω ∈ Ω | X(ω) ≤ x} si, in general,
not
{X ∈ B} = {ω ∈ Ω | X(ω) ∈ B}
F(X) = {X −1 (B), B ∈ Bd }
este o σ−algebr , denumit σ−algebr generat de v.a. X . Astfel, σ(X) este cea mai mic sub−σ−algebr
Dac (Xn )n∈N este un ³ir de v.a. reale astfel încît Xk (ω) → X(ω), ∀ω ∈ Ω, atunci X este tot o v.a.
real .
Fie Xi : (Ω, F, P ) → (E, E), (i ∈ I) o familie de v.a.. Denim σ−algebra generat de familia
{Xi , i ∈ N}, notat σ(Xi , i ∈ I), cea mai mic σ−algebr pentru care Xi , i ∈ I , sunt m surabile.
Variabilele aleatoare pot lua o multime cel mult numarabila de valori (si le numim v.a. discrete) sau o
multime continua de valori (un interval nita sau innit din R), si le vom numi (v.a. de tip continuu).
Exemple de v.a. discrete: numarul fetei aparut la aruncarea unui zar, numarul de sosiri ale unui
tramvai intr-o statie intr-un anumit interval, numarul de erori aparute pana la primul succes etc. Din
clasa v.a. de tip continuu amintim: timpul de asteptare la un ghiseu pana la servire, pretul unui activ
X
X(ω) = xi χAi (ω), ∀ω ∈ Ω, J ⊂ N. (2.14)
i∈J
Elemente in Teoria probabilit µilor 25
n
[
Aici χA este funcµia indicatoare a mulµimii A, iar Ak = X −1 ({xk }). Observam cu usurinta ca Ai =
i=1
Aj = ∅, ∀i 6= j . Uneori, unei o v.a. discrete i se atribuie urmatorul tablou de repartitie:
\
Ω, Ai
xi
X: , (2.15)
pi
n
X
unde pi = P (X = xi ), i ∈ J ⊂ N, pi = 1. Spre exemplu, tabloul de repartitie pentru v.a. ce
i=1
reprezinta numarul de puncte ce apare la aruncarea unui zar ideal este:
1 2 3 4 5 6
,
1/6 1/6 1/6 1/6 1/6 1/6
O v.a. X reala se nume³te de tip continuu dac ∃f : Rd → R m surabil Borel ce îndepline³te condiµiile:
In continuare, vom deni cele mai importante caracteristici functionale si numerice ale unei variabile
Repartiµia
unde
dac a ∈ B
1,
δa (B) =
0, în rest
Numim funcµie de repartiµie atasata v.a reale X o funcµie F : R → [0, 1], dat prin
F (x) = P (X ≤ x).
Astfel, F (x) = PX ((−∞, x]), adica este repartitia multimii (−∞, x].
F ((x1 , x2 , . . . , xd )) = P (X1 ≤ x1 ; X2 ≤ x2 ; . . . , Xd ≤ xd ).
In cazul unei variabile aleatoare discrete, cu tabloul de repartitie dat de (2.15), functia sa de repartitia
Daca X este o variabila aleatoare continua si f este densitatea sa de repartitie, atunci functia de
Observaµia 2.13 Uneori, avem de calculat evenimentul P (X > x), pentru un x ∈ R dat. Numim
F (x), ∀x ∈ R.
Elemente in Teoria probabilit µilor 27
Funcµia caracteristic
X X
φX (t) = ei t xk pk , daca X = xk χAk , (X = discreta)
k∈J k∈J
Z
φX (t) = ei t x f (x) dx, daca X = variabila aleatoare continua.
R
• |φX (t)| = 1, ∀t ∈ R;
• φa X (t) = φX (a t), ∀t ∈ R, a ∈ R;
• φX (−t) = φX (t), ∀t ∈ R;
Functia de probabilitate (en., probability distribution function) pentru o variabila aleatoare discreta
este similara densitatii de repartitie pentru o variabila aleatoare continua. Intr-adevar, proprietatile
f (xi ) ≥ 0, ∀i ∈ J,
n
X
f (xi ) = 1.
i=1
28
1. Media
Deniµia 2.14
X
Daca X este o v.a. de tip discret, X(ω) = xi χAi (ω), ∀ω ∈ Ω, J ⊂ N, atunci
i∈J
media aceste v.a. se deneste ca ind:
X
E(X) = xi P (Ai ). (2.20)
i∈J
Deniµia 2.15 Daca X este o v.a. de tip continuu, cu densitatea de repartitie f : R → R, atunci
media acestei v.a., daca exista (!) (nu toate v.a. de tip continuu admit medie - vezi repartitia Cauchy),
se deneste astfel:
Z
E(X) = xf (x)dx, (daca aceasta integrala exista). (2.21)
R
Observaµia 2.16 Denitia mediei poate data intr-un cadru mult mai general, folosind integrala
Lebesque. Aceasta integrala este generalizarea integralei Riemann. Sumarizam mai jos, gradual si fara
n
Pas 1: xi χAi (ω) se nume³te v.a. simpl . Pentru v.a. simpl X denim
X
O v.a. X cu X(ω) =
i=1
media (notat cu E(X)) astfel:
Z n
not
X
E(X) = X(ω) dP (ω) = xi P (Ai ).
Ω i=1
încît
³i
Denim
ori de cîte ori m car una dintre E(X + ) ³i E(X − ) este nit . Cînd ambele sunt nite, atunci spunem
prin
R. Atunci Z
E(g(X)) = g(x)f (x) dx.
Rd
si astfel redescoperim denitia mediei unei v.a. de tip continuu din Denitia 2.15.
Relatia anterioara se mai numeste si formula de transport pentru integrala, deoarece integrala abstracta
pe multimea Ω este "transportata" intr-o integrala Riemann pe R.
Daca X este o variabila aleatoare si X = X − E(X) (numita abaterea lui X de la media sa), atunci
E(X) = 0. Asadar, nu putem masura gradul de impreastiere a valorilor lui X in jurul mediei sale doar
calculand X − E(X). Avem nevoie de o alta masura. Aceasta este dispersia variabilei aleatoare.
Deniµia 2.18
X
Daca X este o v.a. discreta, X(ω) = xi χAi (ω), ∀ω ∈ Ω, J ⊂ N, cu media
i∈J
E(X) = m, denim dispersia lui X ca ind:
X
D2 (X) = (xi − m)2 pi , unde pi = P (Ai ), ∀i ∈ J. (2.22)
i∈J
30
Deniµia 2.19 Fie X : Ω → R o v.a. de tip continuu pentru care media poate denita (∃ E(X) =
Observaµia 2.20 Dispersia scrisa ca integrala abstracta (vezi propozitia anterioara) este:
Z
2
σ = (X(ω) − m)2 dP (ω).
Ω
√
Abaterea standard este cantitatea σ = σ 2 .
3) Momente
X
Pentru o v.a. X de tip discret, X(ω) = xi χAi (ω), ∀ω ∈ Ω, J ⊂ N,
i∈J
cu E(X) = m si pi = P (Ai ), i ∈ J , denim momentele:
X
αk (X) = E(X k ) = xki pi (momente iniµiale de ordin k);
i∈J
X
βk (X) = E(|X|k ) = |xi |k pi (momente absolute de ordin k);
i∈J
X
µk (X) = E((X − m)k ) = (xi − m)k pi (momente iniµiale centrate de ordin k);
i∈J
X
k
γk (X) = E(|X − m| ) = |xi − m|k pi (momente absolute centrate de ordin k);
i∈J
Pentru o v.a. X de tip continuu ce admite medie m = E(X) < ∞, denim momentele:
Z Z
k k
αk (X) = E(X ) = x f (x) dx = X k dP (momente iniµiale de ordin k);
ZR ΩZ
(a) βr (X + Y ) ≤ cr (βr (X) + βr (Y )), unde cr = 1 pentru r ∈ (0, 1] ³i cr = 2r−1 pentru r > 1.
(c) E|XY | ≤ (E|X|r )1/r (E|Y |s )1/s , ∀r, s > 1, r −1 + s−1 = 1; (H ölder);
βp (X)
P ({|X| ≥ a}) ≤ ; (M arkov)
ap
În particular, pentru p = 2 si X e inlocuit cu variabila aleatoare (X − m), (m = E(X)), obµinem:
σ2
P ({|X − m| ≥ a}) ≤ . (Cebsev) (2.24)
a2
Daca in inegalitatea lui Cebîsev luam = kσ , unde k ∈ N, atunci obtinem:
1
P ({|X − m| ≥ kσ}) ≤ , (2.25)
k2
sau, echivalent:
1
P ({|X − m| < kσ}) ≥ 1 − .
k2
In cazul particular k = 3, obtinem inegalitatea celor 3σ :
1
P ({|X − m| ≥ 3σ}) ≤ ≈ 0.1.
9
sau
8
P ({m − 3σ < X < m + 3σ}) ≥ , (2.26)
9
semnicand ca o mare parte din valorile posibile pentru X se aa in intervalul [m − 3σ, m + 3σ].
X −m
Deniµia 2.21 Variabila aleatoare X = se numeste variabila aleatoare standardizata (sau
σ
normata).
E(X) = 0, D2 (X) = 1.
sumei X + Y , obtinem:
D2 (X + Y ) = E[(X + Y − (mX + mY )2 )]
Deniµia 2.22 Media E[(X − mX )(Y − mY )] se numeste corelatia (sau covarianta) v.a. X si Y si o
notam cu cov(X, Y ).
X si Y . Notam astfel:
cov(x, Y )
ρ(X, Y ) = cov(X, Y ) = . (2.28)
σX σY
Observaµia 2.25 (a) Daca X si Y sunt independente (vezi sectiunea urmatoare), atunci
ρ(X, Y ) = 0.
Elemente in Teoria probabilit µilor 33
Conceptul de independenµ a v.a. sau a evenimentelor este foarte important din punctul de vedere al
ment pentru care P (B) > 0. Evenimentele A si B sunt independente daca probabilitatea lui A este
echivalent cu T
P (A B)
= P (A).
P (B)
Putem rescrie ultima egalitate sub forma simetrica:
\
P (A B) = P (A) · P (B). (2.30)
Deoarece in relatia (2.30) nu mai este nevoie de conditie suplimentara pentru P (B), este preferabil sa
Doua evenimente, A, B ∈ F se numesc independente (stochastic) daca relatia (2.30) are loc.
\ \ \
P (Ai1 Ai1 ··· Aik ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Aik ). (2.31)
(ii) Spunem ca evenimentele A1 , A2 , . . . , An sunt independente doua cate doua dac pentru oricare
\
P (Ai Aj ) = P (Ai ) · P (Aj )). (2.32)
34
Observaµia 2.28 Independenta doua cate doua a evenimentelor nu implica independenta in ansamblu.
Consideram aruncarea a doua monede ideale. Fie A evenimentul ca "fata ce apare la prima moneda
este stema", B evenimentul ca "fata ce apare la a doua moneda este stema", iar C evenimentul ca
"doar la o moneda din cele doua a aparut fata cu stema". Se observa cu usurinta ca evenimentele A,
Totodata, mai observam ca oricare doua dintre ele determina in mod unic pe al treilea. Asadar,
independenta doua cate doua nu implica independenta celor trei evenimente in ansamblu, fapt observat
si din relatia
\ \ 1
0 = P (A B C) 6= P (A) · P (B) · P (C) = .
8
Deniµia 2.29 Dac {Mi , i ∈ I ⊂ N}, cu Mi ⊂ F , este o familie de σ−corpuri, atunci spunem
ca acestea sunt independente (stochastic) dac pentru orice submultime nita J ⊂ I ³i pentru orice
\ Y
P( Aj ) = P (Aj ). (2.34)
j∈J j∈J
Deniµia 2.30 (1) Spunem ca v.a. (Xi )i∈I : (Ω, F) → R, (I ⊂ N), sunt independente (in ansamblu)
dac σ−corpurile generate de Xi , {σ(Xi )}i∈I , formeaz o familie de σ−corpuri independente.
(2) Spunem ca v.a. (Xi )i∈I : (Ω, F) → R, (I ⊂ N), sunt independente doua cate doua dac oricare
ar doua variabile aleatoare din aceasta familie, acestea sunt independente in sensul denitiei de la
(1).
Observaµia 2.31 Denitia variabilelor aleatoare independente (in ansamblu) este echivalenta cu:
ansamblu.
Exemplu 2.32 Sa consideram aruncarea unui zar. Aruncam zarul de doua ori si notam cu X1 ,
respectiv, X2 , v.a. ce reprezinta numarul de puncte aparute la ecare aruncare. Evident, valorile
Xi : Ω → {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:
\ 1
P {X1 = i} {X2 = j} = P ({X1 = i, X2 = j}) =
36
= P ({X1 = i}) · P ({X2 = j}), ∀i, j ∈ {1, 2, 3, 4, 5, 6},
(iii) F(X1 , X2 ,..., Xn ) (x1 , x2 , . . . , xn ) = FX1 (x1 ) · FX2 (x2 ) · . . . · FXn (xn ), ∀x1 , x2 , . . . , xn ∈ R;
(iv) φ(X1 , X2 ,..., Xn ) (t) = φX1 (t1 ) · φX2 (t2 ) · . . . · φXn (tn ), ∀t = (t1 , t2 , . . . , tn ) ∈ Rn . (2.36)
Doua dintre dintre cele mai importante proprietati ale v.a. independente sunt urmatoarele:
E(|Xk |) < ∞, ∀k = 1, 2, . . . , n,
D2 (Xk ) < ∞, ∀k = 1, 2, . . . , n,
In dreptul ecarei repartitii, in paranteza, apare numele Matlab, cu ajutorul caruia aceasta repartitie
este apelata.
1
P (X = k) = , k = 1, 2, . . . , n.
n
n+1 n2 −1
E(X) = 2 , D2 (X) = 12 .
Exemplu: numarul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizata
U(6).
Scriem X ∼ B(1, p). V.a. de tip Bernoulli poate lua doar dou valori, X = 1 (succes) sau X = 0
Scriem X ∼ B(n, p) (schema bilei revenite) (n > 0, p ∈ (0, 1)), dac valorile lui X sunt {0, 1, . . . , n},
cu probabilitatile
P (X = k) = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n.
Elemente in Teoria probabilit µilor 37
Valorile sale reprezinta numarul evenimentelor spontane (cu intensitatea λ) realizate intr-un anumit
interval de timp.
Pentru un λ > 0, spunem c X ∼ P(λ) (legea evenimentelor rare) dac X ia valori naturale, cu
probabilitatile
λk
P (X = k) = e−k , ∀k ∈ N.
k!
E(X) = λ; D2 (x) = λ.
Valorile sale reprezinta numarul de insuccese avute pân la obµinerea primului succes,
1−p 1−p
E(X) = ; D2 (X) = .
p p2
Observaµia 2.36 Daca X ∼ Geo(p), atunci variabila aleatoare Y = X + 1 reprezinta asteptarea pana
la primul succes.
Valorile sale reprezinta numarul de insuccese obtinute inainte de a se realiza succesul de rang m.
probabilitatile
m−1
P (X = k) = Cm+k−1 pm (1 − p)k , ∀k ≥ m, p ≥ 0.
m(1 − p) m(1 − p)
E(X) = ; D2 (X) = .
p p2
a+b (b − a)2
E(X) = , D2 (X) = .
2 12
1 (x−µ)2
f (x; µ, σ) = √ e− 2σ2 , x ∈ R.
σ 2π
Elemente in Teoria probabilit µilor 39
E(X) = µ ³i D2 (X) = σ 2 .
Se mai nume³te ³i repartiµia gaussian . În cazul µ = 0, σ 2 = 1 densitatea de repartiµie devine:
1 x2
f (x) = √ e− 2 , x ∈ R. (2.39)
2π
x−µ
F (x) = Θ( ). (2.41)
σ
Este utila in Matematicile Financiare, reprezentand o distributie de preturi viitoare pentru un activ
nanciare.
Dac X ∼ N (µ, σ), atunci Y = eX este o v.a. nenegativ , avînd densitatea de repartiµie
(ln x−µ)2
1
√ e− 2σ 2 , dac x > 0
xσ 2π
f (x; µ, σ) =
0 , dac xleq0
2 2
Media ³i dispersia sunt date de E(X) = eµ+σ /2 , D2 (X) = e2µ+σ (eσ − 1)..
A³adar, Y ∼ logN (µ, σ) daca ln Y ∼ N (µ, σ).
Valorile sale sunt timpi realizati intre doua valori spontane repartizate P(λ).
1 1
E(X) = ³i D 2 (X) = 2 .
λ λ
Repartiµia exponenµial are proprietatea a³a-numitei lipsa de memorie, i.e.:
Este unica distribuµie continu cu aceast proprietate. Distribuµia geometric satisface o variant dis-
a a
E(X) = , D2 (X) = 2 .
λ λ
Aceasta repartitie este asemanatoare cu repartitia exponentiala (aceasta obtinandu-se in cazul par-
ticular k = 1) si poate modela repartitia marimii particulelor. Cand k = 3.4, distributia Weibull
este asemanatoare cu cea normala. Cand k → ∞, aceasta repartitie se apropie de functia lui Dirac.
1
E(X) = λΓ 1 + .
k
(7) Repartiµia χ2 , χ2 (n) (chi2)
O v.a. X ∼ χ2 (n) (se citeste repartitia hi-patrat cu n grade de libertate) daca densitatea sa
de repartitie este:
n x
1
x 2 −1 e− 2 , daca x > 0,
n
Γ( n )2 2
f (x; n) = 2
0, daca x ≤ 0.
(b) Daca v.a. independente Xk ∼ N (0, 1) pentru k = 1, 2, . . . , n, atunci (vezi Propozitia 5.30):
n 2n2 (n + m − 2)
E(X) = , D2 (X) = .
n−2 m(n − 2)2 (n − 4)
42
λ
f (x; λ, µ) = , x ∈ R.
π[(x − µ)2 + λ2 ]
sa gasim densitatea de repartitie pentru g(X). Sa notam cu DY = {x ∈ R; g(x) ≤ y}. Putem scrie:
not
{Y ≤ y} = {g(X) ≤ y} = {ω ∈ Ω, X(ω) ∈ DY } ( = {X ∈ DY }).
Atunci,
FY (y) = P (X ∈ DY ),
Z
= fX (x) dx. (2.42)
DY
not
Daca g(x) este bijectiva si x = h(y) = g −1 (y), atunci densitatea de repartitie a lui Y este data de:
dh(y)
fY (y) = fX (h(y))
. (2.43)
dy
g(x) = ax + b, a 6= 0.
Daca fX (x) este densitatea de rapartitie a unei variabile aleatoare X , atunci densitatea de repartitie
Daca f (x) este densitatea de repartitie a lui X si g(y) este densitatea de repartitie a lui Y , iar X, Y
Invers, daca h(x, y) este densitatea de repartitie a vectorului bidimensional V = (X, Y ), atunci den-
Urmatoarea propozitie determima care este densitatea de repartitie a unei functii de un vector aleator
unde
D(x1 , x2 )
x1 = τ1 (y1 , y2 ), x2 = τ2 (y1 , y2 ), |J| = .
D(y1 , y2 )
Observaµia 2.41 Putem apoi determina si densitatile de repartitie marginale pentru Y1 si Y2 . Astfel,
aceste formule au ca aplicatii determinarea formulei densitatii de repartitie pentru suma, produsul,
y2 = x2 .
44
x2 = y2 = τ2 (y1 , y2 ).
X1
Avem |J| = |y1 |, si aam densitatea de repartitie a catului X ,
2
Z∞
f X1 (u) = f (u v, v) |u| dv.
X2
−∞
dispersia σ 2 nite.
a.s.
(1) Xn converge aproape sigur la X (notat Xn −→ X ) dac
P ( lim Xn = X) = 1,
n→∞
echivalent cu relatia
prob
(2) Xn converge in probabilitate la X (notat Xn −→ X ), dac
Lr
(3) Xn converge in medie de ordin r la X (notat Xn −→ X ), dac
Z
lim |Xn (ω) − X(ω)|r dP (ω) = 0,
n→∞ Ω
echivalent cu
Z
lim |xn − x|r f (x)dx = 0.
n→∞ R
rep
(4) Xn converge in repartitie la X (notat −→ X, sau Xn ⇒ X ) dac
a.s. prob
(a) Xn −→ X implic Xn −→ X.
Lr prob
(b) Xn −→ X implic Xn −→ X (din inegalitatea lui Markov).
prob
(c) Xn −→ X implic Xn ⇒ X.
funcµie caracteristic .
a unui anumit experiment aleator. Putem modela repetitia acestui experiment prin introducerea unui
³ir de v.a., (Xn )n∈N : (Ω, F, P ) → R. Ne-am dori ca acest sir sa detina aceeasi informatie (din punct
Daca, in plus, presupunem ca v.a. din sirul de mai sus sunt independente stochastic, atunci putem
privi acest sir de v.a. ca un model pentru repetari independente ale experimentului in aceleasi conditii.
Desi avem de-a face cu un sir de functii cu ce iau valori intamplatoare, suma unui numar sucient de
n
X
Teoremele limit clasice descriu comportarea asimptotic a sumei Sn = Xk , potrivit normalizat .
k=1
Spunem ca sirul (Xn )n urmeaza legea slaba (respectiv, tare) a numerelor mari daca:
Sn − E(Sn ) prob Sn − E(Sn ) a.s.
−→ 0, (respectiv, −→ 0), (n → ∞)
n n
(i) toate Xn admit momente absolute de ordin 2 (i.e., β2 (Xn ) < ∞);
1 2
(ii) lim D (Sn ) = 0,
n→∞ n2
Sn − E(Sn ) prob
atunci −→ 0, (n → ∞)
n
Sn
Demonstraµie. Conform inegalitatii lui Cebîsev aplicate variabilei aleatoare , avem:
n
Sn Sn 1 2 Sn 1 1
P(
−E ≥ ≤ 2D = 2 2 D2 (Sn ) → 0, cand n → ∞.
n n n n
Observaµia 2.47 In plus, daca Xn sunt identic repartizate, cu E(Xn ) = m, ∀n ∈ N, atunci concluzia
anterioara devine:
Sn prob
−→ m.
n
Astfel, teorema ne spune ca, desi variabilele aleatoare independente pot lua valori departate de medi-
ile lor, media aritmetica a unui numar sucient de mare de astfel de variabile alatoare ia valori in
fac N experiente independente. Daca νN este numarul de realizari ale lui A din cele N experiente
efectueaza o selectie de volum mare N si se obtin νN cazuri favorabile, atunci putem arma ca, a.s.,
probabilitatea evenimentului cercetat este egala cu frecventa relativa.
Elemente in Teoria probabilit µilor 47
νN
Aplicand inegalitatea lui Cebîsev variabilei aleatoare , obtinem:
N
D2 νNN
ν ν
N N
P −E < ≥1− ,
N N 2
echivalent cu
ν
N
p(1 − p)
P − p < ≥ 1 − ,
N N 2
de unde concluzia dorita.
doua cate doua si identic repartizate, atunci sirul (Xn )n urmeaza legea slaba a numerelor mari.
Fie E(Xn ) = m, ∀n ∈ N∗ . Atunci sirul (Xn )n satisface legea tare a numerelor mari, adica:
n
1X a.s
Xk −→ m, (n → ∞). (2.48)
n
k=1
Observaµia 2.51 Concluzia legii slabe a numerelor mari se mai poate scrie si sub forma:
X1 + X2 + · · · + Xn
P lim =m = 1.
n→∞ n
n
!
1 X
√ Xk − nm ⇒ Y ∼ N (0, 1), pentru n → ∞.
σ n
k=1
48
Observaµia 2.53 (a) Teorema TLC ne spune ca, daca avem un sir de v.a. independente stochastic si
Sn − nm
Sn = √ (2.49)
σ n
(c) TLC ne permite s aproxim m sume de v.a. identic repartizate, avînd orice tip de repartitii (atît
timp cît variaµia lor e nit ), cu o v.a. normal . Un exemplu ar aproximarea repartiµiei normale cu
repartiµia binomial cînd numarul de încercari e foarte mare (vezi teorema lui de Moivre-Laplace de
mai jos).
Se pune problema: Cat de mare ar trebui sa e n, in practica, pentru ca teorema limita centrala sa e
aplicabila? Daca variabilele aleatoare {Xk }k sunt deja normal repartizate, atunci teorema aproximarea
sumei standardizate cu o variabila normala este, de fapt, o egalitate, ind adevarata pentru orice
n ∈ N∗ . Daca {Xk }k nu sunt normal repartizate, atunci un numar n astfel incat n > 30 ar sucicient
pentru aproximarea cu repartitia normala desi, daca repartitia lui Xk este simetrica, aproximarea ar
(d) Legea tare a numerelor mari e foarte util în metode de simulare tip Monte Carlo.
Observaµia 2.55 Asadar, daca parametrul n este sucient de mare, atunci o variabila aleatoare bi-
1 1
P (X = k) = P (k − <X <k+ )
2 2 !
k − 12 − np X − np k + 21 − np
= P √ < √ < √
npq npq npq
! !
k + 12 − np k − 12 − np
= Θ √ −Θ √ .
npq npq
unde Φ si Θ sunt denite in (2.39) si (2.40), respectiv. Termenul 12 din (2.54) este folosit ca o valoare
de ajustare cand se face aproximarea unei variabile aleatoare discrete cu una continua. Mai putem
scrie si: !
k + 12 − np
P (X ≤ k) = Θ √ , (2.54)
npq
Exerciµiu 2.56 O moneda ideala este aruncata de 100 de ori, iar X este variabila aleatoare ce reprez-
- (a) Avem de calculat P = P (X = 52). Insa X este o variabila aleatoare distribuita B(100, 0.5),
= FX (55) − FX (44)
X55
k
= C100 · (0.5)k · (0.5)100−k = 0.7287.
k=45
Exerciµiu 2.57 (a) In magazinul de la coltul strazii intra in medie 20 de clienti pe ora. Stiind ca
numarul clientilor pe ora este o variabila aleatoare repartizata Poisson, sa se determine care este prob-
(b) Care este probabilitatea ca, intr-o anumita zi de lucru (de 10 ore), in magazin sa intre cel putin
200 de clienti? Calculati aceasta probabilitate in doua moduri: folosind functia de repartitie Poisson
si folosind aproximarea cu repartitia normala.
10
X
unde Xk ∼ P(200). Aproximand cu repartitia normala, gasim ca
k=1
199 + 0.5 − 200 −0.5
P2 = 1 − Θ √ =1−Θ √ = 0.5141.
200 200
In Matlab, aceste probabilitati pot calculate folosind codul din Exercitiul 3.16 din capitolul urmator.
52
Exerciµiu 2.1
Exerciµiu 2.2
Exerciµiu 2.3
Exerciµiu 2.4
Exerciµiu 2.5
Exerciµiu 2.6
Exerciµiu 2.7
Exerciµiu 2.8
Exerciµiu 2.9
Exerciµiu 2.10
Chapter 3
Experienµe aleatoare în Matlab
3.1 Scurta introducere în Matlab
MATLAB este un pachet de programe de înalta performanta, dedicat calculului numeric si reprezen-
tarilor grace în domeniul stiintei si ingineriei. Elementul de baza cu care opereaza Matlab-ul este
matricea (MATrix LABoratory). Matlab este un software standard în mediile universitare, precum si
în domeniul cercetarii si rezolvarii practice a problemelor legate de procesarea semnalelor, identicarea
sistemelor, calculul statistic, prelucrarea datelor experimentale, matematici nanciare, matematici apli-
cate in diverse domenii etc. Cea mai importanta caracteristica a Matlab-ului este usurinta cu care
poate extins. La programele deja existente in Matlab, utilizatorul poate adauga propriile sale co-
duri, dezvoltând aplicatii specice domeniului în care lucreaza. Matlab-ul include aplicatii specice,
numite Toolbox-uri. Acestea sunt colectii extinse de functii Matlab (siere M) care dezvolta mediul
de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate. Structural,
Matlab-ul este realizat sub forma unui nucleu de baza, cu interpretor propriu, în jurul caruia sunt
construite toolbox-urile.
Prezentam mai jos o scurta introducere in Matlab a principalelor functii si comenzi folosite in aceasta
lucrare. Pentru o tratare mai detaliata, puteti consulta un manual de utilizare. De asemenea, tastand
demo, puteti urmari o demonstratie a principalelor facilitati din Matlab, cat si a pachetelor de functii
(toolbox) de care ati putea interesati. Dintre acestea, amintim Statistics Toolbox, care este o colectie
de functii folosite pentru analiza, modelarea si simularea datelor. Contine: analiza gracelor (GUI),
diverse repartitii probabilistice (beta, binomiala, Poisson, hi-patrat), generarea numerelor aleatoare,
53
54
• Comenzile Matlab pot scrise in siere cu extensia .m, ce urmeaza apoi a compilate. Un
sier-M consta dintr-o succesiune de instructiuni, cu posibilitatea apelarii altor siere-M precum
>> a = sqrt((sqrt(5)+1)/2)
Matlab deneste o variabila de memorie a, careia ii atribuie valoarea
a =
1.2720
• Variabilele sunt denite cu ajutorul operatorului de atribuire, =, si pot utilizate fara a declara
de ce tip sunt. Valoarea unei variabile poate : o constanta, un sir de caractere, poate reiesi din
• Pentru a gasi informatii imediate despre vreo functie predenita, comanda help va vine in ajutor.
De exemplu,
• Comanda help poate utilizata doar daca se cunoaste exact numele functiei. Altfel, folosirea
comenzii lookfor este recomandata. De exemplu,
lookfor length
si gasim:
• Denirea matricelor se poate face prin introducerea explicita a elementelor sale sau prin instruc-
tiuni si functii. La denirea explicita, trebuie tinut cont de urmatoarele: elementele matricei sunt
cuprinse intre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spatii libere sau
>> A = [1 2 3; 4, 5, 6]
deneste matricea
A =
1 2 3
4 5 6
• Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j) (elementele de
coloana j ) sau A(i,:) (elementele de linia i);
de ordin n.
• Dupa cum vom vedea mai jos, Matlab permite denirea unor functii foarte complicate prin
scrierea unui cod. Daca functia ce o avem de denit este una simpla, atunci avem varianta
utilizarii comenzii inline. Spre exemplu, denim functia f (x, y) = e5x sin 3y :
>> f = inline('exp(5*x).*sin(3*y)')
f =
Inline function:
f(x,y) = exp(5*x).*sin(3*y)
Putem apoi calcula f (7, π) prin
>> f(7,pi)
0.5827
• Un program Matlab poate scris sub forma sierelor script sau a sierelor de tip functie.
Ambele tipuri de siere sunt scrise in format ASCII. Aceste tipuri de siere permit crearea unor
56
noi functii, care le pot completa pe cele deja existente. Un sier script este un sier extern care
contine o secvena de comenzi MATLAB. Prin apelarea numelui sierului, se executa secventa
Matlab continuta in acesta. Dupa executia completa a unui sier script, variabilele cu care
acesta a operat raman in zona de memorie a aplicatiei. Fisierele script sunt folosite pentru
rezolvarea unor probleme care cer comenzi succesive atat de lungi, incat ar putea deveni greoaie
Fisierele functie
Matlab creaza cadrul propice extinderii functiilor sale, prin posibilitatea crearii de noi siere. Astfel,
daca prima linie a sierului .m contine cuvantul function, atunci sierul respectiv este declarat ca
ind sier functie. Variabilele denite si manipulate in interiorul sierului functie sunt localizate la
nivelul acesteia. Prin urmare, la terminarea executiei unei functii, in memoria calculatorului nu raman
decat variabilele de iesire ale acesteia. Forma generala a primei linii a unui sier este:
function[param_iesire] = nume_functie(param_intrare)
unde:
• nume_functie este numele functiei, care este totuna cu numele sub care se salveaza sierul;
Comenzile si functiile care sunt utilizate de noua functie sunt înregistrate intr-un sier cu extensia .m.
Exerciµiu 3.1 Fisierul medie.m calculeaza media aritmetica a sumei patratelor componentelor unui
function m2 = medie(X)
n = length(X); m2 = sum(X.^2)/n;
Experienµe aleatoare în Matlab 57
Numerele generate de Matlab sunt rezultatul compilarii unui program deja existent in Matlab,
asadar el vor pseudo-aleatoare. Putem face abstractie de modul programat de generare ale acestor
Functia rand
simuleaza aruncarea unei monede ideale. Mai putem spune ca numarul X astfel generat este un
• De asemenea, numarul
urmeaza repartitia B(10, 0.5) (simularea a 10 aruncari ale unei monede ideale).
! Printr-o generare de numere aleatoare uniform distribuite în intervalul (a, b) înµelegem numere
aleatoare care au aceea³i ³ans de a oriunde în (a, b), ³i nu numere la intervale egale.
Figura 3.1 reprezinta cu histograme date uniform distribuite in intervalul [−2, 3], produse de comanda
Matlab:
hist(5*rand(1e4,1)-2,100)
58
Functia randn
• Comanda m + σ ∗ randn genereaza un numar aleator repartizat normal N (m, σ). De exemplu,
codul urmator produce Figura 3.2:
x = 0:0.05:10;
y = 5 + 1.1*randn(1e5,1); %% date distribuite N(5,1.1)
hist(y,x)
Comenzile Matlab
legernd(<param>, m, n)
Experienµe aleatoare în Matlab 59
250
200
150
100
50
0
0 2 4 6 8 10
si
Oricare dintre cele doua comenzi genereaza o matrice aleatoare, cu m linii si n coloane, avand compo-
nente numere aleatoare ce urmeaza repartitia lege. In loc de lege putem scrie oricare dintre expresiile
Propoziµia 3.2 Fie X este o variabila aleatoare de o repartitie data, pentru care functia sa de repar-
titie, F (x), este continua si strict crescatoate, in orice punct in care aceasta nu este 0 sau 1. Fie U
60
o variabila aleatoare repartizata U(0, 1). Atunci, variabila aleatoare Y = F −1 (U ) urmeaza aceeasi
repartitie ca si X .
FY (x) = P (Y ≤ x) = P (F −1 (U ) ≤ x)
Propoziµia 3.3 Fie X o variabila aleatoare ca in propozitia precedenta. Daca {U1 , U2 , . . . , Un } sunt
variabile aleatoare independentic stochastic si identic repartizate U(0, 1), atunci {F −1 (U1 ), F −1 (U2 ),
Exerciµiu 3.4 Fie variabila aleatoare X ∼ exp(λ), pentru care stim ca functia sa de repartitie este
F : R −→ [0, 1] si F −1 este:
−λ ln(1 − u) , u ∈ (0, 1);
F −1 (u) =
0 , altfel.
Atunci, daca {u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate in [0, 1], avem ca {F −1 (u1 ),
In Figura 3.3 am reprezentat grac o doua selectii de volum 100 de numere aleatoare repartizate
exp(5); una generata prin metoda functiei de repartitie inverse, cealalta generata de functia Matlab
predenita exprnd. Functia Matlab care genereaza gura este prezentata mai jos.
Apelarea functiei se face prin tastarea in fereastra de lucru in Matlab a comezii expsel(5).
Sunt functii folosite pentru generarea de numere aleatoare intregi. De exemplu, functia floor(x) este
floor(11*rand(20,1));
ceil(11*rand(20,1));
genereaza ecare cate 20 de numere intregi intre 0 si 10, distribuite uniform discret. Diferenta dintre
cele doua functii este ca floor(x) face rotunjirea la numarul intreg aat la stanga lui x, pe cand
Matlab-ul include aplicatii specice, numite Toolbox-uri. Acestea sunt colectii extinse de functii
Matlab (siere-m) care dezvolta mediul de programare de la o versiune la alta pentru a rezolva
probleme din domenii variate. Statistics Toolbox reprezinta o colectie de functii folosite pentru analiza,
modelarea si simularea datelor si contine: generarea de numere aleatoare; distributii, analiza graca
Metoda Monte Carlo este o metod de simulare statistic , ce produce soluµii aproximative pentru o
poate aplica atât problemelor cu deterministe, cât ³i celor probabilistice ³i este folositoare în obµinerea
de soluµii numerice pentru probleme care sunt prea dicile în a rezolvate analitic. Este o metod
folosit de secole, dar a c p tat statutul de metod numeric din anii 1940. În 1946, Stanislaw Ulam
(polonez n scut în Lvov) a devenit primul matematician care a dat un nume acestui procedeu, iar
numele vine de la cazinoul Monte Carlo din principatul Monaco, unde se practic foarte mult jocurile
de noroc, în special datorit jocului de rulet (ruleta = un generator simplu de numere aleatoare). De
Are la baz generarea de numere aleatoare convenabile ³i observarea faptului c o parte dintre acestea
veric o proprietate sau anumite propriet µi. În general, orice metod care are la baza generarea de
numere aleatoare în vederea determin rii rezultatului unui calcul este numit o metod Monte Carlo.
Orice eveniment zic care poate v zut ca un proces stochastic este un candidat în a modelat prin
methoda MC.
În general, pentru a evalua numeric integrala, metoda Monte Carlo nu este prima alegere, însa este
foarte util în cazul în care integrala este dicil (sau imposibil) de evaluat. Aceast metoda devine mai
Dac dorim aplicarea metodei MC, atunci avem de ales una din urm toarele variante:
unde c < inf f ³i d > sup f . Evalu m integrala folosindu-ne de calculul probabilit µii evenimentului A,
[a, b] [a, b]
c un punct ales la întamplare în interiorul dreptunghiului D s se ae sub gracul funcµiei f (x). Facem
urm toarea experienµ aleatoare: alegem în mod uniform (comanda rand ne ofer aceasta posibilitate
în Matlab) un punct din interiorul dreptunghiului ³i test m dac acest punct se a sub gracul lui
f (x). Repet m experienµa de un num r N (mare) de ori ³i contabiliz m num rul de apariµii f (N ) ale
punctului sub grac. Pentru un num r mare de experienµe, probabilitatea c utat va aproximat de
f (N )
P (A) '
N
Aceast metod nu e foarte ecient , deoarece N trebuie sa e, într-adev r, foarte mare pentru a avea
o precizie bun .
(2) Din teorema de medie avem ca exista un numar E(f ) ∈ (a, b) a.i.
I = (b − a)E(f ).
66
este:
N
b−aX
I' f (xk ), (3.3)
N
k=1
unde
1
, daca x ∈ [a, b],
b−a
f (x) =
0 , altfel.
Funcµia h(x) denit mai sus este densitatea de repartiµie a unei v.a. X ∼ U[a, b], iar relaµia (3.4) se
rescrie
Z5
2
I= e−x dx
−2
-
x = 7*rand(1e6,1)-2; % genereaza 106 numere aleatoare U(−2, 5)
2
g = exp(-x.^2); % g(x) = e−x
106
I = mean(g) % media
X
g(xi )
i=1
Experienµe aleatoare în Matlab 67
sau, restrâns,
rand
ce genereaza un numar (pseudo-)aleator uniform in intervalul [0, 1] (i.e., orice punct din acest interval
• Comanda
simuleaza aruncarea unei monede ideale. Vom mai spunem ca numarul X astfel generat este un
numar aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, in cazul in care o urna are
• De asemenea, numarul
Y = sum (rand(10,1)<0.5)
urmeaza repartitia B(10, 0.5) (simularea a 10 aruncari ale unei monede ideale).
68
Exerciµiu 3.7 S se scrie o functie MATLAB care sa simuleze aruncarea repetata a unei monede
corecte. Sa se determine probabilitatea ca la aruncarea monedei s obµinem fata cu stema si sa deseneze
o gura care sa justice grac convergenta sirului frecventelor relative la aceasta probabilitate.
moneda zar
1 1
5/6
3/4
probabilitatea
probabilitatea
0.5 0.5
1/4
1/6
0 0
1 2 3 4 5 1 2 3 4 5
10 10 10 10 10 10 10 10 10 10
aruncari aruncari
Figure 3.4: Simularea arunc rii unei monede corecte (a) ³i a unui zar corect (b)
Fisierul moneda.m simuleaza aruncarea unei monede de un numar N de ori, atunci cand probabilitatea
de a obtine fata cu stema este p. O rulare a functiei, e.g. moneda(1e5,0.5), produce gracul din Figura
3.4(a). De asemenea, se poate simula si aruncarea unei monede masluite, daca alegem ca parametrul
La aruncarea unui zar ideal, avem 6 cazuri posibile, si anume, aparitia unei fete cu 1, 2, 3, 4, 5 sau 6
puncte. Pentru a simula acest experiment, modicam in mod convenabil problema. Vom considera ca
punctele din intervalul [0, 1] formeaza multimea tuturor cazurilor posibile si impartim intervalul [0, 1]
vedea mai tarziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete inchise, deschise
sau mixte nu are efect practic asupra calculului probabilitatii dorite. Acum, daca dorim sa simulam in
Matlab aparitia fetei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numar "la
intamplare" din intervalul [0, 1] si vericam daca acesta se aa in intervalul ( 26 , 36 ). Asadar, comanda
Matlab
(rand < 3/6 & rand > 2/6)
simuleaza aruncarea unui zar ideal. Ca o observatie, deoarece cele 6 fete sunt identice, putem simplica
Exerciµiu 3.8 S se simuleze în MATLAB aruncarea repetata a unui zar corect. Sa se determine
probabilitatea ca la aruncarea zarului s obµinem faµa cu trei puncte si sa deseneze o gura care sa
justice grac convergenta sirului frecventelor relative la aceasta probabilitate (vezi Figura 3.4(b)).
Fisierul dice.m simuleaza aruncarea unui zar corect de un numar N de ori. O rulare a functiei, e.g.
În ce const jocul? S presupunem c suntem la nivelul încep tor. Avem de aruncat o s geat ascuµit ,
ce poate penetra cu u³urinµ lemnul, spre o tabl p trat din lemn, în interiorul c ruia se a desenat
un cerc circumscris p tratului. Dac s geata se înnge în interiorul discului atunci aµi câ³tigat un
punct, dac nu - nu câ³tigaµi nimic. Repet m jocul de un num r N de ori ³i contabiliz m la sfâr³it
S presupunem c sunteµi un juc tor slab de darts (asta implic faptul c orice punct de pe tabl are
aceea³i ³ans de a µintit), dar nu a³a de slab încât s nu nimeriµi tabla. Cu alte cuvinte, presupunem
Se cere s se aproximeze valoarea lui π pe baza jocului de mai sus ³i s se scrie un program în Matlab
S not m cu A evenimentul ca s geata s se înng chiar în interiorul discului. În cazul în care num rul
de arunc ri N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat de
νN
limita ³irului frecvenµelor relative, adic lim .
n→∞ N
aria disc π
Pe de alt parte, P (A) = aria perete = 4 . A³adar, putem aproxima π prin
νN
π'4 (pentru N 1). (3.7)
N
Functia Matlab care aproximeaza pe π este prezentata mai jos. Metoda care a stat la baza aproxim rii
lui π este o metoda Monte Carlo, a carei suport teoretic este prezentat in paragraful .
(pentru variabile aleatoare continue), se introduc in MATLAB cu ajutorul comenzii pdf, astfel:
Functia de repartitie, F (x), a unei variabile aleatoare se poate introduce in MATLAB cu ajutorul
Inversa functiei de repartitie pentru repartitii continue, F −1 (y), se introduce cu comanda icdf, astfel:
In comenzile de mai sus, LEGE poate oricare dintre legile de repartitie din tabelul 3.1, x este un
scalar sau vector pentru care se calculeaza f (x) sau F (x), y este un scalar sau vector pentru care
72
se calculeaza F −1 (y) iar <param> este un scalar sau un vector ce reprezinta parametrul (parametrii)
repartitiei considerate.
Observaµia 3.10 Fie X o variabila aleatoare si F (x, θ) functia sa de repartitie, θ ind parametrul
P (X ≤ x) = F (x)
Problema poate aparea la evaluarea in Matlab a probabilitatii P (X < x). Daca repartitia considerata
este una continua, atunci corespondentul in Matlab este tot (3.8), deoarece in acest caz
P (X < 5) = P (X ≤ 4)
Exerciµiu 3.11 O moneda ideala este aruncata de 100 de ori, iar X este variabila aleatoare ce reprez-
Codul Matlab urmator calculeaza probabilitatile cerute, calculate analitic in Exercitiul 2.56 din capi-
tolul precedent.
Exerciµiu 3.12 Cineva a inregistrat zilnic timpul intre doua sosiri succesive ale tramvaiului intr-o
anumita statie, si a gasit ca, in medie, aceste este de 20 de minute. Se stie ca acest timp este distribuit
exponential. Daca o persoana a ajuns in statie exact cand tramvaiul pleca, aati care sunt sansele ca
- Notam cu T timpul de asteptare in statie intre doua sosiri succesive ale tramvaiului si cu FT
functia sa de repartitie. Stim ca T ∼ exp(λ), unde λ = 20. Asadar, avem de calculat P (T ≥ 15), care
este:
si aceasta este
Exerciµiu 3.13 Urmatoarea functie Matlab (prin comanda fF(10,0.5)) reprezinta grac (vezi Figura
3.6) functia de probabilitate (prin puncte si bare) si functia de repartitie ale legii de probabilitate bi-
nomiale.
function fF(n,p);
x=0:n;
FP=pdf('bino', x, n ,p); subplot(1,3,1); plot(x, FP, '*')
axis([-0.5 n+0.5 0 0.32])
title('Functia de probabilitate')
subplot(1,3,2), bar (x, FP); axis ([-0.5 n+0.5 0 0.32])
title('Functia de probabilitate')
74
0.75
0.2 0.2
0.5
0.1 0.1
0.25
0 0 0
0 5 10 0 2 4 6 8 10 0 5 10
Exerciµiu 3.14 Sa presupunem ca X este o v.a. continua ce reprezinta inaltimea (in cm) barbatilor
dintr-o tara. Se stie ca P (X ≤ 170) = 0.1. Stiind ca X este normal distribuita, cu media m = 175, sa
- Fie v.a.
X − 175
Y = .
σ
Deoarece X ∼ N (175, σ), gasim ca Y ∼ N (0, 1). Din conditia P (X ≤ 170) = 0.1, obtinem:
5
P (Y ≤ − ) = 0.1,
σ
de unde
5
− = icdf('norm',0.1,0,1) = −1.28,
σ
de unde σ ≈ 3.91, asadar σ 2 ≈ 15.3. √
Exerciµiu 3.15 Presupunem ca inaltimea unei persoane este o v.a. X repartizata normal. Media de
inaltime a jucatorilor unei echipe de baschet masculin este 195 cm, cu deviatia standard 5 cm. Inaltimea
(a) Determinati procentul dintre jucatorii echipei care sunt prea inalti pentru a trece de aceasta usa
fara sa se aplece. (Presupunem ca se apleaca doar daca inaltimea lor este mai mare de 2m).
(b) Calculam
P1 = 1 - normcdf(200, 195,5))*100
P2 = normcdf(210, 195,5) - normcdf(190, 195,5) √
Exerciµiu 3.16 (a) In magazinul de la coltul strazii intra in medie 20 de clienti pe ora. Stiind ca
numarul clientilor pe ora este o variabila aleatoare repartizata Poisson, sa se determine care este prob-
(b) Care este probabilitatea ca, intr-o anumita zi de lucru (de 10 ore), in magazin sa intre cel putin
200 de clienti? Calculati aceasta probabilitate in doua moduri: folosind functia de repartitie Poisson
si folosind aproximarea cu repartitia normala.
- Solutiile analitice au fost prezentate in capitolul anterior, in Exercitiul 2.57. Prezentam aici
P1 = 1 - poisscdf(14,20);
P2 = 1 - poisscdf(199,200);
sau,
P2 = 1 - normcdf(-0.5/sqrt(200)) √
Exerciµiu 3.17 (a) Simulati in MATLAB o variabila aleatoare discreta X ce poate lua doar doua
(b) Consideram urm torul joc: se arunc o moned corect de N ori ³i dac apare stema câ³tig m
1 RON , iar dac apare banul, pierdem 1 RON . S se reprezinte v.a. care reprezint câ³tigul S(n)
cumulat la ecare aruncare. De asemenea, s se contabilizeze de câte ori s-a întors balanµa la 0.
- (a) Stabilim un p ∈ [0, 1]. Cu comanda rand, generam un numar aleator dupa repartitia
(rand < p)
ne aseaza valoarea de adevar a propozitiei rand < p. Asadar, MATLAB aseaza 1 daca rand < p
(probabilitatea ca aceasta sa se intample este p) si aseaza 0 daca rand > p (probabilitatea evenimen-
tului este 1 − p). Prin urmare, pentru a simula variabila aleatoare Bernoulli ceruta folosim codul:
(b) Procedam astfel: mai intai initializez un vector ce are toate componentele egale cu −1. Arunc o
moneda de N ori. Daca apare evenimentul favorabil, atunci pentru aruncarea (componenta) respec-
tiva schimbam valoarea −1 (pierdere) in +1 (castig). La nal, fac suma cumulata la ecare pas si
o reprezint grac (vezi gura 3.7). Pentru a contabiliza numarul de zerouri ale vectorului Castig,
calculam lungimea vectorului ce are drept componente rangurile pentru care vctorul Castig este 0.
Exerciµiu 3.18 Sa se simuleze in MATLAB o variabila aleatoare ale carei valori reprezinta numarul
de esecuri avute pana la aparitia pentru prima oara a fetei cu 3 puncte la aruncarea unui zar ideal.
Care este probabilitatea de a obtine aceasta fata din cel mult 3 aruncari?
Experienµe aleatoare în Matlab 77
200
150
100
S(n)
50
−50
−100
0 1 2 3 4 5 6 7 8 9 10
aruncari 4
x 10
- Fie X v.a. cautata. Aceasta urmeaza repartitia Geo(1/6). Probabilitatea de a obtine fata
asteptata din cel mult 3 aruncari este totuna cu probabilitatea de a obtine cel mult 2 esecuri pana la
X = geornd(1/6)
P = geocdf(2,1/6) √
Exerciµiu 3.19 In Figura 3.8 am reprezentat grac (cu bare) functiile de probabilitate pentru reparti-
tiile binomiala si Poisson, atunci cand numarul de extrageri in schema binomiala este un numar mare.
Observam ca pentru un numar n sucient de mare, cele doua grace se suprapun. Aceasta este o
e−λ λk
lim Cnk pk q n−k = . (3.9)
n→∞
p→0
k!
λ=np
Mai mult, forma gracului din Figura 3.8 aminteste de clopotul lui Gauss, justicand grac cum ca
functiile de probabilitate pentru binomiala (albastru) si Poisson (rosu) tind la densitatea de repartitie
78
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30
n = input('n='); p = input('p=');
lambda = n*p;
a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda));
%% a si b sunt valorile din problema celor 3 sigma
x=a:b;
fB=binopdf(x,n,p); fP=poisspdf(x,lambda);
bar(x',[fB',fP'])
Exerciµiu 3.20 In Figura 3.9, am reprezintat cu albastru functia de repartitie pentru Sn (Sn ∼
B(n, p)), pentru n = 0.3 si patru valori ale lui n, n ∈ {20, 50, 200, 10000}, iar cu linie rosie, functia
de repartitie pentru o variabila aleatoare repartizata N (0, 1). Din cele cele 4 grace, observam cum
gracul functiei de repartitie pentru Sn se apropie de gracul functiei de repartitie pentru N (0, 1),
cand n este sucient de mare (pentru n = 10000 se suprapun gracele). Codul MATLAB ce genereaza
n = 20 n = 50
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−4 −2 0 2 4 −4 −2 0 2 4
n = 200 n = 10000
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−4 −2 0 2 4 −4 −2 0 2 4
Figure 3.9: Vericare graca a teoremei limita centrala (varianta cu functiile de repartitie)
80
Exerciµiu 3.1 Generati in Matlab un set de 6 numere aleatoare alese (uniform discret) din multimea
{1, 2, . . . , 49}.
Exerciµiu 3.2
Exerciµiu 3.3
Exerciµiu 3.4
Exerciµiu 3.5
Exerciµiu 3.6
Exerciµiu 3.7
Exerciµiu 3.8
Exerciµiu 3.9
Exerciµiu 3.10
Chapter 4
Elemente de Statistic descriptiv
F . Asupra acestei caracteristici, facem n observatii, in urma carora culegem un set de date statistice.
Dupa cum am vazut mai inainte, datele statistice pot negrupate (asa cum au fost culese in urma ob-
servarilor) si grupate (descrise prin tabele de frecvente). In continuare, vom deni cele mai importante
Aceasta este o masura a tendintei centrale a datelor. Pentru o selectie {x1 , x2 , . . . , xn }, denim:
n
1X
x̄ = xi ,
n
i=1
ca ind media (empirica) de selectie. Daca {x1 , x2 , . . . , xN } sunt toate cele N observatii (recens mânt)
81
82
se numeste media (empirica a) populatiei. Vom vedea mai tarziu ca, pentru a estima media µ a intregii
populatii statistice, nu este necesar sa avem toate valorile {x1 , x2 , . . . , xN }, ci doar o selectie a ei, si
Pentru ecare i, cantitatea di = xi − x se numeste deviatia fata de medie. Aceasta nu poate denita
Aceasta este o masura a imprastierii datelor in jurul valorii medii. Pentru o selectie {x1 , x2 , . . . , xn },
Pentru intreaga populatie de volum N , dispersia populatiei este denita prin masura
N
2 1 X
σ = (xi − µ)2 .
N
i=1
n
1X
Observaµia 4.1 Cantitatea s = (xi − x̄)2 este tot o masura a dispersiei (empirice) de selectie.
2
n
i=1
Vom vedea mai tarziu ca alegerea lui s2∗ in dauna lui s2 este mai potrivita intr-un anume sens. Ambele
Este tot o masura a imprastierii datelor in jurul valorii medii. Pentru o selectie {x1 , x2 , . . . , xn },
Pentru intreaga populatie de volum N , deviatia standard a populatiei este denita prin masura
v
u
u1 XN
σ=t (xi − µ)2 .
N
i=1
(4) Scorul Z
Este numarul deviatiilor standard pe care o anumita observatie, x, le are sub sau deasupra mediei.
x − x̄
z= .
s∗
Exerciµiu 4.2 Testam media notelor obtinute de studentii din ultimul an al unei universitati. Sa
presupunem ca pentru aceste note avem media de selectie x = 7.24 si deviatia standard s = 0.7. Media
ta este 8.45. Care iti este pozitia mediei tale, raportat la mediile colegilor tai? (i.e., cate deviatii
Daca avem n perechi de observatii, (x1 , y1 ), (x2 , y2 ), . . . (xn , yn ), denim covarianta empirica de se-
lectie:
n
1 X
covsel = (xi − x̄)(yi − ȳ).
n−1
i=1
N
1 X
covpop = (xi − µx )(yi − µy ).
N
i=1
84
covsel
r= , coecient de corelatie de selectie,
sx sy
covpop
r= , coecient de corelatie pentru populatie.
σx σy
Este o masura a boltirii distributiei (al patrulea moment standardizat). Termenul (−3) apare pentru
ca indicele kurtosis al distributiei normale sa e egal cu 0. Un indice K > 0 semnica faptul ca, in
vecinatatea modului, curba densitatii de repartitie are o boltire (ascutire) mai mare decat clopotul lui
Gauss. Pentru K < 0, in acea vecinatate curba densitatii de repartitie este mai plata decat curba lui
Gauss.
F (xα ) = P (X ≤ xα ) = α. (4.1)
Observaµia 4.4 Cuantilele sunt masuri de pozitie, ce masoara locatia unei anumite observatii fata de
restul datelor. Asa cum se poate observa din Figura 4.1, valoarea xα este acel numar real pentru care
In cazul in care X este o variabila aleatoare discreta, atunci (4.1) nu poate asigurata pentru orice α.
Insa, daca exista o solutie a acestei ecuatiei F (x) = α, atunci exisita o innitate de solutii: intervalul
Elemente de Statistic descriptiv 85
Cazuri particulare de cuantile: mediana (α = 1/2), cuartile (α = i/4, i = 1, 4), decile (α = j/10, i =
1, 10), percentile (α = k/100, k = 1, 100), promile (α = l/1000, l = 1, 1000).
• mediana: Presupunem ca observatiile sunt ordonate, x1 < x2 < · · · < xn . Pentru aceasta ordine,
denim valoarea mediana:
daca n = impar;
x(n+1)/2 ,
x0.5 =
(xn/2 + xn/2+1 )/2, daca n = par;
Este acea valoare x∗ pentru care f (x∗ ) este maxim. O repartitie poate avea mai multe module (e.g.,
la aruncarea unui zar toate cele sase fete au aceeasi probabilitate de aparitie, deci toate sunt module.)
86
Se numeste functie de repartitie empirica asociata unei variabile aleatoare X si unei selectii {x1 , x2 , . . . , xn },
card{i; xi ≤ x}
Fn∗ (x) = . (4.2)
n
Propozitia de mai jos arata ca functia de repartitie empirica aproximeaza functia de repartitie teoretica
Propoziµia 4.5 Fie Ω o colectivitate statistica si X o caracteristica studiata. Notez cu F (x) functia
de repartitie a lui X . Pentru o selectie de valori ale lui X , {x1 , x2 , . . . , xn }, construim functia de
prob
Fn∗ (x) −→ F (x), cand n → ∞, ∀x ∈ R.
νn card{i; xi ≤ x}
= = Fn∗ (x).
n n
Astfel, concluzia propozitiei este o consecinta imediata a Teoremei lui Bernoulli 2.48.
Consideram un set de date statistice grupate (de volum n), ce corespund celor n observatii asupra
variabilei X . Datele grupate sunt in genul celor prezentate in Figurile 1.1 si 1.3.
n
1X
x̄f = xi fi , media de selectie, (media ponderata)
n
i=1
Elemente de Statistic descriptiv 87
Figure 4.2: Functia de repartitie empirica si functia de repartitie teoretica pentru distributia normala.
n n
!
1 X 1 X
s2∗ = fi (xi − x̄f )2 = x2i fi − n x̄2f , dispersia empirica,
n−1 n−1
i=1 i=1
p
s∗ = s2∗ , deviatia standard empirica.
Observaµia 4.6 Sa consideram urmatoarea problema. La brutaria din colt a fost adusa o masina noua
de fabricat paine. Aceasta masina de paine ar trebui sa fabrice paini care sa aiba in medie m = 400
de grame. Pentru a testa daca masina respectiva indeplineste norma de gramaj, am pus deoparte (la
intamplare) n paini produse intr-o zi lucratoare, in scopul de a le cantari. Spunem astfel ca am facut
o selectie de volum n din multimea painilor produse in acea zi. Dorim sa decidem daca, intr-adevar,
masina este setata la parametrii potriviti. In urma cantaririi celor n paini, obtinem datele (empirice):
painilor produse de aceasta masina. Pentru a putea obtine aceasta aproximare, am avea nevoie de
88
depinde de esantionul de paini ales, adica, daca am ales alte paini si facut media maselor lor, am
obtinut din nou o valoarea foarte apropiata de m. Pentru a construi un astfel de criteriu, avem nevoie
de un cadru teoretic mai abstract pentru modelarea datelor statistice. Acest cadru il vom construi mai
jos.
Exerciµiu 4.7 O companie de asigurari a inregistrat numarul de accidente pe luna ce au avut loc
1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2,
4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2.
(a) Sa se scrie un tabel de frecvente care sa contina numarul de accidente, frecventele absolute si cele
relative.
(d) Gasiti si reprezentati grac (cdfplot) functia de repartitie empirica a numarului de accidente.
- Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];
m = mean(Y); s = std(Y); Me = median(Y);
subplot(1,2,1); bar(0:4,[7,9,14,12,10])
subplot(1,2,2); cdfplot(Y) √
Exerciµiu 4.1
Exerciµiu 4.2
Exerciµiu 4.3
Exerciµiu 4.4
Exerciµiu 4.5
Exerciµiu 4.6
Exerciµiu 4.7
Exerciµiu 4.8
Exerciµiu 4.9
Exerciµiu 4.10
Chapter 5
Noµiuni de teoria selecµiei
5.1 Introducere
Deniµia 5.1 Numim colectivitate statistica (sau populatie) o multime nevida Ω de elemente care este
cercetata din punct de vedere a uneia sau mai multor caracteristici. Elementele colectivitatii le vom
numi indivizi (sau unitati statistice). Vom nota cu ω o unitate statistica. Daca populatia este nita,
atunci numarul n al unitatilor statistice ce o compun (i.e., card(Ω)) il vom numi volumul colectivitatii
(sau volumul populatiei).
Consideram o populatie (colectivitate statistica) Ω. Studiem populatia Ω din punctul de vedere al unei
procesul prelucrarii statistice si o vom asimila cu o variabila aleatoare denita pe Ω. Problema esentiala
Pentru a gasi aceasta lege (repartitie), este necesar de un numar reprezentativ de selectii repetate
din colectivitatea Ω, pe care le vom studia si vom gasi apoi, prin inferenta, o lege care sa reprezinte
variabila X .
Deniµia 5.2 Vom numi selectie (sau sondaj) o subcolectivitate a colectivitatii cercetate Ω. Numarul
elementelor selectiei poarta numele de volumul selectiei (sondajului). Selectiile pot repetate sau
nerepetate. O selectie se numeste repetata (sau bernoulliana) daca dupa examinarea individului acesta
se reintroduce in colectivitate, in caz contrar avem o selectie nerepetata. In practica, volumul colec-
91
92
tivitatii Ω este mult mai mare decat volumul selectiei. In aceste cazuri, selectia nerepetata poate
considerata ca ind selectie repetata. Selectiile pe care le vom considera in continuare sunt numai
Dorim acum sa introducem un cadru matematic abstract pentru aceste selectii repetate.
Consideram spatiul masurabil (Ω, F), unde F este un corp borelian de parti ale lui Ω. Caracteristica X
urmarita poate reprezentata de o variabila aleatoare denita pe (Ω, F). Dorim sa denim matematic
o selectie repetata de volum n. Euristic, ideea este urmatoarea: a efectua n sondaje repetate dintr-o
multime Ω, este echivalent cu a considera o singura selectie dintr-o populatie de genul "Ω multiplicat
de n ori". Construim astfel:
Ω(n) = Ω × Ω × · · · × Ω, F (n) = F × F × · · · × F,
ω (n) = (ω1 , ω2 , . . . , ωn ),
numita selectie repetata de volum n. Astfel, cuplul (Ω(n) , F (n) ) se va numi spatiul selectiilor repetate
de volum n. Fie variabilele aleatoare
Acestea sunt variabile aleatoare denite pe (Ω(n) , F (n) ), sunt independente stochastic (deoarece {X(ωi )}i=1, n
sunt independente) si sunt identic repartizate, cu functia de repartitie comuna FX (se verica usor ca
Pentru un ω (n) xat, componentele vectorului Y (ω (n) ) se numesc valori de selectie repetata de volum
n. Vom nota cu
Ln = Y (Ω(n) ) ⊂ Rn ,
si-l vom numi spatiul valorilor de selectie repetata de volum n. Elementele lui Ln le vom nota prin
x = (x1 , x2 , . . . , xn ),
Deniµia 5.3 Vom numi statistica (sau functie de selectie) variabila aleatoare
Sn (X) = g(X1 , X2 , . . . , Xn ),
Valoarea numerica
Sn (x) = g(x1 , x2 , . . . , xn )
Observaµia 5.4 Asadar, o statistica este o functie de variabilele aleatoare de selectie. Prin intermeniul
statisticilor putem trage concluzii despre populatia Ω, din care a provenit esantionul ω (n) . Teoria
probabilitatilor ne ofera procedee de determinare atat a repartitiei exacte a lui Sn (X), cat si a repartitiei
asimptotice a lui Sn (X). Repartitia exacta este cea ce poate determinata pentru orice volum al
selectiei, n. Este indispensabila in conditiile in care volumul selectiei este redus, n ≤ 30. Repartitia
asimptotica este repartitia limita a Sn (X) cand n → ∞, iar utilizarea acesteia conduce la rezultate
De cele mai multe ori, o functie de selectie (statistica) este utilizata in urmatoarele cazuri:
Fie (Ω, F) o colectivitate statistica si X o caracteristica cercetata a sa. Sa notam cu f (x) si F (x)
densitatea de repartitie, respectiv, functia de repartitie pentru X . Acestea pot cunoscute sau ne-
cunosctute a priori si le vom numi functii teoretice (respectiv, densitate de repartitie teoretica si functie
94
de repartitie teoretica). Daca se cunoaste f (x), atunci putem determina µ = E(X) si σ 2 = D 2 (X),
colectivitate, calculand caracteristicile respective pentru selectiile considerate si apoi extrapoland (in
aleatoare de selectie {X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selectie pentru un ω (n) xat este:
n
1X
x= xi (media de selectie empirica).
n
i=1
Propriet µi 5.6
D2 (X)
E(X) = E(X), D2 (X) = ; (5.2)
n
n
1X a.s.
Xi −→ E(X), cand n → ∞. (5.3)
n
i=1
Observaµia 5.7 (1) In capitolele urmatoare vom scrie relatia (5.4) sub forma restransa:
n
1X
X= Xi . (5.4)
n
i=1
Pentru simplitatea formulelor, de acum inainte vom face abstractie de dependenta de ω (n) in formule,
care se va subintelege.
(2) Propozitia 5.22 precizeaza care este repartitia mediei de selectie pentru variabile aleatoare de
selectie dintr-o colectivitate normala, iar Propozitia 5.24 precizeaza care este repartitia asimptotica a
Momente de selectie
α1 (X1 , X2 , . . . , Xn ) = X.
d2 (X1 , X2 , . . . , Xn ) = µ2 (X1 , X2 , . . . , Xn ).
Pentru simplitate, o vom nota cu d2 (X), iar valoarea acesteia pentru un ω (n) xat este:
n
2 1X
d (x) = [xi − x]2 (dispersie de selectie empirica).
n
i=1
De cele mai multe ori, in locul lui d2 (X) se utilizeaza statistica d2∗ (X), denita prin:
n
1 X
d2∗ (X) = [Xi − X]2 .
n−1
i=1
Aceasta se mai numeste si dispersie de selectie modicata, iar valoarea ei pentru un ω (n) xat este:
n
1 X
d2∗ (x) = [xi − x]2 (dispersie de selectie empirica).
n−1
i=1
Motivatia pentru considerarea statisticii d2∗ (X) este data de proprietatile din Propozitia urmatoare:
n−1 2
E(d2 (X)) = D (X), E(d2∗ (X)) = D2 (X) (5.5)
n
prob
d2∗ (X) −→ D2 (X), cand n → ∞. (5.6)
Observaµia 5.14 (i) Dupa cum vom vedea in capitolul urmator, primele doua relatii arata ca sta-
tistica d2∗ (X) este un estimator nedeplasat pentru dispersia teoretica, pe cand d2 (X) este estimator
deplasat.
(ii) Daca media teoretica a colectivitatii este cunoscuta a priori, E(X) = µ ∈ R, atunci dispersia de
Deniµia 5.15 Fie X1 , X2 , . . . , Xn variabile aleatoare de selectie repetata de volum n. Numim func-
tie de repartitie de selectie (repetata de volum n), functia
n(x)
Fn∗ : R × Ω(n) → R, Fn∗ (x, ω (n) ) = , ∀ (x, ω (n) ) ∈ R × Ω(n) ,
n
unde n(x) = card {i, Xi (ω (n) ) ≤ x} reprezinta numarul de elemente din selectie mai mici sau
egale cu x.
Relatia din denitie poate scrisa si sub forma:
n
1X
Fn∗ (x) = χ(−∞, x] (Xi ), ∀ x ∈ R,
n
i=1
Pentru un x ∈ R xat, Fn∗ (ω (n) ) este o variabila aleatoare distribuita binomial B(n, F (x)).
card {i, xi ≤ x}
Fn∗ (x) = ,
n
In Statistica, exista o serie de criterii care permit sa se aprecieze apropierea lui Fn∗ (x) de F (x). Mai
a.s.
Fn∗ (x) −−−→ F (x), x xat in R.
n→∞
√
n(Fn∗ (x) − F (x)) ∼ N ( 0, F (x)(1 − F (x)) ), x xat in R.
Teorema 5.19 (Glivenko-Cantelli) Fie X o caracteristica, F (x) functia sa de repartitie si Fn∗ (x) func-
tia de repartitie empirica corespunzatoare unei selectii de volum n. Atunci Fn∗ (x) converge uniform la
F (x), adica:
Teorema 5.20 (Kolmogorov) Fie caracteristica X de tip continuu, care are functia de repartitie teo-
atunci avem:
∞
√ X 2 x2
lim P ( n · dn < x) = K(x) = (−1)k e−2 k , x > 0. (5.7)
n→∞
k=−∞
Observaµia 5.21 Functia K denita prin (5.7) se numeste functia lui Kolmogorov si are valorile
punct de vedere statistic. Fie {X1 , X2 , . . . , Xn } variabile aleatoare de selectie repetata de volum
n. In cele mai multe cazuri practice, X urmeaza o repartitie normala (gaussiana). De regula, daca
volumul populatiei este mic (n ≤ 30), atunci lucram doar populatii normale, iar pentru n > 30 putem
considera orice tip de repartitie pntru colectivitate. Mai jos prezentam cateva rezultate mai importante
Demonstraµie. Vom folosi metoda functiei caracteristice. Pentru o variabila aleatoare N (µ, σ) functia
caracteristica este:
1 2 t2
φ(t) = ei µ t− 2 σ . (5.8)
Propoziµia 5.23 Daca Xi ∼ N (µ, σ), ∀i = {1, 2, . . . , n} sunt variabile aleatoare de selectie, atunci
X −µ
Z= σ ∼ N (0, 1).
√
n
Demonstraµie. Acest rezultat este o consecinta imediata a concluziei teoremei limita centrala. [Ex-
ercitiu!]
Observaµia 5.25 Daca n este sucient de mare, atunci concluzia Propozitiei 5.23 ramane valabila si in
cazul in care avem o selectie repetata de volum n dintr-o colectivitate statistica nu neaparat gaussiana.
{1, 2, . . . , n}. Pentru ecare caracteristica ξi consideram cate o selectie repetata de volum ni , pe
Demonstraµie. Deoarece ξi ∼ N (µi , σi ), din Propozitia 5.22 obtinem ca media de selectie corespunza-
toare, ξi , satisface:
σi
ξi ∼ N µi , √ .
ni
Aplicand acum Propozitia 5.26 variabilelor aleatoare independente {ξ1 , ξ2 , . . . , ξn }, obtinem concluzia
dorita.
o colectivitate N (µ2 , σ2 ), cele doua selectii ind alese independent una de cealalta. Notam cu ξ1 si,
Demonstraµie. Aplicam rezultatul Propozitiei 5.27 pentru cazul particular in care avem doar doua
Observaµia 5.29 (1) Concluzia propozitiei anterioare se mai poate scrie astfel:
(ξ1 − ξ2 ) − (µ1 − µ2 )
Z= q 2 ∼ N (0, 1).
σ1 σ22
n1 + n2
(2) Sa presupunem ca avem doua populatii statistice normale, Ω1 si Ω2 , iar ξ este o caracteristica
comuna a celor doua populatii, ce urmeaza a studiata. (De exemplu, populatiile statistice sa e
Teoria selecµiei 101
multimea pieselor produse de doua strunguri intr-o zi de lucru, iar caracteristica comuna sa e masa
lor). Sa mai presupunem ca deviatiile standard ale caracteristicilor considerata sunt cunoscute. (i.,e.,
deviatiile sunt date deja in cartea tehnica a celor doua strunguri) Pentru ecare dintre cele doua
colectivitati, consideram cate o selectie repetata, de volume n1 , respectiv, n2 . (Adica, vom selecta
n1 dintre piesele produse de strungul intai si n2 piese produse de cel de-al doilea strung). Sa notam
repartitia diferentei standardizate ale celor doua medii de selectie. Aceasta ne va deosebit de utila,
spre exemplu, in vericarea ipotezei ca masele medii ale pieselor produse de cele doua strunguri coincid
Propoziµia 5.30 Fie {X1 , X2 , . . . , Xn } variabile aleatoare independente stochastic, astfel incat Xi ∼
Demonstraµie. Pentru a demonstra propozitia, folosim metoda functiei caracteristice. Pentru aceasta,
Sa notam cu f (x) functia densitate de repartitie pentru X , data de relatia (2.39) cu µ = 0. Notam cu
de unde
0
, y ≤ 0;
g(y) = G0 (y) =
1 √ √
2 y [f ( y) + f (− y)] , y > 0,
√
0
, y ≤ 0;
=
√1 f (√y) , y > 0.
y
Deoarece variabilele aleatoare {Xi }i sunt independente stochastic, putem aplica relatia (2.36) si obtinem:
Pn n
Xi2 2
Y
it
φH 2 (t) = E(e i=1 )= E eitXi
i=1
n
Y n
= φX 2 (t) = (1 − 2it)− 2 ,
i
i=1
Observaµia 5.31 O consecinta imediata a acestei propozitii este ca, daca X ∼ N (0, 1), atunci X 2 ∼
χ2 (1).
Propoziµia 5.32 (repartitia dispersiei de selectie cand media colectivitatii este cunoscuta)
Fie {X1 , X2 , . . . , Xn } variabile aleatoare independente stochastic, astfel incat Xi ∼ N (µ, σ), i =
Xi − µ
Yi = .
σ
Conform Propozitiei 5.23, avem Yi ∼ N (0, 1), ∀i = 1, n. Aplicam rezultatul propozitiei 5.30 pentru
Teoria selecµiei 103
Lema 5.34 Fie X caracteristica unei colectivitati statistice, X media de selectie repetata de volum n
unde:
Xi − µ X −µ
Zi = ∼ N (0, 1) si Z= ∼ N (0, 1).
σ √σ
n
Utilizand Propozitia 5.32, observam ca membrul stang al egalitatii (5.9) este o variabila aleatoare
repartizata χ2 (n). Folosind Observatia 5.31, concluzionam ca al doilea termen din membrul drept este
la concluzia propozitiei.
n−1 2
d (X) ∼ χ2 (n − 1), (5.11)
σ2 ∗
1 x2
f (x) = √ e− 2 , x ∈ R,
2π
n y
y 2n−1 e− 2
, y > 0;
2 2 Γ( n
2)
g(y) =
0 , y ≤ 0.
n x2 +y
y 2 −1 e− 2
h(x, y) = f (x)g(y) = n+1 √ , (x, y) ∈ R × (0, ∞).
2 2 π Γ n2
in vectorul (T, Y ). Densitatea de repartitie a acestui vector este (vezi Propozitia 2.40):
n v t2
v 2 −1 e− 2 (1+ n )
r
v
k(t, v) = n+1 √ , (t, v) ∈ R × (0, ∞).
2 2 π Γ n2 n
Z ∞
k1 (t) = k(t, v) dv
0
− n+1
Γ n+1
2 t2 2
= √ 1 + , t ∈ R,
nπ Γ n2
n
Propoziµia 5.38 Daca {X1 , X2 , . . . , Xn } sunt variabile aleatoare de selectie repetata de volum n, ce
urmeaza repartitia unei caracteristici X ∼ N (µ, σ) a unei colectivitati statistice, atunci statistica
X −µ
t= ∼ t(n − 1).
d∗ (X)
√
n−1
X −µ n−1 2
X= ∼ N (0, 1) si Y = d (X) ∼ χ2 (n − 1).
√σ
n
σ2 ∗
Observaµia 5.39 Aceasta propozitie va folosita in teoria deciziei, in problema testarii mediei teo-
Propoziµia 5.40 Daca variabilele aleatoare {X0 , X1 , . . . , Xn } sunt independente stochastic, identic
X0
T =q ∼ t (n).
X12 +X22 + ... +Xn2
n
Propoziµia 5.41 (repartitia diferentei mediilor de selectie cand dispersiile sunt necunoscute, egale)
Consideram o selectie de volum n1 dintr-o populatie normala N (µ1 , σ1 ) si o selectie de volum n2 dintr-
o colectivitate N (µ2 , σ2 ), cele doua selectii ind alese independent una de cealalta. Notam cu ξ1 , ξ2 si
d2∗1 , d2∗2 mediile de selectie si dispersiile de selectie corespunzatoare selectiilor alese. Atunci statistica
s
(ξ1 − ξ2 ) − (µ1 − µ2 ) n1 + n2 − 2
T =q 1 1 ∼ t (n1 + n2 − 2).
(n1 − 1)d2∗1 + (n2 − 1)d2∗2 n1 + n2
Demonstraµie.
Propoziµia 5.42 Daca X ∼ χ2 (m) si Y ∼ χ2 (n) sunt variabile aleatoare independente, atunci vari-
abila aleatoare
n X
F = ∼ F(m, n).
m Y
106
Demonstraµie. Fie f (x) si g(y) densitatile de repartitie pentru X si, respectiv, Y . Avem:
m −1 − x
x 2m em 2
, x > 0;
2 2 Γ( 2 )
f (x) =
0 , x ≤ 0.
n −1 − y
y 2n en 2
, y > 0;
2 2 Γ( 2 )
g(y) =
0 , y ≤ 0.
Din independenta celor doua variabile aleatoare, gasim ca densitatea de repartitie a vectorului (X, Y )
este:
m n x+y
x 2 −1 y 2 −1 e− 2
h(x, y) = f (x)g(y) = m+n , (x, y) ∈ (0, ∞) × (0, ∞).
2 2 Γ m n
2 Γ 2
Consideram o transformare a acestui vector,
t =
n x
m y
τ:
v = y,
in vectorul (F, Y ). Densitatea de repartitie a acestui vector este (vezi Propozitia 2.40):
m m m+n v m
m
n
2
u 2 −1 v 2
−1
e− 2 (1+ n u)
k(u, v) = m+n , (t, v) ∈ (0, ∞) × (0, ∞).
Γ m n
2 2
2 Γ 2
Z ∞
k1 (u) = k(u, v) dv
0
m 2
m
Γ m+n
m
m − m+n
u 2 −1 1 + u
n 2 2
= , u > 0,
Γ m n
2 Γ 2
n
Propoziµia 5.43 Daca {X1 , X2 , . . . , Xm+n } sunt variabile aleatoare independente, identic reparti-
n X12 + X22 + . . . + Xm
2
F = 2 2 2 ∼ F(m, n).
m Xm+1 + Xm+2 + . . . + Xm+n
Demonstraµie. Demonstratia rezulta imediat prin aplicarea rezultatelor propozitiilor 5.30 si 5.42.
Teoria selecµiei 107
ecare populatie extragem cate o selectie repetata, de volume n1 , respectiv, n2 , si consideram d2∗1 (X1 )
si d2∗2 (X2 ) dispersiile de selectie corespunzatoare celor doua selectii repetate. Atunci statistica
σ22 d2∗1
F = ∼ F(n1 − 1, n2 − 1).
σ12 d2∗2
n2 − 1 χ21
F = ,
n1 − 1 χ22
unde
n1 n2
1 X 1 X
χ21 = (X1 i − X1 )2 , χ22 = (X2 j − X2 )2 ,
σ12 i=1 σ22 j=1
{X1 i }i=1, n1 si {X2 i }i=1, n2 sunt variabile de selectie repetata de volume n1 , respectiv, n2 , ce urmeaza
n1 n2
1 X 1 X
χ21 = (X1 i − µ1 )2 ∼ χ(n1 ), χ22 = (X2 j − µ2 )2 ∼ χ(n2 ).
n1 n2
i=1 j=1
Demonstraµie. Demonstratia este similara cu cea de mai inainte. Se folosesc rezultatele Propozitiilor
si
introduse în Capitolul 1, putem genera variabile aleatoare de selectie de un volum dat, n. Pentru
random('norm',100,6, 50,50)
genereaza o matrice patratica, de dimensiune 50. Putem privi aceasta matrice aleatoare astfel: ecare
coloana a sa corespunde unei variabile aleatoare de selectie de volum 50, careia ii precizam cele 50 de
valori ale sale obtinute la o observatie. In total, avem 50 de coloane, corespunzand celor 50 de variabile
aleatoare de selectie. Asadar, am generat astfel 50 de variabile aleatoare de selectie de volum 50, ce
Exerciµiu 5.46 Sa consideram ca masa medie a unor batoane de ciocolata produse de o masina este
o caracteristica X ∼ N (100, 0.65). In vederea vericarii parametrilor masinii, dintre sutele de mii de
• Un baton este declarata rebut daca masa sa medie este sub 98 de grame sau peste 102 de grame.
√
- Din teorie, stim ca media de selectie X urmeaza repartitia N (100, 0.65/ 1000) (vezi Propozitia
5.22). Asadar,
µX = 100, σX ≈ 0.02.
= FX (98) + 1 − FX (102),
r = P2 · 100% ≈ 0.2091%,
Exerciµiu 5.47 Numarul tranzactiilor la bursa din New York este, in medie, de 90000 pe saptamana,
cu deviatia standard 7000. Sa presupunem ca urmarim numarul tranzactiilor bursiere intr-un an intreg
(52 de saptamani). Notam cu X media de selectie pentru numarul tranzactiilor bursiere pe intregul
an urmarit. Calculati care este probabilitatea evenimentului {X < 95000}. Cate tranzactii s-au facut
P = normcdf(9.5e4,9e4,7e3/sqrt(52)) % probabilitatea
N = 52*90000 = 4 680 000 % nr. de tranzactii √
Exerciµiu 5.48 Masa (in grame) a unui anumit tip de franzele produse de o masina intr-o brutarie
este o variabila aleatoare N (400, 10). Pentru a controla daca masina respecta standardele cantitative,
s-au cantarit la intamplare 50 dintre franzelele produse de respectiva masina intr-o zi.
(a) Folosind Matlab, sa se genereze o astfel de selectie aleatoare si sa se determine media de selectie
(b) Painile care au masa sub 380g sau peste 420g nu sunt conforme cu standardul CTC. Sa se gaseasca
s-a efectuat o selectie repetata de volum n = 100. Se cere sa sa determine probabilitatea P (X) < 0.65,
- Se observa cu usurinta ca f (x) indeplineste conditiile unei functii de repartitie, adica este
masurabila, nenegativa si
Z Z 1
f (x) dx = 2 x dx = 1.
R 0
Exerciµiu 5.1
Exerciµiu 5.2
Exerciµiu 5.3
Exerciµiu 5.4
Exerciµiu 5.5
Exerciµiu 5.6
Exerciµiu 5.7
Exerciµiu 5.8
Exerciµiu 5.9
Chapter 6
Noµiuni de teoria estimaµiei
poate
In mod evident, in primul caz de mai sus nu avem nimic de estimat. Daca functia de probabilitate
(densitatea de repartitie) este deja cunoscuta, dar cel putin unul dintre parametrii sai este necunoscut
a priori, se pune problema sa estimam valoarea parametrilor de care aceasta depinde. Vom spune astfel
ca avem o problema de estimare parametrica. In acest capitol, ne vom ocupa de estimarea parametrilor
Sa presupunem ca avem caracteristica X care urmeaza repartitia obtinuta din functia de probabilitate
(sau densitate de repartitie) f (x, θ), unde θ este un parametru necunoscut. In general, acest paramtru
poate un vector (θ ∈ Θ ⊂ Rp ), ai carui componente sunt parametrii repartitiei lui X . Mai sus, f
este functia de probabilitate daca variabila aleatoare X este de tip discret, iar f este densitatea de
113
114
Scopul teoria estimatiei este de a evalua parametrii de care depinde f , folosind datele de selectie si
Fie {X1 , X2 , . . . , Xn } variabile aleatoare de selectie repetata de volum n, ce urmeaza repartitia lui X .
Deniµia 6.1 (1) Se numeste functie de estimatie (punctuala) sau estimator al lui θ , o functie de
selectie (statistica)
θ̂ = θ̂(X1 , X2 , . . . , Xn ),
cu ajutorul careia dorim sa il aproximam pe θ . In acest caz, ne-am dori sa stim in ce sens si cat de
(2) O statistica θ̂ este un estimator nedeplasat (en., biased estimator) pentru θ daca
E(θ̂) = θ.
Altfel, spunem ca θ̂ este un estimator deplasat pentru θ, iar deplasarea (distorsiunea) se deneste astfel:
b(θ̂, θ) = E(θ̂) − θ.
Astfel, b(θ̂, θ) este o masura a erorii pe care o facem in estimarea lui θ prin θ̂ .
n
1 X
d2∗ (X) = [Xi − X]2
n−1
i=1
este un estimator nedeplasat pentru dispersia teoretica D 2 (X), iar dispersia de selectie
n
1X
d2 (X) = [Xi − X]2
n
i=1
σ2
b(s2 , σ 2 ) = − . [Exercitiu!]
n
(3) Daca {x1 , x2 , . . . , xn } sunt date observate, atunci θ̂(x1 , x2 , . . . , xn ) se numeste estimatie a lui
θ. Asadar, o estimatie pentru un parametru necunoscut este valoarea estimatorului pentru selectia
Teoria estimaµiei 115
observata. Prin abuz de notatie, vom nota atat estimatorul cat si estimatia cu θ̂ si vom face diferenta
(4) Numim eroare in medie patratica a unui estimator θ̂ pentru θ (en., mean squared error) cantitatea
h i2
MSE(θ̂, θ) = E θ̂ − θ .
MSE(θ̂1 , θ)
MSE(θ̂2 , θ)
se numeste ecienta relativa (en., relative eciency) a lui θ̂1 in raport cu θ̂2 . Vom spune ca un estimator
θ̂1 este mai ecient decat hte2 daca MSE(θ̂1 , θ) ≤ MSE(θ̂2 , θ) pentru toate valorile posibile ale lui θ ∈ Θ
D2 (θ̂) ≤ D2 (θ̂∗ ).
prob
θ̂(X1 , X2 , . . . , Xn ) −→ θ, cand n −→ ∞.
(i) E(θ̂) = θ;
In acest caz, valoarea numerica a estimatorului, θ̂(x1 , x2 , . . . , xn ), se numeste estimatie absolut corecta
pentru θ .
In acest caz, valoarea numerica a estimatorului, θ̂(x1 , x2 , . . . , xn ), se numeste estimatie corecta pentru
θ.
Exerciµiu 6.4 Statistica d2∗ (X) este un estimator absolut corect pentru σ 2 = D 2 (X), iar statistica
d2 (X) este un estimator corect, dar nu absolut corect, pentru D2 (X). [Exercitiu!]
Propoziµia 6.5 Daca θ̂ este un estimator absolut corect pentru θ , atunci estimatorul este consistent.
D2 (θ̂)
P ({|θ̂ − θ| < }) ≥ 1 − , ∀ > 0. (6.1)
2
Demonstraµie. Avem:
n
!
1 X
E(d2∗ (X)) = E [Xi − X]2 = D2 (X)
n−1
i=1
si
µ4 n−3 2
D2 (d2∗ (X)) = − µ → 0, cand n → ∞.
n n(n − 1) 2
Teoria estimaµiei 117
Observaµia 6.6 Fie θ̂ un estimator pentru θ . Patratul acestui estimator, θ̂ 2 nu este, in general,
estimatorul pentru θ 2 .
0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570; -0.1802; -0.0357; 1.9344; 1.3056
0.0831; -0.3277; -0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944
0.6286; -0.5350; 2.2090; -0.6057; 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030
(pentru selectia data, X = 0.0521). Variabila aleatoare X 2 urmeaza repartitia χ2 (1) si are media
Observaµia 6.7 Pentru un anumit parametru pot exista mai multi estimatori absolut corecti. De
exemplu, pentru parametrul λ din repartitia P oisson P(λ) exista urmatorii estimatori:
X si d2∗ (X).
Se pune problema: Cum alegem pe cel mai bun estimator si pe ce criteriu? Daca utilizam inegalitatea
lui Cebâsev in forma (6.1), atunci ar resc ca "cel mai bun estimator" sa e cel de dispersie minima.
1
D2 (θ̂) ≥ . (6.3)
In (θ)
118
In−1 (θ)
e(θ̂) = . (6.4)
D2 (θ̂)
(12) Un estimator absolut corect θ̂ pentru θ se numeste estimator ecient daca e(θ̂) = 1, adica
D2 (θ̂) = In (θ).
Exerciµiu 6.9 Media de selectie X pentru o selectie dintr-o colectivitate normala este un estimator
(13) Un estimator corect θ̂ pentru θ se numeste estimator sucient (exhaustiv) daca functia de prob-
abilitate (densitate de repartitie) se poate scrie in forma:
Observaµia 6.10 Orice estimator ecient pentru un parametru θ este si estimator sucient pentru θ .
[Exercitiu!]
aleator V = (X1 , X2 , . . . , Xn ).
n
X
θ̂ = nX = Xi numarul de succese in n incercari.
i=1
Teoria estimaµiei 119
- Avem succesiv:
n
Y
f (x, p) = pxi (1 − p)1−xi
i=1
Xn n
X
xi n− xi
= p i=1 (1 − p) i=1
Exerciµiu 6.12 La un control de calitate se verica masa tabletelor de ciocolata produse de o anumita
masina. Pentru a se realiza acest control s-a efectuat o selectie de 50 tablete si s-a obtinut ca masa X
Frecventa 9 10 13 11 7
Sa se determine:
(ii) o estimatie corecta si una absolut corecta pentru dispersia valorilor masei fata de medie.
• metoda momentelor;
Fie caracteristica X studiata, care are functia de probabilitate f (x; θ) (unde θ = (θ1 , θ2 , . . . , θp ) sunt
parametri necunoscuti). Dorim sa gasim estimatori (estimatii) punctuale ale parametrilor necunoscuti
prin alta metoda decat metoda de mai sus. Efectuam n observatii asupra caracteristicii, adica alegem
o selectie de date,
x1 , x2 , . . . , xn .
n
Y
L(X1 , X2 , . . . , Xn ; θ) = f (Xk , θ).
k=1
(2) Valoarea unei astfel de statistici pentru un ω (n) xat se numeste estimatie de verosimilitate maxima
pentru θ .
Observaµia 6.14 Aceasta metoda estimeaza "valoarea cea mai verosimila" pentru parametrul θ .
∂L
Nu este necesar ca sa existe pentru ca estimatorul de verosimilitate maxima sa e calculat. Daca
∂θ
aceasta exista, atunci acest estimator se obtine ca asolutie a sistemului de ecuatii:
∂L(X1 , X2 , . . . , Xn ; θ)
= 0, k = 1, 2, . . . , p, (6.7)
∂θk
n
∂ ln L(X1 , X2 , . . . , Xn ; θ) X ∂ ln f (Xi ; θ)
= = 0, k = 1, 2, . . . , p. (6.8)
∂θk ∂θk
i=1
Exerciµiu 6.15 Estimati prin metoda verosimilitatii maxime parametrii unei caracteristici X ∼ N (µ, σ).
1 (x−µ)2
f (x, µ, σ) = √ e− 2σ2 , x ∈ R.
σ 2π
Teoria estimaµiei 121
Y
L(X1 , X2 , . . . , Xn ; µ, σ) = f (Xk , µ, σ)
k=1
n
X (Xk − µ)2
−
1 2σ 2
= n e
k=1 .
σ n (2π) 2
Astfel,
n
1 1 X
ln L(X1 , X2 , . . . , Xn ; µ, σ) = ln n − (Xk − µ)2 .
σ n (2π) 2 2σ 2
k=1
Asadar, pentru a gasi estimatorii de verosimilitate maxima pentru µ si σ , avem de rezolvat sistemul:
n
∂L = 1 X(X − µ) = 0;
k
∂µ σ2
k=1
n
∂L n 1 X
(Xk − µ)2 = 0.
= − +
∂σ σ σ3
k=1
Vericam acum daca valorile gasite sunt valori de maxim. Pentru aceasta, matricea hessiana calculata
pentru valorile obtinute trebuie sa e negativ denita. Mai intai, calculam matricea hessiana. Aceasta
este: n
n 2 X
− 2 − 3 (Xk − µ)
∂2L σ σ
k=1
H(µ, σ) = = n n
! .
∂µ∂σ 2 X n 3 X 2
− 3 (Xk − µ) 1− (Xk − µ)
σ σ2 nσ 2
k=1 k=1
teristic
det(H(µ̂, σ̂) − λ I2 ) = 0,
sunt
n 2n
λ1 = − <0 si λ2 = − < 0.
σ̂ 2 σ̂ 2
122
µ=X si σ = d(X). √
Observaµia 6.16 De remarcat faptul ca estimatorul pntru σ obtinut prin metoda verosimilitatii
In anumite cazuri, este dicil de calculat valorile critice pentru functia de verosimilitate. De ex-
emplu, repartitia Γ(a, λ) Fie caracteristica X care are functia de probabilitate f (x; θ) (unde θ =
(θ1 , θ2 , . . . , θp ) sunt parametri necunoscuti) ce admite momente pana la ordinul p (adica, αp = E(X p ) <
∞). Dorim sa gasim estimatori (estimatii) punctuale ale parametrilor necunoscuti. Pentru aceasta,
efectuam observatii asupra caracteristicii, adica alegem o selectie de date,
x1 , x2 , . . . , xn .
Fie {X1 , X2 , . . . , Xn } variabilele aleatoare de selectie repetata de volum n. Metoda momentelor consta
momentele initiale teoretice respective, ale lui X . Aceasta inseamna ca avem de rezolvat un sistem de
Deniµia 6.17 Numim estimator (punctual) pentru θ obtinut prin metoda momentelor solutia
θ̂ = (θ̂1 , θ̂2 , . . . , θ̂p ), (aici θ̂k = θ̂k (X1 , X2 , . . . , Xn ), k = 1, p), a sistemului:
α2 (X1 , X2 , . . . , Xn ) = α2 (X),
..
.
αp (X1 , X2 , . . . , Xn ) = αp (X),
n
1X k
α1 (X1 , X2 , . . . , Xn ) = Xi ,
n
i=1
Teoria estimaµiei 123
αk = E(X k ), k = 1, 2, . . . , p.
Observaµia 6.18 Aceasta metoda este fundamentata teoretic pe faptul ca momentele de selectie sunt
estimatori absolut corecti pentru momentele teoretice corespunzatoare. Metoda nu poate aplicata
Exerciµiu 6.19 Fie X ∼ U(a, b) caracteristica unei populatii, unde a < b sunt numere reale. Sa se
a+b (b − a)2
E(X) = , D2 (X) = ,
2 12
de unde
a2 + ab + b2
E(X 2 ) = D2 (X) + [E(X)]2 = .
3
Sistemul (6.10) se scrie astfel in acest caz:
α2 (X1 , X2 , . . . , Xn ) = E(X 2 ),
unde
n n
1X 1X 2
α1 = Xi , α2 = Xi .
n n
i=1 i=1
Inlocuind in relatiile (6.11), avem de gasit solutia (â, b̂) a urmatorului sistem:
a + b = 2 α1
a · b = 4 α21 − 3 α2 .
Aceasta este:
√ q √ q
â = α1 − 3 α2 − α21 ; b̂ = α1 + 3 α2 − α21 .
124
√ √
â = X − 3 s; b̂ = X + 3 s,
unde v
n u n
1X u1 X
X= Xi si s=t (Xi − X)2 .
n n
i=1 i=1
Este o metoda de estimare a parametrilor in cazul modelelor liniare, cand variabilele aleatoare Yi , i =
Y = X · θ + , X = (xij ) ∈ Rm×p .
E(i ) = 0
D2 (i ) = σ 2 , i = 1, 2, . . . , n;
Metoda celor mai mici patrate consta in determinarea parametrilor θi astfel incat suma patratelor
Astfel, un estimator θ̂ = (θˆ1 , θˆ2 , . . . , θˆp ) prin metoda celor mai mici patrate este solutia sistemului:
2
n p
∂ X
Yi −
X
xij θj = 0, j = 1, 2, . . . , p,
∂θj
i=1 j=1
echivalent,
X p
n X n
X
xik xij θj = xik Yi , k = 1, 2, . . . , p.
i=1 j=1 i=1
X0 · X · θ = X0 · Y,
−1
θ̂ = (X0 · X) · X0 · Y.
Exerciµiu 6.20 Fie X o caracteristica ce admite medie, µ = E(X) si consideram variabilele aleatoare
celor mai mici patrate pentru media teoretica µ este solutia problemei de minimizare
n
X
min (Xi − µ)2 , (6.14)
µ
i=1
si este µ̂ = X .
- Putem scrie
Xi = µ + i , i = 1, 2, . . . , n, (6.15)
adica
n
1X √
θ̂ = Xi .
n
i=1
Consideram caracteristica X ce urmeaza a studiata, ce are legea de probabilitate data de f (x, θ),
aleatoare de selectie repetata de volum n. Pentru a obtine un estimator θ̂ pentru θ procedam dupa
cum urmeaza.
k
[ \
X(Ω) = Oi , Oi Oj = ∅, ∀i 6= j.
i=1
Construiesc evenimentele
Se observa cu usurinta ca
k
[ \
Ω(n) = Ai , Ai Aj = ∅, ∀i 6= j.
i=1
Notam cu
k
X
pi (θ) = 1.
i=1
pi (θ), i = 1, k .
Deniµia 6.22 Statistica θ̂ se numeste estimator obtinut prin metoda minimului lui χ2 pentru θ daca
Sa consideram o caracteristica X a carei lege de probabilitate este data de f (x, θ), cu θ parametru
necunoscut. Pentru a estima valoarea reala a lui θ , efectuam n observatii, obtinand selectia:
x1 , x2 , . . . , xn .
Dupa cum am vazut anterior, putem gasi o estimatie punctuala a parametrului, θ̂(x1 , x2 , . . . , xn ).
valoarea reala a parametrului θ . De exemplu, daca dorim sa estimam masa medie a unor produse
alimentare fabricate de o anumita masina, atunci putem gasi un estimator punctual (e.g., media de
selectie) care sa ne indice ca aceasta este de 500 de grame. Ideal ar daca aceasta informatie ar
Putem obtine astfel de informatii daca vom construi un interval in care, cu o probabilitate destul de
gasim un interval aleator care sa acopere cu o probabilitate mare (e.g., 0.95, 0.98 sau 0.99) valoarea
Deniµia 6.24 Fie α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02 sau 0.05). Numim
Pentru o observatie ω (n) xata, capetele intervalului (aleator) de incredere vor functii de valorile de
θ(x1 , x2 , . . . , xn ), θ(x1 , x2 , . . . , xn )
Observaµia 6.25 Pentru a determina un interval de incredere, metoda de lucru este dupa cum
urmeaza:
128
se va considera functie de selectie S(X1 , X2 , . . . , Xn ; θ), convenabil aleasa, care sa urmeze o lege
Zs2
P (s1 < S < s2 ) = g(s) ds = 1 − α. (6.17)
s1
Cum statistica S depinde de θ , din (6.17) obtinem un interval aleator (θ, θ) ce satisface (6.16).
Cu cat α este mai mic (de regula, α = 0.01 sau 0.02 sau 0.05), cu atat sansa (care este (1 − α) · 100%)
ca valoarea reala a parametrului θ sa se gaseasca in intervalul gasit este mai mare. Desi sansele 99%
sau 99.99% par a foarte apropiate si a da rezultate asemanatoare, sunt cazuri in care ecare sutime
a se realiza, in orice zi a anului, independent de celelalte zile. Atunci, sansa ca acest eveniment sa se
realizeze in ecare zi a anului in tot decursului acestui an este de 0.99365 ≈ 2.55%. Daca sansa de
realizare in ecare zi ar fost de 99.99%, atunci rezultatul ar fost ≈ 96.42%, ceea ce inseamna o
Intervalul de incredere pentru valoarea reala a unui parametru nu este unic. Daca ni se dau conditii
suplimentare (e.g., xarea unui capat), atunci putem obtine intervale innite la un capat si nite la
celalalt capat.
Vom cauta in continuare intervale de incredere pentru parametrii unor caracteristici normale.
Fie X ∼ N (µ, σ) caracteristica uneo populatii statistice, unde µ este necunoscut si σ este cunoscut.
Pentru a construi un interval de incredere pentru media teoretica µ, efectuam o selectie repetata de
X −µ
Z= σ ∼ N (0, 1) (conform Propozitiei 5.23). (6.18)
√
n
X −µ
P (z1 < σ < z2 ) = 1 − α,
√
n
echivalent cu
σ σ
P X − z 2 √ < µ < X − z1 √ = 1 − α,
n n
de unde intervalul de incredere pentru µ cu nivelul de semnicatie (1 − α) este
σ σ
(µ, µ) = X − z2 √ , X − z1 √ .
n n
(1) Daca nu se cunoaste o alta informatie suplimentara despre µ, atunci alegem (z1 , z2 ) ca ind
interval de lungime minima pentru α xat. Aceasta se obtine cand z1 = −z2 (vezi Observatia
6.26), de unde:
Θ(z2 ) − Θ(−z2 ) = 1 − α.
α
Θ(z2 ) = 1 − ,
2
Asadar,
z1 = −z1− α2 , z2 = z1− α2 ,
(2) Daca pentru media teoretica nu se precizeaza o limita superioara, atunci in (6.19) aleg intervalul
(3) Daca pentru media teoretica nu se precizeaza o limita inferioara, atunci in (6.19) aleg intervalul
Observaµia 6.26 In cazul (1) de mai sus, am ales intervalul aleator de lungime minima, unde aceasta
lungime este
σ
l = √ (z2 − z1 ).
n
Dorim sa aam z1 si z2 ce realizeaza min L(z1 , z2 ; λ). Acestea sunt solutiile sistemului:
∂L = 0
∂z1
∂L = 0,
∂z2
adica
σ
− √ − λg(z1 ) = 0
n
σ
√ − λg(z1 ) = 0,
n
cu solutiile z1 = z2 (ce nu convine) si z1 = −z2 .
Teoria estimaµiei 131
Exerciµiu 6.27 O masina de inghetata umple cupe cu inghetata. Se doreste ca inghetata din cupe
sa aiba masa de µ = 250g. Desigur, este practic imposibil sa umplem ecare cupa cu exact 250g de
inghetata. Presupunem ca masa continutului din cupa este o variabila aleatoare repartizata normal,
cu masa necunoscuta si dispersia cunoscuta, σ = 3g. Pentru a verica daca masina este ajustata bine,
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253
Se stie ca un estimator absolut corect pentru masa medie este media de selectie, X = 250.0667.
Urmatorul cod Matlab furnizeaza un interval de incredere bazat pe datele de selectie observate.
√
(µ, µ) = (248.659, 251.478).
Observaµia 6.28 Exista functii predenite in Matlab ce furnizeaza estimatori punctuali si inter-
vale de incredere. A se compara rezultatul din acest exercitiu cu cel din Exercitiile 6.29 (estimare a
intervalului de incredere cand σ nu este cunoscut) sau 6.33 (intervale furnizate de functii Matlab
predenite).
132
Ne aam in conditiile din sectiunea precedenta, mai putin faptul ca σ este cunoscut. Daca acesta
este necunoscut, atunci el va trebui estimat. Stim deja ca o estimatie absolut corecta pentru σ este
Pentru a estima media teoretica necunoscuta µ printr-un interval de incredere, alegem statistica
X −µ
T = ∼ t(n − 1), (conform Propozitiei 5.38). (6.23)
d∗ (X)
√
n
In mod analog cu cazul precedent, gasim intervalul de incredere in functie de cele trei cazuri amintite
mai sus:
(1) Daca nu se cunoaste o alta informatie suplimentara despre µ, atunci intervalul de incredere pentru
(2) Daca pentru media teoretica nu se precizeaza o limita superioara, atunci intervalul de incredere
este:
d∗ (X)
(µ, ∞) = X − t1−α; n−1 √ , ∞ .
n
(3) Daca pentru media teoretica nu se precizeaza o limita inferioara, atunci intervalul de incredere
este:
d∗ (X)
(−∞, µ) = −∞, X − tα; n−1 √ .
n
Aici, prin tα; n−1 am notat cuantila de ordin α pentru repartitia t cu (n − 1) grade de libertate.
Exerciµiu 6.29 Sa se gaseasca un interval de incredere pentru masa medie din Exercitiul 6.27, in
Urmatorul cod Matlab furnizeaza un interval de incredere bazat pe datele de selectie observate.
√
(µ, µ) = (248.572, 251.561).
Observaµia 6.30 (1) A se compara rezultatul din acest exercitiu cu cel din Exercitiile 6.27 (estimare
a intervalului de incredere cand σ este cunoscut) sau Exercitiul 6.33 (intervale furnizate de functii
Matlab predenite).
(ii) Cand n este mare, atunci va o diferenta mica intre valorile z1− α si t1− α ; n−1 .
2 2
134
Fie X1 si X2 caracteristicile a doua populatii normale, N (µ1 , σ1 ), respectiv, N (µ1 , σ1 ), pentru care nu
se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum n1 , notata prin
(X1k )k=1, n1 , ce urmeaza repartitia lui X1 , si din a doua populatie alegem o selectie repetata de volum
n2 , notata prin (X2k )k=1, n2 , ce urmeaza repartitia lui X2 . Fixam pragul de semnicatie α. Pentru a
gasi un interval de incredere pentru diferenta mediilor, vom specica doar statisticile care stau la baza
• dispersiile σ12 si σ22 sunt cunoscute a priori. In acest scop, aleg statistica
(X1 − X2 ) − (µ1 − µ2 )
Z= s ∼ N (0, 1). (conform Propozitiei 5.27). (6.25)
σ12 σ 2
+ 2
n1 n2
• dispersiile σ12 = σ22 = σ 2 si necunoscute. Pentru a gasi un interval de incredere pentru diferenta
mediilor, alegem statistica (vezi Propozitia 5.41):
s
(X1 − X2 ) − (µ1 − µ2 ) n1 + n2 − 2
T =p 1 1 ∼ t (n1 + n2 − 2), (6.26)
(n1 − 1)d2∗ (X1 ) + (n2 − 1)d2∗ (X2 ) n1 + n2
unde
n
1 2 n
1 X 1 X
d2∗ (X1 ) = (X1k − X1 )2 , si d2∗ (X2 ) = (X2k − X2 )2 .
n1 − 1 n2 − 1
i=1 i=1
• dispersiile σ12 6= σ22 , necunoscute. Pentru a gasi un interval de incredere pentru diferenta mediilor,
alegem statistica
(X1 − X2 ) − (µ1 − µ2 )
T = s ∼ t(N ), (utilizand Propozitia 5.40), (6.27)
2 2
d∗ (X1 ) d∗ (X2 )
+
n1 n2
unde 2
d2∗ (X1 ) d2∗ (X2 )
+
n1 n2
N= 2 2 − 2. (6.28)
2
2
d∗ (X1 ) 1 d∗ (X2 ) 1
+
n1 n1 − 1 n2 n2 − 1
Teoria estimaµiei 135
Fie X ∼ N (µ, σ) o caracteristica a unei populatii studiate, pentru care cunoastem media teoretica µ
dar nu si dispersia σ 2 . Dorim sa estimam dispersia prin construirea unui interval de incredere. Alegem
unde aici Gn (x) reprezinta functia de repartitie teoretica pentru repartitia χ2 cu n grad de libertate.
In functie de faptul daca avem sau nu informatii suplimentare despre dispersie (analog ca in sectiunea
n d2 (X)
2
(σ , σ2) = , +∞ ; (6.30)
χ2α; n
unde prin χ2α; n am notat cuantila de ordin α pentru repartitia χ2 cu n grade de libertate.
Fie X ∼ N (µ, σ) o caracteristica a unei populatii studiate, pentru care nu cunoastem media sau
dispersia. De exemplu, X reprezinta timpul de producere a unei reactii chimice. Dorim sa estimam
In functie de faptul daca avem sau nu informatii suplimentare despre dispersie (analog ca in sectiunea
unde prin χ2α; n−1 am notat cuantila de ordin α pentru repartitia χ2 cu (n − 1) grade de libertate.
Fie X1 si X2 caracteristicile a doua populatii normale, N (µ1 , σ1 ), respectiv, N (µ2 , σ2 ), pentru care
nu se cunosc mediile si dispersiile teoretice. Alegem din prima populatie o selectie repetata de volum
n1 ce urmeaza repartitia lui X1 , si din a doua populatie alegem o selectie repetata de volum n2 ce
urmeaza repartitia lui X2 . Fixam pragul de semnicatie α. Pentru a gasi un interval de incredere
σ22 d2∗1
F = ∼ F(n1 − 1, n2 − 1), (conform Propozitiei 5.44). (6.35)
σ12 d2∗2
Teoria estimaµiei 137
unde Fn, m este functia de repartitie pentru repartitia F isher cu (n, m) grade de libertate. Aleg:
unde fn, m; α reprezinta cuantila de ordin α pentru repartitia F isher cu (n, m) grade de libertate.
d2∗1 d2∗1
fn −1, n2 −1; α2 , fn −1, n2 −1; 1− α2 . (6.36)
d2∗2 1 d2∗2 1
Sa presupunem acum ca trasatura X studiata la o populatie statistica nu este de tip normal. Sa notam
cu f (x, θ) legea sa de repartitie, unde θ este un parametru real necunoscut. Pentru a-l estima printr-un
interval de incredere, vom considera o selectie repetata, (Xk )k=1, n , de volum n (n > 30) relativa la
caracteristica X .
∂ ln f (Xk , θ)
Yk = , k = 1, 2, . . . , n,
∂θ
not
admit dispersie (adica, exista d2 = D2 (Yk ), ∀k = 1, n).
Atunci, statistica
n
1 X
√ Yk ∼ N (0, 1), cand n → ∞. (6.37)
d n
k=1
Demonstraµie. Deoarece (Xk )k sunt independente stochastic si identic repartizate, urmeaza ca si vari-
abilele aleatoare (Yk )k sunt independente stochastic si identic repartizate. Utilizand Teorema limita
n
!
1 X
√ Yk − E(Yk ) ∼ N (0, 1).
d n
k=1
138
Dar
∂ ln f (Xk , θ)
E(Yk ) = E
∂θ
Z
∂ ln f (x, θ)
= f (x, θ) dx
R ∂θ
Z
∂
= f (x, θ) dx
∂θ R
∂
= (1) = 0,
∂θ
Daca xam un nivel de incredere α, putem gasi un interval de incredere pentru parametrul θ . Mai
n
!
1 X
P −z < √ Yk < z = 1 − α,
d n
k=1
Exerciµiu 6.32 Fie X ∼ P(λ) o caracteristica a unei populatii. Dorim sa determinam un interval de
1 2 1
D2 (Yk ) = 2
D (Xk ) = , k = 1, 2, . . . , n,
λ λ
Putem astfel construi un interval de incredere pentru λ. Utilizand aceasta statistica, vom cauta un z
sau,
s2
λ2 − (2 x + )λ + x2 = 0.
n
140
X − z1− α2 √σ , X + z1− α2 √σ
n n
σ2
µ X − z1−α √σ , +∞
n
cunoscut
−∞, X + z1−α √σ
n
d∗ (X) d∗ (X)
X − t1− α2 ; n−1 √ ,
n
X + t1− α2 ; n−1 √
n
σ2
d∗ (X)
µ X − t1−α; n−1 √ ,
n
+∞
necunoscut
d∗ (X)
−∞, X − tα; n−1 √
n
s s
X1 − X2 − z1− α σ12 σ22 σ12 σ22
µ 1 − µ2 σ12 , σ22 + , X1 − X2 + z1− α2 +
2 n1 n2 n1 n2
cunoscuti
s s
X1 − X2 − t1− α ; N d2∗1 d2∗2 d2∗1 d2∗2
µ 1 − µ2 σ12 6= σ22 + , X1 − X2 + t1− α2 ; N +
2 n1 n2 n1 n2
necunoscuti
!
n d2 (X) n d2 (X)
σ2 µ ,
χ21− α ; n χ2α ; n
cunoscut 2 2
!
(n − 1)d2∗ (X) (n − 1)d2∗ (X)
σ2 µ ,
χ21− α ; n−1 χ2α ; n−1
necunoscut 2 2
d2∗1 d2∗1
σ12 fn −1, n2 −1; α2 , fn −1, n2 −1; 1− α2
/σ22 µ1 , µ 2
d2∗2 1 d2∗2 1
necunoscuti
unde:
• p este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaza a estimat punctual;
• distribution este parte din formatul comenzii iar lege poate oricare dintre legile din tabelul
3.1;
ntrials (utilizata doar pentru repartitia binomiala, reprezinta numarul de repetitii ale
experimentului.
Daca urmarim sa estimam parametrii unei caracteristici gaussiene, atunci putem folosi comanda sim-
plicata:
De exemplu, sa luam drept obiect de lucru datele din tabelul 1.3. Aceastea sunt reprezentate prin bare
X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55]
[p, pCI] = mle(X)
si obtinem estimarile:
p =
41.9716 12.0228 % estimari punctuale pentru µ si σ
142
unde, prima coloana reprezinta estimarea punctuala si un interval de incredere pentru µ, iar a doua
LEGEfit(X,alpha)
unde, in locul cuvantului LEGE punem o lege de probabilitate ca in tabelul 3.1, X reprezinta observatiile
si alpha este nivelul de condenta. (Exemple: normfit, binofit, poissfit, expfit etc).
Exerciµiu 6.33 Suntem, din nou, in cadrul Exercitiului 6.27, cu mentiunea ca dispersia nu este cunos-
cuta a priori (vezi Exercitiul 6.29). Dorim sa obtinem o extimatie printr-un interval de incredere pentru
µ cand σ nu este cunoscuta. Folosind functia de mai sus, obtinem chiar mai mult decat ne propunem,
si anume: estimatii punctiale pentru µ si σ si interval de incredere pentru ambele. Ruland functia,
adica
[m,s,mCI,sCI]=normfit(X,0.01)
Observam ca valorile furnizate pentru intervalul de incredere pentru µ, (mCI), sunt exact aceleasi ca
m = mCI =
250.0667 248.572
251.561
s = sCI =
2.9704 2.2111
4.4159
Observaµia 6.34 Sa presupunem acum ca facem 50 de selectii repetate de volum 30 (adica alegem in
α = 0.01) pentru masa medie a continutului. Figura 6.2 reprezinta grac cele 50 de intervale.
Dupa cum se observa din gura, se poate intampla ca un interval de incredere generat sa nu contina
valoarea pe care acesta ar trebui sa o estimeaze. Aceasta nu contrazice teoria, deoarece probabilitatea
P µ < µ < µ = 1 − α = 0.99,
X
λ̂ = n
1 X 2
Xk2 − X
n
k=1
Sa presupunem ca X ∼ N (µ, σ) este o caracteristica a unei populatii statistice, {Xk }k=1, n o selectie
In Sectiunea 6.6.1, am gasit ca un interval de incredere pentru media µ, cand dispersia σ 2 este cunos-
este 1 − α = 0.99 ≈ 1.
2.58 2.58
X− √ < µ < X+ √
n n
∞
!
\
P An = 0. (6.39)
n=1
146
(i) Gasiti un estimator pentru parametrul necunoscut θ > 0 (folosind, la alegere, metoda momentelor
revine la:
X = E(X).
Z Z ∞ Z ∞ 0 Z ∞
1 − xθ
− xθ x
E(X) = x f (x) dx = xe dx = − x e dx = e− θ dx = θ.
R θ 0 0 0
n
X
θ̂ = X = Xk , (unde, (Xk )k − variabilele aleatoare de selectie).
k=1
n
1X
n − xk
Y 1 − xk 1 θ 1
L(x, θ) = e θ = ne k=1 = n e−n x/θ .
θ θ θ
k=1
∂ ln L(x, θ) ∂ 1 n n
= −n ln θ − x = − + 2 x.
∂θ ∂θ θ θ θ
∂ ln L(x, θ)
Ecuatia ∂θ = 0 implica
n
1X
θ̂ = xk = x.
n
k=1
Se verica apoi ca
∂ 2 ln L(x, θ) n
2
|θ=θ̂ = − 2 < 0,
∂θ x
Teoria estimaµiei 147
(ii) Avem:
1 2 θ2
D2 (θ̂) = D2 (X) = 2
D (X) = 2 .
n n
Exerciµiu 6.36 Fie X o caracteristica ce reprezinta timpul de producere a unei reactii chimice, ma-
valorile de selectie
4.21, 4.03, 3.99, 4.05, 3.89, 3.98, 4.01, 3.92, 4.23, 3.85, 4.20.
α = 0.05.
- (i) Deoarece media nu este cunoscuta si nu avem alta informatie despre dispersie, folosim
x = [4.21; 4.03; 3.99; 4.05; 3.89; 3.98; 4.01; 3.92; 4.23; 3.85; 4.20];
n = 11; alpha = 0.05; s2 = var(x);
h1 = icdf('chi2',1-alpha/2,n-1); h2 = icdf('chi2',alpha/2,n-1);
S1 = (n-1)*s2/h1; S2 = (n-1)*s2/h2;
s1 = sqrt(S1); s2 = sqrt(S2);
fprintf(' int. de incredere pt dispersie: (S1,S2) = (%6.3f,%6.3f)',S1,S2);
fprintf('int. de incredere pt deviatia standard: (s1,s2) = (%6.3f,%6.3f)\n',s1,s2);
Obtinem valorile:
[m,sigma,muCI,sigmaCI]=normfit(x,0.05)
Se observa ca valorile furnizate de aceasta functie pentru sigmaCI sunt cele gasite anterior.
(ii) Deoarece media µ este cunoscuta, intervalul de incredere este dat de (6.29). Codul Matlab pentru
x = [4.21; 4.03; 3.99; 4.05; 3.89; 3.98; 4.01; 3.92; 4.23; 3.85; 4.20];
n = 11; alpha = 0.05; s2 = sum((x-4).^2)/11;
h1 = icdf('chi2',1-alpha/2,n); h2 = icdf('chi2',alpha/2,n);
S1 = n*s2/h1; S2 = n*s2/h2;
s1 = sqrt(S1); s2 = sqrt(S2);
fprintf(' int. de incredere pt dispersie: (S1,S2) = (%6.3f,%6.3f)\n',S1,S2);
fprintf('int. de incredere pt deviatia standard: (s1,s2) = (%6.3f,%6.3f)\n',s1,s2);
Exerciµiu 6.37 Ana dactilograaza un articol de 60 de pagini. La recitirea articolului, Ana a de-
7 6 5 9 10 4 4 8 5 8 6 4 5 6 6 5 12 16 9 5
8 7 7 4 11 6 6 5 4 6 13 8 6 9 7 8 5 4 3 6
8 4 7 10 10 6 7 9 12 8 5 7 6 7 14 8 8 4 3 10
Sa presupunem ca numarul de greseli aparute pe ecare pagina dactilograata de Ana este o variabila
(1) Sa se estimeze numarul mediu de greseli facute de Ana pe ecare pagina dactilograata;
Teoria estimaµiei 149
(2) Sa se estimeze numarul mediu de greseli facute de Ana la dactilograerea unei carti de 280 de
(3) Cu ce probabilitate, Ana va avea mai putin de 2000 de greseli pentru toata cartea?
Sa presupunem ca Y este vectorul ce are drept componente numerele din enunt. Daca X este variabila
aleatoare ale carei valori reprezinta numarul de greseli aparute la o pagina dactilograata si X ∼ P(n),
Daca notam cu Xk , k = 1, 280, variabilele aleatoare ale caror valori reprezinta numarul de greseli de
280
X
Xk ∼ P(280 · n),
k=1
Probabilitatea este
X280
P = P( Xk ≤ 2000) = F (2000),
k=1
280
X
unde F (x) este functia de repartitie pentru Xk , adica a unei v.a. repartizata P(280 · n).
k=1
Estimam parametrul repartitiei P oisson folosind comanda mle din Matlab. Codul ce rezolva prob-
lema este urmatorul
N = 280*n;
n =
5.8130
8.9024
Asadar, sa convenim ca Ana face in medie n = 7 greseli pentru ecare pagina dactilograata. Atunci,
Probabilitatea este:
P = poisscdf(2000,N)
adica P ≈ 0.82.
Observaµia 6.38 Deoarece E(X) = D 2 (X) = n, inseamna ca numarul n putea estimat in acest caz
si cu media valorilor lui Y , adica Y (mean(Y) in Matlab) sau cu dispersia empirica pentru Y , adica
var(Y) in Matlab.
Exerciµiu 6.39 Sa presupunem ca aruncam o moneda despre care nu stim daca este sau nu corecta
(adica, probabilitatea de aparitie a fetei cu stema nu este neaparat 0.5). Fie X variabila aleatoare ce
reprezinta numarul de aparitii ale fetei cu stema la aruncarea repetata a unei monede. Notam cu p
ale acelei monede si obtinem valorile (1 inseamna ca fata cu stema a aparut, 0 daca nu a aparut):
0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0
1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
(2) Sa se gaseasca estimatii punctuale si intervale incredere pentru p, folosind functiile mle si binofit
din Matlab.
p(1 − p)
E(X) = E(X) si D 2 (X) = −−−−→ 0.
n2 n→∞
n
X
Asadar, pentru selectia data, valoarea x = xk = 0.5125.
k=1
(2) Utilizand functiile Matlab astfel:
[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)
Teoria estimaµiei 151
cu rezultatul:
p = pCI =
0.5125 0.3981
0.6259
[p,pCI]=binofit(sum(Y),length(Y),0.05)
cu rezultatul:
p = pCI =
0.5125 0.3981
0.6259 √
152
Avem ca " n n
#!
X X
2
D (µ̂) = E wk (Xk − µ) = σ2 wk2 .
k=1 k=1
Exerciµiu 6.2 Aratati ca momentul de selectie de ordin k este estimator absolut corect pentru αk (X).
Exerciµiu 6.3 Aratati ca momentul de selectie centrat de ordin k este estimator absolut corect pentru
µk (X). In particular, momentul de selectie centrat de ordin 2 este estimator absolut corect pentru
Exerciµiu 6.4 Sa se arate ca media de selectie X constituie un estimator absolut corect si ecient al
Exerciµiu 6.5 Aratati ca n·X este un estimator sucient pentru parametrul λ din repartitia P oisson,
P(λ).
Exerciµiu 6.6 Aratati ca n · (1 − X) este un estimator sucient pentru parametrul b din repartitia
Exerciµiu 6.7 Aratati ca informatia Fisher I1 (µ) pentru o caracteristica N (µ, σ) este
1
I1 (µ) = .
σ2
Exerciµiu 6.8 Estimati prin metoda verosimilitatii maxime parametrul p al unei caracteristici X ∼
B(n, p).
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948
598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
Sa se estimeze absolut corect dispersia populatiei din care provine aceasta selectie.
Exerciµiu 6.10 Estimati prin metoda momentelor parametrii unei caracteristici X ∼ N (µ, σ).
Exerciµiu 6.11
154
Chapter 7
Vericarea ipotezelor statistice
In acest capitol sunt incluse cateva notiuni introductive si procedee generale ce tin de decizii statis-
tice. Testarea ipotezelor statistice este o metoda prin care se iau decizii statistice, utilizand datele
experimentale culese. Testele prezentate mai jos au la baza notiuni din teoria probabilitatilor. Aceste
teste permit ca, plecand de la un anumit sau anumite seturi de date culese experimental sa se poate
valida anumite estimari de parametri ai unei repartitii sau chiar prezicerea formei legilor de repartitie
este data de f (x, θ), unde θ ∈ Θ ⊂ Rp . Dupa cum precizam in capitolul anterior, aceasta functie
poate specicata (adica ii cunoastem forma, dar nu si parametrul θ ), caz in care putem face anumite
ipoteze asupra acestui parametru, sau f (x, θ) este necunoscuta, caz in care putem face ipoteze asupra
formei sale.
Deniµia 7.1 (1) Numim ipoteza statistica o presupunere relativa la valorile parametrilor ce apar in
legea de probabilitate a caracteristicii studiate sau chiar referitoare la tipul legii caracteristicii.
(2) O ipoteza neparametrica este o presupunere relativa la forma functionala a lui f (x, θ). De exemplu,
(3) Numim ipoteza parametrica o presupunere facuta asupra valorii parametrilor unei repartitii. Daca
155
156
multimea la care se presupune ca apartine parametrul necunoscut este formata dintr-un singur element,
avem de-a face cu o ipoteza parametrica simpla. Altfel, avem o ipoteza parametrica compusa.
(4) O ipoteza nula este acea ipoteza pe care o intuim a cea mai apropiata de realitate si o pre-
supunem a priori a adevarata. Cu alte cuvinte, ipoteza nula este ceea ce doresti sa crezi, in cazul
in care nu exista suciente evidente care sa sugereze contrariul. Cel mai bun exemplu de ipoteza nula
este urmatoarea: "presupus nevinovat, pana se gasesc dovezi care sa dovedeasca altfel". O ipoteza
alternativa este orice alta ipoteza admisibila cu care poate confruntata ipoteza nula.
De exemplu, in Exemplul 6.27, putem presupune ca ipoteza (parametrica) nula este
[ \
θ ∈ A = A0 A1 , A 0 A1 = ∅
si spunem ca
iar
(6) In Statistica, un rezultat se numeste semnicant din punct de vedere statistic daca este improbabil
ca el sa se realizat datorita sansei. Intre doua valori exista o diferenta semnicativa daca exista su-
ciente dovezi statistice pentru a dovedi diferenta, si nu datorita faptului ca diferenta este mare. Numim
nivel de semnicatie probabilitatea de a respinge ipoteza nula cand, de fapt, aceasta este adevarata.
Vom numi regiune critica multimea tuturor valorilor care cauzeaza respingerea ipotezei nule. Matem-
P ((x1 , x2 , . . . , xn ) ∈ U | H0 admis) = α.
atunci valoarea c se numeste valoare critica iat S(x1 , x2 , . . . , xn ) se numeste statistica test sau criteriu.
Construirea unui test statistic revine la construirea unei astfel de multimi critice. Folosind datele
(i) (x1 , x2 , . . . , xn ) 6∈ U, ceea ce implica faptul ca (H0 ) este acceptata (pana la o alta testare);
(ii) (x1 , x2 , . . . , xn ) ∈ U, ceea ce implica faptul ca (H0 ) este respinsa (adica (H1 ) este acceptata);
• eroarea de speta (I) (riscul furnizorului sau false positive) − este eroarea care se poate comite
respingand o ipoteza (in realitate) adevarata. Se mai numeste si risc de genul (I). Probabilitatea
aceaste erori este nivelul de semnicatie, adica:
α = P ((x1 , x2 , . . . , xn ) ∈ U | H0 admis).
• eroarea de speta a (II)-a (riscul beneciarului sau false negative) − este eroarea care se poate
comite acceptand o ipoteza (in realitate) falsa. Se mai numeste si risc de genul al (II)-lea.
Probabilitatea aceaste erori este
β = P ((x1 , x2 , . . . , xn ) 6∈ U | H1 admis).
In general, riscul de genul (I) este mai grav decat riscul de genul al (II)-lea daca vericam calitatea
unui articol de imbracaminte, iar riscul de genul al (II)-lea este mai grav decat riscul de genul (I) daca
selectie de volum n.
158
Deniµia 7.2 Vom numi puterea unui test probabilitatea respingerii unei ipoteze false (sau, probabili-
tiatea de a nu comite eroarea de speta a II-a). Notam prin
Deniµia 7.3 Denumim valoare P (e.n., P-value) probabilitatea de a obtine un rezultat cel putin la
fel de extrem ca cel observat, presupunand ca ipoteza nula este adevarata. Valoarea P este cea mai
mica valoare a nivelului de semnicatie α pentru care ipoteza (H0 ) va trebui sa e respinsa, bazandu-ne
pe observatiile culese. De exemplu, daca valoarea P este Pv = 0.04 atunci, bazandu-ne pe observatiile
culese, vom respinge ipoteza (H0 ) la un nivel de semnicatie α = 0.05 sau α = 0.1, dar nu o putem
respinge la un nivel de semnicatie α = 0.02. Mai multe valori P pot obtinute pentru un test
statistic. Asadar, decizia poate facuta prin observarea valorii P : daca aceasta este mai mica decat
nivelul de semnicatie α, atunci ipoteza nula este respinsa, iar daca P −value este mai mare decat α,
atunci ipoteza nula nu poate respinsa. Cu cat valoarea P este mai mica, cu atat mai semnicativ
Exerciµiu 7.4 Un exemplu simplu de test este testul de sarcina. Acest test este, de fapt, o procedura
sarcina este prezenta. Ipoteza nula ar lipsa sarcinii. Majoritatea oamenilor in acest caz vor cadea de
acord cum ca un false negative este mai grav decat un false positive.
Exerciµiu 7.5 Sa presupunem ca suntem intr-o sala de judecata si ca judecatorul trebuie sa decida
daca un inculpat este sau nu vinovat. Are astfel de testat urmatoarele ipoteze:
inculpatul este nevinovat;
(H0 )
(H1 ) inculpatul este vinovat.
Deciziile posibile (asupra carora avem control − putem lua o decizie corecta sau una falsa) sunt:
Situatie reala
Situatie reala
Situatie reala
Tipul unui test statistic este determinat de ipoteza alternativa (H1 ). Avem astfel:
• test unilateral stanga, atunci cand ipoteza alternativa este de tipul (H1 ) : θ < θ0 ;
• test unilateral dreapta, atunci cand ipoteza alternativa este de tipul (H1 ) : θ > θ0 ;
Asadar, pentru a construi un test statistic vom avea nevoi de o regiune critica. Pentru a construi
aceasta regiune critica vom utiliza metoda intervalelor de incredere. Daca valoarea observata se aa
in regiunea critica (adica in afara intervalului de incredere), atunci respingem ipoteza nula.
Teoria deciziei 161
• Alegem o statistica (criteriu) S(X1 , X2 , . . . , Xn ) care, dupa acceptarea ipotezei (H0 ), aceasta
are o repartitie cunoscuta, independenta de parametrul testat;
• Luam decizia:
Daca S0 6 ∈ U , atunci ipoteza nula, (H0 ), se admite (mai bine zis, nu avem motive sa o
f (x; θ), si avem de testat ipoteza nula (H0 ) vs. ipoteza alternativa (H1 ), cu probabilitatea de risc α.
Deniµia 7.6 Se spune ca testul bazat pe regiunea critica U ∗ este cel mai puternic test in raport cu
toate testele bazate pe regiunea critica U , la nivelul de semnicatie α, daca sunt indeplinite urmatoarele
conditii:
(b) πU ∗ ≥ πU .
(adica, dintre toate testele de nivel de semnicatie α xat, cel mai puternit test este cel pentru care
puterea testului este maxima). Regiunea U ∗ se numeste regiunea critica cea mai buna.
In cazul ipotezelor simple, Lema Neyman-Pearson ne confera un cel mai bun test. In cazul general, nu
Lema 7.8 (Neyman-Pearson) Presupunem ca avem de testat ipoteza nula (H0 ) de mai sus, vs. ipoteza
alternativa
(H1 ) : θ = θ1 ,
Teoria deciziei 163
cu c astfel incat P (x ∈ U | (H0 ) − adevarata) = α, este cea mai buna regiune critica la nivelul de
semnicatie α.
Exerciµiu 7.9 Fie x1 , x2 , . . . , xn valori de selectie pentru o caracteristica X ∼ N (µ, σ), unde µ este
(H0 ) : σ = σ0
(H1 ) : σ = σ1 .
Pentru a putea efectua un test statistic in mod corect, este necesar sa stim care este tipul (tipurile)
de date pe care le avem la dispoziti. Pentru anumite teste statistice (e.g., testul Z sau testul t, datele
164
testate trebuie sa e normal distribuite si independente. De multe ori, chiar si ipoteza ca datele sa e
normal repartizate trebuie vericata. De aceea, se pune problema realizarii unei legaturi intre functia
de repartitia empirica si cea teoretica (teste de concordanta). Vom discuta mai pe larg aceste teste de
In Matlab sunt deja implementate unele functii ce testeaza daca datele sunt normal repartizate.
Functia normplot(X) reprezinta grac datele din vectorul X versus o repartitie normala. Scopul acestei
functii este de a determina grac daca datele din observate sunt normal distribuite. Daca aceste date
sunt selectate dintr-o repartitie normala, atunci acest grac va liniar, daca nu, atunci va un grac
curbat. De exemplu, sa reprezentem cu normplot vectorii X si Y de mai jos. Gracele sunt cele din
Figura 7.4.
X = normrnd(100,2,200,1);
subplot(1,2,1); normplot(X)
Y = exprnd(5,200,1);
subplot(1,2,2); normplot(Y)
Observam ca primul grac este aproape liniar, pe cand al doilea nu este. Putem astfel sa concluzionam
ca datele date de X sunt normal repartizate (fapt conrmat si de modul cum le-am generat), iar datele
Functia chi2gof determina in urma unui test χ2 daca datele observate sunt normal repartizate, la un
Teoria deciziei 165
h = chi2gof(x)
ne va furniza rezultatul h = 1, daca datele nu sunt normal repartizate, sau h = 0, daca nu putem
respinge ipoteza ca datele observate sunt normal distribuite. Aplicand testul pentru X si Y de mai
Testul Z bilateral
Fie caracteristica X ce urmeaza legea normala N (µ, σ) cu µ necunoscut si σ > 0 cunoscut. Presupunem
x1 , x2 , . . . , xn .
(H0 ) : µ = µ0
(H1 ) : µ 6= µ0 ,
cu probabilitatea de risc α. Pentru a efectua acest test, consideram statistica (vezi 6.6.1)
X −µ
Z= σ . (7.2)
√
n
Daca ipoteza (H0 ) se admite, atunci Z ∼ N (0, 1), (conform Propozitiei 5.23). Cautam un interval
Gasim ca acest interval este intervalul de incredere obtinut in Sectiunea 6.6.1, adica:
−z1− α2 , z1− α2 ,
Denim regiunea critica pentru ipoteza nula (relativ la valorile statisticii Z ) ca ind acea regiune care
166
respinge ipoteza (H0 ) daca media µ apartine acelui interval. Stim ca un interval de incredere pentru
n o
U = z ∈ R; z 6∈ −z1− α2 , z1− α2 = {z; |z| > z1− α2 }, (7.4)
n
1X
unde u = uk . Astfel, U este acea regiune in care:
n
k=1
σ σ
X > µ0 + z1− α2 √ si X < µ0 − z1− α2 √ .
n n
• daca z0 ∈ −z1− α2 , z1− α2 , (echivalent, z0 6 ∈ U ), atunci admitem (H0 ) (pentru ca nu sunt
suciente dovezi sa o respingem).
• daca z0 6 ∈ −z1− α2 , z1− α2 , (echivalent, z0 ∈ U ), atunci respingem (H0 ) (exista suciente
dovezi sa o respingem).
Φ z1− α2 = z1− α2 .
(4) Daca:
(i) |z0 | < z1− α , atunci (H0 ) este admisa (nu poate respinsa);
2
(ii) |z0 | ≥ z1− α , atunci (H0 ) este respinsa (adica (H1 ) este admisa);
2
Testul Z unilateral
Teoria deciziei 167
(H0 ) : µ = µ0
cu probabilitatea de risc α.
Pentru a realiza testele, avem nevoie de denirea unor regiuni critice corespunzatoare. Acestea vor
chiar intervalele de incredere pentru conditiile din ipotezele alternative (obtinute in Sectiunea 6.6.1).
Cu alte cuvinte, o regiune critica pentru ipoteza nula (ceea ce semnica o regiune in care, daca ne aam,
atunci respingem ipoteza nula la pragul de semnicatie α) este o regiune in care realizarea ipotezei
alternative este favorizata. Daca ipoteza nula este vericata vs. ipoteza alternativa (H1 )s , atunci
regiunea critica va regiunea acelor posibile valori ale statisticii Z pentru care (H1 )s se realizeaza cu
probabilitatea 1 − α ≈ 1, adica:
In mod similar, daca avem ipoteza alternativa (H1 )d , atunci alegem regiunea critica:
x − µ0
• daca z0 = 6∈ U , atunci admitem (H0 ).
√σ
n
x − µ0
• daca z0 = ∈ U , atunci respingem (H0 ).
√σ
n
Observaµia 7.10 Testul Z , bilateral sau unilateral, poate aplicat cu succes si pentru populatii
pentru care nu se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum
n1 , x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaza repartitia lui X1 , iar din a doua populatie alegem o selec-
tie repetata de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaza repartitia lui X2 . Fie (X1i )i=1, n1 ,
(X2j )j=1, n2 variabilele aleatoare de selectie corespunzatoare ecarei selectii. Fixam pragul de semni-
catie α. Dorim sa testam ipoteza nula ca mediile sunt egale
(H0 ) : µ1 = µ2
(H1 ) : µ1 6= µ2 ,
(X1 − X2 ) − (µ1 − µ2 )
Z= s . (7.7)
σ12 σ22
+
n1 n2
(u1 − u2 )
Fie z = q . Regiunea critica pentru ipoteza nula, exprimata in valori ale statisticii Z este:
σ12 σ22
n1 + n2
n o
U = z; z 6∈ −z1− α2 , z1− α2 .
• Daca valoarea statisticii Z pentru selectiile date nu se aa in U , atunci admitem (H0 ).
• Daca valoarea statisticii Z pentru selectiile date se aa in U , atunci respingem (H0 ).
Φ z1− α2 = z1− α2 .
Teoria deciziei 169
(4) Daca:
Observaµia 7.11 (1) In cazul in care σ1 , σ2 sunt necunoscute, atunci utilizam testul t pentru doua
(2) Regiunile critice pentru testele unilaterale sunt prezentate in tabelul 7.5.
unde:
• h este rezultatul testului. Daca h = 1, atunci ipoteza nula se respinge, daca h = 0, atunci ipoteza
nula nu poate respinsa pe baza observatiilor facute (adica, se admite, pana la un test mai
puternic);
• X este un vector sau o matrice, continand observatiile culese. Daca X este matrice, atunci mai
multe teste Z sunt efectuate, de-alungul ecarei coloane a lui X;
• m0 = µ0 , valoarea testata;
Observaµia 7.12 (1) Pentru efectuarea testului, nu este neaparat necesar sa asam toate cele 4
variabile din membrul stang. Putem asa doar 3, 2, sau o variabila, dupa preferinte, dar doar in
h = ztest(X,m0,sigma,alpha,tail)
(2) Nu exista o functie in Matlab care sa efectueze testul Z pentru doua selectii.
Fie caracteristica X ce urmeaza legea normala N (µ, σ) cu µ necunoscut si σ > 0 necunoscut. Consid-
x1 , x2 , . . . , xn .
(H0 ) : µ = µ0
(H1 ) : µ 6= µ0 ,
cu probabilitatea de risc α. Pentru a efectua acest test, consideram statistica (vezi 6.6.1)
X −µ
T = . (7.9)
d∗ (X)
√
n
Daca ipoteza (H0 ) se admite (adica µ ia valoarea µ0 ), atunci T ∼ t(n − 1), (conform Propozitiei 5.38).
si gasim ca acest interval este intervalul de incredere obtinut in Sectiunea 6.6.2, adica:
−t1− α2 ; n−1 , t1− α2 ; n−1 ,
Decizia:
x − µ0
• daca t0 = d∗ (X)
∈ −t1− α2 ; n−1 , t1− α2 ; n−1 (echivalent, t0 6∈ U ), atunci admitem (H0 ).
√
n
x − µ0
• daca t0 = d∗ (X)
6∈ −t1− α2 ; n−1 , t1− α2 ; n−1 (echivalent, t0 ∈ U ), atunci respingem (H0 ).
√
n
(2) Determinam valoarea t1− α ; n−1 astfel incat functia de repartitie pentru t(n − 1),
2
Fn−1 t1− α2 ; n−1 = t1− α2 ; n−1 .
(4) Daca:
(i) |t0 | < t1− α ; n−1 , atunci (H0 ) este admisa (nu poate respinsa);
2
(ii) |t0 | ≥ t1− α ; n−1 , atunci (H0 ) este respinsa (adica (H1 ) este admisa);
2
Testul t unilateral
(H0 ) : µ = µ0
cu probabilitatea de risc α.
Regiunea critica pentru ipoteza nula va trebui sa e multimea valorilor favorabile realizarii ipotezei
alternative, adica este acel interval ce contine doar valori ale statisticii T ce vor duce la respingerea
ipotezei nule si acceptarea ipotezei altrnative. Asadar, daca alegem ipoteza alternativa (H1 )s , atunci
regiunea critica pentru ipoteza nula va multimea valorilor favorabile realizarii ipotezei alternative
Daca alegem ipoteza alternativa (H1 )d , atunci regiunea critica pentru ipoteza nula va :
x − µ0
• daca t0 = d∗ (X)
6∈ U , atunci admitem (H0 ).
√
n
x − µ0
• daca t0 = d∗ (X)
∈ U , atunci respingem (H0 ).
√
n
(H0 ) : µ = µ0
Alti parametri Tipul testului
(H1 ) Regiunea critica
S
σ µ 6= µ0 −∞, −z1− α2 z1− α2 , +∞ Testul Z bilateral
pentru care nu se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum
n1 , x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaza repartitia lui X1 , iar din a doua populatie alegem o selec-
tie repetata de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaza repartitia lui X2 . Fie (X1i )i=1, n1 ,
(X2j )j=1, n2 variabilele aleatoare de selectie corespunzatoare ecarei selectii. Fixam pragul de semni-
catie α. Dorim sa testam ipoteza nula ca mediile sunt egale
(H0 ) : µ1 = µ2
(H1 ) : µ1 6= µ2 ,
(X1 − X2 ) − (µ1 − µ2 )
T = s . (7.13)
d2∗1 d2∗2
+
n1 n2
Daca (H0 ) este admisa (adica admitem ca µ1 = µ2 ), atunci (vezi relatia (6.27)):
T ∼ t(N ), (7.14)
cu N ca in relatia (6.28). Regiunea critica este complementara intervalului de incredere pentru diferenta
mediilor, adica:
U = R \ −t 1− α
2
; N, t 1− α
2
; N .
(2) Determinam valoarea t1− α ; N astfel incat functia de repartitie pentru t(N ),
2
FN t1− α2 ; N = t1− α2 ; N .
(4) Daca:
Observaµia 7.13 (1) In cazul in care σ1 = σ2 si necunoscute, atunci utilizam statistica data de (6.26),
cu ajutorul careia construim regiunea critica si apoi decidem care ipoteza se respinge.
(2) In cazul in care dispersiile sunt cunoscute, atunci se utilizeaza testul Z pentru diferenta mediilor,
care urmeaza pasii testului t pentru diferenta mediilor, cu diferenta ca statistica ce se considera este
data de (6.25) care, dupa acceptarea ipotezei nule, urmeaza repartitia N (µ, σ).
(H0 ) : µ1 = µ2
Alti parametri Tipul testului
(H1 ) Regiunea critica
q 2
σ σ2
σ1 , σ 2 µ1 6= µ2 |X1 − X2 | > z1− α2 n11 + n22 Testul Z bilateral
q 2
σ σ2
cunoscute µ1 < µ2 X1 − X2 < z1−α n11 + n22 Testul Z unilateral stanga
q 2
σ σ2
µ1 > µ2 X1 − X2 > −z1−α n11 + n22 Testul Z unilateral dreapta
q
2 2
σ1 6= σ2 µ1 6= µ2 |X1 − X2 | > t1− 2 ; N d∗ n(X1 1 ) + d∗ n(X2 2 )
α Testul t bilateral
q
2 2
necunoscute µ1 < µ2 X1 − X2 < t1−α; N d∗ n(X1 1 ) + d∗ n(X2 2 ) Testul t unilateral stanga
q
2 2
µ1 > µ2 X1 − X2 > −t1−α; N d∗ n(X1 1 ) + d∗ n(X2 2 ) Testul t unilateral dreapta
unde:
• h, p, ci, m0, alpha, tail sunt la fel ca in functia ztest (Sectiunea 7.6.3);
Exerciµiu 7.14 Dorim sa testam daca o anumita moneda este corecta, adica sansele ecarei fete de
a apare la orice aruncare sunt 50% − 50%. Aruncam moneda in caza de 100 de ori si obtinem fata cu
stema de exact 59 de ori. Pe baza acestei experiente, cautam sa testam ipoteza nula
spunem ca X = 1, daca apare fata cu stema si X = 0, daca apare fata cu banul. Teoretic, X ∼ B(1, 0.5),
Prin ipoteza, ni se da o selectie de volum n = 100 si scriem observatiile facute intr-un vector x ce
contine 59 de valori 1 si 41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selectie.
(H0 ) : µ = 0.5
(H1 ) : µ 6= 0.5.
X −µ
T = d∗ (X)
.
√
n
Daca ipoteza (H0 ) se admite, atunci µ este xat, µ = 0.5, si statistica T ∼ t(n − 1). Valoarea acestei
Din t1− α ; n−1 = t0.975; 99 = 1.9842, rezulta ca |t0 | < t1− α ; n−1 , si decidem ca ipoteza (H0 ) este admisa
2 2
t0 = (mean(x) - mu)/(std(x)/sqrt(n));
end
In loc sa folosim codul de mai sus, am putea folosi functia ttest din Matlab, dupa cum urmeaza:
si obtinem
h = p = ci = stats =
0.6881 df: 99
sd: 0.4943
Observaµia 7.15 (1) Deoarece P −valoarea este p = 0.0717, deducem ca la un prag de semnicatie
(2) Daca dintre cele 100 de observari aveam o aparitie in plus a stemei, atunci ipoteza nula ar
Testul t pentru egalitatea a doua medii poate simulat in Matlab utilizand comanda
unde
• X si Y sunt vectori sau o matrice, continand observatiile culese. Daca ele sunt matrice, atunci
mai multe teste Z sunt efectuate, de-alungul ecarei coloane;
s-au prezentat studentii la acest examen in doi ani consecutivi, selectam aleator notele a 25 de studenti
din prima grupa si 30 de note din a doua grupa. Am gasit urmatoarele distributii de frecvente ale
notelor:
Frecventa absoluta
Nota obtinuta
Grupa M F 0 08 Grupa M F 0 09
5 3 5
6 4 6
7 9 8
8 7 6
9 2 3
10 0 2
(i) Vericati daca ambele seturi de date provin dintr-o repartitie normala;
(ii) Gasiti un interval de incredere pentru diferenta mediilor, la nivelul de semnicatie α = 0.05;
(ii) Sa se testeze (cu α = 0.01) ipoteza nula
(ii) Un interval de incredere la acest nivel de semnicatie se obtine apeland functia Matlab
[h,p,ci,stats]=ttest2(u,v,0.05,'both')
si este:
(-0.7455, 0.6922)
s s
x1 − x2 − t1− α ; N d2∗1 d2∗2 d2∗1 d2∗2
+ , x1 − x2 + t1− α2 ; N +
2 n1 n2 n1 n2
Codul Matlab:
h = p = ci = stats =
0 0.5295 -0.8864 tstat: -0.0744
Inf df: 53
sd: 1.3234 √
Teoria deciziei 179
Fie caracteristica X ce urmeaza legea normala N (µ, σ) cu µ si σ > 0 necunoscute. Consideram datele
x1 , x2 , . . . , xn .
(H0 ) : σ 2 = σ02
(H1 ) : σ 2 6= σ02 ,
cu probabilitatea de risc α. Pentru a efectua acest test, consideram statistica (vezi Sectiunea 6.6.5)
n−1 2
χ2 = d (X), (7.15)
σ2 ∗
care, dupa acceptarea ipotezei (H0 ) (adica σ 2 ia valoarea σ02 ), atunci χ2 ∼ χ2 (n − 1), (conform
Sa notam prin χ20 valoarea statisticii χ2 pentru selectia data. Atunci, regula de decizie este urmatoarea:
• daca χ20 ∈ χ2α ; n−1 , χ21− α ; n−1 , atunci admitem (H0 ) (i.e., σ 2 = σ02 );
2 2
• daca χ20 6∈ χ2α ; n−1 , χ21− α ; n−1 , atunci respingem (H0 ) (i.e., σ 2 6= σ02 ).
2 2
Regiunile critice (pe baza carora se pot face decizii) pentru acestea se gasesc in Tabelul 7.7.
(H0 ) : σ 2 = σ02
Tipul testului
(H1 ) Regiunea critica
S
µ σ 2 6= σ02 −∞, χ2α ; n−1 χ21− α ; n−1 , +∞ Testul χ2 bilateral
2 2
Exerciµiu 7.1 Se cerceteaza caracteristica X, ce reprezinta diametrul pieselor (in mm) produse de un
strung. Stim ca X urmeaza legea normala N (µ, σ). Alegem o selectie de volum n = 11, si obtinem
distributia empirica:
10.50 10.55 10.60 10.65
.
2 3 5 1
(H0 ) : σ 2 = 0.003,
(H1 ) : σ 2 6= 0.003.
√
-
unde:
• h, p, ci, m0, alpha, stats, tail sunt la fel ca in functia ttest (Sectiunea 7.6.6);
pentru care nu se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum
n1 , x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaza repartitia lui X1 , iar din a doua populatie alegem o selec-
tie repetata de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaza repartitia lui X2 . Fie (X1i )i=1, n1 ,
Teoria deciziei 181
(X2j )j=1, n2 variabilele aleatoare de selectie corespunzatoare ecarei selectii. Fixam pragul de semni-
catie α. Dorim sa testam ipoteza nula ca dispersiile sunt egale
si se determina a.i.
P f α2 ; n1 −1, n2 −1 ≤ F ≤ f1− α2 ; n1 −1, n2 −1 = 1 − α
• daca F0 ∈ f α2 ; n1 −1, n2 −1 , f1− α2 ; n1 −1, n2 −1 , atunci admitem (H0 ) (i.e., σ1 = σ2 );
• daca F0 6∈ f α2 ; n1 −1, n2 −1 , f1− α2 ; n1 −1, n2 −1 , atunci respingem (H0 ) (i.e., σ1 6= σ2 ).
Regiunile critice (pe baza carora se pot face decizii) pentru acestea se gasesc in Tabelul 7.8.
182
necunoscute σ12 < σ22 (−∞, f1−α; n1 −1, n2 −1 ) Testul F unilateral stanga
Testul F în Matlab
Testul raportului dispersiilor poate simulat in Matlab utilizand comanda
Testul raportului verosimilitatilor (en., likelihood-ratio test) este un test statistic ce va decide intre
f (x; θ), cu θ parametru necunoscut si e A0 ⊂ A multimi masurabile. Dorim sa testam ipoteza nula
(H0 ) : θ ∈ A0 ,
(H1 ) : θ ∈ A \ A0 ,
ipoteze.
sup L(X1 , X2 , . . . , Xn ; θ)
θ∈A0
Λ = Λ(X1 , X2 , . . . , Xn ; θ) = .
sup L(X1 , X2 , . . . , Xn ; θ)
θ∈A
Teoria deciziei 183
Evident, Λ ∈ (0, 1). Uneori, forma de mai sus pentru Λ este fractia inversata. Sub forma de aici,
raportul verosimilitatilor este mare daca ipoteza nula este mai buna decat ipoteza alternativa iar testul
raportului verosimilitatilor respinge ipoteza nula daca Λ depaseste o anumita valoare. Denim regiunea
P (Λ ≤ λα ; H0 − admis) = α.
• Daca λ > λα , atunci ipoteza (H0 ) se admite (sau, nu poate respinsa la acest nuvel de semni-
catie);
Acest test de concordanta poate utilizat ca un criteriu de vericare a ipotezei potrivit careia un
tialitatii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit si testul χ2 al lui
Pearson sau testul χ2 al celei mai bune potriviri (en., goodness of t test).
Cazul neparametric
Consideram caracteristica X ce urmeaza a studiata, ce are legea de probabilitate data de f (x, θ),
unde θ ∈ Θ ⊂ R este un parametru. Se testeaza concordanta legii empirice cu legea teoretica f (x, θ).
intr-o anumita clasa nu depaseste 5, atunci se vor cumula doua sau mai multe clase, astfel incat
in noua clasa sa e respectata conditia. In acest caz, trebuie tinut cont de modicarea numarului
de clase, iar numarul k trebuie modicat corespunzator (il inlocuim cu noul numar, notat aici
tot cu k ).
unde pi este probabilitatea unei observatii de a apartine clasei i si p0i sunt valori specicate. Daca
p0i nu sunt cunoscute, atunci ele vor trebui estimate mai intai (vezi cazul parametric de mai jos).
• Alegem statistica
k
X (ni − n · pi )2
χ2 = . (7.18)
n · pi
i=1
Teoria deciziei 185
(Valorile ni reprezinta numarul de valori observate in clasa i iar n pi este numarul estimat de
(ni −n·pi )2
valori ale repartitiei cercetate ce ar cadea in clasa i. Astfel, ecare dintre termenii n·pi poate
privit ca ind o eroare relativa de aproximare a valorilor asteptate ale repartitiei cu valorile
observate.)
χ2 se numeste discrepanta.
p
Statistica χ2 urmeaza repartitia χ2 (k − 1). Uneori, statistica χ =
• Alegem regiunea critica pentru χ2 ca ind regiunea pentru care valoarea acestei statistici pentru
observatiile date satisface
• Daca ne aam in regiunea critica, atunci ipoteza nula (H0 ) se respinge la nivelul de semnicatie
α. Altfel, nu sunt dovezi statistice suciente sa se respinga.
Exerciµiu 7.19 Se arunca un zar de 60 de ori si se obtin rezultatele din Tabelul 7.10. Sa se decida,
1 15
2 7
3 4
4 11
5 6
6 17
este
1
(H0 ) : pi = , (i = 1, 2, . . . , 6),
6
186
cu ipoteza alternativa:
1
(H1 ) : Exista un j, cu pj 6= , (j ∈ {1, 2, . . . , 6}).
6
Calculez valoarea statisticii χ2 data de (7.18) pentru observatiile date:
(15 − 10)2 (7 − 10)2 (4 − 10)2 (11 − 10)2 (6 − 10)2 (17 − 10)2
χ20 = + + + + +
10 10 10 10 10 10
= 13.6.
Repartitia statisticii χ2 data de (7.18) este χ2 cu k − 1 = 5 grade de libertate. Regiunea critica este:
Deoarece χ20 se aa in regiunea critica, ipoteza nula se respinge la nivelul de semnicatie α = 0.02,
Observaµia 7.20 Daca nivelul de semnicatie este ales α = 0.01, atunci χ20.99; 5 = 15.0863, ceea ce
determina acceptarea ipotezei nule (adica zarul este corect) la acest nivel.
Codul Matlab:
Cazul parametric
Acest caz apare atunci cand probabilitatile pi nu sunt a priori cunoscute si trebuie estimate. Fiecare
sus este f (x, θ), unde θ = (θ1 , θ2 , . . . , θp ) ∈ Θ ⊂ Rp sunt parametri necunoscuti. Folosim obsrvatiile
culese asupra lui X sa aproximam acesti parametri (de exemplu, prin metoda verosimilitatii maxime).
unde pi este probabilitatea unei observatii de a apartine clasei i si p̂i sunt valorile estimate. Odata
parametrii estimati, etapele testului in cazul parametric sunt cele de mai sus, cu deosebirea ca statis-
tica χ2 data prin (7.18) urmeaza repartitia χ2 cu (k − p − 1) grade de libertate. (se pierd p grade de
Teoria deciziei 187
libertate din cauza folosirii observatiilor date pentru estimarea celor p parametri necunoscuti).
• Determinam intervalul (0, χ21−α; k−p−1) , unde χ21−α; k−p−1 este cuantila de ordin 1 − α pentru
repartitia χ2 cu (k − p − 1);
• Se calculeaza p̂i = F (ai ; θ̂1 , θ̂2 , . . . , θ̂p ) − F (ai−1 ; θ̂1 , θ̂2 , . . . , θ̂p );
k
X (ni − n p̂i )2
• Se calculeaza χ20 = ;
n p̂i
i=1
• Daca χ20 < χ21−α; k−p−1 , atunci acceptam (H0 ), altfel o respingem.
Exerciµiu 7.21 La campionatul mondial de fotbal din 2006 au fost jucate in total 64 de meciuri,
numarul de goluri inscrise intr-un meci avand tabelul de distributie 7.11. Determinati (folosind un
nivel de semnicatie α = 0.05) daca numarul de goluri pe meci urmeaza o distributie Poisson.
meci. Atunci, X ia una dintre valorile {0, 1, 2, 3, 4, 5, 6}, cu frecventele respective din tabel. In totat
au fost inscrise 144 de goluri, deci numarul de goluri pe meci este estimat de media de goluri pe meci,
144
λ̂ = x = 64 = 2.25.
Avem astfel de testat ipoteza nula:
0 8
1 13
2 18
3 11
4 10
5 2
6 2
Din punct de vedere teoretic, daca X este o variabila aleatoare Poisson, atunci multimea tuturor
valorilor sale este multimea numerelor naturale, N. Daca admitem ipoteza (H0 ) (adica X ∼ P(2.25),
atunci pi = pi (λ̂) si tabloul de distributie a valorilor variabilei este: Deoarece pentru ultimele doua
n1 − n pi
Clasa ni pi n pi
n pi
0 8 0.1054 6.7456 0.2333
5 2 0.0506 3.2415 −
≥6 2 0.0274 1.7514 −
clase din tabelul 7.12, X = 5 si X ≥ 5, numerele n pi nu depasesc 5, le stergem din tabel si le unim
Cuantila de referinta (valoarea critica) este χ20.95; 4 = 9.4877. Regiunea critica pentru χ2 este intervalul
(χ20.95; 4 , +∞). Deoarece χ20 < χ20.95; 4 , urmeaza ca ipoteza nula (H0 ) nu poate respinsa la nivelul de
semnicatie α. Asadar, este rezonabil sa armam ca numarul de goluri marcate urmeaza o repartitie
Poisson. √
Observaµia 7.22 Daca ipoteza nula este respinsa, atunci motivul poate acela ca unele valori ale
valorilor asteptate au deviat prea mult de la valorile asteptate. In acest caz, este interesant de ob-
servat care valori sunt extreme, cauzand respingerea ipotezei nule. Putem deni astfel reziduurile
standardizate:
Oi − n pi Oi − Ei
ri = p =p ,
n pi (1 − pi ) Ei (1 − pi )
unde prin Oi am notat valorile observate si prin Ei valorile asteptate. Daca ipoteza nula ar adevarata,
atunci ri ∼ N (0, 1). In general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere
observate extreme.
Acest test este un test de contingenta utilizat in compararea unor observatii date cu o repartitie
cunoscuta (testul K-S cu o selectie) sau in compararea a doua selectii (testul K-S pentru doua selectii).
De fapt, este cuanticat distanta dintre functia de repartitie empirica a selectiei si functia de repartitie
pentru repartitia testata, sau distanta intre doua functii de repartitie empirice. Testul Kolmogorov-
Smirnov cu doua selectii este unul dintre cele mai utile teste de contingenta pentru compararea a doua
selectii. In ecare caz, repartitiile considerate in ipoteza nula sunt repartitii de tip continuu.
Acest test este mai puternic decat testul χ2 , in cazul in care ipotezele testului sunt satisfacute.
Sa presupunem ca ne sunt date un set de date statistice si urmarim sa stabilim repartitia acestor date.
versus ipoteza alternativa (H1 ) care arma ca ipoteza (H0 ) nu este adevarata.
Studiind functia empirica de repartitie a acestui set de date, Kolmogorov a gasit ca (vezi relatia (5.7))
∞
X
unde K(λ) = este functia lui Kolmogorov (tabelata). Daca ipoteza (H0 ) este adevarata, atunci
k=−∞
diferentele dn nu vor depasi anumite valori, dα; n . Este resc, asadar, sa consideram regiunea critica
unde α este nivelul de semnicatie. Dar, pentru orice n xat, sucient de mare, avem ca:
de unde alegem dα; n = λ1−α; n (cuantila de ordin 1 − α pentru functia lui Kolmogorov).
√
• Daca dn satisface inegalitatea n dn < λ1−α; n , atunci admitem ipoteza (H0 );
√
• Daca dn satisface inegalitatea n dn > λ1−α; n , atunci respingem ipoteza (H0 );
ai−1 +ai
• Se calculeaza dn = sup |Fn∗ (ai ) − F (ai )|, x0i = 2 ;
i=1, n
√
• Daca dn satisface inegalitatea n dn < λ1−α; n , atunci admitem ipoteza (H0 ), altfel o respingem.
Exerciµiu 7.23 Intr-o anumita zi de lucru, urmarim timpii de asteptare intr-o statie de tramvai,
pana la incheierea zilei de lucru (adica, pana trece ultimul tramvai). Fie X caracteristica ce reprezinta
numarul de minute asteptate in statie, pana soseste tramvaiul. Rezultatele observatiilor sunt sumarizate
in Tabelul 7.13.
ni 35 25 17 14 6 3
(H0 ) F (x) ∼
= F0 (x) = 1 − e−λ x , x > 0
Deoarece parametrul λ este necunoscut, va trebui estimat pe baza selectiei date, prin metoda verosimil-
∂ ln L ∂ 1
= 0 =⇒ (n ln λ − λ n x) =⇒ λ̂ = .
∂λ ∂λ x
Se observa cu usurinta ca
∂ 2 ln L
| = −n x2 < 0,
∂λ2 λ=λ̂
de unde concluzionam ca λ̂ este punct de maxim pentru functia de verosimilitate.
(0)
pi = P (X ∈ (ai−1 , ai ] | F = F0 ) = F0 (ai ; λ̂) − F0 (ai−1 ; λ̂)
192
Durata (0, 2] (2, 5] (5, 10] (10, 15] (15, 20] (20, +∞)
(0)
pi 0.2917 0.2861 0.244 0.103 0.0435 0.0318
k (0)
X (ni − n p )2
χ20 = (0)
i
= 1.1887.
i=1 n pi
Deoarece χ20 < χ20.95; 4 , ipoteza (H0 ) nu poate respinsa la acest nivel de semnicatie. Codul Matlab
este urmatorul:
x = [ones(35,1);2.5*ones(25,1);7.5*ones(17,1);12.5*ones(14,1);...
17.5*ones(6,1);25*ones(3,1)];
l = 1/mean(x); % estimatorul
F = inline('1-exp(-l*t)'); % functia de repartitie
p1 = F(l,2)-F(l,0); p2 = F(l,5)-F(l,2); p3 = F(l,10)-F(l,5);
p4 = F(l,15)-F(l,10);p5 = F(l,20)-F(l,15); p6 = F(l,1e6)-F(l,20);
n = [35, 25, 17, 14, 6, 3]; p = [p1, p2, p3, p4, p5, p6];
chi2 = (n-100*p).^2/(100*p); cuant = chi2inv(0.95,4);
if (chi2 < cuant)
disp('ipoteza (H0) se admite');
else
disp('ipoteza (H0) se respinge');
end
barbatilor (in centimetri) dintr-o anumita regiune a unei tari. S-a facut o selectie de volum n = 200,
Clasa (−∞, 165] (165, 170] (170, 175] (175, 180] (180, 185] (185, 190] (190, 195] (195, 200] (200, +∞]
ni 12 23 31 43 35 27 17 9 3
[ h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)
[h, p, ksstat, cv] = kstest(x, F, alpha, type)
194
Exerciµiu 7.2 Intr-un oras A, 325 de locuitori din 1500 interogati declara ca nu detin un computer.
Intr-un alt oras, B , 412 din 1800 declara acelasi lucru. Sa se testeze daca proportia de locuitori care nu
detin un computer este aceeasi în ambele orase. (α = 0.05) Facem presupunerea ca numarul cetatenilor
Exerciµiu 7.3 Intr-un spital s-a inregistrat de-alungul timpului sexul copiilor a 564 mame care au
cate 4 copii. Rezultatele sunt cele din Tabelul 7.16. Testati ipoteza ca in ecare familie probabilitatea
4 fete 38
4 baieti 34
Exerciµiu 7.4 Caracteristica X reprezinta cheltuielile lunare pentru convorbirile telefonice ale unei
familii. In urma unui sondaj la care au participat 100 de familii, am obtinut datele (repartitia de
frecvente):
[50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300)
.
6 11 13 18 20 14 11 7
(i) Sa se verice, cu nivelul de semnicatie α = 0.02, ipoteza ca media acestor cheltuieli lunare pentru
o singura familie este de 140 RON , stiind ca abaterea standard este 35 RON .
(ii) Sa se verice aceeasi ipoteza, in cazul in care abaterea standard nu este cunoscuta a priori.
Bibliography
[1] Petru Blaga, Statistica. . . prin Matlab, Presa universitara clujeana, Cluj-Napoca, 2002.
[2] Virgil Craiu, Teoria probabilitatilor cu exemple si probleme, Editura Fundatiei "Romania de
[3] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-
ROM), Duxbury Press, 2006, ISBN: 0534404731.
[4] David Freedman, Robert Pisani, Roger Purves, Statistics, W. W. Norton & Company, Inc., 4th
[5] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, Pren-
tice Hall, 6th edition, 2004, ISBN: 0130085073.
[6] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mic enciclopedie de
statistic , Editura stiintica si enciclopedica, Bucuresti, 1985.
[7] Gheorghe Mihoc, N. Micu, Teoria probabilitatilor si statistica matematica, Bucuresti, 1980.
[8] Elena Nenciu, Lectii de statistica matematica, Universitatea A.I.Cuza, Iasi, 1976.
[9] Octavian Petru³, Probabilitati si Statistica matematica - Computer Applications, Ia³i, 2000.
[10] Dan Stefanoiu, Ghid de utilizare MATLAB, Editura Transilvania, Brasov, 1994.