Dispensa Finale Versione2

Metodi statistici per leconomia
M. D. Cifarelli e C. Gigliarano
Prima versione: Marzo 2011
Questa dispensa ha un carattere riepilogativo e sintetico: intende essere un complemento alle lezioni svolte in aula.
Un particolare ringraziamento al dott. Davide Malacrino per il suo prezioso contributo nella stesura della stessa.
i
ii
Contents
1 La variabile aleatoria 1
1.1 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Variabili aleatorie dotate di densità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 I valori di sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Speranza matematica di una variabile aleatoria . . . . . . . . . . . . . . . . . . 5
1.3.2 I momenti e la varianza di una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Distribuzioni di probabilità notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1 La legge di probabilità binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 La legge di probabilità geometrica e binomiale negativa . . . . . . . . . . . . . 8
1.4.3 La legge di probabilità di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.4 La legge di probabilità gaussiana o normale . . . . . . . . . . . . . . . . . . . . 10
1.4.5 La legge di probabilità esponenziale negativa . . . . . . . . . . . . . . . . . . . 12
1.4.6 La legge di probabilità gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.7 La legge di probabilità beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Funzione di variabile aleatoria (trasformazione di v.a.) . . . . . . . . . . . . . . . . . . 15
1.5.1 Speranza matematica di funzioni di v.a. . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Proprietà della speranza matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Proprietà della varianza di una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 La funzione generatrice dei momenti 21
2.1 Alcune importanti f.g.m. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 La f.g.m. della somma di v.a. stocasticamente indipendenti . . . . . . . . . . . . . . . 24
3 I vettori aleatori 27
3.1 La funzione di ripartizione di un vettore aleatorio bidimensionale . . . . . . . . . . . . 30
3.2 Distribuzioni marginali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Distribuzioni condizionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 La legge di probabilità multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5 La legge gaussiana bidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.7 Funzioni di vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
iv Contents
3.8 Vettori aleatori m-dimensionali e la normale m-dimensionale . . . . . . . . . . . . . . . 47
3.8.1 La legge gaussiana a pi` u dimensioni (multivariata) . . . . . . . . . . . . . . . . 48
4 Statistiche e alcune loro distribuzioni 51
4.1 Campionamento dalla popolazione normale ed alcune distribuzioni notevoli . . . . . . 52
5 Stimatori di massima verosimiglianza 55
5.1 Proprietà asintotiche degli stimatori di massima verosimiglianza . . . . . . . . . . . . . 58
5.1.1 Convergenza in probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1.2 Convergenza in media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.1.3 Convergenza in distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.1.4 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.1.5 Risultati asintotici degli stimatori di massima verosimiglianza . . . . . . . . . . 66
6 Stima parametrica per intervalli 67
6.1 Il metodo della quantità pivotale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2 Campionamento dalla distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2.1 Intervallo di condenza per la media . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2.2 Intervallo di condenza per la varianza . . . . . . . . . . . . . . . . . . . . . . 69
6.2.3 Intervallo di condenza asintotico per una frequenza relativa . . . . . . . . . . 70
6.3 Metodo statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
1
La variabile aleatoria
Uno degli obiettivi principali della statistica è quello di fare inferenza riguardo ad una popolazione di
oggetti mediante lo svolgimento di esperimenti. Tali esperimenti sono casuali, e ciò signica che il loro
esito è incerto, cosicchè un dato risultato è solo uno dei molti esiti possibili.
Denizione 1 Si denisce spazio campionario, indicato con , la totalità di tutti i possibili risultati
di un esperimento.
Il primo passo è quello di identicare i possibili esiti dellesperimento, che vengono detti eventi
elementari.
Denizione 2 Un evento è un sottoinsieme dello spazio campionario. La famiglia di tutti gli eventi
associati ad un dato esperimento è denita spazio degli eventi F.
Un evento è dunque un sottoinsieme dello spazio campionario, ma in generale non tutti i sottoinsiemi
di spazi campionari sono eventi, e quindi la famiglia di tutti i sottoinsiemi dello spazio campionario
non necessariamente corrisponde allo spazio degli eventi. Se lo spazio campionario consiste solo di un
numero nito o numerabile di punti, allora il corrispondente spazio degli eventi sarà la famiglia di
tutti i sottoinsiemi dello spazio campionario stesso.
Noi siamo interessati a stabilire una probabilità sugli eventi. Dobbiamo allora restringerci dalla
classe di tutti i suoi sottoinsiemi ad una classe F di sottoinsiemi che soddis le seguenti proprietà:
(i) F;
(ii) se A F, allora A
C
F;
(iii) se A
1
, A
2
, ... F, allora A
1
A
2
... F.
Ogni collezione di eventi che soddisfa le proprietà (i), (ii), (iii) viene chiamata -algebra. Su F
possiamo ora denire una misura di probabilità.
Denizione 3 Sia lo spazio campionario e F una -algebra di sottoinsiemi di . Si chiama fun-
zione di probabilità una qualunque funzione P denita su F e a valori in [0, 1] che soddisfa le seguenti
condizioni:
2 1. La variabile aleatoria
1. P(A) 0, per ogni A F;
2. P() = 1,
3. se A
1
, A
2
, ... F e A
i
A
j
= i = j, i, j = 1, 2, ... allora P(
i=1
A
i
) =
i=1
P(A
i
).
`
E possibile associare dunque ad un esperimento linsieme degli eventi elementari e la classe di
tutti gli eventi F, unici sottoinsiemi di che hanno titolo ad avere assegnata la probabilità P.
La tripletta (, F, P) sarà detta spazio di probabilit` a.
Nella descrizione dellinsieme degli eventi elementari relativo ad un dato esperimento, i suoi elementi
possono anche essere rappresentati da oggetti concreti (individui, famiglie) di natura non numerica.
In molte situazioni sperimentali, pi` u che allesperimento in sè, si è spesso interessati alle conseguenze,
numericamente valutate, dei possibili risultati sperimentali. Si pensi, ad esempio, al lancio della mon-
etina; se si suppone che al realizzarsi di testa corrisponde un incasso di una certa somma mentre al
realizzarsi di croce un esborso di altra o uguale somma, può interessare il numero di teste realizzato
perchè collegato alla somma vinta o persa. Ciò che risulta rilevante è il valore assunto da una funzione
denita sullinsieme dei possibili risultati dellesperimento.
Il nome che si attribuisce ad una funzione, a valori reali, denita sullinsieme degli eventi elementari
è quello di variabile aleatoria.
Denizione 4 Sia dato lo spazio (, F). Si dice variabile aleatoria (v.a.) ogni funzione a valori reali
denita in , X(), tale che
{ : X() x} F per ogni valore reale x. (1.1)
Si osservi che quando F coincide con la classe di tutti i sottoinsiemi di , e quindi quando è nito
o numerabile, la condizione (1.1) è sempre soddisfatta. Per rendersi conto della necessità di imporre
alla funzione X() di soddisfare la (1.1) basterà dire che, intendendo assegnare una probabilità agli
insiemi { : X() x} per ogni reale x ed avendo probabilizzato F, occorre che tali insiemi
appartengano ad F.
Esempio 5 Si consideri lesperimento consistente nel lancio di due dadi il cui insieme dei risultati è
dato da
= {(i, j) : 1 i 6, 1 j 6, i e j interi}.
Se si è interessati al punteggio totale dei due dadi, perchè, ad esempio, impegnati in una scommessa
riguardante tale punteggio, allora si potrà denire la funzione
X((i, j)) = i +j, (i, j)
la quale assegna ad ogni coppia di punteggi possibili dei due dadi la loro somma. Cos`, X((2, 1)) =
X((1, 2)) = 3, X((5, 6)) = X((6, 5)) = 11,etc.. Naturalmente, sullo stesso insieme possono denirsi
anche altre funzioni.
Il valore che assume la funzione X() in corrispondenza di un esperimento è aleatorio in quanto
dipende dal particolare risultato conseguito nellesperimento, ; ci si potrà allora chiedere con
quale probabilità la funzione X : R assume valore nellintervallo (a, b]. Si tratta di dare signicato
alla scrittura
Probabilità di (a < X b) = Pr(X (a, b]), < a < b < .
Per raggiungere tale nalità si osservi che levento A e lintervallo (a, b] tali che
A = { : a < X() b} F
sono in un certo senso equivalenti giacchè quando si verica A, cioè A, allora X (a, b] e viceversa.
Dato che allevento A si suppone di avere assegnato la probabilità P(A) si potrà porre, per ogni a < b,
P
X
((a, b]) = Pr(X (a, b]) := P({ : a < X() b}) = P(A).
La misura di probabilità P
X
è nota con il nome di distribuzione della v.a. X.
1.1 Variabili aleatorie discrete 3
1.1 Variabili aleatorie discrete
Denizione 6 Una v.a. X denita su (, F) è detta discreta se linsieme dei possibili valori assunti
da X è un insieme R
X
nito o numerabilmente innito.
Esempio 7 Lesperimento consiste nel registrare il numero di auto che transitano per un certo tratto
di strada nellarco di uno specicato intervallo di tempo. I risultati sperimentali potranno essere 0, 1, ...
e quindi = {0, 1, 2, ...}. La funzione X() = è allora una v.a. discreta con R
X
= {0, 1, 2, ..}.
Per descrivere la distribuzione di una v.a. discreta risulta comoda la cosiddetta funzione di proba-
bilità (o di densità discreta) di cui alla seguente
Denizione 8 Se X è una v.a. discreta con R
X
= {x
1
, x
2
, ...}, allora la funzione, denita in R, data
da
p(x) =
_
Pr(X = x
i
) > 0 x = x
i
R
X
0 x / R
X
(1.2)
è detta funzione di probabilità della v.a. X.
Proposizione 9 Se X è una v.a. discreta con R
X
= {x
1
, x
2
, ...}, allora
p(x) 0 per ogni x reale e
xR
X
p(x) = 1 (1.3)
La conoscenza della funzione di probabilità di una v.a. discreta X permette di ottenere immediata-
mente la sua distribuzione, P
X
, cioè la funzione mediante la quale calcolare la probabilità con cui la
v.a. X assume valore in un qualsivoglia sottoinsieme di R. Infatti, se B R
X
R allora
Pr(X B) = P
X
(B) =
xB
Pr(X = x) =
xB
p(x);
se invece B non contiene punti di R
X
allora P
X
(B) = 0.
Una particolare variabile aleatoria discreta è la cosidetta indicatrice di evento. Dato un evento
A F, si chiama funzione indicatrice dellevento A la funzione denita in tale che
I
A
() =
_
1 se A
0 se / A
(1.4)
Accanto alla funzione di probabilità di una v.a. può porsi unaltra funzione ugualmente utile per la
descrizione probabilistica di una v.a.. Si tratta della funzione di ripartizione (f. di r.).
Denizione 10 Sia X una v.a. discreta. Si dice f. di r. della v.a. X la funzione F(x) denita per
ogni reale x, data da
F(x) := Pr(X x), x R. (1.5)
Lordinata della f. di r. calcolata in un punto x R indica pertanto la probabilità con cui la v.a.
X assume valori non maggiori di x. Quando della v.a. è nota la funzione di probabilità, allora dalla
(1.5) si ha
F(x) =
x
i
x
p(x
i
), < x <
il cui signicato è: per calcolare la f. di r. in un punto x, F(x), basta sommare la probabilità di tutti
i punti x
i
di R
X
che soddisfano la disuguaglianza x
i
x.
Proposizione 11 Se F(X) è la f. di r. di una v.a. discreta X, allora
1. F(x) è non decrescente: F(x
1
) F(x
2
) per x
1
< x
2
;
2. F(x) è continua da destra: F(x) = lim
tx
+F(t) per ogni x R;
3. lim
x
F(x) = 0 ; lim
x
F(x) = 1;
4. F(x) lim
h0
+F(x h) = Pr(X = x) 0.
1.2 Variabili aleatorie dotate di densità
Denizione 12 Si dice che la v.a. X è dotata di densità se la probabilità con cui X assume valori
nellintervallo (a, b] è descritta mediante
Pr(X (a, b]) = Pr(a < X b) =
b
a
f(x)dx
in cui f(x) è funzione, denita su tutto lasse reale, tale che
f(x) 0 per ogni x R,
f(x)dx = 1.
La funzione f(x) prende il nome di funzione di densità di probabilità della v.a. X.
La precedente denizione implica
Pr(X (a, b]) =
b
a
f(x)dx =
f(x)dx
f(x)dx = F(b) F(a).

`
E una conseguenza della denizione di v.a. dotata di densità che per ogni x
0
R si abbia P(X =
x
0
) = 0.
`
E questa una caratteristica che non trova riscontro per le v.a. discrete. Ed è a causa di ciò
che le probabilità di tutti i tipi di intervalli sono tra loro uguali
Pr(a < X < b) = Pr(a < X b) = Pr(a X < b) = Pr(a X b) =
b
a
f(x)dx.
Denizione 13 Si chiama funzione di ripartizione (f. di r.) di una v.a. X con funzione di densità di
probabilit` a f(x) la funzione F(x) data da
F(x) =
f(t)dt, x R. (1.6)
La f. di r. valutata in x R rappresenta allora la probabilità con cui X (, x], cioè F(x) =
Pr(X x).
Le proprietà della f. di r. di una variabile aleatoria dotata di densità sono analoghe a quelle date per
la f. di r. relativa alla v.a. discreta.
Aggiungeremo solo che ora F(x) è una funzione continua.
Applicando il teorema fondamentale del calcolo integrale discende, dalla (1.6), che
f(x) = F
(x) =
F(x)
x
in tutti i punti x in cui la funzione f è continua.
Per concludere questo paragrafo gioverà dire che esistono v.a. che non sono nè discrete e nè assoluta-
mente continue; esse vengono dette di tipo misto.
1.3 I valori di sintesi 5
1.3 I valori di sintesi
Abbiamo visto come le proprietà di una variabile aleatoria possono essere descritte mediante la fun-
zione di probabilità o di densità di probabilità (o dalla f.di r.). Tuttavia, la descrizione delle proprietà
della v.a. attraverso queste funzioni può riuscire non agevole sicchè conviene apprezzarle ricorrendo
alla determinazione di un certo numero di caratteristiche sintetiche che pongano in luce particolari as-
petti dellintera distribuzione. Scopo di questa sezione è di presentare alcuni valori di sintesi per le v.a..
1.3.1 Speranza matematica di una variabile aleatoria
Denizione 14 Sia X una v.a. discreta con funzione di probabilità p
X
(x). Allora si chiama speranza
matematica di X la quantità (nita)
E(X) =
xR
X
x p
X
(x)
nellipotesi che
E(|X|) =
xR
X
|x| p
X
(x) < .
Nel caso di v.a. dotata di densità f
X
(x), E(X) può darsi nei termini seguenti.
Denizione 15 Sia X una v.a. con funzione di densità di probabilità f
X
(x). Allora si chiama sper-
anza matematica di X la quantità (nita)
E(X) =
x f
X
(x)dx
nellipotesi che
E(|X|) =
|x| f
X
(x)dx < .
1.3.2 I momenti e la varianza di una v.a.
La speranza matematica E(X) è un caso particolare di una intera classe di valori di sintesi detti
momenti.
Denizione 16 Si dice momento k-mo di una v.a. X, avente funzione di probabilit` a p
X
(x) o di
densità di probabilità f
X
(x), rispettivamente la quantità
E(X
k
) =
xR
X
x
k
p
X
(x) =
k
E(X
k
) =
x
k
f
X
(x)dx =
k
nellipotesi che la serie e lintegrale siano assolutamente convergenti. Si osservi che
1
= E(X).
Denizione 17 Se X è una v.a., si chiama varianza di X la quantità
2
(X) = V (X) =
2
2
1
= E(X E(X))
2
= E(X
2
) (E(X))
2
.
La radice quadrata aritmetica di
2
(X), indicata con (X), è detta scarto quadratico medio.
1.4 Distribuzioni di probabilità notevoli
Scopo di questa sezione è quello di presentare alcune leggi di probabilità note.
1.4.1 La legge di probabilità binomiale
Questa legge di probabilità regola il numero dei successi (o risultati favorevoli) conseguito in una
successione (nita) di prove indipendenti.
Si supponga che un certo esperimento venga replicato N 1 volte e lesito di ognuno di essi possa
essere favorevole (evento A) oppure non favorevole (evento A
C
). Ad esempio, lanciando una monetina
il risultato può essere testa (successo) o croce (insuccesso).
Ad ogni prova dellesperimento associamo una v.a. X
i
, i = 1, ..., N che ne rappresenti lesito;X
i
= 1 se
si verica A (successo) e X
i
= 0 se non si verica A (insuccesso). Si supponga che le v.a. X
1
, ..., X
N
siano mutuamente stocasticamente indipendenti e che P(X
i
= 1) = p, 0 p 1, cioè che la probabilità
dellevento A sia costante ad ogni prova e data dal numero p.
Qual è la legge di probabilità del numero totale di successi nelle N prove? Detto altrimenti, qual è la
legge di probabilità della v.a. X = X
1
+X
2
+... +X
N
?
Denizione 18 Si dice che una v.a. X si distribuisce secondo la legge binomiale di parametri N
1(intero) e 0 p 1, se la sua funzione di probabilità è data
Pr(X = x) = p
X
=
_
_
_
_
N
x
_
p
x
(1 p)
Nx
x = 0, 1, ..., N
0 altrove.
(1.7)
Naturalmente si tratta di una famiglia di funzioni di probabilità, ogni membro della quale si ottiene
ssando un valore intero di N 1 ed un numero reale 0 p 1.
Ritorniamo alla domanda già posta: qual è la legge di probabilità del numero totale di successi in
N prove indipendenti con probabilità di successo costante ed uguale a p ad ogni prova?
La risposta è contenuta nel seguente
Teorema 19 La funzione di probabilità del numero totale di successi ottenuti in N prove indipendenti
con probabilità di successo eguale a p ad ogni prova è data da
Pr(X = x) = p
X
=
_
_
_
_
N
x
_
p
x
(1 p)
Nx
x = 0, 1, ..., N
0 altrove.
(1.8)
Esempio 20 Il tempo di durata (in ore) di un certo tipo di strumento segue una legge di probabilit` a
con funzione di densità
f(x) =
_
1
2
e
1/2x
x 0
0 altrove.
(1.9)
Qual è la probabilità che su 100 strumenti (omogenei) esattamente k abbiano durata maggiore di 2
ore?
La probabilità che uno strumento duri pi` u di 2 ore è data da
p =

2
1
2
e
1/2x
dx = e
1
(1.10)
sicchè, indicato con X il numero degli strumenti che durano pi` u di 2 ore, sarà
Pr(X = k) =
_
N
x
_
(e
1
)
k
(1 e
1
)
100k
k = 0, 1, ..., 100 (1.11)
1.4 Distribuzioni di probabilità notevoli 7
La determinazione della speranza matematica e della varianza di una v.a. X con legge di probabilità
binomiale può farsi o direttamente valutando le somme che servono a denire questi parametri oppure
ricorrendo ai risultati concernenti il calcolo del valore atteso e varianza della somma di v.a.
Con il primo procedimento si ha:
E(X) =
N
x=0
x
_
N
x
_
p
x
(1 p)
Nx
=
N
x=1
x
N!
x!(N x)!
p
x
(1 p)
Nx
=
N
x=1
N!
(x 1)!(N x)!
p
x
(1 p)
Nx
= N
N
x=1
(N 1)!
(x 1)!(N x)!
p
x
(1 p)
Nx
= N
N
x=1
_
N 1
x 1
_
p
x
(1 p)
Nx
= N
N1
s=0
_
N 1
s
_
p
s+1
(1 p)
N1s
= Np
N1
s=0
_
N 1
s
_
p
s
(1 p)
N1s
= Np(p + 1 p)
N1
= Np (1.12)
V (X) = E(X
2
) (E(X))
2
=
N
x=1
x
2
_
N
x
_
p
x
(1 p)
Nx
N
2
p
2
=
N
x=1
x
N!
(x 1)!(N x)!
p
x
(1 p)
Nx
N
2
p
2
= N
N
x=1
x
_
N 1
x 1
_
p
x
(1 p)
Nx
N
2
p
2
= N
N1
s=0
(s + 1)
_
N 1
s
_
p
s+1
(1 p)
N1s
N
2
p
2
= N
_
N1
s=0
s
_
N 1
s
_
p
s+1
(1 p)
N1s
+
N1
s=0
_
N 1
s
_
p
s+1
(1 p)
N1s
_
N
2
p
2
= Np(N 1)p +p N
2
p
2
= Np(1 p) (1.13)
Agli stessi risultati si giunge, pi` u speditamente, ricordando che X = X
1
+ X
2
+ ... + X
N
, con X
i
,
i = 1, ..., N, mutuamente stocasticamente indipendenti con
Pr(X
i
= 1) = p, Pr(X
i
= 0) = 1 p, i = 1, ..., N
E(X
i
) = p, V (X
i
) = p(1 p).
Infatti
E(X) = E
_
N
i=1
X
i
_
=
N
i=1
E(X
i
) = Np (1.14)
V (X) = V
_
N
i=1
X
i
_
=
N
i=1
V (X
i
) = Np(1 p) (1.15)
la seconda delle quali vale in virt` u della mutua indipendenza stocastica delle v.a.
1.4.2 La legge di probabilità geometrica e binomiale negativa
La legge di probabilità geometrica (e anche binomiale negativa) nasce con riferimento allo stesso
teorema che ha condotto alla legge binomiale ma ora, anzichè il numero complessivo di esiti favorevoli
conseguiti in N prove indipendenti, interessa il numero delle prove necessarie per ottenere il primo
successo ovvero il tempo di attesa per il primo successo.
Denizione 21 Si dice che una v.a. X si distribuisce secondo una legge geometrica di parametro
0 p 1 se la sua funzione di probabilità è data da
pr(X = x) =
_
p(1 p)
x1
x = 1, 2, 3, ...
0 altrove.
(1.16)
Si consideri una successione di prove indipendenti ognuna delle quali produce un successo con
probabilità 0 p 1 oppure un insuccesso con probabilità 1 p. Quante prove si devono eseguire
anchè si manifesti il primo successo?
Teorema 22 La funzione di probabilità del numero di prove, indipendenti, e con probabilità costante
0 p 1 di successo, necessario ad ottenere il primo successo è fornita da
Pr(X = x) =
_
p(1 p)
x1
x = 1, 2, 3, ...
0 altrove.
(1.17)
La speranza matematica e la varianza possono essere ottenute facilmente. Si ha infatti:
E(X) =
x=1
xp(1 p)
x1
= p
x=1
x(1 p)
x1
= p
x=1
d
dp
(1 p)
x
(1.18)
Ricorrendo alla serie geometrica
k=0
z
k
= 1 +z +z
2
+... =
1
1 z
e a note proprietà di serie assolutamente convergenti, secondo cui loperazione di derivazione può
essere invertita con quella di somma, si ottiene
E(X) = p
d
dp
x=1
(1 p)
x
= p
d
dp
_
1
1 (1 p)
1
_
= p
d
dp
_
1 p
1 (1 p)
_
= p
d
dp
_
1p
p
_
=
1
p
. (1.19)
Vale inoltre
V (X) = E(X
2
) (E(X))
2
=
1 p
p
2
(1.20)
poichè
E(X
2
) =

x=1
x
2
p(1 p)
x1
= p
_
x=1
x(x 1)(1 p)
x1
+
x=1
x(1 p)
x1
_
= p
_
x=2
x(x 1)(1 p)
x1
+
1
p
2
_
= p(1 p)
_
x=2
x(x 1)(1 p)
x2
+
1
p
2
_
= p(1 p)
d
2
dp
2
x=1
(1 p)
x
+
1
p
= p(1 p)
d
2
dp
2
_
1p
p
_
+
1
p
= p(1 p)
2
p
3
+
1
p
=
2p
p
2
.
Esempio 23 Unurna contiene M palline di cui 0 < K M bianche. Estraendo con una reimmis-
sione, qual è la probabilit` a che la pallina bianca appaia per la prima volta alla quinta estrazione?
Mediamente, quante estrazioni sono necessarie per osservare una pallina bianca?
Poichè la probabilità di estrarre una pallina bianca ad ogni prova è p = K/M, si avrà
Pr(X = 5) =
K
M
_
1
K
M
_
4
=
K(M K)
4
M
5
(1.21)
e
E(X) =
1
p
=
M
K
. (1.22)
La prossima distribuzione è una generalizzazione della legge geometrica. Viene detta binomiale
negativa.
Denizione 24 Si dice che una v.a. X si distribuisce con una legge di probabilità binomiale negativa
di parametri 0 < p 1 e r 1 (intero) se la sua funzione di probabilit` a è data da
Pr(X = x) =
_ _
x1
r1
_
p
r
(1 p)
xr
x = r, r + 1, ...
0 altrove.
Si noti che quando r = 1 si riottiene la legge geometrica.
Esempio 25 Unurna contiene M palline di cui 0 < H < M bianche. Estraendo con reimmissione,
qual è la probabilità che il numero delle estrazioni necessarie per ottenere 3 successi sia uguale a 10?
Poichè p = K/M è la probabilità di successo ad ogni estrazione, r = 3, x = 10 si avrà
Pr(X = 10) =
_
9
2
__
K
M
_
3
_
1
K
M
_
7
1.4.3 La legge di probabilità di Poisson
Tra le leggi di probabilità, quella detta di Poisson è certamente da annoverare fra quelle pi` u frequente-
mente adottate per descrivere fenomeni del mondo reale.
Denizione 26 Si dice che una v.a. è discreata X segue la legge di Poisson con parametro > 0 se
la sua funzione di probabilità ha lespressione:
Pr(X = x) =
_

x
e
x!
x = 0, 1, 2, ..
0 altrove.
Per indicare che X possiede legge di probabilità di Poisson si scriverà X Po().
Se X possiede legge di probabilità di Poisson allora
E(X) =
x=0
x
x
e
x!
= ... =
e
V (X) =
x=0
x
2
x
e
x!

2
= ... = .
Lasciamo la dimostrazione come esercizio.
Esempio 27 Si supponga che il numero di richieste, al secondo, che pervengono ad un computer possa
essere descritto da una legge di Poisson con = 10. Qual è la probabilità con cui nessuna richiesta
arrivi al computer in un secondo? E quella con la quale non ne arrivino pi` u di 15?
Poichè si suppone
Pr(X = x) =
10
x
x!
e
10
x = 1, 2, ..
si avrà
Pr(X = 0) = e
10
mentre
Pr(X 15) = e
10
15
x=0
10
x
x!
= 0.95.
1.4.4 La legge di probabilità gaussiana o normale
La distribuzione gaussiana è quella che pi` u dogni altra trova applicazione nella metodologia statistica.
Infatti essa costitusce un modello che approssima numerose altre distribuzioni e possiede proprietà
matematiche che rendono possibile lottenimento di molti ed importanti risultati teorici.
Denizione 28 Si dice che una v.a. X si distribuisce normalmente con parametri e se possiede
funzione di densità
f(x; , ) =
1
2
e
_
1
2
(
x
)
2
_
< x < +
essendo e > 0 due numeri reali.
Il graco di f(x; , ) è simmetrico rispetto allasse x = ed inoltre ha una forma a campana con
punti di esso in x = e x = +.
Il graco risulta piuttosto piatto per grande mentre appare appuntito per piccolo.
Ad indicare che la v.a. X si distribuisce con la legge gaussiana si scriverà X N(,
2
).
Mostriamo ora che la speranza matematica di X coincide con il parametro mentre la varianza
coincide con
2
.
Si ha infatti
E(X) =
x
1
2
e
1
2
(
x
)
2
dx
=
1
(z +)e
1
2
z
2
dz
avendo posto z = (x )/ da cui dx = dz. Dalla precedente si ottiene allora
E(X) =

ze
1
2
z
2
dz +
2
e
1
2
z
2
dz =
essendo il primo integrale nullo (a causa della disparità della funzione integranda) ed il secondo eguale
a 1 (area sottesa alla particolare densità gaussiana con parametri rispettivamente nullo ed unitario).
Si ha poi il momento secondo
E(X
2
) =
x
2
1
2
e
1
2
(
x
)
2
dx
=
1
(z +)
2
e
1
2
z
2
dz
=
1
2
z
2
e
1
2
z
2
dz +
2
ze
1
2
z
2
dz+
+
2
1
2
z
2
2
dz
=

2
z
2
e
1
2
z
2
dz +
2
=

2
z
_
ze
1
2
z
2
_
dz +
2
.
Questultimo integrale potrà valutarsi integrando per parti. Si ottiene:
z
_
ze
1
2
z
2
_
dz =
_
_
e
1
2
z
2
_
+
1
2
z
2
dz
_

2
2
=
2
e dunque
V (X) = E(X
2
) (E(X))
2
=
2
+
2
2
=
2
.
La densità f(x; 0, 1), cioè la densità di probabilità
f(x; 0, 1) =
1
2
exp
_
x
2
2
_
= (x) < x < +
è detta gaussiana standardizzata.
Limportanza di questa speciale funzione di densità nelle applicazioni ha suggerito la tabulazione
della sua funzione di ripartizione.
Se X è una v.a. dotata di funzione di densità gaussiana con parametri e > 0, allora la v.a.
Y = a +bX, b = 0, è dotata ancora di densità gaussiana con parametri
E(Y ) = a +b V (Y ) = b
2
2
.
Ovvero, la sua funzione di densità è:
f
Y
(y) =
1
|b|
2
e
1
2
(
yab
|b|
)
2
=
1
|b|
2
e
1
2b
2
2
(yab)
2
< y < +.
da ciò segue che ogni densità gaussiana con parametri e può essere ricondotta a quella standard-
izzata.
Se infatti X possiede una densità gaussiana con parametri e , allora la v.a.
Y =
X
+
1
X
avrà funzione di densità f(y; 0, 1) (essendo appunto a + b =
+
1
= 0 e b
2
2 =
1
2

2
= 1).
Dunque, le tavole della funzione di ripartizione corrispondente alla gaussiana standardizzata permet-
tono di determinare la probabilità di numerosi eventi riguardanti una v.a. con legge gaussiana anche
non standardizzata.
1.4.5 La legge di probabilità esponenziale negativa
Denizione 29 Si dice che una v.a. X possiede legge di probabilità esponenziale negativa con parametro
> 0 se la sua funzione di densità è data da
f(x; ) =
_
_
_
e
x
x > 0
> 0
0 altrove.
Proposizione 30 Se X
t
rappresenta il numero di volte che un certo evento A si manifesta nellin-
tervallo di tempo di lunghezza t e se esso è regolato da una legge di Poisson di parametro > 0, allora
il tempo di attesa dellevento T è una v.a. con densità di probabilità esponenziale negativa.
Dimostrazione. La tesi segue immediatamente da
Pr(T t) = 1 Pr(T > t) = 1 Pr(X
t
= 0) = 1 e
t
In altri termini la legge esponenziale negativa regola il tempo di attesa di un evento A nellipotesi
che il numero di volte che si verica A nellintervallo di lunghezza t sia retto da una legge Poisson.
La funzione di ripartizione di una v.a. che abbia densità esponenziale negativa è data da
Pr(X x) =
_
x
0
e
t
dt = 1 e
t
x 0
0 x < 0
ed ha speranza matematica e varianza:
E(X) =
+
0
xe
x
dx =
1
V (X) =
1
2
come si appura immediatamente integrando per parti.
1.4.6 La legge di probabilità gamma
Denizione 31 Si dice che una v.a. continua X possiede legge di probabilità gamma di parametri
> 0 e k > 0, se la sua funzione di densità di probabilità è data da
f(x; , k) =
_

k
x
k1
(k)
e
x
x > 0,
0 altrove
(1.23)
dove la funzione (k) denita da
(k) =

0
x
k1
e
x
dx
è detta funzione gamma.
Consideriamo ora alcune importanti proprietà della funzione gamma, sintetizzate nella seguente
proposizione.
Proposizione 32 Sia (k) =
R
+
x
k1
e
x
dx. Si dimostri che
1. (1) = 1.
2. (k) = (k 1)(k 1), e che quindi (n) = (n 1)! per n N.
3.
_
1
2
_
=

.
Dimostrazione.
1. (1) =
+
x
11
e
x
dx =
+
e
x
dx = 1.
2. (k) =
+
x
k1
e
x
dx =
_
x
k1
e
x
_
+
0
+
+
(k 1)x
k2
e
x
dx
= (k 1)
+
x
(k1)1
e
x
dx = (k 1)(k 1)
(e quindi (n) = (n 1)! per n N).
3.
_
1
2
_
=
+
x
1
2
1
e
x
dx =
+
x
1
2
e
x
dx.
Da (b) si ha che
_
3
2
_
=
1
2
_
1
2
_
, ovvero
_
1
2
_
= 2
_
3
2
_
, e
_
3
2
_
=
+
x
1
2
e
x
dx = (x = t
2
/2) =
+
t
2
e
t
2
2
t dt =
+
t
2
2
e
t
2
2
dt
=
1
2
t
2
2
e
t
2
2
dt =
1
2
_
2
2
_
1
,
riconoscendo lespressione della varianza della variabile aleatoria N(0, 1). Quindi
_
1
2
_
= 2
_
3
2
_
= 2
_
1
2
_
2
2
_
1
_
=

.
La speranza matematica di una v.a. X distribuita come una gamma è data da
E(X) =

0
x
k
x
k1
(k)
e
x
dx =
k
x
k
(k)
e
x
dx,
da cui, ponendo t = x e quindi dx =
1
dt, si ha
E(X) =

k
(k)

0
x
k
k
e
t
dt
=
k
avendo utilizzato la denizione di (k) e la relazione (k + 1) = k(k).

Similmente si ottiene
V (X) =
k
2
.
Nel capitolo dedicato alla funzione generatrice dei momenti porremo in evidenza come la densità
gamma (con k intero) possa essere dedotta quale legge di densità della somma di k v.a. mutuamente
stocasticamente indipendenti ciascuna con legge esponenziale negativa di medesimo parametro.
Facciamo notare che anche la legge gamma ammette uninteressante interpretazione in termini di
tempi di attesa (simile alla binomiale negativa). Precisamente, se X
t
rappresenta il numero di volte
che nellintervallo di lunghezza t (ad es.(0, t]) si verica un evento A e se questo è retto da una legge
di Poisson con parametro , cioè
Pr(X
t
= x) =
(t)
x
x!
e
t
, x = 0, 1, 2, ..., > 0
allora il tempo necessario anchè levento A si manifesti k volte è retto dalla legge gamma con
parametri e k.
La f.di r. corrispondente alla densità gamma non si trova di solito tabulata.
`
E invece tabulata la f.
di r. della cosiddetta densità chi-quadrato che rappresenta una particolare densità gamma avente per
parametri = 1/2 e k = g/2.
Denizione 33 Si chiama legge di probabilità chi-quadrato con g gradi di libertà la densità gamma
della Denizione 31 in cui = 1/2 e k = g/2.
Una v.a. avente densità chi-quadrato con g gradi di libertà viene spesso indicata col simbolo
2
(g)
(leggi chi-quadrato).
Se perciò si intende calcolare Pr(X > c) essendo X una v.a. con densità gamma di parametri e k,
allora (c 0)
Pr(X > c) =
k
x
k1
(k)
e
x
dx =

2c
_
1
2
_
k
(k)
s
k1
e
1
2
s
ds
avendo posto 2x = s. Perciò
Pr(X > c) = Pr(
2
(2k)
> 2c)
e dalle tavole della densità con 2k gradi di libertà si otterrà la probabilità ceercata. Naturalmente, la
speranza matematica e la varianza relativa ad una densità
2
(g)
saranno date da
E(
2
(g)
) = g, V (
2
(g)
) = 2g.
1.4.7 La legge di probabilità beta
La famiglia di distribuzioni beta è una famiglia continua su (0, 1) indicizzata da due parametri e .
Denizione 34 Si dice che una v.a. continua X possiede legge di probabilità beta di parametri > 0
e > 0 se la sua funzione di densità di probabilità è data da
f(x; , ) =
1
B(, )
x
1
(1 x)
1
, 0 < x < 1, > 0, > 0,
dove B(, ) denota la funzione beta, denita da
B(, ) =
1
0
x
1
(1 x)
1
dx.
1.5 Funzione di variabile aleatoria (trasformazione di v.a.) 15
La funzione beta B(, ) è legata alla funzione gamma () attraverso la seguente identità:
B(, ) =
()(
( +)
.
La distribuzione beta è una delle poche distribuzioni note che attribuiscono probabilità 1 ad un
intervallo nito, in questo caso allintervallo (0, 1).
Valore atteso e varianza della distribuzione beta(, ) sono dati da
E(X) =

+
e
V ar(X) =

( +)
2
( + + 1)
.
Al variare dei parametri e , la distribuzione beta assume diverse forme. La densità può essere
strettamente crescente ( > 1, = 1), strettamente decrescente ( = 1, > 1), con forma a U
( < 1, < 1) o unomodale ( > 1, > 1). In caso di = = 1 la densità beta coincide con la
distribuzione uniforme continua sullintervallo (0, 1); la densità uniforme può quindi essere considerata
come un membro della famiglia beta.
1.5 Funzione di variabile aleatoria (trasformazione di v.a.)
Si immagini un esperimento il cui insieme dei risultati è . Sia inoltre X() una v.a. il cui valore
è, naturalmente, determinato dallesito dellesperimento. Se tale valore viene aumentato di un
numero K / 0, il risultato è ancora una v.a. X() + K = Y (). Stessa conseguenza si avrebbe se si
considerasse Y () = cX(), c / 0, e, in generale, Y () = g(X()) dove y = g(x) è una qualunque
funzione reale denita sullasse reale.
Anchè g(X()) sia una v.a. si richiederà alla funzione y = g(x) di soddisfare la condizione
{x R : g(x) z} B(R) per ogni z R,
dove B(R) è la algebra di Borel.
Tale condizione risulta certamente soddisfatta se y = g(x) è funzione continua oppure monotona
crescente o decrescente. Cos`, se X() è una v.a., anche |X()|, X
m
(), aX(), e
X()
e cos` via sono
v.a. poichè tali funzioni sono continue.
Vogliamo ora determinare la funzione di probabilità o di densità o la f. di r. della nuova v.a. Y = g(X).
Per risolvere questo problema si osservi che se A è levento A = {x R : g(x) z} allora {X A} e
{Y z} sono, in un certo senso, equivalenti e perciò
F
Y
(z) = Pr(Y z) := Pr(X A). (1.24)
La (1.24) permette il calcolo di Pr(Y z), cioè della f. di r. della v.a. Y , in termini della distribuzione
della v.a. X.
Se X è una v.a. discreta con R
X
= {x
1
, x
2
, ...} e con funzione di probabilità p
X
(x) allora Y = g(X)
sarà necessariamente discreta in quanto i suoi valori saranno dati da g(x
1
), g(x
2
), ..., anche se non
necessariamente tutti distinti. La (1.24) fornirà allora
Pr(Y z) =
{x:g(x)z}
p
X
(x) = F
Y
(z).
`
E possibile ottenere la funzione di probabilità della v.a. Y , p
Y
(y), mediante
p
Y
(y) =
_
x:g(x)=y
p
X
(x) y R
Y
0 y / R
Y
Se invece la v.a. X possiede densità f
X
(x), allora la (1.24) dà
F
Y
(y) = Pr(Y y) =
x:g(x)y
f
X
(x)dx
La funzione di densità di Y , f
Y
(y), potrà poi ottenersi nei punti in cui esiste, derivando F
Y
(y).
Un importante risultato, solitamente denito come trasformazione integrale di probabilità, è dato
dalla seguente
Proposizione 35 Se X è una v.a. con f. di r. continua F
X
(x) e se y = g(x) = F
X
(x), allora la v.a.
Y = F
X
(X) possiede f. di r.
F
Y
(y) =
_
_
_
0 y < 0
y 0 y < 1
1 y 1
e funzione di densità
F
Y
(y) = f
Y
(y) =
_
1 0 < y < 1
0 altrove
Dimostrazione. Se F
X
(x) è strettamente crescente, allora
Pr(Y y) = Pr(F
X
(x) y) =
_
_
_
0 y < 0
Pr(x F
1
X
(y)) = F
X
(F
1
X
(y)) = y 0 y < 1
1 y 1
Se invece F
X
(x) ha un tratto di costanza, ad esempio, y
0
= F
X
(x
0
), x
0
x x
1
, allora Pr(x
0

X x
1
) = 0 e
Pr(Y y) = Pr(F
X
(x) y) =
_
_
0 y < 0
y 0 y < y
0
Pr(X x
1
) = Pr(X x
0
) = y
0
y = y
0
Pr(X x
0
) +Pr(x
1
X < F
1
X
(y)) = y y
0
y < 1
1 y 1
Si è indicato con F
1
X
la funzione inversa di F
X
.
La Proposizione 35 aerma che la funzione di ripartizione di una qualunque v.a. continua X possiede
una distribuzione uniforme sullintervallo (0, 1).
Una volta determinata la f. di r. di Y = g(X), la funzione di densità di Y si ottiene derivando
F
Y
(y); tuttavia, quando siano vericate alcune condizioni la funzione di densità f
Y
(y) può ottenersi
direttamente senza la previa determinazione di F
Y
(y). Vale infatti il
Teorema 36 Sia X una v.a. con densità f
X
(x) > 0 solo su un intervallo (a, b), eventualmente non
limitato, e sia y = g(x) una funzione con derivata esistente per ogni x (a, b) con g
(x) > 0 per ogni

x (a, b), oppure g
(x) < 0 per ogni x (a, b). Allora la v.a. Y = g(X) è dotata di densità data da
F
Y
(y) = f
Y
(y) =
_
f
X
(g
1
(y))
g
1
(y)
y
< y <
0 altrove
(1.25)
dove = min(g(a), g(b)); = max(g(a), g(b)).
1.5 Funzione di variabile aleatoria (trasformazione di v.a.) 17
Dimostrazione. Se g
(x) > 0 per x (a, b), allora y = g(x) è continua e strettamente crescente, i
limiti g(a) e g(b) esistono ed in pi` u la funzione inversa x = g
1
(y) esiste, è strettamente crescente e
ha derivata nita. Da ciò segue
F
Y
(y) = Pr(Y y) = Pr(g(X) y) = Pr(X g
1
(y)) =
_
_
_
F
X
(g
1
(y)), y <
1 y
0 y <
Derivando rispetto a y si ottiene
F
Y
(y) = f
Y
(y) =
_
F
X
(g
1
(y))

y
g
1
(y) = f
X
(g
1
(y))

y
g
1
(y) < y <
0 altrove.
Similmente, se g
(x) < 0 per x (a, b), si ottiene

F
Y
(y) = Pr(g(X) y) = Pr(X g
1
(y))
= 1 Pr(X < g
1
(y)) = 1 Pr(X g
1
(y))
=
_
_
_
1 F
X
(g
1
(y)), y <
1 y
0 y <
e derivando
F
Y
(y) = f
Y
(y) = F
X
(g
1
(y))

y
g
1
(y) =
_
f
X
(g
1
(y))

y
g
1
(y)
< y <
0 altrove.
Esempio 37 Sia X una v.a con densità esponenziale negativa di parametro > 0 e sia y = e
x
= g(x).
Si ha a = 0, b = +, g(a) = 1, g(b) = +, = 1, = +, g
1
(y) = log y per 1 < y < . La funzione
di densità di Y = e
X
, applicando la (1.25),è data da
f
Y
(y) =
_
f
X
(g
1
(y))

y
g
1
(y)
= f
X
(log y)

y
log y
=

y
+1
1 < y <
0 altrove.
La seguente proposizione mostra limportante relazione esistente tra la distribuzione gaussiana e la
distribuzione chi-quadrato.
Proposizione 38 Sia X una v.a. con distribuzione normale standardizzata (X N(0, 1)). Allora la
v.a. Y = g(X) = X
2
segue una distribuzione chi-quadrato con 1 grado di libertà.
Dimostrazione. Per y > 0 la f. di r. di Y = X
2
è
F
Y
(y) = P(Y y) = P(X
2
y) = P(
y X

y) =
= P(
y < X

y) = P(X

y) P(X
y) = F
X
(
y) F
X
(
y).
La densità di Y può essere ottenuta dierenziando la f. di r.:
f
Y
(y) =

y
F
Y
(y)
=

y
(F
X
(
y) F
X
(
y))
=
1
2
y
f
X
(
y) +
1
2
y
f
X
(
y)
=
1
2
y
(f
X
(
y) +f
X
(
y)).
Sostituendo a f
X
la densità normale standard, otteniamo
f
Y
(y) =
1
22
y
(e
y)
2
2
+e
y)
2
2
) =
1
y
e
y
2
, y > 0
che corrisponde ad una distribuzione chi-quadrato con 1 grado di libertà.
1.5.1 Speranza matematica di funzioni di v.a.
Se si è interessati al calcolo della speranza matematica di Y = g(X), E(Y ), si potranno utilizzare le
seguenti denizioni
E(Y ) =
yR
Y
y p
Y
(y);
E(Y ) =
y f
Y
(y)dy.
Tuttavia le formule precedenti presuppongono la previa determinazione di p
Y
(y) o di f
Y
(y) e ciò,
quando non si richiede altro, risulta superuo bastando, al ne del calcolo di E(Y ), utilizzare diretta-
mente la funzione di probabilità o di densità della v.a. X.
Precisamente vale la
Proposizione 39 Se X è una v.a. con funzione di probabilit` a p
X
(x) o di densità f
X
(x) e se Y =
g(X), allora la speranza matematica di Y è data da
E(Y ) =
yR
Y
y p
Y
(y) =
xR
X
g(x) p
X
(x)
se
xR
X
|g(x)| p
X
(x) <
nel caso discreto e
E(Y ) =
y f
Y
(y)dy =
g(x) f
X
(x)dx
se
|g(x)| f
X
(x)dx <
nel caso di v.a. dotata di densità.
Quanto abbiamo detto per le v.a. che sono funzioni di v.a. vale anche per le v.a. che sono funzioni di
vettori aleatori. Cos` se (X, Y ) è un vettore aleatorio con funzione di densità di probabilità f
XY
(x, y)
e se Z = g(X, Y ) possiede densità di probabilità f
Z
(z), allora
E(Z) =
z f
Z
(z)dz =
g(x, y) f
XY
(x, y)dxdy
e similmente nel caso discreto
E(Z) =
zR
Z
z p
Z
(z) =
(x,y)R
XY
g(x, y) p
XY
(x, y).
1.6 Proprietà della speranza matematica 19
1.6 Proprietà della speranza matematica
Esamineremo ora alcune proprietà della speranza matematica suppondendo in ciascun caso che essa
esista.
1. La speranza matematica di una v.a. X = c costante coincide con la costante c: E(X) = c.
2. La speranza matematica di Y = cg(X) coincide con la speranza matematica di g(X) per la
costante c: E(cg(X)) = cE(g(X)).
3. La speranza matematica di una combinazione lineare di v.a. coincide con lanaloga combinazione
lineare delle speranze matematiche: se Z = aX +bY allora E(aX +bY ) = aE(X) +bE(Y ).
4. Se X e Y sono indipendenti allora E(X Y ) = E(X) E(Y ).
5. Se X è una v.a. con speranza matematica nita, allora E(X c)
2
risulta minimo quando la
costante c coincide con la speranza matematica di X, cioè quando E(X) = c.
1.7 Proprietà della varianza di una v.a.
La varianza di una v.a., quando esiste, possiede varie proprietà.
1. Se c è una costante, allora V (X +c) = V (X), cioè sommare una costante ad una v.a. non altera
la variabilità dello stesso.
2. Se c è una costante, allora V (cX) = c
2
V (X), cioè moltiplicando per una costante c una v.a. se
ne altera la dispersione.
3. Se X è una v.a. e Y = aX +b allora V (Y ) = V (aX +b) = a
2
V (X).
4. Se X e Y sono due v.a. stocasticamente indipendenti allora V (X +Y ) = V (X) +V (Y ).
5. Se X
1
, ..., X
n
sono v.a. due a due stocasticamente indipendenti, allora V (
n
i=1
a
i
X
i
) =
n
i=1
a
2
i
V (X
i
).
2
La funzione generatrice dei momenti
Il calcolo della speranza matematica, varianza ed in generale dei momenti di una v.a. è compito
piuttosto laborioso. Una via ecace per superare inconvenienti di calcolo ma principalmente per
raggiungere altre importanti nalità è quella di utilizzare particolari trasformazioni delle funzioni di
probabilità o di densità di probabilità. Una di queste trasformazioni è quella nota col nome di funzione
generatrice dei momenti. Si tratta di una trasformazione integrale che associa ad ogni funzione di
probabilità o di densità unaltra funzione (quando esiste) con la quale è possibile operare in modo pi` u
agevole per risolvere importanti problemi.
Denizione 40 Si dice funzione generatrice dei momenti (f.g.m.) di una v.a. X con funzione di
probabilit` a p
X
(x) o funzione di densità di probabilità f
X
(x) la funzione (del numero reale t) denita
da
M
X
(t) = E(e
tX
) =
_
_
_
xR
X
e
tx
p
X
(x)
e
tx
f
X
(x)dx
(2.1)
se la serie o integrale esiste nito per ogni valore di t appartenente ad un intorno completo dellorigine,
cioè per ogni < t < , > 0.
Per lesistenza della f.g.m. si richiede che lintegrale o serie esista nito per almeno tutti i valori di
t contenuti in un intorno qualunque dellorigine. Esistono v.a. che non posseggono f.g.m..
Il vantaggio di sostituire ad una funzione di densità f
X
(x) la corrispondente f.g.m. consiste nella
possibilità di operare con regole relativamente pi` u semplici nella risoluzione di numerosi problemi. Ma
il procedimento deve essere giusticato con la circostanza che la corrispondenza tra funzioni di densità
(o di probabilità) e f.g.m. è biunivoca.
Proposizione 41 Se X e Y sono due v.a. con f. di r. F
X
(), F
Y
() e f.g.m. esistenti, M
X
(t), M
X
(t),
allora
F
X
() F
Y
() M
X
() M
Y
().
La proposizione aerma che nella classe delle v.a. aventi f.g.m ad ogni funzione di densità di proba-
bilità corrisponde una sola f.g.m. e, viceversa, ad ogni f.g.m. corrisponde ununica funzione di densità
(o di probabilità).
22 2. La funzione generatrice dei momenti
Un altro importante risultato riguardante la f.g.m. che spiega anche il motivo della terminologia
adottata per designare la funzione M
X
(t) è quello contenuto nella seguente
Proposizione 42 Se X ammette f.g.m. M
X
(t) allora vale
M
(n)
X
(0) =
_

n
t
n
M
X
(t)
_
t=0
= E(X
n
), n 1 intero.
Se dunque la v.a. X possiede f.g.m. allora essa possiede tutti i momenti, e questi ultimi possono
essere ricavati dalla f.g.m. per derivazione successiva secondo la formula precedente.
Esempio 43 Si consideri una v.a. distribuita con la densità di probabilità esponenziale negativa di
parametro > 0. La sua f.g.m. si ottiene
M
X
(t) = E(e
tX
) =

0
e
tx
e
x
dx =

t
, < t < .
Poichè
M
X
(t) =

( t)
2
, M
X
(t) =
2
( t)
3
si avrà
M
X
(0) = E(X) = 1/, M
X
(0) = E(X
2
) = 2/
2
.
Un risultato che ha diusa applicazione riguarda la f.g.m. di una trasformazione lineare di v.a.
Proposizione 44 Se X è una v.a. con f.g.m. M
X
(t) e se Y = aX +b, allora
M
Y
(t) = E(e
tY
) = e
tb
M
X
(at).
Dimostrazione.
M
Y
(t) = E(e
tY
) = E(e
t(aX+b
) = E(e
atX+bt
) = e
tb
E(e
atX
) = e
tb
M
X
(at).
2.1 Alcune importanti f.g.m.
Distribuzione binomiale
M
X
(t) =
N
x=0
e
tx
_
N
x
_
p
x
(1 p)
Nx
=
N
x=0
_
N
x
_
(pe
t
)
x
(1 p)
Nx
= (1 p +pe
t
)
N
, < t < .
Poichè per N 1 si ha
M
X
(t) = N(1 p +pe
t
)
N1
pe
t
M
X
(t) = N(N 1)(1 p +pe
t
)
N2
(pe
t
)
2
+N(1 p +pe
t
)
N1
pe
t
i primi due momenti varranno M
X
(0) = E(X) = Np, M
X
(0) = E(X
2
) = N(N 1)p
2
+ Np
e dunque V (X) = Np(1 p).
2.1 Alcune importanti f.g.m. 23
Distribuzione di Poisson
M
X
(t) =
x=0
e
tx
x
e
x!
= e
x=0
(e
t
)
x
x!
= e
e
e
t
= e
(e
t
1)
, < t < .
Si ha poi
M
X
(t) = e
t
e
(e
t
1)
M
X
(t) = [e
t
+ (e
t
)
2
]e
(e
t
1)
e quindi
E(X) = M
X
(0) =
E(X
2
) = M
X
(0) = +
2
V (X) = .
Distribuzione geometrica
M
X
(t) =
x=1
e
tx
p(1 p)
x1
=
p
1 p
x=1
[(1 p)e
t
]
x
=
p
1 p
(1 p)e
t
1 (1 p)e
t
=
pe
t
1 (1 p)e
t
, < t < log(1 p) > 0.
M
X
(t) =
pe
t
(1 (1 p)e
t
)
2
M
X
(t) =
pe
t
((1 + (1 p)e
t
))
(1 (1 p)e
t
)
3
E(X) = M
X
(0) =
1
p
E(X
2
) = M
X
(0) =
2 p
p
2
V (X) =
1 p
p
2
.
Distribuzione gaussiana
M
X
(t) =
e
tx
1
2
e
1
2
2
(x)
2
dx.
Con la sostituizione s =
x
si ottiene
M
X
(t) = e
t+
2 t
2
2
, < t < .
E(X) = M
X
(0) =
E(X
2
) = M
X
(0) =
2
+
2
, , V (X) =
2
.
Distribuzione gamma
M
X
(t) =

0
e
tx
1
(k)
k
x
k1
e
x
dx
=

0
1
(k)
k
x
k1
e
(t)x
dx
=

k
( t)
k

0
1
(k)
( t)
k
x
k1
e
(t)x
dx
=
_

t
_
k
, < t <
Da cui si ottengono valore atteso e varianza:
E(X) = M
X
(0) =
_
k
_

t
_
k1
( t)
2
_
t=0
=
k
V (X) =
k
2
.
2.2 La f.g.m. della somma di v.a. stocasticamente indipendenti
La determinazione della legge di probabilità di una v.a. somma di altre v.a. è in generale operazione
quasi mai semplice se portata avanti operando direttamente sulle funzioni di probabilità o di densità
di probabilità delle v.a. implicate. Vogliamo ora mostrare come ladozione della f.g.m. facilita grande-
mente questa operazione quando le v.a. sommate si suppongono stocasticamente indipendenti. Vale
in proposito il seguente
Teorema 45 Se X e Y sono due v.a. stocasticamente indipendenti con f.g.m. rispettivamente M
X
(t)
e M
Y
(t), allora la f.g.m. della v.a. somma Z = X +Y è data da
M
Z
(t) = M
X
(t) M
Y
(t).
Dimostrazione. Da M
Z
(t) = E(e
tZ
) = E(e
t(X+Y )
) = E(e
tX
e
tY
) segue, per lindipendenza delle
due v.a. X e Y , che M
Z
(t) = E(e
tX
e
tY
= M
X
(t) M
Y
(t).
Questo importante risultato può essere esteso alla somma di pi` u di due v.a. secondo il seguente
Teorema 46 Se X
1
, X
2
, ..., X
n
sono v.a. mutuamente stocasticamente indipendenti con f.g.m. rispet-
tivamente M
X
1
(t), M
X
2
(t), ..., M
X
n
(t), allora la f.g.m. della v.a. somma Z = X
1
+ X
2
+ ... + X
n
è
data da
M
Z
(t) = M
X
1
(t) M
X
2
(t) ... M
X
n
(t) =
n
i=1
M
X
i
(t).
Questultimo risultato, unito a quello della unicità della f.g.m., permette di ottenere la distribuzione
della somma di v.a. in numerosi ed importanti casi.
Esempio 47 Se X
1
, X
2
, ..., X
n
sono v.a. stocasticamente mutuamente indipendenti con leggi gamma
di parametri (, k
1
), (, k
2
)..., (, k
n
) allora la legge di probabilità della somma Z =
n
i=1
X
i
ha ancora
legge gamma con parametri e

n
i=1
k
i
.
Infatti, la f.g.m. di X
i
è data da
M
X
i
(t) =
_

t
_
k
i
, < t <
2.2 La f.g.m. della somma di v.a. stocasticamente indipendenti 25
e dunque quella della somma Z sarà
M
Z
(t) =
n
i=1
_

t
_
k
i
=
_

t
_
i
k
i
, < t <
la quale corrisponde ad una densità gamma di parametri dati da e

i
k
i
.
Se, in particolare, = 1/2 e k
i
= g
i
/2, i = 1, ..., n allora dal risultato precedente si deduce che la
somma di v.a. stocasticamente mutuamente indipendenti con leggi chi-quadrato con g
i
gradi di libertà
è ancora una legge chi-quadrato con

n
i=1
g
i
gradi di libertà. Se invece k
i
= 1, i = 1, ..., n allora si
deduce che la somma di n v.a. stocasticamente mutuamente indipendenti con leggi esponenziali negative
con lo stesso parametro possiede legge di probabilità gamma con parametri e n.
La proprietà riproduttiva (per somma) della legge di probabilità gamma dimostrata nellesempio
precedente è posseduta anche da altre leggi di probabilità tra cui quella gaussiana, binomiale, di
Poisson, binomiale negativa. Lasciamo al lettore il compito di provare, seguendo lo schema delle-
sempio precedente, che se X
1
, ..., X
n
sono v.a. stocasticamente mutuamente indipendenti con leggi di
probabilità
a) gaussiana di parametri
i
e
2
i
, i = 1, ...n
b) binomiale di parametri (N
1
, p), ..., (N
n
, p)
c) di Poisson di parametri
1
, ...,
n
d) binomiale negativa di parametri (r
1
, p), ..., (r
n
, p)
allora la legge di probabilità della somma Z =
n
i=1
X
i
è
a) gaussiana con parametri

n
i=1
i
e

n
i=1
2
i
, i = 1, ...n
b) binomiale con parametri (
n
i=1
N
i
, p)
c) di Poisson con parametri

n
i=1
i
d) binomiale negativa con parametri (
n
i=1
r
i
, p).
Figura 2.1: Alcune importanti f.g.m.
3
I vettori aleatori
Sia lo spazio dei risultati elementari connesso ad un dato esperimento e siano X() e Y () due
variabili aleatorie (v.a.) denite su in modo che ad ogni risulti assegnato il vettore (X() =
x, Y () = y).
Denizione 48 Si dice vettore aleatorio a due dimensioni il vettore (X(), Y ()) le cui componenti
X() e Y () sono variabili aleatorie denite sullo stesso ambiente .
Esempio 49 Si consideri il lancio di tre monetine regolari e lo spazio degli eventi elementari relativo a
tale esperimento = {(T, T, T), (T, T, C), (T, C, T), (C, T, T), (T, C, C), (C, T, C), (C, C, T), (C, C, C)}
e su tale spazio si deniscano le seguenti due funzioni:
X() = numero di teste in
Y () = numero di teste nelle prime due componenti di .
Tali funzioni costituiscono due v.a. denite su (si consideri la convenzione di considerare come
classe degli eventi quella di tutti i sottoinsiemi di ) e pertanto Z() = (X(), Y ()) è un vettore
aleatorio le cui determinazioni sono:
per = {(T, T, T)}, (X(), Y ()) = (3, 2)
per = {(T, T, C)}, (X(), Y ()) = (2, 2)
per = {(T, C, T)}, (X(), Y ()) = (2, 1)
per = {(C, T, T)}, (X(), Y ()) = (2, 1)
per = {(T, C, C)}, (X(), Y ()) = (1, 1)
per = {(C, T, C)}, (X(), Y ()) = (1, 1)
per = {(C, C, T)}, (X(), Y ()) = (1, 0)
per = {(C, C, C)}, (X(), Y ()) = (0, 0)
Denizione 50 Si dirà che il vettore aleatorio (X(), Y ()) è discreto se entrambe le variabili aleato-
rie X() e Y () sono discrete, cioè, anche, se linsieme di valori che può assumere (X(), Y ()) è
costituito da un numero nito oppure da una innità numerabile di coppie ordinate di numeri reali.
Come per le variabili aleatorie discrete, porremo Pr((X, Y ) = (x, y)) := P{ : (X(), Y ()) =
(x, y)} = P{ : X() = x, Y () = y}.
28 3. I vettori aleatori
Denizione 51 Se (X, Y ) è un vettore aleatorio discreto con possibili valori (x
i
, y
j
), i = 1, 2, ..., k; j =
1, 2, ..., s, allora la funzione
p
XY
(x, y) =
_
Pr((X, Y ) = (x, y)) = Pr(X = x, Y = y) > 0 x = x
i
, y = y
j
0 altrove
è detta funzione di probabilità del vettore aleatorio (X, Y ).
Proposizione 52 Se (X, Y ) è un vettore aleatorio con insieme dei valori possibili R
XY
= {(x
i
, y
j
), i =
1, ..., k; j = 1, ..., s} e con funzione di probabilità p
XY
(x, y), allora
p
XY
(x, y) 0 e
(x,y)R
XY
p
XY
(x, y) = 1. (3.1)
Se di un vettore aleatorio è nota la funzione di probabilità p
XY
(x, y) e se B è un evento di R
XY
, cioè
B = {(x
i
1
, y
j
1
), (x
i
2
, y
j
2
), ...} allora
Pr((X, Y ) B) = P{ : (X(), Y ()) B}
= P{ : (X(), Y ()) = (x
i
1
, y
j
1
) oppure (X(), Y ()) = (x
i
2
, y
j
2
)
oppure (X(), Y ()) = (x
i
3
, y
j
3
) oppure...}
=
k=1
p=1
P{ : X() = x
i
k
, Y () = y
j
p
}
=
(x,y)B
p
XY
(x, y)
ovvero la probabilità di un evento B di R
XY
è eguale alla somma delle probabilità dei singoli elementi
di B.
Esempio 53 Una monetina viene lanciata tre volte. Lo spazio è dato dalle terne
{(T, T, T), (T, T, C), (T, C, T), (C, T, T), (T, C, C), (C, T, C), (C, C, T), (C, C, C)}.
Se p() = 1/8 e se
X() = numero di teste nei primi due lanci
Y () = numero di teste negli ultimi due lanci
allora
{ : X() = 0, Y () = 0} = {(C, C, C)}
{ : X() = 0, Y () = 1} = {(C, C, T)}
{ : X() = 1, Y () = 0} = {(T, C, C)}
{ : X() = 1, Y () = 1} = {(T, C, T), (C, T, C)}
{ : X() = 1, Y () = 2} = {(C, T, T)}
{ : X() = 2, Y () = 1} = {(T, T, C)}
{ : X() = 2, Y () = 2} = {(T, T, T)}
da cui la funzione di probabilit` a di (X, Y )
p
XY
(x, y) =
1
8
per (x, y) {(0, 0), (0, 1), (1, 0), (1, 2), (2, 1), (2, 2)}
=
1
4
per (x, y) = (1, 1)
= 0 altrove
essendo R
XY
= {(0, 0), (0, 1), (1, 0), (1, 1), (1, 2), (2, 1), (2, 2)}.
Se B è levento dato da X+Y > 1, allora i punti di R
XY
che realizzano B sono {(1, 2), (2, 1), (1, 1), (2, 2)}
e quindi
Pr(X +Y > 1) =
(x,y)B
p
XY
(x, y) =
5
8
.
3. I vettori aleatori 29
Ogni funzione p
XY
(x, y) che soddisfa (3.1), indipendentemente dal procedimento con cui essa è stata
derivata e cioè indipendentemente da e dalla misura di probabilità P denita sui suoi sottinsiemi,
è detta funzione di probabilità. Cos` sono funzioni di probabilità di vettori aleatori le seguenti due
funzioni
p
XY
(x, y) =
1
8
per (x, y) = (0, 1), (x, y) = (3, 1), (x, y) = (1, 3), (x, y) = (2, 3)
=
1
4
per (x, y) = (1, 2), (x, y) = (2, 2)
= 0 altrove,
in quanto p
XY
(x, y) 0 (x, y) R
2
e

(x,y)R
XY
p
XY
(x, y) = 1;
p
XY
(x, y) = (1 a)
2
a
x+y
su R
XY
= {(x, y) : x 0, y 0 interi}, 0 < a < 1
= 0 altrove,
in quanto p
XY
(x, y) 0 (x, y) R
2
e
(x,y)R
XY
p
XY
(x, y) =
(x,y)R
XY
(1 a)
2
a
x+y
= (1 a)
2
x=0
a
x
y=0
a
y
= 1.
Quando i valori possibili di (X, Y ) sono in numero nito allora si è soliti riportare la sua funzione di
probabilità sotto forma di tabella a doppia entrata. Sulla riga madre vengono riportati i valori possibili
della componente X, sulla colonna madre quelli della componente Y e nelle caselle le probabilità
corrispondenti. Cos`, per lEsempio 53 si avrebbe
Y \ X 0 1 2
0 1/8 1/8 0
1 1/8 2/8 1/8
2 0 1/8 1/8
in modo che, ad esempio, Pr(X = 1, Y = 1) =
2
8
=
1
4
, Pr(X = 2, Y = 0) = 0 e cos` via.
Denizione 54 Un vettore aleatorio (X, Y ) si dirà dotato di densità se esso può assumere valori in
un insieme innito non numerabile del piano e se esiste una funzione f
XY
(x, y) tale che
f
XY
(x, y) 0 (x, y) R
2
,
f
XY
(x, y)dxdy = 1
e la probabilità Pr(a < X b, c < Y d) è prescritta con
Pr(a < X b, c < Y d) =
b
a
d
c
f
XY
(x, y)dydx.
La funzione f
XY
(x, y) è detta funzione di densità di probabilità del vettore aleatorio (X, Y ).
Come nel caso delle variabili aleatorie, lintegrale di f
XY
(x, y) sullintervallo {(x, y) : a < x b, c <
y d}, cioè il volume ad essa sotteso nellintervallo considerato, rappresenta la probabilità con cui il
vettore assume valori in detto intervallo (del piano).
Per piccoli valori di x e y si ha
f
XY
(x, y)xy Pr(x < Y < x + x, y < Y < y + y).
Anche per i vettori aleatori dotati di densità si ha Pr(X = x, Y = y) = 0 quale che sia il punto del
piano (x, y) ma occorre ora osservare che nulle sono anche le probabilità relative ad altri eventi del
piano, come ad esempio Pr(a < X b, Y = y
0
), Pr(X = Y ). Ed infatti il volume sotteso alla densità
di probabilità sullinsieme {(x, y) : a < x b, y = y
0
} oppure sullinsieme {(x, y) : x = y} è nullo.
Esempio 55 La funzione
f
XY
(x, y) =
_
e
xy
x > 0, y > 0
0 altrove
è una funzione di densità di probabilità in quanto
f
XY
(x, y) 0 (x, y) R
2
e
f
XY
(x, y)dxdy =
e
xy
dxdy = 1.
Se C = {(x, y) : x + y > 1} allora Pr((X, Y ) C) si otterrà integrando f
XY
(x, y) sulla porzione di
piano ombreggiata indicata nella Figura 3.1
Figura 3.1: Graco dellinsieme C
0 1
0
1
6
-
x
y
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Pr((X, Y ) C) =
C
f
XY
(x, y)dxdy = Pr(X +Y > 1) =
=
1
0
_
+
1x
e
x
e
y
dy
_
dx +

1
_
+
0
e
x
e
y
dy
_
dx =
=
1
0
e
x
_
+
1x
e
y
dy
_
dx +

1
e
x
dx
+
0
e
y
dy =
=
1
0
e
x
e
(1x)
dx +

1
e
x
dx 1 =
1
e
+
1
e
=
2
e
.
Naturalmente esistono vettori aleatori che non sono nè discreti nè dotati di densità. Una delle
svariate circostanze in cui ciò si manifesta è quella in cui, ad esempio, X è una variabile aleatoria
discreta e Y invece una variabile aleatoria dotata di densità.
3.1 La funzione di ripartizione di un vettore aleatorio bidimensionale
Denizione 56 Sia (X, Y ) un vettore aleatorio. Si dice funzione di ripartizione (f. di r.) la funzione
di due variabili denita, per ogni (x, y) R
2
, da
F
XY
(x, y) := Pr(X x, Y y).
3.1 La funzione di ripartizione di un vettore aleatorio bidimensionale 31
La funzione di ripartizione valutata nel punto (x, y) rappresenta dunque la probabilità con cui il
vettore (X, Y ) assume valori nellintervallo (, x] (, y].
La f. di r. F
XY
(x, y) possiede requisiti che in parte ripetono quelli della f. di r. di una variabile
aleatoria:
1) F
XY
(x, y) è continua da destra in ognuno degli argomenti;
2) F
XY
(, y) = F
XY
(x, ) = 0; F
XY
(+, +) = 1;
3) per ogni (x
1
, y
1
), (x
2
, y
2
) con x
1
< x
2
, y
1
< y
2
si ha
F = F
XY
(x
2
, y
2
) F
XY
(x
1
, y
2
) F
XY
(x
2
, y
1
) +F
XY
(x
1
, y
1
) 0.
Non dimostreremo queste proprietà; osserveremo solamente che il segno di non negatività nella 3)
dipende dalla circostanza che F = Pr(x
1
< X x
2
, y
1
< Y y
2
).
Quando di un vettore aleatorio si conosce la sua funzione di probabilità o di densità di probabilità,
la f. di r. F
XY
(x, y) può determinarsi tramite
F
XY
(x, y) =
_
_
_
{(s,t),sx,ty}
p
XY
(s, t) nel caso discreto
f
XY
(s, t)ds dt nel caso continuo
Esempio 57 Si consideri il vettore aleatorio (X, Y ) con funzione di probabilità rappresentata nella
seguente tabella a doppia entrata
Y \ X 0 1 2 3
1 1/8 - - 1/8
2 - 1/4 1/4 -
3 - 1/8 1/8 -
Si avrà
F
XY
(x, y) = 0, per x < 0 e y, oppure x e y < 1
=
1
8
per 0 x < 1 e y 1, oppure 1 x 3 e 1 y < 2
=
1
4
per x 3, 1 y < 2
=
3
8
per 1 x < 2, 2 y < 3
=
1
2
per 1 x < 2, y 3
=
5
8
per 2 x < 3, 2 y < 3
=
6
8
per x 3, 2 y < 3
=
7
8
per 2 x < 3, y 3
= 1 per x 3, y 3
Esempio 58 Se (X, Y ) è un vettore aleatorio con densità di probabilità
f
XY
(x, y) =
_
e
xy
x > 0, y > 0
0 altrove
allora
F
XY
(x, y) =
f
XY
(s, t)dtds =
x
0
y
0
e
st
dtds =
=
x
0
e
s
ds
y
0
e
t
dt = (1 e
x
)(1 e
y
), x 0, y 0;
F
XY
(x, y) = 0, x < 0 oppure y < 0.
Quando è nota la f.di r. di un vettore (X, Y ) è possibile determinare la funzione di probabilità o
densità. Infatti, nel caso discreto,
p
XY
(x, y) = F
XY
(x, y) F
XY
(x, y) F
XY
(x, y) +F
XY
(x, y) 0
essendo
F
XY
(x, y) = lim
b0
+F
XY
(x b, y); F
XY
(x, y) = lim
b0
+F
XY
(x, y b)
e
f
XY
(x, y) = lim
x 0
y 0
F
xy
=

2
F
XY
(x, y)
xy
.
3.2 Distribuzioni marginali
Ad ogni vettore aleatorio a due dimensioni (X, Y ) possiamo associare due variabili aleatorie X e Y .
Dalla funzione di probabilità o densità del vettore, con operazioni elementari, si potranno ottenere le
funzioni di probabilità o densità delle due variabili. Esse si dicono funzioni di probabilità marginali
ed informano intorno alla distribuzione di probabilità delle due variabili aleatorie considerate isolata-
mente. Precisamente, si consideri il vettore (X, Y ) discreto con funzione di probabilità p
XY
(x, y).
Poichè
p
XY
(x, y) = Pr(X = x
i
, Y = y
j
) quando x = x
i
, y = y
j
,
volendo determinare la funzione di probabilità della variabile aleatoria X basterà eseguire la somma
delle probabilità degli eventi (incompatibili)
p
X
(x) =
y:(x,y)R
XY
Pr(X = x, Y = y) =
y:(x,y)R
XY
p
XY
(x, y) = Pr(X = x).
Similmente
p
Y
(y) =
x:(x,y)R
XY
Pr(X = x, Y = y) =
x:(x,y)R
XY
p
XY
(x, y) = Pr(Y = y).
Nel caso di vettore dotato di densità si avranno le formule
f
X
(x) =
f
XY
(x, y)dy; f
Y
(y) =
f
XY
(x, y)dx
per la densità di X e Y rispettivamente.
3.2 Distribuzioni marginali 33
Esempio 59 Se (X, Y ) possiede funzione di probabilità rappresentata nella seguente tabella
Y \ X 0 1 2 p
Y
(y)
0 1/8 1/8 - 1/4
1 1/8 2/8 1/8 1/2
2 - 1/8 1/8 1/4
p
X
(x) 1/4 1/2 1/4 1
allora
p
X
(x) =
_
_
_
1
8
+
1
8
=
1
4
x = 0 oppure x = 2
1
8
+
1
4
+
1
8
=
1
2
x = 1
0 altrove
p
Y
(y) =
_
_
_
1
8
+
1
8
=
1
4
y = 0 oppure y = 2
1
8
+
1
4
+
1
8
=
1
2
y = 1
0 altrove
Esempio 60 Se (X, Y ) possiede densità data da
f
XY
(xy) =
_
1 0 < x < 1, 0 < y < 1
0 altrove
allora
f
X
(x) =
_
+
f
XY
(x, y)dy =
1
0
1 dy = 1 0 < x < 1
0 altrove
f
Y
(y) =
_
+
f
XY
(x, y)dx =
1
0
1 dx = 1 0 < y < 1
0 altrove.
Inoltre si ha
F
X
(x) = lim
y+
F
XY
(x, y); F
Y
(y) = lim
x+
F
XY
(x, y).
Mentre dalle distribuzioni bidimensionali è sempre possibile riottenere le marginali, il viceversa non
vale in generale. La conoscenza delle funzioni di probabilità o densità marginali di un vettore aleatorio
(X, Y ) non è, in generale, suciente per la conoscenza della funzione di probabilità o densità del
vettore. Con riferimento al caso discreto infatti, la conoscenza di p
X
(x) e p
Y
(y) equivale a quella della
somma per riga e per colonna degli elementi della tabella a doppia entrata che rappresenta p
XY
(x, y);
è pertanto agevole intendere come, salvo ipotesi aggiuntive, di tabelle che rispettino tali vincoli di
somma se ne possano costruire pi` u di una.
Esempio 61 Consideriamo le due funzioni di probabilità
p
X
(x) =
_
_
_
1/4 x = 0, x = 2
1/2 x = 1
0 altrove
p
Y
(y) =
_
_
_
1/4 y = 0, y = 2
1/2 y = 1
0 altrove
ed immaginiamo che esse rappresentino le funzioni di probabilità marginali di un vettore aleatorio
(X, Y ). Le tre seguenti tabelle a doppia entrata costituiscono altrettanti esempi di funzioni di proba-
bilità p
XY
(x, y) che hanno p
X
(x) e p
Y
(y) come marginali:
Tabella 1:
Y \ X 0 1 2 p
Y
(y)
0 1/4 - - 1/4
1 - 1/2 - 1/2
2 - - 1/4 1/4
p
X
(x) 1/4 1/2 1/4 1
Tabella 2:
Y \ X 0 1 2 p
Y
(y)
0 - - 1/4 1/4
1 - 1/2 - 1/2
2 1/4 - - 1/4
p
X
(x) 1/4 1/2 1/4 1
Tabella 3:
Y \ X 0 1 2 p
Y
(y)
0 1/16 1/8 1/16 1/4
1 1/8 1/4 1/8 1/2
2 1/16 1/8 1/16 1/4
p
X
(x) 1/4 1/2 1/4 1
3.3 Distribuzioni condizionali
Ricordiamo che, dati gli eventi A e B, si denisce probabilità condizionale di A dato B la quantità
P(A|B) =
P(A B)
P(B)
, P(B) > 0.
Sulla scorta della precedente denizione è possibile introdurre la nozione di funzione di probabilità
condizionale.
Supponiamo che (X, Y ) sia un vettore aleatorio discreto con funzione di probabilità
p
XY
(x, y) = Pr(X = x, Y = y)
e con funzioni di probabilità marginali
p
X
(x) = Pr(X = x), p
Y
(y) = Pr(Y = y)
e supponiamo di essere interessati alla valutazione della probabilità
Pr(Y = y|X = x), x R
X
,
vale a dire della probabilità che la variabile Y assuma il valore y nellipotesi che X assuma il valore x.
Siano A
x
= { : X() = x}, B
y
= { : Y () = y} e P(A
x
) = Pr(X = x), P(B
y
) =
Pr(Y = y).
Allora
P(A
x
B
y
) = P{ : X() = x, Y () = y} = Pr(X = x, Y = y)
3.3 Distribuzioni condizionali 35
e
Pr(Y = y|X = x) =
P(A
x
B
y
)
P(A
x
)
=
Pr(X = x, Y = y)
Pr(X = x)
=
p
XY
(x, y)
p
X
(x)
, x R
X
. (3.2)
Si osservi come Pr(Y = y|X = x) sia denita solo per valori x R
X
, cioè per valori di x tali che
p
X
(x) > 0.
La funzione Pr(Y = y|X = x), x R
X
, prende il nome di probabilità condizionale di Y dato X=x.
Similmente si potrà denire la probabilità condizionale di X dato Y = y:
Pr(X = x|Y = y) =
Pr(X = x, Y = y)
Pr(Y = y)
=
p
XY
(x, y)
p
Y
(y)
, p
Y
(y) > 0. (3.3)
Si osservi che per ogni x R
X
, Pr(Y = y|X = x) 0 e in pi` u

y
Pr(Y = y|X = x) = 1 e
similmente per Pr(X = x|Y = y).
Esempio 62 Riprendiamo lEsempio 53 in cui (X, Y ) possiede funzione di probabilità data da
Y \ X 0 1 2 p
Y
(y)
0 1/8 1/8 - 1/4
1 1/8 2/8 1/8 1/2
2 - 1/8 1/8 1/4
p
X
(x) 1/4 1/2 1/4 1
ed in cui X e Y rappresentano rispettivamente il numero di teste realizzate nei primi due lanci e
negli ultimi due lanci di una monetina lanciata tre volte. Qual è la funzione di probabilit` a del numero
di teste osservato nei primi due lanci, nellipotesi che gli ultimi due lanci hanno dato luogo a due
teste?
Si tratta di determinare Pr(X = x|Y = 2).
Poichè Pr(Y = 2) = p
Y
(2) = 1/4 > 0, si avrà
Pr(X = 0|Y = 2) =
p
XY
(0, 2)
p
Y
(2)
= 0
Pr(X = 1|Y = 2) =
p
XY
(1, 2)
p
Y
(2)
=
1/8
1/4
=
1
2
Pr(X = 2|Y = 2) =
p
XY
(2, 2)
p
Y
(2)
=
1/8
1/4
=
1
2
Pr(X = x|Y = 2) = 0, per altri valori di x.
Nel caso di vettori (X, Y ) dotati di densità le denizioni (3.2) e (3.3) non possono essere applicate
a causa dellannullarsi di Pr(X = x) e Pr(Y = y).
Diamo la seguente denizione formale
Denizione 63 Sia (X, Y ) un vettore aleatorio con funzione di densità f
XY
(x, y) e densità marginali
f
X
(x), f
Y
(y). La funzione di densità condizionale di X dato Y = y è la funzione denita da
f
X|Y
(x|y) =
f
XY
(x, y)
f
Y
(y)
, f
Y
(y) > 0 (3.4)
mentre quella di Y dato X = x
f
Y |X
(y|x) =
f
XY
(x, y)
f
X
(x)
, f
X
(x) > 0.
Una giusticazione della precedente denizione può essere data nei termini seguenti.
Si supponga che > 0 sia Pr(y Y y +) > 0.
Possiamo allora denire
Pr(X x|y Y y +) =
Pr(X x, y Y y +)
Pr(y Y y +)
e chiamare f. di r. condizionale di X dato Y = y il seguente limite (se esiste)
F
X|Y
(x|y) = lim
0
Pr(X x|y Y y +).
Se esiste una funzione f
X|Y
(x|y) tale che
F
X|Y
(x|y) =
f
X|Y
(s|y)ds,
allora essa è detta funzione di densità di probabilità condizionale di X dato Y = y.
Si dimostra che se f
XY
(x, y), f
Y
(y) > 0 sono continue in y, allora la funzione di densità condizionale
f
X|Y
(x|y) esiste ed è data dalla (3.4).
Esempio 64 Sia (X, Y ) un vettore aleatorio con funzione di densità
f
XY
(x, y) =
_
2 0 < x < y < 1
0 altrove
Figura 3.2: Graco di R
XY
0 1
0
1
6
-
x
y
.
.
. .
. .
. . .
. . .
. . . .
. . . .
. . . . .
. . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Allora
f
X
(x) =
_
_
_
f
XY
(x, y)dy =
1
x
2dy = 2(1 x) 0 < x < 1
0 altrove
f
Y
(y) =
_
_
_
f
XY
(x, y)dx =
y
0
2dx = 2y 0 < y < 1
0 altrove
f
X|Y
(x|y) =
_
f
XY
(x,y)
f
Y
(y)
=
2
2y
=
1
y
0 < x < y < 1
0 altrove.
3.4 La legge di probabilità multinomiale 37
3.4 La legge di probabilità multinomiale
Si tratta di una legge di probabilità che generalizza la binomiale al caso in cui ci siano pi` u di due
eventi incompatibili.
Si supponga che in un esperimento si possa vericare uno (ed uno solo) degli eventi E
1
, E
2
, ..., E
k+1
(k
1) con probabilità, rispettivamente, p
1
, p
2
, ..., p
k+1
> 0 essendo

1
k+1
p
i
= 1. Se si immagina di
replicare (in modo indipendente) lesperimento N 1 volte (essendo p
i
costante in ognuno degli
esperiment) e si indica con X = (X
1
, X
2
, .., X
k+1
) il vettore aleatorio in cui X
i
denota il numero di
volte che si verica levento E
i
, i = 1, 2, ..., k + 1, qual è la legge di probabilità del vettore X?
Si può dimostrare il seguente
Teorema 65 Se X è il vettore aleatorio che abbiamo denito, la sua legge di probabilità è data da
Pr(X
1
= n
1
, ..., X
k+1
= n
k+1
) =
N!
n
1
!n
2
!...n
k+1
!
p
n
1
1
p
n
2
2
...p
n
k+1
k+1
essendo
n
i
0,
k+1
1
n
i
= N, p
k+1
= 1
k
1
p
i
.
La legge di probabilità data nellespressione precedente è detta multinomiale di parametri N, p
1
, ..., p
k
e nel caso in cui k = 1 si riduce a quella binomiale.
Si può anche mostrare che le leggi di probabilità marginali di X
1
, X
2
, .., X
k+1
sono binomiali. Precisa-
mente:
X
i
Bi(N, p
i
), i = 1, ..., k + 1
e dunque
E(X
i
) = Np
i
V (X
i
) = Np
i
(1 p
i
)
ed in pi` u (ma è meno facile da mostrare):
Cov(X
i
, X
j
) = Np
i
p
j
.
3.5 La legge gaussiana bidimensionale
Denizione 66 Si dice che un vettore ha legge di probabilità gaussiana a due dimensioni se esso
possiede densità data da
f
XY
(x, y) =
1
2
X
1
2
e
1
2(1
2
)
_
_
x
X
X
_
2
2
_
y
Y
Y
__
x
X
X
_
+
_
y
Y
Y
_
2
_
(3.5)
per (x, y) R
2
e per certe costanti
X
,
Y
, 1 < < 1,
X
,
Y
> 0.
Se si eseguono le necessarie integrazioni si ottengono le densità marginali
f
X
(x) =
1
2
e
1
2
2
X
(x
X
)
2
, x R
f
Y
(y) =
1
2
e
1
2
2
Y
(y
Y
)
2
, y R
ovvero densità gaussiane.
Infatti
f
X
(x) =
f
XY
(x, y)dy =
=
1
2
X
1
2
1
2(1
2
)
_
_
x
X
X
_
2
2
_
y
Y
Y
__
x
X
X
_
+
_
y
Y
Y
_
2
_
dy =
=
e
1
2(1
2
)
_
x
X
X
_
2
2
X
1
2
1
2(1
2
)
_
2
y
Y
Y
x
X
X
+
_
y
Y
Y
_
2
_
dy.
Ma
2
_
y
Y
Y
__
x
X
X
_
+
_
y
Y
Y
_
2
=
= 2
_
y
Y
Y
__
x
X
X
_
+
_
y
Y
Y
_
2
+
2
_
x
X
X
_
2
2
_
x
X
X
_
2
=
=
2
_
x
X
X
_
2
+
_
x
X
y
Y
Y
_
2
.
e perciò
f
X
(x) =
1
2
X
1
2
e
1
2
(
x
x
X
)
2
1
2(1)
2
_
y
Y
x
X
X
_
2
dy.
La funzione integranda rappresenta

2
Y
1
2
per la funzione di densità gaussiana di media
Y
+
Y
(
x
X
X
) e varianza
2
Y
(1
2
) e dunque il valore dellintegrale è

2
Y
1
2
da cui il
risultato.
La funzione di densità condizionale di Y dato X = x è invece data da
f
Y |X
(y|x) =
f
XY
(x, y)
f
X
(x)
=
1
2
Y
1
2
e
1
2(1
2
)
_
_
x
X
X
_
2
2
_
x
X
X
__
y
Y
Y
_
+
_
y
Y
Y
_
2
_
+
1
2
_
x
X
X
_
2
=
1
2
Y
1
2
e
1
2(1
2
)
_
2
_
x
X
X
_
2
2
_
x
X
X
__
y
Y
Y
_
+
_
y
Y
Y
_
2
_
=
1
2
Y
1
2
e
1
2(1
2
)
_
y
Y
x
X
X
_
2
=
1
2
Y
1
2
e
1
2(1
2
)
2
Y
_
y
Y
X
(x
X
)
_
2
Per x ssato si tratta di una densità gaussiana con media
Y
+
X
(x
X
) e varianza
2
Y
(1
2
).
Similmente per la densità condizionale di X dato Y = y si ottiene
f
X|Y
(x|y) =
1
2
X
1
2
e
1
2(1
2
)
2
X
(x
X
Y
(y
Y
))
2
.
3.6 Variabili aleatorie indipendenti
Una nozione che generalizza quella dellindipendenza tra due (o pi` u) eventi A e B concerne le variabili
aleatorie. Per introdurre questo concetto di capitale importanza si considerino due v.a. discrete X e
3.6 Variabili aleatorie indipendenti 39
Y denite su e siano A
X
e B
Y
gli insiemi
A
X
= { : X() = x}, B
Y
= { : Y () = y}.
Dalla denizione di indipendenza di due eventi segue che A
X
e B
Y
sono eventi indipendenti se e
solo se
P(A
X
B
Y
) = Pr(X = x, Y = y) = P(A
X
) P(B
Y
) = Pr(X = x) Pr(Y = y).
Si dirà che le due v.a. X e Y sono stocasticamente indipendenti se la precedente fattorizzazione sussiste
per ogni coppia di valori possibili di x e y. Precisamente
Denizione 67 Due v.a. discrete X e Y si dicono stocasticamente indipendenti se e solo se
p
XY
(x, y) = p
X
(x) p
Y
(y) (x, y) R
X
R
Y
. (3.6)
Detto altrimenti, le due v.a. X e Y si dicono stocasticamente indipendenti se la funzione di proba-
bilità del vettore (X, Y ), p
XY
(x, y), può essere scritta come prodotto delle due funzioni di probabilità
marginali p
X
(x) e p
Y
(y).
Esempio 68 Sia (X,Y) un vettore con funzione di probabilità
p
XY
(x, y) =
_
(1 a)
2
a
x+y
(x, y) {0, 1, 2..} {0, 1, 2, ..}, 0 < a < 1
0 altrove
Le funzioni di probabilità marginali di X e Y sono date da
p
X
(x) =
y=0
(1 a)
2
a
x+y
= (1 a)
2
a
x
y=0
a
y
= (1 a)a
x
, x {0, 1, 2, ...}
p
Y
(y) =
x=0
(1 a)
2
a
x+y
= (1 a)
2
a
y
x=0
a
x
= (1 a)a
y
, y {0, 1, 2, ...}
Pertanto
p
XY
(x, y) = (1 a)
2
a
x+y
= (1 a)a
x
(1 a)a
y
, (x, y) {0, 1, 2, ...} {0, 1, 2, ...}
e le due v.a. X e Y sono stocasticamente indipendenti.
Esempio 69 Sia (X, Y ) il vettore con funzione di probabilità p
XY
(x, y) rappresentata nella seguente
tabella
Y \ X 0 1 2 3 p
Y
(y)
0 0,02 0,04 0,06 0,08 0,2
1 0,05 0,10 0,15 0,20 0,5
2 0,03 0,06 0,09 0,12 0,3
p
X
(x) 0,1 0,2 0,3 0,4 1
`
E agevole appurare che per ogni casella della tabella sussiste leguaglianza p
XY
(x, y) = p
X
(x)p
Y
(y).
Ad esempio: 0, 1 = 0, 20, 5; 0, 12 = 0, 40, 3; e cos` via. Le due variabili X e Y sono stocasticamente
indipendenti.
Analoga denizione vale per le v.a. dotate di densità.
Denizione 70 Due v.a. dotate di densità X e Y si dicono stocasticamente indipendenti se e solo se
f
XY
(x, y) = f
X
(x) f
Y
(y) (x, y) R
X
R
Y
(3.7)
in cui f
XY
, f
X
, f
Y
sono rispettivamente la densità del vettore (X, Y ), della v.a. X e della v.a. Y .
Esempio 71 Se (X, Y ) è un vettore aleatorio con funzione di densità di probabilità
f
XY
(x, y) =
_
a
2
e
a(x+y)
x, y > 0, a > 0
0 altrove
allora le due v.a. X e Y sono stocasticamente indipendenti poichè
f
X
(x) =
f
XY
(x, y)dy =
+
0
a
2
e
a(x+y)
dy = a
2
e
ax
+
0
e
ay
dy = ae
ax
, x > 0
f
Y
(y) =
f
XY
(x, y)dx =
+
0
a
2
e
a(x+y)
dx = a
2
e
ay
+
0
e
ax
dx = ae
ay
, y > 0
e
f
XY
(xy) = a
2
e
a(x+y)
= f
X
(x) f
Y
(y) = ae
ax
ae
ay
, (x, y) R
2
+
.
Osservazione. Se luguaglianza (3.6) viene a mancare per una qualsivoglia coppia (x, y) di proba-
bilità positiva oppure la (3.7) per tutti i punti di un sottoinsieme di R
2
che contiene un intervallo del
piano in cui f
XY
(x, y) > 0, allora le due v.a. si dicono connesse o, anche, stocasticamente dipendenti.
La condizione di indipendenza stocastica può esser data, invece che in termini di funzioni di proba-
bilità o densità di probabilità, con riferimento alle f.di r. delle due v.a..
Precisamente
Denizione 72 Due v.a. X e Y sono stocasticamente indipendenti se e solo se
F
XY
(x, y) = F
X
(x) F
Y
(y) (x, y) R
2
.
3.7 Funzioni di vettori aleatori
Siano X() e Y () due funzioni denite in (variabili aleatorie) e sia z = g(x, y) una funzione
sucientemente regolare di x e y; allora Z = g(X, Y ) sarà una variabile aleatoria in quanto le sue
determinazioni dipendono dallesito di dellesperimento. Esempi particolarmente importanti di
funzioni z = g(x, y) sono: z = x +y, z = x/y, z = x y, z = min(x, y), z = max(x, y).
Il problema che si pone è quello di determinare la funzione di probabilità o di densità di probabilità
della nuova variabile aleatoria Z conoscendo la distribuzione del vettore aleatorio (X, Y ).
Per arontare il problema, distingueremo il caso in cui (X, Y ) è discreto dal caso in cui (X, Y ) è
dotato di densità.
Sia allora (X, Y ) un vettore con funzione di probabilità p
XY
(x, y), (x, y) R
XY
e sia Z = g(X, Y ).
Si tratterà di determinare levento equivalente a {Z = z} in termini di (X, Y ) e quindi calcolare la
sua probabilità tramite p
XY
(x, y). Se {Z = z} = {(x, y) R
XY
: g(x, y) = z} = B
z
, allora la funzione
di probabilità di Z valutata in z sarà
Pr(Z = z) =
_
{(x,y):(x,y)B
Z
}
p
XY
(x, y) z R
Z
0 altrove.
(3.8)
3.7 Funzioni di vettori aleatori 41
Esempio 73 Si supponga che p
XY
(x, y) sia rappresentata mediante la seguente tabella
Y \ X 0 1 2
0 0,3 - -
1 0,1 0,1 -
2 - 0,2 0,1
3 - - 0,2
e sia z = g(x, y) = max(x, y).
Naturalmente Z assumerà con probabilità positiva valori in R
Z
= {0, 1, 2, 3}.
Poichè
{Z = 0} è equivalente a {(x, y) = (0, 0)}
{Z = 1} è equivalente a {(x, y) = (0, 1), (x, y) = (1, 0), (x, y) = (1, 1)}
{Z = 2} è equivalente a {(x, y) = (0, 2), (x, y) = (1, 2), (x, y) = (2, 0), (x, y) = (2, 1), (x, y) = (2, 2)}
{Z = 3} è equivalente a {(x, y) = (0, 3), (x, y) = (1, 3), (x, y) = (2, 3)}
si avrà
Pr(Z = 0) = Pr(X = 0, Y = 0) = p
Z
(0) = 0, 3;
Pr(Z = 1) = Pr(X = 0, Y = 1) +Pr(X = 1, Y = 0) +Pr(X = 1, Y = 1) = p
Z
(1) = 0, 2;
Pr(Z = 2) = Pr(X = 0, Y = 2) + Pr(X = 1, Y = 2) + Pr(X = 2, Y = 0) + Pr(X = 2, Y =
1) +Pr(X = 2, Y = 2) = p
Z
(2) = 0, 3;
Pr(Z = 3) = Pr(X = 0, Y = 3) +Pr(X = 1, Y = 3) +Pr(X = 2, Y = 2) = p
Z
(3) = 0, 2;
Pr(Z = z) = 0, z = {0, 1, 2, 3}.
Nel caso di vettori dotati di densità il provvedimento ha la stessa semplicità concettuale ma, di
solito, pi` u complicata realizzazione.
Si consideri levento {Z z}. Esso è equivalente allevento {(x, y) R
XY
: g(x, y) z} = B
z
e
pertanto
Pr(Z z) = F
Z
(z) =

B
z
f
XY
(x, y)dxdy.
Tutto il problema si riduce alla ricerca dellevento B
z
ed alla integrazione della funzione di densità
f
XY
su detto insieme.
Esempio 74 Sia
f
XY
(x, y) =
_
2 0 < x < y < 1
0 altrove
la funzione di densità del vettore (X, Y ) e sia z = max(x, y) = g(x, y). Linsieme R
XY
= {(x, y)
R
2
: 0 < x < y < 1} è rappresentato in Figura 3.3.
Levento {Z z} è equivalente a {(x, y) R
XY
: max(x, y) z}, cioè a
B
z
= {(x, y) R
XY
: x z, y z}, 0 < z < 1.
Pertanto
Pr(Z z) = F
Z
(z) =

{(x,y)R
XY
:xz,yz}
f
XY
(x, y)dxdy
=
z
0
_
z
x
2dy
_
dx = 2
z
0
(z x)dx = z
2
, 0 < z < 1.
Figura 3.3: Graco di R
XY
0 1
0
1
6
-
x
y
.
.
. .
. .
. . .
. . .
. . . .
. . . .
. . . . .
. . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dunque,
F
Z
(z) =
_
_
_
z
2
0 < z < 1
0 z < 0
1 z 1.
Se si deriva la funzione di ripartizione F
Z
(z) ottenuta, si perviene alla funzione di densità di
probabilit` a di Z = max(X, Y ):
z
F
Z
(z) = f
Z
(z) =
_
2z 0 < z < 1
0 altrove.
Osservazione. Abbiamo supposto la funzione z = g(x, y) sucientemente regolare. In realtà la
funzione g deve essere Borel-misurabile, vale a dire linsieme
{(x, y) : g(x, y) < z} B(R
2
), z reale,
dove B(R
2
) è la sigma-algebra di Borel sul piano.
Tale condizione risulta soddisfatta se, ad esempio, g è funzione continua. In ogni caso supporremo
sempre che la condizione risulta soddisfatta per ogni funzione g che andremo a considerare.
Per ottenere direttamente la funzione di densità di Z = g(X, Y ) quando siano soddisfatte alcune
condizioni di regolarità, si può ricorrere al seguente
Teorema 75 Sia (X, Y ) un vettore con funzione di densità f
XY
(x, y) > 0 per (x, y) R
XY
e sia
Z = g
1
(X, Y ) con g
1
funzione continua in R
XY
. Accanto a Z = g
1
(X, Y ) poniamo anche V = g
2
(X, Y )
con g
2
pure continua.
Si consideri il sistema
_
z = g
1
(x, y)
v = g
2
(x, y),
(x, y) R
XY
, che trasforma R
XY
in R
ZV
e si supponga che esso sia biunivoco, cioè ammetta la
soluzione continua
_
x = x(z, v)
y = y(z, v),
(z, v) R
ZV
. Si supponga inoltre che esistono continue in R
ZV
le funzioni
x
z
,
x
v
,
y
z
,
y
v
e tali che
detJ =
x
z
x
v
y
z
y
v
= 0, (z, v) R
ZV
.
Allora la funzione di densità di (Z, V ) è data da
f
ZV
(z, v) =
_
f
XY
(x(z, v), y(z, v)) |detJ|, (z, v) R
ZV
0 altrove.
(3.9)
La funzione di densità di Z = g
1
(X, Y ) (oppure V = g
2
(X, Y )) potrà ottenersi integrando f
ZV
(z, v)
rispetto a v (oppure a z).
Prima di mostrare come utilizzare la (3.9) per ottenere le funzioni di densità delle funzioni z =
x +y, z = x y, z = x/y, illustriamo il suo uso con un esempio.
Esempio 76 Sia (X, Y ) il vettore di densità
f
XY
(x, y) =
_
2 0 < x < y < 1
0 altrove.
e sia da determinare la densità di Z = g
1
(X, Y ) = X +Y . Poniamo anche V = g
2
(X, Y ) = X.
Figura 3.4: Graci di R
XY
e R
ZV
0 1
0
1
6
-
x
y
.
.
. .
. .
. . .
. . .
. . . .
. . . .
. . . . .
. . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
0 2
0
1
6
-
z
v
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Il sistema
_
z = x +y
v = x
con (x, y) R
XY
= {(x, y) : 0 < x < y < 1} dà luogo a
_
x = x(z, v) = v
y = y(z, v) = z v
con (z, v) R
ZV
= {(z, v) : 0 < z < 2, max(z 1, 0) < v < z/2}.
Si ha poi
x
z
= 0,
x
v
= 1,
y
z
= 1,
y
v
= 1 e detJ = 1.
La (3.9) fornisce
f
XY
(x, y) =
_
2 (z, v) R
ZV
0 altrove.
Per ottenere la funzione di densità di Z = X +Y basterà integrare f
ZV
rispetto a v. Si ottiene
f
Z
(z) =
f
ZV
(z, v)dv =
_
z/2
0
2dv = z 0 < z < 1
z/2
z1
2dv = 2 z 1 < z < 2
0 altrove.
Vediamo ora come dalla formula generale (3.9) sia possibile ottenere la densità di
a) Z = X +Y ;
b) Z = X Y ;
c) Z = X/Y .
a) Ponendo z = x +y, v = y, si ha che |detJ| = 1 e la (3.9) fornisce
f
ZV
(z, v) = f
XY
(z v, v)
e integrando rispetto a v
f
Z
(z) =
f
XY
(z v, v)dv
e se X e Y fossero indipendenti
f
Z
(z) =
f
X
(z v)f
Y
(v)dv. (3.10)
Lultimo integrale scritto, in (3.10), prende il nome di integrale di convoluzione.
Esempio 77 Siano X e Y due variabili aleatorie stocasticamente indipendenti e con funzioni
di densità
f
X
(x) =
_
e
x
x > 0
0 altrove.
f
Y
(y) =
_
e
y
y > 0
0 altrove.
Poichè f
X
(x) > 0 per x > 0 e f
Y
(y) > 0 per y > 0, lintegrazione indicata nella (3.10) verrà
eettuata per i valori di v tali che v > 0 e z v > 0. Si ottiene allora
f
Z
(z) =
_
z
0
e
(zy)
e
v
dv = ze
z
z > 0
0 altrove.
b) Ponendo z = x y e v = y, si ha |detJ =
1
|v|
, v = 0, e quindi
f
ZV
(z, v) = f
XY
_
z
v
, v
_
1
|v|
,
da cui la densità di Z = X Y
f
Z
(z) =
f
XY
_
z
v
, v
_
1
|v|
dv
e nel caso indipendente
f
Z
(z) =
f
X
_
z
v
_
f
Y
(v)
1
|v|
dv
=
f
X
_
z
v
_
f
Y
(v)
1
|v|
dv +
+
0
f
X
_
z
v
_
f
Y
(v)
1
|v|
dv. (3.11)
Esempio 78 Siano X e Y due variabili indipendenti e con densità
f
X
(x) =
_
1 0 < x < 1
0 altrove.
f
Y
(y) =
_
1 0 < y < 1
0 altrove.
Linsieme di integrazione della (3.11) è dato da 0 < v < 1, 0 <
z
v
< 1, cioè o < z < v < 1 per
0 < z < 1 mentre è vuoto per altri valori di z.
La densità di X Y è data da
f
Z
(z) =
_
1
z
1
v
dv = log(z) 0 < z < 1
0 altrove.
c) Ponendo z = x/y, v = y, si ha |detJ| = |v| e quindi la (3.9) diviene
f
ZV
(z, v) = f
XY
(zv, v)|v|
dalla quale la densità di Z = X/Y diviene
f
Z
(z) =
f
XY
(zv, v)|v|dv (3.12)
che nel caso di indipendenza diviene
f
Z
(z) =
f
X
(zv)f
Y
(v)|v|dv. (3.13)
Esempio 79 Siano X e Y indipendenti e dotate di densità
f
X
(x) =
_
1 0 < x < 1
0 altrove.
f
Y
(y) =
_
1 0 < y < 1
0 altrove.
Linsieme di integrazione della (3.13) sarà 0 < zv < 1, 0 < v < 1, cioè 0 < v < min(
1
z
, 1)
quando z > 0 e linsieme vuoto quando z < 0.
Perciò la densità di X/Y sarà
f
Z
(z) =
_
1
0
vdv =
1
2
0 < z < 1
1/z
0
vdv =
1
2z
2
z 1
0 altrove.
3.8 Vettori aleatori m-dimensionali e la normale m-dimensionale 47
3.8 Vettori aleatori m-dimensionali e la normale m-dimensionale
`
E agevole estendere le argomentazioni precedenti che riguardavano vettori bidimensionali al caso di
vettori di 3 o pi` u dimensioni. Si parlerà in generale di vettori m-dimensionali.
Possiamo immaginare che in siano state denite m funzioni X
1
(), X
2
(), ..., X
m
(), m 1, e
introdurre per il caso discreto, la funzione di probabilità
p
X
1
,X
2
,...X
m
(x
1
, x
2
, ..., x
m
) = Pr(X
1
= x
1
, X
2
= x
2
, ..., X
m
= x
m
), (x
1
, ..., x
m
) R
X
1
,...,X
m
con le proprietà
a) p
X
1
,...,X
m
(x
1
, ..., x
m
) 0 per ogni (x
1
, ..., x
m
) R
X
1
,...,X
m
b)

(x
1
,...,x
m
)R
X
1
,...,X
m
p
X
1
,...,X
m
(x
1
, ..., x
m
) = 1
c) Pr(a
1
< X
1
b
1
, a
2
< X
2
b
2
, ..., a
m
< X
m
b
m
) =
x
1
(a
1
,b
1
],...,x
1
(a
m
,b
m
]
p
X
1
,...,X
m
(x
1
, ..., x
m
),
e, per il caso continuo, la funzione di densità di probabilità
f
X
1
,...,X
m
(x
1
, ..., x
m
)
con le proprietà
a) f
X
1
,...,X
m
(x
1
, ..., x
m
) 0 per ogni (x
1
, ..., x
m
) R
X
1
,...,X
m
b)

...
f
X
1
,...,X
m
(x
1
, ..., x
m
)dx
1
...dx
m
= 1
c) Pr(a
1
< X
1
b
1
, a
2
< X
2
b
2
, ..., a
m
< X
m
b
m
) =
b
1
a
1
b
2
a
2
...
b
m
a
m
f
X
1
,...,X
m
(x
1
, ..., x
m
)dx
1
...dx
m
.
La denizione di f. di r. Pr(X
1
x
1
, ..., X
m
x
m
) è del tutto analoga al caso bidimensionale:
F
X
1
...X
m
(x
1
, ..., x
m
) =
{(t
1
,..,t
m
):t
1
x
1
,...,t
m
x
m
}
p
X
1
,X
2
,...X
m
(t
1
, t
2
, ..., t
m
)
F
X
1
...X
m
(x
1
, ..., x
m
) =
x
1
...
x
m
f
X
1
,...,X
m
(t
1
, ..., t
m
)dt
1
...dt
m
rispettivamente per il caso discreto e il caso con densità.
Si deniscono le funzioni di densità di probabilità marginali unidimensionali
f
X
1
(x
1
) =
...
. .
(m1)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
2
dx
3
...dx
m
f
X
2
(x
2
) =
...
. .
(m1)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
1
dx
3
...dx
m
f
X
m
(x
m
) =
...
. .
(m1)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
1
dx
2
...dx
m1
mentre le funzioni di densità di probabilità marginali bidimensionali
f
X
1
X
2
(x
1
, x
2
) =
...
. .
(m2)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
3
...dx
m
f
X
m1
X
m
(x
m1
, x
m
) =
...
. .
(m2)
f
X
1
...X
m
(x
1
, ..., x
m
)dx
1
dx
2
...dx
m2
.
Ripartito il vettore (X
1
, ..., X
m
) nei due sottovettori (X
1
, ..., X
k
|X
k+1
, ..., X
m
) si denirà la funzione
di densità condizionale di (X
1
, ..., X
k
) dato X
k+1
= x
k+1
, ..., X
m
= x
m
, la funzione
f
X
1
...X
k
|X
k+1
...X
m
(x
1
, ..., x
k
|x
k+1
, ..., x
m
) =
f
X
1
...X
m
(x
1
, ..., x
m
)
f
X
k+1
...X
m
(x
k+1
, ..., x
m
)
in cui a denominatore (positivo) compare la densità marginale di (X
k+1
, ..., X
m
).
Si dirà inne che le v.a. X
1
, X
2
, ..., X
m
sono mutuamente stocasticamente indipendenti se (e solo se)
f
X
1
...X
m
(x
1
, ..., x
m
) =
m
i=1
f
X
i
(x
i
) (x
1
, ..., x
m
) R
m
essendo f
X
i
(x
i
) la funzione di densità di probabilità marginale della v.a. X
i
, i = 1, 2, ..., m.
Una importante situazione in cui ricorrere alla nozione di vettore aleatorio m-dimensionale è quella
esemplicata qui di seguito.
Si supponga che X rappresenti la durata di vita aleatoria di un certo utensile con funzione di densità
f
X
(x). Nellipotesi che un gruppo di m utensili siano in qualche modo omogenei possiamo indicare
con (X
1
, X
2
, ..., X
m
) le loro durate di vita. Perciò (X
1
, ..., X
m
) rappresenta un vettore aleatorio. Se
ora si può ipotizzare che le v.a. X
1
, ..., X
m
siano mutuamente stocasticamente indipendenti e con la
stessa distribuzione
f
X
1
(x
1
) = f
X
2
(x
2
) = ... = f
X
m
(x
m
) = f
X
(x)
allora si dirà che il vettore aleatorio (X
1
, ..., X
m
) con funzione di densità
f
X
1
...X
m
(x
1
, ..., x
m
) =
m
i=1
f
X
(x
i
)
costituisce un campione bernoulliano di ampiezza m 1 estratto dalla popolazione X con densità
f
X
(x).
3.8.1 La legge gaussiana a pi` u dimensioni (multivariata)
Siano X
i
, i = 1, 2, ..., m v.a. indipendenti e con distribuzione gaussiana standard di parametri = 0 e
2
= 1, cioè con funzione di densità
f
X
i
(x) =
1
2
e
1
2
x
2
, < x < .
3.8 Vettori aleatori m-dimensionali e la normale m-dimensionale 49
La funzione di densità del vettore aleatorio X = (X
1
, ..., X
m
) sarà perciò data da
f
X
1
...X
m
(x
1
, .., x
m
) =
m
i=1
f
X
i
(x
i
) =
_
1
2
_
m/2
e
1
2
i
x
2
i
=
_
1
2
_
m/2
e
1
2
x
T
x
essendo x
T
= (x
1
, x
2
, ..., x
m
).
Si dice allora che il vettore aleatorio X ha distribuzione gaussiana m-dimensionale standard.
Pi` u in generale,
Denizione 80 Sia Y = (Y
1
, ..., Y
m
) un vettore aleatorio. Si dice che Y è distribuito con legge
gaussiana m- dimensionale se possiede la funzione di densità data da
f
Y
(y
1
, ..., y
m
) =
_
1
2
_
m/2
||
1
2
e
1
2
(y)
T
1
(y)
dove è una matrice simmetrica (
ij
=
ji
) e non singolare, || è il determinante della matrice e
T
= (
1
,
2
, ..,
m
).
Si ha che
E(Y) = , cioè
T
= (
1
,
2
, ..,
m
) rappresenta il vettore delle speranze matematiche di Y,
cioè E(Y
i
) =
i
, i = 1, ..., m.
è la matrice di varianze-covarianze: Cov(Y
i
, Y
j
) =
ij
, i = j e che V (Y
i
)
ii
, i = 1, ..., m
Per indicare che il vettore Y = (Y
1
, ..., Y
m
) si distribuisce con densità gaussiana si usa scrivere
Y N
m
(, ).
Nel caso m = 2 la funzione di densità di (Y
1
, Y
2
) assume la forma
f
Y
1
,Y
2
(y
1
, y
2
) =
1
2
1
1
2
e
1
2(1
2
)
_
_
y
1
1
_
2
2
y
1
1
y
2
2
+
_
y
2
2
_
2
_
dove
i
= E(Y
i
),
2
i
= V (Y
i
) > 0, i = 1, 2 e (1, 1) è il coeciente di correlazione lineare tra Y
1
e
Y
2
; si ha cioè
=
_

2
1

1
2

2
2
_
e, naturalmente, se = 0, le due variabili Y
1
e Y
2
risultano, oltre che non correlate naturalmente,
anche indipendenti.
Inne, si ha che
Y
1
|Y
2
= y N
_
1
+

1
2
(y
2
),
2
1
(1
2
)
_
Y
i
N(
i
,
2
i
), i = 1, 2
sicchè la funzione di regressione di Y
1
su Y
2
è lineare con varianza costante.
4
Statistiche e alcune loro distribuzioni
Uno dei principali problemi della statistica è quello della stima dei parametri della distribuzione di
una popolazione sulla base di un campione estratto da essa. Il problema della stima può presentarsi in
due forme distinte. Nella prima si assume che sia nota la forma analitica della funzione di ripartizione
o di densità della popolazione e non siano noti uno o pi` u parametri della stessa. Si parla allora di
problemi di stima parametrici. Se ad esempio una popolazione ha distribuzione normale si può
dire che la classe di tutte le possibili distribuzioni ammesse per la popolazione è linsieme delle dis-
tribuzioni normali le quali dieriscono tra loro per i valori che possono assumere i due parametri e
2
. Nella seconda forma non si assume la forma analitica della funzione di ripartizione e pertanto gli
elementi della classe delle distribuzioni ammissibili della popolazione possono dierire non solo per i
valori dei parametri ma anche per la forma analitica. In questo caso si parla di problemi di stima non
parametrici.
Qui aronteremo solo problemi di stima parametrici.
Si intende per popolazione statistica una variabile aleatoria X caratterizzata dalla funzione di ripar-
tizione F(x) o di densità f(x), nel caso continuo, o dalla funzione di probabilità p(x) nel caso discreto.
Come abbiamo già visto, si denisce campione bernoulliano di ampiezza n 1 estratto dalla popo-
lazione data X la variabile aleatoria n-dimensionale (X
1
, X
2
, ..., X
n
) caratterizzata dalla funzione di
ripartizione
P(X
1
x
1
, ..., X x
n
) =
n
i=1
F(x
i
), (x
1
, ..., x
k
) R
n
.
Pi` u esplicitamente, ln-pla campionaria (X
1
, ..., X
n
) si compone di variabili
mutuamente indipendenti,
che posseggono tutte la stessa funzione di ripartizione coincidente con quella della popolazione.
Supponiamo data una popolazione X con funzione di ripartizione F(x; ) in cui è un parametro
non noto che si intende stimare sulla base di un campione (X
1
, ..., X
n
).
`
E chiaro che tutte le infor-
mazioni disponibili sulla popolazione, e quindi sul parametro, sono solo quelle fornite dal campione.
Per sintetizzare tali informazioni intorno a occorre in qualche modo ridurle ad un solo numero. Ciò
può essere fatto proponendo una funzione T
n
= T(X
1
, ..., X
n
) indipendente da .
52 4. Statistiche e alcune loro distribuzioni
Denizione 81 Una qualunque funzione delln-pla campionaria (X
1
, ..., X
n
) del tipo T
n
= T(X
1
, ..., X
n
)
(ossia indipendente da ) viene detta stimatore di .
Data tale denizione risulta evidente che, per essere T
n
funzione di n variabili aleatorie, è essa stessa
una variabile aleatoria.
Il valore di T
n
calcolato per una particolare realizzazione del campione viene indicato con t
n
e detto
stima di . La questione fondamentale della teoria della stima puntuale è evidentemente quella di
predisporre lo stimatore T
n
di che fornisca buoni risultati.
Importanti esempi di stimatori sono la media campionaria
X =
1
n
n
i=1
X
i
,
la varianza campionaria
S
2
=
1
n
n
i=1
(X
i

X)
2
e la varianza campionaria corretta
S
2
C
=
1
n 1
n
i=1
(X
i

X)
2
.
Esse godono delle seguenti proprietà
Proposizione 82 Sia X
1
, X
2
, ...X
n
un campione casuale da una densità f() con valore atteso e
varianza nita
2
. Allora
E(
(X)) = e V ar(

X) =

2
n
;
E(S
2
C
) =
2
.
La proposizione aerma che la distribuzione della media campionaria

X è centrata attorno alla
media della popolazione , ossia che la media campionaria è uno stimatore corretto (o non distorto)
per la media della popolazione. Inoltre, V ar(

X) =

2
n
indica che la dispersione dei valori di

X attorno
a è piccola se lampiezza del campione è grande. Inne, dalla proposizione si evince anche che la
varianza campionaria corretta S
2
C
è uno stimatore corretto per la varianza della popolazione.
4.1 Campionamento dalla popolazione normale ed alcune
distribuzioni notevoli
Ci occupiamo ora di determinare la densità di probabilità di qualche funzione campionaria T
n
quando
il campione è estratto dalla popolazione normale N(,
2
).
La prima di queste funzioni campionarie è la media campionaria denita da
X =
1
n
n
i=1
X
i
essendo (X
1
, ..., X
n
) il campione bernoulliano.
Vale il seguente
Teorema 83 Sia (X
1
, ..., X
n
) un campione estratto da N(,
2
). La variabile aleatoria

X risulta
distribuita ancora normalmente con media e varianza

2
n
(ossia

X N(,

2
n
)). Inoltre, la variabile
aleatoria Z
n
=
n
i=1
X
i
risulta distribuita anchessa normalmente con media n e varianza n
2
(ossia
Z
n
N(n, n
2
)).
4.1 Campionamento dalla popolazione normale ed alcune distribuzioni notevoli 53
Il seguente risultato generalizza quanto avevamo già dimostrato nel capitolo 1, ossia la relazione tra
la distribuzione normale standard e la distribuzione chi-quadrato.
Teorema 84 Sia (X
1
, ..., X
n
) un campione estratto da N(0, 1). La variabile aleatoria Y =
n
i=1
X
2
i
si distribuisce con densità chi-quadrato con n gradi di libert` a, ovvero
f
Y
(y) =
1
2
n/2
(
n
2
)
e
y/2
y
n
2
1
y > 0.
Pi` u in generale:
Teorema 85 Sia (X
1
, ..., X
n
2
). La variabile aleatoria Y =
n
i=1
_
X
i
_
2
si distribuisce con densità chi-quadrato con n gradi di libert` a.
Tradotto in parole, il Teorema 85 dice che la somma dei quadrati di variabili aleatorie casuali normali
standardizzate indipendenti ha una distribuzione chi-quadrato con gradi di libertà uguali al numero
dei termini delladdizione.
Dopo aver enunciato la distribuzione della media campionaria sotto lipotesi di popolazione gaus-
siana, cerchiamo ora la distribuzione della varianza campionaria S
2
sempre assumendo che la popo-
lazione sia gaussiana. Vale il seguente
Teorema 86 Sia (X
1
, ..., X
n
2
). La variabile aleatoria
nS
2
2
=
n
i=1
(X
i
X)
2
2
si distribuisce con densità chi-quadrato con n 1 gradi di libertà, ovvero S
2
si distribuisce come una
gamma di parametri =
n1
2
e =
n
2
2
.
Si osservi che la densità di
nS
2
2
è indipendente da
2
.
Il termine gradi di libertà può riferirsi al numero di quadrati indipendenti nella somma. Per esempio,
la varianza campionaria S
2
ha solo n 1 termini indipendenti poichè la relazione

n
i=1
(X
i

X) = 0
ci consente di calcolare una delle dierenze X
i

X, date le altre n 1 dierenze.
Teorema 87 Sia (X
1
, ..., X
n
2
). Allora le variabili

X =
1
n
n
i=1
X
i
e S
2
=
1
n
n
i=1
(X
i

X)
2
sono indipendenti.
Si osservi che lindipendenza di

X da S
2
è caratteristica della distribuzione normale.
Unaltra distribuzione di considerevole rilevanza pratica è la distribuzione t di Student.
Denizione 88 Si dice che una variabile aleatoria si distribuisce secondo una t di Student con p
gradi di libertà se essa possiede densità data da
f
T
(t) =
(
p+1
2
)
(
p
2
)
1
p
1
(1 +
t
2
p
)
(p+1)/2
, < t < (4.1)
Osserviamo che se T è una variabile aleatoria avente una distribuzione t di Student con p gradi di
libertà allora
E(T) = 0 se p > 1 e V ar(T) =
p
p 2
se p > 2.
La distribuzione t di Student si può ottenere come rapporto tra una variabile aleatoria con dis-
tribuzione normale standardizzata e la radice quadrata di una variabile aleatoria con distribuzione
chi-quadrato, indipendente dalla prima e divisa per i suoi gradi di libertà. Ossia,
Teorema 89 Se Z ha una distribuzione normale standardizzata, se U ha una distribuzione chi-
quadrato con p gradi di libertà, e se Z e U sono indipendenti, allora
Z
U/p
ha una distribuzione t
di Student con p gradi di libert` a.
54 4. Statistiche e alcune loro distribuzioni
La proposizione che segue mostra come sia possibile applicare il Teorema 89 al campionamento da
una popolazione normale.
Proposizione 90 Sia (X
1
, ..., X
n
2
) allora Z =

X
/
n
ha una dis-
tribuzione normale standardizzata e U =
i
(X
i
X)
2
2
ha una distribuzione chi-quadrato con n1 gradi
di libertà. Inoltre Z e U sono indipendenti (vedi Teorema 87); quindi
(

X )/(/
n)
(X
i
X)/
2
n1
=

X
S
2
n1
si distribuisce secondo una t di Student con n 1 gradi di libert` a.
Inne, consideriamo unultima importante distribuzione notevole che si ottiene a partire dalla
distribuzione normale, ossia la distribuzione F.
Denizione 91 Si dice che la variabile aleatoria X è dotata di densità F con m e n gradi di libert` a,
se
f
X
(x) =
(
m+n
2
)
(
m
2
)(
n
2
)
_
m
n
_
m/2
x
(m2)/2
(1 + (m/n)x)
(m+n)/2
, 0 < x <
La distribuzione F è la distribuzione del rapporto di due variabili aleatorie chi-quadrato indipendenti
divise per i loro rispettivi gradi di libertà. Ossia, se U
2
p
e V
s
q
sono v.a. indipendenti allora la
variabile aleatoria (U/p)/(V/q) ha distribuzione F con p e q gradi di libertà.
La seguente proposizione mostra come la distribuzione F possa essere utile nel campionamento dalla
popolazione gaussiana.
Proposizione 92 Siano (X
1
, ..., X
n
1
) e (Y
1
, ..., Y
n
2
) due campioni indipendenti rispettivamente es-
tratti da N(
1
,
2
) e N(
2
,
2
). Allora segue che
n
1
i=1
(X
i
X)
2
2
ha distribuzione chi-quadrato con n
1
1
gradi di libertà e
n
2
i=1
(Y
i
Y )
2
2
ha distribuzione chi-quadrato con n
2
1 gradi di libertà. Allora la
variabile
F =
S
2
X
/
2
S
2
Y
/
2
=
(X
i

X)
2
/n
1
(Y
i

Y )
2
/n
2
ha una distribuzione F con n
1
1 e n
2
1 gradi di libertà.
Concludiamo ora il paragrafo con alcune ulteriori osservazioni circa la distribuzione F. Se X è una
variabile aleatoria avente distribuzione F con m e n gradi di libertà, allora
E(X) =
n
n2
per n > 2;
V ar(X) =
2n
2
(m+n2)
m(n2)
2
(n4)
per n > 4;
la variabile 1/X ha una distribuzione F con n e m gradi di libertà. Grazie a questo risultato ci
si può limitare a tabulare la distribuzione F solo per la sua coda superiore.
5
Stimatori di massima verosimiglianza
Prima di enunciare il principio su cui si basa il metodo di deduzione degli stimatori di massima
verosimiglianza e descrivere il metodo di costruzione degli stessi stimatori, conviene fornire il concetto
di funzione di verosimiglianza.
Sia data una popolazione X con una funzione di densità (o di probabilità) f(x; ) dipendente da un
parametro .
Denizione 93 Se dalla popolazione X si estrae il campione (X
1
, X
2
, ..., X
n
) di realizzazione (x
1
, x
2
, ..., x
n
),
si denisce verosimiglianza della realizzazione (x
1
, x
2
, ..., x
n
) la quantità
L(; x
1
, ..., x
n
) =
n
i=1
f(x
i
; ).
La funzione L deve essere pensata come una funzione ordinaria di . Formalmente, essa rappresenta,
per popolazioni dotate di densità, la densità delln-pla campionaria.
La stessa denizione vale per popolazioni discrete salvo sostituire la funzione di probabilità p(x; ) al
posto della densità f(x; ).
Ad illustrare la denizione data valgono i seguenti esempi.
Esempio 94 Data la popolazione X con funzione di probabilit` a
p(x; ) =
_
x = 1
1 x = 0
con 0 < < 1 ed il campione di realizzazione (x
1
, x
2
, ..., x
n
) da essa estratto, la funzione di verosimiglian-
za risulta
L(; x
1
, ..., x
n
) =
i
x
i
(1 )
n
i
x
i
; 0 < < 1.
rappresentando

i
x
i
il numero degli 1 nel campione e n
i
x
i
il numero degli zeri.
Per introdurre il principio di verosimiglianza consideriamo il seguente esempio.
Sia data una monetina che si sospetta essere distorta, cioè truccata a favore della testa nel rapporto
di 2 a 1.
Assumiamo pertanto che i possibili valori della probabilità di testa () siano =
1
2
oppure =
2
3
. Il
problema che si propone è quello di scegliere il valore plausibile di (tra i due valori ammissibili) sulla
56 5. Stimatori di massima verosimiglianza
base di 10 lanci della monetina.
Supponiamo che i dieci lanci abbiano dato luogo alla successione (T, C, C, T, T, C, T, T, T, C) = x.
La verosimiglianza di questo risultato è data, per i due casi,
L
_
x;
1
2
_
=
_
1
2
_
10
= 0.000977
L
_
x;
2
3
_
=
_
2
3
_
6
_
1
3
_
4
= 0.0011.
Queste due quantità rappresentano le probabilità, a priori, di osservare il risultato eettivamente
osservato nel caso in cui =
1
2
e =
2
3
. Si ha
L
_
x;
1
2
_
< L
_
x;
2
3
_
e poichè dobbiamo ritenere che levento osservato ha a priori maggior probabilità di vericarsi, dobbi-
amo plausibilmente concludere che la stima di è

=
2
3
. Lo stimatore, detto pi` u verosimile, è pertanto
2
3
piuttosto che
1
2
poichè il valore di =
2
3
conduce ad una pi` u grande probabilità a priori dellevento
eettivamente osservato.
In ciò consiste il principio della massima verosimiglianza.
Denizione 95 Si dirà che lo stimatore T(x
1
, ..., x
n
) =

(x
1
, ..., x
n
) è di massima verosimiglianza (o
pi` u verosimile) se

è punto di massimo (stretto) della funzione di verosimiglianza, cioè se

è tale
che
L(x
1
, ..., x
n
;

) L(x
1
, ..., x
n
; ), per ogni . (5.1)
Esempio 96 Sia X una popolazione con densità
f(x; ) =
_
_
_
1
0 x
0 altrove
con > 0.
La verosimiglianza del campione (x
1
, ..., x
n
) è
L(x
1
, ..., x
n
; ) =
_
_
_
1
n
se 0 min(x
1
, ..., x
n
) < max(x
1
, ..., x
n
)
0 altrove
Il graco della funzione L mostra immediatamente che
(x
1
, ..., x
n
) = max(x
1
, ..., x
n
)
cioè che lo stimatore pi` u verosimile è lelemento massimo del campione.
Esempio 97 Sia X la popolazione normale con densità
f(x; ) =
1
2
e
(x)
2
2
2
in cui è noto.
La verosimiglianza di (x
1
, ..., x
n
) è data da
L(x
1
, ..., x
n
; ) =
_
1
2
_
n
e
n
i=1
(x
i
)
2
2
2
.
5. Stimatori di massima verosimiglianza 57
Poichè linsieme dei valori ammissibili di non è chiuso, il punto di massimo assoluto, se esiste,
coincide con un punto di massimo relativo e pertanto possiamo procedere annullando la derivata prima
di L. Si ha
L
=
_
1
2
_
n
e
n
i=1
(x
i
)
2
2
2
n
i=1
(x
i
)
2
= 0
da cui immediatamente
n
i=1
(x
i
) = 0 e quindi

=
1
n
i
x
i
.
Poichè poi
2
L
2
< 0,
il punto

=
1
n
i
x
i
è di massimo per L. Concluderemo allora che lo stimatore pi` u verosimile di è
=
1
n
i
X
i
=

X.
La ricerca dello stimatore (o degli stimatori) pi` u verosimile, almeno nel caso generale, non è sempre
agevole. La determinazione di tale tipo di stimatore è invece relativamente semplice quando
1) il dominio di f(x; ) è indipendente da ;
2) L(x; ) è due volte dierenziabile con continuità in e ogni funzione

soddisfacente la (5.1) è
da ricercare tra le soluzioni di
_
_
_
L
= 0
con
2
L|
< 0.
(5.2)
La condizione 2) esclude il caso in cui

appartenga alla frontiera di .
Nelle applicazioni, poichè la funzione logaritmica è monotona, conviene sostituire alla (5.2) la con-
dizione
logL(x
1
, ..., x
n
; ) =
n
logf(x
i
; ) = 0 (5.3)
Infatti le radici della (5.2), con L > 0, sono tutte e solo quelle di (5.3).
Lequazione (5.2) prende il nome di equazione di verosimiglianza.
Esempio 98 Sia X la popolazione normale con media nota e varianza non nota, cioè con densità
f(x; ) =
1
2
e
(x)
2
2
2
.
La verosimiglianza di (x
1
, ..., x
n
) è data da
L(x
1
, ..., x
n
; ) =
_
1
2
_
n
e
n
i=1
(x
i
)
2
2
2
,
da cui
logL(x
1
, ..., x
n
; ) = nlog
2
n
2
log
n
i=1
(x
i
)
2
2
,
logL =
n
2
+
n
i=1
(x
i
)
2
2
= 0
da cui
n
i=1
(x
i
)
2
n
= S
2
.
Si ha poi
2
logL =
n
2
2

n
i=1
(x
i
)
2
3
la quale nel punto

ha valore
_

2
2
logL
_
=
=
n
3
n
i=1
(x
i
)
2
< 0.
Lo stimatore pi` u verosimile di è pertanto

= S
2
=
n
i=1
(x
i
)
2
n
.
Lesempio mostra che non necessariamente gli stimatori pi` u verosimili sono non distorti.
Proprietà di invarianza degli stimatori di massima verosimiglianza Sia

lo stimatore di
massima verosimiglianza del parametro . Allora lo stimatore di massima verosimiglianza di una fun-
zione del parametro , ossia di (), è (
).
Ad esempio nella densità normale con noto, lo stimatore di massima verosimiglianza di
2
è
1
n
n
i=1
(x
i
)
2
. Per la proprietà di invarianza degli stimatori di massima verosimiglianza, lo stimatore
di massima verosimiglianza di è
1
n
n
i=1
(x
i
)
2
.
5.1 Proprietà asintotiche degli stimatori di massima verosimiglianza
Quando si considera una successione di variabili aleatorie (X
n
())
n1
tutte denite nello stesso am-
biente , esistono diversi modi per denire la convergenza di X
n
() verso una v.a. X() (anchessa
denita su ): qui considereremo la convergenza in media, la convergenza in probabilità, convergenza
in distribuzione o in legge.
Nei paragra che seguono presenteremo queste nozioni assieme a qualche risultato riguardante il
comportamento della somma di v.a. indipendenti e stabiliremo collegamenti tra i modi di convergenza
e alcune proprietà degli stimatori.
5.1.1 Convergenza in probabilità
Denizione 99 Si dice che la successione di v.a. (X
n
())
n1
converge in probabilità alla v.a. X()
(eventualmente degenere) se
lim
n+
P ({ : |X
n
() X()| > }) = lim
n+
P (|X
n
() X()| > ) = 0 > 0
Per indicare che la successione di v.a. (X
n
())
n1
converge in probabilità alla v.a. X() si usa
scrivere
X
n
()
P
X() oppure P limX
n
() = X()
La convergenza in probabilità chiede che converga a 0 la probabilità che la distanza tra X
n
() e
X() superi una soglia > 0 comunque questultima sia scelta. Vedremo quando queste nozioni sono
equivalenti e quando invece dieriscono.
Esempio 100 Sia X
n
() una successione di v.a. distribuite con legge binomiale di parametri (n, p),
cioe con funzione di probabilità data da
P (X
n
= x) =
_
n
x
_
p
x
(1 p)
nx
, x = 0, 1, 2, . . . , n, n 1, 0 p 1
5.1 Proprietà asintotiche degli stimatori di massima verosimiglianza 59
Ricordiamo che E(X
n
) = np e Var (X
n
) = np (1 p) sicche E
_
1
n
X
n
_
=
1
n
E(X
n
) p e Var
_
1
n
X
n
_
=
1
n
2
Var (X
n
) =
p (1 p)
n
.
La successione Y
n
=
1
n
X
n
converge in probabilità alla costante p. Infatti la disuguaglianza di Cheby-
shev fornisce:
P
_
1
n
X
n
p
>
_
Var
_
1
n
X
n
_
2
=
p (1 p)
n
2
0 per ogni > 0
Esempio 101 Sia X
n
() una successione di v.a. indipendenti, uniformemente distribuite e con la
stessa densità di probabilità
f
X
n
(x) =
_
1/ 0 < x <
0 altrove
Si consideri la successione di v.a.
M
n
= max (X
1
, X
2
, . . . , X
n
)
Si ha che M
n
P
. Infatti, per lipotesi di indipendenza delle v.a. X
n
, si ha che
P (M
n
x) = P (max (X
1
, X
2
, . . . , X
n
) x) = P (X
1
x) P (X
2
x) P (X
n
x) =
= [P (X
1
x)]
n
=
_
_
0 x < 0
_
x
0
1/dt
_
n
=
_
x
_
n
0 < x <
1 x
Inoltre
P (|M
n
| > ) = 1 P (|M
n
| ) = 1 P ( M
n
+) =
= 1 [P (M
n
+) P (M
n
)]
Essendo P (M
n
+) = 1 per ogni > 0, si ha
P (|M
n
| > ) = P (M
n
) =
=
_
_
_
_

_
n
0 < <
0
e dunque
lim
n+
P (|M
n
| > ) = 0 > 0
Esempio 102 Sia (X
n
, X)
n2
il vettore (bidimensionale) aleatorio con funzione di probabilit` a
P
_
X
n
=
1
n
, X = 0
_
= P
_
X
n
=
n 1
n
, X = 1
_
=
n 2
2n
P
_
X
n
=
1
n
, X = 1
_
= P
_
X
n
=
n 1
n
, X = 0
_
=
1
n
Sia ora Y
n
= |X
n
X|. La funzione di probabilit` a di Y
n
è data da
P (Y
n
= y) =
_
_
2
n
y =
n 1
n
n 2
n
y =
1
n
0 altrove
e quindi
P (Y
n
> ) =
_
_
0 >
n 1
n
2
n
1
n
<
n 1
n
1 0 <
1
n
da cui
lim
n+
P (Y
n
> ) = lim
n+
P (|X
n
X| > ) = 0
Pertanto X
n
P
X dove X è una v.a. con funzione di probabilit` a
P (X = x) =
_
1/2 x = 0 x = 1
0 altrove
Un risultato di rilievo è fornito dal seguente
Teorema 103 Se g : A R R è continua e se X
n
P
X, allora anche
g (X
n
)
P
g (X)
Esempio 104 Nellesempio 100 si è mostrato che Y
n
=
1
n
X
n
P
p, 0 p 1. Se consideriamo la
successione Z
n
= Y
n
(1 Y
n
) si avrà Z
n
P
p (1 p).
Il teorema 103 può essere generalizzato nel seguente
Teorema 105 Se g : A R
m
R è continua e se X
1
n
P
X
1
, X
2
n
P
X
2
, , X
m
n
P
X
m
,, allora
anche
g
_
X
1
n
, X
2
n
, , X
m
n
_
P
g (X
1
, X
2
, , X
m
)
Esempio 106 Sia (X
n
)
n1
una successione di v.a. indipendenti e identicamente distribuite con den-
sità uniforme
f
X
n
(x) =
_
1
b a
a x b
0 altrove
La successione M
n
= max (X
1
X
n
)
P
b, la successione m
n
= min (X
1
X
n
)
P
a e dunque
(M
n
m
n
)
P
b a
Seguendo lesempio 101 si ha
P (M
n
x) = [P (M
1
x)]
n
=
_
_
0 x < a
_
x a
b a
_
n
a x 0 e osservato che |M
n
b| > equivale a M
n
> b + M
n
 ) = P (M
n
 b a
_
_
b a
b a
_
_
n
0 ) = 0 per ogni > 0.
Analogamente
P (m
n
> x) = [P (m
1
> x)]
n
=
_
_
1 x < a
_
_
b x
b a
_
_
n
a x 0, si ha
P (|m
n
a| > ) = P (m
n
> a +) =
_
_
0 > b a
_
_
b a
b a
_
_
n
0 ) = 0 per ogni > 0.
Inne il Teorema 105 permette di concludere che (M
n
m
n
)
P
b a.
5.1.2 Convergenza in media
Denizione 107 Sia (X
n
)
n1
una successione di v.a. con E(|X
n
|
r
) < + e X una v.a. con
E(|X|
r
) < +, r 1, eventualmente degenere. Si dice che X
n
converge in media di ordine r alla
v.a. X se
lim
n+
E(|X
n
X|
r
) = 0
e si scrive
X
n
r
X
In particolare se r = 1 o r = 2 si parla di convergenza in media o di convergenza in media quadratica
rispettivamente.
Esempio 108 Sia (X
n
)
n1
una successione di v.a. con funzione di probabilit` a
P (X
n
= 0) = 1
1
n
e P (X
n
= 1) =
1
n
Allora E(|X
n
|
r
) = 0
r
_
1
1
n
_
+ 1
r
1
n
=
1
n
qualunque sia r = 0 e perci` o X
n
r
0 per ogni r 1.
Esempio 109 Sia (X
n
, X)
n2
il vettore aleatorio con funzione di probabilità
P
_
X
n
=
1
n
, X = 0
_
= P
_
X
n
=
n 1
n
, X = 1
_
=
n 2
2n
P
_
X
n
=
1
n
, X = 1
_
= P
_
X
n
=
n 1
n
, X = 0
_
=
1
n
Si ha
E(|X
n
|) =
1
n

1
2
+
n 1
n

1
2
=
1
2
e E(|X|) = 0
1
2
+ 1
1
2
=
1
2
Nellesempio 102 abbiamo mostrato che Y
n
= |X
n
X| possiede funzione di probabilit` a
P (Y
n
= y) =
_
_
2
n
y =
n 1
n
n 2
n
y =
1
n
0 altrove
Perciò
E(|X
n
X|) =
n 1
n

2
n
+
1
n

n 2
n
=
3n 4
n
2
0
e perciò si ha la convergenza in media X
n
1
X.
La convergenza in media di ordine s implica quella di ogni ordine inferiore 1 r < s
X
n
s
X = X
n
r
X per ogni s > r 1
In particolare la convergenza in media quadratica (r = 2) implica la convergenza in media (r = 1)
Inoltre, la convergenza in media di ordine r implica la convergenza in probabilità per ogni r 1
X
n
r
X = X
n
P
X per ogni r 1
. La seguente proposizione dimostra il caso in cui r = 2, ossia che la convergenza in media quadratica
implica la convergenza in probabilità.
Proposizione 110 Se una successione di v.a. X
1
, X
2
... converge in media quadratica ad una costante
c, allora essa vi converge anche in probabilità.
Dimostrazione. La dimostrazione è una semplice applicazione della disuguaglianza di Chebychev.
Abbiamo che
P(|X
n
c| ) = P((X
n
c)
2

2
)
E(X
n
c)
2
2
. (5.4)
Dato che la successione {X
n
}
n1
converge in media quadratica alla costante c, abbiamo che il membro
a destra della disuguaglianza (5.4) tende a 0 al crescere di n. Poichè inoltre una probabilità non è mai
negativa, segue necessariamente che P(|X
n
c| ) 0 per n .
5.1.3 Convergenza in distribuzione
Lultimo modo di convergenza che esamineremo è quello in distribuzione. Si tratta di un tipo di
convergenza che non attiene alla successione delle v.a. come funzioni denite in (, F, P) ma piuttosto
sulla convergenza della loro funzione di ripartizione.
Denizione 111 Si dice che la successione di v.a. (X
n
)
n1
converge in distribuzione alla v.a. X se
la successione delle delle su funzioni di ripartizione F
X
n
() converge verso la funzione di ripartizione
F
X
() per ogni punto di continuità di questultima:
lim
n+
F
X
n
(x) = F
X
(x) per ogni x R in cui F
X
è continua
Il simbolo che si adotta è
X
n
D
X
Esempio 112 Siano (X
n
)
n1
una successione di v.a. distribuite normalmente con funzione di ripar-
tizione
F
X
n
(x) =
n
n
2
2
y
2
dy
e X una v.a. con funzione di ripartizione
F
X
(x) =
_
0 x < 0
1 x 0
continua in ogni punto x = 0. Si ha X
n
D
X. Infatti:
lim
n+
F
X
n
(x) = lim
n+
n
n
2
2
y
2
dy =
= lim
n+
1
nx
1
2
t
2
dt =
_
_
_
0 x < 0
1/2 x = 0
1 x > 0
e dunque lim
n+
F
X
n
(x) = F
X
(x) in tutti punti di continuità di F
X
.
Esempio 113 Siano X
n
una successione di v.a. distribuite uniformemente in
_
1
2

1
n
,
1
2
+
1
n
_
e X la
v.a. degenere con P (X = 1/2) = 1. Si ha X
n
D
X. Infatti:
F
X
n
(x) =
_
_
0 x <
1
2

1
n
n
2
_
x
1
2
+
1
n
_
1
2

1
n
x <
1
2
+
1
n
1 x >
1
2
+
1
n
; F
X
(x) =
_
_
0 x <
1
2
1 x
1
2
Osservando che F
X
n
(1/2) =
n
2
_
1
2

1
2
+
1
n
_
=
1
2
per ogni n, si ottiene
lim
n+
F
X
n
(x) = lim
n+
F
X
n
(x)
_
_
0 x <
1
2
1
2
x =
1
2
1 x >
1
2
ovvero lim
n+
F
X
n
(x) = F
X
(x) per ogni punto x = 1/2 (che è un punto di discontinuità di F
X
).
La relazione tra convergenza in distribuzione e in probabilità è posta in luce dal seguente
Teorema 114 Se (X
n
)
n1
è una successione di v.a. che converge in probabilit` a verso la v.a. X allora
essa converge anche in distribuzione
X
n
P
X = X
n
D
X
In generela non sussiste limplivazione inversa, ma se la convergenza in distribuzione avviene verso
una costante allora si ha anche convergenza in probabilità. Vale infatti
Teorema 115 Per ogni numero reale a vale limplicazione
X
n
D
a = X
n
P
a
Dimostrazione.
P (|X
n
a| > ) = P (X
n
< a ) +P (X
n
> a +) F
n
(a ) + [1 F
n
(a +)]
Per ipotesi X
n
D
a e quindi
F
n
(x) F
a
(x) =
_
0 x < a
1 x a
per ogni x = a
Essendo a e a + punti di continuità di F
a
segue che
lim
n+
P (|X
n
a| > ) F (a ) + [1 F (a +)] = 0 + 1 1 = 0
lim
n+
P (|X
n
a| > ) = 0
Esempio 116 Si considerino le v.a.
X
n
= I
[0,
1
2
+
1
n
)
() =
_
1 se 0 <
1
2
+
1
n
0 altrimenti
e X = I
[
1
2
,1]
() =
_
1 se
1
2
1
0 altrimenti
denite su = [0, 1]. Sia P la misura di probabilità P ((a, b]) = b a. Si ha che X
n
D
a ma X
n
P
a.
Infatti
F
X
n
(x) =
_
_
0 x < 0
1
2
+
1
n
0 x < 1
1 x 1
e F
X
(x) =
_
_
0 x < 0
1
2
0 x < 1
1 x 1
quindi limF
X
n
(x) = F
X
(x) per ogni x R. Ma poiche la distribuzione congiunta di (X
n
, X) è data
dalla seguente tabella
X
n
X 0 1
0 0 1/2 1/n 1/2 1/n
1 1/2 1/n 1/2 + 1/n
1/2 1/2 1
si ha che P (|X
n
X| > ) = 1 1/n 1 e quindi X
n
non converge in probabilità a X.
Un criterio di convergenza per molti aspetti pi` u conveniente al ne di stabilire la convergenza in
distribuzione di una successione di v.a. è il seguente che diamo senza dimostrazione.
Teorema 117 Sia C la classe delle funzioni f : R R limitate e continue. Allora X
n
D
X se e solo
se
lim
n+
E(f (X
n
)) = E(f (X))
per ogni funzione f della classe C.
Sono molto utili anche i seguenti risultati concernenti la convergenza in probabilità, quasi certa e
in media e il cosiddetto Teorema di Slusky:
Teorema 118 Date due successioni di v.a. (X
n
)
n1
e (Y
n
)
n1
e due v.a. X e Y, valgono le seguenti
implicazioni:
(a) X
n
q.c.
X, Y
n
q.c.
Y = X
n
+Y
n
q.c.
X+Y;
(b) X
n
P
X, Y
n
P
Y = X
n
+Y
n
P
X+Y;
(c) X
n
2
X, Y
n
2
Y = X
n
+Y
n
2
X+Y;
(d) X
n
1
X, Y
n
1
Y = X
n
+Y
n
1
X+Y.
Teorema 119 (di Slusky) Se X
n
D
X e Y
n
D
a (costante) allora
X
n
+Y
n
D
X+a e X
n
Y
n
D
aX
In generale, se X
n
D
X e Y
n
D
Y non è detto che X
n
+Y
n
D
X+Y e nemmeno che X
n
Y
n
D
XY.
5.1.4 Teorema centrale del limite
Il teorema centrale del limite è forse il pi` u importante e utile nel calcolo delle probabilità. Esso aerma,
nella sostanza, che una somma di variabili aleatorie indipendenti possiede una funzione di ripartizione
che, allaumentare degli addendi, si approssima a quella di una gaussiana.
Precisamente vale il seguente teorema centrale (che diciamo nella versione particolare in cui le
variabili addende hanno tutte la stessa legge di probabilità).
Teorema 120 (centrale del limite) Sia (X
n
)
n1
una successione di v.a. indipendenti, con la stessa
legge di probabilità e con E(X
n
) = , Var (X
n
) =
2
> 0. Allora la v.a.:
Z
n
=
n
k=1
X
k
n
n
=

n
1
n
n
k=1
X
k

=

n
_
X
n
_
con X
n
=
1
n
n
k=1
X
k
, n 1
converge in distribuzione a una v.a. X avente distribuzione gaussiana con valore atteso nullo e varianza
unitaria (detta distribuzione normale standardizzata).
Si usa scrivere
Z
n
=
n
k=1
X
k
n
n
d
X ovvero
n
k=1
X
k
d
n +
nX
dove il simbolo
d
signica approssimativamente con la stessa distribuzione di. Quando n è grande,
X è distribuita con legge gaussiana di parametri E(X) = 0 e Var (X) = 1 (quindi anche (X) = 1).
Esempio 121 Siano X
1
, X
2
, . . . , X
k
, . . . v.a. indipendenti con legge di Bernoulli, cioè con funzione
di densità di probabilità
f
X
k
(x) =
_
p
x
(1 p)
x
x (0, 1)
0 x / (0, 1)
con 0 < p < 1
Si determini approssimativamente
P (X
1
+X
2
+. . . +X
n
x)
Poiche E(X
n
) = p e Var (X
n
) = p (1 p), la v.a.
Z
n
=
n
k=1
X
k
n
n
=
n
k=1
X
k
np
np (1 p)
è approssimativamente distribuita con legge gaussiana di media 0 e varianza 1, cioe
P
_
_
_
_
_
_
n
k=1
X
k
np
np (1 p)
x
_
_
_
_
_
_
2
e
1
2
t
2
dt
Quindi
P
_
n
k=1
X
k
x
_
= P
_
_
_
_
_
_
n
k=1
X
k
np
np (1 p)

x np
np (1 p)
_
_
_
_
_
_
xnp
np(1p)
2
e
1
2
t
2
dt
Per esempio, con n = 100, p = 1/2 e x = 60, si ha
x np
np (1 p)
=
60 100/2
100/4
= 2
e quindi si ottiene
P
_
100
k=1
X
k
60
_
2
e
1
2
t
2
dt 0.9772
5.1.5 Risultati asintotici degli stimatori di massima verosimiglianza
Se la densità f(x; ) soddisfa certe condizioni di regolarità e se

n
=
n
(X
1
, ..., X
n
) è lo stimatore di
massima verosimiglianza di per un campione casuale di ampiezza n da f(x; ), allora
per ogni > 0 e per ogni , lim
n
P(|
|) ) = 0, cioè

è uno stimatore consistente
di ;

ha distribuzione asintotica normale con media e varianza
1
nE
_
(

lnf(X;))
2
_
; ossia
d
N
_
_
;
1
nE
_
_

lnf(X; )
_
2
_
_
_
.
Analogamente, se la densità f(x; ) soddisfa certe condizioni di regolarità e se

n
=
n
(X
1
, ..., X
n
)
è lo stimatore di massima verosimiglianza di () per un campione casuale di ampiezza n da f(x; ),
allora
per ogni > 0 e per ogni , lim
n
P(|

() ()|) ) = 0, cioè (
) è uno stimatore
consistente di ();
(
) ha distribuzione asintotica normale con media () e varianza

(
())
2
nE
_
(

lnf(X;))
2
_
; ossia
(
)
d
N
_
_
();
(
())
2
nE
_
_

lnf(X; )
_
2
_
_
_
.
6
Stima parametrica per intervalli
Le stime puntuali sono molto utili anche se non del tutto soddisfacenti. Sembra auspicabile che una
stima puntuale sia accompagnata da una misura del possibile errore di stima. Per esempio, una
stima puntuale potrebbe essere accompagnata da un intervallo centrato attorno alla stima puntuale,
insieme ad una misura della ducia che si può riporre nel fatto che il vero valore del parametro cada
entro lintervallo. Invece di fare inferenza per stimare in modo puntuale il vero valore del parametro,
potremmo fare inferenza per stimare un intervallo contenente il vero valore del parametro.
Lobiettivo di usare una stima per intervalli anzichè una stima puntuale è quello di avere qualche
garanzia di catturare il parametro dinteresse. Perdendo in termini di precisione rispetto alla stima
puntuale, con la stima per intervalli guadagnamo in condenza che la nostra asserzione sia corretta.
Denizione 122 Sia X
1
, ..., X
n
un campione casuale estratto dalla densità f(; ).
Siano T
1
= t
1
(X
1
, ..., X
n
) e T
2
= t
2
(X
1
, ..., X
n
) due statistiche che soddisfano T
1
T
2
per le quali
P(T
1
() T
2
) = , dove non dipende da , allora lintervallo (T
1
, T
2
) si chiama intervallo
di condenza al 100 percento per (); si chiama livello di condenza e T
1
e T
2
si chiamano
rispettivamente limite di condenza inferiore e superiore per (). Anche un valore numerico (t
1
, t
2
)
dellintervallo casuale (T
1
, T
2
) viene chiamato intervallo di condenza al 100 percento per ().
Esistono diversi metodi per trovare intervalli di condenza. Qui ne considereremo due: (i) il metodo
della quantità pivotale e (ii) il metodo statistico.
6.1 Il metodo della quantità pivotale
Ipotizziamo un campione casuale X
1
, ..., X
n
estratto da una densità f(; ) parametrizzata da . Il
nostro obiettivo è trovare un intervallo di condenza per (), funzione reale di .
Denizione 123 Sia X
1
, ..., X
n
un campione casuale estratto da una densità f(; ).
Sia Q = q(X
1
, ..., X
n
; ); cioè sia Q una funzione di X
1
, ..., X
n
e . Se Q ha una distribuzione che
non dipende da , allora Q viene denita quantità pivotale.
La nostra speranza è di poter utilizzare la quantità pivotale per ottenere un intervallo di condenza.
Se Q = q(X
1
, ..., X
n
; ) è una quantità pivotale e ha una funzione di densità di probabilità, al-
lora per ogni 0 < < 1 esisteranno q
1
e q
2
dipendenti da tali che P(q
1
Q q
2
) = .
68 6. Stima parametrica per intervalli
Ora, se per ogni possibile realizzazione campionaria (x
1
, ..., x
n
) vale q
1
< q(x
1
, ..., x
n
) < q
2
se e
solo se t
1
(x
1
, ..., x
n
) < () < t
2
(x
1
, ..., x
n
) essendo le funzioni t
1
e t
2
non dipendenti da , allora
(T
1
, T
2
) è un intervallo di condenza al 100 percento per (), avendo posto T
1
= t
1
(X
1
, ..., X
n
) e
T
2
= t
2
(X
1
, ..., X
n
).
Alcuni commenti:
1. q
1
e q
2
sono indipendenti da dato che la distribuzione di Q lo è.
2. Per ogni ssata, ci sono molte possibili coppie di numeri q
1
e q
2
tali che P(q
1
< Q < q
2
) = .
Dovremmo scegliere quella coppia di q
1
e q
2
che in un certo senso rende vicini t
1
e t
2
. Per esempio
potremmo scegliere quella coppia q
1
e q
2
che rende minima la lunghezza dellintervallo.
3. La caratteristica essenziale del metodo della quantità pivotale consiste nel fatto che la disug-
uaglianza q
1
< q(x
1
, ..., x
n
) < q
2
può essere riscritta o invertita o trasformata in t
1
(x
1
, ..., x
n
) <
() < t
2
(x
1
, ..., x
n
) per ogni possibile realizzazione campionaria x
1
, ..., x
n
.
Con il metodo della quantità pivotale si arriva a trovare un intervallo di condenza in due passaggi:
prima si trova la quantità pivotale, poi la si inverte.
Esempio 124 Sia X
1
, X
2
, .., X
n
un campione casuale estratto da una popolazione normale di media
e varianza 1. Supponiamo di stimare () = . Q = (

X )/
1/n ha una distribuzione normale

standardizzata ed è perciò una quantità pivotale. Per un dato esistono q
1
e q
2
tali che P(q
1
< Q <
q
2
) = ; in eetti, ne esistono molti di tali q
1
, q
2
.
Ora {q
1
< ( x )/
1/n < q
2
} se s solo se { x q
2
1/n < < x q

1
1/n}; cos` {

X q
2
1/n <
<

X q
1
1/n} è un intervallo di condenza al 100 percento per . La lunghezza dellintervallo

di condenza è data da (

X q
1
1/n) (

X q
2
1/n) = (q
2
q
1
)
1/n. Quindi la lunghezza sarà

resa minima con la condizione che = P(q
1
< Q < q
2
) = (q
2
) (q
1
), dove indica la funzione di
ripartizione della normale standard; q
2
q
1
sarà un minimo se q
1
= q
2
, come si vedrà nella sezione
seguente.
6.2 Campionamento dalla distribuzione normale
Sia X
1
, ..., X
n
un campione casuale estratto dalla distribuzione normale con media e varianza
2
.
I seguenti paragra considerano i casi di (i) intervallo di condenza solo per , (ii) intervallo di
condenza solo per
2
, (iii) intervallo di condenza per la proporzione.
6.2.1 Intervallo di condenza per la media
Bisogna distinguere due casi, a seconda che
2
sia noto o che non lo sia. Lasciamo il caso in cui
2
sia
noto come esercizio e cerchiamo lintervallo di condenza per quando
2
sia incognito.
Si noti che qui = (,
2
) e () = .
Abbiamo bisogno di una quantità pivotale. (

X)/(/
n) ha una distribuzione normale standardiz-

zata; è quindi una quantità pivotale, ma {q
1
< ( x)/(/
n) < q
2
} non può essere invertito per dare
{t
1
(x
1
, ..., x
n
) < < t
2
(x
1
, ..., x
n
)} per qualsiasi coppia di statistiche t
1
e t
2
. Sembra che il problema
per (

X )/(/
n) sia la presenza di . Cerchiamo una quantità pivotale che contenga solo .

Sappiamo che
(

X )/(/
n)
(X
i

X)
2
/(n 1)
2
=

X
S/
n
ha una distribuzione t con n 1 gradi di libertà. Cos` (

X )/(S/
n) ha una densità indipendente

da e
2
; quindi è una quantità pivotale.
6.2 Campionamento dalla distribuzione normale 69
Si ha (q
1
< ( x)/(s/
n) < q
2
) se e solo se ( xq
2
(s/
n) < < xq
1
(s/
n), dove q
1
e q
2
sono tali
che P(q
1
< (

X)/(S/
n) < q
2
) = ; perciò (

Xq
2
(S/
n,

Xq
1
(S/
n)) è un intervallo di con-

denza al 100 percento per . La lunghezza di questo intervallo è (q
2
q
1
)(S/
n), che è casuale. Per

ogni dato campione la lunghezza sarà minimizzata se q
1
e q
2
sono scelti in modo che q
2
q
1
sia minimo.
Una breve riessione ci farà capire che q
1
e q
2
devono essere scelti simmetricamente rispetto a 0.
Cerchiamo di minimizzare
L =
S
n
(q
2
q
1
)
soggetto alla condizione
q
2
q
1
f
T
(t)dt = , (6.1)
dove f
T
(t) è la densità della distribuzione t con n1 gradi di libertà. La (6.1) dà q
2
come funzione
di q
1
, e dierenziando la (6.1) rispetto a q
1
si ottiene
f
T
(q
2
)
q
2
q
1
f
T
(q
1
) = 0
Per minimizzare L, poniamo L/q
1
= 0, cioè
L
q
1
=
S
n
_
q
2
q
1
1
_
= 0
ma
S
n
_
q
2
q
1
1
_
=
S
n
_
f
T
(q
1
)
f
T
(q
2
)
1
_
= 0
se e solo se f
T
(q
1
) = f
T
(q
1
), che implica q
1
= q
2
oppure q
1
= q
2
. La soluzione desiderata è q
1
= q
2
,
e tali q
1
e q
2
possono essere immediatamente ricavati da una tabella della distribuzione t.
6.2.2 Intervallo di condenza per la varianza
Di nuovo si hanno due casi, a seconda che si assuma nota o no, e di nuovo si lascia come esercizio
il caso in cui è nota. Cerchiamo un intervallo di condenza per
2
essendo incognita. Abbiamo
bisogno di una quantità pivotale che possa essere invertita. Sappiamo che
Q =
(X
i

X)
2
2
=
(n 1)S
2
2
ha una distribuzione chi-quadrato con n 1 gradi di libertà; quindi Q è una quantità pivotale. Si ha
inoltre
_
q
1
<
(n 1)s
2
2
< q
2
_
se e solo se
_
(n 1)s
2
q
2
<
2
<
(n 1)s
2
q
1
_
cos`
_
(n 1)s
2
q
2
;
(n 1)s
2
q
1
_
è un intervallo di condenza al 100 percento per
2
, dove q
1
e q
2
sono dati da P(q
1
< Q < q
2
) = .
q
1
e q
2
sono scelti spesso in modo che P(Q < q
1
) = P(Q > q
2
) = (1 )/2. Ci si riferisce a volte
a tale intervallo di condenza col termine di intervallo di condenza con code uguali per
2
. q
1
e q
2
si possono trovare nelle tabelle della distribuzione chi-quadrato. Inoltre potremmo essere interessati a
scegliere q
1
e q
2
cos` da minimizzare la lunghezza L dellintervallo di condenza
L = (n 1)S
2
_
1
q
1
1
q
2
_
.
Sia f
Q
(q) una densità chi-quadrato con n 1 gradi di libertà; allora dierenziando
q
2
q
1
f
Q
(q)dq =
rispetto a q
1
si ha
q
2
q
1
f
Q
(q
2
) f
Q
(q
1
) = 0
e cos`
L
q
1
= (n 1)S
2
_
1
q
2
1
+
1
q
2
2
q
2
q
1
_
= (n 1)S
2
_
1
q
2
1
+
1
q
2
2
f
Q
(q
1
)
f
Q
(q
2
)
_
= 0
che implica q
2
1
f
Q
(q
1
) = q
2
2
f
Q
(q
2
). La lunghezza dellintervallo di condenza sarà minimizzata se q
1
e
q
2
sono scelti in modo che
q
2
1
f
Q
(q
1
) = q
2
2
f
Q
(q
2
)
con la condizione

q
2
q
1
f
Q
(q)dq = .
Si può ottenere una soluzione per q
1
e q
2
iterativa o per integrazione numerica.
Potremmo notare che per ogni q
1
e q
2
che soddisfano
q
2
q
1
f
Q
(q)dq = ,
_
(n 1)S
2
q
2
,
(n 1)S
2
q
1
_
è un intervallo di condenza al 100 percento per .
6.2.3 Intervallo di condenza asintotico per una frequenza relativa
Consideriamo il caso in cui si abbia una popolazione X dicotomica le cui due modalità indicheremo con
insuccesso (0) e successo (1). In tal caso, X è distribuita secondo la legge bernoulliana di parametro
, dove rappresenta la frequenza relativa di successo nella popolazione. Poichè però E(X) = , tale
parametro coincide con il valore atteso di X, e potremo quindi costruire un intervallo di condenza
asintotico (cioè per n grande) per .
Consideriamo

X come stimatore di , tale che
E(

X) = E(X) = , V ar(

X) =
V ar(X)
n
=
(1 )
n
.
In particolare, per n sucientemente grande,

X è asintoticamente distribuita secondo la legge normale,
ovvero

X N(, (1 )/n). Di conseguenza:
(

X )
(1 )/n
N(0, 1). (6.2)
6.3 Metodo statistico 71
In questo caso, però, il parametro compare anche al denominatore della (6.2) e quindi linversione
della quantità pivotale non è pi` u cos` agevole come nei casi precedenti. Invertendo la (6.2) rispetto
a e trascurando tutti i termini contenenti un fattore del tipo 1/
n, che tendono a 0 per n

(ricordando che stiamo considerando intervalli asintotici, e quindi approssimati), si ottiene il seguente
intervallo di condenza per :
_
x z
1/2
x(1 x)
n
, x +z
1/2
x(1 x)
n
_
Si osservi inoltre che la precedente formula coincide con quella che si otterrebbe partendo dalla (6.2),
sostituendo alla varianza della popolazione, (1 ), che non è nota, la sua stima, x(1 x).
6.3 Metodo statistico
Supponiamo di avere un campione casuale X
1
, ..., X
n
estratto dalla densità f(;
0
). Supponiamo inoltre
che il parametro
0
sia scalare e che lo spazio dei parametri sia un intervallo. (In questo paragrafo
indicheremo con
0
il vero valore del parametro.) Cerchiamo una stima per intervalli di
0
. Sia T =
t(X
1
, ..., X
n
) una statistica. La statistica T può essere scelta in diversi modi.
Si indichi con f
T
(t; ) la densità di T. Procederemo come se T fosse una variabile aleatoria continua,
benchè la tecnica funzioni anche nel caso in cui T sia una variabile aleatoria discreta. Possiamo denire
due funzioni h
1
() e h
2
() come segue:
h
1
()
f
T
(t; )dt = p
1
e

h
2
()
f
T
(t; )dt = p
2
(6.3)
dove p
1
e p
2
sono due numeri ssati che soddisfano 0 < p
1
, 0 < p
2
, p
1
+p
2
< 1.
h
1
() e h
2
() possono essere tracciate come funzioni di . Assumeremo che sia h
1
() che h
2
() siano
funzioni strettamente monotone di , e per il nostro graco assumeremo che siano strettamente cres-
centi. Sappiamo che h
1
() < h
2
(). Si veda la Figura 6.1.
Indichiamo con t
0
il valore osservato di T; cioè t
0
= t(x
1
, ..., x
n
), data una realizzazione campionaria
x
1
, ..., x
n
. Segnamo il valore di t
0
sullasse verticale in Figura 6.1 e poi troviamo v
1
e v
2
come indicato.
Per ogni possibile valore di t
0
, si può ottenere una coppia v
1
e v
2
, cos` v
1
e v
2
sono funzioni di t
0
;
indichiamo questo con con v
1
= v
1
(t
0
) e v
2
= v
2
(t
0
). Lintervallo (V
1
, V
2
) risulterà essere un intervallo
di condenza al 100(1p
1
p
2
) percento per
0
. La Figura 6.1 indica il metodo per trovare lintervallo
di condenza.
Vediamo dalla Figura 6.2 che h
1
(
0
) < t
0
= t(x
1
, ..., x
n
) < h
2
(
0
) se e solo se v
1
= v
1
(x
1
, ..., x
n
) <
0
< v
2
= v
2
(x
1
, ..., x
n
) per ogni possibile realizzazione campionaria (x
1
, ..., x
n
). Ma per la denizione
di h
1
() e h
2
(),
P(h
1
(
0
) < t(X
1
, ..., X
n
) < h
2
(
0
)) = 1 p
1
p
2
cos`
P(v
1
(X
1
, ..., X
n
) <
0
< v
2
(X
1
, ..., X
n
)) = 1 p
1
p
2
cioè, come aermato, (V
1
, V
2
) è un intervallo di condenza al 100(1 p
1
p
2
) percento per
0
, dove
V
1
= v
1
(X
1
, ..., X
n
) e V
2
= v
2
(X
1
, ..., X
n
).
Esempio 125 Sia X
1
, ..., X
n
un campione casuale estratto dalla densità f(x;
0
) = (1/
0
)I
(0,
0
)
(x).
Cerchiamo un intervallo di condenza per
0
. Si sa che Y
n
= max(X
1
, ..., X
n
) è lo stimatore di
massima verosimiglianza di
0
. Useremo Y
n
come la statistica T che compare sopra; allora
f
T
(t; ) = n
_
t
_
n1
1
I
(0,)
(t).
Per p
1
e p
2
dati, troviamo h
1
() e h
2
(). p
1
=
h
1
()
0
nt
n1
n
dt implica

h
1
()
0
t
n1
dt =
n
p
1
/n che
implica a sua volta (h
1
())
n
/n =
n
p
1
/n, e inne h
1
() = p
1/n
1
. Analogamente, p
2
=
h
2
()
nt
n1
n
dt
implica
n
(h
2
()
n
) =
n
p
2
ovvero h
2
() = (1 p
2
)
1/n
.
Per il valore osservato t
0
= max(x
1
, ..., x
n
), v
1
è tale che h
2
(v
1
) = t
0
, cioè h
2
(v
1
) = v
1
(1p
2
)
1/n
= t
0
ovvero v
1
= t
0
(1 p
2
)
1/n
. Analogamente, v
2
= t
0
(1 p
1
)
1/n
.
Cos` un intervallo di condenza al 100(1p
1
p
2
)percento per
0
è dato da (Y
n
(1p
1/n
2
); Y
n
p
1/n
1
).
Potremmo preoccuparci di scegliere p
1
e p
2
in modo che lintervallo di condenza risulti il pi` u piccolo
intervallo soggetto alla restrizione 1 p
1
p
2
= . La lunghezza dellintervallo di condenza è
L = Y
n
(p
1/n
1
(1 p
2
)
1/n
)
e cos` la lunghezza sarà minima se p
1
e p
2
sono presi in modo da minimizzare p
1/n
1
(1 p
2
)
1/n
con le condizioni 1 p
1
p
2
= e 0 < p
1
+p
2
< 1, il che si ottiene per p
2
= 0 e p
1
= 1 .
Figura 6.1: Metodo statistico per costruire un intervallo di condenza
Figura 6.2: Metodo statistico per costruire un intervallo di condenza - continua

Dispensa Finale Versione2

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Dispensa Finale Versione2

Transféré par

Droits d'auteur :

Formats disponibles

Metodi statistici per leconomia

Prima versione: Marzo 2011

f(x)dx = F(b) F(a).

avendo utilizzato la denizione di (k) e la relazione (k + 1) = k(k).

(x) > 0 per ogni

(x) < 0 per x (a, b), si ottiene

) ha distribuzione asintotica normale con media () e varianza

1/n ha una distribuzione normale

1/n < < x q

1/n} `e un intervallo di condenza al 100 percento per . La lunghezza dellintervallo

1/n. Quindi la lunghezza sar`a

n) ha una distribuzione normale standardiz-

n) sia la presenza di . Cerchiamo una quantit`a pivotale che contenga solo .

n) ha una densit`a indipendente

n)) `e un intervallo di con-

n), che `e casuale. Per

n, che tendono a 0 per n

Vous aimerez peut-être aussi