Académique Documents
Professionnel Documents
Culture Documents
detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili
statistiche o fra una mutabile e una variabile statistica o fra due Mutabili statistiche.
di notevole interesse perch permette di individuare legami fra fenomeni diversi. Tale e pu
essere effettuato sia sullintera popolazione statistica, sia su un campione estratto da essa.
Esistono metodi diversi per la ricerca della connessione secondo che si vogliano esaminare i legami
fra due variabili, oppure fra due mutabili, oppure fra una variabile e una mutabile.
In statistica pi importante lo studio della connessione fra due variabili, studio che si pu
effettuare o ricercando se una variabile dipendente dallaltra, oppure se si influenzano
reciprocamente.
Funzione di Regressione
E la funzione che esprime il legame di dipendenza d una variabile dallaltra
molto utile perch permette di valutare, entro i limiti dellintervallo dei dati rilevati, il valore della
variabile dipendente al variare della variabile indipendente. Ad esempio, se di un bene, non di prima
necessit, s sono rilevate, al variare del prezzo, le relative quantit domandate, si pu determinare,
mediante il metodo dei minimi quadrati, la funzione della domanda che esprime il legame fra il
prezzo e la quantit domandata dai consumatori e quindi il produttore ha la possibilit di prevedere,
per un prezzo prefissato, la corrispondente quantit di bene domandata.
La funzione pi utilizzata, soprattutto se i dati rilevati sono numerosi, la funzione lineare; s parla
allora di regressione lineare.
Se invece fra le due variabili non esiste un legame di dipendenza di una variabile dallaltra si
possono verificare i seguenti casi:
esse possono influenzarsi reciprocamente, cio esiste fra loro una correlazione.
possono essere entrambe dipendenti da unaltra grandezza
possono essere indipendenti.
Il confronto fra due variabili si effettua solo se fra esse esiste un legame logico, perch la
meccanica applicazione delle diverse tecniche pu portare a risultati assurdi.
Regressione lineare
Siano X e Y due variabili statistiche (oppure, come si preferisce dire, sia data una variabile statistica
doppia di cui X e Y sono le componenti), consideriamo le coppie (xi, yi) dei valori associati; se il
numero delle coppie non grande, si usa una Tabella a semplice entrata, altrimenti una Tabella a
doppia entrata.
Per prima cosa occorre fare una rappresentazione grafica mediante un diagramma, che rappresenta
le coppie dei valori rilevati (xi, yi); si ottiene cos un diagramma a dispersione.
Sia Y la variabile dipendente e X la variabile indipendente. Se esiste una relazione lineare, i punti si
distribuiscono vicino a una retta, come nei primi due schemi qui riportati di diagrammi a
dispersione; se invece i punti sono molto dispersi, come nel terzo schema, non esiste alcuna
relazione.
Le rette di regressione possono anche essere scritte nel modo seguente, sostituendo ad a1 e a2 le loro
espressioni:
da cui si deduce che entrambe passano per il punto ( ( x; y ) baricentro della distribuzione, le cui
coordinate sono le medie aritmetiche, rispettivamente dei valori di X e dei valori di Y.
Le due rette di regressione coincidono quando tutti i punti del diagramma a dispersione
appartengono a una retta, invece quanto maggiore la dispersione, tanto maggiore langolo
formato dalle due rette.
Caso estremo si ha quando b1 = b2 = 0; le rette, allora, hanno equazione y = y e x = x e sono,
quindi, parallele agli assi cartesiani.
per importante notare che la condizione b1 = b2 = 0, in generale, non indica che le due variabili
X e Y sono indipendenti, ma piuttosto indica che non esiste regressione lineare, ossia che le due
variabili non sono linearmente dipendenti, potrebbero per essere legate da una relazione di tipo
parabolico, o di tipo esponenziale ecc. (Vedi esempi 1,2,3).
Tale indice pu essere espresso mediante la covarianza fra X ed Y (varianza congiunta) la varianza
di X e la varianza di y. Sostituendo si ottiene:
Se tutti i punti giacciono su una retta parallela allasse delle ascisse, o parallela allasse delle
ordinate lindice r assume la forma indeterminata 0/0 perch si annullano numeratore e
denominatore.
Questa relazione ci permette di dimostrare facilmente che se le due rette di regressione coincidono
il coefficiente r vale + 1 oppure meno 1. Infatti in tal caso risulta b 2 = 1 / b1
= Varianza attribuibile alla relazione che sussiste fra X ed Y. Viene detta Varianza
spiegata. E calcolata come differenza dalla retta di regressione dal valore medio.
= E detta varianza non spiegata in quanto non imputabile alla relazione fra X ed Y ma ad
altri fattori.
Coefficiente di determinazione
Esempio
Esempio
Esempio
Calcolare il coefficiente di correlazione lineare fra le variabili X e Y della Tabella
dellesercizio 3 .