Apunts Dades Complert PDF

Anàlisi de Dades: Temes 1 i 2
Introducció a l'Estadística
Anomenem estadística a la ciència que tracta sobre l'obtenció d'informació a partir de
dades numèriques. Concretament, ens centrem en l'estadística aplicada, que posseeix
tres grans camps d'estudi principals.
• L'obtenció de Dades: Obtenim dades per respondre preguntes específiques.
• Anàlisi de Dades: Organitzem i descrivim aquestes dades mitjançant gràfics,
resums numèrics i models matemàtics.
• Inferència estadística: Interpretar les dades i extraure conclusions que puguin
aplicar-se a un col·lectiu més ampli, i determinar la fiabilitat de les conclusions.
Mostres
A l'hora d'obtenir dades cal tenir en compte dos conceptes claus: una població és el
conjunt d'individus que volem estudiar, i una mostra són els individus -o la part de la
població- que realment estudiem. Hi han diversos mètodes per escollir una mostra, hi
han mètodes -o formes d'obtenir la mostra, millor dit- que poden portar a conclusions
falses. Dividirem els diversos mètodes en mostres esbiaixades -o males mostres- i
mostres no esbiaixades.
Les mostres esbiaixades són aquelles que afavoreixen a certs sectors de la població
respecte uns altres, és a dir, les que no donen la mateixa probabilitat a cada individu de la
població a poder ser escollit. Hi han dos grans tipus:
• Mostra de Voluntaris: Són les persones que tenen un interès particular en
respondre en el tema d'estudi i, per tant, s'ofereixen voluntaris per participar. Per
exemple, si a la TV formulen la pregunta de si certa persona hauria d'anar a la
presó i aquesta persona té molts enemics, està clar que el resultat de la pregunta
no reflectirà la realitat.
• Mostra de Conveniència: És aquella on s'escullen els individus de més fàcil
accés. Exemple: les campanyes de degustació de cert aliment.
Les mostres no esbiaixades són aquelles que donen la mateixa probabilitat a cada
individu de la població a poder ser escollit. N'hi han de diversos tipus, segons la mida de
la població.
• Mostra Aleatòria Simple (MAS): Una MAS de tamany n consta de n individus
d'una població escollits de forma tal que cada individu té les mateixes probabilitats
de ser triat. El procés de selecció o tria es fa a l'atzar, a través de programes
estadístics, o bé mitjançant una taula de dígits aleatoris.
Aquesta taula es caracteritza per tenir nombres independents -saber una part de la
taula no atorga informació sobre les altres- on cada valor té la mateixa probabilitat
de ser qualsevol dígit entre el 0 i el 9. Així, donem una xifra a cada individu,
escollim una fila de la taula i ens fixem en els últims dígits dels números:triem
l'individu que té un nombre que coincideix amb els últims dígits d'un número de la
taula, i així per a cada individu.
• Mostra Aleatòria Estratificada: Divideix la població en grups d'individus similars
(estrats) i després fa MAS en cada estrat per combinar-les posteriorment i formar
una mostra completa.
• Mostra en Etapes Múltiples:Aplica MAS per etapes. Per exemple, primer a la
ciutat, després a un barri, posteriorment a un carrer i finalment a un pis. La primera
mostra pot ser estratificada.
L'Enquesta i els seus Possibles Problemes
A l'hora de realitzar l'enquesta, a més de fer preguntes relatives al que volem estudiar,
s'han de fer també qüestions relacionades amb les característiques de l'individu (sexe,
edat, feina...). A més, fins i tot si el mètode de tria de la mostra ha estat a l'atzar, poden
haver-hi problemes:
• Falta de Cobertura: Alguns grups de la població queden fora del procés de
selecció de la mostra. Per exemple, grups marginals.
• Manca de Resposta: Quan un individu no vol col·laborar o no pot ser contactat.
• Biaix de Resposta: Els enquestats poden mentir si se'ls pregunta sobre
comportaments impopulars o il·legals. La falta de memòria de l'entrevistat també
pot influir.
• Redactat de Preguntes: Certes preguntes poden generar confusió o induir a
una resposta concreta.
Organització de les Dades

Una vegada tenim les enquestes, hem d'organitzar la informació recollida creant una
base de dades a l'ordinador. Hi han diversos conceptes clau en l'organització:
• Individus: persones, animals o coses que es descriuen en el conjunt de dades.
En una base de dades, cada observació és una columna.
• Variable: qualsevol tret d'un individu, canvia segons cada individu.
• Observació o cas: en un conjunt de dades, un individu i les seves variables. En
una base de dades, cada observació és una fila.
• Variable categòrica: indica a quin grup o categoria pertany l'individu.
• Variable quantitativa: pren valors numèrics, i per tant té sentit realitzar
operacions aritmètiques com sumes o mitjanes.
• Distribució d'una variable: Ens diu quins valors pren una variable i amb quina
freqüència.
• Taula de freqüències: presenta les freqüències amb què s'observen valors o
rang de valors (intervals o classes) d'una variable.
• Freqüència absoluta: nombre de vegades que observem un valor en un interval
o classe.
• Freqüència absoluta acumulada: Suma de totes les freqüències absolutes de
cada observació o cas fins al moment. L'última freqüència serà igual al nombre
de casos que hi hagin, per exemple, si hi han set casos serà set.
• Freqüència relativa: tant per cent (o tant per 1) de vegades que observem un
valor en un interval o classe.
• Freqüència relativa acumulada: Suma de totes les freqüències relatives de
cada observació o cas fins al moment. Mostra quin tant per cent o tant per 1 de
les variables tenen un valor inferior al nombre màxim de l'interval. Per exemple si
l'interval (20,30) té una freqüència relativa acumulada de 0,40 hi haurà un 40%
dels valors menors que 30.
Anàlisi Exploratori de les Dades: Gràfics i Histogrames

El primer que s'ha de fer amb un conjunt de dades es descriure'l. Primer examinarem
els gràfics i posteriorment altres eines d'anàlisi numèrica. De gràfics podem distingir dos
tipus: els que fem servir per mostrar les variables categòriques i els que usem per les
variables numèriques.
Els gràfics de variables categòriques poden ser de dos tipus: de barres, si volen
comparar diverses variables categòriques, o de sectors, si volem comparar totes les
variables categòriques. En un gràfic de sectors hem de comparar totes les variables
categòriques del nostre conjunt de dades, ja que el percentatge o la quantitat total ha de
ser la màxima. En canvi, un gràfic de barres permet comparar tan sols tres o quatre.
Pel que fa a les variables numèriques, podem distingir els histogrames o els
diagrames de troncs i fulles. Els histogrames són representacions gràfiques d'una
taula de freqüències, per crear-los hem de crear intervals de la mateixa longitud, comptar
quants casos hi han i dibuixar el gràfic. És necessari escollir bé el nombre de classes: no
han de ser ni excessives ni insuficients. Cal analitzar també la forma dels histogrames:
un histograma és simètric si el costat esquerra i el dret tenen aproximadament la mateixa
forma, i és asimètric si un costat té una forma bastant diferent a l'altre. Diem que és
asimètric a l'esquerra si aquest costat és més llarg, i asimètrica a la dreta si el costat
dret és més llarg. També cal identificar les observacions atípiques o molt allunyades.
Anàlisi Exploratori de les Dades: Diagrama de troncs i fulles

D'altra banda, existeix un altre tipus de gràfic de variables numèriques adequat per a
conjunts petits de dades: el diagrama de troncs i fulles. Per realitzar-lo, cal ordenar els
valors de menor a major, després separem cada observació en un tronc que contindrà
tots els dígits excepte l'últim i en una fulla que contindrà el darrer dígit. Els troncs es
dibuixen en vertical de menor a major i les fulles es col·loquen al costat del seu tronc
-col·locades d'esquerra a dreta, de menor a major-. Cal especificar la unitat de les fulles
per evitar errors. Cal dir també els dígits poden arrodonir-se si són nombres molt grans,
que els troncs poden desdoblar-se quan hi ha masses fulles i que, si girem el diagrama,
és una mena d'histograma.
Anem a realitzar un diagrama de troncs i fulles amb els següents nombres: 1, 2, 7, 12,
13,14, 22, 23, 34, 38. El gràfic seria així:
Tronc Fulla
0 1 2 7
1 2 3 4
2 2 3
3 4 8
Unitat fulla: €/hora
Anàlisi Numèrica de les Dades: el Centre

Per a variables numèriques, podem descriure distribucions numèricament amb l'ajut
d'un conjunt de mesures. Bàsicament descriurem el centre i la dispersió. Per a
descriure el centre o el valor mig, podem utilitzar la mitjana, la mediana o la moda. La
mitjana s'obté sumant tots els valors i dividint pel nombre de casos, és un bon indicador
de centre quan la distribució és simètrica. Al seu torn, la mediana és el valor de la
observació central quan s'ordenen els casos de menor a major, si hi ha un nombre senar
d'observacions hi ha un únic valor central; si el nombre és parell serà la mitjana entre els
dos casos centrals. Fem servir la mediana quan la distribució és asimètrica. Per últim, la
moda és la observació amb major freqüència.
Per un altre banda, cal tenir en compte l'existència dels cinc nombres clau que
permeten descriure un conjunt de dades numèric. Aquests nombres són la mediana o el
valor que separa el 50% de les observacions, el màxim, el mínim, el 1r quartil o el valor
per sota del qual tenim el 25% de les observacions, i el 3r quartil o el valor per sota del
qual tenim un 75% de les observacions. Podem fer, a més, dos operacions amb aquests
cinc valors: el recorregut (màxim-mínim) i el rang interquartílic (q3 – q1).
Cal dir també que els cinc nombres clau permeten construir el diagrama de caixa.
Primer cal fer una línia i assenyalar els cinc nombres clau, després fer una “caixa” que
englobi els valors de Q1 a Q3, i per últim fer sortir d'aquesta caixa dues rectes que vagin
fins al valor màxim i fins al valor mínim. A més, cal vigilar amb les observacions
extremes: una observació és extrema si és superior a Q3 +(1,5*Rang interquartílic) o
inferior a Q1 - (1,5*Rang interquartílic). Les observacions extremes s'assenyalen apart.
Anàlisi Numèrica de les Dades: La dispersió i altres mesures

Per calcular la dispersió utilitzarem la desviació estàndard, que mesura la dispersió
en relació a la mitjana. Per calcular la desviació estàndard, que és l'arrel quadrada de la
variància, cal seguir els següents passos:
1. Calcular la diferència entre el valor de cada observació i la mitjana.
2. Elevar el resultat de la resta al quadrat.
3. Sumar totes les diferències al quadrat.
4. Dividir pel nombre d'observacions menys 1.
5. Fer l'arrel quadrada del resultat del pas 4 (agafar només el valor positiu)
Per un altre banda, existeixen també altres mesures com les següents:
• Percentil de P%: valor en una posició per sota de la qual tenim p% casos.
• Coeficient de variació: Desviació estàndard/mitjana.
• Mesures d'asimetria: (mitjana-moda)/desviació estàndard
o (mitjana-mediana)/desviació estàndard
• Mesures de curtosi o apuntament: mesura el grau de concentració de les
freqüències en relació a la mitjana.
En conclusió, podem dir que per a una distribució asimètrica o amb valors extrems
utilitzarem els cinc nombres resum. Per a una distribució simètrica usarem la mitjana i
la desviació estàndard.
Anàlisi de Dades: Temes 3 i 4
Dades Agrupades
Anomenem dades agrupades a un conjunt de dades d’una variable numèrica
presentat en forma d’una taula de freqüències. En aquest cas no coneixem la informació
original, és a dir, les dades cas per cas. Per tant, hem de treballar amb les dades
agrupades en intervals o rangs de valors. No obstant això, podem calcular pràcticament
tots els resums numèrics i d'aquesta forma descriure bastant bé el conjunt de dades.
Imaginem que tenim el conjunt de dades següent:
Límit Límit Freq. Freq. Abs. Punt Mig Suma interval (Punt
inferior superior Absoluta Acumulada mig* Freq. Ab. Ac)
0 10000 15 15 5000 5000*15 = 75000
10000 15000 45 60 12500 12500*45 = 562500
15000 20000 100 160 17500 17500*100 = 1750000
20000 30000 83 243 25000 25000*83 = 2075000
30000 50000 30 273 40000 40000*30 = 1200000
50000 100000 7 280 75000 75000*7 = 525000
Prestem molta atenció a la penúltima columna que hem afegit -ressaltada en blau- ja
que es tracta una eina clau per a calcular els resums numèrics. El punt mig d'un interval
és el seu límit superior -o “màxim” de l'interval- menys el seu límit inferior -o “mínim” de
l'interval- partit per dos. La fórmula es podria expressar de la manera següent:
Punt mig interval = (Límit superior – límit inferior)/2
Un cop hem calculat els punts mitjos, podem trobar els cinc nombres resum:
• Càlcul 1rQuartil: Agafem el punt mig de l'interval que tingui l'observació
determinada per: (Nombre casos+1)/4
En aquest cas, tenim 280 casos, si fem 281/4=70.25. Per tant, agafaríem el
17500 com a valor del primer quartil ja que 70.25 es troba entre les observacions
70 i 71, localitzades al tercer interval.
• Càlcul Mediana: Agafem el punt mig de l'interval que tingui l'observació
determinada per: (Nombre casos+1)/2
En aquest cas, tenim 280 casos, si fem 281/2=140.5. Per tant, agafaríem el
17500 com a valor de la mediana ja que 140.5 es troba entre les observacions
140 i 141, localitzades al tercer interval.
• Càlcul 3rQuartil: Agafem el punt mig de l'interval que tingui l'observació
determinada per: (Nombre casos+1)*0.75
En aquest cas, tenim 280 casos, si fem 281*0.75=210.75. Per tant, agafaríem el
25000 com a valor de la mediana ja que 210.75 es troba entre les observacions
210 i 211, localitzades al quart interval.
• Càlcul Mínim i Màxim: Agafem el valor més baix, és a dir, el límit inferior del
primer interval per saber el mínim; i el valor més alt, en altres paraules, el límit
superior del darrer interval.
Podem calcular altres resums numèrics mitjançant també el punt mig. Ens fixem en la
darrera columna, destacada en color taronja, on hem suposat que cada un dels valors de
cada interval són iguals al punt mig, per això multipliquem el punt mig per la freqüència
absoluta. Un cop fet això, podem calcular diversos resums numèrics:
• Càlcul Mitjana: Sumem tots els valors de la columna taronja i els dividim pel
nombre total d'observacions. Així ens surt: 6187500/280 = 22098,21
Per tant, la mitjana = Total suma intervals/nombre casos
• Càlcul desviació estàndard: Simplement calculem la desviació estàndard com ho
fem normalment -consulta els apunts dels primers dos temes per saber com
calcular-la-; però, com no sabem els valors de totes les observacions, calculem la
desviació usant el punt mig i la multipliquem per la freqüència absoluta. La resta del
procediment és igual.
Per exemple, la desviació estàndard del primer interval és:
◦ Punt mig -mitjana = 5000 – 22098,21 = -17098,21
◦ (Punt mig – mitjana)² = (-17098,21)² = 292348931,76
◦ (Punt mig – mitjana)² * Freq. Absoluta = (-17098,21)² * 15 = 435233976,4
◦ Després sumaríem els resultats de cada interval, dividiríem pel nombre
d'observacions menys 1; i faríem l'arrel quadrada de tot això.
Transformacions de Dades
En cas que vulguem canviar unitats de mesura -passar de euros a dòlars, per exemple-
cal tenir en compte com afecten aquests canvis a les mesures resum. Bàsicament,
distingim dos tipus de canvis.:
• El canvi d'origen: es produeix quan sumem o restem un nombre -una constant-
a la variable original. Així, si suposem que X és la nostra variable original, i a és
una constant qualsevol, un canvi d’origen de la variable X ens donarà una
variable transformada que anomenem Y. El canvi s'expressa d'acord amb la
següent equació Y= X ± a.
El canvi d'origen desplaça el gràfic a l'esquerra o a la dreta -depèn de a-. En
aquest canvi, només varien les mesures de posició (mitjana, quartils...) però la
dispersió i la forma no canvien.
• El canvi d'escala: es produeix quan multipliquem o dividim les dades per un
nombre. Així, si suposem que X és la nostra variable original, i b és una constant
qualsevol, un canvi d’escala de la variable X ens donarà una variable
transformada que anomenem Y. El canvi s'expressa d'acord amb la següent
equació Y= X * b (si multipliquem) o Y= X/b (si dividim)
Aquesta mena de canvi fa variar la mida o grandària de l'histograma, depenent
de si multipliquem o dividim. En aquest canvi, varien les mesures de posició
(mitjana, quartils...) i les de dispersió (desviació estàndard, curtosi...), tan sols la
forma es manté constant.
• Transformacions lineals: Són els dos canvis junts, els expressem amb
l'equació: Y= (X ± a)/b o Y= (X ± a)*b. En aquest canvi, varien les mesures de
posició (mitjana, quartils...) i les de dispersió (desviació estàndard, curtosi...), tan
sols la forma es manté constant.
Al seu torn, existeixen un altre tipus de transformacions no tan freqüents: les
transformacions no lineals. Aquestes transformacions es basen en funcions no lineals,
com logarítmiques o exponencials, i s'utilitzen per convertir distribucions asimètriques en
simètriques i calcular així resums numèrics que només són vàlids per aquestes
distribucions (mitjana, desviació estàndard...).
Al aplicar aquestes transformacions, canvia tot: forma, dispersió i posició. A més, no
podem calcular la nova mitjana i la desviació estàndard amb les dades anteriors. És a dir,
que si fem una transformació logarítmica la nova mitjana NO serà el logaritme de la
mitjana anterior. Per últim, el programa ODStatistics permet fer totes aquestes
transformacions de forma quasi immediata.
Corbes de densitat i histogrames
A l'hora d'explorar una variable numèrica o quantitativa:
1. Realitzem un gràfic (un histograma o diagrama de troncs i fulles)
2. Analitzem l’aspecte general de la distribució (centre, dispersió, forma) i les
observacions atípiques.
3. Triem un resum numèric per a descriure de forma breu el centre i la dispersió de
la distribució.
A més de l'anterior, podem descriure determinats histogrames amb un gran nombre
d'observacions mitjançant una corba llisa. Per poder-ho fer, l'histograma ha de ser
regular i, per tant, ha de complir el següent:
1. Ha de ser simètric.
2. Els dos costats han de disminuir gradualment.
3. No pot tenir observacions atípiques ni buits destacables.
Així doncs, la corba de densitat -nom tècnic de la corba descrita anteriorment- és un
model matemàtic ens proporciona una bona descripció de les dades, malgrat que aquesta
descripció sigui idealitzada ja que ignora els valors atípics i les petites irregularitats.
Finalment, cal dir que l'histograma depèn del nombre de classes triades mentre que la
corba de densitat no.
Imatge 1: Exemple de Corba de Densitat
Per un altre banda, la corba de densitat defineix abaix seu un àrea exactament igual a
1, és a dir, la regió sota la corba conté la proporció total de totes les observacions. Això
ens permet, per exemple, saber la proporció de casos per sota d'un valor o situar
mesures de centre com la mediana -que divideix l'àrea de la corba en dues meitats,
cadascuna de les quals conté el 50% de casos-. Com en la resta de distribucions, la
mitjana i la mediana coincideixen si la forma és simètrica i si és asimètrica la mitjana es
desplaça cap al costat més llarg. També podem situar mesures de posició (primer
quartil...)
La distribució normal
Les corbes de densitat Normals són una classe especial de corbes de densitat. Es
caracteritzen per ser simètriques, tenir una sola moda o “pic”, tenir forma de campana i
perquè es descriuen donant simplement la mitjana μ i la desviació estàndard σ. Aquesta
mena de distribucions són molt importants ja que:
• Descriuen bé una gran part dels conjunts de dades reals.
• Aproximen bé els resultats de molts processos aleatoris.
• Molts processos d'inferència estadística es basen en les seves propietats.
Al seu torn, existeixen dues propietats importants d'aquestes corbes: La mitjana µ se
situa en el centre de la corba i la desviació típica σ controla la dispersió de la corba. A
més, la mitjana i la desviació típica ens permeten calcular els punts d'inflexió ja que són
aquells punts iguals a µ ±σ. Cal mencionar també la regla 68-95-99.7 que diu que:
• El 68% de les observacions es troben entre μ – σ i μ + σ
• El 95% de les observacions es troben entre μ – 2σ i μ + 2σ
• El 99,7% de les observacions es troben entre μ – 3σ i μ + 3σ
La distribució normal estandarditzada

Si volem comparar dos casos expressats en sistemes de mesura diferents, usarem un
criteri que mesura en desviacions estàndards i així podem saber quin cas és més gran.
Aquest criteri s'anomena observació estandarditzada (z) i ens diu a quantes desviacions
típiques(σ) es troba l’observació original (x) de la mitjana (µ) i en quina direcció. Es calcula
a partir de:
La variable z és una transformació lineal de la variable x, per tant, z de mitjana (µ)

serà zero (està a zero desviacions típiques) i z de σ (desviació estandard) serà 1. Així,
com totes les distribucions Normals comparteixen les mateixes propietats, podem
“estandarditzar” les dades i transformar qualsevol corba Normal N(μ,σ) en la corba
Normal estandarditzada N(0,1).
Càlcul d'un valor amb la distribució normal estandarditzada

La distribució normal estandarditzada ens permet calcular un percentatge (percentatge
de casos per sota de X valor) i un valor (valor per sota del qual es troben un % concret
dels casos). Per fer aquests càlculs, necessitem estandarditzar la distribució normal i la
taula A, que ens van repartir a classe.
Per calcular un valor, per exemple: en una distribució normal N(72,4) volem saber sota
quin valor es troba el 60% de la classe. Això vol dir que busquem el valor de z de la taula
A amb un valor igual o molt proper a 60. Això és així ja que les “z” de la taula a ens diuen
quina àrea de la distribució normal estandarditzada hi ha per sota d'elles . Si busquem,
veurem que el valor més proper és z= 0,25 amb una àrea del 59,87% de les
observacions. Un cop fet això, aïllem x:
0,25 = (x-72)/4
1= x-72
x = 73
Per tant, sota el valor 73 trobem aproximadament el 60% dels casos d'aquesta
distribució.
Càlcul d'un percentatge amb la distribució normal estandarditzada

Per calcular un percentatge, per exemple: en una distribució normal N(72,4) volem
saber sota quin percentatge de casos tenen un valor superior a 64. Primer, cal que
estandarditzem el valor 64:
z= (64-72)/4 = -2
Cerquem z= -2 a la taula A i ens dóna un valor de 0,0228 o un 2,28%. Això vol dir, tal
com indica la taula, que un 2,28% dels casos estan a l'esquerra de 64-i tenen un valor
per sota de 64-. Però recordem: volem saber el percentatge de casos amb un valor
superior a 64. Per tant, restem 100%-2,28%=97,72%. Amb això sabem que un 97,72%
dels valors tenen un valor superior a 64.
Valoració de la Normalitat
Podem saber si una distribució normal és bona aproximació a la distribució de les
nostres dades mitjançant:
• Diagnòstic visual: histogrames o tronc-i-fulles simètric,sense buits i sense
observacions atípiques
• Diagnòstics numèrics: regla del 68-95-99,7 i altres. Calculem els punts (μ – σ i
μ + σ, μ + σ, μ – 2σ, μ + 2σ, μ – 3σ i μ + 3σ) i fem un recompte de freqüències
per veure si es compleix aquesta regla.
Anàlisi de Dades: Temes 5 ,6 i 7
Relacions entre Dues Variables Numèriques: el Diagrama de Dispersió

Quan examinem dues variables numèriques, volem saber si estan relacionades. És a
dir, si una explica o pot influir en el resultat de l'altre. En aquesta relació distingirem dues
variables:
• Variable resposta: mesura el resultat d'un estudi i és la variable dependent.
• Variable explicativa: intenta explicar allò observat i és la variable independent.
La manera més comú de mostrar la relació entre dues variables numèriques és utilitzar
un diagrama de dispersió. Aquest diagrama representa els valors d'una variable
quantitativa a l'eix d'abscisses (eix de les x) i els valors de l'altre a l'eix d'ordenades (eix
de les y). Cada individu o observació apareix com un punt del diagrama i la seva posició
dependrà dels valors que prenguin les dues variables.
Per examinar un diagrama de dispersió, fem el mateix que en qualsevol gràfic de
dades. Primer, identifiquem l'aspecte general i les seves observacions atípiques. I després
descrivim aquest aspecte general mitjançant:
• La forma: Quina mena de “dibuix” forma el diagrama: si és una línia, diem que
hi ha una relació lineal entre ambdues variables. Si és una corba, la relació
entre elles és curvilínia. Hi han també altres tipus de relacions apart d'aquestes.
• La direcció: Es basa en determinar el tipus d'associació entre les variables. Si
quan augmenta una variable creix l'altre, la relació és positiva. I si quan creix
una variable disminueix l'altre la relació és negativa. No sempre es pot
determinar la direcció d'un diagrama, com en el cas de les corbes per exemple.
• La força: Descriu la proximitat dels punts a una forma determinada, com una
recta o una corba. Quan més dispersats estiguin els punts, menys força hi haurà.
La Correlació i la Covariància
A l'hora de determinar la força d'una relació, tenim un problema: l'escala en que
mesurem les variables influeix en la nostra percepció de la força. Així, un gràfic mesurat
amb escala de 0 a 250 serà considerat menys fort que un altre mesurat amb escala de
100 a 150. Per solucionar això, necessitem una mesura numèrica que no es vegi afectada
per l'escala: la correlació.
La correlació mesura la força i la direcció d'una relació lineal entre dues variables
quantitatives. És a dir, només ens serveix per rectes. Per calcular la correlació (r)
necessitem la mitjana de la variable x (Mx) i la de la variable y (My), així com les
desviacions típiques de x (Sx) i de y (Sy). Per últim, utilitzarem també els valors de x y de
y de tots els individus (x1, y1, x2, y2...). Una vegada tenim tot això:
1. Fem una divisió: 1/ (nombre casos-1)
2. Fem un altre divisió: (x1-Mx)/Sx i fem això per tots els valors de x.
3. Fem un altre divisió: (y1-My)/Sy i fem això per tots els valors de y.
4. Multipliquem: el resultat de (x1-Mx)/Sx pel de (y1-My)/Sy. Fem això per tots els
valors: amb x2 i y2, x3 i y3....xn i yn.
5. Sumem els resultats de totes les multiplicacions anteriors.
6. Multipliquem 1/ (nombre casos-1) pel resultat del pas 5è.
La formula seria així, sent x barret i y barret les mitjanes de x i de y. I la lletra grega
sigma vol dir suma d'aquests termes per tots els individus.
Existeix un altre mesura relacionada amb la correlació: la covariància, que mesura la
dispersió de dues variables numèriques i té una formula molt similar a l'anterior -l'únic
que canvia és que no dividim per les desviacions estàndard-
La covariància és positiva si la relació és positiva -quan augmenta una variable

creix l'altre- i negativa si la relació és negativa - quan creix una variable disminueix
l'altre-. Tanmateix, la covariància es veu influïda pel canvi d'escala, en altres paraules, si
passem de grams a quilos canvia. Per això és millor utilitzar la correlació.
La correlació, al treballar amb variables estandarditzades, no es veu afectada per
canvis d'escala -passar de grams a quilos, per exemple-. Al igual que la covariància, és
positiva si la relació és positiva i negativa si la relació és negativa. A més, com
treballa amb variables estandarditzades només pren valors de 1 a -1; com més gran el
valor en valor absolut, més gran la força. Així, un valor de 0 indica que no hi ha cap
mena de relació i un valor de -1 o 1 indica que tots els punts del diagrama estan sobre
una recta. Per últim, cal dir que la correlació es veu afectada per les observacions
atípiques.
La Recta de Regressió
Si el diagrama de dispersió té una forma lineal, ens agradaria saber com és aquesta
recta. És a dir, volem dibuixar la recta que resumeix la relació entre ambdues variables.
Aquesta recta s'anomena recta de regressió i descriu com canvia la variable resposta y
a mesura que canvia la variable explicativa x. Fem servir aquesta recta per predir el valor
de y a partir d'un valor x. Per usar aquesta eina, hem de definir correctament la variable
dependent i independent. Cal tenir en compte que hi han errors de predicció, és a dir,
els valors observats i els predits són diferents.
Per aconseguir que aquests errors o residus siguin els mínims possibles -tinguin el
mínim valor possible-, fem servir la recta de regressió mínim-quadràtica de y en relació
a x. Aquesta recta fa que la suma dels quadrats dels residus sigui el més petit possible.
L'equació de la recta té la forma Ў= a +bx, amb:
• Pendent: Es calcula amb la correlació (r) i les desviacions típiques de x (Sx) i de
y (Sy). La seva formula és b=r*(Sy/Sx). El pendent es diu en quina quantitat Ў
canvia quan x augmenta una unitat.
• Ordenada a l'orígen: Es calcula amb la mitjana de x (Mx) i la de y (My) i el
pendent (b). La seva formula és a= My – (b*Mx). La ordenada a l'origen ens
diu el valor de y quan x val zero.
Al seu torn, hi ha una mesura derivada de la correlació que està íntimament relacionada
amb la recta de regressió: el coeficient de determinació. El coeficient de determinació
o R² és el quadrat de la correlació, i determina quin % de les variacions de y pot ésser
explicat a partir de les variacions de x. Així, un R² de 0,8 significa que el 80% de les
variacions de y són explicades amb les de x o, el que és el mateix, amb la variable
explicativa x expliquem un 80% dels valors de la variable resposta y.
La Traça Mediana
Al representar gràficament dues variables en el diagrama de dispersió, sovint ens
sembla que a primera vista no hi ha relació entre les dues variables ja que tots els punts
estan molt dispersos. En aquests casos, la traça mitjana o la traça mediana poden
ajudar-nos a descobrir la forma d’una relació que pot no ser òbvia a primera vista. Per
calcular la traça mitjana o mediana seguim el procés següent:
1. Esbrinar si hi ha molta dispersió en la variable resposta y per alguna causa aliena a
l’estudi.
2. Fixar els valors de la x i calcular la mitjana (o la mediana) dels valors de la y per a
valors de la x fixos.
3. Unir per mitjà d’una línia les mitjanes (o medianes) calculades.
Ho veurem més clar amb un exemple. Imaginem que tenim el conjunt de dades
següent:
Renda 15000 25000 45000 55000
Consum 1000 1500 2010 1700
Octubre
Consum 1150 1420 1925 1545
Novembre
Consum 1880 2245 3285 2065
Desembre
Consum Gener 820 1250 2023 1675
Consum Mitjà 1212,5 1603,75 2310,75 1746,25
A la fila ressaltada en blau hem calculat la mitjana de y -consum- per valors de x -renda-
fixos. Ara tan sols quedaria representar això en un diagrama de dispersió i podríem
veure quina relació hi ha: una corba.
Anàlisi de Residus
Els residus són la diferencia entre el valor observat i el valor predit per la recta de
regressió. Podem representar els residus en un diagrama de residus o un diagrama de
dispersió dels residus. Cal dir que la mitjana dels residus d'una recta de regressió és
sempre zero. Amb aquest diagrama podem comprovar que:
• La relació és lineal i per tant podem representar-la amb una recta de regressió.
• No hi ha observacions estranyes o influents que condicionen els resultats i
que potser seria millor no incloure a l’hora de fer la regressió.
• No hi ha variables latents que no estem tenint en compte i que explicarien
millor la relació observada.
Per determinar tot això hem d'observar la dispersió dels residus. Si la dispersió és
aleatòria, no hi ha cap problema amb la relació d'ambdues variables. No obstant, si
segueixen un patró, la relació no és lineal. A més, si els residus són més grans -en valor
absolut- quan x creix hem d'esbrinar el motiu.
Pel que fa a les observacions atípiques, són observacions influents si al eliminar-les
canvia significativament la recta de regressió. Els punts que són atípics en l'eix
d'abscisses -eix de les x- solen ser influents.
Regressions no Lineals
En certs casos la relació és clarament no lineal, ja sigui per la forma del diagrama de
dispersió o per la forma corba del diagrama de residus. En aquests casos, podem
convertir-la en lineal si realitzem una transformació no lineal de les dades. Per
exemple, podem prendre logaritmes neperians de x i de y (transformació log-log) de forma
que: ln(y)=a+b*ln(x). Aquesta transformació està molt lligada a l'elasticitat degut a que b
és una elasticitat:
Per predir el valor de y -i no pas ln(y)- en aquesta transformació log-log fem:
A mode de resum, hi han tres tipus de transformacions no lineals:

• Transformació log-log: ln(y)=a+b*ln(x)
• Transformació semi-log: ln(y)= a+bx
• Transformació recíproca: y= a + b*(1/x)
Interpretació de la Correlació i la Regressió

L'extrapolació és l'ús d'una recta de regressió per predir valors fora de l'interval de
valors de la variable explicativa x. La predicció no sempre té sentit. Per exemple, pot
sortir-nos d'alçada tres metres o una població negativa.
Una variable latent és una variable que no s’inclou entre les variables estudiades i que,
malgrat això, té un important efecte en la relació que existeix entre elles. Imaginem el
següent conjunt de dades:
Notes Hores Estudi Assignatura
0 7 Física Quàntica
1,2 6 Física Quàntica
7 3 Introducció a l'Estadística
Les dades no tenen sentit només amb les dues primeres columnes ja que a més hores
d'estudi menys nota, però amb la tercera tot cobra sentit: la Física Quàntica és més
difícil que Introducció a l'Estadística.
Per últim, cal dir que de vegades utilitzem les mitjanes de variables per estudiar les
relacions entre aquestes i que dues variables poden estar associades -per exemple, quan
augmenta una augmenta l'altre- però no implica que estiguin relacionades. Per
exemple, si quan augmenta el nombre de semàfors moren més elefants NO vol dir que un
major nombre de semàfors sigui la causa de la mort dels elefants.
Relacions entre Dues Variables Categòriques

Fins ara, hem estudiat les relacions d'almenys una variable numèrica, ara ens
centrarem en la relació entre dues variables categòriques. Primer crearem una taula de
contingència per organitzar la informació. Una taula de contingència mostra els
recomptes de dues variables categòriques. Per exemple, volem saber si el fet que els
pares hagin anat a la universitat influeix al fet que el fill també hi vagi:
Pares Fills
Hi va No hi va Totals
Els 2 hi han anat 1600 300 1900
Només 1 hi ha anat 1200 500 1700
Cap hi ha anat 1100 700 1800
Totals 3900 1500 5400
Podem mostrar les freqüències relatives a la mateixa taula. Cal aclarar que la
freqüència relativa d'un valor és el valor partit pel total (5400):
Pares Fills
Hi va No hi va Totals
Els 2 hi han anat 0,3 0,06 0,36
Només 1 hi ha anat 0,22 0,09 0,31
Cap hi ha anat 0,2 0,13 0,33
Totals 0,72 0,28 1
Les cel·les ressaltades en color taronja s'anomenen distribució conjunta, ja que
mostren les dues variables a l'hora. En canvi, les cel·les marcades en blau reben el nom
de distribucions marginals perquè mostra el % de cada variable per separat. Podem
organitzar les distribucions marginals en diagrames de barres.
Per saber si el nombre de pares que ha anat a la Universitat influeix al fet que el fill
també hi vagi, utilitzarem les distribucions condicionals en la qual examinem la
proporció de fills que van i no van a la universitat en cada una de les categories “pares
que han anat a la universitat” i les comparem. És a dir, faríem el següent:
Condicional Fills
a Pares Hi va No hi va Totals
Els 2 hi han anat 0,81 0,16 1
Només 1 hi ha anat 0,71 0,29 1
Cap hi ha anat 0,61 0,39 1
Així, la distribució condicional d'un valor és: valor/total de la fila. Aquestes
distribucions ens ajuden a saber si dues variables categòriques estan relacionades entre
sí. Podem afirmar que dues variables categòriques estan relacionades si les
distribucions condicionals són molt diferents. Per contra, dues variables categòriques
NO estan relacionades si les distribucions condicionals són molt iguals. En aquest cas, sí
que ho estan com es pot comprovar: com més pares van a la universitat, més fills hi van.
La Paradoxa de Simpson
Igual que amb les variables numèriques, les variables latents poden canviar i fins i tot
invertir les relacions observades entre dues variables categòriques. En aquest cas existeix
una paradoxa de Simpson: el canvi de sentit d'una comparació o associació quan dades
de diversos grups es combinen en un de sol. Ho entendrem millor amb un exemple:
Aprovats No Aprovats Totals
Homes 350 150 500
Dones 170 330 500
Totals 520 480 1000
Si calculem les distribucions condicionals sembla que les dones suspenguin molt
més:
Aprovats No Aprovats Totals
Homes 0,7 0,3 1
Dones 0,34 0,66 1
Però hi ha una variable latent: l'assignatura.
Bioquímica Molecular Avançada Introducció a l'Estadística
Aprovats No Aprovats Totals Aprovats No Totals
Aprovats
Homes 0,25 0,75 1 Homes 0,7 0,3 1
Dones 0,34 0,66 1 Dones 0,7 0,3 1
En realitat les dones treuen igual la mateixa nota o més que els homes, però hi ha més
dones cursant Bioquímica Molecular Avançada que no pas introducció a l'Estadística. En
aquest cas, com l'associació canvia de sentit, es dóna una paradoxa de Simpson.
Relacions entre Una Variable Categòrica i una Numèrica

Per analitzar les relacions entre una variable categòrica i una numèrica, cal determinar
si la categòrica té ordre o no. En cas que no tingui ordre, fem anàlisis gràfiques i
resums numèrics de la variable numèrica dins de cada categoria i els comparem. En altres
paraules, comparem els resums numèrics de cada categoria, els diagrames de caixa, els
histogrames...
Així doncs, quan la variable categòrica no té ordre no podem parlar d'associació
positiva o negativa sinó que tan sols podem dir que X categoria té valors més aleatoris o
que Y categoria té valors més grans. Exemples de variables categòriques sense ordre
són les ètnies, les ciutats, els barris...
Quan la variable categòrica té ordre, també fem anàlisis dins de cada categoria, però
en aquest cas podem parlar d’associació entre les dues variables. Per exemple, podem
dir que el nivell de renda i el nivell educatiu tenen una associació positiva.
Per últim, cal dir que també podem fer relacions entre dues variables categòriques i
una numèrica aplicant el mateix procés però amb una categoria més. També cal dir que
totes les relacions podem fer-les amb el programa ODStatistics.
Anàlisi de Dades: Temes 8, 9 i 10
Sèries Temporals
Anomenem sèrie temporal a un conjunt de dades sobre una variable concreta ordenat
cronològicament. Segons la periodicitat o el període de temps en què estan ordenades
les dades, les sèries temporals són trimestrals -si estan ordenades per trimestres-,
mensuals -si ho estan per mesos...-. Utilitzem aquestes sèries per observar l'evolució
d'una variable al llarg d'un període concret i per preveure la seva evolució futura -quins
valors prendrà en un futur-, és a dir, les sèries temporals ens ajuden a fer previsions
estadístiques.
Les sèries temporals tenen quatre components:
• Tendència (T): Comportament de la sèrie a llarg termini -més de cinc anys-.
• Cicle (C): Comportament de la sèrie a mig termini -més d'un any i menor a cinc-
• Estacionalitat (E): Comportament a curt termini -menys d'un any- que es
repeteix al llarg del temps. Per exemple, el sector turístic espanyol pateix una
forta estacionalitat a l'estiu -rep molt més turistes en aquesta època de l'any-.
• Irregular (I): Factor puntual i imprevisible a curt termini, no ve explicat per altres
components. Per exemple, l'impacte a l'economia japonesa pel tsunami és un fet
irregular.
Aquests components poden estar associats de forma additiva Y= T+E+C+I; de forma
multiplicativa Y=T*E*C*I o mixta Y=T+C*E*I. Les sèries multiplicatives o mixtes pateixen
variacions fortes al llarg del temps, en altres paraules, són més irregulars i volàtils que
les additives.
Ens pot interessar separar els components d'una sèrie temporal i poder veure quin és
l'efecte de cadascun sobre l'evolució de la sèrie. Atès que el component tendència és el
que millor representa la sèrie, podem intentar aïllar-lo intentant representar-lo mitjançant
les següents funcions matemàtiques:
• Recta: T= a+b*t on t és el temps
• Polinomi: T= a+b*t+c*t² +d*t³ ... El polinomi pot ser de qualsevol grau.
• Exponencial:
• Recíproc: 1/T= a+b*t

• Potencial:
• Logarítmica: logT = a+b*t
Càlcul de les Mitjanes Mòbils

Un altre manera d'aïllar el component de tendència i cicle -els dos junts- són les
mitjanes mòbils. Aquesta tècnica consisteix en calcular mitjanes de n períodes
consecutius de la sèrie original i cada nou valor de la mitjana mòbil descarta el valor més
antic i n'incorpora un de nou. Posem un exemple:
Any Valors Originals Mitjana mòbil centrada ordre Mitjana mòbil centrada ordre
3 5
2007 10 - -
2008 11 (10+11+12)/3=11 -
2009 12 (11+12+13)/3=12 (10+11+12+13+14)/5=12
2010 13 (12+13+14)/3=13 -
2011 14 - -
A la taula superior veiem el mètode per calcular mitjanes mòbils centrades -corresponen
al valor del centre- d'ordre imparell. Per calcular aquestes mitjanes per ordres parells cal
un mètode lleugerament més complex:
Any Valors Originals Mitjana mòbil NO centrada Mitjana mòbil centrada ordre
ordre 4 4
2007 10 - -
2008 11 (10+11+12+13)/4=11,5 -
2009 12 (11+12+13+14)/4=12,5 (11,5+12,5)/2=12
2010 13 - -
2011 14 - -
Com podem apreciar, calculem les mitjanes mòbils no centrades i després calculem la
mitjana centrada fent la mitjana de les dues mitjanes mòbils -a la taula superior es veu
millor-.
Càlcul del Component Estacional

Sovint ens pot interessar saber quin efecte té el component estacional d'una sèrie
temporal. Com es repeteix al llarg del temps, podem aïllar-lo a través del procés següent:
1. Aïllem els components de tendència i cicle mitjançant el mètode de les
mitjanes mòbils.
2. Trobem el component estacional i el d'irregularitat fent la següent operació en
una sèrie additiva:
E+I = Y -(T+C) = Valor Original – Mitjana mòbil ordre n
Per eliminar el component irregular del resultat que hem obtingut -i saber així el
component estacional-, podem suposar que, com el component irregular és aleatori -no el
podem preveure- la seva mitjana és zero en el cas d'una sèrie additiva i 1 en el cas
d'una multiplicativa.
Amb això ja podem saber el component estacional. Per exemple, el component
estacional de gener d'una sèrie temporal additiva seria la mitjana de TOTS els E+I de
gener -la mitjana del component irregular és zero i no afecta-.
Predicció
Si fem servir una funció per predir el component tendència i si coneixem el component
estacional, podem predir els valors futurs de la sèrie. Per exemple en una sèrie additiva
seria així: Y = (Funció Tendència) + E
Mesures de desigualtat: Índex de Lorenz-Gini

A l'hora de classificar els països segons la seva renda mitjana o renda per càpita, ens
pot interessar saber com està distribuïda: és a dir, si hi ha molta o poca desigualtat. Per
mesurar la distribució de la renda, fem servir les mesures de desigualtat i concentració.
Una de les mesures més importants de desigualtat i concentració és l'índex de Lorenz-
Gini, que ens dóna un valor numèric comprés entre el zero (màxima igualtat, tothom rep
el mateix) i l'1 (màxima desigualtat, tot ho té un sol individu). Imaginem la situació
següent:
Família Herència (milions €) Membres família
González 10 1000
García 200 60
Hernández 3000 1
A primera vista, s'aprecia que la situació NO és igualitària; però volem comprovar-ho
calculant l'índex de Lorenz-Gini. Fem una taula on anomenarem X als milions que rep
cada membre de la família i N al nombre de membres. Aquesta taula ha d'estar ordenada
per ordre creixent, és a dir, qui més té va a la darrera fila. D'aquesta forma:
Família Xi Ni Xi*Ni
González 0,01 1000 10
García 3,33 60 200
Hernández 3000 1 3000
A l'exemple podem veure que la família González rep 0,01 M€ per cada membre, que
fan un total de 10; mentre que la família Hernández en rep 3000M€ per membre. A la
taula el total que rep cada família ve representat per la quarta columna: Xi*Ni. Amb la
quarta columna podem calcular el total de l'herència: la suma de tots els valors Xi*Ni.
En aquest cas seria Ak (Total herència) = 10+200+3000= 3210 M€.
Amb el total de l'herència podem acabar de calcular l'índex:
Família Xi Ni Xi*Ni pi qi pi-qi pi-0
González 0,01 1000 10 0,94 0. 003 0,94 0,94
García 3,33 60 200 0,99 0,06 0,93 0,99
Hernández 3000 1 3000 1 1 0 0
Hem afegit quatre noves columnes. La columna ressaltada en lila mostra la proporció
total dels individus sobre el total d'hereus. És a dir pi = (Suma ni fins ara) / ni total
observem que el total sempre dóna 1 ja que 1/1 =1. La columna verda mostra la proporció
total de l'herència sobre el total de l'herència. Dit d'un altre forma :
qi= (Suma xi fins ara) / xi total El total sempre és 1.
La columna destacada en color taronja és la resta entre el pi y qi, com el seu nom
indica. Per últim, la columna blava mostra la situació de màxima desigualtat -on el Sr/Sra
Hernández ho rep tot-.
Amb tot això, només ens calen les darreres dues columnes per calcular l'índex de
Lorenz-Gini, que es calcula així: IL = (Suma total pi-qi) / Suma total pi-0
En l'exemple: IL = (0,94+0.93)/(0,94+0,99) = 1,87/1,93 = 0,97 És a dir, hi ha molta
desigualtat ja que és un valor proper a 1.
Mesures de desigualtat: Índex de Diferències

Aquest índex consisteix en comparar la renda o qualsevol altre característica de cada
parell d'individus de la població. A la taula següent veurem millor el procediment:
González (Xi: 0,01; Ni:100) García (Xi: 3,33; Hernández (Xi: 3000;
Ni:60) Ni:1)
González (Xi: 0
0,01; Ni:100)
García (Xi: (3,33-0,01)*60*100= 0
3,33; Ni:60) 19920
Hernández (Xi: (3000-0,01)*1*100= (3000-3,33)*1*60= 0
3000; Ni:1) 299999 179800
En altres paraules, comparem cada parell d'individus amb la següent formula:
Di = (Xi familia que comparem – xi família comparada) *ni família comparada * ni família
que comparem
Altre cop, l'índex de diferències és Di dividit pel valor de màxima desigualtat, o sigui:
Di Desigualtat Màxima = Valor total herència * (Nombre individus -1)
Per tant, ID = Suma Di /Di desigualtat màxima, en el nostre cas
ID = (19920+299999+179800) /[160*3210] = 499719/513600= 0,97
Altre vegada, 1 és la màxima desigualtat i zero la màxima igualtat.
Mesures de Concentració: Índex de Concentració

A l'hora de realitzar un estudi de mercat, ens pot interessar saber si les vendes estan
concentrades en poques empreses o molt repartides. Per esbrinar això, cal que calculem
els índexs de concentració.
En primer lloc, trobem l'índex de concentració; que ens indica la quota de mercat de
les i primeres empreses del mercat. Per calcular-ho, hem de sumar les quotes de mercat
de les i primeres empreses -ordenades en ordre decreixent, de major a menor-. Per
exemple, si l'índex C4 ens dóna 0,8 vol dir que les quatre primeres empreses del sector
posseeixen el 80% de la quota de mercat.
La concentració màxima es produeix quan l'índex dóna 1 per la primera empresa
-monopoli- i la mínima quan l'índex dóna un valor de k/n sent n el nombre d'empreses i k
les empreses que hem agafat per calcular l'índex -si hem calculat C6, k és 6; si ho hem fet
amb el c8, k és 8...-.
Mesures de Concentració: Índex de Concentració de Herfindahl

Un altre índex de concentració és el de Herfindahl, que es calcula sumant les quotes de
mercat al quadrat de les i primeres empreses -ordenades en ordre decreixent, de major a
menor-. La concentració màxima es produeix quan l'índex dóna 1 per la primera
empresa -monopoli- i la mínima quan l'índex dóna un valor de 1/n sent n el nombre
d'empreses.
Aquest índex té les propietats següents:
• Caràcter no ambigu: L'índex H sempre permet saber quin dels mercats
comparats està més concentrat.
• Invariància a escala: No es veu afectat per l'escala -dimensió de les empreses-.
• Transferència: La mesura H augmenta quan disminueix la quota de mercat
d’una empresa petita a costa d’una empresa gran.
• Monotonicitat: Si les n empreses tinguessin quotes de mercat idèntiques, la
mesura H ha de ser decreixent amb respecte de n. És a dir, si les quotes de
mercats són iguals, com més empreses hi hagin més petit serà l'índex.
• Cardinalitat: Si dividim cada empresa en k empreses iguals, la mesura H
decreix en la mateixa proporció.
Nombres Índex: L'Índex Simple

Un nombre índex és una mesura estadística que expressa els canvis d'una variable en
el temps (o de vegades l’espai). Distingirem entre índex simples i índex complexos. Un
índex simple és el quocient entre cada nombre de la sèrie i el valor que pren aquesta en el
període base -que pot ser qualsevol-. És a dir,
Índex simple = (Valor nombre / valor període base) *100
Els índex complexos serveixen per mesurar l'evolució de magnituds complexes, i un
dels seus usos és determinar numèricament l'evolució dels preus. Farem servir dos índex
de preus: el de Laspeyres i el de Paasche.
L'Índex de Laspeyres
Per calcular aquest índex fem el següent:
1. Triem un període base per l'índex, el valor del qual serà sempre 100.
2. Calculem el % que suposa cada producte en la despesa total -ponderacions-
NOMÉS ho fem en el període base. És a dir:
3. Ponderació = (preu producte *quantitat)/Despesa
4. Calculem els índex simples del preu de cada producte per separat. Recordem
que: IS = (Preu / Preu període base) *100
5. Calculem un índex complex dels preus amb la mitjana ponderada dels índex
simples.
Ho entendrem millor amb un exemple:
Producte A Producte B Producte C
Període Q P Q P Q P Despesa
1 6 1,00 € 4 30,00 € 3 19,00 € 183,00 €

2 8 1,20 € 3 30,60 € 5 20,00 € 201,40 €
3 9 1,50 € 9 31,00 € 6 22,00 € 424,50 €
Seguim els passos indicats. Primer, triem el període 1 com a període base i realitzem
les ponderacions i els índex simples:
Període IS Ponderacions IS Ponderacions IS Ponderacions Despesa
1 100 0.03 100 0. 655 100 0. 3114 183,00 €
2 120 0.03 75 0. 655 166 0. 3114 201,40 €
3 150 0.03 225 0. 655 200 0. 3114 424,50 €
Un cop fet això podem calcular l'índex de Laspeyres de cada període:
IL1 = 0,03*100+0,655*100 + 0,3114*100 = 100
IL2 = 0,03*120+0,655*75 + 0,3114*166 = 104,42
IL3 = 0,03*150+0,655*225 + 0,3114*200 = 2014,155
L'Índex complex de Paasche

Aquest índex és molt semblant a l'anterior, però les seves ponderacions són mòbils.
En altres paraules, calculem noves ponderacions per cada període canviant NOMÉS les
quantitats però mantenint el preu del període base. Amb l'exemple anterior:
Període IS Ponderacions IS Ponderacions IS Ponderacions Despesa
1 100 0.03 100 0. 655 100 0. 3114 183,00 €
2 120 0. 041 75 0. 466 166 0. 49 193,00 €
3 150 0. 0229 225 0. 687 200 0. 29 393,00 €
Un cop fet això podem calcular l'índex complex de Paasche tal com ho hem fet a dalt.
La inflació
La inflació té diverses taxes, que expliquem tot seguit:
• Taxa d'inflació mensual: és la taxa de variació de l'IPC entre dos meses
consecutius.
I mensual =[IPC mes actual - IPC mes anterior) / IPC mes anterior] *100
• Taxa d'inflació interanual: és la taxa de variació de l'IPC entre un mes
qualsevol i el mateix mes de l'any anterior.
I interanual =[IPC mes actual - IPC mes any anterior)/IPC mes any anterior] *100
• Taxa d'inflació acumulada: és la taxa de variació de l'IPC entre un mes
qualsevol i l'inici de l'any al que pertany.
IA=[IPC mes actual-IPC desembre any anterior)/IPC desembre any anterior] *100
Creixement nominal i creixement real
Sovint ens pot interessar saber si la pujada del nostre sou ens fa perdre poder
adquisitiu arran de l'efecte de la inflació o si pel contrari hem augmentat el nostre poder
adquisitiu. D'aquesta forma, distingim entre creixement nominal i creixement real.
El creixement nominal es calcula calculant quan ha augmentat el valor en % i no té en
compte l'efecte de l'IPC.
Creixement nominal = [(Valor actual-valor anterior)/valor anterior] *100
En canvi, el creixement real sí considera l'efecte de la inflació i mesura quan ha
crescut -o descrescut- el nostre sou en termes de l'IPC. Primer hem de deflactar el sou
per saber quin sou hauríem de tenir per estar igual que abans -sense perdre ni guanyar
poder adquisitiu per l'inflació-.
Valor deflactat = (Valor anterior/IPC anterior) * IPC actual
Creixement real = [(Valor anterior-valor deflactat)/valor deflactat] *100
Podem realitzar el procés invers -actualització-, és a dir, mirem a quin valor
correspondria el valor actual si estiguéssim a l'any del valor anterior:
Valor actualitzat = (Valor actual/IPC actual) * IPC anterior
Creixement real = [(Valor actualitzat-valor anterior)/valor anterior] *100

Apunts Dades Complert PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apunts Dades Complert PDF

Transféré par

Droits d'auteur :

Formats disponibles

Anàlisi de Dades: Temes 1 i 2

Organització de les Dades

Anàlisi Exploratori de les Dades: Gràfics i Histogrames

Anàlisi Exploratori de les Dades: Diagrama de troncs i fulles

Anàlisi Numèrica de les Dades: el Centre

Anàlisi Numèrica de les Dades: La dispersió i altres mesures

Imatge 1: Exemple de Corba de Densitat

La distribució normal estandarditzada

La variable z és una transformació lineal de la variable x, per tant, z de mitjana (µ)

Càlcul d'un valor amb la distribució normal estandarditzada

Càlcul d'un percentatge amb la distribució normal estandarditzada

Relacions entre Dues Variables Numèriques: el Diagrama de Dispersió

La covariància és positiva si la relació és positiva -quan augmenta una variable

A mode de resum, hi han tres tipus de transformacions no lineals:

Interpretació de la Correlació i la Regressió

Relacions entre Dues Variables Categòriques

Relacions entre Una Variable Categòrica i una Numèrica

• Recíproc: 1/T= a+b*t

• Logarítmica: logT = a+b*t

Càlcul de les Mitjanes Mòbils

Càlcul del Component Estacional

Mesures de desigualtat: Índex de Lorenz-Gini

Mesures de desigualtat: Índex de Diferències

Mesures de Concentració: Índex de Concentració

Mesures de Concentració: Índex de Concentració de Herfindahl

Nombres Índex: L'Índex Simple

1 6 1,00 € 4 30,00 € 3 19,00 € 183,00 €

L'Índex complex de Paasche

Vous aimerez peut-être aussi