Académique Documents
Professionnel Documents
Culture Documents
BASICO
Giampaolo Orlandoni M.
Josefa Ramoni P.
• ESTADISTICA DESCRIPTIVA
• PROCEDIMIENTOS SAS:
1. PROC MEANS
2 PROC FREQ
2.
3. PROC UNIVARIATE
METODOLOGIA ESTADISTICA
1‐METODOLOGIA ESTADISTICA
2‐DATOS ESTADISTICOS
1.1‐CONCEPTO Y NATURALEZA.
1.2‐CLASIFICACION: TEMPORALES, ATEMPORALES
1.3‐ESCALAS DE MEDIDA: NOMINAL, ORDINAL, INTERVALOS
3‐VARIABLES ESTADISTICAS
2.1‐VARIABLES CATEGORICAS O CUALITATIVAS
2.2‐VARIABLES CUANTITATIVAS: DISCRETAS, CONTINUAS
4‐ANALISIS DECRIPTIVO DE LOS DATOS ESTADISTICOS
3.1‐GRAFICOS: HISTOGRAMAS, CAJAS, TENDENCIA, DISPERSION
3 1‐DISTRIBUCION
3.1 DISTRIBUCION DE FRECUENCIAS. ABSOLUTA. RELATIVA.
DE FRECUENCIAS ABSOLUTA RELATIVA
3.2‐MEDIDAS DESCRIPTIVAS:
1‐TENDENCIA CENTRAL
2‐POSICION
3‐DISPERSION
4‐FORMA
5‐ASOCIACION
METODOLOGIA ESTADISTICA
IDENTIFICACION DEL PROBLEMA
D OBTENCION DE DATOS
E
S PROCESAMIENTO Y SINTESIS DE DATOS
PROCESAMIENTO Y SINTESIS DE DATOS
C
R
I DATOS de la POBLACION DATOS de la MUESTRA
P Conjunto total de mediciones Subconjunto representativo de la
T de la característica del proceso población (grupo de mediciones)
I
V CARACTERISTICAS POBLACIONALES CARACTERISTICAS MUESTRALES
A (PARAMETROS) (ESTIMADORES)
• Valores desconocidos de la Población • Función de la muestra
• Se estiman con base en muestras • Se infieren a la población
LA ESTADÍSTICA:
•Estudia Fenómenos Aleatorios: Fenómenos parcialmente predecibles debido a
su variabilidad inherente.
•Identifica y Analiza la Variabilidad Inherente de los Fenómenos Aleatorios.
•Proporciona métodos para recolectar, organizar, resumir y analizar información
con fines descriptivos e inferenciales.
PROBLEMAS, INFORMACION Y DATOS ESTADISTICOS
REALIDAD INDISPENSABLE:
•Planificar la recolección de datos dentro del
UNIDADES EXPERIMENTALES
marco de las preguntas que deben contestarse.
MEDIDAS RELEVANTES
•Datos correctos y exactos, recopilados
mediante elaborados diseños muestrales, son
DATOS ESTADISTICOS inútiles si no p
permiten resolver las p
preguntas
g de
interés.
INFORMACION UTIL
•RESULTADO
SU O NUMERICO
U CO DE MEDIDAS
S SOBRE
SO UNIDADES
U S EXPERIMENTALES
S
•OBSERVACIONES DISPONIBLES PARA EL ANALISIS ESTADISTICO
•INFORMACION: ESTA BASADA EN DATOS. PERMITE RESOLVER PROBLEMAS
X1 X2 ... Xj ......... Xp
ESCALAS DE MEDIDA
1. NOMINAL MATRIZ Xij
2 ORDINAL
2. de DATOS
3. INTERVALO
4. RELACION
ESCALAS DE MEDIDA
ESCALA CARACTERISTICAS EJEMPLOS MEDIDAS ESTADISTICAS
1.ORDENAMIENTO Y POSICION RELATIVA DE LAS
UNIDADES
2.INDICA SI UNA UNIDAD TIENE MAS O MENOS 1.FRACTILES
CANTIDAD DE LA CARACTERISITICA QUE OTRA
CANTIDAD DE LA CARACTERISITICA QUE OTRA S ECONOMICA
1.CLASE O O SO
SOCIAL
ORDINAL UNIDAD 2.MEDIANA
2.CALIDAD DEL CRUDO:
3.NO INDICA LA MAGNITUD DE LAS DIFERENCIAS
ENTRE LAS UNIDADES (PESADO, LIVIANO)
4.PERMITE MEDIR OPINIONES, ACTITUDES,
PREFERENCIAS
1.MEDIA
1.LAS DIFERENCIAS ENTRE UNIDADES PUEDEN 2.RANGO
COMPARARSE. 1.TEMPERATURA
1 TEMPERATURA (F,
(F C) 3 VARIANZA
3.VARIANZA
INTERVALOS 2.OPINIONES
2.LAS DISTANCIAS IGUALES EN LA ESCALA 4.DESVIACION ESTANDAR
3.INDICES
REPRESENTAN VALORES IGUALES EN LA
CARACTERISTICA QUE SE MIDE 5.COEFICIENTE CORRELACION
6.COEFICIENTE VARIACION
3 EL PUNTO CERO ES ARBITRARIO
3.EL PUNTO CERO ES ARBITRARIO
1.EL PUNTO CERO ES FIJO 1.EDAD
RELACION 2.LA RELACION ENTRE LOS VALORES DE LA ESCALA 2.INGRESO 1.MEDIA GEOMETRICA
SE PUEDE CALCULAR 3.COSTOS 2.COEFICIENTE VARIACION
VARIABLE ESTADISTICA
•VA:
VA: REPRESENTA CARACTERISTICAS DE LOS ELEMENTOS QUE CONFORMAN
LA POBLACION O MUESTRA
•CLASIFICACION: CUALITATIVAS, CUANTITATIVAS
p
•Temperatura HISTOGRAMA
•HISTOGRAMA
•Presión
•POLIGONO
CUANTITATIVA •Tiempo,Edad
CONTINUA •Volumen de Crudo Extraído Valores Reales •CAJAS
•Dureza TENDENCIA
•TENDENCIA
•Presión Arterial
•ASOCIACION
•Precios
8
VARIABLES DISCRETAS
DIAGRAMA de BARRAS. GRAFICOS DE SECTORES (Carros.dat)
PROCEDIMIENTO SAS
ANALYZE
VARIABLES CONTINUAS
HISTOGRAMA de FRECUENCIAS. DIAGRAMA de CAJA.
DISTRIBUCION de FRECUENCIAS (Carros.dat)
22
El Histograma indica la mezcla de tres poblaciones (origen)
19 20
El análisis debe hacerse por grupo de origen
El análisis debe hacerse por grupo de origen
PROCEDIMIENTO SAS
ANALYZE VARIABLE DATA
ONE VARIABLE ANALYSIS
ONE VARIABLE ANALYSIS
DISTRIBUCION DE FRECUENCIAS
Limite Limite Punto Frecuencia Frecuencia Acumulada
Clase Inferior Superior Medio Absoluta Relativa Absoluta Relativa
1 13.0 15.6 14.3 1 0.0067 1 0.0067
2 15.6 18.1 16.9 11 0.0733 12 0.0800
3 18.1 20.7 19.4 19 0.1267 31 0.2067
4 20.7 23.3 22.0 10 0.0667 41 0.2733
5 23.3 25.9 24.6 12 0.0800 53 0.3533
6 25 9
25.9 28 4
28.4 27 1
27.1 20 0 1333
0.1333 73 0 4867
0.4867
7 28.4 31.0 29.7 14 0.0933 87 0.5800
8 31.0 33.6 32.3 18 0.1200 105 0.7000
9 33.6 36.1 34.9 22 0.1467 127 0.8467
10 36.1 38.7 37.4 11 0.0733 138 0.9200
11 38 7
38.7 41 3
41.3 40 0
40.0 5 0 0333
0.0333 143 0 9533
0.9533
12 41.3 43.9 42.6 3 0.0200 146 0.9733
13 43.9 46.4 45.1 3 0.0200 149 0.9933
14 46.4 49.0 47.7 1 0.0067 150 1.0000
Total 150
DIAGRAMA DE CAJA (BOX Plot)
• Síntesis gráfica de los datos. Indica: ubicación, dispersión, asimetría
• Los lados de la caja representan el primer y tercer quartil Q1, Q3. La línea media de la
Los lados de la caja representan el primer y tercer quartil Q1, Q3. La línea media de la
caja representa la mediana o segundo quartil Q2.
• Los valores máximo y el mínimo no outliers se grafican como puntos al final de las líneas
• Rango Intercuartil RI=(Q3 ‐
g ( Q1): medida de la dispersión del 50% central de los datos
) p
1.5(Q3-Q1)
Q1 Q1 = 25%
X
Q2 RI = (Q3 ‐ Q1) Q2 = 50%
Q3 Q3 = 75%
1.5(Q3 - Q1)
1-TENDENCIA CENTRAL
2-POSICION
3-DISPERSION
4-FORMA
5 ASOCIACION
5-ASOCIACION
•MAXIMO
2. POSICION •MINIMO
(ORDEN)
( , )
•CUANTILES (CUARTILES, PERCENTILES)
•RANGO, RANGO INTERCUARTILICO
3. DISPERSION
•VARIANZA, DESVIACION ESTÁNDAR
(VARIABILIDAD)
•COEFICIENTE DE VARIACION
•ASIMETRIA (SESGO)
4. FORMA
•CURTOSIS (ACHATAMIENTO)
•COVARIANZA
5. ASOCIACION
•CORRELACION 14
1-MEDIDAS DE TENDENCIA CENTRAL
Media Acotada
Media Acotada Conjunto Total Datos
Conjunto Total Datos – Se elimina un porcentaje (5‐10%) de los
Se elimina un porcentaje (5‐10%) de los
(Media valores más altos y bajos del conjunto de
– (%Menor + %Mayor)
Recortada) datos (datos outliers)
Media
Media G= ((X1
G X2 … Xn)1/n
X1*X2*…*Xn Escala de Medida No Lineal.
Geométrica (G) Log(G) =(log(Xi))/n
15
2-MEDIDAS DE POSICION (MEDIDAS DE ORDEN)
3-MEDIDAS DE DISPERSION (VARIABILIDAD)
DESVIACION ESTANDAR (S)
Raíz cuadrada positiva de la Varianza. Medida de dispersión más común
•Raíz cuadrada positiva de la Varianza. Medida de dispersión más común
•Se expresa en las mismas unidades que la Variable Estadística.
•Estandariza los valores de la VE (VE con media cero y desviación estándar
unitaria)
unitaria) Z (X μ) /σ ~ (0;1)
Z = (X –μ) /σ ~ (0;1)
•Permite calcular la proporción de datos contenido en cierto intervalo alrededor
de la media: El Intervalo (μ ± Kσ) contiene al menos (1‐1/K2), K>1
2‐Comparación de muestras con las mismas unidades de medida, y diferentes promedios
19
HISTOGRAMAS y FORMAS
21
FORMA GENERAL DE LOS PROCEDIMENTOS SAS (PROC)
Proc
oc MEANS
S fw=6
6 d
data=Notas;
t ot s;
Class Anio;
Var Nota2; run;
PROC MEANS
EJEMPLO 2
Proc MEANS fw=6 data=Notas;
Class Status Anio;
Var
a Nota2;
ota ;
Output out=sumstat1 mean=NotaPromedio idgrp;
run;
Proc print data=sumstat1 noobs;
title1 'Notas '; run;
EJEMPLO 3
Proc MEANS fw=6 data=Notas Noprint;
Class Status Anio;
Var Nota2;
Output out=sumstat2 mean=NotaPromedio idgrp
(max(Nota2) obs out (Nombre)=MejorNota);
run;
P
Proc print
i t data=sumstat2
d t t t2 noobs;
b
title1 'Notas '; run;
3_1-ProcMeansNotas.sas
ANALISIS DE UN CASO
Estructura del Data Set pacientes
Frequency Missing = 1
PROC FREQ
•BY VARIABLES;
•EXACT ESTADÍSTICOS/OPCIONES;
OUTPUT ESTADÍSTICOS OUT=SAS-DATA
•OUTPUT OUT SAS DATA SET ;
•TABLES /OPCIONES;
•TEST ESTADÍSTICOS;
•WEIGHT VARIABLE;
RUN;
•RUN;
Proc FREQ y Proc FORMAT. Detectar Valores Inválidos
Género
PROC FORMAT;;
Sexo Frequency
VALUE $Sexo 'F','M' = 'Valido'
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
' ' = 'Missing'
Miscoded 4
OTHER = 'Miscoded';
Valid 25
VALUE $DX '001' ‐ '999'= 'Valido'
Frequency Missing = 1
' ' = 'Missing'
OTHER = 'Miscoded';
Diagnóstico Código
VALUE $AE '0','1' = 'Valido'
$ ' '' ' ' ld '
Dx Frequency
' ' = 'Missing'
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
OTHER = 'Miscoded';
Miscoded 2
run;
Valid 21
Frequency Missing = 8
PROC FREQ DATA=Clinica.Pacientes;
TITLE "Uso de FORMATS"
TITLE "Uso de FORMATS"; Evento Adverso
E Ad
FORMAT Sexo $Sexo. AE Frequency
DX $DX. ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
AE
AE $AE.;
$AE ; Miscoded 1
TABLES Sexo DX AE / NOCUM NOPERCENT; Valid 29
run; Frequency Missing = 1
PROC PRINT con WHERE
PROC PRINT DATA=clinica.pacientes;
DATA li i i t
WHERE Sexo not in ('F','M')
or VERIFY(DX,' 0123456789') ne 0
or AE not in (
('0'
0 ,'1');
1 );
TITLE "Lista de datos Inválidos";
ID PacN;
VAR Sexo DX AE; run;
PacN GENERO DX AE
002 F X 0
003 X 3 1
004 M 1 A
006 6 1
010 f 1 0
013 2 1
002 F X 0
023 f 0
Proc PRINT y WHERE
Lista de valores fuera de rango
PROC PRINT DATA=clinica.Pacientes;
WHERE HR NOT BETWEEN 40 AND 100 AND HR IS NOT MISSING
OR SBP NOT BETWEEN 80 AND 200 AND SBP IS NOT MISSING
OR DBP NOT BETWEEN 60 AND 120 AND DBP IS NOT MISSING;
TITLE "Valores fuera de rango";
ID PAcN;
;
VAR HR SBP DBP; run;
%let n_sd
n sd = 2;
2;
Data Nuevo;
Data Nuevo;
Set clinica.pacientes (keep=PacN Sexo HR SBP DBP AE);
If sexo='M' or sexo ='F' or sexo ='m' or sexo ='f' ;
If sexo ='F' or sexo ='f' then sexo='F' ;
BY sexo;
VAR HR SBP DBP;
OUTPUT OUT=SalidaClin
MEAN=M_HR M_SBP M_DBP;
;
run;
proc print data = salidaClin;
run;
Proc MEANS: DS Segmentado por Sexo y AE
PROC MEANS DATA
DATA= nuevo fw
fw=6;
6; * NOPRINT;
CLASS Sexo AE;
VAR HR SBP DBP;
OUTPUT OUT=SalClin2
MEAN M HR M
MEAN=M_HR M_SBP
SBP M
M_DBP;
DBP run;
proc print data = salclin2; run;
La Variable _TYPE_
CLASS Sexo AE;
0 0 00 0
0 1 01 1
1 0 10 2
1 1 11 3
Proc Means: Opción NWAY
•Data TamaDist;
•Input Distan Tama @@; Prec=1/Distan;
•Datalines;
•1.5 30 1.5 20 1.5 30 1.5 25 3 43 3 33 3 25 3 30 4.5 25 4.5 36 4.5 48
4.5 33 6 43 6 36 6 23 6 48 7.5 30 7.5 25 7.5 50 7.5 38 ;
•PROC MEANS calcula la estimación promedio del tamaño del objeto ignorando la
ponderación correspondiente (por defecto asigna un peso de 1 para cada
observación).
•Proc MEANS data=TamaDist maxdec=3 n mean var stddev;
var tama;
Title1 ‘ Análisis del DS TamaDist sin Ponderar'; run;
Opción WEIGHT
1-Uso de VARDEF=DF
3_4-ProcMeansWeight.sas
g
Proc MEANS: FREQ
Datos relativos a velocidad (millas náuticas/hora) y
•Datos
gasto en combustible, registrados cada hora.
•La variable Horas representa el número de horas que
el barco mantiene el mismo g gasto y velocidad. Los
dos PROC MEANS muestran el efecto de usar Horas
como variable frecuencia.
2-El
2 El segundo PROC MEANS usa Horas como
variable frecuencia:
3 5-ProcMeansFreq.sas
3_5 oc ea s eq sas
PROC MEANS con CLASSDATA
PROC MEANS statement options;
CLASSDATA nombre
CLASSDATA= b EXCLUSIVE PRINTALLTYPES;
PRINTALLTYPES
CLASS nomvar;
Archivo de Prueba
Data Tortatipo;
Input sabor $ 1-3 capas ;
da a es;
datalines;
Van 1
Van 2
Van 3
Cho 1
Cho 2
Cho 4;
Proc Means data=Torta range median min max fw=7 maxdec=0
classdata=tortatipo exclusive printalltypes;
Var Score2;
Class sabor capas;
Title ‘Score para Sabor y Capas Tipos Tortas';
PROC MEANS con CLASSDATA
Calcula las estadísticas solicitadas para las variables declaradas
en Var Programa Ensayo , y para todas las combinaciones de las
variables especificadas en Class.
Programa DATA Torta;
DATA Torta;
Maestro INPUT Nombre $ 1‐12 Edad 13‐14 Score1 16‐17
Score2 19‐20 Sabor $ 23‐25 Capas 30;
Programa
P Data Tortatipo;
D T i
Ensayo Input Sabor $ 1‐3 Capas ;
datalines;
Se calculan las Van 1
estadísticas de las Van 2
variables en Var Van 3
(score2), para las Cho 1
combinaciones posibles Cho 2
con los valores de las Cho 4 ;
variables leídas en el Proc Means data=Torta classdata=Tortatipo exclusive
programa ensayo printalltypes;
(sabor, capas).
Var Score2;
Class sabor capas; 3_6‐ProcMeansClassData.sas
PROC MEANS con PROC FORMAT
DATA Torta;
INPUT Nombre $ 1-12
1 12 Edad 13-14
13 14 Score1 16-17
16 17
Score2 19-20 Sabor $ 23-25 Capas 30;
Proc Format;
value $sbrfmt
$
'Chocolate'='Cho’ 'Vainilla'='Van‘ 'Ron','Esp'='OtrosSabr';
value edadfmt (multilabel)
15 ‐ 29='< 30 a‘ 30 ‐ 50='entre 30 y 50 a‘ 51 ‐ high='> 50 a‘ 56 ‐ high='>= 56 '
15 ‐ 19='15 ‐ 19‘ 20 ‐ 25='20 ‐ 25‘ 25 ‐ 39='25 ‐ 39‘ 40 ‐ 55='40 ‐ 55';
run;
3_7‐ProcMeansFormat.sas
PROC MEANS con IC Media
DATA Torta;
INPUT N b $ 1 12 Ed d 13 14 S
INPUT Nombre $ 1‐12 Edad 13‐14 Score1 16‐17 1 16 17
Score2 19‐20 Sabor $ 23‐25 Capas 30;
Proc Format;
value $sbrfmt
'Chocolate'='Cho‘ 'Vainilla'='Van‘ 'Ron','Esp'='OtrosSabr';
value edadfmt (multilabel)
15 ‐ 29
15 29='<< 30
30‘ 30
30 ‐ 50
50=‘30
30 ‐ 50
50‘ 51
51 ‐ high
high='>> 50
50‘ ‘ 56
56 ‐ high
high='>=
> 56
56 '
15 ‐ 19='15 ‐ 19‘ 20 ‐ 25='20 ‐ 25‘ 25 ‐ 39='25 ‐ 39‘ 40 ‐ 55='40 – 55;
run;
Procedimiento UNIVARIATE
Variable: DBP (Presión Diastólica)
Extreme Observations
--------Lowest-------- --------Highest-------
Value PAcN Obs Value PAcN Obs
8 020 23 106 027 28
20 011 12 120 004 4
64 013 14 120 010 11
68 025 27 180 009 10
68 006 6 200 321 22
NEXTROBS Option PROC UNIVARIATE
ODS SELECT EXTREMEOBS;
PROC UNIVARIATE data=clinica.pacientes NEXTROBS=3;
VAR HR SBP DBP;
;
ID PAcN;
RUN;
Procedimiento UNIVARIATE
Variable: DBP (Presión Diastólica)
Extreme Observations
--------Lowest-------- --------Highest-------
Value PATNO Obs Value PATNO Obs
8 020 23 120 010 11
20 011 12 180 009 10
64 013 14 200 321 22
PROC UNIVARIATE con ODS
ods html file = 'C:\DataSAS\html\3_UnivariateOds1.html';
Data Velocidad;;
label Velocidad = 'Velocidad(millas/hora)';
DO VelocEx = 66 to 85;
Input Numero @@;
Input Numero @@;
Output;
End;
Datalines;
2 3 2 1 3 6 8 9 10 13
12 14 6 2 0 0 1 1 0 1
;
proc print data = Velocidad; run;
title 'Analisis de DS Velocidad';
ODS select Moments;
ODS select
Proc Univariate data=Velocidad;
Freq Numero;
Var VelocEx;
VelocEx;
run;
ods html close;
PROC UNIVARIATE con ODS
ods html file = ‘3_Univariate.html';
Data Aire (keep = Sitio Ozono);
label Sitio = 'N. Sitio'
Ozono = 'Nivel Ozono';
d i
do i = 1 to 3;
input Sitio @@;
Uso de la estructura
do j = 1 to 15;
DO …. END
input Ozono @@;
input Ozono @@; en lectura de datos
output;
end;
end;
datalines;
102 4 6 3 4 7 8 2 3 4 1 3 8 9 5 6
134 5 3 6 2 1 2 4 3 2 4 6 4 6 3 1
137 8 9 7 8 6 7 6 7 9 8 9 8 7 8 5 ;
ODS Select Moments SSPlots;
proc univariate data=Aire plot;
by Sitio;
var Ozono; run;
ods html close;