estadistica y prob 05
TRANSCRIPT
-
8/20/2019 Estadistica y Prob 05
1/124
Ing. William León Velásquez
-
8/20/2019 Estadistica y Prob 05
2/124
Las medidas de posicióntambién facilitan informaciónsobre la serie de datos que sedesea analizar.
La descripción de un conjuntode datos, incluye como unelemento de importancia laubicación de éstos, dentro deun contexto de valoresposible.
ING. WILLIAM LEON V. 2MEDIDA DE POSICIÓN
-
8/20/2019 Estadistica y Prob 05
3/124
Se trata de encontrar unas
medidas que sinteticen lasdistribuciones de frecuencias.En vez de manejar todos losdatos sobre las variables,
tarea que puede ser pesada,se puede describir sudistribución de frecuenciasmediante algunos valores
numéricos, eligiendo comoresumen de los datos un valorcentral alrededor del cual seencuentran distribuidos los
valores de la variableING. WILLIAM LEON V. 3MEDIDA DE POSICIÓN
-
8/20/2019 Estadistica y Prob 05
4/124
Son indicadores usados
para señalar queporcentaje de datosdentro de una distribuciónde frecuencias superanestas expresiones, cuyovalor representa el valordel dato que se encuentra
en el centro de ladistribución de frecuencia.
ING. WILLIAM LEON V. 4MEDIDA DE POSICIÓN
-
8/20/2019 Estadistica y Prob 05
5/124
Estas medidas de posición de una
distribución de frecuencias hande cumplir determinadascondiciones para que seanverdaderamente representativasde la variable a la que resumen.Toda síntesis de una distribuciónse considerara como operativa siintervienen en su determinacióntodos y cada uno de los valores
de la distribución, siendo únicapara cada distribución defrecuencias y siendo siempre
calculable y de fácil obtención
ING. WILLIAM LEON V. 5MEDIDA DE POSICIÓN
-
8/20/2019 Estadistica y Prob 05
6/124
Son valores que dividenal total de los datosdebidamenteordenados en k partes
iguales.
ING. WILLIAM LEON V. 6CUANTILES
-
8/20/2019 Estadistica y Prob 05
7/124
Son medidas deposición que dividen altotal de los datosordenados, en cuatro
partes iguales.De esta forma entre doscuartiles consecutivosse encuentra ubicadono más del 25% deltotal de los datos.
ING. WILLIAM LEON V. 7DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
8/124
Hay 3 cuartiles que dividen a unadistribución en 4 partes iguales:primero, segundo y tercer cuartil.
ING. WILLIAM LEON V. 8DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
9/124
El cálculo para los cuartiles sedetermina a través de la siguiente
expresión:
( )
A f
f kn
LQi
iacum
ik
14
−−
+=
ING. WILLIAM LEON V. 9DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
10/124
Donde:
ING. WILLIAM LEON V. 10DEFINICIÓN
k Orden del cuartil
Límite inferior del intervalo que
contiene al cuartil
Frecuencia acumulada considerada al
intervalo donde se encuentra
Frecuencia del intervalo que contiene el
cuartil
n Número de mediciones
A Ic Amplitud del intervalo
i f
( )1−iacum f
i L
-
8/20/2019 Estadistica y Prob 05
11/124
Aquel valor de una serie quesupera al 25% de los datos y essuperado por el 75% restante.
Formula de Q1 para series deDatos Agrupados en Clase.
ING. WILLIAM LEON V. 11DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
12/124
Donde: : posición de Q1, la cual se
localiza en la primera frecuenciaacumulada que la contenga, siendola clase de Q1, la correspondientea tal frecuencia acumulada.
Li, faa, fi, Ic : idéntico a losconceptos vistos para Medianapero referidos a la medida de laposición correspondiente.
ING. WILLIAM LEON V. 12DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
13/124
Coincide, es idéntico osimilar al valor de laMediana (Q2 = Md).
Es decir, supera y essuperado por el 50% de losvalores de una Serie.
ING. WILLIAM LEON V. 13DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
14/124
Es aquel valor, termino o datoque supera al 75% y essuperado por el 25% de losdatos restantes de la Serie.
Formula de Q3 para series deDatos Agrupados en Clase.
ING. WILLIAM LEON V. 14DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
15/124
Donde: : posición de Q3, la cual se
localiza en la primera frecuenciaacumulada que la contenga, siendo laclase de Q3, la correspondiente a talfrecuencia acumulada.
Li, faa, fi, Ic : idéntico a los conceptos
vistos para Mediana pero referidos ala medida de la posicióncorrespondiente.
ING. WILLIAM LEON V. 15DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
16/124
Un reporte de laboratorioindica el número depacientes que en los
primeros 100 días del añorecibieron peticiones porparte de una clínica, dereportes clínicos para
realizar estudios deglucosa.
ING. WILLIAM LEON V. 16EJEMPLO
-
8/20/2019 Estadistica y Prob 05
17/124
ING. WILLIAM LEON V. 17EJEMPLO
Veremos que el primer cuartil se localiza
en el intervalo de clase marcada en color
El intervalo de clase donde se ubica elsegundo cuartil esta marcado por
El tercer cuartil esta marcado por
El número de datos a considerar son 63
pacientes.
-
8/20/2019 Estadistica y Prob 05
18/124
ING. WILLIAM LEON V. 18EJEMPLO
Intervalos
1 día a 9 días 5 5 5
10 día a 19 días 14.5 6 11
20 día a 29 días 24.5 8 19
30 día a 39 días 34.5 8 27
40 día a 49 días 44.5 4 31
50 día a 59 días 54.5 5 36
60 día a 69 días 64.5 7 4370 día a 79 días 74.5 8 51
80 día a 89 días 84.5 4 55
90día a 100 días 94.5 8 63
Promedio
de días
i x
Número de
pacientes
i f
Frecuencia acumulada
acumulada f
-
8/20/2019 Estadistica y Prob 05
19/124
Para la obtención del primercuartil tenemos k=1, obteniendo:
( )75.15
4
63)1(
4==
kn
ING. WILLIAM LEON V. 19EJEMPLO
-
8/20/2019 Estadistica y Prob 05
20/124
lo que representa que el primer
cuartil se encuentre en la terceraclase, sus datos están dados como
( ) 9;8;11;20 1 ==== − A f f L iiacumi
ING. WILLIAM LEON V. 20EJEMPLO
-
8/20/2019 Estadistica y Prob 05
21/124
por lo que el primer cuartil esigual a
díasQ 34.2598
114
)63(1
201 =
−⋅
+=
ING. WILLIAM LEON V. 21EJEMPLO
-
8/20/2019 Estadistica y Prob 05
22/124
Interpretación:
Lo que indica que 25 % delos pacientes fueron
mandados a valoración deglucosa en 25.34 días y el75% de los pacientesatendidos lo hicieron
después de 25.34 días.
ING. WILLIAM LEON V. 22EJEMPLO
-
8/20/2019 Estadistica y Prob 05
23/124
Nótese que la consideraciónpara elegir el primer cuartil
se hizo considerando lafrecuencia acumulada y deesta manera se considerarápara localizarla para el resto.
ING. WILLIAM LEON V. 23EJEMPLO
-
8/20/2019 Estadistica y Prob 05
24/124
Para la obtención del segundocuartil consideraremos k=2 porlo que
5.31
4
632
4
=×
=kn
ING. WILLIAM LEON V. 24EJEMPLO
-
8/20/2019 Estadistica y Prob 05
25/124
Considerando que para estesegundo cuartil ,
con ello el cuartil tendrá un valor de
( ) 9;5;31;50 1 ==== − A f f L iiacumi
díasQ 9.5095
314
)63(2
502 =−⋅
+=
ING. WILLIAM LEON V. 25EJEMPLO
-
8/20/2019 Estadistica y Prob 05
26/124
Lo que indica que en 50.9 días sehabían atendido al 50 % de lospacientes a ser valorados de los nivelesde glucosa.
Lo que indica que 50 % de los pacientesfueron mandados a valoración deglucosa en 50.9 días y el 50% restantede los pacientes atendidos lo hicieron
después de 50.9 días.
ING. WILLIAM LEON V. 26EJEMPLO
-
8/20/2019 Estadistica y Prob 05
27/124
Nótese que efectivamente el segundocuartil corresponde a la mediana, yaque si sustituimos k=2 tendremos la
misma formula que utilizamos para elcalculo de la mediana para datosagrupados
( ) ( )
Me A f
f n
L A f
f n
LQi
iacum
i
i
iacum
i =
−
+=
−
+=
−− 11
224
2
ING. WILLIAM LEON V. 27EJEMPLO
-
8/20/2019 Estadistica y Prob 05
28/124
Para el cálculo del tercer cuartil,k=3 , observamos que:
con
25.474
633
4 =×
=kn
( ) 9;8;43;70 1 ==== − A f f L iiacumi
ING. WILLIAM LEON V. 28EJEMPLO
-
8/20/2019 Estadistica y Prob 05
29/124
tenemos
díasQ 78.7498
434
)63(3
703
=
−⋅
+=
ING. WILLIAM LEON V. 29EJEMPLO
lo cual indica que 75% de pacientesque envió la clínica a realizarse
estudios de glucosa lo realizo en74.78días y el resto en los otrosdías restantes.
-
8/20/2019 Estadistica y Prob 05
30/124
Nótese que para el cálculo del cuartocuartil es de manera inmediata, en este
se contempla la totalidad de lamuestra, por lo que no es necesariorealizar ningún cálculo, aunque si lorealizamos observamos que cubre el
total de días.
ING. WILLIAM LEON V. 30EJEMPLO
-
8/20/2019 Estadistica y Prob 05
31/124
La forma de calcular los cuartilescuando los datos no están agrupados
se da a través del siguiente concepto. Para un número de n observaciones en
el que los datos no son representadosen clases, una vez ordenados los datos
la posición de los cuartiles se puedenlocalizar de la siguiente forma:
ING. WILLIAM LEON V. 31DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
32/124
es importante considerar que si elcálculo no corresponde con la
posición exacta entonces se usainterpolación lineal.
( )4y3,2,1,
4
1=
+k
nk
ING. WILLIAM LEON V. 32DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
33/124
En el caso en que la posición nocorresponda exactamente con laposición la interpolación se realizade la siguiente forma:
Donde:
( )4,3,2,1,
4=
−+= k
L Lk LQ isik
ING. WILLIAM LEON V. 33DEFINICIÓN
;Superior Limite;,inferior limite;Cuartil === f ik L Lk Q
-
8/20/2019 Estadistica y Prob 05
34/124
Ejemplo. Consideremos lassiguientes tabla de temperaturasreportadas en un experimento:
ING. WILLIAM LEON V. 34EJEMPLO:
25 °C 28 °C 25 °C 26 °C 28 °C 28 °C
35 °C 32 °C 31 °C 31 °C 32 °C 27 °C
25 °C 29 °C 26 °C 28 °C 27 °C 28 °C
30 °C 30 °C 31 °C 31 °C 30 °C 31 °C
-
8/20/2019 Estadistica y Prob 05
35/124
Ordenando los datos tenemos:
25, 25, 25, 26, 26, 27 27, 28, 28, 28, 28,
28 29, 30, 30, 30, 31, 31 31, 31, 31, 32,
32, 35
ING. WILLIAM LEON V. 35EJEMPLO:
-
8/20/2019 Estadistica y Prob 05
36/124
La posición del primer cuartil es:
( ) 25.6425
41241 ==+
ING. WILLIAM LEON V. 36EJEMPLO:
-
8/20/2019 Estadistica y Prob 05
37/124
lo que significa que el primer cuartil seencuentra entre la posición 6 y7, como en este caso el número es elmismo entonces
por lo que el primer cuartil es igual a .0=− f i L L
ING. WILLIAM LEON V. 37EJEMPLO:
C Q °= 271
-
8/20/2019 Estadistica y Prob 05
38/124
Ordenando los datos tenemos:
25, 25, 25, 26, 26, 27 27, 28, 28, 28, 28,
28 29, 30, 30, 30, 31, 31 31, 31, 31, 32,
32, 35
ING. WILLIAM LEON V. 38EJEMPLO:
-
8/20/2019 Estadistica y Prob 05
39/124
La posición para el segundo cuartiles
( )5.12
4
50
4
1242==
+
ING. WILLIAM LEON V. 39EJEMPLO:
-
8/20/2019 Estadistica y Prob 05
40/124
como en este caso la posición 12la ocupa la temperatura 28°C y latemperatura 29°C entonces, la
interpolación nos conduce a
( )5.28
4
28292282 =
−+=Q
ING. WILLIAM LEON V. 40EJEMPLO:
-
8/20/2019 Estadistica y Prob 05
41/124
La posición del tercer cuartil sepuede calcular como
( )75.18
4
1243=
+
ING. WILLIAM LEON V. 41EJEMPLO:
-
8/20/2019 Estadistica y Prob 05
42/124
pero como la posición 18 y 19tienen la temperatura 30°Centonces, por la misma razón que
el primer cuartil, el tercer cuartil esigual a 30°C.
ING. WILLIAM LEON V. 42EJEMPLO:
-
8/20/2019 Estadistica y Prob 05
43/124
Son valores que dividen al total delos datos ordenados, en diezpartes iguales; de modo que en
cada una de estas partes seencuentre ubicado no más del 10%del total.
ING. WILLIAM LEON V. 43DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
44/124
El primer decil es aquel valor deuna serie que supera a 1/10 partede los datos y es superado por las
9/10 partes restantes(respectivamente, hablando enporcentajes, supera al 10% y essuperado por el 90% restante),
ING. WILLIAM LEON V. 44DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
45/124
ING. WILLIAM LEON V. 45DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
46/124
El quinto decil es aquel valor deuna serie que supera a 5/10 partede los datos y es superado por las
5/10 partes restantes(respectivamente, hablando enporcentajes, supera al 50% y essuperado por el 50% restante),
ING. WILLIAM LEON V. 46DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
47/124
ING. WILLIAM LEON V. 47DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
48/124
El noveno decil es aquel valor deuna serie que supera a 9/10 partede los datos y es superado por las
1/10 partes restantes(respectivamente, hablando enporcentajes, supera al 90% y essuperado por el 10% restante),
ING. WILLIAM LEON V. 48DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
49/124
ING. WILLIAM LEON V. 49DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
50/124
Como se observa, son formulasparecidas a la del calculo de laMediana, cambiando solamente la
respectivas posiciones de lasmedidas.
ING. WILLIAM LEON V. 50DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
51/124
Son valores que dividen al total delos datos ordenados, en cienpartes iguales: de manera que encada una de estas partes seencuentre ubicado no más del 1%del total.
ING. WILLIAM LEON V. 51DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
52/124
De esta manera se puedeestablecer la siguiente relaciónentre cuartiles, deciles ypercentiles así como también con
la mediana.
ING. WILLIAM LEON V. 52DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
53/124
El primer percentil supera al unopor ciento de los valores y essuperado por el noventa y nuevepor ciento restante.
Formulas de P1, para series deDatos Agrupados en Clase.
ING. WILLIAM LEON V. 53DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
54/124
El percentil 50 supera al cincuentapor ciento de los valores y essuperado por el cincuenta porciento restante.
Formulas de P50, para series deDatos Agrupados en Clase.
ING. WILLIAM LEON V. 54DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
55/124
El percentil 99 supera al noventa ynueve por ciento de los valores yes superado por el uno por ciento
restante.
Formulas de P99, para series deDatos Agrupados en Clase.
ING. WILLIAM LEON V. 55DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
56/124
Para determinar estas medidas seaplicara el principio de la mediana;así, el primer cuartil cereal valorpor debajo del cual se encuentra el
25 por ciento de los datos; bajo eltecer cuartil se encuentra el 75 porciento; el 80 decil será el valor porencima del cual estará el 20 por
ciento de los datos, etc.
ING. WILLIAM LEON V. 56DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
57/124
Como se observa, todas estasmedidas no son sino casosparticulares del percentil ya que el
primer cuartil no es sino el 25°percentil, el tercer cuartil el 75°percentil, el cuarto decil el 40°percentil, etc.
ING. WILLIAM LEON V. 57DEFINICIÓN
-
8/20/2019 Estadistica y Prob 05
58/124
Ejemplo:
Para la siguiente tabla defrecuencias quecorresponde a la
distribución de 42 días deacuerdo a la temperaturaque se registró en cadadía.
El 35% inferior de los días,¿qué temperaturapresentó como máximo?
ING. WILLIAM LEON V. 58Ejemplo
-
8/20/2019 Estadistica y Prob 05
59/124
ING. WILLIAM LEON V. 59Ejemplo
Temperatura(
C )Nº días
10-15 8 8
15-18 9 17
18-25 12 29
25-30 7 36
30-34 6 42
lugar.vo157,14
100
4235==
×
iF
-
8/20/2019 Estadistica y Prob 05
60/124
Luego:
ING. WILLIAM LEON V. 60Ejemplo
21 F100
4235F
-
8/20/2019 Estadistica y Prob 05
61/124
Interpretación: En el 35% inferior de los días se
registró una temperatura de 17 °C
como máximo?
ING. WILLIAM LEON V. 61Ejemplo
-
8/20/2019 Estadistica y Prob 05
62/124
Ejemplo:En una serie de 32términos se desea
localizar el 4° sextil, 8°decil y el 95° percentil.
ING. WILLIAM LEON V. 62Ejemplo
-
8/20/2019 Estadistica y Prob 05
63/124
ING. WILLIAM LEON V. 63Ejemplo
-
8/20/2019 Estadistica y Prob 05
64/124
Esto significa que el 4° sextil seencuentra localizado en el terminonumero 21, es decir, el que ocupa la
21° posición; el 8° decil se encuentralocalizado entre el termino numero25° y 26° ; y el 95° percentil entre laposición 30° y 31° .
ING. WILLIAM LEON V. 64Ejemplo
-
8/20/2019 Estadistica y Prob 05
65/124
Ejemplo:Determinación delprimer cuartil, el cuarto
sextil, el séptimo decil yel 30° percentil.
ING. WILLIAM LEON V. 65Ejemplo
-
8/20/2019 Estadistica y Prob 05
66/124
Ejemplo:Determinación del primer cuartil, elcuarto sextil, el séptimo decil y el30° percentil.
ING. WILLIAM LEON V. 66Ejemplo
Salarios(I. de
Clases)
N° de empleados (f i) f a
200 – 299 85 85
300 – 399 90 175
400 – 499 120 295500 – 599 70 365
600 – 699 62 427
700 – 800 36 463
-
8/20/2019 Estadistica y Prob 05
67/124
Ejemplo:.
ING. WILLIAM LEON V. 67Ejemplo
-
8/20/2019 Estadistica y Prob 05
68/124
Ejemplo:.
ING. WILLIAM LEON V. 68Ejemplo
-
8/20/2019 Estadistica y Prob 05
69/124
Ejemplo:.
ING. WILLIAM LEON V. 69Ejemplo
-
8/20/2019 Estadistica y Prob 05
70/124
Ejemplo:.
ING. WILLIAM LEON V. 70Ejemplo
-
8/20/2019 Estadistica y Prob 05
71/124
Estos resultados nos indican que el25 por ciento de los empleadosganan salarios por debajo de $.
334; que sobre $. 519,51 ganan el33,33 por ciento de los empleados;que bajo $ 541,57 gana el 57 porciento de los empleados y sobre $.
359,88 gana el 70 por ciento de losempleados.
.
ING. WILLIAM LEON V. 71Ejemplo
-
8/20/2019 Estadistica y Prob 05
72/124
Muchas veces necesitamos conocerel porcentaje de valores que estapor debajo o por encima de un valordado; lo que representa un
problema contrario al anterior, estoes, dado un cierto valor en laabscisa determinar en la ordenadael tanto por ciento de valores
inferiores y superiores al valor dado..
ING. WILLIAM LEON V. 72Definición
-
8/20/2019 Estadistica y Prob 05
73/124
Operación que se resuelve utilizandola siguiente formula general:
Donde:
P: lugar percentil que se busca.P: valor reconocido en la escala X.fa-1: frecuencia acumulada de la claseanterior a la clase en que esta incluida P.fi: frecuencia de la clase que contiene a p.
Li: limite inferior de la clase que contienea P.Ic: intervalo de clase.N: frecuencia total..
ING. WILLIAM LEON V. 73Definición
-
8/20/2019 Estadistica y Prob 05
74/124
Ejemplo:Utilizando la distribuciónanterior, determinar queporcentaje de personas
ganan salarios inferiores a$ 450,00
ING. WILLIAM LEON V. 74Definición
-
8/20/2019 Estadistica y Prob 05
75/124
ING. WILLIAM LEON V. 75
El 50,75 por ciento de las personasganan salarios inferiores a $. 450.
Definición
-
8/20/2019 Estadistica y Prob 05
76/124
Ing. William León Velásquez
-
8/20/2019 Estadistica y Prob 05
77/124
El análisis exploratorio de datos, introducidoTukey (1962; 1970), se ha extendido comofilosofía de aplicación de la estadística,debido principalmente a la disponibilidad deordenadores y software estadístico conposibilidades de representación gráfica ytratamiento de conjuntos de datos variados
ING. WILLIAM LEON V. 77
ANALÍSIS
EXPLORATORIO DE DATOS
i X
-
8/20/2019 Estadistica y Prob 05
78/124
Las posibilidades didácticas del análisisexploratorio de datos se deben a la sencillez
del instrumento matemático requerido, la
importancia dada hoy día en estadística y
matemáticas a los sistemas de representaciónmúltiple y resolución de problemas,
ING. WILLIAM LEON V. 78
i X
ANALÍSIS
EXPLORATORIO DE DATOS
-
8/20/2019 Estadistica y Prob 05
79/124
Las técnicas mas utilizadas son:
Tronco o tallos y hoja
La caja y brazos
ING. WILLIAM LEON V. 79
i X
Ambas pretenden:
Conocer la variable analizada paradeterminar si su distribución es
simétrica o no. Poder descubrir valores extremos y
analizarlos antes de poder pasar alanálisis multivariante.
ANALÍSIS
EXPLORATORIO DE DATOS
-
8/20/2019 Estadistica y Prob 05
80/124
Los casos atípicos son observaciones concaracterísticas diferentes de las demás.
Este tipo de casos no pueden sercaracterizados categóricamente como
benéficos o problemáticos sino que debenser contemplados en el contexto delanálisis y debe evaluarse el tipo deinformación que pueden proporcionar.
ING. WILLIAM LEON V. 80
i X
ANALÍSIS
EXPLORATORIO DE DATOS
-
8/20/2019 Estadistica y Prob 05
81/124
Su principal problema radica en que sonelementos que pueden no serrepresentativos de la población pudiendodistorsionar seriamente el comportamientode los contrastes estadísticos.
Por otra parte, aunque diferentes a la mayorparte de la muestra, pueden ser indicativosde las características de un segmento válidode la población y, por consiguiente, unaseñal de la falta de representatividad de lamuestra.
ING. WILLIAM LEON V. 81
i X
ANALÍSIS
EXPLORATORIO DE DATOS
-
8/20/2019 Estadistica y Prob 05
82/124
Los casos atípicos pueden clasificarse en 4categorías. La primera categoría contiene aquellos
casos atípicos que surgen de un error de
procedimiento, tales como la entrada dedatos o un error de codificación. Estoscasos atípicos deberían subsanarse en elfiltrado de los datos, y si no se puede,
deberían eliminarse del análisis orecodificarse como datos ausentes.
ING. WILLIAM LEON V. 82
i X
ANALÍSIS
EXPLORATORIO DE DATOS
-
8/20/2019 Estadistica y Prob 05
83/124
La segunda clase es la observación queocurre como consecuencia de unacontecimiento extraordinario. En este caso,el outlier no representa ningún segmento
válido de la población y puede ser eliminadodel análisis.
ING. WILLIAM LEON V. 83
i X
ANALÍSIS
EXPLORATORIO DE DATOS
-
8/20/2019 Estadistica y Prob 05
84/124
La tercera clase contiene las observacionescuyos valores caen dentro del rango de lasvariables observadas pero que son únicasen la combinación de los valores de dichas
variables. Estas observaciones deberían serretenidas en el análisis pero estudiando quéinfluencia ejercen en los procesos deestimación de los modelos considerados.
ING. WILLIAM LEON V. 84
ANALÍSIS
EXPLORATORIO DE DATOS
-
8/20/2019 Estadistica y Prob 05
85/124
La cuarta y última clase comprende lasobservaciones extraordinarias para las queel investigador no tiene explicación. Enestos casos lo mejor que se puede hacer es
replicar el análisis con y sin dichasobservaciones con el fin de analizar suinfluencia sobre los resultados. Si dichasobservaciones son influyentes el analistadebería reportarlo en sus conclusiones ydebería averiguar el por qué de dichasobservaciones.
ING. WILLIAM LEON V. 85
i X
ANALÍSIS
EXPLORATORIO DE DATOS
-
8/20/2019 Estadistica y Prob 05
86/124
Un diagrama de tallo-hoja (Tukey, 1977) esun histograma queconserva información
numérica.
ING. WILLIAM LEON V. 86TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
87/124
De manera similar al histograma
permite ver el lote como un todo yadvertir aspectos como: Cuán aproximadamente simétricosson los datos.
Cuán dispersos están los valores. La aparición de valoresinesperadamente más recuentes. Si algunos valores están alejados del
resto. Si hay concentraciones de valores. Si hay grupos separados..
ING. WILLIAM LEON V. 87TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
88/124
Al utilizar los dígitos de los valores de
los mismos datos, en vez desimplemente encerrando áreas, ofreceventajas:
Es más fácil de construir a mano.
Facilita el ordenamiento de los datos.
Permite, por lo tanto, hallar lamediana y otras medidas resumen
basadas en el lote ordenado. Permite ver la distribución de losdatos dentro de cada intervalo comopatrones dentro de los datos.
ING. WILLIAM LEON V. 88TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
89/124
ING. WILLIAM LEON V. 89
i X
EJEMPLO
Se tiene la siguiente representación de los 59 datosde una tabla
TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
90/124
628 : 5
629 :
630 : 358631 : 033
632 : 77
633 : 001446669
634 : 01335
635 : 0000113668636 : 0013689
637 : 88
638 : 334668
639 : 22223
640 :641 : 2
642 : 147
643 :
644 : 02
ING. WILLIAM LEON V. 90
•Facilita la
identificación de unaobservación y lainformación que laacompaña.
TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
91/124
El primer dato de la tabla (63.78)aparece en la décima fila de la figuracomo 637:8.El punto decimal está en el lugar: a la
izquierda de los dos puntos (:), esto seindica con “unidad = 0.01 oC”.Los 3 primeros dígitos de los puntos defusión forman el tallo , el cuarto forma lahoja .
ING. WILLIAM LEON V. 91TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
92/124
Los tallos están ordenados, encolumna, y en líneas separadas,aparecen todos los valores posibles detallos dentro del rango observado.
En este ejemplo las hojas, en cada tallo,son el cuarto dígito de todos losnúmeros con ese tallo.
ING. WILLIAM LEON V. 92TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
93/124
En su apariencia global el diagrama seasemeja a un histograma con ancho deintervalo igual a 0.1 0C.
ING. WILLIAM LEON V. 93TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
94/124
A cada dato se le puede asignar unrango , contando desde cada extremo enel lote ordenado.
Por ejemplo, en la sig. figura de 59
datos, el dato 63.03 tiene:rango 2 contando desde 62.85 haciavalores crecientes y rango 58 contandodesde 64.42 hacia valores decrecientes.
La profundidad es el menor de los dosvalores.
ING. WILLIAM LEON V. 94TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
95/124
PROF. # hojas TALLO HOJAS
1 1 628 : 51
0 629 :
4 3 630 : 358
7 3 631 : 033
9 2 632 : 77
18 9 633 : 001446669
23 5 634 : 01335
10 635 : 0000113668
26 7 636 : 0013689
19 2 637 : 88
17 6 638 : 334668
11 5 639 : 222236 0 640 :
6 1 641 : 2
5 3 642 : 147
2 0 643 :
2 2 644 : 02ING. WILLIAM LEON V. 95TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
96/124
La primera columna (PROF.) deprofundidad, muestra en cada fila,excepto en la línea central quecontiene la mediana, la máxima
profundidad correspondiente a losdatos de esa fila. Facilita hallarestadísticos de orden.
La segunda columna (# hojas) da lacantidad de hojas en cada tallo.
ING. WILLIAM LEON V. 96TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
97/124
L = [10 x log10n ]Esta regla da esquemas efectivos sobreel rango
20
-
8/20/2019 Estadistica y Prob 05
98/124
Para el ejemplo, que tiene n = 59,resulta cantidad de líneas
L = [10 x log10 59 ] = [10 x 1.77] = 17
Este valor coincide con la cantidad de
líneas del esquema considerado,podría no coincidir exactamente.
ING. WILLIAM LEON V. 98TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
99/124
Para determinar el intervalo devalores para cada línea dividimos R elrango del lote por L y redondeamoshacia arriba a la potencia de 10 más
próxima.En el ejemplo el rango
R = 64.42 - 62.85 = 1.57 y L=17,
de manera que R / L = 0.09.Redondeando a la potencia de 10más próxima da 0.1 como ancho delos intervalos.
ING. WILLIAM LEON V. 99TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
100/124
Ejemplo:
Consideremos los datos de la dureza de 30incrustaciones de aluminio presentadas en unestudio de control de calidad
53.0 82.5 74.4 55.7 70.2 67.3 54.1 70.5
84.3 69.5 77.8 87.5 55.3 73.0 52.4 51.1 78.5 55.7 69.1 72.3
63.5 85.8 53.5 59.5
71.4 95.4 64.3 53.4 51.1 82.7
ING. WILLIAM LEON V.
10
0
Datos:
Valor Maximo 95.4
Valor mínimo 51.1
N 30
TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
101/124
Cálculo
L = [10 x log
10
30] = [14.77] =14
R = 95.4 - 51.1 = 44.3 y
R / L =44.3 /14 = 3.16.
Redondeando hacia arriba a lapotencia de 10 más próxima,obtendríamos 10 como la longitud
indicada para los intervalos.
ING. WILLIAM LEON V.
10
1TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
102/124
Esta longitud es utilizada en el esquema
tallo-hoja básico dado por la figura a.Figura a
El punto decimal está 1 lugar a la derecha delos dos puntos (:)
11 11 5 : 11233345669
5 6 : 34799
14 8 7 : 00123488
6 5 8 : 23467
1 1 9 : 5
ING. WILLIAM LEON V.
10
2
i X
TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
103/124
Como el esquema de la figura -a tiene
relativamente pocas líneas, utilizamos2 líneas por tallo, o equivalentemente5 dígitos en cada línea, obteniendo elesquema de la figura b.
Es decir la primera línea representadel 0 al 4
Y la segunda línea del 5 al 9
ING. WILLIAM LEON V.
10
3TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
104/124
Figura b
El punto decimal está 1 lugar a la derecha
de los dos puntos (:)7 7 5 : 1123334
11 4 5 : 5669
13 2 6 : 34
3 6 : 799
14 6 7 : 001234
8 2 7 : 88
6 3 8 : 234
3 2 8 : 67
1 0 9 :
1 1 9 : 5
ING. WILLIAM LEON V.
10
4
i X
TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
105/124
Se tiene los siguientes datos:
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
que representan la edad de un colectivo deN = 20 personas y que vamos a representar
mediante un diagrama de Tallos y Hojas.
ING. WILLIAM LEON V.
10
5TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
106/124
Cálculo
L = [10 x log 10
20] = [13.01] =13,
R = 45 - 23 = 22, y
R / L =22 /13 = 1.69.
Redondeando hacia arriba a lapotencia de 10 más próxima,obtendríamos 10 como la longitudindicada para los intervalos .
ING. WILLIAM LEON V.
10
6TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
107/124
Comenzamos seleccionando los tallos
que en nuestro caso son las cifras dedecenas, es decir 3, 2, 4, quereordenadas son 2, 3 y 4.A continuación efectuamos unrecuento y vamos «añadiendo» cadahoja a su tallo
ING. WILLIAM LEON V.
10
7TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
108/124
Por último reordenamos las hojas y
hemos terminado el diagrama
ING. WILLIAM LEON V.
10
8TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
109/124
Aplicamos 5 dígitos por línea
Tallos Hojas
2 | 03444
2 | 59
3 | 11343 | 66799
4 | 001
4 | 5
ING. WILLIAM LEON V.
10
9TALLOS Y HOJAS
-
8/20/2019 Estadistica y Prob 05
110/124
Es una presentación visual quedescribe al mismo tiempo variascaracterísticas importantes de unconjunto de datos,
ING. WILLIAM LEON V.
11
0CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
111/124
Las características que representan
son:el centro, la dispersión, la desviaciónde la simetría y
la identificación de observacionesque se alejan de manera poco usualdel resto de los datos, este tipo deobservaciones se conocen como
“valores atípicos”.
ING. WILLIAM LEON V.
11
1CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
112/124
ING. WILLIAM LEON V.
11
2CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
113/124
El diagrama de caja presenta los tres
cuartiles, y los valores mínimo ymáximo de los datos sobre unrectángulo, alineado horizontal overticalmente.
El rectángulo delimita el rangointercuartílico con la arista izquierda(o inferior) ubicada en el primer cuartily la arista derecha (o superior) en eltercer cuartil.
ING. WILLIAM LEON V.
11
3CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
114/124
Dentro del rectángulo se dibuja una
línea en la posición que corresponde ala mediana.
Cuando la distribución es simétrica lamediana divide a la caja en dos partesiguales.
ING. WILLIAM LEON V.
11
4CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
115/124
Fuera del rectángulo se dibujan dos
segmentos, llamados `bigotes' obrazos que llegan hasta los datosmás lejanos que estén a unadistancia menor o igual a 1: 5 x (R:I: )del rectángulo,
donde R:I: representa el rangointercuartil. Cualquier punto que no
esté incluido en este rango serepresenta individualmente y seconsidera un punto atípico (outlier).
ING. WILLIAM LEON V.
11
5CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
116/124
ING. WILLIAM LEON V.
11
6CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
117/124
Estos gráficos se utilizan para
comparar la distribución de losvalores entre diferentes grupos.
Si en una caja la línea querepresenta al cuartil 1 está porencima de la línea que representa ala mediana en la otra caja, entoncesse concluye que las medias de las
poblaciones son diferentes.
ING. WILLIAM LEON V.
11
7CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
118/124
ING. WILLIAM LEON V.
11
8CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
119/124
a) La anchura de la caja refleja la
amplitud intercuartil (abreviado comoIQR o como RI), en ella estárepresentado el 50% de la muestra.
b) El borde superior de la caja es el
percentil 75 (Q3).
c) El borde inferior es el percentil 25(Q1).
ING. WILLIAM LEON V.
11
9CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
120/124
d) La línea central de la caja es la
mediana. Cuando el valor de lamediana coincide con el puntomedio de la caja (IQR/2 + Q1), lavariable representada es simétrica.
Diremos que es asimétrica positivao a la derecha si está próxima alborde izquierdo de la caja y,
asimétrica negativa o a la izquierdasi está próxima al borde derecho
ING. WILLIAM LEON V.
12
0CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
121/124
e) Los valores que no son
considerados extremos son aquélloscomprendidos entre el límite inferiory el límite superior.
Límite inferior = Q1 – 1,5*IQR
Límite superior = Q3 + 1,5IQR
Los valores de las patillascorresponden a la primera y última
observación dentro de dichoslímites.
ING. WILLIAM LEON V.
12
1CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
122/124
f) Se señalan con signos (*,O) los
casos muy alejados o extremos.g) Con una O se marcan los casossituados entre 1,5 y 3 veces laamplitud intercuartil desde los dos
extremos de la caja.
ING. WILLIAM LEON V.
12
2CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
123/124
En un diagrama de cajas seleccionamos
una de las siguientes opciones: -Niveles de los factores juntos: Para cada
variable dependiente, se muestran juntoslos diagramas de caja de cada grupo
definido por una variable de factor.-Podremos así comparar fácilmente cómolos valores de la variable dependientevarían a través de los grupos. Si no seselecciona ninguna variable de factor, sólose muestra un diagrama de caja para lamuestra total.
ING. WILLIAM LEON V.
12
3CAJAS Y BRAZOS
-
8/20/2019 Estadistica y Prob 05
124/124
- Dependientes juntas: Para cada grupo
(definido por una variable de factor)muestra juntos los diagramas de caja decada variable dependiente.
Podremos así comparar fácilmente los
valores de las variables AnálisisExploratorio dependientes para un grupoparticular. Esta opción es especialmenteútil cuando las diferentes variablesrepresentan una característica única
medida en diferentes momentos.