variables continuas

Download Variables Continuas

Post on 22-Nov-2015

12 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 61

    ESQUEMA

    INTRODUCCION

    VARIABLES CUALITATIVAS

    Tablas de Frecuencia

    Representaciones Grficas

    VARIABLES CUANTITATIVAS DISCRETAS

    Tablas de Frecuencia

    Representaciones Grficas

    ESTUDIO DE VARIABLES CONTINUAS

    Representaciones Grficas

    Medidas de Posicin y Dispersin

    Diagrama de Cajas. Datos atpicos

    1

    2

    3

    4

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 62

    4. ESTUDIO DE VARIABLES CONTINUAS

    4.1 Tabla de Frecuencias. Variables Continuas

    Cuando la variable en estudio es continua (o discreta con un nmero elevado de valores

    distintos) toma tantos posibles valores como nmero de observaciones y, por tanto, no es

    posible escribirlos todos ellos en una columna, como se hizo anteriormente.

    Para tabular estos datos conviene agruparlos en unos cuantos intervalos y determinar el

    nmero de individuos que pertenecen a cada uno de ellos.

    Tomar el intervalo como unidad de estudio, en lugar de cada valor de la variable, supone: una

    simplificacin del problema, pero a cambio hay una prdida de informacin.

    Por lo tanto, es importante elegir un nmero adecuado de intervalos que equilibre estos dos

    aspectos.

    El fichero cacharros.txt recoge datos recogidos en una fbrica de cacharros.

    Hay 59 datos de 4 variables:

    artculo: tipo de cacharro (codificada con nmeros del 1 al 4),

    dimetro: dimetro en cm.,

    tiempo: tiempo de fabricacin en minutos y

    precio: precio de venta al pblico en euros.

    Ejecutado

    > cacharros attach(cacharros)

    > table(tiempo)

    Cdigo R

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 63

    tiempo

    12.02 13.25 15.61 16.41 16.66 17.46 17.67 17.84 20.21 20.59

    1 1 1 1 1 1 1 1 1 1

    20.83 20.85 21.04 21.34 21.87 22.55 22.82 23.21 23.74 23.77

    1 1 1 1 1 1 1 1 1 1

    23.88 26.09 26.25 26.52 26.53 27.76 28.64 29.48 30.2 31.46

    1 1 1 1 1 1 1 1 1 1

    31.86 32.62 32.9 33.7 33.71 33.89 34.16 34.88 37.11 39.71

    1 1 1 1 1 1 1 1 1 1

    43.14 44.14 44.45 44.95 45.12 45.78 47.65 48.74 49.48 53.18

    1 1 1 1 1 1 1 1 1 1

    54.86 55.53 58.76 63.13 64.3 68.63 74.48 86.42 109.38

    1 1 1 1 1 1 1 1 1

    se obtiene una tabla con tantas posiciones como datos muestrales y todas las frecuencias

    iguales a uno. Est claro que este procedimiento no ser vlido para variables continuas.

    Para hacer una tabla de frecuencias de variables continuas,1

    se discretiza la variable, y 2

    se construye la correspondiente tabla de frecuencias.

    A continuacin se muestra la tabla de frecuencias para tiempo:

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 64

    clase frec.

    absol.

    frec.

    relat

    fr. abs.

    acum

    fr. rel.

    acum

    35 38 0.64 38 0.64

    (35,60] 15 0.25 53 0.90

    (60,85] 4 0.07 57 0.97

    > 85 2 0.03 59 1.00

    59 1

    > cacharros attach(cacharros)

    > tiempod=cut(tiempo,breaks=c(-Inf,35,60,85,Inf)) # discretizamos tiempo

    > nj=table(tiempod);nj # frec. absolutas

    tiempod

    (-Inf,35] (35,60] (60,85] (85, Inf]

    38 15 4 2

    > Nj=cumsum(nj);Nj # frec.absolutas acumuladas

    (-Inf,35] (35,60] (60,85] (85, Inf]

    38 53 57 59

    > fj=prop.table(nj);fj # frec. relativa

    tiempod

    (-Inf,35] (35,60] (60,85] (85, Inf]

    0.64406780 0.25423729 0.06779661 0.03389831

    > Fj=cumsum(fj);Fj # frecuencia relativa acumulada

    (-Inf,35] (35,60] (60,85] (85, Inf]

    0.6440678 0.8983051 0.9661017 1.0000000

    Cdigo R

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 65

    Las tablas de frecuencias obtenidas dependern del

    nmero de cortes, y

    posicin de los mismos.

    A continuacin se muestran las frecuencias obtenidas para 5 cortes.

    > cacharros attach(cacharros)

    > tiempod=cut(tiempo,breaks=5) # discretizamos tiempo

    > nj=table(tiempod);nj # frec. absolutas

    tiempod

    (11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]

    29 20 7 2 1

    > Nj=cumsum(nj);Nj # frec.absolutas acumuladas

    (11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]

    29 49 56 58 59

    > fj=prop.table(nj);fj # frec. relativa

    tiempod

    (11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]

    0.49152542 0.33898305 0.11864407 0.03389831 0.01694915

    > Fj=cumsum(fj);Fj # frecuencia relativa acumulada

    (11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]

    0.4915254 0.8305085 0.9491525 0.9830508 1.0000000

    Cdigo R

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 66

    ESQUEMA

    INTRODUCCION

    VARIABLES CUALITATIVAS

    Tablas de Frecuencia

    Representaciones Grficas

    VARIABLES CUANTITATIVAS DISCRETAS

    Tablas de Frecuencia

    Representaciones Grficas

    ESTUDIO DE VARIABLES CONTINUAS

    Representaciones Grficas

    Medidas de Posicin y Dispersin

    Diagrama de Cajas. Datos atpicos

    1

    2

    3

    4

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 67

    4.2 Representaciones Grficas

    4.2.1 Histograma

    El histograma de un conjunto de datos es un grfico de barras que representan las frecuencias

    con que aparecen las mediciones agrupadas en ciertos intervalos y luego contar cuntas

    observaciones caen en cada intervalos. Slo se utiliza con variables continuas, y cuando se

    dispone de una cantidad grande de datos.

    Para cada clase, se dibuja un rectngulo apoyado en el eje X cuya base sea el intervalo y cuya

    rea sea proporcional a la frecuencia a representar. Por lo tanto, la altura queda

    determinada por el cociente entre la frecuencia y la amplitud del intervalo.

    hist(tiempo)

    Ejemplo - Cachorros

    > cacharros attach(cacharros)

    > hist(tiempo)

    Cdigo R

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 68

    Los histogramas son muy tiles para apreciar la forma de la distribucin de los datos, si se

    escoge adecuadamente el nmero de clases y su amplitud.

    Sin embargo, la seleccin del nmero de clases y su amplitud que adecuadamente representan

    la distribucin puede ser complicado:

    Un histograma con muy pocas clases agrupa demasiado las observaciones y un histograma con

    muchas clases deja muy pocas observaciones en cada una de ellas.

    Ninguno de los dos extremos es apropiado.

    Existen varias reglas para determinar el nmero de clases. R por defecto selecciona el nmero

    de clases siguiendo el llamado mtodo de Sturges ( )

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 69

    Efectos del nmero de clases

    Ejemplo Cachorros

    > cacharros attach(cacharros)

    > par(mfrow=c(2,2))

    > hist(tiempo,breaks=2,main="2 clases")

    > hist(tiempo,breaks=5,main="5 clases")

    > hist(tiempo,breaks=11,main="11 clases")

    > hist(tiempo,breaks=25,main="25 clases")

    Cdigo R

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 70

    > cacharros attach(cacharros)

    > par(mfcol=c(1,3))

    > hist(diametro)

    > hist(tiempo)

    > hist(precio)

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 71

    4.2.2 rbol de Tallo y Hojas

    Otro grfico que puede ser utilizado para la representacin de variables continuas es el llamado

    rbol de tallo y hojas. Este tipo de grfico son fciles de realizar a mano, y se solan utilizar

    como una forma rpida (aunque igual no demasiado pulida) de visualizar los datos.

    Ejemplo Cachorros

    > cacharros attach(cacharros)

    > stem(tiempo)

    The decimal point is 1 digit(s) to the right of the |

    1 | 23667788

    2 | 01111123334446677899

    3 | 01233444457

    4 | 0344556899

    5 | 3569

    6 | 349

    7 | 4

    8 | 6

    9 |

    10 | 9

    Cdigo R

  • ESTADSTICA DESCRIPTIVA Anlisis Exploratorio de Datos

    L o u r d e s Z i g a .

    Pgina 72

    4.3 Funcin de Distribucin Emprica

    Dada una muestra

Recommended

View more >