unidad-1-inferencia-estadística-y-pruebas-de-hipótesis-1.docx

97
Unidad 1 Inferencia estadística y pruebas de hipótesis Alumno: Jesus Brigido Carrasco Aula: 104 1.1 Muestreo y distribución de muestreo aplicados a situaciones cotidianas Una meta común e importante de la materia de estadística es la siguiente: aprender acerca de un grupo grande examinando los datos de algunos de sus miembros. En dicho contexto los términos muestra y población adquieren importancia. Las definiciones formales de términos básicos se presentan a continuación: a. Datos son las observaciones recolectadas (como mediciones, géneros, respuestas de encuestas) b. Estadística es un conjunto de métodos para planear estudios y experimentos, obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datos c. Población es el conjunto completo de todos los elementos (puntuaciones, personas, medidas, etc.) que se va a estudiar. El conjunto es completo porque incluye a todos los sujetos que se estudiarán. d. Censo es el conjunto de datos de cada uno de los miembros de la población e. Muestra es un subconjunto de miembros seleccionados de una población Se trata de utilizar datos muéstrales para hacer inferencias (o generalizaciones) sobre una población completa. Los datos cuantitativos consisten en números que representan conteos o mediciones, se pueden clasificar en: Datos discretos: Resultan cuando el número de valores posibles es un número finito o un número que “puede

Upload: esme-figueroa

Post on 04-Sep-2015

46 views

Category:

Documents


0 download

TRANSCRIPT

Unidad 1 Inferencia estadstica y pruebas de hiptesis Alumno: Jesus Brigido Carrasco Aula: 104 1.1Muestreo y distribucin de muestreo aplicados a situaciones cotidianasUna meta comn e importante de la materia de estadstica es la siguiente: aprender acerca de un grupo grande examinando los datos de algunos de sus miembros. En dicho contexto los trminos muestra y poblacin adquieren importancia. Las definiciones formales de trminos bsicos se presentan a continuacin: a.Datos son las observaciones recolectadas (como mediciones, gneros, respuestas de encuestas)b.Estadstica es un conjunto de mtodos para planear estudios y experimentos, obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datosc.Poblacin es el conjunto completo de todos los elementos (puntuaciones, personas, medidas, etc.) que se va a estudiar. El conjunto es completo porque incluye a todos los sujetos que se estudiarn.d.Censo es el conjunto de datos de cada uno de los miembros de la poblacine.Muestra es un subconjunto de miembros seleccionados de una poblacinSe trata de utilizar datos mustrales para hacer inferencias (o generalizaciones) sobre una poblacin completa.Los datos cuantitativos consisten en nmeros que representan conteos o mediciones, se pueden clasificar en:Datos discretos: Resultan cuando el nmero de valores posibles es un nmero finito o un nmero que puede contarse, ejemplo: nmero de huevos que ponen las gallinas, nmero de latas.Datos continuos: Resultan de un infinito de posibles valores que corresponden a alguna escala continua que cubre un rango de valores sin huecos, interrupciones o saltos, ejemplo: cantidades de leche que producen las vacas, el volumen real de la bebida de coca cola.Los datos cualitativos (o categricos o de atributo) se dividen en diferentes categoras que se distinguen por algunas caractersticas no numricas.Otra forma de comn de clasificar los datos consiste en usas 4 niveles de medicin: nominal, ordinal, de intervalo y de razn. La escala nominal: en algunos casos los atributos de inters o las variables consisten en nombres o etiquetas, y las observaciones (mediciones) nicamente se puede clasificar, los datos no se pueden acomodar en un esquema de orden. En esta escala consiste en asignar smbolos que pueden ser letras, nombre o incluso nmeros (sin que haya relaciones matemticas), sin embargo, se puede contar el nmero de observaciones de cada clase o categora, y utilizar las frecuencias o porcentajes de las categoras en alguna actividad de presentacin o anlisis.

La escala ordinal: al igual que en la escala nominal, la medicin consiste en asignar smbolos que pueden ser letras, nombres o incluso nmeros. Ejemplos de datos que corresponden a esta escala son las encuestas que hacen los sitios de internet, en las que se pide categorizar una pelcula, un artculo publicado por ellos o una opinin respecto de una propuesta de ley. En esta escala se puede distinguir una relacin entre las clasificaciones ya que un excelente es mejor que muy bueno y as sucesivamente, por consiguiente no es posible determinar diferencias entre los valores de los datos o tales diferencias carecen de significado.La escala de intervalo: posee todas las caractersticas de la escala ordinal, con la propiedad adicional de que los nombres o smbolos asignados son generalmente nmeros, y la diferencia entre dos de ellos da resultados significativos, ya que hay una unidad de medida comn y constante. Un ejemplo de medicin con escala de intervalo es la lectura de temperaturas, que se pueden ordenar fcilmente pero tambin se pueden determinar las diferencias y darle un sentido, ms sin embargo, los datos en este nivel no tienen punto de partida cero natural inherente.La escala de razn: es el nivel de medicin ms alto; tiene todas las caractersticas de la escala de intervalo, pero, adems, tiene un punto cero natural o terico. Por consiguiente, adems de las diferencias y las sumas, la multiplicacin y divisin de los datos tienen significado numrico racional, el punto cero refleja la ausencia de esa caracterstica.Un censo comprende el examen de todos los elementos de un determinado grupo mientras que el muestreo comprende el anlisis de una pequea parte de ellos. El objeto del muestreo es establecer generalizaciones con respecto a un grupo total de elementos sin tener que examinarlos uno por uno.La parte del grupo de elementos que se examinan recibe el nombre de muestra, y el grupo total a partir del cual se seleccion la muestra se conoce como poblacin o universo. Los elementos que forman una poblacin pueden ser personas, empresas, productos manufacturados, inventarios, escuelas, ciudades, calificaciones escolares, precios o cualquier otra cosa que se pueda medir, contar o jerarquizar. Las ventajas del muestreo con respecto al censo son:a.Que es ms econmicob.Se realiza con mayor rapidezc.Se puede realizar ms frecuente y detalladamented.Se puede estimar la confiabilidad de la informacinLimitaciones:a.Lleva implcito un riesgo de errorb.Requiere mayor preparacin del personal, pues usa instrumentos ms refinados

Muestreo no probabilstico:Por facilidad de acceso: cuando se muestra solo aquellos elementos a los que se puede accesar fcilmente, con lo que los de difcil acceso nunca sern elegidos. Intencional: si la muestra se elige por un experto conocedor de la poblacin de manera objetiva tendr generalmente una precisin muy alta. Es muy difcil medir si existen tendencias personales. Cuando se tiene una poblacin pequea pero heterognea, el investigador inspecciona la totalidad de sta y selecciona una muestra que considera representativa. El investigador selecciona una muestra que considera representativa; es decir, elementos que a su parecer estn cercanos al promedio de la poblacin.Por cuotas: Se eligen elementos hasta completar una cuota preestablecida sin seguir ningn mtodo especificado de seleccin, con lo que solo se incluirn solo los n primeros elementos o solo los que existan en determinado lugar. Se utiliza para sondeos de intencin de voto y en las investigaciones de mercado.Auto selectivo: La muestra se toma con la gente que voluntariamente responde a un peridico, una revista, internet, radio o televisin.Muestreo probabilstico:Muestreo aleatorio simple Es el proceso por el cual, los elementos de la muestra son escogidos en forma individual y directamente a travs de un procedimiento aleatorio en el cual todos y cada uno de los elementos de la poblacin tienen la misma probabilidad de ser seleccionados.

Se recomienda su uso para poblaciones relativamente pequeas y distribuidas en un rea reducida para evitar los gastos de traslado Tcnica del muestreo:Identificar a todos los elementos del marco del muestreo (poblacin), asocindoles un nmero nico.A travs de un procedimiento que garantice la obtencin de una muestra aleatoria, elegir a los elementos de la poblacin que conformarn la muestraRevisar a los elementos seleccionados, para obtener de ellos los datos relevantes que permitan cumplir el objetivo del muestreoRealizar los clculos necesarios para poder establecer las conclusionesLos mecanismos que se utilizan para garantizar la aleatorizacin son:La urna y su tcnica es la siguiente:Colocar en una urna tantos papelitos o pelotitas marcados con los nmeros del uno al tamao de la poblacin (N)Revolver muy bien el contenido de la urnaExtraer tantos papelitos o pelotitas que se deseen en la muestraTabla de nmero aleatorios y su tcnica es la siguiente:Determinar el nmero de dgitos a utilizar

Ejercicio 1.- En un lote de frascos para medicina, con una poblacin de 8000 unidades, se desea estimar la media de la capacidad en centmetros cbicos de los mismos.

A travs de un pre muestreo de tamao 35 se ha estimado que la desviacin estndar es de 2 centmetros cbicos. Si queremos tener una precisin 0.25 cms3, y un nivel de significancia del 5%. De qu tamao debe de ser la muestra?DATOS:S = 2 cms3; N = 8000; d = 0.25 cms3;a= 0.05 (5%)Za/2= 1.96N Za/2S 8000(1.96)(2)n = -------------- = --------------------------- = 238 frascosNd + Za/2S 8000(0.25) + (1.96)(2)Solo faltara muestrear 203 frascos, pues los datos de los 35 frascos del pre muestreo siguen siendo vlidos.

1.2 PRUEBAS DE HIPTESISMuchos problemas requieren que se decida si una afirmacin o supuesto acerca de algn parmetro es verdadera o falsa. Al supuesto generalmente se le denomina hiptesis, y al procedimiento de toma de decisin acerca de la verdad o falsedad de esta se le denomina prueba de hiptesis.HIPTESIS ESTADSTICASUna hiptesis estadstica es un supuesto acerca de algn parmetro o de la distribucin probabilstica de una variable aleatoria. Las hiptesis son siempre supuestos acerca de la poblacin o distribucin que se est estudiando, no declaraciones acerca de la muestra.Para probar la hiptesis se debe tomar una muestra aleatoria, calcular un estadstico de prueba adecuado a partir de datos mustrales, y utilizar entonces la informacin contenida en el valor de este estadstico de prueba para tomar una decisin.Las tcnicas que se analizarn aqu se pueden clasificar en: Pruebas Clsicas, en su mayora suponen normalidad en la poblacin, y necesitan estimar un parmetro como estadstico de prueba para establecer la conclusin Pruebas Paramtricas de Distribucin Libre, no necesitan el supuesto de normalidad en la poblacin, pero su conclusin la establecen estimando un parmetro, yPruebas No Paramtricas, no exigen el supuesto de normalidad en la poblacin, y toman la decisin sin estimar un parmetro de la poblacin.ELECCIN DE LA HIPTESIS NULA Y LA HIPTESIS ALTERNATIVA.Los procedimientos para llevar a cabo la comprobacin de una hiptesis estadstica establecen que se debe plantear en dos resultados mutuamente excluyentes y totalmente exhaustivos conocidos como Hiptesis Nula (H0) e Hiptesis Alternativa (H1), en uno se pondr que el supuesto es cierto y en el otro supuesto es falso. As mismo la estructura de la prueba dice que la posicin es aceptar H0 como verdadera, hasta que las pruebas en su contra sean lo suficientemente claras para rechazarla.Esto plantea que la eleccin de que se pondr en H0 debe hacerse cuidadosamente de manera que esto disminuya la probabilidad de error. As la eleccin depende de un anlisis cuidadoso del problema a resolver, un planteamiento que en la mayora de los casos da buenos resultados es seleccionar como hiptesis alternativa aquello que deseamos probar y su negacin o complemento como la hiptesis nula.Debido a que la decisin de aceptar o rechazar a H0 se basa en un estadstico de prueba calculado a partir de una muestra aleatoria, est sujeta a error. Pueden cometerse dos tipos de error:

Errores Tipo I y Tipo II.HO es verdaderaH0 es falsa

Rechazar H0Error tipo INo hay error(decisin correcta)

Aceptar H0No hay error(decisin correcta)Error tipo II

La potencia de la prueba es la probabilidad de rechazar una hiptesis nula falsa correctamente. Convencionalmente todas las conclusiones deben plantearse sobre H0.Pasos para Desarrollar una Prueba de Hiptesis. 1. Se expresa el problema en trminos de algn parmetro poblacional.2. Se elige H0 y H1 de acuerdo al problema.3. Se establece, a criterio, el valor de a.4. Se calcula la zona crtica o de rechazo, a partir de tablas de la distribucin muestral correspondiente.5. Se extrae la muestra aleatoria.6. Se calcula el estadstico de prueba.7. Se toma la decisin comparando el valor del estadstico de prueba con la zona crtica.HIPTESIS UNILATERALES Y BILATERALES. Los tipos de problemas de prueba de hiptesis que se pueden plantear son: bilaterales o unilaterales. Los problemas para los cuales una hiptesis alternativa bilateral es adecuada, no presentan, para el analista, realmente una eleccin del planteamiento. Esto es, para probarla es importante detectar valores del verdadero parmetro q que podran ser mayores o menores que , simblicamente:

Muchos problemas de prueba de hiptesis involucran de manera natural una hiptesis alternativa unilateral. Aqu si es muy importante realizar una adecuada seleccin de H0. Existen dos modelos diferentes que pueden emplearse para hiptesis unilaterales:

PRUEBA DE HIPTESIS SOBRE , CON 2 CONOCIDA.Por el teorema central de lmite no requiere del supuesto de normalidad en la poblacin. La varianza 2, es conocida de estudios anteriores, o aun cuando se calcula, si la muestra es grande, se considera como poblacional.El procedimiento emplea el estadstico de prueba:

El cual sigue una distribucin normal estndar, a travs de la cual se puede determinar la zona de rechazo o tambin llamada zona crtica.Dependiendo del tipo de prueba de hiptesis planteada ser la zona crtica:

PRUEBA DE HIPTESIS SOBRE DE UNA DISTRIBUCIN NORMAL, CON 2 DESCONOCIDA. Debido que ahora 2 es desconocida, deber suponerse que X se distribuya normalmente a fin de poder usar como estadstico de prueba:

El cual sigue la distribucin t-Student con n- l grados de libertad, la cual se utiliza para determinar la zona de rechazo o zona crtica. Enseguida se muestran las pruebas de hiptesis que se pueden plantear y su correspondiente zona de rechazo:

Ejercicio del 1.21.- Una empresaest interesada en lanzar un nuevoproductoalmercado. Tras realizar una campaa publicitaria, se toma lamuestrade 1 000 habitantes, de los cuales, 25 no conocan el producto. A un nivel de significacin del 1% apoya el estudio las siguientes hiptesis? a.Ms del 3% de lapoblacinno conoce el nuevo producto. b.Menos del 2% de la poblacin no conoce el nuevo producto

Datos:n = 1000x = 25

Dnde:x = ocurrenciasn = observaciones= proporcin de la muestra= proporcin propuestaSolucin:a)

a = 0,01

H0 es aceptada, ya que z prueba (-0,93) es menor que z tabla (2,326), por lo que no es cierto que ms del 3% de la poblacin no conoce el nuevo producto.1.3 ANOVA (Anlisis de Varianza)

Las pruebas de hiptesis son una herramienta til cuando se trata de comparar dos tratamientos. La experimentacin usualmente requiere comparacin de ms de dos tratamientos simultneamente, es all donde se introduce Anova (teniendo en cuenta que es un procedimiento para anlisis de factores cualitativos).El anlisis de varianza se deriva de la particin de la variabilidad total en las partes que la componen. ANOVA establece que la variabilidad total en los datos, medida por la suma de cuadrados total, puede ser dividida en una suma de cuadrados de la diferencia entre los promedios de los tratamientos y el gran promedio total ms una suma de cuadrados de la diferencia de las observaciones entre tratamientos del promedio del tratamiento. Anova, nos da la herramienta para distinguir si un factor afecta la respuesta en promedio.Anova mira los promedios de cada nivel contra el promedio general y lo llama entre tratamientos. Anova queda con dos estimados de varianza, dentro y entre los niveles; con estos, saca un cociente, si las 2 varianzas se parecen, es decir, el cociente es aproximadamente 1, el factor no tiene ningn impacto en la respuesta, pero si este cociente resulta ser grande, entonces el factor tiene mucho impacto en la respuesta.

1.- En un experimento se compararon tres mtodos de ensear un idioma extranjero; para evaluar la instruccin, se administr una prueba de vocabulario de 50 preguntas a los 24 estudiantes del experimento repartidos de a ocho por grupo. a) Cul es la variable respuesta y la explicativa en este estudio? Respuesta: La variable respuesta es el puntaje en la prueba de vocabulario La variable explicativa son los mtodos de enseanza (auditivo, traduccin y combinado). Es un factor con 3 niveles. b) Complete la tabla de ANOVA: Tabla de anlisis de varianza (ANOVA)

Ejercicios del 1.3 Suma decuadradosGlMediacuadrticaFSig.

Inter-grupos323.792.002

Intra-grupos21

Total1460.958

Tabla resuelta de Anova

Suma decuadradosGlMediacuadrticaFSig.

Inter-grupos647.5842323.7928.360.002

Intra-grupos813.3742138.732

total1460.95823

Unidad 2 Anlisis de regresin lineal y mltiple

2.1 Estimacin mediante la lnea de regresinCuando se tiene una variable, llamada dependiente, cuyos resultados son un valor promedio de una funcin de una o ms variables no aleatorias, llamadas independientes (el concepto de independencia y dependencia se establece en trminos matemticos, no probabilstico), se tiene que recurrir a un tipo de tcnicas que permitan modelar esta situacin.Existen dos formas de obtener estos modelos: funciones determinsticas, y funciones probabilsticas, nuestro inters es sobre estos ltimos. Aunque para fines prcticos, si el error es despreciable se deben de usar los determinsticos, pero si se quiere estimar el error se deben usar los probabilsticos, a pesar de que no representen exactamente a la realidad.Si la funcin es de tipo lineal, en la cual el exponente de las variables independientes no es mayor de uno, el modelo se denomina de regresin lineal, si no es el caso entra en lo que se denomina superficies de respuesta.Si solo existe una variable independiente se llama simple y si son dos o ms variables independientes se les llama mltiple.MODELO DE REGRESIN LINEAL SIMPLECuando se busca un modelo en el cual se tiene una sola variable independiente, y esta es una funcin lineal, el modelo se puede expresar de la forma:

Dnde: es el error aleatorio con media cero y la misma varianza de la poblacin, que representa todas las variables que no entran en el modelo, por no poderse incluir a todas y afectar mnimamente a Y, lo que hace que no sea una representacin exacta de la realidad.La tcnica que se mostrar a continuacin, estima a los parmetros de este modelo usando la tcnica que se conoce como mnimos cuadrados. Los supuestos en que se requieren para aplicar esta tcnica son: La variable dependiente es una variable aleatoria, cuyo valor promedio est determinado por la variable independiente. La relacin entre las variables dependiente e independiente es lineal. Las varianzas de las distribuciones condicionales de la variable dependiente, para diversos valores de la variable independiente, son iguales. Propiedad llamada Homoscedasticidad.Si se desea realizar estimacin por intervalos, se debe cumplir adicionalmente con el supuesto de: Las distribuciones condicionales de la variable dependiente, para diversos valores de la variable independiente, son todas distribuciones normales para la poblacin de valores.Tcnica:1. Dibujar un diagrama de dispersin, el cual permite una primera aproximacin para averiguar si se cumplen algunos de los supuestos del modelo.2. Calcular los valores de los parmetros en base a las frmulas establecidas al ajustar el modelo por mnimos cuadrados.3. Realizar los clculos necesarios para efectuar las inferencias que se deseen (estimacin puntual, estimacin por intervalos, prueba de hiptesis).4. Evaluar lo adecuado del modelo para el problema analizado.Al aplicarse esta tcnica se debe tener mucho cuidado al elegir las variables, ya que la aparente dependencia que exista entre X y Y, se puede deber a que ambas son dependientes de una tercera variable que no se encuentre contenida en el anlisis.

Ejercicio 2.1 Hallar lasrectas de regresiny representarlas.xiyixiyixi2yi2

21241

33999

428164

44161616

54202516

64243616

66363636

74284916

76424936

87566449

1099010081

1010100100100

7260431504380

1Hallamos lasmedias aritmticas.

2Calculamos lacovarianza.

3Calculamos lasvarianzas.

4Recta de regresin de Y sobre X.

4Recta de regresin de X sobre Y.

2.2 Diagrama de dispersin.

Un diagrama de dispersin 0 grfica de dispersin o grfico de dispersin es un tipo de diagrama matemtico que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posicin en el eje horizontal (x) y el valor de la otra variable determinado por la posicin en el eje vertical (y).Se emplea cuando una variable est bajo el control del experimentador. Si existe un parmetro que se incrementa o disminuye de forma sistemtica por el experimentador, se le denomina parmetro de control o variable independiente y habitualmente se representa a lo largo del eje horizontal (eje de las abscisas). La variable medida o dependiente usualmente se representa a lo largo del eje vertical (eje de las ordenadas). Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersin mostrar el grado de correlacin (no causalidad) entre las dos variables.

Un diagrama de dispersin puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlacin puede ser positiva (aumento), negativa (descenso), o nula (las variables no estn correlacionadas). Se puede dibujar una lnea de ajuste (llamada tambin "lnea de tendencia") con el fin de estudiar la correlacin entre las variables. Una ecuacin para la correlacin entre las variables puede ser determinada por procedimientos de ajuste. Para una correlacin lineal, el procedimiento de ajuste es conocido como regresin lineal y garantiza una solucin correcta en un tiempo finito.

Uno de los aspectos ms poderosos de un grfico de dispersin, sin embargo, es su capacidad para mostrar las relaciones no lineales entre las variables. Adems, si los datos son representados por un modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como patrones superpuestos.

El diagrama de dispersin es una de las herramientas bsicas de control de calidad, que incluyen adems el histograma, el diagrama de Pareto, la hoja de verificacin, los grficos de control, el diagrama de Ishikawa y el diagrama de flujo.

Ejercicio 2.2 trazar un diagrama de dispersin Trazar una grfica de dispersin Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:Matemticas 23445667781010Fsica1324446467910

2.3 Mtodos de mnimos cuadradosAl aplicar la tcnica de ajuste por mnimos cuadrados, la cual minimiza la diferencia entre las observaciones y la recta ajustada, se establece que la ecuacin resultante para estimar los parmetros de la recta son:

El estimador de la varianza tambin se muestra en las frmulas anteriores. Las sumas de cuadrados necesarias para efectuar los clculos anteriores se muestran enseguida:

Ejercicio 2.3 Resuelva el siguiente problema de mnimos cuadrados y calcule el error de mnimos cuadrados para el sistema:

Trace los puntos en un plano coordenado.

2.4 Interpretacin del error estndar de la estimacin.El error estndar de la estimacin mide la variabilidad, o dispersin de los valores observados alrededor de la lnea de regresin.Si el error estndar de estimacin es igual a cero (0), se espera que la ecuacin de estimacin ( = a + bx) sea un estimador perfecto de la variable dependiente y todos los puntos en el diagrama de dispersin deben estar concentrados alrededor de la lnea recta de regresin.

2.4 Ejercicio de la interpretacin del error estndar

2.5 Intervalos de prediccin

Un intervalo de prediccin es un intervalo elaborado con una serie de datos de las muestras de modo que contenga observaciones futuras.

Validacin del Modelo De Regresin.Es necesario realizar algunas pruebas, que permitan juzgar ms objetivamente lo adecuado del modelo de regresin, una vez que se han obtenido los datos. Uno de ellos es el anlisis de los residuales:

Las pruebas que se hacen sobre el residual son: Para probar que se distribuye como una normal estndar, graficndolos en papel normal o estandarizndolos (se divide cada residual entre la raz cuadrada del CME), para verificar que el 95% de ellos caen en el intervalo de (-2, +2). Se pueden adicionalmente graficar como una serie de tiempo, contra los valores estimados de y, contra la variable independiente. Los tipos de grficas que pueden ocurrir se muestran a continuacin:

En la primera figura se muestra la situacin normal, el resto muestra situaciones no adecuadas. En la segunda se observa que la varianza no es constante, la tercera indica que se debe agregar un trmino adicional al modelo, y la ltima que la relacin no es lineal por lo que se debe usar un modelo de orden ms alto.

Ejercicio 2.5 calcular el intervalo de prediccin del siguiente problemaEjercicio: El ndice de resistencia a la rotura, expresado en kg, de un determinado tipo de cuerda sigue una distribucin Normal con desviacin tpica 15.6 kg. Con una muestra de 5 de estas cuerdas, seleccionadas al azar, se obtuvieron los siguientes ndices: 280, 240, 270, 285, 270. a) Obtenga un intervalo de confianza para la media del ndice de resistencia a la rotura de este tipo de cuerdas, utilizando un nivel de confianza del 95%. b) Si, con el mismo nivel de confianza, se desea obtener un error mximo en la estimacin de la media de 5 kg, ser suficiente con elegir una muestra de 30 cuerdas? (Propuesto (Propuesto para selectividad Andaluca 2005) (Propuesto para selectividad Andaluca 2005) selectividad Andaluca 2005)

solucin: X = ndice de resistencia a la rotura ; X N( ; 15,6) ; es decir = 15,6 ; n = tamao muestral = 5 La media muestral es x = 280 240 270 285 270 5 + + + + = 269 a) Nivel de confianza = 1 = 0,95 ; = 0,05; Intervalo de confianza I = ( x - E , x +E) , siendo E = z/2 . N Sabemos que (z/2) = p (Z < z) =/2) = 1- 2 = 1- 0, 05 2 = 0,975; usando la tabla de la distribucin Z N = (0,1), obtenemos z/2 = 1,96 Luego E = 1,96. 15, 6 5 = 13,674; I = (269 13,674; 269 + 13,674); I= (255,326 255,326 255,326; 282,674)

2.6 Anlisis de correlacinCoeficiente de Determinacin.Adicionalmente se puede utilizar el coeficiente de determinacin para medir el grado de ajuste del modelo, despus de probar que s es adecuado. Pero este coeficiente debe ser usado con precaucin ya que este tiende a 1, lo cual significa que el modelo es totalmente adecuado, con solo agregar trminos al modelo, lo cual no siempre significa que sea adecuado, ya que se puede haber incrementado el cuadrado medio del error. Este coeficiente se puede calcular mediante:

CORRELACIN.Si tenemos un problema de regresin lineal, pero ambas variables tanto la dependiente como las variables independientes son aleatorias, esto permite suponer que las observaciones de y x son variables aleatorias conjuntas de la distribucin f(x, y).La forma de determinar los parmetros del modelo son las mismas que se plantearon anteriormente usando el mtodo de mnimos cuadrados, considerando a y x como variables aleatorias normales independientes con media y varianza constante Adicionalmente a lo planteado en regresin lineal, es posible realizar inferencias sobre el coeficiente de correlacin r, cuyo estimador es r:

Este coeficiente mide la asociacin lineal entre y x, es decir, el cambio que y tiene por cambios en x. As mismo, se puede establecer una prueba de hiptesis para probar si el modelo no es adecuado, que equivale a probar si el coeficiente de correlacin es igual a cero.A continuacin se muestra la hiptesis, el estadstico de prueba y la zona crtica.

Ejercicio 2.6 anlisis de correlacinSe seleccion una muestra de 12 casas vendidas la semana pasada en una ciudad de EUA. Puede concluirse que a medida que aumenta la extensin del inmueble (indicada en miles de pies cuadrados), el precio de venta (en miles de dlares) aumenta tambin

2.7 Anlisis de regresin mltiple y correlacinEn la mayora de problemas de investigacin donde se aplica el anlisis de regresin, se necesita ms de una variable independiente en el modelo de regresin. La complejidad de la mayora de mecanismos cientficos es tal que, con la finalidad de predecir una respuesta importante, se requiere un modelo de regresin mltiple. Cuando este modelo es lineal en los coeficientes se denomina modelo de regresin lineal mltiple. La respuesta estimada se obtiene a partir de la ecuacin de regresin muestral

Donde cada coeficiente de regresin i es estimado por vi de los datos mustrales usando el mtodo de los mnimos cuadrados. Como en el caso de una sola variable independiente, es frecuente que el modelo de regresin lineal sea una representacin adecuada de una estructura ms complicada dentro de ciertos rangos de las variables independientes.Modelo de regresin lineal o bien,

Donde m y ei son los errores aleatorio y residual, respectivamente, asociados con la respuesta yi y con el valor ajustado .Como en el caso de la regresin lineal simple, se supone que los m son independientes, y estn distribuidos en forma idntica con media cero y varianza comn. Al usar el concepto de mnimos cuadrados para obtener los estimadores b0, b1,., bk, minimizamos la expresin Que se deriva con respecto de b0, b1,,bk, para igualar el resultado a cero y generar el conjunto de k+1 ecuaciones normales de estimacin para la regresin lineal mltiple.Modelo de regresin lineal con el empleo de matricesAl ajustar un modelo de regresin lineal mltiple, en particular cuando el nmero de variables es mayor que dos, el dominio de la teora de matrices facilita en forma considerable las manipulaciones matemticas. Suponga que el experimentador tiene k variables independientes x1, x2,,xk y n observaciones y1, y2,, yn, cada una de las cuales puede expresarse con la ecuacin

Este modelo representa en esencia a n ecuaciones que describen cmo se generan los valores de la respuesta durante el proceso cientfico. El resultado se reduce a la solucin b en (XX) b = XyObserve la naturaleza de la matriz X. Adems del elemento inicial, el i-simo rengln representa los valores de x que dan lugar a la respuesta yi. Queda:

Las ecuaciones normales pueden escribirse en forma matricial comoAb = gSi la matriz A es no singular, la solucin para los coeficientes de regresin se escribe como:b=A-1g=(XX)-1XyAs obtenemos la ecuacin de prediccin o regresin al resolver un conjunto de k + 1 ecuaciones con un nmero igual de incgnitas. Esto implica que se invierta la matriz XX de orden k + 1. Cuando se utiliza ms de una variable independiente en un anlisis de correlacin, se aplica el trmino anlisis de correlacin mltiple. En general cuando se ajusta un modelo estadstico a una nube de puntos, una medida de la bondad del ajuste es el coeficiente de determinacin, definido por

SSR es la suma de cuadrados de la regresin

SST es la suma de cuadrados total

SSE es la suma de cuadrados de los residuales

Sin embargo, el coeficiente mltiple de determinacin R2 tiene una gran desventaja: a mayor nmero de variables incluidas, R2 se incrementa. (R2 podra permanecer igual, pero suele incrementarse). La R2 ms grande se obtiene por el simple hecho de incluir todas las variables disponibles, pero la mejor ecuacin de regresin mltiple no necesariamente utiliza todas las variables disponibles. A causa de esta desventaja, la comparacin de diferentes ecuaciones de regresin mltiple se logra mejor con el coeficiente ajustado de determinacin, que es R2 ajustada para el nmero de variables y el tamao de la muestra.

N=tamao muestral, k=nmero de variables de prediccin o regresoras (x)El coeficiente ajustado de determinacin es el coeficiente mltiple de determinacin R2 modificado para justificar el nmero de variables y el tamao de la muestra.

2.8 Residuales y graficas de residualesComo se ha indicado anteriormente, el anlisis de los residuos es bsico para chequear si se verifican las hiptesis del modelo de regresin. Por ello, a continuacin se exponen las propiedades matemticas de los mismos. Considrese el modelo de regresin lineal mltiple

Los residuos mnimo-cuadrticos vienen dados por

o en forma matricial

Como = H, siendo H = X-1Xt la matriz de proyeccin ortogonal. Es fcil probar que la matriz H es impotente y simtrica. En base a esto = - = -H = =

= X + -HX -H = ,

Donde se utiliz que HX = X. Se calcula la matriz de varianzas de los residuos,

Por tanto, ei es una variable aleatoria con distribucin (9.9)

Donde hui es elvalor de influencia de i. que mide la distancia estadstica de i. a. Un residuo grande indica que la observacin est lejos del modelo estimado y, por tanto, la prediccin de esta observacin es mala. Las observaciones con residuos grandes se denominan observaciones atpicas o heterogneas (outliers). Como los residuos tienen varianza variable y son dimensionados (tienen las unidades de la variable Y), normalmente se tipifican

Los residuos tipificados siguen una distribucin normal estndar, pero como 2 es desconocido, se sustituye por su estimador, la varianza residual R2 y se obtienen los residuos estandarizados, definidos como (9.11)

Por la hiptesis de normalidad los residuos estandarizados siguen una distribucin t con n- grados de libertad. Como ya se indic en el estudio del modelo de regresin lineal simple, en el clculo de ri existe el problema de que hay una relacin de dependencia entre el numerador y el denominador de ri. Para evitar esto, con mayor esfuerzo computacional, se calcula para cada i, i = 1,..., n, el estimador R, la varianza residual del modelo de regresin obtenido a partir de la muestra en la que se ha eliminado la observacin. Ahora se definen losresiduos estudentizados como (9.12)

Los residuos estudentizados siguen una distribucin t con - grados de libertad. Si el tamao muestral es grande, los residuos estandarizados y los estudentizados son casi iguales y muy informativos, pudindose considerar grandes los residuos estandarizados tales que > 2. Con los residuos estandarizados o estudentizados se pueden construir los siguientes grficos de inters: El grfico de dispersin matricial, de todas las variables del modelo (respuesta y regresoras). En el estudio de un modelo de regresin lineal mltiple es el primer grfico que se debe observar. Proporciona una primera idea de la existencia de relacin lineal o de otro tipo entre la respuesta y las regresoras y tambin da una idea de posibles relaciones lineales entre las variables regresoras, lo que crea problemas de multicolinealidad.

El grfico de dispersin matricial para los datos del Ejemplo 7.1. Se representa en la Figura 9.2.

Figura 9.2. Grfico matricial con los datos del Ejemplo 7.1.El histograma de los residuos, que sirve para observar la existencia de normalidad, simetra y detectar observaciones atpicas.

El grfico probabilstico de normalidad (p-p y q -q) y el grfico de simetra, que permite contrastar la normalidad (simetra) de la distribucin de los residuos.

El grfico de residuos frente a las predicciones , que permite detectar diferentes problemas: Heterocedasticidad, la varianza no es constante y se deben de transformar los datos (la variable Y) o aplicar mnimos cuadrados ponderados.

Error en el anlisis, se ha realizado mal el ajuste y se verifica que los residuos negativos se corresponden con los valores pequeos i y los errores positivos se corresponden con los valores grandes de i, o al revs.

El modelo es inadecuado por falta de linealidad y se deben de transformar los datos o introducir nuevas variables que pueden ser cuadrados de las existentes o productos de las mismas. O bien se deben introducir nuevas variables explicativas.

Existencia de observaciones atpicas o puntos extremos.

Tener en cuenta que se debe utilizar el grfico de residuos frente a las predicciones en lugar del grfico de residuos frente a las observaciones porque las variables e estn correladas, mientras que las variables e no lo estn.

El grfico de residuos frente a una variable explicativa, permite deducir si la existencia de heterocedasticidad o la falta de linealidad en el modelo son debidas a la variable explicativa representada. Grficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la primera de ellas se observa que la relacin con la variable xj no es lineal y, probablemente, un ajuste cuadrtico sea adecuado, tambin se tendran dudas acerca de la homocedasticidad del modelo.

Figura 9.3. Grfico de residuos frente a variable regresora. Ajuste no lineal.

2.8 ejemplo de grafica de residuales

Grfico de residuales parciales para

Grfico de residuales parciales para2.9 Interpretacin del intervalo de confianzaUna de las inferencias ms tiles que se pueden hacer respecto de la calidad de la respuesta predicha y correspondiente a los valores x10, x20,xk0 es el intervalo de confianza sobre la respuesta media y| x10, x20,xk0Un intervalo de confianza para la respuesta media es:

Donde t/2 es un valor de la distribucin t con n-k-1 grados de libertadEs frecuente que la cantidad se denomina error estndar de la prediccin.Igual que en el caso de la regresin lineal simple, se necesita distinguir con claridad entre el intervalo de confianza sobre la respuesta media y el intervalo de prediccin sobre una respuesta observada. Esta ltima proporciona una frontera dentro de la cual puede decirse que caer una respuesta nueva observada, con el grado preseleccionado de certidumbre.Un intervalo de prediccin para una sola respuesta y0 est dado por:

Donde t/2 es un valor de la distribucin t con n-k-1 grados de libertadPara la ecuacin de regresin lineal un estimador insesgado de 2 est dado por el error o media cuadrtica residual

Ejercicio 2.91- Los tiempos de reaccin, en mili segundos, de 17 sujetos frente a una matriz de 15 estmulos fueron los siguientes: 448, 460, 514, 488, 592, 490, 507, 513, 492, 534, 523, 452, 464, 562, 584, 507, 461Suponiendo que el tiempo de reaccin se distribuye Normalmente, determine un intervalo de confianza para la media a un nivel de confianza del 95%.Solucin:Mediante los clculos bsicos obtenemos que la media muestral vale 505,35 y la desviacin tpica 42,54.Buscando en las tablas de la t de Student con 16 grados de libertad, obtenemos que el valor que deja por debajo una probabilidad de 0,975 es 2,12Sustituyendo estos valores en la expresin del intervalo de confianza de la media tenemos:(505,35 - 2,12 42,54 / 4 ,, 505,35 + 2,12 42,54 / 4)Operando(482,80 ,, 527,90)

2.10 Uso del coeficiente de determinacin mltipleCon frecuencia hemos observado la relacin que existe entre una variable y otra (correlacin bivarible) lo cual nos permite, en algunos casos, predecir los valores de una variable a partir de los valores observados en la otra. Por ejemplo: se ha encontrado que las calificaciones que un estudiante obtiene en una prueba de ingreso a la universidad se correlacionan con las calificaciones que el alumno obtiene en su programa acadmico; siendo as se podra intentar predecir la calificacin final del estudiante.Pero el mundo de la educacin es muy complejo y difcilmente podemos atribuir a una sola variable los resultados en otra; la realidad nos obliga a reconocer que para predecir con mayor precisin las calificaciones finales del estudiante, es necesario observar e integrar en la prediccin otras variables que tambin puedan estar relacionadas.Un esfuerzo de este tipo implica la observacin de ms de dos variables al mismo tiempo y en el caso de una observacin correlacional, requiere de un procedimiento que permita pesar el grado de impacto que cada una de las variables observadas puede tener sobre los resultados de la prediccin. Por ejemplo, sabemos que el precio de la colegiatura en una institucin est determinado por varias variables: costo de los servicios pblicos, renta del local, gastos indirectos, tamao y caractersticas del personal que labora en la institucin, etc. Tambin sabemos que estas variables antes mencionadas no tienen la misma importancia al momento de determinar el costo de la colegiatura, por lo que diramos que hay que ponderar el impacto que cada una tendra sobre el costo de la colegiatura.En el procedimiento de correlacin mltiple se procura construir la mejor combinacin del peso que cada variable simple aporta en la medicin de la variable que se observa. Y esta mejor combinacin sin duda tendr una mayor correlacin con la variable observada que la correlacin que pueda tener cualquiera de las variables simples de manera independiente.Como podemos suponer, el coeficiente beta puede ayudarnos a comprender la importancia de una variable en la forma como se comporta el variable criterio (principal); que a mayor valor beta mayor impacto tiene en la forma como varia el valor de la variable criterio o viceversa. Pero si deseamos conocer la contribucin (importancia) relativa de las variables predictores en la variabilidad criterio, lo podemos determinar elevando al cuadrado los respectivos coeficientes beta. Esto no dice nada respecto a la contribucin absoluta de cada variable predictora, slo presenta su importancia relativa. Por ejemplo: Siendo el coeficiente beta de la variable edad .53 mientras que el coeficiente beta de la variable nivel acadmico es de .22 al correlacionarlas con la variable criterio gradacin del lente, se puede elevar al cuadrado ambos coeficientes obtenindose para edad una beta cuadrado de.2809 y para nivel acadmico .0484 lo que significa que la edad contribuye cinco veces ms a la variabilidad de la variable gradacin que lo que contribuye la variable nivel acadmico, dentro de una investigacin en particular.De la manera como en las correlaciones simples, al elevar al cuadrado el coeficiente de correlacin entre dos variables, se determina la proporcin de la varianza en una de las variables atribuible o predecible a partir de otra, el valor R elevado al cuadrado R2 representa la proporcin de la varianza en la variable criterio que puede ser predicha a partir la varianza conjunta de las variables predictoras.En fin, el concepto de regresin mltiple es una ampliacin del concepto de regresin simple entre dos variables. En lugar de usarse una variable predictora para estimar los valores en una variable criterio, se hace uso de varias variables predictoras. Un ejemplo puede ser predecir el promedio de las calificaciones en la universidad a partir de variables predictoras como promedio en el colegio secundario, puntaje obtenido en una prueba estandarizada de aptitud, ingreso familiar, resultado obtenido en algunos exmenes de ingreso a la universidad, etc. Esto conduce a una ecuacin cuya forma general es:=a+b1X1+b2X2+b3X3+...+bkXk.Donde y es el valor predicho del variable criterio y los valores de a y los coeficientes b sern determinados a partir de los datos ofrecidos por la muestra. Esta ecuacin no representa una lnea como en el caso de la regresin simple sino que representa diversos planos de un espacio multi-dimensional. Los valores de a y b representan la mejor solucin en valores a fin de que la suma de los cuadrados de la diferencia entre la y observada y la y predicha -S (y-y)2- sea lo mnimo.Ejemplo del 2.10El coeficiente de determinacino coeficiente de correlacin mltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresin y la variabilidad total, esto es:

Algunas otras formas de presentar el coeficiente de determinacin son:

Algunas de las equivalencias anteriores pueden verse a partir de la demostracin de.

Elcoeficiente de determinacin mltiple, es una generalizacin del valor dedefinida en la leccin de R cuadradodefinida para una lnea recta.UtilidadSe utiliza para medir la reduccin en la variabilidad total dedebido a la inclusin de las variables regresoras. Un valor grande deno necesariamente implica que el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de, ya sea que las variables contribuyan o no al modelo. Es posible que modelos con valor degrande sean malos en la prediccin o estimacin.OBSERVACIONES1. mide la correlacin entreyy.2. Si existe error puro, es imposible quealcance el valor de. La nica manera en que podra dar, sera que se tuviera un perfecto ajuste de los datos en el cual, lo cual es un improbable evento en la prctica,3. Si, esto es si(suponiendo que el modeloha sido ajustado), entonces.4. esUna medida de la utilidad de los trminos en el modelo diferentes deLa estadstica R2 ajustadaComo alternativa al uso decomo medida de la idoneidad de un modelo, es comn que se informe el coeficiente de determinacin mltiple ajustado, denotado por. Esta dado por

Se observa quetoma en cuenta ("ajusta por") tanto el tamao de la muestracomo el nmero de parmetros del modelo.Siempre es menor quey lo que es ms importante, no puede "forzarse" haciacon slo agregar ms y ms variables independientes al modelo. Por ello, algunos analistas prefieren el valor ms conservador decuando deben elegir una medida de la idoneidad de un modelo.Tenga en cuenta que:La estadsticayson medidas descriptivas, y no debemos depender nicamente de sus valores para decidir si un modelo es til o no para predecir la variable respuestaEjemploPara los datos del ejemplo se tiene que

Lo cual significa que elde la variabilidad total es explicado por el modelo. Ahora el valor dees

Unidad 3 series de tiempo

3.1 Nmeros ndicesLos nmeros ndices son una forma importante de resumir el cambio de que experimentan las variables econmicas durante cierto perodo. Tales nmeros indican el cambio relativo en precio, cantidad o valor en algn punto anterior en el tiempo (perodo base) y usualmente, el perodo actual, por ejemplo, cuando el ama de casa observa que una barra de pan cuesta el doble que hace diez aos, en realidad est utilizando un tipo de nmero ndice.Cuando solamente est comprendido un solo producto o mercanca se llama ndice simple, en tanto que una comparacin que comprende un grupo de elementos recibe el nombre de ndice compuesto. Por ejemplo, adems de la barra de pan, un comprador puede razonablemente incluir en la comparacin, precios de artculos tales como leche, mantequilla, carne molida, lechuga y frijoles. Algunos de estos artculos pueden haber registrado aumentos considerables en el precio; otros, cambios muy pequeos y algunos otros incluso pueden haber reducido de precio. El objeto de utilizar un ndice compuesto sera el de resumir los cambios totales de precio en lo referente a esta serie de productos comestibles. Los negocios y las industrias tambin enfrentan situaciones en las que se requiere de alguna forma de tratar dichos cambios. Asimismo, se experimentan cambios en los precios y cantidades de las materias primas, productos semielaborados, refacciones, suministros, mano de obra, combustibles y ventas. Los nmeros ndices les ofrecen una forma de medir tales cambios.En sentido estricto, no es necesario que los nmeros ndices se refieran nicamente a comparaciones entre diferentes perodos; tambin se pueden utilizar para comparaciones dentro del mismo marco de referencia temporal. Por ejemplo, la comparacin de tasas de desercin entre las escuelas de una ciudad, o bien, una comparacin de las tasas de criminalidad, costos de vivienda, o gastos de alimentacin entre diferentes ciudades comprenden comparaciones espaciales o en el espacio. Existen 3clasificaciones de los nmeros ndices utilizados en economa y en administracin: ndices de precio, de cantidad y de valor, tambin estn el ndice de precios al consumidor, el de Dow-Jones, el de precios al mayoreo y el de produccin industrial.

Los nmeros ndices simples que utilizan un perodo base comn reciben el nombre de relativos de base fija. Otro tipo de nmero ndice, llamado relativo de enlace concentra la atencin en los cambios anuales.Los nmeros ndices compuestos se utilizan para indicar el cambio relativo en precio, cantidad o valor de un grupo de elementos o mercancas. Por ejemplo, usted podra preguntarse si, en general, los precios de los comestibles se han elevado, pero otros se han reducido. Qu puede decirse en trminos globales? Para saber la respuesta es necesario examinar una combinacin de artculos en lugar de considerarlos de manera aislada. Se consideran dos mtodos para obtener nmeros ndices compuestos:1.Mtodo de agregados ponderados.- se quiere saber hasta qu grado los cambios en valor se deben a cambios en el precio, sin tener que considerar cambios en cantidades2.Mtodo del promedio ponderado de relativos.- el trabajar con datos publicados, algunas veces no se dispone de los precios y cantidades originales, en vez de ello, se proporcionan los relativos, que son los que se utilizan.Los nmeros ndices son intentos burdos para captar y apreciar el cambio econmico. Existen peligros inherentes al utilizar e interpretar dichos indicadores. Por ejemplo, los cambios en calidad y la frecuente introduccin de nuevos productos (calculadoras, televisores a color, minicomputadoras, etc.) alteran las comparaciones efectuadas en perodos prolongados.Ejemplo 3.1 Supongamos que deseamos estudiar la evolucin del precio del kilogramo de azcar entre dos aos consecutivos. 1985 y 1986. En el primer ao, 1985, el precio del kilogramos (kg) de azcar era de 75 pesetas; en el ao siguiente, 1986, el precio fue de 97 pesetas.Evidentemente, la medida ms sencilla de la variacin en el precio sera hallar la diferencia entre los dos datos, con lo que se obtendra que el precio ha subido:95 - 75 = 22Pero un dato de este tipo nos proporcionara muy poca informacin. Por qu? Porque lo importante es comparar la subida con el valor inicial. Es decir, no tendra el mismo significado que el precio hubiese pasado de 75 a 97 pesetas, que si lo hubiese hecho de 1 a 23 pesetas. En uno y otros casos, la subida es la misma, 22 pesetas, pero en el segundo es mucho ms importante, puesto que se parte de una valor inicial ms bajo.

Lo lgico es, entonces examinar la variacin en proporcin al valor inicial, y, por ello, la forma usual de elaborar un ndice consiste en asignar al valor de la magnitud en el perodo inicial un valor ficticio de 100 y hallar los correspondientes a cada perodo sucesivo, mediante una regla de tres. En el ejemplo anterior, si igualamos a 100 el dato de 1985, el dato de 1986 equivaldra a:100De donde:X = 97. 100 = 129,375Es decir, que lo que vala 100 en el ao 1985, vale 129,3 en 1986. Anlogamente, si el precio hubiera pasado de 1 a 23, el ndice sera:

I = 23 . 100 = 2.300Es decir, lo que costaba 100 en el perodo inicial, cuesta ahora 2.300.De esta manera, se consigue plasmar la idea de que la variacin ha sido ms importante en el segundo caso, aunque la variacin en pesetas sea la misma.

3.2 Importancia del pronstico en los negociosLos pronsticos son predicciones de lo que puede suceder o esperar, son premisas o suposiciones bsicas en que se basan la planeacin y la toma de decisiones.Algunos escritores consideran que los modelos de pronsticos son tcnicas de la ciencia administrativa por varias razones: muchos mtodos de pronsticos se apoyan en tcnicas matemticas complejas; el pronstico se necesita como elemento de otros modelos y algunos pronsticos son una ayuda esencial en la planeacin y solucin de problemas. En realidad, los pronsticos no slo se utilizan como elemento de los modelos de solucin de problemas mediante la ciencia administrativa, sino que establecen adems las premisas a partir de las cuales se elaboran los planes y controles.Dos grandes tipos de pronsticos se emplean como premisas de planeacin:1) Los pronsticos de eventos que no sern influenciados por la organizacin.2) Los pronsticos de eventos que sern influenciados al menos en parte, por el comportamiento de la organizacin.Ciertas variables bsicas de carcter econmico y social no son afectadas por el comportamiento de la organizacin. As, los gerentes no necesitan tener en cuenta las posibles acciones de su empresa cuando efectan predicciones sobre dichas variables. En cambio, investigarn los principales indicadores de nivel gerencial, entre ellos las estadsticas de comercio en la recopilacin de la informacin que necesitan. Por ejemplo: Si los administradores quieren decidir si deben ampliar los servicios de su universidad, las estadsticas federales les darn alguna idea de las tendencias de inscripcin universitaria a largo plazo.Los pronsticos en que repercute el comportamiento de una organizacin son ms difciles, pues requieren suposiciones acerca de sus acciones y tambin suposiciones referentes a eventos que escapan a su control. Por ejemplo: Un pronstico de ventas comienza como un objetivo de la compaa. En el proceso de planeacin, los anlisis de los gerentes sobre las acciones previstas de la compaa y sobre las respuestas probables de los competidores pueden indicar que los objetivos de ventas no se alcanzarn si no se modifican los programas y polticas actuales.Dada la importancia de predecir las futuras tendencias econmicas y de ventas, hay dos mtodos fundamentales que se utilizan en estas reas. (Pronstico cualitativo y pronstico cuantitativo).Pronstico cualitativo. Este mtodo es apropiado cuando los datos confiables son escasos o difciles de emplear. Por ejemplo: Cuando se introduce un nuevo producto o tecnologa, la experiencia pasada no constituye un criterio seguro para estimar cules sern los efectos a corto plazo. Este pronstico implica el uso de juicios subjetivos y esquemas de clasificacin para transformar la informacin cualitativa en estimaciones cuantitativas.

Pronstico cuantitativo. Este hace una extrapolacin del pasado o se utiliza cuando se cuenta con suficientes datos estadsticos o confiables para especificar las relaciones existentes entre variables fundamentales.El pronstico basado en la extrapolacin, como un anlisis de series de tiempo, recurre a las tendencias pasadas o presentes a fin de proyectar los acontecimientos futuros. As, los registros de ventas en los ltimos aos podran servir para proyectar el patrn de ventas para el prximo ao.El pronstico cualitativo no exige datos numricos ni estadsticos en la misma forma que el cuantitativo. Este ltimo puede aplicarse si se cuenta con informacin sobre el pasado, si se le puede especificar numricamente y si es posible suponer que continuar el patrn del pasado.Los elementos del pronstico cualitativo son sobre todo, resultado del pensamiento intuitivo, el juicio, y la acumulacin de conocimientos.Los pronsticos son una forma de predecir lo que ocurrir en un futuro cuando tenemos ciertos datos y cierta tendencia, as mismo sus aplicaciones no slo son administrativas; es decir, no slo son utilizados para conocer las ventas futuras de una empresa.Existen innumerables usos de los pronsticos como son en la ciencia y tecnologa, en la salud, en el desarrollo de nuevos productos, en los estudios de mercado, en la economa, etc.Un principio fundamental en las empresas es la racionalizacin de los recursos, hoy en da ninguna empresa se puede dar el lujo de despilfarrar el dinero y mucho menos cuando se enfrenta a una coyuntura como la actual. Las empresas que reaccionan ms rpido son las que ms oportunidades tienen de salir a flote y perdurar. Cuando vivimos pocas de abundancia, la racionalizacin de recursos y las identificaciones de puntos de optimizacin no son la prioridad. Al contrario, cuando nos enfrentamos a tiempo de vacas flacas, la optimizacin de los recursos se convierte en una obligacin y prcticamente en un factor de subsistencia.

Ejemplo del 3.2Un pronstico acertado y una adecuada planeacin controlar los costos de las cantidades a comprar y producir, tambin contribuye a realizar una mejor planeacin de la distribucin.

Sin embargo hay que tener en cuenta que el pronstico por si solo no es la clave del xito pues de nada sirve tener el pronstico ms exacto si este no es comunicado oportunamente a las reas operativas para la toma de decisiones sobre cmo van a utilizar los recursos con que cuentan.

Luego la velocidad con la que se generan los pronsticos y el proceso de comunicacin en la empresa sern actores principales en el logro de los objetivos establecidos.Importancia del pronstico en los negociosLos pronsticos son predicciones de lo que puede suceder o esperar, son premisas o suposiciones bsicas en que se basan la planeacin y la toma de decisiones.Pronstico cualitativo.Este mtodo es apropiado cuando los datos confiables son escasos o difciles de emplear. Por ejemplo: Cuando se introduce un nuevo producto o tecnologa, la experiencia pasada no constituye un criterio seguro para estimar cules sern los efectos a corto plazo. Pronstico cuantitativo. Este hace una extrapolacin del pasado o se utiliza cuando se cuenta con suficientes datos estadsticos o confiables para especificar las relaciones existentes entre variables fundamentales.Clasificacin respecto al tiempo1. Pronsticos a corto plazo: En las empresas modernas, este tipo de pronstico se efecta cada mes o menos, y su tiempo de planeacin tiene vigencia de un ao.

3.3 Enfoque clsico a la tendencia, el ciclo y la estacionalidad.Una serie cronolgica es un conjunto de observaciones (ordenado en trminos de tiempo). Algunos ejemplos de series cronolgicas seran aspectos tales como los registros de precipitacin pluvial diaria, las ventas semanales, el producto nacional bruto trimestral, mediciones de la temperatura y presin sangunea de un enfermo llevadas a cabo en un hospital cada hora, las pruebas de electrocardiograma y electroencefalograma realizadas como parte de un examen fsico de rutina y el control por radar del lanzamiento de una nave espacial.El objeto de analizar tales datos es determinar si se presentan ciertos patrones o pautas no aleatorias. Algunas veces se trata de descubrir patrones no aleatorios que se puedan utilizar para predecir el futuro. Por ejemplo, los pronsticos de ventas es un caso en el que se analizan los datos del pasado, con la esperanza de encontrar algo que sea til para predecir la demanda futura. El trmino tendencia se refiere a un desplazamiento de los datos de modo uniforme y suave, a largo plazo, hacia arriba o hacia abajo. Las tendencias se pueden relacionar con aspectos tales como cambios en la poblacin (quiz influidos por el incremento de personas jubiladas o la disminucin en la tasa de natalidad), el establecimiento o abolicin del servicio militar, cambios en las preferencias del consumidor, aumentos en el nfasis sobre la conservacin de energa, etc. Existe un patrn cclico cuando las fluctuaciones muestran cierto grado de regularidad. Los economistas han encontrado modelos cclicos en la demanda de productos duraderos y de tipo agrcola, inventarios de las empresas, precios en el mercado de valores, as como en la prosperidad. Asimismo, existen pruebas de que las manchas solares, la lluvia y ciertas poblaciones animales presentan patrones cclicos. Los ciclos tienden a variar en trminos de regularidad, siendo algunos completamente regulares y otros un poco ms inconstantes. Aun entre los expertos existe poco acuerdo sobre las causas o remedios para estos ciclos.Las variaciones estacionales son cclicas y de plazo relativamente corto (un ao o menos), las cules a menudo se relacionan con el cambio de estaciones (clima) o con las vacaciones. Por ejemplo, hay modelos estacionales en las ventas de artculos deportivos que se utilizan principalmente en una estacin, como esques, trineos, lanchas, equipo de pesca, etc. Las tarjetas de felicitacin, los libros de texto, la ropa, los automviles y el equipo de jardinera tambin presentan patrones estacionales en sus ventas. Las variaciones irregulares se componen de cosas tales como desastres, huelgas y todo lo restante despus de haber considerado los primeros tres factores.En el modelo clsico, el mtodo consiste en descomponer una serie cronolgica en cada uno de estos componentes bsicos de variacin, analizar cada componente en forma separada y combinar despus las series a fin de describir las variaciones observadas en la variable en estudio. El proceso de descomposicin comprende la separacin sistemtica de cada componente a partir de los datos, empezando con la tendenciaExisten dos variaciones del modelo clsico. Una recibe el nombre de multiplicativo y la otra, de aditivo. La primera de stas considera a una serie cronolgica como si fuera la resultante del producto de los componentes individuales, en tanto que la ltima la considera como si fuera la resultante de la suma de los componentes individuales. De este modo, el modelo multiplicativo tiene la forma:Y=T x C x E x IEl modo aditivo adquiere la forma:Y=T + C + E + IT= componente de la tendenciaC= componente cclicoE= componente estacionalI= componente irregularEn ambos modelos, la cifra de la tendencia es una cantidad real (por ejemplo, 20000 bushel (unidad de medida de capacidad para mercanca slida en los pases anglosajones se utiliza en el comercio de granos, harinas y otros)). En el modelo aditivo C, E, e I, tambin son cantidades reales, pero en el modelo multiplicativo C, E, e I se expresan como porcentajes de la tendencia. El criterio fundamental que se debe seguir en el caso de una situacin dada es utilizar el modelo que mejor se ajuste a los datos.Ejemplo del 3.3El enfoque clsico del modelado de series de tiempo, est basado en el hecho de que unModelo general para cualquier serie estacionaria no determinstica es el auto regresivo promedio Mvil de orden Ejemplos del 3.3Movimientos estacionales

MOVIMIENTOS CCLICOS

3.4 Anlisis de tendencia y medicin de la variacin.La tendencia secular se refiere a desplazamientos de los datos a largo plazo hacia arriba o hacia abajo. Existen dos objetivos bsicos para aislar el componente de la tendencia de una serie cronolgica. Uno es identificar la tendencia y utilizarla, por ejemplo al hacer una prediccin o pronstico. El otro consiste en eliminar la tendencia, de manera que se puedan estudiar los otros componentes de una serie cronolgica. As, en trminos de predicciones, la investigacin de la tendencia puede proporcionar cierta idea con respecto a la direccin a largo plazo de una serie de tiempo.Para la mayora de las empresas, la direccin de largo plazo de la demanda es de importancia vital, adems, tambin las tendencias en variables tales como el crecimiento de la poblacin, el dficit gubernamental, los impuestos, climas y aspectos similares son fuerte de inters y merecen ser analizadasAislamiento de la tendencia mediante el anlisis de regresinLa tendencia puede ser lineal o curvilnea. Generalmente el crecimiento de un producto o industria sigue una pauta curvilnea, sin embargo, hay muchos ejemplos en los que un modelo lineal es adecuadoEn este caso se considera a la variable x (tiempo) como independiente e Y (valores observados) como dependiente, y las llamamos t y Yt respectivamente

3.5 Anlisis, medicin y ajustes en las variaciones cclicas y estacionales.Las variaciones cclicas son de tipo peridico y presentan ms de un ao de duracin. Comnmente, tales variaciones no se pueden apartar de las de naturaleza irregular, por lo que se analizarn juntas. Para aislar la variaciones cclicas, las otras variaciones (de tendencia y estacionales) se deben separar de los datos de las series cronolgicas. Las variaciones estacionales se suprimen en forma efectiva utilizando cifras anuales (ya que las variaciones estacionales se definen como ciclos de un ao o menos duracin, las cifras anuales no mostrarn fluctuaciones estacionales), o bien (al analizar cifras mensuales), utilizando un promedio mvil de doce meses.Para eliminar la tendencia se requiere obtener una recta (o curva) de tendencia. Esto se puede realizar utilizando una ecuacin de regresin o un promedio mvil de largo plazo. La eliminacin de la tendencia a partir de los datos depende de si se utiliza el modelo aditivo o el multiplicativo. En el primero, cada observacin se resta del valor correspondiente de la tendencia. El resultado es una serie de desviaciones con respecto a sta. El mtodo para eliminar la tendencia en los datos cuando se utiliza un modelo multiplicativo, dada una ecuacin de regresin lineal para los datos, los datos originales estn divididos entre el valor de regresin con respecto al tiempo y multiplicados despus por 100. El resultado es que cada observacin se expresa como un porcentaje de la tendencia. Si los ciclos presentan irregularidades, se podra utilizar un promedio mvil para alisarlos, a fin de obtener una mejor imagen de las variaciones cclicas.Las fluctuaciones estacionales son variaciones que se repiten regularmente en un perodo de un ao. Existen dos objetivos generales para aislar el componente estacional de una serie cronolgica. El primero es eliminar ese patrn, a fin de estudiar las fluctuaciones cclicas. La segunda finalidad es identificar factores estacionales, de manera que se puedan considerar en la toma de decisiones. Por ejemplo, si una compaa productora se da cuenta de que existen fluctuaciones estacionales en la demanda de un determinado producto, es posible que desee ajustar sus presupuestos, programas de produccin, mano de obra e inventarios, teniendo esto en mente. Por lo general, tales ajustes resultan muy costosos. Por ejemplo, la compaa puede buscar un producto complementario el cual presente variaciones estacionales en su demanda opuestas a las del mismo. La demanda de esques para nieve y para agua puede presentar dichos patrones. De manera similar, la demanda de equipo de calefaccin, as como la de equipo para aire acondicionado pueden tener patrones estacionales opuestos. Para probar y encarar los patrones estacionales, es necesario identificar y determinar primero la extensin de estas variaciones. La tcnica ms difundida para el anlisis estacional es el mtodo de la razn al promedio mvil.Este mtodo produce ndices semanales, mensuales o trimestrales, que establecen observaciones de series cronolgicas, en trminos de un porcentaje del total anual (es decir, como relativos estacionales). Por ejemplo si el mes de junio tiene un ndice estacional de 0.80, esto indica que las ventas medias en junio son 80% del promedio mensual. Si un trimestre presenta un ndice estacional de 2, esto quiere decir que las ventas para un trimestre son aproximadamente el doble de la cantidad promedio para todos los trimestres.Mtodo:1.El primer paso es obtener un promedio mvil anual, a fin de suprimir las variaciones estacionales2.El siguiente paso consiste en dividir los datos originales entre los valores correspondientes del promedio mvil. En efecto, esto elimina las variaciones de tendencia y cclicas de los datos, dejando slo las variaciones estacionales, irregulares y aleatorias.3.A continuacin se agrupan los relativos de perodos semejantes y se obtiene la razn estacional promedio para cada perodo.4.Por ltimo, las cifras resultantes se estandarizan. Esto se lleva a cabo mediante el ajuste de los ndices relativos, de manera que se sumen al nmero de perodos.

3.6 Tendencia irregularEl componente aleatorio mide la variabilidad de las series de tiempo despus de que se retiran los otros componentes. Contabiliza la variabilidad aleatoria en una serie de tiempo ocasionada por factores imprevistos y no ocurrentes. La mayora de los componentes irregulares se conforman de variabilidad aleatoria. Sin embargo ciertos sucesos a veces impredecibles como huelgas, cambios de clima (sequas, inundaciones o terremotos), elecciones, conflictos armados o la aprobacin de asuntos legislativos, pueden causar irregularidad en una variable. Movimientos irregulares o al azar o ruido estadstico. Si bien pueden ser generados por factores de tipo econmico, generalmente sus efectos producen variaciones que solo duran un corto intervalo de tiempo. Aunque debe reconocerse que en ocasiones sus efectos sobre el comportamiento de una serie pueden ser tan intensos que fcilmente podran dar lugar a un nuevo ciclo o a otros movimientos. Un claro ejemplo de esto es el efecto del shock de precios de agosto de 1990 sobre el comportamiento de la inflacin. Al analizar una serie de tiempo es necesario, entonces, tener en consideracin el comportamiento de cada uno de estos componentes. Para ello el criterio ms lgico a seguir es aislarlos secuencialmente partiendo de la serie original para luego analizarlos de manera individual. Si bien esto supone la utilizacin de mtodos estadsticos adecuados, que ms adelante veremos, la mejor forma de apreciarlos es a travs de su observacin visual. a) Detectar Outlier: se refiere a puntos de la serie que se escapan de lo normal. Un outliers es una observacin de la serie que corresponde a un comportamiento anormal del fenmeno (sin incidencias futuras) o a un error de medicin. Se debe determinar desde fuera si un punto dado es outlier o no. Si se concluye que lo es, se debe omitir o reemplazar por otro valor antes de analizar la serie.

Los dos puntos enmarcados en un crculo parecen corresponder a un comportamiento anormal de la serie. Al investigar estos dos puntos se vio que correspondan a dos das de paro, lo que naturalmente afect la produccin en esos das. El problema fue solucionado eliminando las observaciones e interpolando.

3.7 Pronsticos basados en factores de tendencia y estacionales.La ecuacin de tendencia lineal constituye un punto de partida para pronsticos a largo plazo de valores anuales. Sin embargo, una consideracin particularmente importante en los pronsticos a largo plazo es el componente cclico de las series de tiempo. No existe un mtodo estndar para pronosticar el componente cclico con base nicamente en valores histricos de series de tiempo, aunque ciertos indicadores econmicos con tiles para prever puntos de cambio de ciclo.Para pronsticos a corto plazo, un mtodo posible es desestacionalizar el valor observado ms reciente y multiplicarlo despus por el ndice estacional del periodo de pronstico. Se parte del supuesto de que la nica diferencia entre los 2 periodos ser la atribuible a la influencia estacional. Otro mtodo consiste emplear el valor de tendencia proyectado como base del pronstico y ajustarlo despus respecto del componente estacional. Cuando la ecuacin de la lnea de tendencia se basa en valores anuales, primero se debe reducir la ecuacin para expresarla en trminos de meses (o trimestres). La base de las modificaciones anteriores no es evidente si se pasa por alto el hecho de que los valores de tendencia no se asocian con puntos temporales, sino con periodos. Es a causa de esta consideracin que deben reducirse los tres elementos de la ecuacin de tendencia anual (b, b1 y X)

3.8 Pronsticos, ciclos e indicadores econmicos. Los pronsticos basados en los componentes de tendencia y estacional de una serie de tiempo son apenas el punto de partida de los pronsticos econmicos. La primera razn es la necesidad de considerar el probable efecto del componente cclico durante el periodo de pronstico. La segunda es la importancia de identificar los factores causales especficos que han influido en las variables de series de tiempo.Pronsticos a corto plazo. Suele suponerse que el efecto del componente cclico es el mismo que se ha incluido en los valores recientes de la serie de tiempo. Cuando se trata de periodo ms prolongados, o incluso de periodos cortos en pocas de inestabilidad econmica, es importante identificarlos puntos de cambio de ciclo de la economa nacional. Las variaciones cclicas asociadas con un producto en particular pueden coincidir o no con el ciclo econmico general.

EJEMPLO. Histricamente, las ventas industriales de automviles han coincidido estrechamente con el ciclo econmico general de las economas nacionales. Por el contrario, las ventas de autopartes han sido comnmente opuestas, en cuanto al factor cclico, respecto del ciclo econmico general. El Instituto Nacional de Investigacin Econmica (NBER) de Estados Unidos ha identificado y dado a conocer series de tiempo histricamente indicadoras de expansiones y recesiones cclicas respecto del ciclo econmico general. Indicadores lder: han llegado habitualmente a puntos de cambio de ciclo antes del cambio correspondiente en la actividad econmica general.-Las horas semanales promedio laboradas en manufactura.-El valor de nuevos pedidos de bienes de consumo y materiales-ndice comn de precios de las acciones. Indicadores coincidentes: est compuesto por series de tiempo cuyos puntos de cambio han coincidido usualmente con el ciclo econmico general.-La tasa de empleo-El ndice de produccin industrial. Indicadores rezagados: es el integrado por series de tiempo cuyas cumbres y valles suelen retardarse en comparacin con las del ciclo econmico general.-Los inventarios de manufactura y comerciales y la tasa preferencial promedio que cobran los bancos. Adems de considerar el efecto de las fluctuaciones cclicas y de pronosticar tales fluctuaciones, tambin: deben estudiarse las variables causales especficas que han influido histricamente en los valores de series de tiempo.- Los anlisis de regresin y correlacin son particularmente aplicables a tales estudios* Relacin entre estrategia de precios y volumen de ventas.reas que demandan especial atencin.Los anlisis histricosLas posibles implicaciones de nuevos productos y de cambios en el mbito de la comercializacin.

3.9 Tcnica y uso de Promedios mviles y suavizacin exponencial en las organizaciones.El alisamiento exponencial es un mtodo que utiliza una ecuacin de un promedio mvil, que alisa las variaciones al azar de los datos de series cronolgicas. La finalidad del alisamiento es obtener una imagen ms clara de cualquier patrn no aleatorio que pudiera existir en los datos. Una vez ms, es de suponerse que los datos estn compuestos por variaciones de tendencia, cclicas y estacionales, as como por fluctuaciones al azar.En trminos generales, cuando se utiliza el mtodo del promedio mvil se debe tener en consideracin la pregunta de Cuntos perodos se deben incluir en dicho promedio? Cuanto mayor sea el nmero de perodos (datos) incluidos en un promedio, menos posibilidad habr de que cada nuevo dato altere dicho promedio, mientras que cuanto menor sea el nmero de perodos incluidos, mayor ser la probabilidad de que el promedio resulte afectado por los nuevos datos. En gran medida, el grado ptimo de alisamiento depende de la magnitud de las fluctuaciones al azar. Si stas son bastante grandes, se necesitar un considerable alisamiento, para reducir su impacto; si las fluctuaciones aleatorias son menores, se requerir un alisamiento ms leve. La tcnica del promedio mvil, ponderado exponencialmente, es un tanto superior a los otros mtodos de promedio mvil, dad la facilidad de ajustar el grado de alisamiento.Una segunda consideracin de cierta importancia es la cantidad de datos requeridos para apoyar el mtodo del promedio mvil. Por ejemplo, si ste incluye las ltimas 100 observaciones, esto da lugar a una considerable dificultad para almacenar y mantener los datos, incluso si los clculos se realizan por computadora. Una vez ms, el alisamiento exponencial es superior a los otros mtodos, dado que elimina la necesidad de almacenar datos, al condensarlos en una sola cifra. La ecuacin para la determinacin del alisamiento exponencial es:

En la cual Vs=nuevo valor alisadoVs-1=valor anterior alisadoD=siguiente punto de los datos=factor de alisamientoMedia MvilConsiste simplemente en tomar el promedio aritmtico de los ltimos n perodos. El valor de n se elige en funcin a la influencia que queramos que tenga la historia ms antigua en la prediccin de los valores futuros. Un valor de n muy chico, har que los pronsticos sigan ms de cerca a los ltimos valores reales, mientras que un valor de n ms grande, se traduce en una curva ms amortiguada aunque, por el mismo motivo, tambin de una menor velocidad de cambio.Se utiliza si no hay tendencia o si sta es escasa. Se suele utilizar para alisar la curva, facilitando una lectura general de los datos.Casos particulares: Si slo considerramos 1 perodo previo para el clculo de la media mvil, estaramos utilizando la Estimacin Simple.Media Mvil PonderadaSe utiliza cuando se presenta una tendencia. Los datos anteriores pierden importancia relativa. Las ponderaciones se basan en la intuicin. Ante cambios importantes de la demanda, puede seguir siendo muy lenta la respuesta.Casos particulares: Si le asignramos el mismo peso (factor de ponderacin) a cada uno de los n perodos elegidos, estaramos utilizando la Media Mvil.Suavizacin ExponencialEs un caso especial de pronstico de media mvil ponderada, donde ahora los factores de ponderacin disminuyen exponencialmente, dndole ms peso a los perodos ms recientes.Se necesita una constante de alisado, que toma valores entre 0 y 1, eligindola de forma subjetiva. Ventaja: necesita una cantidad reducida de datos histricos.

3.10 Ventajas y Desventajas del anlisis de las series de tiempoVentajas: Rpidos a utilizar una vez el modelo desarrollado. La toma de datos no implica, en general, gastos adicionales Almacenados en el sistema de informacin (ej. ventas de los meses pasados)Fcilmente accesibles (ej. ndices econmicos).Desventajas No consideran los factores nuevos o inesperados Requieren un histrico de la demanda y/o otras variables pertinentes

Unidad 4 Estadstica no paramtrica.

4.1 Escalas de Medicin1. NOMINAL Son variables numricas cuyos valores representan una categora o identifican un grupo de pertenencia. Este tipo de variables slo nos permite establecer relaciones de igualdad/desigualdad entre los elementos de la variable. La asignacin de los valores se realiza en forma aleatoria por lo que NO cuenta con un orden lgico. Un ejemplo de este tipo de variables es el Gnero ya que nosotros podemos asignarles un valor a los hombres y otro diferente a las mujeres y por ms machistas o feministas que seamos no podramos establecer que uno es mayor que el otro.2. ORDINAL Son variables numricas cuyos valores representan una categora o identifican un grupo de pertenencia contando con un orden lgico. Este tipo de variables nos permite establecer relaciones de igualdad/desigualdad y a su vez, podemos identificar si una categora es mayor o menor que otra. Un ejemplo de variable ordinal es el nivel de educacin, ya que se puede establecer que una persona con ttulo de Postgrado tiene un nivel de educacin superior al de una persona con ttulo de bachiller. En las variables ordinales no se puede determinar la distancia entre sus categoras, ya que no es cuantificable o medible.3. INTERVALO Son variables numricas cuyos valores representan magnitudes y la distancia entre los nmeros de su escala es igual. Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicacin y la divisin no son realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.4. RAZN Las variables de razn poseen las mismas caractersticas de las variables de intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se puede realizar cualquier operacin Aritmtica (Suma, Resta, Multiplicacin y Divisin) y Lgica (Comparacin y ordenamiento). Este tipo de variables permiten el nivel ms alto de medicin. Las variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de escala de medida.Debido a la similitud existente entre las escalas de intervalo y de razn, SPSS las ha reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala. Las variables de escala son para SPSS todas aquellas variables cuyos valores representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo esto en cuenta discutiremos a continuacin los diferentes procedimientos estadsticos que se pueden utilizar de acuerdo al tipo de medida de cada variable.B. Anlisis Descriptivo de acuerdo al nivel de Medida No todos los procedimientos estadsticos son realmente tiles para la totalidad de los niveles de medida. Cada uno de los tipos de medida posee ciertas caractersticas, las cuales debemos tener en cuenta en el momento de realizar un anlisis descriptivo. En la tabla [5-2], encontrars algunos de los procedimientos que resultan ventajosos en los anlisis descriptivos de los diferentes niveles de medida. Es necesario aclarar que esta tabla es slo una muestra de las medidas que se pueden emplear; en algunos textos de estadstica aparecen tablas ms amplias y detalladas de los procedimientos.

Ejemplo del 4.1

4.2 Mtodos estadsticos paramtricos contra no paramtricos.

La complejidad aumenta con cada una de las escalas de medicin. Desde la simpleza de la escala nominal hasta el refinamiento de la escala de razn.La mayora de pruebas estadsticas requieren medidas en escala de intervalo o razn para ser aplicadas (pruebas paramtricas basadas en la distribucin normal), aunque existen pruebas diseadas para aplicarse a medidas en escala nominal u ordinal (pruebas no paramtricas o de libre distribucin).

Las pruebas paramtricas tienen requisitos acerca de la naturaleza o forma de las poblaciones implicadas; las pruebas no paramtricas no requieren que las muestras provengan de poblaciones con distribuciones normales o con cualquier otro tipo particular de distribucin. En consecuencia, las pruebas de hiptesis no paramtricas suelen llamarse pruebas de distribucin libre.Ventajas de los mtodos no paramtricos1. Los mtodos no paramtricos pueden aplicarse a una amplia variedad de situaciones puesto que no tienen los requisitos ms estrictos de los mtodos paramtricos correspondientes. En particular, los mtodos no paramtricos no requieren de poblaciones distribuidas normalmente.2. A diferencia de los mtodos paramtricos, los mtodos no paramtricos a menudo pueden aplicarse a datos categricos, como el gnero de quienes responden una encuesta.3. Los mtodos no paramtricos, por lo regular, implican clculos ms sencillos que los mtodos paramtricos correspondientes y, por lo tanto, son ms fciles de comprender y aplicar. (Sin embargo, como la tecnologa ha simplificado los clculos, es probable que la facilidad de los clculos no sea un factor tan importante).Desventajas de los mtodos no paramtricos1. Los mtodos no paramtricos tienden a desperdiciar informacin porque los datos numricos exactos suelen reducirse a una forma cualitativa. Por ejemplo, en la prueba del signo no paramtrica las prdidas de peso de las personas sometidas a una dieta se registran simplemente como signos negativos; las magnitudes reales de las prdidas de peso se ignoran.2. Las pruebas no paramtricas no son tan eficientes como las pruebas paramtricas, de manera que con una prueba no paramtrica generalmente necesitamos evidencia ms fuerte (como una muestra ms grande o diferencias mayores) para rechazar una hiptesis nula.

4.3 Prueba de rachas para aleatoriedad.Esta prueba se basa en datos mustrales que tienen dos caractersticas y analiza rachas de esas caractersticas para determinar si las rachas parecen ser el resultado de algn proceso aleatorio, o si las rachas sugieren que el orden de los datos no es aleatorio.Una racha es una secuencia de datos que tienen la misma caracterstica; la secuencia es precedida y seguida por datos con una caracterstica diferente o por ningn dato en absoluto.La prueba de rachas utiliza el nmero de rachas en una secuencia de datos mustrales para probar la aleatoriedad del orden de los datos.El principio fundamental de la prueba de rachas puede establecerse brevemente como sigue:Rechace la aleatoriedad si el nmero de rachas es muy bajo o muy altoRequisitos1. Los datos mustrales estn acomodados de acuerdo con algn esquema de orden, por ejemplo, el orden en el que se obtuvieron los valores mustrales2. Cada valor de los datos se puede categorizar en una de dos categoras separadas (como hombre/mujer).Notacinn1=nmero de elementos en la secuencia que tienen una caracterstica particular (la caracterstica elegida para n1 es arbitraria).n2=nmero de elementos en la secuencia que tienen la otra caracterstica.G=nmero de rachasEstadstico de PruebaPara muestras pequeas y = 0.05: Si n1 20 y n2 20 y el nivel de significancia es = 0.05, el estadstico de prueba es el nmero de rachas G. Los valores crticos se encuentran en la tabla de valores crticos para el nmero de rachas G.Rechace la aleatoriedad si el nmero de rachas G es: Menor o igual al valor crtico ms pequeo encontrado en dicha tabla Mayor o igual al valor crtico ms grande encontrado en dicha tablaPara muestras grandes o 0.05: Si n1 > 20 o n2 > 20 o 0.05, utilice el estadstico de prueba y los valores crticos siguientes:

Estadstico de prueba:

Donde

Y

Valores crticos de z, se utiliza la tabla de distribucin normalDatos numricos: aleatoriedad por arriba o por debajo de la media o de la medianaSe puede probar la aleatoriedad por la forma como los datos numricos fluctan por encima o por debajo de una media o mediana. Los economistas utilizan la prueba para detectar aleatoriedad por arriba y por debajo de la media cuando tratan de identificar tendencias o ciclos. Un patrn cclico producira una secuencia que cambia sistemticamente, de manera que el nmero de rachas tendera a ser grande.

Una prueba no paramtrica de aleatoriedad es la teora de rachas.Para comprender que es una racha considrese una secuencia compuesta de dos smbolos a y b como:a a b b bab ba a a a ab b ba a a a (10)Ejemplo, al lanzar una moneda a podra representarse caras y b cruces.Una racha se define como un conjunto de smbolos idnticos (o relacionados) contenido entre dos smbolos o no smbolos diferentes (como el inicio o el fin de la secuencia) si la secuencia (10) se lee de izquierda a derecha la primera racha, indicada por una barra vertical consiste de dos a de manera similar la segunda racha consiste de 3 b la tercera racha consiste de una a, etctera. En total son siete rachas.Parece claro que hay cierta relacin entre la aleatoriedad y el nmero de rachas. Entonces para la secuencia ababababababExiste un patrn cclico, en el que se va de a a b, nuevamente a a etctera, el cual difcilmente se considerara aleatorio. En tal caso, habra demasiadas racha ( de hecho, el mximo nmero posible de letras a y b dadas).

4.4 Una muestra: prueba de signos.Consiste en convertir valores de datos en signos positivos y negativos, y luego hacer una prueba para ver si hay una cantidad desproporcionadamente mayor de uno u otro signo.Es una prueba no paramtrica (de distribucin libre) que utiliza signos positivos y negativos para probar diferentes aseveraciones, incluyendo:1. Aseveraciones que implican datos mustrales apareados2. Aseveraciones que implican datos nominales3. Aseveraciones acerca de la mediana de una sola poblacinLa idea bsica que subyace en la prueba del signo es el anlisis de las frecuencias de los signos positivos y negativos para determinar si son significativamente diferentes. Por ejemplo, suponga que probamos un tratamiento diseado para incrementar la probabilidad de que un beb sea nia. Si se trata a 100 mujeres y 51 de ellas tienen nias, el sentido comn sugiere que no existe evidencia suficiente para afirmar que el tratamiento es efectivo, puesto que 51 nias entre 100 bebs no son significativasRequisitos1. Los datos mustrales se seleccionaron aleatoriamente.2. No existe el requisito de que los datos mustrales provengan de una poblacin con una distribucin particular, como una distribucin normal.Notacinx= el nmero de veces que ocurre el signo menos frecuenten= el nmero total de signos positivos y negativos combinadosEstadstico de pruebaPara n 25: x (el nmero de veces que ocurre el signo menos frecuente)Para n > 25: Valores crticos1. Para n 25, los valores crticos x se encuentran en la tabla valores crticos para la prueba del signo2. Par n > 25, los valores crticos z se encuentran en la tabla de distribucin normal.

4.5 Una muestra: prueba Wilcoxon.Esta prueba puede utilizarse para probar la aseveracin de que una muestra proviene de una poblacin con una mediana especfica. El procedimiento que se utiliza:1. Para cada dato calcule las diferencias restando el valor de la mediana hipottica de cada valor.2. Ignore los signos de las diferencias, luego acomode las diferencias de la menor a la mayor y reemplcelas por el valor del rango correspondiente. Cuando las diferencias tengan el mismo valor numrico, asgneles la media de los rangos implicados en el empate.3. Agregue a cada rango el signo de la diferencia de la que provino. 4. Calcule la suma de los valores absolutos de los rangos negativos. Tambin calcule la suma de los rangos positivos.5. Permita que T sea la ms pequea de las dos sumas calculadas en el paso anterior.6. Permita que n sea el nmero de pares de datos para los que la diferencia no es 07. Determine el estadstico de prueba y los valores crticos con base en el tamao muestral.8. Cuando plantee la conclusin, rehace la hiptesis nula si los datos mustrales le llevan a un estadstico de prueba que se ubica en la regin crtica, esto es, cuando el estadstico de prueba sea menor o igual que el valor crtico (s). De otra forma no rechace la hiptesis nula.Estadstico de pruebaSi n 30, el valor crtico T se encuentra en la tabla de valores crticos de T para la prueba de rangos con signo WilcoxonSi n > 30, el estadstico de prueba es Valores crticosSi n 30, el valor crtico T se encuentra en la tabla de valores crticos de T para la prueba de rangos con signo de WilcoxonSi n > 30, los valores crticos z se encuentra en la tabla de distribucin normal.

4.6 Dos muestras: prueba de Mann-Whitney.La prueba de la suma de rangos de Wilcoxon es una prueba no paramtrica que utiliza rangos de datos mustrales de dos poblaciones independientes. Se utiliza para probar hiptesis nula de que las dos muestras independientes