anÁlisis de los datos.pptx

30
ANÁLISIS DE LOS DATOS Gladys Salazar Rodríguez

Upload: gladys-salazar

Post on 03-Oct-2015

220 views

Category:

Documents


2 download

TRANSCRIPT

ANLISIS DE LOS DATOS

ANLISIS DE LOS DATOSGladys Salazar RodrguezCriterios para constitucin del corpusVariablesAtributo que varia de persona a persona o de objeto a objetoSiempre en funcin de la hiptesis inicialDefinicin operativaExplicitar los criterios en los que se bas para asignarles un valorDecisinEtapa de desarrolloNocinEsencial para la organizacin, presentacin y tratamiento.Tipos de variablesIndependiente: La que manupula el investigador.Dependiente: En la que se mide el efecto del cambio de las otras variables.

Continuas: Pueden tener cualquier valor.Discontinuas: Slo pueden tomar ciertos criterios.Importantes para la seleccin de test en el tratamiento estadsticoNominales: tienen valor cualitativo, no de grado.Ordinales: pueden organizarse en grados, en escalas de mayor o menor.

De intervalo: No hay cero absoluto. Los intervalos entre los puntos de una escala pueden considerarse equivalentes.De relacin: Se da un cero absoluto. Su intervalos tambin pueden considerarse equivalentes.

Importantes para la seleccin de test en el tratamiento estadsticoTablas de datostiles para ir anotando los valores encontrados para cada variable.Las tablas depender del nmero y de las caractersticas de las variables.Con ellas se forma una primera idea de las tendencias de resultados.Son el primer paso para la presentacin de grficos y tratamiento estadstico posterior.

Presentacin de datosSera muy difcil obtener una visin global de las tendencias que se desprenden de las observaciones.Los grficos son tiles en la presentacin de resultados.Corresponde al investigador seleccionar el tipo de representacin grfica que se adece a sus resultados.Diagrama de barras

Valores para la variableNmero de casosHistograma: Permite una primera impresin visual sobre la distribucin de los datos

Valores para la variableNmero de casosPolgonos de frecuencia: valores de variables mediante puntos.La altura del punto indica o bien la frecuencia de aparicin o bien el valor de una determinada variable.Alternativa para representar resultados de experimentos relacionados con la percepcin.

Campos de dispersin (scatters): Se sitan los valores de dos variables en un eje de coordenadas, de manera que pueda observarse tanto la dispersin de los datos como la relacin entre variables.

Diagramas de porciones: los valores de las variables se reparten sobre una superficie circular.Cada porcin representa una de las variables, y cada parte que ocupan es proporcional a su frecuencia de aparicin.Tratamiento estadsticoMedidas de tendencia centralIndicadores de dispersinDistribucin normalDistribucin normalCaracterizada por su simtrica del punto ms alto.

En los datos reales nunca se encontrar una distribucin perfectamente normal.En cuanto ms valores recojamos, ms cerca se estar de la distribucin normal.El nmero de casos tendra que ser igual o mayor a 30 para que se acera suficientemente.Con menos de 10 casos para una variable encontraremos que se comporta al azar.Medidas de la tendencia centralMediana: valor que se encuentra en el centro de la distribucin.

Moda: valor con frecuencia de aparicin ms alta.

Media: valor ms empleado para indicar la tendencia central de un conjunto de datos. Suma de todos los dividida por el nmero de casos.Indicadores de distribucinEn el anlisis de variables pueden considerarse las mximas y las mnimas.Ambos indicadores se ven afectados por la presencia de valores atpicos en el grupo.

Desviacin tpica: ndice que cuanta la variacin de cada caso respecto a la media.Se calcula primero la diferencia de cada valor con respecto a la media. Se elevan los valores al cuadrado y se suman. Se divide por el nmero de casos menos uno y se realiza la raz cuadrada.En cuanto ms elevado sea, mayor es la dispersin respecto a la media de cada uno de los valores.

Sesgo: simetra respecto del centro.

Si los valores estn centrados a la izquierda, es positivo; si estn centrados a la derecha, es negativo.

En el sesgo positivo la media es ms baja que la mediana, que a la vez es ms baja que la moda. En el sesgo negativo es de manera contraria.Curtosis: agrupacin alrededor del valor central.

Alta: los valores se agrupan de forma muy pronunciada alrededor de la media.

Baja: indica que los valores se reparte.Test estadsticosDemostracin de la falsedad de hiptesis nulas.

T-test de Student: Compara las medidas de dos grupos de datos y nos da una probabilidad de que pertenezcan al mismo grupo o de que estn extrados de dos grupos diferentes.El resultado se presenta en forma decimal y se convierte en porcentaje multiplicndolo por 100 (0.05 = 5%).

Cuando la probabilidad de obtener un determinado resultado si los datos pertenecen al mismo conjunto es alta, no se puede falsar la hiptesis nula.Nivel de significacin: probabilidad mnima de la cual podemos considerar que la hiptesis nula queda falseada.Qu porcentaje se considera mnimo para pensar que nos hallamos frente a dos grupos diferentes de datos.

El resultado del test estadstico es una herramienta que nos permite falsar la hiptesis nula en la que basamos el experimento.Puede ser que necesitemos comparar los datos de ms de un grupo, para esto se utilizar el anlisis de varianza: trata de determinar si la variabilidad de los datos entre los diferentes grupos es mayor que en la variabilidad en el interior de cada grupo.

La seleccin del test depende de varios factores (tipo de variables, nmero de casos, tamao de los grupos y normalidad de la distribucin).Correlacin de las variablesDos variables se encuentran en correlacin cuando aumentan o disminuyen de manera paralela.

Correlacin positiva: a valores altos de una variable corresponden valores altos de otra.

Correlacin negativa: los valores de una variable aumentan mientras los de la otra disminuyen.

Coeficiente de correlacin: cifra que oscila entre los valores +1 y -1. Un valor de +1 pertenece a correlaciones positiva; el valor de 0 cuando no existe ninguna correlacin; y -1 cuando la correlacin es negativa.Otros tipos de anlisisEl anlisis de correlacin de variables es til cuando se estudian dos variables.

Habitualmente cuando encontramos una combinacin de variables independientes y dependientes, y queremos estudiar su interaccin se habla de anlisis multivariante.Regresin mltiple: permite evaluar la influencia simultnea de varias variables independientes sobre una variable dependiente.

Anlisis discriminante: se utiliza cuando en la variable dependiente tenemos ms de una categora y queremos averiguar cmo se relaciona esta divisin con nuestras variables independiente.Anlisis factorial: constituye una herramienta para obtener informacin sobre las caractersticas subyacentes a un conjunto de datos, cuando ste es muy grande y no es factible alguno de los anlisis anteriores.

Todas las variables se consideran independientes y se buscan la conexiones entre ellas.Escalado multidimensional: se orienta hacia la representacin grfica de las diferencias entre los distintos elementos basada en un clculo de la disimilaridad que puede establecerse entre ellos.

Anlisis de componentes principales: ayuda a distinguir las tendencias y agrupaciones en los resultados reduciendo el nmero de dimensiones examinadas e indicando en qu medida cada una de ellas contribuye a la variabilidad del grupo de datos.