unidad 12 - analisis e interpretacion de datos en la tesis
DESCRIPTION
Unidad 12 - Analisis e Interpretacion de Datos en La TesisTRANSCRIPT
ANÁLISIS DE DATOS
Elaborado por:
Dr. Alfonso Ramón Chung Pinzás
En convenio con:
ANÁLISIS DE DATOS
• Es el estudio de los datos obtenidos a
fin de dar respuesta al problema
planteado.
• Asimismo importante para aceptar o
rechazar la hipótesis planteada.
ANÁLISIS DE DATOS
• Si bien el tema es muy amplio, se
darán indicaciones generales y se
señalarán los textos de consulta
OBJETIVOS DEL ANÁLISIS DE DATOS
• Los autores coinciden en los siguientes
objetivos
OBJETIVOS DEL ANÁLISIS DE DATOS
• Hallar que hay en los datos
• Conocer que tanto varían los datos
• Conocer como están distribuidos los datos
• Conocer que relación existe entre los
datos
• Hacer estimaciones y predicciones
• Describir las diferencias entre grupos y
variables
• Demostrar causalidad
ESCALAS DE MEDICIÓN
• Escala Nominal
• Escala Ordinal
• Escala de Intervalo
• Escala Proporción o
Razón
• Por el valor concreto
ESCALA NOMINAL
• Es la más simple de todas las escalas
• No hace mayor análisis, ni establece
relaciones etc.
• Separa a los datos en clases las cuales
son mutuamente excluyentes.
• Por ejemplo: fumadores y no fumadores,
operarios y operarias etc.
ESCALA ORDINAL
• Es un nivel superior a la nominal.
• Ordinal=Orden, es decir ordena los datos
según un determinado criterio.
• El criterio puede ser de mayor a menor o a
la inversa.
• Es decir según su posición.
• Ejemplo: Muy fumador, medianamente
fumador, poco fumador, no fumador
ESCALA DE INTERVALO
• Permiten también ordenar los datos, pero
adicionalmente se pueden comparar las
distancias entre dos de ellos.
• Estas distancias de preferencia son iguales.
• No considera el cero, es decir la ausencia de la
variable.
• No se pueden establecer proporciones ya que
su función es ordenar, nombrar y mostrar la
igualdad en la magnitud
• Ejemplo: la diferencia entre 25°C y 26°c es la
misma que 45°C y 46°C
ESCALA DE PROPORCIÓN
• Permite realizar las operaciones
anteriores con la escala de intervalo.
• Además permite operaciones adicionales
como la división.
• Considera el cero como ausencia de
variable.
• Ejemplo: el peso de A es 100 kg. Por lo
tanto es el doble de B que pesa 50 kg., el
ingreso del ingeniero de planta es 2000
soles/mes
POR EL VALOR CONCRETO
• A diferencia de los anteriores, es recoger
los valores de cada individuo de la
muestra o población sin agruparlos.
• Es conveniente recoger los datos de esta
forma al inicio para luego poder
transformarlo a una de las escalas
anteriormente indicadas
DETERMINACIÓN DE ESCALAS
• La escala se determina según el
estudio a realizar.
• Lo recomendable es tomar
mediciones con una escala superior
para luego poder transformar a una
inferior si es el caso.
• Sin embargo, no se puede
transformar de una inferior a una
superior.
TRANSFORMACIONES
ESCALA
Por el valor concreto
Proporcional
De intervalo
Ordinal
Nominal
TRANSFORMACIONES
TRANSFORMACIONES
ESCALA
Por el valor concreto
Proporcional
De intervalo
Ordinal
Nominal
TRANSFORMACIONES
EN ESTE SENTIDO
NO SE PUEDEN
REALIZAR
PROCEDIMIENTO PARA EL ANÁLISIS DE
DATOS
• Primeramente revisar y depurar los datos
• Luego se describen las características de las
variables de la muestra o población.
• A continuación se realizan las pruebas
adecuadas para la verificación o negación de
las hipótesis respectivas.
• En la sección de resultados van solamente los
hallazgos de la investigación.
• En la sección discusión, se discuten, comentan
etc.
DISTRIBUCIÓN DE FRECUENCIAS
• Es un procedimiento muy útil para el
ordenamiento de los datos.
• Consta de las siguientes partes:
• Frecuencia absoluta (Fa): número de
veces que se repiten las observaciones en
una determinada categoría
• Frecuencia relativa (Fr): Es la Fa entre el
número de individuos.
DISTRIBUCIÓN DE FRECUENCIAS
• Porcentaje (P): Es el tanto porciento de
la Fa con respecto al total de las
observaciones.
• Fa acumulada: Es la cantidad acumulada
de Fa
• Fr acumulada: Es el acumulado de Fr
• Porcentaje Acumulado: Es la
acumulación de los porcentajes P
TIPOS DE ANÁLISIS
• Descriptivo: son aquellos procedimientos
que caracterizan, analizan y describen las
características de los datos estudiados de
una muestra o población.
• Inferencial: son aquellos procedimientos
que a partir de los datos de la muestra,
hacen estimaciones o inducciones hacia la
población.
ANÁLISIS DESCRIPTIVO
• El análisis descriptivo se clasifica en:
Medidas de tendencia central, de
dispersión y otros.
MEDIDAS DE TENDENCIA CENTRAL
• Estas medidas
muestran el valor
alrededor del cual se
sitúan el resto de
variables.
• Las medidas de
tendencia central más
usadas son: media
aritmética, mediana y
moda.
MEDIA ARITMÉTICA
• Determina el promedio de las
observaciones y se calcula de la
siguiente forma:
• Xi: Es la observación i
• n: Es el total de observaciones
LA MEDIANA
• Es aquel valor que divide a la distribución
de datos en dos parte iguales (es decir
50% a 50%).
• También se le conoce como percentil 50.
• Para su determinación, se ordenan los
datos de menor a mayor y si la cantidad
es impar se toma el valor central.
• Cuando la cantidad es par, se toman los
dos valores centrales y de divide entre 2
LA MODA
• Es el valor que más se repite en una
distribución.
• Cuando hay un solo valor que se repite,
se dice que es una distribución unimodal.
• Cuando hay más de uno por ejemplo dos
o tres, se dice bimodal, trimodal etc.
MEDIDAS DE DISPERSIÓN O VARIABILIDAD
• Son aquellas que indican las
variaciones o dispersiones de los
datos obtenidos.
• Por lo tanto permiten conocer la
distribución de una variable.
• Las medidas usadas son: Rango o
amplitud, varianza, desviación
estándar o típica y coeficiente de
variación.
RANGO O AMPLITUD
• Es la diferencia entre el máximo y
mínimo valor de la distribución, es
decir la distancia entre los extremos.
• Esta medida ofrece problemas porque
pueden existir valores atípicos.
• Además no realiza mayor análisis.
VARIANZA
• Indica la distancia de cada observación
con respecto a la media. Los valores
extremos afectan esta medida
• Se calcula con la siguiente formula:
DESVIACIÓN ESTÁNDAR
• Expresa también la variabilidad de los
datos, pero en las unidades originales.
• Cuanto más pequeño sea el valor el grupo
será más homogéneo y cuanto más
grande más heterogéneo.
• Se calcula mediante la raíz cuadrada
positiva de la varianza.
• Al igual que en el caso anterior, se ve
afectada por valores extremos
COEFICIENTE DE VARIACIÓN
• Expresa el porcentaje de la desviación
estándar con respecto a la media.
• Se calcula con la siguiente fórmula:
OTRAS MEDIDAS DE DESCRIPCIÓN
• Otras medidas de descripción que
también son muy utilizadas son: medidas
de posición y de forma.
MEDIDAS DE POSICIÓN
• Cuartiles: dividen a la distribución en
tres partes, Q1 deja debajo a una
cuarta parte y el resto encima, Q2 deja
la mitad por debajo y por encima, Q3
deja debajo las 3 cuartas partes y
encima una cuarta parte.
• Deciles y centiles, dividen en diez y
cien partes respectivamente.
MEDIDAS DE POSICIÓN
• Percentiles: Es el valor que deja
encima y debajo un porcentaje de
observaciones definidas, por ejemplo
el percentil 50 deja la mitad tanto por
arriba como por debajo, el percentil 30
deja 30% por debajo y 70% por
encima
MEDIDAS DE FORMA
• Son aquellas que proporcionan la forma
en que se distribuyen los datos.
• Estas medidas buscan verificar si la forma
de distribución se asemeja a la
distribución normal o curva de Gauss.
• Las medidas usadas son: Asimetria y
Kurtosis (o Curtosis)
COEFICIENTE DE ASIMETRIA
• Mide la falta de simetría con respecto a la
curva normal.
• Cuando el valor es cero es simétrica a la
curva normal, un valor negativo indica
sesgo a la izquierda y un valor positivo a
la derecha.
COEFICIENTE DE ASIMETRIA
• Las formulas de calculo son:
CA= (promedio-moda) / desv. std.
CA= 3 x (promedio-mediana) / desv. std
CA= (Q3 – 2Q2 + Q1) / (Q3 – Q1)
CARACTERÍSTICAS DE LA CURVA
NORMAL
KURTOSIS
• También conocida como Curtosis
• Verifica si la forma es estrecha y alta o
ancha y plana con respecto a la curva
normal.
• En el primer caso se dice que es
Leptocúrtica (kurtosis >3) y en el segundo
caso Platicúrtica (kurtosis <3) , cuando la
curva se asemeja a la normal de dice que
es Mesocúrtica (kurtosis=3)
KURTOSIS
• La Kurtosis se calcula en función al
momento 4 (m4) y momento 2 (m2).
• Su formula es: Kurtosis= m4 / m22
• Para mayor información sobre el calculo
de los momentos consultar el libro:
“Estadística general con énfasis en
muestreo” de José Calzada Benza
ANÁLISIS INFERENCIAL
• Se aplica cuando se utiliza una muestra
en vez de estudiar a la población.
• Esto se debe a que muchas veces la
población es muy grande y sería costoso
estudiarla.
• El análisis inferencial permite caracterizar
a la población y también comprobar las
hipótesis de la investigación, todo esto
mediante los resultados de la muestra.
ERROR ESTANDAR
• Si bien una muestra proporciona
información sobre la población, esta
información esta sujeta a error.
• El error estándar dime la variabilidad entre
las medias de las diferentes muestras.
• Este cálculo se puede hacer considerando
la desviación estándar o el porcentaje
ERROR ESTANDAR
• Las formulas de calculo son:
INTERVALO DE CONFIANZA
• Calcula el rango en el cual se ubicará la media
de la población.
• Esta calculo esta asociado a una probabilidad.
• Generalmente la probabilidad más utilizada es
95% cuyo valor Z=1,96
• Por lo tanto el intervalo de confianza indica que
con una probabilidad de 95% la media estará
entre el intervalo de confianza
INTERVALO DE CONFIANZA
• Fórmulas de cálculo:
HIPÓTESIS ESTADÍSTICAS
• Son suposiciones que se hacen sobre los
parámetros de las poblaciones
• Se distinguen dos tipos: Hipótesis Nula
(H0) e Hipótesis Alternativa (H1 o HA) .
• H0 indica que no hay diferencias entre los
resultados encontrados y si las hubieran,
se deben al azar.
• H1 indica que si hay diferencias y se
acepta cuando se rechaza H0
HIPÓTESIS ESTADÍSTICAS
• H0 : u=u0 , u1=u2
• H0 : σ=σ0, σ1=σ2
• H1 : u≠u0 , u1≠u2 , lo que implica que
pueden ser mayor o menor.
• H1 : σ ≠ σ0, σ1 ≠ σ2 lo que implica que
pueden ser mayor o menor.
ERRORES
PRUEBAS DE HIPÓTESIS
• Cuando se tiene una hipótesis alternativa
la prueba es de una cola, cuando se
tienen dos hipótesis alternativas se dice
que es de dos colas
• Las pruebas pueden ser paramétricas o
no paramétricas.
• Las paramétricas son más confiables pero
suponen que la muestra sigue una
distribución normal
PRUEBAS DE HIPÓTESIS
• Si se analiza la relación entre dos
variables se llama bivariable y si es de
más se dice multivariable.
• Si hay mediciones en momentos
diferentes, se dice que son medidas
apareadas, en caso contrario datos
independientes.
PRUEBAS PARAMÉTRICAS
(BIVARIABLE)
• Prueba t de Student
• Análisis de varianza unidireccional
(ANOVA oneway)
• Análisis de varianza factorial (ANOVA)
• Análisis de Covarianza
• Coeficiente de correlación de Pearson
PRUEBAS NO PARAMÉTRICAS
• Prueba del Chi Cuadrado
• U de Mann-Withney
• Rangos de Wilcoxon
• La prueba de McNemar
• Anova de Krustal Wallis
• Coeficiente de correlación por rangos
ordenados de Spearman y Kendall
• Q de Cochram
CONSULTAS
• Icart, M., et al. (2000). Elaboración y
Presentación de un Proyecto de
Investigación y una Tesina. Barcelona:
Universidad de Barcelona.
Muchas gracias!