Estadística I
Ejercicios del Tema 3
Curso 2017/18
Problemas
1. Tenemos la siguiente distribución conjunta de frecuencias (relativas) correspondiente a observaciones bivariantes (X,Y ),donde X = número de hijos e Y = renta mensual (en euros).
# de hijos \ renta: 0-1000 1000-2000 2000-3000 3000-5000
0 0,15 0,05 0,03 0,021 0,10 0,20 0,10 0,052 0,05 0,10 0,05 0,033 0,02 0,03 0,02 0,00
a) Obtén las distribuciones de frecuencias marginales.
b) Obtén la distribución condicionada de Y |X ≥ 2.Empleando las mercas de clase, calcula la renta media condicionada.
c) Obtén la distribución condicionada de X|1000 < Y < 2000.
d) Obtén las distribuciones condicionadas del Número de hijos a cada uno de los niveles de renta. Represéntalas de formaadecuada y explica cómo es la relación entre el número de hijos y el nivel de renta de una familia en caso de que la haya.
2. Se quiere analizar si hay relación entre el número de compras que se pagan con tarjeta de crédito y el número de tarjetasde las que se dispone. Para ello, se selecciona una muestra de 300 personas y se les pregunta por dichas cuestiones. En lasiguiente tabla se recogen los resultados obtenidos:
Núm. compras por semana0 1 2 3 4
1 24 39 27 18 9Núm. tarjetas 2 9 24 24 27 21
3 3 9 18 24 24
a) Halla la distribución marginal del número de compras semanales que han sido pagadas con trajeta de crédito. ¾Cuál esel número medio y la desviación típica del número de compras semanales pagadas con tarjeta de crédito?
b) Obtén la distribución del número de tarjetas de crédito que poseen las personas de dicho estudio. ¾Cuál es el númeromás frecuente de tarjetas de crédito que posee una de estas personas?
c) Calcula la distribución del número de compras semanales pagadas con tarjetas de crédito que realizan las personas queposeen tres tarjetas. ¾Cuál es la media de esta distribución?
d) Obtén la media del número de compras semanales pagadas con tarjeta de credito condicionada al número de tarjetasde crédito que se poseen. Compara las medias condicionadas obtenidas.
3. Se dispone de la siguiente información sobre ventas de automóviles en 12 concesionarios: Comunidad Autónoma en la quese encuentra ubicado el concesionario (CA), precio medio de venta de cada modelo de automóvil en 2008 (en miles de euros)y cambio en el volumen de ventas del año 2007 al año 2008 en tanto por ciento.
1
CA Precio Medio Cambio
Madrid 19.5 −28,3Castilla y León 16.1 −25,1Madrid 22.3 −34,2Castilla-La Mancha 15.0 −23,7Madrid 16.6 −22,9Madrid 23.9 −32,3Castilla-La Mancha 17.7 −19,2Castilla-La Mancha 13.0 −14,9Madrid 16.2 −24,6Madrid 18.6 −28,3Castilla y León 14.1 −16,5Castilla-La Mancha 18.3 −21,0
Se quiere analizar si el cambio (en porcentaje) en el volumen de ventas del año 2007 al año 2008 guarda relación con laComunidad Autónoma en la que se encuentra ubicado el concesionario. Para ello:
a) Construye la tabla de contingencia para las variables �CA� y �Cambio� empleando cuatro grupos para los valores de lasegunda variable (empezando en −34,5 y de amplitud 5)
b) Obtén las distribuciones de frecuencias condicionadas a cada valor de la variable �CA� de la variable �Cambio�.
c) Obtén la distribución marginal de la variable �Cambio�.
d) Compara las distribuciones obtenidas en los apartados anteriores y analiza si hay o no relación.
También se quiere analizar la posible relación entre el precio medio de venta de cada modelo de automóvil en 2008 y elcambio en el volumen de ventas:
e) Representa adecuadamente los datos y calcula la medida que consideres oportuna para analizar dicha relación.
Cálculos intermedios: Siendo X =Precio Medio e Y =Cambio:
12∑i=1
xi = 211,3
12∑i=1
yi = −291,012∑i=1
xiyi = −5301,6212∑i=1
x2i = 3832,91
12∑i=1
y2i = 7439,88
4. Se dispone de la siguiente información procedente de una encuesta a 40 personas gallegas sobre el número de viajes realizadosal extranjero durante el último mes:
X =Género Y =Número de viajes al extranjero
Mujer 2 3 1 1 1 1 0 0 1 1 2 3 1 1 1 1 0 0 1 1
Varón 0 2 3 1 2 1 0 0 2 0 1 1 0 0 0 1 0 1 0 0
a) Se quiere comparar el número de viajes al extranjero de los encuestados atendiendo al género. Obtén las distribucionesde frecuencias que consideres oportunas y represéntalas de forma adecuada.
b) Se ha realizado otra encuesta a 40 madrileños y se han obtenidos los siguientes resultados. Realiza los cálculos anteriorespara el nuevo conjunto de datos.
X =Género Y =Número de viajes al extranjero
Mujer 3 3 3 0 2 0 1 1 1 2 2 1 2 2 2 3 2 1 0 1
Varón 2 3 2 1 3 3 3 2 1 2 3 2 3 3 0 1 3 2 2 3
c) Compara los grá�cos obtenidos en los apartados anteriores, ¾puede a�rmarse que los resultados observados en ambasencuestas son semejantes?
5. Los siguientes datos muestran el número de pasajeros (por hora) que llegan al aeropuerto (x) y su tiempo de espera (y, enminutos):
2
# pasajeros 105 511 401 622 330 211 332 332tiempo espera 44 214 193 299 143 112 155 131
# pasajeros 435 275 55 128 97 187 266tiempo espera 208 138 34 73 52 103 110
a) ¾Hay relación entre el número de pasajeros que llegan (por hora) al aeropuerto y su tiempo de espera? Representaadecuadamente los datos para responder.
b) Si la respuesta anterior es a�rmativa, ¾Cómo es dicha relación?: ¾lineal?, ¾positiva o negativa?, ¾débil o fuerte? Obténla medida que consideres oportuna para contestar.
Cálculos intermedios:
15∑i=1
xi = 4287
15∑i=1
yi = 2009
15∑i=1
xiyi = 736328
15∑i=1
x2i = 1593093
15∑i=1
y2i = 342767
6. Volviendo sobre los datos de la Encuesta de Condiciones de Vida del problema 7 de la Hoja 2 sobre el porcentaje de hogarescon mucha di�cultad para llegar a �n de mes por comunidades autónomas en 2006 y 2014, se quiere saber si hay indiciosde que haya relación entre el porcentaje de hogares que tienen mucha di�cultad para llegar a �n de mes y la renta mediapor persona. Para ello se recogen los datos sobre la renta media por persona (obtenidos en la misma encuesta) para el año2014, obteniéndose:
CCAA Renta media % hogares con di�cultad
Andalucía 8.079 24,3Aragón 12.037 9,8Asturias 11.251 4,6Illes Balears 10.660 14,7Canarias 8.302 19,5Cantabria 9.824 15,2Castilla y León 10.406 12,1Castilla-La Mancha 8.545 15,9Cataluña 12.205 12,2Comunitat Valenciana 9.144 18,0Extremadura 7.729 19,6Galicia 10.235 20,8Madrid 12.597 12,4Murcia 7.767 22,7Navarra 13.221 4,2País Vasco 14.281 11,5La Rioja 11.120 12,9Ceuta 8.712 32,9Melilla 11.619 12,9
Grá�camente:
3
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
0 2.000 4.000 6.000 8.000 10.000 12.000 14.000 16.000
a) Sabiendo que la covarianza entre ambas variables es s2xy = −9818,749, y que las cuasidesviaciones típicas son sx =1953,096 y sy = 6,833, donde x la renta media por persona en cada la comunidad autónoma (datos de 2014), e yrepresenta el porcentaje de hogares que tienen mucha di�cultad para llegar a �n de mes (datos de 2014), calcula elcoe�ciente de correlación lineal entre ambas variables. ¾Qué podrías decir de la relación entre ambas variables?
b) ¾A qué Comunidad Autónoma crees que corresponde el punto que señala la �echa en el diagrama de dispersiónanterior? Sin hacer cálculos adicionales, ¾cómo crees que cambiaría el coe�ciente de correlación lineal que acabas decalcular si eliminamos los datos correspondientes a dicha comunidad autónoma?
7. El dueño de una tienda de souvenirs sospecha que sus ventas semanales (y) están relacionadas con las �uctuaciones(semanales) del índice Dow Jones (x). Para corroborar su sospecha ha recogido los siguientes datos:
Dow Jones 58,3 62,9 46,3 48,2 58,2 65,8ventas sem. 2215 2518 1781 1823 2117 2703
Dow Jones 36,7 32,3 52,7 39,3 58,7 39,3ventas sem. 1423 1532 1879 1713 2122 2346
a) Representa en un diagrama de dispersión las ventas semanales en función de la �uctuación (semanal) del Dow Jones.
b) ¾Qué puedes decir sobre la sospecha del dueño de la tienda?
c) ¾Crees que la asociación entre x e y signi�ca que x afecta a y? Justi�ca tu respuesta.
Cálculos intermedios:12∑i=1
xi = 598,7
12∑i=1
yi = 24172
12∑i=1
xiyi = 1243723,5
12∑i=1
x2i = 31241,25
12∑i=1
y2i = 50373300
8. Se dispone de información sobre 14.059 transacciones llevadas a cabo por clientes de un cierto supermercado durante dosaños. Se quiere conocer qué clientes compran qué productos. Para ello se quiere analizar la relación entre los siguientespares de variables:
Género y Departamento del producto adquirido
Renta anual y Departamento del producto adquirido
Estado civil y Departamento del producto adquirido
Fuente: Business Analytics. Data Analysis and Decision Making. Albright & Winston. Cengage Learning, 2016
a) Al �nal del documento se recogen 4 tablas y 6 grá�cos. Indica qué distribuciones de frecuencias están recogidas en cadauna de ellas y en qué grá�co está representada. Para aquellos grá�cos que no se corresponden con ninguna de las 4tablas mostradas, ¾qué distribución de frecuencias está representada?
b) Analiza la información proporcionada por las tablas y grá�cos para analizar cada una de las relaciones planteadas.Contesta justi�cadamente para cada par de variables si se observa relación entre ellas y comenta cómo es dicha relaciónen caso de que la respuesta sea a�rmativa. Indica en qué tablas y grá�cos basas tus respuestas.
4
Ejercicios con Excel
9. Volviendo sobre los datos recogidos en el archivo datos_salarios_informaticos.xlsx que contiene información sobre 4 car-acterísticas de 46 profesionales de una compañía informática en Estados Unidos:
EXPRNC: años de experiencia
EDUC: formación académica (1=High School; 2=College; 3= Advanced degree)
MGT: desempeño de un cargo de responsabilidad (1=sí; 0=no)
SALARY: retribuciones brutas anuales (en dólares USA)
Se quiere conocer:
X El per�l de los profesionales que desempeñan cargos de responsabilidad: ¾qué impacto tiene la formación?
X Las características que determinan el salario: ¾se incrementa el salario al desempeñar cargos de responsabilidad?, ¾incidela formación en el salario que se percible?, ¾y los años de experiencia?
X Profundizando en la pregunta anterior se quiere analizar si el impacto de la formación sobre el salario, en caso de quese observe relación entre ellos, perdura en la vida laboral o se va mitigando con la experiencia.
Para contestar a las cuestiones anteriores realiza los siguientes análisis:
a) Obtén la tabla de contingencia para las variables MGT y EDUC. Cálcula y representa adecuadamente las distribucionescondicionadas que consideres oportunas para analizar la relación entre ambas variables.
b) Obtén las medidas numéricas sobre el salario atendiendo al hecho de desempeñar o no puestos de responsabilidad yrepresenta adecuadamente la distribución del salario en ambos grupos para analizar la relación entre el salario y el hechode desempeñar cargos de responsabilidad.
c) Haz lo mismo que en el apartado anterior para analizar el impacto (de haberlo) de la formación en el salario.
d) Para analizar la relación entre la experiencia y el salario haz un diagrama de dispersión y obtén el coe�ciente decorrelación entre ambas variables. ¾Qué observas? ¾hay relación? ¾de qué tipo? ¾te parece que todos los puntos siguenel mismo patrón?
e) Teniendo en cuenta el análisis hecho en los apartados b) y c) representa de nuevo el diagrama de dispersión tratandode diferenciar los casos en los que se desempeña o no un cargo de responsabilidad. Haz lo mismo diferenciando porformación. ¾A qué conclusión llegas?
Indicación: para diferenciar los puntos del diagrama de dispersión introduce varias Series de Datos, uno por cada unode los valores de la variable que de�ne las categorías, al de�nir el Diagrma de Dispersión en Excel. En este caso, dosSeries: (EXPRNC, SALARY) de los individuos con MGT=0, y (EXPRNC, SALARY) de los individuos con MGT=1.Para diferenciar por formación se tienen que considerar tres Series. Ten cuidado si para hacer el segundo diagramade dispersión vas a reordenar de nuevo los datos. Copia y pega los datos y reordena sobre los nuevos o se modi�carátambién el diagrama anterior.
Ejercicios de Exámenes de cursos pasados
10. (Examen Mayo 2012) La tabla siguiente contiene los resultados de una encuesta realizada en 1000 hogares españoles, dondese registraron los valores de (X,Y ), siendo X =�número de coches en propiedad en 2011�, con posibles valores 0, 1, 2, eY =�renta neta del hogar en 2011 (en miles de euros)�.
Y[0, 50) [50, 100) [100,∞)
0 324 105 37X 1 112 234 6
2 1 4 177
(a) ¾De qué tipo son las variables X e Y ?
(b) Obtener la frecuencia marginal absoluta de X. Calcularla media y cuasi-desviación típica de X.
(c) Para los hogares con renta neta inferior a 50 mil euros, de-terminar el promedio y el número más frecuente de cochesen propiedad.
5
Se dispone de la siguiente información de la variable Y , respecto de los tres grupos que de�ne X:
Resumen Estadístico para Y
X = 0 X = 1 X = 2Recuento 466 352 182
Promedio 39.70 58.93 248.12
Mediana 28.35 59.52 265.24
Varianza 1376.33 372.85 2672.49
Desv. Estándar 37.10 19.31 51.70
Coef. de Variación 93.44% 32.77% 20.84%
Mínimo 0.03 0.94 32.56
Máximo 288.44 126.09 299.81
Rango 288.41 125.15 267.26
Primer Cuartil 12.39 46.16 235.33
Tercer Cuartil 57.07 71.96 285.62
Rango Intercuartílico 44.67 25.80 50.29
(d) Identi�car cada diagrama de caja con cada uno de los grupos X = 0, X = 1, X = 2. Justi�car la respuesta.
(e) Relacionar los histogramas I), II), III) con los diagramas de caja a), b), c) del apartado anterior. Justi�car la respuesta.
(f) Escogemos un hogar de cada uno de los tres grupos y observamos su renta (en miles de euros). Los valores son: 51para X = 0; 62 para X = 1 y 75 para X = 2. Decidir y justi�car cuál de estos tres hogares es más pobre en relacióncon los tres grupos que de�ne la variable X. (Indicación: estandarizar).
11. (Examen Mayo 2016) Consultar el apartado (f) en l Hoja 2 de problemas (Ejercicio 12)
12. (Examen Mayo 2017) Consultar el apartado (d) en l Hoja 2 de problemas (Ejercicio 14)
13. (Examen Junio 2017) Las elecciones generales del 2016 en España fueron un verdadero quebradero de cabeza para lospartidos tradicionales. El PP, partido que obtuvo el mayor porcentaje de votos a favor, apenas obtuvo el 28.72% de losvotos contabilizados. Algunos analistas se preguntan si el apoyo a este partido dependió de la participación ciudadana, lacual miden en términos de concurrencia de votantes el día de las elecciones.
a) El diagrama de dispersión de p (porcentaje de participación por mesa electoral, eje x) y v (porcentaje de votos a favordel PP, eje y) se muestra en la Figura 1. El coe�ciente de correlación entre estas variables es 0.26 Valore si existe unarelación lineal o de otro tipo entre p y v.
6
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
Diagrama de dispersión de p versus v.
b) La tabla adjunta muestra algunas medidas descriptivas de las variables bajo estudio. Teniendo en cuenta la informa-ción disponible (grá�co de dispersión y tabla), deduzca si existen mesas atípicas, bien sea por valores extremos departicipación o por votos a favor del PP. >Existen mesas con porcentajes atipicamente pequeños de votos a favor?
Medidas media mediana cuasi desv-tip Q1 Q3
p 0.73 0.73 0.07 0.67 0.78
v 0.29 0.29 0.14 0.18 0.38
c) A continuación se muestran los histogramas de las variables p y v. Se pide:
Compare los valores medianos y medios de cada una de las variables y a partir de ese análisis valore si lasdistribuciones de p y v son simétricas.
Ahora, considere los histogramas y valore de nuevo la asimetría de las distribuciones.
0 0.5 1
0
0.5
1
1.5
2
104
0 0.5 1
0
0.5
1
1.5
2
104
Participación p (izquierda) y votos a favor por mesa v (derecha)
d) Los analistas del partido del PP sospechan que la caída de votos a favor se debió a la falta de movilización. Enese sentido, aseguran que en las mesas con baja participación (≤ 70%, según ellos), su porcentaje de votos a favorfue considerablemente más bajo del obtenido en las mesas con alta participación (> 70%). >Es razonable esa idea?Justi�que la respuesta utilizando la información de la siguiente tabla:
p ≤ 0,70 p > 0,70v ≤ 0,40 2239 9022
v > 0,40 14803 27686
7
Problema 8. Tablas y gráficos Etiquetas de fila Female Male Total Alcoholic Beverages 1,35% 1,18% 2,53% Baked Goods 1,55% 1,47% 3,02% Baking Goods 3,70% 3,93% 7,63% Beverages 2,62% 2,21% 4,84% Breakfast Foods 0,78% 0,55% 1,34% Canned Foods 3,63% 3,31% 6,95% Canned Products 0,37% 0,41% 0,78% Carousel 0,26% 0,16% 0,42% Checkout 0,37% 0,21% 0,58% Dairy 3,17% 3,26% 6,42% Deli 2,60% 2,38% 4,97% Eggs 0,66% 0,75% 1,41% Frozen Foods 5,08% 4,75% 9,83% Health and Hygiene 3,28% 3,07% 6,35% Household 4,98% 5,12% 10,10% Meat 0,34% 0,29% 0,63% Periodicals 0,73% 0,71% 1,44% Produce 7,02% 7,16% 14,18% Seafood 0,43% 0,30% 0,73% Snack Foods 5,73% 5,65% 11,38% Snacks 1,39% 1,11% 2,50% Starchy Foods 0,95% 1,02% 1,97% Total 51,00% 49,00% 100,00% Tabla 1
Etiquetas de fila $10K ‐ $30K
$30K ‐ $50K
$50K ‐ $70K
$70K ‐ $90K
$90K ‐ $110K
$110K ‐ $130K
$130K ‐ $150K
$150K +
Total general
Alcoholic Beverages 22,47% 33,99% 17,13% 10,96% 6,46% 3,93% 4,21% 0,84% 100,00%
Baked Goods 25,41% 31,53% 14,82% 11,76% 3,06% 5,41% 5,65% 2,35% 100,00%
Baking Goods 23,88% 31,34% 17,63% 12,13% 3,64% 4,57% 5,04% 1,77% 100,00%
Beverages 21,76% 33,53% 14,26% 13,38% 5,29% 5,15% 3,68% 2,94% 100,00%
Breakfast Foods 28,72% 33,51% 16,49% 10,11% 2,13% 1,60% 5,85% 1,60% 100,00%
Canned Foods 20,78% 34,29% 17,40% 12,28% 3,38% 5,02% 4,71% 2,15% 100,00%
Canned Products 26,61% 33,94% 16,51% 10,09% 3,67% 3,67% 5,50% 0,00% 100,00%
Carousel 13,56% 50,85% 13,56% 11,86% 1,69% 1,69% 5,08% 1,69% 100,00%
Checkout 24,39% 25,61% 26,83% 6,10% 2,44% 2,44% 10,98% 1,22% 100,00%
Dairy 19,27% 33,11% 17,72% 13,95% 4,43% 4,21% 5,43% 1,88% 100,00%
Deli 21,03% 33,33% 15,31% 13,73% 3,58% 4,72% 6,44% 1,86% 100,00%
Eggs 18,69% 33,84% 18,18% 10,10% 5,05% 4,55% 7,58% 2,02% 100,00%
Frozen Foods 23,66% 31,98% 15,34% 10,93% 5,35% 4,78% 6,08% 1,88% 100,00%
Health and Hygiene 22,51% 32,70% 15,01% 13,44% 4,82% 3,70% 5,71% 2,13% 100,00%
Household 22,04% 30,42% 19,15% 12,82% 3,87% 4,44% 5,35% 1,90% 100,00%
Meat 26,97% 30,34% 19,10% 7,87% 3,37% 5,62% 4,49% 2,25% 100,00%
Periodicals 24,26% 32,18% 17,82% 8,91% 3,47% 8,42% 4,46% 0,50% 100,00%
Produce 21,06% 32,60% 17,25% 13,24% 4,86% 3,86% 5,47% 1,65% 100,00%
Seafood 16,67% 43,14% 10,78% 11,76% 1,96% 2,94% 7,84% 4,90% 100,00%
Snack Foods 20,56% 33,31% 17,13% 11,50% 4,81% 5,31% 5,19% 2,19% 100,00%
Snacks 21,59% 36,08% 17,05% 8,24% 4,83% 4,55% 5,40% 2,27% 100,00%
Starchy Foods 25,27% 30,69% 17,33% 10,11% 2,89% 6,50% 5,42% 1,81% 100,00%
Total general 21,98% 32,73% 16,86% 12,16% 4,36% 4,57% 5,41% 1,94% 100,00%
Tabla 2
Etiquetas de fila Married SingleTotal general
Alcoholic Beverages 183 173 356 Baked Goods 202 223 425 Baking Goods 537 535 1072 Beverages 339 341 680 Breakfast Foods 91 97 188 Canned Foods 475 502 977 Canned Products 56 53 109 Carousel 27 32 59 Checkout 44 38 82 Dairy 450 453 903 Deli 362 337 699 Eggs 90 108 198 Frozen Foods 648 734 1382 Health and Hygiene 435 458 893 Household 688 732 1420 Meat 38 51 89 Periodicals 106 96 202 Produce 922 1072 1994 Seafood 45 57 102 Snack Foods 797 803 1600 Snacks 188 164 352 Starchy Foods 143 134 277 Total general 6866 7193 14059 Tabla 4
Etiquetas de fila
Annual Income
$10K ‐ $30K 3090$30K ‐ $50K 4601$50K ‐ $70K 2370$70K ‐ $90K 1709$90K ‐ $110K 613$110K ‐ $130K 643$130K ‐ $150K 760$150K + 273Total general 14059Tabla 3
Gráfico 1
Gráfico 2
Gráfico 3
Gráfico 4
Gráfico 5
Gráfico 6