tecnológico de estudios superiores de cuautitlán izcalli · pdf fileestudios...
TRANSCRIPT
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
DIVISIÓN DE INGENIERÍA ELECTRÓNICA
CUADERNILLO DE PROBABILIDAD Y ESTADÍSTICA
FECHA: 26/08/13, Primera versión
ELABORO
M. en C. FELIX ANTONIO SAUCEDO ESQUIVEL
REVISO
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS
Vo. Bo.
ING. MARIA DEL CARMEN RODRIGUEZ PASCUAL
JEFE DE DIVISIÓN DE INGENIERÍA ELECTRÓNICA
División de Ingeniería Electrónica Probabilidad y Estadística
Tecnológico de Estudios Superiores de Cuautitlán Izcalli i
Presentación
La asignatura “Probabilidad y Estadística” aporta al perfil del Ingeniero Electrónico las competencias necesarias para Interpretar datos que permitan mejorar los procesos de fabricación, investigación y diseño. Además obtendrá la habilidad para plantear y solucionar problemas por medio de métodos estadísticos. La asignatura se encuentra ubicada al principio de la carrera y es importante para materias como formulación y evaluación de proyectos y administración y técnicas de mantenimiento. Además de que enseña como razonar de manera lógica la toma decisiones en presencia de incertidumbre y variación. El presente trabajo tiene como antecedente los cursos impartidos en el Tecnológico de Estudios Superiores de Cuautitlán Izcalli para las carreras de Industrial, Contabilidad, Electrónica e Informática y en la Universidad del Valle de México Campus Lomas Verdes para Licenciaturas Ejecutivas. Se sugiere al aspirante que trabaje arduamente en el desarrollo de las actividades de aprendizaje, busque en otras fuentes de información, además del presente material, utilice las plantillas de Excel, entre otros programas comerciales, busque la retroalimentación del profesor y recuerda que para llegar a la meta necesitaras constancia y dedicación al 100% a tus estudios de ingeniería.
Félix Antonio Saucedo Esquivel Profesor de Tiempo Completo “A”
División de Ingeniería Electrónica Probabilidad y Estadística
Felix Antonio Saucedo Esquivel
Índice
Pág. Presentación i
1. Estadística Descriptiva
1.1 Objeto de la estadística 1
1.2 Ramas de la estadística 2
1.3 Estadística en la investigación 2
1.4 Conceptos básicos 4 1.5 Organización y representación de datos 12 1.6 Distribución de frecuencias tabulares y gráficas 13 1.7 Medidas de tendencia central 20 1.8 Medidas de dispersión, asimetría y kurtosis 22 1.9 Medidas de posición 26 Actividad de aprendizaje 1. Conceptos básicos 31 Actividad de aprendizaje 2. Número de intervalo óptimo 33 Actividad de aprendizaje 3. Medidas de tendencia central y de dispersión 35 Actividad de aprendizaje 4. Caso de estudio I 38 Actividad de aprendizaje 5. Caso de estudio II 39 Actividad de aprendizaje 6. Caso de estudio III 40
2. Probabilidad
2.1 Técnicas de conteo 41 2.2 Enfoques de Probabilidad 44 2.3 Axiomas de Probabilidad 45 Actividad de aprendizaje 7. Cuestionario 50
3. Distribuciones de Probabilidad
3.1 Distribución de Probabilidad Binomial 62 3.2 Distribución de Poisson 66 3.3 Distribución Normal 70
4. Estadística Inferencial
4.1 Inferencia Estadística 74
4.2 Muestreo Estadístico 77
4.3 Estimadores 80
4.4 Estimación por Intervalo 81
4.5 Errores tipo I y II 83 4.6 Contraste de hipótesis unilateral y bilateral 84 Actividad de aprendizaje 8. Inferencia estadística y muestreo estadístico 87 Actividad de aprendizaje 9. Estimación con intervalos de confianza 88 Actividad de aprendizaje 10. Prueba de Hipótesis 89
5. Regresión y Correlación
5.1 Diagrama de dispersión 90 5.2 Regresión lineal simple 90 5.3 Correlación 96 Actividad de aprendizaje 11. Regresión lineal y Correlación 98 Formato de evaluación de actividad de aprendizaje 101
6. Referencias Bibliográficas 102
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
1
CONTENIDO DE LA ESTADÍSTICA
Competencia: El estudiante determinará el contenido de la estadística dentro
del área de conocimiento de su profesión.
INTRODUCCIÓN
A medida que aumenta la complejidad de nuestro mundo, se hace cada vez
más difícil tomar decisiones inteligentes y bien documentadas. Con frecuencia
tales decisiones deben tomarse con mucho menos que un conocimiento
adecuado y experimentando una gran incertidumbre. Sin embargo, las
soluciones a estos problemas son esenciales para nuestro bienestar e incluso
para nuestra supervivencia final. Continuamente estamos recibiendo presiones
debido a problemas económicos como una inflación galopante, el sistema
tributario engorroso, etc. Todo nuestro tejido económico y social está
amenazado por la contaminación ambiental, la deuda pública onerosa, la tasa
de criminalidad que siempre va en aumento y las impredecibles tasas de
interés. Esta unidad aportara una visión general sobre lo que es la estadística y
como puede utilizarse.
1.1 OBJETO DE LA ESTADÍSTICA
La Estadística se ocupa de la recolección, agrupación, presentación, análisis e
interpretación de datos, por tanto, la estadística es un método científico que
pretende sacar conclusiones a partir de unas observaciones hechas.
El objetivo básico de la estadística es hacer inferencia acerca de una
población basada en la información contenida en una muestra. Inferir significa
predecir, suponer, asegurar. Es decir se pretende establecer inferencia acerca
de una población. Entendiendo a la población como un conjunto de
individuos, organismos o entes inanimados de los cuales queremos conocer
alguna o algunas características para que nos ayuden a tomar una decisión u
obtener alguna conclusión de suma importancia.
La Estadística actual es el resultado de la unión de dos disciplinas que
evolucionaron de forma independiente hasta confluir en el siglo XIX:
• el Cálculo de Probabilidades, que nació en el siglo XVII como la teoría
matemática de los juegos de azar,
• la “Estadística”, o ciencia del Estado, que estudia la descripción de datos, y
que tiene unas raíces más antiguas, de hecho, tan antiguas como la
humanidad (censos de población). La interacción de ambas líneas de
pensamiento da lugar a la ciencia que estudia cómo obtener conclusiones de
la investigación empírica mediante el uso de modelos matemáticos.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
2
Resumiendo la Estadística actúa como disciplina puente entre los modelos
matemáticos y los fenómenos reales. Un modelo matemático es una
abstracción simplificada de una realidad más compleja y siempre existirá una
cierta discrepancia entre lo que se observa y lo previsto por el modelo. La
Estadística proporciona una metodología para evaluar y juzgar estas
discrepancias entre la realidad y la teoría.
1.2 RAMAS DE LA ESTADÍSTICA
La estadística es la ciencia que tiene que ver con la (1) recolección, (2)
organización, (3) presentación, (4) análisis, e (5) interpretación de datos. Las dos
principales ramas del análisis estadístico son:
Estadística descriptiva, es el proceso de recolectar, agrupar y presentar
datos de una manera tal que describa fácil y rápidamente dichos datos.
Estadística inferencial involucra la utilización de una muestra para sacar
alguna inferencia o conclusión sobre la población de la cual hace parte
la muestra.
1.3 ESTADÍSTICA EN LA INVESTIGACIÓN
Virtualmente cada área de la investigación científica seria puede beneficiarse
del análisis estadístico. Para quien formula las políticas económicas y para quien
asesora al presidente y otros funcionarios públicos sobre procedimientos
económicos apropiados, la estadística ha demostrado ser una herramienta
valiosa. Las decisiones sobre las tasas tributarias, los programas sociales, el gasto
de defensa y muchos otros asuntos pueden hacerse de manera inteligente tan
sólo con la ayuda del análisis estadístico. Los hombres y mujeres de negocios en
su eterna búsqueda de la rentabilidad, consideran que la estadística es
esencial en el proceso de toma de decisiones. Los esfuerzos en control de
calidad, minimización de costos, combinación de productos e inventarios, y
una gran cantidad de otros asuntos empresariales, pueden manejarse
efectivamente a través del uso de procedimientos estadísticos comprobados.
Para quienes están en el área de la investigación de mercados, la estadística es
de gran ayuda en el momento de determinar qué tan probable es que un
producto nuevo sea exitoso. La estadística también es muy útil para evaluar las
oportunidades de inversión por parte de asesores financieros. Los contadores,
los jefes de personal y los fabricantes encuentran oportunidades ilimitadas de
beneficiarse con el uso del análisis estadístico. Incluso un investigador en el
campo de la medicina, interesado en la efectividad de un nuevo
medicamento, considera la estadística una aliada imprescindible.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
3
Recuerde su Jefe espera que usted haga dos cosas: (a) tomar decisiones y (b)
solucionar problemas; estos dos cometidos pueden lograrse a través de la
aplicación de procedimientos estadísticos.
1.3.1 La aplicación universal de la estadística
Los problemas complejos que enfrenta el mundo actual requieren soluciones
cuantitativas. Si usted no está en capacidad de aplicar la estadística y otros
métodos cuantitativos a muchos de los problemas comunes que sin duda se le
presentarán, estará en gran desventaja en el mercado laboral.
Casi todas las áreas del saber requieren del pensamiento estadístico. Las
disciplinas de estudios que dependen ampliamente del análisis estadístico,
incluyen –pero no se limitan a–, marketing, finanzas, economía e investigación
de operaciones. Los principios aprendidos en contabilidad y gerencia
administrativa también se basan en la preparación estadística.
Los analistas financieros y económicos con frecuencia se basan en sus
habilidades cuantitativas para proporcionar soluciones a problemas difíciles. La
compresión de los principios financieros y económicos permitirá aplicar las
técnicas estadísticas para hallar soluciones viables y tomar decisiones.
Bien sea que las aspiraciones profesionales tiendan hacia la industria privada, el
servicio público, el gobierno, a hacia otra fuente de retribución remunerada, la
experiencia académica será más completa si se adquiere una sólida formación
en fundamentos de análisis estadístico.
1.3.2 Gerencia de calidad total
A medida que la competencia mundial se intensifica, surge, de parte de los
negocios, un esfuerzo por promover la calidad de sus productos. Este esfuerzo,
conocido ampliamente como Gerencia de Calidad Total (Total Quality
Management, TQM), tiene como propósito central la promoción de las
cualidades del producto que el consumidor considera importantes. Tales
atributos van desde la ausencia de defectos hasta el servicio eficiente y la
respuesta rápida a las posibles quejas del consumidor. Hoy día, la mayoría de
los grandes negocios, así como también muchos negocios pequeños, tienen
departamentos de Control de Calidad (Quality Control, QC) cuya función es
recolectar datos sobre el desempeño y solucionar problemas de calidad. Así, la
TQM representa un área creciente de oportunidades para quienes tienen
conocimientos en estadística.
La TQM involucra el uso de equipos integrados conformados por ingenieros,
expertos en marketing, especialistas en diseño, estadísticos, y otros profesionales
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
4
que pueden contribuir a la satisfacción del cliente. La formación de estos
equipos, denominada Despliegue de la Función de la Calidad (Quality Function
Deployment, QFD), está diseñada para reconocer y agenciar las inquietudes de
los consumidores. Los especialistas actúan conjuntamente para promover la
calidad del producto y para que supla de manera efectiva las necesidades y
preferencias del consumidor.
Los círculos de control de calidad constan de un grupo pequeño de empleados
(generalmente entre 5 y 12) que se reúnen regularmente para solucionar
problemas relacionados con el trabajo. Con frecuencia se conforman tanto
con trabajadores en línea como con representantes de la gerencia; los
miembros de estos círculos de calidad son todos de la misma área de trabajo y
reciben capacitación formal en control estadístico de calidad y en planeación
de grupos. A través de discusiones abiertas y del análisis estadístico, los círculos
pueden lograr mejoras significativas en diversas áreas que van desde el
mejoramiento de la calidad, el diseño del producto, la productividad y los
métodos de producción, hasta la reducción de costos y seguridad.
Uno de los elementos más importantes del TQM es un conjunto de herramientas
y métodos estadísticos utilizados para promover el Control Estadístico de
Calidad (Statistical Quality Control, SQC). Tales herramientas ayudan a organizar
y analizar datos para efectos de solucionar problemas.
Hablando en términos generales, el SQC está diseñado para asegurar que los
productos cumplan con unas normas y especificaciones mínimas de
producción. Este objetivo con frecuencia se promueve a través del uso del
muestreo de aceptación, el cual es parte integral del SQC. El muestreo de
aceptación implica probar una muestra aleatoria de productos existentes para
determinar si se debe aceptar o rechazar todo el envío, o el lote. Esta decisión
se basa en parte de un nivel de calidad aceptable (Aceptable Quality Level,
AQL), o número máximo de defectos que una empresa está dispuesta a tolerar.
1.4 CONCEPTOS BÁSICOS
Toda rama de la investigación científica tiene su vocabulario propio y la
estadística no es la excepción, las definiciones y expresiones que siguen son
esenciales para la compresión de cómo se realizan las pruebas estadísticas.
1.4.1 Población y parámetros
Población: Es la recolección completa de todas las observaciones de interés
para el investigador. Una población puede ser finita o infinita.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
5
Población finita: Es aquella que posee o incluye un número limitado de medidas
y observaciones. Se pueden listar los elementos en algún orden y en
consecuencia contarlos uno a uno hasta alcanzar el último.
Población infinita: Es infinita si se incluye un gran conjunto de medidas y
observaciones que no pueden alcanzarse en el conteo. Hipotéticamente no
existe límite en cuanto al número de observaciones que cada uno de ellos
puede generar. Es conveniente referirse a una población infinita cuando se
habla de una población que no puede ser numerada en un periodo razonable.
Parámetro: Es una medida descriptiva de la población total de todas las
observaciones de interés para el investigador.
1.4.2 Muestras y estadísticos
Muestra: Es una parte representativa de la población que se selecciona para
ser estudiada ya que la población es demasiado grande como para analizarla
en su totalidad.
Estadístico: Elemento que describe una muestra y sirve como una estimación
del parámetro de la población correspondiente.
1.4.3 Variables
Variable: Es una característica de la población que se está analizando en un
estudio estadístico.
Tipos de variables:
Cualitativas, categóricas (o alfanuméricas): Pueden tomar valores no
cuantificables numéricamente. Se denomina categoría a cada uno de
los valores que toma la variable.
Nominales: si no existe ningún orden entre las categorías de la
variable. Ejemplos, el grupo sanguíneo (A ,B ,AB, O); el color de los
ojos (azules, verdes, marrones, negros).
Binarias: aquéllas que sólo toman dos valores posibles (sí/no,
presencia/ausencia de cierto carácter), dentro de las nominales.
Ejemplo: el sexo, ser fumador, tener carné de conducir, ser
daltónico.
Ordinales: cuando existe un cierto orden entre las categorías de la
variable. Ejemplo: el nivel de estudios (sin estudios, básicos, medios,
superiores), el grado de miopía (ausencia, bajo, medio, alto).
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
6
Cuantitativas (o numéricas): Pueden tomar valores cuantificables
numéricamente.
Discretas: si solamente toman valores aislados (generalmente enteros).
Suelen corresponder a conteos. Ejemplos, el número de hermanos, el
número de cafés/día, el número de multas/año.
Continuas: potencialmente puede tomar cualquier valor numérico
dentro de un intervalo o de una unión de intervalos. Ejemplos, el
tiempo de reacción a un cierto medicamento, el peso de un individuo,
la longitud del caparazón de una tortuga.
1.4.4 Métodos de muestreo
Gran parte del trabajo de un estadístico se realiza con muestras. En la práctica
no va a ser posible estudiar todos los elementos de la población, por varias
razones:
El estudio puede implicar la destrucción del elemento (estudio de la vida
media de una partida de bombillas, estudio de la tensión de rotura de
unos cables).
Los elementos pueden existir conceptualmente, pero no en realidad
(población de piezas defectuosas que producirá una máquina en su vida
útil).
Puede ser inviable económicamente (muy costoso) estudiar a toda la
población.
El estudio llevaría tanto tiempo que sería impracticable e incluso las
propiedades de la población podrían variar con el tiempo.
Por tanto debe seleccionarse una muestra de la población, calcular el
estadístico de la muestra, y utilizarlo para estimar el parámetro correspondiente
de la población.
1.4.4.1 Muestreo aleatorio simple
Una muestra es aleatoria simple cuando:
1. cada elemento de la población tiene la misma probabilidad de ser
escogido en forma individual,
2. las observaciones se realizan con reposición, de manera que la población
es idéntica en todas las extracciones.
Comentarios:
La condición (1) asegura la representatividad.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
7
La condición (2) se impone por simplicidad: si el tamaño de la población
N es grande con respecto al tamaño muestral n, es prácticamente
indiferente realizar el muestreo con o sin reposición.
¿Cómo se realiza? Se utilizan las tablas de números aleatorios: se enumeran
los elementos de la población del 1 al N y se toman números aleatorios de
tantas cifras como tenga N. El valor del número aleatorio indicará el
elemento a seleccionar.
1.4.4.2 Muestreo Estratificado
Los elementos de la población se dividen en grupos homogéneos o estratos
según la característica más importante (por ejemplo, según el sexo, la edad, la
profesión, etc.). Para esto:
se asigna un número de elementos a cada estrato,
dentro de cada estrato se seleccionan los elementos por muestreo
aleatorio simple.
Si hay k estratos de tamaños k1 N,,N , de manera que k1 NNN , la
composición de la muestra será k1 nnn , donde el número de elementos
se pueden determinar de dos formas distintas:
1. proporcionalmente al tamaño de cada estrato:
N
Nnn i
i (I.1)
2. proporcionalmente a la variabilidad de cada estrato:
k
1iii
iii
N
Nnn
(I.2)
donde σi es una medida de la variabilidad del estrato i-ésimo.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
8
1.4.4.3 Muestreo por conglomerados
Hay situaciones en que ni el muestreo aleatorio simple ni el estratificado son
aplicables. En estos casos es habitual que los elementos de la población se
encuentren agrupados en conglomerados, de los cuales sí que se sabe cuántos
hay. (Por ejemplo, la población se distribuye en provincias, los habitantes de
una ciudad se distribuyen en barrios, etc.).
Si puede suponerse que cada conglomerado es una muestra representativa de
la población total respecto de la variable de estudio, podemos:
seleccionar al azar algunos de estos conglomerados,
dentro de cada conglomerado, analizar:
a) todos sus elementos,
b) una muestra aleatoria simple de sus elementos.
Inconveniente, si los conglomerados son heterogéneos entre ellos, puesto que
sólo se analizan algunos de ellos, la muestra final puede ser no representativa
de la población.
Las ideas de estratificación y conglomerado son opuestas:
La estratificación funciona mejor cuánto mayor sean las diferencias entre
estratos, pero es necesario que los estratos sean homogéneos
internamente.
Los conglomerados funcionan mejor cuánto menores sean las diferencias
entre ellos, pero deben ser muy heterogéneos internamente, es decir,
dentro de cada conglomerado debe estar incluida toda la variabilidad
de la población.
La regla general que se aplica a todos los procedimientos de muestreo es que
cualquier información previa tiene que utilizarse para subdividir la población y
asegurar una mayor representatividad de la muestra. Una vez que los grupos
homogéneos han sido definidos, la selección dentro de ellos debe realizarse por
muestreo aleatorio simple.
La exactitud de toda estimación es de enorme importancia. Esta exactitud
depende en gran parte de la forma como se tomó la muestra, y del cuidado
que se tenga para garantizar que la muestra proporcione una imagen
confiable de la población. Sin embargo, con mucha frecuencia se comprueba
que la muestra no es del todo representativa de la población y resultara un error
de muestreo.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
9
Existen dos causas posibles del error de muestreo. La primera fuente del error de
muestreo es el azar en el proceso del muestreo. Debido al factor azar en la
selección de elementos de la muestra, es posible seleccionar sin darse cuenta,
elementos que sean anormalmente grandes o inusualmente pequeños,
produciendo una subestimación del parámetro. En cualquiera de los dos casos,
ha ocurrido un error de muestreo.
Una forma más seria de error de muestreo es el sesgo muestral. El sesgo muestral
ocurre cuando hay alguna tendencia a seleccionar determinados elementos
de muestra en lugar de otros. Si el proceso de muestreo se diseña de manera
incorrecta y tiende a promover la selección de demasiadas unidades con una
característica en especial, a expensas de las unidades que no tienen dicha
característica, se dice que la muestra está sesgada.
El sesgo, es el grado de asimetría que presenta un histograma o polígono de
frecuencias. Si el histograma está cargado a la izquierda, el sesgo tiene un valor
negativo. En cambio cuando esta más cargado a la derecha, el sesgo toma un
valor positivo. Si el sesgo adquiere un valor nulo, significa que el histograma es
simétrico.
1.4.5 Escalas de medida
Las variables pueden clasificarse con base en su escala de medida. La manera
en que se clasifican las variables afecta en gran parte la forma como se utilizan
en el análisis. Las variables pueden ser (1) nominales, (2) ordinales, (3) de
intervalo, o (4) de razón.
1.4.5.1 Mediciones en escala nominal
Una medida nominal se crea cuando se utilizan nombres para establecer
categorías dentro de las cuales las variables pueden registrarse exclusivamente.
Por ejemplo, el sexo puede clasificarse como “hombre” o “mujer”. Se podría
codificar también con un “1” o “2”, pero los números servirían tan sólo para
indicar las categorías y no tendría significado numérico. Es importante recordar
que una medida en escala nominal no indica ningún orden de preferencia, sino
que simplemente establece una disposición categórica en la cual se puede
ubicar cada observación.
Existen escalas nominales tanto para datos cuantitativos como cualitativos. Una
escala nominal para datos numéricos asigna números a las categorías para
distinguirlas.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
10
1.4.5.2 Medidas en escalas ordinales
Son las que clasifican las observaciones en categorías con un orden
significativo.
A diferencia de una medida en escala nominal, una medida en escala ordinal
si muestra un ordenamiento o secuencia de los datos. Es decir, que las
observaciones se clasifican con base en algunos criterios. Hay quien clasifica sus
productos como “buenos”, “mejores” y “los mejores”. Las encuestas de opinión
con frecuencia utilizan una medida en escala ordinal como “totalmente de
acuerdo”, “de acuerdo”, “sin opinión”, “en desacuerdo”, y “en total
desacuerdo”.
Al igual que con los datos nominales, los números pueden utilizarse para ordenar
los rangos. Y al igual que con los datos nominales, la magnitud de los números
no es importante; el rango depende sólo del orden de los valores. Por ejemplo
se pueden utilizar los rangos de “1”, “2” y “3”, o “1”, “3” y “12” para este asunto.
Las diferencias aritméticas entre valores carecen de sentido. Un producto con
rango “2” no es dos veces mejor que uno de rango “1”.
1.4.5.3 Medidas en escala de intervalo
Medidas en una escala numérica en la cual el valor de cero es arbitrario pero la
diferencia entre valores es importante. Los datos de intervalo son cuantitativos
por necesidad; una escala de intervalo no siempre tiene un punto cero.
En una escala de intervalo las variables se miden de manera numérica, y al
igual que los datos ordinales, llevan inherente un rango u ordenamiento. Sin
embargo, a diferencia de los rangos ordinales, la diferencia entre los valores es
importante. Por eso, las operaciones aritméticas de suma y resta, son
significativas.
1.4.5.4 Medidas en escala de razón
Medidas numéricas en las cuales cero es un valor fijo en cualquier escala y la
diferencia entre valores es importante. Con datos medidos en una escala de
razón, se puede determinar cuantas veces es mayor una medida que otra.
La escala de razón se basa en un sistema numérico en el cual el cero es
significativo. Por tanto las operaciones de multiplicación y división también
toman una interpretación racional. Una escala de razón se utiliza para medir
muchos tipos de datos que se encuentran en el análisis empresarial. Variables
tales como costos, rentabilidad y niveles de inventario se expresan como
medidas de razón. Por ejemplo, una firma con una participación en el mercado
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
11
del 40% tiene dos veces más participación que una firma con una participación
en el mercado del 20%. Las medidas tales como peso, tiempo y distancia
también se miden en una escala de razón, ya que cero es significativo y un
artículo que pesa 100 libras tiene la mitad del peso de un artículo que pesa 200
libras.
Batería 1 de ejercicios:
1. Describa en sus propios términos la diferencia entre una población y una
muestra; entre un parámetro y un estadístico.
2. ¿Cuál es la diferencia entre una variable cuantitativa y una variable
cualitativa. Dé ejemplos.
3. Diferencie entre una variable continua y una variable discreta. Dé ejemplos
de cada una.
4. Seleccione una población cualquiera que sea de su interés. Identifique
variables cuantitativas y cualitativas de esa población que puedan
seleccionarse para ser estudiadas.
5. Analice si las siguientes variables son discretas o continuas:
a. Número de cursos que los estudiantes de su colegio están cursando
este semestre.
b. Número de pases atrapados por el beisbolista Tim brown, receptor de
los LA Raiders.
c. Peso de los compañeros de equipo de Tim Brown.
d. Peso del contenido de las cajas de cereal.
e. Número de libros que usted leyó el año pasado.
6. ¿En cuál escala de medida puede expresarse cada una de estas variables?
Explique sus respuestas.
a. Los estudiantes clasifican a su profesor de estadística sobre una escala de
“terrible”, “no tan malo”, “bueno”, “maravilloso” y “dios griego”.
b. Los estudiantes en una universidad están clasificados por profesión, tales
como marketing, administración y contaduría.
c. Los estudiantes están clasificados por cursos utilizando los valores 1, 2 , 3, 4
y 5.
d. Agrupar mediciones de líquidos en octavo, cuarto y galón.
e. Edades de los clientes.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
12
ESTADÍSTICA DESCRIPTIVA
COMPETENCIA: El estudiante aplicará las técnicas de estadística descriptiva a
un conjunto de datos mediante el uso de modelos tabulares y gráficos, con el
fin de describir dicho conjunto y utilizar dicha información en el proceso de
toma de decisiones.
Organización y representación de datos
Distribución de frecuencias tabulares y gráficas
Medidas de tendencia central
Medidas de dispersión, asimetría y kurtosis
Medidas de posición
INTRODUCCIÓN
Casi todos los trabajos que se hacen en estadística comienzan con el proceso
de recolección de datos necesarios para formar con ellos un conjunto que se
utilizará en el estudio. Para propósitos generales, se adoptará la suposición
conveniente de que esta labor, con frecuencia tediosa, ya ha sido realizada y
que los datos están disponibles.
Esta recolección de datos originales revela muy poco por sí sola. Es
extremadamente difícil determinar el verdadero significado de un grupo de
números que simplemente se han registrado en un papel. Nuestra labor es
organizar y describir tales datos de manera concisa y significativa. Para
determinar su significancia, los datos se organizan de manera que, con un
simple vistazo, se pueda tener una idea de lo que pueden decirnos.
1.5 ORGANIZACIÓN Y REPRESENTACIÓN DE DATOS
Pueden utilizarse varias herramientas básicas para describir y resumir un
conjunto grande de datos. La manera más simple, pero quizás la más
significativa, es la serie ordenada. Una serie ordenada simplemente enumera
tales observaciones en orden ascendente o descendente. Está proporciona
alguna agrupación al conjunto de datos; por ejemplo, se puede ver de
inmediato los valores extremos. Sin embargo la utilidad de una serie ordenada
es limitada. Las herramientas que resultan de particular utilidad para organizar
los datos incluyen tablas de frecuencia que colocan los datos en clases
específicas y diversos gráficos que pueden proporcionar una representación
visual de los datos.
Los siguientes datos son los ingresos de 60 ejecutivos de marketing para
empresas de Estados Unidos. Los datos están expresados en miles de dólares.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
13
Supóngase que se desea analizar, ¿Cuál es el ingreso promedio de los
ejecutivos de marketing?, ¿Cuál sería el ingreso mínimo y máximo?, etc. Los
resultados obtenidos se muestran en el siguiente cuadro de datos:
58 76 89 45 67 34
64 76 34 65 45 39
79 74 56 71 85 87
74 38 69 79 61 71
69 62 56 38 69 79
71 54 31 69 62 39
65 79 47 46 77 66
55 75 62 57 77 36
73 72 64 69 51 50
40 50 74 61 69 73
La forma en la que se presentaron los datos dificulta la obtención de la
respuesta a tales interrogantes. Conviene, pues, organizar los datos de tal modo
que proporcionen información resumida y más clara sobre el proceso.
Los métodos estadísticos de organización de datos ofrecen para ello las
técnicas de agrupación de los mismos en intervalos o categorías de clases,
formando distribuciones de frecuencias. Cabe aclarar que a los intervalos se les
llama indistintamente intervalos de clase, clases, categorías de clase o
categorías.
1.6 DISTRIBUCIÓN DE FRECUENCIAS TABULARES Y GRÁFICAS
Cuando se tiene un problema en donde la muestra contenga más de 30 datos
se emplea el método de datos agrupados para obtener el histograma y las
ojivas correspondientes. El procedimiento para organizar los datos en
distribuciones de frecuencias se describe a continuación:
1. La tabla de datos se ordena de menor a mayor.
2. Se determina la tabla de frecuencias, distribución de frecuencias simples, en
la cuál se determinan los siguientes valores:
a. Se obtiene el número de datos n,
b. Se obtiene el rango menor valor - mayor valorR ,
c. Se obtiene el numero de intervalos, éste en la tabla de frecuencias
determina el numero de renglones y en el histograma determina el
numero de rectángulos o barras, el cuál está definido por la siguiente
ecuación:
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
14
nlog32.3Ni (I.3)
el resultado debe ser un numero entero por lo que si hay una fracción se
redondea el resultado.
d. Se determina el tamaño del intervalo por medio de:
i
iN
RT (I.4)
en el histograma representa el ancho del rectángulo. El resultado se
trabaja con un solo decimal. Si el resultado del rango tiene decimales,
entonces se recorre el punto hasta hacerlo un número entero antes de
sacar el tamaño del intervalo.
Criterio para determinar el tamaño del intervalo:
d.1 No se aceptan resultados enteros
d.2 No se aceptan decimales entre 4.01.0
d.3 Solo se aceptan decimales entre 9.05.0
d.4 Si el resultado obtenido de aplicar la expresión I.4 cae en el caso
d.1 o d.2 entonces el numero de intervalos se disminuye una unidad,
1Ni y se calcula el iT , si éste es rechazado, entonces ahora se
aumenta en una unidad el número de intervalos, 1Ni y se calcula el
iT . Si no se acepta el resultado, entonces al número de intervalos
original se le restan o se le suman dos unidades y así sucesivamente
hasta que sea aceptado el resultado.
Cuando el resultado sea aceptado entonces queda definido el
número de intervalos; para sacar el tamaño de intervalos finalmente se
redondea el resultado aun número entero y se coloca el punto en su
posición original.
e. Intervalo de clase: este intervalo está formado por dos valores, los
cuales son la frontera inferior if y la frontera superior sf . La frontera
inferior empieza con el valor más pequeño y se le va sumando, suma a
suma, el valor del tamaño del intervalo. El total de valores en la
frontera inferior es igual al número de intervalos. La frontera superior
toma como primer valor el segundo valor de la frontera inferior
restándole una décima, centésima, milésima o entero según la unidad
a trabajar. También se irán sumando a los resultados el valor del
tamaño del intervalo.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
15
f. Marca de Clase: es el punto medio del intervalo de clase dado por
2
ff.C.M si (I.5)
g. Intervalos reales: estos se obtienen del intervalo de clase de la
siguiente forma
g.1 Si se trabajan enteros se resta a if cinco décimas (0.5) y se
suma a sf cinco décimas (0.5),
g.2 Si se trabajan décimas (ej. 20.3) se resta a if cinco centésimas
(0.05) y se suma a sf cinco centésimas (0.05), y
g.3 Si se trabajan centésimas (ej. 5.67) se resta a if cinco milésimas
(0.005) y se suma a sf cinco milésimas (0.005).
h. Frecuencia absoluta f : es el número de datos contenidos en
determinado intervalo, se obtiene de la tabla de datos ordenados.
i. Frecuencia absoluta relativa rf :
n
ffr (I.6)
j. Frecuencia acumulada af : suma acumulada de las frecuencias
absolutas de cada uno de los intervalos, la frecuencia acumulada
“menor que” suma primero del primer intervalo al último y la
frecuencia acumulada “mayor que” suma del último intervalo al
primero .
k. Frecuencia acumulada relativa arf :
n
ff aar (I.7)
La tabla I.1 muestra un resumen de las columnas que forman la tabla de
frecuencias derivada de los pasos antes mencionados. Cabe mencionar que fi1
se lee de la siguiente manera: frontera inferior de la clase 1(o límite inferior de la
clase 1), es decir el número indica la clase a la que pertenece el valor que será
colocado en esa casilla.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13-02.V1
16
Tabla I.1. Bosquejo general de la tabla de frecuencias.
Clase
Límites de clase Marca de Clase Límites reales de clase
if sf .C.M iF sF
1
Vmf 1i
235.1
34.78
7.56
34
.ej
001.0
01.0
1.0
1
ff 2i1s
2
ff.C.M 1s1i1
34.78
7.56
34
.ej
005.0
05.0
5.0
fF 1i1i
34.78
7.56
34
.ej
005.0
05.0
5.0
fF 1s1s
2
i1i2i Tff
i1s2s Tff
2
ff.C.M 2s2i2
005.0
05.0
5.0
fF 2i2i
005.0
05.0
5.0
fF 2s2s
3
i2i3i Tff
i2s3s Tff
2
ff.C.M 3s3i3
005.0
05.0
5.0
fF 3i3i
005.0
05.0
5.0
fF 3s3s
iN
Frecuencia
Frecuencia
Relativa
Frecuencia Acumulada
Menor que …
Menos de …
Frecuencia Acumulada
Mayor que …
… o más
Frecuencia Acumulada
Relativa
Menor que …
Frecuencia Acumulada
Relativa
Mayor que …
f %fr af af %far %far
1f %100
n
ff 1
1r 11a ff 3211a ffff %100
n
ff 1a
1ar %100n
ff 1a
1ar
2f %100
n
ff 2
2r 212a fff 322a fff %100n
ff 2a
2ar %100n
ff 2a
2ar
3f %100
n
ff 3
3r 3213a ffff 33a ff %100
n
ff 3a
3ar %100n
ff 3a
3ar
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
17
Los gráficos también son métodos útiles para describir conjunto de datos. Un
histograma coloca las clases de una distribución de frecuencia en el eje
horizontal y las frecuencias en el eje vertical. Su objetivo es revelar detalles y
patrones que no se pueden discernir fácilmente de los datos originales.
Aplicando la metodología antes mencionada (paso 1 y 2: de a hasta d.4) a los
datos no agrupados de ingresos de ejecutivos de marketing se obtienen los
siguientes valores para determinar el número de clases:
n 60 valor menor 31 valor mayor 89
R 58 Ni 5.90 Ti 9.67
De acuerdo a los resultados obtenidos, como el valor del tamaño de intervalo
resulto un decimal entre 0.5 y 0.9 el número de intervalos calculado se acepta y
se redondean las cantidades correspondientes, por tanto la tabla de
frecuencias constara de seis clases con un tamaño de intervalo de 10, como se
muestra en la tabla I.2.
En la tabla I.2 se ilustran los datos agrupados de la muestra de los ingresos de 60
ejecutivos de marketing en seis intervalos de clase donde: fi y fs es la frontera
inferior y superior, respectivamente, MC es la marca de clase, Fi y Fs es la
frontera real inferior y superior, respectivamente, f es la frecuencia y fr es la
frecuencia relativa, fa < y fa > es la frecuencia acumulada “menor que” y
“mayor que”, respectivamente y finalmente far es la frecuencia acumulada
relativa.
La tabla I.3 muestra la forma general de la tabla para construir el grafico de
histograma y polígono de frecuencias en la hoja de cálculo Excel, mientras que
la figura I.1 muestra el grafico obtenido de los datos de los ingresos de 60
ejecutivos de marketing mostrados en la tabla I.2.
Tabla I.2. Datos agrupados de los ingresos de 60 ejecutivos de marketing.
Clase fi fs M.C. Fi Fs f fr (%) fa < fa > far < far >
1 31 40 35.5 30.5 40.5 9 15% 9 60 15% 100%
2 41 50 45.5 40.5 50.5 6 10% 15 51 25% 85%
3 51 60 55.5 50.5 60.5 7 12% 22 45 37% 75%
4 61 70 65.5 60.5 70.5 17 28% 39 38 65% 63%
5 71 80 75.5 70.5 80.5 18 30% 57 21 95% 35%
6 81 90 85.5 80.5 90.5 3 5% 60 3 100% 5%
60 100%
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
18
Tabla I.3 Datos utilizados para la construcción del Histograma y Polígono de Frecuencias
Clase iF sF f %fr
0 0 iV 0 0
1 1iF 1sF 1f 1rf
2 2iF 2sF 2f 2rf
3 3iF 3sF 3f 3rf
0 Último valor del
limite real superior fV 0 0
2
TFV i
1ii 2
Tsuperior real límitedel valor últimoV i
f
Figura I.1 Representación de los ingresos de ejecutivos de marketing en E.U. por medio
de un Histograma y Polígono de frecuencias.
Con frecuencia se desea determinar el número de observaciones que son
“mayor que” o “menor que” alguna cantidad. Esto puede lograrse con una
distribución de frecuencia acumulada “más de o mayor que” o una distribución
de frecuencia acumulada “menos de o menor que”.
La tabla I.4 ilustra los datos extraídos de la tabla de frecuencias para la
construcción del grafico de ojivas: “mayor que” y “menor que” utilizando la
hoja de cálculo Excel, la figura I.2 muestra el grafico obtenido de los valores de
la tabla I.4. Por ejemplo, se puede leer que de la clase uno 9 ejecutivos gana
menos de $31,000 dólares y por otra parte 60 ejecutivos gana $31,000 dólares o
más.
Ingresos de ejecutivos de marketing para empresas en E.U.
0
9
67
1718
3
0
15%
10%
28%
30%
5%1
2%
0
2
4
6
8
10
12
14
16
18
20
25.5 40.5 50.5 60.5 70.5 80.5 90.5 95.5
0 30.5 40.5 50.5 60.5 70.5 80.5 90.5
Límites Reales (miles de dólares)
Fre
cu
en
cia
(eje
cu
tivo
s)
0%
5%
10%
15%
20%
25%
30%
35%
Fre
cu
en
cia
Rela
tiva
Histograma Polígono
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
19
Una distribución de frecuencia relativa expresa las frecuencias dentro de una
clase como un porcentaje del número total de observaciones.
Tabla I.4 Datos utilizados para la construcción de las Ojivas: “mayor que” y “menor que”.
Limites
Frontera
de clase
reales
Frecuencia
Acumulada
Menor que …
Menos de …
Frecuencia
Acumulada
Mayor que …
… o más
Frecuencia
Acumulada
Relativa
Menor que …
af af %far
1iF 0 1af 0
1sF 1af 2af 1arf
2sF 2af 3af 2arf
3sF 3af 3arf
0
Figura I.2 Representación de los ingresos de ejecutivos de marketing en E.U. por
medio de Ojivas: “mayor que” y “menor que”.
La tabla I.5 ilustra los datos extraídos de la tabla de frecuencias para la
construcción del polígono de frecuencias suavizado por medio de la hoja de
cálculo Excel, cabe mencionar que en este grafico se puede observar como se
distribuyen los datos de la muestra y además en este se localizan las medidas
de tendencia central y medidas de dispersión, la figura I.3 muestra el grafico
obtenido de los datos de la tabla I.2.
Grafica de Frecuencias Acumuladas "OJIVAS"
0
9
15
22
39
576060
51
45
38
21
30
0%
15%
25%
37%
65%
95%100%
0
10
20
30
40
50
60
70
30.5 40.5 50.5 60.5 70.5 80.5 90.5
Límites Reales (miles de dolares $)
Fre
cu
en
cia
acu
mu
lad
a
0%
20%
40%
60%
80%
100%
120%
(%)
Fre
cu
en
cia
acu
mu
lad
a r
ela
tiva
fa "menor que" fa "mayor que" far "menor que"
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
20
Tabla I.5 Datos utilizados para la construcción del polígono de frecuencias suavizado.
Clase iF sF f
0 0 iV 0
1 1iF 1sF 1f
2 2iF 2sF 2f
3 3iF 3sF 3f
0 Último valor del
limite real superior fV 0
Figura I.3 Representación de los ingresos de ejecutivos de marketing en E.U. por
medio de un polígono de frecuencias suavizada.
1.7 Medidas de tendencia central
Los datos, al igual que los estudiantes, se congregan alrededor de sus puntos de
encuentro favoritos. Parece que los estudiantes acuden en masa a sitios tales
como partidos de fútbol, fraternidades, bares populares y otros sitios de reunión
y en raras ocasiones hasta la biblioteca. De igual forma, los números parecen
disfrutar de la compañía de otros números y están propensos a reunirse
alrededor de un punto central denominado medida de tendencia central o
más comúnmente, media. Una medida de tendencia ubica e identifica el
punto alrededor del cual se centran los datos.
Un conjunto de datos puede ser rápidamente descrito de manera sucinta con
un solo número.
Polígono de Frecuencias Suavizado
0
9
67
1718
3
00
2
4
6
8
10
12
14
16
18
20
25.5 40.5 50.5 60.5 70.5 80.5 90.5 95.5
Límites Reales (Miles de Dolares $)
Fre
cu
en
cia
(E
jecu
tivo
s)
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
21
1.7.1 La media
La media toma en cuenta la frecuencia y los puntos medios de cada clase, la
siguiente expresión calcula la media de un conjunto de datos agrupados
n
MCf
x
iN
1iii
(I.8)
donde
x es la media muestral,
if es la frecuencia de la i-ésima clase,
iMC es la marca de clase de la i-ésima clase,
iN es el número de intervalos, y
n es el número de datos.
1.7.2 La mediana
Primero debe hallarse la clase que contiene a la mediana, para esto se debe
cumplir el siguiente criterio
2
nfa (I.9)
Este criterio se debe verificar en cada clase empezando desde el primer
intervalo de clase hasta el último intervalo de clase. La clase que cumpla con la
condición se le llamará clase mediana. La expresión que calcula la posición
del valor que se encuentra a la mitad del conjunto de datos es la siguiente
i
aA
i Tf
f2
n
Fx~
(I.10)
donde
iF es la frontera inferior real de la clase que contiene a la mediana,
aAf es la frecuencia acumulada anterior a la clase que contiene a la mediana,
f es la frecuencia de la clase que contiene a la mediana, y
iT es el tamaño del intervalo.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
22
1.7.3 La moda
Ya que por definición la moda es la observación que ocurre con mayor
frecuencia, se hallará en la clase que tenga la frecuencia más alta, llamada la
clase modal. Para estimar la moda en el caso de datos agrupados, se utiliza la
siguiente ecuación:
i21
1i TFx̂
(I.11)
donde:
iF es la frontera inferior real de la clase modal,
1 es la diferencia de la frecuencia de la clase modal menos anterior,
2 es la diferencia de la frecuencia de la clase modal menos la siguiente, y
iT es el tamaño del intervalo.
La media es la medida más común de tendencia central. Se presta para mayor
manipulación e interpretación algebraica. Desafortunadamente se ve
afectada por valores extremos o atípicos, y a diferencia de la mediana, puede
ser sesgada por las observaciones que están muy por encima o muy por debajo
de ésta. Debido a que la mediana no se ve afectada por valores extremos,
representa mejor el conjunto de observaciones. La moda también es menos
afectada por valores atípicos, sin embargo, si no hay moda, o si el conjunto de
datos es bimodal, su uso puede ser confuso.
Esto no implica que una medida sea necesariamente mejor que las otras. La
medida que se seleccione depende de la naturaleza de los datos o de la forma
como se utilicen los datos.
1.8 Medidas de dispersión, asimetría y kurtosis
Para describir un conjunto de datos se ha observado que es de utilidad ubicar
el centro del conjunto de datos. Pero identificar una medida de tendencia
central rara vez es suficiente. Una descripción más completa del conjunto de
datos puede obtenerse si se mide que tan dispersos están los datos alrededor
de dicho punto central. Esto es precisamente lo que hacen las medidas de
dispersión, indican cuánto se desvían las observaciones alrededor de su media.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
23
1.8.1 El rango
La medida de dispersión más simple y menos útil es el rango o recorrido. El
rango es simplemente la diferencia entre la observación más alta y la más baja.
Su ventaja es que es fácil de calcular. Su desventaja es que considera sólo dos
de los cientos de observaciones que hay en un conjunto de datos.
1.8.2 Varianza y desviación estándar
La varianza y la desviación estándar son medidas de dispersión mucho más
útiles, proporcionan una medida más significativa sobre el punto hasta el cual
se dispersan las observaciones alrededor de su media.
Si los datos están agrupados en una tabla de frecuencia, la varianza y la
desviación estándar muestral pueden calcularse respectivamente como
1n
n
MCf
MCf
s
2iN
1iii
iN
1i
2ii
2
(I.12)
ianzavars (I.13)
donde
2s es la varianza de la muestra,
s es la desviación estándar de la muestra, y 2iMC es la marca de clase de la i-ésima clase elevada al cuadrado
1.8.3 Asimetría
1.8.3.1 La distribución normal y la regla empírica
La desviación estándar puede utilizarse para sacar ciertas conclusiones si el
conjunto de datos en cuestión está distribuido normalmente. Una distribución
normal es una distribución de datos continuos (no discreto) que produce una
curva simétrica en forma de campana, como la que se muestra en la figura I.4.
Se asume que se tiene un número grande de observaciones, si los datos están
distribuidos normalmente, una gráfica de la frecuencia con la cual ocurre cada
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
24
observación tomará la forma de la figura I.4. Las observaciones en cada
extremo ocurrirán relativamente de forma poco frecuente, pero las
observaciones que están más cerca de la mitad ocurrirán con una frecuencia
alta, por tanto se produce la curva simétrica en forma de campana. La
observación modal es la que ocurre con mayor frecuencia y por tanto está en
el pico de la distribución. En una distribución normal la media, mediana y la
moda son todas iguales.
Figura I.4 Distribución normal.
La regla empírica se ilustra gráficamente en la figura I.5, ésta específica que:
68.3% de las observaciones están dentro de más o menos una desviación
estándar de la media ( s1xvmínimo y s1xvmáximo ),
95.5% de las observaciones están dentro de más o menos dos
desviaciones estándar de la media ( s2xvmínimo y s2xvmáximo ), y
99.7% de las observaciones están dentro de más o menos tres
desviaciones estándar de la media ( s3xvmínimo y s3xvmáximo ).
Es importante recordar que la regla empírica describe el área total bajo la
curva normal que se encuentra dentro de un rango dado.
Si las observaciones están altamente dispersas, la curva en forma de campana
se aplanará y se esparcirá. La kurtosis mide el grado de agudeza de una
distribución, está se clasifica como curva leptokurtica (delgada), curva
mesokurtica (intermedia) y curva platikurtica (aplanada).
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
25
Figura I.5 La distribución normal y la regla empírica.
1.8.3.2 Sesgo (medidas de asimetría)
No todas las distribuciones son normales, algunas están sesgadas a la izquierda
o a la derecha como se muestra en la figura I.6, en ambos casos, la moda por
es por definición la observación que ocurre con mayor frecuencia. Por tanto,
está en el pico de la distribución. Sin embargo, como se dijo anteriormente, por
su naturaleza la media se ve más afectada por las observaciones extremas. Por
tanto, es jalada en la dirección del sesgo, más de lo que está la mediana, la
cual está en algún sitio entre la media y la moda.
El sesgo es el grado de asimetría y puede medirse con el coeficiente de sesgo
de Pearson
s
x̂xS 1k
(I.14)
s
x~x3S 2k
(I.15)
Si 0SyS 2k1k , los datos están sesgados a la izquierda (-), si 0SyS 2k1k , los
datos están sesgados a la derecha (+); si 0SyS 2k1k están distribuidos
normalmente.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
26
Figura I.6. Distribuciones sesgadas.
1.8.3.3 Coeficiente de variación (dispersión relativa)
Cuando se consideran dos o más distribuciones que tienen medias
significativamente diferentes, o que están medidas en unidades diferentes, es
peligroso sacar conclusiones respecto a la dispersión sólo con base a la
desviación estándar, recuerde no se puede mezclar perros con gatos.
Por tanto, con frecuencia debemos considerar el coeficiente de variación
(C.V.), el cual sirve como medida relativa de dispersión. El coeficiente de
variación determina el grado de dispersión de un conjunto de datos relativo a
su media por medio de la siguiente expresión
%100x
s.V.C (I.16)
1.9 Medidas de posición
Aunque la varianza y la desviación estándar son las medidas de dispersión más
útiles en análisis estadístico, existen otras técnicas con las cuales puede medirse
la dispersión de un conjunto de datos. Estas medidas adicionales de dispersión
son los cuartiles, los deciles y los percentiles.
Cada conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes
iguales. El primer cuartil es ese valor debajo del cual clasifica el 25% de las
observaciones, y sobre el cual puede encontrarse el 75% restante. El segundo
cuartel es justo la mitad. La mitad de las observaciones están por debajo y la
mitad por encima. El tercer cuartel es el valor debajo del cual está el 75% de las
observaciones y encima del cual puede encontrarse el 25% restante.
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
27
Primero debe hallarse las clases que contienen al primer, segundo y tercer
cuartel, para esto se debe cumplir el siguiente criterio, respectivamente
localización del primer cuartIl
4
nfa (I.17)
localización del segundo cuartil
4
n2fa (I.18)
localización del tercer cuartIl
4
n3fa (I.19)
Estas condiciones se deben verificar en cada clase empezando desde el primer
intervalo de clase hasta el último intervalo de clase. Las expresiones que
calculan la posición de cada cuartil son las siguientes
i
aA
i1 Tf
f4
n
FQ
(I.20)
i
aA
i2 Tf
f4
n2
FQ
(I.21)
i
aA
i3 Tf
f4
n3
FQ
(I.22)
donde
iF es la frontera inferior real de la clase que contiene al cuartil,
aAf es la frecuencia acumulada anterior a la clase que contiene al cuartil,
f es la frecuencia de la clase que contiene al cuartil, y
iT es el tamaño del intervalo.
Una medida única de dispersión es el rango intercuartílico (R.I.). La mitad de las
observaciones se clasifican dentro de este rango. Consta del 50% de la mitad
de las observaciones y corta el 25% inferior y el 25% superior de los puntos de
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
28
datos. Como resultado, le R.I. proporciona una medida de dispersión que no
está muy influenciada por unas cuantas observaciones extremas.
13 QQ.I.R (I.23)
Los deciles separan un conjunto de datos en 10 subconjuntos iguales, y los
percentiles en 100 partes. El primer decil es la observación debajo de la cual se
encuentra el 10% de las observaciones, mientras que el 90% restante se
encuentra encima de éste. El primer percentil es el valor debajo del cual se
encuentra el 1% de las observaciones, y el resto están encima de éste. Todo
conjunto de datos tiene 9 deciles y 99 percentiles.
Batería 2 de ejercicios:
1. Determinación del número de intervalos iN y tamaño del intervalo iT .
Considere los siguientes datos:
a. 50n y 52R
b. 35n y 820R
c. 35n y 01.82R
d. 30n y 1.90R
e. 30n y 194R
1. Un conjunto de datos contiene 100 observaciones; la más grande es 315 y la
más pequeña es 56.
a. ¿Cuántas clases debería tener la tabla de frecuencias?
b. ¿Cuál es el intervalo de clase?
c. ¿Cuáles son los límites y puntos medios de cada clase?
2. En un estudio reciente sobre 500 graduados en administración de negocios,
el salario inicial más alto que se reportó fue de $27,500 dólares y el más bajo
fue de $19,900 dólares. Usted desea crear la tabla de frecuencias para
analizar y comparar estos datos con las ofertas de trabajo que usted ha
recibido.
d. ¿Cuántas clases pondrán en su tabla de frecuencia?
e. ¿Cuál es el intervalo de clase?
f. ¿Cuáles son los límites y puntos medios de cada clase?
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
29
3. Los siguientes datos son los ingresos de 60 ejecutivos de marketing para
empresas de Estados Unidos. Los datos están expresados en miles de dólares.
58 76 89 45 67 34
64 76 34 65 45 39
79 74 56 71 85 87
74 38 69 79 61 71
69 62 56 38 69 79
71 54 31 69 62 39
65 79 47 46 77 66
55 75 62 57 77 36
73 72 64 69 51 50
40 50 74 61 69 73
g. Construya una tabla de frecuencia para los datos. Tenga mucho
cuidado en la selección de sus intervalos de clase. Muestre las
frecuencias acumulativas y relativas para cada clase. ¿Qué
conclusión puede sacar de la tabla?
h. Presente y explique una distribución de frecuencia acumulada “más
que” y una distribución “menor de”.
4. Las edades de cincuenta de los directores ejecutivos de las mejores
corporaciones de la nación reportadas en la edición de la revista Forbes de
la edición del 24 de Mayo de 1997 aparecen en la siguiente tabla de
frecuencias. EDADES Frecuencias
50 54 8
55 59 13
60 64 15
65 69 10
70 74 3
75 79 1
5. La misma edición de la revista Forbes también proporcionó datos sobre los
salarios en miles de dólares. Resulto la siguiente tabla de frecuencias:
Salario (en miles de dólares) Frecuencias
90 439 9
440 789 11
790 1139 10
1140 1489 8
1490 1839 4
1840 2189 3
2190 2540 5
PROBABILIDAD Y ESTADÍSTICA UNIDAD I
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
30
a. Calcule e interprete la media, mediana y la moda.
b. Calcule e interprete la varianza y la desviación estándar.
c. Construya el histograma y polígono de frecuencias.
d. Construya las ojivas.
e. Construya el polígono de frecuencias suavizado e indique sus
resultados
(media, mediana, moda, sesgo, C.V. y C.A.) en éste.
f. ¿Los salarios están tan dispersos como las edades del problema
anterior.
6. The Wall Street Journal describió una disputa entre la gerencia y el sindicato
de trabajo local respecto a la eficiencia y productividad de los trabajadores.
La gerencia argumentaba que a los empleados les tomaba más de 20
minutos terminar cierto trabajo. Si se mide el tiempo de 85 empleados,
arrojando los resultados tabulados, con base en esta muestra, ¿la gerencia
está en lo correcto?
Clase
(número de minutos) Frecuencia
(número de empleados)
5 6 2
7 8 8
9 10 10
11 12 15
13 14 17
15 16 14
17 18 7
19 20 9
21 23 3
a. Calcule la media, mediana y la moda.
b. Calcule la varianza y la desviación estándar.
c. Construya el histograma y polígono de frecuencias.
d. Construya las ojivas.
e. Construya el polígono de frecuencias suavizado e indique sus
resultados
(media, mediana, moda, sesgo, C.V. y C.A.) en éste.
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
31
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 1. CONCEPTOS BÁSICOS
Calificación:
Completa los espacios en blanco:
1. La ________________ ________________ se ocupa de la __________________, __________________,
_________________, ________________ e ________________ de datos, por tanto, la estadística es un método
científico que pretende sacar conclusiones a partir de unas observaciones hechas.
2. La Estadística actúa como disciplina puente entre los _______________ _______________ y los
_________________ __________________. Un ______________ _________________ es una abstracción
simplificada de una realidad más compleja y siempre existirá una cierta discrepancia entre lo que se
observa y lo previsto por el modelo.
3. La __________________________ es la recolección completa de todas las observaciones de interés para
el investigador. Ésta puede ser ____________________ o _________________.
4. El ____________________ es una medida ___________________ de la población total de todas las
____________________ de interés para el investigador.
5. La _____________________ es una parte representativa de la __________________ que se selecciona para
ser _______________________ ya que la población es demasiado ________________ como para analizarla
en su totalidad.
6. El ______________________ es el elemento que describe una _______________ y sirve como una estimación
del parámetro de la población correspondiente.
Completa el siguiente cuadro sinóptico:
Variable
Es una ________________________
de la población que se está
analizando en un estudio
estadístico
Pueden tomar
valores no
cuantificables
numéricamente
.
Pueden tomar valores
cuantificables
numéricamente.
Grupo sanguíneo (A, B, AB, O+)
Color de ojos (azul, negros, etc.)
Sólo toma dos valores posibles
Cuando existe un cierto orden
entre las categorías, por ejemplo:
(bajo, medio, alto)
Enteros: numero de hermanos,
número de multas/año.
Reales: peso de un individuo,
tiempo de reacción a un
medicamento.
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
32
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
Busca la palabra que complete la oración en la sopa de letras:
7. Las variables pueden clasificarse con base en su escala de ________________.
8. Una medida en escala _________________ se crea cuando se utilizan ________________ para establecer
categorías dentro de las cuales las _________________ pueden registrarse exclusivamente. Es importante
recordar que ésta no indica ningún orden de preferencia, sino que simplemente establece una
disposición ______________________ en la cual se puede ubicar cada observación.
9. Una medida en escala ________________, son las que ______________ las observaciones en categorías
con un orden significativo. Hay quien clasifica sus productos como “buenos”, “mejores” y “los mejores”.
10. En una escala de _______________ las variables se miden de manera ______________, y al igual que los
datos ordinales, llevan inherente un rango u ordenamiento. El valor de ______________ es arbitrario pero
la diferencia entre valores es importante.
11. En una escala de ________________, las medidas son numéricas, el cero es un valor _____________ en
cualquier escala y la diferencia entre valores es importante. Con datos medidos en una escala de
_________________, se puede determinar cuántas veces es mayor una medida que otra.
M I N A L S C A T E G O R I C A I V B J O T I P
E W W E O C V Q R M K J Y N U M E R I D F G K O
D D S D R R R U G J N L U I N T E R V J K L O L
I X A O R D D I N A L L E S D F K G H J K O P L
D A D O A E R I I R T O P J H G F D A S R T Y M
A G F C Q D F P N S T Ñ L I N T E R V A L O J T
A V I O E C V R U A A S D F O A N O M I K A K G
S O V R T V C E O A L T G M M X R A Z B E B L V
D U G D R S D W P X C A O N B G O N S I D F T A
F O N O O D R E C C V Y S B R A Z O N N C C M R
G C U M B R I A E V B K P H E M O N O O V D N I
J I M F T S B M R A Z I N D S C H A N K T E O A
K E E C Y P R N O M I N A L P A L A B R G A F B
L A R J K Ñ F R T M N J H H G B N M Y U I O Q L
I F I J O S Y E R P C R T Y U D I O S H E F A E
U Q C S E R O Y U O L T Y S H K M N H J S G E S
Y V A Y U D Y A N O A M I N A L E R T Y F H I P
T D X R A S O O N C L A S C L A S I F I C A N P
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
33
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 2. Número de intervalos Óptimo
Calificación:
Las edades de 50 integrantes de un programa de servicio social del gobierno son:
38 51 56 62 66 68 73 77 82 88
42 51 56 64 66 68 74 78 83 91
44 54 60 65 66 69 74 79 83 92
47 55 60 65 67 70 75 80 84 98
51 55 61 65 68 71 76 82 87 99 Use estos datos para construir la tabla de frecuencias con 7 y 13 intervalos iguales.
Suponga que el director de servicios sociales desea saber la proporción de participantes en el
programa que tienen entre 45 y 50 años de edad. ¿a partir de cuál distribución de frecuencias
relativas, de 7 o de 13 intervalos, puede estimar mejor la respuesta?
Valor menor =
Valor mayor =
Rango =
Caso 1: Ni = 7
Tamaño del intervalo 𝑇𝑖 =𝑅
𝑁𝑖
Clase fi fs M.C. Fi Fs f fr (%) fa < q fa > q far < q far > q
1
2
3
4
5
6
7
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
34
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
Caso 2: Ni = 13
Tamaño del intervalo 𝑇𝑖 =𝑅
𝑁𝑖
Clase fi fs M.C. Fi Fs f fr (%) fa < q fa > q far < q far > q
1
2
3
4
5
6
7
8
9
10
11
12
13
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100 110
%
LÍMITES REALES
Ojivas (Frecuencias acumuladas relativas)
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
35
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 3. Medidas de tendencia central y de dispersión en datos agrupados
Calificación:
1. Las edades de cincuenta de los directores ejecutivos de las mejores corporaciones de la nación reportadas en la edición de la revista Forbes de
la edición del 24 de Mayo de 1997 aparecen en la siguiente tabla de frecuencias. clase fi fs M.C. Fi Fs f fr fa < fa> far< far> f*MC f*MC2
1 50 54 8
2 55 59 10
3 60 64 15
4 65 69 9
5 70 74 7
6 75 79 1
Medidas de tendencia central:
n
MCf
x
iN
1iii
i
aA
i Tf
f2
n
Fx~
2
nfa
i21
1i TFx̂
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
36
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
Medidas de dispersión, asimetría y kurtosis:
1n
n
MCf
MCf
s
2iN
1iii
iN
1i
2ii
2
s1xvmínimo
s1xvmáximo
s2xvmínimo
s2xvmáximo
ianzavars s3xvmínimo
s3xvmáximo %100
x
s.V.C
s
x̂xS 1k
s
x~x3S 2k
Medidas de posición:
4
nfa
i
aA
i1 Tf
f4
n
FQ
4
n2fa
i
aA
i2 Tf
f4
n2
FQ
4
n3fa
i
aA
i3 Tf
f4
n3
FQ
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
37
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
clase Fi Fs f %fr
1
2
3
4
5
6
FR fa < fa > far < far >
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0
5
10
15
20
25
30
35
40
45
50
49.5 54.5 59.5 64.5 69.5 74.5 79.5
% D
E E
JE
CU
TIV
OS
NU
ME
RO
DE
EJE
CU
TIV
OS
EDAD (AÑOS)
OJIVAS
0%
5%
10%
15%
20%
25%
30%
35%
0
2
4
6
8
10
12
14
16
% D
E D
IRE
CT
IVO
S
NU
ME
RO
DE
DIR
EC
TIV
OS
EDAD (AÑOS)
EDADES DE LOS DIRECTIVOS DE LAS MEJORES CORPORACIONES EN E.U.
49.5 54.5 59.5 64.5 69.5 74.5 79.544.5
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
38
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 4. Caso de estudio I
Calificación:
The Wall Street Journal describió una disputa entre la gerencia y el sindicato de trabajo local
respecto a la eficiencia y productividad de los trabajadores. La gerencia argumentaba que a
los empleados les tomaba más de 20 minutos terminar cierto trabajo. Si se mide el tiempo de 85
empleados, arrojando los resultados tabulados, con base en esta muestra, ¿la gerencia está en
lo correcto?
Clase
(número de minutos)
Frecuencia
(número de empleados)
5 6 2
7 8 8
9 10 10
11 12 15
13 14 17
15 16 14
17 18 7
19 20 9
21 22 3
a. Calcule la media, mediana y la moda.
b. Calcule la varianza y la desviación estándar.
c. Construya el histograma y polígono de frecuencias.
d. Construya las ojivas.
Conclusiones
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
39
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 5. Caso de estudio II
Calificación:
Los siguientes datos representan las declaraciones trimestrales de impuestos por ventas (en miles
de dólares), correspondientes al período que finalizó en marzo de 2004, enviados al contralor
del poblado Fair Lake por los 50 negocios establecidos en dicha localidad:
10.3 11.1 9.6 9.0 14.5
13.0 6.7 11.0 8.4 10.3
13.0 11.2 7.3 5.3 12.5
8.0 11.8 8.7 10.6 9.5
11.1 10.2 11.1 9.9 9.8
11.6 15.1 12.5 6.5 7.5
10.0 12.9 9.2 10.0 12.8
12.5 9.3 10.4 12.7 10.5
9.3 11.5 10.7 11.6 7.8
10.5 7.6 10.1 8.9 8.6
a. Calcule la media, la varianza y la desviación estándar de esta población.
b. ¿Qué proporción de estos negocios tienen declaraciones trimestrales de impuestos
sobre ventas dentro de ±1, ±2 o ±3 desviaciones estándar de la media?
c. Compare y encuentre las diferencias entre sus hallazgos con lo que cabría esperar
de acuerdo con la regla empírica. ¿le sorprenden los resultados obtenidos en b)?
Conclusiones:
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
40
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 6. Caso de estudio III
Calificación:
Virginia Suboleski es una supervisora de mantenimiento de aeronaves. Una entrega reciente de
pernos por parte de un nuevo proveedor llamó la atención de uno de los empleados. Suboleski
envió 25 de esos pernos a un laboratorio de pruebas para determinar la fuerza necesaria para
romperlos. A continuación presentamos los resultados en miles de libras de fuerza:
147.8 137.4 125.2 141.1 145.7
119.9 133.3 142.3 138.7 125.7
142.0 130.8 129.8 141.2 134.9
125.0 128.9 142.0 118.6 133.0
151.1 125.7 126.3 140.9 138.2
a. Calcule la media, mediana y la moda.
b. Calcule la varianza y la desviación estándar.
c. Construya el histograma y polígono de frecuencias.
d. Construya las ojivas.
Conclusiones:
PROBABILIDAD Y ESTADÍSTICA UNIDAD II
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
41
PROBABILIDAD
Competencia: Conocer y aplicar los axiomas y teoremas de probabilidad en la
solución de problemas.
INTRODUCCIÓN
Sin tener en cuenta la profesión que se haya elegido, algo sí es seguro, en algún
momento se han de tomar decisiones. Con mucha frecuencia esto tendrá que
hacerse sin conocer todas las consecuencias de tales decisiones. Por ejemplo, los
inversionistas deben decidir sobre la conveniencia de invertir en una acción en
particular, con base en sus expectativas sobre rendimientos futuros. Los
empresarios al decidir comercializar un producto enfrentan la incertidumbre
sobre la posibilidad de éxito. En cada caso, como sucede con la mayoría de los
asuntos comerciales, se han de tomar decisiones sin toda la información
pertinente.
Todo esfuerzo por reducir el nivel de incertidumbre en el proceso de toma de
decisiones incrementa enormemente la probabilidad de que se tomen
decisiones más inteligentes y bien informadas. El propósito de esta unidad es
ilustrar las formas en las cuales puede medirse la posibilidad o probabilidad de
ocurrencia de eventos futuros.
2.1 TÉCNICAS DE CONTEO
En este tema se presentarán cuatro métodos, combinaciones, permutaciones,
escogencia múltiple y multiplicación, para determinar sin enumeración directa el
número de resultados posibles de un experimento particular o el número de
elementos de un conjunto particular.
2.1.1 Principio fundamental del conteo
Si un evento puede realizarse de 1n maneras diferentes, y si, continuando el
procedimiento, un segundo evento puede realizarse de 2n maneras diferentes, y
si, después de efectuados, un tercer evento puede realizarse de 3n maneras
diferentes, y así sucesivamente, entonces el número de maneras en que los
eventos pueden realizarse en el orden indicado es el producto:
321 nnn (II.1)
Ejemplo 2.1 Supongamos que una placa de automóvil consta de dos letras
distintas seguidas de tres dígitos de los cuales el primero no es cero.
¿Cuántas placas diferentes pueden grabarse?
PROBABILIDAD Y ESTADÍSTICA UNIDAD II
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
42
Solución: La primer letra puede colocarse de 26 maneras diferentes
(supuesto el alfabeto de 26 letras), la segunda letra de 25 maneras
diferentes (puesto que la letra grabada en la primer posición no puede
escogerse como segunda letra), para el primer dígito, para el primer dígito
hay nueve números, es decir nueve maneras, y para cada uno de los otros
dos dígitos 10 maneras. Por lo tanto pueden grabarse
000585101092526 , ; por tanto se podrían formar 585,000 placas
diferentes.
2.1.2 Permutaciones
Si un orden es suficiente para constituir otro subconjunto de r objetos tomados de
un conjunto de n objetos entonces se trata de permutaciones. Una permutación
de los n objetos tomados r a la vez se define como
!rn
!nPrn
(II.2)
Donde n! se lee “n factorial” y significa el producto de todos los números de 1 a
n. Por tanto 120123455 ! . Por definición 10 ! .
Ejemplo 2.1 Hallar el número de palabras de tres letras diferentes que pueden
formarse con las letras: a, b, c, d, e, f.
Solución: Representemos las palabras de tres letras por tres cajas:
Ahora la primera letra puede escogerse de seis formas diferentes; en
seguida, la segunda letra se puede escoger de cinco formas diferentes; y
después de esto, la última letra se puede escoger de cuatro formas
diferentes. Escribamos cada número en su correspondiente caja como
sigue:
Aplicando la expresión II.2 se tiene:
120
6
720
36
636
!
!P
PROBABILIDAD Y ESTADÍSTICA UNIDAD II
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
43
Por tanto se pueden formar 120 posibles palabras de tres letras sin
repetición.
2.1.3 Escogencia Múltiple
Muchos problemas del análisis combinatorio y, en particular, de probabilidad se
relacionan con la escogencia de una bola tomada de una urna que contiene n
bolas (o una carta de una baraja o una persona de una población). Cuando
escogemos una bola tras otra de una urna, r veces, definimos esta escogencia
como una prueba ordenada de tamaño r. Se consideran dos casos:
1. Pruebas con sustitución. En este caso cada bola escogida se regresa a la
urna antes de tomar la siguiente. Ahora puesto que hay n maneras
diferentes para escoger cada bola, según el principio fundamental del
conteo hay r
veces r
nnnnn (II.3)
pruebas ordenadas diferentes de tamaño r con sustitución.
2. Pruebas sin sustitución. Aquí la bola no se devuelve a la urna antes de
escoger la siguiente. Así no hay repeticiones en la prueba ordenada. O
sea que, una prueba ordenada de tamaño r sin sustitución es simplemente
una permutación r de objetos de la urna. Por consiguiente hay
!rn
!nPrn
(II.4)
pruebas ordenadas diferentes de tamaño r sin sustitución tomadas de un
grupo de n objetos.
Ejemplo 2.2 ¿De cuantas maneras se pueden escoger tres cartas sucesivas de
una baraja de 52 cartas, (1) con sustitución, (2) sin sustitución?
Solución: (1) si cada carta se regresa al naipe antes de escoger la siguiente,
entonces cada carta puede escogerse de 52 maneras diferentes. Entonces
hay 60814052525252 3 , pruebas ordenadas diferentes de tamaño
tres con sustitución. (2) Por otra parte si no hay sustitución, entonces la
primera carta puede escogerse de 52 maneras diferentes, la segunda
carta tiene 51 maneras diferentes y la última carta tiene 50 maneras
diferentes, por tanto hay 600132352 ,P pruebas ordenadas diferentes de
tamaño tres sin sustitución.
PROBABILIDAD Y ESTADÍSTICA UNIDAD II
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
44
2.1.4 Combinaciones
Supongamos que tenemos una colección de n objetos. Una combinación de
estos n objetos tomados r a la vez, o una combinación r, es un subconjunto de r
elementos. En otras palabras, una combinación r es una selección de r o de n
objetos donde el orden no se tiene en cuenta.
!rn!r
!nCrn
(II.5)
Ejemplo 2.3 Considere que dados 10 productos, ¿cuántos subconjuntos de tres
productos podrían empacarse juntos y ofrecerse a los clientes? Si se considera
que el orden en el cual se ofrecen los tres productos no influirá en los clientes.
Solución: El número de combinaciones de 10 elementos tomados 3 a la vez es
120310 C . Por tanto hay 120 paquetes de tres artículos que se pueden ofrece a
los clientes.
2.2 ENFOQUES DE PROBABILIDAD
La probabilidad es la posibilidad numérica de que ocurra un evento. La
probabilidad de un evento es medida por valores comprendidos entre 0 y 1. Entre
mayor sea la probabilidad de que ocurra un evento, su probabilidad asignada
estará más próxima a 1, mientras que la probabilidad de una imposibilidad es 0,
ésta se expresa como:
10 EP (II.6)
El proceso que produce un evento es denominado experimento. Un experimento
es toda acción bien definida que conlleva a un resultado único bien definido.
El conjunto de todos los posibles resultados para un experimento es el espacio
muestral representado por:
nx,,x,xS 21 (II.7)
La teoría de la probabilidad ocupa un lugar importante en muchos asuntos de
negocios. Las pólizas de seguros de vida dependen de las tablas de mortalidad,
las cuales a su vez se basan en probabilidades de muerte en edades específicas.
Otras tasas de seguros tales como seguro de bienes raíces y de automóviles se
determinan de manera similar. La probabilidad también juega un papel
importante en la estimación del número de unidades defectuosas en un proceso
de fabricación, la probabilidad de recibir pagos sobre cuentas por cobrar y las
ventas potenciales de un nuevo producto.
PROBABILIDAD Y ESTADÍSTICA UNIDAD II
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
45
Existen sólo tres formas generalmente aceptadas para enfocar: (1) modelo de
frecuencia relativa (o a posteriori), (2) modelo subjetivo y (3) modelo clásico (o a
priori).
El modelo de frecuencia relativa utiliza datos que se han observado
empíricamente, registra la frecuencia con que ha ocurrido algún evento en el
pasado y estima la probabilidad de que el evento ocurra nuevamente con base
en estos datos históricos. La probabilidad de un evento con base al modelo de
frecuencia relativa se determina mediante:
nesobservacio de totalNúmero
pasado el en evento el ocurrido ha que veces de NúmeroEP (II.8)
El modelo subjetivo requiere establecer la probabilidad de algún evento con
base en la mejor evidencia disponible. En muchos casos esto puede ser apenas
una conjetura hecha sobre cierta base. El modelo subjetivo se utiliza cuando se
desea asignar probabilidad a un evento que nunca ha ocurrido. Por ejemplo la
probabilidad de que una mujer sea elegida como presidente de México, debido
a que no hay datos sobre los cuales confiar, deben analizar las opiniones y
creencias para obtener una estimación subjetiva.
De los tres métodos para medir la probabilidad, el modelo clásico es el que se
relaciona con mayor frecuencia con las apuestas y juegos de azar. La
probabilidad clásica de un evento E se determina mediante:
resultados posibles de totalNúmero
evento un ocurrir puede que lasen formas de NúmeroEP (II.9)
2.3 Axiomas de Probabilidad
2.3.1 Uniones, intersecciones y relaciones entre eventos
Un conjunto es una colección de objetos bien definida. Se asume que se han
identificado dos conjuntos A y B. Cada uno contiene numerosos elementos. Un
diagrama de Venn es una herramienta útil para mostrar la relación entre
conjuntos.
Intersección entre A y B BA : es el conjunto de todos los elementos que están
tanto en A como en B. Los eventos A y B se les denomina eventos no disyuntos.
La figura 2.1(a) muestra el correspondiente diagrama de Venn.
Unión de A y B BA : es el conjunto de todos los elementos que están en A o en
B. La figura 2.1(b) muestra el diagrama de Venn de la unión de dos eventos.
PROBABILIDAD Y ESTADÍSTICA UNIDAD II
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
46
Figura II.1 Diagrama de Venn: (a) A intersección B y (b) A unión B
Se dice que dos eventos son mutuamente excluyentes si la ocurrencia de uno
prohíbe la ocurrencia del otro.
Los eventos son independientes, si la ocurrencia de uno no tiene nada que ver
con la ocurrencia del otro.
Cuando se saca de un conjunto finito, dos eventos son independientes si y sólo si
se realiza el reemplazo. Sin embargo, si el primer elemento no se reemplaza antes
de sacar el segundo elemento, los dos eventos son dependientes.
2.3.2 Tablas de contingencia y tablas de probabilidad
Una tabla de contingencia permite examinar o comparar dos variables. De los
500 empleados de King Dynamics, Inc. 170 están clasificados como miembros de
personal administrativo, 290 como trabajadores de línea y 40 son auxiliares. La
tabla compara el género de los trabajadores y la clasificación que tienen éstos.
Tabla II.1 Tabla de contingencia para King Dynamics
Clasificación de los empleados
Género
Administrativo
Línea
Auxiliar
Total
Hombres
120 150 30 300
Mujeres
50 140 10 200
Total 170 290 40 500
Una tabla de probabilidad puede crearse dividiendo cada una de las entradas
de la tabla anterior entre el total, 500 trabajadores. Los resultados se ven en la
tabla.
PROBABILIDAD Y ESTADÍSTICA UNIDAD II
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
47
Tabla II.2 Tabla de probabilidad para King Dynamics
Clasificación de los empleados
Género Administrativo S Línea L Auxiliar A Total
Hombres H 240500120 . 300
500150 . 060
50030 . 600
500300 .
Mujeres M 10050050 . 280
500140 . 020
50010 . 400
500200 .
Total 340500170 . 580
500290 . 080
50040 . 001
500500 .
Los valores en las márgenes de la tabla se llaman probabilidades marginales. Por
ejemplo, la probabilidad de seleccionar un trabajador de línea de manera
aleatoria es
580.LP
y la probabilidad de seleccionar un hombre es
600.MP
Las probabilidades conjuntas en las celdas de la estructura principal de la tabla
muestran la probabilidad de la intersección entre dos eventos. Por ejemplo, la
probabilidad de seleccionar un trabajador que sea parte del personal
administrativo y que sea hombre, es
240.SHP
Una probabilidad marginal se encuentra como la suma de las probabilidades
conjuntas correspondientes. Por tanto
600060300240 ....AHPLHPSHPHP
2.3.3 Probabilidad condicional
Es la probabilidad de que el evento A ocurra, dado que el evento B ya ocurrió.
Se denota como B|AP y se lee la “probabilidad de A dado B”. La formula
general para calcular la probabilidad condicional, es la siguiente:
BP
BAPB|AP
(II.10)
Para ilustrar la aplicación de la expresión III.10, retomemos la tabla de
probabilidades de King Dynamics, se puede observar que la probabilidad de que
un trabajador tomado aleatoriamente sea hombre es
600.HP
PROBABILIDAD Y ESTADÍSTICA UNIDAD II
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
48
sin embargo, si se desea calcular la probabilidad de que el trabajador sea
hombre dado que es un miembro del personal administrativo S|HP se puede
hallar así
710340
240.
.
.
SP
SHPS|HP
2.3.4 Las dos reglas de la probabilidad
Para calcular la probabilidad de eventos más complejos utilizaremos la regla de
la multiplicación y la regla de la adición. Cada una se utiliza para propósitos
específicos.
2.3.4.1 Regla de la multiplicación
El propósito de la regla de la multiplicación es determinar la probabilidad del
evento conjunto BAP . Es decir, que para encontrar la probabilidad de A y B,
simplemente se multiplican sus respectivas probabilidades. El procedimiento
exacto depende de si A y B son dependientes o independientes.
Los eventos A y B son independientes si B|APAP . Es decir, la probabilidad de
A es la misma bien se considere o no el evento B. De igual forma, si A y B son
independientes, si A|BPBP
Para eventos independientes la probabilidad de dos eventos se vuelve:
BPAPBAP (II.11)
Si los eventos son dependientes, entonces, por definición, se debe considerar el
primer evento al determinar la probabilidad del segundo. Es decir, la
probabilidad del evento B depende de la condición que A ya haya ocurrido. Se
necesita del principio de probabilidad condicional. La probabilidad de los
eventos conjuntos A y B:
A|BPAPBAP (II.12)
Retornando a la tabla de probabilidad para King Dynamics, tabla II.2, se observa
que la probabilidad marginal de la segunda fila muestra claramente que
40.MP
sin considerar si el trabajador es miembro administrativo, línea o auxiliar. Sin
embargo, la probabilidad conjunta de que sea mujer y miembro de línea
280.LMP
También se puede calcular esta probabilidad utilizando la expresión II.12
PROBABILIDAD Y ESTADÍSTICA UNIDAD II
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
49
M|LPMPLMP
el último término es probabilidad condicional, la cual se determinó anteriormente
como
7040
280.
.
.
MP
MLPM|LP
entonces
2807040 ...M|LPMPLMP
Aunque el uso de una tabla II.2 puede simplificar el cálculo de probabilidad,
existen ejemplos en los cuales es muy difícil la creación de una tabla, por lo tanto
se requiere el uso de las fórmulas.
2.3.4.2 Regla de la adición
La regla de la adición se utiliza para determinar la probabilidad del evento A o B,
BAP .
La probabilidad de que ocurra el evento A o B para eventos que no son
mutuamente excluyentes, si ambos pueden ocurrir al mismo tiempo, se determina
por medio de la siguiente expresión:
BAPBPAPBAP (II.13)
En el ejemplo de King Dynamics, la probabilidad de que un empleado sea
trabajador hombre o un trabajador de línea es:
7028058040 ....LMPLPMPLMP
La probabilidad del evento A o del evento B cuando los eventos son mutuamente
excluyentes se determina por:
BPAPBAP (II.14)
De la tabla II.2 de King Dynamics, los eventos de que un empleado sea trabajador
hombre o un trabajador mujer son mutuamente excluyentes.
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
50
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 7. CUESTIONARIO
Calificación:
1. Utiliza la palabra, algunas se repiten, o enunciado que complete el espacio en blanco:
acción
cero
conjunto
enfoque clásico
evento
experimento
frecuencia
relativa
probabilidad
resultado
resultados
subjetivo
uno
datos
empíricamente
enfoque
frecuencia
muestral
número de formas en las que
puede ocurrir un evento
número de veces que ha
ocurrido el evento en el pasado
número total de observaciones
número total de posibles
resultados
pasado
afecta
condiconal
dependientes
excluyentes
independientes
nada
no
ocurran
ocurrencia
otro
Históricamente se han desarrollado tres enfoques conceptuales para definir la probabilidad y
determinar valores de probabilidad:
__________________________________________
__________________________________________
__________________________________________
La _________________ es la posibilidad numérica de que ocurra un evento. La ______________ de un
evento es medida por valores comprendidos entre ____ y _____.
El proceso que produce un ____________ es denominado ____________. Un experimento es toda
_________ bien definida que conlleva a un ____________ único bien definido.
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
51
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
El _____________ de todos los posibles ______________ para un _____________ es el espacio
___________ representado por: 1 2, , , ns x x x
El ____________ de ____________ relativa utiliza datos que se han observado ______________, registra
la frecuencia con que ha ocurrido algún _____________ en el _____________ y estima la
probabilidad de que el ________________ ocurra nuevamente con base en estos ____________
históricos. La probabilidad de un evento con base al modelo de _________________ relativa se
determina mediante:
( )P E
De los tres métodos para medir la probabilidad, el modelo clásico es el que se relaciona con
mayor frecuencia con las apuestas y juegos de azar. La probabilidad clásica de un evento E se
determina mediante:
( )P E
Se dice que dos o más eventos son mutuamente _________________ si la _________________ de uno
prohíbe la ocurrencia del _________________. Esto es, si no pueden ocurrir al mismo tiempo.
Dos o más eventos son ___________ excluyentes cuando es posible que _________________ al
mismo tiempo.
Los eventos son _________________, si la ocurrencia de uno _____ tiene _________________ que ver
con la _________________ del otro. Dos eventos son _________________ cuando la ocurrencia o no
ocurrencia de un evento _________________ a la probabilidad de _________________ del otro
evento.
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
52
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
Cuando dos eventos son dependientes, se emplea el concepto de probabilidad
_________________ para designar la probabilidad de ocurrencia del evento relacionado. La
expresión |P B A indica la probabilidad de que ocurra el evento B dado que ya ha ocurrido
el evento A. La formula general para calcular la probabilidad condicional, es la siguiente:
|P
PP
Probabilidad de eventos
2. Para cada una de las siguientes situaciones, indique cuál de los enfoques de la probabilidad
(el clásico, el de frecuencias relativas o el subjetivo) sería más útil para determinar el valor de
probabilidad requerido.
a. La probabilidad de que haya un golpe de estado el próximo año.
______________________________
b. La probabilidad de obtener ya sea un 1 o un 6 en un solo lanzamiento de un dado de seis
caras. _________________________________
c. La probabilidad de que una persona aleatoriamente elegida entre las que visitan una
gran tienda departamental realice una compra en esa tienda.
_________________________________________
3. Una bolsa contiene 4 canicas rojas y 3 azules. Si se saca una canica de la bolsa al azar, ¿cuál
es la probabilidad de sacar una canica azul?
4. Se escoge aleatoriamente una persona vestida de rojo de un grupo de 5 personas que visten
de rojo y 4 personas que visten de azul.
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
53
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
5. Se escoge una pelota de tenis verde de una bolsa que contiene 4 pelotas verdes, 7 amarillas
y 5 blancas.
6. Determine el valor de probabilidad aplicable a cada una de las siguientes situaciones.
a. La probabilidad de accidentes industriales en una industria en particular en un plazo
anual. Una muestra aleatoria de 10 empresas, las cuales emplean a un total de 8000
personas, reportó la ocurrencia de 400 accidentes industriales durante un periodo reciente
de 12 meses.
b. La probabilidad de acertar a un número ganador en un juego de ruleta. Los números de
la rueda incluyen un 0, 00 y del 1 al 36.
c. La probabilidad de que un establecimiento de franquicia de comida rápida sea
financieramente exitoso. El probable inversionista obtiene datos de otras unidades del
sistema de franquicias, estudia el desarrollo de la zona residencial en la que estará
ubicado el establecimiento y considera el volumen de ventas requerido para garantizar
el éxito financiero con base en la inversión de capital requerida y los costos operativos. En
general, el inversionista juzga que hay un 80% de posibilidades de que el establecimiento
sea financieramente exitoso y 20% de que no lo sea.
7. La siguiente tabla muestra el número de computadoras vendidas diariamente por una tienda
minorista
Número de
computadoras
vendidas
Número de días Probabilidad
0 12
1 43
2 18
3 20
4 25
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
54
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
Determine la probabilidad de que el número de computadoras que se vendan el día de hoy sea:
a. 2
b. Menos de 3
c. Más de 1
d. Por lo menos 1
8. Un importador de cristal irlandés de Nueva York recibe envíos de cajas de tres artículos. La
siguiente tabla muestra los datos para las últimas 100 cajas indicaron el número de artículos
dañados que había en cada caja.
Número de defectos Número de cajas Probabilidad
0
40
1
27
2
21
3
12
Determine la probabilidad de que el número de artículos defectuosos sea:
a. 2
b. Menos de 3
c. Más de 1
d. Ninguno
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
55
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
Probabilidad con técnicas de conteo
Si un orden es suficiente para constituir otro subconjunto de r objetos tomados de un conjunto
de n objetos entonces se trata de permutaciones. Una permutación de los n objetos tomados r
a la vez se define como
!
!n r
nP
n r
9. Calcula las permutaciones para los siguientes valores de n y r:
6 3
4 2
10 4
n r
n r
n r
Supongamos que tenemos una colección de n objetos. Una combinación de estos n objetos
tomados r a la vez, o una combinación r, es un subconjunto de r elementos. En otras palabras,
una combinación r es una selección de r o de n objetos donde el orden no se tiene en cuenta.
!
! !n r
nC
r n r
10. Calcula las combinaciones para los siguientes valores de n y r:
6 3
4 2
10 4
n r
n r
n r
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
56
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
11. Un caso reciente en la corte del condado de Madison, Kentucky, sobre las prácticas de
contratación de una compañía de teléfonos local. La compañía planeó contratar 3 nuevos
empleados. Había 8 candidatos para los cargos, 6 de los cuales eran hombres. Los 3 que
fueron contratados eran hombres. Un cargo por discriminación de sexo se impuso contra la
compañía. ¿Cómo decidiría usted?
12. Diez unidades de producción se seleccionan de una línea de producción. Tres de estas 10 son
defectuosas. Si deben sacar 5 de las 10, ¿cuál es la probabilidad de que 2 sean defectuosas?
13. Un representante de ventas debe visitar seis ciudades durante un viaje.
a. Si en la zona geográfica por visitar hay 10 ciudades, ¿cuántas diferentes agrupaciones de
seis ciudades susceptibles de ser visitadas por el representante de ventas hay?
b. Supongamos que en la zona geográfica que visitará el representante de ventas hay 10
ciudades y, además, que la secuencia en la que serán programadas las visitas a la seis
ciudades elegidas también es de importancia. ¿Cuántas secuencias son posibles para las
seis ciudades asignadas?
14. De las ciudades mencionadas en el problema anterior, supongamos que seis de ellas son en
realidad mercados primarios del producto en cuestión mientras que las otras cuatro son
mercados secundarios. Si el vendedor elige aleatoriamente las seis ciudades por visitar, ¿cuál
es la probabilidad de que:
a. Cuatro de ellas sean mercados primarios y dos mercados secundarios
b. Las seis resulten ser mercados primarios
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
57
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
15. Los cinco individuos que componen la dirección de una pequeña empresa manufacturera
serán sentados juntos en un banquete. Determine la probabilidad de que el grupo de tres
directivos elegido a partir de los cinco incluya a:
a. Un directivo en particular
b. Dos directivos en particular
c. Tres directivos en particular
Tablas de probabilidades conjuntas
16. La revista Forbes (febrero de 1997) clasificó las 120 ciudades de estados unidos de acuerdo
con la calidad de vida, con base en parte del porcentaje de empleados que tenían título
universitario. Los resultados se ven en la siguiente tabla de contingencia parcial, en donde A
es menos del 15% con título universitario, B es del 15 al 20% con título universitario y C es más
del 20% con título universitario. Realice una tabla de probabilidad y responda las preguntas
que se presentan en la siguiente tabla.
Tabla 1. Clasificación de la revista Forbes para las 120 ciudades de EU
Calidad de vida
Porcentaje
con título
universitario
Pobre (P) Bueno (G) Excelente (E) Total
A 10 20 40
B 20
C 10 20
Total 20 60
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
58
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
Tabla 2. Tabla de probabilidad para las 120 ciudades de EU
Porcentaje
con título
universitario
Pobre (P) Bueno (G) Excelente (E) Total
A
B
C
Total
Los valores en las márgenes de la tabla se llaman _______________________. La probabilidad de
seleccionar una ciudad con menos del 15% de empleados con título universitario es:
( ) ________P A
y la probabilidad de seleccionar un empleado con nivel de vida excelente es:
( ) ________P E
Las probabilidades conjuntas en las celdas de la estructura principal de la tabla muestran la
probabilidad de la ________________ entre dos eventos. Por ejemplo, la probabilidad de
seleccionar una ciudad con calidad de vida pobre y del 15 al 20% de sus empleados con titulo
universitario, es:
( ) __________ P P B
Mientras que la notación ( )P E C se lee como _______________________________
_____________________________________________________________________________
y da:
( ) : _______________P E C
Una probabilidad marginal se encuentra como la suma de las probabilidades conjuntas
correspondientes.
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
59
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
Probabilidad condicional
Es la probabilidad de que el evento A ocurra, dado que el evento B ya ocurrió. Para ilustrar la
aplicación de la probabilidad condicional, retomemos la tabla 2 de probabilidades, se puede
observar que la probabilidad de que una ciudad tomada aleatoriamente tenga más del 20% de
sus empleados con titulo universitario es:
P C
Sin embargo, si se desea calcular la probabilidad de que la ciudad cuente con más del 20% de
sus empleados con titulo universitario dado que su nivel de vida es excelente se puede hallar así:
| P C E
Regla de la multiplicación
El propósito de la regla de la multiplicación es determinar la probabilidad del evento conjunto
P A B . Es decir, que para encontrar la probabilidad de A y B, simplemente se multiplican
sus respectivas probabilidades. El procedimiento exacto depende de si A y B son dependientes o
independientes.
Los eventos A y B son independientes si P A P A B . Es decir, la probabilidad de A es la
misma bien se considere o no el evento B. De igual forma, si A y B son independientes, si
P B P B A
Para eventos independientes la probabilidad de dos eventos se vuelve:
P A B P A P B
Si los eventos son dependientes, entonces, por definición, se debe considerar el primer evento al
determinar la probabilidad del segundo. Es decir, la probabilidad del evento B depende de la
condición que A ya haya ocurrido. Se necesita del principio de probabilidad condicional. La
probabilidad de los eventos conjuntos A y B:
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
60
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
|P A B P A P B A
Regla de la adición
La regla de la adición se utiliza para determinar la probabilidad del evento A o B, P A B .
La probabilidad de que ocurra el evento A o B para eventos que no son mutuamente excluyentes,
si ambos pueden ocurrir al mismo tiempo, se determina por medio de la siguiente expresión:
P A B P P P A B
En el ejemplo de Forbes, la probabilidad de que una ciudad tenga un nivel de vida bueno o que
más del 20% de sus empleados tengan titulo universitarios es:
P P P P
La probabilidad del evento A o del evento B cuando los eventos son mutuamente excluyentes se
determina por:
P A B P P
De la tabla 2 de Forbes, los eventos de que una ciudad tenga una calidad de vida pobre o una
calidad de vida excelente son mutuamente excluyentes.
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
61
DISTRIBUCIONES DE PROBABILIDAD
Competencia: Conocer e identificar las diferentes funciones de distribución de
probabilidad, para su aplicación en la solución de problemas.
INTRODUCCIÓN
Una variable aleatoria es una variable cuyo valor es el resultado de un evento
aleatorio. Se supone que se lanza una moneda tres veces y se anota el número
de caras que se obtienen. Los posibles resultados son 0 caras, 1 cara, 2 caras, o 3
caras. La variable aleatoria es el número de caras que se obtienen, y los posibles
resultados son los valores de la variable aleatoria. Como segundo ejemplo, los
pesos de envío del agua mineral en contenedores oscilaban aleatoriamente
entre 10 a 25 libras. Los pesos reales de los contenedores, en libras, son los valores
de la variable aleatoria "peso".
Tal y como lo sugieren estos dos ejemplos, las variables aleatorias pueden ser
discretas o continuas. Una variable aleatoria discreta puede asumir sólo ciertos
valores, con frecuencia números enteros, y resulta principalmente del conteo. El
número de caras en el experimento del lanzamiento de la moneda es un ejemplo
de una variable aleatoria discreta. Los valores de la variable aleatoria se
restringen sólo a ciertos números: 0, 1, 2, y 3. El resultado del lanzamiento de un
dado, el número de camiones que llegan por hora al puerto de carga, y el
número de clientes que están en fila para sacar sus libros favoritos, son otros
ejemplos de variables aleatorias discretas.
Una variable aleatoria continua resulta principalmente de la medición y puede
tomar cualquier valor, al menos dentro de un rango dado. Los pesos del agua
mineral es un ejemplo, debido a que los contenedores pueden tomar cualquier
valor entre 10 y 25 libras. Otros ejemplos de variables aleatorias continuas incluyen
la estatura de los clientes en una tienda de ropa, los ingresos de los empleados
en un centro comercial local y el tiempo transcurrido entre la llegada de cada
cliente a la biblioteca. En cada caso, la variable aleatoria puede medirse con
cualquier valor, incluyendo fracciones de la unidad. Aunque las unidades
monetarias no pueden dividirse en un número continuo o infinito de subdivisiones
(el dólar puede subdividirse sólo 100 veces), comúnmente se tratan como
distribuciones continuas de probabilidad.
Una distribución de probabilidad es un despliegue de todos los posibles resultados
de un experimento junto con las probabilidades de cada resultado. La
probabilidad de que la variable aleatoria 𝑋 tome algún valor específico, 𝑥., se
escribe 𝑃(𝑋 = 𝑥). El valor esperado de una variable aleatoria discreta es la media
ponderada de todos los posibles resultados en los cuales los pesos son las
probabilidades respectivas de tales resultados.
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
62
3.1 Distribuciones de probabilidad binomial
En estadística, la distribución binomial es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos independientes de Bernoulli con una probabilidad fija p de ocurrencia del éxito entre los ensayos.
En las empresas se tienen situaciones donde se espera que ocurra o no un evento específico. Éste puede ser de éxito o fracaso.
La distribución binomial se utiliza en situaciones cuya solución tiene dos posibles resultados. Ejemplos:
Al nacer un bebé puede ser varón o mujer.
En el deporte un equipo puede ganar o perder.
En pruebas de cierto o falso sólo hay dos alternativas. Un tratamiento médico puede ser efectivo o inefectivo. La meta de producción o ventas del mes se pueden o no lograr. En pruebas de selección múltiple, aunque hay cuatro o cinco
alternativas, se pueden clasificar como correcta o incorrecta.
Propiedades de un experimento de Bernoulli
En cada prueba del experimento sólo hay dos posibles resultados: éxitos
o fracasos.
El resultado obtenido en cada prueba es independiente de los
resultados obtenidos en pruebas anteriores.
La probabilidad de un suceso es constante, la representamos por p, y
no varía de una prueba a otra. La probabilidad del complemento es 1-
p y la representamos por q .
Función de probabilidad binomial se expresa como:
n XX
n XP X ;n, p C p 1 p
donde :
P X ;n, p probabilidad de X-éxitos, dadas n y p
n número de observaciones
p probabilidad de éxitos
1 p probabilidad de fracasos
X número de éxitos en la muestra X 1,2, ,n
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
63
La media y desviación estándar de la distribución se definen como:
E X n p
n p 1 p
1. Grafique la distribución binomial para los siguientes valores:
3 0.25 0,1,2,3n p x
x P(X=x)
0
1
2
3
2. La probabilidad de que cierta clase de componente pase con éxito una
determinada prueba de impacto es 0.75. Encuentre la probabilidad de que
exactamente 2 de los siguientes 4 componentes que se prueban pasen la
prueba.
3. La probabilidad de que un paciente se recupere de una rara enfermedad de
la sangre es 0.4. Si se sabe que 15 personas han contraído esta enfermedad,
¿cuál es la probabilidad de que: a) sobrevivan entre 3 y 8 personas, b)
sobrevivan exactamente 5 personas y c) al menos 10 sobrevivan.
0
0.1
0.2
0.3
0.4
0.5
0 1 2 3
P(X
)
Número de éxitos (X)
Distribución binomial
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
64
4. En pruebas realizadas a un amortiguador para automóvil se encontró que el
20% presentaban fuga de aceite. Si se instalan 20 de estos amortiguadores,
hallar la probabilidad de que: a) 4 salgan defectuosos, b) más de 5 tengan
fuga de aceite, c) de 3 a 6 amortiguadores salgan defectuosos y d) determine
el promedio y la desviación estándar de amortiguadores con defectos.
x P(X=x) 0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
x P(X=x) 0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
65
0
0.05
0.1
0.15
0.2
0.25
0.3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
P(X
)
Número de éxitos (X)
Distribución binomial
0
0.05
0.1
0.15
0.2
0.25
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
P(X
)
Número de éxitos (X)
Distribución binomial
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
66
3.2 Distribución de Poisson En teoría de probabilidad y estadística, la distribución de Poisson es una
distribución de probabilidad discreta. Expresa la probabilidad de un número k de
eventos ocurriendo en un tiempo fijo, si estos eventos ocurren con una frecuencia
media conocida y son independientes del tiempo discurrido desde el último
evento. Se dice que existe un proceso de Poisson si podemos observar eventos
discretos en un área de oportunidad – un intervalo continuo (de tiempo, longitud,
superficie, etc.) – de tal manera que si se reduce lo suficiente el área de
oportunidad o el intervalo,
La probabilidad de observar exactamente un éxito en el intervalo es
constante.
La probabilidad de obtener más de un éxito en el intervalo es 0.
La probabilidad de observar un éxito en cualquier intervalo es
estadísticamente independiente de la de cualquier otro intervalo.
Utilidad:
La distribución de Poisson se utiliza en situaciones donde los sucesos son
impredecibles o de ocurrencia aleatoria. En otras palabras no se sabe el
total de posibles resultados.
Permite determinar la probabilidad de ocurrencia de un suceso con
resultado discreto.
Es muy útil cuando la muestra o segmento, n, es grande y la probabilidad
de éxitos p es pequeña.
Se utiliza cuando la probabilidad del evento que nos interesa se distribuye
dentro de un segmento dado como por ejemplo distancia, área, volumen
o tiempo definido.
Esta distribución se aplica en situaciones como:
La llegada de un cliente al negocio durante una hora.
Las llamadas telefónicas que se reciben en un día.
Los defectos en manufactura de papel por cada metro producido.
Los envases llenados fuera de los límites por cada 100 galones de producto
terminado.
El número de pacientes que llegan al servicio de emergencia de un
hospital en un intervalo de tiempo.
El número de glóbulos blancos que se cuentan en una muestra dada.
El número de partos triples por año
La expresión matemática para la distribución de Poisson para obtener 𝑋 éxitos,
dado que se espera 1 éxito es:
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
67
Xe
P X ;X !
P X ; la probabilidad de X eventos en un área de oportunidad
número de eventos esperado (media)
X número de eventos
5. Grafique la distribución de Poisson para los siguientes valores:
1,4,10 0,1,2,3,...,20x
X P(X=x) P(X=x) P(X=x) 0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
P(X
)
X
Distribución de Poisson
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
68
6. Un comerciante de verduras tiene conocimiento de que el 3% de la caja está
descompuesta. Si un comprador elige 100 verduras al azar, encuentre la
probabilidad de que: (a) las 4 estén descompuestas y (b) de 1 a 3 estén
descompuestas.
7. En pruebas realizadas a un amortiguador para automóvil se encontró que el
0.04 presentaban fuga de aceite. Si se instalan 150 de estos amortiguadores,
hallar la probabilidad de que: (a) 4 salgan defectuosos, (b) más de 5 tengan
fuga de aceite, y (c) de 3 a 6 amortiguadores salgan defectuosos.
8. Si 8 de 100 viviendas violan el código de construcción. ¿cuál es la probabilidad
de que un inspector de viviendas, que selecciona aleatoriamente a 50 de
ellas, descubra que: (a) ninguna de las casas viola el código de construcción,
(b) una viola el código de construcción y (c) dos violan el código de
construcción.
9. El número de pacientes que llega a un hospital sigue una distribución de
Poisson. Si el número promedio es de 120 por hora, ¿cuál es la probabilidad de
que en un minuto lleguen por lo menos 3 pacientes?
10. Se sabe que 10 es el número promedio de camiones tanque de aceite que
llegan por día a una cierta ciudad portuaria. Las instalaciones del puerto
pueden atender cuando mucho a 15 camiones tanque en un día. ¿Cuál es la
probabilidad de que en un determinado día se tengan que regresar los
camiones tanque?
11. En un estudio de un inventario se determinó que, en promedio, la demanda
por un artículo en particular en una bodega era 5 veces al día. ¿Cuál es la
probabilidad de que en un determinado día este artículo sea requerido: (a)
más de 5 veces y (b) ni una sola vez?
12. El profesor Bradley anima a sus estudiantes de estadística a "actuar de forma
prudente" consultando al tutor si tienen alguna pregunta mientras se preparan
para el examen final. Parece que la llegada de los estudiantes a la oficina del
tutor se ajusta a una distribución de Poisson, con un promedio de 5.2
estudiantes cada 20 minutos. El profesor Bradley está preocupado porque si
muchos estudiantes necesitan los servicios del tutor, puede resultar un
problema de congestión.
a) El tutor debe determinar la probabilidad de que cuatro estudiantes
lleguen durante cualquier intervalo de 20 minutos, lo cual podría causar el
problema de congestión que teme el profesor Bradley. Si la probabilidad
excede el 20%, se contratará un segundo tutor.
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
69
b) El tutor debe calcular la probabilidad de que más de cuatro estudiantes
lleguen durante algún período de 20 minutos. Si es mayor que el 50%, las
horas de oficina del tutor se aumentarán, permitiendo a los estudiantes
extender el horario en las que vienen a ver al tutor.
c) Si la probabilidad de que más de siete estudiantes lleguen durante un
período cualquiera de 30 minutos excede 50%, el mismo profesor Bradley
ofrecerá tutoría adicional.
13. A un conmutador de la oficina principal de la compañía llegan llamadas a un
promedio de dos por minuto y se sabe que tienen distribución de Poisson. Si el
operador está distraído por un minuto, cuál es la probabilidad de que el
número de llamadas no respondidas sea:
a. ¿Cero?
b. ¿Por lo menos una?
c. ¿Entre 3 y 5, inclusive?
14. Un proceso de fabricación utilizado para hacer artefactos plásticos Incas
presenta una tasa de defectos de 5 por cada 100 unidades. Las unidades se
envían a los distribuidores en lotes de 200. Si la probabilidad de que más de 3
salgan defectuosos supera el 30%, usted planea vender en su lugar, camisetas
Grateful Dead. ¿Cuál artículo agregará usted al inventario?
15. Usted compra partes para bicicleta de un proveedor en Toledo que tiene 3
defectos por cada 100 partes. Usted está en el mercado para comprar 150
partes pero no aceptará una probabilidad de más del 50% de que más de
dos partes sean defectuosas. ¿Usted le compraría a dicho proveedor?
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
70
3.3 Distribución normal
Una de las herramientas de mayor uso en las empresas es la utilización de la curva
normal para describir situaciones donde podemos recopilar datos. Esto nos
permite tomar decisiones que vayan a la par con las metas y objetivos de la
organización.
Utilidad:
Se utiliza muy a menudo porque hay muchas variables asociadas a
fenómenos naturales que siguen el modelo de la normal.
Caracteres morfológicos de individuos (personas, animales, plantas,...) de
una especie, por ejemplo: tallas, pesos, diámetros, distancias, perímetros,...
Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un
fármaco, o de una misma cantidad de abono
Caracteres sociológicos, por ejemplo: consumo de cierto producto por un
mismo grupo de individuos, puntuaciones de examen
Caracteres psicológicos, por ejemplo: cociente intelectual, grado de
adaptación a un medio,...
La función de distribución:
Puede tomar cualquier valor (-∞ , +∞ )
Hay más probabilidad para los valores cercanos a la media m
Conforme nos separamos de µ, la probabilidad va decreciendo de igual
forma a derecha e izquierda (es simétrica).
Conforme nos separamos de µ, la probabilidad va decreciendo
dependiendo la desviación típica
La expresión matemática para la distribución normal:
2X1
21f X ; , e
2
donde :
es la media
es la desviación
estándar
3.14159
X es cualquier valor
de la variable
continua
F(X)=P X k
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
71
16. Grafique la distribución normal para los siguientes valores: 50 5,10,20
17. Dada una distribución normal, encuentre el área bajo la curva que cae
a. a la izquierda de 1.43z
b. a la derecha de 0.89z
c. entre 2.16z y 0.65z
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
0 20 40 60 80 100 120
P(X
)
X
Distribución normal
0
0.1
0.2
0.3
0.4
0.5
-3.4 -3
-2.6
-2.2
-1.8
-1.4 -1
-0.6
-0.2
0.2
0.6 1
1.4
1.8
2.2
2.6 3
3.4
0
0.1
0.2
0.3
0.4
0.5
-3.4 -3
-2.6
-2.2
-1.8
-1.4 -1
-0.6
-0.2
0.2
0.6 1
1.4
1.8
2.2
2.6 3
3.4
0
0.1
0.2
0.3
0.4
0.5
-3.4 -3
-2.6
-2.2
-1.8
-1.4 -1
-0.6
-0.2
0.2
0.6 1
1.4
1.8
2.2
2.6 3
3.4
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
72
d. a la izquierda de 1.39z
e. a la derecha de 1.96z
f. entre 0.48z y 1.74z
18. Dada una distribución normal con media igual a 50 y desviación estándar
igual a 10, encuentre la probabilidad de que X asuma un valor entre 45 y 62.
x
z
0
0.1
0.2
0.3
0.4
0.5
-3.4 -3
-2.6
-2.2
-1.8
-1.4 -1
-0.6
-0.2
0.2
0.6 1
1.4
1.8
2.2
2.6 3
3.4
0
0.1
0.2
0.3
0.4
0.5
-3.4 -3
-2.6
-2.2
-1.8
-1.4 -1
-0.6
-0.2
0.2
0.6 1
1.4
1.8
2.2
2.6 3
3.4
0
0.1
0.2
0.3
0.4
0.5
-3.4 -3
-2.6
-2.2
-1.8
-1.4 -1
-0.6
-0.2
0.2
0.6 1
1.4
1.8
2.2
2.6 3
3.4
0
0.1
0.2
0.3
0.4
0.5
-3.4 -3
-2.6
-2.2
-1.8
-1.4 -1
-0.6
-0.2
0.2
0.6 1
1.4
1.8
2.2
2.6 3
3.4
PROBABILIDAD Y ESTADÍSTICA UNIDAD III
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
73
19. Los siguientes datos representan la duración de vida en segundos de 50
moscas, sometidas a un nuevo atomizador en un experimento de laboratorio
controlado:
17 20 10 19 23 13 12 19 18 24
12 14 6 9 13 6 7 10 13 7
16 18 8 13 3 32 9 7 10 11
13 7 18 7 10 4 27 19 16 8
7 10 5 14 15 10 9 6 7 15
a) determine el porcentaje de vida de las moscas entre 10 y 20 segundos,
b) más de 23 segundos,
c) menos de 10 segundos.
20. TelCom Satellite presta servicios de comunicación a los negocios del área
metropolitana de Chicago. Los funcionarios de la compañía han aprendido
que la transmisión satélite promedio es de 150 segundos, con una desviación
estándar de 15 segundos. Los tiempos parecen estar distribuidos
normalmente.
Para estimar de manera apropiada la demanda del cliente por sus servicios y
establecer una estructura de tarifas que maximice las utilidades corporativas,
TelCom debe determinar qué tan probable es que algunas llamadas se
presenten. El director de servicios desea que usted proporcione estimados de
la probabilidad de que una llamada dure:
a. Entre 125 y 150 segundos.
b. Menos de 125 segundos.
c. Entre 145 y 155 segundos.
d. Entre 160 y 165 segundos.
21. Como ingeniero constructor usted compra bolsas de cemento de un
promedio de 50 libras, con una desviación estándar de 5.2 libras. Debe que
usted tuvo el accidente escalando una montaña, el médico le dijo que no
levantara nada que pesara más de 60 libras ¿debería usted cargar una bolsa?
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
74
ESTADÍSTICA INFERENCIAL
Competencia: Conocer y aplicar diversas técnicas de muestreo y estimación
para su aplicación en problemas ingeniería.
4.1 Inferencia Estadística
Para distinguir la medida descriptiva de una población de la medida descriptiva
de una de sus muestras, se llamará al primero parámetro y al segundo estadístico.
En consecuencia, para una población dada, el parámetro es un valor fijo
mientras que un estadístico varía dependiendo de la muestra seleccionada.
Algunos de los parámetros más comúnmente empleados y sus estadísticos
correspondientes son:
Tabla IV.1. Parámetros y estadísticos más comunes.
Medida descriptiva Parámetro Estadístico
Media 𝜇 �̅�
Varianza 𝜎2 𝑠2
Desviación estándar 𝜎 𝑠
Proporción 𝜋 �̅�
El objetivo de la estadística inferencial es emplear los estadísticos �̅�, 𝑠2, 𝑠, o �̅� para
hacer inferencias respecto a los parámetros poblacionales correspondientes 𝜇, 𝜎2, 𝜎, o 𝜋. Los principales tipos de inferencias que se realizan son:
1. Estimación puntual o por intervalo. En este tipo de inferencia, se estima el
valor de un parámetro poblacional mediante un número o un intervalo
numérico.
2. Prueba de hipótesis. En este tipo de inferencia se fórmula una hipótesis
acerca del valor de un parámetro poblacional.
Dado que la inferencia, del tipo que sea, se basa en una de las muestras, resulta
importante analizar la variación de estás (más propiamente el estadístico de
interés). Para ello conviene establecer de inicio una variable aleatoria �̅�, que
asocie cada una de las muestras de la población con el estadístico
correspondiente.
La distribución de muestras de un estadístico es la representación tabular y/o
gráfica de las probabilidades de todos los valores de algún estadístico,
calculados en muestras del mismo tamaño, extraídas aleatoriamente de la
misma población, como se ilustra en la figura IV.1. El error de muestreo es la
diferencia entre el parámetro poblacional y el estadístico de la muestra utilizado
pata estimar el parámetro.
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
75
Media muestral Frecuencia Probabilidad
150 1 1/6
200 1 1/6
250 2 2/6
300 1 1/6
350 1 1/6
Figura IV.1 Tabla y distribución muestral para muestras de tamaño 𝑛 = 2
en una población de 𝑁 = 4.
Vale la pena notar que la distribución muestral de las medias muéstrales es
simplemente una lista de todas las medias muéstrales posibles. Estas medias
muéstrales, al igual que cualquier lista de números, tienen una media
denominada la media de las medias muéstrales o la gran media. Esta media de
las medias se calcula de la forma usual: las observaciones individuales (medias
muéstrales) se suman y el resultado se divide por el número de observaciones
(muestras). Se utiliza X"(que se lee como X doble barra) como símbolo de la gran
media, matemáticamente se tiene:
xx
k
(IV.1)
Donde k es el número de muestras en la distribución muestral. La distribución de
las medias muéstrales también tiene una varianza. La varianza en las medias
muéstrales es como cualquier otra varianza. Mide la dispersión de las
observaciones individuales (medias muéstrales) alrededor de su media (la gran
media). Además, esta varianza se calcula al igual que cualquier otra varianza. Es
la media del cuadrado de las desviaciones con respecto a su media.
22
2
x
x X x μσ
k k
(IV.2)
La raíz cuadrada de la varianza en la distribución de estas medias muéstrales,
representa el error estándar de la distribución muestral.
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
150 200 250 300 350
Pro
bab
ilid
ad
Media muestral
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
76
2
x xσ σ (IV.3)
El error estándar de la distribución muestral (o error estándar) es una medida de
la dispersión de las medias muéstrales alrededor de 𝜇. Es análogo con la
desviación estándar que se calculó en la unidad 1, la cual medía la dispersión de
las observaciones individuales alrededor de su media. Debido a que la diferencia
entre �̅� y 𝜇 es el error de muestreo, toda medida de la tendencia de la media
muestral a desviarse de 𝜇 se le denomina acertadamente error estándar. Por
tanto, el error estándar 𝜎�̅� mide la tendencia a sufrir del error de muestreo en el
esfuerzo por estimar 𝜇.
Una aproximación para calcular la varianza de la distribución muestral y el error
estándar, suponiendo que se conoce la varianza poblacional, son:
2
2
x x
σ σσ σ
n n (IV.4)
Estas fórmulas son válidas si el muestreo se realiza con reemplazo, o si la muestra
se toma de una población muy grande (virtualmente infinita). Si el muestreo se
realiza sin reemplazo y si el tamaño de la muestra es más del 5% de la población,
𝑛 > 0.05 𝑁, debe aplicarse el factor de corrección para poblaciones finitas (fpc).
La fórmula apropiada para el error estándar entonces es
1x
σ N nσ
Nn
(IV.5)
Dada una población de tamaño 𝑁 = 1000, se considera que ¿se obtendría un
estimado más preciso de la media poblacional 𝜇 con una muestra de tamaño
𝑛 = 100 o con una muestra de tamaño más grande de 𝑛 = 900?
Indiscutiblemente es probable un estimado más exacto con una muestra más
grande. Esta suposición se verifica examinando la fórmula (IV.3). Puede verse que
a medida que 𝑛 aumenta, 𝜎�̅� disminuye. El hecho de que las muestras más
grandes lleven a errores de muestreo más pequeños se vuelve cada vez más
importante a medida que los autores progresan en el estudio de la estadística
inferencial.
Teorema del límite central, a medida que 𝑛 se vuelve más grande, la distribución
de las medias muéstrales se aproximará a una distribución normal con una media
�̿� = 𝜇 y un error estándar de 𝜎�̅� = 𝜎 √𝑛⁄ , ver figura IV.2.
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
77
Por tanto, incluso si la población no está distribuida normalmente, la distribución
de muestreo de las medias muéstrales será normal si n es lo suficientemente
grande. La regla general es que si n es por lo menos 30, el teorema del límite
central asegurará una distribución normal en las medias muéstrales incluso si la
población no es normal.
300 340 380 420 460 500 540 580 620 660 7000
0.01
0.02
0.03
0.04
traza 1
traza 2
0.04
0
n x 500 50( )
n x 500 10( )
700300 x
Figura IV.2 Distribución de las medias muestrales de una población normal.
4.2 Muestreo estadístico
En repetidas ocasiones se ha enfatizado la necesidad de seleccionar una
muestra representativa de la población. Una muestra que deforme la población
presentará un error de muestreo y producirá estimados imprecisos de los
parámetros de la población.
Hay dos fuentes básicas de error de muestreo. La primera es sencillamente mala
suerte. Debido a la "cuestión suerte", la muestra puede contener elementos que
no sean característicos de la población. El destino puede dictar que ciertas
selecciones en la muestra sean atípicamente más grandes que la mayoría de los
de la población y en tal caso resultaría una sobreestimación del parámetro. O
quizás muchos de los elementos muéstrales tienden a ser más pequeños de lo
que típicamente se encuentra en la población y en tal caso resultaría una
subestimación. Una segunda fuente de error de muestreo es el sesgo muestral. El
sesgo resulta de la tendencia a favorecer la selección de ciertas muestras sobre
otras en la recolección de los datos de la muestra.
4.2.1 Muestreo aleatorio simple
Como se ha visto, pueden seleccionarse diferentes muestras de cualquier
población. Tomar una muestra aleatoria simple garantiza que cada muestra de
algún tamaño dado tenga la misma probabilidad de ser seleccionada. Una
muestra aleatoria simple puede obtenerse simplemente enumerando las
observaciones sobre pedazos idénticos de papel, colocándolos en un sombrero
Distribución
de la
población
Distribución
de las
medias
muestrales
𝑥 = 𝜇 = 500
𝜎 = 50
𝜎�̅� = 10
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
78
y sacando el número deseado. Además, también puede utilizarse una tabla de
números aleatorios. La tabla con frecuencia es generada por un computador en
la cual cada uno de los 10 dígitos (0-9) tiene una probabilidad igual de ser
seleccionado. Si se desea una tabla de tres dígitos, el computador puede
seleccionar 4,2,7,5,2,6,1,0,5, y así sucesivamente, formando los números aleatorios
427,526.
4.2.2 Muestreo sistemático
Una muestra sistemática se forma seleccionando cada i-ésimo ítem de la
población. Si se determina que i es igual a 10, una muestra sistemática consta de
cada décima observación en la población. La población debe ordenarse o
enumerarse en forma aleatoria.
La primera selección debe determinarse aleatoriamente, y si i = 10, entonces
estará en alguna de las primeras 10 observaciones. El punto inicial exacto puede
identificarse bien sea seleccionando un número entre 1 y 10 sacado de un
sombrero, o utilizando una tabla de números aleatorios. En cualquiera de los
casos se selecciona de allí en adelante cada décima observación.
El proceso de muestreo sistemático es ventajoso porque no requiere de un
experto altamente calificado para contar hasta 10 y registrar el resultado.
Además, el método permite flexibilidad ya que puede establecerse que i sea
10,100, 1,000 o cualquier otro número deseado. La determinación del valor
apropiado para i también es muy fácil. Si se desea seleccionar una muestra de
tamaño 100 de una población de 1,000, i debe ser 10.
El peligro principal que debe evitarse es la ocurrencia de un patrón en el
ordenamiento de la población. Por ejemplo, enumerar la población
alfabéticamente asume una distribución aleatoria por todo el alfabeto.
4.2.3 Muestreo estratificado
Considere el siguiente ejemplo, el Ministerio de Agricultura de los Estados Unidos
se interesó en el impacto de las condiciones de sequía sobre la producción de
trigo. Especial preocupación causó la tasa de bancarrota que hacía que los
granjeros perdieran su tierra. Se sentía que un conteo de los niveles de
producción por parte de los agricultores de Kansas, Oklahoma, Nebraska y
Dakota del Sur, los cuatro estados golpeados más duramente por la sequía,
podrían probar que son útiles en el diseño de un programa de alivio. El ministerio
decidió que debería tomarse una muestra de la cosecha de este año por varios
cientos de agricultores de cada estado.
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
79
Sin embargo, se notó que el número de agricultores era muy diferente en cada
estado. Si se tomaba una muestra aleatoria simple de los cuatro estados como
un todo, podría incluir proporcionalmente pocos agricultores de algunos estados
y demasiados de otros estados. Esto resultaría en una muestra no representativa,
lo cual incrementaría el error de muestreo.
El Ministerio de Agricultura decidió tomar una muestra estratificada dividiendo a
todos los agricultores en subgrupos o estratos (de ahí el término muestreo
estratificado). En este caso, los subgrupos lógicos serían los cuatro estados en
mención. La proporción de agricultores incluidos en la muestra de cada estado
sería igual a las proporciones de todos los agricultores en cada estado: si los
agricultores de Kansas constituían el 30% de todos los agricultores de todos los
cuatro estados, entonces un 30% de los agricultores de la muestra serían
seleccionados aleatoriamente de Kansas.
Se toma una muestra estratificada forzando las proporciones de la muestra de
cada estrato para que esté conforme al patrón poblacional. Se emplea
comúnmente cuando la población es heterogénea, o disímil, aunque ciertos
subgrupos homogéneos puedan aislarse. De esta forma el investigador puede
incrementar la precisión más allá de la obtenida por una muestra aleatoria simple
de tamaño similar.
4.2.4 Muestreo por conglomerados
El muestreo por conglomerados, otra técnica alternativa, ofrece ciertas ventajas
sobre otros métodos. Consiste en dividir toda la población en conglomerados, o
grupos, y luego seleccionar una muestra de estos conglomerados. Todas las
observaciones en estos conglomerados seleccionados están incluidas en la
muestra. Para ilustrar, se considera el siguiente ejemplo. El Ministerio de Agricultura
de los Estados Unidos, en su estudio sobre las condiciones de sequía, puede
decidir que una muestra por conglomerados es preferible. Una muestra por
conglomerados se toma identificando los condados en cada estado como
conglomerados. Una muestra de estos condados (conglomerados) se selecciona
luego aleatoriamente utilizando una tabla de números aleatorios o algún otro
medio generalmente aceptado. Todos los agricultores seleccionados de esta
manera en los condados están incluidos en la muestra. Este procedimiento con
frecuencia es más fácil y rápido que el muestreo aleatorio simple o el
estratificado. Por ejemplo, si es necesario viajar a cada finca de la muestra para
observar los efectos de la sequía, es más fácil visitar varios agricultores en el mismo
condado.
También es posible combinar el muestreo estratificado con el muestreo por
conglomerados. En el ejemplo sobre agricultura, puede ser sabio seleccionar la
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
80
muestra de un número de condados de cada estado, proporcional al número
total de condados en los cuatro estados.
Ciertos problemas pueden surgir en el uso del muestro por conglomerados. Si un
porcentaje anormalmente grande (o pequeño) de agricultores en un
conglomerado seleccionado tiende a utilizar la irrigación para mejorar la
producción del cultivo, los resultados de la muestra pueden estar sesgados.
Esta discusión de ninguna manera explica los métodos de muestreo o los
problemas que pueden surgir en el proceso de búsqueda de una muestra
representativa a ser utilizada para sacar inferencias estadísticas. Un estudio sobre
las técnicas de muestreo constituye todo un curso por sí mismo y va más allá del
alcance de este texto. No obstante, debido a la importancia del proceso de
muestreo, incluso el estudiante principiante debería ser consciente de los
fundamentos sobre muestreo.
Ejercicio 4.1. Las ventas en miles de dólares para East Coast Manufacturing (ECM)
durante los últimos 5 meses fueron de 68,73,65,80 y 72. Asumiendo que estos cinco
meses constituyen la población, la media claramente es 𝜇 = 71.6. Como director
de marketing de ECM, se desea estimar este 𝜇 “desconocido” tomando una
muestra de tamaño 𝑛 = 3. Se espera que el error de muestreo que es probable
que ocurra sea relativamente pequeño. Realice la distribución muestral y haga
comentarios sobre el posible error de muestreo.
4.3 Estimadores
Actualmente se debe estar bien consciente de que las poblaciones son
generalmente muy grandes como para ser estudiadas en su totalidad. Su
tamaño requiere que se seleccionen muestras, las cuales se pueden utilizar más
tarde para hacer inferencias sobre las poblaciones. Si un gerente de una tienda
minorista desea saber sobre el gasto promedio de sus clientes durante el año
anterior, podría encontrar difícil calcular el promedio de los cientos o quizá miles
de clientes que pasaron por su tienda. Sería mucho más fácil estimar la media
poblacional con la media de una muestra representativa.
Hay por lo menos dos tipos de estimadores que se utilizan más comúnmente para
este propósito: un estimador puntual y un estimador por intervalo. Un estimador
puntual utiliza un estadístico para estimar el parámetro en un solo valor o punto.
El gerente de la tienda puede seleccionar una muestra de n = 500 clientes y hallar
el gasto promedio de X = US$37.10. Este valor sirve como una estimación puntual
para la media poblacional.
Una estimación por intervalo especifica el rango dentro del cual está el
parámetro desconocido. El gerente puede decidir que la media poblacional
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
81
está en algún sitio entre US$35 y US$38. Tal intervalo con frecuencia va
acompañado de una afirmación sobre el nivel de confianza que se da en su
exactitud. Por tanto se llama intervalo de confianza (I.C.).
4.4 Estimación por intervalo
Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite
superior de confianza (LSC). Estos límites se hallan calculando primero la media
muestral, �̅�. Luego se suma una cierta cantidad a �̅� para obtener el LSC, y la
misma cantidad se resta de �̅� para obtener el LIC. ¿Cómo se puede construir un
intervalo y luego argumentar que se puede tener un 95% de confianza en que
contiene 𝜇, si incluso no se sabe cuál es la media poblacional? Vale la pena
recordar de la discusión anterior sobre la Regla Empírica que el 95.5% de todas
las medias muéstrales caen dentro de dos errores estándar de la media
poblacional. Entonces la media poblacional está máximo a dos errores estándar
del 95.5% de todas las medias muéstrales. Por tanto, al comenzar con cualquier
media muestral, si se pasa de dos errores estándar por encima de dicha media y
dos errores estándar por debajo de ella, se puede tener un 95.5% de confianza
en que el intervalo resultante contenga la media poblacional desconocida.
4 3.2 2.4 1.6 0.8 0 0.8 1.6 2.4 3.2 40
0.113
0.225
0.338
0.450.45
1.338 104
n x 0 1( )
44 x
Figura IV.3 Intervalo de confianza del 95% para estimar la media poblacional.
La discusión sobre distribuciones de muestreo mostró que de toda población se
pueden obtener muchas muestras diferentes de un tamaño dado, cada una con
su propia media. Para un intervalo del 95% ¿cuántos errores estándar se debe
mover por encima y por debajo de la media muestral? Como lo demuestra la
figura IV.3, debido a que la tabla Z contiene valores sólo para el área que está
por encima o por debajo de la media, se debe dividir el 95% por 2, produciendo
0.95
0.475 0.475
𝝁 =?
𝜶 = 𝟎. 𝟎𝟐𝟓
𝜶 = 𝟎. 𝟎𝟐𝟓
−1.96𝜎�̅� +1.96𝜎�̅�
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
82
0.4750. Luego, se halla el valor de Z, correspondiente a un área de 0.4750, el cual
es Z = 1.96. Así, para construir un intervalo de confianza del 95%, simplemente se
especifica un intervalo de 1.96 errores estándar por encima y por debajo de la
media muestral. Este valor del 95% es llamado coeficiente de confianza.
4.4.1 Intervalo de confianza para la media poblacional – muestras grandes
Se debe recordar que el intervalo se forma utilizando la media muestral como
una estimación puntual para el cual se adiciona y se resta un cierto valor para
obtener los límites superior e inferior del intervalo de confianza, respectivamente.
Por tanto el intervalo de confianza para estimar 𝜇 cuando 𝜎 es conocido:
xμ x Zσ (IV.6)
El valor alfa, es la probabilidad de error o la probabilidad de que un intervalo
dado no contenga la media poblacional desconocida.
4.4.2 Intervalo de confianza cuando 𝝈 es desconocida
La fórmula anterior requiere la suposición improbable que la desviación estándar
poblacional eres conocida. En el evento probable que 𝜎 sea desconocida, la
desviación estándar de la muestra debe substituirse:
xμ x Zs (IV.7)
Donde x
s s n .
4.4.3 Control del ancho de un intervalo
Como se expresó anteriormente, es preferible un intervalo más estrecho debido
a la precisión adicional que proporciona. Hay dos métodos principales para
lograr un intervalo más preciso: (1) reducir el nivel de confianza y (2) incrementar
el tamaño de la muestra.
Reducción del nivel de confianza. Por ejemplo, en el intento del señor Gerber por
estimar la declaración de impuestos promedio de sus clientes, que un incremento
en la precisión puede obtenerse aceptando un nivel inferior de confianza. Su
intervalo de confianza del 99% oscilaba entre US$573 y US$732, mientras que el
intervalo del 95% era más estrecho de US$594 a US$712. Esto resultó del hecho
que el intervalo de confianza del 99% requirió un valor de Z de 2.58 en lugar de
1.96 que utiliza el intervalo del 95%.
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
83
Sin embargo, había un costo involucrado en lograr esta precisión mayor: el nivel
de confianza bajó a 95%, produciendo un 5% de probabilidad de error en lugar
del 1% relacionado con el intervalo de confianza del 99%. ¿Existe alguna manera
en la que se pueda reducir el intervalo sin sufrir una pérdida de confianza? Sí,
incrementando el tamaño muestral.
Incremento del tamaño muestral. Incrementando el tamaño muestral se puede
reducir el error estándar 𝜎 √𝑛⁄ . Si el tamaño muestral del señor Gerber se
incrementa a 80, el intervalo del 99% presenta un grado de precisión similar al
intervalo más estrecho del 95%, sin ninguna pérdida de confianza.
Infortunadamente, esta ventaja no se gana sin un precio. El tamaño más grande
de la muestra significa más tiempo y más dinero que deben gastarse al recolectar
y manejar los datos. De nuevo, debe tomarse una decisión. Se vuelve una
decisión gerencial respecto a qué método tomar.
4.4.4 Determinación del tamaño apropiado de la muestra
El tamaño de la muestra juega un papel importante al determinar la probabilidad
de error así como en la precisión de la estimación. Una vez que se ha
seleccionado el nivel de confianza, dos factores importantes influyen en el
tamaño muestral: (1) la varianza de la población 𝜎2 y (2) el tamaño del error
tolerable que el investigador está dispuesto a aceptar. Mientras que el primer
factor está más allá del control del investigador (no hay nada que se pueda
hacer sobre la varianza de la población), sí es posible limitar el tamaño del error.
El tamaño del error que un investigador puede tolerar depende de qué tan crítico
es el trabajo. Algunas tareas extremadamente delicadas requieren de resultados
exactos: los procedimientos médicos vitales de los cuales dependen vidas
humanas, o la producción de piezas de una máquina que deba cumplir medidas
precisas, pueden tolerar sólo un pequeño error. En otros casos, los errores más
grandes pueden tener consecuencias menos graves.
El tamaño muestral para intervalos de la media poblacional
2 2
2
Z σn
x μ
(IV.8)
4.5 Errores tipo I y II.
El modelo estadístico se basa en un método de demostración comúnmente
empleado en matemáticas, en el que se asume una hipótesis y se obtiene un
resultado absurdo, concluyendo que la hipótesis de partida es falsa. Se le conoce
como método por contradicción o reducción al absurdo.
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
84
La adaptación de este método en estadística parte de dos hipótesis lógicas: la
hipótesis nula y la hipótesis alternativa, representada como 𝐻𝑜 y 𝐻1,
respectivamente.
La pregunta de investigación se ha transformado en una hipótesis 𝐻1; además,
encabeza el modelo una hipótesis 𝐻𝑜, un resultado posible de la prueba, aunque
lógicamente opuesto al objetivo de investigación.
La estructura y la mecánica del modelo tienen la hipótesis nula 𝐻𝑜 como el
referente alrededor del cual se desarrollan el análisis estadístico y se toma la
decisión final; esto da lugar a sólo dos decisiones aceptar 𝐻𝑜 o rechazar 𝐻𝑜.
Como la prueba de las hipótesis se sustenta en una muestra aleatoria, el modelo
puede llevar a decisiones correctas e incorrectas. Por ejemplo, si se rechaza la
hipótesis nula siendo verdadera, se dice que se comete un error tipo I; si se
acepta la hipótesis nula siendo en realidad falsa, se comete un error tipo II. Los
otros dos casos posibles corresponderían a decisiones correctas, ver tabla IV.2.
Tabla IV.2. Decisiones posibles en las pruebas de hipótesis.
𝐻𝑜es verdadera 𝐻𝑜 es falsa
Rechazar 𝐻𝑜 Error tipo I No hay error (decisión correcta)
Aceptar 𝐻𝑜 No hay error (decisión correcta) Error tipo II
La probabilidad de cometer un error tipo I es igual al nivel de significancia, o valor
𝛼 en el que se prueba la hipótesis. El investigador debe tomar una decisión
respecto al valor del nivel de significancia 𝛼. Debe seleccionar un valor de 𝛼 que
le dé suficiente confianza, pero no tan pequeño que lo ponga en un alto riesgo
de cometer el error tipo II y de tener una potencia de la prueba baja.
4.6 Contraste de hipótesis unilateral y bilateral.
La hipótesis nula expresa que la situación no ha cambiado, mientras que la
hipótesis alterna establece que la situación se ha modificado en alguna
dirección específica o, simplemente, que ha cambiado.
Se clasifica una prueba estadística como de cola izquierda, cola derecha o de
dos colas, de acuerdo con la hipótesis alterna seleccionada, como muestra en
la tabla IV.3 y se ilustra en las figuras IV.4 y IV.5.
Tabla IV.3. Pruebas estadísticas con el uso de del parámetro 𝜇.
Cola izquierda Cola derecha Dos colas
𝐻𝑜: 𝜇 ≥ 𝜇𝑜 𝐻1: 𝜇 < 𝜇𝑜
𝐻𝑜: 𝜇 ≤ 𝜇𝑜 𝐻1: 𝜇 > 𝜇𝑜
𝐻𝑜: 𝜇 = 𝜇𝑜 𝐻1: 𝜇 ≠ 𝜇𝑜
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
85
Hay cuatro pasos involucrados en una prueba:
1. Plantear las hipótesis.
2. Con base en los resultados de la muestra, calcular el valor del estadístico
de prueba Z.
3. Determinar la regla de decisión con base en los valores críticos de Z.
4. Interpretación y conclusiones.
El valor Z utilizado para probar la hipótesis cuando 𝜎 es conocido:
ox μZ
σ
n
(IV.9)
El valor Z utilizado para probar la hipótesis cuando 𝜎 es desconocida:
ox μZ
s
n
(IV.10)
4 3.2 2.4 1.6 0.8 0 0.8 1.6 2.4 3.2 40
0.113
0.225
0.338
0.450.45
1.338 104
n x 0 1( )
44 x
Figura IV.4 Prueba de hipótesis de dos colas.
0.95 0.475
𝑯𝒐: 𝝁 = 𝝁𝒐
𝜶/𝟐 = 𝟎. 𝟎𝟐𝟓
−1.96 +1.96
0.475
Zona de
rechazo
cola a la
izquierda
Zona de
rechazo
cola a la
derecha Zona de no
rechazo
𝑯𝟏: 𝝁 ≠ 𝝁𝒐
Existe un 95% de probabilidad de
que los resultados muestrales
puedan caer entre ±1.96 si la
hipótesis nula es verdadera
PROBABILIDAD Y ESTADÍSTICA UNIDAD IV
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
86
4 3.2 2.4 1.6 0.8 0 0.8 1.6 2.4 3.2 40
0.113
0.225
0.338
0.450.45
1.338 104
n x 0 1( )
44 x
4 3.2 2.4 1.6 0.8 0 0.8 1.6 2.4 3.2 40
0.113
0.225
0.338
0.450.45
1.338 104
n x 0 1( )
44 x
Figura IV.5 Prueba de hipótesis de una cola a la izquierda y a la derecha.
Zona de
rechazo
cola a la
izquierda
Zona de no
rechazo
𝜶
𝑯𝒐: 𝝁 ≥ 𝝁𝒐
𝑯𝟏: 𝝁 < 𝝁𝒐
Zona de
rechazo
cola a la
derecha
Zona de no
rechazo
𝑯𝒐: 𝝁 ≤ 𝝁𝒐
𝑯𝟏: 𝝁 > 𝝁𝒐
𝜶
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
87
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 8. BATERÍA DE EJERCICIOS:
INFERENCIA ESTADÍSTICA Y MUESTREO ESTADÍSTICO
1. Una población de ventas semanales (en miles de dólares) en Blazing Salads, un
restaurante vegetariano en Chicago, es 27, 32, 17, 21 y 32.
a) Calcule e interprete la desviación estándar.
b) Determine n = 2 y desarrolle la distribución muestral.
c) Calcule el error estándar
d) Calcule la media poblacional
e) Calcule la gran media ¿Cómo se compara con la media poblacional?
2. Utilizando los datos del ejercicio anterior determine ahora con n = 3:
a) La distribución muestral
b) Calcule la gran media y el error estándar ¿Cómo difieren los resultados del ejercicio
anterior y por qué?
3. Según la revista Business Week, el promedio de los años de experiencia de los pilotos de
aerolínea es de 25.2. Se asume una desviación estándar de 12 años. Este año usted debe
tomar 36 vuelos comerciales. Usted espera que la experiencia promedio de los pilotos de los
vuelos que usted tome sea superior a 30. ¿Qué tan probable es que la media muestral sea
mayor de 30?
4. Un proceso de manufactura produce unidades que miden en promedio 10 pulgadas de
largo con una desviación estándar de 3.2 pulgadas. Si sólo pueden utilizarse las unidades que
estén entre 9.5 y 10.5 pulgadas, ¿cuántas pueden descartarse de una muestra de 100?
5. La desviación estándar en cuanto a la cantidad de tiempo que se gasta en entrenar a un
trabajador para realizar un trabajo es de 40 minutos. Se toma una muestra de 64 trabajadores.
a) ¿Cuál es la probabilidad de que la media muestral exceda la media poblacional en más
de 5 minutos?
b) ¿Cuál es la probabilidad de que la media muestral se al menos mayor que la media
poblacional en 8 minutos?
6. El promedio de fondo de pensiones en TIAA, para una población de profesores, es de
$40,715, con una desviación estándar de $19,015. Halle la probabilidad que una muestra de
75 profesores produzca un error de muestreo menor que $1,000.
7. La casa del papel vende invitaciones, sorpresas y otros productos de papelería para
ocasiones festivas. Se asume que las horas semanales promedio que trabajan los empleados
en la tienda es de 36.7, con una desviación estándar de 3.5. Juan Pérez, propietario de la
casa del papel, desea por lo menos un 90% de confiabilidad en que su estimado de las horas
promedio trabajadas por empleado cada semana está dentro de 1 hora de la media
poblacional real. Se selecciona una muestra de 36 semanas. ¿Cuál es la probabilidad de que
Pérez no esté desilusionado con el estimado?
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
88
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 9. BATERÍA DE EJERCICIOS:
ESTIMACIÓN CON INTERVALOS DE CONFIANZA
1. Consideremos el caso de un promotor inmobiliario que intenta construir un gran centro
comercial. Puede estimar en el área el ingreso promedio por familia como indicador de las
ventas esperadas. Una muestra de 100 familias da una media de $35,500. Se asume que la
desviación estándar poblacional es $7,200. Calcule:
a) Determine el intervalo de confianza del 95%, y
b) Considere una segunda muestra con una media de $35,600 y calcule el I.C. del 95%
2. Sánchez y asociados, acaban de registrar las declaraciones de impuestos de sus clientes.
Desean estimar la cantidad promedio que deben al servicio de renta interna. De los 50
clientes seleccionó en su muestra, la cantidad promedio que se adeudaba era de $652.68.
La desviación estándar de la muestra es $217.43, calcule:
a) El I.C. del 99%
b) ¿Qué pasaría a este intervalo si el señor Sánchez estuviera dispuesto a aceptar un nivel
de confianza del 95%?
c) Interprete sus resultados.
3. Taxis seguros planea comprar una flota de nuevos taxis para sus operaciones en Reforma. La
decisión depende de si el rendimiento del auto en consideración es por lo menos 27.5 millas
por galón de gasolina. Los 36 carros que prueba la compañía reportan una media de 25.6
millas por galón de gasolina, con una desviación estándar de 3.5 MPG. A un nivel de
confianza del 99%, ¿Qué aconsejaría a Taxis seguros que hiciera?
4. Una muestra de 121 llamadas al número 900 que usted maneja tiene una duración promedio
de 16.6 minutos y una desviación estándar de 3.63 minutos. Usted pretende eliminar el servicio
a menos que la duración promedio sea superior a 18 minutos.
a) En el nivel de confianza del 90% ¿cuál es su decisión?
b) ¿Cuál sería su decisión a un nivel de confianza del 95%? ¿Por qué son diferentes los
intervalos?
c) ¿Cuál sería su decisión si utilizara una muestra de 200 llamadas?
5. Un fabricante que produce focos que tienen un promedio de vida con distribución
aproximadamente normal y una desviación estándar de 40 horas. Si una muestra de 30 focos
tiene una vida promedio de 780 horas, encuentre un intervalo de confianza del 96% para la
media poblacional de todos los focos que produce la empresa.
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
89
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 10. BATERÍA DE EJERCICIOS:
PRUEBA DE HIPÓTESIS
1. La gerencia de Banco Azteca está planeando basar cargos para las cuentas corrientes en el
saldo diario promedio. El gerente de cuentas preferenciales desea probar la hipótesis de que
las cuentas tienen un promedio de $312. Se selecciona una muestra de 200 cuentas, dando
una media de $298.10 con una desviación estándar de $97.30. Para minimizar la probabilidad
de un error tipo I, se selecciona un valor 𝛼 de 1%.
2. En una reunión informativa para una oficina corporativa, el gerente del Hotel Delicias, reportó
que el número promedio de habitaciones alquiladas por noche es de por lo menos 212. Es
decir, 212 . Uno de los funcionarios corporativos considera que esta cifra puede estar algo
sobre estimada. Una muestra de 150 noches produce una media de 201.3 habitaciones y una
desviación estándar de 45.5 habitaciones. Si estos resultados sugieren que el gerente ha
inflado su reporte, será amonestado severamente. A un nivel de confianza de 1%, ¿Cuál es el
destino del gerente?
3. Una encuesta realizada por el INEGI mostró que los estudiantes de las universidades de la
nación gastan en promedio más de $75 mensuales en entretenimiento. Si usted puede hallar
evidencias para confirmar esta afirmación, podría utilizarla para solicitar a su casa ayuda
monetaria adicional. De los 100 estudiantes que tomó de muestra, usted haya una media de
$80.23 con una desviación estándar de $45.67. ¿A un nivel de significancia del 2%, se
encuentra justificación para la solicitud?
4. Como gerente de compras para una gran empresa de seguros usted debe decidir si
actualizar o no las computadoras de la oficina. A usted se le ha dicho que el costo promedio
de las computadoras es de US$2,100. Una muestra de 64 minoristas revela un precio promedio
de US$2,251, con una desviación estándar de US$812. ¿A qué nivel de significancia del 5%
parece que su información es correcta? (Prueba de hipótesis)
5. Durante los últimos meses Raynor & Sons ha publicado ampliamente su negocio de suministros
eléctricos. El Sr. Raynor espera que el resultado haya sido incrementar las ventas promedio
semanales por encima de US$7,880 que la compañía experimentó en el pasado. Una muestra
de 36 semanas da una media de US$8,023 con una desviación estándar de US$1,733. A un
nivel de significancia del 1%, ¿parece que la publicidad ha producido efecto? (Prueba de
hipótesis)
6. Según The Wall Street Journal (mayo 12 de 1997) muchas compañías de ropa deportiva están
tratando de comercializar sus productos entre los más jóvenes. El artículo sugirió que la edad
promedio de los consumidores había caído por debajo del grupo de edad de 34.4 años que
caracterizó los comienzos de la década. Si una muestra de 1,000 clientes reporta una media
de 33.2 años y una desviación estándar de 9.4, ¿qué se incluye a un nivel de significancia del
4%? (Prueba de hipótesis)
PROBABILIDAD Y ESTADÍSTICA UNIDAD V
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
90
REGRESIÓN Y CORRELACIÓN
Competencia: Conocer los principios que rigen el control de calidad de diversos
procesos para mantener y mejorar la efectividad y eficiencia de procesos.
La regresión y la correlación son las dos herramientas estadísticas más poderosas
y versátiles que se pueden utilizar para solucionar problemas comunes en los
negocios. Muchos estudios se basan en la creencia de que se puede identificar
y cuantificar alguna relación funcional entre dos o más variables. Por ejemplo, en
un caso industrial se puede saber que el contenido de alquitrán en el producto
de salida de un proceso químico está relacionado con la temperatura con la que
éste se lleva a cabo. Puede ser interesante desarrollar un método de predicción,
esto es, un procedimiento para estimar el contenido de alquitrán para varios
niveles de temperatura tomados de información experimental.
5.1 Diagrama de dispersión
El diagrama de dispersión, ver figura V.1, representa las observaciones por pares
para 𝑥 e 𝑦. Es habitual colocar la variable independiente en el eje horizontal. Si 𝑥
e 𝑦 se relacionan en forma lineal, entonces a medida que 𝑥 cambia en una
cantidad constante. Si existe una relación curvilínea, 𝑦 cambia en una cantidad
diferente a medida que 𝑥 cambia.
Figura V.1 Diagrama de dispersión.
5.2 Regresión lineal simple.
La regresión lineal se refiere a la predicción del valor de una variable a partir de
una o más variables. Se denomina a la variable dependiente (𝑦), variable de
respuesta y a la variable independiente (𝑥), variable de predicción.
25
27
29
31
33
35
37
39
80 85 90 95 100 105 110 115 120 125
Eje
y
Eje x
PROBABILIDAD Y ESTADÍSTICA UNIDAD V
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
91
Una manera de estudiar el comportamiento de 𝑦 respecto a 𝑥, es mediante un
modelo de regresión, que consiste en ajustar un modelo matemático de la forma:
𝑦 = 𝑓(𝑥), a las 𝑛 parejas de puntos. Con lo cual se puede ver si dado un valor de
la variable independiente 𝑥, se puede predecir el valor promedio de 𝑦.
Éste se llama modelo de regresión lineal y expresa la relación lineal entre (𝑥) y (𝑦):
Modelo de regresión lineal: xy 10
Para estimar 0 y
1 ajustamos la recta que explique de mejor manera el
comportamiento de los datos. Debemos encontrar la recta que pasa más cerca
de todos los puntos. Un procedimiento para ajustar la mejor recta y por tanto de
estimar 0 y
1, es mediante el método de mínimos cuadrados. Estas estimaciones
se denominan estimaciones puntuales de los mínimos cuadrados de los
parámetros 0 y
1.
De esta forma se trata de encontrar los valores de 0 y
1 que minimizan la suma
de los errores cuadrados. Se trata de ajustar la recta de forma que la suma de las
distancias en forma vertical de los puntos a la recta se minimice.
1. La estimación puntual de los mínimos cuadrados de la pendiente.
xx
xy
SS
SS1̂
Suma de cuadrados corregida de x
Suma de cuadrados corregida de los
productos cruzados xy
n
yx
yxSS
n
i
i
n
i
in
i
iixy
11
1
n
x
xS
n
i
in
i
ixx
2
1
1
2
2. La estimación puntual de los mínimos cuadrados de la ordenada al origen.
xy 10ˆˆ ,
donde: n
y
y
n
i
i 1
n-número de
observaciones
n
x
x
n
i
i 1
Media o promedio
de los valores de x
Media o promedio de
los valores de y
PROBABILIDAD Y ESTADÍSTICA UNIDAD V
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
92
Se representará la ecuación de regresión estimada por xy 10ˆˆˆ (ecuación de
predicción de mínimos cuadrados).
Ejemplo 5.1. Una firma de renta de coches recabo los datos de la siguiente tabla
sobre los costos del mantenimiento (𝑦) y las millas recorridas (𝑥) para 7
automóviles. Encontrar el modelo de regresión lineal para los datos
proporcionados.
Millas recorridas
en miles (x)
Costos de
mantenimiento (y)
55 299
27 160
36 215
42 255
65 350
48 275
29 207
1. Gráfico de dispersión.
2. Tabla de datos.
𝒙 𝒚 𝒙𝟐 𝒚𝟐 𝒙𝒚 55 299
27 160
36 215
42 255
65 350
48 275
29 207
x 302 y 1761 2x 14184 2y 467225 xy 81168
150
200
250
300
350
400
20 25 30 35 40 45 50 55 60 65 70
Co
sto
de
Man
ten
imie
nto
Millas recorridas
PROBABILIDAD Y ESTADÍSTICA UNIDAD V
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
93
3. Determinar SSxx:
n
x
xSS
n
i
in
i
ixx
2
1
1
21154.8571
4. Determinar SSxy:
n
yx
yxSS
n
i
i
n
i
in
i
iixy
11
1
5193.4285
5. Determinar 1̂ :
xx
xy
SS
SS1̂ 4.4970
6. Determinar 0ˆy , yx :
n
x
x
n
i
i
143.1428
n
y
y
n
i
i
1251.5714
xy 10ˆˆ 57.5582
7. Ecuación de regresión estimada: 𝑦 = 57.5582 + 4.4970𝑥
8. Interpretación de 1̂ :
PROBABILIDAD Y ESTADÍSTICA UNIDAD V
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
94
Ejemplo 5.2. La agencia de protección del ambiente (Environmental Protection
Agency; EPA) proporcionó una serie de datos que comparan el tamaño del
motor en pulgadas cúbicas de desplazamiento y las millas por galón estimadas
para ocho modelos representativos de automóviles subcompactos modelo 2000.
Determinar la ecuación de regresión estimada.
Coches compactos Tamaño del motor (mpg)
Chevrolet Cavalier 121 30
Nissan Stanza 120 31
Dodge Omni 97 34
Ford Scort 98 27
Mazda 626 122 29
Plymouth Horzion 97 34
Renault Alliance 85 38
Toyota 122 32
1. Gráfico de dispersión.
2. Tabla de datos.
𝒙 𝒚 𝒙𝟐 𝒚𝟐 𝒙𝒚
x y 2x 2y xy
PROBABILIDAD Y ESTADÍSTICA UNIDAD V
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
95
3. Determinar SSxx:
n
x
xSS
n
i
in
i
ixx
2
1
1
2
4. Determinar SSxy:
n
yx
yxSS
n
i
i
n
i
in
i
iixy
11
1
5. Determinar 1̂ :
xx
xy
SS
SS1̂
6. Determinar 0ˆy , yx :
n
x
x
n
i
i
1
n
y
y
n
i
i
1
xy 10ˆˆ
7. Ecuación de regresión estimada:________________
8. Interpretación de 1̂ :
PROBABILIDAD Y ESTADÍSTICA UNIDAD V
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
96
5.3 Correlación.
Dadas dos variables aleatorias cualesquiera “𝑥” e “ 𝑦”, una medida de la relación
lineal que hay entre ambas variables es el coeficiente de correlación de Pearson
(𝒓) definido por :
yyxx
xy
SSSS
SSr
Por tanto, −1 < 𝑟 < 1. Este coeficiente es una buena medida de la bondad del
ajuste de la recta de regresión.
En la interpretación del coeficiente de correlación se debe tener en cuenta que:
𝑟 = ±1 indica una relación lineal exacta positiva (creciente) o negativa
(decreciente),
𝑟 = 0 indica la no existencia de relación lineal estocástica, pero no indica
independencia de las variables ya que puede existir una relación no lineal
incluso exacta,
valores intermedios de r (0 < 𝑟 < 1 ó −1 < 𝑟 < 0) indican la existencia de
una relación lineal estocástica, más fuerte cuanto más próximo a +1 (ó −1)
sea el valor de 𝑟.
Para poder interpretar con mayor facilidad el coeficiente de correlación se
exponen en la figura V.2 varias nubes de observaciones y el ajuste lineal obtenido:
Figura V.2(a) existe una dependencia funcional lineal, las observaciones están
sobre la recta de regresión. 𝑟 = 1, recta de regresión: 𝑦 = 𝑥. Figura V.2(b) la
relación lineal entre las variables es muy pequeña y no parece que exista otro
tipo de relación entre ellas, la nube de puntos indica que las variables son “casi”
independientes; 𝑟 = 0.192. Se acepta la no influencia de la variable regresora en
𝑦. Figura V.2(c) existe una dependencia funcional entre las observaciones pero
no de tipo lineal, por tanto la correlación es muy pequeña; 𝑟 = 0.391. Figura
V.2(d) la nube de datos se ajusta razonablemente a una recta con pendiente
positiva; 𝑟 = 0.641. Figura V.2(e) existe una fuerte dependencia lineal negativa
entre las dos variables y la correlación es muy alta (próxima a -1); 𝑟 = −0.924.
PROBABILIDAD Y ESTADÍSTICA UNIDAD V
ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1
97
(a)
(b)
(c)
(d) (e) Figura V.2 (a) Dependencia funcional lineal, (b) observaciones casi independientes, (c) existe
una relación cuadrática, (d) relación estocástica lineal y (e) fuerte relación estocástica lineal.
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
98
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
ACTIVIDAD DE APRENDIZAJE 11. BATERÍA DE EJERCICIOS:
REGRESIÓN LINEAL Y CORRELACIÓN
1. En la tabla A se presentan los datos de ventas en un periodo de 11 años de una compañía
fabricante de software de gráficos constituida en 1990.
a) Determine la ecuación de tendencia lineal para estos datos mediante el método de
mínimos cuadrados, con dos cifras decimales para todos los valores. Usando esta
ecuación, determine el pronóstico de ventas para el año 2001.
b) Trace la gráfica de dispersión y la línea de tendencia.
c) Obtenga el coeficiente de correlación e interprete el resultado obtenido.
Tabla A. Ventas anuales de una empresa de software.
Año
Ventas,
en millones de
dólares
(Y)
1990 $0.2
1991 0.4
1992 0.5
1993 0.9
1994 1.1
1995 1.5
1996 1.3
1997 1.1
1998 1.7
1999 1.9
2000 2.3
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
99
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
2. Larry’s Lawn Service hace publicidad de un nuevo químico para erradicar las malezas. Para
determinar la tendencia en el número de clientes, Larry consulta los registros de la compañía
y encuentra los datos que aparecen a continuación.
a. Determine la ecuación de tendencia lineal.
b. Él desea pronosticar el número de clientes para el período 15 (correspondiente al mes de
marzo de 1998).
c. Grafica los puntos de la tabla “Período vs. Clientes” y traza la línea de tendencia
calculada en el inciso (a).
d. Obtenga el coeficiente de correlación e interprete el resultado obtenido.
Período X Clientes
Y
Enero de 1997 1 41
Febrero 2 43
Marzo 3 39
Abril 4 37
Mayo 5 42
Junio 6 35
Julio 7 30
Agosto 8 31
Septiembre 9 32
Octubre 10 30
Noviembre 11 28
Diciembre 12 28
Enero de 1998 13 29
Febrero 14 26
Tecnológico de Estudios Superiores de Cuautitlán Izcalli
ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO
100
AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748
3. Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país
a partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los
siguientes datos:
X 189 190 208 227 239 252 257 274 293 308 316
Y 402 404 412 425 429 436 440 447 458 469 469
X representa la renta nacional en millones de euros e Y representa las ventas de la compañía en
miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive). Calcular:
a) La recta de regresión de Y sobre X.
b) El coeficiente de correlación lineal e interpretarlo.
c) Si en 2001 la renta nacional del país fue de 325 millones de euros. ¿Cuál será la predicción
para las ventas de la compañía en este año?
4. La información estadística obtenida de una muestra de tamaño 12 sobre la relación existente
entre la inversión realizada y el rendimiento obtenido en cientos de miles de euros para
explotaciones agrícolas, se muestra en el siguiente cuadro:
Inversión (X) 11 14 16 15 16 18 20 21 14 20 19 11
Rendimiento (Y) 2 3 5 6 5 3 7 10 6 10 5 6
Calcular:
a) La recta de regresión del rendimiento respecto de la inversión.
b) La previsión de inversión que se obtendrá con un rendimiento de 1, 250,000 €.
5. El número de horas dedicadas al estudio de una asignatura y la calificación obtenida en el
examen correspondiente, de ocho personas es:
Horas (X) 20 16 34 23 27 32 18 22
Calificación (Y) 6.5 6 8.5 7 9 9.5 7.5 8
Se pide:
a) Recta de regresión de Y sobre X.
b) Calificación estimada para una persona que hubiese estudiado 28 horas.
101
INGENIERÍA ELECTRÓNICA
ACTIVIDADES DE
APRENDIZAJE:
EVALUACIÓN
UNIDAD: Código
Periodo:
Nombre del profesor:
Asignatura: Fecha:
Unidad:
Nombre del alumno: Grupo:
Competencia específica:
Instrucciones generales:
Criterios
Parámetros
Formato de
entrega.
Anota todos los datos generales. (10ptos.) Omite de 1 a 2 datos generales.
(3ptos.)
Omite más de 3 datos
generales.
(0 ptos.)
Presentación. Edición de títulos de gráficas y tablas,
resultados legibles, texto justificado,
tamaño de letra 12 para texto y títulos y sin
faltas de ortografía. (10ptos.)
Sin edición de títulos de gráficas,
gráficas y tablas sin alineación,
faltas de ortografía. (5ptos.)
Pésima presentación del
trabajo.
(0 ptos.)
Excel Realiza el análisis estadístico en las
plantillas de Excel de todos los ejercicios.
(10 ptos.)
Falta el cálculo de la tabla de
resultados de la plantilla de Excel
para algunos ejercicis. (5 ptos.)
Utiliza de forma incorrecta las
plantillas de Excel. (0 ptos.)
Respuestas Redacta y fundamenta de acuerdo a los
resultados obtenidos de forma clara (40
ptos)
Sólo redacta la respuesta de 1 a 6
ejercicios. (30 ptos)
No redacta ninguna respuesta y
sólo pone gráficas. (0 ptos)
Graficas Todas la graficas son legibles y concuerdan con los resultados obtenidos. (30 ptos.)
La graficas no son legibles pero
concuerdan con los resultados.
(25 ptos.)
Las gráficas no son legibles y
no concuerdan con los
resultados.
(0 ptos.)
Resultado de la evaluación:
Puntuación
Alcanzada
1ra. oportunidad 2da. oportunidad
Firma del docente
Firma del alumno
División de Ingeniería Electrónica Probabilidad y Estadística
Tecnológico de Estudios Superiores de Cuautitlán Izcalli 102
6. Referencias Bibliográficas.
Anderson, D, Sweeney, D. y Williams, T. (1999). Métodos cuantitativos para
los negocios. México: Thomson.
Braverman, J. (1980). Probabilidad, lógica y decisiones gerenciales.
México: Trillas.
Douglas, L., Marchal,W. y Wathen, S. (2008). Estadística aplicada a los
negocios y economía. México: McGrawHill.
Levin, R. y Rubien, D. (2004). Estadística para administración y economía.
México: Prentice Hall.
Mason, R. y Lind, D. (1998). Estadística para administración y economía.
México: Alfaomega.
Mendenhall, W. y Sincich, T. (1992). Probabilidad y estadística para
ingeniería y ciencias. México: Prentice Hall.
Nieves, A. y Dominguez, F. C. (2010). Probabilidad y Estadística para
ingeniería: un enfoque moderno. México: McGrawHill.
Spurr, W y Bonini, C. (1982). Toma de decisiones en administración
mediante métodos estadísticos. México: Limusa.
Walpole, R. E. y Myers, R. H. (1992). Probabilidad y Estadística. México:
McGrawHill.
Webster, A. (2000). Estadística aplicada a los negocios y a la economía.
México: McGrawHill.