tecnológico de estudios superiores de cuautitlán izcalli · pdf fileestudios...

Tecnológico de Estudios Superiores de Cuautitlán Izcalli

ORGANISMO PÚBLICO DESCENTRALIZADO DEL ESTADO DE MÉXICO

AV. NOPALTEPEC S/N FRACCIÓN LA COYOTERA DEL EJIDO SAN ANTONIO CUAMATLA, CUAUTITLÁN IZCALLI, ESTADO DE MÉXICO CP 54748


DIVISIÓN DE INGENIERÍA ELECTRÓNICA

CUADERNILLO DE PROBABILIDAD Y ESTADÍSTICA

FECHA: 26/08/13, Primera versión

ELABORO

M. en C. FELIX ANTONIO SAUCEDO ESQUIVEL

REVISO

ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS

Vo. Bo.

ING. MARIA DEL CARMEN RODRIGUEZ PASCUAL

JEFE DE DIVISIÓN DE INGENIERÍA ELECTRÓNICA

División de Ingeniería Electrónica Probabilidad y Estadística

Tecnológico de Estudios Superiores de Cuautitlán Izcalli i

Presentación

La asignatura “Probabilidad y Estadística” aporta al perfil del Ingeniero Electrónico las competencias necesarias para Interpretar datos que permitan mejorar los procesos de fabricación, investigación y diseño. Además obtendrá la habilidad para plantear y solucionar problemas por medio de métodos estadísticos. La asignatura se encuentra ubicada al principio de la carrera y es importante para materias como formulación y evaluación de proyectos y administración y técnicas de mantenimiento. Además de que enseña como razonar de manera lógica la toma decisiones en presencia de incertidumbre y variación. El presente trabajo tiene como antecedente los cursos impartidos en el Tecnológico de Estudios Superiores de Cuautitlán Izcalli para las carreras de Industrial, Contabilidad, Electrónica e Informática y en la Universidad del Valle de México Campus Lomas Verdes para Licenciaturas Ejecutivas. Se sugiere al aspirante que trabaje arduamente en el desarrollo de las actividades de aprendizaje, busque en otras fuentes de información, además del presente material, utilice las plantillas de Excel, entre otros programas comerciales, busque la retroalimentación del profesor y recuerda que para llegar a la meta necesitaras constancia y dedicación al 100% a tus estudios de ingeniería.

Félix Antonio Saucedo Esquivel Profesor de Tiempo Completo “A”


Felix Antonio Saucedo Esquivel

Índice

Pág. Presentación i

1. Estadística Descriptiva

1.1 Objeto de la estadística 1

1.2 Ramas de la estadística 2

1.3 Estadística en la investigación 2

1.4 Conceptos básicos 4 1.5 Organización y representación de datos 12 1.6 Distribución de frecuencias tabulares y gráficas 13 1.7 Medidas de tendencia central 20 1.8 Medidas de dispersión, asimetría y kurtosis 22 1.9 Medidas de posición 26 Actividad de aprendizaje 1. Conceptos básicos 31 Actividad de aprendizaje 2. Número de intervalo óptimo 33 Actividad de aprendizaje 3. Medidas de tendencia central y de dispersión 35 Actividad de aprendizaje 4. Caso de estudio I 38 Actividad de aprendizaje 5. Caso de estudio II 39 Actividad de aprendizaje 6. Caso de estudio III 40

2. Probabilidad

2.1 Técnicas de conteo 41 2.2 Enfoques de Probabilidad 44 2.3 Axiomas de Probabilidad 45 Actividad de aprendizaje 7. Cuestionario 50

3. Distribuciones de Probabilidad

3.1 Distribución de Probabilidad Binomial 62 3.2 Distribución de Poisson 66 3.3 Distribución Normal 70

4. Estadística Inferencial

4.1 Inferencia Estadística 74

4.2 Muestreo Estadístico 77

4.3 Estimadores 80

4.4 Estimación por Intervalo 81

4.5 Errores tipo I y II 83 4.6 Contraste de hipótesis unilateral y bilateral 84 Actividad de aprendizaje 8. Inferencia estadística y muestreo estadístico 87 Actividad de aprendizaje 9. Estimación con intervalos de confianza 88 Actividad de aprendizaje 10. Prueba de Hipótesis 89

5. Regresión y Correlación

5.1 Diagrama de dispersión 90 5.2 Regresión lineal simple 90 5.3 Correlación 96 Actividad de aprendizaje 11. Regresión lineal y Correlación 98 Formato de evaluación de actividad de aprendizaje 101

6. Referencias Bibliográficas 102

PROBABILIDAD Y ESTADÍSTICA UNIDAD I

ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13 – 02.V1

1

CONTENIDO DE LA ESTADÍSTICA

Competencia: El estudiante determinará el contenido de la estadística dentro

del área de conocimiento de su profesión.

INTRODUCCIÓN

A medida que aumenta la complejidad de nuestro mundo, se hace cada vez

más difícil tomar decisiones inteligentes y bien documentadas. Con frecuencia

tales decisiones deben tomarse con mucho menos que un conocimiento

adecuado y experimentando una gran incertidumbre. Sin embargo, las

soluciones a estos problemas son esenciales para nuestro bienestar e incluso

para nuestra supervivencia final. Continuamente estamos recibiendo presiones

debido a problemas económicos como una inflación galopante, el sistema

tributario engorroso, etc. Todo nuestro tejido económico y social está

amenazado por la contaminación ambiental, la deuda pública onerosa, la tasa

de criminalidad que siempre va en aumento y las impredecibles tasas de

interés. Esta unidad aportara una visión general sobre lo que es la estadística y

como puede utilizarse.

1.1 OBJETO DE LA ESTADÍSTICA

La Estadística se ocupa de la recolección, agrupación, presentación, análisis e

interpretación de datos, por tanto, la estadística es un método científico que

pretende sacar conclusiones a partir de unas observaciones hechas.

El objetivo básico de la estadística es hacer inferencia acerca de una

población basada en la información contenida en una muestra. Inferir significa

predecir, suponer, asegurar. Es decir se pretende establecer inferencia acerca

de una población. Entendiendo a la población como un conjunto de

individuos, organismos o entes inanimados de los cuales queremos conocer

alguna o algunas características para que nos ayuden a tomar una decisión u

obtener alguna conclusión de suma importancia.

La Estadística actual es el resultado de la unión de dos disciplinas que

evolucionaron de forma independiente hasta confluir en el siglo XIX:

• el Cálculo de Probabilidades, que nació en el siglo XVII como la teoría

matemática de los juegos de azar,

• la “Estadística”, o ciencia del Estado, que estudia la descripción de datos, y

que tiene unas raíces más antiguas, de hecho, tan antiguas como la

humanidad (censos de población). La interacción de ambas líneas de

pensamiento da lugar a la ciencia que estudia cómo obtener conclusiones de

la investigación empírica mediante el uso de modelos matemáticos.



2

Resumiendo la Estadística actúa como disciplina puente entre los modelos

matemáticos y los fenómenos reales. Un modelo matemático es una

abstracción simplificada de una realidad más compleja y siempre existirá una

cierta discrepancia entre lo que se observa y lo previsto por el modelo. La

Estadística proporciona una metodología para evaluar y juzgar estas

discrepancias entre la realidad y la teoría.

1.2 RAMAS DE LA ESTADÍSTICA

La estadística es la ciencia que tiene que ver con la (1) recolección, (2)

organización, (3) presentación, (4) análisis, e (5) interpretación de datos. Las dos

principales ramas del análisis estadístico son:

Estadística descriptiva, es el proceso de recolectar, agrupar y presentar

datos de una manera tal que describa fácil y rápidamente dichos datos.

Estadística inferencial involucra la utilización de una muestra para sacar

alguna inferencia o conclusión sobre la población de la cual hace parte

la muestra.

1.3 ESTADÍSTICA EN LA INVESTIGACIÓN

Virtualmente cada área de la investigación científica seria puede beneficiarse

del análisis estadístico. Para quien formula las políticas económicas y para quien

asesora al presidente y otros funcionarios públicos sobre procedimientos

económicos apropiados, la estadística ha demostrado ser una herramienta

valiosa. Las decisiones sobre las tasas tributarias, los programas sociales, el gasto

de defensa y muchos otros asuntos pueden hacerse de manera inteligente tan

sólo con la ayuda del análisis estadístico. Los hombres y mujeres de negocios en

su eterna búsqueda de la rentabilidad, consideran que la estadística es

esencial en el proceso de toma de decisiones. Los esfuerzos en control de

calidad, minimización de costos, combinación de productos e inventarios, y

una gran cantidad de otros asuntos empresariales, pueden manejarse

efectivamente a través del uso de procedimientos estadísticos comprobados.

Para quienes están en el área de la investigación de mercados, la estadística es

de gran ayuda en el momento de determinar qué tan probable es que un

producto nuevo sea exitoso. La estadística también es muy útil para evaluar las

oportunidades de inversión por parte de asesores financieros. Los contadores,

los jefes de personal y los fabricantes encuentran oportunidades ilimitadas de

beneficiarse con el uso del análisis estadístico. Incluso un investigador en el

campo de la medicina, interesado en la efectividad de un nuevo

medicamento, considera la estadística una aliada imprescindible.



3

Recuerde su Jefe espera que usted haga dos cosas: (a) tomar decisiones y (b)

solucionar problemas; estos dos cometidos pueden lograrse a través de la

aplicación de procedimientos estadísticos.

1.3.1 La aplicación universal de la estadística

Los problemas complejos que enfrenta el mundo actual requieren soluciones

cuantitativas. Si usted no está en capacidad de aplicar la estadística y otros

métodos cuantitativos a muchos de los problemas comunes que sin duda se le

presentarán, estará en gran desventaja en el mercado laboral.

Casi todas las áreas del saber requieren del pensamiento estadístico. Las

disciplinas de estudios que dependen ampliamente del análisis estadístico,

incluyen –pero no se limitan a–, marketing, finanzas, economía e investigación

de operaciones. Los principios aprendidos en contabilidad y gerencia

administrativa también se basan en la preparación estadística.

Los analistas financieros y económicos con frecuencia se basan en sus

habilidades cuantitativas para proporcionar soluciones a problemas difíciles. La

compresión de los principios financieros y económicos permitirá aplicar las

técnicas estadísticas para hallar soluciones viables y tomar decisiones.

Bien sea que las aspiraciones profesionales tiendan hacia la industria privada, el

servicio público, el gobierno, a hacia otra fuente de retribución remunerada, la

experiencia académica será más completa si se adquiere una sólida formación

en fundamentos de análisis estadístico.

1.3.2 Gerencia de calidad total

A medida que la competencia mundial se intensifica, surge, de parte de los

negocios, un esfuerzo por promover la calidad de sus productos. Este esfuerzo,

conocido ampliamente como Gerencia de Calidad Total (Total Quality

Management, TQM), tiene como propósito central la promoción de las

cualidades del producto que el consumidor considera importantes. Tales

atributos van desde la ausencia de defectos hasta el servicio eficiente y la

respuesta rápida a las posibles quejas del consumidor. Hoy día, la mayoría de

los grandes negocios, así como también muchos negocios pequeños, tienen

departamentos de Control de Calidad (Quality Control, QC) cuya función es

recolectar datos sobre el desempeño y solucionar problemas de calidad. Así, la

TQM representa un área creciente de oportunidades para quienes tienen

conocimientos en estadística.

La TQM involucra el uso de equipos integrados conformados por ingenieros,

expertos en marketing, especialistas en diseño, estadísticos, y otros profesionales



4

que pueden contribuir a la satisfacción del cliente. La formación de estos

equipos, denominada Despliegue de la Función de la Calidad (Quality Function

Deployment, QFD), está diseñada para reconocer y agenciar las inquietudes de

los consumidores. Los especialistas actúan conjuntamente para promover la

calidad del producto y para que supla de manera efectiva las necesidades y

preferencias del consumidor.

Los círculos de control de calidad constan de un grupo pequeño de empleados

(generalmente entre 5 y 12) que se reúnen regularmente para solucionar

problemas relacionados con el trabajo. Con frecuencia se conforman tanto

con trabajadores en línea como con representantes de la gerencia; los

miembros de estos círculos de calidad son todos de la misma área de trabajo y

reciben capacitación formal en control estadístico de calidad y en planeación

de grupos. A través de discusiones abiertas y del análisis estadístico, los círculos

pueden lograr mejoras significativas en diversas áreas que van desde el

mejoramiento de la calidad, el diseño del producto, la productividad y los

métodos de producción, hasta la reducción de costos y seguridad.

Uno de los elementos más importantes del TQM es un conjunto de herramientas

y métodos estadísticos utilizados para promover el Control Estadístico de

Calidad (Statistical Quality Control, SQC). Tales herramientas ayudan a organizar

y analizar datos para efectos de solucionar problemas.

Hablando en términos generales, el SQC está diseñado para asegurar que los

productos cumplan con unas normas y especificaciones mínimas de

producción. Este objetivo con frecuencia se promueve a través del uso del

muestreo de aceptación, el cual es parte integral del SQC. El muestreo de

aceptación implica probar una muestra aleatoria de productos existentes para

determinar si se debe aceptar o rechazar todo el envío, o el lote. Esta decisión

se basa en parte de un nivel de calidad aceptable (Aceptable Quality Level,

AQL), o número máximo de defectos que una empresa está dispuesta a tolerar.

1.4 CONCEPTOS BÁSICOS

Toda rama de la investigación científica tiene su vocabulario propio y la

estadística no es la excepción, las definiciones y expresiones que siguen son

esenciales para la compresión de cómo se realizan las pruebas estadísticas.

1.4.1 Población y parámetros

Población: Es la recolección completa de todas las observaciones de interés

para el investigador. Una población puede ser finita o infinita.



5

Población finita: Es aquella que posee o incluye un número limitado de medidas

y observaciones. Se pueden listar los elementos en algún orden y en

consecuencia contarlos uno a uno hasta alcanzar el último.

Población infinita: Es infinita si se incluye un gran conjunto de medidas y

observaciones que no pueden alcanzarse en el conteo. Hipotéticamente no

existe límite en cuanto al número de observaciones que cada uno de ellos

puede generar. Es conveniente referirse a una población infinita cuando se

habla de una población que no puede ser numerada en un periodo razonable.

Parámetro: Es una medida descriptiva de la población total de todas las

observaciones de interés para el investigador.

1.4.2 Muestras y estadísticos

Muestra: Es una parte representativa de la población que se selecciona para

ser estudiada ya que la población es demasiado grande como para analizarla

en su totalidad.

Estadístico: Elemento que describe una muestra y sirve como una estimación

del parámetro de la población correspondiente.

1.4.3 Variables

Variable: Es una característica de la población que se está analizando en un

estudio estadístico.

Tipos de variables:

Cualitativas, categóricas (o alfanuméricas): Pueden tomar valores no

cuantificables numéricamente. Se denomina categoría a cada uno de

los valores que toma la variable.

Nominales: si no existe ningún orden entre las categorías de la

variable. Ejemplos, el grupo sanguíneo (A ,B ,AB, O); el color de los

ojos (azules, verdes, marrones, negros).

Binarias: aquéllas que sólo toman dos valores posibles (sí/no,

presencia/ausencia de cierto carácter), dentro de las nominales.

Ejemplo: el sexo, ser fumador, tener carné de conducir, ser

daltónico.

Ordinales: cuando existe un cierto orden entre las categorías de la

variable. Ejemplo: el nivel de estudios (sin estudios, básicos, medios,

superiores), el grado de miopía (ausencia, bajo, medio, alto).



6

Cuantitativas (o numéricas): Pueden tomar valores cuantificables

numéricamente.

Discretas: si solamente toman valores aislados (generalmente enteros).

Suelen corresponder a conteos. Ejemplos, el número de hermanos, el

número de cafés/día, el número de multas/año.

Continuas: potencialmente puede tomar cualquier valor numérico

dentro de un intervalo o de una unión de intervalos. Ejemplos, el

tiempo de reacción a un cierto medicamento, el peso de un individuo,

la longitud del caparazón de una tortuga.

1.4.4 Métodos de muestreo

Gran parte del trabajo de un estadístico se realiza con muestras. En la práctica

no va a ser posible estudiar todos los elementos de la población, por varias

razones:

El estudio puede implicar la destrucción del elemento (estudio de la vida

media de una partida de bombillas, estudio de la tensión de rotura de

unos cables).

Los elementos pueden existir conceptualmente, pero no en realidad

(población de piezas defectuosas que producirá una máquina en su vida

útil).

Puede ser inviable económicamente (muy costoso) estudiar a toda la

población.

El estudio llevaría tanto tiempo que sería impracticable e incluso las

propiedades de la población podrían variar con el tiempo.

Por tanto debe seleccionarse una muestra de la población, calcular el

estadístico de la muestra, y utilizarlo para estimar el parámetro correspondiente

de la población.

1.4.4.1 Muestreo aleatorio simple

Una muestra es aleatoria simple cuando:

1. cada elemento de la población tiene la misma probabilidad de ser

escogido en forma individual,

2. las observaciones se realizan con reposición, de manera que la población

es idéntica en todas las extracciones.

Comentarios:

La condición (1) asegura la representatividad.



7

La condición (2) se impone por simplicidad: si el tamaño de la población

N es grande con respecto al tamaño muestral n, es prácticamente

indiferente realizar el muestreo con o sin reposición.

¿Cómo se realiza? Se utilizan las tablas de números aleatorios: se enumeran

los elementos de la población del 1 al N y se toman números aleatorios de

tantas cifras como tenga N. El valor del número aleatorio indicará el

elemento a seleccionar.

1.4.4.2 Muestreo Estratificado

Los elementos de la población se dividen en grupos homogéneos o estratos

según la característica más importante (por ejemplo, según el sexo, la edad, la

profesión, etc.). Para esto:

se asigna un número de elementos a cada estrato,

dentro de cada estrato se seleccionan los elementos por muestreo

aleatorio simple.

Si hay k estratos de tamaños k1 N,,N , de manera que k1 NNN , la

composición de la muestra será k1 nnn , donde el número de elementos

se pueden determinar de dos formas distintas:

1. proporcionalmente al tamaño de cada estrato:

N

Nnn i

i (I.1)

2. proporcionalmente a la variabilidad de cada estrato:

k

1iii

iii

N

Nnn

(I.2)

donde σi es una medida de la variabilidad del estrato i-ésimo.



8

1.4.4.3 Muestreo por conglomerados

Hay situaciones en que ni el muestreo aleatorio simple ni el estratificado son

aplicables. En estos casos es habitual que los elementos de la población se

encuentren agrupados en conglomerados, de los cuales sí que se sabe cuántos

hay. (Por ejemplo, la población se distribuye en provincias, los habitantes de

una ciudad se distribuyen en barrios, etc.).

Si puede suponerse que cada conglomerado es una muestra representativa de

la población total respecto de la variable de estudio, podemos:

seleccionar al azar algunos de estos conglomerados,

dentro de cada conglomerado, analizar:

a) todos sus elementos,

b) una muestra aleatoria simple de sus elementos.

Inconveniente, si los conglomerados son heterogéneos entre ellos, puesto que

sólo se analizan algunos de ellos, la muestra final puede ser no representativa

de la población.

Las ideas de estratificación y conglomerado son opuestas:

La estratificación funciona mejor cuánto mayor sean las diferencias entre

estratos, pero es necesario que los estratos sean homogéneos

internamente.

Los conglomerados funcionan mejor cuánto menores sean las diferencias

entre ellos, pero deben ser muy heterogéneos internamente, es decir,

dentro de cada conglomerado debe estar incluida toda la variabilidad

de la población.

La regla general que se aplica a todos los procedimientos de muestreo es que

cualquier información previa tiene que utilizarse para subdividir la población y

asegurar una mayor representatividad de la muestra. Una vez que los grupos

homogéneos han sido definidos, la selección dentro de ellos debe realizarse por

muestreo aleatorio simple.

La exactitud de toda estimación es de enorme importancia. Esta exactitud

depende en gran parte de la forma como se tomó la muestra, y del cuidado

que se tenga para garantizar que la muestra proporcione una imagen

confiable de la población. Sin embargo, con mucha frecuencia se comprueba

que la muestra no es del todo representativa de la población y resultara un error

de muestreo.



9

Existen dos causas posibles del error de muestreo. La primera fuente del error de

muestreo es el azar en el proceso del muestreo. Debido al factor azar en la

selección de elementos de la muestra, es posible seleccionar sin darse cuenta,

elementos que sean anormalmente grandes o inusualmente pequeños,

produciendo una subestimación del parámetro. En cualquiera de los dos casos,

ha ocurrido un error de muestreo.

Una forma más seria de error de muestreo es el sesgo muestral. El sesgo muestral

ocurre cuando hay alguna tendencia a seleccionar determinados elementos

de muestra en lugar de otros. Si el proceso de muestreo se diseña de manera

incorrecta y tiende a promover la selección de demasiadas unidades con una

característica en especial, a expensas de las unidades que no tienen dicha

característica, se dice que la muestra está sesgada.

El sesgo, es el grado de asimetría que presenta un histograma o polígono de

frecuencias. Si el histograma está cargado a la izquierda, el sesgo tiene un valor

negativo. En cambio cuando esta más cargado a la derecha, el sesgo toma un

valor positivo. Si el sesgo adquiere un valor nulo, significa que el histograma es

simétrico.

1.4.5 Escalas de medida

Las variables pueden clasificarse con base en su escala de medida. La manera

en que se clasifican las variables afecta en gran parte la forma como se utilizan

en el análisis. Las variables pueden ser (1) nominales, (2) ordinales, (3) de

intervalo, o (4) de razón.

1.4.5.1 Mediciones en escala nominal

Una medida nominal se crea cuando se utilizan nombres para establecer

categorías dentro de las cuales las variables pueden registrarse exclusivamente.

Por ejemplo, el sexo puede clasificarse como “hombre” o “mujer”. Se podría

codificar también con un “1” o “2”, pero los números servirían tan sólo para

indicar las categorías y no tendría significado numérico. Es importante recordar

que una medida en escala nominal no indica ningún orden de preferencia, sino

que simplemente establece una disposición categórica en la cual se puede

ubicar cada observación.

Existen escalas nominales tanto para datos cuantitativos como cualitativos. Una

escala nominal para datos numéricos asigna números a las categorías para

distinguirlas.



10

1.4.5.2 Medidas en escalas ordinales

Son las que clasifican las observaciones en categorías con un orden

significativo.

A diferencia de una medida en escala nominal, una medida en escala ordinal

si muestra un ordenamiento o secuencia de los datos. Es decir, que las

observaciones se clasifican con base en algunos criterios. Hay quien clasifica sus

productos como “buenos”, “mejores” y “los mejores”. Las encuestas de opinión

con frecuencia utilizan una medida en escala ordinal como “totalmente de

acuerdo”, “de acuerdo”, “sin opinión”, “en desacuerdo”, y “en total

desacuerdo”.

Al igual que con los datos nominales, los números pueden utilizarse para ordenar

los rangos. Y al igual que con los datos nominales, la magnitud de los números

no es importante; el rango depende sólo del orden de los valores. Por ejemplo

se pueden utilizar los rangos de “1”, “2” y “3”, o “1”, “3” y “12” para este asunto.

Las diferencias aritméticas entre valores carecen de sentido. Un producto con

rango “2” no es dos veces mejor que uno de rango “1”.

1.4.5.3 Medidas en escala de intervalo

Medidas en una escala numérica en la cual el valor de cero es arbitrario pero la

diferencia entre valores es importante. Los datos de intervalo son cuantitativos

por necesidad; una escala de intervalo no siempre tiene un punto cero.

En una escala de intervalo las variables se miden de manera numérica, y al

igual que los datos ordinales, llevan inherente un rango u ordenamiento. Sin

embargo, a diferencia de los rangos ordinales, la diferencia entre los valores es

importante. Por eso, las operaciones aritméticas de suma y resta, son

significativas.

1.4.5.4 Medidas en escala de razón

Medidas numéricas en las cuales cero es un valor fijo en cualquier escala y la

diferencia entre valores es importante. Con datos medidos en una escala de

razón, se puede determinar cuantas veces es mayor una medida que otra.

La escala de razón se basa en un sistema numérico en el cual el cero es

significativo. Por tanto las operaciones de multiplicación y división también

toman una interpretación racional. Una escala de razón se utiliza para medir

muchos tipos de datos que se encuentran en el análisis empresarial. Variables

tales como costos, rentabilidad y niveles de inventario se expresan como

medidas de razón. Por ejemplo, una firma con una participación en el mercado



11

del 40% tiene dos veces más participación que una firma con una participación

en el mercado del 20%. Las medidas tales como peso, tiempo y distancia

también se miden en una escala de razón, ya que cero es significativo y un

artículo que pesa 100 libras tiene la mitad del peso de un artículo que pesa 200

libras.

Batería 1 de ejercicios:

1. Describa en sus propios términos la diferencia entre una población y una

muestra; entre un parámetro y un estadístico.

2. ¿Cuál es la diferencia entre una variable cuantitativa y una variable

cualitativa. Dé ejemplos.

3. Diferencie entre una variable continua y una variable discreta. Dé ejemplos

de cada una.

4. Seleccione una población cualquiera que sea de su interés. Identifique

variables cuantitativas y cualitativas de esa población que puedan

seleccionarse para ser estudiadas.

5. Analice si las siguientes variables son discretas o continuas:

a. Número de cursos que los estudiantes de su colegio están cursando

este semestre.

b. Número de pases atrapados por el beisbolista Tim brown, receptor de

los LA Raiders.

c. Peso de los compañeros de equipo de Tim Brown.

d. Peso del contenido de las cajas de cereal.

e. Número de libros que usted leyó el año pasado.

6. ¿En cuál escala de medida puede expresarse cada una de estas variables?

Explique sus respuestas.

a. Los estudiantes clasifican a su profesor de estadística sobre una escala de

“terrible”, “no tan malo”, “bueno”, “maravilloso” y “dios griego”.

b. Los estudiantes en una universidad están clasificados por profesión, tales

como marketing, administración y contaduría.

c. Los estudiantes están clasificados por cursos utilizando los valores 1, 2 , 3, 4

y 5.

d. Agrupar mediciones de líquidos en octavo, cuarto y galón.

e. Edades de los clientes.



12

ESTADÍSTICA DESCRIPTIVA

COMPETENCIA: El estudiante aplicará las técnicas de estadística descriptiva a

un conjunto de datos mediante el uso de modelos tabulares y gráficos, con el

fin de describir dicho conjunto y utilizar dicha información en el proceso de

toma de decisiones.

Organización y representación de datos

Distribución de frecuencias tabulares y gráficas

Medidas de tendencia central

Medidas de dispersión, asimetría y kurtosis

Medidas de posición

INTRODUCCIÓN

Casi todos los trabajos que se hacen en estadística comienzan con el proceso

de recolección de datos necesarios para formar con ellos un conjunto que se

utilizará en el estudio. Para propósitos generales, se adoptará la suposición

conveniente de que esta labor, con frecuencia tediosa, ya ha sido realizada y

que los datos están disponibles.

Esta recolección de datos originales revela muy poco por sí sola. Es

extremadamente difícil determinar el verdadero significado de un grupo de

números que simplemente se han registrado en un papel. Nuestra labor es

organizar y describir tales datos de manera concisa y significativa. Para

determinar su significancia, los datos se organizan de manera que, con un

simple vistazo, se pueda tener una idea de lo que pueden decirnos.

1.5 ORGANIZACIÓN Y REPRESENTACIÓN DE DATOS

Pueden utilizarse varias herramientas básicas para describir y resumir un

conjunto grande de datos. La manera más simple, pero quizás la más

significativa, es la serie ordenada. Una serie ordenada simplemente enumera

tales observaciones en orden ascendente o descendente. Está proporciona

alguna agrupación al conjunto de datos; por ejemplo, se puede ver de

inmediato los valores extremos. Sin embargo la utilidad de una serie ordenada

es limitada. Las herramientas que resultan de particular utilidad para organizar

los datos incluyen tablas de frecuencia que colocan los datos en clases

específicas y diversos gráficos que pueden proporcionar una representación

visual de los datos.

Los siguientes datos son los ingresos de 60 ejecutivos de marketing para

empresas de Estados Unidos. Los datos están expresados en miles de dólares.



13

Supóngase que se desea analizar, ¿Cuál es el ingreso promedio de los

ejecutivos de marketing?, ¿Cuál sería el ingreso mínimo y máximo?, etc. Los

resultados obtenidos se muestran en el siguiente cuadro de datos:

58 76 89 45 67 34

64 76 34 65 45 39

79 74 56 71 85 87

74 38 69 79 61 71

69 62 56 38 69 79

71 54 31 69 62 39

65 79 47 46 77 66

55 75 62 57 77 36

73 72 64 69 51 50

40 50 74 61 69 73

La forma en la que se presentaron los datos dificulta la obtención de la

respuesta a tales interrogantes. Conviene, pues, organizar los datos de tal modo

que proporcionen información resumida y más clara sobre el proceso.

Los métodos estadísticos de organización de datos ofrecen para ello las

técnicas de agrupación de los mismos en intervalos o categorías de clases,

formando distribuciones de frecuencias. Cabe aclarar que a los intervalos se les

llama indistintamente intervalos de clase, clases, categorías de clase o

categorías.

1.6 DISTRIBUCIÓN DE FRECUENCIAS TABULARES Y GRÁFICAS

Cuando se tiene un problema en donde la muestra contenga más de 30 datos

se emplea el método de datos agrupados para obtener el histograma y las

ojivas correspondientes. El procedimiento para organizar los datos en

distribuciones de frecuencias se describe a continuación:

1. La tabla de datos se ordena de menor a mayor.

2. Se determina la tabla de frecuencias, distribución de frecuencias simples, en

la cuál se determinan los siguientes valores:

a. Se obtiene el número de datos n,

b. Se obtiene el rango menor valor - mayor valorR ,

c. Se obtiene el numero de intervalos, éste en la tabla de frecuencias

determina el numero de renglones y en el histograma determina el

numero de rectángulos o barras, el cuál está definido por la siguiente

ecuación:



14

nlog32.3Ni (I.3)

el resultado debe ser un numero entero por lo que si hay una fracción se

redondea el resultado.

d. Se determina el tamaño del intervalo por medio de:

i

iN

RT (I.4)

en el histograma representa el ancho del rectángulo. El resultado se

trabaja con un solo decimal. Si el resultado del rango tiene decimales,

entonces se recorre el punto hasta hacerlo un número entero antes de

sacar el tamaño del intervalo.

Criterio para determinar el tamaño del intervalo:

d.1 No se aceptan resultados enteros

d.2 No se aceptan decimales entre 4.01.0

d.3 Solo se aceptan decimales entre 9.05.0

d.4 Si el resultado obtenido de aplicar la expresión I.4 cae en el caso

d.1 o d.2 entonces el numero de intervalos se disminuye una unidad,

1Ni y se calcula el iT , si éste es rechazado, entonces ahora se

aumenta en una unidad el número de intervalos, 1Ni y se calcula el

iT . Si no se acepta el resultado, entonces al número de intervalos

original se le restan o se le suman dos unidades y así sucesivamente

hasta que sea aceptado el resultado.

Cuando el resultado sea aceptado entonces queda definido el

número de intervalos; para sacar el tamaño de intervalos finalmente se

redondea el resultado aun número entero y se coloca el punto en su

posición original.

e. Intervalo de clase: este intervalo está formado por dos valores, los

cuales son la frontera inferior if y la frontera superior sf . La frontera

inferior empieza con el valor más pequeño y se le va sumando, suma a

suma, el valor del tamaño del intervalo. El total de valores en la

frontera inferior es igual al número de intervalos. La frontera superior

toma como primer valor el segundo valor de la frontera inferior

restándole una décima, centésima, milésima o entero según la unidad

a trabajar. También se irán sumando a los resultados el valor del

tamaño del intervalo.



15

f. Marca de Clase: es el punto medio del intervalo de clase dado por

2

ff.C.M si (I.5)

g. Intervalos reales: estos se obtienen del intervalo de clase de la

siguiente forma

g.1 Si se trabajan enteros se resta a if cinco décimas (0.5) y se

suma a sf cinco décimas (0.5),

g.2 Si se trabajan décimas (ej. 20.3) se resta a if cinco centésimas

(0.05) y se suma a sf cinco centésimas (0.05), y

g.3 Si se trabajan centésimas (ej. 5.67) se resta a if cinco milésimas

(0.005) y se suma a sf cinco milésimas (0.005).

h. Frecuencia absoluta f : es el número de datos contenidos en

determinado intervalo, se obtiene de la tabla de datos ordenados.

i. Frecuencia absoluta relativa rf :

n

ffr (I.6)

j. Frecuencia acumulada af : suma acumulada de las frecuencias

absolutas de cada uno de los intervalos, la frecuencia acumulada

“menor que” suma primero del primer intervalo al último y la

frecuencia acumulada “mayor que” suma del último intervalo al

primero .

k. Frecuencia acumulada relativa arf :

n

ff aar (I.7)

La tabla I.1 muestra un resumen de las columnas que forman la tabla de

frecuencias derivada de los pasos antes mencionados. Cabe mencionar que fi1

se lee de la siguiente manera: frontera inferior de la clase 1(o límite inferior de la

clase 1), es decir el número indica la clase a la que pertenece el valor que será

colocado en esa casilla.


ACADEMIA DE CIENCIAS BÁSICAS Y MATEMÁTICAS TESCI 13-02.V1

16

Tabla I.1. Bosquejo general de la tabla de frecuencias.

Clase

Límites de clase Marca de Clase Límites reales de clase

if sf .C.M iF sF

1

Vmf 1i

235.1

34.78

7.56

34

.ej

001.0

01.0

1.0

1

ff 2i1s

2

ff.C.M 1s1i1

34.78

7.56

34

.ej

005.0

05.0

5.0

fF 1i1i

34.78

7.56

34

.ej

005.0

05.0

5.0

fF 1s1s

2

i1i2i Tff

i1s2s Tff

2

ff.C.M 2s2i2

005.0

05.0

5.0

fF 2i2i

005.0

05.0

5.0

fF 2s2s

3

i2i3i Tff

i2s3s Tff

2

ff.C.M 3s3i3

005.0

05.0

5.0

fF 3i3i

005.0

05.0

5.0

fF 3s3s

iN

Frecuencia

Frecuencia

Relativa

Frecuencia Acumulada

Menor que …

Menos de …


Mayor que …

… o más


Relativa

Menor que …


Relativa

Mayor que …

f %fr af af %far %far

1f %100

n

ff 1

1r 11a ff 3211a ffff %100

n

ff 1a

1ar %100n

ff 1a

1ar

2f %100

n

ff 2

2r 212a fff 322a fff %100n

ff 2a

2ar %100n

ff 2a

2ar

3f %100

n

ff 3

3r 3213a ffff 33a ff %100

n

ff 3a

3ar %100n

ff 3a

3ar



17

Los gráficos también son métodos útiles para describir conjunto de datos. Un

histograma coloca las clases de una distribución de frecuencia en el eje

horizontal y las frecuencias en el eje vertical. Su objetivo es revelar detalles y

patrones que no se pueden discernir fácilmente de los datos originales.

Aplicando la metodología antes mencionada (paso 1 y 2: de a hasta d.4) a los

datos no agrupados de ingresos de ejecutivos de marketing se obtienen los

siguientes valores para determinar el número de clases:

n 60 valor menor 31 valor mayor 89

R 58 Ni 5.90 Ti 9.67

De acuerdo a los resultados obtenidos, como el valor del tamaño de intervalo

resulto un decimal entre 0.5 y 0.9 el número de intervalos calculado se acepta y

se redondean las cantidades correspondientes, por tanto la tabla de

frecuencias constara de seis clases con un tamaño de intervalo de 10, como se

muestra en la tabla I.2.

En la tabla I.2 se ilustran los datos agrupados de la muestra de los ingresos de 60

ejecutivos de marketing en seis intervalos de clase donde: fi y fs es la frontera

inferior y superior, respectivamente, MC es la marca de clase, Fi y Fs es la

frontera real inferior y superior, respectivamente, f es la frecuencia y fr es la

frecuencia relativa, fa < y fa > es la frecuencia acumulada “menor que” y

“mayor que”, respectivamente y finalmente far es la frecuencia acumulada

relativa.

La tabla I.3 muestra la forma general de la tabla para construir el grafico de

histograma y polígono de frecuencias en la hoja de cálculo Excel, mientras que

la figura I.1 muestra el grafico obtenido de los datos de los ingresos de 60

ejecutivos de marketing mostrados en la tabla I.2.

Tabla I.2. Datos agrupados de los ingresos de 60 ejecutivos de marketing.

Clase fi fs M.C. Fi Fs f fr (%) fa < fa > far < far >

1 31 40 35.5 30.5 40.5 9 15% 9 60 15% 100%

2 41 50 45.5 40.5 50.5 6 10% 15 51 25% 85%

3 51 60 55.5 50.5 60.5 7 12% 22 45 37% 75%

4 61 70 65.5 60.5 70.5 17 28% 39 38 65% 63%

5 71 80 75.5 70.5 80.5 18 30% 57 21 95% 35%

6 81 90 85.5 80.5 90.5 3 5% 60 3 100% 5%

60 100%



18

Tabla I.3 Datos utilizados para la construcción del Histograma y Polígono de Frecuencias

Clase iF sF f %fr

0 0 iV 0 0

1 1iF 1sF 1f 1rf

2 2iF 2sF 2f 2rf

3 3iF 3sF 3f 3rf

0 Último valor del

limite real superior fV 0 0

2

TFV i

1ii 2

Tsuperior real límitedel valor últimoV i

f

Figura I.1 Representación de los ingresos de ejecutivos de marketing en E.U. por medio

de un Histograma y Polígono de frecuencias.

Con frecuencia se desea determinar el número de observaciones que son

“mayor que” o “menor que” alguna cantidad. Esto puede lograrse con una

distribución de frecuencia acumulada “más de o mayor que” o una distribución

de frecuencia acumulada “menos de o menor que”.

La tabla I.4 ilustra los datos extraídos de la tabla de frecuencias para la

construcción del grafico de ojivas: “mayor que” y “menor que” utilizando la

hoja de cálculo Excel, la figura I.2 muestra el grafico obtenido de los valores de

la tabla I.4. Por ejemplo, se puede leer que de la clase uno 9 ejecutivos gana

menos de $31,000 dólares y por otra parte 60 ejecutivos gana $31,000 dólares o

más.

Ingresos de ejecutivos de marketing para empresas en E.U.

0

9

67

1718

3

0

15%

10%

28%

30%

5%1

2%

0

2

4

6

8

10

12

14

16

18

20

25.5 40.5 50.5 60.5 70.5 80.5 90.5 95.5

0 30.5 40.5 50.5 60.5 70.5 80.5 90.5

Límites Reales (miles de dólares)

Fre

cu

en

cia

(eje

cu

tivo

s)

0%

5%

10%

15%

20%

25%

30%

35%

Fre

cu

en

cia

Rela

tiva

Histograma Polígono



19

Una distribución de frecuencia relativa expresa las frecuencias dentro de una

clase como un porcentaje del número total de observaciones.

Tabla I.4 Datos utilizados para la construcción de las Ojivas: “mayor que” y “menor que”.

Limites

Frontera

de clase

reales

Frecuencia

Acumulada

Menor que …

Menos de …

Frecuencia

Acumulada

Mayor que …

… o más

Frecuencia

Acumulada

Relativa

Menor que …

af af %far

1iF 0 1af 0

1sF 1af 2af 1arf

2sF 2af 3af 2arf

3sF 3af 3arf

0

Figura I.2 Representación de los ingresos de ejecutivos de marketing en E.U. por

medio de Ojivas: “mayor que” y “menor que”.

La tabla I.5 ilustra los datos extraídos de la tabla de frecuencias para la

construcción del polígono de frecuencias suavizado por medio de la hoja de

cálculo Excel, cabe mencionar que en este grafico se puede observar como se

distribuyen los datos de la muestra y además en este se localizan las medidas

de tendencia central y medidas de dispersión, la figura I.3 muestra el grafico

obtenido de los datos de la tabla I.2.

Grafica de Frecuencias Acumuladas "OJIVAS"

0

9

15

22

39

576060

51

45

38

21

30

0%

15%

25%

37%

65%

95%100%

0

10

20

30

40

50

60

70

30.5 40.5 50.5 60.5 70.5 80.5 90.5

Límites Reales (miles de dolares $)

Fre

cu

en

cia

acu

mu

lad

a

0%

20%

40%

60%

80%

100%

120%

(%)

Fre

cu

en

cia

acu

mu

lad

a r

ela

tiva

fa "menor que" fa "mayor que" far "menor que"



20

Tabla I.5 Datos utilizados para la construcción del polígono de frecuencias suavizado.

Clase iF sF f

0 0 iV 0

1 1iF 1sF 1f

2 2iF 2sF 2f

3 3iF 3sF 3f

0 Último valor del

limite real superior fV 0

Figura I.3 Representación de los ingresos de ejecutivos de marketing en E.U. por

medio de un polígono de frecuencias suavizada.

1.7 Medidas de tendencia central

Los datos, al igual que los estudiantes, se congregan alrededor de sus puntos de

encuentro favoritos. Parece que los estudiantes acuden en masa a sitios tales

como partidos de fútbol, fraternidades, bares populares y otros sitios de reunión

y en raras ocasiones hasta la biblioteca. De igual forma, los números parecen

disfrutar de la compañía de otros números y están propensos a reunirse

alrededor de un punto central denominado medida de tendencia central o

más comúnmente, media. Una medida de tendencia ubica e identifica el

punto alrededor del cual se centran los datos.

Un conjunto de datos puede ser rápidamente descrito de manera sucinta con

un solo número.

Polígono de Frecuencias Suavizado

0

9

67

1718

3

00

2

4

6

8

10

12

14

16

18

20

25.5 40.5 50.5 60.5 70.5 80.5 90.5 95.5

Límites Reales (Miles de Dolares $)

Fre

cu

en

cia

(E

jecu

tivo

s)



21

1.7.1 La media

La media toma en cuenta la frecuencia y los puntos medios de cada clase, la

siguiente expresión calcula la media de un conjunto de datos agrupados

n

MCf

x

iN

1iii

(I.8)

donde

x es la media muestral,

if es la frecuencia de la i-ésima clase,

iMC es la marca de clase de la i-ésima clase,

iN es el número de intervalos, y

n es el número de datos.

1.7.2 La mediana

Primero debe hallarse la clase que contiene a la mediana, para esto se debe

cumplir el siguiente criterio

2

nfa (I.9)

Este criterio se debe verificar en cada clase empezando desde el primer

intervalo de clase hasta el último intervalo de clase. La clase que cumpla con la

condición se le llamará clase mediana. La expresión que calcula la posición

del valor que se encuentra a la mitad del conjunto de datos es la siguiente

i

aA

i Tf

f2

n

Fx~

(I.10)

donde

iF es la frontera inferior real de la clase que contiene a la mediana,

aAf es la frecuencia acumulada anterior a la clase que contiene a la mediana,

f es la frecuencia de la clase que contiene a la mediana, y

iT es el tamaño del intervalo.



22

1.7.3 La moda

Ya que por definición la moda es la observación que ocurre con mayor

frecuencia, se hallará en la clase que tenga la frecuencia más alta, llamada la

clase modal. Para estimar la moda en el caso de datos agrupados, se utiliza la

siguiente ecuación:

i21

1i TFx̂

(I.11)

donde:

iF es la frontera inferior real de la clase modal,

1 es la diferencia de la frecuencia de la clase modal menos anterior,

2 es la diferencia de la frecuencia de la clase modal menos la siguiente, y


La media es la medida más común de tendencia central. Se presta para mayor

manipulación e interpretación algebraica. Desafortunadamente se ve

afectada por valores extremos o atípicos, y a diferencia de la mediana, puede

ser sesgada por las observaciones que están muy por encima o muy por debajo

de ésta. Debido a que la mediana no se ve afectada por valores extremos,

representa mejor el conjunto de observaciones. La moda también es menos

afectada por valores atípicos, sin embargo, si no hay moda, o si el conjunto de

datos es bimodal, su uso puede ser confuso.

Esto no implica que una medida sea necesariamente mejor que las otras. La

medida que se seleccione depende de la naturaleza de los datos o de la forma

como se utilicen los datos.

1.8 Medidas de dispersión, asimetría y kurtosis

Para describir un conjunto de datos se ha observado que es de utilidad ubicar

el centro del conjunto de datos. Pero identificar una medida de tendencia

central rara vez es suficiente. Una descripción más completa del conjunto de

datos puede obtenerse si se mide que tan dispersos están los datos alrededor

de dicho punto central. Esto es precisamente lo que hacen las medidas de

dispersión, indican cuánto se desvían las observaciones alrededor de su media.



23

1.8.1 El rango

La medida de dispersión más simple y menos útil es el rango o recorrido. El

rango es simplemente la diferencia entre la observación más alta y la más baja.

Su ventaja es que es fácil de calcular. Su desventaja es que considera sólo dos

de los cientos de observaciones que hay en un conjunto de datos.

1.8.2 Varianza y desviación estándar

La varianza y la desviación estándar son medidas de dispersión mucho más

útiles, proporcionan una medida más significativa sobre el punto hasta el cual

se dispersan las observaciones alrededor de su media.

Si los datos están agrupados en una tabla de frecuencia, la varianza y la

desviación estándar muestral pueden calcularse respectivamente como

1n

n

MCf

MCf

s

2iN

1iii

iN

1i

2ii

2

(I.12)

ianzavars (I.13)

donde

2s es la varianza de la muestra,

s es la desviación estándar de la muestra, y 2iMC es la marca de clase de la i-ésima clase elevada al cuadrado

1.8.3 Asimetría

1.8.3.1 La distribución normal y la regla empírica

La desviación estándar puede utilizarse para sacar ciertas conclusiones si el

conjunto de datos en cuestión está distribuido normalmente. Una distribución

normal es una distribución de datos continuos (no discreto) que produce una

curva simétrica en forma de campana, como la que se muestra en la figura I.4.

Se asume que se tiene un número grande de observaciones, si los datos están

distribuidos normalmente, una gráfica de la frecuencia con la cual ocurre cada



24

observación tomará la forma de la figura I.4. Las observaciones en cada

extremo ocurrirán relativamente de forma poco frecuente, pero las

observaciones que están más cerca de la mitad ocurrirán con una frecuencia

alta, por tanto se produce la curva simétrica en forma de campana. La

observación modal es la que ocurre con mayor frecuencia y por tanto está en

el pico de la distribución. En una distribución normal la media, mediana y la

moda son todas iguales.

Figura I.4 Distribución normal.

La regla empírica se ilustra gráficamente en la figura I.5, ésta específica que:

68.3% de las observaciones están dentro de más o menos una desviación

estándar de la media ( s1xvmínimo y s1xvmáximo ),

95.5% de las observaciones están dentro de más o menos dos

desviaciones estándar de la media ( s2xvmínimo y s2xvmáximo ), y

99.7% de las observaciones están dentro de más o menos tres

desviaciones estándar de la media ( s3xvmínimo y s3xvmáximo ).

Es importante recordar que la regla empírica describe el área total bajo la

curva normal que se encuentra dentro de un rango dado.

Si las observaciones están altamente dispersas, la curva en forma de campana

se aplanará y se esparcirá. La kurtosis mide el grado de agudeza de una

distribución, está se clasifica como curva leptokurtica (delgada), curva

mesokurtica (intermedia) y curva platikurtica (aplanada).



25

Figura I.5 La distribución normal y la regla empírica.

1.8.3.2 Sesgo (medidas de asimetría)

No todas las distribuciones son normales, algunas están sesgadas a la izquierda

o a la derecha como se muestra en la figura I.6, en ambos casos, la moda por

es por definición la observación que ocurre con mayor frecuencia. Por tanto,

está en el pico de la distribución. Sin embargo, como se dijo anteriormente, por

su naturaleza la media se ve más afectada por las observaciones extremas. Por

tanto, es jalada en la dirección del sesgo, más de lo que está la mediana, la

cual está en algún sitio entre la media y la moda.

El sesgo es el grado de asimetría y puede medirse con el coeficiente de sesgo

de Pearson

s

x̂xS 1k

(I.14)

s

x~x3S 2k

(I.15)

Si 0SyS 2k1k , los datos están sesgados a la izquierda (-), si 0SyS 2k1k , los

datos están sesgados a la derecha (+); si 0SyS 2k1k están distribuidos

normalmente.



26

Figura I.6. Distribuciones sesgadas.

1.8.3.3 Coeficiente de variación (dispersión relativa)

Cuando se consideran dos o más distribuciones que tienen medias

significativamente diferentes, o que están medidas en unidades diferentes, es

peligroso sacar conclusiones respecto a la dispersión sólo con base a la

desviación estándar, recuerde no se puede mezclar perros con gatos.

Por tanto, con frecuencia debemos considerar el coeficiente de variación

(C.V.), el cual sirve como medida relativa de dispersión. El coeficiente de

variación determina el grado de dispersión de un conjunto de datos relativo a

su media por medio de la siguiente expresión

%100x

s.V.C (I.16)

1.9 Medidas de posición

Aunque la varianza y la desviación estándar son las medidas de dispersión más

útiles en análisis estadístico, existen otras técnicas con las cuales puede medirse

la dispersión de un conjunto de datos. Estas medidas adicionales de dispersión

son los cuartiles, los deciles y los percentiles.

Cada conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes

iguales. El primer cuartil es ese valor debajo del cual clasifica el 25% de las

observaciones, y sobre el cual puede encontrarse el 75% restante. El segundo

cuartel es justo la mitad. La mitad de las observaciones están por debajo y la

mitad por encima. El tercer cuartel es el valor debajo del cual está el 75% de las

observaciones y encima del cual puede encontrarse el 25% restante.



27

Primero debe hallarse las clases que contienen al primer, segundo y tercer

cuartel, para esto se debe cumplir el siguiente criterio, respectivamente

localización del primer cuartIl

4

nfa (I.17)

localización del segundo cuartil

4

n2fa (I.18)

localización del tercer cuartIl

4

n3fa (I.19)

Estas condiciones se deben verificar en cada clase empezando desde el primer

intervalo de clase hasta el último intervalo de clase. Las expresiones que

calculan la posición de cada cuartil son las siguientes

i

aA

i1 Tf

f4

n

FQ

(I.20)

i

aA

i2 Tf

f4

n2

FQ

(I.21)

i

aA

i3 Tf

f4

n3

FQ

(I.22)

donde

iF es la frontera inferior real de la clase que contiene al cuartil,

aAf es la frecuencia acumulada anterior a la clase que contiene al cuartil,

f es la frecuencia de la clase que contiene al cuartil, y


Una medida única de dispersión es el rango intercuartílico (R.I.). La mitad de las

observaciones se clasifican dentro de este rango. Consta del 50% de la mitad

de las observaciones y corta el 25% inferior y el 25% superior de los puntos de



28

datos. Como resultado, le R.I. proporciona una medida de dispersión que no

está muy influenciada por unas cuantas observaciones extremas.

13 QQ.I.R (I.23)

Los deciles separan un conjunto de datos en 10 subconjuntos iguales, y los

percentiles en 100 partes. El primer decil es la observación debajo de la cual se

encuentra el 10% de las observaciones, mientras que el 90% restante se

encuentra encima de éste. El primer percentil es el valor debajo del cual se

encuentra el 1% de las observaciones, y el resto están encima de éste. Todo

conjunto de datos tiene 9 deciles y 99 percentiles.

Batería 2 de ejercicios:

1. Determinación del número de intervalos iN y tamaño del intervalo iT .

Considere los siguientes datos:

a. 50n y 52R

b. 35n y 820R

c. 35n y 01.82R

d. 30n y 1.90R

e. 30n y 194R

1. Un conjunto de datos contiene 100 observaciones; la más grande es 315 y la

más pequeña es 56.

a. ¿Cuántas clases debería tener la tabla de frecuencias?

b. ¿Cuál es el intervalo de clase?

c. ¿Cuáles son los límites y puntos medios de cada clase?

2. En un estudio reciente sobre 500 graduados en administración de negocios,

el salario inicial más alto que se reportó fue de $27,500 dólares y el más bajo

fue de $19,900 dólares. Usted desea crear la tabla de frecuencias para

analizar y comparar estos datos con las ofertas de trabajo que usted ha

recibido.

d. ¿Cuántas clases pondrán en su tabla de frecuencia?

e. ¿Cuál es el intervalo de clase?

f. ¿Cuáles son los límites y puntos medios de cada clase?



29

3. Los siguientes datos son los ingresos de 60 ejecutivos de marketing para

empresas de Estados Unidos. Los datos están expresados en miles de dólares.

58 76 89 45 67 34

64 76 34 65 45 39

79 74 56 71 85 87

74 38 69 79 61 71

69 62 56 38 69 79

71 54 31 69 62 39

65 79 47 46 77 66

55 75 62 57 77 36

73 72 64 69 51 50

40 50 74 61 69 73

g. Construya una tabla de frecuencia para los datos. Tenga mucho

cuidado en la selección de sus intervalos de clase. Muestre las

frecuencias acumulativas y relativas para cada clase. ¿Qué

conclusión puede sacar de la tabla?

h. Presente y explique una distribución de frecuencia acumulada “más

que” y una distribución “menor de”.

4. Las edades de cincuenta de los directores ejecutivos de las mejores

corporaciones de la nación reportadas en la edición de la revista Forbes de

la edición del 24 de Mayo de 1997 aparecen en la siguiente tabla de

frecuencias. EDADES Frecuencias

50 54 8

55 59 13

60 64 15

65 69 10

70 74 3

75 79 1

5. La misma edición de la revista Forbes también proporcionó datos sobre los

salarios en miles de dólares. Resulto la siguiente tabla de frecuencias:

Salario (en miles de dólares) Frecuencias

90 439 9

440 789 11

790 1139 10

1140 1489 8

1490 1839 4

1840 2189 3

2190 2540 5



30

a. Calcule e interprete la media, mediana y la moda.

b. Calcule e interprete la varianza y la desviación estándar.

c. Construya el histograma y polígono de frecuencias.

d. Construya las ojivas.

e. Construya el polígono de frecuencias suavizado e indique sus

resultados

(media, mediana, moda, sesgo, C.V. y C.A.) en éste.

f. ¿Los salarios están tan dispersos como las edades del problema

anterior.

6. The Wall Street Journal describió una disputa entre la gerencia y el sindicato

de trabajo local respecto a la eficiencia y productividad de los trabajadores.

La gerencia argumentaba que a los empleados les tomaba más de 20

minutos terminar cierto trabajo. Si se mide el tiempo de 85 empleados,

arrojando los resultados tabulados, con base en esta muestra, ¿la gerencia

está en lo correcto?

Clase

(número de minutos) Frecuencia

(número de empleados)

5 6 2

7 8 8

9 10 10

11 12 15

13 14 17

15 16 14

17 18 7

19 20 9

21 23 3

a. Calcule la media, mediana y la moda.

b. Calcule la varianza y la desviación estándar.



e. Construya el polígono de frecuencias suavizado e indique sus

resultados

(media, mediana, moda, sesgo, C.V. y C.A.) en éste.



31


ACTIVIDAD DE APRENDIZAJE 1. CONCEPTOS BÁSICOS

Calificación:

Completa los espacios en blanco:

1. La ________________ ________________ se ocupa de la __________________, __________________,

_________________, ________________ e ________________ de datos, por tanto, la estadística es un método

científico que pretende sacar conclusiones a partir de unas observaciones hechas.

2. La Estadística actúa como disciplina puente entre los _______________ _______________ y los

_________________ __________________. Un ______________ _________________ es una abstracción

simplificada de una realidad más compleja y siempre existirá una cierta discrepancia entre lo que se

observa y lo previsto por el modelo.

3. La __________________________ es la recolección completa de todas las observaciones de interés para

el investigador. Ésta puede ser ____________________ o _________________.

4. El ____________________ es una medida ___________________ de la población total de todas las

____________________ de interés para el investigador.

5. La _____________________ es una parte representativa de la __________________ que se selecciona para

ser _______________________ ya que la población es demasiado ________________ como para analizarla

en su totalidad.

6. El ______________________ es el elemento que describe una _______________ y sirve como una estimación

del parámetro de la población correspondiente.

Completa el siguiente cuadro sinóptico:

Variable

Es una ________________________

de la población que se está

analizando en un estudio

estadístico

Pueden tomar

valores no

cuantificables

numéricamente

.

Pueden tomar valores

cuantificables

numéricamente.

Grupo sanguíneo (A, B, AB, O+)

Color de ojos (azul, negros, etc.)

Sólo toma dos valores posibles

Cuando existe un cierto orden

entre las categorías, por ejemplo:

(bajo, medio, alto)

Enteros: numero de hermanos,

número de multas/año.

Reales: peso de un individuo,

tiempo de reacción a un

medicamento.



32


Busca la palabra que complete la oración en la sopa de letras:

7. Las variables pueden clasificarse con base en su escala de ________________.

8. Una medida en escala _________________ se crea cuando se utilizan ________________ para establecer

categorías dentro de las cuales las _________________ pueden registrarse exclusivamente. Es importante

recordar que ésta no indica ningún orden de preferencia, sino que simplemente establece una

disposición ______________________ en la cual se puede ubicar cada observación.

9. Una medida en escala ________________, son las que ______________ las observaciones en categorías

con un orden significativo. Hay quien clasifica sus productos como “buenos”, “mejores” y “los mejores”.

10. En una escala de _______________ las variables se miden de manera ______________, y al igual que los

datos ordinales, llevan inherente un rango u ordenamiento. El valor de ______________ es arbitrario pero

la diferencia entre valores es importante.

11. En una escala de ________________, las medidas son numéricas, el cero es un valor _____________ en

cualquier escala y la diferencia entre valores es importante. Con datos medidos en una escala de

_________________, se puede determinar cuántas veces es mayor una medida que otra.

M I N A L S C A T E G O R I C A I V B J O T I P

E W W E O C V Q R M K J Y N U M E R I D F G K O

D D S D R R R U G J N L U I N T E R V J K L O L

I X A O R D D I N A L L E S D F K G H J K O P L

D A D O A E R I I R T O P J H G F D A S R T Y M

A G F C Q D F P N S T Ñ L I N T E R V A L O J T

A V I O E C V R U A A S D F O A N O M I K A K G

S O V R T V C E O A L T G M M X R A Z B E B L V

D U G D R S D W P X C A O N B G O N S I D F T A

F O N O O D R E C C V Y S B R A Z O N N C C M R

G C U M B R I A E V B K P H E M O N O O V D N I

J I M F T S B M R A Z I N D S C H A N K T E O A

K E E C Y P R N O M I N A L P A L A B R G A F B

L A R J K Ñ F R T M N J H H G B N M Y U I O Q L

I F I J O S Y E R P C R T Y U D I O S H E F A E

U Q C S E R O Y U O L T Y S H K M N H J S G E S

Y V A Y U D Y A N O A M I N A L E R T Y F H I P

T D X R A S O O N C L A S C L A S I F I C A N P



33


ACTIVIDAD DE APRENDIZAJE 2. Número de intervalos Óptimo

Calificación:

Las edades de 50 integrantes de un programa de servicio social del gobierno son:

38 51 56 62 66 68 73 77 82 88

42 51 56 64 66 68 74 78 83 91

44 54 60 65 66 69 74 79 83 92

47 55 60 65 67 70 75 80 84 98

51 55 61 65 68 71 76 82 87 99 Use estos datos para construir la tabla de frecuencias con 7 y 13 intervalos iguales.

Suponga que el director de servicios sociales desea saber la proporción de participantes en el

programa que tienen entre 45 y 50 años de edad. ¿a partir de cuál distribución de frecuencias

relativas, de 7 o de 13 intervalos, puede estimar mejor la respuesta?

Valor menor =

Valor mayor =

Rango =

Caso 1: Ni = 7

Tamaño del intervalo 𝑇𝑖 =𝑅

𝑁𝑖

Clase fi fs M.C. Fi Fs f fr (%) fa < q fa > q far < q far > q

1

2

3

4

5

6

7



34


Caso 2: Ni = 13

Tamaño del intervalo 𝑇𝑖 =𝑅

𝑁𝑖

Clase fi fs M.C. Fi Fs f fr (%) fa < q fa > q far < q far > q

1

2

3

4

5

6

7

8

9

10

11

12

13

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100 110

%

LÍMITES REALES

Ojivas (Frecuencias acumuladas relativas)



35


ACTIVIDAD DE APRENDIZAJE 3. Medidas de tendencia central y de dispersión en datos agrupados

Calificación:

1. Las edades de cincuenta de los directores ejecutivos de las mejores corporaciones de la nación reportadas en la edición de la revista Forbes de

la edición del 24 de Mayo de 1997 aparecen en la siguiente tabla de frecuencias. clase fi fs M.C. Fi Fs f fr fa < fa> far< far> f*MC f*MC2

1 50 54 8

2 55 59 10

3 60 64 15

4 65 69 9

5 70 74 7

6 75 79 1

Medidas de tendencia central:

n

MCf

x

iN

1iii

i

aA

i Tf

f2

n

Fx~

2

nfa

i21

1i TFx̂



36


Medidas de dispersión, asimetría y kurtosis:

1n

n

MCf

MCf

s

2iN

1iii

iN

1i

2ii

2

s1xvmínimo

s1xvmáximo

s2xvmínimo

s2xvmáximo

ianzavars s3xvmínimo

s3xvmáximo %100

x

s.V.C

s

x̂xS 1k

s

x~x3S 2k

Medidas de posición:

4

nfa

i

aA

i1 Tf

f4

n

FQ

4

n2fa

i

aA

i2 Tf

f4

n2

FQ

4

n3fa

i

aA

i3 Tf

f4

n3

FQ



37


clase Fi Fs f %fr

1

2

3

4

5

6

FR fa < fa > far < far >

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0

5

10

15

20

25

30

35

40

45

50

49.5 54.5 59.5 64.5 69.5 74.5 79.5

% D

E E

JE

CU

TIV

OS

NU

ME

RO

DE

EJE

CU

TIV

OS

EDAD (AÑOS)

OJIVAS

0%

5%

10%

15%

20%

25%

30%

35%

0

2

4

6

8

10

12

14

16

% D

E D

IRE

CT

IVO

S

NU

ME

RO

DE

DIR

EC

TIV

OS

EDAD (AÑOS)

EDADES DE LOS DIRECTIVOS DE LAS MEJORES CORPORACIONES EN E.U.

49.5 54.5 59.5 64.5 69.5 74.5 79.544.5



38


ACTIVIDAD DE APRENDIZAJE 4. Caso de estudio I

Calificación:

The Wall Street Journal describió una disputa entre la gerencia y el sindicato de trabajo local

respecto a la eficiencia y productividad de los trabajadores. La gerencia argumentaba que a

los empleados les tomaba más de 20 minutos terminar cierto trabajo. Si se mide el tiempo de 85

empleados, arrojando los resultados tabulados, con base en esta muestra, ¿la gerencia está en

lo correcto?

Clase

(número de minutos)

Frecuencia

(número de empleados)

5 6 2

7 8 8

9 10 10

11 12 15

13 14 17

15 16 14

17 18 7

19 20 9

21 22 3





Conclusiones



39


ACTIVIDAD DE APRENDIZAJE 5. Caso de estudio II

Calificación:

Los siguientes datos representan las declaraciones trimestrales de impuestos por ventas (en miles

de dólares), correspondientes al período que finalizó en marzo de 2004, enviados al contralor

del poblado Fair Lake por los 50 negocios establecidos en dicha localidad:

10.3 11.1 9.6 9.0 14.5

13.0 6.7 11.0 8.4 10.3

13.0 11.2 7.3 5.3 12.5

8.0 11.8 8.7 10.6 9.5

11.1 10.2 11.1 9.9 9.8

11.6 15.1 12.5 6.5 7.5

10.0 12.9 9.2 10.0 12.8

12.5 9.3 10.4 12.7 10.5

9.3 11.5 10.7 11.6 7.8

10.5 7.6 10.1 8.9 8.6

a. Calcule la media, la varianza y la desviación estándar de esta población.

b. ¿Qué proporción de estos negocios tienen declaraciones trimestrales de impuestos

sobre ventas dentro de ±1, ±2 o ±3 desviaciones estándar de la media?

c. Compare y encuentre las diferencias entre sus hallazgos con lo que cabría esperar

de acuerdo con la regla empírica. ¿le sorprenden los resultados obtenidos en b)?

Conclusiones:



40


ACTIVIDAD DE APRENDIZAJE 6. Caso de estudio III

Calificación:

Virginia Suboleski es una supervisora de mantenimiento de aeronaves. Una entrega reciente de

pernos por parte de un nuevo proveedor llamó la atención de uno de los empleados. Suboleski

envió 25 de esos pernos a un laboratorio de pruebas para determinar la fuerza necesaria para

romperlos. A continuación presentamos los resultados en miles de libras de fuerza:

147.8 137.4 125.2 141.1 145.7

119.9 133.3 142.3 138.7 125.7

142.0 130.8 129.8 141.2 134.9

125.0 128.9 142.0 118.6 133.0

151.1 125.7 126.3 140.9 138.2





Conclusiones:

PROBABILIDAD Y ESTADÍSTICA UNIDAD II


41

PROBABILIDAD

Competencia: Conocer y aplicar los axiomas y teoremas de probabilidad en la

solución de problemas.

INTRODUCCIÓN

Sin tener en cuenta la profesión que se haya elegido, algo sí es seguro, en algún

momento se han de tomar decisiones. Con mucha frecuencia esto tendrá que

hacerse sin conocer todas las consecuencias de tales decisiones. Por ejemplo, los

inversionistas deben decidir sobre la conveniencia de invertir en una acción en

particular, con base en sus expectativas sobre rendimientos futuros. Los

empresarios al decidir comercializar un producto enfrentan la incertidumbre

sobre la posibilidad de éxito. En cada caso, como sucede con la mayoría de los

asuntos comerciales, se han de tomar decisiones sin toda la información

pertinente.

Todo esfuerzo por reducir el nivel de incertidumbre en el proceso de toma de

decisiones incrementa enormemente la probabilidad de que se tomen

decisiones más inteligentes y bien informadas. El propósito de esta unidad es

ilustrar las formas en las cuales puede medirse la posibilidad o probabilidad de

ocurrencia de eventos futuros.

2.1 TÉCNICAS DE CONTEO

En este tema se presentarán cuatro métodos, combinaciones, permutaciones,

escogencia múltiple y multiplicación, para determinar sin enumeración directa el

número de resultados posibles de un experimento particular o el número de

elementos de un conjunto particular.

2.1.1 Principio fundamental del conteo

Si un evento puede realizarse de 1n maneras diferentes, y si, continuando el

procedimiento, un segundo evento puede realizarse de 2n maneras diferentes, y

si, después de efectuados, un tercer evento puede realizarse de 3n maneras

diferentes, y así sucesivamente, entonces el número de maneras en que los

eventos pueden realizarse en el orden indicado es el producto:

321 nnn (II.1)

Ejemplo 2.1 Supongamos que una placa de automóvil consta de dos letras

distintas seguidas de tres dígitos de los cuales el primero no es cero.

¿Cuántas placas diferentes pueden grabarse?



42

Solución: La primer letra puede colocarse de 26 maneras diferentes

(supuesto el alfabeto de 26 letras), la segunda letra de 25 maneras

diferentes (puesto que la letra grabada en la primer posición no puede

escogerse como segunda letra), para el primer dígito, para el primer dígito

hay nueve números, es decir nueve maneras, y para cada uno de los otros

dos dígitos 10 maneras. Por lo tanto pueden grabarse

000585101092526 , ; por tanto se podrían formar 585,000 placas

diferentes.

2.1.2 Permutaciones

Si un orden es suficiente para constituir otro subconjunto de r objetos tomados de

un conjunto de n objetos entonces se trata de permutaciones. Una permutación

de los n objetos tomados r a la vez se define como

!rn

!nPrn

(II.2)

Donde n! se lee “n factorial” y significa el producto de todos los números de 1 a

n. Por tanto 120123455 ! . Por definición 10 ! .

Ejemplo 2.1 Hallar el número de palabras de tres letras diferentes que pueden

formarse con las letras: a, b, c, d, e, f.

Solución: Representemos las palabras de tres letras por tres cajas:

Ahora la primera letra puede escogerse de seis formas diferentes; en

seguida, la segunda letra se puede escoger de cinco formas diferentes; y

después de esto, la última letra se puede escoger de cuatro formas

diferentes. Escribamos cada número en su correspondiente caja como

sigue:

Aplicando la expresión II.2 se tiene:

120

6

720

36

636

!

!P



43

Por tanto se pueden formar 120 posibles palabras de tres letras sin

repetición.

2.1.3 Escogencia Múltiple

Muchos problemas del análisis combinatorio y, en particular, de probabilidad se

relacionan con la escogencia de una bola tomada de una urna que contiene n

bolas (o una carta de una baraja o una persona de una población). Cuando

escogemos una bola tras otra de una urna, r veces, definimos esta escogencia

como una prueba ordenada de tamaño r. Se consideran dos casos:

1. Pruebas con sustitución. En este caso cada bola escogida se regresa a la

urna antes de tomar la siguiente. Ahora puesto que hay n maneras

diferentes para escoger cada bola, según el principio fundamental del

conteo hay r

veces r

nnnnn (II.3)

pruebas ordenadas diferentes de tamaño r con sustitución.

2. Pruebas sin sustitución. Aquí la bola no se devuelve a la urna antes de

escoger la siguiente. Así no hay repeticiones en la prueba ordenada. O

sea que, una prueba ordenada de tamaño r sin sustitución es simplemente

una permutación r de objetos de la urna. Por consiguiente hay

!rn

!nPrn

(II.4)

pruebas ordenadas diferentes de tamaño r sin sustitución tomadas de un

grupo de n objetos.

Ejemplo 2.2 ¿De cuantas maneras se pueden escoger tres cartas sucesivas de

una baraja de 52 cartas, (1) con sustitución, (2) sin sustitución?

Solución: (1) si cada carta se regresa al naipe antes de escoger la siguiente,

entonces cada carta puede escogerse de 52 maneras diferentes. Entonces

hay 60814052525252 3 , pruebas ordenadas diferentes de tamaño

tres con sustitución. (2) Por otra parte si no hay sustitución, entonces la

primera carta puede escogerse de 52 maneras diferentes, la segunda

carta tiene 51 maneras diferentes y la última carta tiene 50 maneras

diferentes, por tanto hay 600132352 ,P pruebas ordenadas diferentes de

tamaño tres sin sustitución.



44

2.1.4 Combinaciones

Supongamos que tenemos una colección de n objetos. Una combinación de

estos n objetos tomados r a la vez, o una combinación r, es un subconjunto de r

elementos. En otras palabras, una combinación r es una selección de r o de n

objetos donde el orden no se tiene en cuenta.

!rn!r

!nCrn

(II.5)

Ejemplo 2.3 Considere que dados 10 productos, ¿cuántos subconjuntos de tres

productos podrían empacarse juntos y ofrecerse a los clientes? Si se considera

que el orden en el cual se ofrecen los tres productos no influirá en los clientes.

Solución: El número de combinaciones de 10 elementos tomados 3 a la vez es

120310 C . Por tanto hay 120 paquetes de tres artículos que se pueden ofrece a

los clientes.

2.2 ENFOQUES DE PROBABILIDAD

La probabilidad es la posibilidad numérica de que ocurra un evento. La

probabilidad de un evento es medida por valores comprendidos entre 0 y 1. Entre

mayor sea la probabilidad de que ocurra un evento, su probabilidad asignada

estará más próxima a 1, mientras que la probabilidad de una imposibilidad es 0,

ésta se expresa como:

10 EP (II.6)

El proceso que produce un evento es denominado experimento. Un experimento

es toda acción bien definida que conlleva a un resultado único bien definido.

El conjunto de todos los posibles resultados para un experimento es el espacio

muestral representado por:

nx,,x,xS 21 (II.7)

La teoría de la probabilidad ocupa un lugar importante en muchos asuntos de

negocios. Las pólizas de seguros de vida dependen de las tablas de mortalidad,

las cuales a su vez se basan en probabilidades de muerte en edades específicas.

Otras tasas de seguros tales como seguro de bienes raíces y de automóviles se

determinan de manera similar. La probabilidad también juega un papel

importante en la estimación del número de unidades defectuosas en un proceso

de fabricación, la probabilidad de recibir pagos sobre cuentas por cobrar y las

ventas potenciales de un nuevo producto.



45

Existen sólo tres formas generalmente aceptadas para enfocar: (1) modelo de

frecuencia relativa (o a posteriori), (2) modelo subjetivo y (3) modelo clásico (o a

priori).

El modelo de frecuencia relativa utiliza datos que se han observado

empíricamente, registra la frecuencia con que ha ocurrido algún evento en el

pasado y estima la probabilidad de que el evento ocurra nuevamente con base

en estos datos históricos. La probabilidad de un evento con base al modelo de

frecuencia relativa se determina mediante:

nesobservacio de totalNúmero

pasado el en evento el ocurrido ha que veces de NúmeroEP (II.8)

El modelo subjetivo requiere establecer la probabilidad de algún evento con

base en la mejor evidencia disponible. En muchos casos esto puede ser apenas

una conjetura hecha sobre cierta base. El modelo subjetivo se utiliza cuando se

desea asignar probabilidad a un evento que nunca ha ocurrido. Por ejemplo la

probabilidad de que una mujer sea elegida como presidente de México, debido

a que no hay datos sobre los cuales confiar, deben analizar las opiniones y

creencias para obtener una estimación subjetiva.

De los tres métodos para medir la probabilidad, el modelo clásico es el que se

relaciona con mayor frecuencia con las apuestas y juegos de azar. La

probabilidad clásica de un evento E se determina mediante:

resultados posibles de totalNúmero

evento un ocurrir puede que lasen formas de NúmeroEP (II.9)

2.3 Axiomas de Probabilidad

2.3.1 Uniones, intersecciones y relaciones entre eventos

Un conjunto es una colección de objetos bien definida. Se asume que se han

identificado dos conjuntos A y B. Cada uno contiene numerosos elementos. Un

diagrama de Venn es una herramienta útil para mostrar la relación entre

conjuntos.

Intersección entre A y B BA : es el conjunto de todos los elementos que están

tanto en A como en B. Los eventos A y B se les denomina eventos no disyuntos.

La figura 2.1(a) muestra el correspondiente diagrama de Venn.

Unión de A y B BA : es el conjunto de todos los elementos que están en A o en

B. La figura 2.1(b) muestra el diagrama de Venn de la unión de dos eventos.



46

Figura II.1 Diagrama de Venn: (a) A intersección B y (b) A unión B

Se dice que dos eventos son mutuamente excluyentes si la ocurrencia de uno

prohíbe la ocurrencia del otro.

Los eventos son independientes, si la ocurrencia de uno no tiene nada que ver

con la ocurrencia del otro.

Cuando se saca de un conjunto finito, dos eventos son independientes si y sólo si

se realiza el reemplazo. Sin embargo, si el primer elemento no se reemplaza antes

de sacar el segundo elemento, los dos eventos son dependientes.

2.3.2 Tablas de contingencia y tablas de probabilidad

Una tabla de contingencia permite examinar o comparar dos variables. De los

500 empleados de King Dynamics, Inc. 170 están clasificados como miembros de

personal administrativo, 290 como trabajadores de línea y 40 son auxiliares. La

tabla compara el género de los trabajadores y la clasificación que tienen éstos.

Tabla II.1 Tabla de contingencia para King Dynamics

Clasificación de los empleados

Género

Administrativo

Línea

Auxiliar

Total

Hombres

120 150 30 300

Mujeres

50 140 10 200

Total 170 290 40 500

Una tabla de probabilidad puede crearse dividiendo cada una de las entradas

de la tabla anterior entre el total, 500 trabajadores. Los resultados se ven en la

tabla.



47

Tabla II.2 Tabla de probabilidad para King Dynamics

Clasificación de los empleados

Género Administrativo S Línea L Auxiliar A Total

Hombres H 240500120 . 300

500150 . 060

50030 . 600

500300 .

Mujeres M 10050050 . 280

500140 . 020

50010 . 400

500200 .

Total 340500170 . 580

500290 . 080

50040 . 001

500500 .

Los valores en las márgenes de la tabla se llaman probabilidades marginales. Por

ejemplo, la probabilidad de seleccionar un trabajador de línea de manera

aleatoria es

580.LP

y la probabilidad de seleccionar un hombre es

600.MP

Las probabilidades conjuntas en las celdas de la estructura principal de la tabla

muestran la probabilidad de la intersección entre dos eventos. Por ejemplo, la

probabilidad de seleccionar un trabajador que sea parte del personal

administrativo y que sea hombre, es

240.SHP

Una probabilidad marginal se encuentra como la suma de las probabilidades

conjuntas correspondientes. Por tanto

600060300240 ....AHPLHPSHPHP

2.3.3 Probabilidad condicional

Es la probabilidad de que el evento A ocurra, dado que el evento B ya ocurrió.

Se denota como B|AP y se lee la “probabilidad de A dado B”. La formula

general para calcular la probabilidad condicional, es la siguiente:

BP

BAPB|AP

(II.10)

Para ilustrar la aplicación de la expresión III.10, retomemos la tabla de

probabilidades de King Dynamics, se puede observar que la probabilidad de que

un trabajador tomado aleatoriamente sea hombre es

600.HP



48

sin embargo, si se desea calcular la probabilidad de que el trabajador sea

hombre dado que es un miembro del personal administrativo S|HP se puede

hallar así

710340

240.

.

.

SP

SHPS|HP

2.3.4 Las dos reglas de la probabilidad

Para calcular la probabilidad de eventos más complejos utilizaremos la regla de

la multiplicación y la regla de la adición. Cada una se utiliza para propósitos

específicos.

2.3.4.1 Regla de la multiplicación

El propósito de la regla de la multiplicación es determinar la probabilidad del

evento conjunto BAP . Es decir, que para encontrar la probabilidad de A y B,

simplemente se multiplican sus respectivas probabilidades. El procedimiento

exacto depende de si A y B son dependientes o independientes.

Los eventos A y B son independientes si B|APAP . Es decir, la probabilidad de

A es la misma bien se considere o no el evento B. De igual forma, si A y B son

independientes, si A|BPBP

Para eventos independientes la probabilidad de dos eventos se vuelve:

BPAPBAP (II.11)

Si los eventos son dependientes, entonces, por definición, se debe considerar el

primer evento al determinar la probabilidad del segundo. Es decir, la

probabilidad del evento B depende de la condición que A ya haya ocurrido. Se

necesita del principio de probabilidad condicional. La probabilidad de los

eventos conjuntos A y B:

A|BPAPBAP (II.12)

Retornando a la tabla de probabilidad para King Dynamics, tabla II.2, se observa

que la probabilidad marginal de la segunda fila muestra claramente que

40.MP

sin considerar si el trabajador es miembro administrativo, línea o auxiliar. Sin

embargo, la probabilidad conjunta de que sea mujer y miembro de línea

280.LMP

También se puede calcular esta probabilidad utilizando la expresión II.12



49

M|LPMPLMP

el último término es probabilidad condicional, la cual se determinó anteriormente

como

7040

280.

.

.

MP

MLPM|LP

entonces

2807040 ...M|LPMPLMP

Aunque el uso de una tabla II.2 puede simplificar el cálculo de probabilidad,

existen ejemplos en los cuales es muy difícil la creación de una tabla, por lo tanto

se requiere el uso de las fórmulas.

2.3.4.2 Regla de la adición

La regla de la adición se utiliza para determinar la probabilidad del evento A o B,

BAP .

La probabilidad de que ocurra el evento A o B para eventos que no son

mutuamente excluyentes, si ambos pueden ocurrir al mismo tiempo, se determina

por medio de la siguiente expresión:

BAPBPAPBAP (II.13)

En el ejemplo de King Dynamics, la probabilidad de que un empleado sea

trabajador hombre o un trabajador de línea es:

7028058040 ....LMPLPMPLMP

La probabilidad del evento A o del evento B cuando los eventos son mutuamente

excluyentes se determina por:

BPAPBAP (II.14)

De la tabla II.2 de King Dynamics, los eventos de que un empleado sea trabajador

hombre o un trabajador mujer son mutuamente excluyentes.



50


ACTIVIDAD DE APRENDIZAJE 7. CUESTIONARIO

Calificación:

1. Utiliza la palabra, algunas se repiten, o enunciado que complete el espacio en blanco:

acción

cero

conjunto

enfoque clásico

evento

experimento

frecuencia

relativa

probabilidad

resultado

resultados

subjetivo

uno

datos

empíricamente

enfoque

frecuencia

muestral

número de formas en las que

puede ocurrir un evento

número de veces que ha

ocurrido el evento en el pasado

número total de observaciones

número total de posibles

resultados

pasado

afecta

condiconal

dependientes

excluyentes

independientes

nada

no

ocurran

ocurrencia

otro

Históricamente se han desarrollado tres enfoques conceptuales para definir la probabilidad y

determinar valores de probabilidad:

__________________________________________

__________________________________________

__________________________________________

La _________________ es la posibilidad numérica de que ocurra un evento. La ______________ de un

evento es medida por valores comprendidos entre ____ y _____.

El proceso que produce un ____________ es denominado ____________. Un experimento es toda

_________ bien definida que conlleva a un ____________ único bien definido.



51


El _____________ de todos los posibles ______________ para un _____________ es el espacio

___________ representado por: 1 2, , , ns x x x

El ____________ de ____________ relativa utiliza datos que se han observado ______________, registra

la frecuencia con que ha ocurrido algún _____________ en el _____________ y estima la

probabilidad de que el ________________ ocurra nuevamente con base en estos ____________

históricos. La probabilidad de un evento con base al modelo de _________________ relativa se

determina mediante:

( )P E

De los tres métodos para medir la probabilidad, el modelo clásico es el que se relaciona con

mayor frecuencia con las apuestas y juegos de azar. La probabilidad clásica de un evento E se

determina mediante:

( )P E

Se dice que dos o más eventos son mutuamente _________________ si la _________________ de uno

prohíbe la ocurrencia del _________________. Esto es, si no pueden ocurrir al mismo tiempo.

Dos o más eventos son ___________ excluyentes cuando es posible que _________________ al

mismo tiempo.

Los eventos son _________________, si la ocurrencia de uno _____ tiene _________________ que ver

con la _________________ del otro. Dos eventos son _________________ cuando la ocurrencia o no

ocurrencia de un evento _________________ a la probabilidad de _________________ del otro

evento.



52


Cuando dos eventos son dependientes, se emplea el concepto de probabilidad

_________________ para designar la probabilidad de ocurrencia del evento relacionado. La

expresión |P B A indica la probabilidad de que ocurra el evento B dado que ya ha ocurrido

el evento A. La formula general para calcular la probabilidad condicional, es la siguiente:

|P

PP

Probabilidad de eventos

2. Para cada una de las siguientes situaciones, indique cuál de los enfoques de la probabilidad

(el clásico, el de frecuencias relativas o el subjetivo) sería más útil para determinar el valor de

probabilidad requerido.

a. La probabilidad de que haya un golpe de estado el próximo año.

______________________________

b. La probabilidad de obtener ya sea un 1 o un 6 en un solo lanzamiento de un dado de seis

caras. _________________________________

c. La probabilidad de que una persona aleatoriamente elegida entre las que visitan una

gran tienda departamental realice una compra en esa tienda.

_________________________________________

3. Una bolsa contiene 4 canicas rojas y 3 azules. Si se saca una canica de la bolsa al azar, ¿cuál

es la probabilidad de sacar una canica azul?

4. Se escoge aleatoriamente una persona vestida de rojo de un grupo de 5 personas que visten

de rojo y 4 personas que visten de azul.



53


5. Se escoge una pelota de tenis verde de una bolsa que contiene 4 pelotas verdes, 7 amarillas

y 5 blancas.

6. Determine el valor de probabilidad aplicable a cada una de las siguientes situaciones.

a. La probabilidad de accidentes industriales en una industria en particular en un plazo

anual. Una muestra aleatoria de 10 empresas, las cuales emplean a un total de 8000

personas, reportó la ocurrencia de 400 accidentes industriales durante un periodo reciente

de 12 meses.

b. La probabilidad de acertar a un número ganador en un juego de ruleta. Los números de

la rueda incluyen un 0, 00 y del 1 al 36.

c. La probabilidad de que un establecimiento de franquicia de comida rápida sea

financieramente exitoso. El probable inversionista obtiene datos de otras unidades del

sistema de franquicias, estudia el desarrollo de la zona residencial en la que estará

ubicado el establecimiento y considera el volumen de ventas requerido para garantizar

el éxito financiero con base en la inversión de capital requerida y los costos operativos. En

general, el inversionista juzga que hay un 80% de posibilidades de que el establecimiento

sea financieramente exitoso y 20% de que no lo sea.

7. La siguiente tabla muestra el número de computadoras vendidas diariamente por una tienda

minorista

Número de

computadoras

vendidas

Número de días Probabilidad

0 12

1 43

2 18

3 20

4 25



54


Determine la probabilidad de que el número de computadoras que se vendan el día de hoy sea:

a. 2

b. Menos de 3

c. Más de 1

d. Por lo menos 1

8. Un importador de cristal irlandés de Nueva York recibe envíos de cajas de tres artículos. La

siguiente tabla muestra los datos para las últimas 100 cajas indicaron el número de artículos

dañados que había en cada caja.

Número de defectos Número de cajas Probabilidad

0

40

1

27

2

21

3

12

Determine la probabilidad de que el número de artículos defectuosos sea:

a. 2

b. Menos de 3

c. Más de 1

d. Ninguno



55


Probabilidad con técnicas de conteo

Si un orden es suficiente para constituir otro subconjunto de r objetos tomados de un conjunto

de n objetos entonces se trata de permutaciones. Una permutación de los n objetos tomados r

a la vez se define como

!

!n r

nP

n r

9. Calcula las permutaciones para los siguientes valores de n y r:

6 3

4 2

10 4

n r

n r

n r

Supongamos que tenemos una colección de n objetos. Una combinación de estos n objetos

tomados r a la vez, o una combinación r, es un subconjunto de r elementos. En otras palabras,

una combinación r es una selección de r o de n objetos donde el orden no se tiene en cuenta.

!

! !n r

nC

r n r

10. Calcula las combinaciones para los siguientes valores de n y r:

6 3

4 2

10 4

n r

n r

n r



56


11. Un caso reciente en la corte del condado de Madison, Kentucky, sobre las prácticas de

contratación de una compañía de teléfonos local. La compañía planeó contratar 3 nuevos

empleados. Había 8 candidatos para los cargos, 6 de los cuales eran hombres. Los 3 que

fueron contratados eran hombres. Un cargo por discriminación de sexo se impuso contra la

compañía. ¿Cómo decidiría usted?

12. Diez unidades de producción se seleccionan de una línea de producción. Tres de estas 10 son

defectuosas. Si deben sacar 5 de las 10, ¿cuál es la probabilidad de que 2 sean defectuosas?

13. Un representante de ventas debe visitar seis ciudades durante un viaje.

a. Si en la zona geográfica por visitar hay 10 ciudades, ¿cuántas diferentes agrupaciones de

seis ciudades susceptibles de ser visitadas por el representante de ventas hay?

b. Supongamos que en la zona geográfica que visitará el representante de ventas hay 10

ciudades y, además, que la secuencia en la que serán programadas las visitas a la seis

ciudades elegidas también es de importancia. ¿Cuántas secuencias son posibles para las

seis ciudades asignadas?

14. De las ciudades mencionadas en el problema anterior, supongamos que seis de ellas son en

realidad mercados primarios del producto en cuestión mientras que las otras cuatro son

mercados secundarios. Si el vendedor elige aleatoriamente las seis ciudades por visitar, ¿cuál

es la probabilidad de que:

a. Cuatro de ellas sean mercados primarios y dos mercados secundarios

b. Las seis resulten ser mercados primarios



57


15. Los cinco individuos que componen la dirección de una pequeña empresa manufacturera

serán sentados juntos en un banquete. Determine la probabilidad de que el grupo de tres

directivos elegido a partir de los cinco incluya a:

a. Un directivo en particular

b. Dos directivos en particular

c. Tres directivos en particular

Tablas de probabilidades conjuntas

16. La revista Forbes (febrero de 1997) clasificó las 120 ciudades de estados unidos de acuerdo

con la calidad de vida, con base en parte del porcentaje de empleados que tenían título

universitario. Los resultados se ven en la siguiente tabla de contingencia parcial, en donde A

es menos del 15% con título universitario, B es del 15 al 20% con título universitario y C es más

del 20% con título universitario. Realice una tabla de probabilidad y responda las preguntas

que se presentan en la siguiente tabla.

Tabla 1. Clasificación de la revista Forbes para las 120 ciudades de EU

Calidad de vida

Porcentaje

con título

universitario

Pobre (P) Bueno (G) Excelente (E) Total

A 10 20 40

B 20

C 10 20

Total 20 60



58


Tabla 2. Tabla de probabilidad para las 120 ciudades de EU

Porcentaje

con título

universitario

Pobre (P) Bueno (G) Excelente (E) Total

A

B

C

Total

Los valores en las márgenes de la tabla se llaman _______________________. La probabilidad de

seleccionar una ciudad con menos del 15% de empleados con título universitario es:

( ) ________P A

y la probabilidad de seleccionar un empleado con nivel de vida excelente es:

( ) ________P E

Las probabilidades conjuntas en las celdas de la estructura principal de la tabla muestran la

probabilidad de la ________________ entre dos eventos. Por ejemplo, la probabilidad de

seleccionar una ciudad con calidad de vida pobre y del 15 al 20% de sus empleados con titulo

universitario, es:

( ) __________ P P B

Mientras que la notación ( )P E C se lee como _______________________________

_____________________________________________________________________________

y da:

( ) : _______________P E C

Una probabilidad marginal se encuentra como la suma de las probabilidades conjuntas

correspondientes.



59


Probabilidad condicional

Es la probabilidad de que el evento A ocurra, dado que el evento B ya ocurrió. Para ilustrar la

aplicación de la probabilidad condicional, retomemos la tabla 2 de probabilidades, se puede

observar que la probabilidad de que una ciudad tomada aleatoriamente tenga más del 20% de

sus empleados con titulo universitario es:

P C

Sin embargo, si se desea calcular la probabilidad de que la ciudad cuente con más del 20% de

sus empleados con titulo universitario dado que su nivel de vida es excelente se puede hallar así:

| P C E

Regla de la multiplicación

El propósito de la regla de la multiplicación es determinar la probabilidad del evento conjunto

P A B . Es decir, que para encontrar la probabilidad de A y B, simplemente se multiplican

sus respectivas probabilidades. El procedimiento exacto depende de si A y B son dependientes o

independientes.

Los eventos A y B son independientes si P A P A B . Es decir, la probabilidad de A es la

misma bien se considere o no el evento B. De igual forma, si A y B son independientes, si

P B P B A

Para eventos independientes la probabilidad de dos eventos se vuelve:

P A B P A P B

Si los eventos son dependientes, entonces, por definición, se debe considerar el primer evento al

determinar la probabilidad del segundo. Es decir, la probabilidad del evento B depende de la

condición que A ya haya ocurrido. Se necesita del principio de probabilidad condicional. La

probabilidad de los eventos conjuntos A y B:



60


|P A B P A P B A

Regla de la adición

La regla de la adición se utiliza para determinar la probabilidad del evento A o B, P A B .

La probabilidad de que ocurra el evento A o B para eventos que no son mutuamente excluyentes,

si ambos pueden ocurrir al mismo tiempo, se determina por medio de la siguiente expresión:

P A B P P P A B

En el ejemplo de Forbes, la probabilidad de que una ciudad tenga un nivel de vida bueno o que

más del 20% de sus empleados tengan titulo universitarios es:

P P P P

La probabilidad del evento A o del evento B cuando los eventos son mutuamente excluyentes se

determina por:

P A B P P

De la tabla 2 de Forbes, los eventos de que una ciudad tenga una calidad de vida pobre o una

calidad de vida excelente son mutuamente excluyentes.

PROBABILIDAD Y ESTADÍSTICA UNIDAD III


61

DISTRIBUCIONES DE PROBABILIDAD

Competencia: Conocer e identificar las diferentes funciones de distribución de

probabilidad, para su aplicación en la solución de problemas.

INTRODUCCIÓN

Una variable aleatoria es una variable cuyo valor es el resultado de un evento

aleatorio. Se supone que se lanza una moneda tres veces y se anota el número

de caras que se obtienen. Los posibles resultados son 0 caras, 1 cara, 2 caras, o 3

caras. La variable aleatoria es el número de caras que se obtienen, y los posibles

resultados son los valores de la variable aleatoria. Como segundo ejemplo, los

pesos de envío del agua mineral en contenedores oscilaban aleatoriamente

entre 10 a 25 libras. Los pesos reales de los contenedores, en libras, son los valores

de la variable aleatoria "peso".

Tal y como lo sugieren estos dos ejemplos, las variables aleatorias pueden ser

discretas o continuas. Una variable aleatoria discreta puede asumir sólo ciertos

valores, con frecuencia números enteros, y resulta principalmente del conteo. El

número de caras en el experimento del lanzamiento de la moneda es un ejemplo

de una variable aleatoria discreta. Los valores de la variable aleatoria se

restringen sólo a ciertos números: 0, 1, 2, y 3. El resultado del lanzamiento de un

dado, el número de camiones que llegan por hora al puerto de carga, y el

número de clientes que están en fila para sacar sus libros favoritos, son otros

ejemplos de variables aleatorias discretas.

Una variable aleatoria continua resulta principalmente de la medición y puede

tomar cualquier valor, al menos dentro de un rango dado. Los pesos del agua

mineral es un ejemplo, debido a que los contenedores pueden tomar cualquier

valor entre 10 y 25 libras. Otros ejemplos de variables aleatorias continuas incluyen

la estatura de los clientes en una tienda de ropa, los ingresos de los empleados

en un centro comercial local y el tiempo transcurrido entre la llegada de cada

cliente a la biblioteca. En cada caso, la variable aleatoria puede medirse con

cualquier valor, incluyendo fracciones de la unidad. Aunque las unidades

monetarias no pueden dividirse en un número continuo o infinito de subdivisiones

(el dólar puede subdividirse sólo 100 veces), comúnmente se tratan como

distribuciones continuas de probabilidad.

Una distribución de probabilidad es un despliegue de todos los posibles resultados

de un experimento junto con las probabilidades de cada resultado. La

probabilidad de que la variable aleatoria 𝑋 tome algún valor específico, 𝑥., se

escribe 𝑃(𝑋 = 𝑥). El valor esperado de una variable aleatoria discreta es la media

ponderada de todos los posibles resultados en los cuales los pesos son las

probabilidades respectivas de tales resultados.



62

3.1 Distribuciones de probabilidad binomial

En estadística, la distribución binomial es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos independientes de Bernoulli con una probabilidad fija p de ocurrencia del éxito entre los ensayos.

En las empresas se tienen situaciones donde se espera que ocurra o no un evento específico. Éste puede ser de éxito o fracaso.

La distribución binomial se utiliza en situaciones cuya solución tiene dos posibles resultados. Ejemplos:

Al nacer un bebé puede ser varón o mujer.

En el deporte un equipo puede ganar o perder.

En pruebas de cierto o falso sólo hay dos alternativas. Un tratamiento médico puede ser efectivo o inefectivo. La meta de producción o ventas del mes se pueden o no lograr. En pruebas de selección múltiple, aunque hay cuatro o cinco

alternativas, se pueden clasificar como correcta o incorrecta.

Propiedades de un experimento de Bernoulli

En cada prueba del experimento sólo hay dos posibles resultados: éxitos

o fracasos.

El resultado obtenido en cada prueba es independiente de los

resultados obtenidos en pruebas anteriores.

La probabilidad de un suceso es constante, la representamos por p, y

no varía de una prueba a otra. La probabilidad del complemento es 1-

p y la representamos por q .

Función de probabilidad binomial se expresa como:

n XX

n XP X ;n, p C p 1 p

donde :

P X ;n, p probabilidad de X-éxitos, dadas n y p

n número de observaciones

p probabilidad de éxitos

1 p probabilidad de fracasos

X número de éxitos en la muestra X 1,2, ,n



63

La media y desviación estándar de la distribución se definen como:

E X n p

n p 1 p

1. Grafique la distribución binomial para los siguientes valores:

3 0.25 0,1,2,3n p x

x P(X=x)

0

1

2

3

2. La probabilidad de que cierta clase de componente pase con éxito una

determinada prueba de impacto es 0.75. Encuentre la probabilidad de que

exactamente 2 de los siguientes 4 componentes que se prueban pasen la

prueba.

3. La probabilidad de que un paciente se recupere de una rara enfermedad de

la sangre es 0.4. Si se sabe que 15 personas han contraído esta enfermedad,

¿cuál es la probabilidad de que: a) sobrevivan entre 3 y 8 personas, b)

sobrevivan exactamente 5 personas y c) al menos 10 sobrevivan.

0

0.1

0.2

0.3

0.4

0.5

0 1 2 3

P(X

)

Número de éxitos (X)

Distribución binomial



64

4. En pruebas realizadas a un amortiguador para automóvil se encontró que el

20% presentaban fuga de aceite. Si se instalan 20 de estos amortiguadores,

hallar la probabilidad de que: a) 4 salgan defectuosos, b) más de 5 tengan

fuga de aceite, c) de 3 a 6 amortiguadores salgan defectuosos y d) determine

el promedio y la desviación estándar de amortiguadores con defectos.

x P(X=x) 0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

x P(X=x) 0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20



65

0

0.05

0.1

0.15

0.2

0.25

0.3

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

P(X

)



0

0.05

0.1

0.15

0.2

0.25

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

P(X

)





66

3.2 Distribución de Poisson En teoría de probabilidad y estadística, la distribución de Poisson es una

distribución de probabilidad discreta. Expresa la probabilidad de un número k de

eventos ocurriendo en un tiempo fijo, si estos eventos ocurren con una frecuencia

media conocida y son independientes del tiempo discurrido desde el último

evento. Se dice que existe un proceso de Poisson si podemos observar eventos

discretos en un área de oportunidad – un intervalo continuo (de tiempo, longitud,

superficie, etc.) – de tal manera que si se reduce lo suficiente el área de

oportunidad o el intervalo,

La probabilidad de observar exactamente un éxito en el intervalo es

constante.

La probabilidad de obtener más de un éxito en el intervalo es 0.

La probabilidad de observar un éxito en cualquier intervalo es

estadísticamente independiente de la de cualquier otro intervalo.

Utilidad:

La distribución de Poisson se utiliza en situaciones donde los sucesos son

impredecibles o de ocurrencia aleatoria. En otras palabras no se sabe el

total de posibles resultados.

Permite determinar la probabilidad de ocurrencia de un suceso con

resultado discreto.

Es muy útil cuando la muestra o segmento, n, es grande y la probabilidad

de éxitos p es pequeña.

Se utiliza cuando la probabilidad del evento que nos interesa se distribuye

dentro de un segmento dado como por ejemplo distancia, área, volumen

o tiempo definido.

Esta distribución se aplica en situaciones como:

La llegada de un cliente al negocio durante una hora.

Las llamadas telefónicas que se reciben en un día.

Los defectos en manufactura de papel por cada metro producido.

Los envases llenados fuera de los límites por cada 100 galones de producto

terminado.

El número de pacientes que llegan al servicio de emergencia de un

hospital en un intervalo de tiempo.

El número de glóbulos blancos que se cuentan en una muestra dada.

El número de partos triples por año

La expresión matemática para la distribución de Poisson para obtener 𝑋 éxitos,

dado que se espera 1 éxito es:

http://www.monografias.com/trabajos14/administ-procesos/administ-procesos.shtml#PROCE

http://ads.us.e-planning.net/ei/3/29e9/cfa010f10016a577?rnd=0.8334251320794376&pb=4defc36f427b5d64&fi=c45082f0d82d529f&kw=observar

http://www.monografias.com/trabajos13/gaita/gaita.shtml

http://www.monografias.com/trabajos901/evolucion-historica-concepciones-tiempo/evolucion-historica-concepciones-tiempo.shtml

http://ads.us.e-planning.net/ei/3/29e9/cfa010f10016a577?rnd=0.6912033142898976&pb=a28b0eafc928681b&fi=c45082f0d82d529f&kw=independiente

http://www.monografias.com/trabajos14/verific-servicios/verific-servicios.shtml



67

Xe

P X ;X !

P X ; la probabilidad de X eventos en un área de oportunidad

número de eventos esperado (media)

X número de eventos

5. Grafique la distribución de Poisson para los siguientes valores:

1,4,10 0,1,2,3,...,20x

X P(X=x) P(X=x) P(X=x) 0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

P(X

)

X

Distribución de Poisson



68

6. Un comerciante de verduras tiene conocimiento de que el 3% de la caja está

descompuesta. Si un comprador elige 100 verduras al azar, encuentre la

probabilidad de que: (a) las 4 estén descompuestas y (b) de 1 a 3 estén

descompuestas.

7. En pruebas realizadas a un amortiguador para automóvil se encontró que el

0.04 presentaban fuga de aceite. Si se instalan 150 de estos amortiguadores,

hallar la probabilidad de que: (a) 4 salgan defectuosos, (b) más de 5 tengan

fuga de aceite, y (c) de 3 a 6 amortiguadores salgan defectuosos.

8. Si 8 de 100 viviendas violan el código de construcción. ¿cuál es la probabilidad

de que un inspector de viviendas, que selecciona aleatoriamente a 50 de

ellas, descubra que: (a) ninguna de las casas viola el código de construcción,

(b) una viola el código de construcción y (c) dos violan el código de

construcción.

9. El número de pacientes que llega a un hospital sigue una distribución de

Poisson. Si el número promedio es de 120 por hora, ¿cuál es la probabilidad de

que en un minuto lleguen por lo menos 3 pacientes?

10. Se sabe que 10 es el número promedio de camiones tanque de aceite que

llegan por día a una cierta ciudad portuaria. Las instalaciones del puerto

pueden atender cuando mucho a 15 camiones tanque en un día. ¿Cuál es la

probabilidad de que en un determinado día se tengan que regresar los

camiones tanque?

11. En un estudio de un inventario se determinó que, en promedio, la demanda

por un artículo en particular en una bodega era 5 veces al día. ¿Cuál es la

probabilidad de que en un determinado día este artículo sea requerido: (a)

más de 5 veces y (b) ni una sola vez?

12. El profesor Bradley anima a sus estudiantes de estadística a "actuar de forma

prudente" consultando al tutor si tienen alguna pregunta mientras se preparan

para el examen final. Parece que la llegada de los estudiantes a la oficina del

tutor se ajusta a una distribución de Poisson, con un promedio de 5.2

estudiantes cada 20 minutos. El profesor Bradley está preocupado porque si

muchos estudiantes necesitan los servicios del tutor, puede resultar un

problema de congestión.

a) El tutor debe determinar la probabilidad de que cuatro estudiantes

lleguen durante cualquier intervalo de 20 minutos, lo cual podría causar el

problema de congestión que teme el profesor Bradley. Si la probabilidad

excede el 20%, se contratará un segundo tutor.



69

b) El tutor debe calcular la probabilidad de que más de cuatro estudiantes

lleguen durante algún período de 20 minutos. Si es mayor que el 50%, las

horas de oficina del tutor se aumentarán, permitiendo a los estudiantes

extender el horario en las que vienen a ver al tutor.

c) Si la probabilidad de que más de siete estudiantes lleguen durante un

período cualquiera de 30 minutos excede 50%, el mismo profesor Bradley

ofrecerá tutoría adicional.

13. A un conmutador de la oficina principal de la compañía llegan llamadas a un

promedio de dos por minuto y se sabe que tienen distribución de Poisson. Si el

operador está distraído por un minuto, cuál es la probabilidad de que el

número de llamadas no respondidas sea:

a. ¿Cero?

b. ¿Por lo menos una?

c. ¿Entre 3 y 5, inclusive?

14. Un proceso de fabricación utilizado para hacer artefactos plásticos Incas

presenta una tasa de defectos de 5 por cada 100 unidades. Las unidades se

envían a los distribuidores en lotes de 200. Si la probabilidad de que más de 3

salgan defectuosos supera el 30%, usted planea vender en su lugar, camisetas

Grateful Dead. ¿Cuál artículo agregará usted al inventario?

15. Usted compra partes para bicicleta de un proveedor en Toledo que tiene 3

defectos por cada 100 partes. Usted está en el mercado para comprar 150

partes pero no aceptará una probabilidad de más del 50% de que más de

dos partes sean defectuosas. ¿Usted le compraría a dicho proveedor?



70

3.3 Distribución normal

Una de las herramientas de mayor uso en las empresas es la utilización de la curva

normal para describir situaciones donde podemos recopilar datos. Esto nos

permite tomar decisiones que vayan a la par con las metas y objetivos de la

organización.

Utilidad:

Se utiliza muy a menudo porque hay muchas variables asociadas a

fenómenos naturales que siguen el modelo de la normal.

Caracteres morfológicos de individuos (personas, animales, plantas,...) de

una especie, por ejemplo: tallas, pesos, diámetros, distancias, perímetros,...

Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un

fármaco, o de una misma cantidad de abono

Caracteres sociológicos, por ejemplo: consumo de cierto producto por un

mismo grupo de individuos, puntuaciones de examen

Caracteres psicológicos, por ejemplo: cociente intelectual, grado de

adaptación a un medio,...

La función de distribución:

Puede tomar cualquier valor (-∞ , +∞ )

Hay más probabilidad para los valores cercanos a la media m

Conforme nos separamos de µ, la probabilidad va decreciendo de igual

forma a derecha e izquierda (es simétrica).

Conforme nos separamos de µ, la probabilidad va decreciendo

dependiendo la desviación típica

La expresión matemática para la distribución normal:

2X1

21f X ; , e

2

donde :

es la media

es la desviación

estándar

3.14159

X es cualquier valor

de la variable

continua

F(X)=P X k



71

16. Grafique la distribución normal para los siguientes valores: 50 5,10,20

17. Dada una distribución normal, encuentre el área bajo la curva que cae

a. a la izquierda de 1.43z

b. a la derecha de 0.89z

c. entre 2.16z y 0.65z

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0 20 40 60 80 100 120

P(X

)

X

Distribución normal

0

0.1

0.2

0.3

0.4

0.5

-3.4 -3

-2.6

-2.2

-1.8

-1.4 -1

-0.6

-0.2

0.2

0.6 1

1.4

1.8

2.2

2.6 3

3.4

0

0.1

0.2

0.3

0.4

0.5

-3.4 -3

-2.6

-2.2

-1.8

-1.4 -1

-0.6

-0.2

0.2

0.6 1

1.4

1.8

2.2

2.6 3

3.4

0

0.1

0.2

0.3

0.4

0.5

-3.4 -3

-2.6

-2.2

-1.8

-1.4 -1

-0.6

-0.2

0.2

0.6 1

1.4

1.8

2.2

2.6 3

3.4



72

d. a la izquierda de 1.39z

e. a la derecha de 1.96z

f. entre 0.48z y 1.74z

18. Dada una distribución normal con media igual a 50 y desviación estándar

igual a 10, encuentre la probabilidad de que X asuma un valor entre 45 y 62.

x

z

0

0.1

0.2

0.3

0.4

0.5

-3.4 -3

-2.6

-2.2

-1.8

-1.4 -1

-0.6

-0.2

0.2

0.6 1

1.4

1.8

2.2

2.6 3

3.4

0

0.1

0.2

0.3

0.4

0.5

-3.4 -3

-2.6

-2.2

-1.8

-1.4 -1

-0.6

-0.2

0.2

0.6 1

1.4

1.8

2.2

2.6 3

3.4

0

0.1

0.2

0.3

0.4

0.5

-3.4 -3

-2.6

-2.2

-1.8

-1.4 -1

-0.6

-0.2

0.2

0.6 1

1.4

1.8

2.2

2.6 3

3.4

0

0.1

0.2

0.3

0.4

0.5

-3.4 -3

-2.6

-2.2

-1.8

-1.4 -1

-0.6

-0.2

0.2

0.6 1

1.4

1.8

2.2

2.6 3

3.4



73

19. Los siguientes datos representan la duración de vida en segundos de 50

moscas, sometidas a un nuevo atomizador en un experimento de laboratorio

controlado:

17 20 10 19 23 13 12 19 18 24

12 14 6 9 13 6 7 10 13 7

16 18 8 13 3 32 9 7 10 11

13 7 18 7 10 4 27 19 16 8

7 10 5 14 15 10 9 6 7 15

a) determine el porcentaje de vida de las moscas entre 10 y 20 segundos,

b) más de 23 segundos,

c) menos de 10 segundos.

20. TelCom Satellite presta servicios de comunicación a los negocios del área

metropolitana de Chicago. Los funcionarios de la compañía han aprendido

que la transmisión satélite promedio es de 150 segundos, con una desviación

estándar de 15 segundos. Los tiempos parecen estar distribuidos

normalmente.

Para estimar de manera apropiada la demanda del cliente por sus servicios y

establecer una estructura de tarifas que maximice las utilidades corporativas,

TelCom debe determinar qué tan probable es que algunas llamadas se

presenten. El director de servicios desea que usted proporcione estimados de

la probabilidad de que una llamada dure:

a. Entre 125 y 150 segundos.

b. Menos de 125 segundos.

c. Entre 145 y 155 segundos.

d. Entre 160 y 165 segundos.

21. Como ingeniero constructor usted compra bolsas de cemento de un

promedio de 50 libras, con una desviación estándar de 5.2 libras. Debe que

usted tuvo el accidente escalando una montaña, el médico le dijo que no

levantara nada que pesara más de 60 libras ¿debería usted cargar una bolsa?

PROBABILIDAD Y ESTADÍSTICA UNIDAD IV


74

ESTADÍSTICA INFERENCIAL

Competencia: Conocer y aplicar diversas técnicas de muestreo y estimación

para su aplicación en problemas ingeniería.

4.1 Inferencia Estadística

Para distinguir la medida descriptiva de una población de la medida descriptiva

de una de sus muestras, se llamará al primero parámetro y al segundo estadístico.

En consecuencia, para una población dada, el parámetro es un valor fijo

mientras que un estadístico varía dependiendo de la muestra seleccionada.

Algunos de los parámetros más comúnmente empleados y sus estadísticos

correspondientes son:

Tabla IV.1. Parámetros y estadísticos más comunes.

Medida descriptiva Parámetro Estadístico

Media 𝜇 �̅�

Varianza 𝜎2 𝑠2

Desviación estándar 𝜎 𝑠

Proporción 𝜋 �̅�

El objetivo de la estadística inferencial es emplear los estadísticos �̅�, 𝑠2, 𝑠, o �̅� para

hacer inferencias respecto a los parámetros poblacionales correspondientes 𝜇, 𝜎2, 𝜎, o 𝜋. Los principales tipos de inferencias que se realizan son:

1. Estimación puntual o por intervalo. En este tipo de inferencia, se estima el

valor de un parámetro poblacional mediante un número o un intervalo

numérico.

2. Prueba de hipótesis. En este tipo de inferencia se fórmula una hipótesis

acerca del valor de un parámetro poblacional.

Dado que la inferencia, del tipo que sea, se basa en una de las muestras, resulta

importante analizar la variación de estás (más propiamente el estadístico de

interés). Para ello conviene establecer de inicio una variable aleatoria �̅�, que

asocie cada una de las muestras de la población con el estadístico

correspondiente.

La distribución de muestras de un estadístico es la representación tabular y/o

gráfica de las probabilidades de todos los valores de algún estadístico,

calculados en muestras del mismo tamaño, extraídas aleatoriamente de la

misma población, como se ilustra en la figura IV.1. El error de muestreo es la

diferencia entre el parámetro poblacional y el estadístico de la muestra utilizado

pata estimar el parámetro.



75

Media muestral Frecuencia Probabilidad

150 1 1/6

200 1 1/6

250 2 2/6

300 1 1/6

350 1 1/6

Figura IV.1 Tabla y distribución muestral para muestras de tamaño 𝑛 = 2

en una población de 𝑁 = 4.

Vale la pena notar que la distribución muestral de las medias muéstrales es

simplemente una lista de todas las medias muéstrales posibles. Estas medias

muéstrales, al igual que cualquier lista de números, tienen una media

denominada la media de las medias muéstrales o la gran media. Esta media de

las medias se calcula de la forma usual: las observaciones individuales (medias

muéstrales) se suman y el resultado se divide por el número de observaciones

(muestras). Se utiliza X"(que se lee como X doble barra) como símbolo de la gran

media, matemáticamente se tiene:

xx

k

(IV.1)

Donde k es el número de muestras en la distribución muestral. La distribución de

las medias muéstrales también tiene una varianza. La varianza en las medias

muéstrales es como cualquier otra varianza. Mide la dispersión de las

observaciones individuales (medias muéstrales) alrededor de su media (la gran

media). Además, esta varianza se calcula al igual que cualquier otra varianza. Es

la media del cuadrado de las desviaciones con respecto a su media.

22

2

x

x X x μσ

k k

(IV.2)

La raíz cuadrada de la varianza en la distribución de estas medias muéstrales,

representa el error estándar de la distribución muestral.

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

150 200 250 300 350

Pro

bab

ilid

ad

Media muestral



76

2

x xσ σ (IV.3)

El error estándar de la distribución muestral (o error estándar) es una medida de

la dispersión de las medias muéstrales alrededor de 𝜇. Es análogo con la

desviación estándar que se calculó en la unidad 1, la cual medía la dispersión de

las observaciones individuales alrededor de su media. Debido a que la diferencia

entre �̅� y 𝜇 es el error de muestreo, toda medida de la tendencia de la media

muestral a desviarse de 𝜇 se le denomina acertadamente error estándar. Por

tanto, el error estándar 𝜎�̅� mide la tendencia a sufrir del error de muestreo en el

esfuerzo por estimar 𝜇.

Una aproximación para calcular la varianza de la distribución muestral y el error

estándar, suponiendo que se conoce la varianza poblacional, son:

2

2

x x

σ σσ σ

n n (IV.4)

Estas fórmulas son válidas si el muestreo se realiza con reemplazo, o si la muestra

se toma de una población muy grande (virtualmente infinita). Si el muestreo se

realiza sin reemplazo y si el tamaño de la muestra es más del 5% de la población,

𝑛 > 0.05 𝑁, debe aplicarse el factor de corrección para poblaciones finitas (fpc).

La fórmula apropiada para el error estándar entonces es

1x

σ N nσ

Nn

(IV.5)

Dada una población de tamaño 𝑁 = 1000, se considera que ¿se obtendría un

estimado más preciso de la media poblacional 𝜇 con una muestra de tamaño

𝑛 = 100 o con una muestra de tamaño más grande de 𝑛 = 900?

Indiscutiblemente es probable un estimado más exacto con una muestra más

grande. Esta suposición se verifica examinando la fórmula (IV.3). Puede verse que

a medida que 𝑛 aumenta, 𝜎�̅� disminuye. El hecho de que las muestras más

grandes lleven a errores de muestreo más pequeños se vuelve cada vez más

importante a medida que los autores progresan en el estudio de la estadística

inferencial.

Teorema del límite central, a medida que 𝑛 se vuelve más grande, la distribución

de las medias muéstrales se aproximará a una distribución normal con una media

�̿� = 𝜇 y un error estándar de 𝜎�̅� = 𝜎 √𝑛⁄ , ver figura IV.2.



77

Por tanto, incluso si la población no está distribuida normalmente, la distribución

de muestreo de las medias muéstrales será normal si n es lo suficientemente

grande. La regla general es que si n es por lo menos 30, el teorema del límite

central asegurará una distribución normal en las medias muéstrales incluso si la

población no es normal.

300 340 380 420 460 500 540 580 620 660 7000

0.01

0.02

0.03

0.04

traza 1

traza 2

0.04

0

n x 500 50( )

n x 500 10( )

700300 x

Figura IV.2 Distribución de las medias muestrales de una población normal.

4.2 Muestreo estadístico

En repetidas ocasiones se ha enfatizado la necesidad de seleccionar una

muestra representativa de la población. Una muestra que deforme la población

presentará un error de muestreo y producirá estimados imprecisos de los

parámetros de la población.

Hay dos fuentes básicas de error de muestreo. La primera es sencillamente mala

suerte. Debido a la "cuestión suerte", la muestra puede contener elementos que

no sean característicos de la población. El destino puede dictar que ciertas

selecciones en la muestra sean atípicamente más grandes que la mayoría de los

de la población y en tal caso resultaría una sobreestimación del parámetro. O

quizás muchos de los elementos muéstrales tienden a ser más pequeños de lo

que típicamente se encuentra en la población y en tal caso resultaría una

subestimación. Una segunda fuente de error de muestreo es el sesgo muestral. El

sesgo resulta de la tendencia a favorecer la selección de ciertas muestras sobre

otras en la recolección de los datos de la muestra.

4.2.1 Muestreo aleatorio simple

Como se ha visto, pueden seleccionarse diferentes muestras de cualquier

población. Tomar una muestra aleatoria simple garantiza que cada muestra de

algún tamaño dado tenga la misma probabilidad de ser seleccionada. Una

muestra aleatoria simple puede obtenerse simplemente enumerando las

observaciones sobre pedazos idénticos de papel, colocándolos en un sombrero

Distribución

de la

población

Distribución

de las

medias

muestrales

𝑥 = 𝜇 = 500

𝜎 = 50

𝜎�̅� = 10



78

y sacando el número deseado. Además, también puede utilizarse una tabla de

números aleatorios. La tabla con frecuencia es generada por un computador en

la cual cada uno de los 10 dígitos (0-9) tiene una probabilidad igual de ser

seleccionado. Si se desea una tabla de tres dígitos, el computador puede

seleccionar 4,2,7,5,2,6,1,0,5, y así sucesivamente, formando los números aleatorios

427,526.

4.2.2 Muestreo sistemático

Una muestra sistemática se forma seleccionando cada i-ésimo ítem de la

población. Si se determina que i es igual a 10, una muestra sistemática consta de

cada décima observación en la población. La población debe ordenarse o

enumerarse en forma aleatoria.

La primera selección debe determinarse aleatoriamente, y si i = 10, entonces

estará en alguna de las primeras 10 observaciones. El punto inicial exacto puede

identificarse bien sea seleccionando un número entre 1 y 10 sacado de un

sombrero, o utilizando una tabla de números aleatorios. En cualquiera de los

casos se selecciona de allí en adelante cada décima observación.

El proceso de muestreo sistemático es ventajoso porque no requiere de un

experto altamente calificado para contar hasta 10 y registrar el resultado.

Además, el método permite flexibilidad ya que puede establecerse que i sea

10,100, 1,000 o cualquier otro número deseado. La determinación del valor

apropiado para i también es muy fácil. Si se desea seleccionar una muestra de

tamaño 100 de una población de 1,000, i debe ser 10.

El peligro principal que debe evitarse es la ocurrencia de un patrón en el

ordenamiento de la población. Por ejemplo, enumerar la población

alfabéticamente asume una distribución aleatoria por todo el alfabeto.

4.2.3 Muestreo estratificado

Considere el siguiente ejemplo, el Ministerio de Agricultura de los Estados Unidos

se interesó en el impacto de las condiciones de sequía sobre la producción de

trigo. Especial preocupación causó la tasa de bancarrota que hacía que los

granjeros perdieran su tierra. Se sentía que un conteo de los niveles de

producción por parte de los agricultores de Kansas, Oklahoma, Nebraska y

Dakota del Sur, los cuatro estados golpeados más duramente por la sequía,

podrían probar que son útiles en el diseño de un programa de alivio. El ministerio

decidió que debería tomarse una muestra de la cosecha de este año por varios

cientos de agricultores de cada estado.



79

Sin embargo, se notó que el número de agricultores era muy diferente en cada

estado. Si se tomaba una muestra aleatoria simple de los cuatro estados como

un todo, podría incluir proporcionalmente pocos agricultores de algunos estados

y demasiados de otros estados. Esto resultaría en una muestra no representativa,

lo cual incrementaría el error de muestreo.

El Ministerio de Agricultura decidió tomar una muestra estratificada dividiendo a

todos los agricultores en subgrupos o estratos (de ahí el término muestreo

estratificado). En este caso, los subgrupos lógicos serían los cuatro estados en

mención. La proporción de agricultores incluidos en la muestra de cada estado

sería igual a las proporciones de todos los agricultores en cada estado: si los

agricultores de Kansas constituían el 30% de todos los agricultores de todos los

cuatro estados, entonces un 30% de los agricultores de la muestra serían

seleccionados aleatoriamente de Kansas.

Se toma una muestra estratificada forzando las proporciones de la muestra de

cada estrato para que esté conforme al patrón poblacional. Se emplea

comúnmente cuando la población es heterogénea, o disímil, aunque ciertos

subgrupos homogéneos puedan aislarse. De esta forma el investigador puede

incrementar la precisión más allá de la obtenida por una muestra aleatoria simple

de tamaño similar.

4.2.4 Muestreo por conglomerados

El muestreo por conglomerados, otra técnica alternativa, ofrece ciertas ventajas

sobre otros métodos. Consiste en dividir toda la población en conglomerados, o

grupos, y luego seleccionar una muestra de estos conglomerados. Todas las

observaciones en estos conglomerados seleccionados están incluidas en la

muestra. Para ilustrar, se considera el siguiente ejemplo. El Ministerio de Agricultura

de los Estados Unidos, en su estudio sobre las condiciones de sequía, puede

decidir que una muestra por conglomerados es preferible. Una muestra por

conglomerados se toma identificando los condados en cada estado como

conglomerados. Una muestra de estos condados (conglomerados) se selecciona

luego aleatoriamente utilizando una tabla de números aleatorios o algún otro

medio generalmente aceptado. Todos los agricultores seleccionados de esta

manera en los condados están incluidos en la muestra. Este procedimiento con

frecuencia es más fácil y rápido que el muestreo aleatorio simple o el

estratificado. Por ejemplo, si es necesario viajar a cada finca de la muestra para

observar los efectos de la sequía, es más fácil visitar varios agricultores en el mismo

condado.

También es posible combinar el muestreo estratificado con el muestreo por

conglomerados. En el ejemplo sobre agricultura, puede ser sabio seleccionar la



80

muestra de un número de condados de cada estado, proporcional al número

total de condados en los cuatro estados.

Ciertos problemas pueden surgir en el uso del muestro por conglomerados. Si un

porcentaje anormalmente grande (o pequeño) de agricultores en un

conglomerado seleccionado tiende a utilizar la irrigación para mejorar la

producción del cultivo, los resultados de la muestra pueden estar sesgados.

Esta discusión de ninguna manera explica los métodos de muestreo o los

problemas que pueden surgir en el proceso de búsqueda de una muestra

representativa a ser utilizada para sacar inferencias estadísticas. Un estudio sobre

las técnicas de muestreo constituye todo un curso por sí mismo y va más allá del

alcance de este texto. No obstante, debido a la importancia del proceso de

muestreo, incluso el estudiante principiante debería ser consciente de los

fundamentos sobre muestreo.

Ejercicio 4.1. Las ventas en miles de dólares para East Coast Manufacturing (ECM)

durante los últimos 5 meses fueron de 68,73,65,80 y 72. Asumiendo que estos cinco

meses constituyen la población, la media claramente es 𝜇 = 71.6. Como director

de marketing de ECM, se desea estimar este 𝜇 “desconocido” tomando una

muestra de tamaño 𝑛 = 3. Se espera que el error de muestreo que es probable

que ocurra sea relativamente pequeño. Realice la distribución muestral y haga

comentarios sobre el posible error de muestreo.

4.3 Estimadores

Actualmente se debe estar bien consciente de que las poblaciones son

generalmente muy grandes como para ser estudiadas en su totalidad. Su

tamaño requiere que se seleccionen muestras, las cuales se pueden utilizar más

tarde para hacer inferencias sobre las poblaciones. Si un gerente de una tienda

minorista desea saber sobre el gasto promedio de sus clientes durante el año

anterior, podría encontrar difícil calcular el promedio de los cientos o quizá miles

de clientes que pasaron por su tienda. Sería mucho más fácil estimar la media

poblacional con la media de una muestra representativa.

Hay por lo menos dos tipos de estimadores que se utilizan más comúnmente para

este propósito: un estimador puntual y un estimador por intervalo. Un estimador

puntual utiliza un estadístico para estimar el parámetro en un solo valor o punto.

El gerente de la tienda puede seleccionar una muestra de n = 500 clientes y hallar

el gasto promedio de X = US$37.10. Este valor sirve como una estimación puntual

para la media poblacional.

Una estimación por intervalo especifica el rango dentro del cual está el

parámetro desconocido. El gerente puede decidir que la media poblacional



81

está en algún sitio entre US$35 y US$38. Tal intervalo con frecuencia va

acompañado de una afirmación sobre el nivel de confianza que se da en su

exactitud. Por tanto se llama intervalo de confianza (I.C.).

4.4 Estimación por intervalo

Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite

superior de confianza (LSC). Estos límites se hallan calculando primero la media

muestral, �̅�. Luego se suma una cierta cantidad a �̅� para obtener el LSC, y la

misma cantidad se resta de �̅� para obtener el LIC. ¿Cómo se puede construir un

intervalo y luego argumentar que se puede tener un 95% de confianza en que

contiene 𝜇, si incluso no se sabe cuál es la media poblacional? Vale la pena

recordar de la discusión anterior sobre la Regla Empírica que el 95.5% de todas

las medias muéstrales caen dentro de dos errores estándar de la media

poblacional. Entonces la media poblacional está máximo a dos errores estándar

del 95.5% de todas las medias muéstrales. Por tanto, al comenzar con cualquier

media muestral, si se pasa de dos errores estándar por encima de dicha media y

dos errores estándar por debajo de ella, se puede tener un 95.5% de confianza

en que el intervalo resultante contenga la media poblacional desconocida.

4 3.2 2.4 1.6 0.8 0 0.8 1.6 2.4 3.2 40

0.113

0.225

0.338

0.450.45

1.338 104

n x 0 1( )

44 x

Figura IV.3 Intervalo de confianza del 95% para estimar la media poblacional.

La discusión sobre distribuciones de muestreo mostró que de toda población se

pueden obtener muchas muestras diferentes de un tamaño dado, cada una con

su propia media. Para un intervalo del 95% ¿cuántos errores estándar se debe

mover por encima y por debajo de la media muestral? Como lo demuestra la

figura IV.3, debido a que la tabla Z contiene valores sólo para el área que está

por encima o por debajo de la media, se debe dividir el 95% por 2, produciendo

0.95

0.475 0.475

𝝁 =?

𝜶 = 𝟎. 𝟎𝟐𝟓

𝜶 = 𝟎. 𝟎𝟐𝟓

−1.96𝜎�̅� +1.96𝜎�̅�



82

0.4750. Luego, se halla el valor de Z, correspondiente a un área de 0.4750, el cual

es Z = 1.96. Así, para construir un intervalo de confianza del 95%, simplemente se

especifica un intervalo de 1.96 errores estándar por encima y por debajo de la

media muestral. Este valor del 95% es llamado coeficiente de confianza.

4.4.1 Intervalo de confianza para la media poblacional – muestras grandes

Se debe recordar que el intervalo se forma utilizando la media muestral como

una estimación puntual para el cual se adiciona y se resta un cierto valor para

obtener los límites superior e inferior del intervalo de confianza, respectivamente.

Por tanto el intervalo de confianza para estimar 𝜇 cuando 𝜎 es conocido:

xμ x Zσ (IV.6)

El valor alfa, es la probabilidad de error o la probabilidad de que un intervalo

dado no contenga la media poblacional desconocida.

4.4.2 Intervalo de confianza cuando 𝝈 es desconocida

La fórmula anterior requiere la suposición improbable que la desviación estándar

poblacional eres conocida. En el evento probable que 𝜎 sea desconocida, la

desviación estándar de la muestra debe substituirse:

xμ x Zs (IV.7)

Donde x

s s n .

4.4.3 Control del ancho de un intervalo

Como se expresó anteriormente, es preferible un intervalo más estrecho debido

a la precisión adicional que proporciona. Hay dos métodos principales para

lograr un intervalo más preciso: (1) reducir el nivel de confianza y (2) incrementar

el tamaño de la muestra.

Reducción del nivel de confianza. Por ejemplo, en el intento del señor Gerber por

estimar la declaración de impuestos promedio de sus clientes, que un incremento

en la precisión puede obtenerse aceptando un nivel inferior de confianza. Su

intervalo de confianza del 99% oscilaba entre US$573 y US$732, mientras que el

intervalo del 95% era más estrecho de US$594 a US$712. Esto resultó del hecho

que el intervalo de confianza del 99% requirió un valor de Z de 2.58 en lugar de

1.96 que utiliza el intervalo del 95%.



83

Sin embargo, había un costo involucrado en lograr esta precisión mayor: el nivel

de confianza bajó a 95%, produciendo un 5% de probabilidad de error en lugar

del 1% relacionado con el intervalo de confianza del 99%. ¿Existe alguna manera

en la que se pueda reducir el intervalo sin sufrir una pérdida de confianza? Sí,

incrementando el tamaño muestral.

Incremento del tamaño muestral. Incrementando el tamaño muestral se puede

reducir el error estándar 𝜎 √𝑛⁄ . Si el tamaño muestral del señor Gerber se

incrementa a 80, el intervalo del 99% presenta un grado de precisión similar al

intervalo más estrecho del 95%, sin ninguna pérdida de confianza.

Infortunadamente, esta ventaja no se gana sin un precio. El tamaño más grande

de la muestra significa más tiempo y más dinero que deben gastarse al recolectar

y manejar los datos. De nuevo, debe tomarse una decisión. Se vuelve una

decisión gerencial respecto a qué método tomar.

4.4.4 Determinación del tamaño apropiado de la muestra

El tamaño de la muestra juega un papel importante al determinar la probabilidad

de error así como en la precisión de la estimación. Una vez que se ha

seleccionado el nivel de confianza, dos factores importantes influyen en el

tamaño muestral: (1) la varianza de la población 𝜎2 y (2) el tamaño del error

tolerable que el investigador está dispuesto a aceptar. Mientras que el primer

factor está más allá del control del investigador (no hay nada que se pueda

hacer sobre la varianza de la población), sí es posible limitar el tamaño del error.

El tamaño del error que un investigador puede tolerar depende de qué tan crítico

es el trabajo. Algunas tareas extremadamente delicadas requieren de resultados

exactos: los procedimientos médicos vitales de los cuales dependen vidas

humanas, o la producción de piezas de una máquina que deba cumplir medidas

precisas, pueden tolerar sólo un pequeño error. En otros casos, los errores más

grandes pueden tener consecuencias menos graves.

El tamaño muestral para intervalos de la media poblacional

2 2

2

Z σn

x μ

(IV.8)

4.5 Errores tipo I y II.

El modelo estadístico se basa en un método de demostración comúnmente

empleado en matemáticas, en el que se asume una hipótesis y se obtiene un

resultado absurdo, concluyendo que la hipótesis de partida es falsa. Se le conoce

como método por contradicción o reducción al absurdo.



84

La adaptación de este método en estadística parte de dos hipótesis lógicas: la

hipótesis nula y la hipótesis alternativa, representada como 𝐻𝑜 y 𝐻1,

respectivamente.

La pregunta de investigación se ha transformado en una hipótesis 𝐻1; además,

encabeza el modelo una hipótesis 𝐻𝑜, un resultado posible de la prueba, aunque

lógicamente opuesto al objetivo de investigación.

La estructura y la mecánica del modelo tienen la hipótesis nula 𝐻𝑜 como el

referente alrededor del cual se desarrollan el análisis estadístico y se toma la

decisión final; esto da lugar a sólo dos decisiones aceptar 𝐻𝑜 o rechazar 𝐻𝑜.

Como la prueba de las hipótesis se sustenta en una muestra aleatoria, el modelo

puede llevar a decisiones correctas e incorrectas. Por ejemplo, si se rechaza la

hipótesis nula siendo verdadera, se dice que se comete un error tipo I; si se

acepta la hipótesis nula siendo en realidad falsa, se comete un error tipo II. Los

otros dos casos posibles corresponderían a decisiones correctas, ver tabla IV.2.

Tabla IV.2. Decisiones posibles en las pruebas de hipótesis.

𝐻𝑜es verdadera 𝐻𝑜 es falsa

Rechazar 𝐻𝑜 Error tipo I No hay error (decisión correcta)

Aceptar 𝐻𝑜 No hay error (decisión correcta) Error tipo II

La probabilidad de cometer un error tipo I es igual al nivel de significancia, o valor

𝛼 en el que se prueba la hipótesis. El investigador debe tomar una decisión

respecto al valor del nivel de significancia 𝛼. Debe seleccionar un valor de 𝛼 que

le dé suficiente confianza, pero no tan pequeño que lo ponga en un alto riesgo

de cometer el error tipo II y de tener una potencia de la prueba baja.

4.6 Contraste de hipótesis unilateral y bilateral.

La hipótesis nula expresa que la situación no ha cambiado, mientras que la

hipótesis alterna establece que la situación se ha modificado en alguna

dirección específica o, simplemente, que ha cambiado.

Se clasifica una prueba estadística como de cola izquierda, cola derecha o de

dos colas, de acuerdo con la hipótesis alterna seleccionada, como muestra en

la tabla IV.3 y se ilustra en las figuras IV.4 y IV.5.

Tabla IV.3. Pruebas estadísticas con el uso de del parámetro 𝜇.

Cola izquierda Cola derecha Dos colas

𝐻𝑜: 𝜇 ≥ 𝜇𝑜 𝐻1: 𝜇 < 𝜇𝑜

𝐻𝑜: 𝜇 ≤ 𝜇𝑜 𝐻1: 𝜇 > 𝜇𝑜

𝐻𝑜: 𝜇 = 𝜇𝑜 𝐻1: 𝜇 ≠ 𝜇𝑜



85

Hay cuatro pasos involucrados en una prueba:

1. Plantear las hipótesis.

2. Con base en los resultados de la muestra, calcular el valor del estadístico

de prueba Z.

3. Determinar la regla de decisión con base en los valores críticos de Z.

4. Interpretación y conclusiones.

El valor Z utilizado para probar la hipótesis cuando 𝜎 es conocido:

ox μZ

σ

n

(IV.9)

El valor Z utilizado para probar la hipótesis cuando 𝜎 es desconocida:

ox μZ

s

n

(IV.10)

4 3.2 2.4 1.6 0.8 0 0.8 1.6 2.4 3.2 40

0.113

0.225

0.338

0.450.45

1.338 104

n x 0 1( )

44 x

Figura IV.4 Prueba de hipótesis de dos colas.

0.95 0.475

𝑯𝒐: 𝝁 = 𝝁𝒐

𝜶/𝟐 = 𝟎. 𝟎𝟐𝟓

−1.96 +1.96

0.475

Zona de

rechazo

cola a la

izquierda

Zona de

rechazo

cola a la

derecha Zona de no

rechazo

𝑯𝟏: 𝝁 ≠ 𝝁𝒐

Existe un 95% de probabilidad de

que los resultados muestrales

puedan caer entre ±1.96 si la

hipótesis nula es verdadera



86

4 3.2 2.4 1.6 0.8 0 0.8 1.6 2.4 3.2 40

0.113

0.225

0.338

0.450.45

1.338 104

n x 0 1( )

44 x

4 3.2 2.4 1.6 0.8 0 0.8 1.6 2.4 3.2 40

0.113

0.225

0.338

0.450.45

1.338 104

n x 0 1( )

44 x

Figura IV.5 Prueba de hipótesis de una cola a la izquierda y a la derecha.

Zona de

rechazo

cola a la

izquierda

Zona de no

rechazo

𝜶

𝑯𝒐: 𝝁 ≥ 𝝁𝒐

𝑯𝟏: 𝝁 < 𝝁𝒐

Zona de

rechazo

cola a la

derecha

Zona de no

rechazo

𝑯𝒐: 𝝁 ≤ 𝝁𝒐

𝑯𝟏: 𝝁 > 𝝁𝒐

𝜶



87


ACTIVIDAD DE APRENDIZAJE 8. BATERÍA DE EJERCICIOS:

INFERENCIA ESTADÍSTICA Y MUESTREO ESTADÍSTICO

1. Una población de ventas semanales (en miles de dólares) en Blazing Salads, un

restaurante vegetariano en Chicago, es 27, 32, 17, 21 y 32.

a) Calcule e interprete la desviación estándar.

b) Determine n = 2 y desarrolle la distribución muestral.

c) Calcule el error estándar

d) Calcule la media poblacional

e) Calcule la gran media ¿Cómo se compara con la media poblacional?

2. Utilizando los datos del ejercicio anterior determine ahora con n = 3:

a) La distribución muestral

b) Calcule la gran media y el error estándar ¿Cómo difieren los resultados del ejercicio

anterior y por qué?

3. Según la revista Business Week, el promedio de los años de experiencia de los pilotos de

aerolínea es de 25.2. Se asume una desviación estándar de 12 años. Este año usted debe

tomar 36 vuelos comerciales. Usted espera que la experiencia promedio de los pilotos de los

vuelos que usted tome sea superior a 30. ¿Qué tan probable es que la media muestral sea

mayor de 30?

4. Un proceso de manufactura produce unidades que miden en promedio 10 pulgadas de

largo con una desviación estándar de 3.2 pulgadas. Si sólo pueden utilizarse las unidades que

estén entre 9.5 y 10.5 pulgadas, ¿cuántas pueden descartarse de una muestra de 100?

5. La desviación estándar en cuanto a la cantidad de tiempo que se gasta en entrenar a un

trabajador para realizar un trabajo es de 40 minutos. Se toma una muestra de 64 trabajadores.

a) ¿Cuál es la probabilidad de que la media muestral exceda la media poblacional en más

de 5 minutos?

b) ¿Cuál es la probabilidad de que la media muestral se al menos mayor que la media

poblacional en 8 minutos?

6. El promedio de fondo de pensiones en TIAA, para una población de profesores, es de

$40,715, con una desviación estándar de $19,015. Halle la probabilidad que una muestra de

75 profesores produzca un error de muestreo menor que $1,000.

7. La casa del papel vende invitaciones, sorpresas y otros productos de papelería para

ocasiones festivas. Se asume que las horas semanales promedio que trabajan los empleados

en la tienda es de 36.7, con una desviación estándar de 3.5. Juan Pérez, propietario de la

casa del papel, desea por lo menos un 90% de confiabilidad en que su estimado de las horas

promedio trabajadas por empleado cada semana está dentro de 1 hora de la media

poblacional real. Se selecciona una muestra de 36 semanas. ¿Cuál es la probabilidad de que

Pérez no esté desilusionado con el estimado?



88



ESTIMACIÓN CON INTERVALOS DE CONFIANZA

1. Consideremos el caso de un promotor inmobiliario que intenta construir un gran centro

comercial. Puede estimar en el área el ingreso promedio por familia como indicador de las

ventas esperadas. Una muestra de 100 familias da una media de $35,500. Se asume que la

desviación estándar poblacional es $7,200. Calcule:

a) Determine el intervalo de confianza del 95%, y

b) Considere una segunda muestra con una media de $35,600 y calcule el I.C. del 95%

2. Sánchez y asociados, acaban de registrar las declaraciones de impuestos de sus clientes.

Desean estimar la cantidad promedio que deben al servicio de renta interna. De los 50

clientes seleccionó en su muestra, la cantidad promedio que se adeudaba era de $652.68.

La desviación estándar de la muestra es $217.43, calcule:

a) El I.C. del 99%

b) ¿Qué pasaría a este intervalo si el señor Sánchez estuviera dispuesto a aceptar un nivel

de confianza del 95%?

c) Interprete sus resultados.

3. Taxis seguros planea comprar una flota de nuevos taxis para sus operaciones en Reforma. La

decisión depende de si el rendimiento del auto en consideración es por lo menos 27.5 millas

por galón de gasolina. Los 36 carros que prueba la compañía reportan una media de 25.6

millas por galón de gasolina, con una desviación estándar de 3.5 MPG. A un nivel de

confianza del 99%, ¿Qué aconsejaría a Taxis seguros que hiciera?

4. Una muestra de 121 llamadas al número 900 que usted maneja tiene una duración promedio

de 16.6 minutos y una desviación estándar de 3.63 minutos. Usted pretende eliminar el servicio

a menos que la duración promedio sea superior a 18 minutos.

a) En el nivel de confianza del 90% ¿cuál es su decisión?

b) ¿Cuál sería su decisión a un nivel de confianza del 95%? ¿Por qué son diferentes los

intervalos?

c) ¿Cuál sería su decisión si utilizara una muestra de 200 llamadas?

5. Un fabricante que produce focos que tienen un promedio de vida con distribución

aproximadamente normal y una desviación estándar de 40 horas. Si una muestra de 30 focos

tiene una vida promedio de 780 horas, encuentre un intervalo de confianza del 96% para la

media poblacional de todos los focos que produce la empresa.



89



PRUEBA DE HIPÓTESIS

1. La gerencia de Banco Azteca está planeando basar cargos para las cuentas corrientes en el

saldo diario promedio. El gerente de cuentas preferenciales desea probar la hipótesis de que

las cuentas tienen un promedio de $312. Se selecciona una muestra de 200 cuentas, dando

una media de $298.10 con una desviación estándar de $97.30. Para minimizar la probabilidad

de un error tipo I, se selecciona un valor 𝛼 de 1%.

2. En una reunión informativa para una oficina corporativa, el gerente del Hotel Delicias, reportó

que el número promedio de habitaciones alquiladas por noche es de por lo menos 212. Es

decir, 212 . Uno de los funcionarios corporativos considera que esta cifra puede estar algo

sobre estimada. Una muestra de 150 noches produce una media de 201.3 habitaciones y una

desviación estándar de 45.5 habitaciones. Si estos resultados sugieren que el gerente ha

inflado su reporte, será amonestado severamente. A un nivel de confianza de 1%, ¿Cuál es el

destino del gerente?

3. Una encuesta realizada por el INEGI mostró que los estudiantes de las universidades de la

nación gastan en promedio más de $75 mensuales en entretenimiento. Si usted puede hallar

evidencias para confirmar esta afirmación, podría utilizarla para solicitar a su casa ayuda

monetaria adicional. De los 100 estudiantes que tomó de muestra, usted haya una media de

$80.23 con una desviación estándar de $45.67. ¿A un nivel de significancia del 2%, se

encuentra justificación para la solicitud?

4. Como gerente de compras para una gran empresa de seguros usted debe decidir si

actualizar o no las computadoras de la oficina. A usted se le ha dicho que el costo promedio

de las computadoras es de US$2,100. Una muestra de 64 minoristas revela un precio promedio

de US$2,251, con una desviación estándar de US$812. ¿A qué nivel de significancia del 5%

parece que su información es correcta? (Prueba de hipótesis)

5. Durante los últimos meses Raynor & Sons ha publicado ampliamente su negocio de suministros

eléctricos. El Sr. Raynor espera que el resultado haya sido incrementar las ventas promedio

semanales por encima de US$7,880 que la compañía experimentó en el pasado. Una muestra

de 36 semanas da una media de US$8,023 con una desviación estándar de US$1,733. A un

nivel de significancia del 1%, ¿parece que la publicidad ha producido efecto? (Prueba de

hipótesis)

6. Según The Wall Street Journal (mayo 12 de 1997) muchas compañías de ropa deportiva están

tratando de comercializar sus productos entre los más jóvenes. El artículo sugirió que la edad

promedio de los consumidores había caído por debajo del grupo de edad de 34.4 años que

caracterizó los comienzos de la década. Si una muestra de 1,000 clientes reporta una media

de 33.2 años y una desviación estándar de 9.4, ¿qué se incluye a un nivel de significancia del

4%? (Prueba de hipótesis)

PROBABILIDAD Y ESTADÍSTICA UNIDAD V


90

REGRESIÓN Y CORRELACIÓN

Competencia: Conocer los principios que rigen el control de calidad de diversos

procesos para mantener y mejorar la efectividad y eficiencia de procesos.

La regresión y la correlación son las dos herramientas estadísticas más poderosas

y versátiles que se pueden utilizar para solucionar problemas comunes en los

negocios. Muchos estudios se basan en la creencia de que se puede identificar

y cuantificar alguna relación funcional entre dos o más variables. Por ejemplo, en

un caso industrial se puede saber que el contenido de alquitrán en el producto

de salida de un proceso químico está relacionado con la temperatura con la que

éste se lleva a cabo. Puede ser interesante desarrollar un método de predicción,

esto es, un procedimiento para estimar el contenido de alquitrán para varios

niveles de temperatura tomados de información experimental.

5.1 Diagrama de dispersión

El diagrama de dispersión, ver figura V.1, representa las observaciones por pares

para 𝑥 e 𝑦. Es habitual colocar la variable independiente en el eje horizontal. Si 𝑥

e 𝑦 se relacionan en forma lineal, entonces a medida que 𝑥 cambia en una

cantidad constante. Si existe una relación curvilínea, 𝑦 cambia en una cantidad

diferente a medida que 𝑥 cambia.

Figura V.1 Diagrama de dispersión.

5.2 Regresión lineal simple.

La regresión lineal se refiere a la predicción del valor de una variable a partir de

una o más variables. Se denomina a la variable dependiente (𝑦), variable de

respuesta y a la variable independiente (𝑥), variable de predicción.

25

27

29

31

33

35

37

39

80 85 90 95 100 105 110 115 120 125

Eje

y

Eje x



91

Una manera de estudiar el comportamiento de 𝑦 respecto a 𝑥, es mediante un

modelo de regresión, que consiste en ajustar un modelo matemático de la forma:

𝑦 = 𝑓(𝑥), a las 𝑛 parejas de puntos. Con lo cual se puede ver si dado un valor de

la variable independiente 𝑥, se puede predecir el valor promedio de 𝑦.

Éste se llama modelo de regresión lineal y expresa la relación lineal entre (𝑥) y (𝑦):

Modelo de regresión lineal: xy 10

Para estimar 0 y

1 ajustamos la recta que explique de mejor manera el

comportamiento de los datos. Debemos encontrar la recta que pasa más cerca

de todos los puntos. Un procedimiento para ajustar la mejor recta y por tanto de

estimar 0 y

1, es mediante el método de mínimos cuadrados. Estas estimaciones

se denominan estimaciones puntuales de los mínimos cuadrados de los

parámetros 0 y

1.

De esta forma se trata de encontrar los valores de 0 y

1 que minimizan la suma

de los errores cuadrados. Se trata de ajustar la recta de forma que la suma de las

distancias en forma vertical de los puntos a la recta se minimice.

1. La estimación puntual de los mínimos cuadrados de la pendiente.

xx

xy

SS

SS1̂

Suma de cuadrados corregida de x

Suma de cuadrados corregida de los

productos cruzados xy

n

yx

yxSS

n

i

i

n

i

in

i

iixy

11

1

n

x

xS

n

i

in

i

ixx

2

1

1

2

2. La estimación puntual de los mínimos cuadrados de la ordenada al origen.

xy 10ˆˆ ,

donde: n

y

y

n

i

i 1

n-número de

observaciones

n

x

x

n

i

i 1

Media o promedio

de los valores de x

Media o promedio de

los valores de y



92

Se representará la ecuación de regresión estimada por xy 10ˆˆˆ (ecuación de

predicción de mínimos cuadrados).

Ejemplo 5.1. Una firma de renta de coches recabo los datos de la siguiente tabla

sobre los costos del mantenimiento (𝑦) y las millas recorridas (𝑥) para 7

automóviles. Encontrar el modelo de regresión lineal para los datos

proporcionados.

Millas recorridas

en miles (x)

Costos de

mantenimiento (y)

55 299

27 160

36 215

42 255

65 350

48 275

29 207

1. Gráfico de dispersión.

2. Tabla de datos.

𝒙 𝒚 𝒙𝟐 𝒚𝟐 𝒙𝒚 55 299

27 160

36 215

42 255

65 350

48 275

29 207

x 302 y 1761 2x 14184 2y 467225 xy 81168

150

200

250

300

350

400

20 25 30 35 40 45 50 55 60 65 70

Co

sto

de

Man

ten

imie

nto

Millas recorridas



93

3. Determinar SSxx:

n

x

xSS

n

i

in

i

ixx

2

1

1

21154.8571

4. Determinar SSxy:

n

yx

yxSS

n

i

i

n

i

in

i

iixy

11

1

5193.4285

5. Determinar 1̂ :

xx

xy

SS

SS1̂ 4.4970

6. Determinar 0ˆy , yx :

n

x

x

n

i

i

143.1428

n

y

y

n

i

i

1251.5714

xy 10ˆˆ 57.5582

7. Ecuación de regresión estimada: 𝑦 = 57.5582 + 4.4970𝑥

8. Interpretación de 1̂ :



94

Ejemplo 5.2. La agencia de protección del ambiente (Environmental Protection

Agency; EPA) proporcionó una serie de datos que comparan el tamaño del

motor en pulgadas cúbicas de desplazamiento y las millas por galón estimadas

para ocho modelos representativos de automóviles subcompactos modelo 2000.

Determinar la ecuación de regresión estimada.

Coches compactos Tamaño del motor (mpg)

Chevrolet Cavalier 121 30

Nissan Stanza 120 31

Dodge Omni 97 34

Ford Scort 98 27

Mazda 626 122 29

Plymouth Horzion 97 34

Renault Alliance 85 38

Toyota 122 32

1. Gráfico de dispersión.

2. Tabla de datos.

𝒙 𝒚 𝒙𝟐 𝒚𝟐 𝒙𝒚

x y 2x 2y xy



95

3. Determinar SSxx:

n

x

xSS

n

i

in

i

ixx

2

1

1

2

4. Determinar SSxy:

n

yx

yxSS

n

i

i

n

i

in

i

iixy

11

1

5. Determinar 1̂ :

xx

xy

SS

SS1̂

6. Determinar 0ˆy , yx :

n

x

x

n

i

i

1

n

y

y

n

i

i

1

xy 10ˆˆ

7. Ecuación de regresión estimada:________________

8. Interpretación de 1̂ :



96

5.3 Correlación.

Dadas dos variables aleatorias cualesquiera “𝑥” e “ 𝑦”, una medida de la relación

lineal que hay entre ambas variables es el coeficiente de correlación de Pearson

(𝒓) definido por :

yyxx

xy

SSSS

SSr

Por tanto, −1 < 𝑟 < 1. Este coeficiente es una buena medida de la bondad del

ajuste de la recta de regresión.

En la interpretación del coeficiente de correlación se debe tener en cuenta que:

𝑟 = ±1 indica una relación lineal exacta positiva (creciente) o negativa

(decreciente),

𝑟 = 0 indica la no existencia de relación lineal estocástica, pero no indica

independencia de las variables ya que puede existir una relación no lineal

incluso exacta,

valores intermedios de r (0 < 𝑟 < 1 ó −1 < 𝑟 < 0) indican la existencia de

una relación lineal estocástica, más fuerte cuanto más próximo a +1 (ó −1)

sea el valor de 𝑟.

Para poder interpretar con mayor facilidad el coeficiente de correlación se

exponen en la figura V.2 varias nubes de observaciones y el ajuste lineal obtenido:

Figura V.2(a) existe una dependencia funcional lineal, las observaciones están

sobre la recta de regresión. 𝑟 = 1, recta de regresión: 𝑦 = 𝑥. Figura V.2(b) la

relación lineal entre las variables es muy pequeña y no parece que exista otro

tipo de relación entre ellas, la nube de puntos indica que las variables son “casi”

independientes; 𝑟 = 0.192. Se acepta la no influencia de la variable regresora en

𝑦. Figura V.2(c) existe una dependencia funcional entre las observaciones pero

no de tipo lineal, por tanto la correlación es muy pequeña; 𝑟 = 0.391. Figura

V.2(d) la nube de datos se ajusta razonablemente a una recta con pendiente

positiva; 𝑟 = 0.641. Figura V.2(e) existe una fuerte dependencia lineal negativa

entre las dos variables y la correlación es muy alta (próxima a -1); 𝑟 = −0.924.



97

(a)

(b)

(c)

(d) (e) Figura V.2 (a) Dependencia funcional lineal, (b) observaciones casi independientes, (c) existe

una relación cuadrática, (d) relación estocástica lineal y (e) fuerte relación estocástica lineal.



98



REGRESIÓN LINEAL Y CORRELACIÓN

1. En la tabla A se presentan los datos de ventas en un periodo de 11 años de una compañía

fabricante de software de gráficos constituida en 1990.

a) Determine la ecuación de tendencia lineal para estos datos mediante el método de

mínimos cuadrados, con dos cifras decimales para todos los valores. Usando esta

ecuación, determine el pronóstico de ventas para el año 2001.

b) Trace la gráfica de dispersión y la línea de tendencia.

c) Obtenga el coeficiente de correlación e interprete el resultado obtenido.

Tabla A. Ventas anuales de una empresa de software.

Año

Ventas,

en millones de

dólares

(Y)

1990 $0.2

1991 0.4

1992 0.5

1993 0.9

1994 1.1

1995 1.5

1996 1.3

1997 1.1

1998 1.7

1999 1.9

2000 2.3



99


2. Larry’s Lawn Service hace publicidad de un nuevo químico para erradicar las malezas. Para

determinar la tendencia en el número de clientes, Larry consulta los registros de la compañía

y encuentra los datos que aparecen a continuación.

a. Determine la ecuación de tendencia lineal.

b. Él desea pronosticar el número de clientes para el período 15 (correspondiente al mes de

marzo de 1998).

c. Grafica los puntos de la tabla “Período vs. Clientes” y traza la línea de tendencia

calculada en el inciso (a).

d. Obtenga el coeficiente de correlación e interprete el resultado obtenido.

Período X Clientes

Y

Enero de 1997 1 41

Febrero 2 43

Marzo 3 39

Abril 4 37

Mayo 5 42

Junio 6 35

Julio 7 30

Agosto 8 31

Septiembre 9 32

Octubre 10 30

Noviembre 11 28

Diciembre 12 28

Enero de 1998 13 29

Febrero 14 26



100


3. Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país

a partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los

siguientes datos:

X 189 190 208 227 239 252 257 274 293 308 316

Y 402 404 412 425 429 436 440 447 458 469 469

X representa la renta nacional en millones de euros e Y representa las ventas de la compañía en

miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive). Calcular:

a) La recta de regresión de Y sobre X.

b) El coeficiente de correlación lineal e interpretarlo.

c) Si en 2001 la renta nacional del país fue de 325 millones de euros. ¿Cuál será la predicción

para las ventas de la compañía en este año?

4. La información estadística obtenida de una muestra de tamaño 12 sobre la relación existente

entre la inversión realizada y el rendimiento obtenido en cientos de miles de euros para

explotaciones agrícolas, se muestra en el siguiente cuadro:

Inversión (X) 11 14 16 15 16 18 20 21 14 20 19 11

Rendimiento (Y) 2 3 5 6 5 3 7 10 6 10 5 6

Calcular:

a) La recta de regresión del rendimiento respecto de la inversión.

b) La previsión de inversión que se obtendrá con un rendimiento de 1, 250,000 €.

5. El número de horas dedicadas al estudio de una asignatura y la calificación obtenida en el

examen correspondiente, de ocho personas es:

Horas (X) 20 16 34 23 27 32 18 22

Calificación (Y) 6.5 6 8.5 7 9 9.5 7.5 8

Se pide:

a) Recta de regresión de Y sobre X.

b) Calificación estimada para una persona que hubiese estudiado 28 horas.

101

INGENIERÍA ELECTRÓNICA

ACTIVIDADES DE

APRENDIZAJE:

EVALUACIÓN

UNIDAD: Código

Periodo:

Nombre del profesor:

Asignatura: Fecha:

Unidad:

Nombre del alumno: Grupo:

Competencia específica:

Instrucciones generales:

Criterios

Parámetros

Formato de

entrega.

Anota todos los datos generales. (10ptos.) Omite de 1 a 2 datos generales.

(3ptos.)

Omite más de 3 datos

generales.

(0 ptos.)

Presentación. Edición de títulos de gráficas y tablas,

resultados legibles, texto justificado,

tamaño de letra 12 para texto y títulos y sin

faltas de ortografía. (10ptos.)

Sin edición de títulos de gráficas,

gráficas y tablas sin alineación,

faltas de ortografía. (5ptos.)

Pésima presentación del

trabajo.

(0 ptos.)

Excel Realiza el análisis estadístico en las

plantillas de Excel de todos los ejercicios.

(10 ptos.)

Falta el cálculo de la tabla de

resultados de la plantilla de Excel

para algunos ejercicis. (5 ptos.)

Utiliza de forma incorrecta las

plantillas de Excel. (0 ptos.)

Respuestas Redacta y fundamenta de acuerdo a los

resultados obtenidos de forma clara (40

ptos)

Sólo redacta la respuesta de 1 a 6

ejercicios. (30 ptos)

No redacta ninguna respuesta y

sólo pone gráficas. (0 ptos)

Graficas Todas la graficas son legibles y concuerdan con los resultados obtenidos. (30 ptos.)

La graficas no son legibles pero

concuerdan con los resultados.

(25 ptos.)

Las gráficas no son legibles y

no concuerdan con los

resultados.

(0 ptos.)

Resultado de la evaluación:

Puntuación

Alcanzada

1ra. oportunidad 2da. oportunidad

Firma del docente

Firma del alumno


Tecnológico de Estudios Superiores de Cuautitlán Izcalli 102

6. Referencias Bibliográficas.

Anderson, D, Sweeney, D. y Williams, T. (1999). Métodos cuantitativos para

los negocios. México: Thomson.

Braverman, J. (1980). Probabilidad, lógica y decisiones gerenciales.

México: Trillas.

Douglas, L., Marchal,W. y Wathen, S. (2008). Estadística aplicada a los

negocios y economía. México: McGrawHill.

Levin, R. y Rubien, D. (2004). Estadística para administración y economía.

México: Prentice Hall.

Mason, R. y Lind, D. (1998). Estadística para administración y economía.

México: Alfaomega.

Mendenhall, W. y Sincich, T. (1992). Probabilidad y estadística para

ingeniería y ciencias. México: Prentice Hall.

Nieves, A. y Dominguez, F. C. (2010). Probabilidad y Estadística para

ingeniería: un enfoque moderno. México: McGrawHill.

Spurr, W y Bonini, C. (1982). Toma de decisiones en administración

mediante métodos estadísticos. México: Limusa.

Walpole, R. E. y Myers, R. H. (1992). Probabilidad y Estadística. México:

McGrawHill.

Webster, A. (2000). Estadística aplicada a los negocios y a la economía.

México: McGrawHill.

tecnológico de estudios superiores de cuautitlán izcalli · pdf fileestudios...

Documents