conceptos estadísticos para la modelación predictiva
TRANSCRIPT
![Page 1: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/1.jpg)
Probabilidad y Estadıstica:Conceptos Estadısticos paraModelacion Predictiva
Dr. Juliho Castillo22 de octubre de 2017
Universidad LaSalle Oaxaca
1
![Page 2: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/2.jpg)
1 Objetivos
2 Muestreo aleatorio y teorema del lımite central
3 Pruebas de hipotesis
4 Estadısticos Z y t
5 Intervalos de confianza, niveles de significacion y valore p
6 Una guıa paso a paso para realizar una prueba de hipotesis
7 Un ejemplo de la prueba de hipotesis
8 Prueba χ−cuadrada
9 Correlacion
10 Recursos
2
![Page 3: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/3.jpg)
Conceptos Estadısticos Importantes
1 Pruebas de hipotesis.2 p−valores.3 Distribucion normal.4 Correlacion.
3
![Page 4: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/4.jpg)
Objetivos
4
![Page 5: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/5.jpg)
Muestreo aleatorio y teorema del lımite central
Entender el concepto de muestreo aleatorio a traves deejemplos e ilustrar las aplicaciones del teorema del lımitecentral. Estos dos conceptos son la columna vertebral de laspruebas de hipotesis.
5
![Page 6: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/6.jpg)
Pruebas de hipotesis
Entender el significado de los terminos tales como hipotesisnula, hipotesis alternativa, intervalos de confianza,p−valores, nivel de significacion, etc. Desarrollaremos unaguıa de la implementacion de pruebas de hipotesis, seguidaspor un ejemplo.
6
![Page 7: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/7.jpg)
Pruebas χ−cuadrada
Calcularemos el estadıstico χ-cuadrada y describiremos el usode pruebas χ-cuadrada con un par de ejemplos.
7
![Page 8: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/8.jpg)
Correlacion
Entenderemos el significado y la significacion de la correlacionentre dos variables, de los coeficientes de correlacion ycalcularemos y visualizaremos la correlacion entre variables deuna base de datos.
8
![Page 9: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/9.jpg)
Muestreo aleatorio y teoremadel lımite central
9
![Page 10: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/10.jpg)
Ejemplo
Supongamos que tratamos de encontrar la edad promedio enuna ciudad, digamos Oaxaca. Una manera de hacerlo serıa porfuerza bruta, es decir, recolectando esta informacion personapor persona. Pero este metodo serıa muy costoso en terminosde infraestructura y tiempo.
10
![Page 11: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/11.jpg)
En estadıstica, este es un problema comun, cuya solucion estaen el muestreo aleatorio: Tomemos un grupo de 1000individuos (o 10,000 dependiendo de tu capacidad, obviamenteentre mas, es mejor) y calculemos la edad promedio en estegrupo, a la que denotaremos por A1.
11
![Page 12: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/12.jpg)
Repitamos este procedimiento, digamos 100 veces, ydenotaremos por A1, A2, ..., A100 el promedio de edadesobtenido en cada respectivo intento.
12
![Page 13: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/13.jpg)
De acuerdo a la ley de los grandes numeros, la cantidad
A100 = A1 + ...+ A100
100 (2.1)
es una aproximacion muy cercana al promedio real de la edadde los pobladores de la ciudad.
13
![Page 14: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/14.jpg)
De acuerdo al teorema del lımite central, si el numero detales muestras es suficientemente grande, entonces ladistribucion de estos promedios seguiran una distribucionnormal. Es decir, A1, A2, ..., A100 estaran distribuidos demanera normal.
14
![Page 15: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/15.jpg)
Observacion: No estamos mas interesados en obtener elvalor exacto de la edad promedio, si no establecer unestimador para la misma. En tal caso, tenemos queconformarnos con la definicion de un rango de valores en elque el valor real podrıa estar.
Dado que hemos asumido una distribucion normal para losvalores de edad media de estos grupos, podemos aplicartodas las propiedades de una distribucion normal paracuantificar las probabilidades de que esta edad media seamayor o menor que un cierto numero.
15
![Page 16: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/16.jpg)
Dado que hemos asumido una distribucion normal para losvalores de edad media de estos grupos, podemos aplicar todaslas propiedades de una distribucion normal para posibilidadesde que esta edad media sea mayor o menor que un ciertonumero.
16
![Page 17: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/17.jpg)
Pruebas de hipotesis
17
![Page 18: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/18.jpg)
El concepto que acabamos de comentar en la seccion anteriorse utiliza para una tecnica en estadıstica, llamada prueba dehipotesis. En la prueba de hipotesis, asumimos una hipotesis(generalmente relacionada con el valor del estimador)denominada hipotesis nula y tratar de ver si es cierto o noaplicando las reglas de una distribucion normal. Tenemos otrahipotesis llamada hipotesis alternativa.
18
![Page 19: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/19.jpg)
Hipotesis nula vs. alternativa
Hay un truco para decidir cual sera la hipotesis nula y cualsera la hipotesis alternativa. La hipotesis nula es la premisainicial o algo que asumir que todavıa es cierto. La hipotesisalternativa es algo de lo que no estamos seguros y proponencomo premisa alternativa (casi con frecuencia contradictoria ala nula hipotesis) que podrıa o no ser cierto.
19
![Page 20: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/20.jpg)
Por lo tanto, cuando alguien esta haciendo una investigacioncuantitativa para calibrar el valor de un estimador, el valorconocido del parametro se toma como hipotesis nula mientrasque el nuevo valor encontrado (de la investigacion) se tomacomo la hipotesis alternativa.
20
![Page 21: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/21.jpg)
En nuestro caso (encontrar la edad media de nuestra ciudad),un investigador puede afirmar que la edad menor que 35. Estopuede servir como la hipotesis nula. Si una nueva agenciaafirma lo contrario (que es mayor que 35), entonces se puededenominar como la hipotesis alternativa.
21
![Page 22: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/22.jpg)
Estadısticos Z y t
22
![Page 23: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/23.jpg)
Suponga que el valor del parametro asumido en la hipotesisnula es Ao. Tomemos una muestra aleatoria de 100 o 1000personas o eventos del evento y calculemos la media delparametro, por ejemplo la edad promedio de una ciudad, eltiempo medio de suministro de la pizza, la media ingresos, etc.Podemos llamarlo A.
23
![Page 24: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/24.jpg)
El estadıstico Z se calcula para convertir una variablenormalmente distribuida (la distribucion de la mediapoblacional de edad) a una distribucion normal estandar. Estoes porque los valores de probabilidad para una variable quesigue a la distribucion normal estandarizada se puede obtenerde una tabla precalculada.
24
![Page 25: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/25.jpg)
El estadıstico Z se da por la siguiente formula:
Z = A− A0
σ/√n
(4.1)
donde σ es la desviacion estandar de la poblacion y n es elnumero de personas en la muestra
25
![Page 26: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/26.jpg)
Ahora, debemos considerar dos casos
26
![Page 27: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/27.jpg)
Prueba Z (distribucion normal)
El investigador conoce a desviacion estandar del parametro desu experiencia pasada. Un buen ejemplo de esto es el caso deltiempo de entrega de una pizza. En este caso (4.1) seguirauna distribucion normal y los valores normalizados seconoceran como valores Z.
27
![Page 28: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/28.jpg)
Prueba t (distribucion t de Student
En este caso, el investigador no conoce la desviacion estandarde la poblacion. Esto puede pasar porque:
No existen tales datos en algun registro historico;o el numero de eventos o personas es demasiado pequenopara suponer una distribucion normal.
28
![Page 29: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/29.jpg)
En este caso, la media y la desviacion estandar sondesconocidas, y la expresion asume una distribucion diferente ala normal llamada distribucion t de Student. El valorestandarizadas en este caso es llamado t−valor y la prueba esllamada prueba-t.
29
![Page 30: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/30.jpg)
Distribucion t de Student
La distribucion de Student fue descrita en 1908 porWilliam Sealy Gosset. Gosset trabajaba en unafabrica de cerveza, Guinness, que prohibıa a susempleados la publicacion de artıculos cientıficosdebido a una difusion previa de secretos industriales.De ahı que Gosset publicase sus resultados bajo elseudonimo de Student.
Wikipedia: Distribucion t de Student
30
![Page 31: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/31.jpg)
Figura 4.1: De The original uploader was Thorin de Wikipedia enfrances - Transferido desde fr.wikipedia a Commons., CC BY-SA1.0, https://commons.wikimedia.org/w/index.php?curid=1878902
31
![Page 32: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/32.jpg)
Figura 4.2: De Desconocido, CC BY-SA 3.0,https://commons.wikimedia.org/w/index.php?curid=788691
32
![Page 33: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/33.jpg)
Distribucion t en Python
from scipy import statsimport numpy as npimport matplotlib.pyplot as plt
def ft(x, nu):return stats.t.pdf(x, df=nu)
def Ft(x, nu):return stats.t.cdf(x, df=nu)
x = np.arange(-4,4,0.01)
33
![Page 34: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/34.jpg)
Distribucion t en Python
yd = ft(x,30)yc = Ft(x,30)
fig, ax = plt.subplots()plt.plot(x, yd, ’r’, linewidth=2)plt.plot(x, yc, ’b’, linewidth=2)plt.ylim(ymin=0)plt.show()
34
![Page 35: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/35.jpg)
35
![Page 36: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/36.jpg)
El parametro df se le conoce como grados de libertad ygeneralmente se denota como ν (la letra nu griega).
36
![Page 37: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/37.jpg)
Si una variable aleatoria X tiene distribucion t con ν gradosde libertad, entonces
µX = 0, σ2X = ν
ν − 2 (4.2)
37
![Page 38: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/38.jpg)
Ejemplo 4.1.Consideremos una variable con distribucion t y ν = 9 gradosde libertad. Encuentre el valor de t para el cual el area a laderecha sea 0.05 pero el total del area sin sombrear sea 0.90.
38
![Page 39: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/39.jpg)
tExample.py
from scipy import statsimport numpy as npimport matplotlib.pyplot as plt
def tp(x, nu):return stats.t.ppf(x, df=nu)
print tp(0.05, 9)##-1.83311293265print tp(1-0.05, 9)##1.83311293265
39
![Page 40: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/40.jpg)
Varianza muestral
S2 =∑ (Ai − A0)2
n− 1 (4.3)
40
![Page 41: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/41.jpg)
Estadıstico t
t = (A− A0)S/√n
(4.4)
41
![Page 42: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/42.jpg)
Intervalos de confianza, nivelesde significacion y valore p
42
![Page 43: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/43.jpg)
Figura 5.1: Una distribucion tıpica normal con valores p.
43
![Page 44: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/44.jpg)
Supongamos que Z1 y Z2 son dos Z−estadısticoscorrespondientes a dos valores de una variable aleatoria y p1 yp2 son areas encerradas por la curva de densidad a la derechade esos valores.
En otras palabras
P (X > Z1) = p1 (5.1)P (X > Z2) = p2 (5.2)
44
![Page 45: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/45.jpg)
Entonces, podemos definir un intervalo en el cual encontrar elvalor de una variable aleatoria, al cual llamaremos intervalode confianza.
45
![Page 46: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/46.jpg)
Por ejemplo, para una distribucion normal con media µ ydesviacion estandar σ, el valor de la variable aleatoria estara enel intervalo [µ− 3σ, µ+ 3σ] con una confianza(probabilidad) del 99 %.
46
![Page 47: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/47.jpg)
Para cualquier estimador (variable aleatoria) que tenga unadistribucion normal, uno puede definir un intervalo deconfianza si decidimos el nivel de confianza o probabilidad.
Podemos pensar en los intervalos de confianza como elumbral de los valores aceptados para sostener que la hipotesisnula es cierta
Si el valor del estimador vive en este rango, seraestadısticamente correcto decir que la hipotesis nula escorrecta.
47
![Page 48: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/48.jpg)
Para definir un intervalo de confianza, se necesita definir antesun nivel (o probabilidad) de confianza. Esta probabilidadnecesita ser definida por el investigador dependiendo delcontexto.
48
![Page 49: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/49.jpg)
Digamos que esta probabilidad es p. En general, utilizaremosel nivel de significacion
β = 1− p, (5.3)
que representa la probabilidad de que la hipotesis nula no seacorrecta.
β es definida por el investigador y usualmente esta en el ordende 0.01 a 0.1.
49
![Page 50: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/50.jpg)
Un concepto importante que aprender aquı es el valor deprobabilidad o simplemente valor-p de un estadıstico: Es laprobabilidad de que una variable aleatoria asuma un valormayor al valor-Z (o al valor-t)
p− valor = P (X > Z) (5.4)
50
![Page 51: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/51.jpg)
Figura 5.2: Una distribucion normal tıpica con p−valores y nivelde significacion.
51
![Page 52: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/52.jpg)
Criterio
Aceptar la hipotesis nula y rechazar la alternativa sip− valor > β
Aceptar la hipotesis alternativa y rechazar la nula sip− valor < β
52
![Page 53: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/53.jpg)
Debido a la simetrıa de la distribucion normal, existen trestipos de pruebas de hipotesis:
1 Cola izquierda;2 cola derecha;3 ambas colas.
53
![Page 54: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/54.jpg)
Cola izquierda
Figura 5.3: Prueba de hipotesis: Cola izquierda
54
![Page 55: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/55.jpg)
Cola derecha
Figura 5.4: Prueba de hipotesis: Cola derecha
55
![Page 56: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/56.jpg)
Dos colas
Analizamos ambas colas y si en alguna de las dos colas, falla larespectiva prueba de hipotesis, la prueba de hipotesis serechaza.
56
![Page 57: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/57.jpg)
Una guıa paso a paso pararealizar una prueba de hipotesis
57
![Page 58: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/58.jpg)
Paso #1
Defina sus hipotesis nula y alternativa. Las hipotesis nulaes algo que ya se establece y se acepta como cierto, al cualdenotamos como H0. Tambien, suponemos que el valor delparametro en la hipotesis nula es A0.
58
![Page 59: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/59.jpg)
Paso #2
Tome una muestra, digamos de unas 100 o 1000 personas oocurrencias de eventos, y calcule el valor del estimador (porejemplo, el promedio del parametro como es la edad promedio,el tiempo promedio de entrega de la pizza, ingreso promedio,etc.) Digamos que este valor fue Am.
59
![Page 60: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/60.jpg)
Paso #3
Calcule el valor normal estandar del valor Z
Z = Am − A0
σ/√n
(6.1)
60
![Page 61: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/61.jpg)
En la formula anterior, σ es la desviacion estandar de lapoblacion o ocurrencias de eventos y n es el numero depersonas en la muestra.
61
![Page 62: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/62.jpg)
La probabilidad asociada con el valor Z calculada en el paso 3se debe comparar con el nivel de significacion de la prueba adeterminar si la hipotesis nula sera aceptada o rechazada.
62
![Page 63: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/63.jpg)
Un ejemplo de la prueba dehipotesis
63
![Page 64: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/64.jpg)
Planteamiento
Un famoso restaurante de pizza afirma que su tiempo deentrega es de 20 minutos, con una desviacion estandar de 3minutos.
Un investigador de mercados independiente afirma que ellosestan desinflando los numeros para ganar clientes y el tiempode entrega promedio es de hecho 21.2 minutos.
¿Es su afirmacion justificada o esta el negocio de pizzacorrecto en su afirmacion? Suponga un nivel designificacion del 5 %
64
![Page 65: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/65.jpg)
Definamos las hipotesis nula y alternativa:
Lo que el negocio de pizzas afirma: H0 : A0 = 20.Lo que el investigador reclama: Ha : A0 > 20.Desviacion estandar (conocida): σ = 3.Tamano de la muestra: n = 64.Nivel de significacion: β = 0.05.
65
![Page 66: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/66.jpg)
Calculemos el valor Z:
Z = 21.2− 203/√
64= 3.2
66
![Page 67: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/67.jpg)
Denotemos por F la funcion de distribucion acumulativa deuna variable normal N(0, 1).
Calculamos el valor p correspondiente al valor Z = 3.2:
valor-p = 1− F (3.2)= 1− 0.999312862062= 0.000687137937916
67
![Page 68: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/68.jpg)
Esto significa que si la media fuera A0 = 20, la probabilidad deque la media muestral fuera A = 21.2 es ≈ 0.069 %.
Como elegimos un nivel de significacion β = 5 %, y0.069 % < 5 %, podemos rechazar la hipotesis nulaH0 : A0 = 20.
68
![Page 69: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/69.jpg)
Figura 7.1: La hipotesis nula se rechaza porque el p−valor esmenor al nivel de significacion β.
69
![Page 70: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/70.jpg)
Prueba χ−cuadrada
70
![Page 71: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/71.jpg)
La prueba χ2 se usa comunmente para comparar datosobservados vs datos esperados suponiendo que los datossiguen ciertas hipotesis.
71
![Page 72: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/72.jpg)
Debemos suponer cierta hipotesis, la cual nuestros datosseguiran y calculamos los datos esperados de acuerdo a esahipotesis.
72
![Page 73: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/73.jpg)
Debemos ya tener los datos observados, y calcular ladesviacion entre estos y los esperados usando el estadısticodefinido en la siguiente formula:
valor χ2:g =∑ (O − E)2
E, (8.1)
donde O es el valor observado y E el esperado, con la sumasobre todos los posibles datos.
73
![Page 74: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/74.jpg)
Aplicaciones del estadıstico χ−cuadrada
La prueba de ji cuadrado se puede usar para hacer lo siguiente:
Mostrar una relacion causal o independencia entre unavariable de entrada y otra de salida.Verificar si los datos observados provienen de una fuentejusta / imparcial.Comprobar si los datos son demasiado buenos para serverdad.
74
![Page 75: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/75.jpg)
Ejemplo
Realicemos un experimento hipotetico en el que una monedase lanza 10 veces.¿Cuantas veces espera obtener ya sea unaguila o un sol? La respuesta adecuada serıa 5. Ahora bien,¿que pasarıa si realizamos este experimento 1000 veces yregistramos los numeros de aguilas y soles.
75
![Page 76: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/76.jpg)
Supongamos que observamos soles 553 veces y aguilas el restode ocasiones:
H0 : La proporcion de soles y aguilas es 0.5Ha : La proporcion no es 0.5
76
![Page 77: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/77.jpg)
Soles AguilasObservado 553 447Esperado 500 500
77
![Page 78: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/78.jpg)
Calculemos el valor χ2 :
g =
((553− 500)2 + (447− 500)5
)500 ≈ 11.236
78
![Page 79: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/79.jpg)
Este valor−χ2 se compara al valor en una distribucion χ2
para un numero dado de grados de libertad y un nivel designificacion.
79
![Page 80: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/80.jpg)
La Distribucion χ2
Sean X1, X2, ..., Xν variables aleatorias independientesN(0, 1). Consideremos la variable aleatoria
χ2 = X21 + ...+X2
ν (8.2)
a la que llamaremos chi cuadrada. Su correspondientedistribucion de probabilidad recibe el mismo nombre.
80
![Page 81: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/81.jpg)
Propiedades de χ2
µ = ν, σ = 2ν (8.3)
81
![Page 82: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/82.jpg)
scipy.stats.chi2
from scipy.stats import chi2import numpy as npimport matplotlib.pyplot as pltfig, ax = plt.subplots(1, 1)
df = 55
x = np.linspace(chi2.ppf(0.01, df),chi2.ppf(0.99, df), 100)
ax.plot(x, chi2.pdf(x, df),’r-’,lw=5, alpha=0.6, label=’chi2 pdf’)
82
![Page 83: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/83.jpg)
Figura 8.1: Funcion de densidad de distribucion χ2 con ν = 55
83
![Page 84: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/84.jpg)
statsChi2.py
from scipy.stats import chi2import numpy as npimport seaborn as snsimport matplotlib.pyplot as plt
sns.set_palette("husl")fig, ax = plt.subplots(1, 1)
for df in range(2,15+1):x = np.linspace(chi2.ppf(0.01, df),
chi2.ppf(0.99, df), 100)ax.plot(x, chi2.pdf(x, df), label=’chi2 pdf’)
84
![Page 85: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/85.jpg)
85
![Page 86: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/86.jpg)
Regresando a nuestro ejemplo...
El numero de grados de libertad es el numero de categorıasmenos uno. En nuestro ejemplo ν = 2− 1 = 1. Supongamosun nivel de significacion β = 0.05.
86
![Page 87: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/87.jpg)
Figura 8.2: La hipotesis nula se rechaza porque el valor delestadıstico χ2 al nivel de significacion es menor que el valor delestadıstico.
87
![Page 88: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/88.jpg)
Otro ejemplo
Examinemos otros ejemplo donde queremos demostrar que elgenero de un estudiante y las materias que escoge sonindependientes.
88
![Page 89: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/89.jpg)
Otro ejemplo
Supongamos que un grupo de estudiantes, la siguiente tablarepresenta el numero de hombres y mujeres que tomanmatematicas, arte y comercio como sus materias principales.
89
![Page 90: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/90.jpg)
Otro ejemplo
Matematicas Artes Comercio TotalHombres 68 52 90 210Mujeres 28 37 35 100Total 96 89 125 310
90
![Page 91: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/91.jpg)
Si en la eleccion de las materias, no fuera relevante el genero,entonces el numero esperado de hombres y mujeres tomandodiferentes materias serıa
Matematicas Arte Comercio TotalNinosNinasTotal
91
![Page 92: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/92.jpg)
Las desviaciones se calculan usando la formula (O − E)2/E:
Matematicas Arte Comercio TotalNinosNinasTotal
El estadıstico χ2 se obtiene al sumar todos estos valores.
92
![Page 93: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/93.jpg)
Conclusiones (del profesor)
Como χ2 = 4.99 y el valor del estadıstico χ2 a un nivel sesignificacion es 11.07, la hipotesis nula se acepta.
De manera equivalente
valor-p = 1− Fχ2(4.99) = 0.416991040312 > β = 0.05,
obtenemos la misma conclusion:
La eleccion de materias es independiente del genero.
93
![Page 94: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/94.jpg)
Correlacion
94
![Page 95: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/95.jpg)
La correlacion es la premisa de la modelacion predictiva, en elsentido de que es un factor con base en el cual podemospredecir resultados.
95
![Page 96: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/96.jpg)
Una buena correlacion entre dos variables sugiere que existeuna suerte de dependencia entre ambas: Si una cambia, la otratambien lo hara.
Podemos decir que una buena correlacion asegura una relacionmatematica entre dos variables y debido a esto, seremoscapaces de predecir su comportamiento.
96
![Page 97: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/97.jpg)
La relacion puede ser de cualquier tipo. Si x y y son dosvariables correlacionadas, entonces podemos escribir:
Y = f(X)
97
![Page 98: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/98.jpg)
Ejemplos de correlacion
Correlacion lineal
y = ax+ b
Correlacion exponencial
y = beax
98
![Page 99: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/99.jpg)
Definicion de correlacion
En el caso discreto,
h =∑x,y ((x− x) (y − y))√∑
x,y (x− x)2∑x,y (y − y)2
[x], [y] son dos listas de datos con promedios x, yrespectivamente.
99
![Page 100: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/100.jpg)
Propiedades de la correlacion
El valor del coeficiente de correlacion esta entre −1 y 1,es decir −1 ≤ h ≤ 1.Una correlacion positiva significa una relacion directaentre las dos variables.Una correlacion negativa significa una relacion inversaentre las dos variables.Entre mayor sea la magnitud del coeficiente, mas fuertesera la relacion entre variables.
100
![Page 101: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/101.jpg)
¡Advertencia!
Aunque una correlacion fuerte sugiere algun tipo de relacionque puede ser utilizada para la prediccion del comportamientode una variable respecto de otra, esto no implica que dicharelacion sea el unico factor que explique dichocomportamiento.
101
![Page 102: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/102.jpg)
Observacion: ¡Correlacion no implica causalidad!
102
![Page 103: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/103.jpg)
Por ejemplo, existe una correlacion positiva muy fuerte entre elnumero de palabras que conoce un ser humano y el numero decalzado que utiliza... Pero esto esto se explica porque amedida que el ser humano crece, necesita zapatos mas grandesy aprende palabras nuevas.
¡No quiere decir que si utilizas un numero mas grandeseras mas culto!
103
![Page 104: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/104.jpg)
Tratemos de entender mejor este concepto mirando una basede datos y tratando de encontrar una correlacion entre susvariables. La base de datos que estaremos observando es unamuy popular sobre los costos varios incurridos en publicidadpor diferentes medios y ventas de un producto enparticular.
104
![Page 105: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/105.jpg)
Posteriormente, utilizaremos el metodo conocido comoregresion lineal para explorar estos mismo datos.Por ahora,importemos esta base de datos y calculemos los coeficientes decorrelacion:
105
![Page 106: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/106.jpg)
advertising.py
#!/usr/bin/env python3# -*- coding: utf-8 -*-
import pandas as pd
advert = pd.read_csv("./dataBases/Advertising.csv")print(advert.head())
import numpy as np
106
![Page 107: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/107.jpg)
advertising.py
advert["dX*dY"] = ( advert["TV"] -np.mean(advert["TV"])) * ( advert["Sales"]np.mean(advert["Sales"]))
advert["dX**2"] = ( advert["TV"] -np.mean(advert["TV"])) ** 2
advert["dY**2"] = ( advert["Sales"] -np.mean(advert["Sales"])) ** 2
sxy = advert.sum()["dX*dY"]sxx = advert.sum()["dX**2"]
107
![Page 108: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/108.jpg)
advertising.py
syy = advert.sum()["dY**2"]
r = sxy/np.sqrt(sxx*syy)
108
![Page 109: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/109.jpg)
runfile(’/home/jdk2py/[email protected]/2017-2_PE/PE_PYTHON/analisisPredictivo/advertising.py’,wdir=’/home/jdk2py/[email protected]/2017-2_PE/PE_PYTHON/analisisPredictivo’)
TV Radio Newspaper Sales0 230.1 37.8 69.2 22.11 44.5 39.3 45.1 10.42 17.2 45.9 69.3 9.33 151.5 41.3 58.5 18.54 180.8 10.8 58.4 12.9
109
![Page 110: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/110.jpg)
advertising2.py
#!/usr/bin/env python3# -*- coding: utf-8 -*-
import pandas as pd
advert = pd.read_csv("./dataBases/Advertising.csv")print(advert.head())
import numpy as np
110
![Page 111: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/111.jpg)
advertising2.py
def rCoef(df, var1, var2):df["dX*dY"] = (df[var1]-np.mean(df[var1]))*(df[var2]-np.mean(df[var2]))df["dX**2"] = (df[var1]-np.mean(df[var1]))**2df["dY**2"] = (df[var2]-np.mean(df[var2]))**2sxy = df.sum()["dX*dY"]sxx = df.sum()["dX**2"]syy = df.sum()["dY**2"]r = sxy/np.sqrt(sxx*syy)return r
111
![Page 112: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/112.jpg)
advertising2.py
tvVsSales = rCoef(advert, "TV", "Sales")## 0.782224424862radioVsSales = rCoef(advert, "Radio", "Sales")## 0.576222574571
112
![Page 113: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/113.jpg)
Figura 9.1: Matriz de correlacion
113
![Page 114: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/114.jpg)
Veamos la naturaleza de esta correlacion graficando lasvariables TV, Radio y Newspaper vs Sales del data frameadvert.
114
![Page 115: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/115.jpg)
tvVsSales.py
#!/usr/bin/env python3# -*- coding: utf-8 -*-
import pandas as pdadvert = pd.read_csv("./dataBases/Advertising.csv")
import matplotlib.pyplot as plt
plt.plot(advert[’TV’],advert[’Sales’],’ro’)
115
![Page 116: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/116.jpg)
tvVsSales.py
plt.title(’TV vs Sales’)plt.show()
plt.plot(advert[’Radio’],advert[’Sales’],’ro’)plt.title(’Radio vs Sales’)plt.show()
plt.plot(advert[’Newspaper’],advert[’Sales’],’ro’)plt.title(’Newspaper vs Sales’)plt.show()
116
![Page 117: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/117.jpg)
117
![Page 118: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/118.jpg)
118
![Page 119: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/119.jpg)
119
![Page 120: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/120.jpg)
Recursos
120
![Page 121: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/121.jpg)
analisisPredictivo
El repositorio con losscripts de Python 3 de esta presentacion los puede encontrar enhttps://github.com/julihocc/ulsaPye/tree/master/analisisPredictivo
121
![Page 122: Conceptos Estadísticos para la Modelación Predictiva](https://reader034.vdocuments.site/reader034/viewer/2022051404/5a6cf8e57f8b9aff418b486d/html5/thumbnails/122.jpg)
Referencias
Murray Spiegel John Schiller, R. Alu Srinivasan,Probability and statistics, 4 ed., Schaum’s Outlines,McGraw-Hill Education, 2012.Ashish Kumar, Learning predictive analytics withpython, Packt, 2016.
Murray R. Spiegel, Estadıstica - schaum 2da edicion,2nd edition ed., McGraw-Hill Interamericana, 1991.
122