proyecto de tesis final (1)

Upload: fernando

Post on 11-Feb-2018

223 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/23/2019 Proyecto de Tesis Final (1)

    1/55

    UNIVERSIDAD NACIONAL

    SANTIAGO ANTNEZ DE MAYOLO

    FACULTAD DE CIENCIAS

    ESCUELA PROFESIONAL DE ESTADSTICA E INFORMTICA

    Proyecto e te!"!#

    A$%"c&c"'( e D&t& M"("() & %o! re)"!tro! e% re& e E*er)e(c"& e% +o!$"t&%

    V,ctor R&*o! G-&r"& . +-&r&/0 $er"oo 122341256

    Pre!e(t&o $or#

    7&c89 EMERSON DAMIN NORA7UENA FIGUEROA

    A!e!or#

    M9Sc9 ED:IN ;O+NY ASNATE SALAZAR

    +UARAZ ANCAS+

    125 >? $?

  • 7/23/2019 Proyecto de Tesis Final (1)

    5/55

    ;atemticamente se representa como una implicacin de la forma 8 H, en donde 8 y H

    representan conjuntos de atributos con interseccin vac!a

    $8 I H J/, de tal forma que la re"la se presenta en un conjunto de transacciones : con una

    confianza del KL.

    ?n ejemplo de re"la de asociacin ser!aA @M5L de las transacciones que contienen niFos tambi#ncontienen paFales. En este caso el M5L es el nivel de confianza de la re"la.

    1919 P%&(te&*"e(to te'r"co &t"()e(te!

    19195 7ASES TERICAS DE DATA MINING

    5B MINERIA DE DATOS

    $+8:E2B= =eftaly, 455)/.

    a miner!a de datos es el proceso de detectar la informacin procesable de los conjuntos

    "randes de datos. ?tiliza el anlisis matemtico para deducir los patrones y tendencias que

    existen en los datos. =ormalmente, estos patrones no se pueden detectar mediante la

    exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque

    hay demasiado datos.

    Estos patrones y tendencias se pueden recopilar y definir como un modelo de miner!a de

    datos. os modelos de miner!a de datos se pueden aplicar en escenarios como los si"uientesA

    6 PronsticoA clculo de las ventas y prediccin de las car"as del servidor o del tiempo de

    inactividad del servidor.

  • 7/23/2019 Proyecto de Tesis Final (1)

    6/55

    6 2ies"o y probabilidadA eleccin de los mejores clientes para la distribucin de correo

    directo, determinacin del punto de equilibrio probable para los escenarios de ries"o, y

    asi"nacin de probabilidades a dia"nsticos y otros resultados.

    6 2ecomendacionesA determinacin de los productos que se pueden vender juntos y

    "eneracin de recomendaciones.6 Hsqueda de secuenciasA anlisis de los art!culos que los clientes han introducido en el

    carrito de la compra y prediccin de posibles eventos.

    6 8"rupacinA distribucin de clientes o eventos en "rupos de elementos relacionados, y

    anlisis y prediccin de afinidades.

    a "eneracin de un modelo de miner!a de datos forma parte de un proceso mayor que

    incluye desde la formulacin de pre"untas acerca de los datos y la creacin de un modelo

    para responderlas, hasta la implementacin del modelo en un entorno de trabajo. Este

    proceso se puede definir mediante las seis etapas bsicas si"uientesA

    &. :efinir el problema

    4. Preparar los datos

    7. Explorar los datos

    M. 3enerar modelos

    N. Explorar y validar los modelos

    ). *mplementar y actualizar los modelosEl si"uiente dia"rama describe las relaciones existentes entre cada paso del proceso y las

    tecnolo"!as

  • 7/23/2019 Proyecto de Tesis Final (1)

    7/55

    59 De>"("r e% $ro=%e*&

    a primera etapa del proceso de miner!a de datos, tal como se resalta en el si"uiente

    dia"rama, consiste en definir claramente el problema y considerar formas de usar los datos

    para proporcionar una respuesta para el mismo.

    Figura 2. Etapa de Definir el problema en el proceso de Data Mining

    Este paso incluye analizar los requisitos empresariales, definir el mbito del problema,

    definir las m#tricas por las que se evaluar el modelo y definir los objetivos concretos del

    proyecto de miner!a de datos. Estas tareas se traducen en pre"untas como las si"uientesA

    6 Ou# est buscandoQ Ou# tipos de relaciones intenta buscarQ

    6 O2efleja el problema que est intentando resolver las directivas o procesos de la empresaQ

    6 O:esea realizar predicciones a partir del modelo de miner!a de datos o solamente buscar

    asociaciones y patrones interesantesQ

    6 Ou# resultado o atributo desea predecirQ

    6 Ou# tipo de datos tiene y qu# tipo de informacin hay en cada columnaQ En caso de que

    haya varias tablas, Ocmo se relacionanQ O=ecesita limpiar, a"re"ar o procesar los datos

    antes de poder usarlosQ

    6 O+mo se distribuyen los datosQ Oos datos son estacionalesQ Oos datos representan conprecisin los procesos de la empresaQ

    Para responder a estas pre"untas, puede que deba diri"ir un estudio de disponibilidad de

    datos para investi"ar las necesidades de los usuarios de la empresa con respecto a los datos

    http://msdn.microsoft.com/es-es/library/ms174949.aspx#DefiningTheProblemhttp://msdn.microsoft.com/es-es/library/ms174949.aspx#DefiningTheProblem
  • 7/23/2019 Proyecto de Tesis Final (1)

    8/55

    disponibles.

  • 7/23/2019 Proyecto de Tesis Final (1)

    9/55

    ms en las ventasA la cantidad, el precio total o un precio con descuentoQ os datos

    incompletos, los datos incorrectos y las entradas que parecen independientes, pero que de

    hecho estn estrechamente correlacionadas, pueden influir en los resultados del modelo de

    maneras que no espera.

    Por consi"uiente, antes de empezar a "enerar los modelos de miner!a de datos, deber!a

    identificar estos problemas y determinar cmo los corre"ir. En la miner!a de datos, por lo

    "eneral se trabaja con un conjunto de datos de "ran tamaFo y no se puede examinar la

    calidad de los datos de cada transaccinR por tanto, es posible que necesite usar herramientas

    de "eneracin de perfiles de datos, y de limpieza y filtrado automtico de datos, como las

    que se proporcionan en *nte"ration

  • 7/23/2019 Proyecto de Tesis Final (1)

    10/55

    Figura !. Etapa de E"plorar los datos en el proceso de Data Mining

    :ebe conocer los datos para tomar las decisiones adecuadas al crear los modelos de miner!a

    de datos. Entre las t#cnicas de exploracin se incluyen calcular los valores m!nimos y

    mximos, calcular la media y las desviaciones estndar, y examinar la distribucin de los

    datos. Por ejemplo, al revisar el mximo, el m!nimo y los valores de la media se podr!a

    determinar que los datos no son representativos de los clientes o procesos de ne"ocio, y que

    por consi"uiente debe obtener ms datos equilibrados o revisar las suposiciones que son la

    base de sus expectativas. as desviaciones estndar y otros valores de distribucin pueden

    proporcionar informacin til sobre la estabilidad y exactitud de los resultados. ?nadesviacin estndar "rande puede indicar que a"re"ar ms datos podr!a ayudarle a mejorar el

    modelo. os datos que se desv!an mucho de una distribucin estndar se podr!an ses"ar o

    podr!an representar una ima"en precisa de un problema de la vida real, pero dificultar el

    ajustar un modelo a los datos.

    8l explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de

    datos contiene datos defectuosos y, a continuacin, puede inventar una estrate"ia para

    corre"ir los problemas u obtener una descripcin ms profunda de los comportamientos que

    son t!picos de su ne"ocio.

    Puede usar herramientas como ;aster :ata

  • 7/23/2019 Proyecto de Tesis Final (1)

    11/55

  • 7/23/2019 Proyecto de Tesis Final (1)

    12/55

    para extraer patrones. os patrones que encuentre en el proceso de entrenamiento dependern

    de la seleccin de los datos de entrenamiento, el al"oritmo que elija y cmo se haya

    confi"urado el al"oritmo.

    9 E$%or&r y V&%"&r %o! Moe%o!El quinto paso del proceso de miner!a de datos, como se resalta en el si"uiente dia"rama,

    consiste en explorar los modelos de miner!a de datos que ha "enerado y comprobar su

    eficacia.

    Figura %.Etapa de E"plorar y &alidar los Modelos en el proceso de Data Mining

    8ntes de implementar un modelo en un entorno de produccin, es aconsejable probar si

    funciona correctamente. 8dems, al "enerar un modelo, normalmente se crean varios con

    confi"uraciones diferentes y se prueban todos para ver cul ofrece los resultados mejores

    para su problema y sus datos.

    8nalysis

  • 7/23/2019 Proyecto de Tesis Final (1)

    13/55

    9 I*$%e*e(t&r y Act-&%"/&r %o! Moe%o!

    El ltimo paso del proceso de miner!a de datos, como se resalta en el si"uiente dia"rama,

    consiste en implementar los modelos que funcionan mejor en un entorno de produccin.

    Figura '.Etapa de (mplementar y actuali)ar los Modelos en el proceso de Data Mining

    ?na vez que los modelos de miner!a de datos se encuentran en el entorno de produccin,

    puede llevar acabo diferentes tareas, dependiendo de sus necesidades. as si"uientes sonal"unas de las tareas que puede realizarA

    6 ?se los modelos para crear predicciones que lue"o podr usar para tomar decisiones

    comerciales.

    6 +rear consultas de contenido para recuperar estad!sticas, re"las o frmulas del modelo. Para

    obtener ms informacin.

    6 *ncrustar la funcionalidad de miner!a de datos directamente en una aplicacin.

    6 ?tilizar *nte"ration

  • 7/23/2019 Proyecto de Tesis Final (1)

    14/55

    6 +rear un informe que permita a los usuarios realizar consultas directamente en un modelo

    de miner!a de datos existente.

    6 8ctualizar los modelos despu#s de la revisin y anlisis .

    6 8ctualizar dinmicamente los modelos, cuando entren ms datos en la or"anizacin, yrealizar modificaciones constantes para mejorar la efectividad de la solucin deber!a ser

    parte de la estrate"ia de implementacin.

    195B A%)or"t*o! e *"(er,& e &to!

    ?n al"oritmo de miner!a de datos es un conjunto de clculos y re"las heur!sticas que permite

    crear un modelo de miner!a de datos a partir de los datos. Para crear un modelo, el al"oritmo

    analiza primero los datos proporcionados, en busca de tipos espec!ficos de patrones o

    tendencias. El al"oritmo usa los resultados de este anlisis para definir los parmetros

    ptimos para la creacin del modelo de miner!a de datos. 8 continuacin, estos parmetros

    se aplican en todo el conjunto de datos para extraer patrones procesables y estad!sticas

    detalladas.

    El modelo de miner!a de datos que crea un al"oritmo a partir de los datos puede tomar

    diversas formas, incluyendoA

    6 ?n conjunto de clsteres que describe cmo se relacionan los casos de un conjunto de

    datos.

    6 ?n rbol de decisin que predice un resultado y que describe cmo afectan a este los

    distintos criterios.

    6 ?n modelo matemtico que predice las ventas.

    6 ?n conjunto de re"las que describen cmo se a"rupan los productos en una transaccin, ylas probabilidades de que dichos productos se adquieran juntos.

    a eleccin del mejor al"oritmo para una tarea anal!tica espec!fica puede ser un

    desaf!o. 8unque puede usar diferentes al"oritmos para realizar la misma tarea, cada uno de

    ellos "enera un resultado diferente, y al"unos pueden "enerar ms de un tipo de

  • 7/23/2019 Proyecto de Tesis Final (1)

    15/55

    resultado. Por ejemplo, puede usar el al"oritmo 0rboles de decisin de ;icrosoft no solo

    para la prediccin, sino tambi#n como una forma de reducir el nmero de columnas de un

    conjunto de datos, ya que el rbol de decisin puede identificar las columnas que no afectan

    al modelo de miner!a de datos final.

    191B E%e)"r -( &%)or"t*o $or t"$o

    8nalysis

  • 7/23/2019 Proyecto de Tesis Final (1)

    16/55

    a estructura de miner!a de datos define los datos a partir de los cuales se "eneran los

    modelos de miner!a de datosA especifica la vista de datos de ori"en, el nmero y el tipo de

    columnas, y una particin opcional en conjuntos de entrenamiento y de pruebas. ?na misma

    estructura de miner!a de datos puede admitir varios modelos de miner!a de datos que

    comparten el mismo dominio. En el dia"rama si"uiente, se muestra la relacin de laestructura de miner!a de datos con el ori"en de datos y con los modelos de miner!a de datos

    que la componen.

    Figura *.Estructura de Data Mining

    a estructura de miner!a de datos del dia"rama est basada en un ori"en de datos que

    contiene varias tablas o vistas, combinadas en el campo +ustomer*:.

    ?na tabla contiene informacin sobre los clientes, como la re"in "eo"rfica, la edad, los

    in"resos y el sexo, mientras que la tabla anidada relacionada contiene varias filas de

    informacin adicional sobre cada cliente, como los productos que ha adquirido.

    En el dia"rama, se muestra que se pueden "enerar varios modelos de miner!a de datos a

    partir de una misma estructura de miner!a de datos, y que los modelos pueden usar columnas

    de la estructura diferentes.

    ;odelo &A usa +ustomer*:, *ncome, 8"e, 2e"ion y filtra los datos de 2e"ion.

  • 7/23/2019 Proyecto de Tesis Final (1)

    17/55

    ;odelo 4A usa +ustomer*:, *ncome, 8"e, 2e"ion y filtra los datos de 8"e.

    ;odelo 7A usa +ustomer*:, 8"e, 3ender y la tabla anidada, sin filtros.

    :ado que los modelos usan columnas diferentes para la entrada, y dado que dos de los

    modelos, adems, restrin"en sus datos mediante la aplicacin de un filtro, los modelospueden tener resultados muy diferentes aunque est#n basados en los mismos datos. Bbserve

    que la columna +ustomer*: es obli"atoria en todos los modelos porque es la nica columna

    disponible que se puede usar como clave de caso.

    En esta seccin se explica la arquitectura bsica de las estructuras de miner!a de datosA cmo

    se define una estructura de miner!a de datos, cmo se rellena con datos y cmo se usa para

    crear modelos.

    19

  • 7/23/2019 Proyecto de Tesis Final (1)

    18/55

    Figura 1+.asos ,ue componen al proceso de e"tracci-n de conocimientos en bases de datos //D0.

    8s!, los pasos que componen al proceso D:: son cincoA seleccin del objetivo, preproceso

    de datos, transformacin, minado de datos e interpretacin de los resultados.

    a seleccin del objetivo tiene como finalidad estudiar el problema y decidir cul es la meta

    del proyecto. ?na vez definido el problema, se identifican las fuentes de datos internas o

    externas y se selecciona el subconjunto de datos necesarios para la aplicacin de un

    al"oritmo de miner!a de datos.

    El preproceso de datos consiste en estudiar los datos seleccionados para entender el

    si"nificado de los atributos y para detectar errores de inte"racin, por ejemplo, datos

    repetidos con distinto nombre o datos que si"nifican lo mismo en diferente formato.

    ?na vez que se tienen los datos preprocesados, se procede a la transformacin final de los

    mismos, esto con el fin de que se ajusten al formato de entrada del al"oritmo seleccionado.

    El si"uiente paso es el minado de datos propiamente dicho. 8qu! se aplican los diferentes

    al"oritmos de anlisis a los datos ya transformados. a finalidad en esta etapa es encontrarpatrones tiles e interesantes en los datos.

    Por ltimo, se procede a interpretar y evaluar los resultados obtenidos en la etapa de minado

    de datos. 8qu!, el usuario debe valorar los resultados conse"uidos y, de ser necesario, aplicar

    una y otra vez los al"oritmos de :ata ;inin" hasta encontrar informacin til y valiosa. Esto

  • 7/23/2019 Proyecto de Tesis Final (1)

    19/55

    ltimo hace que el proceso D:: sea un proceso iterativo y de bsqueda continua, en donde

    el conocimiento y la intuicin del usuario jue"an un papel fundamental en el proceso.

    19B Tc("c&! e M"(er,& e D&to!

    +(E=,;.u,$&'')/ @:ata ;inin"A 8n Bvervie- from :atabase Perspective. *EEECransactions on Dno-led"e and :ata En"ineerin".En los ltimos aFos han existido muchos

    avances en las investi"aciones y desarrollos relacionados con la miner!a de datos, como

    resultado, se han desarrollado diversas t#cnicas y sistemas relativos al data minin".

    :iferentes esquemas de clasificacin pueden ser usados para cate"orizar m#todos y sistemas

    de minado de datos, como el tipo de base de datos a estudiar $relacional, orientada a objetos,

    multimedia, etc./, el tipo de conocimiento que se quiere extraer $re"las de asociacin, re"las

    de clasificacin, clusterin", etc./, as! como las t#cnicas que sern aplicadas en el proceso

    $basadas en patrones, teor!a estad!stica, teor!a matemtica, enfoques inte"radores, etc./.

    En la prctica, los m#todos de data minin" ms utilizados caen dentro de la cate"or!a de Utipo

    de conocimiento a extraerV. as t#cnicas de minado de datos pertenecientes a esta cate"or!a

    buscan hacer prediccin yWo descripcin de un fenmeno determinado.

    a prediccin implica utilizar al"unas variables o campos de una base de datos para predecir

    valores desconocidos o futuros de otras variables de inter#s, mientras que la descripcin estenfocada a encontrar patrones humano6interpretables que describen los datos. 8unque las

    fronteras entre la prediccin y la descripcin no sean muy marcadas $parte de los modelos

    predictivos pueden ser descriptivos, al "rado de que estos sean entendibles, y viceversa/, la

    distincin es til para entender la meta "eneral de la extraccin de conocimiento. a

    importancia relativa de la prediccin y la descripcin para aplicaciones particulares de

    minando datos puede variar considerablemente. as metas de la prediccin y la descripcin

    se pueden lo"rar utilizando una variedad de m#todos particulares de data minin".

    > las t#cnicas de miner!a de datos sonA

    6 8rboles de :ecisin.

    6 2e"resin ineal

    6 =aTve Hayes.

    6 8nlisis +lster.

  • 7/23/2019 Proyecto de Tesis Final (1)

    20/55

    6 2e"la de asociacin.

    6

  • 7/23/2019 Proyecto de Tesis Final (1)

    21/55

    a prediccin puede ser vista como la construccin y uso de modelos para evaluar las clases

    de una muestra sin clasificaciones, o para evaluar el valor, o ran"o de valores, que un

    atributo deber!a de tener para una muestra determinada.X5 En el primer caso se dice que se

    est haciendo una clasificacin de los datos, mientras que en el se"undo, se dice que se esthaciendo una prediccin valores, en otras palabras, la clasificacin se refiere a poder predecir

    valores discretos o nominales, mientras que la prediccin, propiamente dicha, se refiere al

    pronstico de valores continuos.

    193B C%-!ter"()

    El +lusterin" identifica "rupos de datos para evaluar las diferencias y similitudes entre los

    re"istros. a similitud puede medirse mediante funciones de distancia especificadas por los

    usuarios o por expertos.

    Figura 11.lster (dentificaci-n de grupos

    +uando se utiliza la t#cnica de clusterin", se obtiene un dia"rama en el cual se muestra como

    los datos caen dentro de distintos "rupos $clusters/. En el caso ms simple, se asocia a cada

    dato un clster, dibujando los datos o instancias en un dia"rama de dos dimensiones $ayyad,?., PiatetsSy6

  • 7/23/2019 Proyecto de Tesis Final (1)

    22/55

    El 8nlisis +lster tiene una importante tradicin de aplicacin en muchas reas de

    investi"acin.

  • 7/23/2019 Proyecto de Tesis Final (1)

    23/55

    qu!micas y pticas del vino que producenQ

    19395B A(%"!"!Co()%o*er&o!C%-!ter!B

    Es un procedimiento estad!stico que parte de un conjunto de datos que contiene

    informacin sobre una muestra de entidades e intenta reor"anizarlas en "rupos

    relativamente homo"#neos a los que se llama con"lomerados $clusters/.

    Et&$&!e%A(%"!"!eCo()%o*er&o!C%-!ter!B

    8/ Eleccin de las variables

    H/ Eleccin de la medida de asociacin

    +/ Eleccin de la t#cnica +luster

    :/ 1alidacin de los resultados

    ABE%ecc"'( e %&! @&r"&=%e!

    :ependiendo del problema las variables pueden serA

    A(%"!"! Co()%o*er&o! $or V&r"&=%e! o $or I("@"-o!6

  • 7/23/2019 Proyecto de Tesis Final (1)

    24/55

    ?na funcin dA?x? [ 2 se llama distancia m#trica s! x,y,z? se verificaA

    K S"*"%&r"&

    ?na funcin sA?x? [ 2 se llama similaridad s! x,y,z? se verificaA

    K S"*"%&r"& Mtr"c&?na funcin sA?x? [ 2 se llama similaridad m#trica s! x,y,z? se verificaA

    =BC8A :ependiendo del Cipo del anlisis$por variables o por individuos/, que se realiza

    existen distintas medias de asociacin aunque, t#cnicamente pueden utilizarse en amboscasos.

    Me"&! e A!oc"&c"'( $&r& V&r"&=%e!6 +oseno del n"ulo de dos vectores $invarianza, salvo si"no, frente a homotecias6 +oeficiente de correlacin $invarianza frente a traslaciones y salvo si"no frente a homotecia

    s4 ;edidas para datos dicotmicos

    Me"& e Oc8"&"#

    Me"& #

  • 7/23/2019 Proyecto de Tesis Final (1)

    25/55

    Me"& e R-!!e%% y R&oA

    Me"& e P&re?&! !"*$%e!#

    Me"& e ;&cc&r#

    Me"& e D"ce#

    Me"& e Ro)er!T&("*oto#

    Me"&! e A!oc"&c"'( $&r& I("@"-o!

    D"!t&(c"& E-c%,e

    D"!t&(c"& e M"(o!"#

    donde q \ &

    D"!t&(c"& 5 o c"-& C"ty 7%ocB#

    D"!t&(c"& e Tc8e=yc8e@ o e% *"*o J B#

    D"!t&(c"& e M&8&%&(o="!#

    D"!t&(c"& x2

    #

    CBE%ecc"'( e %& tc("c& C%-!ter

    Mtoo! ;errJ-"co!

  • 7/23/2019 Proyecto de Tesis Final (1)

    26/55

    Es de a"rupar cluster para formar uno nuevo o separar al"uno ya existente para dar ori"en a otros dos

    de forma que se maximice una medida de similaridad o se minimice al"una distancia.

    C%&!">"c&c"'(#6 8sociativos o 8"lomerativosA

  • 7/23/2019 Proyecto de Tesis Final (1)

    27/55

    D"!t&(c"& e(tre Co()%o*er&o!

    as distancias entre los con"lomerados son funciones de las distancias entre observaciones,

    hay varias formas de definirlasA

    4

  • 7/23/2019 Proyecto de Tesis Final (1)

    28/55

    A%)or"t*o! $&r& e% &(%"!"! e C%!ter

    Existen diversas formas de medir la distancia entre clusters que producen diferentes

    a"rupaciones y diferentes dendo"ramas. =o existe un criterio para seleccionar cual de los

    al"oritmos es mejor. a decisin es normalmente subjetiva y depende del m#todo que mejor

    refleje los propsitos de cada estudio particular.

    En primero lu"ar, se comienza con una exposicin "eneral de los m#todos para continuar con

    expresiones particulares de los mismosA

    K

  • 7/23/2019 Proyecto de Tesis Final (1)

    29/55

    donde nC , nA , nB denotan el nmero de objetos en cada uno de los "rupos y ^

    es un valor arbitrario 5 _ ^ _ &

    Proce"*"e(to $&r& e% A(%"!"! e C%!ter o Co()%o*er&o!

  • 7/23/2019 Proyecto de Tesis Final (1)

    30/55

    %*CCE=,* y 28=D,E$4555/. @:ata ;inin"A Practical machine learnin" tools and techniques

    -ith java implementations. 8l"unos al"oritmos de clusterin" permiten a una instancia

    pertenecer a uno a ms clster, como resultado, el dia"rama en dos dimensiones muestra cmo

    se traslapan los subconjuntos de datos $como un :ia"rama de 1enn/. Btros al"oritmos asocian

    instancias a clster de manera probabil!stica, as! para cada instancia, existe una probabilidad

    asociada o un @"rado de pertenencia con el cual se asi"na a un determinado cluster.

  • 7/23/2019 Proyecto de Tesis Final (1)

    31/55

    8l"unos ejemplos de la aplicacin de las t#cnicas de clusterin", en el contexto de la extraccin

    del conocimiento, incluyen la identificacin de sub"rupos homo"#neos de clientes en bases de

    datos de marSetin", as! como la identificacin de subcate"or!as de medidas del espectro

    infrarrojo del cielo.

    Para clasificar una instancia @desconocida, se si"ue el flujo del rbol hacia abajo, de acuerdo

    a los valores que ten"an los atributos para cada nodo, y cuando se lle"a a un @nodo hoja, la

    instancia se clasifica de acuerdo a la clase asi"nada por dicho nodo.

    Existen diversos m#todos para la induccin de rboles de decisin $*:7, +M, +M.N, Hayesiano,

    +82C, etc./, cada uno de ellos ofrece diferentes capacidades, pero en "eneral, dichos

    al"oritmos son apropiados para solucionar Uproblemas de clasificacinV. Estos problemas

    presentan las si"uientes caracter!sticasA

    El objeto de estudio del problema est representado por un conjunto fijo de atributos.

    a funcin objetivo del problema tiene valores discretos.

    os atributos son descritos mediante conceptos disyuntivos.

    Puede haber errores en los datos de entrenamiento, tanto en la clasificacin como en los

    valores de los atributos.

    os datos de entrenamiento, con los cuales se construye el modelo, pueden tener valores

    desconocidos para al"unos atributos.

    Es importante seFalar que los rboles de decisin presentan una "ran ventaja respecto a otras

    t#cnicas de clasificacin. Esta ventaja consiste en poder representar al conocimiento obtenido

    mediante el uso de re"las de decisin.

    19B L& *"(er,& e &to! y e% A%*&c( e D&to!

    1995BDATA:ARE+OUSE

    recuentemente los datos que sern minados se extraen del :ata-arehouse de una empresa.

    Existe un beneficio real si los datos son parte ya de un :ata-arehouse esto es porque el

    proceso de depuracin de datos para un :ata-arehouse y para la miner!a de datos son

    similares.

  • 7/23/2019 Proyecto de Tesis Final (1)

    32/55

    El :ata%arehouse es el centro de la arquitectura para los sistemas de informacin en la

    d#cada de los Z'5.

  • 7/23/2019 Proyecto de Tesis Final (1)

    33/55

    as principales reas de los temas influyen en la parte ms importante de la estructura clave.

    as aplicaciones estn relacionadas con el diseFo de la base de datos y del proceso. En

    :ata%arehouse se enfoca el modelamiento de datos y el diseFo de la base de datos. El diseFo

    del proceso no es separado de este ambiente.

    as diferencias entre la orientacin de procesos y funciones de las aplicaciones y la

    orientacin a temas, radican en el contenido de la :ata a nivel detallado. En el

    :ata%arehouse se excluye la informacin que no ser usada por el proceso de sistemas de

    soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones,

    contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que

    pueden ser usados o no por el analista de soporte de decisiones.

    I(te)r&o

    El aspecto ms importante del ambiente :ata%arehouse es que la informacin encontrada al

    interior est siempre inte"rada. a inte"racin de datos se muestra de muchas manerasA en

    convenciones de nombres consistentes, en la medida uniforme de variables, en la

    codificacin de estructuras consistentes, en atributos f!sicos de los datos consistentes, fuentes

    mltiples y otros.

    8 trav#s de los aFos, los diseFadores de las diferentes aplicaciones han tomado sus propias

    decisiones sobre cmo se deber!a construir una aplicacin.

  • 7/23/2019 Proyecto de Tesis Final (1)

    34/55

    +omo la informacin en el :ata%arehouse es solicitada en cualquier momento los datos

    encontrados en el depsito se llaman de `tiempo variante`. os datos histricos son de poco

    uso en el procesamiento operacional. a informacin del depsito por el contraste, debe

    incluir los datos histricos para usarse en la identificacin y evaluacin de tendencias.

    No @o%t"%

    a informacin es til slo cuando es estable. os datos operacionales cambian sobre una

    base momento a momento. a perspectiva ms "rande, esencial para el anlisis y la toma de

    decisiones, requiere una base de datos estable.

    En la si"uiente i"ura $i"ura &5/ se muestra que la actualizacin es decir el proceso de

    insertar, borrar y modificar, se hace re"ularmente en el ambiente operacional sobre una base

    de re"istro por re"istro. Pero la manipulacin bsica de los datos que ocurre en el

    :ata%arehouse es mucho ms simple. (ay dos nicos tipos de operacionesA la car"a inicial

    de datos y el acceso a los mismos. =o hay actualizacin de datos en el depsito, como una

    parte normal de procesamiento.

    Figura 12.Diferencia entre un Sistema 894 y un Sistema 89:.

    E!c&%&=%e

  • 7/23/2019 Proyecto de Tesis Final (1)

    35/55

    +uando la or"anizacin est lista para implementar una solucin de :ata%arehouse, la

    solucin necesita acomodarse al incremento dramtico de la demanda de los datos. +omo las

    instituciones crecen en otras reas, la solucin de :ata%arehouse necesita localizar los

    nuevos or!"enes de datos y debe variar en su tamaFo de acuerdo a las necesidades.

  • 7/23/2019 Proyecto de Tesis Final (1)

    36/55

    19191 Tr*"(o! U!&o! e( S&%-

    5B E$"e*"o%o),&

    a epidemiolo"!a es, en la aceptacin ms comn, el @estudio de las epidemias es decir, de

    las @enfermedades que afectan transitoriamente a muchas personas en un sitio determinado.

  • 7/23/2019 Proyecto de Tesis Final (1)

    37/55

    poblacin es humana con la peculiaridad y las derivadas dadas por su aplicacin a conjunto de

    seres humanos y enfermedades o fenmenos relacionados con la salud.

    a prevalencia se define como el nmero de casos de una enfermedad o evento en una

    poblacin en un momento dado. Existen dos tipos de prevalenciaA prevalencia puntual yprevalencia de periodo.

    695B Pre@&%e(c"& $-(t-&% o "(!t&(t(e&

    :enominada tambi#n tasa de prevalencia, proporcin de prevalencia o casos prevalentes.

  • 7/23/2019 Proyecto de Tesis Final (1)

    38/55

    6 Co!to#tienen costo para los servicios de salud y la sociedad en su conjunto.6 V")"%&(c"& I(ter(&c"o(&%#estn sujetas a re"lamentos sanitarios internacionales.

    a notificacin debe realizarse en forma inmediata "eneral, en dependencia del potencial

    epid#mico de las enfermedades y las condiciones de control que requieran.

    "c&c"'( !e*&(&%

  • 7/23/2019 Proyecto de Tesis Final (1)

    39/55

    Entre ellas se encuentran C#tanos neonatal, hepatitis viral, parotiditis, lcera "enital, flujo

    uretral, 1*(W"c&c"'(

    =o existe un sistema nacional de salud al subsector pblico, re"istros sociales y

    or"anizaciones no "ubernamentales, se constituyen en fuentes fundamentales de notificacin,

    los mismos estn or"anizados en espacios "eo"rficos de acuerdo a capacidad resolutiva las

    2edes de er*e&e! 52CIE 52BH95B De>"("c"'(

    a clasificacin de enfermedades se le conoce como un sistema de cate"or!as a las

    cuales se les asi"nan morbosas de acuerdo con criterios establecidos.

    H91B Pro$'!"to

    Permitir el re"istro sistemtico e anlisis, la interpretacin, comparacin de datos de

    mortalidad y morbilidad recolectados en diferentes pa!ses o reas y en diferentes #pocas.

    H96B Ut"%"&

    +onvertir los t#rminos dia"nsticos de datos problemticos de salud, de palabras a

    cdi"os alfanum#ricos que permiten su fcil almacenamiento y posterior recuperacin para

    el anlisis de la informacin. En la prctica se ha convertido en una clasificacin

    dia"nstica estndar mencionada para todos los propsitos epidemiol"icos "enerales y

    muchos otros de administracin de salud.

    El +*E, no es adecuada para inda"ar entidades t#cnicas individuales y es adecuada paraclasificar enfermedades y otros tipos de problemas de salud, consi"nados en distintos tipos

    de re"istros vitales y de salud.

    H9

  • 7/23/2019 Proyecto de Tesis Final (1)

    40/55

    a +*E es un sistema de clasificacin de ejes variables cuyo esquema debe servir a todos

    los propsitos prcticos y epidemiol"icos. Este patrn puede ser identificado en los

    cap!tulos de la +*E y hasta el momento es considerado como la estructura ms til que

    cualquiera de las alternativas que se han probado.

    a +*E fue publicada por laBr"anizacin ;undial de la

  • 7/23/2019 Proyecto de Tesis Final (1)

    41/55

    -digo de grupo de enfermedades segn lasificaci-n Estadstica (nternacional de

    Enfermedades Relacionados con la Salud.

    F-e(te#Estructura bsica de la +*E &5

    B D"&)('!t"co M"co

    Eldia"nsticooproped#uticacl!nica es el procedimiento por el cual se identifica

    unaenfermedad, entidad nosol"ica,s!ndrome,o cualquier condicin de salud6enfermedad $el

    `estado de salud` tambi#n se dia"nostica/.

    CDIGO TTULO

    8556H'' +iertas enfermedades infecciosas y parasitarias

    +556:M =eoplasias

    :N56:' Enfermedades de la san"re y de los r"anos hematopoy#ticos y otrostrastornos que afectan el mecanismo de la inmunidad

    E556E'5 Enfermedades endocrinas, nutricionales y metablicas556'' Crastornos mentales y del comportamiento35563'' Enfermedades del sistema nervioso(556(N' Enfermedades del ojo y sus anexos()56('N Enfermedades del o!do y de la apfisis mastoides*556*'' Enfermedades del sistema circulatorioG556G'' Enfermedades del sistema respiratorioD556D'7 Enfermedades del aparato di"estivo556'' Enfermedades de la piel y el tejido subcutneo;556;'' Enfermedades del sistema osteomuscular y del tejido conectivo

    =556='' Enfermedades del aparato "enitourinarioB556B'' Embarazo, parto y puerperioP556P') +iertas afecciones ori"inadas en el periodo perinatal

    556'';alformaciones con"#nitas, deformidades y anomal!as

    cromosmicas

    25562''

    clasificados en otra parte

  • 7/23/2019 Proyecto de Tesis Final (1)

    42/55

    En t#rminos de la prctica m#dica, el dia"nstico es unjuicio cl!nicosobre el estado psicof!sico

    de una personaR representa una manifestacin en respuesta a una demanda para determinar tal

    estado.

    :ia"nosticar es dar nombre al sufrimiento del pacienteR es asi"nar una `etiqueta`.

    95B Proce!o "&)('!t"co

    El dia"nsticocl!nicorequiere tener en cuenta los dos aspectos de la l"ica, es decir, el

    anlisis y la s!ntesis, utilizando diversas herramientas como la anamnesis, la historia

    cl!nica, exploracin f!sicayexploraciones complementarias.

    El dia"nstico m#dico establece a partir de s!ntomas, si"nos y los hallaz"os de

    exploraciones complementarias, qu# enfermedad padece una persona. 3eneralmente una

    enfermedad no est relacionada de una forma biun!voca con un s!ntoma, es decir, un

    s!ntoma no es exclusivo de una enfermedad. +ada s!ntoma o hallaz"o en una exploracin

    presenta una probabilidad de aparicin en cada enfermedad.

    Elteore*& e 7&ye!ayuda al dia"nstico de una enfermedad a partir de los s!ntomas y

    otros hallaz"os que presenta el paciente si las enfermedades son mutuamente excluyentes,

    se conoce sus prevalencias y la frecuencia de aparicin de cada s!ntoma en cada

    enfermedad.

  • 7/23/2019 Proyecto de Tesis Final (1)

    43/55

    4 S")(o!#

  • 7/23/2019 Proyecto de Tesis Final (1)

    44/55

    3astroscopia

    +olposcopia

    Coracoscopia

    arin"oscopia

    Hiopsia.

    9ere(c"&%#

    +onocimiento al que se arriba despu#s de la evaluacin cr!tica comparativa de sus

    manifestaciones ms comunes con las de otras enfermedades.

    9

  • 7/23/2019 Proyecto de Tesis Final (1)

    45/55

    :eterminar si el sujeto est o no enfermo. Pueden plantearse problemas de

    enjuiciamiento, pues hay que contar con una posible simulacin y con las neurosis e

    histerias, que constituyen verdaderas enfermedades.

    9

  • 7/23/2019 Proyecto de Tesis Final (1)

    46/55

    Ciene por objeto identificar la enfermedad mediante los s!ntomas. 3eneralmente

    un s!ntoma aislado no da una indicacin precisa de la enfermedad, puesto que puede ser

    propio de muchas de ellas.

    9B Pro=%e*&! e% D"&)('!t"co

    6 :ia"nstico tard!o

    6 :ia"nstico ausente

    6 :ia"nstico "en#rico

    6 :ia"nstico inexacto

    6 :ia"nstico de moda

    6

  • 7/23/2019 Proyecto de Tesis Final (1)

    47/55

    4 Se)-r"Es la certeza de que un test predecir la presencia o ausencia de enfermedad

    en un paciente. a se"uridad viene determinada por el valor predictivo de un resultado

    positivo o ne"ativo, es decir, la probabilidad de que siendo un test positivo el paciente est#

    realmente enfermo.

    9HB V&%"e/ e -(& $r-e=& "&)('!t"c&

    El caso ms sencillo es el de una prueba dicotmica, la cual clasifica a cada paciente

    como sano o enfermo, en funcin de que el resultado de la prueba sea positivo o ne"ativo.

    :e este modo, un resultado positivo se corresponde normalmente con la presencia de la

    enfermedad estudiada y un resultado ne"ativo con la ausencia de la misma. En "eneral se

    suele trabajar con una poblacin hetero"#nea de pacientes, de manera que los datos

    obtenidos permiten clasificarlos en cuatro "rupos, los cuales suelen representarse en una

    tabla 4Y4.En ella, se enfrenta el resultado de la prueba dia"nstica $en filas/ con el estado

    real de los pacientes $en columnas/ o, en su defecto, el resultado de la prueba de referencia o

    @"old standard que vayamos a utilizar. El resultado de la prueba puede ser positivo o

    ne"ativo, pero estos pueden ser correctos o incorrectos, dando lu"ar a cuatro tipos de

    resultadosA verdaderos positivos, verdaderos ne"ativos, falsos positivos y falsos ne"ativos.

    &alide) de una prueba diagn-stica.

    Re!-%t&o e %& $r-e=& E(>er*o S&(o

    Po!"t"@o 1erdaderos positivos $1P/ alsos positivos $P/

    Ne)&t"@o alsos ne"ativos $=/ 1erdaderos ne"ativos $1=/

    F-e(te#httpAWWes.-iSipedia.or"W-iSiW:ia"nL+7LH7sticomL+7L8'dicoCiposdedia"n.+7.H7stico

    93B V&%"e/ e -(& $r-e=& "&)('!t"c&

    http://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3sticohttp://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3sticohttp://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3stico
  • 7/23/2019 Proyecto de Tesis Final (1)

    48/55

    o que determina la validez del test utilizado va a ser el clculo de los valores de

    sensibilidad y especificidad.

    4 Se(!"="%"indica la probabilidad de que un paciente est# realmente enfermo siendo el

    resultado del test positivo. Por tanto, es la capacidad de un test para detectar realmente la

    presencia de enfermedad. a sensibilidad puede estimarse como la proporcin de pacientes

    enfermos que obtuvieron un resultado positivo en la prueba dia"nstica, es decir, la

    proporcin de verdaderos positivos, o de enfermos dia"nosticados, respecto del total de

    enfermos en la poblacin de estudio. ue"oA

    Se(!"="%"& VPBVPFNB

    EspecificidadA es la probabilidad de que un paciente est# realmente sano tras obtener un

    resultado del test ne"ativo. Es la capacidad de un test para detectar la ausencia de

    enfermedad. 8s!, la especificidad puede estimarse como la proporcin de pacientes sanos

    que obtuvieron un resultado ne"ativo en la prueba dia"nstica, es decir, la proporcin de

    verdaderos ne"ativos, o de sanos reconocidos como tal, respecto del total de sanos en la

    poblacin. :e este modoA

    E!$ec">"c"& VNBVNFPB

    o ideal es trabajar con pruebas dia"nsticas de alta sensibilidad y especificidad, superando

    el 5L como m!nimo en ambos casos. =o obstante, esto no siempre es posible. En "eneral,

    una prueba muy sensible ser especialmente adecuada en aquellos casos en los que el no

    dia"nosticar la enfermedad puede resultar fatal para los enfermos, o en enfermedades en las

    que un falso positivo no produzca serios trastornos psicol"icos o econmicos para el

    paciente. En cambio, los test con una alta especificidad son necesarios en enfermedades

    "raves pero sin tratamiento disponible que las ha"a curables, cuando exista "ran inter#s por

    conocer la ausencia de enfermedad o cuando dia"nosticar a un paciente de una enfermedad,siendo falso positivo, pueda acarrear "raves consecuencias, ya sean f!sicas, psicol"icas o

    econmicas.

    9B E>"c&c"& e -(& $r-e=& "&)('!t"c&

  • 7/23/2019 Proyecto de Tesis Final (1)

    49/55

    Canto la sensibilidad como la especificidad proporcionan informacin acerca de la

    probabilidad de obtener un resultado concreto $positivo o ne"ativo/ en funcin de la

    verdadera condicin del paciente con respecto a la enfermedad.

  • 7/23/2019 Proyecto de Tesis Final (1)

    50/55

    o curva 2B+. a curva 2B+ es una representacin que compara la sensibilidad de la prueba

    con el parmetro $&6Especificidad/ suponiendo as! una medida "lobal e independiente de

    cualquier punto de corte establecido. El parmetro indicador ms utilizado es el `rea bajo

    la curva` $8?+/.

  • 7/23/2019 Proyecto de Tesis Final (1)

    51/55

  • 7/23/2019 Proyecto de Tesis Final (1)

    52/55

  • 7/23/2019 Proyecto de Tesis Final (1)

    53/55

    9 ADMINISTRACIN DE PLAN DE INVESTIGACIN

    95 Cro(o)r&*&

    8+C*1*:8:E< 45&ME ; 8 ; G

  • 7/23/2019 Proyecto de Tesis Final (1)

    54/55

    RECURSOSUNIDA

    D

    PRECIO PRECIOUNITARIO

    S9TOTAL S9

    #.3.11.!1. Recursos ;umanos 6 8utor & 6 6

    6 :i"itador & 55.55 55.55SU7 TOTAL 4 322922#.3.11.3+. Recursos materiales 6 :e oficinaPapel 8M 5" N555 5.5N 4N5.55

    apiceros &5 &.55 &5.55 +d ) 4.55 &4.556 ;aterial de impresin+opias &555 5.&5 &55.55

    *mpresiones 4555 5.&5 455.55

    8nillado &5 N.55 N5.55SU7 TOTAL 11922#.3.11.2+. Servicios *nternet N55.55

    8lquiler de +omputador 4N5.55

    SU7 TOTAL H2922IMPREVISTOS 622922TOTAL 10

  • 7/23/2019 Proyecto de Tesis Final (1)

    55/55

    X. ;.1. 3uzmn, (. +arrillo, E. 1illaseFor, E. 1alencia, 2. +alero,. E. ;orn y 8. 8costa.

    $455M/. C#cnicas de ;iner!a de datosA 8plicacin en 1acunas 9 Cuberculosis. *nstituto

    inlay. +entro de *nvesti"acin6:esarrollo y Produccin de 1acunas y . ;iner!a de datos ?na herramienta para la toma de

    decisiones. 3uatemala 455). ') p"inas. acultad de *n"enier!a de la ?niversidad de