capitulo 27 (xml: lenguaje de mercado extendible) y capítulo 28 (conceptos de mineria de datos)

30
Universidad Central del Ecuador FACULTAD DE CIENCIAS ECONÒMICAS CAPITULO 27: LENGUAJE DE MARCADO EXTENSIBLE CAPITULO 28 CONCEPTOS MINERIA DE DATOS CARRERA DE FINANZAS NOMBRE: JAVIER SAMUEZA AULA: 39 Javier Samueza

Upload: liz-ocampo

Post on 19-Jan-2017

308 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

Universidad Central del Ecuador

FACULTAD DE CIENCIAS ECONÒMICAS

CAPITULO 27:LENGUAJE DE MARCADO EXTENSIBLE

CAPITULO 28CONCEPTOS MINERIA DE DATOS CARRERA DE FINANZAS

NOMBRE: JAVIER SAMUEZA AULA: 39

Page 2: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

lenguaje de mercado extensible

se ha elejido como el lenguaje estandar para estructurar e intercambiar datospor la web y se utiliza para proporcionar in formacion adicional de la estrustura y siginificadao deciertos componentes XLS( Lenguaje de estilo libre) ;XML( Posible modelo de almacenamiento y recuperacion de datos se utiizan 2 elementos principales : Elementos y atributos y cabe

mencionar que en base de datos no se utilizan la misma terminologia que en XLS

Una continuacion del nombre del elemento significa que el

elemento puede repetirse varias veces

PCDATA se refiere a datos disponibles en XML DTD)

Simbolo e1 y e2 especifica que el documento puede aparecer en e1

o e2

XML DTD es bastante para epecificar estructuras de arbol

con elementos obligatorios opcionale y repetitivos estan destinados a seguir un orden especificado en el documento

XML SCHEMA El lenguaje es un estandar para especificar los documentos XML utilizan el mismo lenguaje que los documento XLM pueden presentar

los mismo procesadores XLM,DTD estan basados en modelo de datos en arbol y

atributos

Page 3: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

Es necesario identificar el conjunto especifico de elementos de lenguaje XLM SCHEMA ( etiquetas) que se utiliza em documeto almacenado en la web ejemplo http://www.3.org/2001/xmlschema espacio de nombres se aigna a toda variable xsd

Descripciones de esquema y espacios de nombre XLM

Anotaciones,documentacion y lenguaje utilizado

xsd anotacion y xsd documentacion para comentarios y anotacione adicionales, xml lang= ingles

elemento y tipos

elemento raiz company para una serie de departamentos empleados y proyectos es decir comando utilizado para mejor el orden en entidades

Elementos de primer nive en la base de datos empresa

3 elementos sumamente importantes de primer nivel bajo elemento de raiz company 3 elementos importantes (employee,departament,y project cadad uno con su elemento xsd element y si dentro de estas etiquetas se coloca el elemento (>) son conocidos como los elemento vacios

especificar el tipod de elemento y las ocurrencias minima y maxima

en XML schema atributos type minoccurus y maxoccuros especifica la multiplicidad de cada elemento en cualquier docuemento conforme a las especificaciones del esquema si especificamos un elemento en cualquier documento se ilustrar con elementos employee, departamento y project pero si especificamos un elemento type ya

podemos definir directamente el elemento

Page 4: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

x query especificacion de consultas en XML

permiten escribir expresiones nodos a partir de un documento XLM estrucuturado en la forma de arbol x query permite realiza r consultas mas generales de un o o mas temas o mas documentos en forma XML se cono ce como consultas ( FOR,LET,)

metodos para almacenar documentos xml

uso de un DMBS para almacenar los documento como texto

utilizacion de dbms de objetos o relacionar para almacenar documentos xml enteros como campos

de texto dentro de los objetos o regitro DBMS para procesamiento de datos

uso deun dbms para almacenar el contenido del docuementocomo elementos de datos

coleccion de documentos que obedecen un esquema xlm especifico o XML DTB tienen datos relacionados es

decir misma estructura que esta especificada eN XLM o DTB para recrear docuementos

diseño de un sistema especializado para almacenar

datos XLM nativos

implementacion de sistema de base de datos en arbol llamados XLM dmbs

nativos que contienen consultas especializadas e indexacion y deberia funcionar para todos los documentos

Creacion o publicacion de documentos XML personalizados a partir de base de datos relacionales pre-existentes

omo base de datos relacionados hay cantidades enormes de datos almacenados puede darse la necesidad de almacernarlos o intercambiarlos por la web

Page 5: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

base da datos

esta seccion explica los problemas que surgen al convertir datos de un sistema de base de datos en documentos XLM utiliza un modelo jerarquico(arbol) para representar los documentos utilizan modeo relacionales plano

Se le llama base de datos a los bancos de información que contienen datos relativos a diversas temáticas y categorizados de distinta manera, pero que compartenentre sí algún tipo de vínculo o relación que busca ordenarlos y clasificarlos en conjunto.

Idea

Page 6: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

lenguaje xlm

XML, siglas en inglés de eXtensible Markup Language ('lenguaje de marcas extensible'), es un lenguaje de marcas desarrollado por el World Wide Web Consortium (W3C) utilizado para almacenar datos en forma legible. Proviene del lenguaje SGML y permite definir la gramática de lenguajes específicos (de la misma manera que HTML es a su vez un lenguaje definido por SGML) para estructurar documentos grandes. A diferencia de otros lenguajes, XML da soporte a bases de datos, siendo útil cuando varias aplicaciones deben comunicarse entre sí o integrar información.1

XML no ha nacido sólo para su aplicación para Internet, sino que se propone como un estándar para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en bases de datos, editores de texto, hojas de cálculo y casi cualquier cosa imaginable.

XML es una tecnología sencilla que tiene a su alrededor otras que la complementan y la hacen mucho más grande y con unas posibilidades mucho mayores. Tiene un papel muy importante en la actualidad ya que permite la compatibilidad entre sistemas para compartir la información de una manera segura, fiable y fácil.

Ventajas del XMLEs extensible: Después de diseñado y puesto en producción, es posible extender XML con la adición de nuevas etiquetas, de modo que se pueda continuar utilizando sin complicación alguna.El analizador es un componente estándar, no es necesario crear un analizador específico para cada versión de lenguaje XML. Esto posibilita el empleo de cualquiera de los analizadores disponibles. De esta manera se evitan bugs y se acelera el desarrollo de aplicaciones.Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y procesarla. Mejora la compatibilidad entre aplicaciones. Podemos comunicar aplicaciones de distintas plataformas, sin que importe el origen de los datos, es decir, podríamos tener una aplicación en Linux con una base de datos Postgres y comunicarla con otra aplicación en Windows y Base de Datos MS-SQL Server.Transformamos datos en información, pues se le añade un significado concreto y los asociamos a un contexto, con lo cual tenemos flexibilidad para estructurar documentos.

Page 7: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Documento DTD

La DTD es una definición, en un documento SGML o XML, que especifica restricciones en la estructura y sintaxis del mismo. La DTD se puede incluir dentro del archivo del documento, pero normalmente se almacena en un fichero ASCII de texto separado. La sintaxis de las DTD para SGML y XML es similar pero no idéntica.

La definición de una DTD especifica la sintaxis de una aplicación de SGML o XML, que puede ser un estándar ampliamente utilizado como XHTML o una aplicación local.

Elementos: indican qué etiquetas son permitidas y el contenido de

dichas etiquetas.

Estructura: indica el orden en que van las etiquetas en el documento.

Anidamiento: indica qué etiquetas van dentro de otras.

Page 8: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

otros pasos para extraer documentos XLM apartir de base de datos

1.- es necesario crear la consulta correcta en SQL para extraer la informacion deseada para el docuemnto XML

2. una vez ejecutada la consulta su resultado debe estructurarse para pasar de la forma estructural a la forma de arlbo

3.la consulta debe personalizarse para relacionar uno o varios campos

consulta xlm

varios forma de consulta XLM:

1.- x path que proporciona estructura de lenguajes para identificar varios nodos elemenos 2.- x query igual que x path pero ofrece mas alternativas

x path :especificar expresiones de ruta XLM

CONDICIONES CALIFICADOR que registren el patron adecuado ( nodos)Como alternativa a la generación de datos sobre la marcha, puede importar un archivo XML para usar datos de ejemplo. Con esta opción, la ventaja es que el usuario puede

agregar rápidamente los mismos datos de ejemplo a varios proyectos. El archivo XML puede incluir rutas de acceso a otros archivos únicamente si dichas rutas están

relacionadas con la ubicación del archivo XML. Asegúrese de que esas rutas de acceso a archivos estén disponibles para cada uno de los proyectos donde se utilice el archivo

XML.

Page 9: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

XPATH

XPath (XML Path Language) es un lenguaje que permite construir expresiones que recorren y procesan un documento XML. La idea es parecida a las expresiones regulares para seleccionar partes de un texto sin atributos (plain text). XPath permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del XML. XPath

fue creado para su uso en el estándar XSLT, en el que se usa para seleccionar y examinar la estructura del documento de entrada de la transformación.

Nodo Raíz

Se identifica por /. No se debe confundir el nodo raíz con el

elemento raíz del documento. Así, si el documento XML de

nuestro ejemplo tiene por elemento raíz a libro, éste será el primer nodo que cuelgue del nodo raíz del árbol, el cual es

Insisto: / hace referencia al nodo raíz del árbol, pero no al

elemento raíz del documento XML, por más que un

documento XML solo pueda tener un elemento raíz. De

hecho, podemos afirmar que el nodo raíz del árbol contiene al elemento raíz del documento.

Nodo Elemento

Cualquier elemento de un documento XML se convierte en un

nodo elemento dentro del árbol. Cada elemento tiene su nodo

padre. El nodo padre de cualquier elemento es, a su vez, un

elemento, excepto el elemento raíz, cuyo padre es el nodo raíz. Los nodos elemento tienen a su

vez hijos, que son: nodos elemento, nodos texto, nodos

comentario y nodos de instrucciones de proceso. Los

nodos elemento también tienen propiedades tales como su

nombre, sus atributos e información sobre los "espacios de

nombre" que tiene activos.directa.

Nodos atributo

Como ya hemos indicado, los nodos atributo no son tanto hijos del nodo

elemento que los contiene como etiquetas añadidas a dicho nodo

elemento. Cada nodo atributo consta de un nombre, un valor (que es

siempre una cadena) y un posible "espacio de nombres".

Aquellos atributos que tienen por valor el valor por defecto asignado en el

DTD se tratarán como si el valor se les hubiese asignado al escribir el

documento XML. Al contrario, no se crea nodo para atributos no

especificados en el documento XML, y con la propiedad #IMPLIED definida en su DTD. Tampoco se crean nodos atributo para las definiciones de los

espacios de nombre.

Page 10: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

base de datos relacionales

La interfaz de programación de aplicaciones, abreviada como API1 (del inglés: Application Programming Interface), es el conjunto de subrutinas, funciones y procedimientos (o métodos, en la programación orientada a objetos) que ofrece cierta biblioteca para ser utilizado

por otro software como una capa de abstracción.

Son usadas generalmente en las bibliotecas de programación.

Una base de datos se compone de varias tablas o relaciones.

No pueden existir dos tablas con el mismo nombre ni registro.

La relación entre una tabla padre y un hijo se lleva a cabo por medio de las claves primarias y claves foráneas (o ajenas)

Las claves primarias son la clave principal de un registro dentro de

una tabla y estas deben cumplir con la integridad de datos.

Las claves ajenas se colocan en la tabla hija, contienen el mismo valor que la clave primaria del registro padre; por medio de estas se hacen las

formas relacionales.

Page 11: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Busqueda de patrone secuenciales

El agrupamiento de secuencias se define como la tarea de separar en grupos a las secuencias de datos, de manera que las pertenecientes a un mismo grupo sean muy similares entre sí, y al mismo tiempo sean diferentes a las de otros

grupos. Se usa en muchos escenarios donde no se cuenta con registros de información confiable o donde se deben realizar asociaciones a partir de la similitud entre las secuencias que se analizan.

Un ejemplo típico de aplicación de esta técnica, es en las transacciones comerciales donde sirve para identificar diferentes grupos de clientes con

registros de compra similares.

También tienen un variado uso en la formación de grupos de secuencias de proteínas similares, para

analizar a profundidad cada uno de ellos atendiendo a sus características particulares.

Bosqueda de patrones en erie temporlaes

La mayoría de los algoritmos implementados para el minado de secuencias frecuentes, utilizan tres tipos

diferentes de enfoques de acuerdo a la forma de realizar el conteo de frecuencia a los patrones

secuenciales candidatos.

El primer grupo de algoritmos se basan en la propiedad A priori. Esta propiedad fue introducida por

Agrawal and Srikant3 en el minado de reglas de asociación y se basa en que si un patrón es frecuente entonces cualquier subpatrón de él

también será frecuente. Esto permite reducir el espacio de búsqueda en el proceso de generación

de candidatos. Basado en esta estrategia se presentaron algoritmos como el AprioriAll y el AprioriSome en;4 y el algoritmo GSP (Patrón

secuencial generalizado).5El segundo grupo está formado por algoritmos que tratan de reducir el tamaño del conjunto de datos

explorados, sustituyendo la fase de generación de candidatos por la realización de proyecciones y

técnicas de crecimiento de patrones sobre los datos iniciales. .

Page 12: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

elemento

ElementosUn elemento describe los datos que contiene. Los elementos también pueden contener otros elementos y atributos. Para obtener más información, vea

<xsd:all> Element.Cuando una definición de elemento contiene elementos o atributos adicionales, se trata de un tipo complejo. Para obtener más información sobre los tipos

complejos, vea la sección "Tipos", más adelante en este tema.La definición básica de un elemento consta de un nombre y un tipo de datos. En el siguiente ejemplo se muestra cómo definir u n elemento denominado

quantity, con un tipo de valor entero simple.

atributo

AtributosUn atributo es una definición de tipo simple con nombre que no puede contener otros elementos. Los atributos también pueden asignarse a un valor

predeterminado opcional y deben aparecer en la parte inferior de las definiciones de tipo complejo. Además, si se declaran va rios atributos, se pueden producir en cualquier pedido. Para obtener más información, vea <xsd:attribute> Element.

El siguiente código muestra cómo declarar un atributo denominado OrderDiscount que está definido con el tipo simple number. E l uso de un atributo aquí tiene sentido ya que los atributos son opcionales. Si no se proporciona OrderDiscount, los datos XML seguirán siendo vál idos

Page 13: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

resumen

este capitulo ofrece una vision general del estandar de representacion e intercambio de datos por internet hemos descrito el estandar Xml y su modelo de datos jearquico estructurado en forma de arbol

asi como los documentos XML y los lenguajes que permitan especificar la estructura de dicha docuemntos en particulasXML,DTD,definicion por tipode documento y XML tanto en formato en su formato nativo ( texto(

LenguajeUtiliza un subconjunto del lenguaje Prolog llamado Datalog el cual es declarativo y permite al ordenador hacer

deducciones para contestar a consultas basándose en los hechos y reglas almacenado

MecanismosExisten dos mecanismos de inferencia:

Ascendente: donde se parte de los hechos y se obtiene nuevos aplicando reglas de inferencia.Descendente: donde se parte del predicado (objetivo de la consulta realizada) e intenta encontrar similitudes entre las

variables que nos lleven a hechos correctos almacenados en la base de datos.

Page 14: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

capitulo28 :conceptos mineria de datos

La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisi s matemático para deducir los patrones ytendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o

porque hay demasiado datosEstos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los m odelos de minería de datos se pueden aplicar asituaciones empresariales

como las siguientes:Predecir ventasDirigir correo a clientes específicosDeterminar los productos que se pueden vender juntosBuscar secuencias en el orden en que los clientes agregan productos a una cesta de compra

repaso a la tecnologia

informe garnet aparece como las tecnologias de mas exito en un futuro proximo se relaccionara la mineria de datos con areas llamadas descubrimientosdel conocimiento

comparacion entre mineria de datos y alamacen de datos

almacen de datos a la toma de deciciones basados en datos mientras que la mineria de datos es la combinacion de datos se puede aplicar a toda las bases de datos en operaciones individuales expansion de nuevos horizontes

Mineria de datos como parte del proceso del descubrimiento del conocimiento

reglas de asociacion : ejemplo un cliente compre equipos de video tambien complementospatrones secuenciales: un cliente compra una camara pero despuez de varios meses compra accesoriosarboles de clasificacion : los cliente financiaran sus compras

Page 15: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

Objetivos de la mineria de datos y el descubrimiento de conocimiento

prediccion puede predecir como se comportan

ciertosatributos de los datos ejemplo analisis de transacciones

de compra que consumiran los clientes

identificacion los patrones de datos se puede utilizar para

identificar la existencia a los intrusos que intentan introducirse en un sistema mediante programas que han sido

ejecutados

Clasificacion :la mineria de datos puede dividir los datos en forma clases o categorias basandonde en combinanciones de

parametros

agrupamiento la recoleccio de diferente tipo de informacion para beneficio de los

diferentes personas que la requieran para poder ser optima y de calidad

Page 16: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

reglas de asociacion

En minería de datos y aprendizaje automático, las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.1 Se han investigado ampliamente diversos métodos para aprendizaje de reglas de asociación que

han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos.

reglas de asociacion

Reglas significativas, 'soporte' y 'confianzaNótese que el ejemplo anterior es muy pequeño, en la práctica, una regla necesita un soporte de varios cientos de registros (transacciones) antes de que ésta pueda considerarse significativadesde un punto de vista estadístico. A menudo las bases de datos contienen miles o incluso millones de registros.

Para seleccionar reglas interesantes del conjunto de todas las reglas posibles que se pueden derivar de un conjunto de datos se pueden utilizar restricciones sobre diversas medidas de "significancia" e "interés". Las restricciones más conocidas son los umbrales mínimos de "soporte" y "confianza".

Page 17: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

El algoritmo apriori

algoritmo apriori se usa en minería de datos para encontrar Reglas de asociación en un conjunto de datos. Este algoritmo se basa en el conocimiento previo o “a priori” de los conjuntos frecuentes, esto sirve para reducir el espacio de búsqueda yaumentar la eficiencia.

Idea

Page 18: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

algoritmo de muestreo

es seleccionar pequeñas muestras que esa pequeña muestra quepa en el momento principal de la base de datos y determininar conjuntos frecuentes con esa muestra podriamos decir que la base son los conjuntos frecuentes

En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población.

Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase

un estudio de toda la población.

Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas

estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad

alta.

Page 19: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

algoritmo de arbol

Un árbol es una estructura de datos, que puede definirse de forma recursiva como:

- Una estructura vacía o- Un elemento o clave de información (nodo) más un número finito de estructuras tipo árbol, disjuntos, llamados subárboles. Si dicho número de estructuras es inferior o igual a 2, se tiene un árbol binario.

Es, por tanto, una estructura no secuencial.

Otra definición nos da el árbol como un tipo de grafo (ver grafos): un árbol es un grafo acíclico, conexo y no dirigido. Es decir, es un grafo no dirigido en el que existe exactamente un camino entre todo par de nodos. Esta definición permite implementar un árbol y sus operaciones empleando las representaciones que se utilizan para los grafos. Sin embargo, en esta sección no se tratará esta implementación.

Page 20: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

algoritmo de particionado

Este algoritmo se ha implementado en lenguaje C. El programa se puede ejecutar en entorno MS-DOS, para lo

cual simplemente hay que teclear partitio desde el directorio en el que se encuentre el programa, o en entorno

Windows.

En este último caso, hay que seguir la siguiente secuencia de pasos: inicio>ejecutar>teclear "partitio" precedido del path correspondiente>pulsar INTRO.

Estos pasos se muestran en las dos figuras siguientes.

Al ejecutar el programa partitio.exe, el usuario ha de elegir la opción Kernighan-Lin y proporcionar un fichero de entrada

que contenga el número de bloques así como las interconexiones entre ellos. A partir de esta información, se

distribuyen los bloques en dos particiones, .

El siguiente paso es la ejecución del algoritmo, tras lo cual, también opcionalmente, es posible visualizar el reparto final

de los elementos. Por último, se genera el fichero de salida, en el que se indica la distribución de los bloques obtenida

Page 21: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

algoritmo de agrupamiento k

K -means es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo más cercano a la media. Es un método utilizado en minería de datos.

La agrupación del conjunto de datos puede ilustrarse en una partición del espacio de datos en celdas de Voronoi.

El problema es computacionalmente difícil (NP-hard). Sin embargo, hay eficientes heurísticas que se emplean comúnmente y convergen rápidamente a un óptimo local. Estos suelen ser similares a los algoritmos expectation-maximization de mezclas de distribuciones gausianas por

medio de un enfoque de refinamiento iterativo empleado por ambos algoritmos. Además, los dos algoritmos usan los centros que los grupos utilizan para modelar los datos, sin embargo k-means tiende a encontrar grupos de extensión espacial comparable, mientras que el mecanismo

expectation-maximization permite que los grupos que tengan formas diferentes.

Dado un conjunto de observaciones (x1, x2, …, xn), donde cada observación es un vector real de d dimensiones, k-means construye una partición de las observaciones en k conjuntos (k ≤ n) S = {S1, S2, …, Sk}

Page 22: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

Algoritmo de Crecimiento FP para la busqueda itesem frecuentes

entrada =arbol FP y soporte minimo salida =patrones frecuentes (conjuntos)revela interesantes para regla de asociación asociación minera o conexión relevante entre conjuntos de elementos de grandes cantidades de datos es un contenido importante de la minería de datos. En este artículo se analiza el algoritmo primero FP-Crecimiento y elanálisis utilizando los resultados de la agrupación algoritmo de estudiantes en grupos y los factores de la relación estudian te racimo han demostrado que el algoritmo tiene una fuerte viabilidad. Minería de datos de las palabras clave; análisis de asociación; patr ón frecuente; FP-Tree 1 reglas Introducción Association (Reglas de asociación) la minería de datos es una línea de investigación importante en el campo de la minería, que consiste en la IBM Almaden Research Center de Estados Unidos en Rakesh A-Grawal et al 1993 fue propuesto por primera vez, es para describir algunas de las reglas que subyacen a la relación entre los elementos de datos en la base de datos.

Page 23: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

algoritmos geneticos

Un algoritmo es una serie de pasos organizados que describe el proceso que se debe seguir, para dar solución a un problema específico. En los años 1970, de la mano de John Henry Holland, surgió una de las líneas más prometedoras de la inteligencia artificial, la de los algoritmos genéticos.1 2 Son llamados así porque se inspiran en la evolución biológica y su base genético-molecular. Estos algoritmos hacen evolucionar una población de individuos sometiéndola a acciones aleatorias semejantes a las que actúan en la evolución biológica (mutaciones y recombinaciones genéticas), así como también a una selección de

acuerdo con algún criterio, en función del cual se decide cuáles son los individuos más adaptados, que sobreviven, y cuáles los menos aptos, que son descartados. Los algoritmos genéticos se enmarcan dentro de los algoritmos evolutivos, que incluyen también las estrategias evolutivas, la programación

evolutiva y la programación genética.

Inicialización: Se genera aleatoriamente la población inicial, que está constituida por un conjunto de cromosomas los cuales representan las posibles soluciones del problema. En caso de no hacerlo aleatoriamente, es importante garantizar que dentro de la población inicial, se

tenga la diversidad estructural de estas soluciones para tener una representación de la mayor parte de la población posible o al menos evitar la convergencia prematura.

Evaluación: A cada uno de los cromosomas de esta población se aplicará la función de aptitud para saber cómo de "buena" es la solución que se está codificando.

Condición de término El AG se deberá detener cuando se alcance la solución óptima, pero ésta generalmente se desconoce, por lo que se deben utilizar otros criterios de detención. Normalmente se usan dos criterios: correr el AG un número máximo de iteraciones

(generaciones) o detenerlo cuando no haya cambios en la población

Page 24: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

Interfaz de usuario

Las interfaces básicas de usuario son aquellas

que incluyen elementos como menús, ventanas, contenido gráfico, cursor, los beeps y algunos otros sonidos que la

computadora hace, y en general, todos aquellos canales por los cuales se permite la comunicación entre el ser humano y la

computadora.

La mejor interacción humano-máquina a través de una adecuada interfaz (de

usuario), que le brinde tanto comodidad, como eficiencia

Interfaz de programador de aplicaciones

La interfaz de programación de aplicaciones, abreviada como API1 (del

inglés: Application Programming Interface), es el conjunto de subrutinas,

funciones y procedimientos (o métodos, en la programación orientada a objetos) que ofrece cierta biblioteca

para ser utilizado por otro software como una capa de abstracción.

Son usadas generalmente en las bibliotecas de programación.

tendencias par el futuro

la herramienta de mineria de datos se encuentre en constante evolucion a partir de ideas procedentes de ultimas investigaciones

cientificas de las cuales integran muchos algorimos que hacen que utilicen un codigo

adecuado

Page 25: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

regresion

es una aplicacion especial de la regla de clasificacion se relaciona directamente con las variables de clase objeto y se llamara regla de regresion Dentro de este mÛdulo, en el apartado resumen del procedimiento, se obtienela recta de regresiÛn estimada (estimaciÛn de los coeÖcientes de 0 y 1; desviacionestÌpicas, lo que permite calcular intervalos de conÖanza de los mismos y test de la t). Esteapartado tambiÈn proporciona la tabla ANOVA y los coeÖcientes de determinaciÛn. Eneste problema el coeÖciente de correlaciÛn es r = 00969, y se concluye que el ajuste lineales bueno.El apartado predicciones permite calcular predicciones e intervalos de la media condicionada y de predicciÛn para una observaciÛn determinada.Si la recta de regresiÛn se quiere comparar con otros modelos ìlinealizablesî se puede

Page 26: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

Agrupamiento

Un algoritmo de agrupamiento (en inglés, clustering) es un procedimiento de agrupación de una serie de vectores de acuerdo con un criterio. Esos criterios son por lo general distancia o similitud. La cercanía se define en términos de una determinada función de distancia, como la euclídea, aunque existen otras más robustas o que permiten extenderla a variables discretas. La medida más utilizada para medir la similitud entre los casos es la matriz de correlación entre los nxn casos. El conocimiento de los grupos puede permitir una descripciónsintética de un conjunto de datos multidimensional complejo.De ahí su uso en minería de datos. Esta descripción sintética se consigue sustituyendo la descripción de todos los elementos de un grupo por la de un representante característico del mismo.

Usted le enseña a alumnos en un curso llamado 'El arte del idioma Inglés'.Sus estudiantes están divididos en cuatro grupos, Listening, Reading, Speaking y Writing, y para la mayor parte del curso trabajan dentro de estos grupos.Usted quiere que los estudiantes trabajen en un proyecto, que explore el idioma activo y pasivo. Usted crea un agrupamiento de Passive Language y lo asigna a los grupos de Listening y Reading a este agrupamiento. Usted crea otro agrupamiento de Active Language y le asigna los grupos de Speaking y Writing a este agrupamiento.Usando la característica para Restringir el acceso, Usted configura que ciertas tareas solamente sean para el agrupamiento dePassive Language y otras tareas para el agrupamiento de Active Language.Ahora los grupos pueden trabajar juntos dentro de sus agrupamientos, en sus áreas enfocadas respectivas, sin que los otros grupos observen sus actividades.Al final del proyecto Usted puede juntar a todos los grupos en una actividad, para que todos los participantes compartan sus aprendizajes.

Page 27: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

aplicacion de mineria de datos

AplicacionesLa minería de secuencias frecuentes posee una amplia gama de aplicaciones, en distintas líneas de investigación y entornos de producción, como por ejemplo:

Detección de Intrusos: Se ha utilizado para la detección de intrusiones, estudiando los patrones de mal uso en la seguridad de la información, encontrando patrones de acceso a los recursos, procesando los registros de ataques a la red, para así descubrir comportamientos secuenciales de intrusión y diseñar estrategias para la detección de varias etapas de ataque.Salud: En el sector de la salud, se usan para representar patrones de atención médica como las trayectorias de los pacientes en los centros de salud, los estados evolutivos de los pacientes, los comportamientos de los síntomas, entre otros; para descubrir patrones en las historias de los registros médicos y mejorar el nivel de diagnóstico.Telecomunicaciones: Se utiliza en el campo de las telecomunicaciones para predecir la futura localización de un usuario móvil, para la búsqueda de patrones de llamadas telefónicas y para los servicios basados en la localización.Diseño de Sitios Web: Con el amplio uso de la web en la actualidad, las tareas de diseño de sitios y servidores web, están aumentando su nivel de complejidad. Con la minería de secuencias se pueden registrar cuales son las principales rutinas de navegación de los usuarios para así proponer mejores estructuras para el diseño del sitio e identificar mejor las prioridades en las tareas de los servidores.Bioinformática: En la actualidad existen inmensos volúmenes de información genética que tienen una gran importancia en los campos de la medicina y la industria farmacéutica. Con la minería de secuencias frecuentes se puede determinar los genes que codifican para ciertas proteínas y llevar a cabo predicción de genes.

Page 28: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

herramienta comerciales mineria de datos

Orange es una suite de software para minería de base de datos y aprendizaje automático basado en componentes que cuenta con un fácil y potente, rápido y versátil front-end de programación visual para el análisis exploratorio de datos y visualización, y librerias para Python y secuencias de comando. Contiene un completo juego de componentes para preprocesamiento de datos, característica de puntuación y filtrado, modelado, evaluación del modelo, y técnicas de exploración. Está escrito en C++ y Python, y su interfaz gráfica de usuario se basa en la plataforma cruzada del framework Qt.

Miner, antes llamado YALE (Sin embargo, otro ambiente de aprendizaje), es un ambiente de experimentos en aprendizaje automático y minería de datos que se utiliza para tareas de minería de datos tanto en investigación como en el mundo real. Permite a los experimentos componerse de un gran número de operadores anidables arbitrariamente, que se detallan en archivos XML y se hacen con la interfaz gráfica de usuario de RapidMiner. .

jHepWork es un framework para análisis de datos libre y de código abierto que fue creado como un intento de hacer un entorno de análisis de datos usando paquetes de código abierto con una interfaz de usuario comprensible y para crear una herramienta competitiva a los programas comerciales. Esto se hace especialmente para las ploteos científicos interactivos en 2D y 3D y contiene bibliotecas científicas numéricas implementadas en Java para funciones matemáticas, números aleatorios, y otros algoritmos de minería de datos. jHepWork se basa en Jython un lenguaje de programación de alto nivel, pero codificación en Java también puede ser usada para llamar librerías jHepWork numéricas y gráficas.

Page 29: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

Mineria de Datos

Resumiendo lo expuesto hasta ahora podemos decir que la funcionalidad de la minería de datos puede ser:

a) Predictiva (p.ej. caso del banco, hospital): sirve para predecir cosas.

i. En base a una clasificación: por ejemplo si el cliente pagará o no pagará, o el tipo de dolencia que puede tener un pacien te.

ii. En base a una regresión: por ejemplo calcular el tiempo previsible que se empleará en corregir los errores de un desarrol lo de software.

b) Descriptiva:

i. Agrupamiento (clustering): clasificar individuos en grupos en base a sus características. Por ejemplo, clasificar pacientes del hospital en base a los datos de sus analíticas.

ii. Reglas de asociación: conocer cómo se relacionan los datos o campos. Por ejemplo conocer en el hipermercado que un client e que compra leche muy probablemente comprará también pan.

iii. Secuenciación: intentar predecir el valor de una variable en función del tiempo. Por ejemplo la demanda de energía eléct rica.

Page 30: Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de mineria de datos)

Javier Samueza

Mineria de Datos

La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de las ciencias

de la computación referido al proceso que intenta descubrir patrones en grandes

volúmenes de conjuntos de datos.1 Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de

datos. El objetivo general del proceso de minería de datos consiste en extraer

información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de

bases de datos y de gestión de datos, de procesamiento de datos, del modelo y de las consideraciones de inferencia, de métricas de

Intereses, de consideraciones de la Teoría de la complejidad computacional, de post-

procesamiento de las estructuras descubiertas, de la visualización y de la actualización en

línea.

Logaritmos

En matemáticas, lógica, ciencias de la computación y disciplinas relacionadas,

un algoritmo (del griego y latín, dixit algorithmus y este a su vez del

matemático persa Al-Juarismi1 ) es un conjunto prescrito de instrucciones o

reglas bien definidas, ordenadas y finitas que permite realizar una

actividad mediante pasos sucesivos que no generen dudas a quien deba realizar

dicha actividad.2 Dados un estado inicial y una entrada, siguiendo los pasos sucesivos se llega a un estado final y se obtiene una solución. Los

algoritmos son el objeto de estudio de la algoritmia.

Agrupamiento

Generalmente, los vectores de un mismo grupo (o clústers) comparten propiedades comunes. El conocimiento de los grupos

puede permitir una descripción sintética de un conjunto de datos multidimensional complejo. De ahí su uso en minería de

datos. Esta descripción sintética se consigue sustituyendo la descripción de

todos los elementos de un grupo por la de un representante característico del mismo.

En algunos contextos, como el de la minería de datos, se lo considera una técnica de aprendizaje no supervisado puesto que busca encontrar relaciones

entre variables descriptivas pero no la que guardan con respecto a una variable

objetivo.

RESUMEN