manuel keel spanish
DESCRIPTION
Manual de software KEEL para minería de datos. Un escelente libro para comprender la minería de datos educativaTRANSCRIPT
Página 1
Tabla de contenidos
INTRODUCTION...................................................................................................................
...........................................2
DATOS
PREPARATION.....................................................................................................................
...............................3
V
Isualize
D
ATA
...................................................................................................................................................
..........3
D
ATA IMPORTACIÓN
...................................................................................................................................................
...............6
D
ATA EXPORTACIÓN
...................................................................................................................................................
.............11
F
ILE
F
ORMATS
...................................................................................................................................................
............16
DATOS CVS ARCHIVO
FORMAT...................................................................................................................................
...16
TXT y TVS FORMATO DE DATOS ARCHIVO
.......................................................................................................................17
PRN FORMATO DE DATOS ARCHIVO
.....................................................................................................................................18
DIF FORMATO DE DATOS ARCHIVO
......................................................................................................................................20
C4.5 DATOS ARCHIVO
FORMAT...................................................................................................................................
..22
DATOS EXCEL ARCHIVO
FORMAT.................................................................................................................................2
4
DATOS WEKA ARCHIVO
FORMAT..................................................................................................................................
25
XML DATOS ARCHIVO
FORMAT...................................................................................................................................
..27
HTML FORMATO DE DATOS ARCHIVO
..................................................................................................................................32
D
ATA
P
ARTITION
...................................................................................................................................................
........36
E
DIT
D
ATA
...................................................................................................................................................
..................37
DISEÑO EXPERIMENTO
................................................................................................................................................4
0
C
ONFIGURACIÓN DE EXPERIMENTOS
................................................................................................................................41
S
ELECCIÓN DE LOS CONJUNTOS DE DATOS
..............................................................................................................................................42
E
Xperiment
G
RAPH
...................................................................................................................................................
...45
Datos
sets.............................................................................................................................................
......................46
Preprocesamiento
methods.....................................................................................................................................
........48
Estándar
methods.....................................................................................................................................
................49
Métodos de postprocesado
...........................................................................................................................................50
Estadístico
tests............................................................................................................................................
..............51
Visualización
modules.....................................................................................................................................
..........52
Connections...............................................................................................................................
...............................53
G
RAPH
M
GESTIÓN
...................................................................................................................................................
55
LA
LGORITHM PARÁMETROS DE CONFIGURACIÓN
..................................................................................................................56
G
Eneration DE
E
Xperimentos
.....................................................................................................................................57
M
ENU BAR
...................................................................................................................................................
..................59
T
OOL BAR
...................................................................................................................................................
...................62
S
STADO BAR
...................................................................................................................................................
................63
CARRERA
KEEL........................................................................................................................................
...............................64
L
AUNCHING
R
Naciones Unidas
K
ANGUILA
..................................................................................................................................................
64
V
RESULTADOS IEW
...................................................................................................................................................
............64
EDUCATIONAL.....................................................................................................................
.........................................65
YO
NTRODUCCIÓN
...................................................................................................................................................
...........65
M
ENU
B
Arkansas
...................................................................................................................................................
..................65
T
OOL BAR
...................................................................................................................................................
...................68
S
STADO BAR
...................................................................................................................................................
................69
C
ONFIGURACIÓN DE EXPERIMENTOS
................................................................................................................................70
S
ELECCIÓN DE LOS CONJUNTOS DE DATOS
..............................................................................................................................................71
E
Xperiment
G
RAPH
...................................................................................................................................................
...73
Datos
sets.............................................................................................................................................
......................74
Preprocesamiento
methods.....................................................................................................................................
........76
Estándar
methods.....................................................................................................................................
................77
Connections...............................................................................................................................
...............................78
G
RAPH
M
GESTIÓN
...................................................................................................................................................
79
LA
LGORITHM PARÁMETROS DE CONFIGURACIÓN
..................................................................................................................80
R
EXPERIMENTO ONU
...................................................................................................................................................
.......81
Página 2
2
INTRODUCCIÓN QUILLA es una herramienta de software desarrollada para construir y utilizar diferentes
modelos de minería de datos. Nos gustaría
remarcar que esta es la primera herramienta de software de este tipo que contiene un código
libre biblioteca de Java
Algoritmos Evolutivos aprendizaje. Las principales características de la quilla son:
•
Contiene algoritmos pre-procesamiento: transformación, discretización, selecciones de
instancia y
selecciones de características.
•
También contiene un conocimiento Extracción Algoritmos Biblioteca, supervisado y no
supervisado,
destacando la incorporación de múltiples algoritmos de aprendizaje evolutivo.
•
Cuenta con una biblioteca de análisis estadístico para analizar algoritmos.
•
Contiene una interfaz fácil de usar, orientado al análisis de algoritmos.
•
El entorno del QUILLA puede conectarse a Internet para descargar nuevos archivos de
datos para utilizarlos en
futuros análisis.
Podemos distinguir tres partes en el entorno gráfico:
•
La preparación de la parte Bases de datos permite a los usuarios crear diferentes particiones
de su propia
bases de datos o las bases de datos disponibles en la web quilla. Además, es posible editar,
aplicar
transformaciones, generan conjuntos de datos en el formato correcto de los archivos C4.5 o
una vista detallada
parcelas sobre un conjunto de datos concreto.
•
El Diseño de Experimentos parte tiene el objetivo de diseñar los experimentos deseados
utilizando
una interfaz gráfica. Después del experimento está diseñado, la interfaz genera un archivo
.ZIP
que contiene una estructura de directorio con todos los archivos necesarios necesario para
ejecutar esos experimentos
en el equipo local.
La interfaz también permite al usuario añadir sus propios algoritmos para el ser la
experimentación
diseñado. El único requisito es aceptar el formato de archivo de entrada de la quilla.
Incluso, no es
necesaria para utilizar el lenguaje Java para los propios algoritmos de usuario. Esto
proporciona una muy
de manera flexible para el usuario comparar sus propios métodos con los que está en quilla.
•
La Generación de Algoritmos Evolutivos con la biblioteca JCLEC permite al usuario crear
sus propios algoritmos evolutivos utilizando una interfaz gráfica. En esta versión de la
quilla, este
parte no se ha implementado.
Page 3
3
DATOS DE PREPARACIÓN Las siguientes tareas son posibles de llevar a cabo en esta sección:
• Visualizar los datos: Esta opción le permite visualizar conjuntos de datos de formato
QUILLA existentes.
• Importación de datos: Esta opción le permite exportar archivos de formato QUILLA a
otros formatos.
• Exportación de datos: Esta opción le permite importar otros archivos de formato a
formato QUILLA.
• Hacer particiones: Esta opción le permite realizar particiones de bases de datos KEEL
existentes.
• Editar datos: Esta opción le permite editar los conjuntos de datos de formato QUILLA
existentes.
Visualizar datos Opción Visualizar le permite ver información detallada sobre un conjunto de datos de
formato QUILLA existente.
Hay diferentes opciones para mostrar la información, se puede ver el contenido del
conjunto de datos, específica
información sobre los atributos y comparar por medio de cartas dos atributos.
Figura 1. Proceso de visualización de datos.
Página 4
4
La Figura 1 muestra la ventana principal de esta opción. En primer lugar, debe seleccionar
la ruta de datos de origen
conjunto (en formato QUILLA) que desea visualizar (ver Figura 2). Cuando se carga el
archivo, distinta
información sobre el conjunto de datos se muestra de acuerdo con la opción seleccionada.
Figura 2. Cargar conjunto de datos para ver su contenido.
Vista de conjunto de datos. Si selecciona para visualizar esta información, usted puede
visualizar el contenido del conjunto de datos
seleccionado. La información no puede ser modificado; sólo se puede visualizar (ver Figura
3).
Figura 3. Visualizar el contenido del conjunto de datos.
Atributo Info. En esta opción, se puede obtener información detallada sobre los atributos
definidos en
establecen los datos. La información mostró en la parte superior de las ventanas es: tipo de
atributo (entero, real o
Nominal) y si el atributo es de entrada o de salida. Aparece Más información en la parte
inferior izquierda de
la ventana. La información mostró depende del tipo de atributo, en el caso de entero o real
atribuir los valores de rango, la media y la varianza se muestran. En el caso de atributo
nominal, se
Sólo ver sus posibles valores. Por último, en la parte derecha inferior de la ventana, un
cuadro con la
distribución de los valores del atributo se muestra también. La figura 4 muestra la
información de un verdadero atributo
y la Figura 5 muestra la información de un atributo nominal.
Figura 4. General y la información gráfica sobre el atributo real.
Página 5
5
Figura 5. General y la información gráfica sobre el atributo nominal.
Gráficos 2D. En esta opción, usted puede comparar los diferentes atributos. En primer
lugar, usted tiene que seleccionar los dos
atributos que desea comparar, para cada atributo que tiene disponible una lista con todos los
atributos de
conjunto de datos (ver Figura 6).
Figura 6. Seleccione los atributos para comparar.
Una vez seleccionados los atributos, lo que tienes que hacer clic en el botón "Ver tabla" y
un gráfico se muestra.
Si usted necesita incluir el gráfico generado en otro documento, puede utilizar los botones:
"Convertir a
PNG ": esta opción guarda el gráfico como una imagen PNG y" Conver a PDF ": esta
opción guarda la
gráfico como un documento PDF.
Figura 7. Gráfico de comparar el atributo dos seleccionados
Figura 8. Gráficas Visualizar 2D
Page 6
6
Importación de datos Opción Importar le permite transformar tus archivos en diferentes formatos (txt, Excel,
XML, etc.) para QUILLA
formato. Tenga en cuenta que si usted desea utilizar sus propios conjuntos de datos, el
diseño de los experimentos sólo se hará
el uso de conjuntos de datos según el formato QUILLA, se requerirá, por tanto, un paso
previo de importación.
Figura 1. Dos posibilidades para llevar a cabo el proceso de importación.
La Figura 1 muestra las dos posibles opciones para importar conjuntos de datos. Una
opción consiste en la importación de una
conjunto de datos, la otra opción consiste en la importación de un conjunto de particiones
que tienes disponible en otra
formatos diferentes a formato quilla. En la continuación, se muestra el proceso de las dos
opciones.
1. Importe conjunto de datos. Seleccione esta opción si desea importar un solo archivo
desde otros formatos a
Formato de quilla. La Figura 2 muestra la ventana para esta opción.
Figura 2. opción Importar conjunto de datos.
Página 7
7
Para importar un conjunto de datos, es necesario los siguientes partes:
Paso 1. Seleccione Formato de entrada. En primer lugar, debe seleccionar el formato de
archivo de origen de la
conjunto de datos. El formato admitido son CVS, TXT, PRN, C4.5, Excel, Dif,
PropertyList y Weka.
Las diferentes opciones se muestran en la Figura 3.
Figura 3. Formato admitido a convertir a formato QUILLA.
El botón "Opciones" le permite configurar si es necesario un cierto separador y nula
valor utilizado en el archivo de origen.
Figura 4. Especifique determinadas opciones de formato de archivo de origen.
Paso 2. Seleccione el archivo de origen. Después de especificar el formato de archivo
utilizado en el archivo de origen, el camino de
este archivo se debe especificar (un navegador conocido de muchos otros Programms GUI
es
utilizado para definir este camino).
Figura 5. Especifique la ruta del archivo fuente.
Página 8
8
Paso 3. Guarde los archivos. Una vez que el tipo de conversión y el archivo de origen han
sido
configurado, debe hacer click en el botón Siguiente y, a continuación, el original y el
archivo importado es
se muestra (véase la Figura 6).
Figura 6. El archivo original e importado.
Si estamos de acuerdo con la conversión hecho, hay dos opciones para guardar el archivo
importado:
1. Seleccione la importación a la sección de experimentos: si marca esta opción y haga clic
en Guardar
botón, el conjunto de datos convertida será incluido como opción en los experimentos
quilla. Este
conjunto de datos estará disponible para ejecutar con los métodos de la quilla.
2. No seleccione la importación a la sección de experimentos: si no selecciona esta opción,
cuando
hacer clic en el botón Guardar, usted tiene que seleccionar el directorio de destino para la
establecen datos transformados.
2. Particiones de importación. Seleccione esta opción si tiene particiones de un conjunto
de datos realizado previamente en
otros formatos y que desea importar a la quilla formato. Esta opción permite seleccionar un
conjunto de
formación y archivos de prueba por separado. La Figura 7 muestra la ventana con respecto
a esta opción.
Figura 7. opción Importar particiones.
Para importar las particiones, es necesario los siguientes partes:
Paso 1. Seleccionar formato de entrada. En primer lugar, debe seleccionar el formato de
archivo de origen de la
conjunto de datos. Los formatos admitidos son CVS, TXT, PRN, C4.5, Excel, Dif,
PropertyList y
Weka. Las diferentes opciones se muestran en la Figura 8.
Page 9
9
Figura 8. Formato admitido a convertir a formato QUILLA.
El botón "Opciones" le permite configurar si es necesario un cierto separador y nula
valor utilizado en el archivo de origen.
Figura 9. Especifique determinadas opciones de formato de archivo de origen.
Paso 2. Seleccione el archivo de origen. Después de especificar el formato de archivo
utilizado en el archivo de origen, el camino de
este archivo debe ser especificado. Usted tiene que usar las flechas para incluir los archivos
en la formación o la prueba
correctamente.
Página 10
10
Figura 10. Especifique las rutas de los archivos de origen.
Paso 3. Guarde los archivos. Una vez que el tipo de conversión y archivo de origen se han
configurado,
Debe hacer clic en el botón Siguiente y se muestran el original y el archivo importado (ver
Figura 11).
Figura 11. El archivo original e importado.
Si estamos de acuerdo con la conversión hecho, hay dos opciones para guardar el archivo
importado:
1. Seleccione la importación a la sección de experimentos: Si marca esta opción, dos
nuevas opciones
están disponibles. Con esta opción se configura si el conjunto de datos es un conjunto de
datos reales o de laboratorio
y las particiones que usted está acostumbrado. Dos particiones son aplicables: k veces o
cruz 5x2
validación. Entonces, cuando se selecciona el botón Guardar, y el conjunto de datos que os
volvéis
se incluirá como opción en los experimentos quilla.
2. No seleccione la importación a la sección de experimentos: si no selecciona Importar a
la
sección de experimentos, al hacer clic en el botón de guardar, usted tiene que seleccionar el
destino
directorio para los conjuntos de datos transformados.
Página 11
11
Exportación de datos Exportación de datos le permite transformar los conjuntos de datos en formato QUILLA al
formato deseado (txt, Excel,
xml, html mesa, etc.).
Figura 1. Dos posibilidades para llevar a cabo el proceso de exportación.
La Figura 1 muestra las dos posibles opciones para exportar conjuntos de datos. Una opción
consiste en exportar uno
conjunto de datos, la otra opción consiste en exportar un conjunto de particiones que tienes
disponible en otra
formatos diferentes a formato quilla. En la continuación, se muestra el proceso de las dos
opciones.
1. Exportación conjunto de datos. Seleccione esta opción si desea exportar sólo un único
archivo de formato de quilla hasta
otro formato (véase la Figura 2).
Figura 2. opción Exportar conjunto de datos.
Página 12
12
Esta opción consiste en las siguientes partes:
Paso 1. Seleccione el archivo de origen. En primer lugar, se debe especificar la ruta de
acceso de archivo de origen (un
comúnmente conocido navegador de muchos otros Programms GUI se usa para definir este
camino).
Figura 3. Especifique la ruta del archivo fuente.
Paso 2. Seleccionar formato de entrada. Después de elegir el archivo, debe seleccionar el
formato de
archivo de destino. Los formatos admitidos son CVS, TXT, PRN, C4.5, Excel, Dif,
PropertyList
y Weka. Las diferentes opciones se muestran en la Figura 4.
Figura 4. Formato admitió convertir de formato de quilla.
El botón "Opciones" le permite configurar si es necesario un cierto separador y nula
valor utilizado en el archivo de origen.
Figura 5. Especifique determinadas opciones de formato de archivo de destino.
Paso 3. Guarde los archivos. Una vez que el tipo de conversión y la ruta del archivo se
han configurado,
debe hacer clic en el botón Siguiente y, a continuación, se muestra la original y el archivo
exportado (ver Figura
6).
Página 13
13
Figura 6. Previsualización del archivo original y exportado.
Si estamos de acuerdo con la conversión hecho, hace clic en el botón Guardar y usted
puede seleccionar el
directorio de destino para el conjunto de datos transformado.
2. Exportar particiones. Seleccione esta opción si ha realizado previamente las particiones
en QUILLA
formatear y desea exportarlos a otro formato. Esta opción permite seleccionar un conjunto
de entrenamiento
y la prueba de los archivos por separado. La Figura 7 muestra la ventana con respecto a esta
opción.
Figura 7. opción Exportar particiones.
Página 14
14
Esta opción consiste en las siguientes partes:
Paso 1. Seleccione los archivos de origen. En primer lugar, se debe especificar la ruta de
acceso del archivo de origen. Usted
tener que usar las flechas para incluir los archivos en la formación o la prueba
correctamente.
Figura 8. Especifique las rutas de los archivos de origen.
Paso 2. Seleccionar formato de entrada. Después de elegir el archivo, debe seleccionar el
tipo de conversión.
Los formatos admitidos son CVS, TXT, PRN, C4.5, Excel, Dif, PropertyList y Weka. Los
diferentes opciones se muestran en la Figura 9.
Figura 9. Formato admitido a convertir a formato QUILLA.
El botón "Opciones" le permite configurar si es necesario un cierto separador y nula
valor utilizado en el archivo de origen.
Figura 10. Especifique determinadas opciones de formato de archivo de destino.
Página 15
15
Paso 3. Guarde los archivos. Una vez que el tipo de conversión y la ruta del archivo se
han configurado,
debe hacer clic en el botón Siguiente y se muestra la original y el archivo exportado (véase
la Figura 11).
Figura 11. Previsualización del archivo original y exportado.
Si estamos de acuerdo con la conversión hecho, hace clic en el botón Guardar y usted
puede seleccionar el
directorio de destino para el conjunto de datos transformado.
Página 16
16
Formatos de archivo Hay diferentes formatos de los datos con los que se puede trabajar en la herramienta
QUILLA. Después, lo haremos
mostrar los diferentes formatos disponibles.
CVS FORMATO DE DATOS ARCHIVO El archivo CSV (separados por comas-valores). CSV es una implementación de un archivo
de texto delimitado,
que utiliza una coma para separar los valores. El formato de archivo CSV es muy simple y
con el apoyo de
casi todas las hojas de cálculo y sistemas de gestión de bases de datos
Las características de estos archivos son los siguientes:
El primer registro en un archivo CSV puede ser un nombre que contiene registro de
encabezado de las columnas.
Cada registro en un archivo puede tener menos campos que el número de cabeceras de
las columnas. En este caso,
valores vacíos se consideran valores perdidos.
Cada fila debe tener el mismo número de campos separados por comas.
Dos comas adyacente o coma al principio o al final de la línea (espacio-caracteres)
indicar los valores nulos.
La separación del todo y la parte fraccionaria de los números reales se realiza a través de
un
punto en lugar de una coma.
El símbolo de la separación de los números decimales es un punto en lugar de una coma.
iniciales y finales espaciales personajes adyacentes a separadores de campo coma se
ignoran.
Cada registro es una línea terminada por un carácter de nueva línea o un retorno de carro.
serán ignorados Las líneas en blanco.
Los campos que contienen caracteres de doble cotización debe estar rodeado de comillas
dobles, y
las dobles comillas incrustadas deberán estar representados cada uno por un par de doble
consecutivo
citas.
Los campos con espacios iniciales o finales o comas debe delimitarse con comillas
dobles
personajes.
El delimitador de los valores puede ser otro personaje distinto al coma. Muchos
implementaciones de CSV permiten un separador alternativo para ser utilizado, tales como
el carácter pestaña
y el formato resultante es TSV (valores separados Tab).
El último registro de un archivo se puede acabar o no con el carácter de fin de línea.
Estos archivos se almacenan, por defecto, con la extensión. "CSV".
Página 17
17
Los (valores separados por comas-CSV) archivos de datos deben tener el siguiente
formato:
Un ejemplo de archivo CSV válido es: En este ejemplo podemos ver el uso de ciertas reglas explicó antes, como valor nulo
expresado en dos comas consecutivo, el uso de la coma decimal como separador para los
números reales
y el uso de comillas dobles para utilizar el valor de la coma simple como parte de los datos
y no como una
separador.
Otro ejemplo de archivo CSV válido es:
TXT y TVS FORMATO DE DATOS ARCHIVO El TXT (texto separado por aquí) o TSV (Valores separados por tabulaciones), es un dato
de texto simple que
permite a los datos tabulares a intercambiar entre las aplicaciones con un formato interno
diferente. Valores
separados por pestañas se han registrado oficialmente como un tipo MIME (Multipurpose
Internet Mail
Extensiones) bajo el texto / nombre de la ficha de valores separados.
Las características de estos archivos son los siguientes:
Un archivo en formato TXT consiste en líneas. Cada línea contiene campos separados el
uno del otro
por el carácter de tabulación (tab horizontal, HT, control de código 9 en ASCII).
atributo
1
, Atribuir
2
, ..., Atributo
N
valor
11
, El valor
12
, ..., Valor
1N
...
valor
M1
, El valor
M2
, ..., Valor
Minnesota
Nombre, Apellido, Empresa, EmailAddress
Johnathan, Doe, "Compañía ABC", "[email protected]"
Harrie, Wong, "Company Inc.", "[email protected]"
María, "Jo Smith", "Cualquier Corp.", "[email protected]"
OBS, CAREXPEND, DISPOSINC, DOLLARVALUE, SALARIOS
"1960: 1", 14.2,362,, 270.7
"1960: 2", 14.1,365.9,, 273.4
"1960: 3", 14.6,367.6,, 273.9
"1960: 4", 13.2,369.2,, 273.3
"1961: 1", 10.8,72.9,, 273.7
"1961: 2", 11.7,378.4,, 277.6
"1961: 3", 12.2,385.1,, 282.2
"1961: 4", 13.7,393.2,, 288.4
Página 18
18
Los campos puede ser cualquier cadena de caracteres, excluyendo pestañas. Sin
embargo, las pestañas por lo general no aparecen en
elementos de datos que desea para tabular, así que esto es rara vez una restricción. Hay
varios otros
formatos que son muy similares a TSV, pero utilizan un separador diferente, como por
comas
Valores separados (CSV), que utiliza la coma como separador. Las comas, espacios, y otra
personajes a menudo se utilizan como separadores en formatos aparecen con bastante
frecuencia en los datos para ser
tabulada, al menos en los campos de cabecera.
Cada línea debe contener el mismo número de campos.
La primera línea contiene el nombre de los campos o atributos, es decir, los encabezados
de columna.
Un valor vacío se muestra como un campo vacío entre las pestañas.
Estos archivos pueden ser leídos y editados por cualquier editor de texto.
Aunque TSV es un formato de texto, este tipo de formato no se espera que aparece con
un bonito
formato tabular cuando se imprime con un editor oa la izquierda de la pantalla.
La extensión de este tipo de archivo es. "Txt" 'o ". Tsv.
El TXT (texto separado por tabuladores) o TSV (valores de texto / Separado Tab)
archivos de datos debe
tener el siguiente formato:
Un ejemplo de TXT válida o archivo TSV es el siguiente:
PRN FORMATO DE DATOS ARCHIVO Este formato tiene las mismas características y limitaciones que el formato CSV, la
diferencia es el
separador entre campos en formato PRN son espacios. Sin embargo, los espacios en
formato PRN tienen una
diferente papel que en los archivos de CVS.
atributo
1
<TAB> atributo <TAB> ... <TAB> atributo
N
valor
11
<TAB> Valor
12
<TAB> ... <TAB> Valor
1N
...
valor
M1
<TAB> Valor
M2
<TAB> ... <TAB> Valor
Minnesota
FirstName <TAB> Apellido <TAB> Empresa <TAB> EmailAddress
Johnathan <TAB> Doe <TAB> Compañía ABC <TAB> [email protected]
Harrie <TAB> Wong <TAB> Empresa <TAB> Inc. [email protected]
María <TAB> Jo Smith <TAB> Cualquier <TAB> Corp <TAB>
Página 19
19
Las características de estos archivos son los siguientes:
El primer registro en un archivo PRN puede ser un nombre que contiene registro de
encabezado de las columnas.
Cada registro en un archivo con las cabeceras de las columnas puede tener menos
campos que el número de
cabeceras. En este caso, los valores vacíos se consideran valores perdidos.
Cada fila debe tener el mismo número de campos separados por espacios.
Varios espacios juntos serán tratados como un solo espacio.
Los espacios al comienzo o al final de la línea indican valores nulos.
El símbolo de la separación de los números decimales es un punto en lugar de una coma.
Cada registro es una línea terminada por un carácter de nueva línea o un retorno de carro.
serán ignorados Las líneas en blanco.
Los campos pueden contener cita doble, retorno de carro (o cualquier otro carácter).
Los campos que contienen carácter de espacio como valor debe estar rodeado por
comillas dobles.
Un registro con un solo campo sin ningún valor debe tener los requisitos de tipo texto a
prevenir que no se ignora.
El último registro de un archivo se puede acabar o no con el fin del símbolo de línea.
Estos archivos se almacenan por defecto, con la extensión ".prn".
Los archivos PRN tienen los datos separados por espacios en blanco. Por lo tanto, estos
archivos de datos deben tener la
siguiente formato:
Un ejemplo de un archivo PRN válida es la siguiente: atributo
1
atributo
2
... Atributo
N
valor
11
valor
12
... Valor
1N
...
valor
M1
valor
M2
... Valor
Minnesota
OBS DELL GE YAHOO
1 26,99 48,5 22,92
2 26 49,93 20,83
3 26,24 49,96 20,13
4 25,76 49,48 19,98
5 26,73 49,43 19,74
6 24,93 49,83 18,86
7 25,84 49,01 18,23
8 25,91 49,73 17,79
9 24.6 50.15 17.1
Página 20
20
DIF FORMATO DE DATOS ARCHIVO DIF (Data Interchange Format) es un archivo de texto que se utiliza para importar /
exportar entre diferentes
programas de hojas de cálculo como Excel, StarCalc, dBase, y así sucesivamente.
Este tipo de formato se almacena con la extensión ". Dif"
Las características de estos archivos son los siguientes:
El formato consta de una cabecera seguida de un bloque de datos. El encabezado
comienza con un archivo con
Formato de texto ASCII.
o cadena es cualquier cadena, a menudo es el nombre de archivo u otra información.
o columnas es el número de columnas de una hoja de cálculo de Excel mediante el nombre.
o filas indica el número de filas de una hoja de cálculo de Excel mediante el nombre.
La cabecera termina con lo siguiente:
Esta cabecera es seguida por las células y los registros de la hoja de cálculo con el
información.
La estructura del registro de datos tiene el siguiente formato:
MESA 0,1
"Cuerda"
VECTORES 0, columnas
""
TUPLAS 0, filas
""
DATOS 0,0
""
DATOS 0,0
""
de tipo de datos, los datos "Cuerda"
Página 21
21
donde tipo de datos admite varios tipos: ESPECIAL, numéricos y CADENA,
representada por -1, 0 y 1, respectivamente.
o Tipo ESPECIAL
donde BOT y EOD son cadenas sin comillas. BOT representa el inicio
de la tabla y EOD final de la sección de datos.
o tipo numérico
donde el valor del indicador indica el tipo de datos almacenados en los datos:
- VERDADERO: 1.
- FALSO: 0.
- V: cualquier valor numérico.
- NA: valor faltante.
- ERROR: 0.
o tipo STRING
donde cadena es cualquier carácter de texto.
Un ejemplo de un archivo DIF válida es la siguiente:
-1,0
BOT
...
.1,0
EOD
0, los datos de
Valor-Indicador
1,0
"Cuerda" Mes
Semana
Vehículo
Cantidad
Enero
1
Auto
105.000
Enero
1
Camión
1,050
Enero
1
Autobús
1,575
Enero
1
Camión
2,100
Enero
1
Moto 583
Página 22
22
El formato de archivo interno DIF generado es el siguiente:
C4.5 FORMATO DE DATOS ARCHIVO Los archivos se codifican de acuerdo al formato C4.5. Este formato consta de dos archivos,
uno de ellos es un
el nombre de archivo con extensión ".names", el otro es un archivo de datos con extensión
".data".
Las características de los archivos de nombres son los siguientes:
El archivo .names contiene una serie de entradas que describen las clases, atributos y
valores de
el conjunto de datos. Cada registro se termina con un punto, pero el punto se puede omitir
si sería
han sido el último carácter de una línea). Cada nombre se compone de una cadena de
caracteres sin
comas, comillas o de colon (a menos que escaparon por una barra vertical, |).
Un nombre puede contener un punto, pero este punto debe ser seguido por un espacio en
blanco.
espacios en blanco incrustados se permite sino múltiples espacios en blanco se sustituyen
por un único
espacio.
MESA 0,1
"EXCEL"
VECTORES 0,6
""
TUPLAS 0,4
""
DATOS 0,0
""
-1,0
BOT 1,0
"Mes"
1,0
"Wek"
1,0
"Vehículo"
1,0
"Cantity"
-1,0
BOT 1,0
"Enero"
0,1
V
1,0
"Auto"
0,105.000
V
-1,0
BOT 1,0
"Enero"
0,1
V
1,0
"Camión"
0,1.050
V
-1,0
BOT 1,0
"Enero"
0,1
"Bus"
0,1.575
V
-1,0
BOT 1,0
"Enero"
0,1
"Camión"
0,2.100
V
-1,0
BOT 1,0
"Enero"
0,1
V
1,0
"Moto"
0583
V
-1,0
EOD
Página 23
23
El primer registro del archivo se enumeran los nombres de las clases, separados por
comas y
terminada por un punto. Cada línea sucesiva entonces define un atributo, en el orden en que
que aparecerán en los archivos .data, con el siguiente formato:
<Atributo de nombre: de tipo atributo>.
El nombre-atributo es un identificador seguido de dos puntos. El tipo de atributo
que debe ser uno de:
continua: si el atributo tiene unos valores continuos.
discreta <n>: la palabra 'discreta' seguido de un número entero que
indica cuántos valores puede tomar el atributo.
ignorar: indica que este atributo debe ser ignorada.
A | (barra vertical) significa que el resto de la línea debe ser considerada como un
comentario.
Estos archivos se almacenan, por defecto, con la extensión. "Nombres".
El formato del archivo '.name' es el siguiente:
Las características de los archivos de datos son los siguientes:
El archivo contiene una línea por el objeto. Cada línea contiene los valores de los
atributos ordenados
de acuerdo con archivo .names, seguido por la clase de objeto, con todas las entradas
separadas por
comas.
El formato es el mismo que el archivo CVS (valores separados por comas), explica en
archivos CVS datos
Formato.
A los valores perdidos se indican con '?'.
Estos archivos se almacenan, por defecto, con la extensión. "Datos".
El formato del archivo '.data' es el siguiente: clase 1, clase 2, ..., clase-N.
característica-1: dominio.
característica-2: dominio.
...
característica-M: dominio.
valor
11
, El valor
12
, ..., Valor
1N
valor
21
, El valor
22
, ..., Valor
2N
...
valor
M1
, El valor
M2
, ..., Valor
Minnesota
Página 24
24
Un ejemplo de un archivo de datos C4.5 es la siguiente
contenido del archivo '.name':
contenido del archivo '.data':
FORMATO EXCEL DATOS ARCHIVO Microsoft Excel es un programa de hoja de cálculo escrito y distribuido por Microsoft. Es
actualmente el
más utilizado hoja de cálculo para sistemas operativos Microsoft Windows y Apple
Macintosh. Es
integrado como parte de Microsoft Office.
Una hoja de cálculo es un programa que permite manipular datos numéricos y
alfanuméricos.
Las hojas de cálculo están dispuestos en filas y columnas. La intersección de una fila /
columna se llama celda
Cada celda puede contener datos o una fórmula que puede referirse al contenido de otras
células. Una hoja de cálculo
contiene 256 columnas, que están etiquetados con las letras (de la A a IV) y las filas con
números
(1 a 65,536), haciendo un total de 16.777.216 células mediante hoja de cálculo.
| En primer lugar el nombre de clases
bueno malo.
| Entonces los atributos
dur: continua.
wage1: continua.
wage2: continua.
wage3: continua.
cola: tc, ninguno, tcf.
hora: continuas.
pensiones: contr empl, allw ret, ninguno.
stby_pay: continua.
shift_diff: continua.
educ_allw: sí, no.
festivos: continuas.
vacaciones: normal, generoso, por debajo del promedio.
lngtrm_disabil: sí, no.
dntl_ins: medio, ninguno, lleno.
el duelo: sí, no.
empl_hplan: medio, lleno, ninguno.
2,5.0,4.0,?, Ninguno, 37,?,?, 5, no, 11, debajo de la media, sí, lleno, sí, lleno, buena
3,2.0,2.5,?,?, 35, ninguno,?,?,?, 10, promedio,?,?, Sí, lleno, mal
3,4.5,4.5,5.0, ninguno, 40,?,?,?, No, 11, promedio,?, Media,?,?, Bueno
3,3.0,2.0,2.5, tc, 40, ninguno,?, 5, no, 10, debajo de la media, sí, un medio, sí, lleno, mal
Página 25
25
Debido a la versatilidad de las hojas de cálculo modernas, se utilizan a veces para hacer
más pequeña
bases de datos, informes, y otros usos.
Formato de Microsoft Excel tiene extensión ".xls".
Un ejemplo de un archivo EXCEL válido es:
WEKA FORMATO DE DATOS ARCHIVO Los archivos de datos débiles están en el siguiente formato:
Encabezado. El nombre de la relación se define como la primera línea del archivo
ARFF. El formato es:
@ Relación <nombre-de-relación>
donde <relación-name> es una cadena. La cadena debe ser citado si el nombre incluye
espacios.
Declaración de atributos. Declaraciones de atributos toman la forma de una secuencia
de orderd
declaracionesattribute. Cada atributo en el conjunto de datos tiene su propia declaración
queattribute
define de forma exclusiva el nombre de ese atributo y su tipo de datos. La orden de los
atributos son
declaró indica la posición de la columna en la sección de datos del archivo. Por ejemplo, si
una
atributo es el tercero declaró entonces Weka espera que todo lo que atribuye valores habrá
encontrado en la columna tercera delimitado por comas. El formato de la
declaraciónattribute es:
@ Atributo <atributo-name> <tipo de datos>
<Atributo-name>: debe comenzar con un carácter alfabético. Si los espacios son para ser
incluido en el nombre y luego el nombre completo debe ser citado.
<Tipo de datos>: puede ser cualquiera de los cuatro tipos Actualmente (versión 3.2.1) con
el apoyo de
Weka:
Página 26
26
1) NUMERIC o REAL. Atributo numérico puede ser números reales.
2) INTEGER. Atributo entero puede ser números enteros.
3) FECHA. Fecha atributo es una cadena opcional que especifica cómo los valores de
fecha debe
ser analizado e impreso. La cadena de formato predeterminado acepta la norma ISO-8601
fecha y hora combinada formato: "aaaa-MM-dd'T'HH: mm: ss".
4) STRING. Atributos de Cuerda nos permiten crear atributos que contienen arbitraria
valores textuales.
5) enumerar. Enumerar atributo consiste en un conjunto de valores posibles
separados por comas (caracteres o cadenas), que puede tomar el atributo. Por
ejemplo, si tenemos un atributo que indica el tiempo podr'ıa Express:
@ Tiempo atributo {soleado, lluvioso, nublado}
Sección de datos. La sección de datos del archivo contiene la línea de declaración de
datos y el real
líneas de instancia. La declaracióndata es una sola línea que denota el comienzo del
segmento de datos
en el archivo. El formato es:
@ Datos X11, X12, ..., X1n
X21, x22, ..., X2N
Cada instancia se representa en una sola línea, con retornos de carro que denotan el final de
la
instancia.
Los valores de atributo para cada instancia están delimitados por comas. Deben aparecer en
el orden
que fueron declarados en la sección de encabezado (es decir, los datos correspondientes a la
n-ésima
declaraciónattribute es siempre el campo de n-ésimo del atributo).
Los valores perdidos están representados por un único signo de interrogación, como en:
data
4.4,?, 1,5,?, Iris-setosa
Algunas de las especificaciones de este formato son: o El nombre de la relación y los atributos son de tipo cadena. Este tipo de cadena es el
mismo que
tipo de cadena utilizado en Java.
o Si cualquier nombre contiene espacios, es necesario incluir comillas dobles.
o Si usted necesita para indicar un valores perdidos, usted tiene que utilizar el símbolo "?".
o El símbolo de la separación de los números decimales es un punto en lugar de una coma.
o El símbolo de la separación de datos en la sección de datos es @ coma.
o Un símbolo% significa que el resto de la línea debe ser considerada como un comentario.
o Estos archivos son las tiendas, por defecto, con la extensión ".arff".
Página 27
27
Los archivos de datos WEKA deben tener el siguiente formato:
Un ejemplo de un archivo de WEKA válido es:
XML FORMATO DE DATOS ARCHIVO XML (Extensible Markup Language) es un conjunto de reglas para definir etiquetas
semánticas que organizan un
documento en diferentes partes. XML es un metalenguaje que define la sintaxis para definir
otra
lenguajes de etiquetas estructurados.
Vamos a explicar el formato XML a seguir para convertir el archivo de datos
correctamente:
La primera línea debe seguir la siguiente estructura:
<? Xml version = "1.0" encoding = independiente "UTF-8" = "yes">
Usted puede tener varios atributos, algunos obligatorios y otros no lo son:
relation <relación-name>
attribute <atributo-name-1> <tipo de datos>
...
attribute <atributo de nombre-N> <tipo de datos>
data
valor
11
, El valor
12
, El valor
1N
...
valor
M1
, El valor
M2
, El valor
Minnesota
% Comentario
tiemporelation
perspectivasattribute soleado, nublado, lluvioso
verdadera temperaturaattribute
verdadera humedadattribute
attribute viento VERDADERO, FALSO
juegoattribute sí, no
data
soleado, 85,85, FALSO, no
soleado, 80,90, TRUE, sin
cubierto, 83,86, FALSO, sí
lluvioso, 70,96, FALSO, sí
lluvioso, 68,80, FALSO, sí
Página 28
28
o Versión: indica la versión XML utilizado en el documento. Este campo es obligatorio.
o codificación: indica la forma en que se ha codificado el documento. La opción por
defecto es
UTF-8, pero podría haber otros, como UTF-16, US-ASCII, ISO-8859-1, etc. Este campo no
es
obligatorio salvo.
o independiente: especifica si otros documentos, como un DTD, están obligados a
procesar el documento. El valor predeterminado es no "..
documentos XML deben seguir una estructura jerárquica por medio de etiquetas.
Elementos XML
puede contener otros elementos. Los elementos también pueden tener atributos, estos
siempre se expresan
como pares nombre-valor en la etiqueta de apertura del elemento.
Un documento bien formado debe ajustarse a las siguientes reglas:
• Los nombres de elementos entre mayúsculas y minúsculas, es decir, el siguiente es un
juego bien formada
par: <step> ... <step>, mientras que esto no es <step> ... </ paso>.
• Los elementos no vacíos están delimitados por tanto una etiqueta de comienzo y una
etiqueta final.
• Los valores de atributos siempre deben ser citados, utilizando comillas simples o dobles, y
cada
nombre de atributo debe aparecer sólo una vez en cualquier elemento
• Todos los espacios y retornos de carro se tienen en cuenta en los elementos.
• Los nombres de los elementos no deben comenzar con las letras "xml".
• Los nombres de los elementos no deben utilizar el carácter ":".
• A pesar de que es permisible usar los caracteres "." Y "-" en los nombres de elementos, no
es
recomendada porque el archivo XML de procesamiento aplicación puede interpretar estos
signos
como operadores. Por lo tanto estos caracteres se sustituirán en nuestra herramienta
por el carácter "_".
Caracteres • No se debe utilizar "\" en los nombres de los elementos.
• Los nombres pueden contener cualquier carácter alfanumérico, pero no pueden empezar
con una
carácter numérico o puntuacion.
Los caracteres especiales pueden ser representados ya sea mediante referencias a
entidades, o por medio de numérico
referencias de caracteres. Un ejemplo de una referencia de carácter numérico es "& #
x20AC;", que
se refiere al símbolo del euro a través de su punto de código Unicode en hexadecimal.
Una referencia de entidad es un marcador de posición que representa esa entidad. Se
compone de la entidad de
nombre precedido por un signo ("
Y
") Y seguido por un punto y coma ("
;
"). XML tiene cinco
entidades declarar con anterioridad:
• Y (ampersand) & amp;
• <(menor que) & lt;
•> (mayor que) & gt;
• '(apóstrofe) y apos;
• "(comillas) & quot;
Página 29
29
comentarios se pueden colocar en cualquier parte del árbol, incluyendo en el texto si el
contenido de la
elemento es texto. Comentarios XML comienzan con <! - y terminan con -> .
<! - Esto es un comentario. ->
XML requiere que los elementos pueden anidar correctamente, es decir, elementos no
pueden solaparse. Por
ejemplo, el código de abajo no es XML bien formado, debido a que el <em > y <strong >
elementos se superponen:
<! - ¡FALSO! NO BIEN FORMADO XML! ->
<P> normal <em> subrayado <strong> fuerte subrayado </ em> fuerte </ strong> </ p>
Todos los documentos XML deben contener un único par de etiquetas para definir el
elemento raíz. Todos los demás
elementos deben estar anidados dentro del elemento raíz. Todos los elementos pueden tener
sub (niños)
elementos. Sub elementos deben estar en pares y correctamente anidado dentro de su
elemento padre.
La etiqueta <root> indica el punto de inicio de los datos. Esta etiqueta puede tener
cualquier nombre. Si todo el
hijos de <root> no tienen el mismo nombre en la etiqueta <row>, el usuario debe introducir
el
nombre de esta etiqueta, de lo contrario, se supone que todos los niños tienen el mismo
valor.
Cada etiqueta <row> es padre de que existen etiquetas como atributos. El nombre en la
etiqueta de cada uno de
estos niños serán el nombre del atributo y el valor de la etiqueta es el valor de los datos de
la
atribuir.
Hay como etiquetas <fila> como filas de datos.
Un formato XML válido para la quilla es la siguiente: <? Xml version = "1.0" encoding = independiente "UTF-8" = "yes"?>
<Root>
<Fila1>
<Nombre-atributo-1> atributo-valor-11 </ attribute-name-1>
<Nombre-atributo-2> atributo-valor-12 </ attribute-name-2>
<Nombre-atributo-N> atributo-valor-1N </ attribute-name-N>
</ Fila1>
...
<RowM>
<Nombre-atributo-1> atributo-valor-M1 </ attribute-name-1>
<Nombre-atributo-2> atributo-valor-M2 </ attribute-name-2>
<Nombre-atributo-N> atributo-valor-MN </ attribute-name-N>
</ RowM>
</ Root>
Página 30
30
Otro formato XML válido para Quilla es la siguiente:
Un ejemplo de un archivo XML válido es el siguiente: En este ejemplo hay:
9 atributos: Identificación, curso, nombre, resumen, la numeración, disableprintg,
customtitles, timecreated
y timemodified.
2 casos con estas 9 atributos.
La etiqueta principal es <root>
La etiqueta <cliente> contiene cada instancia. En xml archivo de datos de exportación a
nuestra herramienta, el nombre de
esta etiqueta será el mismo que el nombre de tiendas de relación de datos en formato quilla.
<? Xml version = "1.0" encoding = independiente "UTF-8" = "yes"?>
<Root>
<Fila1>
<Nombre del campo = "atributo de nombre-1"> atributo-valor-11 </ field>
<Nombre del campo = "atributo de nombre-2"> atributo-valor-12 </ field>
<Nombre del campo = "atributo de nombre-N"> atributo-valor-1N </ field>
</ Fila1>
...
<RowM>
<Nombre del campo = "atributo de nombre-1"> atributo-valor-M1 </ field>
<Nombre del campo = "atributo de nombre-2"> atributo-valor-M2 </ field>
<Nombre del campo = "atributo de nombre-N"> atributo-valor-MN </ field>
</ RowM>
</ Root>
Página 31
31
<? Xml version = "1.0" encoding = "UTF-8"?>
<Root>
<Clientes>
<Id> 5 </ id>
<Curso> 66 </ curso>
<Nombre> Mi libro </ name>
<Summary> Resumen del libro </ summary>
<Numeración> 2 </ numeración>
<Disableprinting> 0 </ disableprinting>
<Customtitles> 1 </ customtitles>
<Timecreated> 1114095924 </ timecreated>
<Timemodified> 1114097355 </ timemodified>
</ Clientes>
<Clientes>
<Id> 6 </ id>
<Curso> 207 </ curso>
<Nombre> Mi libro </ name>
<Summary> Un resumen de la prueba </ summary>
<Numeración> 1 </ numeración>
<Disableprinting> 0 </ disableprinting>
<Customtitles> 0 </ customtitles>
<Timecreated> 1114095966 </ timecreated>
<Timemodified> 1114095966 </ timemodified>
</ Clientes>
</ Root>
Página 32
32
El siguiente ejemplo tiene otra estructura XML, pero los mismos datos que el ejemplo
anterior.
Se puede ver que hay 9 atributos y 2 casos de esto.
HTML FORMATO DE DATOS ARCHIVO HTML, una extensión de Hypertext Markup Language, es el lenguaje de marcado
predominante para la web
páginas. Proporciona un medio para describir la estructura de la información basada en
texto en un documento
(Que denota cierto texto como encabezados, párrafos, listas, etc.) y para complementar el
texto con
formularios interactivos , incrustadas imágenes y otros objetos. HTML se escribe en forma
de etiquetas
(Conocidos como etiquetas), rodeado por paréntesis angulares.
HTML es una aplicación del SGML de acuerdo con la norma internacional ISO 8879.
XHTML es una
reformulación de HTML 4 como aplicación XML 1.0, y permite la compatibilidad con las
aplicaciones de usuario
ya admitidas HTML 4 siguiendo un conjunto de reglas.
Las etiquetas HTML básicas son:
<HTML>: es la etiqueta que define el principio del documento.
<HEAD>: define la cabecera del documento, esta cabecera normalmente Contiene
información
sobre la página, como el título, las etiquetas META para correcta indexación de motores de
búsqueda, ESTILO
etiquetas, que determinan el diseño de la página, y JavaScript de codificación para los
efectos especiales. Dentro
la cabecera <HEAD> encontramos:
<? Xml version = "1.0" encoding = "UTF-8"?>
<Root>
<Row>
<Field name = "id"> 5 </ field>
<Field name = "supuesto"> 66 </ field>
<Nombre del campo = "nombre"> Mi libro </ field>
<Nombre del campo = "resumen"> resumen del libro </ field>
<Field name = "numeración"> 2 </ field>
<Field name = "disableprinting"> 0 </ field>
<Campo name = "customtitles"> 1 </ field>
<Nombre del campo = "timecreated"> 1114095924 </ field>
<Nombre del campo = "timemodified"> 1114097355 </ field>
</ Row>
<Row>
<Field name = "id"> 6 </ field>
<Field name = "supuesto"> 207 </ field>
<Nombre del campo = "nombre"> Mi libro </ field>
<Nombre del campo = "resumen"> Un resumen de la prueba </ field>
<Field name = "numeración"> 1 </ field>
<Field name = "disableprinting"> 0 </ field>
<Campo name = "customtitles"> 0 </ field>
<Nombre del campo = "timecreated"> 1114095966 </ field>
<Nombre del campo = "timemodified"> 1114095966 </ field>
</ Row>
</ Root>
Página 33
33
o <TITLE>: define el título de la página. Este será visible en la barra de título de la
navegador de los espectadores.
o <link>: define algunas características avanzadas, por ejemplo, hojas de estilo utilizadas
para la
el diseño de la página.
<BODY>: contiene el contenido principal o cuerpo del documento, aquí es donde usted
comenzará
escribir su documento y la colocación de sus códigos HTML. Se define comunes a
propiedades
toda la página, como el color y los márgenes de fondo. Dentro del cuerpo puede <BODY>
usted
puede utilizar una gran variedad de etiquetas. La etiqueta que utilizamos en nuestra
herramienta es
o <TABLE>: Esta etiqueta define el comienzo de una tabla (el <TR> representa filas
y <TD> representa las células).
El formato se ha explicado anteriormente corresponde a una página de HTML es:
<HTML>
<HEAD>
...
</ HEAD>
<BODY>
...
<TABLE>
...
</ TABLE>
....
</ BODY>
</ HTML>
Tag <TABLE> El modelo de tablas de HTML permite a los autores para organizar datos - texto, texto
preformateado, imágenes, enlaces,
formularios, campos de formulario, otras tablas, etc. - en filas y columnas de celdas.
Las tablas se definen con la etiqueta <table>. Una tabla se divide en filas (con la etiqueta
<tr>), y cada
fila se divide en celdas de datos (con la etiqueta <td>). Las cartas td gradas para "datos de
la tabla", que es el
contenido de una celda de datos. Una celda de datos puede contener texto, imágenes, listas,
párrafos, formas, líneas horizontales,
mesas, etc.
Diferentes etiquetas que definirán la estructura de la tabla para la obtención de un archivo
de datos válidos son:
o TR: La etiqueta <TR> nos permitirá insertar filas en la tabla.
o TH: La etiqueta <TH> nos permitirá definir la mesa principal tabla.
o TD: La etiqueta <TD> nos permitirá insertar celdas en cada fila. Podemos insertar
cualquier elemento:
imágenes, listas, texto con formato e incluso otras mesas.
Página 34
34
El formato HTML válido para Quilla es la siguiente: <Table>
<Tr>
<Th> Encabezado 1 </ th>
<Th> Encabezado 2 </ th>
<Th> Encabezado 3 </ th>
</ Tr>
<Tr>
<Td> Valor 1 </ td>
<Td> Valor 2 </ td>
<Td> Valor 3 </ td>
</ Tr>
<Tr>
<Td> Valor 4 </ td>
<Td> Valor 5 </ td>
<Td> Valor 6 </ td>
</ Tr>
</ Table>
Un ejemplo de un archivo HTML válido es el siguiente: <Html>
<Head>
<h1 align = "center"> VEHÍCULOS </ h1>
</ Head>
<Body>
<Table border = "1" cellspacing = "1" cellpadding = "0">
<Tr align = "center">
<Td> Mes </ td>
<Td> Semana </ td>
<Td> Vehículo </ td>
<Td> Importe </ td>
</ Tr>
<Tr>
<Td> enero </ td>
<Td> 1 </ td>
<Td> Coche </ td>
<Td> 105.0 </ td>
</ Tr>
<Tr>
<Td> enero </ td>
<Td> 1 </ td>
<Td> Camión </ td>
<Td> 1,05 </ td>
</ Tr>
<Tr>
<Td> enero </ td>
<Td> 1 </ td>
<Td> Moto </ td>
Página 35
35
<Td> 1.575 </ td>
</ Tr>
<Tr>
<Td> enero </ td>
<Td> 1 </ td>
<Td> Coche </ td>
<Td> 2.1 </ td>
</ Tr>
</ Table>
</ Body>
</ Html>
Página 36
36
Partición de datos Partición de datos le permite realizar particiones de cualquier conjunto de datos de formato
QUILLA existente. Figura 1 muestra
la ventana principal de esta opción.
Figura 1. Proceso de hacer particiones.
El proceso de partición se compone de las siguientes partes:
Paso 1. Seleccione Archivo. En primer lugar, usted debe elegir el camino del conjunto
completo de datos (en QUILLA
formato) que desea realizar particiones de la misma (ver figura 2).
Figura 2. Elige establecidos para hacer particiones de datos.
Paso 2. Tipo de partición . Una vez seleccionado el archivo, usted tiene que elegir el tipo
de partición.
Los diferentes tipos considerados son:
1. K veces la validación cruzada: esta partición le permite configurar el número de veces
que
las particiones (si desea configurar las diferentes opciones, usted tiene que hacer clic en
Botón "Opciones").
2. 5x2 validación cruzada: esta partición no permite configurar opciones.
3. Hold-Out: esta partición le permite configurar el número de particiones y el
porcentajes de capacitación y de prueba (si desea configurar las diferentes opciones,
tienes que hacer clic en el botón "Opciones").
Figura 3. Tipo de Partición.
Página 37
37
Paso 3. Semilla . Para hacer las particiones del conjunto de datos, es necesario especificar
el azar
generador de ver para realizar el proceso de división.
Figura 4. Seleccione la semilla.
Paso 4: Hacer las particiones . Una vez que los pasos anteriores se han configurado, el
particiones se llevarán a cabo cuando se hace clic en el botón "Dividir". Los archivos
generados durante
el proceso de partición se almacenan en el directorio especificado en el paso 1 y el nombre
de ellos
archivos se da automáticamente y depende del tipo de la partición seleccionada.
Editar Datos Editar datos le permite editar cualquier conjunto de datos de formato QUILLA existentes
con el fin de añadir nuevos atributos, a
eliminar otros, para corregir algunos errores, etc.
Figura 1. Proceso de edición de datos.
La Figura 1 muestra la ventana principal de esta opción. En primer lugar, debe seleccionar
la ruta de datos de origen
conjunto (en formato QUILLA) que desea editar (ver Figura 2).
Figura 2. Cargar conjunto de datos para editar su contenido.
Una vez cargado el archivo, aparece su contenido sobre la mesa. Las modificaciones
pueden llevarse a cabo tanto
en los casos y en variables. En siguiente, se muestran las dos opciones.
1. Datos Edición . En esta opción nuevas instancias se podrían añadir o instancias
existentes podrían ser borrados
o modificado (véase la Figura 3).
Página 38
38
Figura 3. Datos Edition.
El uso de la mesa y los botones situados sobre ella se pueden realizar las siguientes
operaciones:
•
Modificar el contenido de la celda : si desea modificar el contenido de la celda que tiene
que hacer clic en
la celda que desea cambiar. A continuación, sólo tiene que escribir el nuevo valor, y si
es válida, el contenido de la celda se modifica. De lo contrario, se muestra un diálogo de
error.
•
Eliminar una instancia : si desea eliminar una instancia, usted tiene que hacer clic en
cualquier celda
que corresponde a la instancia (fila) que desea eliminar. Entonces, un "Borrar
Se activa el botón instace ". Al hacer clic en él, se eliminará la instancia completa.
•
Añadir una nueva instancia: si desea agregar una nueva instancia, usted tiene que hacer
clic en la opción "Agregar
Botón de Instancia ". A continuación, se añade una nueva instancia, si se ha seleccionado
una celda, el nuevo
se añade ejemplo en la parte superior de la instancia en que hacía la celda seleccionada. Si
no celular era
seleccionado, se añade una nueva instancia de la parte inferior de la tabla. La nueva
instancia tiene
valores vacíos y las diferentes variables pueden ser llenadas haciendo click en los diferentes
las células.
2. Edición de variables. En esta opción de diferentes modificaciones en las variables
pueden ser llevadas a cabo (ver
La Figura 4).
Figura 4. Variable Edition.
El uso de la mesa y los botones situados sobre ella se pueden realizar las siguientes
operaciones:
Página 39
39
•
Añadir nuevas variables : si desea agregar nuevas variables, el "Agregar variable" botón
tiene
a hacer clic en. A continuación, se añade una nueva fila a la parte inferior de la mesa y el
diferentes características pueden ser llenados.
•
Añadir nuevas variables : si quieres eliminar una variable, primero una variable tiene que
ser seleccionado
y luego en el botón "Eliminar Variable" se tiene que hacer clic.
•
Cambie los valores de rango : si desea cambiar los valores de rango, un real o entero
variable tiene que ser seleccionado. Si la variable seleccionada es "entero" o "Real", puede
modificar los valores de rango y, a continuación, haga clic en el botón "Cambiar Range"
para cambiar el
información.
•
Cambie los valores nominales : si desea cambiar los valores nominales, un nominal
variable tiene que ser seleccionado. Si la variable seleccionada es nominal, se puede añadir
o
quitar los valores permitidos para esa variable mediante la lista y "Borrar" y "Agregar"
botón.
•
Cambio de atributos de tipo : si desea cambiar el tipo de variable, lo que tienes que hacer
clic en
la celda que desea cambiar de la columna "Tipo". A continuación, puede modificar el
tipo de variable a través de la lista especificando cualquier otro tipo.
•
Cambie el atributo "función" : si desea cambiar la función de atributo, usted tiene
hacer clic en la celda que desea cambiar de la columna "Función". Entonces puedes
modificar la "función" variable a través de la lista especificando si se trata de "entrada" o
"Salida".
Cuando haya realizado todos los cambios, puede guardarlos en un archivo pulsando el
botón "Guardar".
Página 40
40
DISEÑO EXPERIMENTO La parte Experimentos diseño tiene el objetivo de diseñar los experimentos deseados
utilizando un
interfaz gráfica. Sin duda, esta es la herramienta más innovadora integrada en este
programa. Los
objetivo es utilizar conjuntos de datos y algoritmos disponibles para generar una estructura
de directorio con toda la
archivos necesarios necesarios para ejecutar los experimentos diseñados en el equipo local
seleccionado por el usuario.
Ahora, usted puede olvidarse de scripts y otros archivos de parámetros que hicieron ardua
el diseño de un
experimentar, y comenzar a utilizar las nuevas ventanas interfaz basada.
Con este programa, sólo tiene que seleccionar los datos de entrada (conjuntos de datos), los
algoritmos que desee utilizar
y para hacer las conexiones oportunas entre ellos. También es posible concatenar métodos,
inserte pruebas estadísticas, etc ...
La tarea que es más simplificado es probablemente la configuración de los parámetros; todo
lo puede
hacerse desde un diálogo sencillo y sin necesidad de archivos de configuración externos.
Esta parte de la quilla tiene dos objetivos principales: por un lado, puede utilizar el software
como una prueba y
herramienta de evaluación durante el desarrollo de un algoritmo. Por otro lado, también es
una buena opción
con el fin de comparar los nuevos desarrollos con algoritmos estándar ya implementado y
disponible
en Keel 1.0.
La interfaz permite al usuario añadir nuevos algoritmos para el experimento está diseñado.
El único
requisito es aceptar el formato de entrada y salida del archivo QUILLA (referirse a ellos en
el QUILLA
Manual de referencia ). Esto proporciona una forma muy flexible para el usuario comparar
con nuevos métodos
los de KEEL 1.0.
Página 41
41
Configuración de los experimentos Cuando el experimentos se selecciona la opción, la ventana principal del módulo de
experimentos aparecerá:
En primer lugar, es necesario seleccionar el tipo de experimento y el tipo de particiones
para emplear; la
opciones seleccionadas determinarán el tipo de métodos y conjuntos de datos que estará
disponible para diseñar el
experimento.
Los tipos de particiones disponibles son los siguientes:
• validación cruzada k veces (el valor de k se debe especificar)
• validación cruzada 5x2
• sin validación
Página 42
42
Actualmente, el módulo de experimentos KEEL ofrece los siguientes tipos de
experimentos:
• Clasificación
• Regresión
• El aprendizaje no supervisado
Cuando el tipo de experimento se ha seleccionado, el panel de selección de conjuntos de
datos se mostrará,
permitiendo continuar el diseño de experimentos.
Selección de conjuntos de datos El comité de selección de conjuntos de datos muestra los conjuntos de datos disponibles
para el experimento actual. Sus contenidos
dependerá del tipo de experimento ya seleccionado:
Página 43
43
El siguiente paso es elegir los conjuntos de datos deseados desde el panel. Los botones
Seleccionar todo y Invertir
permite realizar la selección de fácil:
El botón Importar permite importar un puesto en el medio ambiente QUILLA datos
existentes, listo para ser
seleccionado para el experimento actual. Al hacer clic en él, la ventana principal de la
Herramienta de importación de datos
se mostrará. El proceso para importar un nuevo conjunto de datos puede se describe en la
Gestión de Datos
sección del módulo del manual.
Si se añade un nuevo conjunto de datos, aparecerán nuevos botones que permite al usuario
Invierte la selección actual
de los datos del usuario se pone, o para Seleccionar todo de ellos. Además, es posible
añadir incluso más conjuntos de datos
(Con la importación de botón), o para Retire los conjuntos de datos seleccionados.
Cuando se seleccionan todo el conjunto de datos es necesario, el proceso de diseño de
experimento puede continuar. Para hacer eso,
el usuario debe hacer clic en el panel gráfico en blanco para establecer el nodo de conjuntos
de datos del experimento.
Página 44
44
En este punto, el módulo de experimentos KEEL se compruebe si todas las particiones
necesarias de la actual
los conjuntos de datos seleccionados están presentes. Si se encuentran algunas particiones
que faltan (por ejemplo, si el usuario selecciona un valor de k
diferente de los juegos disponibles en la distribución estándar), la herramienta le pedirá la
siguiente
mensaje:
Al hacer clic en sí resultará en la generación de las particiones que faltan dentro de la quilla
ambiente. Si el usuario selecciona No generar las particiones, esta advertencia se mostrará
de nuevo
antes de la generación de la gráfica experimento.
Página 45
45
Experimento Gráfico El gráfico experimento muestra los componentes del experimento actual y describe la
relaciones entre ellos. El usuario puede agregar nuevos componentes utilizando el menú de
la izquierda:
Este menú tiene las siguientes categorías disponibles:
Conjuntos de datos: Modificar los conjuntos de datos de los experimentos.
Métodos Preprocesamiento: preproceso en los conjuntos de datos iniciales.
Métodos estándar: métodos de minería de datos.
Métodos de postprocesado: Post-proceso en los resultados de los métodos estándar.
Las pruebas estadísticas: Los procedimientos estadísticos para contrastar los resultados
obtenidos en el experimento.
Módulos de visualización: Mostrar los resultados de los experimentos de una forma
mejorada.
Conexiones: Vínculos entre los componentes del experimento.
Página 46
46
Los conjuntos de datos Este módulo permite al usuario editar los conjuntos de datos actuales seleccionados para el
experimento.
Como en el Select conjuntos de datos de panel, el usuario puede Añadir y Eliminar
conjuntos de datos para el experimento (de
los que ya están registrados en el entorno QUILLA). Además, todavía es posible importar
nuevos conjuntos de datos.
Además, el botón Editar permite al usuario indicar que las particiones (formación y prueba)
deseos
usar. De esta manera, es posible alterar temporalmente los archivos que se incluirán en el
experimento.
Página 47
47
Este cuadro de diálogo muestra los archivos iniciales del conjunto de datos. A partir de ella,
es posible Retire un par de la formación de un
par de archivos de entrenamiento / prueba, para quitar todos los archivos.
Además, el diálogo permite a Añadir un nuevo pares de archivos de entrenamiento y de
prueba. Para ello, deben ser seleccionados
mediante el uso de los botones de búsqueda:
Por último, también es posible añadir un conjunto completo de archivos de validación
cruzada k-pliegue seleccionando el
número adecuado de pliegues y pulsando el botón Añadir cv k veces .
Página 48
48
Métodos de preprocesamiento Esta categoría incluye varios métodos de preprocesamiento
• Transformar datos: Métodos para transformar el formato de los datos: Nominal a
binario, decimal
escalamiento ....
• Discretizers: Método para convertir los datos reales o numéricos en datos nominales.
• Selección de características: Métodos para seleccionar características de los datos.
• Generación Instancia: Métodos para generar nuevas instancias de los casos originales
del
conjunto de datos.
• Selección de instancia: Los métodos para seleccionar los casos de los datos.
• Valores perdidos: Métodos para evaluar los datos que contienen valores perdidos.
Para añadir cualquier método de preprocesamiento para el experimento actual, sólo se
necesita para seleccionarla y haga clic en
en el gráfico del experimento:
Página 49
49
Los métodos estándar Esta categoría incluye los métodos de minería de datos incluidos en la herramienta de la
quilla:
• Reglas de asociación : Los métodos para la extracción de reglas de asociación de datos.
• algoritmos de agrupamiento : La agrupación de métodos
• Árboles de decisión : Los métodos para la construcción de árboles de decisión.
• Aprendizaje Regla Fuzzy : Los métodos para realizar el aprendizaje basado en reglas
difusas.
• Hyperrectangles Aprendizaje : Los métodos que utilizan hyperrectangles para extraer
conocimiento a partir de
datos.
• Lazy aprendizaje : métodos que no construyen un modelo en su fase de entrenamiento
Aprender.
• Las redes neuronales : redes neuronales artificiales.
• Aprendizaje Regla : Los métodos para realizar el aprendizaje basado en normas.
• Los clasificadores estadísticos : clasificadores basados en modelos estadísticos.
• Modelos Estadísticos : Construcción de modelos estadísticos basados en datos.
• Descubrimiento Subgrupo : Métodos para el descubrimiento de subgrupos.
• SVM : máquinas de vectores soporte.
• regresión simbólica : Los métodos para la realización de procedimientos de regresión
simbólicos.
Para añadir cualquier método para el experimento actual, sólo se necesita para seleccionarlo
y haga clic en el gráfico de
el experimento:
Página 50
50
Métodos de postprocesado Esta categoría incluye los métodos de postprocesado incluidos en la herramienta de la
quilla:
• postprocesado Regla Fuzzy : Los métodos para la realización de una fase de postproceso
en los resultados
de un método de extracción Regla Fuzzy
Para añadir cualquier método de postprocesado para el experimento actual, sólo se necesita
para seleccionarla y haga clic en
en el gráfico del experimento:
Página 51
51
Las pruebas estadísticas Esta categoría incluye varios módulos estadísticos disponibles para contrastar experimentos
realizados con
la herramienta de software QUILLA:
• Las pruebas de clasificación : procedimientos estadísticos para contrastar los resultados
de la clasificación
experimentos.
• Las pruebas de regresión : procedimientos estadísticos para contrastar los resultados de
la regresión
experimentos.
Para añadir cualquier procedimiento estadístico para el experimento actual, sólo se necesita
para seleccionarlo y haga clic en
la gráfica del experimento:
Página 52
52
Módulos de visualización Esta categoría incluye varios módulos de visualización desarrolladas para analizar y
resumir la
resultados obtenidos en los experimentos:
• Mostrar resultados (de clasificación) : Módulos para que resumen los resultados
obtenidos en la clasificación
problemas.
• Mostrar resultados (regresión) : Módulos para que resumen los resultados obtenidos en
la regresión
problemas.
• Múltiples Resultados (Clasificación) : Módulos para analizar los resultados obtenidos en
la clasificación
problemas con múltiples algoritmos.
• Múltiples Resultados (regresión) : Módulos para analizar los resultados obtenidos en la
regresión
problemas con múltiples algoritmos.
Para añadir cualquier módulo de visualización para el experimento actual, sólo se necesita
para seleccionarlo y haga clic en
la gráfica del experimento:
Página 53
53
Conexiones Las conexiones permiten terminar el diseño del experimento, mediante la conexión de los
incluidos
módulos con flujos que representan el flujo de datos en el experimento. Se pueden utilizar
tanto como
entradas o salidas de los módulos.
1. Inserte conexión: para hacer una conexión, seleccione la
botón de la barra de herramientas de la izquierda. Entonces,
haga clic en el nodo de origen y, finalmente, haga clic en el nodo de destino.
2. Restricciones: hay algunas restricciones que deben ser considerados al realizar las
conexiones
entre los diferentes elementos:
•
Un conjunto de datos no puede tener entradas.
•
Los algoritmos de pre-procesamiento sólo pueden recibir aportaciones de un conjunto de
datos u otro pre-
método de proceso.
•
Métodos de extracción de conocimientos pueden recibir un flujo de un conjunto de datos, a
partir de una pre-
algoritmo de procesamiento o de un método anterior.
•
Los módulos de prueba y visualización deben recibir datos de entrada procedentes de un
método o de una
algoritmo de post-procesamiento.
•
Módulos de prueba y visualización no pueden tener salidas.
•
El gráfico no puede tener ningún ciclo.
Página 54
54
Todas estas restricciones se verifican en tiempo de ejecución cuando se ha creado una
conexión. Si uno de
estas conexiones no se permite, la aplicación mostrará un mensaje de error. En siguientes
figuras algunos
ejemplos de gráficos incorrectos se muestran:
Página 55
55
Gestión Gráfico El gráfico permite realizar las siguientes operaciones de más de sus elementos:
1. Menú contextual: es posible acceder al menú contextual haciendo clic con el botón
derecho
del ratón sobre un determinado nodo en la zona de dibujo. Este menú depende del objeto
seleccionado
y nos permite eliminar objetos, para configurar los parámetros de algoritmos, etc ...
2. Selección objetos: con el fin de seleccionar un solo elemento, basta con hacer clic con el
botón izquierdo del
ratón sobre él. Pero es posible seleccionar varios elementos, al hacer clic en una zona vacía
de la
área y arrastrando el ratón hasta cubrir todos los objetos deseados dibujar.
3. Mover objetos: Es posible mover uno o varios elementos seleccionados con la ayuda de
la izquierda
botón del ratón, arrastrándolos hasta la posición deseada. Otra forma es utilizar el
cursores del teclado.
4. Retire los objetos: Para eliminar un módulo, seleccionarla y pulsar Supr clave. También
es posible
y eliminar por el menú de contexto, de la barra de herramientas.
Página 56
56
Configuración de los parámetros del algoritmo Una vez que un módulo ha sido insertado en el gráfico, es posible configurar el valor de sus
parámetros.
Para ello, el usuario tiene que hacer doble clic sobre el símbolo algoritmo y un cuadro de
diálogo se mostrará; además,
este cuadro de diálogo puede demostrar a través del menú emergente que aparecerá cuando
el botón derecho del
ratón se presiona (opción Mostrar parámetros).
En la parte superior de este diálogo es posible establecer el número de veces que se
ejecutará el algoritmo
(Sólo disponible para los métodos aleatorios). Cada ejecución se realizará mediante una
semilla generada a partir de la
semilla inicial. La segunda lista permite especificar en que los datos establece los
parámetros serán cambiados.
En la tabla se encuentra en el centro de la ventana, todos los parámetros del algoritmo se
establecen para su
valores iniciales. Estos valores se pueden modificar, en cuanto a los nuevos valores serán
apropiados para la
método concreto; de lo contrario, aparecerá un mensaje de error:
Por último, el Default Values botón permite regresar todos los parámetros a sus valores por
defecto.
Página 57
57
Generación de experimentos Una vez que un experimento ha sido diseñado, el usuario puede generar a través de la
opción Experimento Run
del menú "Herramientas". Además, es posible utilizar el botón de herramientas bar.
En este punto, la herramienta de software realizará varias pruebas acerca de la integridad
del experimento.
En primer lugar, si detecta que hay que faltan particiones para algunos de los conjuntos de
datos empleadas, la
siguiente diálogo se mostrará, lo que permite a regenerarlos:
Esta es la última oportunidad para generarlos. Else, el experimento se generará de forma
incorrecta.
En segundo lugar, si algunos de los elementos de la gráfica no están conectados por flujos,
la siguiente advertencia
será pronta, y los nodos aislados serán descartados.
Si todo es correcto, el usuario tendrá que seleccionar una ruta para el archivo zip del
experimento:
Página 58
58
El proceso de generación genera un archivo ZIP que contiene todos los elementos
necesarios para ejecutar el
experimento. Si la generación experimento se ha completado con éxito, el siguiente
mensaje será
se muestra.
El experimento debe ejecutarse mediante el RunKeel archivo jar situada en "experimento /
scripts"
En la siguiente imagen, podemos ver un ejemplo de la estructura de directorios que se crea.
Nosotros
ver que cuatro directorios se crean:
•
exe directorio : contiene todos los archivos jar de los algoritmos introducidos en el
experimento.
•
scripts de directorio : contiene los archivos de configuración según algoritmo. Además,
contiene el
RunKeel.jar archivo que se utiliza para ejecutar el experimento.
•
conjuntos de datos de directorio: contiene el utilizado en el experimento. Un directorio
para cada conjunto de datos es
creado.
•
resultados directorio: contiene los archivos de salida generados por cada algoritmo.
Página 59
59
Barra de menús Cada elemento de la barra de menú contiene diferentes submenús. Estas son las diferentes
opciones disponibles:
Menú 1. Archivo
•
Nueva Experimento: crea un nuevo experimento.
•
Cargar Experimento: abre un experimento existente. En el cuadro de diálogo Abrir,
seleccione un
nombre de archivo y haga clic en Abrir. Experimentos archivos normalmente se guardan en
formato XML.
•
Guardar Experimento: guarda el experimento actual en un archivo XML. Si es la primera
vez
que se guarda el experimento, se le preguntó acerca de la ruta de destino.
•
Guardar Experimento Como: ahorra experimento actual en un archivo XML. Se le pedirá
sobre la ruta de destino.
•
Salir: cierra la herramienta de diseño de experimento. Si el experimento no se ha guardado
aún,
usted puede hacerlo en este momento.
2. Menú Ver
•
Barra de estado: muestra / oculta la barra de estado (en la parte inferior de las ventanas).
Inicialmente, es
activo.
•
Cuadrícula: muestra / oculta la cuadrícula de alineación. Ayuda al usuario para facilitar la
alineación de
los elementos insertados en el área de drenaje. Inicialmente, es inactivo.
•
Ayuda Panel: mostrar / disimular el panel de ayuda. Inicialmente, es activo.
•
Conjuntos de datos / Algoritmo: mostrar / disimular el panel que contiene los conjuntos
de datos / algoritmos.
Inicialmente, es activo.
Página 60
60
3. Menú Editar
•
Deshacer: con esta opción el usuario puede deshacer algunas acciones.
•
Rehacer: con este usuario opción puede rehacer algunas acciones deshechas.
•
Seleccionar: permite a los usuarios seleccionar uno o más elementos en la zona de dibujo.
4. Menú Herramientas
•
Inserte flujo de datos: permite la conexión de las salidas del algoritmo (o conjunto de
datos) a las entradas de
otro algoritmo, la creación de un flujo de datos que se ejecutará después. Esta opción es
también
disponible en la barra de la izquierda a través del botón
•
Importación de paquetes QUILLA algoritmo: el fin de insertar el método de un usuario,
seleccione esta
opción y explorar el camino para elegir el método.
•
Instantánea: es posible guardar el diseño de experimentos en un archivo de formato de
imagen
(JPEG). De esta manera le permite insertar en cualquier documento, artículo, etc ...
•
Experimento Ejecutar: cuando experimento está totalmente diseñado, utilice esta opción
para crear una postal
archivo que contiene una estructura de directorio con todos los archivos necesarios para
ejecutar el diseño
experimento en el equipo local seleccionado por el usuario.
•
Semilla: establece el valor de la semilla utilizada por el generador de números aleatorios.
Si hay
cualquier algoritmo (insertado en el experimento) que necesita para generar números
aleatorios, se
se llevará en una semilla creada a partir del valor inicial de la semilla. Esta semilla se puede
establecer
Página 61
61
automáticamente o se puede insertar un valor manualmente. La siguiente imagen muestra el
de diálogo impulsada por esta opción:
•
Opciones de ejecución: permite seleccionar algunas opciones de rendimiento para aplicar
a la
experimento. En esta versión, la opción definida es el siguiente:
•
Montón de Java Tamaño : Indique el número de MB que se asignará en cada
la ejecución del algoritmo. El valor predeterminado es 512 MB. Por favor, no establecer
una mayor
valor que la cantidad real de memoria RAM. El mínimo valor aceptado ha sido
establece en 32 MB.
5. Menú de ayuda
•
Contenido: mostrar un cuadro de diálogo de ayuda que contiene información acerca de
cómo utilizar este
programa.
•
Acerca de ...: muestra un cuadro de diálogo con información básica sobre el programa
como nombre,
autores, versión, etc ...
Página 62
62
Barra de herramientas Para ayudar al usuario a encontrar las operaciones más relevantes, la herramienta de
software Experimentos KEEL
proporciona una barra de herramientas con accesos directos a ellos.
La mayoría de ellos también aparecen en la barra de menú (por lo tanto, se refieren a la
sección de la barra de menús para obtener adicional
información sobre ellos). La única opción que aún no aparece en la barra de menú es:
Eliminar : Esta opción permite al usuario eliminar el módulo seleccionado.
Página 63
63
Barra de estado La barra de estado es una forma sencilla para proporcionar la información útil de usuario
durante la generación de
experimentos.
Se encuentra en la parte inferior de la ventana. Aquí aparecerá información sobre el
bienestar de acción
llevado a cabo, lo que ayuda al usuario a comprender el significado de cada comando o
botón. Varios
ejemplos se muestran a continuación:
Página 64
64
RUN QUILLA
RunKeel Lanzamiento Cuando el usuario se diseña un experimento, se obtendrá un archivo .ZIP que contiene
todos los archivos necesarios para
ejecutar el experimento en cualquier equipo que tenga una máquina virtual Java instalada.
Es necesario para
extraer el contenido del archivo comprimido y luego obtendrá un directorio llamado
"experimento"
(Como lo había llamado el experimento). En su interior, hay un nuevo directorio llamado
"scripts" en el que se
puede iniciar la aplicación RunKEEL escribiendo java -jar RunKeel.jar en una consola.
Entonces la
experimento comienza a correr.
Cuando termine, el usuario obtendrá en el símbolo del sistema el mensaje
EXPERIMENTO "
COMPLETADO SATISFACTORIAMENTE "
Ver resultados Una vez que el plazo de experimento ha terminado, los archivos de resultados se pueden
encontrar en el resultado \ directorio.
Dependiendo del tipo de los métodos utilizados en el experimento, los siguientes
directorios y archivos serán
disponible:
• Métodos : Para cada combinación de un método y un conjunto de datos, habrá un
directorio, llamado
<MethodName> . <DataSetName>.
En el interior, se pueden encontrar los archivos de salida del método (por lo general, una
formación y una prueba
archivo de salida para cada partición, además de todos los archivos de salida adicional
definido por el método). Por
mayor referencia, consulte el Manual de Referencia QUILLA .
• Exámenes: Para cada módulo de prueba empleado, un nuevo directorio llamado con el
nombre de la prueba se
estar disponible. Este directorio contiene los archivos de salida obtenidos como resultado
de la
aplicación del método de ensayo.
Por otro lado, tenga en cuenta que los nuevos conjuntos de datos obtenidos como resultado
de la ejecución de una
método de pre-procesamiento se colocará en los conjuntos de datos \ directorio del
experimento, para permitir una mayor
el empleo de ellos con métodos vinculados en el mismo experimento.
Página 65
Sesenta y cinco
EDUCATIVO
Introducción QUILLA es una herramienta de software desarrollada para construir y utilizar diferentes
modelos de minería de datos. Nos gustaría
remarcar que esta es la primera herramienta de software de este tipo que contiene un código
libre biblioteca de Java
Algoritmos Evolutivos aprendizaje. Las principales características de la quilla son:
•
Contiene algoritmos pre-procesamiento: transformación, discretización, selecciones de
instancia y
selecciones de características.
•
También contiene un conocimiento Extracción Algoritmos Biblioteca, supervisado y no
supervisado,
destacando la incorporación de múltiples algoritmos de aprendizaje evolutivo.
•
Cuenta con una biblioteca de análisis estadístico para analizar algoritmos.
•
Contiene una interfaz fácil de usar, orientado al análisis de algoritmos.
•
El entorno del QUILLA puede conectarse a Internet para descargar nuevos archivos de
datos para utilizarlos en
futuros análisis.
Podemos distinguir tres partes en el entorno gráfico:
•
La preparación de la parte Bases de datos permite a los usuarios crear diferentes particiones
de su propia
bases de datos o las bases de datos disponibles en la web quilla. Además, es posible editar,
aplicar
transformaciones, generan conjuntos de datos en el formato correcto de los archivos C4.5 o
ver datailed
parcelas sobre un conjunto de datos concreto.
•
El Diseño de Experimentos parte tiene el objetivo de diseñar los experimentos deseados
utilizando
una interfaz gráfica. Después del experimento está diseñado, la interfaz genera un archivo
.ZIP
que contiene una estructura de directorio con todos los archivos necesarios necesario para
ejecutar esos experimentos
en el equipo local
La interfaz también permite al usuario añadir sus propios algoritmos para el ser
experimentación
diseñado. El único requisito es aceptar el formato de archivo de entrada de la quilla.
Incluso, no es
necesaria para utilizar el lenguaje Java para los propios algoritmos de usuario. Esto
proporciona una muy
de manera flexible para el usuario comparar sus propios métodos con los que está en quilla.
•
La Generación de Algoritmos Evolutivos con la biblioteca JCLEC permite al usuario crear
sus propios algoritmos evolutivos utilizando una interfaz gráfica. En esta versión de la
quilla, este
parte no se ha implementado.
Barra de menús Cada elemento de la barra de menú contiene diferentes submenús. Estas son las diferentes
opciones disponibles:
Menú 1. Archivo
Página 66
66
2. Nueva Experimento: crea un nuevo experimento.
3. Experimento de carga: se abre un experimento existente. En el cuadro de diálogo Abrir,
seleccione un
nombre de archivo y haga clic en Abrir. Experimentos archivos normalmente se guardan en
formato XML.
4. Guardar Experimento: guarda el experimento actual en un archivo XML. Si es la
primera vez
que se guarda el experimento, se le preguntó acerca de la ruta de destino.
5. Guardar Como Experimento: ahorra experimento actual en un archivo XML. Se le
pedirá
sobre la ruta de destino.
6. Salir: cierra la herramienta de diseño de experimento. Si el experimento no se ha
guardado aún,
usted puede hacerlo en este momento.
3. Menú Ver
•
Barra de estado: muestra / oculta la barra de estado (en la parte inferior de las ventanas).
Inicialmente, es
activo.
•
Cuadrícula: muestra / oculta la cuadrícula de alineación. Ayuda al usuario para facilitar la
alineación de
los elementos insertados en el área de drenaje. Inicialmente, es inactivo.
•
Ayuda Panel: mostrar / disimular el panel de ayuda. Inicialmente, es activo.
•
Conjuntos de datos / Algoritmo: mostrar / disimular el panel que contiene los conjuntos
de datos / algoritmos.
Inicialmente, es activo.
4. Menú Editar
•
Deshacer: con esta opción el usuario puede deshacer algunas acciones.
•
Rehacer: con este usuario opción puede rehacer algunas acciones deshechas.
Página 67
67
•
Seleccionar: permite a los usuarios seleccionar uno o más elementos en la zona de dibujo.
5. Menú Herramientas
•
Inserte flujo de datos: permite la conexión de las salidas del algoritmo (o conjunto de
datos) a las entradas de
otro algoritmo, la creación de un flujo de datos que se ejecutará después. Esta opción es
también
disponible en la barra de la izquierda a través del botón
•
Importación de paquetes QUILLA algoritmo: el fin de insertar el método de un usuario,
seleccione esta
opción y explorar el camino para elegir el método.
•
Instantánea: es posible guardar el diseño de experimentos en un archivo de formato de
imagen
(JPEG). De esta manera le permite insertar en cualquier documento, artículo, etc ...
•
Experimento Ejecutar: cuando experimento está totalmente diseñado, utilice esta opción
para ejecutar la
experimento diseñado y ver los resultados.
•
Semilla: establece el valor de la semilla utilizada por el generador de números aleatorios.
Si hay
cualquier algoritmo (insertado en el experimento) que necesita para generar números
aleatorios, se
se llevará en una semilla creada a partir del valor inicial de la semilla. Esta semilla se puede
establecer
automáticamente o se puede insertar un valor manualmente. La siguiente imagen muestra el
de diálogo impulsada por esta opción:
Página 68
68
•
Opciones de ejecución: permite seleccionar algunas opciones de rendimiento para aplicar
a la
experimento. En esta versión, la opción definida es el siguiente:
•
Montón de Java Tamaño : Indique el número de MB que se asignará en cada
la ejecución del algoritmo. El valor predeterminado es 512 MB. Por favor, no establecer
una mayor
valor que la cantidad real de memoria RAM. El mínimo valor aceptado ha sido
establece en 32 MB.
6. Menú de ayuda
•
Contenido: mostrar un cuadro de diálogo de ayuda que contiene información acerca de
cómo utilizar este
programa.
•
Acerca de ...: muestra un cuadro de diálogo con información básica sobre el programa
como nombre,
autores, versión, etc ...
Barra de herramientas Para ayudar al usuario a encontrar las operaciones más relevantes, la herramienta de
software Experimentos KEEL
proporciona una barra de herramientas con accesos directos a ellos.
Página 69
69
La mayoría de ellos también aparecen en la barra de menú (por lo tanto, se refieren a la
sección de la barra de menús para obtener adicional
información sobre ellos). La única opción que aún no aparece en la barra de menú es:
Eliminar : Esta opción permite al usuario eliminar el módulo seleccionado.
Barra de estado La barra de estado es una forma sencilla para proporcionar la información útil de usuario
durante la generación de
experimentos.
Se encuentra en la parte inferior de la ventana. Aquí aparecerá información sobre el
bienestar de acción
llevado a cabo, lo que ayuda al usuario a comprender el significado de cada comando o
botón. Varios
ejemplos se muestran a continuación:
Página 70
70
Configuración de los experimentos
Cuando la Educación se selecciona la opción, la ventana principal del módulo de
experimentos aparecerá:
En primer lugar, es necesario seleccionar el tipo de experimento y el tipo de particiones
para emplear; la
opciones seleccionadas determinarán el tipo de métodos y conjuntos de datos que estará
disponible para diseñar el
experimento.
Los tipos de particiones disponibles son los siguientes:
• validación cruzada k veces (el valor de k se debe especificar)
• validación cruzada 5x2
• sin validación
Actualmente, el módulo de experimentos KEEL ofrece los siguientes tipos de
experimentos:
Página 71
71
• Clasificación
• Regresión
Cuando el tipo de experimento se ha seleccionado, el panel de selección de conjuntos de
datos se mostrará,
permitiendo continuar el diseño de experimentos.
Selección de conjuntos de datos El comité de selección de conjuntos de datos muestra los conjuntos de datos disponibles
para el experimento actual. Sus contenidos
dependerá del tipo de experimento ya seleccionado:
El siguiente paso es elegir los conjuntos de datos deseados desde el panel. Los botones
Seleccionar todo y Invertir
permite realizar la selección de fácil:
Página 72
72
El botón Importar permite importar un puesto en el medio ambiente QUILLA datos
existentes, listo para ser
seleccionado para el experimento actual. Al hacer clic en él, la ventana principal de la
Herramienta de importación de datos
se mostrará. El proceso para importar un nuevo conjunto de datos puede se describe en la
Gestión de Datos
sección del módulo del manual.
Cuando se seleccionan todo el conjunto de datos es necesario, el proceso de diseño de
experimento puede continuar. Para hacer eso,
el usuario debe hacer clic en el panel gráfico en blanco para establecer el nodo de conjuntos
de datos del experimento.
Página 73
73
Experimento Gráfico
El gráfico experimento muestra los componentes del experimento actual y describe la
relaciones entre ellos. El usuario puede agregar nuevos componentes utilizando el menú de
la izquierda:
Este menú tiene las siguientes categorías disponibles:
Conjuntos de datos: Modificar los conjuntos de datos de los experimentos.
Métodos Preprocesamiento: preproceso en los conjuntos de datos iniciales.
Métodos estándar: métodos de minería de datos.
Conexiones: Vínculos entre los componentes del experimento.
Página 74
74
Los conjuntos de datos Este módulo permite al usuario editar los conjuntos de datos actuales seleccionados para el
experimento.
Como en el Select conjuntos de datos de panel, el usuario puede Añadir y Eliminar
conjuntos de datos para el experimento (de
los que ya están registrados en el entorno QUILLA). Además, todavía es posible importar
nuevos conjuntos de datos.
Además, el botón Editar permite al usuario indicar que las particiones (formación y prueba)
deseos
usar. De esta manera, es posible alterar temporalmente los archivos que se incluirán en el
experimento.
Página 75
75
Este cuadro de diálogo muestra los archivos iniciales del conjunto de datos. A partir de ella,
es posible Retire un par de la formación de un
par de archivos de entrenamiento / prueba, para quitar todos los archivos.
Además, el diálogo permite a Añadir un nuevo pares de archivos de entrenamiento y de
prueba. Para ello, deben ser seleccionados
mediante el uso de los botones de búsqueda:
Por último, también es posible añadir un conjunto completo de archivos de validación
cruzada k-pliegue seleccionando el
número adecuado de pliegues y pulsando el botón Añadir cv k veces .
Página 76
76
Métodos de preprocesamiento Esta categoría incluye varios métodos de preprocesamiento
• Discretizers: Método para convertir los datos reales o numéricos en datos nominales.
• Selección de características: Métodos para seleccionar características de los datos.
• Generación Instancia: Métodos para generar nuevas instancias de los casos originales
del
conjunto de datos.
Para añadir cualquier método de preprocesamiento para el experimento actual, sólo se
necesita para seleccionarla y haga clic en
en el gráfico del experimento:
Página 77
77
Los métodos estándar Esta categoría incluye los métodos de minería de datos incluidos en la herramienta de la
quilla:
• Árboles de decisión : Los métodos para la construcción de árboles de decisión.
• Aprendizaje Regla Fuzzy : Los métodos para realizar el aprendizaje basado en reglas
difusas.
• Las redes neuronales : redes neuronales artificiales.
• Aprendizaje Regla : Los métodos para realizar el aprendizaje basado en normas.
• Los clasificadores estadísticos : clasificadores basados en modelos estadísticos.
• Modelos Estadísticos : Construcción de modelos estadísticos basados en datos.
• SVM : máquinas de vectores soporte.
Para añadir cualquier método para el experimento actual, sólo se necesita para seleccionarlo
y haga clic en el gráfico de
el experimento:
Página 78
78
Conexiones Las conexiones permiten terminar el diseño del experimento, mediante la conexión de los
incluidos
módulos con flujos que representan el flujo de datos en el experimento. Se pueden utilizar
tanto como
entradas o salidas de los módulos.
1. Inserte conexión: para hacer una conexión, seleccione la
botón de la herramienta de la izquierda
bar. A continuación, haga clic en el nodo de origen y, finalmente, haga clic en el objetivo
node.Ç
2. Restricciones: hay algunas restricciones que deben ser considerados al hacer
conexiones entre los diferentes elementos:
1. Un conjunto de datos no puede tener entradas.
2. Los algoritmos de pre-procesamiento sólo pueden recibir aportaciones de un conjunto de
datos u otro
método de pre-proceso.
Métodos de extracción 3. Conocimiento pueden recibir un flujo de un conjunto de datos, a
partir de una pre-
algoritmo de procesamiento o de un método anterior.
4. El gráfico no puede tener ningún ciclo.
Todas estas restricciones se verifican en tiempo de ejecución cuando es resultado de una
conexión
creado. Si no se permite una de estas conexiones, la aplicación mostrará un error
mensaje. En siguientes figuras se pueden ver algunos ejemplos de gráficos incorrectos.
Página 79
79
Gestión Gráfico El gráfico permite realizar las siguientes operaciones de más de sus elementos:
1. Menú contextual: es posible acceder al menú contextual haciendo clic con el derecho
botón del ratón sobre un determinado nodo en la zona de dibujo. Este menú depende de la
seleccionada
objetar y nos permite eliminar los objetos, para configurar los parámetros de algoritmos, etc
...
Selección 2. Objetos: con el fin de seleccionar un solo elemento, basta con hacer clic con
el botón izquierdo del
ratón sobre él. Pero es posible seleccionar varios elementos, al hacer clic en una zona vacía
de la
área y arrastrando el ratón hasta cubrir todos los objetos deseados dibujar.
3. Mover objetos: Es posible mover uno o varios elementos seleccionados con la ayuda de
la
botón izquierdo del ratón, arrastrándolos hasta la posición deseada. Otra forma es utilizar el
cursores del teclado.
4. Retire los objetos: Para eliminar un módulo, seleccionarla y pulsar Supr clave. También
es posible
y eliminar por el menú de contexto, de la barra de herramientas.
Página 80
80
Configuración de los parámetros del algoritmo Una vez que un módulo ha sido insertado en el gráfico, es posible configurar el valor de sus
parámetros.
Para ello, el usuario tiene que hacer doble clic sobre el símbolo algoritmo y un cuadro de
diálogo se mostrará; además,
este cuadro de diálogo puede demostrar a través del menú emergente que aparecerá cuando
el botón derecho del
ratón se presiona (opción Mostrar parámetros).
En la parte superior de este diálogo es posible establecer el número de veces que se
ejecutará el algoritmo
(Sólo disponible para los métodos aleatorios). Cada ejecución se realizará mediante una
semilla generada a partir de la
semilla inicial. La segunda lista permite especificar en que los datos establece los
parámetros serán cambiados.
En la tabla se encuentra en el centro de la ventana, todos los parámetros del algoritmo se
establecen para su
valores iniciales. Estos valores se pueden modificar, en cuanto a los nuevos valores serán
apropiados para la
método concreto; de lo contrario, aparecerá un mensaje de error:
Por último, el Default Values botón permite regresar todos los parámetros a sus valores por
defecto.
Página 81
81
Ejecutar experimento Una vez que un experimento ha sido diseñado, el usuario puede generar a través de la
opción Experimento Run
del menú "Herramientas". Además, es posible utilizar el botón de herramientas bar.
En este punto, nueva ventana nos permite ejecutar el experimento.
Si se pulsa el botón de inicio se llevará a cabo el experimento y los resultados se mostrarán
en el "Informe
sección de área ". En esta sección, la información reportada es el porcentaje total de
aciertos
teniendo en cuenta todas las particiones, el porcentaje de aciertos en cada partición y la
matriz de confusión.
Esta información está indicada tanto para la formación y el conjunto de datos de prueba.
Por otra parte, en la sección de
"Área de partición", se especifica el tiempo de cálculo para cada partición. Un ejemplo es la
ejecución
se muestra en la siguiente figura.
Página 82
82