minería de datos en el estudio de celdas de combustible ... · 2. mineria de datos los datos son...

XXVI Congreso Anual de la Sociedad Nuclear Mexicana

XIV Congreso Nacional de la Sociedad Mexicana de Seguridad Radiológica

Puerto Vallarta, Jalisco, México, del 5 al 8 de Julio de 2015

1/14 Memorias Puerto Vallarta 2015 en CDROM

Minería de Datos en el estudio de Celdas de Combustible Nuclear

José Ángel Medina Patrón

Universidad Autónoma de Campeche

Av. Agustín Melgar s/n entre Calle 20 y Juan de la Barrera, colonia Buenavista,

San Francisco de Campeche, Campeche, México CP 24039

[email protected]

Juan José Ortiz-Servin, Alejandro Castillo, José Luis Montes-Tadeo, Raúl Perusquía

Departamento de Sistemas Nucleares, Instituto Nacional de Investigaciones Nucleares

Carr. Mexico-Toluca S/N. La Marquesa, Ocoyoacac, Edo. Mexico

[email protected]; [email protected]; [email protected];

[email protected]

Resumen

En este trabajo se presenta un estudio de aplicación de Minería de Datos en el análisis de

celdas de combustible y su desempeño dentro de un reactor nuclear de agua en

ebullición. Se utilizó un árbol de decisión que realiza preguntas del tipo "If condición

THEN conclusión" para clasificar si las celdas de combustible tendrán buen desempeño.

El desempeño es medido por el cumplimiento o no del margen de apagado en frío, la tasa

de generación lineal de calor y la generación promedio de calor en un plano del reactor.

Se asume que las celdas de combustible son simuladas en el reactor bajo una recarga de

combustible y patrones de barras de control prediseñados. Se utilizaron 18125 celdas de

combustible que fueron simuladas de acuerdo a un cálculo en estado estacionario. El árbol

de decisión trabaja sobre una variable objetivo que es una de las tres mencionadas antes.

Para analizar ese objetivo, el árbol de decisión trabaja con un conjunto de variables

atributo. En este caso, los atributos son características de la celda como número de barras

de gadolinia, número de barras con cierto enriquecimiento de uranio mezclado con una

cierta concentración de gadolinia, etc. El modelo encontrado fue capaz de predecir el

cumplimiento o no del margen de apagado con una precisión de alrededor del 95%. En

cambio, las otras dos variables presentaron porcentajes menores debido a pocos casos de

aprendizaje del modelo en los que no se cumplían o se cumplían dichas variables. Aún

con este inconveniente, el modelo es bastante confiable y puede ser utilizado de forma

acoplada en sistemas de optimización de celdas de combustible.

1. INTRODUCCIÓN

En la Administración de Combustible dentro del núcleo, se realiza un proceso de optimización de

varios problemas de tipo combinatorio. La solución de cualquiera de ellos requiere la ejecución

repetitiva de códigos de simulación del reactor bajo distintas condiciones. La ejecución de miles

de veces de estos códigos puede demorar varias horas o incluso días para obtener un resultado.

Por ejemplo, al diseñar una celda de combustible para un lote de recarga, para poder garantizar

que es un buen diseño de celda, es necesario diseñar un ensamble de combustible, la recarga de

José Ángel Medina Patrón et al, Minería de Datos en el estudio de Celdas de Combustible Nuclear


combustible y finalmente sus patrones de barras de control. Si la simulación del reactor garantiza

que se cumplen los criterios de seguridad como límites térmicos y margen de apagado, además de

que se alcanzan los requerimientos de energía; entonces ese diseño de celda es adecuado para el

reactor de acuerdo a criterios neutrónicos estáticos. Una evaluación de ese tipo podría demorar

varios días en completarse. Entonces se tendrían que proponer cambios a la celda y volver a

evaluarla de acuerdo a la metodología mencionada. Es obvio que un proceso así puede consumir

muchos recursos de cómputo o inclusive ser imposible de realizar.

Por tal razón, se han estudiado y desarrollado otras metodologías para hacer un estimado de qué

tan bueno puede ser una celda de combustible sin necesidad de ejecutar los simuladores del

reactor y hacer las optimizaciones respectivas. Se ha entrenado una red neuronal [1] para predecir

cuantas variables de seguridad se van a cumplir si una celda de combustible se inserta en una

recarga de combustible y patrones de barras de control dados. Las variables de seguridad que se

vigilaron en ese trabajo eran la razón de potencia crítica (CPR), la tasa de generación lineal de

calor (LHGR), la generación planar de calor del núcleo (APLHGR), el margen de apagado en frío

(SDM) y si el reactor es crítico en cada uno de los pasos de quemado en que se divide el ciclo de

operación. La red neuronal logró predecir el número de variables que se cumplen con buena

precisión.

Una limitación de la red neuronal es el tiempo de entrenamiento, mientras más datos tiene para

"aprender", más tiempo requiere. Por tal motivo se eligió otra técnica para analizar una base de

18225 celdas de combustible con sus correspondientes valores de límites térmicos, SDM y

valores de criticidad del reactor. Usando minería de datos [2] se analizaron dicha base, también

con el propósito de predecir la cantidad de parámetros de seguridad que se cumplen dada la celda

de combustible. El porcentaje de predicción se elevó hasta cerca del 80%.

En el presente trabajo, se utiliza nuevamente la misma base de datos de 18225 celdas de

combustible, pero con la diferencia de predecir si se cumple el LHGR (cuantificado a través de su

fracción FLPD), el APLHGR (a través de su fracción MAPRAT) y el SDM, en lugar de predecir

cuantas variables se cumplen. También se usa minería de datos para analizar la base de datos.

Para una mejor comprensión del trabajo realizado, la presentación se hace de la siguiente manera:

en la siguiente sección se describe de forma general que es la minería de datos, en la Sección 3 se

describe como se generó la base de datos, posteriormente se presentan los resultados obtenidos y

las conclusiones. Al final se muestran las referencias que soportan parte del trabajo realizado.

2. MINERIA DE DATOS

Los datos son parte importante de la vida y del aprendizaje del ser humano, entender y poder

relacionarlos es lo que divide a la información del conocimiento. El concepto de extracción

(minería) en busca de información dentro una gran base de datos, ha dado paso a la creación de lo

que hoy se conoce como minería de datos.

La minería de datos conocido como data mining, es una etapa dentro de la llamada extracción de

conocimiento en bases de datos (Knowledge Discovery in Databases o KDD). Este proceso

mostrado en la Figura 1 consta de las siguientes etapas:





Selección. Se define la base de datos a ser explorada y se fijan los objetivos.

Preprocesado. En esta etapa se quitan los valores atípicos, erróneos o impurezas de los datos

(ruido), ya que en la base puede existir información que redunde o haga menos limpio el proceso

de extracción de información.

Transformación. En ella se refinan los atributos para poder ser implementados en el tipo de

técnica de la minería a emplear.

Minería de datos. Se aplica el tipo de método según la problemática a estudiar, objetivos o el

tipo de información que se tiene.

Interpretación – Evaluación. Una vez obtenido los patrones de la base de datos de la etapa

anterior, esta nos conduce a una información, la cual es evaluada y a partir de esta da lugar al

conocimiento

Figura 1. Proceso de descubrimiento de conocimiento en bases de datos (KDD)

La minería de datos nace como una tecnología de ayuda para poder comprender grandes bases de

datos. Cuando se genera un modelo a partir de los datos y se le da una interpretación es cuando

podemos afirmar que se obtuvo información. Emplear la minería de datos empieza a tomar

terreno en diversas disciplinas, al inicio principalmente en las cuestiones económicas y

administrativas, pero su utilización interdisciplinaria ha favorecido su uso en diagnósticos

médicos, política, predicciones de audiencias televisivas, investigaciones espaciales,

investigaciones de carácter judicial, predicciones de partidas de ajedrez o cuestiones

meteorológicas. Como ejemplo se puede mencionar su implementación en grandes empresas o

instituciones como IBM, La British Broadcasting Corporation (BBC) y el FBI.



La utilización de la minería de datos en los últimos años ha empezado a tener una relevancia

importante en el área de las ciencias, pudiéndose concluir que esta última por su complejidad de

entendimiento o por cuestiones de tiempo de ejecución en sistemas de cómputo supera un análisis

con técnicas limitadas.

La técnica usada para realizar estas operaciones en minería de datos se denomina modelado, en él

se construye un modelo en la cual se conoce la respuesta a una situación y luego es aplicada a

otra diferente en la que se desconoce el resultado.

Los algoritmos que se usan en la minería de datos están diseñados para trabajar sobre grandes

bases de datos y poder encontrar contextos nuevos, ocultos o inesperados. La minería de datos

utiliza una combinación de técnicas basadas en el análisis estadístico, el análisis

multidimensional, la lógica difusa, la lógica neuronal, la visualización de datos y los agentes

inteligentes, todas ellas tratando de encontrar patrones importantes para poder construir modelos

predictivos de conducta o de consecuencias.

Uno de los algoritmos más empleados por su sencillez y su fácil interpretación visual al usuario

final es el árbol de decisiones, también denominados como arboles de clasificación o de

identificación. Este modelo se clasifica dentro de las tareas de la minería de datos como

descriptiva, la cual se resume como la identificación de patrones en los datos hacia el parámetro

objetivo. Este modelo fue el que se usó en este trabajo y es el que se explica a continuación.

Un árbol de decisión es un modelo predictivo el cual tiene una estructura decrecientemente y

condicionalmente jerárquico en los parámetros influyentes, respecto al parámetro objetivo, desde

la raíz hasta las hojas. Esta técnica toma valores de entrada (ya sea nominales o valores

numéricos) como atributos hacia una variable objetivo (binomial o polinomial). En la Figura 2 se

muestra la estructura de un árbol de decisión. En la Figura 3 se muestran ramificaciones en las

cuales las hojas conformadas por las variables proporcionadas se llaman atributos, son las que se

encuentran encerradas en óvalos y terminan su ramificación con la variable objetivo encerradas

en rectángulos. Finalmente en la Figura 4 se representa una rama que muestra una clara

conclusión prominente de las variables definidas como atributos (ya que la barra final de color

rojo para este caso, representa una fuerte tendencia dentro de varias ramificaciones).

El KDD tiene su empleo final ligado al uso de sistemas de cómputo para poderse llevar a cabo de

una forma rápida y eficaz, por lo cual el desarrollo de plataformas para efectuar todo este proceso

hoy en día están en auge. Existe software para el estudio de la minería de datos, dentro de los

cuales uno de los que hoy en día ha tenido relevancia y que se encuentra clasificado dentro de los

últimos años en los primeros lugares es RapidMiner.

2.1. Software RapidMiner

El software RapidMiner [3] lleva el mismo nombre de la compañía generadora. Nació en 2001,

en la unidad de Inteligencia artificial de la Universidad Tecnológica de Dortmund en Alemania,

con el desarrollo de un programa flexible y poderoso de minería de datos, llamado YALE (Yet

Another Learning Enviroment).





RapidMiner Studio es un entorno de código libre para el diseño de los procesos analíticos

avanzados con el aprendizaje automático, minería de datos, minería de texto, análisis predictivo y

análisis de negocios.

Figura 2. Árbol de decision

Figura 3. Ejemplos de ramificaciones del árbol de decisión



Figura 4. Ramificación de variables definidas como atributos hasta la aseveración de

cumplimiento de la variable objetivo (barra en color rojo) del árbol de decisión

Este software maneja un entorno grafico en cada proceso, cada rectángulo llamado operador en

este software, lleva a cabo una función de manera secuencial, los cuales se encuentran

interconectados hasta el puerto de resultados (conexión final donde desemboca todo el proceso).

Puede verse que el programa lleva a cabo los pasos que conforman el proceso KDD. Por

mencionar algunos de estos se ilustran los siguientes: (a) el operador de almacenamiento de base

de datos, (b) operadores para preprocesamiento, (c) operador de transformación, (d) operador de

minería de datos y (e) operadores de evaluación. Lo anterior se puede ver en la Figura 5 con la

nomenclatura indicada para cada inciso.

Figura 5. Captura de pantalla de un proceso en RapidMiner.





A continuación se presenta un ejemplo sencillo de la aplicación y de la utilidad de la generación

de un árbol de decisión realizado en RapidMiner. Considérese la información de la Tabla I

generada previamente de juegos de golf [3].

Tabla I. Tabla de valores de las condiciones climatológicas de partidos de golf

Por consiguiente, lo que se busca es obtener la información que nos prediga bajo qué condiciones

se ha podido llevar a cabo un partido dependiendo de las variables climatológicas que existen.

Las variables son: el clima (Outlook), la temperatura (temperature), la humedad (humidity) y si

hubo viento (wind). Esto lleva a definir en RapidMiner la variable jugar (play) como objetivo y

las otras variables como atributos de la misma. Aplicándole el operador de árbol de decisión de

minería de datos se obtiene el árbol de la Figura 6.

Figura 6. Árbol de decisión de jugar al golf

Row No. Play Outlook Temperature Humidity Wind

1 no sunny 85 85 false

2 no sunny 80 90 true

3 yes overcast 83 78 false

4 yes rain 70 96 false


6 no rain 65 70 true

7 yes overcast 64 65 true

8 no sunny 72 95 false

9 yes sunny 69 70 false


11 yes sunny 75 70 true

12 yes overcast 72 90 true

13 yes overcast 81 75 false

14 no rain 71 80 true



Las conclusiones que se deducen a partir del árbol son las siguientes:

-Si el clima es nublado se juega. (Probabilidad del 28.6%)

-Si el clima es lluvioso y no hay viento se juega. (Probabilidad del 21.4%)

-Si el clima es lluvioso y hay viento no se juega. (Probabilidad del 14.3%)

-Si el clima es soleado y la humedad es mayor que 77.5 no se juega. (Probabilidad del 21.4%)

-Si el clima es soleado y la humedad es igual o menor que 77.5 se juega. (Probabilidad del

14.3%)

Nota: Véase que la barra roja que predice que sí se juega cuando el clima es nublado es más

gruesa que las otras por su mayor probabilidad, esto no quiere decir en una toma de decisiones

que sea la mejor, depende del intérprete, analista y de los resultados que se busquen.

Con estas conclusiones, RapidMiner genera un modelo predictivo que puede ser aplicado a una

base de datos nueva y predice si se jugará o no. Los datos que sirven para generar el modelo

predictivo se les llama datos de entrenamiento. A los datos de la base nueva se les llama datos de

test o prueba.

3. GENERACION DE LA BASE DE DATOS

Para generar la base de datos de 18225 celdas de combustible junto con su simulación en el

reactor, se siguieron los pasos que se listan a continuación:

1. Se optimizaron 45 celdas de combustible con cada técnica de optimización (redes

neuronales, búsqueda dispersa y colonias de hormigas). Las celdas se ejecutaron con el

código CASMO-4. Las celdas cumplen con un enriquecimiento promedio de 4.06% U235

y 40% de concentración total de gadolinia, de modo que

𝐶𝐺𝐷𝑇 = ∑ 𝐵𝐺𝑑−𝑖

𝑁𝑖=1 ∗ 𝐶𝐺𝑑−𝑖 (1)

donde CTGd es la concentración total de gadolinia de la celda, BGd-i es el número de barras

con la concentración CGd-i en la celda, N es el número de CGd-i distintos que hay en la

celda.

2. A partir de cada una de las celdas del paso anterior se generaron igual número de celdas

con una concentración total de gadolinia de 50%. Las celdas del paso anterior y las de este

paso, constituyen la parte baja de dos lotes de recarga de combustible fresco. El primero

se denomina LT1 y el segundo LT2.

3. Se construyeron axialmente los ensambles de combustible extrapolando los

enriquecimientos de uranio y concentraciones de gadolinia de las celdas de la parte baja,

agregando gadolinia en un 10% de concentración.

4. Utilizando una recarga de combustible prediseñada y patrones de barras de control

prediseñados, se simularon los ensambles de combustible en el simulador del reactor

SIMULATE-3 [4]. Para las celdas de combustible de una técnica se simularon las

combinaciones de las 45 celdas iniciales, es decir 45x45 = 2025 simulaciones.

Considerando las 3 técnicas se tienen 6075 simulaciones.





5. De las 45 celdas de LT1 y 45 celdas de LT2 se contabilizaron las cantidades mostradas en

la Tabla I.

6. De cada una de las 6075 simulaciones se extrajeron los valores más limitantes del FLPD,

FLCPR y MAPRAT de todo el ciclo y el SDM al inicio del ciclo de operación.

Tabla II. Lista de variables y parámetros de la celda

Variable o Parámetro Explicación

Histograma-i 1 = Aleatorio, 2 = Normal, 3 = tipo χ2

Ci-SU Cuantifica la simetría de la distribución de uranio en la celda de

acuerdo a la diagonal trazada entre los extremos de la barra de

control. Valores bajos de esta variable indican que la celda es muy

simétrica

Ci-Gd Cuantifica el número total de barras de gadolinia en la celda sin

importar su concentración

Ci-Gd1 Cuantifica el número de barras con U=3.6% y CGd = 2%














Ci-GdGd Cuantifica el número de barras con gadolinia que están cara a cara

Ci-GdH20 Cuantifica el número de barras con gadolinia que rodean a los

canales de agua

Ci-U1 Cuantifica el número de barras con U=2% en posiciones no

periféricas de la celda

Ci-U2 Cuantifica el número de barras con U=2.4% en posiciones no






FPPL El valor del Factor de Pico de Potencia Local de la celda

kinf El valor del factor infinito de multiplicación de neutrones de la

celda

Cabe mencionar que esta base de datos se generó para realizar un análisis estadístico, para

estudiar el efecto del número de barras enriquecidas en cada uno de los niveles de uranio



normalmente usados, en el diseño de las celdas de combustible. Por ejemplo, cuantas barras al

2%, cuantas al 2.4% y así sucesivamente hasta 4.9%. Esto define un histograma de frecuencia de

uso de cada uno de los niveles de enriquecimiento. En ese estudio se utilizaron 3 tipos de

histograma: aleatorio, normal y tipo χ2. Por tanto en realidad, los pasos mencionados antes se

hicieron para cada una de los tres tipos de histograma. Por lo tanto, se tienen 6075 * 3 = 18225

simulaciones.

El objetivo de usar Minería de Datos es encontrar relaciones entre variables o parámetros de la

celda y su comportamiento en el reactor, medido a través de los límites térmicos y el SDM. Las

variables y parámetros de celda que se emplearon en este estudio se muestran en la Tabla I. Cabe

mencionar que las variables y parámetros de la Tabla II, se cuantifican para cada una de las 6

celdas de combustible del ensamble fresco. Ambos tienen una celda distinta en la parte baja,

tienen una intermedia y otra en la parte alta.

4. METODOLOGIA

El objetivo del trabajo es encontrar relaciones entre las variables y los parámetros de seguridad

del reactor de la Tabla II. Para esto, se busca que la Minería de Datos construya modelos de

árboles de decisión entre estas variables, las cuales a su vez nos servirán como evaluadores de

datos de celdas posteriormente.

Se llevó a cabo primeramente la asignación de las que serían tratadas como variables objetivos:

SDM, FLPD y MAPRAT. Posteriormente se designó aquellas que cumplirían con la función de

variables atributos y cuáles serían descartadas.

Una vez que se comprendió el funcionamiento del software de minería, en este caso Rapidminer

Studio 5.3.013 [3], se analizó que tipo de variables (nominales, numéricas continuas y enteras

para nuestro estudio) iban a ser introducidas o cómo iban a ser designadas, y el tipo de análisis

que se deseaba (de identificación) para determinar la técnica de minería (árbol de decisión) a

emplear.

Posteriormente se efectuó un proceso en RapidMiner para cada una de los tres parámetros

objetivo. En cada proceso se designaron las mismas variables atributos respecto a las variables

objetivo, en el cual fueron unificadas las variables de cada celda, respectivamente, tanto del lote 1

y 2, fijando ya sea el SDM, FLP o el MAPRAT como objetivo.

De las 18225 muestras se tomaron 9113 para entrenamiento (tomadas de forma intercalada) y las

9112 para prueba del modelo.

Un punto importante a considerar cuando se genera un árbol de decisión, es como hacer una

ramificación del árbol y que RapidMiner llama tamaño de hoja. El tamaño de hoja se define

como la cantidad mínima de muestras de entrenamiento que cumplen una condición para que se

tome como una regla y por tanto hacer la ramificación. Una condición se establece como una

pregunta del tipo "IF condición THEN conclusión". Por ejemplo, "IF temperatura < 10°C THEN

hace_frio = TRUE". Tómese el ejemplo en que el tamaño de hoja es igual a 10, cuando

RapidMiner está analizando las muestras y registra que solo 9 muestras cumplen cierta condición,





entonces no se hace la ramificación e ignora esa conclusión. En cambio, si 11 muestras cumplen

la condición entonces ocurre la ramificación o conclusión final.

Es claro que si el tamaño de hoja es igual a 1, entonces cada pregunta o condición deberá

conducir a una ramificación y/o conclusión. En cambio, cuando el tamaño de hoja aumenta,

muchas conclusiones o ramificaciones menores son ignoradas. La primera situación conduce a un

modelo muy preciso para predecir, pero con una complejidad muy alta. La segunda situación

conduce a un modelo menos preciso y menos complejo. Por precisión se debe entender el

porcentaje de muestra de entrenamiento que se reconocen de forma correcta. En la Figura 7 se

muestra cómo varía la precisión del modelo en función del tamaño de hoja que está expresado

como porcentaje del tamaño del conjunto de entrenamiento.

Figura 7. Comportamiento del árbol de decisión en función del tamaño de la hoja

5. RESULTADOS

A continuación se muestra la evaluación del modelo para los tres parámetros definidos como

variables objetivo: SDM, MFLPD Y MAPRAT. La variable objetivo fue "Se cumple o no se

cumple la variable XXX" donde XXX es SDM, MFLPD o MAPRAT. El tamaño de la hoja se

estableció en el 1% de las muestras de entrenamiento ya que con este valor, la evaluación de la

precisión para los datos de entrenamiento y el de prueba tienen un margen de diferencia de

porcentaje de precisión pequeño, a la par que también se consideró que esta precisión se conserva

por arriba del 92 % .

La Tabla III muestra resultados para el SDM; la Tabla IV muestra resultados para el MFLPD; y,

la Tabla V muestra resultados para el MAPRAT. Cada tabla se divide en dos partes, una que

muestra la precisión con el conjunto de entrenamiento y la segunda que muestra la precisión del

conjunto de prueba. Ya sea para entrenamiento o prueba, cada tabla indica la precisión global del

modelo en la parte superior izquierda. Los títulos de las columnas corresponden al cálculo del

simulador del reactor. Los títulos de las filas corresponden a la predicción del árbol de decisión.

Por ejemplo, en la Tabla III para el caso del entrenamiento, de las 9113 muestras de

entrenamiento, 5430 no cumplen el SDM de acuerdo al simulador del reactor. Sin embargo, de



las 5430 muestras, el árbol de decisión dice que 5178 muestras no cumplen el SDM y 252 si lo

cumplen. Esto quiere decir hay una precisión del 94.52% para el caso de muestras donde el SDM

no se cumple.

Tabla III. Resultados para el SDM

Caso de Entrenamiento

PRECISION DEL MODELO:

93.94%

SIMULATE-3 PRECISIÓN DE

CLASIFICACIÓN (%) No se cumple Si se cumple

Predicción del Árbol

de Decisión

No cumple 5178 300 94.52

Sí cumple 252 3383 93.07

Caso de Prueba


93.94%




de Decisión

No cumple 5134 332 93.93

Sí cumple 275 3371 92.46

Tabla IV. Resultados para el FLPD



96.85%




de Decisión

No cumple 8708 223 97.50

Sí cumple 64 118 64.84

Caso de Prueba


96.67%




de Decisión

No cumple 8702 226 97.47

Sí cumple 77 107 58.15

Tabla V. Resultados para el MAPRAT



97.12%



Predicción del

Árbol de Decisión

No cumple 163 71 69.66

Sí cumple 191 8688 97.85

Caso de Prueba


96.55%



Predicción del

Árbol de Decisión

No cumple 138 93 59.74

Sí cumple 221 8660 97.51





6. ANALISIS Y CONCLUSIONES

El análisis de los resultados se divide en dos partes. Para el caso del Margen de Apagado en Frío,

se tienen altos porcentajes de precisión tanto en entrenamiento como en prueba; al igual que para

predecir muestras donde no se cumple el SDM como muestras donde si se cumple el SDM, se

tienen porcentajes altos. Esto quiere decir que el árbol de decisión es capaz de predecir si el SDM

se cumplirá para una celda de combustible con una precisión muy alta.

En el caso del MFLPD y del MAPRAT, en cambio se observa una tendencia distinta al SDM.

Mientras que el comportamiento del árbol de decisión es consistente entre los casos de

entrenamiento con los casos de prueba, no ocurre lo mismo entre los casos donde se cumplen y

los casos donde no se cumplen las variables FLPD y MAPRAT. Para el MFLPD el modelo tiene

altos porcentajes de precisión para los casos donde no se cumple la variable. Para el MAPRAT, el

modelo tiene altos porcentajes de precisión en los casos donde se cumple la variable. Esto es

debido a la cantidad de muestras de entrenamiento donde se cumplen o no se cumplen estas

variables.

Analizando el SDM, la cantidad de muestras de entrenamiento que fueron 9113, el modelo se

entrenó con 5430 casos en los cuales no se cumple la variable y en los demás se cumple el

parámetro. EL modelo se entrenó con la misma cantidad de muestras de cada tipo

(aproximadamente 40/60% no se cumple/si se cumple). En cambio en el FLPD, de las misma

cantidad de muestras de entrenamiento (9913), sólo 341 lo cumplen y el resto no. Esto condujo a

que el modelo aprendiera a predecir los casos donde no se cumple con bastante precisión y a

predecir con menor precisión los casos donde si se cumple. Para el MAPRAT, de las 9113; en

354 de los casos, la variable no se cumple y en el resto sí. Esto provocó que el modelo prediga

con alta precisión los casos donde se cumple el MAPRAT y con menor precisión los casos donde

no se cumple la variable. Esto tiene sentido porque todos los modelos de aprendizaje, como las

redes neuronales, aprenden mejor cuando tienen muchos ejemplos de entrenamiento.

Todo esto lleva a la conclusión de que un buen modelo que se quisiera generar en RapidMiner,

debería de ser lo más equitativo posible en la cantidad de muestras en el cumplimento y no de la

variable a predecir. Es importante resaltar los resultados con altos porcentajes de precisión que se

encontraron. Aún para los casos donde se obtuvieron valores más bajos de precisión, debe

resaltarse el hecho de que el árbol de decisión aprendió a reconocer malos valores MAPRAT a

partir de solo el 3.8% de los casos de entrenamiento y fue capaz de alcanzar porcentajes de

precisión del orden de 60%. Para el MFLPD, se aprendió a reconocer buenos valores del MFLPD

a partir del 3.74% de los casos y fue capaz de obtener porcentajes de precisión del orden de 59%.

Esto habla de la robustez del modelo y su confiabilidad.

Es importante resaltar como una conclusión y logro de este trabajo, que ahora se dispone de un

modelo de predicción de 3 parámetros de seguridad del núcleo del reactor, que trabaja con una

precisión aceptable. Lo interesante es que puede ser acoplado a un sistema de optimización de

celdas de combustible, que pueda evaluar rápidamente su desempeño dentro del reactor, sin

necesidad de ejecutar los simuladores del reactor altamente costosos en tiempo. De este modo, se

pueden descartar muchas celdas de combustible que no son prometedoras y, dedicar recursos de

cómputo solo en aquellas celdas que lo requieran.



AGRADECIMIENTOS

Los autores agradecen al Consejo Nacional de Ciencia y Tecnología (CONACYT) y al Instituto

Nacional de Investigaciones Nucleares (ININ), por el apoyo brindado para la realización de la

presente investigación a través de los proyectos CB-2007-C01-82705 y CA-215,

respectivamente.

REFERENCIAS

1. Ortiz-Servin J.J., Pelta D. A. and Castillo J. A., "A Neural Network To Predict Reactor Core

Behaviors", Nuclear Science and Techniques, Vol. 25, p. 010602-1 - 010602-6 (2014).

2. Ortiz-Servin J. J., Cadenas J. M., Pelta D. A., Castillo A., Montes-Tadeo J. L., "Nuclear fuel

lattice performance analysis by data mining techniques", Annals of Nuclear Energy, Vol. 80,

p. 236–247 (2015).

3. "Página de RapidMiner", www.rapidminer.com (2015).

4. Dean D. 2005. SIMULATE-3. Advanced Three-Dimensional Two-Group Reactor Analysis

Code. User’s Manual. Studsvik Scandpower INC. SSP-95/15 - Rev3.

5. "Página de la Universidad Abierta de Cataluña".

http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.pdf

6. "Página de la Universidad Nacional del Nordeste de Argentina".

http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.

pdf

7. "Tesis Doctoral en la Universidad de Granada". http://elvex.ugr.es/doc/PhD/tesis.pdf

http://www.rapidminer.com/

http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf

http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf

minería de datos en el estudio de celdas de combustible ... · 2. mineria de datos los datos son...

Documents