minería de datos en el estudio de celdas de combustible ... · 2. mineria de datos los datos son...
TRANSCRIPT
XXVI Congreso Anual de la Sociedad Nuclear Mexicana
XIV Congreso Nacional de la Sociedad Mexicana de Seguridad Radiológica
Puerto Vallarta, Jalisco, México, del 5 al 8 de Julio de 2015
1/14 Memorias Puerto Vallarta 2015 en CDROM
Minería de Datos en el estudio de Celdas de Combustible Nuclear
José Ángel Medina Patrón
Universidad Autónoma de Campeche
Av. Agustín Melgar s/n entre Calle 20 y Juan de la Barrera, colonia Buenavista,
San Francisco de Campeche, Campeche, México CP 24039
Juan José Ortiz-Servin, Alejandro Castillo, José Luis Montes-Tadeo, Raúl Perusquía
Departamento de Sistemas Nucleares, Instituto Nacional de Investigaciones Nucleares
Carr. Mexico-Toluca S/N. La Marquesa, Ocoyoacac, Edo. Mexico
[email protected]; [email protected]; [email protected];
Resumen
En este trabajo se presenta un estudio de aplicación de Minería de Datos en el análisis de
celdas de combustible y su desempeño dentro de un reactor nuclear de agua en
ebullición. Se utilizó un árbol de decisión que realiza preguntas del tipo "If condición
THEN conclusión" para clasificar si las celdas de combustible tendrán buen desempeño.
El desempeño es medido por el cumplimiento o no del margen de apagado en frío, la tasa
de generación lineal de calor y la generación promedio de calor en un plano del reactor.
Se asume que las celdas de combustible son simuladas en el reactor bajo una recarga de
combustible y patrones de barras de control prediseñados. Se utilizaron 18125 celdas de
combustible que fueron simuladas de acuerdo a un cálculo en estado estacionario. El árbol
de decisión trabaja sobre una variable objetivo que es una de las tres mencionadas antes.
Para analizar ese objetivo, el árbol de decisión trabaja con un conjunto de variables
atributo. En este caso, los atributos son características de la celda como número de barras
de gadolinia, número de barras con cierto enriquecimiento de uranio mezclado con una
cierta concentración de gadolinia, etc. El modelo encontrado fue capaz de predecir el
cumplimiento o no del margen de apagado con una precisión de alrededor del 95%. En
cambio, las otras dos variables presentaron porcentajes menores debido a pocos casos de
aprendizaje del modelo en los que no se cumplían o se cumplían dichas variables. Aún
con este inconveniente, el modelo es bastante confiable y puede ser utilizado de forma
acoplada en sistemas de optimización de celdas de combustible.
1. INTRODUCCIÓN
En la Administración de Combustible dentro del núcleo, se realiza un proceso de optimización de
varios problemas de tipo combinatorio. La solución de cualquiera de ellos requiere la ejecución
repetitiva de códigos de simulación del reactor bajo distintas condiciones. La ejecución de miles
de veces de estos códigos puede demorar varias horas o incluso días para obtener un resultado.
Por ejemplo, al diseñar una celda de combustible para un lote de recarga, para poder garantizar
que es un buen diseño de celda, es necesario diseñar un ensamble de combustible, la recarga de
José Ángel Medina Patrón et al, Minería de Datos en el estudio de Celdas de Combustible Nuclear
2/14 Memorias Puerto Vallarta 2015 en CDROM
combustible y finalmente sus patrones de barras de control. Si la simulación del reactor garantiza
que se cumplen los criterios de seguridad como límites térmicos y margen de apagado, además de
que se alcanzan los requerimientos de energía; entonces ese diseño de celda es adecuado para el
reactor de acuerdo a criterios neutrónicos estáticos. Una evaluación de ese tipo podría demorar
varios días en completarse. Entonces se tendrían que proponer cambios a la celda y volver a
evaluarla de acuerdo a la metodología mencionada. Es obvio que un proceso así puede consumir
muchos recursos de cómputo o inclusive ser imposible de realizar.
Por tal razón, se han estudiado y desarrollado otras metodologías para hacer un estimado de qué
tan bueno puede ser una celda de combustible sin necesidad de ejecutar los simuladores del
reactor y hacer las optimizaciones respectivas. Se ha entrenado una red neuronal [1] para predecir
cuantas variables de seguridad se van a cumplir si una celda de combustible se inserta en una
recarga de combustible y patrones de barras de control dados. Las variables de seguridad que se
vigilaron en ese trabajo eran la razón de potencia crítica (CPR), la tasa de generación lineal de
calor (LHGR), la generación planar de calor del núcleo (APLHGR), el margen de apagado en frío
(SDM) y si el reactor es crítico en cada uno de los pasos de quemado en que se divide el ciclo de
operación. La red neuronal logró predecir el número de variables que se cumplen con buena
precisión.
Una limitación de la red neuronal es el tiempo de entrenamiento, mientras más datos tiene para
"aprender", más tiempo requiere. Por tal motivo se eligió otra técnica para analizar una base de
18225 celdas de combustible con sus correspondientes valores de límites térmicos, SDM y
valores de criticidad del reactor. Usando minería de datos [2] se analizaron dicha base, también
con el propósito de predecir la cantidad de parámetros de seguridad que se cumplen dada la celda
de combustible. El porcentaje de predicción se elevó hasta cerca del 80%.
En el presente trabajo, se utiliza nuevamente la misma base de datos de 18225 celdas de
combustible, pero con la diferencia de predecir si se cumple el LHGR (cuantificado a través de su
fracción FLPD), el APLHGR (a través de su fracción MAPRAT) y el SDM, en lugar de predecir
cuantas variables se cumplen. También se usa minería de datos para analizar la base de datos.
Para una mejor comprensión del trabajo realizado, la presentación se hace de la siguiente manera:
en la siguiente sección se describe de forma general que es la minería de datos, en la Sección 3 se
describe como se generó la base de datos, posteriormente se presentan los resultados obtenidos y
las conclusiones. Al final se muestran las referencias que soportan parte del trabajo realizado.
2. MINERIA DE DATOS
Los datos son parte importante de la vida y del aprendizaje del ser humano, entender y poder
relacionarlos es lo que divide a la información del conocimiento. El concepto de extracción
(minería) en busca de información dentro una gran base de datos, ha dado paso a la creación de lo
que hoy se conoce como minería de datos.
La minería de datos conocido como data mining, es una etapa dentro de la llamada extracción de
conocimiento en bases de datos (Knowledge Discovery in Databases o KDD). Este proceso
mostrado en la Figura 1 consta de las siguientes etapas:
XXVI Congreso Anual de la Sociedad Nuclear Mexicana
XIV Congreso Nacional de la Sociedad Mexicana de Seguridad Radiológica
Puerto Vallarta, Jalisco, México, del 5 al 8 de Julio de 2015
3/14 Memorias Puerto Vallarta 2015 en CDROM
Selección. Se define la base de datos a ser explorada y se fijan los objetivos.
Preprocesado. En esta etapa se quitan los valores atípicos, erróneos o impurezas de los datos
(ruido), ya que en la base puede existir información que redunde o haga menos limpio el proceso
de extracción de información.
Transformación. En ella se refinan los atributos para poder ser implementados en el tipo de
técnica de la minería a emplear.
Minería de datos. Se aplica el tipo de método según la problemática a estudiar, objetivos o el
tipo de información que se tiene.
Interpretación – Evaluación. Una vez obtenido los patrones de la base de datos de la etapa
anterior, esta nos conduce a una información, la cual es evaluada y a partir de esta da lugar al
conocimiento
Figura 1. Proceso de descubrimiento de conocimiento en bases de datos (KDD)
La minería de datos nace como una tecnología de ayuda para poder comprender grandes bases de
datos. Cuando se genera un modelo a partir de los datos y se le da una interpretación es cuando
podemos afirmar que se obtuvo información. Emplear la minería de datos empieza a tomar
terreno en diversas disciplinas, al inicio principalmente en las cuestiones económicas y
administrativas, pero su utilización interdisciplinaria ha favorecido su uso en diagnósticos
médicos, política, predicciones de audiencias televisivas, investigaciones espaciales,
investigaciones de carácter judicial, predicciones de partidas de ajedrez o cuestiones
meteorológicas. Como ejemplo se puede mencionar su implementación en grandes empresas o
instituciones como IBM, La British Broadcasting Corporation (BBC) y el FBI.
José Ángel Medina Patrón et al, Minería de Datos en el estudio de Celdas de Combustible Nuclear
4/14 Memorias Puerto Vallarta 2015 en CDROM
La utilización de la minería de datos en los últimos años ha empezado a tener una relevancia
importante en el área de las ciencias, pudiéndose concluir que esta última por su complejidad de
entendimiento o por cuestiones de tiempo de ejecución en sistemas de cómputo supera un análisis
con técnicas limitadas.
La técnica usada para realizar estas operaciones en minería de datos se denomina modelado, en él
se construye un modelo en la cual se conoce la respuesta a una situación y luego es aplicada a
otra diferente en la que se desconoce el resultado.
Los algoritmos que se usan en la minería de datos están diseñados para trabajar sobre grandes
bases de datos y poder encontrar contextos nuevos, ocultos o inesperados. La minería de datos
utiliza una combinación de técnicas basadas en el análisis estadístico, el análisis
multidimensional, la lógica difusa, la lógica neuronal, la visualización de datos y los agentes
inteligentes, todas ellas tratando de encontrar patrones importantes para poder construir modelos
predictivos de conducta o de consecuencias.
Uno de los algoritmos más empleados por su sencillez y su fácil interpretación visual al usuario
final es el árbol de decisiones, también denominados como arboles de clasificación o de
identificación. Este modelo se clasifica dentro de las tareas de la minería de datos como
descriptiva, la cual se resume como la identificación de patrones en los datos hacia el parámetro
objetivo. Este modelo fue el que se usó en este trabajo y es el que se explica a continuación.
Un árbol de decisión es un modelo predictivo el cual tiene una estructura decrecientemente y
condicionalmente jerárquico en los parámetros influyentes, respecto al parámetro objetivo, desde
la raíz hasta las hojas. Esta técnica toma valores de entrada (ya sea nominales o valores
numéricos) como atributos hacia una variable objetivo (binomial o polinomial). En la Figura 2 se
muestra la estructura de un árbol de decisión. En la Figura 3 se muestran ramificaciones en las
cuales las hojas conformadas por las variables proporcionadas se llaman atributos, son las que se
encuentran encerradas en óvalos y terminan su ramificación con la variable objetivo encerradas
en rectángulos. Finalmente en la Figura 4 se representa una rama que muestra una clara
conclusión prominente de las variables definidas como atributos (ya que la barra final de color
rojo para este caso, representa una fuerte tendencia dentro de varias ramificaciones).
El KDD tiene su empleo final ligado al uso de sistemas de cómputo para poderse llevar a cabo de
una forma rápida y eficaz, por lo cual el desarrollo de plataformas para efectuar todo este proceso
hoy en día están en auge. Existe software para el estudio de la minería de datos, dentro de los
cuales uno de los que hoy en día ha tenido relevancia y que se encuentra clasificado dentro de los
últimos años en los primeros lugares es RapidMiner.
2.1. Software RapidMiner
El software RapidMiner [3] lleva el mismo nombre de la compañía generadora. Nació en 2001,
en la unidad de Inteligencia artificial de la Universidad Tecnológica de Dortmund en Alemania,
con el desarrollo de un programa flexible y poderoso de minería de datos, llamado YALE (Yet
Another Learning Enviroment).
XXVI Congreso Anual de la Sociedad Nuclear Mexicana
XIV Congreso Nacional de la Sociedad Mexicana de Seguridad Radiológica
Puerto Vallarta, Jalisco, México, del 5 al 8 de Julio de 2015
5/14 Memorias Puerto Vallarta 2015 en CDROM
RapidMiner Studio es un entorno de código libre para el diseño de los procesos analíticos
avanzados con el aprendizaje automático, minería de datos, minería de texto, análisis predictivo y
análisis de negocios.
Figura 2. Árbol de decision
Figura 3. Ejemplos de ramificaciones del árbol de decisión
José Ángel Medina Patrón et al, Minería de Datos en el estudio de Celdas de Combustible Nuclear
6/14 Memorias Puerto Vallarta 2015 en CDROM
Figura 4. Ramificación de variables definidas como atributos hasta la aseveración de
cumplimiento de la variable objetivo (barra en color rojo) del árbol de decisión
Este software maneja un entorno grafico en cada proceso, cada rectángulo llamado operador en
este software, lleva a cabo una función de manera secuencial, los cuales se encuentran
interconectados hasta el puerto de resultados (conexión final donde desemboca todo el proceso).
Puede verse que el programa lleva a cabo los pasos que conforman el proceso KDD. Por
mencionar algunos de estos se ilustran los siguientes: (a) el operador de almacenamiento de base
de datos, (b) operadores para preprocesamiento, (c) operador de transformación, (d) operador de
minería de datos y (e) operadores de evaluación. Lo anterior se puede ver en la Figura 5 con la
nomenclatura indicada para cada inciso.
Figura 5. Captura de pantalla de un proceso en RapidMiner.
XXVI Congreso Anual de la Sociedad Nuclear Mexicana
XIV Congreso Nacional de la Sociedad Mexicana de Seguridad Radiológica
Puerto Vallarta, Jalisco, México, del 5 al 8 de Julio de 2015
7/14 Memorias Puerto Vallarta 2015 en CDROM
A continuación se presenta un ejemplo sencillo de la aplicación y de la utilidad de la generación
de un árbol de decisión realizado en RapidMiner. Considérese la información de la Tabla I
generada previamente de juegos de golf [3].
Tabla I. Tabla de valores de las condiciones climatológicas de partidos de golf
Por consiguiente, lo que se busca es obtener la información que nos prediga bajo qué condiciones
se ha podido llevar a cabo un partido dependiendo de las variables climatológicas que existen.
Las variables son: el clima (Outlook), la temperatura (temperature), la humedad (humidity) y si
hubo viento (wind). Esto lleva a definir en RapidMiner la variable jugar (play) como objetivo y
las otras variables como atributos de la misma. Aplicándole el operador de árbol de decisión de
minería de datos se obtiene el árbol de la Figura 6.
Figura 6. Árbol de decisión de jugar al golf
Row No. Play Outlook Temperature Humidity Wind
1 no sunny 85 85 false
2 no sunny 80 90 true
3 yes overcast 83 78 false
4 yes rain 70 96 false
5 yes rain 68 80 false
6 no rain 65 70 true
7 yes overcast 64 65 true
8 no sunny 72 95 false
9 yes sunny 69 70 false
10 yes rain 75 80 false
11 yes sunny 75 70 true
12 yes overcast 72 90 true
13 yes overcast 81 75 false
14 no rain 71 80 true
José Ángel Medina Patrón et al, Minería de Datos en el estudio de Celdas de Combustible Nuclear
8/14 Memorias Puerto Vallarta 2015 en CDROM
Las conclusiones que se deducen a partir del árbol son las siguientes:
-Si el clima es nublado se juega. (Probabilidad del 28.6%)
-Si el clima es lluvioso y no hay viento se juega. (Probabilidad del 21.4%)
-Si el clima es lluvioso y hay viento no se juega. (Probabilidad del 14.3%)
-Si el clima es soleado y la humedad es mayor que 77.5 no se juega. (Probabilidad del 21.4%)
-Si el clima es soleado y la humedad es igual o menor que 77.5 se juega. (Probabilidad del
14.3%)
Nota: Véase que la barra roja que predice que sí se juega cuando el clima es nublado es más
gruesa que las otras por su mayor probabilidad, esto no quiere decir en una toma de decisiones
que sea la mejor, depende del intérprete, analista y de los resultados que se busquen.
Con estas conclusiones, RapidMiner genera un modelo predictivo que puede ser aplicado a una
base de datos nueva y predice si se jugará o no. Los datos que sirven para generar el modelo
predictivo se les llama datos de entrenamiento. A los datos de la base nueva se les llama datos de
test o prueba.
3. GENERACION DE LA BASE DE DATOS
Para generar la base de datos de 18225 celdas de combustible junto con su simulación en el
reactor, se siguieron los pasos que se listan a continuación:
1. Se optimizaron 45 celdas de combustible con cada técnica de optimización (redes
neuronales, búsqueda dispersa y colonias de hormigas). Las celdas se ejecutaron con el
código CASMO-4. Las celdas cumplen con un enriquecimiento promedio de 4.06% U235
y 40% de concentración total de gadolinia, de modo que
𝐶𝐺𝐷𝑇 = ∑ 𝐵𝐺𝑑−𝑖
𝑁𝑖=1 ∗ 𝐶𝐺𝑑−𝑖 (1)
donde CTGd es la concentración total de gadolinia de la celda, BGd-i es el número de barras
con la concentración CGd-i en la celda, N es el número de CGd-i distintos que hay en la
celda.
2. A partir de cada una de las celdas del paso anterior se generaron igual número de celdas
con una concentración total de gadolinia de 50%. Las celdas del paso anterior y las de este
paso, constituyen la parte baja de dos lotes de recarga de combustible fresco. El primero
se denomina LT1 y el segundo LT2.
3. Se construyeron axialmente los ensambles de combustible extrapolando los
enriquecimientos de uranio y concentraciones de gadolinia de las celdas de la parte baja,
agregando gadolinia en un 10% de concentración.
4. Utilizando una recarga de combustible prediseñada y patrones de barras de control
prediseñados, se simularon los ensambles de combustible en el simulador del reactor
SIMULATE-3 [4]. Para las celdas de combustible de una técnica se simularon las
combinaciones de las 45 celdas iniciales, es decir 45x45 = 2025 simulaciones.
Considerando las 3 técnicas se tienen 6075 simulaciones.
XXVI Congreso Anual de la Sociedad Nuclear Mexicana
XIV Congreso Nacional de la Sociedad Mexicana de Seguridad Radiológica
Puerto Vallarta, Jalisco, México, del 5 al 8 de Julio de 2015
9/14 Memorias Puerto Vallarta 2015 en CDROM
5. De las 45 celdas de LT1 y 45 celdas de LT2 se contabilizaron las cantidades mostradas en
la Tabla I.
6. De cada una de las 6075 simulaciones se extrajeron los valores más limitantes del FLPD,
FLCPR y MAPRAT de todo el ciclo y el SDM al inicio del ciclo de operación.
Tabla II. Lista de variables y parámetros de la celda
Variable o Parámetro Explicación
Histograma-i 1 = Aleatorio, 2 = Normal, 3 = tipo χ2
Ci-SU Cuantifica la simetría de la distribución de uranio en la celda de
acuerdo a la diagonal trazada entre los extremos de la barra de
control. Valores bajos de esta variable indican que la celda es muy
simétrica
Ci-Gd Cuantifica el número total de barras de gadolinia en la celda sin
importar su concentración
Ci-Gd1 Cuantifica el número de barras con U=3.6% y CGd = 2%
Ci-Gd2 Cuantifica el número de barras con U=3.6% y CGd = 4%
Ci-Gd3 Cuantifica el número de barras con U=3.6% y CGd = 5%
Ci-Gd4 Cuantifica el número de barras con U=3.6% y CGd = 6%
Ci-Gd5 Cuantifica el número de barras con U=3.95% y CGd = 2%
Ci-Gd6 Cuantifica el número de barras con U=3.95% y CGd = 4%
Ci-Gd7 Cuantifica el número de barras con U=3.95% y CGd = 5%
Ci-Gd8 Cuantifica el número de barras con U=3.95% y CGd = 6%
Ci-Gd9 Cuantifica el número de barras con U=4.4% y CGd = 2%
Ci-Gd10 Cuantifica el número de barras con U=4.4% y CGd = 4%
Ci-Gd10 Cuantifica el número de barras con U=4.4% y CGd = 5%
Ci-Gd10 Cuantifica el número de barras con U=4.4% y CGd = 6%
Ci-Gd10 Cuantifica el número de barras con U=3.95% y CGd = 7%
Ci-Gd10 Cuantifica el número de barras con U=4.4% y CGd = 7%
Ci-GdGd Cuantifica el número de barras con gadolinia que están cara a cara
Ci-GdH20 Cuantifica el número de barras con gadolinia que rodean a los
canales de agua
Ci-U1 Cuantifica el número de barras con U=2% en posiciones no
periféricas de la celda
Ci-U2 Cuantifica el número de barras con U=2.4% en posiciones no
periféricas de la celda
Ci-U3 Cuantifica el número de barras con U=2.8% en posiciones no
periféricas de la celda
Ci-U4 Cuantifica el número de barras con U=3.2% en posiciones no
periféricas de la celda
FPPL El valor del Factor de Pico de Potencia Local de la celda
kinf El valor del factor infinito de multiplicación de neutrones de la
celda
Cabe mencionar que esta base de datos se generó para realizar un análisis estadístico, para
estudiar el efecto del número de barras enriquecidas en cada uno de los niveles de uranio
José Ángel Medina Patrón et al, Minería de Datos en el estudio de Celdas de Combustible Nuclear
10/14 Memorias Puerto Vallarta 2015 en CDROM
normalmente usados, en el diseño de las celdas de combustible. Por ejemplo, cuantas barras al
2%, cuantas al 2.4% y así sucesivamente hasta 4.9%. Esto define un histograma de frecuencia de
uso de cada uno de los niveles de enriquecimiento. En ese estudio se utilizaron 3 tipos de
histograma: aleatorio, normal y tipo χ2. Por tanto en realidad, los pasos mencionados antes se
hicieron para cada una de los tres tipos de histograma. Por lo tanto, se tienen 6075 * 3 = 18225
simulaciones.
El objetivo de usar Minería de Datos es encontrar relaciones entre variables o parámetros de la
celda y su comportamiento en el reactor, medido a través de los límites térmicos y el SDM. Las
variables y parámetros de celda que se emplearon en este estudio se muestran en la Tabla I. Cabe
mencionar que las variables y parámetros de la Tabla II, se cuantifican para cada una de las 6
celdas de combustible del ensamble fresco. Ambos tienen una celda distinta en la parte baja,
tienen una intermedia y otra en la parte alta.
4. METODOLOGIA
El objetivo del trabajo es encontrar relaciones entre las variables y los parámetros de seguridad
del reactor de la Tabla II. Para esto, se busca que la Minería de Datos construya modelos de
árboles de decisión entre estas variables, las cuales a su vez nos servirán como evaluadores de
datos de celdas posteriormente.
Se llevó a cabo primeramente la asignación de las que serían tratadas como variables objetivos:
SDM, FLPD y MAPRAT. Posteriormente se designó aquellas que cumplirían con la función de
variables atributos y cuáles serían descartadas.
Una vez que se comprendió el funcionamiento del software de minería, en este caso Rapidminer
Studio 5.3.013 [3], se analizó que tipo de variables (nominales, numéricas continuas y enteras
para nuestro estudio) iban a ser introducidas o cómo iban a ser designadas, y el tipo de análisis
que se deseaba (de identificación) para determinar la técnica de minería (árbol de decisión) a
emplear.
Posteriormente se efectuó un proceso en RapidMiner para cada una de los tres parámetros
objetivo. En cada proceso se designaron las mismas variables atributos respecto a las variables
objetivo, en el cual fueron unificadas las variables de cada celda, respectivamente, tanto del lote 1
y 2, fijando ya sea el SDM, FLP o el MAPRAT como objetivo.
De las 18225 muestras se tomaron 9113 para entrenamiento (tomadas de forma intercalada) y las
9112 para prueba del modelo.
Un punto importante a considerar cuando se genera un árbol de decisión, es como hacer una
ramificación del árbol y que RapidMiner llama tamaño de hoja. El tamaño de hoja se define
como la cantidad mínima de muestras de entrenamiento que cumplen una condición para que se
tome como una regla y por tanto hacer la ramificación. Una condición se establece como una
pregunta del tipo "IF condición THEN conclusión". Por ejemplo, "IF temperatura < 10°C THEN
hace_frio = TRUE". Tómese el ejemplo en que el tamaño de hoja es igual a 10, cuando
RapidMiner está analizando las muestras y registra que solo 9 muestras cumplen cierta condición,
XXVI Congreso Anual de la Sociedad Nuclear Mexicana
XIV Congreso Nacional de la Sociedad Mexicana de Seguridad Radiológica
Puerto Vallarta, Jalisco, México, del 5 al 8 de Julio de 2015
11/14 Memorias Puerto Vallarta 2015 en CDROM
entonces no se hace la ramificación e ignora esa conclusión. En cambio, si 11 muestras cumplen
la condición entonces ocurre la ramificación o conclusión final.
Es claro que si el tamaño de hoja es igual a 1, entonces cada pregunta o condición deberá
conducir a una ramificación y/o conclusión. En cambio, cuando el tamaño de hoja aumenta,
muchas conclusiones o ramificaciones menores son ignoradas. La primera situación conduce a un
modelo muy preciso para predecir, pero con una complejidad muy alta. La segunda situación
conduce a un modelo menos preciso y menos complejo. Por precisión se debe entender el
porcentaje de muestra de entrenamiento que se reconocen de forma correcta. En la Figura 7 se
muestra cómo varía la precisión del modelo en función del tamaño de hoja que está expresado
como porcentaje del tamaño del conjunto de entrenamiento.
Figura 7. Comportamiento del árbol de decisión en función del tamaño de la hoja
5. RESULTADOS
A continuación se muestra la evaluación del modelo para los tres parámetros definidos como
variables objetivo: SDM, MFLPD Y MAPRAT. La variable objetivo fue "Se cumple o no se
cumple la variable XXX" donde XXX es SDM, MFLPD o MAPRAT. El tamaño de la hoja se
estableció en el 1% de las muestras de entrenamiento ya que con este valor, la evaluación de la
precisión para los datos de entrenamiento y el de prueba tienen un margen de diferencia de
porcentaje de precisión pequeño, a la par que también se consideró que esta precisión se conserva
por arriba del 92 % .
La Tabla III muestra resultados para el SDM; la Tabla IV muestra resultados para el MFLPD; y,
la Tabla V muestra resultados para el MAPRAT. Cada tabla se divide en dos partes, una que
muestra la precisión con el conjunto de entrenamiento y la segunda que muestra la precisión del
conjunto de prueba. Ya sea para entrenamiento o prueba, cada tabla indica la precisión global del
modelo en la parte superior izquierda. Los títulos de las columnas corresponden al cálculo del
simulador del reactor. Los títulos de las filas corresponden a la predicción del árbol de decisión.
Por ejemplo, en la Tabla III para el caso del entrenamiento, de las 9113 muestras de
entrenamiento, 5430 no cumplen el SDM de acuerdo al simulador del reactor. Sin embargo, de
José Ángel Medina Patrón et al, Minería de Datos en el estudio de Celdas de Combustible Nuclear
12/14 Memorias Puerto Vallarta 2015 en CDROM
las 5430 muestras, el árbol de decisión dice que 5178 muestras no cumplen el SDM y 252 si lo
cumplen. Esto quiere decir hay una precisión del 94.52% para el caso de muestras donde el SDM
no se cumple.
Tabla III. Resultados para el SDM
Caso de Entrenamiento
PRECISION DEL MODELO:
93.94%
SIMULATE-3 PRECISIÓN DE
CLASIFICACIÓN (%) No se cumple Si se cumple
Predicción del Árbol
de Decisión
No cumple 5178 300 94.52
Sí cumple 252 3383 93.07
Caso de Prueba
PRECISION DEL MODELO:
93.94%
SIMULATE-3 PRECISIÓN DE
CLASIFICACIÓN (%) No se cumple Si se cumple
Predicción del Árbol
de Decisión
No cumple 5134 332 93.93
Sí cumple 275 3371 92.46
Tabla IV. Resultados para el FLPD
Caso de Entrenamiento
PRECISION DEL MODELO:
96.85%
SIMULATE-3 PRECISIÓN DE
CLASIFICACIÓN (%) No se cumple Si se cumple
Predicción del Árbol
de Decisión
No cumple 8708 223 97.50
Sí cumple 64 118 64.84
Caso de Prueba
PRECISION DEL MODELO:
96.67%
SIMULATE-3 PRECISIÓN DE
CLASIFICACIÓN (%) No se cumple Si se cumple
Predicción del Árbol
de Decisión
No cumple 8702 226 97.47
Sí cumple 77 107 58.15
Tabla V. Resultados para el MAPRAT
Caso de Entrenamiento
PRECISION DEL MODELO:
97.12%
SIMULATE-3 PRECISIÓN DE
CLASIFICACIÓN (%) No se cumple Si se cumple
Predicción del
Árbol de Decisión
No cumple 163 71 69.66
Sí cumple 191 8688 97.85
Caso de Prueba
PRECISION DEL MODELO:
96.55%
SIMULATE-3 PRECISIÓN DE
CLASIFICACIÓN (%) No se cumple Si se cumple
Predicción del
Árbol de Decisión
No cumple 138 93 59.74
Sí cumple 221 8660 97.51
XXVI Congreso Anual de la Sociedad Nuclear Mexicana
XIV Congreso Nacional de la Sociedad Mexicana de Seguridad Radiológica
Puerto Vallarta, Jalisco, México, del 5 al 8 de Julio de 2015
13/14 Memorias Puerto Vallarta 2015 en CDROM
6. ANALISIS Y CONCLUSIONES
El análisis de los resultados se divide en dos partes. Para el caso del Margen de Apagado en Frío,
se tienen altos porcentajes de precisión tanto en entrenamiento como en prueba; al igual que para
predecir muestras donde no se cumple el SDM como muestras donde si se cumple el SDM, se
tienen porcentajes altos. Esto quiere decir que el árbol de decisión es capaz de predecir si el SDM
se cumplirá para una celda de combustible con una precisión muy alta.
En el caso del MFLPD y del MAPRAT, en cambio se observa una tendencia distinta al SDM.
Mientras que el comportamiento del árbol de decisión es consistente entre los casos de
entrenamiento con los casos de prueba, no ocurre lo mismo entre los casos donde se cumplen y
los casos donde no se cumplen las variables FLPD y MAPRAT. Para el MFLPD el modelo tiene
altos porcentajes de precisión para los casos donde no se cumple la variable. Para el MAPRAT, el
modelo tiene altos porcentajes de precisión en los casos donde se cumple la variable. Esto es
debido a la cantidad de muestras de entrenamiento donde se cumplen o no se cumplen estas
variables.
Analizando el SDM, la cantidad de muestras de entrenamiento que fueron 9113, el modelo se
entrenó con 5430 casos en los cuales no se cumple la variable y en los demás se cumple el
parámetro. EL modelo se entrenó con la misma cantidad de muestras de cada tipo
(aproximadamente 40/60% no se cumple/si se cumple). En cambio en el FLPD, de las misma
cantidad de muestras de entrenamiento (9913), sólo 341 lo cumplen y el resto no. Esto condujo a
que el modelo aprendiera a predecir los casos donde no se cumple con bastante precisión y a
predecir con menor precisión los casos donde si se cumple. Para el MAPRAT, de las 9113; en
354 de los casos, la variable no se cumple y en el resto sí. Esto provocó que el modelo prediga
con alta precisión los casos donde se cumple el MAPRAT y con menor precisión los casos donde
no se cumple la variable. Esto tiene sentido porque todos los modelos de aprendizaje, como las
redes neuronales, aprenden mejor cuando tienen muchos ejemplos de entrenamiento.
Todo esto lleva a la conclusión de que un buen modelo que se quisiera generar en RapidMiner,
debería de ser lo más equitativo posible en la cantidad de muestras en el cumplimento y no de la
variable a predecir. Es importante resaltar los resultados con altos porcentajes de precisión que se
encontraron. Aún para los casos donde se obtuvieron valores más bajos de precisión, debe
resaltarse el hecho de que el árbol de decisión aprendió a reconocer malos valores MAPRAT a
partir de solo el 3.8% de los casos de entrenamiento y fue capaz de alcanzar porcentajes de
precisión del orden de 60%. Para el MFLPD, se aprendió a reconocer buenos valores del MFLPD
a partir del 3.74% de los casos y fue capaz de obtener porcentajes de precisión del orden de 59%.
Esto habla de la robustez del modelo y su confiabilidad.
Es importante resaltar como una conclusión y logro de este trabajo, que ahora se dispone de un
modelo de predicción de 3 parámetros de seguridad del núcleo del reactor, que trabaja con una
precisión aceptable. Lo interesante es que puede ser acoplado a un sistema de optimización de
celdas de combustible, que pueda evaluar rápidamente su desempeño dentro del reactor, sin
necesidad de ejecutar los simuladores del reactor altamente costosos en tiempo. De este modo, se
pueden descartar muchas celdas de combustible que no son prometedoras y, dedicar recursos de
cómputo solo en aquellas celdas que lo requieran.
José Ángel Medina Patrón et al, Minería de Datos en el estudio de Celdas de Combustible Nuclear
14/14 Memorias Puerto Vallarta 2015 en CDROM
AGRADECIMIENTOS
Los autores agradecen al Consejo Nacional de Ciencia y Tecnología (CONACYT) y al Instituto
Nacional de Investigaciones Nucleares (ININ), por el apoyo brindado para la realización de la
presente investigación a través de los proyectos CB-2007-C01-82705 y CA-215,
respectivamente.
REFERENCIAS
1. Ortiz-Servin J.J., Pelta D. A. and Castillo J. A., "A Neural Network To Predict Reactor Core
Behaviors", Nuclear Science and Techniques, Vol. 25, p. 010602-1 - 010602-6 (2014).
2. Ortiz-Servin J. J., Cadenas J. M., Pelta D. A., Castillo A., Montes-Tadeo J. L., "Nuclear fuel
lattice performance analysis by data mining techniques", Annals of Nuclear Energy, Vol. 80,
p. 236–247 (2015).
3. "Página de RapidMiner", www.rapidminer.com (2015).
4. Dean D. 2005. SIMULATE-3. Advanced Three-Dimensional Two-Group Reactor Analysis
Code. User’s Manual. Studsvik Scandpower INC. SSP-95/15 - Rev3.
5. "Página de la Universidad Abierta de Cataluña".
http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.pdf
6. "Página de la Universidad Nacional del Nordeste de Argentina".
http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.
7. "Tesis Doctoral en la Universidad de Granada". http://elvex.ugr.es/doc/PhD/tesis.pdf