proyecto fin de carrera ingeniería informática
DESCRIPTION
Interfaz Avanzada de Consulta al Multilingual Central Repository (MCR) María Eguimendia Director: Germán Rigau. Proyecto Fin de Carrera Ingeniería Informática. Indice. Introducción Objetivos del proyecto Antecedentes Elección tecnológica Pruebas Gestión Conclusiones Demostración. - PowerPoint PPT PresentationTRANSCRIPT
Proyecto Fin de Carrera
Ingeniería Informática
Interfaz Avanzada de Consulta al Multilingual
Central Repository (MCR)
María Eguimendia
Director: Germán Rigau
Indice
Introducción
Objetivos del proyecto
Antecedentes
Elección tecnológica
Pruebas
Gestión
Conclusiones
Demostración
Introducción
Se enmarca dentro del área de investigación de
la Inteligencia Artificial y más concretamente,
dentro de la semántica del Lenguaje Natural.
MCR: Multilingual Central Repository.
WEI: Web Eurowordnet Interface.
Objetivo: modificar la interfaz gráfica (WEI) al
MCR de modo que no se requiera pre-instalar
ningún componente en el navegador.
Objetivos del proyecto
Seleccionar una tecnología que no requiera de la
máquina virtual de Java (JVM) para ser visualizada en
el navegador.
Se implementa un solo caso de uso “Consultar al
MCR”.
Se han realizado varias iteraciones donde al final de
cada una se ha obtenido un prototipo.
A priori, se desconocían el número de iteraciones.
Antecedentes
Redes semánticas
Wordnet
EuroWordNet
Proyecto Meaning
Multilingual Central Repository
Interfaces Web
Redes Semánticas
La semántica léxica es un área de la lingüistica que
cubre las teorías de la clasificación y la
descomposición del significado de las palabras, las
diferencias y las semejanzas en estructura semántica
léxica entre diversos idiomas y las relaciones de las
mismas.
Una forma comúnmente utilizada para representar la
semántica léxica es mediante redes semánticas.
Redes semánticas
Ejemplo de red semántica:
Redes semánticas
Diversos tipos de relaciones semánticas como
la sinonimia, antonimia, hiponimia, hiperonimia,
meronimia, holonimia, entre otras.
Muy utilizadas en Lenguaje Natural para
representar el conocimiento.
WordNet
Base de datos léxica creada por un grupo de
psicólogos y lingüistas del Cognitive Science
Laboratory de la Universidad de Princeton.
Está estructurada como una red semántica
cuyos nodos se denominan synsets (synomym
sets o conjunto de sinónimos).
WordNet
WordNet
PoS 1.5 1.6 1.7 1.7.1 2,0 2.1 3,0
91591 99642 109377 111223 115424 117597 117659
Noun
Verb
Adjetive
Adverb
60557
11363
13231
3243
66025
12127
17915
3575
74488
12754
18523
3612
75804
13214
21460
3629
79689
13508
18563
3664
81426
13650
18877
3664
82115
13767
18156
3621
Total Synset
EuroWordNet
Extensión multilingüe de Wordnet, compuesta
por bases de datos léxicas para 8 idiomas
(inglés, holandés, español, italiano, franceś,
alemán, checo y estonio).
Cada Wordnet se construyó de forma separada
y la conexión entre los distintos Wordnets se
hizo a través del ILI (InterLingua Index).
EuroWordNet
Proyecto Meaning
Objetivo: adquisición automática del
conocimiento lingüistico a partir de la Web y
construcción de recursos léxicos multilingües
que sirvan para una desambiguación semántica
automática más eficiente.
Se centró en los wordnets para 5 idiomas
europeos: inglés, italiano, español, catalán y
euskera.
Multilingual Central Repository
(MCR)
Resultado de la fusión de distintos recursos,
distintas versiones de WordNet, ontologías y
bases de conocimiento.
La versión final está integrada por Wordnets
para 5 idiomas diferentes (inglés, italiano,
español, catalán y euskera).
Multilingual Central Repository
(MCR)
Está enriquecido por 3 ontologías: WordNet
Domains, Top Concept Ontology y SUMO.
Para poder interactuar con el MCR se
desarrollo WEI.
Interfaces WebWordNet
http://wordnet.princeton.edu/perl/webwn
Visual Thesaurus
http://www.visualthesaurus.com/
Treebolic
http://treebolic.sourceforge.net/en/home.htm
WEI
http://garraf.epsevg.upc.es/cgi-bin/wei4/public/wei.consult.perl
Interfaces Web DEB http://deb.fi.muni.cz/index.php
Otros:
http://www.cozyenglish.com/dictionary
http://grokitbetter.com/
http://nalanda.nitc.ac.in/reference/general/wordnet/wordnet.html
http://poets.notredame.ac.jp/cgi-bin/wn
http://www.golovchenco.org/cgi-bin/wnsearch
Elección tecnológica
Google Web Toolkit (GWT)
Librerías Ajax: Dojo Toolkit
PHP
Perl
Google Web Toolkit
Framework creado por Google.
Compatible con todos los navegadores.
Se crea el código en Java y el compilador lo
traduce a HTML y JavaScript.
Google Web Toolkit
Componentes de GWT:
Google Web Toolkit (GWT)
A favor
No hace falta saber
HTML ni JavaScript.
Se pueden usar
clases complejas de
Java.
Libros disponibles.
En contra
Solo para proyectos
Java.
Mayor tiempo de
aprendizaje que otras
librerías.
/home/maria/gwt-linux-1.1.10/Proyecto GWT/www/com.mycompany.MiAplicacion/MiAplicacion.html
Librerías Ajax: Dojo Toolkit
Ajax (Asynchronous Javascript And Xml)
Combinación de 3 tecnologías existentes:
- XHTML y CSS
- DOM
- XMLHttpRequest
Librería Ajax: Dojo Toolkit
Librería de código abierto.
Acepta PHP, Perl, ASP, JSP y ColdFusion
como lenguajes de servidor.
Dispone de un paquete (dojo.io.bind) con la
implementación de XMLHttpRequest.
Librerías Ajax: Dojo Toolkit
A favor
Comunicación
asíncrona con el
servidor.
En contra
JavaScript activado.
Conocimientos de 3
tecnologías.
http://localhost/interfazMCRPtodoWei.html
PHP
Acrónimo de PHP Hypertext Pre-processor
(inicialmente PHP tools o Personal Home Page
tools).
Lenguaje de programación usado para la
creación de páginas web dinámicas.
PHP
A favor
Existen extensiones
para añadir
funcionalidades.
Existe amplia
documentación.
Fácil de aprender.
En contra
Manejo de errores.
http://localhost/InterfazConsultaE.php
Perl
Acrónimo de Practical Extraction and Report
Language.
Se usa para escribir guiones (scripts) CGI.
Es uno de los lenguajes más populares para la
creación de aplicaciones web junto con PHP y
Python.
Perl
A favor
Gran número de
librerías.
Fácil de usar.
Existe amplia
documentación.
En contra
Manejo de errores.
http://localhost/cgi-bin/wei4/public/wei.interfazconsulta.perl
Solución tecnológica
Interfaz desarrollada en Perl.
Servidor desarrollado en Perl.
Ningún problema de comunicación.
Pruebas
Pruebas unitarias
Pruebas de integración
Proceso de implantación
Pruebas unitarias
Comprobar:
- Página bien construída.
- Página accesible.
Para ello:
- Subir página al servidor.
- Intentar acceder a la página.
- Si error, solucionarlo.
Pruebas de Integración
Conectar interfaz con servidor.
Comprobar resultado de la consulta.
Comparar resultados de las interfaces.
Proceso de Implantación
Instalar el proyecto en un servidor.
Comprobar su funcionamiento.
GestiónHoras planificadas totales Horas reales totales
Desarrollo del DOP 10h 12,75h
Reuniones ordinarias 14h 26,25h
Reuniones extraordinarias 0h 13,75h
Búsqueda de información 40h 116,5h
Formación 40h 81,75h
Elección tecnológica 20h 35h
Captura de requisitos 4h 2,5h
Análisis 4h 4,5h
Diseño 4h 4h
Implementación 100h 167,75h
Pruebas 10h 7h
Preparar entregables 2h 0,5h
Elaborar memoria 60h 98,75h
Instalación 2h 0h
Horas totales 350h 571h
Gestión
Gestión Análisis del entornoDesarrollo técnico Cierre de iteración0
50
100
150
200
250
Horas planificadas
Horas reales
Conclusiones
Es muy importante la elección de las
herramientas a la hora de desarrollar un
proyecto.
Si no es correcta, se corre el riesgo de invertir
un número de horas sin conseguir el resultado
esperado.
La facilidad para aprender a utilizar una
herramienta incrementa su uso frente a otras.
Conclusiones
Unificar los conocimientos adquiridos a lo largo
de la carrera en un proyecto.
Adquirir conocimientos sobre linux y sobre
lenguajes de programación.
Existen distintas alternativas a la hora de
abordar un proyecto.
Demostración
http://adimen.si.ehu.es/cgi-bin/wei6/public/wei.consult.perl