detection of bilingual plagiarism detección de plagio...

5
15 Detection of bilingual plagiarism Detección de Plagio Bilingüe Frank Zamora R. 1 , Daniel Castro C. 2 , Elizabeth Labrada D. 3 1 Universidad de Granma. Cuba. fzamorar(AT)udg.co.cu 2, 3 Desarrollo de Aplicaciones, Tecnologías y Sistemas (DATYS). Cuba. daniel.castro(AT)cerpamid.co.cu; elabrada(AT)csd.edu.cu INFORMACIÓN DEL ARTÍCULO Artículo de Investigación Historia Recibido: 09-01-2016 Correcciones: 22-04-2016 Aceptado: 19-05-2016 Keywords Plagiarism, monolingual, bilingual Palabras clave Plagio, bilingüe, monolingüe ABSTRACT In this paper a computational algorithm for text alignment in the task of automatically detecting bilingual plagiarism is proposed. The method of detecting bilingual plagiarism uses machine translation services, in order to have the documents in question a base language, and apply techniques of monolingual plagiarism. The algorithm was tested with The corpus belonging to the International Competition Plagiarism 2013, with the objective of evaluating the step of detecting monolingual plagiarism. Besides it’s experimented with the collection of texts EUROPARL, a collection of documents pertaining to the meeting the European Parliament, specifically it´s to English and Spanish documents. RESUMEN En este trabajo se construyó un algoritmo computacional para la alineación de textos en la tarea de detección de plagio bilingüe. El método de detección de plagio bilingüe hace uso del servicio de traductores automáticos, con la finalidad de tener los documentos en cuestión en un idioma base, para después aplicar técnicas de plagio monolingüe. El algoritmo fue probado con el corpus perteneciente a la Competencia Internacional de Detección de Plagio del año 2013, para evaluar la etapa de detección de plagio monolingüe. Además, se experimentó con la colección de textos EUROPARL, una colección de documentos pertenecientes a la reunión del parlamento europeo, de los que se tomaron los documentos en inglés y español, con la finalidad de probar la etapa bilingüe. © 2016 IAI. All rights reserved. 7. Introducción Las nuevas facilidades de acceso a la información han creado un ambiente amplio para que estudiantes e investigadores accedan a una vasta cantidad de documentos, artículos y otras publicaciones, con las que pueden fortalecer su preparación y enriquecer sus conocimientos. Lamentablemente, estas facilidades han creado la presentación de trabajos pocos originales en escuelas y universidades, como consecuencia del plagio de obras previamente publicadas, convirtiéndose esta falta en un problema para la educación y la investigación. En la literatura existen disímiles definiciones de plagio, tales como: Copiar en lo sustancial obras ajenas, presentándolas como propias [1]. Utilizar cualquier fuente publicada o no sin el debido reconocimiento a la fuente [2]. Apropiación de palabras e ideas de otros [2]. El plagio se puede presentar en música, imágenes, documentos escritos e incluso ideas. El presente trabajo se enfoca en el plagio escrito, es decir, el plagio de documentos. En este ámbito, el acto de plagiar significa incorporar fragmentos de un documento escrito por otro autor sin darle el crédito correspondiente. La detección manual de plagio se ha convertido en una tarea prácticamente imposible, debido a la cantidad de información disponible en medios digitales: base de datos, internet o dispositivos de almacenamiento masivo. Esta problemática se ha intentado solucionar creando sistemas que asisten en la toma de decisiones acerca del posible plagio de un documento, pero la tarea es titánica. De acuerdo con Iyer y Singh [3], se pueden distinguir varios tipos de plagio: Literal o exacto. Se basa en la copia exacta de fragmentos de un documento sin incluir su fuente. De referencias. Ocurre cuando una referencia está en un documento y se incluye en otro documento sin haber leído el origen. De autoría. Ocurre cuando un autor afirma ser creador de un trabajo que fue realizado por otro. El análisis automático de plagio en documentos se puede abordar a través del análisis con referencia. Esta técnica consiste en encontrar los casos de plagio mediante la comparación del documento sospechoso con las posibles fuentes de los fragmentos plagiados. El documento sospechoso y los documentos fuentes pueden haber sido escritos en un mismo idioma (análisis monolingüe) o en diferentes idiomas (análisis multilingüe). La detección de Revista Antioqueña de las Ciencias Computacionales y la Ingeniería de Software ISSN: 2248-7441 www.fundacioniai.org/raccis raccis(AT)fundacioniai.org (2016). RACCIS 6(1), pp. 15-19.

Upload: others

Post on 26-Apr-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

15

Detection of bilingual plagiarism

Detección de Plagio Bilingüe

Frank Zamora R.1, Daniel Castro C.2, Elizabeth Labrada D.3

1 Universidad de Granma. Cuba. fzamorar(AT)udg.co.cu 2, 3 Desarrollo de Aplicaciones, Tecnologías y Sistemas (DATYS). Cuba. daniel.castro(AT)cerpamid.co.cu; elabrada(AT)csd.edu.cu

INFORMACIÓN DEL ARTÍCULO Artículo de Investigación Historia Recibido: 09-01-2016 Correcciones: 22-04-2016 Aceptado: 19-05-2016 Keywords Plagiarism, monolingual, bilingual

Palabras clave Plagio, bilingüe, monolingüe

ABSTRACT In this paper a computational algorithm for text alignment in the task of automatically detecting bilingual plagiarism is proposed. The method of detecting bilingual plagiarism uses machine translation services, in order to have the documents in question a base language, and apply techniques of monolingual plagiarism. The algorithm was tested with The corpus belonging to the International Competition Plagiarism 2013, with the objective of evaluating the step of detecting monolingual plagiarism. Besides it’s experimented with the collection of texts EUROPARL, a collection of documents pertaining to the meeting the European Parliament, specifically it´s to English and Spanish documents. RESUMEN En este trabajo se construyó un algoritmo computacional para la alineación de textos en la tarea de detección de plagio bilingüe. El método de detección de plagio bilingüe hace uso del servicio de traductores automáticos, con la finalidad de tener los documentos en cuestión en un idioma base, para después aplicar técnicas de plagio monolingüe. El algoritmo fue probado con el corpus perteneciente a la Competencia Internacional de Detección de Plagio del año 2013, para evaluar la etapa de detección de plagio monolingüe. Además, se experimentó con la colección de textos EUROPARL, una colección de documentos pertenecientes a la reunión del parlamento europeo, de los que se tomaron los documentos en inglés y español, con la finalidad de probar la etapa bilingüe.

© 2016 IAI. All rights reserved.

7. Introducción Las nuevas facilidades de acceso a la información han creado un ambiente amplio para que estudiantes e investigadores accedan a una vasta cantidad de documentos, artículos y otras publicaciones, con las que pueden fortalecer su preparación y enriquecer sus conocimientos. Lamentablemente, estas facilidades han creado la presentación de trabajos pocos originales en escuelas y universidades, como consecuencia del plagio de obras previamente publicadas, convirtiéndose esta falta en un problema para la educación y la investigación. En la literatura existen disímiles definiciones de plagio, tales como:

Copiar en lo sustancial obras ajenas, presentándolas como propias [1].

Utilizar cualquier fuente publicada o no sin el debido reconocimiento a la fuente [2].

Apropiación de palabras e ideas de otros [2].

El plagio se puede presentar en música, imágenes, documentos escritos e incluso ideas. El presente trabajo se enfoca en el plagio escrito, es decir, el plagio de documentos. En este ámbito, el acto de plagiar significa incorporar fragmentos de un documento escrito por otro autor sin darle el crédito correspondiente.

La detección manual de plagio se ha convertido en una tarea prácticamente imposible, debido a la cantidad de información disponible en medios digitales: base de datos, internet o dispositivos de almacenamiento masivo. Esta problemática se ha intentado solucionar creando sistemas que asisten en la toma de decisiones acerca del posible plagio de un documento, pero la tarea es titánica. De acuerdo con Iyer y Singh [3], se pueden distinguir varios tipos de plagio:

Literal o exacto. Se basa en la copia exacta de fragmentos de un documento sin incluir su fuente.

De referencias. Ocurre cuando una referencia está en un documento y se incluye en otro documento sin haber leído el origen.

De autoría. Ocurre cuando un autor afirma ser creador de un trabajo que fue realizado por otro.

El análisis automático de plagio en documentos se puede abordar a través del análisis con referencia. Esta técnica consiste en encontrar los casos de plagio mediante la comparación del documento sospechoso con las posibles fuentes de los fragmentos plagiados. El documento sospechoso y los documentos fuentes pueden haber sido escritos en un mismo idioma (análisis monolingüe) o en diferentes idiomas (análisis multilingüe). La detección de

Revista Antioqueña de las Ciencias Computacionales y la Ingeniería de Software

ISSN: 2248-7441

www.fundacioniai.org/raccis raccis(AT)fundacioniai.org

(2016). RACCIS 6(1), pp. 15-19.

16

plagio multilingüe ha sido poco tratada con referencia a la monolingüe. Este tipo de plagio consiste en traducir un fragmento de un documento de manera manual o automática y atribuirse la autoría de dicho texto.

El objetivo principal de este trabajo es implementar un método que permita detectar fragmentos de plagio entre dos textos que se encuentran en diferentes idiomas, inglés y español en este caso, haciendo uso de traductores automáticos. Entre los objetivos específicos se encuentra crear un módulo configurable que permita la traducción de textos mediante el uso de traductores existentes. Además, implementar un módulo de detección de plagio monolingüe que permita, dado un documento sospechoso y una posible fuente, encontrar todos los pasajes de máxima longitud reutilizados.

8. Metodología En esta sección se expone el algoritmo implementado para la detección de plagio bilingüe, así como una descripción de las principales etapas del mismo.

8.1 Detección de plagio monolingüe Dado dos documentos, uno fuente y otro sospechoso, escritos en un mismo idioma, la tarea de detección de plagio monolingüe consiste en recuperar aquellos fragmentos del documento sospechoso que han sido plagiados del documento fuente. Para Potthast et al. [4], un sistema de detección de plagio monolingüe para alineamientos de textos consta generalmente de:

1. Pre-procesamiento. Con el objetivo de mejorar los resultados y emplear determinados enfoques en la tarea de detección de plagio, inicialmente se aplican técnicas de pre-procesamiento a los documentos. A continuación, se enumeran algunas de ellas:

Normalización de los caracteres: transformar todos los caracteres a minúsculas y eliminar los signos diacríticos tales como tildes, diéresis y otros.

Segmentación de los documentos en tokens (secuencia de unidades léxicas significativas, tales como números, palabras, signos de puntuación, fechas, etc.).

Identificación de oraciones y párrafos. Hallar la raíz o el lema de las palabras. Eliminar signos de puntuación y espacios en blanco. Eliminar palabras auxiliares [5]. Por lo general,

estas palabras aparecen con frecuencia en un idioma y carecen de significado, tales artículos, pronombres, preposiciones, …

Unir oraciones pequeñas consecutivas hasta que el fragmento formado alcance cierta longitud.

2. Selección (detección de semillas). Dado un documento sospechoso y un documento fuente, el objetivo de esta etapa es obtener un conjunto de candidatos de longitud pequeña, llamados semillas. Cada caso consiste en un par conformado por un fragmento pequeño del documento sospechoso y un fragmento pequeño del documento fuente, los cuales son similares en algún sentido [6].

3. Integración (extensión). Dado un conjunto de semillas identificadas, esta etapa tiene como propósito extender

cada una convirtiéndolas en fragmentos de textos continuos de longitud máxima, que se alineen entre los documentos sospechoso y fuente, los cuales, después del proceso de filtrado, se reportan como plagio.

4. Post-procesamiento (filtrado). En esta etapa, dado un conjunto de pasajes alineados, se remueven los que no cumplan con cierto criterio. Generalmente se descartan los pequeños o aquellos que tienen solapamiento.

En este sentido, Rodríguez y Martín [7, 8] buscan correspondencias en los textos extrayendo n-gramas de contexto (CTnG) y algunas variaciones de estos, a los que denominan n-gramas de contexto cercano (SCnG) y odd-even n-gramas (OEnG). El objetivo es encontrar las mismas características en ambos documentos. Los 𝑛-gramas de contexto permiten mejorar la detección de los casos de plagio donde se varía el orden de las palabras, y los 𝑛-gramas de contexto cercano resultan útiles en los casos de plagio donde se varían las palabras por sinónimos, o se eliminan palabras o insertan nuevas palabras.

El método toma como semillas las oraciones de los documentos [6] y cada oración del sospechoso y el fuente es representada con el modelo de espacio vectorial (VSM por sus siglas en inglés) y el esquema de pesado tf-idf, donde la frecuencia (tf) de cada término se calcula con respecto a la oración a la que pertenece, y para el cálculo de la frecuencia inversa de documento (idf) se toma como colección de documentos el conjunto de oraciones que se obtiene entre los documentos sospechoso y fuente. Luego se incluyen un par de oraciones, una del documento sospechoso y otra del fuente, para analizar si sus semejanzas superan los umbrales (0.33 en ambos casos).

8.2 Detección multilingüe de plagio En esta tarea el objetivo es recuperar aquellos fragmentos del documento sospechoso que han sido plagiados desde el documento fuente. Es decir, los fragmentos que fueron traducidos y reusados de alguna forma sin proporcionar la referencia. Existen varios enfoques utilizados en el cálculo de la semejanza de textos en diferentes idiomas, que han sido utilizados en la tarea de la detección multilingüe de plagio y que presentan a continuación.

Traducción automática. En este enfoque se traducen los textos a un mismo idioma, por lo general al inglés, porque es el idioma que cuenta con más herramientas para su procesamiento. Cuando los documentos se encuentran en un mismo idioma se aplican técnicas de detección de plagio monolingüe. El funcionamiento y el buen desempeño de este enfoque están sujetos a la disponibilidad de un sistema de traducción automática y de su calidad.

Pereira et al. [9] dividen el documento sospechoso y el fuente en párrafos y luego traducen cada párrafo a un mismo idioma, que por defecto es el inglés. Los párrafos son indexados por las raíces de sus palabras después de eliminar las auxiliares. Luego se aplica un algoritmo de clasificación para determinar si una pareja de fragmentos, uno sospechoso y otro fuente, constituyen un caso de plagio. En el proceso se utilizan como rasgos la longitud de cada fragmento y la semejanza coseno entre los fragmentos, entre otros.

17

Trifan [10] traduce los textos a inglés, devolviendo para cada palabra las tres mejores traducciones; posteriormente aplica el método Winnowing [11] para extraer los fingerprints (huellas dactilares) mediante la división de los textos en 5-gramas de palabras.

Basados en sintaxis. Estos enfoques se basan en la semejanza léxico-sintáctica que existen entre algunos idiomas, la cual se observa al utilizar términos cortos como n-gramas de caracteres, prefijos, etc. [12].

Los cognados son palabras similares entre lenguajes, tales como curioso (ES) y curious (EN). De acuerdo con Simard y sus colegas [13], la representación de documentos utilizando esta característica resulta útil en la alineación de textos en diferentes idiomas, por lo que se puede utilizar en la detección multilingüe de plagio. Dados dos textos en diferentes idiomas cada, uno se representa como un vector de términos, donde se utilizan las primeras cuatro letras de cada palabra o la palabra completa, en caso de contener números. Luego, la semejanza entre los vectores se calcula con alguna unidad de medida, como el coseno. Este método es llamado CL-COG [12].

Basado en tesauros Multilingües. En este enfoque se utilizan tesauros multilingües para indexar documentos escritos en diferentes idiomas en un espacio de comparación común. Los términos en estos tesauros están conectados con sus sinónimos en los diferentes lenguajes (synsets multilingües), por lo que los textos pueden ser comparados indexándolos por sus índices interlinguas [14]. Una de las dificultades de este enfoque es que la mayoría de tesauros son incompletos, por lo que no se obtienen buenos resultados.

9. Método propuesto

Figura 1. Método propuesto para la detección de plagio bilingüe

En la Figura 1 se muestra un ejemplo del funcionamiento del algoritmo implementado cuando la entrada son dos documentos, uno en español y otro en inglés, que es el documento fuente. El algoritmo está compuesto por dos etapas: 1) traducción, que involucra de manera opcional la traducción por párrafos, y 2) detección de plagio monolingüe. La primera tiene como propósito llevar los documentos de entrada a un mismo idioma. Luego se procede a detectar los fragmentos de plagio a través de la

1 https://www.apertium.org/index.spa.html?dir=epo-eng#translation

etapa de detección de plagio monolingüe. Después de obtenidos los fragmentos de plagios, se presentan en formato XML.

9.1 Etapa de traducción Esta etapa es la encargada de traducir documentos a un idioma seleccionado y, para lograrlo, el método cuenta con dos traductores incorporados: Apertium1 que se encuentra en los repositorios del sistema operativo Linux y que se utiliza en ambientes donde no existe conectividad a Internet, y Freetranslator2, empleado cuando hay acceso a Internet. Estos traductores cuentan con un archivo configurable, en el que se especifica el idioma al que se quiere traducir el documento. En el caso del traductor online, se añade al archivo el usuario y la contraseña de la persona que quiere utilizar el servicio, lo mismo que la dirección IP predeterminada para la navegación.

9.2 Detección de plagio monolingüe Esta etapa de detección está dividida en cuatro fases: pre-procesamiento, selección, integración y post-procesamiento. La tarea general del pre-procesamiento es segmentar el texto en n-gramas contextuales y de contexto cercano, lo que se convierte en la salida de esta fase. La selección toma como entrada la salida de la fase anterior con el objetivo de buscar todas las coincidencias de n-gramas que se encuentran en ambos textos. La salida de esta fase son todos los pares de n-gramas hallados en el documento sospechoso y en el documento fuente. La integración recibe como entrada todas las coincidencias de n-gramas encontradas en la fase anterior, para extender cada n-grama y convertirlo en fragmentos de textos continuos de longitud máxima. Dado el conjunto de fragmentos de textos alineados, el propósito del post-procesamiento es remover los que no cumplan con ciertos criterios, en este caso los de longitud pequeña.

9.3 Salida del algoritmo

Figura 2. Salida del algoritmo

En la Figura 2 se muestra la salida que debe tener un algoritmo de detección de plagio para la tarea de alineamiento de texto de la Competencia Internacional de Detección de Plagio. Se aprecia que el XML agrupa información sobre dos documentos: la primera línea corresponde al nombre del documento sospechoso que se está analizando; la tercera al nombre de la tarea que se está llevando a cabo, que es la detección de plagio; la cuarta al caracter de inicio del fragmento que fue copiado del documento fuente; y la quinta indica la longitud total del

2 http://www.freetranslator.com

18

pasaje. La sexta línea hace referencia al nombre del documento fuente con el que se está comparando el documento sospechoso; la séptima al inicio del caracter del fragmento que fue objeto de copia; y la octava indica la longitud total del pasaje.

10. Experimentación y análisis de resultados Para realizar los experimentos se utilizaron dos corpus de prueba: 1) Competencia Internacional de Detección de Plagio de 2013, para evaluar la componente de detección de plagio monolingüe del método propuesto. Este corpus está compuesto por cinco sub-corpus:

1. No-plagio 2. Plagio no ofuscado 3. Plagio con ofuscación 4. Plagio con traducción ofuscado 5. Plagio con resumen ofuscado

2) EUROPARL, que es una colección de documentos del Parlamento Europeo en 2000, los cuales se encuentran en inglés y español. Este corpus se empleó para determinar la efectividad del algoritmo, y su principal característica es que las traducciones fueron realizadas manualmente.

Los resultados de los experimentos se evaluaron con la medida plagdet score, que depende de las medidas de granularidad y F1, utilizadas en el primer corpus para evaluar el desempeño de los sistemas detectores de plagio, cuya fórmula se detalla en la siguiente ecuación.

𝑝𝑙𝑎𝑑𝑔𝑒𝑡(𝑆, 𝑅) =𝐹1

log2(1 + 𝑔𝑟𝑎𝑛𝑢𝑙𝑎𝑟𝑖𝑑𝑎𝑑(𝑆, 𝑅))

𝐹1 = 2x𝑝𝑟𝑒𝑐(𝑆, 𝑅) 𝑥 𝑟𝑒𝑙(𝑆, 𝑅)

𝑝𝑟𝑒𝑐(𝑆, 𝑅) + 𝑟𝑒𝑙(𝑆, 𝑅)

𝑔𝑟𝑎𝑛𝑢𝑙𝑎𝑟𝑖𝑑𝑎𝑑(𝑆, 𝑅) =1

|𝑆𝑟|∑ |𝑅𝑠|

𝑠є𝑆𝑟

Donde S es el conjunto de plagio reportado en el corpus y R el conjunto de plagio detectado por el sistema.

10.1 Experimentación con el corpus monolingüe Estos experimentos se utilizan para comprobar la efectividad de la etapa de detección de plagio monolingüe. Además, se presentan diferentes comparaciones en cuanto a la eficacia del método, atendiendo parámetros tales como la longitud de los n-gramas y el umbral de adyacencia. Después de varios experimentos en la búsqueda de umbrales de adyacencia que ofrecieran buenos resultados, se determinó que los mejores resultados se obtienen cuando los umbrales de adyacencia son λ = 170 y λ = 300. Es importante destacar que en los experimentos no se trabajó con el sub-corpus de no-plagio. Para los experimentos, el texto se segmentó en:

1. N-gramas contextuales. 2. N-gramas de contexto cercano. 3. Combinación de n-gramas contextuales y contexto

cercano. 4. Combinación de n-gramas contextuales, contexto

cercano y etiquetas POS.

Además, se utilizó el término pre-procesamiento de texto, que involucra los pasos de eliminar palabras auxiliares del

texto, conversión a minúsculas de todos los caracteres de las palabras, obtención de lemas y ordenación alfabética de los tokens de los n-gramas. Los mejores resultados con este corpus se lograron segmentado los textos en n-gramas contextuales y de contexto cercano con n = 3. La Figura 3 muestra los resultados alcanzados.

Figura 3. Resultados segmentando los textos en n-gramas

contextuales y de contexto cercano

El sub-corpus de plagio no ofuscado se estructura para detectar los documentos sospechosos que presentan fragmentos de texto que son plagio literal de sus respectivos documentos fuentes. Por lo que se esperaba detectar estos fragmentos al 100%. Esto no se logró debido a que la etapa de integración de pasajes, cuando detecta los solapados, solamente toma el de mayor longitud, dejando por fuera los pasajes pequeños cuyas longitudes son mayores que la cota mínima de caracteres establecida para reportarlos como plagio.

10.2 Experimentación con el corpus multilingüe En este experimento se utilizaron los traductores Freetranslator y Apertium. Aquí hay que destacar que cada texto perteneciente a cada documento en inglés y español del EUROPARL se encuentran alineados. Esta característica permitió construir para cada oración del documento en inglés un archivo fuente, y por cada oración del documento en español un archivo sospechoso. Los experimentos se centraron en determinar si cada archivo sospechoso era plagio del fuente correspondiente. Luego de diversos experimentos se determinó que los mejores resultados se lograban cuando los umbrales tomaban valores de λ = 100 y λ = 170. En este corpus los mejores resultados fueron logrados segmentando los textos en n-gramas contextuales; no se hizo pre-procesamiento de los textos; se utilizó λ = 170 como umbral de adyacencia y se empleó el traductor local Apertium.

Figura 4. Resultados pre-procesando los textos y utilizando λ =

100 como umbral de adyacencia

19

La Figura 4 muestra los resultados cuando los textos son pre-procesados y se fija λ = 100 como umbral de adyacencia. El mejor resultado se logró cuando el texto se segmenta en 2-gramas y se emplea el traductor Freetranslator.

En la Figura 5 se muestra los resultados cuando los textos son pre-procesados sin eliminar palabras auxiliares y se fija λ = 170 como umbral de adyacencia. El mejor resultado se logra cuando el texto se segmenta en bi-gramas y se utiliza el traductor Apertium.

Figura 5. Resultados pre-procesando los textos sin eliminar

palabras auxiliares y con λ = 170 como umbral de adyacencia

En los resultados se puede observar que independientemente de la longitud de los n-gramas, los mejores resultados sin eliminar palabras auxiliares se alcanzan utilizando el traductor Apertium; mientras que haciendo pre-procesamiento de texto los mejores resultados se logran utilizando el traductor Freetranslator.

11. Conclusiones En este trabajo se diseñó e implementó un algoritmo para la detección automática de plagio multilingüe, específicamente en la tarea de alineación de textos. La estrategia se basa en traducir uno de los documentos hacia el idioma base del otro documento que se va a analizar, para luego aplicar técnicas de plagio monolingüe para detectar todos los fragmentos de textos plagiados de máxima longitud.

Para llevar a cabo la detección de plagio, primero se pre-procesan los documentos, es decir, se eliminan las palabras auxiliares, los caracteres que no sean letras o números, el texto se convierte a minúsculas, se obtienen todos los lemas, se ordenan alfabéticamente y se crean los n-gramas contextuales y los de contexto cercano. El algoritmo se experimenta con diferentes parámetros, tales como el umbral de adyacencia, los textos se pre-procesan sin eliminar las palabras auxiliares y se utilizan diferentes traductores. Para la fase de detección de plagio monolingüe, los mejores resultados se logran cuando el texto se segmenta en n-gramas contextuales y de contexto cercano, se pre-procesan los textos y se fija λ = 300 como umbral de adyacencia. Mientras que, en la fase multilingüe, los mejores indicadores se alcanzan cuando se segmentan los textos en n-gramas contextuales de longitud n = 2, se

utiliza el traductor local Apertium, no se eliminan palabras auxiliares y se fija λ = 170como umbral de adyacencia.

Como trabajo futuro, se recomienda: 1) experimentar el algoritmo en un ambiente en el que existan documentos en inglés y español, de tal manera que las traducciones se puedan realizar utilizando traductores automáticos y especializados para comprobar el desempeño del algoritmo. 2) En la fase de integración de pasajes, incluir todos los fragmentos de textos solapados detectados para la experimentación. 3) Comprobar por qué con los n-gramas contextuales y de contexto cercano no se obtienen

mejores resultados en la fase de detección de plagio multilingüe.

Referencias

[1] RAE. Diccionario de la lengua española. Edición 22. [2] Bouville, M. (2008). Plagiarism: Words and ideas. Science

and Engineering Ethics 14(3), pp. 311–322. [3] Iyer, P. & Singh, A. (2005). Document similarity analysis for

a plagiarism detection system. Proceedings 2nd Indian International Conference on Artificial Intelligence (pp. 2534-2544). Pune, India.

[4] Potthast, M. et al. (2012). Overview of the 4th international competition on plagiarism detection. Proceedings Conference and Labs of the Evaluation Forum (pp. 1-28). Rome, Italy.

[5] Sidorov, G. (2013). Non-linear construction of n-grams in computational linguistics. México: Sociedad Mexicana de Inteligencia Artificial.

[6] Sánchez, M., Sidorov, G. & Gelbukh, A. (2014). The winning approach to text alignment for text reuse detection at pan 2014. Proceedings 5th International Conference of the CLEF Initiative (pp. 1004–1011). Sheffield, UK.

[7] Rodríguez, D. & Martín, J. (2012). Detailed comparison module in coremo 1.9 plagiarism detector. Proceedings Third International Conference of the CLEF Initiative (pp. 1-8). Rome, Italy.

[8] Rodríguez, D. & Martín, J. (2013). Text alignment module in coremo 2.1 plagiarism detector. Proceedings 4th International Conference of the CLEF Initiative (pp. 1-8). Valencia, Spain.

[9] Pereira, R., Moreira, V. & Galante, R. (2010). A new approach for cross-language plagiarism analysis. Lecture Notes in Computer Science 6360, pp. 15-26.

[10] Trifan, I. (2011). Plagiarism detection in a multilingual environment. Annals of DAAAM 22(1), pp. 831-832.

[11] Schleimer, S., Wilkerson, D. & Aiken, A. (2003). Winnowing: local algorithms for document fingerprinting. Proceedings international conference on Special Interest Group on Management of Data (pp. 76–85). San Diego, USA.

[12] Barrón, L. (2012) On the mono-and cross-language detection of text-reuse and plagiarism. PhD thesis. Universitat Politécnica de Valencia. Spain.

[13] Simard, M., Foster, G. & Isabelle, P. (1993). Using cognates to align sentences in bilingual corpora. Proceedings of the 1993 conference of the Centre for Advanced Studies on Collaborative research: Distributed computing (pp. 1071-1082). Toronto, Canada.

[14] Ceska, Z. Toman, M. & Jezek, K. (2008). Multilingual plagiarism detection. Proceedings 13th international conference on Artificial Intelligence: Methodology, Systems, and Applications (pp. 83-92). Varna, Bulgaria.