term extraction transformation

10
TERM EXTRACTION TRANSFORMATION Dimitri Villamar

Upload: dimitri-villamar

Post on 18-Nov-2014

162 views

Category:

Technology


0 download

DESCRIPTION

Explicacion en cuanto a la caracteristca Term Extatccion

TRANSCRIPT

Page 1: Term extraction transformation

TERM EXTRACTION TRANSFORMATION

Dimitri Villamar

Page 2: Term extraction transformation

Term Extraction Transformation

Extrae términos del texto en una columna de entrada de la transformación y, a continuación, escribe los términos a una columna de salida de la transformación.

Dimitri Villamar

Page 3: Term extraction transformation

Term Extraction Transformation

Utilizar la TET para descubrir el contenido de un conjunto de datos.

Por ejemplo, el texto que contiene mensajes de correo electrónico puede proporcionar información útil sobre los productos, por lo que se puede utilizar la transformación Extracción de términos para extraer los temas de discusión en los mensajes, como una forma de analizar los comentarios.

Dimitri Villamar

Page 4: Term extraction transformation

Términos extraídos y tipos de datos

TET, extrae nombres solamente, sólo frases nominales, o ambos sustantivos y frases sustantivo. Un nombre es un nombre simple, un sustativo nominal es de al menos dos palabras, de las cuales una es un sustantivo y el otro es un sustantivo o un adjetivo.

Dimitri Villamar

Page 5: Term extraction transformation

Términos extraídos y tipos de datos

Por ejemplo, si la transformación usa la opción de sólo los nombres, extrae términos como "bicicleta" y "paisaje", y si la transformación usa la opción sustantivo nominal, extrae términos como "nueva bicicleta azul", "casco de la bicicleta" y "bicicletas en caja".

Artículos y pronombres no se extraen. Por ejemplo, la transformación Extracción de términos extrae la bicicleta plazo a partir del texto de la bicicleta, la bicicleta, y que la bicicleta

Dimitri Villamar

Page 6: Term extraction transformation

Condiciones de exclusión

Opcionalmente, la transformación Extracción de términos puede hacer referencia a una columna en una tabla que contiene los términos de exclusión, es decir, términos que la transformación debe saltar cuando se extrae términos de un conjunto de datos

Dimitri Villamar

Page 7: Term extraction transformation

Sentencia y límites de las palabras

La TET, separa el texto en frases utilizando los siguientes caracteres como límites de la frase:

Caracteres de salto de línea ASCII 0x0D (retorno de carro) y 0x0A (avance de línea). Para usar este carácter como límite de oración, tiene que haber dos o más caracteres de salto de línea en una fila.Los guiones (-). Para usar este carácter como límite de oración, ni el carácter a la izquierda ni a la derecha del guión puede ser una letra.Subrayado (_). Para usar este carácter como límite de oración, ni el carácter a la izquierda ni a la derecha del guión puede ser una letra.Todos los caracteres Unicode que son menos que o igual a 0x19, o mayor que o igual a 0x7b.Las combinaciones de números, signos de puntuación y caracteres alfabéticos. Por ejemplo, A23B # 99 regresa el término A23B.Los personajes,%, @, &, $, #, *,:.!?,;,,,,,, <,>, +, =, ^, ~, |, \, /, (,), [,], {,}, "y '.x

Dimitri Villamar

Page 8: Term extraction transformation

Sentencia y límites de las palabras

Caracteres de salto de línea ASCII 0x0D (retorno de carro) y 0x0A (avance de línea). Para usar este carácter como límite de oración, tiene que haber dos o más caracteres de salto de línea en una fila.

Los guiones (-). Para usar este carácter como límite de oración, ni el carácter a la izquierda ni a la derecha del guión puede ser una letra.

Subrayado (_). Para usar este carácter como límite de oración, ni el carácter a la izquierda ni a la derecha del guión puede ser una letra.

Todos los caracteres Unicode que son menos que o igual a 0x19, o mayor que o igual a 0x7b.

Las combinaciones de números, signos de puntuación y caracteres alfabéticos. Por ejemplo, A23B # 99 regresa el término A23B.

Los personajes,%, @, &, $, #, *,:.!?,;,,,,,, <,>, +, =, ^, ~, |, \, /, (,), [,], {,}, "y '.

Dimitri Villamar

Page 9: Term extraction transformation

Sentencia y límites de las palabras

Siglas que incluyen uno o más puntos (.) no seran separadas en varias sentencias.

La TET luego separa la oración en palabras usando los siguientes límites de las palabras:

• Espacio• Tabulaciones• 0x0d ASCII (retorno de carro)• 0x0a ASCII (salto de línea)

Dimitri Villamar

Page 10: Term extraction transformation

La configuración del TET

La TET utiliza algoritmos internos y modelos estadísticos para generar sus resultados.

Puede que tenga que ejecutar la TET varias veces y examinar los resultados para configurar la transformación para generar el tipo de resultados que funcione para su solución de minería de texto.

Dimitri Villamar