text mining - universidad de san martín de porres · beneficios de text mining identificar...

42
Text Mining ANÁLISIS DE SENTIMIENTOS PARA LA TOMA DE DECISIONES

Upload: others

Post on 26-Feb-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Text Mining

ANÁLISIS DE SENTIMIENTOS PARA LA TOMA DE DECISIONES

Page 2: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Tabla de Contenidos

Introducción

Qué es Text Mining?

Beneficios y Aplicaciones del TM

Técnicas para el TM

Tecnologías para el TM

SAS, SPSS Modeler, Pentaho, Weka, etc.

Perfil Laboral necesario para TM

Data Scientist

Page 3: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Section 1

Qué es Text Mining

Page 4: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Contexto

Page 5: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

BA

Text Mining

• Herramienta para descubrir conocimiento

orientado a usuarios de negocios.

• Resultados fáciles de entender.

Sobrecarga de Datos Conocimiento útil

Page 6: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

BUSINESS ANALYTICS – DEFINICIÓN

se refiere a las capacidades matemáticas aplicadas con

software las cuales ofrecen una visión basada en los datos para mejores

decisiones.

Analytics abarca una gama de técnicas de recopilación, análisis e

interpretación de datos con el fin de revelar patrones, anomalías, variables

clave, y relaciones (el "conocido desconocido" y el "desconocido").

Text Analytic - Radian6 (02:29)

Page 7: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Olas de Business Analytics

Page 8: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Puesta en Marcha de BA

Cada aplicación de la BA viene definida por:

Qué se predice. El tipo de comportamiento (por ejemplo, la acción, el

evento o suceso) a predecir para cada persona, acción bursátil u otro

tipo de elemento.

Qué se hace al respecto. Las decisiones que se toman a partir de la

predicción; la acción que realiza la organización en respuesta o en

base a cada predicción.

Page 9: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Hechos vs Opiniones

Hechos: expresiones objetivas acerca de

entidades, eventos y sus atributos, por

ejemplo, "He comprado un iPhone ayer“.

Opiniones: expresiones subjetivas de

sentimientos, actitudes, emociones,

evaluaciones o sentimientos hacia

entidades, eventos y sus atributos, por

ejemplo, "Me encanta esta nueva cámara".

Page 10: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

¿Qué es Text Mining?

Text Mining es el análisis de información no

estructurada, la cual se puede encontrar en

redes sociales. Usa técnicas de Lingüística,

modelamientos estadísticos y técnicas de

aprendizaje para descubrir conocimientos que no

existen explícitamente en ningún texto de la

colección, pero que surgen al relacionar el

contenido de muchos de ellos.

Page 11: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Tipos de Textos analizados

•Encuestas de opinión.

• Encuestas de satisfacción del cliente.

• Libros de Reclamaciones.

•Entrevistas semi-abiertas en estudios de clientes.

• Vigilia tecnológica: resúmenes de artículos científicos

contenidos en las bases científicas, patentes, …

Page 12: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Comprensión del Negocio

Comprensión de los Datos

Preparación de los Datos

Modelado Evaluación Desarrollo

Data Mining

Text Mining

Preparar

texto para

Análisis

Extraer

Conceptos

Construir

Categorías Desplegar

Modelos

Predictivos

Aplicar el

Análisis de

enlace de

Texto

ETAPAS

Page 13: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Aprendizaje Supervisado

Modelo

Clasificador

Nuevos Documentos

Documentos de

Entrenamiento Máquina de

Aprendizaje

Page 14: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Tendencias de los Conceptos

Text Mining

Business

Analytics

Text Analytics

Page 15: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Section 2

Beneficios y Aplicaciones de TM en algunos Sectores

Medir Medios Sociales - Radian6 (02:24)

Page 16: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Beneficios de Text Mining

Identificar “hechos” y datos puntuales a partir del texto de los documentos.

Agrupar documentos similares (clustering).

Determinar el tema o temas tratados en los documentos mediante la categorización automática de los textos.

Identificar los conceptos tratados en los documentos y crear redes de conceptos.

Facilitar el acceso a la información repartida entre los documentos de la colección, mediante la elaboración automática de resúmenes, y la visualización de las relaciones entre los conceptos tratados en la colección.

Visualización y navegación de colecciones de texto.

Page 17: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Aplicaciones de Text Mining

Resumen automático

de textos

Detección de fraudes

Tendencias Electorales

Análisis de sentimientos

Clasificación de textos

Page 18: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos
Page 19: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Aplicaciones de Seguridad

Muchas empresas y gobiernos utilizan la Minería de Textos para el

seguimiento y análisis de fuentes en línea de texto sin formato, como

las noticias de Internet, blogs, etc. para fines de seguridad nacional.

También está involucrado en el estudio del texto cifrado / descifrado.

Biomédicos

Se refiere a la Minería de Texto aplicado a los textos y la literatura del

dominio de la biología molecular y biomedicina. Es un campo de

investigación bastante reciente en el borde del procesamiento del

lenguaje natural, la bioinformática, la informática médica y la

lingüística computacional.

Page 20: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Marketing

Está empezando a utilizar en la comercialización, y más concretamente, en

análisis de gestión de relaciones con clientes. Coussement y Van den Poel

lo aplican para mejorar los modelos de análisis predictivo para la pérdida

de clientes.

Aplicaciones académicas

El tema de la Minería de Textos es de importancia para publicadores que

tengan grandes bancos de datos que requieran de indexación. Esto es el

caso en particular para disciplinas científicas en las que hay una gran

cantidad de información muy específica en forma de texto escrito.

Page 21: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Interfaz de text mining de

TAKMI.

A: Número de documentos que

devolvió la búsqueda.

B: Títulos de documentos

relevantes.

C: Distribución de conceptos

que han sido extraídos de

esos documentos.

D: Estadísticas de los

conceptos.

Aplicaciones para Text Mining

Page 22: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Sentiment140

(anteriormente conocido

como "Twitter

Sentiment") le permite

descubrir el sentimiento

de una marca, producto o

tema en Twitter.

Page 23: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

La interfaz del sistema

Politics del .

La tabla a continuación

destaca el número de posts

relacionados con los

candidatos a Gobernador o al

Senado.

Page 24: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Sistema VOSviewer.

Mapa de calor del

Journal of the

American Society for

Information Science

and Technology.

El color de un término

indica el índice de

citación promedio de

las publicaciones en

que el término

ocurrió.

Page 25: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Los resultados obtenidos se suelen presentar en forma de tabla o gráfico en los que

no aparecen los literales empleados por los entrevistados sino los códigos que los

agrupan. Veamos un ejemplo:

Forma tradicional de explotación de las preguntas abiertas…

% Bebida sana / contiene fibra natural y frutas ........ 50

Fibra / aporta fibra ............................................... 16

Sano / Más sano que otras bebidas ................... 14

Fruta / Tiene zumo de futas ................................. 11

Fruta y fibra ........................................................... 11

Buena para la dieta ............................................. 10

El envase ..................................................................... 27

El envase ............................................................... 18

La forma / el tamaño ........................................... 5

El color ................................................................... 3

Sabor ........................................................................... 13

Buen sabor ............................................................ 7

Sabor a frutos rojos ............................................... 4

Producto natural ........................................................ 12

Sin colorantes artificiales ...................................... 5

Sin aditivos ............................................................. 5

Natural ................................................................... 4

No sabores artificiales .......................................... 3

Aspectos que más gustan del concepto

La tabla obtenida nos muestra que el

contenido en fibras y frutas y su efecto

sobre la salud han sido los aspectos que

más han interesado.

El envase, también ha despertado interés.

Sin embargo, el sabor y la naturalidad de

la nueva bebida han tenido menos

impacto.

…pero, ¿eso es todo lo que

podemos obtener de este tipo de

preguntas?

Page 26: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

La tag cloud de las respuestas obtenidas en la pregunta abierta de la tabla

anterior :

Podemos ver de una forma muy visual que las mayores menciones se

centran en la incorporación de frutas y fibra y la consiguiente

imagen de refresco saludable y la botella.

Page 27: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

¿Cómo podemos sacar más partido a la información de

las preguntas abiertas?

Minería de Textos

El principio fundamental en esta perspectiva es el análisis a través

de la comparación. Se busca comparar entre sí el discurso de los

individuos que han contestado a una encuesta o preguntas pautadas

en entrevistas personales.

Page 28: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Tras aplicar Text Mining a la pregunta, podríamos obtener dos gráficos:

No

Duda

Si

Natural

Fibras

Sana

Botella

Combinación de frutas y fibras

Novedad

Frutas

Sin colorantes artificiales

Sin aromas artificiales

Diseño de la botella

Frutos rojos Más sana que otras

Aporta fibra a la dieta

Refrescante

Buen sabor

La marca

Botella diferente

El sabor

Ayuda para la vida moderna

Sin edulcorantes

Sin aditivos

Color

Aspectos que MÁS GUSTAN del concepto según su intención de comprarlo

No interesados

en comprarlo

Interesados en

comprarlo

Dudosos

Page 29: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Analizando las diferencias de discurso entre los tres grupos analizados podemos ver

que:

• La comunicación del nuevo producto debería centrarse en tres ejes:

• La combinación de frutas y fibra que lo convierte en una bebida sana y

saludable.

• No tener ni edulcorantes, colorantes o aromas artificiales que refuerza

esa imagen de saludable.

• La novedad que todo ello supone en el mercado.

• Además, hay que tener en cuenta que:

• Uno de los posibles frenos a la compra son las dudas sobre el sabor que

tendrá.

• Otro freno a la compra reside en las dudas sobre el aporte real de fibra a la

dieta.

• Existe también un problema con el nombre del producto que está presente

hasta en los más proclives a la compra.

Page 30: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

…pero, ¿podemos obtener aún más información?

Para poder llevarlo a cabo es necesario:

•Pedirle a los entrevistados que, tras responder a la pregunta

abierta, valoren su propio comentario como:

Muy positivo

•+2

Bastante positivo

•+1

Neutro

•0

Bastante negativo

• -1

Muy negativo

• -2

Page 31: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Comentarios negativos Comentarios positivos

40

25

15

10

21

20

10

10

Contenido en frutas y fibras

Salud

Buen sabor

Botella

Muy positivos Bastante positivos

20

18

14

11

11

10

9

5

No se creen la salud

Mal sabor

No es diferente

Botella

Muy positivos Bastante positivos

También nos permite conocer en qué grandes ejes se concentran los

comentarios positivos y negativos:

Muy negativos Bastante negativos

Page 32: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Section 3

Técnicas para Text Mining

SAS® Text Analytics (04:39)

Page 33: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Técnicas de Text Mining

La extracción de Términos, es la técnica más básica que identifica

los términos clave y entidades lógicas (nombres de las organizaciones,

lugares, fechas y valores financieros entre otros). La estructura de

datos más simple en la minería de texto es el vector de características,

una lista de las palabras ponderadas que aparecen en un texto.

La extracción de Información se basa en los términos extraídos del

texto para identificar las relaciones básicas. La extracción de

información se centra en un conjunto de hechos que constituyen un

evento, episodio, o estado.

Page 34: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Técnicas de Text Mining

• El Análisis Relacional, combina múltiples

vínculos para formar modelos de varios

pasos de procesos complejos. Es un conjunto

de técnicas que permite tener una idea de

las relaciones entre varias entidades con

múltiples conexiones, pasos, o enlaces.

• Clasificación

• Análisis del Cluster, etc.

Page 35: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Section 4

Tecnologías para Text Mining

Page 36: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Metodología CRISP

Page 37: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Metodología SEMMA

Page 38: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Plataformas Tecnológicas

Page 39: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Section 5

Perfil Laboral necesario para Text Mining

Page 40: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Aunque TM va a cambiar el

modo de gestionar las

compañías, el principal reto al

que se enfrentan las empresas

en la adopción de ellos es la

búsqueda de profesionales

cualificados que puedan

gestionarlo.

Page 41: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Estos profesionales se definen como data scientist, científicos de

datos. Serán los más buscados y deseados por la industria, lo que

empujará a una escalada de salarios similar a la que a finales de

los 90 vivieron los expertos en SAP.

Se buscará a profesionales con

habilidades en estadística- matemáticas,

informática y toma de decisiones, que

sean creativos a la hora de determinar

soluciones que TM puede aportar para

salvar o potenciar su negocio.

Page 42: Text Mining - Universidad de San Martín de Porres · Beneficios de Text Mining Identificar “hechos” y datos puntuales a partir del texto de los documentos. Agrupar documentos

Text Mining

ANÁLISIS DE SENTIMIENTOS PARA LA TOMA DE DECISIONES