text mining - universidad de san martín de porres · beneficios de text mining identificar...
TRANSCRIPT
Text Mining
ANÁLISIS DE SENTIMIENTOS PARA LA TOMA DE DECISIONES
Tabla de Contenidos
Introducción
Qué es Text Mining?
Beneficios y Aplicaciones del TM
Técnicas para el TM
Tecnologías para el TM
SAS, SPSS Modeler, Pentaho, Weka, etc.
Perfil Laboral necesario para TM
Data Scientist
Section 1
Qué es Text Mining
Contexto
BA
Text Mining
• Herramienta para descubrir conocimiento
orientado a usuarios de negocios.
• Resultados fáciles de entender.
Sobrecarga de Datos Conocimiento útil
BUSINESS ANALYTICS – DEFINICIÓN
se refiere a las capacidades matemáticas aplicadas con
software las cuales ofrecen una visión basada en los datos para mejores
decisiones.
Analytics abarca una gama de técnicas de recopilación, análisis e
interpretación de datos con el fin de revelar patrones, anomalías, variables
clave, y relaciones (el "conocido desconocido" y el "desconocido").
Text Analytic - Radian6 (02:29)
Olas de Business Analytics
Puesta en Marcha de BA
Cada aplicación de la BA viene definida por:
Qué se predice. El tipo de comportamiento (por ejemplo, la acción, el
evento o suceso) a predecir para cada persona, acción bursátil u otro
tipo de elemento.
Qué se hace al respecto. Las decisiones que se toman a partir de la
predicción; la acción que realiza la organización en respuesta o en
base a cada predicción.
Hechos vs Opiniones
Hechos: expresiones objetivas acerca de
entidades, eventos y sus atributos, por
ejemplo, "He comprado un iPhone ayer“.
Opiniones: expresiones subjetivas de
sentimientos, actitudes, emociones,
evaluaciones o sentimientos hacia
entidades, eventos y sus atributos, por
ejemplo, "Me encanta esta nueva cámara".
¿Qué es Text Mining?
Text Mining es el análisis de información no
estructurada, la cual se puede encontrar en
redes sociales. Usa técnicas de Lingüística,
modelamientos estadísticos y técnicas de
aprendizaje para descubrir conocimientos que no
existen explícitamente en ningún texto de la
colección, pero que surgen al relacionar el
contenido de muchos de ellos.
Tipos de Textos analizados
•Encuestas de opinión.
• Encuestas de satisfacción del cliente.
• Libros de Reclamaciones.
•Entrevistas semi-abiertas en estudios de clientes.
• Vigilia tecnológica: resúmenes de artículos científicos
contenidos en las bases científicas, patentes, …
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos
Modelado Evaluación Desarrollo
Data Mining
Text Mining
Preparar
texto para
Análisis
Extraer
Conceptos
Construir
Categorías Desplegar
Modelos
Predictivos
Aplicar el
Análisis de
enlace de
Texto
ETAPAS
Aprendizaje Supervisado
Modelo
Clasificador
Nuevos Documentos
Documentos de
Entrenamiento Máquina de
Aprendizaje
Tendencias de los Conceptos
Text Mining
Business
Analytics
Text Analytics
Section 2
Beneficios y Aplicaciones de TM en algunos Sectores
Medir Medios Sociales - Radian6 (02:24)
Beneficios de Text Mining
Identificar “hechos” y datos puntuales a partir del texto de los documentos.
Agrupar documentos similares (clustering).
Determinar el tema o temas tratados en los documentos mediante la categorización automática de los textos.
Identificar los conceptos tratados en los documentos y crear redes de conceptos.
Facilitar el acceso a la información repartida entre los documentos de la colección, mediante la elaboración automática de resúmenes, y la visualización de las relaciones entre los conceptos tratados en la colección.
Visualización y navegación de colecciones de texto.
Aplicaciones de Text Mining
Resumen automático
de textos
Detección de fraudes
Tendencias Electorales
Análisis de sentimientos
Clasificación de textos
Aplicaciones de Seguridad
Muchas empresas y gobiernos utilizan la Minería de Textos para el
seguimiento y análisis de fuentes en línea de texto sin formato, como
las noticias de Internet, blogs, etc. para fines de seguridad nacional.
También está involucrado en el estudio del texto cifrado / descifrado.
Biomédicos
Se refiere a la Minería de Texto aplicado a los textos y la literatura del
dominio de la biología molecular y biomedicina. Es un campo de
investigación bastante reciente en el borde del procesamiento del
lenguaje natural, la bioinformática, la informática médica y la
lingüística computacional.
Marketing
Está empezando a utilizar en la comercialización, y más concretamente, en
análisis de gestión de relaciones con clientes. Coussement y Van den Poel
lo aplican para mejorar los modelos de análisis predictivo para la pérdida
de clientes.
Aplicaciones académicas
El tema de la Minería de Textos es de importancia para publicadores que
tengan grandes bancos de datos que requieran de indexación. Esto es el
caso en particular para disciplinas científicas en las que hay una gran
cantidad de información muy específica en forma de texto escrito.
Interfaz de text mining de
TAKMI.
A: Número de documentos que
devolvió la búsqueda.
B: Títulos de documentos
relevantes.
C: Distribución de conceptos
que han sido extraídos de
esos documentos.
D: Estadísticas de los
conceptos.
Aplicaciones para Text Mining
Sentiment140
(anteriormente conocido
como "Twitter
Sentiment") le permite
descubrir el sentimiento
de una marca, producto o
tema en Twitter.
La interfaz del sistema
Politics del .
La tabla a continuación
destaca el número de posts
relacionados con los
candidatos a Gobernador o al
Senado.
Sistema VOSviewer.
Mapa de calor del
Journal of the
American Society for
Information Science
and Technology.
El color de un término
indica el índice de
citación promedio de
las publicaciones en
que el término
ocurrió.
Los resultados obtenidos se suelen presentar en forma de tabla o gráfico en los que
no aparecen los literales empleados por los entrevistados sino los códigos que los
agrupan. Veamos un ejemplo:
Forma tradicional de explotación de las preguntas abiertas…
% Bebida sana / contiene fibra natural y frutas ........ 50
Fibra / aporta fibra ............................................... 16
Sano / Más sano que otras bebidas ................... 14
Fruta / Tiene zumo de futas ................................. 11
Fruta y fibra ........................................................... 11
Buena para la dieta ............................................. 10
El envase ..................................................................... 27
El envase ............................................................... 18
La forma / el tamaño ........................................... 5
El color ................................................................... 3
Sabor ........................................................................... 13
Buen sabor ............................................................ 7
Sabor a frutos rojos ............................................... 4
Producto natural ........................................................ 12
Sin colorantes artificiales ...................................... 5
Sin aditivos ............................................................. 5
Natural ................................................................... 4
No sabores artificiales .......................................... 3
Aspectos que más gustan del concepto
La tabla obtenida nos muestra que el
contenido en fibras y frutas y su efecto
sobre la salud han sido los aspectos que
más han interesado.
El envase, también ha despertado interés.
Sin embargo, el sabor y la naturalidad de
la nueva bebida han tenido menos
impacto.
…pero, ¿eso es todo lo que
podemos obtener de este tipo de
preguntas?
La tag cloud de las respuestas obtenidas en la pregunta abierta de la tabla
anterior :
Podemos ver de una forma muy visual que las mayores menciones se
centran en la incorporación de frutas y fibra y la consiguiente
imagen de refresco saludable y la botella.
¿Cómo podemos sacar más partido a la información de
las preguntas abiertas?
Minería de Textos
El principio fundamental en esta perspectiva es el análisis a través
de la comparación. Se busca comparar entre sí el discurso de los
individuos que han contestado a una encuesta o preguntas pautadas
en entrevistas personales.
Tras aplicar Text Mining a la pregunta, podríamos obtener dos gráficos:
No
Duda
Si
Natural
Fibras
Sana
Botella
Combinación de frutas y fibras
Novedad
Frutas
Sin colorantes artificiales
Sin aromas artificiales
Diseño de la botella
Frutos rojos Más sana que otras
Aporta fibra a la dieta
Refrescante
Buen sabor
La marca
Botella diferente
El sabor
Ayuda para la vida moderna
Sin edulcorantes
Sin aditivos
Color
Aspectos que MÁS GUSTAN del concepto según su intención de comprarlo
No interesados
en comprarlo
Interesados en
comprarlo
Dudosos
Analizando las diferencias de discurso entre los tres grupos analizados podemos ver
que:
• La comunicación del nuevo producto debería centrarse en tres ejes:
• La combinación de frutas y fibra que lo convierte en una bebida sana y
saludable.
• No tener ni edulcorantes, colorantes o aromas artificiales que refuerza
esa imagen de saludable.
• La novedad que todo ello supone en el mercado.
• Además, hay que tener en cuenta que:
• Uno de los posibles frenos a la compra son las dudas sobre el sabor que
tendrá.
• Otro freno a la compra reside en las dudas sobre el aporte real de fibra a la
dieta.
• Existe también un problema con el nombre del producto que está presente
hasta en los más proclives a la compra.
…pero, ¿podemos obtener aún más información?
Para poder llevarlo a cabo es necesario:
•Pedirle a los entrevistados que, tras responder a la pregunta
abierta, valoren su propio comentario como:
Muy positivo
•+2
Bastante positivo
•+1
Neutro
•0
Bastante negativo
• -1
Muy negativo
• -2
Comentarios negativos Comentarios positivos
40
25
15
10
21
20
10
10
Contenido en frutas y fibras
Salud
Buen sabor
Botella
Muy positivos Bastante positivos
20
18
14
11
11
10
9
5
No se creen la salud
Mal sabor
No es diferente
Botella
Muy positivos Bastante positivos
También nos permite conocer en qué grandes ejes se concentran los
comentarios positivos y negativos:
Muy negativos Bastante negativos
Section 3
Técnicas para Text Mining
SAS® Text Analytics (04:39)
Técnicas de Text Mining
La extracción de Términos, es la técnica más básica que identifica
los términos clave y entidades lógicas (nombres de las organizaciones,
lugares, fechas y valores financieros entre otros). La estructura de
datos más simple en la minería de texto es el vector de características,
una lista de las palabras ponderadas que aparecen en un texto.
La extracción de Información se basa en los términos extraídos del
texto para identificar las relaciones básicas. La extracción de
información se centra en un conjunto de hechos que constituyen un
evento, episodio, o estado.
Técnicas de Text Mining
• El Análisis Relacional, combina múltiples
vínculos para formar modelos de varios
pasos de procesos complejos. Es un conjunto
de técnicas que permite tener una idea de
las relaciones entre varias entidades con
múltiples conexiones, pasos, o enlaces.
• Clasificación
• Análisis del Cluster, etc.
Section 4
Tecnologías para Text Mining
Metodología CRISP
Metodología SEMMA
Plataformas Tecnológicas
Section 5
Perfil Laboral necesario para Text Mining
Aunque TM va a cambiar el
modo de gestionar las
compañías, el principal reto al
que se enfrentan las empresas
en la adopción de ellos es la
búsqueda de profesionales
cualificados que puedan
gestionarlo.
Estos profesionales se definen como data scientist, científicos de
datos. Serán los más buscados y deseados por la industria, lo que
empujará a una escalada de salarios similar a la que a finales de
los 90 vivieron los expertos en SAP.
Se buscará a profesionales con
habilidades en estadística- matemáticas,
informática y toma de decisiones, que
sean creativos a la hora de determinar
soluciones que TM puede aportar para
salvar o potenciar su negocio.
Text Mining
ANÁLISIS DE SENTIMIENTOS PARA LA TOMA DE DECISIONES