enaitz ezpeleta - cybercamp | cybercamp 2019 · 2018. 2. 8. · who am i enaitz ezpeleta gallastegi...

#CyberCamp17

Nuevos Paradigmas de

Análisis Basados en

Contenidos para la

Detección del Spam en

Redes Sociales

- Enaitz Ezpeleta -

Santander , 1 de diciembre del 2017

Who am I

Enaitz Ezpeleta Gallastegi

[email protected]

Doctor en Informática.

Docente e investigador en MU.

www.mondragon.edu

2

3

¿Qué presento y cómo he llegado aquí?

(Septiembre 2016)

(Junio 2017)

4

Invitación

Próximamente en:

http://2018.jnic.es/

En Donostia – San Sebastian organizada por Mondragon Unibertsitatea

http://2018.jnic.es/

5

Índice

Introducción

Spam personalizado

Influencia del análisis de sentimiento en el filtrado del spam

Influencia del reconocimiento de personalidad en el filtrado del

spam

Combinación del análisis de sentimiento y el reconocimiento

de personalidad el el filtrado del spam

Resumen

6

Introducción - ¿Qué es el spam?

7

Introducción – Motivación

Consecuencias negativas del spam [1]:

Consecuencias directas: venta de productos, instalación de

malware...

Consumo de recursos de red.

Consumo de recursos humanos.

Perdida de mensajes legítimos.

[1] G. V. Cormack. Email spam filtering: A systematic review. Foundations and Trends in Information Retrieval,

1(4):335-455, 2007.

8


Las campañas de spam siguen siendo uno de los

mayores problemas que afecta a millones de

usuarios al día.

[2] https://securelist.com/spam-and-phishing-in-q3-2017/82901/

9


El aumento del spam en servicios de mensajería

instantánea ,atrae campañas no legítimas.

Telefonos móviles con SMS: 6.1 billones (Junio 2015) [3].

WhatsApp: >1 billón de usuarios (Febrero 2016) [4].

El SMS spam en China e India:

20-30% del tráfico total de SMSs en 2011 [5].

[3] Sms: the language of 6 billion people. Portio Research Limited, June 2015.

[4] https://blog.whatsapp.com/616/One-billion/

[5] Sms and mobile messaging attacks. GSMA Spam Reporting Service, January 2011.

10


[6] https://techcrunch.com/2017/06/27/facebook-2-billion-users/

11

Introducción – Hipótesis

El spam personalizado puede ser un serio problema

que maximiza el ratio de respuesta del spam

eludiendo los sistemas actuales de detección.

12

Introducción – Hipótesis

El spam personalizado puede ser un serio problema

que maximiza el ratio de respuesta del spam

eludiendo los sistemas actuales de detección.

Es posible identificar la intencionalidad comercial de

los mensajes utilizando técnicas de análisis de

contenido.

La intencionalidad del mensaje puede ser usado

para clasificar mensajes spam en las redes sociales.

13

Introducción – Objetivo

Objetivo 1:

Demostrar que es posible crear nuevos tipos de spam utilizando

información de las Redes Sociales.

14

Introducción – Objetivo

Objetivo 1:

Demostrar que es posible crear nuevos tipos de spam utilizando

información de las Redes Sociales.

Objetivo 2:

Demostrar que es posible diseñar y desarrollar nuevos métodos

para mejorar los resultados de filtrado de spam fuera y dentro de

las redes sociales.

15

Introducción – Background

Detección de spam:

Entre todos los tipos de filtros, los filtros basados en aprendizaje

han obtenido los mejores resultados [7].

[7] Teli et al. Effective spam detection method for email. In International Conference on Advances in Engineering &

Technology, 2014.

16


Procesamiento del lenguaje natural:

Técnicas computacionales para analizar textos con el objetivo

de alcanzar un procesamiento humano en aplicaciones o tareas

[8].

Estudios demuestran la posibilidad de desarrollar técnicas anti-

spam usando técnicas de minería de textos [9].

[8] E.D. Liddy. Natural language processing, NY. Marcel Decker, Inc 2001.

[9] R. Y. K. Lau, S. Y. Liao, R. C. Kwok, K. Xu, Y. Xia, and Y. Li. Text mining and probabilistic language modeling for

online review spam detection. ACM Trans. Manage. Inf. Syst., 2(4):25:1–25:30, January 2012.

17


Seguridad en redes sociales:

En los últimos años se han publicado numerosos productos y

métodos para hacer frente a vulnerabilidades de las redes

sociales.

Aunque la mayoría de las investigaciones se han centrado en

campañas dentro de las redes sociales, la combinación del

spam típico y las redes sociales supone una amenaza.

18

Desarrollo

Spam personalizado

Influencia del análisis de sentimiento en el filtrado

del spam

Influencia del reconocimiento de personalidad en el

filtrado del spam

Combinación del análisis de sentimiento y el

reconocimiento de personalidad el el filtrado del

spam

19

Spam personalizado - Objetivo

Demostrar que es posible generar spam personalizado

y que es una amenaza real.

20

Spam personalizado - Antecedentes

Bonneau et al. demostraron que es posible

recolectar grandes volúmenes de datos desde

Facebook [10].

Investigadores encontraron una vulnerabilidad que

posibilitaba conectar direcciones de correo

electrónico con cada cuenta [11].

[10] J. Bonneau, J. Anderson, and G Danezis. Prying data out of a social network. International Conference on

Advances in Social Network Analysis and Mining, 0:249-254, 2009.

[11] M. Balduzzi, C. Platzer, T. Holz, E. Kirda, D. Balzarotti, and C Kruegel. Abusing social networks for automated user

profiling. In Proceedings of the 13th international conference on Recent advances in intrusion detection, RAID’10,

pages 422-442, 2010, Springer-Verlag.

21

Spam personalizado - Proceso

22

Spam personalizado – Colección de datos

23

Spam personalizado – Procesamiento de los

datos

24

Spam personalizado – Personalización

25


26


Ejemplo de la plantilla musica:

27

Spam personalizado – Experimentos

Primer experimento:

Campaña de spam típico.

Segundo experimento:

Campaña de spam personalizado.

Objetivo:

Comparar los resultados.

28

Spam personalizado – Resultados

Comparativa de los resultados:

29

Spam personalizado – Conclusión

Es posible generar spam personalizado, usando

información pública de las redes sociales,

incrementando el ratio de respuesta.

30

Spam personalizado – Consideraciones éticas

Trabajamos para mejorar la seguridad online,

usamos la información de los usuarios para

protegerlos en el futuro.

Usamos únicamente información pública de las

redes sociales.

No atacamos cuentas, contraseñas o áreas privadas.

Los atacantes utilizan esta información, si usamos la

misma información y actuamos como ellos,

defenderemos mejor a los usuarios.

31

Análisis de sentimiento - Objetivo

Mejorar los ratios de filtrado spam utilizando técnicas

de análisis de sentimiento.

32

Análisis de sentimiento – Definición

"Proceso computacional para la identificación y

categorización de opiniones expresadas en textos"

[Oxford Dictionaries]

Interesante para extraer la polaridad de los textos (positivo,

negativo, neutral).

33

Análisis de sentimiento – Propuesta

1. Filtrado spam bayesiano

2. Analisis de sentimiento

34

Análisis de sentimiento – Propuesta

Todos los experimentos son testeados usando la

validación cruzada en 10 carpetas.

Los resultados se analizan tomando en cuenta el

accuracy y el número de falsos positivos.

35

Análisis de sentimiento – Filtrado bayesiano

Objetivo: identificar los 10 mejores clasificadores y

las mejores configuraciones.

36

Análisis de sentimiento – Filtrado bayesiano

Clasificadores:

Bayesian Logistic Regression.

Complement Naive Bayes.

DMNBtext.

Naive Bayes.

Naive Bayes Multinomial.

Naive Bayes Multinomial Updateable.

Naive Bayes Updateable.

Support Vector Machines.

Decision Tree.

Random Tree.

Forest of Random Trees.

Adaptive Boosting Meta-Algorithm with Naive Bayes.

Filtros:

String to word vector.

Attribute selection ranker.

37

Análisis de sentimiento – Analizadores

Analizadores propios:

Diccionario usado: SentiWordNet [12].

Desarrollos: Adjetivo, Adverbio, Verbo, Nombre, AllPositions.

TextBlob [13]:

API que ofrece varios servicios de PLN.

[12] S. Baccianella, A. Esuli and Fabrizio Sebastiani. SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment

Analysis and Opinion Mining. LREC 2010.

[13] Public URL: http://textblob.readthedocs.org/en/dev/

38

Análisis de sentimiento

Identificación de los mejores clasificadores:

39


40


41

Análisis de sentimiento – Conjuntos de datos

Email spam:

CSDMC 2010 Spam Corpus [14]

TREC 2007 Public Corpus [15]

SMS spam:

SMS Spam Collection v.1 [16]

British English SMS corpora [17]

Social media spam:

Youtube Comments Dataset [18]

[14] http://www.csmining.org/index.php/spam-email-datasets-.html

[15] http://plg.uwaterloo.ca/ gvcormac/treccorpus07/

[16] http://www.dt.fee.unicamp.br/ tiago/smsspamcollection/

[17] https://goo.gl/UUgl4X

[18] http://mlg.ucd.ie/yt/

42

Análisis de sentimiento – Descriptivo - Email

Comparación entre analizadores:

Media de los mejores analizadores:

43

Análisis de sentimiento – Resultados - Email

Dataset: CSDMC 2010:

Mejor precisión: desde 99.15% a 99.21%.

Con el mejor analizador de sentimiento: 8 mejor, 1 igual, 1 peor.

Dataset: TREC 2007:


En todos los casos, salvo uno, la precisión mejora.

Reducción del número de falsos positivos.

44

Análisis de sentimiento – Descriptivo - SMS

Comparación entre analizadores:


45

Análisis de sentimiento – Resultados - SMS

Dataset: SMSSpam:


En la mitad de los casos la precisión mejora.

0 falsos positivos con 98.67%.

Dataset: BritishSMS:

Mejor precisión: el mismo (97.49%).

Usando el mejor analizador de sentimiento:

□ Precisión: 5 mejor, 4 igual, 1 peor.

□ Reducción del número de falsos positivos en casi todos los casos.

46

Análisis de sentimiento – Descriptivo -

Social Media Spam Se utilizan los mismos analizadores que en los

email.


47

Análisis de sentimiento – Resultados -

Social Media Spam

Comentarios de Youtube:


La precisión se mejorar en la mitad de los casos.

El número de falsos positivos se reduce en todos los casos.

48

Análisis de sentimiento – Conclusiones

El spam en emails y SMS es más positico que el legítimo,

mientras que en los comentarios de las redes sociales el

spam es más negativo.

Demostramos que el análisis de sentimiento del texto

ayuda en la detección de spam.

En tres diferentes escenarios los resultados en terminos

de precisión son mejores, y el número de falsos positivos

se reduce.

Aunque la diferencia parece pequeña, si tenemos en

cuenta el tráfico real del spam, la mejoría es significativa.

49

Reconocimiento de personalidad - Objetivo

Demostrar que el reconocimiento de personalidad

puede ayudar en la mejora del filtrado spam.

50

Reconocimiento de personalidad – Definición

Modelos para explicar la personalidad de cada

persona en pocos términos estables y medibles [19].

[19] A. Vinciarelli and G. Mohammadi. A survey of personality computing. Affective Computing, IEEE Transactions on,

5(3):273–291, 2014.

51

Reconocimiento de personalidad – Propuesta

1. Bayesian spam filtering: to identify the best

classifiers.

2. Personality recognition.

52

Reconocimiento de personalidad – Propuesta

Myers-Briggs personality model

4 dimensions:

□ Attitude: Extroversion or Introversion

□ Judging Function: Thinking or Feeling

□ Lifestyle: Judging or Perceiving

□ Perceiving Function: Sensing or iNtuition

Se ha utilizado un servicio web publicamente disponible en:

www.uClassify.com

www.uClassify.com

53

Reconocimiento de personalidad

54

Reconocimiento de personalidad

55

Reconocimiento de personalidad – Email

Análisis descriptivo:

56

Reconocimiento de personalidad – Email

Dataset: CSDMC 2010:

Usando las cuatro dimensiones, los resultados no se mejoran.

Usando la dimensión Sensing:


□ El número de falsos positivos es reducido en un caso.

Dataset: TREC 2007:


La precisión mejora en todos los casos.

El número de falsos positivos: 5 reducidos, 1 igual, 4

incrementados.

57

Reconocimiento de personalidad – SMS

Análisis descriptivo:

58

Reconocimiento de personalidad – SMS

Dataset: SMSSpam:


Precisión: 8 mejor, 2 peor.

El número de falsos positivos es reducido en todos los casos.

Dataset: BritishSMS:

Mejor precisión: el mismo (97.49%).

Precisión: 7 mejor, 2 igual, 1 peor.

El número de falsos positivos: 6 reducidos, 4 igual.

59

Reconocimiento de personalidad -

Social Media Spam Análisis descriptivo:

60


Social Media Spam

Comentarios de Youtube:

Usando todas las dimensiones:

□ La precisión se mejora en dos casos.

□ Gran reducción del número de falsos positivos.

Usando la dimensión Thinking:


□ El número de falsos positivos es reducido en todos los casos.

61


Conclusiones

En la mayoría de los casos los resultados son

mejorados: precisión y número de falsos positivos.

Se demuestra que es posible mejorar los ratios de

filtrado de spam utilizando técnicas de

reconocimiento de personalidad.

62

Combinación - Objetivo

Demostrar que la combinación de técnicas de análisis

de sentimiento y el reconocimiento de personalidad

pueden mejorar los resultados de clasificación de

spam.

63

Combinación - Propuesta

64

Combinación - Propuesta

65

Combinación - Resultados

Reducción del numero de falsos positivos en la

mayoría de los casos.

66

Combinación - Conclusiones

La combinación del análisis de sentimiento y el

reconocimiento de personalidad mejora los

resultados del filtrado spam.

El método propuesto ha sido validado en tres

diferentes tipos de spam y utilizando diferentes

dataset en cada uno.

67

Resumen - Contribuciones

Hemos evaluado las posibilidades de crear spam

personalizado que alcance ratios de click-through

muy superiores a los del spam 'típico'.

68


Se han mejorado los resultados de clasificación de

spam actuales aplicando técnicas de análisis de

sentimiento.

69


Hemos demostrado que es posible mejorar el filtrado

de spam usando técnicas de reconocimiento de

personalidad.

70


Hemos creado un nuevo metodo que combinando

análisis de sentimiento y reconocimiento de

personalidad es capaz de detectar intencionalidad

no evidente en textos spam.

71

Resumen – Líneas futuras

Spam personalizado:

Analizar la influencia de las plantillas utilizadas (estilo,

contenido, estilo de escritura).

Realizar los experimentos dentro de las redes sociales.

Analizar la efectividad de la personalización en otro tipo de

ataques: phishing, scam, etc.

72

Resumen – Líneas futuras

Análisis de sentimiento:

Utilizar clasificadores de sentimiento basados en el aprendizaje.

Utilizar dataset especificos para el aprendizaje.

Técnicas de análisis de contenido:

Analizar la posibilidad de usar otras características lingüísticas.

Crear un corpus de intencionalidad.

73

Publicaciones en revistas

1. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo. 2016. A study of the

personalization of spam content using facebook public information. Logic

Journal of IGPL, Volume 25, Issue 1, 1 February 2017, Pages 30-41.

2. Ezpeleta, E., U. Zurutuza, y J. M. G. Hidalgo. 2016. Using personality

recognition techniques to improve bayesian spam filtering. Procesamiento del

Lenguaje Natural, 57:125-132.

3. Ezpeleta, E., U. Zurutuza, y J. M. G. Hidalgo. 2017. Short messages spam

filtering combining personality recognition and sentiment analysis.

International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems.

In press.

74

Publicaciones en conferencias internacionales

1. Ezpeleta, E., I. Garitano, I. Arenaza-Nuño, U. Zurutuza, y J. M. G. Hidalgo. 2017.

Novel comment spam filtering method on youtube: Sentiment analysis and

personality recognition. En Proceedings of Current Trends In Web Engineering

- ICWE 2017 International Workshops. Springer International Publishing.

2. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo, 2016. Does Sentiment

Analysis Help in Bayesian Spam Filtering?, páginas 79-90. Springer

International Publishing.

3. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo, 2016. Short Messages Spam

Filtering Using Sentiment Analysis, páginas 142-153. Springer International

Publishing.

4. Ezpeleta, E., U. Zurutuza, y J. M. G. Hidalgo, 2015. An Analysis of the

Effectiveness of Personalized Spam Using Online Social Network Public

Information, páginas 497-506. Springer International Publishing.

75

Publicaciones en conferencias nacionales

1. Ezpeleta, E. 2017. Segundo premio al mejor trabajo de estudiante: Nuevos

Paradigmas de Análisis Basados en Contenidos para la Detección del Spam en

RRSS. III Jornadas Nacionales de Investigación en Ciberseguridad, JNIC2017.

2. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo. 2016. Short messages spam

filtering using personality recognition. En Proceedings of the 4th Spanish

Conference on Information Retrieval, CERI '16, páginas 7:1–7:7, New York, NY,

USA. ACM.

3. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo. 2016. Los spammers no

piensan: usando reconocimiento de personalidad para el filtrado de spam en

mensajes cortos. En Actas de la XIV Reunión Española sobre Criptologı́a y

Seguridad de la Información.

Gracias por su atención

enaitz ezpeleta - cybercamp | cybercamp 2019 · 2018. 2. 8. · who am i enaitz ezpeleta gallastegi...

Documents