enaitz ezpeleta - cybercamp | cybercamp 2019 · 2018. 2. 8. · who am i enaitz ezpeleta gallastegi...

76
#CyberCamp17 Nuevos Paradigmas de Análisis Basados en Contenidos para la Detección del Spam en Redes Sociales - Enaitz Ezpeleta - Santander , 1 de diciembre del 2017

Upload: others

Post on 26-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • #CyberCamp17

    Nuevos Paradigmas de

    Análisis Basados en

    Contenidos para la

    Detección del Spam en

    Redes Sociales

    - Enaitz Ezpeleta -

    Santander , 1 de diciembre del 2017

  • Who am I

    Enaitz Ezpeleta Gallastegi

    [email protected]

    Doctor en Informática.

    Docente e investigador en MU.

    www.mondragon.edu

    2

  • 3

    ¿Qué presento y cómo he llegado aquí?

    (Septiembre 2016)

    (Junio 2017)

  • 4

    Invitación

    Próximamente en:

    http://2018.jnic.es/

    En Donostia – San Sebastian organizada por Mondragon Unibertsitatea

    http://2018.jnic.es/

  • 5

    Índice

    Introducción

    Spam personalizado

    Influencia del análisis de sentimiento en el filtrado del spam

    Influencia del reconocimiento de personalidad en el filtrado del

    spam

    Combinación del análisis de sentimiento y el reconocimiento

    de personalidad el el filtrado del spam

    Resumen

  • 6

    Introducción - ¿Qué es el spam?

  • 7

    Introducción – Motivación

    Consecuencias negativas del spam [1]:

    Consecuencias directas: venta de productos, instalación de

    malware...

    Consumo de recursos de red.

    Consumo de recursos humanos.

    Perdida de mensajes legítimos.

    [1] G. V. Cormack. Email spam filtering: A systematic review. Foundations and Trends in Information Retrieval,

    1(4):335-455, 2007.

  • 8

    Introducción – Motivación

    Las campañas de spam siguen siendo uno de los

    mayores problemas que afecta a millones de

    usuarios al día.

    [2] https://securelist.com/spam-and-phishing-in-q3-2017/82901/

  • 9

    Introducción – Motivación

    El aumento del spam en servicios de mensajería

    instantánea ,atrae campañas no legítimas.

    Telefonos móviles con SMS: 6.1 billones (Junio 2015) [3].

    WhatsApp: >1 billón de usuarios (Febrero 2016) [4].

    El SMS spam en China e India:

    20-30% del tráfico total de SMSs en 2011 [5].

    [3] Sms: the language of 6 billion people. Portio Research Limited, June 2015.

    [4] https://blog.whatsapp.com/616/One-billion/

    [5] Sms and mobile messaging attacks. GSMA Spam Reporting Service, January 2011.

  • 10

    Introducción – Motivación

    [6] https://techcrunch.com/2017/06/27/facebook-2-billion-users/

  • 11

    Introducción – Hipótesis

    El spam personalizado puede ser un serio problema

    que maximiza el ratio de respuesta del spam

    eludiendo los sistemas actuales de detección.

  • 12

    Introducción – Hipótesis

    El spam personalizado puede ser un serio problema

    que maximiza el ratio de respuesta del spam

    eludiendo los sistemas actuales de detección.

    Es posible identificar la intencionalidad comercial de

    los mensajes utilizando técnicas de análisis de

    contenido.

    La intencionalidad del mensaje puede ser usado

    para clasificar mensajes spam en las redes sociales.

  • 13

    Introducción – Objetivo

    Objetivo 1:

    Demostrar que es posible crear nuevos tipos de spam utilizando

    información de las Redes Sociales.

  • 14

    Introducción – Objetivo

    Objetivo 1:

    Demostrar que es posible crear nuevos tipos de spam utilizando

    información de las Redes Sociales.

    Objetivo 2:

    Demostrar que es posible diseñar y desarrollar nuevos métodos

    para mejorar los resultados de filtrado de spam fuera y dentro de

    las redes sociales.

  • 15

    Introducción – Background

    Detección de spam:

    Entre todos los tipos de filtros, los filtros basados en aprendizaje

    han obtenido los mejores resultados [7].

    [7] Teli et al. Effective spam detection method for email. In International Conference on Advances in Engineering &

    Technology, 2014.

  • 16

    Introducción – Background

    Procesamiento del lenguaje natural:

    Técnicas computacionales para analizar textos con el objetivo

    de alcanzar un procesamiento humano en aplicaciones o tareas

    [8].

    Estudios demuestran la posibilidad de desarrollar técnicas anti-

    spam usando técnicas de minería de textos [9].

    [8] E.D. Liddy. Natural language processing, NY. Marcel Decker, Inc 2001.

    [9] R. Y. K. Lau, S. Y. Liao, R. C. Kwok, K. Xu, Y. Xia, and Y. Li. Text mining and probabilistic language modeling for

    online review spam detection. ACM Trans. Manage. Inf. Syst., 2(4):25:1–25:30, January 2012.

  • 17

    Introducción – Background

    Seguridad en redes sociales:

    En los últimos años se han publicado numerosos productos y

    métodos para hacer frente a vulnerabilidades de las redes

    sociales.

    Aunque la mayoría de las investigaciones se han centrado en

    campañas dentro de las redes sociales, la combinación del

    spam típico y las redes sociales supone una amenaza.

  • 18

    Desarrollo

    Spam personalizado

    Influencia del análisis de sentimiento en el filtrado

    del spam

    Influencia del reconocimiento de personalidad en el

    filtrado del spam

    Combinación del análisis de sentimiento y el

    reconocimiento de personalidad el el filtrado del

    spam

  • 19

    Spam personalizado - Objetivo

    Demostrar que es posible generar spam personalizado

    y que es una amenaza real.

  • 20

    Spam personalizado - Antecedentes

    Bonneau et al. demostraron que es posible

    recolectar grandes volúmenes de datos desde

    Facebook [10].

    Investigadores encontraron una vulnerabilidad que

    posibilitaba conectar direcciones de correo

    electrónico con cada cuenta [11].

    [10] J. Bonneau, J. Anderson, and G Danezis. Prying data out of a social network. International Conference on

    Advances in Social Network Analysis and Mining, 0:249-254, 2009.

    [11] M. Balduzzi, C. Platzer, T. Holz, E. Kirda, D. Balzarotti, and C Kruegel. Abusing social networks for automated user

    profiling. In Proceedings of the 13th international conference on Recent advances in intrusion detection, RAID’10,

    pages 422-442, 2010, Springer-Verlag.

  • 21

    Spam personalizado - Proceso

  • 22

    Spam personalizado – Colección de datos

  • 23

    Spam personalizado – Procesamiento de los

    datos

  • 24

    Spam personalizado – Personalización

  • 25

    Spam personalizado – Personalización

  • 26

    Spam personalizado – Personalización

    Ejemplo de la plantilla musica:

  • 27

    Spam personalizado – Experimentos

    Primer experimento:

    Campaña de spam típico.

    Segundo experimento:

    Campaña de spam personalizado.

    Objetivo:

    Comparar los resultados.

  • 28

    Spam personalizado – Resultados

    Comparativa de los resultados:

  • 29

    Spam personalizado – Conclusión

    Es posible generar spam personalizado, usando

    información pública de las redes sociales,

    incrementando el ratio de respuesta.

  • 30

    Spam personalizado – Consideraciones éticas

    Trabajamos para mejorar la seguridad online,

    usamos la información de los usuarios para

    protegerlos en el futuro.

    Usamos únicamente información pública de las

    redes sociales.

    No atacamos cuentas, contraseñas o áreas privadas.

    Los atacantes utilizan esta información, si usamos la

    misma información y actuamos como ellos,

    defenderemos mejor a los usuarios.

  • 31

    Análisis de sentimiento - Objetivo

    Mejorar los ratios de filtrado spam utilizando técnicas

    de análisis de sentimiento.

  • 32

    Análisis de sentimiento – Definición

    "Proceso computacional para la identificación y

    categorización de opiniones expresadas en textos"

    [Oxford Dictionaries]

    Interesante para extraer la polaridad de los textos (positivo,

    negativo, neutral).

  • 33

    Análisis de sentimiento – Propuesta

    1. Filtrado spam bayesiano

    2. Analisis de sentimiento

  • 34

    Análisis de sentimiento – Propuesta

    Todos los experimentos son testeados usando la

    validación cruzada en 10 carpetas.

    Los resultados se analizan tomando en cuenta el

    accuracy y el número de falsos positivos.

  • 35

    Análisis de sentimiento – Filtrado bayesiano

    Objetivo: identificar los 10 mejores clasificadores y

    las mejores configuraciones.

  • 36

    Análisis de sentimiento – Filtrado bayesiano

    Clasificadores:

    Bayesian Logistic Regression.

    Complement Naive Bayes.

    DMNBtext.

    Naive Bayes.

    Naive Bayes Multinomial.

    Naive Bayes Multinomial Updateable.

    Naive Bayes Updateable.

    Support Vector Machines.

    Decision Tree.

    Random Tree.

    Forest of Random Trees.

    Adaptive Boosting Meta-Algorithm with Naive Bayes.

    Filtros:

    String to word vector.

    Attribute selection ranker.

  • 37

    Análisis de sentimiento – Analizadores

    Analizadores propios:

    Diccionario usado: SentiWordNet [12].

    Desarrollos: Adjetivo, Adverbio, Verbo, Nombre, AllPositions.

    TextBlob [13]:

    API que ofrece varios servicios de PLN.

    [12] S. Baccianella, A. Esuli and Fabrizio Sebastiani. SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment

    Analysis and Opinion Mining. LREC 2010.

    [13] Public URL: http://textblob.readthedocs.org/en/dev/

  • 38

    Análisis de sentimiento

    Identificación de los mejores clasificadores:

  • 39

    Análisis de sentimiento

  • 40

    Análisis de sentimiento

  • 41

    Análisis de sentimiento – Conjuntos de datos

    Email spam:

    CSDMC 2010 Spam Corpus [14]

    TREC 2007 Public Corpus [15]

    SMS spam:

    SMS Spam Collection v.1 [16]

    British English SMS corpora [17]

    Social media spam:

    Youtube Comments Dataset [18]

    [14] http://www.csmining.org/index.php/spam-email-datasets-.html

    [15] http://plg.uwaterloo.ca/ gvcormac/treccorpus07/

    [16] http://www.dt.fee.unicamp.br/ tiago/smsspamcollection/

    [17] https://goo.gl/UUgl4X

    [18] http://mlg.ucd.ie/yt/

  • 42

    Análisis de sentimiento – Descriptivo - Email

    Comparación entre analizadores:

    Media de los mejores analizadores:

  • 43

    Análisis de sentimiento – Resultados - Email

    Dataset: CSDMC 2010:

    Mejor precisión: desde 99.15% a 99.21%.

    Con el mejor analizador de sentimiento: 8 mejor, 1 igual, 1 peor.

    Dataset: TREC 2007:

    Mejor precisión: desde 98.98% a 99.10%.

    En todos los casos, salvo uno, la precisión mejora.

    Reducción del número de falsos positivos.

  • 44

    Análisis de sentimiento – Descriptivo - SMS

    Comparación entre analizadores:

    Media de los mejores analizadores:

  • 45

    Análisis de sentimiento – Resultados - SMS

    Dataset: SMSSpam:

    Mejor precisión: desde 98.85% a 98.91%.

    En la mitad de los casos la precisión mejora.

    0 falsos positivos con 98.67%.

    Dataset: BritishSMS:

    Mejor precisión: el mismo (97.49%).

    Usando el mejor analizador de sentimiento:

    □ Precisión: 5 mejor, 4 igual, 1 peor.

    □ Reducción del número de falsos positivos en casi todos los casos.

  • 46

    Análisis de sentimiento – Descriptivo -

    Social Media Spam Se utilizan los mismos analizadores que en los

    email.

    Media de los mejores analizadores:

  • 47

    Análisis de sentimiento – Resultados -

    Social Media Spam

    Comentarios de Youtube:

    Mejor precisión: desde 82.50% a 82.53%.

    La precisión se mejorar en la mitad de los casos.

    El número de falsos positivos se reduce en todos los casos.

  • 48

    Análisis de sentimiento – Conclusiones

    El spam en emails y SMS es más positico que el legítimo,

    mientras que en los comentarios de las redes sociales el

    spam es más negativo.

    Demostramos que el análisis de sentimiento del texto

    ayuda en la detección de spam.

    En tres diferentes escenarios los resultados en terminos

    de precisión son mejores, y el número de falsos positivos

    se reduce.

    Aunque la diferencia parece pequeña, si tenemos en

    cuenta el tráfico real del spam, la mejoría es significativa.

  • 49

    Reconocimiento de personalidad - Objetivo

    Demostrar que el reconocimiento de personalidad

    puede ayudar en la mejora del filtrado spam.

  • 50

    Reconocimiento de personalidad – Definición

    Modelos para explicar la personalidad de cada

    persona en pocos términos estables y medibles [19].

    [19] A. Vinciarelli and G. Mohammadi. A survey of personality computing. Affective Computing, IEEE Transactions on,

    5(3):273–291, 2014.

  • 51

    Reconocimiento de personalidad – Propuesta

    1. Bayesian spam filtering: to identify the best

    classifiers.

    2. Personality recognition.

  • 52

    Reconocimiento de personalidad – Propuesta

    Myers-Briggs personality model

    4 dimensions:

    □ Attitude: Extroversion or Introversion

    □ Judging Function: Thinking or Feeling

    □ Lifestyle: Judging or Perceiving

    □ Perceiving Function: Sensing or iNtuition

    Se ha utilizado un servicio web publicamente disponible en:

    www.uClassify.com

    www.uClassify.com

  • 53

    Reconocimiento de personalidad

  • 54

    Reconocimiento de personalidad

  • 55

    Reconocimiento de personalidad – Email

    Análisis descriptivo:

  • 56

    Reconocimiento de personalidad – Email

    Dataset: CSDMC 2010:

    Usando las cuatro dimensiones, los resultados no se mejoran.

    Usando la dimensión Sensing:

    □ Precisión: 5 mejor, 4 igual, 1 peor.

    □ El número de falsos positivos es reducido en un caso.

    Dataset: TREC 2007:

    Mejor precisión: desde 98.98% a 99.13%.

    La precisión mejora en todos los casos.

    El número de falsos positivos: 5 reducidos, 1 igual, 4

    incrementados.

  • 57

    Reconocimiento de personalidad – SMS

    Análisis descriptivo:

  • 58

    Reconocimiento de personalidad – SMS

    Dataset: SMSSpam:

    Mejor precisión: desde 98.85% a 98.94%.

    Precisión: 8 mejor, 2 peor.

    El número de falsos positivos es reducido en todos los casos.

    Dataset: BritishSMS:

    Mejor precisión: el mismo (97.49%).

    Precisión: 7 mejor, 2 igual, 1 peor.

    El número de falsos positivos: 6 reducidos, 4 igual.

  • 59

    Reconocimiento de personalidad -

    Social Media Spam Análisis descriptivo:

  • 60

    Reconocimiento de personalidad -

    Social Media Spam

    Comentarios de Youtube:

    Usando todas las dimensiones:

    □ La precisión se mejora en dos casos.

    □ Gran reducción del número de falsos positivos.

    Usando la dimensión Thinking:

    □ Precisión: 4 mejor, 1 igual, 5 peor.

    □ El número de falsos positivos es reducido en todos los casos.

  • 61

    Reconocimiento de personalidad -

    Conclusiones

    En la mayoría de los casos los resultados son

    mejorados: precisión y número de falsos positivos.

    Se demuestra que es posible mejorar los ratios de

    filtrado de spam utilizando técnicas de

    reconocimiento de personalidad.

  • 62

    Combinación - Objetivo

    Demostrar que la combinación de técnicas de análisis

    de sentimiento y el reconocimiento de personalidad

    pueden mejorar los resultados de clasificación de

    spam.

  • 63

    Combinación - Propuesta

  • 64

    Combinación - Propuesta

  • 65

    Combinación - Resultados

    Reducción del numero de falsos positivos en la

    mayoría de los casos.

  • 66

    Combinación - Conclusiones

    La combinación del análisis de sentimiento y el

    reconocimiento de personalidad mejora los

    resultados del filtrado spam.

    El método propuesto ha sido validado en tres

    diferentes tipos de spam y utilizando diferentes

    dataset en cada uno.

  • 67

    Resumen - Contribuciones

    Hemos evaluado las posibilidades de crear spam

    personalizado que alcance ratios de click-through

    muy superiores a los del spam 'típico'.

  • 68

    Resumen - Contribuciones

    Se han mejorado los resultados de clasificación de

    spam actuales aplicando técnicas de análisis de

    sentimiento.

  • 69

    Resumen - Contribuciones

    Hemos demostrado que es posible mejorar el filtrado

    de spam usando técnicas de reconocimiento de

    personalidad.

  • 70

    Resumen - Contribuciones

    Hemos creado un nuevo metodo que combinando

    análisis de sentimiento y reconocimiento de

    personalidad es capaz de detectar intencionalidad

    no evidente en textos spam.

  • 71

    Resumen – Líneas futuras

    Spam personalizado:

    Analizar la influencia de las plantillas utilizadas (estilo,

    contenido, estilo de escritura).

    Realizar los experimentos dentro de las redes sociales.

    Analizar la efectividad de la personalización en otro tipo de

    ataques: phishing, scam, etc.

  • 72

    Resumen – Líneas futuras

    Análisis de sentimiento:

    Utilizar clasificadores de sentimiento basados en el aprendizaje.

    Utilizar dataset especificos para el aprendizaje.

    Técnicas de análisis de contenido:

    Analizar la posibilidad de usar otras características lingüísticas.

    Crear un corpus de intencionalidad.

  • 73

    Publicaciones en revistas

    1. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo. 2016. A study of the

    personalization of spam content using facebook public information. Logic

    Journal of IGPL, Volume 25, Issue 1, 1 February 2017, Pages 30-41.

    2. Ezpeleta, E., U. Zurutuza, y J. M. G. Hidalgo. 2016. Using personality

    recognition techniques to improve bayesian spam filtering. Procesamiento del

    Lenguaje Natural, 57:125-132.

    3. Ezpeleta, E., U. Zurutuza, y J. M. G. Hidalgo. 2017. Short messages spam

    filtering combining personality recognition and sentiment analysis.

    International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems.

    In press.

  • 74

    Publicaciones en conferencias internacionales

    1. Ezpeleta, E., I. Garitano, I. Arenaza-Nuño, U. Zurutuza, y J. M. G. Hidalgo. 2017.

    Novel comment spam filtering method on youtube: Sentiment analysis and

    personality recognition. En Proceedings of Current Trends In Web Engineering

    - ICWE 2017 International Workshops. Springer International Publishing.

    2. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo, 2016. Does Sentiment

    Analysis Help in Bayesian Spam Filtering?, páginas 79-90. Springer

    International Publishing.

    3. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo, 2016. Short Messages Spam

    Filtering Using Sentiment Analysis, páginas 142-153. Springer International

    Publishing.

    4. Ezpeleta, E., U. Zurutuza, y J. M. G. Hidalgo, 2015. An Analysis of the

    Effectiveness of Personalized Spam Using Online Social Network Public

    Information, páginas 497-506. Springer International Publishing.

  • 75

    Publicaciones en conferencias nacionales

    1. Ezpeleta, E. 2017. Segundo premio al mejor trabajo de estudiante: Nuevos

    Paradigmas de Análisis Basados en Contenidos para la Detección del Spam en

    RRSS. III Jornadas Nacionales de Investigación en Ciberseguridad, JNIC2017.

    2. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo. 2016. Short messages spam

    filtering using personality recognition. En Proceedings of the 4th Spanish

    Conference on Information Retrieval, CERI '16, páginas 7:1–7:7, New York, NY,

    USA. ACM.

    3. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo. 2016. Los spammers no

    piensan: usando reconocimiento de personalidad para el filtrado de spam en

    mensajes cortos. En Actas de la XIV Reunión Española sobre Criptologı́a y

    Seguridad de la Información.

  • Gracias por su atención