analyse des sentiments cas twitter - univ ghardaia algerie

ةـــــيـــبــــعــــــــــــــــــــــــــــــــــــــــشـــة الـــيــــراطـــــقـــــــــــــــــــــــــــة الدميـــريـــــــزائــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــة اجلـــــــــــــــوريــــــهـــــمــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــاجل

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

يـــــــــــــــمـــلــــــــــــــــــــحث العــــــــــــــــــــــــــــــــــــــــــايل و البــــــــــــــــــــــــــــــم العــــــــــليـــــــعــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــوزارة التـ

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

غــــــردايــــــــــــــــــــــــةــــــــــــامعة ــــــــــــــــــــــــــــــــــــجـــــــــــــــــــــ

Université de Ghardaia

كـــــليــــــة العــــــلـــــــــوم والتـــــكـــــنــــلــــــــوجيــــــاFaculté des Sciences et de Technologie

ــم الرياضيات و االعالم اآللــــيقسـ Département des Mathématiques et Informatique

MEMOIRE

Présenté pour l’obtention du diplôme de MASTER

En : Informatique

Spécialité : Systèmes Intelligents pour l'Extraction de Connaissances (SIEC)

Par : Soumia Elyakoute HERMA et Khadidja SAIFIA

Sujet

ANALYSE DES SENTIMENTS

CAS TWITTER

Soutenu publiquement, le 21/ Juin / 2016, devant le jury composé de :

M. Djelloul ZIADI Professeur Univ. Rouen-France Président M. Slimane BELLAOUAR Maitre Assistant A Univ. Ghardaïa Encadreur M. Slimane OULAD NAOUI Maitre Assistant A Univ. Ghardaïa Examinateur M. Abderrahmane ADJILA Maitre Assistant B Univ. Ghardaïa Examinateur

Année Universitaire 2015/2016

Resume

L’analyse des sentiments est une technologie d’analyse automatique des discours, ecrits ou parles

dans le but consiste a extraire des informations subjectives comme des jugements, des evaluations ou des

emotions pour detecter la polarite d’une opinion. L’importance de l’analyse des sentiments est presente dans

plusieurs domaines, a savoir politique, marketing, gestion de la reputation,... Dans ce memoire, notre objectif

consiste a devoiler les secrets d’un tel domaine en adoptant une approche pour l’apprentissage automatique.

Pour ce faire nous avons implemente la methode probabiliste Naıve Bayes sur le corpus Neik Sander des

tweets. Nous avons considere deux modeles de representation de donnees, a savoir, le modele booleen et un

autre modele semantique avec la ponderation TF-IDF (Term Frequency - Inverse Document Freqency). Les

resultats obtenus en terme de precision, rappel et F1-mesure revelent que la representation avec un modele

TF-IDF est mieux adaptee.

Mots-cles : Analyse des Sentiments, detection d’opinion, polarite, Naıve Bayes, modele booleen, TF-IDF,

Twitter.

Abstract

Sentiment Analysis is an automatic analysis technology of written or spoken speeches, aims to extract

subjective information like judgments, evaluations or emotions to detect the polarity of an opinion. The

importance of sentiment analysis is present in several fields, namely: politics, marketing, reputation manage-

ment, ... In this thesis, our objective is to reveal some secrets of this field by adopting a machine learning

approach. With this intention we implemented the Naive Bayes probabilistic method on the Neik Sander

corpora of tweets. We considered two data representation models, the Boolean model and a semantic model

with TF-IDF weighting. The obtained results in terms of precision, recall and, F1-score reveal that the

representation with a TF-IDF model is best placed.

Key words: Sentiment Analysis, opinion detection, polarity, Naıve Bayes, Boolean model, TF-IDF, Twitter.

�jÊÓ

Q�J« �HAÓñÊªÓ h. @Q

j�J�@ ¬Y�îE. , A«ñÒ��Ó ð @ AK. ñ�JºÓ àA�» Z@ñ� ,H. A¢

mÌ'@ ÉJÊj�JË �éJË�@ AJk. ñËñJº�K ù �ë

£@ñ��ªË@ ÉJÊm��'

ú áÒº�K �é ®�£AªË@ ÉJ�Êm�

�' �éJÒë @ . AÓ ø

@P ék. ñ�K ð �é�JK. A¢

�®�J�@ ��» Ég. B Q«A� ��ÖÏ @ ð

@ �HAÒJJ

�®�JË @ , ÐA¾k B@ É�JÓ �éJ«ñ �ñÓ

�éK. PA�®Ó PAJ. ��J«AK. ÈAj. ÖÏ @ @ Yë Q�� » ñë A J Yë , �èQ» YÖÏ @ è Y�ë ú

. . . , �éª�Ò�Ë@ �èP@X@ ,��Kñ��

��Ë @ , �é�AJ�ËA¿ , �HBAm.×�è �Y«

. �HA�JKñ�K áÓ PPYKA� ½KA K �HAJ¢ªÓ�é«ñÒm.× úÎ« NaiveBayes

�éJ KA�kB@ �é�®KQ¢Ë@ A JÓY j�J�@ ½Ë X Ég. @ áÓ . �éË B@ ÕÎª�K

l .� 'A�J JË @ . TF − IDF �H@XQ ®ÖÏ @ à@ Pð

AK. �úÍBX h.

XñÖ ß ð ù�®¢JÖÏ @ h.

XñÒJË @ , AÒë , �HAJ¢ªÖÏ @ ÉJ�JÒ�JË á�g.XñÖ ß A JË AÒª�J�@ �IJk

ñm� ' úÎ« ÉÒªK TF − IDF h.XñÒJK. ÉJ�JÒ�JË @

�à @ �I ® ��» �AJ

�®1 @ ð Q» Y�JË @, �é�YË@ ��KA�®ÖÏ @ ÈAÒª�J�AK. AîDÊ« É��j�JÖÏ @

. É � @

.Q��Kñ�K , TF − IDF , ù�®¢JÖÏ @ h.

XñÒJË @ , NaiveBayes , �é�JK. A¢�®�J�@ ,ø

@QË @ ��» , £@ñªË@ ÉJÊm�

�' : �éJkA�J

®ÖÏ @ �HAÒÊ¾Ë@

Dedicace

Je dedie ce travail:

A mon chere Pere, qui est la lumiere de ma vie,

A ma Mere Dieu ait son ame,

A Maman que Dieu lui garde,

A mes cheres freres et seours, specialement Saber et Islam,

A mes fideles amis de proche ou de loin,

A tout qui porte le nom HERMA.

Soumia Yakoute

Dedicace

Je dedie ce modeste travail a :

grande mere Dieu ait son ame

Celle qui est plus cher que mon ame et mon sang, la lumiere de mon chemin, A ma mere

adoree.

Mon cher pere, qui m’a toujours encouragee et conseillee.

A mon frere : S.Ahmed

A mes soeurs: D.Sarah, H.Amel, B.Amina

A grande mere et tres chers famille: B.Nour el houda, D.Badis ,Z.Rabah, S.houria,

S.Fatima, S.Fatiha.

A ma chere Tante : S.Houria

A ma cher Tonton : Dourroussi houssine

A tous les enseignants de l’informatique, Et tous les etudiants de l’informatique, en

particulier la promotion 2016.

A tous ceux qui portent les noms Saifia et Salah.

A toute personne utilisant ce document pour un bon usage.

Khadidja

Table des matiere

LISTE DES TABLEAUX iv

LISTE DES FIGURES v

LISTE DES ALGORITHMES vi

REMERCIEMENT vii

INTRODUCTION GENERALE 1

1 PRELIMINAIRES 2

1.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.1 Medias sociaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.2 Le Traitement automatique des langues naturelles (TAL) . . . . . . . 3

1.1.3 Le Classifieur Naıve Bayes . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Analyse des Sentiments et Domaines d’Applications . . . . . . . . . . . . . 9

1.2.1 Definitions de l’analyse des sentiments . . . . . . . . . . . . . . . . . 9

1.2.2 Domaines d’applications de l’analyse des sentiments . . . . . . . . . . 10

1.3 Sources des Donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3.1 Sites d’avis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3.2 Blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.3 Micro-blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.1 Twitter et tweet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.2 Caracteristique d’un tweet . . . . . . . . . . . . . . . . . . . . . . . . 13

ii

TABLE DES MATIERE TABLE DES MATIERE

2 ETAT DE L’ART 15

2.1 Approches de l’Analyse des Sentiments et la Detection d’Opinions . . . . . . 15

2.1.1 Approches d’apprentissage automatique . . . . . . . . . . . . . . . . . 15

2.1.2 Approche lexique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1.3 Approches hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2 Historique sur l’Analyse des Sentiments . . . . . . . . . . . . . . . . . . . . . 17

2.3 Travaux sur L’Analyse des Sentiments avec Twitter . . . . . . . . . . . . . . 18

2.3.1 Classification de sentiments . . . . . . . . . . . . . . . . . . . . . . . 18

2.3.2 Prediction des resultats . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3.3 Detection des evenements . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4 Difficultes de la Fouille d’opinions et de l’Analyse des Sentiments . . . . . . 21

3 EXPERIMENTATION : APPRENTISSAGE ET TEST 22

3.1 Environnement de Travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1.1 Environnement materiel . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1.2 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 Phase d’Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2.1 Source des donnees (Data set) . . . . . . . . . . . . . . . . . . . . . . 24

3.2.2 Pretraitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2.3 Extraction et presentation des descripteurs . . . . . . . . . . . . . . . 29

3.2.4 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.3 Phase de Test et Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.3.1 Presentation des resultats et discussion . . . . . . . . . . . . . . . . . 32

CONCLUSION 34

BIBLIOGRAPHIE 35

iii

Liste des Tables

1.1 Exemple d’applcation de l’algorithme de Naıve Bayes. . . . . . . . . . . . . . 8

3.1 Description du corpus Niek Sanders . . . . . . . . . . . . . . . . . . . . . . . 24

3.2 A gauche -Emoticons Positive & negative-, a droite -Abreviaton en Anglais- 26

3.3 Les formes contractes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4 Tweets avant et apres le pretraitement . . . . . . . . . . . . . . . . . . . . . 29

3.5 Table de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.6 Resultats du classifieur en methode booleenne . . . . . . . . . . . . . . . . . 32

3.7 Resultats du classifieur en methode de ponderation TF-IDF . . . . . . . . . 33

iv

Liste des Figures

1.1 L’intuition du classifieur Multinomial Naıve Bayes applique a des avis d’un

film dont leur position est ignoree (sac de mots) . . . . . . . . . . . . . . . . 4

3.1 Processus de l’apprentissage automatique . . . . . . . . . . . . . . . . . . . . 22

v

Liste des Algorithmes

1 Algorithme Train Naıve Bayes(D,C) . . . . . . . . . . . . . . . . . . . . . . . 7

2 Algorithme Test Naıve Bayes(testdoc, logprior, liklihood, C, V) . . . . . . . 7

3 Fonction getData pour recupere le corpus . . . . . . . . . . . . . . . . . . . 25

4 Appelle et entrainement du classifieur NB . . . . . . . . . . . . . . . . . . . 31

vi

REMERCIEMENT

Au premier temps, nous remercions Allah qui nous a aide a realiser ce travail, et qui a

ete avec nous en tout le moment.

Nous remercions egalement notre encadreur Monsieur Slimane BELLAOUAR pour l’aide

et les conseils concernant les missions evoquees dans ce Projet de fin d’etude, qu’il nous a

apporte lors des differents suivis.

Nous tenons a remercier Pr. Djelloul ZIADI, Mr. Slimane OULAD NAOUI, Toufik

GHARIB, ADJILA Abderrahmane, et les responsables de la formation Systeme Intelli-

gent pour Extraction des Connaissance ”SIEC”, pour avoir assure cette formation, et toute

l’equipe pedagogique de departement du Mathematiques et Informatique de notre universite.

Nous adressons nos remerciements aux personnes de loin ou de proche qui nous ont aide

dans la realisation de ce memoire.

vii

INTRODUCTION GENERALE

Avec l’avenement du web et l’explosion des sources des donnees telles que les sites

d’avis, les blogs et les microblogs est apparu la necessite d’analyser des millions des postes,

de tweets ou d’avis afin de savoir ce que pensent les internautes. L’analyse des sentiments

est une technologie d’analyse automatique des discours, ecrits ou parles et d’en faire ressortir

les differentes opinions exprimees sur un sujet precis comme une marque, une actualite ou

un produit. L’importance de l’analyse des sentiments est presente dans plusieurs domaines,

a savoir politique, marketing, gestion de la reputation, ...

L’analyse des sentiments releve de plusieurs disciplines en l’occurrence d’une part du

traitement automatique du la langage naturel (Naturel Langage Processing) et d’autre part

de l’apprentissage automatique (Machine Learning).

Dans ce memoire, notre objectif consiste a devoiler les secrets de l’analyse des senti-

ments en adoptant une approche d’apprentissage automatique. Pour ce faire, nous avons

implemente la methode probabiliste Naıve Bayes sur le corpus Neik Sander des tweets. Nous

avons considere deux modeles de representation de donnees, a savoir, le modele booleen et

un autre modele semantique avec la ponderation TF-IDF. Les resultats obtenus en terme

de precision, rappel et F1-mesure revelent que la representation avec un modele TF-IDF est

mieux placee.

Le reste du memoire est organise en trois chapitres : nous consacrons un premier chapitre

a presenter des generalites sur le domaine d’analyse des sentiments en particulier Twitter

comme source d’opinions. Le second chapitre se focalise sur l’etat de l’art de l’analyse

des sentiments, notamment les travaux inherents a l’analyse des sentiments Twitter. Notre

troisieme chapitre presente l’experimention et la methode Naıve Bayes en considerant les

phases d’apprentissage et de test.

Nous concluons avec une synthese de travail et des perspectives.

1

Chapter 1

PRELIMINAIRES

1.1 Generalites

Dans cette section, nous definissons quelques concepts de base importants utilises dans ce

que suit.

1.1.1 Medias sociaux

Le terme media est le pluriel du mot latin medium qui signifie moyen, milieu ou lien.

En effet le terme lien exprime une relation ou une liaison entre les acteurs des medias. Par

consequence les medias classique tels que la television, la presse et la radio peuvent etre

consideres comme des medias sociaux puisqu’ils relient les hommes par informations [1].

Selon cette vision, l’expression medias sociaux regroupe sous la meme enseigne une grande

variete de dispositifs, tels les blogs, les wiki, les sites reseaux socio-numerique (Facebook,

LinkedIn), les microblogues (Twitter, Jaiku), le bookmarking collectif, les partage de con-

tenus mediatique comme la musique, les photos et les videos [2].

Une definition technique purement informatique est presentee dans [3], Un groupe d’applications

en ligne qui se fondent sur l’ideologie et la technologie du Web 2.01 et permettent la creation

et l’echange du contenu genere par les utilisateurs.

Le concept de medias sociaux se refere donc aux moyens de communication, a la tech-

nologie utilisee, aux modes d’interaction sociale ainsi qu’a la culture des usagers de ces

services.

1Web 2.0 apparu en 1999, fonde notamment sur le partage de l’information, l’implication des utilisateurs

dans la creation de contenu et les reseaux sociaux.

2

Chapitre 1 PRELIMINAIRES

1.1.2 Le Traitement automatique des langues naturelles (TAL)

Dans la litterature, Le traitement automatique des langues naturelles (TAL) ou Le

traitement du langage naturel (TALN) sont utilises indifferemment.

Pierrette bouillon [4] definit le TAL comme suit : TAL a pour objet la creation de

programmes informatiques capables de traiter automatiquement les langues naturelles. Ela

Kumar [5], par contre definit le TAL selon une vision de l’intelligence artificielle et pro-

grammation : Le TAL est un domaine significatif de l’intelligence artificielle parce qu’un

ordinateur serait considere comme intelligent s’il peut comprendre la commande donnee

en langage naturel au lieu de C, Fortran ou Pascal. Par consequent et avec la capacite

d’ordinateur a comprendre le langage naturel, il devient beaucoup plus facile de communi-

quer avec les ordinateurs. Par ailleurs le TAL peut etre applique comme outil de productivite

dans des applications allant du resume des informations jusqu’a la traduction d’une langue

a une autre.

Une definition plus technique est donnee par JeanVeronis [6], on regroupe sous le voca-

ble TALN l’ensemble des recherches et developpements visant a modeliser et a reproduire, a

l’aide de machines, la capacite humaine a produire et a comprendre des enonces linguistiques

dans des buts de communication.

1.1.3 Le Classifieur Naıve Bayes

Cette partie se refere en general a l’ouvrage ”Speech and Language Processing” [7].

L’idee d’inference bayesienne est connue depuis les travaux de Bayes en 1763. Elle a ete

d’abord appliquee a la classification du texte par Mosteller et Wallace des annee 1964.

L’intuition de ce classifieur se presente dans la Figure 1.1. Le document textuel est

represente sous forme d’un sac de mots (bag-of-words), qui est un ensemble de mots non

ordonne dont les positions sont ignorees. Autrement dit, on ne conserve que leurs frequences

dans le document. Dans cet exemple, au lieu de representer l’ordre des mots dans toutes

les expressions comme ”I love this film” et ” I would recommend it”, nous remarquons

simplement que le mot ‘I’ apparait 5 fois dans tout l’extrait, le mot ‘it’ 6 fois, et le ‘movie’

une fois, et ainsi de suite.

3


Figure 1.1: L’intuition du classifieur Multinomial Naıve Bayes applique a des avis d’un film

dont leur position est ignoree (sac de mots)

Naıve Bayes est un classifieur probabiliste. Pour un document d, sur toutes les classes

c ∈ C le classifieur renvoie la classe c qui a la probabilite a posteriori maximale donnee du

document, dans l’equation 1.1. Nous utilisons le c pour designer l’estimation de la bonne

classe.

c = arg maxc∈C

P (c/d) (1.1)

1.1.3.1 L’inference Bayesienne

L’intuition de la classification bayesienne est d’utiliser la regle de Bayes pour transformer

l’equation 1.1 en d’autres probabilites qui ont des proprietes utiles. La regle de Bayes

est exprimee dans l’equation 1.2, elle nous donne un moyen de briser toute probabilite

conditionnelle P(A/B) en trois autres probabilites :

P (A/B) =P (B/A) ∗ P (A)

P (B)(1.2)

4


On peut alors remplacer l’equation 1.2 dans 1.1 pour obtenir 1.3 :

c = arg maxc∈C

P (c/d) = arg maxc∈C

P (d/c) ∗ P (c)

P (d)(1.3)

Nous pouvons facilement simplifier l’equation 1.3 en supprimant le denominateur P(d).

Cela est possible parce que nous allons calculer P (d/c)∗P (c)P (d)

pour chaque classe possible. Mais

P (d) ne change pas pour chaque classe. Ainsi, nous pouvons choisir la classe qui maximise

cette formule simple :

c = arg maxc∈C

P (c/d) = arg maxc∈C

P (d/c) ∗ P (c) (1.4)

Nous calculons donc la classe la plus probable c, etant donne un document d en choisissant

la classe qui a le plus grand produit de deux probabilites : la probabilite a priori de la classe

P (c), et la probabilite conditionnelle P (d/c) du document.

Nous pouvons representer un document d comme un ensemble des descripteurs F =

f1, f2, . . . , fn ainsi l’equation 1.4 devient comme suit:

c = arg maxc∈C

P (f1, f2, . . . , fn/c) ∗ P (c) (1.5)

Malheureusement l’equation 1.5 est encore trop difficile a calculer directement. Le classifieur

Naıve Bayes fait donc deux hypotheses simplificatrices.

La premiere est hypothese du sac de mots discutee intuitivement ci-avant qui suppose

que la position du mot n’a pas d’importance. Ainsi, nous supposons que les descripteurs

f1, f2, . . . , fn encodent seulement les identites des mots et non pas leurs positions.

Le second est appele l’hypothese Naıve Bayes : ceci est l’hypothese d’independance con-

ditionnelle que les probabilites P (fi/c) sont independants etant donne la classe c et donc

peuvent etre ”naıvement” multipliees comme suit :

P (f1, f2, . . . , fn/c) = P (f1/c).P (f2/c). . . . .P (fn/c) (1.6)

L’equation finale pour la classe cNB choisie par le classifieur Naıve Bayes est la suivante :

cNB = arg maxc∈C

P (c)∏f∈F

P (f/c) (1.7)

Pour appliquer le classifieur Naıve Bayes au texte. Il suffit de considerer les mots comme

des descripteurs, ainsi F = w1, w2, ..., wn.

5


cNB = arg maxc∈C

P (c)∏wi∈F

P (wi/c) (1.8)

Le calcul de Naıve Bayes, comme les calcule pour la modelisation du langage sont faites

de logarithme afin d’eviter les problemes de calcul des petites valeurs (underflow), et pour

augmenter la rapidite du calcul. Ainsi, l’equation 1.8 devient:

cNB = arg maxc∈C

logP (c) +∑wi∈F

logP (wi/c) (1.9)

Il est claire que le calcul de la classe estimee est une fonction lineaire des descripteurs d’entree.

Le classifieur qui utilise une combinaison lineaire des entrees pour prendre une decision par

classification comme Naıve Bayes sont appeles des classifieurs lineaires.

Pour calculer l’equation 1.9 nous avons besoins de calculer les valeurs P (c) et P (wi/c).

P(c): est la probabilite a priori de la classe c sans connaıtre les donnees.

P (c) =Nc

Ndoc

(1.10)

Nc: est le nombre des documents ayant comme classe c.

Ndoc: est le nombre total des documents.

P (wi/c) est la proportion du nombre du mot wi parmi tous les mots dans tous les docu-

ments de la thematique (classe) c.

P (wi/c) =count(wi/c)∑

w∈F (count(w, c))(1.11)

Mais Naıve Bayes multiplie naıvement toutes les probabilites, la probabilite zero dans

le terme de la probabilite conditionnelle cause au probabilite zero de la classe, et ce-la est

inacceptable.

La solution la plus simple est l’ajout de 1 (Laplace) lissage. Bien que le lissage de Laplace est

generalement remplace par des algorithmes de lissage plus sophistiques dans la modelisation

du langage, il est couramment utilise dans Naıve Bayes texte categorisation :

P (Fi/c) =count(Fi/c) + 1∑

f∈V (count(f, c) + 1)=

count(Fi/c) + 1∑f∈V (count(f, c))+ | V | (1.12)

| V | : le nombre des termes de tout les documents (sac de mot). Ceci etant, l’algorithme

resume le demarche de la methode Naıve Bayes pour la classification des textes:

6


Algorithm 1 Algorithme Train Naıve Bayes(D,C)

INPUT: D: labeled training documents

C : Classes

Ndoc = number of document in D

V = ExtractUniqueTerms(D) // V is vector of all the Bag-of-Words in the corpus

V ← vocabulary of D

for each class c in C

logprior[c] ← log Nc

Ndoc

bigdoc[c] ← append(d) for d in D with class c

for each word w in V

count(w, c) ← number of occurences of w in bigdoc[c]

loglikelihood[w, c] ← log count(w,c)+1∑w′inV (count(w′,c)+1)

return logprior : logP (c), logliklihood : logP (w, c), V

Algorithm 2 Algorithme Test Naıve Bayes(testdoc, logprior, liklihood, C, V)

INPUT C: Classes, d: test document, D: Document corpus,

logP (c), logP (w, c), V

for each class c in C # Calculate P (c) terms

sum[c] ← logprior

for each w in testdoc

if word[w] ∈ V

sum[c] ← sum[c] + logliklihood[word[w],c]

return argmaxc sum[c]

7


1.1.3.2 Exemple d’application

L’exemple ci-dessous 1.1, presente l’apprentissage et le test du classifieur Naıve Bayes.

Nous utilisons un domaine d’analyse de sentiment avec deux classes positives (+) et negatives

(-), et prenons l’apprentissage miniature suivante et testons des simples documents des avis

d’un filme reelles.

Ensemble Classe Tweets

Apprentissage

− Justplainboring

− Entirely predictable and lacks energy

− No surprises and very few laughs

+ Very powerful

+ The most fun film of the summer

Test ? Predictable with no originality

Table 1.1: Exemple d’applcation de l’algorithme de Naıve Bayes.

La probabilite a priori P(c) pour les deux classes se calcule via l’equation 1.10 :

P (−) =3

5P (+) =

2

5

les probabilites conditionnelles de l’ensemble d’apprentissage prevue pour les quatre mots

”Predictable”, ”with”, ”no”, ”originality”, sont les suivants, a partir de l’equation 1.12:

P (”predictable” | −) = 1+114+20

P (”predictable” | +) = 0+19+20

P (”with” | −) = 0+114+20

P (”with” | +) = 0+19+20

P (”no” | −) = 1+114+20

P (”no” | +) = 0+19+20

P (”originality” | −) = 0+114+20

P (”originality” | +) = 0+19+20

Pour la phrase de test S = ”Predictable with no originality”, la classe choisie, se calcule par

l’equation 1.8 ou l’equation 1.9

P (−)P (”S” | −) = 35∗ 2∗1∗2∗1

344= 1.8 ∗ 10−6

P (+)P (”S” | +) = 25∗ 1∗1∗1∗1

294= 5.7 ∗ 10−7

ou :

log(P (−)) + log(P (”S” | −)) = log(35) + (log( 2

34) + log( 1

34) + log( 2

34) + log( 1

34)) = −5, 75

log(P (+)) + log(P (”S” | +)) = log(25) + (log( 1

29) + log( 1

29) + log( 1

29) + log( 1

29)) = −6, 25

Le modele estime une classe negative pour la phrase de test S.

8


1.2 Analyse des Sentiments et Domaines d’Applications

1.2.1 Definitions de l’analyse des sentiments

Dans la litterature, sentiment analysis, opinion mining, opinion extraction, sentiment

mining, subjectivity analysis, affect analysis, emotion analysis, review mining, appraisal ex-

traction, sont des termes utilises pour designer des technologies d’analyse automatique des

discours, ecrits ou parles, afin d’en extraire des informations subjectives comme des juge-

ments, des evaluations ou des emotions.

L’origine de la discipline l’analyse des sentiments se refere aux des sciences de la psy-

chologie, la sociologie et l’anthropologie [8]. Le terme Analyse Sentimentale se refere a

l’extraction automatique de texte evaluative, qui aide a produire des resultats predictifs. Le

terme analyse de sentiment est apparu en Nasukawa et Yi en 2003 [9], et le terme extraction

de l’opinion terme est apparu dans Dave, Laurent et Pennock en 2003 [10]. Cependant, la

recherche sur des sentiments et des opinions est apparue plus tot dans [11] [12] [13] [14] [15]

[16].

Bing Liu [17] a presente une definition de l’analyse des sentiments comportant les do-

maines d’application ainsi que sa relation avec le TALN : l’analyse des sentiments est le

domaine de l’etude qui analyse les opinions, les sentiments, les evaluations, les attitudes

et les emotions des gens vers des entites telles que des produits, des services, des organ-

isations, des particuliers, des problemes, des evenements, des sujets, et leurs attributs.

Il represente un grand espace de recherche. L’analyse des sentiments est un domaine de

recherche extremement actif en traitement automatique des langues.

Pour mettre en valeur l’interet de l’echange d’opinions dans l’analyse des sentiments, Pang

et Lee en 2008 [18] considere que l’opinion des autres a toujours ete une piece d’information

tres precieuse au moment de se faire une opinion ou de prendre une decision. En effet, avant

l’apparition du Web et l’Internet, les gens avaient interet a connaıtre les opinions de leurs

amis ou de leur famille. Il leur etait demande de faire savoir quel parti politique recevrait

leur voix lors des prochaines elections. Grace a l’essor considerable qu’ont connu le Web et

l’Internet a partir des annees quatre-vingt-dix, il est devenu possible pour tous de consulter

l’opinion d’un vaste groupe de personnes a travers le Web. Donc l’echange d’opinion est la

phase principale qui permet d’effectuer une analyse de sentiment sur un sujet donne.

Selon H Tang et S Tan X la plupart des recherches existantes se sont portees sur la

9


fouille et l’extraction de faits, par exemple, la recherche d’information, la recherche sur le

Web et beaucoup d’autres. On assiste, ces dernieres annees, a une prise de conscience de

l’importance de l’opinion sur le web, ce qui explique les nombreux et recents travaux dans

ce domaine [19]. Ils montrent l’importance de l’analyse de sentiment dans le temps actuel.

1.2.2 Domaines d’applications de l’analyse des sentiments

L’importance de la detection d’opinion est presente dans plusieurs domaines ainsi plusieurs

applications ont vu le jour dans ce contexte. Nous citons brievement quelques applications

ci-dessous:

1.2.2.1 La politique

Les acteurs politiques ont suivi la tendance de detection d’opinion, tel qu’avant de

promulguer une nouvelle loi, les politiciens essayent de recolter l’avis des internautes sur

cette loi. Il est interessant de connaıtre aussi l’avis des internautes sur un homme politique

pour une election presidentielle [20].

1.2.2.2 Les entreprises

A travers l’analyse des sentiments, les entreprises peuvent connaıtre l’opinion des

clients sur leurs produits ou leur service. Dans une perspective d’ameliorer leurs produits et

d’augmenter leurs chiffres d’affaires [20].

Dans le domaine du Product review mining, notamment a partir des sites de consultation.

Les consommateurs viennent y echanger des avis et trouver des conseils pour leurs decisions

d’achat (produits technologiques, voitures, voyage et hotels, ... etc) [27].

Le marketing a rapidement compris l’interet de l’analyse de sentiment. Des agences

vendent aux entreprises la traque des moindres mots sur leur image, sur leurs produits [21].

1.2.2.3 Les clients

L’analyse des sentiments fait partie aussi de vie des internautes. Les sondages dans ce

domaine montrent que la majorite des clients avant qu’ils achetent un produit, ils font des

recherches d’avis sur se produit ou un service donne et meme ils sont prets a payer plus cher

un produit dont l’avis est plus favorable qu’un autre [20].

10


1.2.2.4 Gestion de reputation de la marque (GRM)

La gestion de la reputation de la marque en Anglais Brand Reputation Management

(BRM) se preoccupe par la gestion de le reputation de la marque sur le marche. Les opin-

ions des clients ou d’autres parties peuvent endommager ou ameliorer une telle reputation.

la GRM est s’interesse au produit et a l’entreprise plutot qu’au client. Actuellement, un-

a-plusieurs (one-to-many) conversations ont lieu en ligne a un taux eleve. Cela cree des

opportunites pour les organisations a gerer et a renforcer la reputation de leurs marque.

Maintenant, la perception de marque est determinee non seulement par la publicite et les

relations publiques. Les marques sont devenues une somme des conversations a leur su-

jet. L’analyse des sentiments aide a determiner comment la marque, produit ou service de

l’entreprise est percue par la communaute en ligne [22].

1.3 Sources des Donnees

Les opinions des utilisateurs presentent le critere principal pour l’amelioration de la qualite

des services fournis et la mise en valeur des produits livres. Ces opinions se presentent sous

differentes sources de donnees, a savoir, sites d’avis, blog et micro-blog.

1.3.1 Sites d’avis

Les opinions ont le role de decideur pour tout utilisateur durant la phase d’achat.

Les avis generes par les utilisateurs sur les produits et les services sont largement disponibles

sur internet. La classification de sentiment utilise les donnees de l’examinateur collectees a

partir des sites Web tels que :

• www.gsmarena.com (revues de telephone portable).

• www.amazon.com (revues des produits).

• www.CNETdownload.com (revues des produits).

Ces sites accueillent des millions d’avis sur les produits par les consommateurs [24] [25].

11


1.3.2 Blogs

Un blog est ou les personnes peuvent ecrire les different sujets dans un but de partage avec

d’autres personnes sur le meme site. La simplicite de la creation des postes blogs ainsi que

leur forme libre a rendue le blogging un evenement accessible. La blogosphere nom associe

a l’univers de tous les blogs . Sur la blogosphere, nous trouvons un nombre important de

messages relatif a une panoplie des sujets d’interet. Les blogs sont utilises sources d’opinions

dans la plupart des etudes relatives a l’analyse des sentiments [24] [26].

1.3.3 Micro-blogs

Les micro-blogs sont parmi les outils de communication tres populaires des utilisateurs

d’internet. Chaque jour, des millions de messages apparaissent dans des sites Web populaires

pour les micro-bloging tels que : Twitter , Tumblr , Facebook . Parfois les messages Twitter

expriment des opinions qui sont utilisees comme source de donnees pour classifier le sentiment

[24] [27].

1.4 Twitter

En Mars 2006, Twitter a ete cree par le developpeur Jack Dorsey comme un outil pour

rester en contact avec les amis, Twitter est un service sur le Web qui permet aux utilisateurs

d’envoyer et de lire un message court [28].

1.4.1 Twitter et tweet

Twitter est un reseau social et un microblog qui permet aux utilisateurs de publier

des messages en temps reel, appeles tweets. Les tweets sont des messages courts, limites a

140 caracteres. En raison de la nature de ce service de microblogging (messages rapides et

courts), les gens utilisent des acronymes, commissent des erreurs d’orthographe, utilisent des

emoticones et d’autres caracteristiques qui expriment des significations particulieres [29].

Twitter est actuellement l’un des plates-formes de micro-blogage les plus populaires. Son

premier slogan etait Que faites-vous ? neanmoins l’utilisation a pris une autre piste ou les

utilisateurs echangent des avis et des informations, le slogan devient ” Quoi de neuf ? ”.

Plusieurs celebrites utilisent Twitter, on y trouve meme des chefs d’Etat.

12


Selon les derniers chiffres 2 :

• Twitter a plus que 645 millions utilisateurs inscrits.

• 58 millions de tweets envoyes chaque jour.

Dans le cadre de l’analyse des sentiments, la petite taille de message formule l’hypothese que

ce message ne renferme pas a priori plus d’une seule idee, ce qui facilite l’identification de

la cible d’une opinion. Mais certains tweets apparaissent comme des messages codes a cause

de l’usage des hashtags, abreviations en tout genre, argot, et emoticons.

Les termes a connaıtre pour bien utiliser Twitter, des vocabulaires specifiques sont utilise

sur Twitter plus couramment[30] :

- Followers : les personnes qui vous suivent.

- Followings : les personnes que vous suivez.

- Friends : les personnes que vous suivez et qui vous suivent.

- Twittos : les utilisateurs de Twitter.

- Tweet : court message.

- Tweeter : envoyer/poster un message.

1.4.2 Caracteristique d’un tweet

On peut se sentir un peu perdu du vocabulaire de la langue dans les tweets, notamment, a

cause du vocabulaire et symboles specifiques a l’utilisation de Twitter. A quoi sert le et # ?

C’est quoi RT? Toutes ces abreviations peuvent paraitre un peu floues. Dans une perspective

de classification, un petit lexique des principaux mots et signes Twitter est presente [31] [32]:

• Mention @ : se presente sous la forme @NomUtilistauer Il cible un utilisateur de

Twitter dans le tweet poste. Exemple : salut a vous de la part de @FredColantonio et

@alinler.

Dans le cadre d’une reponse a un tweet, l’auteur du tweet d’origine est mentionne

automatiquement dans la reponse.

2http://www.statisticbrain.com/twitter-statistics/

13


• Hashtag # : se presente sous la forme #mot-cle. Il identifie le mot-cle en question

comme important et peut en faire un sujet populaire. Exemple : #gouvernement,

#graphisme ou encore #facebook.

• RT (ReTweet) : se presente sous la forme RT NomUtilisateur. Il permet de partager

le tweet d’un utilisateur. Exemple : RT fredcolantonio Excellent .

• URL (Lien) : se presente sous la forme https:// ou http://www. Twitter permet au

utilisateur de rejoindre les lien dans son tweet. Exemple : https://web.stanford.edu

ou http://www-nlp.stanford.edu/IR-book/.

• VIA : s’utilise pour mentionner votre source d’information, dans votre tweet.

Exemple : Via YouTube, Via Facebook.

14

Chapter 2

ETAT DE L’ART

Les donnees des medias sociaux permettent a l’analyse du sentiment de prendre un

grande espace de recherche.

2.1 Approches de l’Analyse des Sentiments et la Detection

d’Opinions

Dans la litteratures, nous pouvons distinguer trois types d’approches pour la detection

d’opinions et l’analyse des sentiments :

2.1.1 Approches d’apprentissage automatique

Appele aussi approche statistique, cette approche se basee sur l’apprentissage automa-

tique. Elle utilise la technique de classification pour classer le texte en des classes deferentes.

Il existe principalement deux types de techniques d’apprentissage [33]:

2.1.1.1 Apprentissage supervise

Il est base sur les donnees libellees et par consequent, les etiquettes sont fournies au modele

au cours du processus d’apprentissage. Ces donnees libellees sont utilisees par l’algorithme

d’apprentissage pour donner un modele qui sera utilisee lors de la prise de decision.

Certains modeles d’apprentissage automatique ont ete formulees pour classer les tweets en

classes. Les techniques d’apprentissage automatique comme Naıve Bayes (NB), l’entropie

maximale (ME), et les machines a vecteurs de support (SVM) ont donne un grand succes

15

Chapitre 2 ETAT DE L’ART

dans l’analyse des sentiments.

L’apprentissage automatique commence par la collection des donnees d’apprentissage.

Ensuite, on entraine un classificateur sur ces donnees. Une fois une technique de classification

supervisee est selectionnee, une decision importante a faire est la selection des descripteurs.

Ces derniers nous disent comment les documents sont caracterises. Les descripteurs les plus

couramment utilises dans la classification de sentiment sont:

• Presence de termes et leur frequence.

• Information de la partie de discours (POS).

• Negations.

• Mots et des phrases d’opinion.

2.1.1.2 Apprentissage non supervise

Il ne consiste pas d’une classification precise, donc il se base sur le regroupement.

Le succes de ces deux methodes d’apprentissage depend principalement de la selection et

l’extraction de l’ensemble des descripteurs utilises pour detecter le sentiment (la classe), les

algorithmes d’apprentissage non supervises classification hierarchique ascendante, centres

mobiles, regles d’association,... etc.

2.1.2 Approche lexique

Methode basee sur le lexique, elle utilise le dictionnaire des sentiments avec des mots

d’opinion et les faire correspondre avec les donnees pour determiner la polarite. Elle attribue

les scores de sentiment aux mots d’opinion decrivant si les mots sont positifs, negatif ou

neutre.

Les approches fondees sur le lexique reposent principalement sur un lexique de sentiment, a

savoir, une collection de termes de sentiment connue et precompilee, des phrases et meme

des expressions idiomatiques, developpes pour les genres traditionnels de communication,

tels que le lexique OpinionFinder [33].

16


2.1.3 Approches hybride

Cette approche est appelee aussi classification semi-supervisees. Elles combinent les

points forts des deux approches precedentes. Elles prennent en compte tout le traitement

linguistique des approches symboliques avant de lancer le processus d’apprentissage comme

dans les approches statistiques [27].

2.2 Historique sur l’Analyse des Sentiments

Dans cette partie nous presentons une brief historique de l’analyse des sentiments. Nous

nous somme bases sur l’article [34].

Hatzivassiloglou et McKeown en 1997, travaillaient au niveau de document et utilisaient ”

World Street Journal ” comme source de donnees. leurs travaux se basent sur les conjonctions

et les adjectives et creent un modele de Log Linear Regression. Dans le meme niveau

document Pang et al. en 2002 effectuaient une analyse avec des modeles d’apprentissage

Naıve Bayes (NB), Support Vector Machine (SVM), Maximum Entropy (ME). Il ont utilise

Unigram, bigram, effet contextuel de la negation,et les frequences. Ils ont applique de

tels modeles sur les critiques des films. Nous citons aussi autres travaux sur l’anlyse des

sentiments au niveau documents : Das et Chen en 2001, Turney 2002, Morinaga et al 2002,

Turney et Littman 2003 et Pang et Lee 2004.

Nigam et Hurst a l’annee 2004, travaillaient au niveau des expressions en se basant sur

le lexique des phrases polaires et leurs parties du discours (POS Part Of Speech) avec un

modele base sur des regles syntacsiques en utilisant Usenet message board et autres sources

enligne comme source de donnes. Au niveau des phrase Wilson et al en 2005, developpent

un modele nomme BoosTexter qui s’interesse a la subjectivite lexique avec un corpus de

MQPA. Dans les niveaux de phrase et expression nous pouvons cite aussi Aue et Gamon

a l’annee 2005, les descripteurs utilises sont les termes lematises, leur frequences et poids,

Popescu et Etzioni en 2005, proposent un modele de dependance syntaxique qui se bases sur

les conjonctions et disjonctions de WordNet, Cesarano en 2006, mis en jeux les modeles sur

POS et N − grams.

Hu et Liu en 2005, developpaient un modele d’extraction d’opinions a base de mots et

extension d’aggregation avec WordNet. les descripteurs utilises sont les mots d’opinion et

les phrases d’opinions. Ils utilisaient Cnn.net de Amazon comme source de donnes. En

17


2007 Godbole et al, ont developpe un modele lexicale a base de WordNet. Il ont utilise

des descripteurs qui se basent sur des mesures de distance dans le graphe entre les mots

en tenant compte les relations de synonymie,anonyme, commun des mots. les sources de

donnees utilisees sont les journaux et les les publications.

Ferguson et al a l’annee 2009, utilisaient les articles de blog financiers comme source de

donnees pour creer un modele Multinomial Naıve Bayes (MNB) en manipulant des vecteurs

binaires des descripteurs au niveau des phrases.

Au niveau des mots, Melville et al en 2009, effectuaient une classification bayesienne avec

les lexiques et documents d’apprentissage en utilisant les posts des blogs, site des avis, des

blogs politiques et des critiques des filmes.

Concernant l’analyse des sentiments sur Twitter, Pak et Paroubek en 2010, Barbosa et

Feng a l’annee 2010, ont travaille au niveau des phrases des messages Twitter. Les premiers

auteurs utilisent les N − gram et POS − tags comme des descripteurs avec le classificateur

MNB, tandis que les derniers utilisent les retweets, hashtags, liens et le point ponctuations

en conjonction avec les descripteurs comme les polarites a prioris des mots ainsi que les POS

de mots pour creer le modele SVM.

2.3 Travaux sur L’Analyse des Sentiments avec Twit-

ter

Pour presenter les recherches sur l’analyse des sentiments avec Twitter; nous considerons

trois categories a savoir, Classification de sentiments, Prediction des resultats, Detection des

evenements.

2.3.1 Classification de sentiments

Twitter est un moyen de publication les avis et les opinions dans divers domaines.

En 2009 [35]developpent une application qui s’appelle twitter sentiment

(http://twittersentiment.appspot.com/). Cette application determine la polarite de tweet

positif ou negatif, les auteurs testent trois types d’algorithmes sur les tweets Naıve Bayes

(NB), Maximum Entropy (ME) et Support Vector Machine (SVM). Ces trois methodes

ont montre des resultats similaires, entre 80% et 83% de reussite quant a la prediction de

sentiment (positif ou negatif) par rapport aux messages publies. Les auteurs appliquent un

18


pretraitement aux donnees de Twitter utilisent des emoticones etiquettes.

Barbosa et Feng en 2010 [36] [37] ont rapporte une methode d’analyse de sentiment en

deux etapes pour twitter en utilisant des donnees d’entrainement contenant du bruit. Ils ont

classifie les tweets pour la premiere fois en deux clases subjectif (polaire) et objectif (non

polaire). Ils ont la methode SVM, des donnees d’entrainement rassemblees de trois sites Web

(twendz , twittersentimen , tweetfeel ). Ils se sont focalises sur l’utilisation des descripteurs

plus abstraits au-dela des N−gram simples tels que des meta-descripteurs et des descripteurs

syntactiques de tweet. Les meta- descripteurs incluent POS − tag, la subjectivite et la

polarite anterieure des mots a base de dictionnaire, les expressions negatives. Les descripteurs

de syntaxe de tweet incluent le retweet, hashtag, reponse, hyperliens, ponctuation, symboles

d’expression d’emotion, aussi bien que des majuscules. Ces descripteurs se sont averes plus

robustes que des N − gram.

2.3.2 Prediction des resultats

Ces travaux traitent la prediction des resultats a partir des messages publies dans Twitter :

En 2010 Lampos et Cristianini [38] developpent un outil de surveillance pour depister des

modeles ILI (Influenza-like Illness) en utilisant des donnees Twitter specifiques de la region

Britanniques. Des tweets contenant des mots cles symptome-connexes ont ete rassembles

pendant 6 mois pendant 2009 avec Une moyenne quotidienne de 160.000 tweets. Ces

donnees, converties en mesures score-grippe (flu-score), ont ete comparees aux rapports

H1N1 hebdomadaires de l’agence de protection sanitaire. Le score de resultant est fortement

correle avec les rapports (> 95%). Cette methode fonctionne independamment de la langue,

peut determiner des rapports auto-diagnostiques dans les tweets, et la serie chronologique

d’utilisations geolocalisees des donnees.

En 2010, une analyse des series chronologiques est appliquee au sondage d’opinion publique

politique aux messages Twitter qui ont mentionne le president Barrack Obama [39]. Les au-

teurs employaient le logiciel qui a mesure le sentiment dans les messages de Twitter, pour

comparer le sentiment public d’Obama aux sondages d’opinion publique collectes tradition-

nellement. Les auteurs ont conclu que Twitter est une mesure fiable de l’opinion publique

[40].

Sakaki,Okazaki,et Matsuo en 2010 [41] [42] ont essaye de detecter les tremblements de

terre de l’information generee par les capteurs sociaux representes par les utilisateurs de twit-

19


ter. En utilisant le modele a la fois temporelle et geo-spatiale, les auteurs ont demontre que

les tweets pourraient etre utilise pour predire les tremblements de terre quelques instants

apres qu’ils se produisent et meme de predire l’emplacement d’un tremblement de terre.

De meme, les auteurs montrent qu’il est possible de predire la trajectoire des ouragans en

utilisant tweets generes par la region affectee.

2.3.3 Detection des evenements

Twitter constitue un excellent moyen pour diffuser des informations, pour discuter des

evenements et pour donner des avis.

A partir du message publie sur Twitter on peut detecter un evenement.

En l’annee 2011 Weng et Lee [43] s’interessent a la detection d’evenement sur Twitter en

analysant le contenu des tweets publies dans la plateforme. Ils ont introduit une structure

nomme EDCoW (Event Detection with Clustering of Wavelet-based Signals). Dans EDCoW,

le signal de chaque mot est calcule en appliquant l’analyse en ondelettes sur la frequence

des signaux bruts des mots. En considerant l’autocorrelation des signaux correspondants,

les mots sans importance sont supprimes. Les mots restants sont ensuite regroupes pour

construire des evenements avec une technique graphique. Sur la base de leur experimentation,

les auteurs affirment que EDCoW atteint une bonne performance dans l’etude.

Ozdikis et al en 2012 [44] proposent une methode de detection d’evenements sur Twitter

en se base sur le regroupement de hashtag, le symbole # est utilise pour marquer des mots-

cles ou sujets dans twitter, et l’expansion semantique aux vecteurs de message. Pour chaque

hashtag, les trois hashtags sontles plus similaires sont extraits en utilisant la similitude

cosinus. Un vecteur de tweet avec un seul hashtag est elargi avec trois hashtags similaires,

puis utilise dans le processus de regroupement. Cependant, en utilisant uniquement les

messages avec un seul hashtag peut conduire a ignorer certains evenements importants. En

outre, ils surent un evenement ou non En outre, ils ne mettent pas aucun filtre de credibilite

pour decider si un tweet est un evenement ou non.

20


2.4 Difficultes de la Fouille d’opinions et de l’Analyse

des Sentiments

L’extraction du sentiment ou d’opinion consiste a determiner la polarite d’un tel opinion.

Cette derniere est en general peut etre positive (pour decrits une opinion favorable), negative,

ou neutre. Dans ce qui suit nous citons quelques difficultes de cette procedure [20] [21] [23].

- Ambiguıte de certains mots positifs ou negatifs selon les contextes et qui ne peut pas

toujours etre levee.

- Difficulte due aux structures syntaxiques et semantiques d’une phrase et l’expression

de l’opinion qu’elle vehicule. Par exemple ” l’histoire du film est interessante mais les

acteurs etaient mauvais ”. Dans ce cas la polarite de la deuxieme partie est opposee a

la premiere.

- Difficulte due au contexte : la necessite d’une bonne analyse syntaxique du texte ;

analyse qui peut se reveler particulierement difficile dans des cas de coordination entre

plusieurs parties d’une phrase. Par exemple ”ma tonte a bien prepare le gateau, son

decor est bonne mais je n’ai pas aimee le gout”, l’opinion de la derniere partie de la

phrase est la plus importante.

- Difficulte due a l’analyse de la phrase par ” paquets de mots ”. Les deux phrases

suivantes contiennent les memes paquets de mots sans pour autant exprimer les memes

sentiments. La premiere phrase contient un sentiment positif alors que la deuxieme

est negative : ” Je l’ai apprecie pas seulement a cause de ...”, ” Je l’ai pas apprecie

seulement a cause de ... ” ou se presente la gestion de negation.

21

Chapter 3

EXPERIMENTATION :

APPRENTISSAGE ET TEST

Comme de coutumes des travaux d’apprentissage, notre experimentation passe par les

deux phases d’apprentissage et de test, tel que illustre par la Figure 3.1. Neanmoins, avant

d’entrer dans les details, nous decrivons d’abord notre environnement de travail.

Figure 3.1: Processus de l’apprentissage automatique

3.1 Environnement de Travail

D’abord, nous donnons une description de l’environnement de notre experimentation :

22

Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS

3.1.1 Environnement materiel

Afin de mener notre experimentation et evaluation, nous avons utilise un PC marque HP

Pavilion, equipe d’un processeur multi-core I3, cadence par une horloge d’une frequence de

2.40GHZ, avec 4 GO Octets de RAM, un disque dur d’une capacite de 400 Giga Octets.

3.1.2 Environnement logiciel

Nous avons utilise le langage de programmation Python. Python est un langage de

programmation portable, dynamique, extensible, gratuit, qui permet (sans l’imposer) une

approche modulaire et orientee objet de la programmation. Python est developpe depuis

1989 par Guido van Rossum et de nombreux contributeurs benevoles.

pour ce la nous avons utilise l’environnement de developpement Spyder (Scientific PYthon

Development EnviRonment)qui est un IDE oriente vers un usage scientifique de Python.

Pour se focaliser sur notre experimentation et tirer profit des puissance du langage Python,

nous avons utilise les packages suivants :

• Package CSV : CSV (Comma Separated Values) module pour lire et ecrire des donnees

au format CSV.

• Package re : (Regular expressions) Ce module fournit des operations correspondant

aux expressions regulieres.

• Package numpy : numpy (NUMeric Python) est une bibliotheque numerique apportant

le support efficace de larges tableaux multidimensionnels, et de routines mathematiques

de haut niveau (algebre lineaire, statistiques, .. etc.).

• Package Nltk : Nltk (Natural Language Toolkit) est une plate-forme pour la creation

de programmes Python pour travailler avec des donnees de langage humain.

• Package Sklearn : est un module en Python pour l’apprentissage automatique.

Il est a noter qu’un bon point de depart pour le developpement d’un module d’analyse

des sentiments sur Twitter se trouve dans [45]

23


3.2 Phase d’Apprentissage

La phase d’apprentissage comporte le pretraitement des donnees d’apprentissage ainsi

que l’extraction et la presentation de descripteurs :

3.2.1 Source des donnees (Data set)

Nous avons utilise l’ensemble des donnees des tweets etiquete par Niek Sanders a partir du

site Sanders Analytics 1. Il se presente sous forme d’un fichier d’extension (.csv) contenant

5113 tweets etiquetes manuellement. Cet ensemble de donnees comporte quatre classes des

sentiments, a savoir positive, negative, neutre et hors du sujet.

Il traite quatre differents sujets Apple, Google, Microsoft et Twitter. Chaque entree de notre

ensemble de donnees est structure comme suit :

• Tweet id : un identifiant du tweet.

• Tweet texte : il contient le texte du tweet publie par l’utilisateur.

• TweetDate : date de publication du tweet.

• Topic : le sujet du tweet (Apple, Google, Microsoft ou Twitter).

• Sentiment : Etiquette du tweet, qui peut etre(”positif”, ”negatif”, ”neutre” ou ”hors

de sujet”).

La repartition des donnees selon leurs sujets et leurs sentiments est illustre dans le

Tableau 3.1 :

Sujet Positif Neutre Negatif Hors de sujet

Apple 191 581 377 164

Google 218 604 61 498

Microsoft 93 671 138 513

Twitter 68 647 78 611

Table 3.1: Description du corpus Niek Sanders

1http://www.sananalytics.com/lab/twitter-sentiment/

24


Pour assurer un bon apprentissage nous devons imposer un ordre aleatoire au corpus comme

montre dans le code algorithme 3.

Algorithm 3 Fonction getData pour recupere le corpus

def getData(corpus):

fp = open(corpus , ’rb’ )

reader = csv.reader( fp, delimiter=’,’, quotechar=’”’, escapechar=’ // ’ )

csvv = islice(reader, 1, None, None)

tweets = []

for row in csvv:

t= row[4]

sentiment= row[1]

tweets.append([t, sentiment]);

random.shuffle( tweets );

return tweets

3.2.2 Pretraitement

Nous avons deja aborde dans la Section 1.4.2 les caracteristiques des tweets qui se

resume en general dans les longueurs limitees et l’utilisation d’un langage informel. Ainsi,

l’utilisateur de Twitter utilise des abreviations, des emoticons, et des argots pour exprimer

ses opinions et ses sentiments. Par consequence une etape de pretraitement est indispens-

able.

Dans ce qui suit nous allons presenter la procedure de pretraitement suivie dans notre travail,

dont le but de cette etape est de nettoyer les tweets et leur rendre le plus proche possible a

un langage formel.

D’abord nous avons commence par le filtrage de tweets, en ne considerant que ceux ecrit

en langue anglaise. Car un corpus de differents langages est un corpus qui contient du bruit.

Pour se faire nous avons utilise une bibliotheque dans Python SentiWordNet qui se referer

a le package nltk.

Pour assurer une correspondance entre le langage informel des emoticons et des abreviations,

nous avons cree deux dictionnaires (Table 3.2).Ces dictionnaire sont crees sur la base des

25


ressources23 qui fonctionnent avec les tweets.

# positive emoticons

”<3”: ” pretty ”,

”:d”: ” pretty ”,

”:D”: ” pretty ”,

”:-)”: ” pretty ”,

”:=)”: ” pretty ”,

”=)”: ” pretty ”,

”:)”: ” pretty ”,

”;)”: ” pretty ”,

# negative emoticons:

”:/”: ” sad ”,

”:>”: ” sad ”,

”:’)”: ” sad ”,

”:-(”: ” awful ”,

”:(”: ” awful ”,

”:S”: ” awful ”,

”:-S”: ” awful ”,

#Abvrevioation

”2”: ”To”

”AKA”: ”Also known as”

”AOL”: ”America Online”

”AP”: ”Associated Press”

”app”: ”Application”

”ASL”: ”Age, sex, location”

”ATM”: ”At the moment”

”b/c”: ”Because”

”b/w”: ”Between”

”b4”: ”Before”

”bf”: ”Boyfriend”

”BFF”: ”Best friends forever”

”gf”: ”Girlfriend”

”GJ”: ”Good job”

Table 3.2: A gauche -Emoticons Positive & negative-, a droite -Abreviaton en Anglais-

Par ailleurs nous avons utilise une liste de formes contractees se presente dans le Tableau

3.3 pour rendre quelque mots ou groupe des mots plus clair.

2http://slangit.com/terms/common3http://slangit.com/emoticons/common

26


Forme contractee Forme non contractee

Won’t Will not

Can’t Can not

I’m I am

Isn’t Is not

‘ll will

‘ve have

‘re are

‘d would

Table 3.3: Les formes contractes

Une fois les dictionnaires crees nous avons procede a un pretraitement qui suit les etapes

suivantes :

1- Remplacer les emoticons : en utilisant le dictionnaire des emoticons.

2- Remplacer les abreviations : en utilisant le dictionnaire des abreviations.

3- Supprimer les identifiants des utilisateurs (USER) : nous avons utilise l’expression

reguliere ′@[\ s]+′ pour detecter les mots qui representent les identifiants des utilisa-

teurs Twitter dont le signe il le faut detecter.

4- Supprimer les liens web (URL) : nous avons utilise l’expression reguliere ‘((www \ .[ \s]+)|(https? : //[\ s]+))′ pour detecter les liens des sites cite dans le tweet.

5- Supprimer les Hashtags (TAG) : nous avons utilise l’expression reguliere r′#([ \ s]+)′

pour detecter les mots cle (sur des sujet precis) dans le tweet.

6- Eliminer les caracteres repetes : nous avons elimine les repetitions des caracteres dans

les mots comme ( coooool : cool, hhhhhhh :hh) que l’utilisateur l’utilise pour affirmer

et assurer le sens.

7- Supprimer les chiffres : il faut supprimer les chiffres qui n’ont aucun impact sur la

classification.

8- Eliminer les commandes VIA, RT : Twitter possede son propre vocabulaire et fonc-

tions, il y’a les commande VIA et RT indique que le tweet a ete rediffuse par un

27


autre utilisateur, nous les avons elimine a cause de son influence negligeable sur la

classification.

9- Eliminer les ponctuations : les utilisateurs utilisent dans leurs tweets beaucoup de

ponctuations qui n’ont pas une importance dans notre classification, donc il a ete

mieux de les eliminer dans cette phase.

10- Supprimer les mots vides (Stop-words), nous avons utilise les mots vides en langue

Anglaise predefinies dans le package nltk.corpus.

Le Tableau suivant 3.4 donne quelques exemples de tweets avant et apres le pretraitement:

28


Tweets avant pretraitement Tweets apres traitement

- Thank you to everyone who made this Eu-

rope 2016 tour possible :) !

- thank you to everyone who made this europe

tour possible pretty

- thank you so much for teaching us values on

Twtr. I am waking up :o3 at 4am for the last

2 wks. Salute sir!

- thank you so much for teaching us values on

twiitr i am waking up ordinary at am for the

last weeks salute sir

- I don’t lurk cause I don’t care anymore - i do not lurk cause i do not care anymore

- @DZfoot @Mahrez22 @algeria #Fearless-

Foxes Makes me believe in dreams. ..legend

vive Dz

- makes me believe in dreams legend vive dz

- Hey guys wish you had a super doper day ..

¡3 ¡3 i’m here in @algeria and it’s hot day. ..

- hey guys wish you had a super doper day

heart heart i am here in and it is hot day

- Find jobs in Algeria

https://www.bayt.com/en/algeria/ via

@Baytcom

- find jobs in algeria

- DUUUUUUDE HHHHHH THIS IS

COOOOOL O:-)

- duude hh this is cool pretty

- WHY WOULD YOU DO THIS :/ !?!?! - why would you do this sad

- MAY2016 (08) RT this to enter our

£20.00 Amazon voucher #competition

(T&C on web) http://grandslam.uk.com via

@GrandSlamEvents

- this to enter our amazon voucher on web

Table 3.4: Tweets avant et apres le pretraitement

3.2.3 Extraction et presentation des descripteurs

Dans cette etape, nous considderons les termes restant apres l’etape de pretraitement

comme descripteurs. Nous avons recensai 4002 descripteurs. Ces descrepteurs ont un role

important pour la classification des sentiments.

Pour realiser l’operation d’apprentissage, nous avons propose deux represetation : le

modele booleen et le modele de ponderation TF-IDF.

le modele booleen considere un document d est represente sous forme d’un vecteur

29


booleen. Ce vecteur est l’ensemble des descripteurs, chaque descripteur peut prendre une

valeur 0(faux) si le terme n’existe pas dans le document, ou 1 (vrai) sinon. La representation

d’un document dans le modele booleen se presente comme suit: d = (1, 0, 0, 0, 1, 1, 0, 0...).

Tandis que le modele de poderation TF-IDF (Term Frequency – Inverse Document Fre-

quency) dans le modele vectoriel un document est represente sous forme d’un vecteur dans un

espace engendre par tous les termes d’indexation. La dimension de cet espace est le nombre

de termes d’indexation de la collection de document. Les coordonnees d’un vecteur docu-

ment sont les poids des termes d’index dans ce document, est donne un poids plus important

aux mots caracteristiques d’un document presente ce forme d = (w1, w2, w3, ..., wn). Dans,

un premier temps, il est necessaire de calculer la frequence d’un terme (Term Frequency).

Celle-ci correspond au nombre d’occurrences de ce terme dans le document considere. Ainsi,

pour le document dj et le terme ti, la frequence du terme dans le document est donnee par

l’equation suivante :

TFi,j =ni,j∑k nk,j

(3.1)

• ni,j: est le nombre d’occurrences du terme ti dans dj.

• sumknk,j: est le nombre de termes dans le document.

La frequence inverse de document (Inverse Document Frequency) mesure l’importance du

terme dans l’ensemble du corpus. Elle consiste a calculer le logarithme de l’inverse de la

proportion de documents du corpus qui contiennent le terme. Elle est definie de la maniere

suivante:

IDFi = log2

|D||dj : ti ∈ dj|

(3.2)

|D| represente le nombre total de documents dans le corpus et | dj : ti ∈ dj | est le nombre

de documents dans lesquels le terme ti apparaıt. Enfin, le poids s’obtient en multipliant les

deux mesures :

TF − IDFi,j = TFi,j ∗ IDFi (3.3)

30


3.2.4 Apprentissage

Notre demarche d’analyse de sentiments s’inscrit dans l’approche d’apprentissage au-

tomatique supervise. Nous avons utilise l’algorithme d’apprentissage Naıve Bayes qui sera

utilise dans l’etape de prediction.

concernant le cote implementation, nous avons utiliser l’implementation de Naıve Bayes

d’apres sklearn.naive bayes du package Sklearn mentionne dans la section 3.1.2, l’appel du

classifieur pour l’apprentissage se fait par le biais du code algorithme 4.

tel que:

Algorithm 4 Appelle et entrainement du classifieur NB

- NBClassifier MultinomialNB() # Appelle du clssifieur

- NBClassifier.fit(X vec train, y train) # Entrainement du classifieur

• X vec train est les tweets d’ensemble d’apprentissage

• y train est les sentiments d’ensemble d’apprentissage

3.3 Phase de Test et Interpretation

Apres la phase d’apprentissage, nous passons a la phase de test pour evaluer notre

classifieur.

Pour la validation des performances, nous utilisons la methode 80% 20% pour valider notre

modele , telle que 80% utilise dans la phase d’apprentissage, et 20% pour la phase de test.

les mesures de performance utilisees sont la precision, le rappel et le F1-mesure dont leurs

bases de calcul se fait par rapport a la Table 3.5 :

Predictive

ReelPoitive Negative

Positive VP FP

Negative FN VN

Table 3.5: Table de confusion

31


Avec :

VP : Vrai Positif

FP : Faux Positif

VN : Vrai Negatif

FN : Faux Negatif

Tel que les mesures que nous avons etudie sont presentes dans les formules suivantes :

Precision = VP/(VP + FP) : Proportion d’elements bien classes pour une classe donnee.

Rappel = VP/(VP + FN) : Proportion d’elements bien classes par rapport au nombre

d’elements de la classe a predite.

F1-mesure = 2 * Precision * Rappel/(Precision + Rappel) : Mesure de compromis entre

precision et rappel.

3.3.1 Presentation des resultats et discussion

La Table 3.6 montre les resultats du classifieur pour le modele de presentation booleenne :

Classifieur Precision Rappel F1-mesure Support

Positive 0.43 0.31 0.36 107

Negative 0.57 0.51 0.54 126

Neutre 0.70 0.69 0.69 494

Hors du sujet 0.76 0.87 0.81 341

Avg/ Total 0.68 0.69 0.68 1023

Table 3.6: Resultats du classifieur en methode booleenne

32


La Table 3.7 montre les resultats du classifieur pour le modele de ponderation TF-IDF:

Classifieur Precision Rappel F1-mesure Support

Positive 0.44 0.30 0.35 94

Negative 0.55 0.41 0.47 110

Neutre 0.73 0.88 0.79 494

Hors du sujet 0.92 0.79 0.85 325

Avg/ Total 0.74 0.75 0.74 1023

Table 3.7: Resultats du classifieur en methode de ponderation TF-IDF

Selon les resultats obtenus, il est claire que le classifieur pour le modele de ponderation

TF-IDF avec un F1- mesure de 0.74 est meilleur que claire que le classifieur pour le modele

booleen avec un F1- mesure de 0.68.

Ceci peut s’interpreter par l’influence positive de l’aspect semantique sur la qualite du

classifieur. Nous croyons que l’implication d’autres aspects linguistiques de negation, type

de mots (sujet, verbe, adjectifs. . . ) peuvent ameliorer le processus d’analyse des sentiments.

Ceci dit, il existe d’autres algorithmes d’apprentissage automatiques appliques a l’analyse

des sentiments Twitter. A titre d’exemple SVM Seport Vector Machine et ME Maximum

Entropy, .. etc, qui meritent d’etre etudies et compares si l’espace de temps le permet.

33

CONCLUSION

L’analyse des sentiments se refere a l’extraction automatique de texte evaluative, qui

aide a produire des resultats predictifs. Dans ce memoire nous avons etudie les differents

approches d’analyse des sentiments en particulier celles appliquees sur les donnees Twitter.

Nous avons implemente la methode probabiliste Naıve Bayes en considerant modeles de

representations de donnees, a savoir, les modeles booleen et celui utilisant une ponderation

TF-IDF. L’experimentation conduite sur l’ensemble de donnee Sanders Analytics revelent

que la representation semantique TF-IDF donne de meilleurs resultats en terme de precision,

rappel et F-mesure.

Ceci etant dit, il faut noter que l’environnement materiel utilise est relativement limite.

Par consequent nous n’avons pas pu conduire nous experimentations sur des corpus de tailles

importantes. En plus, cette limite nous a prive d’utiliser des methodes de validation plus

sophistiquees de l’approche implementee. Par ailleurs, le temps octroye pour notre memoire

ne nous a pas permis d’explorer d’autres methodes de l’analyse des sentiments telles que la

methode de Support Vector Machine (SVM), Maximum Entropy (ME).

En fin nous conjecturons que l’implication d’autres aspects linguistiques de negation, type

de mots (sujet, verbe, adjectifs. . . ) peuvent ameliorer le processus d’analyse des sentiments.

34

Bibliographies

[1] Risson Romain, les reseaux sociaux : Facebook,Twitter ,Linkedln, Viadeo, Google+:

comprendre et maitriser ces nouveaux outils de communication, 2011.

[2] Serge Proulx, Melanie Millette et Lorna Heaton Medias sociaux: enjeux pour la

communication. Presse de l’Universite du Quebec, 2011.

[3] Andreas M. Kaplan et Michael Haenlein Users of the world, unite! The challenges

and opportunities of Social Media. Paris, France .ESCP Europe, 2010.

[4] Bouillon Pierrette Traitement automatique des langues naturelles, paris, bruxelle

1998.

[5] Kumar Ela Natural Language Processing, India,I.K.International Publishing

House Pvt. Ltd 2011.

[6] Jean Veronis Natural Language Processing, URL : http://sites.univ-

provence.fr/veronis, 2001.

[7] Daniel Jurafsky et James H. Martin Speech and Language Processing, 2015.

[8] Meena Rambocas and Jo?o Gama Marketing Research : The Role of Sentiment

Analysis, FEP Economics and Managment, 2013.

[9] Nasukawa, Tetsuya et Jeonghee Yi Sentiment analysis: Capturing favorability

using natural language processing, Knowledge Capture, 2003.

[10] Kushal Dave, Steve Lawrence and David M. Pennock Mining the peanut gallery:

Opinion extraction and semantic classification of product reviews, 2003.

[11] Sanjiv R. Das et Mike Y. Chen Yahoo! for Amazon: Extracting market sentiment

from stock message boards,2001.

35

References

[12] Satoshi Morinaga,Kenji Yamanish,Kenji Tateishi,and Toshikazu Fukushima

Mining product reputations on the web,Proceedings of the eighth ACM SIGKDD

international conference on Knowledge discovery and data mining, New

York, NY, USA, 2002.

[13] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, Thumbs up?: sentiment classi-

fication using machine learning techniques, Proceedings of the ACL-02 conference

on Empirical methods in natural language processing - Volume 10,Strouds-

burg, PA, USA 2002.

[14] R. M. Tong An operational system for detecting and tracking opinions in on-line dis-

cussion, In Working Notes of the ACM SIGIR 2001 Workshop on Operational

Text Classification 2001.

[15] Peter D. Turney, Thumbs up or thumbs down?: semantic orientation applied to

unsupervised classification of reviews, Proceedings of the 40th Annual Meeting

on Association for Computational Linguistics, Stroudsburg, PA, USA, 2002.

[16] Janyce Wiebe, Learning Subjective Adjectives from Corpora,Proceedings of the

Seventeenth National Conference on Artificial Intelligence and Twelfth Con-

ference on Innovative Applications of Artificial Intelligence, 2000.

[17] Bing Liu, Opinions, Sentiment, and Emotion in Text,Cambridge University Press,

2015.

[18] Bo Pang and Lillian Lee, Opinion Mining and Sentiment Analysis,Now Publishers

Inc, 2008.

[19] Huifeng Tang, Songbo Tan and Xueqi Cheng, A survey on sentiment detection

of reviews,Information Security Center, Institute of Computing Technology,

Chinese Academy of Sciences, Beijing 100080, PR China, 2009.

[20] Faiza Belbachir, Experimentation de fonctions pour la detection d’opinions dans les

blogs, Universite de Paul Sabatier, Institut de Recherche en Informatique de

Toulouse 2010.

[21] Dominique Boullier et Audrey Lohard, Opinion mining et Sentiment analysis:

Methodes et outils, 2012.

36

References

[22] Mr. Saifee Vohra et Prof. Jay Teraiya, Applications and Challenges for Senti-

ment Analysis : A Survey, International Journal of Engineering Research & Technology

(IJERT), 2013.

[23] Sigrid Maurel, Paolo Curtoni et Luca Dini, L’analyse des sentiments dans les

forums, CELI France, SAS.

[24] Arti Buche, Dr. M. B. Chandak and Akshay Zadgaonkar, Opinion mining

and analysis:a survey, International Journal on Natural Language Computing

(IJNLC), India 2013.

[25] G.Vinodhini and RM.Chandrasekaran, Sentiment Analysis and Opinion Mining:

A Survey,International Journal of Advanced Research in Computer Science

and Software Engineering ,India 2012.

[26] Vivek Kumar Singh and Debanjan Mahata, A clustering and opinion mining

approach to socio-political analysis of the blogosphere, Computational Intelligence

and Computing Research (ICCIC), 2010 IEEE International Conference on

2010.

[27] Alexander Pak and Patrick Paroubek, Twitter as a Corpus for Sentiment

Analysis and Opinion Mining, Universit´e de Paris-Sud, Laboratoire LIMSI-

CNRS,France 2010.

[28] Matthew Eric Glassman, Jacob R. Straus and Colleen J. Shogan, Social Net-

working and Constituent Communications: Members Use of Twitter and Facebook Dur-

ing a Two-Month Period in the 112th Congress,Congressional Research Service,

2009.

[29] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca Passon-

neau, Sentiment analysis of Twitter data, LSM 11 Proceedings of the Workshop

on Languages in Social Media,2011.

[30] Laurent Dijoux, Boostez votre business avec Twitter,Almabic, 2009.

[31] Fred Colantonio, Communication professionnelle en ligne: comprendre et exploiter

les medias et reseaux sociaux,Edipro, 2011.

37

References

[32] Tim O’Reilly and Sarah Milstein, The Twitter Book, 2012.

[33] Vishal A. Kharde and S.S. Sonawane, TSentiment Analysis of Twitter Data: A

Survey of Techniques,International Journal of Intelligent Systems and Appli-

cations(IJISA), 2016.

[34] Prem Melville, Wojciech Gryc and Richard D. Lawrence, Sentiment analysis

of blogs by combining lexical knowledge with text classification ,KDD 09 Proceedings

of the 15th ACM SIGKDD international conference on Knowledge discovery

and data mining, 2009.

[35] Alec Go, Richa Bhayani and Lei Huang, Twitter sentiment classification using

distant supervision, 2009.

[36] Luciano Barbosa and Junlan Feng, Robust sentiment detection on Twitter from

biased and noisy data, COLING 10 Proceedings of the 23rd International Con-

ference on Computational Linguistics: Posters, 2010.

[37] Yiannis Kompatsiaris, Bernard Merialdo and Shiguo Lian, TV Content Anal-

ysis: Techniques and Applications, CRC Press, 2011.

[38] Vasileios Lampos and Nello Cristianini , Tracking the flu pandemic by monitoring

the Social Web.

[39] Brendan O’Connor, Ramnath Balasubramanyan, Bryan R. Routledge et

Noah A. Smith , From Tweets to Polls: Linking Text Sentiment to Public Opin-

ion Time Series, the International AAAI Conference on Weblogs and Social

Media, 2010.

[40] Laura Robinson, Shelia R. Cotton et Jeremy Schulz, Communication and

Information Technologies Annual: Politics and Participation, Emerald, 2015.

[41] Yelena Mejova, Ingmar Weber et Michael W.Macy, Twitter: A Digital Socio-

scope, Cambrdige University Press, 2015.

[42] Takeshi Sakaki, Makoto Okazaki et Yutaka Matsuo, Earthquake shakes Twitter

users: real-time event detection by social sensors, WWW 10 Proceedings of the

19th international conference on World wide web, 2010.

38

References

[43] Francis Harvey et Yee Leung, Advances in Spatial Data Handling and Analysis:

Select Papers from the 16th IGU Spatial Data Handling Symposium, Springer, 2015.

[44] Basant Agarwal et Namita Mittal, Prominent Feature Extraction for Sentiment

Analysis, Cham Heidelberg New York Dordrecht London, 2013.

[45] Willi Richert et Luis Pedro Coelho, Building Machine Learning Systems with

Python, Packt Publishing Ltd., Birmingham B3 2PB, UK, 2013.

39