analyse des sentiments cas twitter - univ ghardaia algerie
TRANSCRIPT
ةـــــيـــبــــعــــــــــــــــــــــــــــــــــــــــشـــة الـــيــــراطـــــقـــــــــــــــــــــــــــة الدميـــريـــــــزائــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــة اجلـــــــــــــــوريــــــهـــــمــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــاجل
REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE
يـــــــــــــــمـــلــــــــــــــــــــحث العــــــــــــــــــــــــــــــــــــــــــايل و البــــــــــــــــــــــــــــــم العــــــــــليـــــــعــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــوزارة التـ
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
غــــــردايــــــــــــــــــــــــةــــــــــــامعة ــــــــــــــــــــــــــــــــــــجـــــــــــــــــــــ
Université de Ghardaia
كـــــليــــــة العــــــلـــــــــوم والتـــــكـــــنــــلــــــــوجيــــــاFaculté des Sciences et de Technologie
ــم الرياضيات و االعالم اآللــــيقسـ Département des Mathématiques et Informatique
MEMOIRE
Présenté pour l’obtention du diplôme de MASTER
En : Informatique
Spécialité : Systèmes Intelligents pour l'Extraction de Connaissances (SIEC)
Par : Soumia Elyakoute HERMA et Khadidja SAIFIA
Sujet
ANALYSE DES SENTIMENTS
CAS TWITTER
Soutenu publiquement, le 21/ Juin / 2016, devant le jury composé de :
M. Djelloul ZIADI Professeur Univ. Rouen-France Président M. Slimane BELLAOUAR Maitre Assistant A Univ. Ghardaïa Encadreur M. Slimane OULAD NAOUI Maitre Assistant A Univ. Ghardaïa Examinateur M. Abderrahmane ADJILA Maitre Assistant B Univ. Ghardaïa Examinateur
Année Universitaire 2015/2016
Resume
L’analyse des sentiments est une technologie d’analyse automatique des discours, ecrits ou parles
dans le but consiste a extraire des informations subjectives comme des jugements, des evaluations ou des
emotions pour detecter la polarite d’une opinion. L’importance de l’analyse des sentiments est presente dans
plusieurs domaines, a savoir politique, marketing, gestion de la reputation,... Dans ce memoire, notre objectif
consiste a devoiler les secrets d’un tel domaine en adoptant une approche pour l’apprentissage automatique.
Pour ce faire nous avons implemente la methode probabiliste Naıve Bayes sur le corpus Neik Sander des
tweets. Nous avons considere deux modeles de representation de donnees, a savoir, le modele booleen et un
autre modele semantique avec la ponderation TF-IDF (Term Frequency - Inverse Document Freqency). Les
resultats obtenus en terme de precision, rappel et F1-mesure revelent que la representation avec un modele
TF-IDF est mieux adaptee.
Mots-cles : Analyse des Sentiments, detection d’opinion, polarite, Naıve Bayes, modele booleen, TF-IDF,
Twitter.
Abstract
Sentiment Analysis is an automatic analysis technology of written or spoken speeches, aims to extract
subjective information like judgments, evaluations or emotions to detect the polarity of an opinion. The
importance of sentiment analysis is present in several fields, namely: politics, marketing, reputation manage-
ment, ... In this thesis, our objective is to reveal some secrets of this field by adopting a machine learning
approach. With this intention we implemented the Naive Bayes probabilistic method on the Neik Sander
corpora of tweets. We considered two data representation models, the Boolean model and a semantic model
with TF-IDF weighting. The obtained results in terms of precision, recall and, F1-score reveal that the
representation with a TF-IDF model is best placed.
Key words: Sentiment Analysis, opinion detection, polarity, Naıve Bayes, Boolean model, TF-IDF, Twitter.
�jÊÓ
Q�J« �HAÓñÊªÓ h. @Q
j�J�@ ¬Y�îE. , A«ñÒ��Ó ð @ AK. ñ�JºÓ àA�» Z@ñ� ,H. A¢
mÌ'@ ÉJÊj�JË �éJË�@ AJk. ñËñJº�K ù �ë
£@ñ��ªË@ ÉJÊm��'
ú áÒº�K �é ®�£AªË@ ÉJ�Êm�
�' �éJÒë @ . AÓ ø
@P ék. ñ�K ð �é�JK. A¢
�®�J�@ ��» Ég. B Q«A� ��ÖÏ @ ð
@ �HAÒJJ
�®�JË @ , ÐA¾k B@ É�JÓ �éJ«ñ �ñÓ
�éK. PA�®Ó PAJ. ��J«AK. ÈAj. ÖÏ @ @ Yë Q�� ��» ñë A J Yë , �èQ» YÖÏ @ è Y�ë ú
. . . , �éª�Ò�Ë@ �èP@X@ ,��Kñ��
��Ë @ , �é�AJ�ËA¿ , �HBAm.×�è �Y«
. �HA�JKñ�K áÓ PPYKA� ½KA K �HAJ¢ªÓ�é«ñÒm.× úΫ NaiveBayes
�éJ KA�kB@ �é�®KQ¢Ë@ A JÓY j�J�@ ½Ë X Ég. @ áÓ . �éË B@ ÕΪ�K
l .� 'A�J JË @ . TF − IDF �H@XQ ®ÖÏ @ à@ Pð
AK. �úÍBX h.
XñÖ ß ð ù�®¢JÖÏ @ h.
XñÒJË @ , AÒë , �HAJ¢ªÖÏ @ ÉJ�JÒ�JË á�g.XñÖ ß A JË AÒª�J�@ �IJk
ñm� ' úΫ ÉÒªK TF − IDF h.XñÒJK. ÉJ�JÒ�JË @
�à @ �I ® ��» �AJ
�®1 @ ð Q» Y�JË @, �é�YË@ ��KA�®ÖÏ @ ÈAÒª�J�AK. AîDÊ« É��j�JÖÏ @
. É � @
.Q��Kñ�K , TF − IDF , ù�®¢JÖÏ @ h.
XñÒJË @ , NaiveBayes , �é�JK. A¢�®�J�@ ,ø
@QË @ ��» , £@ñªË@ ÉJÊm�
�' : �éJkA�J
®ÖÏ @ �HAÒʾË@
Dedicace
Je dedie ce travail:
A mon chere Pere, qui est la lumiere de ma vie,
A ma Mere Dieu ait son ame,
A Maman que Dieu lui garde,
A mes cheres freres et seours, specialement Saber et Islam,
A mes fideles amis de proche ou de loin,
A tout qui porte le nom HERMA.
Soumia Yakoute
Dedicace
Je dedie ce modeste travail a :
grande mere Dieu ait son ame
Celle qui est plus cher que mon ame et mon sang, la lumiere de mon chemin, A ma mere
adoree.
Mon cher pere, qui m’a toujours encouragee et conseillee.
A mon frere : S.Ahmed
A mes soeurs: D.Sarah, H.Amel, B.Amina
A grande mere et tres chers famille: B.Nour el houda, D.Badis ,Z.Rabah, S.houria,
S.Fatima, S.Fatiha.
A ma chere Tante : S.Houria
A ma cher Tonton : Dourroussi houssine
A tous les enseignants de l’informatique, Et tous les etudiants de l’informatique, en
particulier la promotion 2016.
A tous ceux qui portent les noms Saifia et Salah.
A toute personne utilisant ce document pour un bon usage.
Khadidja
Table des matiere
LISTE DES TABLEAUX iv
LISTE DES FIGURES v
LISTE DES ALGORITHMES vi
REMERCIEMENT vii
INTRODUCTION GENERALE 1
1 PRELIMINAIRES 2
1.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Medias sociaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Le Traitement automatique des langues naturelles (TAL) . . . . . . . 3
1.1.3 Le Classifieur Naıve Bayes . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Analyse des Sentiments et Domaines d’Applications . . . . . . . . . . . . . 9
1.2.1 Definitions de l’analyse des sentiments . . . . . . . . . . . . . . . . . 9
1.2.2 Domaines d’applications de l’analyse des sentiments . . . . . . . . . . 10
1.3 Sources des Donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Sites d’avis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3 Micro-blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 Twitter et tweet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Caracteristique d’un tweet . . . . . . . . . . . . . . . . . . . . . . . . 13
ii
TABLE DES MATIERE TABLE DES MATIERE
2 ETAT DE L’ART 15
2.1 Approches de l’Analyse des Sentiments et la Detection d’Opinions . . . . . . 15
2.1.1 Approches d’apprentissage automatique . . . . . . . . . . . . . . . . . 15
2.1.2 Approche lexique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.3 Approches hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Historique sur l’Analyse des Sentiments . . . . . . . . . . . . . . . . . . . . . 17
2.3 Travaux sur L’Analyse des Sentiments avec Twitter . . . . . . . . . . . . . . 18
2.3.1 Classification de sentiments . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Prediction des resultats . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 Detection des evenements . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Difficultes de la Fouille d’opinions et de l’Analyse des Sentiments . . . . . . 21
3 EXPERIMENTATION : APPRENTISSAGE ET TEST 22
3.1 Environnement de Travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.1 Environnement materiel . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.2 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Phase d’Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.1 Source des donnees (Data set) . . . . . . . . . . . . . . . . . . . . . . 24
3.2.2 Pretraitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.3 Extraction et presentation des descripteurs . . . . . . . . . . . . . . . 29
3.2.4 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Phase de Test et Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1 Presentation des resultats et discussion . . . . . . . . . . . . . . . . . 32
CONCLUSION 34
BIBLIOGRAPHIE 35
iii
Liste des Tables
1.1 Exemple d’applcation de l’algorithme de Naıve Bayes. . . . . . . . . . . . . . 8
3.1 Description du corpus Niek Sanders . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 A gauche -Emoticons Positive & negative-, a droite -Abreviaton en Anglais- 26
3.3 Les formes contractes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Tweets avant et apres le pretraitement . . . . . . . . . . . . . . . . . . . . . 29
3.5 Table de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6 Resultats du classifieur en methode booleenne . . . . . . . . . . . . . . . . . 32
3.7 Resultats du classifieur en methode de ponderation TF-IDF . . . . . . . . . 33
iv
Liste des Figures
1.1 L’intuition du classifieur Multinomial Naıve Bayes applique a des avis d’un
film dont leur position est ignoree (sac de mots) . . . . . . . . . . . . . . . . 4
3.1 Processus de l’apprentissage automatique . . . . . . . . . . . . . . . . . . . . 22
v
Liste des Algorithmes
1 Algorithme Train Naıve Bayes(D,C) . . . . . . . . . . . . . . . . . . . . . . . 7
2 Algorithme Test Naıve Bayes(testdoc, logprior, liklihood, C, V) . . . . . . . 7
3 Fonction getData pour recupere le corpus . . . . . . . . . . . . . . . . . . . 25
4 Appelle et entrainement du classifieur NB . . . . . . . . . . . . . . . . . . . 31
vi
REMERCIEMENT
Au premier temps, nous remercions Allah qui nous a aide a realiser ce travail, et qui a
ete avec nous en tout le moment.
Nous remercions egalement notre encadreur Monsieur Slimane BELLAOUAR pour l’aide
et les conseils concernant les missions evoquees dans ce Projet de fin d’etude, qu’il nous a
apporte lors des differents suivis.
Nous tenons a remercier Pr. Djelloul ZIADI, Mr. Slimane OULAD NAOUI, Toufik
GHARIB, ADJILA Abderrahmane, et les responsables de la formation Systeme Intelli-
gent pour Extraction des Connaissance ”SIEC”, pour avoir assure cette formation, et toute
l’equipe pedagogique de departement du Mathematiques et Informatique de notre universite.
Nous adressons nos remerciements aux personnes de loin ou de proche qui nous ont aide
dans la realisation de ce memoire.
vii
INTRODUCTION GENERALE
Avec l’avenement du web et l’explosion des sources des donnees telles que les sites
d’avis, les blogs et les microblogs est apparu la necessite d’analyser des millions des postes,
de tweets ou d’avis afin de savoir ce que pensent les internautes. L’analyse des sentiments
est une technologie d’analyse automatique des discours, ecrits ou parles et d’en faire ressortir
les differentes opinions exprimees sur un sujet precis comme une marque, une actualite ou
un produit. L’importance de l’analyse des sentiments est presente dans plusieurs domaines,
a savoir politique, marketing, gestion de la reputation, ...
L’analyse des sentiments releve de plusieurs disciplines en l’occurrence d’une part du
traitement automatique du la langage naturel (Naturel Langage Processing) et d’autre part
de l’apprentissage automatique (Machine Learning).
Dans ce memoire, notre objectif consiste a devoiler les secrets de l’analyse des senti-
ments en adoptant une approche d’apprentissage automatique. Pour ce faire, nous avons
implemente la methode probabiliste Naıve Bayes sur le corpus Neik Sander des tweets. Nous
avons considere deux modeles de representation de donnees, a savoir, le modele booleen et
un autre modele semantique avec la ponderation TF-IDF. Les resultats obtenus en terme
de precision, rappel et F1-mesure revelent que la representation avec un modele TF-IDF est
mieux placee.
Le reste du memoire est organise en trois chapitres : nous consacrons un premier chapitre
a presenter des generalites sur le domaine d’analyse des sentiments en particulier Twitter
comme source d’opinions. Le second chapitre se focalise sur l’etat de l’art de l’analyse
des sentiments, notamment les travaux inherents a l’analyse des sentiments Twitter. Notre
troisieme chapitre presente l’experimention et la methode Naıve Bayes en considerant les
phases d’apprentissage et de test.
Nous concluons avec une synthese de travail et des perspectives.
1
Chapter 1
PRELIMINAIRES
1.1 Generalites
Dans cette section, nous definissons quelques concepts de base importants utilises dans ce
que suit.
1.1.1 Medias sociaux
Le terme media est le pluriel du mot latin medium qui signifie moyen, milieu ou lien.
En effet le terme lien exprime une relation ou une liaison entre les acteurs des medias. Par
consequence les medias classique tels que la television, la presse et la radio peuvent etre
consideres comme des medias sociaux puisqu’ils relient les hommes par informations [1].
Selon cette vision, l’expression medias sociaux regroupe sous la meme enseigne une grande
variete de dispositifs, tels les blogs, les wiki, les sites reseaux socio-numerique (Facebook,
LinkedIn), les microblogues (Twitter, Jaiku), le bookmarking collectif, les partage de con-
tenus mediatique comme la musique, les photos et les videos [2].
Une definition technique purement informatique est presentee dans [3], Un groupe d’applications
en ligne qui se fondent sur l’ideologie et la technologie du Web 2.01 et permettent la creation
et l’echange du contenu genere par les utilisateurs.
Le concept de medias sociaux se refere donc aux moyens de communication, a la tech-
nologie utilisee, aux modes d’interaction sociale ainsi qu’a la culture des usagers de ces
services.
1Web 2.0 apparu en 1999, fonde notamment sur le partage de l’information, l’implication des utilisateurs
dans la creation de contenu et les reseaux sociaux.
2
Chapitre 1 PRELIMINAIRES
1.1.2 Le Traitement automatique des langues naturelles (TAL)
Dans la litterature, Le traitement automatique des langues naturelles (TAL) ou Le
traitement du langage naturel (TALN) sont utilises indifferemment.
Pierrette bouillon [4] definit le TAL comme suit : TAL a pour objet la creation de
programmes informatiques capables de traiter automatiquement les langues naturelles. Ela
Kumar [5], par contre definit le TAL selon une vision de l’intelligence artificielle et pro-
grammation : Le TAL est un domaine significatif de l’intelligence artificielle parce qu’un
ordinateur serait considere comme intelligent s’il peut comprendre la commande donnee
en langage naturel au lieu de C, Fortran ou Pascal. Par consequent et avec la capacite
d’ordinateur a comprendre le langage naturel, il devient beaucoup plus facile de communi-
quer avec les ordinateurs. Par ailleurs le TAL peut etre applique comme outil de productivite
dans des applications allant du resume des informations jusqu’a la traduction d’une langue
a une autre.
Une definition plus technique est donnee par JeanVeronis [6], on regroupe sous le voca-
ble TALN l’ensemble des recherches et developpements visant a modeliser et a reproduire, a
l’aide de machines, la capacite humaine a produire et a comprendre des enonces linguistiques
dans des buts de communication.
1.1.3 Le Classifieur Naıve Bayes
Cette partie se refere en general a l’ouvrage ”Speech and Language Processing” [7].
L’idee d’inference bayesienne est connue depuis les travaux de Bayes en 1763. Elle a ete
d’abord appliquee a la classification du texte par Mosteller et Wallace des annee 1964.
L’intuition de ce classifieur se presente dans la Figure 1.1. Le document textuel est
represente sous forme d’un sac de mots (bag-of-words), qui est un ensemble de mots non
ordonne dont les positions sont ignorees. Autrement dit, on ne conserve que leurs frequences
dans le document. Dans cet exemple, au lieu de representer l’ordre des mots dans toutes
les expressions comme ”I love this film” et ” I would recommend it”, nous remarquons
simplement que le mot ‘I’ apparait 5 fois dans tout l’extrait, le mot ‘it’ 6 fois, et le ‘movie’
une fois, et ainsi de suite.
3
Chapitre 1 PRELIMINAIRES
Figure 1.1: L’intuition du classifieur Multinomial Naıve Bayes applique a des avis d’un film
dont leur position est ignoree (sac de mots)
Naıve Bayes est un classifieur probabiliste. Pour un document d, sur toutes les classes
c ∈ C le classifieur renvoie la classe c qui a la probabilite a posteriori maximale donnee du
document, dans l’equation 1.1. Nous utilisons le c pour designer l’estimation de la bonne
classe.
c = arg maxc∈C
P (c/d) (1.1)
1.1.3.1 L’inference Bayesienne
L’intuition de la classification bayesienne est d’utiliser la regle de Bayes pour transformer
l’equation 1.1 en d’autres probabilites qui ont des proprietes utiles. La regle de Bayes
est exprimee dans l’equation 1.2, elle nous donne un moyen de briser toute probabilite
conditionnelle P(A/B) en trois autres probabilites :
P (A/B) =P (B/A) ∗ P (A)
P (B)(1.2)
4
Chapitre 1 PRELIMINAIRES
On peut alors remplacer l’equation 1.2 dans 1.1 pour obtenir 1.3 :
c = arg maxc∈C
P (c/d) = arg maxc∈C
P (d/c) ∗ P (c)
P (d)(1.3)
Nous pouvons facilement simplifier l’equation 1.3 en supprimant le denominateur P(d).
Cela est possible parce que nous allons calculer P (d/c)∗P (c)P (d)
pour chaque classe possible. Mais
P (d) ne change pas pour chaque classe. Ainsi, nous pouvons choisir la classe qui maximise
cette formule simple :
c = arg maxc∈C
P (c/d) = arg maxc∈C
P (d/c) ∗ P (c) (1.4)
Nous calculons donc la classe la plus probable c, etant donne un document d en choisissant
la classe qui a le plus grand produit de deux probabilites : la probabilite a priori de la classe
P (c), et la probabilite conditionnelle P (d/c) du document.
Nous pouvons representer un document d comme un ensemble des descripteurs F =
f1, f2, . . . , fn ainsi l’equation 1.4 devient comme suit:
c = arg maxc∈C
P (f1, f2, . . . , fn/c) ∗ P (c) (1.5)
Malheureusement l’equation 1.5 est encore trop difficile a calculer directement. Le classifieur
Naıve Bayes fait donc deux hypotheses simplificatrices.
La premiere est hypothese du sac de mots discutee intuitivement ci-avant qui suppose
que la position du mot n’a pas d’importance. Ainsi, nous supposons que les descripteurs
f1, f2, . . . , fn encodent seulement les identites des mots et non pas leurs positions.
Le second est appele l’hypothese Naıve Bayes : ceci est l’hypothese d’independance con-
ditionnelle que les probabilites P (fi/c) sont independants etant donne la classe c et donc
peuvent etre ”naıvement” multipliees comme suit :
P (f1, f2, . . . , fn/c) = P (f1/c).P (f2/c). . . . .P (fn/c) (1.6)
L’equation finale pour la classe cNB choisie par le classifieur Naıve Bayes est la suivante :
cNB = arg maxc∈C
P (c)∏f∈F
P (f/c) (1.7)
Pour appliquer le classifieur Naıve Bayes au texte. Il suffit de considerer les mots comme
des descripteurs, ainsi F = w1, w2, ..., wn.
5
Chapitre 1 PRELIMINAIRES
cNB = arg maxc∈C
P (c)∏wi∈F
P (wi/c) (1.8)
Le calcul de Naıve Bayes, comme les calcule pour la modelisation du langage sont faites
de logarithme afin d’eviter les problemes de calcul des petites valeurs (underflow), et pour
augmenter la rapidite du calcul. Ainsi, l’equation 1.8 devient:
cNB = arg maxc∈C
logP (c) +∑wi∈F
logP (wi/c) (1.9)
Il est claire que le calcul de la classe estimee est une fonction lineaire des descripteurs d’entree.
Le classifieur qui utilise une combinaison lineaire des entrees pour prendre une decision par
classification comme Naıve Bayes sont appeles des classifieurs lineaires.
Pour calculer l’equation 1.9 nous avons besoins de calculer les valeurs P (c) et P (wi/c).
P(c): est la probabilite a priori de la classe c sans connaıtre les donnees.
P (c) =Nc
Ndoc
(1.10)
Nc: est le nombre des documents ayant comme classe c.
Ndoc: est le nombre total des documents.
P (wi/c) est la proportion du nombre du mot wi parmi tous les mots dans tous les docu-
ments de la thematique (classe) c.
P (wi/c) =count(wi/c)∑
w∈F (count(w, c))(1.11)
Mais Naıve Bayes multiplie naıvement toutes les probabilites, la probabilite zero dans
le terme de la probabilite conditionnelle cause au probabilite zero de la classe, et ce-la est
inacceptable.
La solution la plus simple est l’ajout de 1 (Laplace) lissage. Bien que le lissage de Laplace est
generalement remplace par des algorithmes de lissage plus sophistiques dans la modelisation
du langage, il est couramment utilise dans Naıve Bayes texte categorisation :
P (Fi/c) =count(Fi/c) + 1∑
f∈V (count(f, c) + 1)=
count(Fi/c) + 1∑f∈V (count(f, c))+ | V | (1.12)
| V | : le nombre des termes de tout les documents (sac de mot). Ceci etant, l’algorithme
resume le demarche de la methode Naıve Bayes pour la classification des textes:
6
Chapitre 1 PRELIMINAIRES
Algorithm 1 Algorithme Train Naıve Bayes(D,C)
INPUT: D: labeled training documents
C : Classes
Ndoc = number of document in D
V = ExtractUniqueTerms(D) // V is vector of all the Bag-of-Words in the corpus
V ← vocabulary of D
for each class c in C
logprior[c] ← log Nc
Ndoc
bigdoc[c] ← append(d) for d in D with class c
for each word w in V
count(w, c) ← number of occurences of w in bigdoc[c]
loglikelihood[w, c] ← log count(w,c)+1∑w′inV (count(w′,c)+1)
return logprior : logP (c), logliklihood : logP (w, c), V
Algorithm 2 Algorithme Test Naıve Bayes(testdoc, logprior, liklihood, C, V)
INPUT C: Classes, d: test document, D: Document corpus,
logP (c), logP (w, c), V
for each class c in C # Calculate P (c) terms
sum[c] ← logprior
for each w in testdoc
if word[w] ∈ V
sum[c] ← sum[c] + logliklihood[word[w],c]
return argmaxc sum[c]
7
Chapitre 1 PRELIMINAIRES
1.1.3.2 Exemple d’application
L’exemple ci-dessous 1.1, presente l’apprentissage et le test du classifieur Naıve Bayes.
Nous utilisons un domaine d’analyse de sentiment avec deux classes positives (+) et negatives
(-), et prenons l’apprentissage miniature suivante et testons des simples documents des avis
d’un filme reelles.
Ensemble Classe Tweets
Apprentissage
− Justplainboring
− Entirely predictable and lacks energy
− No surprises and very few laughs
+ Very powerful
+ The most fun film of the summer
Test ? Predictable with no originality
Table 1.1: Exemple d’applcation de l’algorithme de Naıve Bayes.
La probabilite a priori P(c) pour les deux classes se calcule via l’equation 1.10 :
P (−) =3
5P (+) =
2
5
les probabilites conditionnelles de l’ensemble d’apprentissage prevue pour les quatre mots
”Predictable”, ”with”, ”no”, ”originality”, sont les suivants, a partir de l’equation 1.12:
P (”predictable” | −) = 1+114+20
P (”predictable” | +) = 0+19+20
P (”with” | −) = 0+114+20
P (”with” | +) = 0+19+20
P (”no” | −) = 1+114+20
P (”no” | +) = 0+19+20
P (”originality” | −) = 0+114+20
P (”originality” | +) = 0+19+20
Pour la phrase de test S = ”Predictable with no originality”, la classe choisie, se calcule par
l’equation 1.8 ou l’equation 1.9
P (−)P (”S” | −) = 35∗ 2∗1∗2∗1
344= 1.8 ∗ 10−6
P (+)P (”S” | +) = 25∗ 1∗1∗1∗1
294= 5.7 ∗ 10−7
ou :
log(P (−)) + log(P (”S” | −)) = log(35) + (log( 2
34) + log( 1
34) + log( 2
34) + log( 1
34)) = −5, 75
log(P (+)) + log(P (”S” | +)) = log(25) + (log( 1
29) + log( 1
29) + log( 1
29) + log( 1
29)) = −6, 25
Le modele estime une classe negative pour la phrase de test S.
8
Chapitre 1 PRELIMINAIRES
1.2 Analyse des Sentiments et Domaines d’Applications
1.2.1 Definitions de l’analyse des sentiments
Dans la litterature, sentiment analysis, opinion mining, opinion extraction, sentiment
mining, subjectivity analysis, affect analysis, emotion analysis, review mining, appraisal ex-
traction, sont des termes utilises pour designer des technologies d’analyse automatique des
discours, ecrits ou parles, afin d’en extraire des informations subjectives comme des juge-
ments, des evaluations ou des emotions.
L’origine de la discipline l’analyse des sentiments se refere aux des sciences de la psy-
chologie, la sociologie et l’anthropologie [8]. Le terme Analyse Sentimentale se refere a
l’extraction automatique de texte evaluative, qui aide a produire des resultats predictifs. Le
terme analyse de sentiment est apparu en Nasukawa et Yi en 2003 [9], et le terme extraction
de l’opinion terme est apparu dans Dave, Laurent et Pennock en 2003 [10]. Cependant, la
recherche sur des sentiments et des opinions est apparue plus tot dans [11] [12] [13] [14] [15]
[16].
Bing Liu [17] a presente une definition de l’analyse des sentiments comportant les do-
maines d’application ainsi que sa relation avec le TALN : l’analyse des sentiments est le
domaine de l’etude qui analyse les opinions, les sentiments, les evaluations, les attitudes
et les emotions des gens vers des entites telles que des produits, des services, des organ-
isations, des particuliers, des problemes, des evenements, des sujets, et leurs attributs.
Il represente un grand espace de recherche. L’analyse des sentiments est un domaine de
recherche extremement actif en traitement automatique des langues.
Pour mettre en valeur l’interet de l’echange d’opinions dans l’analyse des sentiments, Pang
et Lee en 2008 [18] considere que l’opinion des autres a toujours ete une piece d’information
tres precieuse au moment de se faire une opinion ou de prendre une decision. En effet, avant
l’apparition du Web et l’Internet, les gens avaient interet a connaıtre les opinions de leurs
amis ou de leur famille. Il leur etait demande de faire savoir quel parti politique recevrait
leur voix lors des prochaines elections. Grace a l’essor considerable qu’ont connu le Web et
l’Internet a partir des annees quatre-vingt-dix, il est devenu possible pour tous de consulter
l’opinion d’un vaste groupe de personnes a travers le Web. Donc l’echange d’opinion est la
phase principale qui permet d’effectuer une analyse de sentiment sur un sujet donne.
Selon H Tang et S Tan X la plupart des recherches existantes se sont portees sur la
9
Chapitre 1 PRELIMINAIRES
fouille et l’extraction de faits, par exemple, la recherche d’information, la recherche sur le
Web et beaucoup d’autres. On assiste, ces dernieres annees, a une prise de conscience de
l’importance de l’opinion sur le web, ce qui explique les nombreux et recents travaux dans
ce domaine [19]. Ils montrent l’importance de l’analyse de sentiment dans le temps actuel.
1.2.2 Domaines d’applications de l’analyse des sentiments
L’importance de la detection d’opinion est presente dans plusieurs domaines ainsi plusieurs
applications ont vu le jour dans ce contexte. Nous citons brievement quelques applications
ci-dessous:
1.2.2.1 La politique
Les acteurs politiques ont suivi la tendance de detection d’opinion, tel qu’avant de
promulguer une nouvelle loi, les politiciens essayent de recolter l’avis des internautes sur
cette loi. Il est interessant de connaıtre aussi l’avis des internautes sur un homme politique
pour une election presidentielle [20].
1.2.2.2 Les entreprises
A travers l’analyse des sentiments, les entreprises peuvent connaıtre l’opinion des
clients sur leurs produits ou leur service. Dans une perspective d’ameliorer leurs produits et
d’augmenter leurs chiffres d’affaires [20].
Dans le domaine du Product review mining, notamment a partir des sites de consultation.
Les consommateurs viennent y echanger des avis et trouver des conseils pour leurs decisions
d’achat (produits technologiques, voitures, voyage et hotels, ... etc) [27].
Le marketing a rapidement compris l’interet de l’analyse de sentiment. Des agences
vendent aux entreprises la traque des moindres mots sur leur image, sur leurs produits [21].
1.2.2.3 Les clients
L’analyse des sentiments fait partie aussi de vie des internautes. Les sondages dans ce
domaine montrent que la majorite des clients avant qu’ils achetent un produit, ils font des
recherches d’avis sur se produit ou un service donne et meme ils sont prets a payer plus cher
un produit dont l’avis est plus favorable qu’un autre [20].
10
Chapitre 1 PRELIMINAIRES
1.2.2.4 Gestion de reputation de la marque (GRM)
La gestion de la reputation de la marque en Anglais Brand Reputation Management
(BRM) se preoccupe par la gestion de le reputation de la marque sur le marche. Les opin-
ions des clients ou d’autres parties peuvent endommager ou ameliorer une telle reputation.
la GRM est s’interesse au produit et a l’entreprise plutot qu’au client. Actuellement, un-
a-plusieurs (one-to-many) conversations ont lieu en ligne a un taux eleve. Cela cree des
opportunites pour les organisations a gerer et a renforcer la reputation de leurs marque.
Maintenant, la perception de marque est determinee non seulement par la publicite et les
relations publiques. Les marques sont devenues une somme des conversations a leur su-
jet. L’analyse des sentiments aide a determiner comment la marque, produit ou service de
l’entreprise est percue par la communaute en ligne [22].
1.3 Sources des Donnees
Les opinions des utilisateurs presentent le critere principal pour l’amelioration de la qualite
des services fournis et la mise en valeur des produits livres. Ces opinions se presentent sous
differentes sources de donnees, a savoir, sites d’avis, blog et micro-blog.
1.3.1 Sites d’avis
Les opinions ont le role de decideur pour tout utilisateur durant la phase d’achat.
Les avis generes par les utilisateurs sur les produits et les services sont largement disponibles
sur internet. La classification de sentiment utilise les donnees de l’examinateur collectees a
partir des sites Web tels que :
• www.gsmarena.com (revues de telephone portable).
• www.amazon.com (revues des produits).
• www.CNETdownload.com (revues des produits).
Ces sites accueillent des millions d’avis sur les produits par les consommateurs [24] [25].
11
Chapitre 1 PRELIMINAIRES
1.3.2 Blogs
Un blog est ou les personnes peuvent ecrire les different sujets dans un but de partage avec
d’autres personnes sur le meme site. La simplicite de la creation des postes blogs ainsi que
leur forme libre a rendue le blogging un evenement accessible. La blogosphere nom associe
a l’univers de tous les blogs . Sur la blogosphere, nous trouvons un nombre important de
messages relatif a une panoplie des sujets d’interet. Les blogs sont utilises sources d’opinions
dans la plupart des etudes relatives a l’analyse des sentiments [24] [26].
1.3.3 Micro-blogs
Les micro-blogs sont parmi les outils de communication tres populaires des utilisateurs
d’internet. Chaque jour, des millions de messages apparaissent dans des sites Web populaires
pour les micro-bloging tels que : Twitter , Tumblr , Facebook . Parfois les messages Twitter
expriment des opinions qui sont utilisees comme source de donnees pour classifier le sentiment
[24] [27].
1.4 Twitter
En Mars 2006, Twitter a ete cree par le developpeur Jack Dorsey comme un outil pour
rester en contact avec les amis, Twitter est un service sur le Web qui permet aux utilisateurs
d’envoyer et de lire un message court [28].
1.4.1 Twitter et tweet
Twitter est un reseau social et un microblog qui permet aux utilisateurs de publier
des messages en temps reel, appeles tweets. Les tweets sont des messages courts, limites a
140 caracteres. En raison de la nature de ce service de microblogging (messages rapides et
courts), les gens utilisent des acronymes, commissent des erreurs d’orthographe, utilisent des
emoticones et d’autres caracteristiques qui expriment des significations particulieres [29].
Twitter est actuellement l’un des plates-formes de micro-blogage les plus populaires. Son
premier slogan etait Que faites-vous ? neanmoins l’utilisation a pris une autre piste ou les
utilisateurs echangent des avis et des informations, le slogan devient ” Quoi de neuf ? ”.
Plusieurs celebrites utilisent Twitter, on y trouve meme des chefs d’Etat.
12
Chapitre 1 PRELIMINAIRES
Selon les derniers chiffres 2 :
• Twitter a plus que 645 millions utilisateurs inscrits.
• 58 millions de tweets envoyes chaque jour.
Dans le cadre de l’analyse des sentiments, la petite taille de message formule l’hypothese que
ce message ne renferme pas a priori plus d’une seule idee, ce qui facilite l’identification de
la cible d’une opinion. Mais certains tweets apparaissent comme des messages codes a cause
de l’usage des hashtags, abreviations en tout genre, argot, et emoticons.
Les termes a connaıtre pour bien utiliser Twitter, des vocabulaires specifiques sont utilise
sur Twitter plus couramment[30] :
- Followers : les personnes qui vous suivent.
- Followings : les personnes que vous suivez.
- Friends : les personnes que vous suivez et qui vous suivent.
- Twittos : les utilisateurs de Twitter.
- Tweet : court message.
- Tweeter : envoyer/poster un message.
1.4.2 Caracteristique d’un tweet
On peut se sentir un peu perdu du vocabulaire de la langue dans les tweets, notamment, a
cause du vocabulaire et symboles specifiques a l’utilisation de Twitter. A quoi sert le et # ?
C’est quoi RT? Toutes ces abreviations peuvent paraitre un peu floues. Dans une perspective
de classification, un petit lexique des principaux mots et signes Twitter est presente [31] [32]:
• Mention @ : se presente sous la forme @NomUtilistauer Il cible un utilisateur de
Twitter dans le tweet poste. Exemple : salut a vous de la part de @FredColantonio et
@alinler.
Dans le cadre d’une reponse a un tweet, l’auteur du tweet d’origine est mentionne
automatiquement dans la reponse.
2http://www.statisticbrain.com/twitter-statistics/
13
Chapitre 1 PRELIMINAIRES
• Hashtag # : se presente sous la forme #mot-cle. Il identifie le mot-cle en question
comme important et peut en faire un sujet populaire. Exemple : #gouvernement,
#graphisme ou encore #facebook.
• RT (ReTweet) : se presente sous la forme RT NomUtilisateur. Il permet de partager
le tweet d’un utilisateur. Exemple : RT fredcolantonio Excellent .
• URL (Lien) : se presente sous la forme https:// ou http://www. Twitter permet au
utilisateur de rejoindre les lien dans son tweet. Exemple : https://web.stanford.edu
ou http://www-nlp.stanford.edu/IR-book/.
• VIA : s’utilise pour mentionner votre source d’information, dans votre tweet.
Exemple : Via YouTube, Via Facebook.
14
Chapter 2
ETAT DE L’ART
Les donnees des medias sociaux permettent a l’analyse du sentiment de prendre un
grande espace de recherche.
2.1 Approches de l’Analyse des Sentiments et la Detection
d’Opinions
Dans la litteratures, nous pouvons distinguer trois types d’approches pour la detection
d’opinions et l’analyse des sentiments :
2.1.1 Approches d’apprentissage automatique
Appele aussi approche statistique, cette approche se basee sur l’apprentissage automa-
tique. Elle utilise la technique de classification pour classer le texte en des classes deferentes.
Il existe principalement deux types de techniques d’apprentissage [33]:
2.1.1.1 Apprentissage supervise
Il est base sur les donnees libellees et par consequent, les etiquettes sont fournies au modele
au cours du processus d’apprentissage. Ces donnees libellees sont utilisees par l’algorithme
d’apprentissage pour donner un modele qui sera utilisee lors de la prise de decision.
Certains modeles d’apprentissage automatique ont ete formulees pour classer les tweets en
classes. Les techniques d’apprentissage automatique comme Naıve Bayes (NB), l’entropie
maximale (ME), et les machines a vecteurs de support (SVM) ont donne un grand succes
15
Chapitre 2 ETAT DE L’ART
dans l’analyse des sentiments.
L’apprentissage automatique commence par la collection des donnees d’apprentissage.
Ensuite, on entraine un classificateur sur ces donnees. Une fois une technique de classification
supervisee est selectionnee, une decision importante a faire est la selection des descripteurs.
Ces derniers nous disent comment les documents sont caracterises. Les descripteurs les plus
couramment utilises dans la classification de sentiment sont:
• Presence de termes et leur frequence.
• Information de la partie de discours (POS).
• Negations.
• Mots et des phrases d’opinion.
2.1.1.2 Apprentissage non supervise
Il ne consiste pas d’une classification precise, donc il se base sur le regroupement.
Le succes de ces deux methodes d’apprentissage depend principalement de la selection et
l’extraction de l’ensemble des descripteurs utilises pour detecter le sentiment (la classe), les
algorithmes d’apprentissage non supervises classification hierarchique ascendante, centres
mobiles, regles d’association,... etc.
2.1.2 Approche lexique
Methode basee sur le lexique, elle utilise le dictionnaire des sentiments avec des mots
d’opinion et les faire correspondre avec les donnees pour determiner la polarite. Elle attribue
les scores de sentiment aux mots d’opinion decrivant si les mots sont positifs, negatif ou
neutre.
Les approches fondees sur le lexique reposent principalement sur un lexique de sentiment, a
savoir, une collection de termes de sentiment connue et precompilee, des phrases et meme
des expressions idiomatiques, developpes pour les genres traditionnels de communication,
tels que le lexique OpinionFinder [33].
16
Chapitre 2 ETAT DE L’ART
2.1.3 Approches hybride
Cette approche est appelee aussi classification semi-supervisees. Elles combinent les
points forts des deux approches precedentes. Elles prennent en compte tout le traitement
linguistique des approches symboliques avant de lancer le processus d’apprentissage comme
dans les approches statistiques [27].
2.2 Historique sur l’Analyse des Sentiments
Dans cette partie nous presentons une brief historique de l’analyse des sentiments. Nous
nous somme bases sur l’article [34].
Hatzivassiloglou et McKeown en 1997, travaillaient au niveau de document et utilisaient ”
World Street Journal ” comme source de donnees. leurs travaux se basent sur les conjonctions
et les adjectives et creent un modele de Log Linear Regression. Dans le meme niveau
document Pang et al. en 2002 effectuaient une analyse avec des modeles d’apprentissage
Naıve Bayes (NB), Support Vector Machine (SVM), Maximum Entropy (ME). Il ont utilise
Unigram, bigram, effet contextuel de la negation,et les frequences. Ils ont applique de
tels modeles sur les critiques des films. Nous citons aussi autres travaux sur l’anlyse des
sentiments au niveau documents : Das et Chen en 2001, Turney 2002, Morinaga et al 2002,
Turney et Littman 2003 et Pang et Lee 2004.
Nigam et Hurst a l’annee 2004, travaillaient au niveau des expressions en se basant sur
le lexique des phrases polaires et leurs parties du discours (POS Part Of Speech) avec un
modele base sur des regles syntacsiques en utilisant Usenet message board et autres sources
enligne comme source de donnes. Au niveau des phrase Wilson et al en 2005, developpent
un modele nomme BoosTexter qui s’interesse a la subjectivite lexique avec un corpus de
MQPA. Dans les niveaux de phrase et expression nous pouvons cite aussi Aue et Gamon
a l’annee 2005, les descripteurs utilises sont les termes lematises, leur frequences et poids,
Popescu et Etzioni en 2005, proposent un modele de dependance syntaxique qui se bases sur
les conjonctions et disjonctions de WordNet, Cesarano en 2006, mis en jeux les modeles sur
POS et N − grams.
Hu et Liu en 2005, developpaient un modele d’extraction d’opinions a base de mots et
extension d’aggregation avec WordNet. les descripteurs utilises sont les mots d’opinion et
les phrases d’opinions. Ils utilisaient Cnn.net de Amazon comme source de donnes. En
17
Chapitre 2 ETAT DE L’ART
2007 Godbole et al, ont developpe un modele lexicale a base de WordNet. Il ont utilise
des descripteurs qui se basent sur des mesures de distance dans le graphe entre les mots
en tenant compte les relations de synonymie,anonyme, commun des mots. les sources de
donnees utilisees sont les journaux et les les publications.
Ferguson et al a l’annee 2009, utilisaient les articles de blog financiers comme source de
donnees pour creer un modele Multinomial Naıve Bayes (MNB) en manipulant des vecteurs
binaires des descripteurs au niveau des phrases.
Au niveau des mots, Melville et al en 2009, effectuaient une classification bayesienne avec
les lexiques et documents d’apprentissage en utilisant les posts des blogs, site des avis, des
blogs politiques et des critiques des filmes.
Concernant l’analyse des sentiments sur Twitter, Pak et Paroubek en 2010, Barbosa et
Feng a l’annee 2010, ont travaille au niveau des phrases des messages Twitter. Les premiers
auteurs utilisent les N − gram et POS − tags comme des descripteurs avec le classificateur
MNB, tandis que les derniers utilisent les retweets, hashtags, liens et le point ponctuations
en conjonction avec les descripteurs comme les polarites a prioris des mots ainsi que les POS
de mots pour creer le modele SVM.
2.3 Travaux sur L’Analyse des Sentiments avec Twit-
ter
Pour presenter les recherches sur l’analyse des sentiments avec Twitter; nous considerons
trois categories a savoir, Classification de sentiments, Prediction des resultats, Detection des
evenements.
2.3.1 Classification de sentiments
Twitter est un moyen de publication les avis et les opinions dans divers domaines.
En 2009 [35]developpent une application qui s’appelle twitter sentiment
(http://twittersentiment.appspot.com/). Cette application determine la polarite de tweet
positif ou negatif, les auteurs testent trois types d’algorithmes sur les tweets Naıve Bayes
(NB), Maximum Entropy (ME) et Support Vector Machine (SVM). Ces trois methodes
ont montre des resultats similaires, entre 80% et 83% de reussite quant a la prediction de
sentiment (positif ou negatif) par rapport aux messages publies. Les auteurs appliquent un
18
Chapitre 2 ETAT DE L’ART
pretraitement aux donnees de Twitter utilisent des emoticones etiquettes.
Barbosa et Feng en 2010 [36] [37] ont rapporte une methode d’analyse de sentiment en
deux etapes pour twitter en utilisant des donnees d’entrainement contenant du bruit. Ils ont
classifie les tweets pour la premiere fois en deux clases subjectif (polaire) et objectif (non
polaire). Ils ont la methode SVM, des donnees d’entrainement rassemblees de trois sites Web
(twendz , twittersentimen , tweetfeel ). Ils se sont focalises sur l’utilisation des descripteurs
plus abstraits au-dela des N−gram simples tels que des meta-descripteurs et des descripteurs
syntactiques de tweet. Les meta- descripteurs incluent POS − tag, la subjectivite et la
polarite anterieure des mots a base de dictionnaire, les expressions negatives. Les descripteurs
de syntaxe de tweet incluent le retweet, hashtag, reponse, hyperliens, ponctuation, symboles
d’expression d’emotion, aussi bien que des majuscules. Ces descripteurs se sont averes plus
robustes que des N − gram.
2.3.2 Prediction des resultats
Ces travaux traitent la prediction des resultats a partir des messages publies dans Twitter :
En 2010 Lampos et Cristianini [38] developpent un outil de surveillance pour depister des
modeles ILI (Influenza-like Illness) en utilisant des donnees Twitter specifiques de la region
Britanniques. Des tweets contenant des mots cles symptome-connexes ont ete rassembles
pendant 6 mois pendant 2009 avec Une moyenne quotidienne de 160.000 tweets. Ces
donnees, converties en mesures score-grippe (flu-score), ont ete comparees aux rapports
H1N1 hebdomadaires de l’agence de protection sanitaire. Le score de resultant est fortement
correle avec les rapports (> 95%). Cette methode fonctionne independamment de la langue,
peut determiner des rapports auto-diagnostiques dans les tweets, et la serie chronologique
d’utilisations geolocalisees des donnees.
En 2010, une analyse des series chronologiques est appliquee au sondage d’opinion publique
politique aux messages Twitter qui ont mentionne le president Barrack Obama [39]. Les au-
teurs employaient le logiciel qui a mesure le sentiment dans les messages de Twitter, pour
comparer le sentiment public d’Obama aux sondages d’opinion publique collectes tradition-
nellement. Les auteurs ont conclu que Twitter est une mesure fiable de l’opinion publique
[40].
Sakaki,Okazaki,et Matsuo en 2010 [41] [42] ont essaye de detecter les tremblements de
terre de l’information generee par les capteurs sociaux representes par les utilisateurs de twit-
19
Chapitre 2 ETAT DE L’ART
ter. En utilisant le modele a la fois temporelle et geo-spatiale, les auteurs ont demontre que
les tweets pourraient etre utilise pour predire les tremblements de terre quelques instants
apres qu’ils se produisent et meme de predire l’emplacement d’un tremblement de terre.
De meme, les auteurs montrent qu’il est possible de predire la trajectoire des ouragans en
utilisant tweets generes par la region affectee.
2.3.3 Detection des evenements
Twitter constitue un excellent moyen pour diffuser des informations, pour discuter des
evenements et pour donner des avis.
A partir du message publie sur Twitter on peut detecter un evenement.
En l’annee 2011 Weng et Lee [43] s’interessent a la detection d’evenement sur Twitter en
analysant le contenu des tweets publies dans la plateforme. Ils ont introduit une structure
nomme EDCoW (Event Detection with Clustering of Wavelet-based Signals). Dans EDCoW,
le signal de chaque mot est calcule en appliquant l’analyse en ondelettes sur la frequence
des signaux bruts des mots. En considerant l’autocorrelation des signaux correspondants,
les mots sans importance sont supprimes. Les mots restants sont ensuite regroupes pour
construire des evenements avec une technique graphique. Sur la base de leur experimentation,
les auteurs affirment que EDCoW atteint une bonne performance dans l’etude.
Ozdikis et al en 2012 [44] proposent une methode de detection d’evenements sur Twitter
en se base sur le regroupement de hashtag, le symbole # est utilise pour marquer des mots-
cles ou sujets dans twitter, et l’expansion semantique aux vecteurs de message. Pour chaque
hashtag, les trois hashtags sontles plus similaires sont extraits en utilisant la similitude
cosinus. Un vecteur de tweet avec un seul hashtag est elargi avec trois hashtags similaires,
puis utilise dans le processus de regroupement. Cependant, en utilisant uniquement les
messages avec un seul hashtag peut conduire a ignorer certains evenements importants. En
outre, ils surent un evenement ou non En outre, ils ne mettent pas aucun filtre de credibilite
pour decider si un tweet est un evenement ou non.
20
Chapitre 2 ETAT DE L’ART
2.4 Difficultes de la Fouille d’opinions et de l’Analyse
des Sentiments
L’extraction du sentiment ou d’opinion consiste a determiner la polarite d’un tel opinion.
Cette derniere est en general peut etre positive (pour decrits une opinion favorable), negative,
ou neutre. Dans ce qui suit nous citons quelques difficultes de cette procedure [20] [21] [23].
- Ambiguıte de certains mots positifs ou negatifs selon les contextes et qui ne peut pas
toujours etre levee.
- Difficulte due aux structures syntaxiques et semantiques d’une phrase et l’expression
de l’opinion qu’elle vehicule. Par exemple ” l’histoire du film est interessante mais les
acteurs etaient mauvais ”. Dans ce cas la polarite de la deuxieme partie est opposee a
la premiere.
- Difficulte due au contexte : la necessite d’une bonne analyse syntaxique du texte ;
analyse qui peut se reveler particulierement difficile dans des cas de coordination entre
plusieurs parties d’une phrase. Par exemple ”ma tonte a bien prepare le gateau, son
decor est bonne mais je n’ai pas aimee le gout”, l’opinion de la derniere partie de la
phrase est la plus importante.
- Difficulte due a l’analyse de la phrase par ” paquets de mots ”. Les deux phrases
suivantes contiennent les memes paquets de mots sans pour autant exprimer les memes
sentiments. La premiere phrase contient un sentiment positif alors que la deuxieme
est negative : ” Je l’ai apprecie pas seulement a cause de ...”, ” Je l’ai pas apprecie
seulement a cause de ... ” ou se presente la gestion de negation.
21
Chapter 3
EXPERIMENTATION :
APPRENTISSAGE ET TEST
Comme de coutumes des travaux d’apprentissage, notre experimentation passe par les
deux phases d’apprentissage et de test, tel que illustre par la Figure 3.1. Neanmoins, avant
d’entrer dans les details, nous decrivons d’abord notre environnement de travail.
Figure 3.1: Processus de l’apprentissage automatique
3.1 Environnement de Travail
D’abord, nous donnons une description de l’environnement de notre experimentation :
22
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
3.1.1 Environnement materiel
Afin de mener notre experimentation et evaluation, nous avons utilise un PC marque HP
Pavilion, equipe d’un processeur multi-core I3, cadence par une horloge d’une frequence de
2.40GHZ, avec 4 GO Octets de RAM, un disque dur d’une capacite de 400 Giga Octets.
3.1.2 Environnement logiciel
Nous avons utilise le langage de programmation Python. Python est un langage de
programmation portable, dynamique, extensible, gratuit, qui permet (sans l’imposer) une
approche modulaire et orientee objet de la programmation. Python est developpe depuis
1989 par Guido van Rossum et de nombreux contributeurs benevoles.
pour ce la nous avons utilise l’environnement de developpement Spyder (Scientific PYthon
Development EnviRonment)qui est un IDE oriente vers un usage scientifique de Python.
Pour se focaliser sur notre experimentation et tirer profit des puissance du langage Python,
nous avons utilise les packages suivants :
• Package CSV : CSV (Comma Separated Values) module pour lire et ecrire des donnees
au format CSV.
• Package re : (Regular expressions) Ce module fournit des operations correspondant
aux expressions regulieres.
• Package numpy : numpy (NUMeric Python) est une bibliotheque numerique apportant
le support efficace de larges tableaux multidimensionnels, et de routines mathematiques
de haut niveau (algebre lineaire, statistiques, .. etc.).
• Package Nltk : Nltk (Natural Language Toolkit) est une plate-forme pour la creation
de programmes Python pour travailler avec des donnees de langage humain.
• Package Sklearn : est un module en Python pour l’apprentissage automatique.
Il est a noter qu’un bon point de depart pour le developpement d’un module d’analyse
des sentiments sur Twitter se trouve dans [45]
23
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
3.2 Phase d’Apprentissage
La phase d’apprentissage comporte le pretraitement des donnees d’apprentissage ainsi
que l’extraction et la presentation de descripteurs :
3.2.1 Source des donnees (Data set)
Nous avons utilise l’ensemble des donnees des tweets etiquete par Niek Sanders a partir du
site Sanders Analytics 1. Il se presente sous forme d’un fichier d’extension (.csv) contenant
5113 tweets etiquetes manuellement. Cet ensemble de donnees comporte quatre classes des
sentiments, a savoir positive, negative, neutre et hors du sujet.
Il traite quatre differents sujets Apple, Google, Microsoft et Twitter. Chaque entree de notre
ensemble de donnees est structure comme suit :
• Tweet id : un identifiant du tweet.
• Tweet texte : il contient le texte du tweet publie par l’utilisateur.
• TweetDate : date de publication du tweet.
• Topic : le sujet du tweet (Apple, Google, Microsoft ou Twitter).
• Sentiment : Etiquette du tweet, qui peut etre(”positif”, ”negatif”, ”neutre” ou ”hors
de sujet”).
La repartition des donnees selon leurs sujets et leurs sentiments est illustre dans le
Tableau 3.1 :
Sujet Positif Neutre Negatif Hors de sujet
Apple 191 581 377 164
Google 218 604 61 498
Microsoft 93 671 138 513
Twitter 68 647 78 611
Table 3.1: Description du corpus Niek Sanders
1http://www.sananalytics.com/lab/twitter-sentiment/
24
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
Pour assurer un bon apprentissage nous devons imposer un ordre aleatoire au corpus comme
montre dans le code algorithme 3.
Algorithm 3 Fonction getData pour recupere le corpus
def getData(corpus):
fp = open(corpus , ’rb’ )
reader = csv.reader( fp, delimiter=’,’, quotechar=’”’, escapechar=’ // ’ )
csvv = islice(reader, 1, None, None)
tweets = []
for row in csvv:
t= row[4]
sentiment= row[1]
tweets.append([t, sentiment]);
random.shuffle( tweets );
return tweets
3.2.2 Pretraitement
Nous avons deja aborde dans la Section 1.4.2 les caracteristiques des tweets qui se
resume en general dans les longueurs limitees et l’utilisation d’un langage informel. Ainsi,
l’utilisateur de Twitter utilise des abreviations, des emoticons, et des argots pour exprimer
ses opinions et ses sentiments. Par consequence une etape de pretraitement est indispens-
able.
Dans ce qui suit nous allons presenter la procedure de pretraitement suivie dans notre travail,
dont le but de cette etape est de nettoyer les tweets et leur rendre le plus proche possible a
un langage formel.
D’abord nous avons commence par le filtrage de tweets, en ne considerant que ceux ecrit
en langue anglaise. Car un corpus de differents langages est un corpus qui contient du bruit.
Pour se faire nous avons utilise une bibliotheque dans Python SentiWordNet qui se referer
a le package nltk.
Pour assurer une correspondance entre le langage informel des emoticons et des abreviations,
nous avons cree deux dictionnaires (Table 3.2).Ces dictionnaire sont crees sur la base des
25
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
ressources23 qui fonctionnent avec les tweets.
# positive emoticons
”<3”: ” pretty ”,
”:d”: ” pretty ”,
”:D”: ” pretty ”,
”:-)”: ” pretty ”,
”:=)”: ” pretty ”,
”=)”: ” pretty ”,
”:)”: ” pretty ”,
”;)”: ” pretty ”,
# negative emoticons:
”:/”: ” sad ”,
”:>”: ” sad ”,
”:’)”: ” sad ”,
”:-(”: ” awful ”,
”:(”: ” awful ”,
”:S”: ” awful ”,
”:-S”: ” awful ”,
#Abvrevioation
”2”: ”To”
”AKA”: ”Also known as”
”AOL”: ”America Online”
”AP”: ”Associated Press”
”app”: ”Application”
”ASL”: ”Age, sex, location”
”ATM”: ”At the moment”
”b/c”: ”Because”
”b/w”: ”Between”
”b4”: ”Before”
”bf”: ”Boyfriend”
”BFF”: ”Best friends forever”
”gf”: ”Girlfriend”
”GJ”: ”Good job”
Table 3.2: A gauche -Emoticons Positive & negative-, a droite -Abreviaton en Anglais-
Par ailleurs nous avons utilise une liste de formes contractees se presente dans le Tableau
3.3 pour rendre quelque mots ou groupe des mots plus clair.
2http://slangit.com/terms/common3http://slangit.com/emoticons/common
26
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
Forme contractee Forme non contractee
Won’t Will not
Can’t Can not
I’m I am
Isn’t Is not
‘ll will
‘ve have
‘re are
‘d would
Table 3.3: Les formes contractes
Une fois les dictionnaires crees nous avons procede a un pretraitement qui suit les etapes
suivantes :
1- Remplacer les emoticons : en utilisant le dictionnaire des emoticons.
2- Remplacer les abreviations : en utilisant le dictionnaire des abreviations.
3- Supprimer les identifiants des utilisateurs (USER) : nous avons utilise l’expression
reguliere ′@[\ s]+′ pour detecter les mots qui representent les identifiants des utilisa-
teurs Twitter dont le signe il le faut detecter.
4- Supprimer les liens web (URL) : nous avons utilise l’expression reguliere ‘((www \ .[ \s]+)|(https? : //[\ s]+))′ pour detecter les liens des sites cite dans le tweet.
5- Supprimer les Hashtags (TAG) : nous avons utilise l’expression reguliere r′#([ \ s]+)′
pour detecter les mots cle (sur des sujet precis) dans le tweet.
6- Eliminer les caracteres repetes : nous avons elimine les repetitions des caracteres dans
les mots comme ( coooool : cool, hhhhhhh :hh) que l’utilisateur l’utilise pour affirmer
et assurer le sens.
7- Supprimer les chiffres : il faut supprimer les chiffres qui n’ont aucun impact sur la
classification.
8- Eliminer les commandes VIA, RT : Twitter possede son propre vocabulaire et fonc-
tions, il y’a les commande VIA et RT indique que le tweet a ete rediffuse par un
27
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
autre utilisateur, nous les avons elimine a cause de son influence negligeable sur la
classification.
9- Eliminer les ponctuations : les utilisateurs utilisent dans leurs tweets beaucoup de
ponctuations qui n’ont pas une importance dans notre classification, donc il a ete
mieux de les eliminer dans cette phase.
10- Supprimer les mots vides (Stop-words), nous avons utilise les mots vides en langue
Anglaise predefinies dans le package nltk.corpus.
Le Tableau suivant 3.4 donne quelques exemples de tweets avant et apres le pretraitement:
28
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
Tweets avant pretraitement Tweets apres traitement
- Thank you to everyone who made this Eu-
rope 2016 tour possible :) !
- thank you to everyone who made this europe
tour possible pretty
- thank you so much for teaching us values on
Twtr. I am waking up :o3 at 4am for the last
2 wks. Salute sir!
- thank you so much for teaching us values on
twiitr i am waking up ordinary at am for the
last weeks salute sir
- I don’t lurk cause I don’t care anymore - i do not lurk cause i do not care anymore
- @DZfoot @Mahrez22 @algeria #Fearless-
Foxes Makes me believe in dreams. ..legend
vive Dz
- makes me believe in dreams legend vive dz
- Hey guys wish you had a super doper day ..
¡3 ¡3 i’m here in @algeria and it’s hot day. ..
- hey guys wish you had a super doper day
heart heart i am here in and it is hot day
- Find jobs in Algeria
https://www.bayt.com/en/algeria/ via
@Baytcom
- find jobs in algeria
- DUUUUUUDE HHHHHH THIS IS
COOOOOL O:-)
- duude hh this is cool pretty
- WHY WOULD YOU DO THIS :/ !?!?! - why would you do this sad
- MAY2016 (08) RT this to enter our
£20.00 Amazon voucher #competition
(T&C on web) http://grandslam.uk.com via
@GrandSlamEvents
- this to enter our amazon voucher on web
Table 3.4: Tweets avant et apres le pretraitement
3.2.3 Extraction et presentation des descripteurs
Dans cette etape, nous considderons les termes restant apres l’etape de pretraitement
comme descripteurs. Nous avons recensai 4002 descripteurs. Ces descrepteurs ont un role
important pour la classification des sentiments.
Pour realiser l’operation d’apprentissage, nous avons propose deux represetation : le
modele booleen et le modele de ponderation TF-IDF.
le modele booleen considere un document d est represente sous forme d’un vecteur
29
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
booleen. Ce vecteur est l’ensemble des descripteurs, chaque descripteur peut prendre une
valeur 0(faux) si le terme n’existe pas dans le document, ou 1 (vrai) sinon. La representation
d’un document dans le modele booleen se presente comme suit: d = (1, 0, 0, 0, 1, 1, 0, 0...).
Tandis que le modele de poderation TF-IDF (Term Frequency – Inverse Document Fre-
quency) dans le modele vectoriel un document est represente sous forme d’un vecteur dans un
espace engendre par tous les termes d’indexation. La dimension de cet espace est le nombre
de termes d’indexation de la collection de document. Les coordonnees d’un vecteur docu-
ment sont les poids des termes d’index dans ce document, est donne un poids plus important
aux mots caracteristiques d’un document presente ce forme d = (w1, w2, w3, ..., wn). Dans,
un premier temps, il est necessaire de calculer la frequence d’un terme (Term Frequency).
Celle-ci correspond au nombre d’occurrences de ce terme dans le document considere. Ainsi,
pour le document dj et le terme ti, la frequence du terme dans le document est donnee par
l’equation suivante :
TFi,j =ni,j∑k nk,j
(3.1)
• ni,j: est le nombre d’occurrences du terme ti dans dj.
• sumknk,j: est le nombre de termes dans le document.
La frequence inverse de document (Inverse Document Frequency) mesure l’importance du
terme dans l’ensemble du corpus. Elle consiste a calculer le logarithme de l’inverse de la
proportion de documents du corpus qui contiennent le terme. Elle est definie de la maniere
suivante:
IDFi = log2
|D||dj : ti ∈ dj|
(3.2)
|D| represente le nombre total de documents dans le corpus et | dj : ti ∈ dj | est le nombre
de documents dans lesquels le terme ti apparaıt. Enfin, le poids s’obtient en multipliant les
deux mesures :
TF − IDFi,j = TFi,j ∗ IDFi (3.3)
30
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
3.2.4 Apprentissage
Notre demarche d’analyse de sentiments s’inscrit dans l’approche d’apprentissage au-
tomatique supervise. Nous avons utilise l’algorithme d’apprentissage Naıve Bayes qui sera
utilise dans l’etape de prediction.
concernant le cote implementation, nous avons utiliser l’implementation de Naıve Bayes
d’apres sklearn.naive bayes du package Sklearn mentionne dans la section 3.1.2, l’appel du
classifieur pour l’apprentissage se fait par le biais du code algorithme 4.
tel que:
Algorithm 4 Appelle et entrainement du classifieur NB
- NBClassifier MultinomialNB() # Appelle du clssifieur
- NBClassifier.fit(X vec train, y train) # Entrainement du classifieur
• X vec train est les tweets d’ensemble d’apprentissage
• y train est les sentiments d’ensemble d’apprentissage
3.3 Phase de Test et Interpretation
Apres la phase d’apprentissage, nous passons a la phase de test pour evaluer notre
classifieur.
Pour la validation des performances, nous utilisons la methode 80% 20% pour valider notre
modele , telle que 80% utilise dans la phase d’apprentissage, et 20% pour la phase de test.
les mesures de performance utilisees sont la precision, le rappel et le F1-mesure dont leurs
bases de calcul se fait par rapport a la Table 3.5 :
Predictive
ReelPoitive Negative
Positive VP FP
Negative FN VN
Table 3.5: Table de confusion
31
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
Avec :
VP : Vrai Positif
FP : Faux Positif
VN : Vrai Negatif
FN : Faux Negatif
Tel que les mesures que nous avons etudie sont presentes dans les formules suivantes :
Precision = VP/(VP + FP) : Proportion d’elements bien classes pour une classe donnee.
Rappel = VP/(VP + FN) : Proportion d’elements bien classes par rapport au nombre
d’elements de la classe a predite.
F1-mesure = 2 * Precision * Rappel/(Precision + Rappel) : Mesure de compromis entre
precision et rappel.
3.3.1 Presentation des resultats et discussion
La Table 3.6 montre les resultats du classifieur pour le modele de presentation booleenne :
Classifieur Precision Rappel F1-mesure Support
Positive 0.43 0.31 0.36 107
Negative 0.57 0.51 0.54 126
Neutre 0.70 0.69 0.69 494
Hors du sujet 0.76 0.87 0.81 341
Avg/ Total 0.68 0.69 0.68 1023
Table 3.6: Resultats du classifieur en methode booleenne
32
Chapitre 3 EXPERIMENTATIONS ET INTERPRETATIONS
La Table 3.7 montre les resultats du classifieur pour le modele de ponderation TF-IDF:
Classifieur Precision Rappel F1-mesure Support
Positive 0.44 0.30 0.35 94
Negative 0.55 0.41 0.47 110
Neutre 0.73 0.88 0.79 494
Hors du sujet 0.92 0.79 0.85 325
Avg/ Total 0.74 0.75 0.74 1023
Table 3.7: Resultats du classifieur en methode de ponderation TF-IDF
Selon les resultats obtenus, il est claire que le classifieur pour le modele de ponderation
TF-IDF avec un F1- mesure de 0.74 est meilleur que claire que le classifieur pour le modele
booleen avec un F1- mesure de 0.68.
Ceci peut s’interpreter par l’influence positive de l’aspect semantique sur la qualite du
classifieur. Nous croyons que l’implication d’autres aspects linguistiques de negation, type
de mots (sujet, verbe, adjectifs. . . ) peuvent ameliorer le processus d’analyse des sentiments.
Ceci dit, il existe d’autres algorithmes d’apprentissage automatiques appliques a l’analyse
des sentiments Twitter. A titre d’exemple SVM Seport Vector Machine et ME Maximum
Entropy, .. etc, qui meritent d’etre etudies et compares si l’espace de temps le permet.
33
CONCLUSION
L’analyse des sentiments se refere a l’extraction automatique de texte evaluative, qui
aide a produire des resultats predictifs. Dans ce memoire nous avons etudie les differents
approches d’analyse des sentiments en particulier celles appliquees sur les donnees Twitter.
Nous avons implemente la methode probabiliste Naıve Bayes en considerant modeles de
representations de donnees, a savoir, les modeles booleen et celui utilisant une ponderation
TF-IDF. L’experimentation conduite sur l’ensemble de donnee Sanders Analytics revelent
que la representation semantique TF-IDF donne de meilleurs resultats en terme de precision,
rappel et F-mesure.
Ceci etant dit, il faut noter que l’environnement materiel utilise est relativement limite.
Par consequent nous n’avons pas pu conduire nous experimentations sur des corpus de tailles
importantes. En plus, cette limite nous a prive d’utiliser des methodes de validation plus
sophistiquees de l’approche implementee. Par ailleurs, le temps octroye pour notre memoire
ne nous a pas permis d’explorer d’autres methodes de l’analyse des sentiments telles que la
methode de Support Vector Machine (SVM), Maximum Entropy (ME).
En fin nous conjecturons que l’implication d’autres aspects linguistiques de negation, type
de mots (sujet, verbe, adjectifs. . . ) peuvent ameliorer le processus d’analyse des sentiments.
34
Bibliographies
[1] Risson Romain, les reseaux sociaux : Facebook,Twitter ,Linkedln, Viadeo, Google+:
comprendre et maitriser ces nouveaux outils de communication, 2011.
[2] Serge Proulx, Melanie Millette et Lorna Heaton Medias sociaux: enjeux pour la
communication. Presse de l’Universite du Quebec, 2011.
[3] Andreas M. Kaplan et Michael Haenlein Users of the world, unite! The challenges
and opportunities of Social Media. Paris, France .ESCP Europe, 2010.
[4] Bouillon Pierrette Traitement automatique des langues naturelles, paris, bruxelle
1998.
[5] Kumar Ela Natural Language Processing, India,I.K.International Publishing
House Pvt. Ltd 2011.
[6] Jean Veronis Natural Language Processing, URL : http://sites.univ-
provence.fr/veronis, 2001.
[7] Daniel Jurafsky et James H. Martin Speech and Language Processing, 2015.
[8] Meena Rambocas and Jo?o Gama Marketing Research : The Role of Sentiment
Analysis, FEP Economics and Managment, 2013.
[9] Nasukawa, Tetsuya et Jeonghee Yi Sentiment analysis: Capturing favorability
using natural language processing, Knowledge Capture, 2003.
[10] Kushal Dave, Steve Lawrence and David M. Pennock Mining the peanut gallery:
Opinion extraction and semantic classification of product reviews, 2003.
[11] Sanjiv R. Das et Mike Y. Chen Yahoo! for Amazon: Extracting market sentiment
from stock message boards,2001.
35
References
[12] Satoshi Morinaga,Kenji Yamanish,Kenji Tateishi,and Toshikazu Fukushima
Mining product reputations on the web,Proceedings of the eighth ACM SIGKDD
international conference on Knowledge discovery and data mining, New
York, NY, USA, 2002.
[13] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, Thumbs up?: sentiment classi-
fication using machine learning techniques, Proceedings of the ACL-02 conference
on Empirical methods in natural language processing - Volume 10,Strouds-
burg, PA, USA 2002.
[14] R. M. Tong An operational system for detecting and tracking opinions in on-line dis-
cussion, In Working Notes of the ACM SIGIR 2001 Workshop on Operational
Text Classification 2001.
[15] Peter D. Turney, Thumbs up or thumbs down?: semantic orientation applied to
unsupervised classification of reviews, Proceedings of the 40th Annual Meeting
on Association for Computational Linguistics, Stroudsburg, PA, USA, 2002.
[16] Janyce Wiebe, Learning Subjective Adjectives from Corpora,Proceedings of the
Seventeenth National Conference on Artificial Intelligence and Twelfth Con-
ference on Innovative Applications of Artificial Intelligence, 2000.
[17] Bing Liu, Opinions, Sentiment, and Emotion in Text,Cambridge University Press,
2015.
[18] Bo Pang and Lillian Lee, Opinion Mining and Sentiment Analysis,Now Publishers
Inc, 2008.
[19] Huifeng Tang, Songbo Tan and Xueqi Cheng, A survey on sentiment detection
of reviews,Information Security Center, Institute of Computing Technology,
Chinese Academy of Sciences, Beijing 100080, PR China, 2009.
[20] Faiza Belbachir, Experimentation de fonctions pour la detection d’opinions dans les
blogs, Universite de Paul Sabatier, Institut de Recherche en Informatique de
Toulouse 2010.
[21] Dominique Boullier et Audrey Lohard, Opinion mining et Sentiment analysis:
Methodes et outils, 2012.
36
References
[22] Mr. Saifee Vohra et Prof. Jay Teraiya, Applications and Challenges for Senti-
ment Analysis : A Survey, International Journal of Engineering Research & Technology
(IJERT), 2013.
[23] Sigrid Maurel, Paolo Curtoni et Luca Dini, L’analyse des sentiments dans les
forums, CELI France, SAS.
[24] Arti Buche, Dr. M. B. Chandak and Akshay Zadgaonkar, Opinion mining
and analysis:a survey, International Journal on Natural Language Computing
(IJNLC), India 2013.
[25] G.Vinodhini and RM.Chandrasekaran, Sentiment Analysis and Opinion Mining:
A Survey,International Journal of Advanced Research in Computer Science
and Software Engineering ,India 2012.
[26] Vivek Kumar Singh and Debanjan Mahata, A clustering and opinion mining
approach to socio-political analysis of the blogosphere, Computational Intelligence
and Computing Research (ICCIC), 2010 IEEE International Conference on
2010.
[27] Alexander Pak and Patrick Paroubek, Twitter as a Corpus for Sentiment
Analysis and Opinion Mining, Universit´e de Paris-Sud, Laboratoire LIMSI-
CNRS,France 2010.
[28] Matthew Eric Glassman, Jacob R. Straus and Colleen J. Shogan, Social Net-
working and Constituent Communications: Members Use of Twitter and Facebook Dur-
ing a Two-Month Period in the 112th Congress,Congressional Research Service,
2009.
[29] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca Passon-
neau, Sentiment analysis of Twitter data, LSM 11 Proceedings of the Workshop
on Languages in Social Media,2011.
[30] Laurent Dijoux, Boostez votre business avec Twitter,Almabic, 2009.
[31] Fred Colantonio, Communication professionnelle en ligne: comprendre et exploiter
les medias et reseaux sociaux,Edipro, 2011.
37
References
[32] Tim O’Reilly and Sarah Milstein, The Twitter Book, 2012.
[33] Vishal A. Kharde and S.S. Sonawane, TSentiment Analysis of Twitter Data: A
Survey of Techniques,International Journal of Intelligent Systems and Appli-
cations(IJISA), 2016.
[34] Prem Melville, Wojciech Gryc and Richard D. Lawrence, Sentiment analysis
of blogs by combining lexical knowledge with text classification ,KDD 09 Proceedings
of the 15th ACM SIGKDD international conference on Knowledge discovery
and data mining, 2009.
[35] Alec Go, Richa Bhayani and Lei Huang, Twitter sentiment classification using
distant supervision, 2009.
[36] Luciano Barbosa and Junlan Feng, Robust sentiment detection on Twitter from
biased and noisy data, COLING 10 Proceedings of the 23rd International Con-
ference on Computational Linguistics: Posters, 2010.
[37] Yiannis Kompatsiaris, Bernard Merialdo and Shiguo Lian, TV Content Anal-
ysis: Techniques and Applications, CRC Press, 2011.
[38] Vasileios Lampos and Nello Cristianini , Tracking the flu pandemic by monitoring
the Social Web.
[39] Brendan O’Connor, Ramnath Balasubramanyan, Bryan R. Routledge et
Noah A. Smith , From Tweets to Polls: Linking Text Sentiment to Public Opin-
ion Time Series, the International AAAI Conference on Weblogs and Social
Media, 2010.
[40] Laura Robinson, Shelia R. Cotton et Jeremy Schulz, Communication and
Information Technologies Annual: Politics and Participation, Emerald, 2015.
[41] Yelena Mejova, Ingmar Weber et Michael W.Macy, Twitter: A Digital Socio-
scope, Cambrdige University Press, 2015.
[42] Takeshi Sakaki, Makoto Okazaki et Yutaka Matsuo, Earthquake shakes Twitter
users: real-time event detection by social sensors, WWW 10 Proceedings of the
19th international conference on World wide web, 2010.
38
References
[43] Francis Harvey et Yee Leung, Advances in Spatial Data Handling and Analysis:
Select Papers from the 16th IGU Spatial Data Handling Symposium, Springer, 2015.
[44] Basant Agarwal et Namita Mittal, Prominent Feature Extraction for Sentiment
Analysis, Cham Heidelberg New York Dordrecht London, 2013.
[45] Willi Richert et Luis Pedro Coelho, Building Machine Learning Systems with
Python, Packt Publishing Ltd., Birmingham B3 2PB, UK, 2013.
39