1collecte, analyse et valorisation de bigdata textuelles multilingues
TRANSCRIPT
![Page 1: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/1.jpg)
1
Collecte, analyse et valorisation de Big data textuelles multilingues
![Page 2: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/2.jpg)
2
Agenda
• Les fonds documentaires nécessitent de dépasser la barrière des langues
• Collecte multilingue sur le web
• Analyse sémantique de Big data textuelles
• Retours d'expériences concrets
• Comment analyser rapidement un ensemble de marchés, de thématiques, d'articles de presse et de technologies
• Et dans la plupart des langues existantes
François-Régis Chaumartin
CEO
Claudede Loupy
CEO
![Page 3: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/3.jpg)
3
Big data textuelles20% 80%
![Page 4: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/4.jpg)
4
Big data textuelles
Aider les décideurs àfaire les bons choix
Etudes & analyses
Informations
Données
Data mining
Text mining
Volume, Vélocité, Variété… Verbatim
Données internes Web mining
Text mining
Web mining
![Page 5: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/5.jpg)
5
Proxem
![Page 6: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/6.jpg)
6
Proxem
Grands comptes &
ETI
Instituts de sondages
Cabinets d’études
Editeurs de logiciels, SSII, Acteurs du
web
• Interroger le marché, rapidement, à faible coût et de façon autonome
• Évaluer un produit lancé il y a 2 jours
• Industrialiser et mieux rentabiliser les études historiques• Réaliser des études inaccessibles jusqu’alors
• Déployer des fonctionnalités sémantiques supplémentaires
(moteurs de recommandation…)
![Page 7: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/7.jpg)
7
Proxem
![Page 8: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/8.jpg)
8
Cas client Minelli
Comprendre les attentes des
consommateurs
Disposer de prédictions
fiables
Identifier le futur ambassadeur
Web 2.0
Analyser forces et faiblesses de la
concurrence
![Page 9: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/9.jpg)
9
Cas client Minelli
• Pour les transformer en produits et services adaptés• Pour comprendre les points forts de la concurrence
Comprendre les attentes des
consommateurs
• Identifier un produit attendu par le marché• Diminuer l’attrition client
Augmenter le CA
• Anticiper les bad buzz sur les réseaux sociaux, le risque sanitaire, le risque juridique…Diminuer les risques
![Page 10: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/10.jpg)
10
Cas client Minelli
![Page 11: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/11.jpg)
11
Cas client Minelli
Top 100 blogueusesd’influencesur la modeen France
7 632
4 272 amiswww.punky-b.com
![Page 12: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/12.jpg)
12
Processus général
![Page 13: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/13.jpg)
13
![Page 14: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/14.jpg)
14
![Page 15: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/15.jpg)
15
![Page 16: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/16.jpg)
16
![Page 17: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/17.jpg)
17
![Page 18: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/18.jpg)
18
![Page 19: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/19.jpg)
19
![Page 20: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/20.jpg)
20
Processus général
![Page 21: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/21.jpg)
21
De quoi parle-t-on ?
• Entités nommés du domaineorganisées d’une façon interactive
![Page 22: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/22.jpg)
22
Qu’est-ce qu’on en dit ?
• Création interactive du plan de classement
• Qualité, prix, accueil en boutique, origine du produit, image…
![Page 23: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/23.jpg)
23
Quelles sont les opinions exprimées ?
![Page 24: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/24.jpg)
24
Processus général
![Page 25: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/25.jpg)
25
Processus généralLangue 1 Langue 2 Langue 3
Traduction auto Traduction auto
![Page 26: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/26.jpg)
26
Retours d’expérience
voiture hybride
hybrid car
السيارات الهجينة
混合动力汽车
carro híbrido
Hybridauto
33 600
962 000
550 000
15 900 000
26 100 000
2 330 000
![Page 27: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/27.jpg)
27
Client
Concurrent
Retours d’expérience
![Page 28: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/28.jpg)
28
Retours d’expérience
• Brangelina et Château Miraval
• Lancement: plus gros buzz de l'histoire du vin dans les réseaux sociaux
![Page 29: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/29.jpg)
29
Retours d’expérience
![Page 30: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/30.jpg)
30
Retours d’expérience
• Un tableau de bord des territoires pour répondre aux enjeux des Big data dans le domaine du tourisme
• Quelle est la valeur de mon offre ?
• Qui parle de moi après les vacances ?
• Mon événement a-t-iltouché la clientèle ?
• Quid des réservations
![Page 31: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/31.jpg)
36
Merci pour votre attention !
François-Régis Chaumartin
CEO
Claudede Loupy
CEO
![Page 32: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/32.jpg)
1/21
Information &
Communication Age !
![Page 33: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/33.jpg)
2/21
Comment être un média
de référence ?
![Page 34: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/34.jpg)
3/21
Mutation des processus informationnels
Menace Opportunité
Algorithmes & Savoir-Faire
Mutation des processus informationnels
Menace
![Page 35: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/35.jpg)
4/21
SyllabsValorisation des contenus multilingues
![Page 36: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/36.jpg)
5/21
Syllabs
Solutions sémantiques pour
1. la collecte
2. l’enrichissement
3. la rédaction automatique d’articles
![Page 37: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/37.jpg)
6/21
e-commercemédias autres
![Page 38: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/38.jpg)
7/21
1. Collecte
– Enjeux :
– Veille : identifier, collecter, filtrer, trier, regrouper.
– Quoi :
– Technologies de web mining et de text mining.
– Exemple :
– Aide à la revue de presse.
– ROI :
– temps, couverture, réactivité.
![Page 39: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/39.jpg)
8/21
Revue de Presse spécialisée
– LesEchos360
– Quoi :
– Aggrefilter Économie
– Éditorialisation possible
– Adaptable (thématique, langue)
– Résultat :
– Succès technique
– Utilisateurs apprécient
– Polémique pour les Médias
![Page 40: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/40.jpg)
9/21
2. Enrichissement
– Enjeux :
– Identifier et compléter les informations pertinentes.
– Quoi :
– Technologies de text mining.
– Exemples :
– Détection d’événements, linking automatique, SEO, Data
Journalisme, valorisation d’archives, aide à l’écriture.
– ROI :
– rétention, temps, compréhension, originalité.
![Page 41: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/41.jpg)
10/21
Détection de sujets
– Slate Reader
– Quoi :
– Slate Reader = curation
– Syllabs : Aide au tagging.
– Multilingue mais tags en
français.
– Résultat :
– Tags = sujets Wikipedia
– Liens vers Wikipedia
– En cours / bonne qualité
![Page 42: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/42.jpg)
11/21
3. Rédaction automatique de contenus
– Enjeux :
– Contenus fondamentaux. Longs et coûteux à produire publication des seules infos « importantes ».
– Quoi ?
– Automatisation de la rédaction de certains types d’articles.
– Exemples :
– bulletins météo, bourse,
– rencontres sportives, nominations,
– descriptifs produits.
– ROI :
– couverture, temps, SEO.
![Page 43: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/43.jpg)
12/21
– Textes de qualité & uniques
– Style adapté à la ligne éditoriale
– Production multilingue
– Le e-commerce témoigne : meilleur référencement ET
meilleure rétention.
Data2Content
![Page 44: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/44.jpg)
13/21
Exemple : news de levées de fonds
![Page 45: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/45.jpg)
14/21
Lorsque vous faites du sport et que vous
transpirez, pensez à bien vous hydrater et
vous éviterez les crampes et les
courbatures. Voici nos propositions du jour.
Le temps est nuageux mais vous pouvez
garder le sourire ! Vous n’avez pas le droit
de vous ennuyer ! Musées (Musée des
Beaux-Arts), Aquariums (Aquarium de
Lyon), parcs (Jardin Rosa Mir)... Il y a
tellement de choses à faire à Lyon.
C’est le début de la semaine !
Soyez positive et le reste de
votre semaine ira comme sur
des roulettes ! Une suggestion ?
Youpi ! il fait le temps idéal pour
courir ! Attention toutefois aux
marques de bronzage des
chaussettes, ce n'est pas la
mode à Toulouse !
Business case : Betterise
Il fait beau aujourd'hui, et
comme le dit la chanson : "let
the sunshine, let the sunshine
in". Quelques idées... Un
petite marche dans le Jardin
Raymond VI, un petit sourire
et gardez en tête "Anima sana
in corpore sano"
– Quoi :
– Betterise = coach santé cofondé par Michel Cymes.
– Mail quotidien personnalisé.
– Données : météo, jour, sexe, état civil, lieu, sportif ou non, âge.
– Résultat :
– Betterise : textes équivalents à la production manuelle.
– Lancé en automne 2014.
![Page 46: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/46.jpg)
Business case complet
![Page 47: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/47.jpg)
16/21
Catalogue de 150 000 hôtels
3 langues
pas de données
![Page 48: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/48.jpg)
17/21
Collecte des informations
– Plusieurs sites sources
– Informations structurées
– Informations non structurées
![Page 49: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/49.jpg)
18/21
Analyse
– Dédoublonnage
– Analyse textuelle (content 2 data)
– Extraction d’informations factuelles
– Analyse de sentiments
– Data Mining
– Faits remarquables
![Page 50: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/50.jpg)
19/21
Rédaction automatique
– Rédaction automatique de descriptifs
– Rédaction automatique points positifs/négatifs
– 3 langues (en, es, fr)
![Page 51: 1Collecte, analyse et valorisation de Bigdata textuelles multilingues](https://reader030.vdocuments.site/reader030/viewer/2022032422/55a8e1ab1a28ab3a6a8b45ba/html5/thumbnails/51.jpg)
20/21
Descriptif + Résumé d’avisL'hôtel Oceania vous accueille dans sonétablissement design 4 étoiles. Situé en plein cœur deParis, cet hôtel se trouve à 200 m du parc desexpositions et à 3km de la gare. L'hôtel, récemmentrénové, est décoré avec goût et bénéficie d'unedécoration contemporaine et moderne. Il a unecapacité de 250 chambres toutes confortables,luxueuses, contemporaines avec une décoration hautde gamme. Elles sont climatisées, insonorisées etdisposent toutes d'un balcon, idéal pour prendre l'airou pour observer la vue. Pour rester en contact avecvos proches, un accès gratuit à internet est disponible.Si vous avez plutôt besoin de vous dégourdir lesjambes, faites une petite balade dans le jardin del'hôtel qui recouvre une superficie de 700 m². D'autrespossibilités vous sont aussi proposées.. […]. Cet hôtelest un excellent choix pour la clientèle business oubien pour les touristes. Pour vos déplacements, unservice de navette est proposé. Une navette peutaussi vous déposer ou aller vous chercher àl'aéroport.
Ses atouts• La piscine chauffée• La possibilité d’installer un lit enfant dans la chambre• Le petit-déjeuner varié, frais et copieux• La proximité du parc des expositions• L’accueil sympathique et chaleureux
– Breakfast excellent
– Location excellent, secure, good, wasn’t so nice
– Bathroom not so excellent
– TV didn’t work properly
– Recommend YES
Analyse
Projection