machine learning, deep learning et search : à quand ces innovations dans nos entreprises ?
TRANSCRIPT
Machine learning, deep learning :à quand ces innovations dans nos entreprises ?Search Day 2015William Lesguillier – Product manager offre Valorisation des Données
2
Antidot – Qui sommes-nous?● Editeur de logiciels
● Moteurs de recherche| enrichissement des données● Depuis 1999 | Paris, Lyon, Aix-en-Provence● 3.5 M€, 45 collaborateurs, +150 clients
● Mission : délivrer à nos clients des solutions hautement configurables et innovantes qui créent de la valeur à partir de leurs données et augmentent leur performance opérationnelle
3
Parmi nos clients● Production de contenus
● Industrie
● E-Commerce
● Santé
4
Qu’est-ce que le Machine Learning●Définition : faculté donnée à
un ordinateur d’apprendre un comportement à partir d’exemples
●Fondement scientifique : l’Intelligence Artificielle (IA)
5
Re-re-renaissance de l’IA●L’Intelligence Artificielle est de retour
sur le devant de la scène●Deux facteurs principaux :
●Le développement de la puissance de calcul●La disponibilités accrues des données !
6
L’événement qui change tout
7
L’événement qui change tout●Puissance de calcul : 100 servers●Données disponibles : 200 millions de
pages
8
L’événement qui change tout
9
ML : illustrations des principesDire si un logement se trouve à New York ou San Francisco
Altitude des logements
Concept d’attribut
Crédit : http://www.r2d3.us
10
ML : illustrations des principesDire si un logement se trouve à New York ou San Francisco
Concept de modèle
d’entrainement
11Données d’entrainement
Données de test
ML : illustrations des principesDire si une maison se trouve à New York ou San Francisco
Concept de surentrainement
12
Qu’est-ce que le Deep Learning ?●Se base sur les algorithmes de type réseaux de
neurones●Le système découvre lui-même les attributs et
construit le modèle d’entrainement●Il peut même aller jusqu’à s’affranchir d’une base
d’entrainement (pas de documents étiquetés, ie apprentissage non supervisé)
●Avènement grâce à la puissance des GPU (Graphic Computing Units) très adaptés à ce type de calcul
13
Qu’est-ce que le Deep Learning ?
14
Machine Learning : pour quoi faire ?● Reconnaissance du texte (y compris manuscrit) et de la voix● Traduction automatique● Text mining● Aide à la recherche d’information● Assistants personnels● Assistance au diagnostic médical● Smart cities● Sécurité informatique● Robotique● …
15
Le Machine Learning chez Antidot
Enrich Access
SearchSemantic &
ComplexMachine Learning
Graph & Linked Data
16
Classification automatique
17
Classification automatique
18
Extraction d’entités
19
Les avantages du ML pour le text mining
20
Et pour les moteurs de recherche ?
21
Que s’est-il passé ces 10 dernières dans le monde du moteur de recherche d’entreprise ?
Notre réponse :
Rien de bien folichon
22
3 types de moteurs de recherche
23
Comment un moteur trouve-t-il ?●Il recherche dans les documents le ou
les mots-clés renseignés●Il filtre les documents trouvés avec les
critères fournis (format de document, fourchette de prix…)
●Et enfin, le plus important : il ordonne les document dans l’ordre jugé le plus pertinent
24
Qu’est-ce que la pertinence ?
MotMot
MotMot
Mot
Mot
Mot
Mot
1
Mot
25
Qu’est-ce que la pertinence ?●Cette méthode de pondération s’appelle
tf-idf (Term Frequency-Inverse Document Frequency)
●Elle a été inventée par Gerry Salton, appelé le père de la recherche d’information, en 1970
26
Pertinence des moteurs spécialisés
27
Pertinence des moteurs Web●Etape 1 (90s) : algorithmes tf idf
●Etape 2 (2000) : Google invente le Page Rank
●Etape 3 (2005) : explosion du nombre de paramètres de pondération
●Etape 4 (2010) : utilisation du ML pour trouver la meilleure pertinence en fonction de tous et de chacun
28
Pertinence des moteurs d’entreprise
●tf-idf est toujours implémenté dans tous les moteurs de recherche d’entreprise via les algorithmes appelés Best Match ou Vector Space Model
●L’état de l’art de ces moteurs à 45 ans !!
29
●Today with AFS : 0 results
●Tomorrow with Taruqa :
Sneak peak sur nos travaux de recherchecomment configurer le back office Antidot d’AFS Rechercher
30
●Today with AFS : filtering only is possible
●Tomorrow with Taruqa : Boost documents by facet values
Sneak peak sur nos travaux de rechercheconfiguration back office Rechercher
31
Rendez-vous en 2016 !
32
Sources et ressources● Wikipedia : Histoire de l’intelligence artificielle● TEDx: Ken Jennings, « Watson, Jeopardy and me, the obsolete know-it-all
»● TechRepublic :
IBM Watson: The inside story of how the Jeopardy-winning supercomputer was born, and what it wants to do next
● A visual introduction to machine learning● Wired : Google’s Artificial Brain Learns to Find Cat Videos● IBM : machine learning applications● Wikipedia : TF-IDF● Wikipedia : BM25● Le Monde : série d’articles de Morgane Tual sur l’intelligence artificielle
Merci de votre attentionDes questions ?