analyse distributionnelle automatique didier bourigault equipe de recherche en syntaxe et...
TRANSCRIPT
![Page 1: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/1.jpg)
Analyse distributionnelle automatique
Didier Bourigault
Equipe de Recherche en Syntaxe et Sémantique
CNRS – Université Toulouse Le Mirail
www.univ-tlse2.fr/erss/
![Page 2: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/2.jpg)
D. BOURIGAULT Analyse distributionnelle 2
Zellig S. Harris et les sous-langages
Harris (1988, 1990, 1991)
Construction du sens Pas de sens a priori :
« There is no usable classification and strucure of meaning per se, such as we could assign the words of a given language to an a priory organization of meaning. » (Harris, 1988, p. 62) Exemple : les verbes multiply et divide
Le sens est analysable en étudiant les relations de dépendance qu’un mot a avec ses opérateurs et/ou opérandes dans un corpus
Mais les restrictions de sélection qu’un opérateur donné impose à ses arguments : sont relativement floues en langue générale (« language as a whole ») ont des limites très tranchées dans les sous-langages (« sublanguages »)
sublanguage : « language used by a particular community of speakers, say, those concerned with a particular subject matter or those engaged in a specialized occupation » (Sager, 1986, p. 2)
![Page 3: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/3.jpg)
D. BOURIGAULT Analyse distributionnelle 3
Opposition langue générale / sous-langage : exemple
les sujets de montrer
Corpus « langue générale » : 10 années du journal Le Monde sous-language : Comptes rendus de réanimation chirurgicale (anatomie
pathologique)
les objets de montrer
étudeenquêtesondageexpériencefilmrésultatimage…
LGexemplelimitesigneimagevoievolontévisage…
LG
scanner cérébralradiographiebilanéchographie cardiaqueECGdopplerfibroscopie…
SLépanchementhématomepersistanceabsencecontusionprésencefracture…
SL
examen MONTRER problème
![Page 4: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/4.jpg)
D. BOURIGAULT Analyse distributionnelle 4
Méthodologie harrissienne
Adaptation des méthodes de linguistique descriptive utilisées pour la découverte d’une grammaire d’une langue
4 étapes :1. Analyse syntaxique
manuelle (Harris), automatique (Sager)
2. Régularisation (normalisation) syntaxique
ex. : passif actif
3. Interrogation d’un expert
classes sémantiques de base
4. Mise au jour des classes et schémas caractéristiques du sous-langage
par analyse des régularités opérateurs/arguments (ex. : verbe/objet)
![Page 5: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/5.jpg)
D. BOURIGAULT Analyse distributionnelle 5
TALN : analyse distributionnelle automatique
Depuis le début des années 90 :(Hindle, 1990) (Greffenstete,1994) (Lin, 1998) (Habert et al.)
Principe : « à partir d’un corpus analysé syntaxiquement, rapprocher des couples
d’unités que l’on retrouve dans des contextes syntaxiques identiques »
Pour mettre au jour les classes sémantiques d’un domaine terminologies, base de connaissances, ontologies
[ plaie , cicatrice ]modifiés par les adjectifs :
médianepropresternalutérineabdominaledroite
[ scanner , radiographie ]sujet des verbes :
confirmermontrerobjectiverrévélerretrouver
![Page 6: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/6.jpg)
D. BOURIGAULT Analyse distributionnelle 6
A l’ERSS…
Analyseur syntaxique Syntex Analyse en dépendance Français, anglais
Analyseur distributionnel Upery1. Extraction de couples Prédicats/Arguments
2. Calcul de proximités distributionnelles entre prédicats et entre arguments
3. Construction de classes de prédicats et d’arguments (doubles cliques)
La chaîne d’analyse Syntex + Upery est utilisée De façon opérationnelle, sur des corpus spécialisés, pour la construction de
terminologies De façon exploratoire, sur des corpus de « langue générale » de très
grande taille, pour des recherches en sémantique lexicale (thèse E. Galy)
![Page 7: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/7.jpg)
D. BOURIGAULT Analyse distributionnelle 7
Extraction de couples (prédicat, argument)
De l’analyse syntaxique en dépendance (Syntex) à la construction de couples (prédicat, argument) Un triplet syntaxique (recteur , relation , régi) … fournit un couple (prédicat , argument) = (recteur_relation , régi)
Le scanner montre une lésion nodulaire.
suj modobj
( montrer_suj , scanner)( montrer_obj , lésion )( lésion_mod , nodulaire)
recteur régi
rel
(recteur_rel , régi)
AS
AD
![Page 8: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/8.jpg)
D. BOURIGAULT Analyse distributionnelle 8
L’analyse distributionnelle est duale : distinction prédicat / argument
Rapprocher des prédicats qui partagent les mêmes arguments ET rapprocher des arguments qui partagent les mêmes prédicats
Exemples (corpus médical)
[ montrer_suj , retrouver_suj ]
radiographiedopplerbilanscannerécographie
Rapprochement de prédicats Rapprochement d’arguments
[ scanner, échographie ]
effectuer_sujmontrer_sujpratiquer_objréaliser_obj
![Page 9: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/9.jpg)
D. BOURIGAULT Analyse distributionnelle 9
1. Extraction des couples (prédicat, argument)
Cas standard : Une relation de dépendance syntaxique fournit un couple :
Le scanner montre une lésion nodulaire.
suj modobj
( montrer_suj , scanner)( montrer_obj , lésion )( lésion_mod , nodulaire)
![Page 10: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/10.jpg)
D. BOURIGAULT Analyse distributionnelle 10
1. Extraction des couples (prédicat, argument)
Traitement des prépositions : 2 relations syntaxiques : 1 couple
elle est associée à une pneumoconiose.
( associer_à , pneumoconiose)
Un traitement par adriamycine
( traitement_par , adriamycine)
![Page 11: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/11.jpg)
D. BOURIGAULT Analyse distributionnelle 11
1. Extraction des couples (prédicat, argument)
Traitement du passif : rétablissement de la construction active
Le diagnostic est confirmé par le scanner.
( confirmer_obj , diagnostic )( confirmer_suj , scanner )
![Page 12: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/12.jpg)
D. BOURIGAULT Analyse distributionnelle 12
1. Extraction des couples (prédicat, argument)
Traitement de la coordination : distribution
On a réalisé un scanner et une échographie
( réaliser_obj , scanner )( réaliser_obj , échographie )
![Page 13: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/13.jpg)
D. BOURIGAULT Analyse distributionnelle 13
1. Extraction des couples (prédicat, argument)
Structure à contrôle V + VINF : aller, venir, savoir, pouvoir, devoir, vouloir, croire, aimer,
compter, daigner, désirer, espérer, etc. V + à + VINF : arriver, chercher, commencer, consentir, continuer,
hésiter, , etc.
L’ échographie va peut-être le confirmer
( confirmer_suj , échographie )
La tension commence à diminuer
( diminuer_suj , tension )
![Page 14: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/14.jpg)
D. BOURIGAULT Analyse distributionnelle 14
1. Extraction des couples (prédicat, argument)
Prise en compte de syntagmes nominaux arguments
Le scanner montre une lésion nodulaire.
( montrer_suj , scanner)( montrer_obj , lésion )( montrer_obj , lésion nodulaire )( lésion_mod , nodulaire)
![Page 15: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/15.jpg)
D. BOURIGAULT Analyse distributionnelle 15
2. Calcul des proximités distributionnelles : Jaccard
Productivité d’un prédicat : nombre d’arguments différents avec lesquels on le trouve d’un argument : nombre de prédicats différents avec lesquels on le
trouve
JaccardSoit p1 et p2 deux prédicats
Soit n1 la productivité de p1 et n2 la productivité de p2
Soit a le nombre d’arguments partagés par p1 et p2
aproxjacc (p1,p2)= n1 + n2 - a
![Page 16: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/16.jpg)
D. BOURIGAULT Analyse distributionnelle 16
2. Calcul des proximités distributionnelles : exemple
Exemple
abdominalcérébralcervicalhélicoïdalhépatiquenégatifspiraléthoracique
scanner_mod
productivité = 8
abdominalhépatiquenormalthoracique
échographie_mod
productivité = 4
nb d’arguments en commun = 3
3proxjacc = = 0.33 8 + 4 - 3
![Page 17: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/17.jpg)
D. BOURIGAULT Analyse distributionnelle 17
3. Calcul des doubles cliques : principe
Double clique : un ensemble de prédicats et un ensemble d’arguments tels que (presque) tous les prédicats se trouvent avec (presque) tous les arguments.
Exemple :
abdominal
cérébral
cervical
hélicoïdal
hépatique
négatif
échographie_mod
radiographie_mod
scanner_mod
Prédicats Arguments
: couples ABSENTS
16 couples présents sur18 couples possibles (3x6)
![Page 18: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/18.jpg)
D. BOURIGAULT Analyse distributionnelle 18
3. Calcul des doubles cliques : cohésion
Définition de la cohésion d’une double clique à partir de la notion de proximité entre prédicats et entre argumentsSoit P = l’ensemble des prédicats de la DC. On définit aP comme l’argument
fictif qui a pour prédicats l’ensemble P
Soit A = l’ensemble des arguments de la DC. On définit pA comme le prédicat fictif qui a pour arguments l’ensemble A
Pour chaque prédicat p de P, on calcule la proximité entre p et le prédicat pA
Pour chaque argument a de A, on calcule la proximité entre a et l’argument aP
La cohésion de la double clique est calculée comme la moyenne de ces proximités
p Є P prox (p, pA) + a Є A prox (a,aP)
NP + NA NP = card(P)NA = card(A)
cohésion(P,A) =
![Page 19: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/19.jpg)
D. BOURIGAULT Analyse distributionnelle 19
3. Calcul des doubles cliques : cohésion
abdominal cérébral cervicalhélicoïdalhépatique négatif
échographie_modradiographie_modscanner_mod
aP
Soit la double clique :P = {échographie_mod, radiographie_mod, scanner_mod}A = {abdominal, cérébral, cervical, hélicoïdal, hépatique, négatif}
pA
abdominalcérébralcervicalhélicoïdalhépatiquenégatifspiraléthoracique
scanner_mod
proxjacc = 6 / ( 8 + 6 - 6 ) = 0.75
affection_moddouleur-_modexamen_modéchographie_modexpansion_modmasse_modmouvement_modrespiration_modscanner_mod
abdominal
Idem avec les autres prédicats de P Idem avec les autres arguments de A
proxjacc = 2 / ( 9 + 3 - 2 ) = 0.20
puis calcul de la moyenne des proximités
![Page 20: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/20.jpg)
D. BOURIGAULT Analyse distributionnelle 20
3. Calcul des doubles cliques : algorithme
Descente de gradient sur la cohésion
A partir des prédicats Initialisation : soit p un prédicat,
on construit la double clique DC0 telle que : A est constitué de l’ensemble des arguments de p P est constitué du prédicat p et du prédicat le plus proche de pA.
Itération : pour passer DCi à DCi+1, Effectuer la meilleure des 4 actions possibles :
ôter de P le « moins bon » prédicat (prox avec pA la plus faible)
ôter de A le « moins bon » argument (prox avec aP la plus faible)
intégrer à P le « meilleur » prédicat (prox avec pA la plus forte)
intégrer à A le « meilleur » argument (prox avec aP la plus forte)
Arrêter quand on ne peut plus augmenter la cohésion
Idem à partir des arguments
Fusion des doubles cliques « proches »
![Page 21: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/21.jpg)
D. BOURIGAULT Analyse distributionnelle 21
Analyse distributionnelle de corpus de langue générale de grande taille
« langue générale » ?
2 gros corpus : LM10 :
10 années du journal Le monde (1991-2000) 200 millions de mots Vendu par l’agence ELA, nettoyé et balisé par B. Habert
Frantext 20e 515 romans 30 millions de mots Founri par l’ATILF
Résultats quantitatifs : la masse ! LM10 : 6 183 862 couples de mots rapprochés Frantext20 : 792 354 couples de mots rapprochés
![Page 22: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/22.jpg)
D. BOURIGAULT Analyse distributionnelle 22
![Page 23: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/23.jpg)
D. BOURIGAULT Analyse distributionnelle 23
![Page 24: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/24.jpg)
D. BOURIGAULT Analyse distributionnelle 24
![Page 25: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/25.jpg)
D. BOURIGAULT Analyse distributionnelle 25
![Page 26: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/26.jpg)
D. BOURIGAULT Analyse distributionnelle 26
![Page 27: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/27.jpg)
D. BOURIGAULT Analyse distributionnelle 27
![Page 28: Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr](https://reader035.vdocuments.site/reader035/viewer/2022062318/551d9d7f497959293b8b829a/html5/thumbnails/28.jpg)
D. BOURIGAULT Analyse distributionnelle 28