le web 3.0 et l information juridique - lepetitjuriste.fr web 3.0 et l... · les bibliothèques...
TRANSCRIPT
1
Master professionnel en droit, mention sociologie du droit et communication juridique Université Paris II Panthéon-Assas
Le web 3.0 et l’information juridique
Ledesert Eloi Magoutier Paul Métiers de l’édition en droit, Mr Guillaume Deroubaix.
2
Un proverbe dit, sagement : « Si tu veux savoir où tu vas, regardes d'où tu viens
». Peut-on l’appliquer à la génération web à venir ?
Régi par un nombre impressionnant d’avancées technologiques, l’avenir du web et de
la place de l’information est l’objet de spéculations diverses. Aujourd’hui encore, les
algorithmes les plus performants sont incapables de hiérarchiser l’information sur le
web. Effectuer une recherche suppose une attente et une intention ou une volonté d’y
répondre.
La recherche suppose aussi qu’il existe une taxinomie formelle et sémantique de
l’environnement. Les bibliothèques jouent ce rôle. Au fond, une bibliothèque, depuis
Alexandrie, est reconnue comme « un lieu de médiation, de connaissances, un lieu
humain et social de rencontres et d'échanges »1.
Une bibliothèque numérique demeure-t-elle porteuse, virtuellement, d'une telle
mission, et au prix de quelles mutations inédites ?
Les machines capables de décrypter des éléments d’intention et d’effectuer des
rapprochements sémantiques seront des machines intelligentes. Celles que nous
connaissons ne le sont pas ou pas encore…
Le web est une immense toile qui permet d’échanger et de stocker des informations de
tous types. Le web est originairement synonyme d’ouverture et de souplesse de
l’information. Les avancée technologiques de certains langages informatiques de
structuration et de balisage ont permis l’appropriation par les utilisateurs de cette
architecture, à la fois complexifiée dans ses performances et simplifiée dans son usage.
Chacun est devenu émetteur, récepteur, transformateur, fabriquant de flux ou de
contenu web. Cette étape, diffuse dans son apparition a été baptisée le web 2.0 par
opposition aux origines du web, 1.0. L’architecture actuelle permet une indexation et
un référencement performants des sites, des titres mais non des contenus mêmes.
Jusque lors, la métaphore de la cartographie a dominé la pensée de l’internet. On
évolue sur la toile à l’aide de navigateurs, on y surfe de site en site. A l’image de
l’océan, tout est horizontal et homogène. Les machines lisent les serveurs à l’aide de
cartes, peu diversifiées (Google, premier et presque seul moteur de recherche).
Les dénominations 1.0 et 2.0 ont émergé a posteriori du constat d’une évolution
générale.
1 Web sémantique, Yannick Maignien, Encyclopedia Universalis
3
Le web 3.0 est au contraire l’anticipation d’une génération à venir. L’imagination
repose sur des bases concrètes : on peut sérieusement prédire la fusion de certains
langages et syntaxes et leur universalisation, la création d’outils d’indexation
performants (thésaurus, ontologies…), la numérisation massive de contenus,
l’augmentation du débit et les meilleures possibilités de stockage. Ces étapes à venir
entraineront des changements majeurs dans le mode de traitement de l’information sur
le web. On ne pense plus en termes de sites Web mais de « solutions Web »
interopérables, universelles, mobiles et accessibles.
Néanmoins, comme toute anticipation, elle comporte une part de prédiction, laissant
libre cours à l’imagination et aux fantasmes de l’intelligence artificielle. Une réponse
sérieuse à la question du web 3.0 prend donc en compte à la fois la dimension
hautement technique de l’informatique mais également des éléments de philosophie
de l’intelligence et de la connaissance.
Le terme de « données » propre à la science informatique sera dépassé puisque le web
« intelligent » naviguera sur des contenus porteurs de sens. Ce sens est ainsi supposé
s’intégrer à la structure du web.
Aussi, la traduction nécessaire d’une information en donnée informatique a déshabillé
le contenu de la parure et du support des documents. On peut imaginer que le web 3.0
réinstaurera la notion de document au sein de son architecture même.
Cette convergence d’aspects formels et de sémantique est dénommé métadonnée ou
métainformation.
Beaucoup d’enjeux gravitent autour du web 3.0 avec avant tout, le statut de
l’information. Les métadonnées permettront ainsi de gagner en intelligence artificielle
dans des proportions encore inconnues. Elles assureront une hiérarchisation de
l’information absolument nécessaire dans certains domaines tels que l’information
juridique et l’information professionnelle en générale. Enfin, cette indexation
sémantique garantira une pertinence de la recherche qui fait encore défaut sur le web
2.0.
L’enjeu est particulièrement propre aux bibliothèques et éditeurs dont le rôle de
structuration et de diffusion sera au cœur du web 3.0. Inquiets pour leur avenir, ils
perçoivent alors, dans des limites encore inconnues, le chantier ouvert du web
sémantique et de la numérisation des documents réactivant l'utopie des bibliothèques
universelles.
4
Rappelons que l’entreprise de Google est partie du souhait de deux étudiants d’indexer
la bibliothèque de l’université de Stanford aux Etats-Unis.
La nécessité d’un web investi par les bibliothécaires est également pertinente pour le
stockage, l’archivage et la pérennité des documents électroniques. Si on salue la
rapidité et la souplesse de l’information, il faut souligner son manque de pérennité. Le
web 3.0 doit permettre de penser, comme un choix de société, les documents à
conserver et transposer sur le web, la notion renouvelée de dépôt légal.
L’enjeu est transposable à l’information juridique qui, produite par des autorités, doit
évoluer dans un milieu hiérarchisé et pérenne. Le web 3.0 doit concilier ouverture et
hiérarchisation.
Enfin, l’enjeu est économique : quel modèle économique le web 3.0 va-t-il consacrer
aux auteurs, éditeurs, bibliothèques, utilisateurs/lecteurs et entreprises du Web ?
Rechercher une information sera plus rapide, plus souple, plus pertinent grâce à une
intelligence du sens des mots et de la hiérarchie des réponses. Le web 3.0 offrira du
relief.
Il convient donc d’approcher le web 3.0 du point de vue de l’intelligence artificielle :
fond et forme étant rapprochés dans une nouvelle architecture, la recherche sera-t-elle
intelligente ? (I).
Aussi, appliqué à l’information juridique, il est opportun de présenter l’ontologie du
web sémantique et le thésaurus aux travers d’exemples et de projets en cours sur le
droit : comment fonctionne une recherche web 3.0 en droit ? (II).
I. Le 3.0, futurologie du web intelligent
Parler de web intelligent suppose de définir l’intelligence. Dans le dialogue homme-
machine, il existe certaines limites cognitives. Toutefois, l’intelligence artificielle peut
se focaliser sur le concept de métadonnées, apparence d’intelligence qui réhabilitent le
document comme support de classification sur le web.
A. Entre cognitivisme et connexionnisme
On peut aisément rapprocher les interrogations sur le dialogue des hommes avec les
animaux de celles sur l’intelligence du web.
5
Les animaux ressentent et transmettent des émotions : imitation ou réelle
compréhension de l’intention ?
Limites de l’intelligence artificielle
Si vous proposez à un singe bonobo un verre de jus d’orange, un mets qu’il apprécie
particulièrement et que ce verre est accidentellement renversé, le singe va être triste,
va peut-être pleurer et tenter de remettre le liquide dans le verre. Si vous répétez
l’opération en renversant ostensiblement et intentionnellement le verre, le singe aura
exactement la même réaction. Il ne perçoit pas l’intention derrière le geste. Il en est de
même des enfants jusqu’à l’âge de 3 ou 4 ans environ.
Cette expérience répondait à l’interrogation de la pensée morale des animaux. Les
ordinateurs, tout comme les animaux, ne perçoivent pas l’intention.
Or, la recherche d’information repose sur une intention. Entrez dans la barre de
recherche Google les termes « Paris » et « Hilton » : que cherche-t-on ? Des
informations people ou un hôtel Hilton à Paris ?
Le même moteur de recherche sait trouver des sites d’horaires de train, il ne sait pas
donner directement les horaires du train que l’on compte prendre.
L’intelligence artificielle connaît ainsi une sérieuse limite.
Une pensée primitive ?
Néanmoins, on peut attendre du web 3.0 une pensée « primitive » assez puissante.
L’intelligence artificielle est la recherche de moyens susceptibles de doter les systèmes
informatiques de capacités intellectuelles comparables à celles des êtres humains,
conforme à l’initiative d’Alan Turing dans une tentative de définition d'un standard
permettant de qualifier une machine de » consciente » et de « compréhension de ses
propres raisonnements ». On parle pour le Web d’ « architecture cognitive ».
Loin de la notion de conscience de soi, elle suppose a minima une relative autonomie
et un dialogue en réseau.
6
Le dialogue utilise des préceptes dégagés par François Rastier 2, sémanticien et
directeur de recherche au CNRS : objectivité (utilisation d'une base de connaissances
par le système), textualité (prise en compte d'interventions de plus d'une phrase,
qu'elles émanent du système ou de l'utilisateur), apprentissage (intégration au moins
temporaire d'informations issues des propos de l'utilisateur), questionnement (demande
de précisions de la part du système), rectification (suggestion de rectifications à la
question posée, lorsque nécessaire),explicitation (explicitation par le système d'une
réponse qu'il a apportée précédemment).
Ces préceptes induisent la complémentarité nécessaire dans un système informatique
du connexionnisme et du cognitivisme. Ces deux voies de construction d’une pensée
dégagées par les sciences cognitives sont à la fois contradictoires et complémentaires.
Appliquées à l’informatique et aux machines, le cognitivisme 3 considère qu’un
ordinateur manipule essentiellement des symboles élémentaires. Le stockage de la
mémoire se fait d'une manière constructive. Pour la simple petite perception, un travail
de stockage et d'interprétation est enclenché. L'information se dirige premièrement
dans la mémoire sensorielle, qui se dirige ensuite dans la mémoire à court terme pour
ensuite être traduite et classée dans la mémoire à long terme. Tout système cognitif a
une architecture à trois composantes :
- une base de connaissances ou mémoire à long terme
- une instance de traitement
- un moteur d'inférences
La mémoire guide la perception à travers deux traitements de l'information :
Le mode ascendant - d'une information donnée, la machine tire des conclusions grâce
à notre mémoire à long terme.
Le mode descendant - grâce aux schèmes et scripts que l’ordinateur stocke, il peut
anticiper des situations. La pensée est donc perçue comme une manipulation de
symboles combinés par des règles abstraites d’inférence.
Le principe de base du connexionnisme 4 est quant à lui, que les phénomènes
d’intelligence peuvent être décrits à l'aide de réseaux d'unités simples interconnectées.
Chaque unité du réseau est un mot et chaque connexion, un indicateur de similarité
sémantique.
2 Pour un développement, cf. François Rastier (2008) «Sémantique du web vs semantic web ?», Texto ! 3 Cf. La société de l’esprit, Marvin Minski, Intereditions, 1988 4 Cf. Rui Da Silva Neves, « Le connexionnisme. Les assemblées de neurones », Sciences humaines, hors-série spécial, n° 7, septembre-octobre 2008
7
L’intelligence est alors supposée se trouver dans l'agencement des connexions et non
pas directement dans une suite de calculs. Un concept important pour les modèles
connexionnistes est celui d'activation. À chaque instant, une unité du réseau a un
certain niveau d'activation.
Ici, la pensée émerge de plusieurs processus élémentaires, conçus généralement sur le
modèle des neurones du cerveau humain. Massivement connectés les uns aux autres,
leur fonctionnement en parallèle permet de coder et de reconnaître des « formes ».
Or, les ordinateurs atteignent des performances de connexion et une rapidité de
traitement des connexions supérieures à celles de l’être humain. De plus, ces
ordinateurs peuvent fonctionner en réseau et dialoguer. Ces deux voies mises
ensemble, connexionnisme et cognitivisme permettraient aux ordinateurs d’apprendre
par eux-mêmes et augmenter ainsi leur connaissance dans des limites encore
inconnues.
B. Les métadonnées
Plus concrètement, il est important d’aborder la notion de métadonnées. Elles
constituent l’architecture du web 3.0 et permettent à l’intelligence artificielle de
fonctionner.
Un web structuré fonctionne avec des métadonnées.
Définition
Ces informations de l’information correspondent à des marqueurs que l'on introduit
dans les fichiers ou dans des langages de programmation appropriés, les langages de
marquage XML. Ces métadonnées sont elles-mêmes exprimées en langage de
structuration ou de balisage.
Les marqueurs ont pour effet d'améliorer l'efficacité des recherches d’information par
rapport aux recherches plein texte.
Les ressources numériques balisées transportent avec elles leurs propres métadonnées
lorsqu'elles sont téléchargées, copiées, répliquées ou transmises par des messageries
électroniques.
8
Ceci s'applique à tous les types de ressources numériques (texte, son, image,
multimédia).
Les métadonnées sont ainsi l'un des principaux éléments de l'étiquetage avec les tags,
surtout dans le Web 2.0.
Le potentiel des métadonnées du web 3.0 est beaucoup plus important, car elles
peuvent faire interopérer les ressources informatiques, dans la mesure où elles ont été
paramétrées et structurées dans des dictionnaires de données. On peut alors faire
communiquer les bases de données classiques et les données non structurées
(documents, images, manipulés en gestion de connaissance...).
La notion au cœur des métadonnées est l’interopérabilité qui n’est pas synonyme
d’uniformité : l’interopérabilité d’un système permet à celui-ci d’utiliser d’autres
systèmes et inversement. L’opérabilité n’est pas non plus la compatibilité des systèmes
qui autorise un programme informatique à fonctionner en harmonie avec les autres.
L’interopérabilité est transversale. Cette performance suppose la convergence de
plusieurs langages et codages informatiques en dépassant en premier lieu la division
entre images (pixels) et textes (caractère).
Le langage RDF (Ressource Description Framework) crée les conditions
d’interopérabilité.
Un tel effort de normalisation devrait permettre une interaction accrue des contenus
numérisés. D'où la possibilité de construire des ontologies, ou du moins des
hiérarchies de catégories permettant ensuite de rendre le Web sémantique, et de faire
en sorte que des machines puissent « comprendre » et non seulement « lire » les
contenus des sites Web.
D'ores et déjà, des moteurs de recherche très performants, comme Google, s'appuient
sur cette logique d'indexation.
Nous n'en sommes vraisemblablement qu'à l'aube d'une ère où les représentations des
connaissances, issues des contenus des collections numérisées elles-mêmes,
permettront en retour une exploitation optimale des contenus.
Les métadonnées permettront à un moteur de recherche d’affiner celle-ci par l’accès
du moteur aux différents langages, aux réseaux sociaux et historique des recherches
autour d’un terme (toute recherche est par essence subjective) et la pertinence déjà
9
utilisée. Cette avancée peut-être particulièrement bénéfique aux communautés de
chercheurs et professionnels qui sont structurées sur une pertinence de notoriété.
Hiérarchie de l’information sur le web : réhabilitation du document ?
L’apparition du web 2.0 et les capacités accrues de numérisation ont mis en ligne des
données sans respecter le support original. Le document a clairement été mis à mal. La
souplesse et l’ubiquité du document électronique a entraîné son uniformisation.
De même, a été balayée, la pertinence, du partage social des rôles qu'historiquement
l'État et les bibliothèques d'un côté, le marché et l'édition de l'autre, se sont
traditionnellement attribués. Aux premiers, le soin d'organiser le dépôt légal 5, de
conserver, de donner accès et de favoriser la lecture publique, la recherche et
l'instruction, de mettre en œuvre les outils bibliographiques nécessaires, de valoriser le
patrimoine culturel, etc. Aux seconds, la capacité d'organiser la production des
créateurs, d'en mettre en œuvre la fabrication, l'impression, la diffusion, la
commercialisation et la valorisation, etc.
De plus, le droit et la jurisprudence en particulier, tendent à considérer que le
numérique ne change fondamentalement rien au droit d'auteur et à son parent, le
copyright.
Le web 3.0 offre la possibilité de repenser le document et sa diffusion : il sera à la
fois une architecture informatique et sémantique mais aussi un modèle économique.
Les métadonnées connaissent déjà une avance dans les domaines de l’information
professionnelle. On peut gager que l’évolution se fera de façon centrifuge, poches par
poches. L’accès aux connaissances et la mise en forme numérique sont les deux axes
majeurs de la réflexion.
Si son envergure reste limitée, le moteur de recherche comme Gallica, bibliothèque
numérique de la BNF préfigure ce que sera la hiérarchie du web 3.0. L’enjeu est alors
dans la coopération qui implique de penser celle-ci juridiquement. C’est pourquoi
l’Union Européenne soutient activement des projets comme le SAWD (Semantic Web
Advanced Deployment) soutenu par le ERCIM (European Research Consortium for
Informatics and Mathematics), INRIA en France.
Viviane Reding, commissaire européenne chargée de la société de l'information et des
médias, déclarait en avril 2009 : « Le Web 3.0 est synonyme d'activités commerciales,
5 Thème évoqué dans l’article : Web sémantique, Yannick Maignien, Encyclopedia Universalis
10
sociales et récréatives, en tout lieu et tout moment, à l'aide de réseaux rapides, fiables
et sûrs. Il met fin à la distinction entre connexions mobiles et fixes et annonce une
multiplication par dix de la portée de l'univers numérique d'ici à 2015. L'Europe
dispose des connaissances et des capacités de réseau nécessaires pour être à la pointe
de cette évolution. Nous devons faire en sorte que le Web 3.0 soit créé et utilisé en
Europe ».
Ces éléments montrent qu’au-delà des spéculations sur le système du Web 3.0, il y a
toujours un cerveau, une tête pensante au sens noble du terme derrière l’information et
sa hiérarchisation. Nos sociétés, dites de « l’information », récompensent ceux qui sont
les mieux informés. L’avocat, le conseiller politique, le lobbyiste, l’analyste
financier… Le web 3.0 permettra t il un accès plus démocratique à l’information ?
Après avoir abordé la futurologie du Web 3.0, il convient de présenter le web
sémantique, à l’avenir plus proche et son application au domaine juridique. Web
sémantique et science juridique offrent en effet de nombreuses perspectives.
II. Web 3.0 et droit
A. Le web sémantique et le langage juridique
Le web sémantique est un modèle de construction des documents numériques qui tente
d’intégrer les connaissances. Il trouve une application concrète en droit.
Présentation du web sémantique
Ce mouvement popularisé par Tim Berners-Lee 6 s’appuie sur des ontologies. Il s’agit
d’entrer dans le contenu pour y appliquer un raisonnement.
Plus précisément, ce modèle ambitionne construire un métalangage, fondé sur des
ontologies, représentant de façon formelle le contenu des documents qui pourra servir
de référence à des modèles informatiques 7. Le web sémantique est considéré par son
concepteur comme une extension du Web. En effet, Tim Berners-Lee conçoit le Web
6 Une présentation historique des travaux de Tim Berners-Lee est consultable sur le site cern.ch 7 Stéphane Cottin (chef de service du Greffe et de l’Informatique du Conseil constitutionnel) donne un complément de définition sur la notion d’ontologie. Il les définit comme « des structures de -conceptualisations qui décrivent des domaines de spécialité en organisant les concepts et relations ; elles sont dédiées à certaines fonctions ou applications. Les ontologies jouent un rôle clé dans le Web sémantique et dans les nouvelles générations de systèmes d’information ».
11
sémantique comme un vaste espace d’échange de ressources entre êtres humains et
machines. Ce système vise à une meilleure exploitation de grands volumes
d’informations et de services variés.
Les utilisateurs seraient alors déchargés d’une part conséquente de leurs tâches de
recherche, de construction et de combinaison des résultats grâce aux capacités accrues
des machines à accéder aux contenus des ressources et à effectuer des raisonnements
sur ceux-ci. Le Web actuel est syntaxique dans le sens où la structure des documents
est bien définie mais son contenu reste quasiment inaccessible aux traitements de
machines. Seuls les humains peuvent interpréter leurs contenus.
La nouvelle génération de Web a pour ambition de lever cette difficulté. Cette
ambition nécessite une représentation sémantique des contenus via les ontologies. Tout
ceci n’est possible que si l’ensemble des contributeurs au Web sémantique respectent
une infrastructure commune via les langages XML et RDF.
Le Web sémantique est d’abord une infrastructure privilégiant l’utilisation de
connaissances formalisées en plus du contenu informel actuel du Web. Cette
infrastructure doit permettre d’abord de localiser, d’identifier et de transformer des
ressources tout en favorisant l’esprit d’ouverture du Web avec sa diversité
d’utilisateurs. Elle doit s’appuyer sur un certain niveau de consensus portant sur les
langages de représentation ou sur les ontologies utilisées. Elle doit contribuer à
assurer, le plus automatiquement possible, l’interopérabilité et les différentes
ontologies.
Ce système vise à faciliter la mise en œuvre de raisonnements complexes tout en
offrant des garanties supérieures sur leur validité. Le Web sémantique doit s’engager à
offrir des mécanismes de protection (droits d’accès, d’utilisation et de reproduction)
ainsi que des raisonnements automatiques permettant de qualifier les connaissances.
La finalité de ce nouveau Web est d’augmenter le niveau de confiance des utilisateurs.
Un exemple de proposition d’une ontologie du Droit français conforme au Web
3.0 pour la reformulation de requêtes sur le Web
Didier Bourigault, membre de l’Equipe de Recherche en Syntaxe et Sémantique au
CNRS et à l’Université Toulouse Le Mirail, et Guiraude Lame membre du Centre de
Recherche en Informatique à l’Ecole Nationale Supérieure des Mines de Paris, ont
12
proposé l’élaboration d’une ontologie documentaire du Droit visant à simplifier la
navigation et la recherche au sein du site juridique www.droit.org 8.
Ce site présente l'édition des lois et décrets du Journal Officiel de la République
française, ce qui représente un ensemble de plus de 95 000 documents. Il contient
également les codes du droit français et des textes européens tels que les directives
ou règlements. Les travaux menés résultent d’une collaboration avec ce site.
Le réseau de termes qui constitue l'ontologie a été construit à partir de l'analyse du
corpus de référence composé des 12 codes (Code civil, de. l'urbanisme code de l'action
sociale et des familles, code civil, code de commerce, code de l'environnement, livre
des procédures fiscales, code de la justice administrative, code de l'organisation
judiciaire, code pénal, nouveau code de procédure civile, code de procédure pénale,
code de la propriété intellectuelle, code du travail.
Ce réseau de termes structurés est au cœur de la construction de l’ontologie. Il est
intégré dans une interface d’accès aux documents du site droit.org dans lequel il est
utilisé comme index thématique. C’est par cet index que l’utilisateur peut naviguer
pour définir ou préciser sa requête. Il peut l’utiliser comme une ressource pour un
module d'expansion de requête.
S’agissant du contexte général de l’étude présentée par Bourrigault et Lame, l’objectif
a été la construction d'une ontologie documentaire du Droit. Les auteurs entendent
par "ontologie" « un ensemble de termes et de concepts structurés entre eux par des
liens de divers types où chaque concept peut présenter plusieurs sens thématiques ».
Dans le cas de l’étude, les applications de cette ontologie sont destinées à la recherche
documentaire (système d'aide à la reformulation de requête, catégorisation de
documents). Ce réseau est donc plus proche du thésaurus qui ne propose cependant pas
de projet de reformulation des requêtes.
L'ontologie est ainsi utilisée par le moteur de recherche du site Droit.org, d'une part
pour favoriser la reformulation ou l'expansion de requêtes, et d'autre part pour la
classification automatique des documents trouvés. Le mécanisme d'expansion de
requête se fonde sur les relations entre les termes présents dans l’ontologie pour
indiquer des catégories d'interrogation proches de celles émises par l'utilisateur.
L'interface de l’ontologie documentaire du droit français présente deux objectifs. Ces
objectifs sont la visualisation et la navigation dans le réseau de termes du domaine
8 Ces travaux sont exposés dans l’article « Analyse distributionnelle et structuration de terminologie. Application à la construction d'une ontologie documentaire du droit » parue à la revue TAL
13
avec la possibilité de lancer des recherches sur ces termes, et son interaction avec les
requêtes d'utilisateurs d'un moteur de recherche.
La visualisation de l’ontologie permet à l’utilisateur de comprendre les possibilités qui
lui sont ouvertes. Elle lui offre une vision simple de la présentation des termes du
domaine et de leurs liens. Cette visualisation confère aussi un aspect pédagogique à
l'ontologie. Dans l’optique de rendre accessible le site au plus grand nombre, la
navigation dans l'ontologie se fait par l’usage de liens hypertextuels. L'accès aux
termes est organisé selon un alphabet. Chaque lettre permet d'accéder à une liste de
noms. Un clic sur un nom aboutit à présenter l'ensemble des catégories ayant ce nom
pour tête ainsi que l'ensemble des termes qui lui sont liés.
Le but poursuivi par cette ontologie est, dans un premier temps, de rendre accessible la
navigation dans l’index thématique. Dans un second temps, elle s’occupe de
l'expansion de requête en suggérant à l'utilisateur des termes plus ou moins liés à ceux
de sa recherche. L’ontologie se caractérise comme un complément d'un moteur de
recherche. C’est aussi un intermédiaire entre les requêtes des utilisateurs et le moteur
lui-même.
Concrètement, un programme analyse les termes saisis par l'utilisateur dans le
formulaire html dédié à la recherche. Si la requête présente un terme connu dans
l'ontologie et qui est lié à d'autres termes, ceux-ci sont suggérés.
Si la requête se caractérise par une combinaison de mots inconnus dans l'ontologie, un
mécanisme de découpage en termes est lancé. Ce processus assemble l’ensemble des
termes possibles en combinant les termes de la recherche, tout en respectant l'ordre
dans lequel les mots ont été saisis par l'utilisateur. A titre d’exemple, la requête sur les
mots "rupture du contrat de cession", permet d’obtenir du programme les termes
"rupture", "contrat", "cession", "rupture du contrat", "contrat de cession" mais pas les
termes "rupture de cession du contrat" ni "cession du contrat de rupture". Le
programme cherche ensuite si ces termes sont connus dans l'ontologie et ceux trouvés
sont suggérés ainsi que les termes qui lui sont associés.
Ce mécanisme de suggestion de termes offre la possibilité à l'utilisateur soit de
préciser sa recherche ("contrat de travail" au lieu de "contrat"), soit de la généraliser
("nullité" au lieu de "rescision"). La liste des termes suggérés autorise l'utilisateur à
combiner dans une même requête plusieurs termes proches, "contrat" et "convention"
par exemple.
14
Concernant le public visé par cet outil, Il semble que seule une personne spécialiste du
domaine juridique serait apte à en maitriser tout les rouages. Cependant, l’utilisation
dans le langage courant d’expressions juridiques et la suggestion d'un ensemble de
termes liés, peut permettre à un utilisateur de base non juriste d’appréhender ce
système. Ce programme concerne le professionnel du droit et le non spécialiste.
S’agissant du profil des évaluateurs, les auteurs considèrent que ces individus doivent
être des spécialistes du domaine juridique et connaître les enjeux de la recherche
documentaire. Les professionnels travaillant dans les services de documentation des
cabinets d'avocats et des bibliothèques universitaires de droit semblent correspondre à
ce profil.
L’ontologie montre l'utilité d'avoir tel terme lié à tel autre afin de favoriser l'aide
interactive à la reformulation de requêtes. Elle doit permettre de suggérer à l'utilisateur
un terme plus ou moins lié à sa requête de départ.
B. Thésaurus juridique dans l’organisation du langage juridique
Le thésaurus est différent et complémentaire de l’ontologie sémantique. Il existe un
exemple belge de thésaurus intitulé « universele thésaurus universel » et au niveau
européen, le programme Eurovoc.
Présentation des fonctions du thésaurus dans le Web 3.0
Au commencement des bases documentaires informatiques, la recherche de documents
se réalisait via des indexes. Il y avait alors un effort fait en amont de désignation des
termes descripteurs aux documents. L’indexation manuelle autorisait, grâce à des
requêtes sur ces descripteurs, de localiser les documents recherchés.
Les thésaurus 9 ont été imaginés dans l’optique de rendre accessible ce langage
d’indexation manuelle et d’en hiérarchiser les éléments pour simplifier la quête
d’information. Un thésaurus consiste alors en un langage documentaire spécifique qui
se présente comme une liste de catégorie de termes sur une branche de savoir précis,
liés entre eux par des relations synonymiques, hiérarchiques et associatives. Le
thésaurus a pour objet de constituer un vocabulaire normalisé organisé sous la forme
d’un dictionnaire hiérarchisé.
9 Guiraude Lame détermine le rôle du thésaurus dans sa thèse« Construction d’ontologie à partir de textes Une ontologie du droit dédiée à la recherche d’informations sur le Web » : « Le thésaurus rassemble alors les termes (ou descripteurs) autour de concepts par le biais de relations telles que terme générique, terme spécifique, terme associé, termes équivalents. »
15
En revanche, un thésaurus privilégie les liens entre les termes et leurs sélections. La
présence de définitions dans ce type de programme est ainsi plus rare.
La création de normes informatiques précises, comme dans le cas des ontologies,
soulève des problématiques communes (ressources, hiérarchie, réutilisation, etc.).
Cependant, les thésaurus et les ontologies sont avant tout des programmes distincts et
complémentaires.
Un thésaurus est un type particulier de langage documentaire composé d'un
ensemble hiérarchisé et structuré de concepts constitués par des termes qui n’a pas
pour ambition, comme l’ontologie, de procéder à une reformulation des requêtes.
Un thésaurus comporte deux types de termes: les descripteurs servant à indexer un
document et les non-descripteurs qui ne peuvent pas indexer un document, et qui
guident l’utilisateur vers le descripteur à utiliser.
La fonction d’un thésaurus est d’être un outil de recherche non négligeable pour
l'utilisateur d'un catalogue électronique ou d'une banque de données bibliographiques.
Le chercheur peut formuler des requêtes par le biais des descripteurs ou un non-
descripteur, ce qui contribue, dans une grande probabilité des cas, à limiter le silence
documentaire et le bruit.
La construction d’un thésaurus se fait, soit manuellement par le travail d'une ou de
plusieurs personnes, et donc par l’intervention d’une intelligence humaine, soit de
manière automatique, par l’usage de l'intelligence artificielle grâce à des programmes
d’élaboration automatique de thésaurus, soit par une action conjointe de l’action
humaine et automatique.
Des systèmes de traitement automatique de textes, comme l’indexation
automatique, rendent possible la localisation des termes les plus fréquemment utilisés
dans un corpus et facilitent la mise en évidence de leurs liens sémantiques. Les
catégories d'un thésaurus sont élaborées de manière hiérarchique et présentent aussi
des microthésaurus classés alphabétiquement.
Cette hiérarchie a pour but de favoriser la précision de l'indexation ou de la recherche.
L'indexation s'appuie ainsi sur l'identification des termes précis, tandis que la
recherche selon les cas utilise les termes génériques dans le but d’obtenir le plus grand
nombre de réponses.
L’exemple du thésaurus juridique belge et européen conforme au Web 3.0 dans
l’organisation de l’information juridique
16
L’universel thésaurus universel (UTU) est un programme de classification et de
hiérarchisation constitué en forme arborescente visant à structurer les multiples
sources du droit, comme la législation, la jurisprudence et la doctrine. Les
concepteurs ont voulu que cette structure ait pour vocation de comporter tout les
domaines du droit.
L’UTU permet aux instances publiques de classer, par un même système, la législation
et ses travaux préparatoires, la jurisprudence, les circulaires, les avis et les questions
parlementaires.
Elle offre la possibilité aux éditeurs d’organiser un ensemble d’information juridique
dans une banque de données, pour faciliter la création de projets éditoriaux. L’UTU
laisse aussi la liberté aux praticiens juristes de classer leurs documents juridiques, et de
construire leurs propres bases de données, ce qui rejoint le concept de knowledge
management 10
.
La structure d'arbre de ce thésaurus nécessite que la classification soit conforme à une
méthode analytique du droit. Cette structure s’oppose ainsi au registre de mots clé où
les notions sont classées alphabétiquement.
La mise en forme de l’arborescence pour les différentes branches du droit a poussé les
créateurs du thésaurus à se référer au texte législatif qui pose les bases de la matière.
Les secteurs suivants ont été déterminés : Droit public, Droit civil, Droit judiciaire,
Droit économique, Droit pénal, Droit fiscal, Droit social. Dans chaque branche du
droit, les sous-niveaux ou microthésaurus sont classés alphabétiquement.
L’UTU est donc conçu de manière ordonnée. Le droit européen et le droit international
ont fait l’objet d’une intégration dans les différentes branches du thésaurus belge, et
ne représentent pas une catégorie distincte.
Eurovoc est un thésaurus multilingue ayant pour ambition de traiter tout les objets
d’intervention de l'Union européenne. Il a pour vocation de classer les documents dans
les bases de données des institutions européennes. Cet outil documentaire vise à
faciliter les travaux du Parlement européen, de l'Office des publications des
Communautées européennes, des parlements nationaux et régionaux en Europe, des
10 Le Knowledge Management est constitué par l'ensemble des initiatives, des méthodes et des techniques permettant d'identifier, d'analyser, d'organiser, et de partager des connaissances entre les membres d’une même société en vue d'atteindre l'objectif fixé. La diffusion des savoirs se fait soit en interne par l'entreprise elle-même (marketing, recherche et développement) ou soit en externe (intelligence économique).
17
administrations nationales et de certaines organisations européennes. Ce thésaurus
résulte du travail conjoint des institutions européennes, des parlements nationaux et
des utilisateurs d'Eurovoc.
EUROVOC a été programmé pour indexer les documents dans les bases de données
documentaires des instances européennes. L’encyclopédisme 11
de ce thésaurus
constitue son principal défaut. En effet, les utilisateurs les plus expérimentés n’ont pas
la possibilité d’indexer de manière approfondie leurs fonds juridiques.
La partie droit du thésaurus n’est pas suffisamment développée pour les spécialistes
dans un domaine juridique précis.
Cependant, les centres de ressources spécialisés peuvent en faire usage pour les
branches du droit qui ne relèvent pas de leurs compétences. Eurovoc est en effet
amené à traiter des domaines de connaissance de plus en plus vastes. Il est possible de
trouver par le biais de ces multiples micro-thésaurus le moyen de classer ou d’indexer
un groupe de documents atypiques.
Dans le domaine du droit, ce thésaurus contient des sous-catégories concernant
notamment le droit civil, le droit pénal, la justice, l’organisation de la justice, le droit
international et les libertés.
On peut prévoir dans un futur proche que les outils du Web 3.0 comme le thésaurus et
l’ontologie vont se développer et devenir la norme dans l’organisation de l’information
juridique. Cependant on peut se demander si le Web 3.0 a pour vocation de supplanter
le web « classique » par le traitement automatique d’informations formalisées. Ces
nouveaux protocoles de communication et langages standards semblent permettre le
développement de nouveaux usages qui se généraliseront peut être à l’ensemble du
monde informatique
11 Critique émise par Stéphane Cottin sur son site servicedoc.info
18
Bibliographie
Ouvrages et articles
Y. MAIGNIEN, « le web sémantique », Encyclopedia Universalis ;
Y. MAIGNIEN, « Bibliothèques numériques : les aiguilleurs du Web », in Bulletin de
l'Association des bibliothécaires de France, no 174, 1997 ;
R. PEDAUQUE, T. LUND, M. WINFELD, La redocumentarisation du monde,
Cépaduès, 2007 ;
J. CHARLET, P. LAUBLET, C. REYNAUD, « Le web sémantique », Information
Interaction Intelligence n° hors série, 2005. ;
D. BOURIGAULT, G. LAME, « Analyse distributionnelle et structuration de
terminologie. Application à la construction d'une ontologie documentaire du droit »,
revue TAL n°10, 2001 ;
G. LAME, « Construction d’ontologie à partir de textes Une ontologie du droit dédiée
à la recherche d’informations sur le Web », thèse soutenue à l’Ecole des Mines de
Paris, 6 décembre 2002 ;
Sites internet
Wikipedia.org (entrées : web sémantique et intelligence artificielle) ;
Revue-texto.net ;
Droit.org ;
Servicedoc.info ;
Thesaurusuniversel.be ;
Europa.eu/eurovoc ;
Cern.ch