le web 3.0 et l information juridique - lepetitjuriste.fr web 3.0 et l... · les bibliothèques...

1

Master professionnel en droit, mention sociologie du droit et communication juridique Université Paris II Panthéon-Assas

Le web 3.0 et l’information juridique

Ledesert Eloi Magoutier Paul Métiers de l’édition en droit, Mr Guillaume Deroubaix.

2

Un proverbe dit, sagement : « Si tu veux savoir où tu vas, regardes d'où tu viens

». Peut-on l’appliquer à la génération web à venir ?

Régi par un nombre impressionnant d’avancées technologiques, l’avenir du web et de

la place de l’information est l’objet de spéculations diverses. Aujourd’hui encore, les

algorithmes les plus performants sont incapables de hiérarchiser l’information sur le

web. Effectuer une recherche suppose une attente et une intention ou une volonté d’y

répondre.

La recherche suppose aussi qu’il existe une taxinomie formelle et sémantique de

l’environnement. Les bibliothèques jouent ce rôle. Au fond, une bibliothèque, depuis

Alexandrie, est reconnue comme « un lieu de médiation, de connaissances, un lieu

humain et social de rencontres et d'échanges »1.

Une bibliothèque numérique demeure-t-elle porteuse, virtuellement, d'une telle

mission, et au prix de quelles mutations inédites ?

Les machines capables de décrypter des éléments d’intention et d’effectuer des

rapprochements sémantiques seront des machines intelligentes. Celles que nous

connaissons ne le sont pas ou pas encore…

Le web est une immense toile qui permet d’échanger et de stocker des informations de

tous types. Le web est originairement synonyme d’ouverture et de souplesse de

l’information. Les avancée technologiques de certains langages informatiques de

structuration et de balisage ont permis l’appropriation par les utilisateurs de cette

architecture, à la fois complexifiée dans ses performances et simplifiée dans son usage.

Chacun est devenu émetteur, récepteur, transformateur, fabriquant de flux ou de

contenu web. Cette étape, diffuse dans son apparition a été baptisée le web 2.0 par

opposition aux origines du web, 1.0. L’architecture actuelle permet une indexation et

un référencement performants des sites, des titres mais non des contenus mêmes.

Jusque lors, la métaphore de la cartographie a dominé la pensée de l’internet. On

évolue sur la toile à l’aide de navigateurs, on y surfe de site en site. A l’image de

l’océan, tout est horizontal et homogène. Les machines lisent les serveurs à l’aide de

cartes, peu diversifiées (Google, premier et presque seul moteur de recherche).

Les dénominations 1.0 et 2.0 ont émergé a posteriori du constat d’une évolution

générale.

1 Web sémantique, Yannick Maignien, Encyclopedia Universalis

3

Le web 3.0 est au contraire l’anticipation d’une génération à venir. L’imagination

repose sur des bases concrètes : on peut sérieusement prédire la fusion de certains

langages et syntaxes et leur universalisation, la création d’outils d’indexation

performants (thésaurus, ontologies…), la numérisation massive de contenus,

l’augmentation du débit et les meilleures possibilités de stockage. Ces étapes à venir

entraineront des changements majeurs dans le mode de traitement de l’information sur

le web. On ne pense plus en termes de sites Web mais de « solutions Web »

interopérables, universelles, mobiles et accessibles.

Néanmoins, comme toute anticipation, elle comporte une part de prédiction, laissant

libre cours à l’imagination et aux fantasmes de l’intelligence artificielle. Une réponse

sérieuse à la question du web 3.0 prend donc en compte à la fois la dimension

hautement technique de l’informatique mais également des éléments de philosophie

de l’intelligence et de la connaissance.

Le terme de « données » propre à la science informatique sera dépassé puisque le web

« intelligent » naviguera sur des contenus porteurs de sens. Ce sens est ainsi supposé

s’intégrer à la structure du web.

Aussi, la traduction nécessaire d’une information en donnée informatique a déshabillé

le contenu de la parure et du support des documents. On peut imaginer que le web 3.0

réinstaurera la notion de document au sein de son architecture même.

Cette convergence d’aspects formels et de sémantique est dénommé métadonnée ou

métainformation.

Beaucoup d’enjeux gravitent autour du web 3.0 avec avant tout, le statut de

l’information. Les métadonnées permettront ainsi de gagner en intelligence artificielle

dans des proportions encore inconnues. Elles assureront une hiérarchisation de

l’information absolument nécessaire dans certains domaines tels que l’information

juridique et l’information professionnelle en générale. Enfin, cette indexation

sémantique garantira une pertinence de la recherche qui fait encore défaut sur le web

2.0.

L’enjeu est particulièrement propre aux bibliothèques et éditeurs dont le rôle de

structuration et de diffusion sera au cœur du web 3.0. Inquiets pour leur avenir, ils

perçoivent alors, dans des limites encore inconnues, le chantier ouvert du web

sémantique et de la numérisation des documents réactivant l'utopie des bibliothèques

universelles.

4

Rappelons que l’entreprise de Google est partie du souhait de deux étudiants d’indexer

la bibliothèque de l’université de Stanford aux Etats-Unis.

La nécessité d’un web investi par les bibliothécaires est également pertinente pour le

stockage, l’archivage et la pérennité des documents électroniques. Si on salue la

rapidité et la souplesse de l’information, il faut souligner son manque de pérennité. Le

web 3.0 doit permettre de penser, comme un choix de société, les documents à

conserver et transposer sur le web, la notion renouvelée de dépôt légal.

L’enjeu est transposable à l’information juridique qui, produite par des autorités, doit

évoluer dans un milieu hiérarchisé et pérenne. Le web 3.0 doit concilier ouverture et

hiérarchisation.

Enfin, l’enjeu est économique : quel modèle économique le web 3.0 va-t-il consacrer

aux auteurs, éditeurs, bibliothèques, utilisateurs/lecteurs et entreprises du Web ?

Rechercher une information sera plus rapide, plus souple, plus pertinent grâce à une

intelligence du sens des mots et de la hiérarchie des réponses. Le web 3.0 offrira du

relief.

Il convient donc d’approcher le web 3.0 du point de vue de l’intelligence artificielle :

fond et forme étant rapprochés dans une nouvelle architecture, la recherche sera-t-elle

intelligente ? (I).

Aussi, appliqué à l’information juridique, il est opportun de présenter l’ontologie du

web sémantique et le thésaurus aux travers d’exemples et de projets en cours sur le

droit : comment fonctionne une recherche web 3.0 en droit ? (II).

I. Le 3.0, futurologie du web intelligent

Parler de web intelligent suppose de définir l’intelligence. Dans le dialogue homme-

machine, il existe certaines limites cognitives. Toutefois, l’intelligence artificielle peut

se focaliser sur le concept de métadonnées, apparence d’intelligence qui réhabilitent le

document comme support de classification sur le web.

A. Entre cognitivisme et connexionnisme

On peut aisément rapprocher les interrogations sur le dialogue des hommes avec les

animaux de celles sur l’intelligence du web.

5

Les animaux ressentent et transmettent des émotions : imitation ou réelle

compréhension de l’intention ?

Limites de l’intelligence artificielle

Si vous proposez à un singe bonobo un verre de jus d’orange, un mets qu’il apprécie

particulièrement et que ce verre est accidentellement renversé, le singe va être triste,

va peut-être pleurer et tenter de remettre le liquide dans le verre. Si vous répétez

l’opération en renversant ostensiblement et intentionnellement le verre, le singe aura

exactement la même réaction. Il ne perçoit pas l’intention derrière le geste. Il en est de

même des enfants jusqu’à l’âge de 3 ou 4 ans environ.

Cette expérience répondait à l’interrogation de la pensée morale des animaux. Les

ordinateurs, tout comme les animaux, ne perçoivent pas l’intention.

Or, la recherche d’information repose sur une intention. Entrez dans la barre de

recherche Google les termes « Paris » et « Hilton » : que cherche-t-on ? Des

informations people ou un hôtel Hilton à Paris ?

Le même moteur de recherche sait trouver des sites d’horaires de train, il ne sait pas

donner directement les horaires du train que l’on compte prendre.

L’intelligence artificielle connaît ainsi une sérieuse limite.

Une pensée primitive ?

Néanmoins, on peut attendre du web 3.0 une pensée « primitive » assez puissante.

L’intelligence artificielle est la recherche de moyens susceptibles de doter les systèmes

informatiques de capacités intellectuelles comparables à celles des êtres humains,

conforme à l’initiative d’Alan Turing dans une tentative de définition d'un standard

permettant de qualifier une machine de » consciente » et de « compréhension de ses

propres raisonnements ». On parle pour le Web d’ « architecture cognitive ».

Loin de la notion de conscience de soi, elle suppose a minima une relative autonomie

et un dialogue en réseau.

6

Le dialogue utilise des préceptes dégagés par François Rastier 2, sémanticien et

directeur de recherche au CNRS : objectivité (utilisation d'une base de connaissances

par le système), textualité (prise en compte d'interventions de plus d'une phrase,

qu'elles émanent du système ou de l'utilisateur), apprentissage (intégration au moins

temporaire d'informations issues des propos de l'utilisateur), questionnement (demande

de précisions de la part du système), rectification (suggestion de rectifications à la

question posée, lorsque nécessaire),explicitation (explicitation par le système d'une

réponse qu'il a apportée précédemment).

Ces préceptes induisent la complémentarité nécessaire dans un système informatique

du connexionnisme et du cognitivisme. Ces deux voies de construction d’une pensée

dégagées par les sciences cognitives sont à la fois contradictoires et complémentaires.

Appliquées à l’informatique et aux machines, le cognitivisme 3 considère qu’un

ordinateur manipule essentiellement des symboles élémentaires. Le stockage de la

mémoire se fait d'une manière constructive. Pour la simple petite perception, un travail

de stockage et d'interprétation est enclenché. L'information se dirige premièrement

dans la mémoire sensorielle, qui se dirige ensuite dans la mémoire à court terme pour

ensuite être traduite et classée dans la mémoire à long terme. Tout système cognitif a

une architecture à trois composantes :

- une base de connaissances ou mémoire à long terme

- une instance de traitement

- un moteur d'inférences

La mémoire guide la perception à travers deux traitements de l'information :

Le mode ascendant - d'une information donnée, la machine tire des conclusions grâce

à notre mémoire à long terme.

Le mode descendant - grâce aux schèmes et scripts que l’ordinateur stocke, il peut

anticiper des situations. La pensée est donc perçue comme une manipulation de

symboles combinés par des règles abstraites d’inférence.

Le principe de base du connexionnisme 4 est quant à lui, que les phénomènes

d’intelligence peuvent être décrits à l'aide de réseaux d'unités simples interconnectées.

Chaque unité du réseau est un mot et chaque connexion, un indicateur de similarité

sémantique.

2 Pour un développement, cf. François Rastier (2008) «Sémantique du web vs semantic web ?», Texto ! 3 Cf. La société de l’esprit, Marvin Minski, Intereditions, 1988 4 Cf. Rui Da Silva Neves, « Le connexionnisme. Les assemblées de neurones », Sciences humaines, hors-série spécial, n° 7, septembre-octobre 2008

7

L’intelligence est alors supposée se trouver dans l'agencement des connexions et non

pas directement dans une suite de calculs. Un concept important pour les modèles

connexionnistes est celui d'activation. À chaque instant, une unité du réseau a un

certain niveau d'activation.

Ici, la pensée émerge de plusieurs processus élémentaires, conçus généralement sur le

modèle des neurones du cerveau humain. Massivement connectés les uns aux autres,

leur fonctionnement en parallèle permet de coder et de reconnaître des « formes ».

Or, les ordinateurs atteignent des performances de connexion et une rapidité de

traitement des connexions supérieures à celles de l’être humain. De plus, ces

ordinateurs peuvent fonctionner en réseau et dialoguer. Ces deux voies mises

ensemble, connexionnisme et cognitivisme permettraient aux ordinateurs d’apprendre

par eux-mêmes et augmenter ainsi leur connaissance dans des limites encore

inconnues.

B. Les métadonnées

Plus concrètement, il est important d’aborder la notion de métadonnées. Elles

constituent l’architecture du web 3.0 et permettent à l’intelligence artificielle de

fonctionner.

Un web structuré fonctionne avec des métadonnées.

Définition

Ces informations de l’information correspondent à des marqueurs que l'on introduit

dans les fichiers ou dans des langages de programmation appropriés, les langages de

marquage XML. Ces métadonnées sont elles-mêmes exprimées en langage de

structuration ou de balisage.

Les marqueurs ont pour effet d'améliorer l'efficacité des recherches d’information par

rapport aux recherches plein texte.

Les ressources numériques balisées transportent avec elles leurs propres métadonnées

lorsqu'elles sont téléchargées, copiées, répliquées ou transmises par des messageries

électroniques.

8

Ceci s'applique à tous les types de ressources numériques (texte, son, image,

multimédia).

Les métadonnées sont ainsi l'un des principaux éléments de l'étiquetage avec les tags,

surtout dans le Web 2.0.

Le potentiel des métadonnées du web 3.0 est beaucoup plus important, car elles

peuvent faire interopérer les ressources informatiques, dans la mesure où elles ont été

paramétrées et structurées dans des dictionnaires de données. On peut alors faire

communiquer les bases de données classiques et les données non structurées

(documents, images, manipulés en gestion de connaissance...).

La notion au cœur des métadonnées est l’interopérabilité qui n’est pas synonyme

d’uniformité : l’interopérabilité d’un système permet à celui-ci d’utiliser d’autres

systèmes et inversement. L’opérabilité n’est pas non plus la compatibilité des systèmes

qui autorise un programme informatique à fonctionner en harmonie avec les autres.

L’interopérabilité est transversale. Cette performance suppose la convergence de

plusieurs langages et codages informatiques en dépassant en premier lieu la division

entre images (pixels) et textes (caractère).

Le langage RDF (Ressource Description Framework) crée les conditions

d’interopérabilité.

Un tel effort de normalisation devrait permettre une interaction accrue des contenus

numérisés. D'où la possibilité de construire des ontologies, ou du moins des

hiérarchies de catégories permettant ensuite de rendre le Web sémantique, et de faire

en sorte que des machines puissent « comprendre » et non seulement « lire » les

contenus des sites Web.

D'ores et déjà, des moteurs de recherche très performants, comme Google, s'appuient

sur cette logique d'indexation.

Nous n'en sommes vraisemblablement qu'à l'aube d'une ère où les représentations des

connaissances, issues des contenus des collections numérisées elles-mêmes,

permettront en retour une exploitation optimale des contenus.

Les métadonnées permettront à un moteur de recherche d’affiner celle-ci par l’accès

du moteur aux différents langages, aux réseaux sociaux et historique des recherches

autour d’un terme (toute recherche est par essence subjective) et la pertinence déjà

9

utilisée. Cette avancée peut-être particulièrement bénéfique aux communautés de

chercheurs et professionnels qui sont structurées sur une pertinence de notoriété.

Hiérarchie de l’information sur le web : réhabilitation du document ?

L’apparition du web 2.0 et les capacités accrues de numérisation ont mis en ligne des

données sans respecter le support original. Le document a clairement été mis à mal. La

souplesse et l’ubiquité du document électronique a entraîné son uniformisation.

De même, a été balayée, la pertinence, du partage social des rôles qu'historiquement

l'État et les bibliothèques d'un côté, le marché et l'édition de l'autre, se sont

traditionnellement attribués. Aux premiers, le soin d'organiser le dépôt légal 5, de

conserver, de donner accès et de favoriser la lecture publique, la recherche et

l'instruction, de mettre en œuvre les outils bibliographiques nécessaires, de valoriser le

patrimoine culturel, etc. Aux seconds, la capacité d'organiser la production des

créateurs, d'en mettre en œuvre la fabrication, l'impression, la diffusion, la

commercialisation et la valorisation, etc.

De plus, le droit et la jurisprudence en particulier, tendent à considérer que le

numérique ne change fondamentalement rien au droit d'auteur et à son parent, le

copyright.

Le web 3.0 offre la possibilité de repenser le document et sa diffusion : il sera à la

fois une architecture informatique et sémantique mais aussi un modèle économique.

Les métadonnées connaissent déjà une avance dans les domaines de l’information

professionnelle. On peut gager que l’évolution se fera de façon centrifuge, poches par

poches. L’accès aux connaissances et la mise en forme numérique sont les deux axes

majeurs de la réflexion.

Si son envergure reste limitée, le moteur de recherche comme Gallica, bibliothèque

numérique de la BNF préfigure ce que sera la hiérarchie du web 3.0. L’enjeu est alors

dans la coopération qui implique de penser celle-ci juridiquement. C’est pourquoi

l’Union Européenne soutient activement des projets comme le SAWD (Semantic Web

Advanced Deployment) soutenu par le ERCIM (European Research Consortium for

Informatics and Mathematics), INRIA en France.

Viviane Reding, commissaire européenne chargée de la société de l'information et des

médias, déclarait en avril 2009 : « Le Web 3.0 est synonyme d'activités commerciales,

5 Thème évoqué dans l’article : Web sémantique, Yannick Maignien, Encyclopedia Universalis

10

sociales et récréatives, en tout lieu et tout moment, à l'aide de réseaux rapides, fiables

et sûrs. Il met fin à la distinction entre connexions mobiles et fixes et annonce une

multiplication par dix de la portée de l'univers numérique d'ici à 2015. L'Europe

dispose des connaissances et des capacités de réseau nécessaires pour être à la pointe

de cette évolution. Nous devons faire en sorte que le Web 3.0 soit créé et utilisé en

Europe ».

Ces éléments montrent qu’au-delà des spéculations sur le système du Web 3.0, il y a

toujours un cerveau, une tête pensante au sens noble du terme derrière l’information et

sa hiérarchisation. Nos sociétés, dites de « l’information », récompensent ceux qui sont

les mieux informés. L’avocat, le conseiller politique, le lobbyiste, l’analyste

financier… Le web 3.0 permettra t il un accès plus démocratique à l’information ?

Après avoir abordé la futurologie du Web 3.0, il convient de présenter le web

sémantique, à l’avenir plus proche et son application au domaine juridique. Web

sémantique et science juridique offrent en effet de nombreuses perspectives.

II. Web 3.0 et droit

A. Le web sémantique et le langage juridique

Le web sémantique est un modèle de construction des documents numériques qui tente

d’intégrer les connaissances. Il trouve une application concrète en droit.

Présentation du web sémantique

Ce mouvement popularisé par Tim Berners-Lee 6 s’appuie sur des ontologies. Il s’agit

d’entrer dans le contenu pour y appliquer un raisonnement.

Plus précisément, ce modèle ambitionne construire un métalangage, fondé sur des

ontologies, représentant de façon formelle le contenu des documents qui pourra servir

de référence à des modèles informatiques 7. Le web sémantique est considéré par son

concepteur comme une extension du Web. En effet, Tim Berners-Lee conçoit le Web

6 Une présentation historique des travaux de Tim Berners-Lee est consultable sur le site cern.ch 7 Stéphane Cottin (chef de service du Greffe et de l’Informatique du Conseil constitutionnel) donne un complément de définition sur la notion d’ontologie. Il les définit comme « des structures de -conceptualisations qui décrivent des domaines de spécialité en organisant les concepts et relations ; elles sont dédiées à certaines fonctions ou applications. Les ontologies jouent un rôle clé dans le Web sémantique et dans les nouvelles générations de systèmes d’information ».

11

sémantique comme un vaste espace d’échange de ressources entre êtres humains et

machines. Ce système vise à une meilleure exploitation de grands volumes

d’informations et de services variés.

Les utilisateurs seraient alors déchargés d’une part conséquente de leurs tâches de

recherche, de construction et de combinaison des résultats grâce aux capacités accrues

des machines à accéder aux contenus des ressources et à effectuer des raisonnements

sur ceux-ci. Le Web actuel est syntaxique dans le sens où la structure des documents

est bien définie mais son contenu reste quasiment inaccessible aux traitements de

machines. Seuls les humains peuvent interpréter leurs contenus.

La nouvelle génération de Web a pour ambition de lever cette difficulté. Cette

ambition nécessite une représentation sémantique des contenus via les ontologies. Tout

ceci n’est possible que si l’ensemble des contributeurs au Web sémantique respectent

une infrastructure commune via les langages XML et RDF.

Le Web sémantique est d’abord une infrastructure privilégiant l’utilisation de

connaissances formalisées en plus du contenu informel actuel du Web. Cette

infrastructure doit permettre d’abord de localiser, d’identifier et de transformer des

ressources tout en favorisant l’esprit d’ouverture du Web avec sa diversité

d’utilisateurs. Elle doit s’appuyer sur un certain niveau de consensus portant sur les

langages de représentation ou sur les ontologies utilisées. Elle doit contribuer à

assurer, le plus automatiquement possible, l’interopérabilité et les différentes

ontologies.

Ce système vise à faciliter la mise en œuvre de raisonnements complexes tout en

offrant des garanties supérieures sur leur validité. Le Web sémantique doit s’engager à

offrir des mécanismes de protection (droits d’accès, d’utilisation et de reproduction)

ainsi que des raisonnements automatiques permettant de qualifier les connaissances.

La finalité de ce nouveau Web est d’augmenter le niveau de confiance des utilisateurs.

Un exemple de proposition d’une ontologie du Droit français conforme au Web

3.0 pour la reformulation de requêtes sur le Web

Didier Bourigault, membre de l’Equipe de Recherche en Syntaxe et Sémantique au

CNRS et à l’Université Toulouse Le Mirail, et Guiraude Lame membre du Centre de

Recherche en Informatique à l’Ecole Nationale Supérieure des Mines de Paris, ont

12

proposé l’élaboration d’une ontologie documentaire du Droit visant à simplifier la

navigation et la recherche au sein du site juridique www.droit.org 8.

Ce site présente l'édition des lois et décrets du Journal Officiel de la République

française, ce qui représente un ensemble de plus de 95 000 documents. Il contient

également les codes du droit français et des textes européens tels que les directives

ou règlements. Les travaux menés résultent d’une collaboration avec ce site.

Le réseau de termes qui constitue l'ontologie a été construit à partir de l'analyse du

corpus de référence composé des 12 codes (Code civil, de. l'urbanisme code de l'action

sociale et des familles, code civil, code de commerce, code de l'environnement, livre

des procédures fiscales, code de la justice administrative, code de l'organisation

judiciaire, code pénal, nouveau code de procédure civile, code de procédure pénale,

code de la propriété intellectuelle, code du travail.

Ce réseau de termes structurés est au cœur de la construction de l’ontologie. Il est

intégré dans une interface d’accès aux documents du site droit.org dans lequel il est

utilisé comme index thématique. C’est par cet index que l’utilisateur peut naviguer

pour définir ou préciser sa requête. Il peut l’utiliser comme une ressource pour un

module d'expansion de requête.

S’agissant du contexte général de l’étude présentée par Bourrigault et Lame, l’objectif

a été la construction d'une ontologie documentaire du Droit. Les auteurs entendent

par "ontologie" « un ensemble de termes et de concepts structurés entre eux par des

liens de divers types où chaque concept peut présenter plusieurs sens thématiques ».

Dans le cas de l’étude, les applications de cette ontologie sont destinées à la recherche

documentaire (système d'aide à la reformulation de requête, catégorisation de

documents). Ce réseau est donc plus proche du thésaurus qui ne propose cependant pas

de projet de reformulation des requêtes.

L'ontologie est ainsi utilisée par le moteur de recherche du site Droit.org, d'une part

pour favoriser la reformulation ou l'expansion de requêtes, et d'autre part pour la

classification automatique des documents trouvés. Le mécanisme d'expansion de

requête se fonde sur les relations entre les termes présents dans l’ontologie pour

indiquer des catégories d'interrogation proches de celles émises par l'utilisateur.

L'interface de l’ontologie documentaire du droit français présente deux objectifs. Ces

objectifs sont la visualisation et la navigation dans le réseau de termes du domaine

8 Ces travaux sont exposés dans l’article « Analyse distributionnelle et structuration de terminologie. Application à la construction d'une ontologie documentaire du droit » parue à la revue TAL

http://www.droit.org/

http://www.atala.org/tal/

13

avec la possibilité de lancer des recherches sur ces termes, et son interaction avec les

requêtes d'utilisateurs d'un moteur de recherche.

La visualisation de l’ontologie permet à l’utilisateur de comprendre les possibilités qui

lui sont ouvertes. Elle lui offre une vision simple de la présentation des termes du

domaine et de leurs liens. Cette visualisation confère aussi un aspect pédagogique à

l'ontologie. Dans l’optique de rendre accessible le site au plus grand nombre, la

navigation dans l'ontologie se fait par l’usage de liens hypertextuels. L'accès aux

termes est organisé selon un alphabet. Chaque lettre permet d'accéder à une liste de

noms. Un clic sur un nom aboutit à présenter l'ensemble des catégories ayant ce nom

pour tête ainsi que l'ensemble des termes qui lui sont liés.

Le but poursuivi par cette ontologie est, dans un premier temps, de rendre accessible la

navigation dans l’index thématique. Dans un second temps, elle s’occupe de

l'expansion de requête en suggérant à l'utilisateur des termes plus ou moins liés à ceux

de sa recherche. L’ontologie se caractérise comme un complément d'un moteur de

recherche. C’est aussi un intermédiaire entre les requêtes des utilisateurs et le moteur

lui-même.

Concrètement, un programme analyse les termes saisis par l'utilisateur dans le

formulaire html dédié à la recherche. Si la requête présente un terme connu dans

l'ontologie et qui est lié à d'autres termes, ceux-ci sont suggérés.

Si la requête se caractérise par une combinaison de mots inconnus dans l'ontologie, un

mécanisme de découpage en termes est lancé. Ce processus assemble l’ensemble des

termes possibles en combinant les termes de la recherche, tout en respectant l'ordre

dans lequel les mots ont été saisis par l'utilisateur. A titre d’exemple, la requête sur les

mots "rupture du contrat de cession", permet d’obtenir du programme les termes

"rupture", "contrat", "cession", "rupture du contrat", "contrat de cession" mais pas les

termes "rupture de cession du contrat" ni "cession du contrat de rupture". Le

programme cherche ensuite si ces termes sont connus dans l'ontologie et ceux trouvés

sont suggérés ainsi que les termes qui lui sont associés.

Ce mécanisme de suggestion de termes offre la possibilité à l'utilisateur soit de

préciser sa recherche ("contrat de travail" au lieu de "contrat"), soit de la généraliser

("nullité" au lieu de "rescision"). La liste des termes suggérés autorise l'utilisateur à

combiner dans une même requête plusieurs termes proches, "contrat" et "convention"

par exemple.

14

Concernant le public visé par cet outil, Il semble que seule une personne spécialiste du

domaine juridique serait apte à en maitriser tout les rouages. Cependant, l’utilisation

dans le langage courant d’expressions juridiques et la suggestion d'un ensemble de

termes liés, peut permettre à un utilisateur de base non juriste d’appréhender ce

système. Ce programme concerne le professionnel du droit et le non spécialiste.

S’agissant du profil des évaluateurs, les auteurs considèrent que ces individus doivent

être des spécialistes du domaine juridique et connaître les enjeux de la recherche

documentaire. Les professionnels travaillant dans les services de documentation des

cabinets d'avocats et des bibliothèques universitaires de droit semblent correspondre à

ce profil.

L’ontologie montre l'utilité d'avoir tel terme lié à tel autre afin de favoriser l'aide

interactive à la reformulation de requêtes. Elle doit permettre de suggérer à l'utilisateur

un terme plus ou moins lié à sa requête de départ.

B. Thésaurus juridique dans l’organisation du langage juridique

Le thésaurus est différent et complémentaire de l’ontologie sémantique. Il existe un

exemple belge de thésaurus intitulé « universele thésaurus universel » et au niveau

européen, le programme Eurovoc.

Présentation des fonctions du thésaurus dans le Web 3.0

Au commencement des bases documentaires informatiques, la recherche de documents

se réalisait via des indexes. Il y avait alors un effort fait en amont de désignation des

termes descripteurs aux documents. L’indexation manuelle autorisait, grâce à des

requêtes sur ces descripteurs, de localiser les documents recherchés.

Les thésaurus 9 ont été imaginés dans l’optique de rendre accessible ce langage

d’indexation manuelle et d’en hiérarchiser les éléments pour simplifier la quête

d’information. Un thésaurus consiste alors en un langage documentaire spécifique qui

se présente comme une liste de catégorie de termes sur une branche de savoir précis,

liés entre eux par des relations synonymiques, hiérarchiques et associatives. Le

thésaurus a pour objet de constituer un vocabulaire normalisé organisé sous la forme

d’un dictionnaire hiérarchisé.

9 Guiraude Lame détermine le rôle du thésaurus dans sa thèse« Construction d’ontologie à partir de textes Une ontologie du droit dédiée à la recherche d’informations sur le Web » : « Le thésaurus rassemble alors les termes (ou descripteurs) autour de concepts par le biais de relations telles que terme générique, terme spécifique, terme associé, termes équivalents. »

http://fr.wikipedia.org/wiki/Dictionnaire

15

En revanche, un thésaurus privilégie les liens entre les termes et leurs sélections. La

présence de définitions dans ce type de programme est ainsi plus rare.

La création de normes informatiques précises, comme dans le cas des ontologies,

soulève des problématiques communes (ressources, hiérarchie, réutilisation, etc.).

Cependant, les thésaurus et les ontologies sont avant tout des programmes distincts et

complémentaires.

Un thésaurus est un type particulier de langage documentaire composé d'un

ensemble hiérarchisé et structuré de concepts constitués par des termes qui n’a pas

pour ambition, comme l’ontologie, de procéder à une reformulation des requêtes.

Un thésaurus comporte deux types de termes: les descripteurs servant à indexer un

document et les non-descripteurs qui ne peuvent pas indexer un document, et qui

guident l’utilisateur vers le descripteur à utiliser.

La fonction d’un thésaurus est d’être un outil de recherche non négligeable pour

l'utilisateur d'un catalogue électronique ou d'une banque de données bibliographiques.

Le chercheur peut formuler des requêtes par le biais des descripteurs ou un non-

descripteur, ce qui contribue, dans une grande probabilité des cas, à limiter le silence

documentaire et le bruit.

La construction d’un thésaurus se fait, soit manuellement par le travail d'une ou de

plusieurs personnes, et donc par l’intervention d’une intelligence humaine, soit de

manière automatique, par l’usage de l'intelligence artificielle grâce à des programmes

d’élaboration automatique de thésaurus, soit par une action conjointe de l’action

humaine et automatique.

Des systèmes de traitement automatique de textes, comme l’indexation

automatique, rendent possible la localisation des termes les plus fréquemment utilisés

dans un corpus et facilitent la mise en évidence de leurs liens sémantiques. Les

catégories d'un thésaurus sont élaborées de manière hiérarchique et présentent aussi

des microthésaurus classés alphabétiquement.

Cette hiérarchie a pour but de favoriser la précision de l'indexation ou de la recherche.

L'indexation s'appuie ainsi sur l'identification des termes précis, tandis que la

recherche selon les cas utilise les termes génériques dans le but d’obtenir le plus grand

nombre de réponses.

L’exemple du thésaurus juridique belge et européen conforme au Web 3.0 dans

l’organisation de l’information juridique

http://fr.wikipedia.org/wiki/Normalisation

http://fr.wikipedia.org/wiki/Ontologie_(informatique)

http://fr.wikipedia.org/wiki/Ontologie_(informatique)

http://fr.wikipedia.org/w/index.php?title=Langage_documentaire&action=edit&redlink=1

http://fr.wikipedia.org/wiki/Bruit_et_silence

16

L’universel thésaurus universel (UTU) est un programme de classification et de

hiérarchisation constitué en forme arborescente visant à structurer les multiples

sources du droit, comme la législation, la jurisprudence et la doctrine. Les

concepteurs ont voulu que cette structure ait pour vocation de comporter tout les

domaines du droit.

L’UTU permet aux instances publiques de classer, par un même système, la législation

et ses travaux préparatoires, la jurisprudence, les circulaires, les avis et les questions

parlementaires.

Elle offre la possibilité aux éditeurs d’organiser un ensemble d’information juridique

dans une banque de données, pour faciliter la création de projets éditoriaux. L’UTU

laisse aussi la liberté aux praticiens juristes de classer leurs documents juridiques, et de

construire leurs propres bases de données, ce qui rejoint le concept de knowledge

management 10

.

La structure d'arbre de ce thésaurus nécessite que la classification soit conforme à une

méthode analytique du droit. Cette structure s’oppose ainsi au registre de mots clé où

les notions sont classées alphabétiquement.

La mise en forme de l’arborescence pour les différentes branches du droit a poussé les

créateurs du thésaurus à se référer au texte législatif qui pose les bases de la matière.

Les secteurs suivants ont été déterminés : Droit public, Droit civil, Droit judiciaire,

Droit économique, Droit pénal, Droit fiscal, Droit social. Dans chaque branche du

droit, les sous-niveaux ou microthésaurus sont classés alphabétiquement.

L’UTU est donc conçu de manière ordonnée. Le droit européen et le droit international

ont fait l’objet d’une intégration dans les différentes branches du thésaurus belge, et

ne représentent pas une catégorie distincte.

Eurovoc est un thésaurus multilingue ayant pour ambition de traiter tout les objets

d’intervention de l'Union européenne. Il a pour vocation de classer les documents dans

les bases de données des institutions européennes. Cet outil documentaire vise à

faciliter les travaux du Parlement européen, de l'Office des publications des

Communautées européennes, des parlements nationaux et régionaux en Europe, des

10 Le Knowledge Management est constitué par l'ensemble des initiatives, des méthodes et des techniques permettant d'identifier, d'analyser, d'organiser, et de partager des connaissances entre les membres d’une même société en vue d'atteindre l'objectif fixé. La diffusion des savoirs se fait soit en interne par l'entreprise elle-même (marketing, recherche et développement) ou soit en externe (intelligence économique).

http://fr.wikipedia.org/wiki/M%C3%A9thode_de_travail

http://fr.wikipedia.org/wiki/Technique

http://fr.wikipedia.org/wiki/Organiser

http://fr.wikipedia.org/wiki/Connaissance

http://fr.wikipedia.org/wiki/Savoir

http://fr.wikipedia.org/wiki/Entreprise

http://fr.wikipedia.org/wiki/Marketing

http://fr.wikipedia.org/wiki/Recherche

http://fr.wikipedia.org/wiki/D%C3%A9veloppement

17

administrations nationales et de certaines organisations européennes. Ce thésaurus

résulte du travail conjoint des institutions européennes, des parlements nationaux et

des utilisateurs d'Eurovoc.

EUROVOC a été programmé pour indexer les documents dans les bases de données

documentaires des instances européennes. L’encyclopédisme 11

de ce thésaurus

constitue son principal défaut. En effet, les utilisateurs les plus expérimentés n’ont pas

la possibilité d’indexer de manière approfondie leurs fonds juridiques.

La partie droit du thésaurus n’est pas suffisamment développée pour les spécialistes

dans un domaine juridique précis.

Cependant, les centres de ressources spécialisés peuvent en faire usage pour les

branches du droit qui ne relèvent pas de leurs compétences. Eurovoc est en effet

amené à traiter des domaines de connaissance de plus en plus vastes. Il est possible de

trouver par le biais de ces multiples micro-thésaurus le moyen de classer ou d’indexer

un groupe de documents atypiques.

Dans le domaine du droit, ce thésaurus contient des sous-catégories concernant

notamment le droit civil, le droit pénal, la justice, l’organisation de la justice, le droit

international et les libertés.

On peut prévoir dans un futur proche que les outils du Web 3.0 comme le thésaurus et

l’ontologie vont se développer et devenir la norme dans l’organisation de l’information

juridique. Cependant on peut se demander si le Web 3.0 a pour vocation de supplanter

le web « classique » par le traitement automatique d’informations formalisées. Ces

nouveaux protocoles de communication et langages standards semblent permettre le

développement de nouveaux usages qui se généraliseront peut être à l’ensemble du

monde informatique

11 Critique émise par Stéphane Cottin sur son site servicedoc.info

http://europa.eu.int/celex/eurovoc/PDF/dom_12_FR.pdf

http://fr.wikipedia.org/wiki/Usage

18

Bibliographie

Ouvrages et articles

Y. MAIGNIEN, « le web sémantique », Encyclopedia Universalis ;

Y. MAIGNIEN, « Bibliothèques numériques : les aiguilleurs du Web », in Bulletin de

l'Association des bibliothécaires de France, no 174, 1997 ;

R. PEDAUQUE, T. LUND, M. WINFELD, La redocumentarisation du monde,

Cépaduès, 2007 ;

J. CHARLET, P. LAUBLET, C. REYNAUD, « Le web sémantique », Information

Interaction Intelligence n° hors série, 2005. ;

D. BOURIGAULT, G. LAME, « Analyse distributionnelle et structuration de

terminologie. Application à la construction d'une ontologie documentaire du droit »,

revue TAL n°10, 2001 ;

G. LAME, « Construction d’ontologie à partir de textes Une ontologie du droit dédiée

à la recherche d’informations sur le Web », thèse soutenue à l’Ecole des Mines de

Paris, 6 décembre 2002 ;

Sites internet

Wikipedia.org (entrées : web sémantique et intelligence artificielle) ;

Revue-texto.net ;

Droit.org ;

Servicedoc.info ;

Thesaurusuniversel.be ;

Europa.eu/eurovoc ;

Cern.ch

http://www.atala.org/tal/

http://www.thesaurusuniversel.be/

le web 3.0 et l information juridique - lepetitjuriste.fr web 3.0 et l... · les bibliothèques...

Documents