transformer 4 millions d'articles de presse en un système d'information

Transformer 4 millions d’articles en un système d’information FREDERIC KAPLAN DIGITAL HUMANITIES LABORATORY

!!En partenariat avec

Le Temps La Bibliothèque nationale suisse

4 millions d’articles 200 ans d’information !Le Journal de Genève (1826 > 1998) 550 000 pages / 2 000 000 articles La Gazette de Lausanne (1798 > ) 450 000 pages / 1 700 000 articles Le Nouveau Quotidien (1991 > 1998) 50 000 pages / 200 000 article

Que peut-on apprendre d’un tel corpus ?

Nous souhaitons transformer ce corpus de texte en un système d’information.

Un projet qui s’étale sur presque dix ans.

2005 : Etude sur la numérisation par la Bibliothèque nationale suisse

2006 : Projet pilote de numérisation du « Journal de Genève » accepté par la BN en collaboration avec la Bibliothèque de Genève et Le Temps.

2008 : Mise en ligne annoncée au Salon du Livre de Genève.

2008-2009 : Numérisation de la “Gazette de Lausanne” et “Nouveau Quotidien”

Mise en ligne d’un moteur de recherche permet la recherche “plein texte” dans l’ensemble du corpus.

2009 : Numérisation de l’Express et de l’ Impartial, en collaboration avec la BN, la bibliothèque cantonale de Neuchâtel et la bibliothèque de la ville de la Chaux de Fonds.

2009 : Puis, numérisation du « Confédéré" (Martigny) et du « Nouvelliste" et "Feuille d’avis du Valais », en collaboration avec la "Médiathèque Valais ».

2011 : L’EPFL participe à la redaction d’un projet de recherche nationale sur les “Humanités digitales”. Le corpus des trois journaux numérisés est identifiés comme un des plus intéressant à exploiter.

2011 : Numérisation par la BCU et Edipresse de la « Feuille d’avis de Lausanne/24heures » et « La Tribune de Lausanne/Le Matin »

2012 : Avant même, la création du laboratoire d’humanités digitales, rencontre avec le Temps pour la mise en place d’un projet de recherche collaboratif sur ce corpus.

2012 : Signature d’un convention de recherche entre l’EPFL et le Temps.

2013 : Mise en place d’un comité scientifique regroupant historiens et journalistes.

Alain Clavien, Université de Fribourg Marie-Christine Doffey, BN Frédéric Koller, Le Temps Joëlle Kuntz, Le Temps Enrico Natale, infoclio.ch François Vallotton, Université de Lausanne

2014 : Soutien financier la Bibliothèque Nationale au Projet.

2014 : Lancement d’une nouvelle indexation du corpus en utilisant une approche “Big data”.

2014 : Mise en ligne d’un “n-gram viewer” pour le corpus du “Journal de Genève”.

2014 : Extension sur les autres corpus et analyses comparatives

2015 : Indexation sémantique du corpus. Mise en ligne d’un “Facebook” du passé à partir des données extraites.

Avec ce corpus en extension, la Suisse a un outil stratégique précieux, unique en Europe.

1 million de pages

Comment se représenter un tel corpus de documents ?

Mis bout à bout : Plusieurs centaines de kms de documents

1 milliard de mots !

Un “mégatexte”

L’archive complète occupe 21 Terabytes. !

1 kilo

1 page de texte

1 mega

500 pages 1 photo

1 giga

1 heure de video

1 tera

Toute les conversation d’une vie en mp3

500 h video

Texte d’un million de livres

Notre archive

1 peta

Archives du Net en 2012

Données produites chaque année par le LHC au CERN

Un journal est un média structuré. Sa structure évolue au cours du temps

Comment évolue le nombre d’article par an sur 200 ans ?

Le nombre d’ar?cles par année croit linéairement en fonc?on du temps.

!"!!!!!!

!5'000!!!!

!10'000!!!!

!15'000!!!!

!20'000!!!!

!25'000!!!!

!30'000!!!!

!35'000!!!!

!40'000!!!!

!45'000!!!!

!50'000!!!!

1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

Le nombre de caractères par année se stabilise à la fin du XIXe siècle puis recommence à croitre dans les années 1960.

!"!!!!!!

!20000'000!!!!

!40000'000!!!!

!60000'000!!!!

!80000'000!!!!

!100000'000!!!!

!120000'000!!!!

1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

45La taille des ar?cles oscille.

1800" 1820" 1840" 1860" 1880" 1900" 1920" 1940" 1960" 1980" 2000" 2020"

Analyse des distributions temporelles de séquences de mots (n-grammes)

n-‐gramme : sequence de n mots consécu?fs.

Nous sommes en train d’indexer l’ensemble du corpus jusqu’à n=9.

Nous avons en par?culier déjà générer un milliard de courbes correspondant au 1-‐gramme du journal de Genève.

Fonda?on du club en 1890

Un corpus comme le notre est différent de celui Google Books dans la mesure où il caractérise un média spécifique avec ses caractéris?ques par?culières.

En étudiant ce corpus nous pouvons non seulement étudier l’évolu?on culturelle mais aussi l’évolu?on du média lui-‐même.

En comparant systéma?quement comment deux medias rendent compte des évènements du monde nous pourrons tenter de caractériser finement leur biais.

“Champ attentionnel” d’un média

Attention temporelle

différents régimes de stabilisa?on

Attention spatiale

Point de bascule

Equivalence a`en?onnelle

Un prototype est en ligne h`p://jdg.dhlab.ch/

Ex : Trouver un mot qui génère un pic.

pic a`en?onnel

pic de découverte

stabilisa?on

pic des piccard

Ex : Trouver un mot qui génère un peigne.

Ex : Trouver un mot qui croit dans le temps.

Ex : Trouver un mot qui décroit dans le temps.

Ex : Trouver un mot qui fait une colline

Ex : Trouver un mot qui fait deux collines

Ex : Trouver deux courbes qui se rejoignent en une seule.

Ex : Trouver un mot qui remplace un autre.

Ex : Quelle est la courbe du mot voiture ?

Ex : Les Beatles sont-ils plus célèbres que le Christ ?

Ex : Qui l’emporte le bien ou le mal ?

Ex : Qui l’emporte le haut ou le bas ?

Ex : Qui l’emporte le chien ou le chat ?

Ex : Qui l’emporte la musique, la peinture ou la littérature ?

Ex : Qui l’emporte Mozart, Debussy ou Vivaldi ?

Ex : Qui l’emporte le rouge, le bleu ou le jaune ?

Ex : Qui l’emporte le 1, le 10 ou le 100 ?

Ex : Qui l’emporte le 100, le 1000 ou le 10000 ?

Ex : Est-ce que cela marche si les nombres sont écrits en lettres ?

Ex : Qui l’emporte entre le million ou le milliard ?

Richesse et l’importance stratégique de ce corpus de presse.

Potentiel de l’analyse comparative avec les autres corpus numérisés.

La prochaine étape est l’indexation sémantique

Une nouvelle manière de classifier et de naviguer au sein des ar?cles.

La possibilité de construire un “Facebook” du passé.

Rendez-‐vous dans un an.

135125

dhlab.epfl.ch !frederic.kaplan@epfl.ch @frederickaplan

transformer 4 millions d'articles de presse en un système d'information

Data & Analytics

les meilleures pratiques pour la publication d'articles sur...

brochure d'information

profi-air artikelliste – parts list – liste d'articles...

revista catalana de música. catàlegs d'articles i autors

programari lliure, societat lliure: recull d'articles de...

transformer,current transformer & potential transformer

projet d'articles sur les immunites juridictionnelles …

transformer design transformer design transformer design...

un any d'articles

recherche d'articles scientifiques

notre offre d'articles logotés 2014

recueil d'articles sur l’École des mines pendant la...

la recommandation d'articles scientifiques dans une...

recueil d'articles de jules bloch

projet d'articles relatifs aux relations et immunites...

projet d'articles sur la responsabilite de l'état pour fait

guide pour les fournisseurs d'articles - reach info · 6...

le guide de la publication d'articles en ligne

catàleg d'articles - bugaderia núria

c2i d4 fst td2 veille, blogs, recherche d'articles en ligne