transformer 4 millions d'articles de presse en un système d'information

Post on 06-May-2015

1.453 Views

Category:

Data & Analytics

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

11

Transformer 4 millions d’articles en un système d’information FREDERIC  KAPLAN  DIGITAL  HUMANITIES  LABORATORY

!!En partenariat avec

Le Temps La Bibliothèque nationale suisse

2

4 millions d’articles 200 ans d’information !Le Journal de Genève (1826 > 1998) 550 000 pages / 2 000 000 articles La Gazette de Lausanne (1798 > ) 450 000 pages / 1 700 000 articles Le Nouveau Quotidien (1991 > 1998) 50 000 pages / 200 000 article

3

Que peut-on apprendre d’un tel corpus ?

9

Nous souhaitons transformer ce corpus de texte en un système d’information.

10

Un projet qui s’étale sur presque dix ans.

11

2005 : Etude sur la numérisation par la Bibliothèque nationale suisse

12

2006 : Projet pilote de numérisation du « Journal de Genève » accepté par la BN en collaboration avec la Bibliothèque de Genève et Le Temps.

13

2008 : Mise en ligne annoncée au Salon du Livre de Genève.

14

2008-2009 : Numérisation de la “Gazette de Lausanne” et “Nouveau Quotidien”

15

Mise en ligne d’un moteur de recherche permet la recherche “plein texte” dans l’ensemble du corpus.

16

2009 : Numérisation de l’Express et de l’ Impartial, en collaboration avec la BN, la bibliothèque cantonale de Neuchâtel et la bibliothèque de la ville  de la Chaux de Fonds.

17

2009 : Puis, numérisation du « Confédéré" (Martigny) et du « Nouvelliste" et "Feuille d’avis du Valais », en collaboration avec la "Médiathèque Valais ».

18

2011 : L’EPFL participe à la redaction d’un projet de recherche nationale sur les “Humanités digitales”. Le corpus des trois journaux numérisés est identifiés comme un des plus intéressant à exploiter.

19

2011 : Numérisation par la BCU et Edipresse de la « Feuille d’avis de Lausanne/24heures » et « La Tribune de Lausanne/Le Matin »

20

2012 : Avant même, la création du laboratoire d’humanités digitales, rencontre avec le Temps pour la mise en place d’un projet de recherche collaboratif sur ce corpus.

21

2012 : Signature d’un convention de recherche entre l’EPFL et le Temps.

22

2013 : Mise en place d’un comité scientifique regroupant historiens et journalistes.

23

Alain Clavien, Université de Fribourg Marie-Christine Doffey, BN Frédéric Koller, Le Temps Joëlle Kuntz, Le Temps Enrico Natale, infoclio.ch François Vallotton, Université de Lausanne

24

2014 : Soutien financier la Bibliothèque Nationale au Projet.

25

2014 : Lancement d’une nouvelle indexation du corpus en utilisant une approche “Big data”.

26

2014 : Mise en ligne d’un “n-gram viewer” pour le corpus du “Journal de Genève”.

27

2014 : Extension sur les autres corpus et analyses comparatives

28

2015 : Indexation sémantique du corpus. Mise en ligne d’un “Facebook” du passé à partir des données extraites.

29

Avec ce corpus en extension, la Suisse a un outil stratégique précieux, unique en Europe.

30

1 million de pages

31

Comment se représenter un tel corpus de documents ?

32

Mis bout à bout : Plusieurs centaines de kms de documents

33

1 milliard de mots !

34

Un “mégatexte”

35

L’archive complète occupe 21 Terabytes. !

36

1 kilo

1 page de texte

37

1 mega

500 pages 1 photo

38

1 giga

1 heure de video

39

1 tera

Toute les conversation d’une vie en mp3

500 h video

Texte d’un million de livres

Notre archive

40

1 peta

Archives du Net en 2012

Données produites chaque année par le LHC au CERN

41

Un journal est un média structuré. Sa structure évolue au cours du temps

42

Comment évolue le nombre d’article par an sur 200 ans ?

43

Le  nombre  d’ar?cles  par  année  croit  linéairement  en  fonc?on  du  temps.  

!"!!!!!!

!5'000!!!!

!10'000!!!!

!15'000!!!!

!20'000!!!!

!25'000!!!!

!30'000!!!!

!35'000!!!!

!40'000!!!!

!45'000!!!!

!50'000!!!!

1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

44

Le  nombre  de  caractères  par  année  se  stabilise  à  la  fin  du  XIXe  siècle  puis  recommence  à  croitre  dans  les  années  1960.

!"!!!!!!

!20000'000!!!!

!40000'000!!!!

!60000'000!!!!

!80000'000!!!!

!100000'000!!!!

!120000'000!!!!

1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

45La  taille  des  ar?cles  oscille.

0"

100"

200"

300"

400"

500"

600"

700"

1800" 1820" 1840" 1860" 1880" 1900" 1920" 1940" 1960" 1980" 2000" 2020"

46

Analyse des distributions temporelles de séquences de mots (n-grammes)

47

48

49

n-­‐gramme  :    sequence  de  n  mots  consécu?fs.

50

Nous  sommes  en  train  d’indexer  l’ensemble  du  corpus  jusqu’à    n=9.  

51

Nous  avons  en  par?culier  déjà  générer  un  milliard  de  courbes  correspondant  au  1-­‐gramme  du  journal  de  Genève.  

52

53

54

Fonda?on  du  club  en  1890

55

Un  corpus  comme  le  notre  est  différent  de  celui  Google  Books  dans  la  mesure  où  il  caractérise  un  média  spécifique  avec  ses  caractéris?ques  par?culières.  

56

En  étudiant  ce  corpus  nous  pouvons  non  seulement  étudier  l’évolu?on  culturelle  mais  aussi  l’évolu?on  du  média  lui-­‐même.  

57

En  comparant  systéma?quement  comment  deux  medias  rendent  compte  des  évènements  du  monde  nous  pourrons  tenter  de  caractériser  finement  leur  biais.    

58

“Champ attentionnel” d’un média

59

Attention temporelle

60

61

différents  régimes  de  stabilisa?on

62

63

64

65

Attention spatiale

66

67

Point  de  bascule

68

Equivalence  a`en?onnelle

69

70

71

72

Un  prototype  est  en  ligne  h`p://jdg.dhlab.ch/  

73

Ex : Trouver un mot qui génère un pic.

74

pic  a`en?onnel

75

76

pic  de  découverte

stabilisa?on

77

pic  des  piccard

78

Ex : Trouver un mot qui génère un peigne.

79

80

Ex : Trouver un mot qui croit dans le temps.

81

82

83

84

85

86

87

Ex : Trouver un mot qui décroit dans le temps.

88

89

90

91

Ex : Trouver un mot qui fait une colline

92

93

Ex : Trouver un mot qui fait deux collines

94

95

Ex : Trouver deux courbes qui se rejoignent en une seule.

96

97

98

99

100

Ex : Trouver un mot qui remplace un autre.

101

102

Ex : Quelle est la courbe du mot voiture ?

103

104

Ex : Les Beatles sont-ils plus célèbres que le Christ ?

105

106

Ex : Qui l’emporte le bien ou le mal ?

107

108

Ex : Qui l’emporte le haut ou le bas ?

109

110

Ex : Qui l’emporte le chien ou le chat ?

111

112

Ex : Qui l’emporte la musique, la peinture ou la littérature ?

113

114

Ex : Qui l’emporte Mozart, Debussy ou Vivaldi ?

115

116

Ex : Qui l’emporte le rouge, le bleu ou le jaune ?

117

118

Ex : Qui l’emporte le 1, le 10 ou le 100 ?

119

120

Ex : Qui l’emporte le 100, le 1000 ou le 10000 ?

121

122

Ex : Est-ce que cela marche si les nombres sont écrits en lettres ?

123

124

Ex : Qui l’emporte entre le million ou le milliard ?

125

126

Richesse et l’importance stratégique de ce corpus de presse.

127

Potentiel de l’analyse comparative avec les autres corpus numérisés.

128

La prochaine étape est l’indexation sémantique

129

130

131

132

Une  nouvelle  manière  de  classifier  et  de  naviguer  au  sein  des  ar?cles.

133

La  possibilité  de  construire  un  “Facebook”  du  passé.

134

Rendez-­‐vous  dans  un  an.

135125

dhlab.epfl.ch !frederic.kaplan@epfl.ch  @frederickaplan

top related