corpus study in gesta danorum - clarin.eu · king dan to canute vi of denmark. ... the making of a...

18
Claus Povlsen University of Copenhagen [email protected] Linguistics Beyond And Within Lublin, November, 14-16, 2013 Corpus study in Gesta Danorum Language technology: A shortcut to evidence

Upload: ngonga

Post on 01-Apr-2019

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Overskrift her Navn på oplægsholder Navn på KU-enhed

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Claus Povlsen

University of Copenhagen

[email protected]

Linguistics Beyond And Within

Lublin, November, 14-16, 2013

Corpus study in Gesta Danorum Language technology:

A shortcut to evidence

Page 2: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Outline

- The framework of the study, CLARIN ERIC

- Language technology in this infrastructural context

- The annotations and the search platform

- The research corpus Gesta Danorum and the method used

- Wider prospects of use of language technology within the humanities

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 3: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

CLARIN ERIC (Common Language Resources and technology Infrastructure)

Visions and Goals

CLARIN-ERIC is an European infrastructure network that aims to provide easy access for scholars in the humanities and social sciences to:

- digital language data

- advanced tools

To be used in connection with analysis and interpretation within the research field of the humanities and social sciences

Status: CLARIN ERIC is in the process of building a networked federation of European data repositories, service centres and centres of expertise.

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 4: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

CLARIN-ERIC

Poland is part of the CLARIN-ERIC infrastructure. The CLARIN-PL consortium is formed by Polish universities and research institutes.

Poland is appointed as a CLARIN B centre, and is located in Wrosław University of Technology

The Danish CLARIN-DK is the is in the process of applying for

being B certified.

The current presentation is an example of how access to infrastructural data and tools can be exploited by research

within the humanities

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 5: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Language technology in this infrastructural context

Taking a digitized work

• - in this context a translation (from Latin into Danish) of Gesta Danorum (Deeds of the Danes) written about 1200 by Saxo a famous Danish historian.

Compute the basic forms of the words in Gesta Danorum automatically using an existing lemmatizer.

Annotate all the words in the work automatically with morphosyntactic information using a PartOfSpeech tagger.

The number of tags in the tagset is 103.

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 6: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Language technology in this infrastructural context

The result of the automatic annotation:

Kongen blev kronet på slottet

[the king was crowned at the castle]

Word/lemma/PartOfSpeech

Kongen/konge/N_DEF_COM_SING

blev/blive/V_INDIC_PAST

kronet/krone/V_PARTC_PAST

på/på/PREP

slottet/slot/N_DEF_NEUT_SING

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 7: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Language technology in this infrastructural context

The next step was to upload the annotated version of Gesta Danorum into the IMS Open Corpus Workbench (open source software).

This platform made it possible to make queries that exploit both the linguistic information and the CQP search facilities embedded in this platform – more about later on!

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 8: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

The research corpus, Gesta Danorum and the hypothesis

Gesta Danorum describes in 16 books the period of time from King Dan to Canute VI of Denmark.

Traditionally, the work is divided into two main sections, one consisting of books 1-9 which deals with Norse mythology and a historical second part of the books 10-16 describing the introduction of Christianity in Denmark.

In 1969, a competing thesis was launched. In this approach, the composition of GD is split up into books 1-8 and books 9-16.

So the question is: Is it book 9 or book 10 that represents the transition from the heathen to the Christian period in Gesta Danorum?

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 9: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

The research corpus, Gesta Danorum and the hypothesis

It is assumed that relatively frequent use of words from a register – in this context Christianity - is closely related to the topic described

In other words: Frequent use of elements from the Christian register of words indicates that the topic described has to do with Christianity in this case the transition from heathen to the Christian period in Gesta Danorum

Clarin.dk - en infrastruktur i drift

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 10: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

The research corpus, Gesta Danorum and the hypothesis

So what was done

1) Identification of the elements/words that characterizes of Christian language usage

2) The making of a search pattern representing Christian language usage

Clarin.dk - en infrastruktur i drift

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 11: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Examples of Christian language usage

helgen (eng: saint -> noun singular)

helgene (eng: saints -> noun plural

kristent (eng: Christian -> adjective neuter singular)

kristen (eng: Christian -> adjective common singular)

kristendom (eng: Christianity -> singular)

synd (eng:sin -> noun singular)

->

But not synd as adjective like in ”det var synd for hende” (it was a pity for her)

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 12: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Search pattern representing Christian language usage

[lemma="helgen"] all word forms of helgen, helgene, helgens etc (eng: saint, saints, saint’s)

[word="krist.*"] all words in the corpus starting with ”krist”,

Recognizes kristen, kristne, kristendom etc. (eng: Christian, Christianity)

[word="synd.*" & pos="N.*"] all words in the corpus starting with synd AND is tagged as a noun (eng: sin), i.e. excluding the adjective reading of synd

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 13: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Search pattern representing Christian language usage

The pattern made in order to identify Christian language usage

[lemma="helgen"] | [word="krist.*"] | [word="synd.*" & pos="N.*"] | [word="Herren"] | [word="ang(re|er)"] | [word="hellig.*"] | [word="Gud"]

It’s easy to see that this CQP language is not user friendly – I will come back to that later on!

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 14: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Additional information:

The number of words in book 9 is about 10.000 and while book 10 consists of about 20.000 words

Conclusion: The average frequency of occurrences of Christian language usage is approximately the same

DIGHUMLAB Clarin.dk

Linguistics Beyond And Within, Lublin, November 14-16

The results achieved based on the generated search pattern

Page 15: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Interpretation

The investigation supports the thesis that book 9 and not 10 constitutes

the transition from the heathen to the Christian period in Gesta Danorum.

Since the frequency per thousand of Christian elements for book 8 is significantly less occurring compared to book 9 and 10 (0.25, 2.0, and 2.0) the search results clearly reveal that the change - in terms of Christian language usage - lies between book 8 and 9.

To conclude: The results support the thesis that the composition of Gesta Danorum falls into two main sections, book 1-8 and book 9-16

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 16: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Other observations – word distribution in Gesta Danorum (Saxo search platform).

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

The platform makes it easy to get an overview of the distributions of words in the 16

books of Gesta Danorum

Page 17: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Wider prospects of use of language technology within the humanities

The platform shown here is to be regarded as a

prototype and the search facilities should and will be made more user friendly such as for instance in this Danish corpus platform: A more user friendly interface

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk

Page 18: Corpus study in Gesta Danorum - clarin.eu · King Dan to Canute VI of Denmark. ... The making of a search pattern representing Christian ... en infrastruktur i drift Search pattern

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Clarin.dk - en infrastruktur i drift

Wider prospects of use of language technology within the humanities

In principle, every one can establish a platform as the one described, you need of course

- a digitized corpus/text

- a lemmatizer (to compute basic forms automatically)

- a PartOfSpeechTagger or morphological parser

Since the IMS open workbench - as the title suggests –

is an open source product you can download it, install it

and then embed your annotated corpus!

Linguistics Beyond And Within, Lublin, November 14-16

DIGHUMLAB Clarin.dk