corpus study in gesta danorum - clarin.eu · king dan to canute vi of denmark. ... the making of a...
TRANSCRIPT
Overskrift her Navn på oplægsholder Navn på KU-enhed
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Claus Povlsen
University of Copenhagen
Linguistics Beyond And Within
Lublin, November, 14-16, 2013
Corpus study in Gesta Danorum Language technology:
A shortcut to evidence
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Outline
- The framework of the study, CLARIN ERIC
- Language technology in this infrastructural context
- The annotations and the search platform
- The research corpus Gesta Danorum and the method used
- Wider prospects of use of language technology within the humanities
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
CLARIN ERIC (Common Language Resources and technology Infrastructure)
Visions and Goals
CLARIN-ERIC is an European infrastructure network that aims to provide easy access for scholars in the humanities and social sciences to:
- digital language data
- advanced tools
To be used in connection with analysis and interpretation within the research field of the humanities and social sciences
Status: CLARIN ERIC is in the process of building a networked federation of European data repositories, service centres and centres of expertise.
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
CLARIN-ERIC
Poland is part of the CLARIN-ERIC infrastructure. The CLARIN-PL consortium is formed by Polish universities and research institutes.
Poland is appointed as a CLARIN B centre, and is located in Wrosław University of Technology
The Danish CLARIN-DK is the is in the process of applying for
being B certified.
The current presentation is an example of how access to infrastructural data and tools can be exploited by research
within the humanities
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Language technology in this infrastructural context
Taking a digitized work
• - in this context a translation (from Latin into Danish) of Gesta Danorum (Deeds of the Danes) written about 1200 by Saxo a famous Danish historian.
Compute the basic forms of the words in Gesta Danorum automatically using an existing lemmatizer.
Annotate all the words in the work automatically with morphosyntactic information using a PartOfSpeech tagger.
The number of tags in the tagset is 103.
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Language technology in this infrastructural context
The result of the automatic annotation:
Kongen blev kronet på slottet
[the king was crowned at the castle]
Word/lemma/PartOfSpeech
Kongen/konge/N_DEF_COM_SING
blev/blive/V_INDIC_PAST
kronet/krone/V_PARTC_PAST
på/på/PREP
slottet/slot/N_DEF_NEUT_SING
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Language technology in this infrastructural context
The next step was to upload the annotated version of Gesta Danorum into the IMS Open Corpus Workbench (open source software).
This platform made it possible to make queries that exploit both the linguistic information and the CQP search facilities embedded in this platform – more about later on!
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
The research corpus, Gesta Danorum and the hypothesis
Gesta Danorum describes in 16 books the period of time from King Dan to Canute VI of Denmark.
Traditionally, the work is divided into two main sections, one consisting of books 1-9 which deals with Norse mythology and a historical second part of the books 10-16 describing the introduction of Christianity in Denmark.
In 1969, a competing thesis was launched. In this approach, the composition of GD is split up into books 1-8 and books 9-16.
So the question is: Is it book 9 or book 10 that represents the transition from the heathen to the Christian period in Gesta Danorum?
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
The research corpus, Gesta Danorum and the hypothesis
It is assumed that relatively frequent use of words from a register – in this context Christianity - is closely related to the topic described
In other words: Frequent use of elements from the Christian register of words indicates that the topic described has to do with Christianity in this case the transition from heathen to the Christian period in Gesta Danorum
Clarin.dk - en infrastruktur i drift
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
The research corpus, Gesta Danorum and the hypothesis
So what was done
1) Identification of the elements/words that characterizes of Christian language usage
2) The making of a search pattern representing Christian language usage
Clarin.dk - en infrastruktur i drift
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Examples of Christian language usage
helgen (eng: saint -> noun singular)
helgene (eng: saints -> noun plural
kristent (eng: Christian -> adjective neuter singular)
kristen (eng: Christian -> adjective common singular)
kristendom (eng: Christianity -> singular)
synd (eng:sin -> noun singular)
->
But not synd as adjective like in ”det var synd for hende” (it was a pity for her)
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Search pattern representing Christian language usage
[lemma="helgen"] all word forms of helgen, helgene, helgens etc (eng: saint, saints, saint’s)
[word="krist.*"] all words in the corpus starting with ”krist”,
Recognizes kristen, kristne, kristendom etc. (eng: Christian, Christianity)
[word="synd.*" & pos="N.*"] all words in the corpus starting with synd AND is tagged as a noun (eng: sin), i.e. excluding the adjective reading of synd
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Search pattern representing Christian language usage
The pattern made in order to identify Christian language usage
[lemma="helgen"] | [word="krist.*"] | [word="synd.*" & pos="N.*"] | [word="Herren"] | [word="ang(re|er)"] | [word="hellig.*"] | [word="Gud"]
It’s easy to see that this CQP language is not user friendly – I will come back to that later on!
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Additional information:
The number of words in book 9 is about 10.000 and while book 10 consists of about 20.000 words
Conclusion: The average frequency of occurrences of Christian language usage is approximately the same
DIGHUMLAB Clarin.dk
Linguistics Beyond And Within, Lublin, November 14-16
The results achieved based on the generated search pattern
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Interpretation
The investigation supports the thesis that book 9 and not 10 constitutes
the transition from the heathen to the Christian period in Gesta Danorum.
Since the frequency per thousand of Christian elements for book 8 is significantly less occurring compared to book 9 and 10 (0.25, 2.0, and 2.0) the search results clearly reveal that the change - in terms of Christian language usage - lies between book 8 and 9.
To conclude: The results support the thesis that the composition of Gesta Danorum falls into two main sections, book 1-8 and book 9-16
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Other observations – word distribution in Gesta Danorum (Saxo search platform).
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
The platform makes it easy to get an overview of the distributions of words in the 16
books of Gesta Danorum
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Wider prospects of use of language technology within the humanities
The platform shown here is to be regarded as a
prototype and the search facilities should and will be made more user friendly such as for instance in this Danish corpus platform: A more user friendly interface
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Clarin.dk - en infrastruktur i drift
Wider prospects of use of language technology within the humanities
In principle, every one can establish a platform as the one described, you need of course
- a digitized corpus/text
- a lemmatizer (to compute basic forms automatically)
- a PartOfSpeechTagger or morphological parser
Since the IMS open workbench - as the title suggests –
is an open source product you can download it, install it
and then embed your annotated corpus!
Linguistics Beyond And Within, Lublin, November 14-16
DIGHUMLAB Clarin.dk