word frequency: how to measure it and how much does it matter?

30
Word frequency: How to measure it and how much does it matter? Marc Brysbaert

Upload: cathleen-guerrero

Post on 30-Dec-2015

38 views

Category:

Documents


0 download

DESCRIPTION

Word frequency: How to measure it and how much does it matter?. Marc Brysbaert. Carrefour : blocage d’un dépôt de Jost à Herstal - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Word frequency: How to measure it and how much does it matter?

Word frequency:How to measure it and how

much does it matter?

Marc Brysbaert

Page 2: Word frequency: How to measure it and how much does it matter?

Carrefour : blocage d’un dépôt de Jost à Herstal

Les travailleurs de Logistics Ternat ont bloqué le dépôt de Jost aux Hauts-Sarts de Herstal près de Liège. Logistics Ternat, externalisée en 2005 par Carrefour, craint de faire les frais de la réorganisation annoncée par le groupe de distribution. 

« Nous avons, en guise de protestation, bloqué la marchandise d’une quinzaine d’hypermarchés à Ternat, mais la direction de carrefour a, dès lors, trouvé d’autres solutions, notamment via Jost, qui est son principal transporteur », explique Didier Vanden Bemden, délégué LBC-CNE.

« Nous savons qu’un dirigeant de Carrefour est ici dans le dépôt de Jost aujourd’hui, mais il refuse de nous rencontrer, et nous avons donc bloqué ce dépôt », poursuit-il.

Les travailleurs de Logistics Ternat, qui agissent en front commun syndical, ont reçu sur place le soutien d’un délégué syndical de la société Jost. Le blocage pourrait durer toute la journée sans geste de la direction de Carrefour.

Page 3: Word frequency: How to measure it and how much does it matter?

Word frequency

• Some words occur much more often in the language than other words.

• What would be the 10 most frequent words in French?

Page 4: Word frequency: How to measure it and how much does it matter?

Most frequent words in French1. je 25.983 p.m.2. de 25.220 p.m.3. est 19.418 p.m.4. pas 18.188 p.m.5. la 14.946 p.m.6. tu 14.662 p.m.7. le 13.653 p.m.8. vous 13.590 p.m.9. ne 13.357 p.m.10. il 13.223 p.m.11. et 12.909 p.m.12. à 12.190 p.m.13. un 12.088 p.m.

Page 5: Word frequency: How to measure it and how much does it matter?

Least frequent words in French

1. abatage2. abhorrer3. ablatif4. abornement5. abscission6. académisme7. acclamant8. accommoderaient9. accu10.accueils

Page 6: Word frequency: How to measure it and how much does it matter?

How do we measure word frequencies?

• Brulex (Content, Mousty, & Radeau, 1990)• « L'apparition de micro-ordinateurs plus puissants

permet actuellement de réaliser des applications qui nécessitaient auparavant l'utilisation de systèmes centraux multi-utilisateurs. Les micro-ordinateurs s'avèrent avantageux parce qu'ils sont à la fois plus souples et plus simples d'accès pour l'utilisateur. La rapidité de traitement, les capacités de stockage sur mémoire externe, et les logiciels spécifiques disponibles permettent notamment d'envisager la réalisation et la gestion de bases de données de grande taille. »

Page 7: Word frequency: How to measure it and how much does it matter?

Brulex

• Les 35.7K mots du dictionnaire Micro-Robert (Robert, 1986)

• « La fréquence introduite est reprise des tables publiées par le Centre de recherche pour un Trésor de la Langue Française (Imbs, 1971). Elle représente le nombre d'occurrences d'une chaîne de caractères rapporté … Le corpus (23,5 millions de mots) est constitué de textes littéraires (romans, essais, recueils de poèmes, oeuvres dramatiques) publiés entre 1919 et 1964. »

Page 8: Word frequency: How to measure it and how much does it matter?

Lexique 1

• New, Pallier, Ferrand, & Matos (2001)• Cet article décrit une base de données lexicales du français,

dont les points forts sont les suivants :– Elle est fondée sur des textes publiés entre 1950 et 2000

provenant du corpus Frantext de l'ATILF1. Ce corpus comprend 31 millions de mots (487 textes).

– Elle inclut, entre autres, les formes fléchies des mots (formes verbales conjuguées, formes plurielles et féminines des noms et adjectifs).

– Deux estimations de fréquence sont fournies : l'une fondée sur le corpus original de Frantext, et l'autre sur les pages web françaises (15M) indexées par le moteur de recherche FastSearch2.

Page 9: Word frequency: How to measure it and how much does it matter?

Lexique 1

• New, Pallier, Ferrand, & Matos (2001)• Cet article décrit une base de données lexicales du français,

dont les points forts sont les suivants :– Elle est organisée autour de deux tables qui ont pour clés

principales, soit les formes orthographiques soit les lemmes (un lemme est le mot choisi pour représenter toute une famille de formes apparentées. Par exemple : manger est le lemme de mangea, mangeait..., etc.).

– Elle est gratuite, libre d'accès, téléchargeable, et des outils sont fournis pour l'interroger.

– Elle est actualisée et peut être mise à jour dans cinq ou dix ans.

Page 10: Word frequency: How to measure it and how much does it matter?
Page 11: Word frequency: How to measure it and how much does it matter?

Lexique 2

• New, Pallier, Brysbaert, & Ferrand (2004)• Same frequencies as Lexique 1, but now with

an easy-to-use website www.lexique.org and some further improvements

Page 12: Word frequency: How to measure it and how much does it matter?
Page 13: Word frequency: How to measure it and how much does it matter?
Page 14: Word frequency: How to measure it and how much does it matter?
Page 15: Word frequency: How to measure it and how much does it matter?
Page 16: Word frequency: How to measure it and how much does it matter?

Lexique 3

• New, Brysbaert, Véronis, & Pallier (2007)• Film subtitles as a new type of corpus• Corpus of 52M words from 9,474 films• Texts based on a corpus of 14.7M words from

218 texts (full access to these texts)• Also frequencies of word forms and lemmas

(automatic PoS tagger)

Page 17: Word frequency: How to measure it and how much does it matter?

Does frequency have an effect?

• Yes• High-frequency words are processed faster

and better than low-frequency words• Perceptual identification, naming, lexical

decision• E.g. Bonin et al. (2001) lexical decision:– HF words (178 pm) : 559 ms– LF words (10 pm) : 608 ms

Page 18: Word frequency: How to measure it and how much does it matter?

Why does frequency have an effect?

• Activation level in resting state• Strength of the connections between

representations• Competition among words

Page 19: Word frequency: How to measure it and how much does it matter?
Page 20: Word frequency: How to measure it and how much does it matter?

Evidence for competition among similar words

• Segui & Grainger (1990)• Target words primed by orthographic

neighbors:– avec – AVEU vs. puis – AVEU– aveu – AVEC vs. fond – AVEC

• Avec = 3,705 pm; aveu = 11 pm • Masked priming (SOA = 60 ms)• Lexical decision to the target

Page 21: Word frequency: How to measure it and how much does it matter?

Segui & Grainger (1990)

• puis – AVEU = 661 ms• avec – AVEU = 709 ms

-48 ms

• fond – AVEC = 608 ms• aveu – AVEC = 598 m

10 ms

Page 22: Word frequency: How to measure it and how much does it matter?
Page 23: Word frequency: How to measure it and how much does it matter?

Does frequency have an effect?Beyond high vs. low

• In order to have a more detailed picture, you need many more data.

• Ferrand et al. (in press): the French Lexicon Project– Lexical decision times to 38.8K words– From 975 participants (>25 observations per

word)

Page 24: Word frequency: How to measure it and how much does it matter?

Does frequency have an effect?Beyond high vs. low

• Frequency best expressed in log10(frequency p.m.) – .1 pm -----> -1 (10-1 = .1)– 1 pm -----> 0 (100 = 1)– 10 pm -----> 1 (101 = 10)– 100 pm -----> 2 (102 = 100)

Page 25: Word frequency: How to measure it and how much does it matter?
Page 26: Word frequency: How to measure it and how much does it matter?

Frequency-effectcontinued....

• A very strong frequency effect up to 100 pm• Big differences between .01 pm, .1 pm, and 1 pm• Rather strange given that number of times a

person has heard a word is rather small:– 200 wpm– 60 mins per hour and 16 hrs a day– 365.25 days a year– 20 yrs– 200*16*365.25*20 = 1,402M– So: .01 pm = 14 encounters in total; .1 pm = 140

Page 27: Word frequency: How to measure it and how much does it matter?

Implications for practitioners

• Repeating a word 100x seems to be very worthwhile

• In case of difficulties best to limit the teaching to the high-frequency words and repeat them often enough– 3000 word families (lemmas) make up 95% of the

words used in daily life– No point in teaching low-frequency exceptions• Beseech [implorer] - besought (1.5 pm)

Page 28: Word frequency: How to measure it and how much does it matter?

Are all frequency measures equally good?

• No (Brysbaert & New, 2009)• Depends on– Language register : subtitles better than books– Recency of the corpus : not too old– Size of the corpus: >14M • (but presumably not much gain any more after 50-

100M)

Page 29: Word frequency: How to measure it and how much does it matter?

Word from frequency vs. lemma frequency

• New, Brysbaert, Segui, Ferrand, & Rastle (2004)

• chandail : 11.4 pm• chaussure : 8.8 pm• chandails : 2.8 pm• chaussures : 61.1 pm• Lexical decision time– chandail : 596 ms– chaussure: 540 ms

Page 30: Word frequency: How to measure it and how much does it matter?

Word from frequency vs. lemma frequency

• However, ...• ... if we look at complete FLP dataset, word

form frequencies much better than lemma frequencies...

• ??• Verbs vs. nouns? • Verbs and nouns?• Some work remains to be done!