«Зачем», «что» и «как» в исследовании коллокаций

38
«Зачем» «Зачем» , « , « что» что» и и « « как» как» в в исследовании исследовании коллокаций. коллокаций. Вопросы и Вопросы и возможные ответы возможные ответы Размышления на тему Размышления на тему Елены Ягуновой Елены Ягуновой & & Co Co [email protected] [email protected]

Upload: lidia-pivovarova

Post on 10-May-2015

1.563 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: «Зачем», «что» и «как» в исследовании коллокаций

«Зачем»«Зачем», «, «что»что» и и ««как»как» в в

исследовании исследовании коллокаций. коллокаций. Вопросы и Вопросы и

возможные ответывозможные ответы

Размышления на темуРазмышления на тему Елены Ягуновой Елены Ягуновой && CoCo

[email protected]@gmail.com

Page 2: «Зачем», «что» и «как» в исследовании коллокаций

место доклада в место доклада в миниконференцииминиконференции

В рамках мини-конференции В рамках мини-конференции «Коллокации «Коллокации и сочетаемостные особенности: методы и сочетаемостные особенности: методы исследования»исследования» мой доклад взаимосвязан с мой доклад взаимосвязан с докладом Л.М. Пивоваровой «Подводные камни докладом Л.М. Пивоваровой «Подводные камни статистических мер»:статистических мер»:

определяет цели, задачи, гипотезы работы;определяет цели, задачи, гипотезы работы; задает критерии выбора и описание материала задает критерии выбора и описание материала

(новостных и научных коллекций);(новостных и научных коллекций); задает критерии выбора статистических мер;задает критерии выбора статистических мер; предлагает обсуждение полученных предлагает обсуждение полученных

результатов;результатов; т.е. подготавливает к обсуждению «подводных т.е. подготавливает к обсуждению «подводных

камней статистических мер» в контексте камней статистических мер» в контексте конктретного цикла работконктретного цикла работ

Page 3: «Зачем», «что» и «как» в исследовании коллокаций

Что -1 (у других)Что -1 (у других) чаще всего – коллокации как чаще всего – коллокации как

несвободные сочетания, не несвободные сочетания, не относящиеся к идиомам: относящиеся к идиомам: – ключевое слово этих сочетаний ключевое слово этих сочетаний

может появляться в контексте может появляться в контексте разных языковых единиц, разных языковых единиц,

– эти единицы (т.е. контекст эти единицы (т.е. контекст ключевого слова) можно ключевого слова) можно перечислить в виде закрытого перечислить в виде закрытого списка списка

Page 4: «Зачем», «что» и «как» в исследовании коллокаций

Что -2 (у нас)Что -2 (у нас)

Коллокации: неслучайное Коллокации: неслучайное сочетание двух и более сочетание двух и более лексических единиц, лексических единиц, характерное как для языка в характерное как для языка в целом (текстов любого типа), целом (текстов любого типа), так и определенного типа так и определенного типа текстов (или даже текстов (или даже (под)выборки текстов). (под)выборки текстов).

Page 5: «Зачем», «что» и «как» в исследовании коллокаций

Зачем??? Зачем???

ИсследованиеИсследование характеристик единиц характеристик единиц

языка,языка,

и/илии/или характеристик текстов и их характеристик текстов и их

структурных составляющихструктурных составляющих

Page 6: «Зачем», «что» и «как» в исследовании коллокаций

Что-1? Зачем-1Что-1? Зачем-1

рассматриваются большие рассматриваются большие массивы текстовмассивы текстов– изучаются характеристики языка,изучаются характеристики языка,– исследуемые единицы можно исследуемые единицы можно

перечислить в виде закрытого перечислить в виде закрытого списка,списка,

– напр., работы, которые ведутся на напр., работы, которые ведутся на базе НКРЯбазе НКРЯ

Page 7: «Зачем», «что» и «как» в исследовании коллокаций

Что-1? Зачем-1 (примеры)Что-1? Зачем-1 (примеры) Корпусной словарь неоднословных Корпусной словарь неоднословных

лексических единиц (оборотов) лексических единиц (оборотов) http://ruscorpora.ru/obgrams.htmlhttp://ruscorpora.ru/obgrams.html

При каждом обороте указано количество При каждом обороте указано количество употреблений в НКРЯ (по данным на сентябрь употреблений в НКРЯ (по данным на сентябрь 2008 г.).2008 г.).

Словарь составлен на основе базы данных Словарь составлен на основе базы данных частотных коллокаций НКРЯ, с дополнениями частотных коллокаций НКРЯ, с дополнениями из словарей Р.П.Рогожниковой (Толковый из словарей Р.П.Рогожниковой (Толковый словарь сочетаний, эквивалентных слову, М., словарь сочетаний, эквивалентных слову, М., 2003) и МАС (Словарь русского языка в 4-х 2003) и МАС (Словарь русского языка в 4-х томах под ред. А.П.Евгеньевой, М., 1999).томах под ред. А.П.Евгеньевой, М., 1999).

Обороты в функции предлогаОбороты в функции предлога Наречные и предикативные оборотыНаречные и предикативные обороты Вводные оборотыВводные обороты Обороты в функции союза и союзного словаОбороты в функции союза и союзного слова Обороты в функции частицОбороты в функции частиц

Page 8: «Зачем», «что» и «как» в исследовании коллокаций

Корпусной словарь неоднословных Корпусной словарь неоднословных лексических единиц (оборотов). Плюсы и лексических единиц (оборотов). Плюсы и

минусыминусы Есть закрытый список коллокаций (по словарям),Есть закрытый список коллокаций (по словарям), требуется оценить количество – в абсолютных требуется оценить количество – в абсолютных

единицах! – соответствующих коллокаций в корпусе,единицах! – соответствующих коллокаций в корпусе, нет стат. оценки степени связанности коллокаций,нет стат. оценки степени связанности коллокаций, возможен выход на контексты (на запрос в НКРЯ),возможен выход на контексты (на запрос в НКРЯ), но неоднозначность не снимается (напр., но неоднозначность не снимается (напр., может может

быть, в качествебыть, в качестве))– автоматически снять неоднозначность свободное сочетание автоматически снять неоднозначность свободное сочетание

vs.vs. неоднословная лексическая единица практически неоднословная лексическая единица практически невозможноневозможно

– ВыX явленная осоXбенность ВыX явленная осоXбенность мо)жетмо)жет  бытьбыть ваXжной при прогнозиXровании ис ваXжной при прогнозиXровании исхоXда заболеваXния. (пример свободного сочетания из НКРЯ)хоXда заболеваXния. (пример свободного сочетания из НКРЯ)

Page 9: «Зачем», «что» и «как» в исследовании коллокаций

Что-1? Зачем-1 (примеры)Что-1? Зачем-1 (примеры)на на httphttp://://dict.ruslang.rudict.ruslang.ru// Г. И. КустоваГ. И. Кустова СЛОВАРЬ РУССКОЙ СЛОВАРЬ РУССКОЙ

ИДИОМАТИКИ (выход на запрос в НКРЯ)ИДИОМАТИКИ (выход на запрос в НКРЯ) Сочетания слов со значением высокой Сочетания слов со значением высокой

степенистепени Алфавитный список всех сочетанийАлфавитный список всех сочетаний Алфавитный общий список степенных Алфавитный общий список степенных

словслов Алфавитный список прилагательныхАлфавитный список прилагательных Алфавитный список наречий и наречных Алфавитный список наречий и наречных

выраженийвыражений

Степенное слово:Степенное слово: Характеризуемое слово:Характеризуемое слово: ЧАСТЬ РЕЧИ ЧАСТЬ РЕЧИ

Page 10: «Зачем», «что» и «как» в исследовании коллокаций

Пример алфавитного списка Пример алфавитного списка всех сочетаний слов со всех сочетаний слов со значением высокой степенизначением высокой степени

абсолютная анархия абсолютная анархия  абсолютная бездарность абсолютная бездарность  абсолютная безопасность абсолютная безопасность  абсолютная безысходность абсолютная безысходность  абсолютная бесперспективность абсолютная бесперспективность  абсолютная беспечность абсолютная беспечность  абсолютная беспомощность абсолютная беспомощность  абсолютная беспринципность абсолютная беспринципность  абсолютная беспристрастность абсолютная беспристрастность  абсолютная бессмыслица  абсолютная бессмыслица  абсолютная бесспорность  абсолютная бесспорность  абсолютная бесцеремонность  абсолютная бесцеремонность 

Page 11: «Зачем», «что» и «как» в исследовании коллокаций

Что-1? Зачем-1 Что-1? Зачем-1 (примеры)(примеры)

О. Л. Бирюк, В. Ю. Гусев, Е. Ю. О. Л. Бирюк, В. Ю. Гусев, Е. Ю. КалининаКалинина СЛОВАРЬ ГЛАГОЛЬНОЙ СЛОВАРЬ ГЛАГОЛЬНОЙ СОЧЕТАЕМОСТИ СОЧЕТАЕМОСТИ НЕПРЕДМЕТНЫХ ИМЕН РУССКОГО ЯЗЫКАНЕПРЕДМЕТНЫХ ИМЕН РУССКОГО ЯЗЫКА

Выбор параметров:Выбор параметров: существительноесуществительное фазовое значениефазовое значение прилагательноеприлагательное оценкаоценка глаголглагол количествоколичество абстрактное значениеабстрактное значение отрицаниеотрицание конкретное значениеконкретное значение порядок словпорядок слов синтаксические отношениясинтаксические отношения

Page 12: «Зачем», «что» и «как» в исследовании коллокаций

Пример списка (параметры не Пример списка (параметры не выбраны), выход на запрос в выбраны), выход на запрос в

НКРЯНКРЯ(не) ведать стыда(не) ведать стыда действие действие (не) видеть логики(не) видеть логики знание понимание знание понимание

(не) видеть надобности(не) видеть надобности знание понимание знание понимание

(не) видеть оснований(не) видеть оснований знание понимание знание понимание

(не) видеть причины(не) видеть причины знание понимание знание понимание

(не) видеть разницы(не) видеть разницы Neg знание понимание Neg знание понимание

(не) внушать доверия(не) внушать доверия действие каузация действие каузация

(не) возникает сомнения(не) возникает сомнения действие субъект начало действие субъект начало

(не) встретить сопротивления(не) встретить сопротивления действие получатель действие получатель

(не) встречать сопротивления(не) встречать сопротивления действие получатель действие получатель

(не) выдержать напряжения(не) выдержать напряжения объект оценка соответствиеобъект оценка соответствие

(не) выдержать характера(не) выдержать характера прерывание демонстрация прерывание демонстрация

(не) выдерживать критики(не) выдерживать критики действие объект мало действие объект мало соответствие соответствие

Page 13: «Зачем», «что» и «как» в исследовании коллокаций

особенности этого особенности этого подходаподхода

Заданность списка анализируемых Заданность списка анализируемых коллокаций (частичная или по коллокаций (частичная или по параметрам)параметрам)

Отношение к текстовым Отношение к текстовым коллекциямколлекциям

работаетработает– с материалом репрезентативного с материалом репрезентативного

корпуса (что это такое?)корпуса (что это такое?)– относится безразлично к типу текстов, относится безразлично к типу текстов,

входящих в корпусвходящих в корпус

Page 14: «Зачем», «что» и «как» в исследовании коллокаций

Что-2? Зачем-2Что-2? Зачем-2

рассматриваются большие рассматриваются большие массивы текстов массивы текстов – тексты разных функциональных тексты разных функциональных

стилей и предметных областей, стилей и предметных областей, список потенциальных коллокаций список потенциальных коллокаций

для них принципиально не задан, для них принципиально не задан, – этот список является отражением этот список является отражением

тех характеристик, которые тех характеристик, которые заложены в анализируемых заложены в анализируемых текстах.текстах.

Page 15: «Зачем», «что» и «как» в исследовании коллокаций

разные ФС текстов и разные ФС текстов и различие списков различие списков

коллокацийколлокацийhttp://corpus.leeds.ac.uk/ruscorpora.html http://corpus.leeds.ac.uk/ruscorpora.html

A query to Russian corporaA query to Russian corporaВыбор: Выбор:

Russian National Corpus (2009 version) Russian National Corpus (2009 version)  Russian Fiction (disambiguated) Russian Fiction (disambiguated)  Russian NewspapersRussian Newspapers Russian Internet Corpus RNC+NEWS-Russian Internet Corpus RNC+NEWS-

RU+I-RU (for rare words)RU+I-RU (for rare words) Russian Business Internet Corpus Russian Business Internet Corpus 

Page 16: «Зачем», «что» и «как» в исследовании коллокаций

разные ФС текстов, разные стат. разные ФС текстов, разные стат. меры и различие списков меры и различие списков

коллокацийколлокацийA query to Russian corporaA query to Russian corpora

Collocation scoresCollocation scores:  :   Mutual Information    Mutual Information     T-score     T-score      Loglikelihood score Loglikelihood score ContextContext:  :   ? words on the left  ? words on the right ? words on the left  ? words on the right

НоНо нет порогов отсечения,нет порогов отсечения, практически нет возможности работать со практически нет возможности работать со

словоформными биграммами,словоформными биграммами, очень грязная морфологическая разметкаочень грязная морфологическая разметка

Page 17: «Зачем», «что» и «как» в исследовании коллокаций

Зачем-2 и Что-2 и Как-Зачем-2 и Что-2 и Как-2?2?

Если коллокации не заданы списком,Если коллокации не заданы списком,

если коллокации не заданы правилами, если коллокации не заданы правилами, то что такое «коллокация»?то что такое «коллокация»?

Какова природа коллокации?Какова природа коллокации?

Как понимать: неслучайное сочетание Как понимать: неслучайное сочетание двух и более лексических единиц, двух и более лексических единиц, характерное характерное

для языка в целом (текстов любого для языка в целом (текстов любого типа)?типа)?

для определенного типа текстов (или для определенного типа текстов (или даже (под)выборки текстов)?даже (под)выборки текстов)?

Page 18: «Зачем», «что» и «как» в исследовании коллокаций

Текст и коллокацииТекст и коллокации текст есть структурированная текст есть структурированная

последовательность единиц разных уровней, последовательность единиц разных уровней, Коллокации как сложносоставные Коллокации как сложносоставные

подструктуры текста – важный объект при подструктуры текста – важный объект при исследовании процедур анализа (и синтеза) исследовании процедур анализа (и синтеза) текста. текста.

Выделяя и исследуя коллокации мы Выделяя и исследуя коллокации мы исследуем текст:исследуем текст:– структурные единицы текста разных структурные единицы текста разных

языковых – и текстовых – уровнейязыковых – и текстовых – уровней– их роль в процедурах анализа и синтеза речи их роль в процедурах анализа и синтеза речи

(текстов). (текстов).

Page 19: «Зачем», «что» и «как» в исследовании коллокаций

Текстовые коллекции Текстовые коллекции и коллокациии коллокации

Мы не привязаны к заданной Мы не привязаны к заданной коллекции или Корпусуколлекции или Корпусу

На коллекциях На коллекциях разныхразных текстов мы текстов мы можем изучать характеристики можем изучать характеристики наиболее связанных структурных наиболее связанных структурных составляющих, и через них выходить составляющих, и через них выходить на структуру на структуру разныхразных текстов текстов– Прежде всего, текстов разных Прежде всего, текстов разных

функциональных стилей (новостные, функциональных стилей (новостные, научные, деловые, художественные)научные, деловые, художественные)

Page 20: «Зачем», «что» и «как» в исследовании коллокаций

Что мы можем получить, на Что мы можем получить, на разных коллекциях-корпусах?разных коллекциях-корпусах?

Варьируя коллекции, мы можем Варьируя коллекции, мы можем организовать систему вложенных организовать систему вложенных друг в друга корпусов:друг в друга корпусов:

тексты определенного тексты определенного функционального стиля, функционального стиля, – тексты определенного источника,тексты определенного источника,

тексты определенной предметной области,тексты определенной предметной области,– однородная выборка текстов определенных однородная выборка текстов определенных

источников и предметной области,источников и предметной области, и т.д.и т.д.

Page 21: «Зачем», «что» и «как» в исследовании коллокаций

Что мы можем получить, на Что мы можем получить, на разных коллокциях-корпусах?разных коллокциях-корпусах?

Например, вложенные друг в друга:Например, вложенные друг в друга: научные тексты, научные тексты,

лингвистические научные тексты,лингвистические научные тексты,– научные тексты предметной области научные тексты предметной области

«Теоретическая и прикладная «Теоретическая и прикладная лингвистика» (материалы лингвистика» (материалы конференции «Диалог»),конференции «Диалог»),

научные тексты предметной области научные тексты предметной области «Корпусная лингвистика».«Корпусная лингвистика».

Page 22: «Зачем», «что» и «как» в исследовании коллокаций

Что мы можем Что мы можем получить,получить,

используя разныеиспользуя разные статистические меры (напр., статистические меры (напр., MI, t-MI, t-

score, LL)score, LL),, а может где-то и абсолютные а может где-то и абсолютные

частоты коллокаций?частоты коллокаций? пороги отсечения,пороги отсечения, разные единицы (коллокации из разные единицы (коллокации из

словоформ и/или лексем),словоформ и/или лексем), … … расстояния между коллокатамирасстояния между коллокатами

Page 23: «Зачем», «что» и «как» в исследовании коллокаций

используя разные используя разные параметры,параметры,

Мы получаем разные типы коллокаций = типы Мы получаем разные типы коллокаций = типы структурных составляющих текста:структурных составляющих текста:

неоднословных номинаций неоднословных номинаций – в новостном текстев новостном тексте – наименования персон – наименования персон

((Бенедикт Бенедикт XVIXVI, , Бритни Спирс, президент Бритни Спирс, президент Венесуэллы Уго ЧавесВенесуэллы Уго Чавес), организации (), организации (РИА НовостиРИА Новости, , Арбат ПрестижАрбат Престиж), географические наименования ), географические наименования (Саудовская Аравия, (Саудовская Аравия, Соединенные ШтатыСоединенные Штаты, , Нижнем Нижнем НовгородеНовгороде),),

– в новостном текстев новостном тексте – наименования событий или ?? – наименования событий или ?? ((умышленное причинение тяжкого вреда здоровьюумышленное причинение тяжкого вреда здоровью, , защищать принадлежащий ему титул чемпионазащищать принадлежащий ему титул чемпиона),),

– в научном текстев научном тексте – термины ( – термины (корпусная корпусная лингвистика, часть речи, машинный переводлингвистика, часть речи, машинный перевод););

Page 24: «Зачем», «что» и «как» в исследовании коллокаций

используя разные параметры,используя разные параметры,(продолжение)(продолжение)

Мы получаем еще другие типы Мы получаем еще другие типы коллокаций = типы структурных коллокаций = типы структурных составляющих текста:составляющих текста:

составные слова составные слова ((в качестве, в связи, в в качестве, в связи, в результатерезультате)),,

газетные клише (газетные клише (по словам, сообщает сообщает РИА, РИА, как сообщает или сообщает как сообщает или сообщает Интерфакс со ссылкой наИнтерфакс со ссылкой на),),

конструкции с управлением глаголов конструкции с управлением глаголов ((зависит от, состоит в, зависит от, состоит в, а также –а также – имеет имеет место, обращать вниманиеместо, обращать внимание), и т.д.), и т.д.

Page 25: «Зачем», «что» и «как» в исследовании коллокаций

статистические меры статистические меры (напр., (напр., MIMI vs. t-score)-1vs. t-score)-1

Новостные тексты (напр., на материале Новостные тексты (напр., на материале lenta.rulenta.ru за 2009 за 2009))

мера мера MIMI (порог 40): определение (порог 40): определение наименования объектов, терминов, наименования объектов, терминов, сложных номинаций, отражающих сложных номинаций, отражающих предметную область (– как?) ,предметную область (– как?) ,

мера t-score (порог 40) – выделение:мера t-score (порог 40) – выделение:– «общеязыковых устойчивых сочетаний» «общеязыковых устойчивых сочетаний»

(производных служебных слов, (производных служебных слов, дискурсивных слов)дискурсивных слов)

– «устойчивых конструкций», где и те, и «устойчивых конструкций», где и те, и другие характеризуют стилистические другие характеризуют стилистические особенности новостных текстов особенности новостных текстов

Page 26: «Зачем», «что» и «как» в исследовании коллокаций

статистические меры статистические меры (напр., (напр., MIMI vs. t-score)-vs. t-score)-22

Научные тексты (напр., на материале «Диалог 2003-Научные тексты (напр., на материале «Диалог 2003-2009» и «Корпусная лингвистика» (2004, 2006, 2008)2009» и «Корпусная лингвистика» (2004, 2006, 2008)))

мера мера MIMI: «ключевые» неоднословные термины, которые : «ключевые» неоднословные термины, которые характеризуют предметную область коллекции; характеризуют предметную область коллекции;

t-score:t-score:– «общеязыковых устойчивых сочетаний» «общеязыковых устойчивых сочетаний»

(производных служебных слов, дискурсивных слов),(производных служебных слов, дискурсивных слов),– «устойчивых конструкций», где и те, и другие «устойчивых конструкций», где и те, и другие

характеризуют стилистические особенности научных характеризуют стилистические особенности научных текстов,текстов,

– коллокации, общие для коллокации, общие для всехвсех (или (или подавляющегоподавляющего большинствабольшинства) текстов коллекции) текстов коллекции

Степень тематической однородности коллекции научных Степень тематической однородности коллекции научных текстов соотносится с однородностью множества текстов соотносится с однородностью множества выделяемых коллокаций выделяемых коллокаций

Page 27: «Зачем», «что» и «как» в исследовании коллокаций

Таблица 1. Биграммы (MI-Таблица 1. Биграммы (MI-scorescore), выделяющиеся и для ), выделяющиеся и для лексем, и для словоформ. Материал конференции лексем, и для словоформ. Материал конференции «Диалог» «Диалог» (из доклада на симпозиуме "Терминология и знание" (из доклада на симпозиуме "Терминология и знание" -- Пивоварова, Ягунова 2010)-- Пивоварова, Ягунова 2010)

п.п. биграммы п.п. биграммы1 ударном слоге 30 корпусная лингвистика

2 концептуальных графов 33 отглагольных существительных

4 внешним посессором 37 знаки препинания

5 оперативной памяти 38 педагогической коммуникации8 вокального жеста 42 основного тона14 крайней мере 46 машинного перевода16 XIX века 61 устойчивых словосочетаний

17 лингвистического процессора 63 точки зрения21 положение дел 70 меньшей мере22 первую очередь 72 вряд ли25 картине мира 73 предметной области26 множественного числа 85 вплоть до

28 интеллектуальные технологии

Page 28: «Зачем», «что» и «как» в исследовании коллокаций

Биграммы (MI-Биграммы (MI-scorescore), ), выделяющиеся и для лексем, и выделяющиеся и для лексем, и для словоформ. Табл. 1 и 2а. для словоформ. Табл. 1 и 2а. ПоясненияПояснения Пороги для коллекций «Корпусная Пороги для коллекций «Корпусная

лингвистика» и «Диалог»: 16 и 40 лингвистика» и «Диалог»: 16 и 40

КурсивомКурсивом в таблице выделены сочетания, в таблице выделены сочетания, которые были удалены на этапе которые были удалены на этапе выделения терминологических выделения терминологических коллокаций с использованием коллокаций с использованием морфологического фильтра.морфологического фильтра.

ПодчеркиваниемПодчеркиванием выделены те выделены те сочетания, которые на основании сочетания, которые на основании формальных критериев должны были быть формальных критериев должны были быть ошибочно отнесены к терминологическим.ошибочно отнесены к терминологическим.

Page 29: «Зачем», «что» и «как» в исследовании коллокаций

Таблица 2а. Терминологические биграммы (MI-Таблица 2а. Терминологические биграммы (MI-scorescore), ), выделяющиеся и для лексем, и для словоформ. выделяющиеся и для лексем, и для словоформ. Материал конференции «Корпусная лингвистика» Материал конференции «Корпусная лингвистика» (из (из доклада на симпозиуме "Терминология и знание" -- доклада на симпозиуме "Терминология и знание" -- Пивоварова, Ягунова 2010)Пивоварова, Ягунова 2010)

п.п биграммы п.п. биграммы

4 речевой деятельности 40 разрешения неоднозначности

5 художественной литературы 41 английский язык

9 общим объемом 47 Национальный корпус

11 корпусная лингвистика 48 грамматических категорий

13 имена собственные 52 устная речь

15 математической лингвистики 54 база данных

16 словарной статьи 61 лексических единиц

18 предметной области 65 русский язык

19 машинного перевода 67 корпусные данные

26 большое количество 79 частей речи

35 семантических состояний 86 морфологической разметки

Page 30: «Зачем», «что» и «как» в исследовании коллокаций

Биграммы (MI-Биграммы (MI-scorescore), выделяющиеся и для ), выделяющиеся и для лексем, и для словоформ. Почему мы лексем, и для словоформ. Почему мы выбрали этот список?выбрали этот список?

В список 1 попадают составные номинации, характеризуемые В список 1 попадают составные номинации, характеризуемые максимальной свободой (максимальным разнообразием, максимальной свободой (максимальным разнообразием, минимальной ограниченностью) набора выполняемых ими в минимальной ограниченностью) набора выполняемых ими в предложении семантико-синтаксических ролей. предложении семантико-синтаксических ролей.

Примеры: 9 Примеры: 9 винительный падежвинительный падеж, 17 , 17 именительный падежименительный падеж, 24 , 24 актуальный членениеактуальный членение, 29 , 29 инструментальный средаинструментальный среда. .

Биграммы списка 2 – номинации в определенной синтаксической Биграммы списка 2 – номинации в определенной синтаксической позиции. позиции.

Примеры: 10 Примеры: 10 речевой актречевой акт, 50 , 50 речевых актовречевых актов, 19 , 19 именная группаименная группа, 65 , 65 именных группименных групп, 27 , 27 коммуникативного актакоммуникативного акта, 62 , 62 коммуникативных актовкоммуникативных актов, , 77 77 просодических характеристикпросодических характеристик, 78 , 78 прошедшего временипрошедшего времени, 74 , 74 речевого речевого сигналасигнала. Кроме того, биграммы этого подкласса могут относиться к . Кроме того, биграммы этого подкласса могут относиться к части целостной номинации, напр., сочетание части целостной номинации, напр., сочетание речевых актовречевых актов часто часто является частью триграммы «теории речевых актов». является частью триграммы «теории речевых актов».

У биграмм списка 3 (см.табл.1 и 2а) наиболее простая структура: У биграмм списка 3 (см.табл.1 и 2а) наиболее простая структура: нет ни закрепленности, ни противоречий между смысловыми, нет ни закрепленности, ни противоречий между смысловыми, лексическими и синтаксическими связями. Биграммы этого класса лексическими и синтаксическими связями. Биграммы этого класса занимают в текущем словарном составе некое занимают в текущем словарном составе некое промежуточное промежуточное местоместо между биграммами класса «1» и биграммами класса «2». между биграммами класса «1» и биграммами класса «2».

Анализ разных списков показал, что список 3 является наиболее Анализ разных списков показал, что список 3 является наиболее адекватным при решении задачи определения ключевых тем адекватным при решении задачи определения ключевых тем (неоднословных терминов), характерных для рассматриваемых (неоднословных терминов), характерных для рассматриваемых коллекций.коллекций.

Page 31: «Зачем», «что» и «как» в исследовании коллокаций

Статистические меры (напр., Статистические меры (напр., MIMI vs. t-score)-vs. t-score)-3. Дельта. 3. Дельта.

ПорогПорогНовостные тексты (напр., на материале Новостные тексты (напр., на материале lenta.ru)lenta.ru), в которых , в которых

представлена коллекция за год и подколлекции за представлена коллекция за год и подколлекции за каждый месяц (дельта за месяц)каждый месяц (дельта за месяц)

Дельты за месяц имеют гораздо большую однородность тем!Дельты за месяц имеют гораздо большую однородность тем! MIMI (порог 3): (порог 3): в списках коллокаций за разные месяцы – в списках коллокаций за разные месяцы –

небольшое число пересечений, небольшое число пересечений, – ок. 50% биграмм появляется только в одном списке, менее ок. 50% биграмм появляется только в одном списке, менее

50% процентов из первой сотни годового списка попали в 50% процентов из первой сотни годового списка попали в первую сотню какого-либо из месячных списков, первую сотню какого-либо из месячных списков,

– мера лучше отражает тематику текстов, а темы новостных мера лучше отражает тематику текстов, а темы новостных текстов непрерывно меняются.текстов непрерывно меняются.

tt--score score (порог 3): в списках коллокаций за разные месяцы (порог 3): в списках коллокаций за разные месяцы – большое число пересечений, – большое число пересечений,

– первые сто биграмм из «года» повторяются в нескольких первые сто биграмм из «года» повторяются в нескольких месячных списках (часто во всех двенадцати списках), месячных списках (часто во всех двенадцати списках),

– мера лучше отражает стратегию выбора тем (?) и стилистку мера лучше отражает стратегию выбора тем (?) и стилистку текстов, а они в рамках одного и того же СМИ меняется текстов, а они в рамках одного и того же СМИ меняется сравнительно медленнеесравнительно медленнее

Page 32: «Зачем», «что» и «как» в исследовании коллокаций

Выделении основных тем Выделении основных тем новостной коллекции. Мера. новостной коллекции. Мера.

Дельта. ПорогДельта. ПорогГипотеза об иерархии используемых мер (с учетом дельт Гипотеза об иерархии используемых мер (с учетом дельт

(списков по месяцам) и разных порогов) для новостных (списков по месяцам) и разных порогов) для новостных коллекций:коллекций:

См. еще раз слайд 26 на материале научных коллекций. См. еще раз слайд 26 на материале научных коллекций. 1.1. традиционно – традиционно – использование использование tt--scorescore для выделения для выделения

основных тем новостных коллекций гораздо хуже основных тем новостных коллекций гораздо хуже MIMI,,– НО НО пересеченияпересечения списков коллокаций, полученных для списков коллокаций, полученных для

разных месяцев (тематически более однородных разных месяцев (тематически более однородных выборок) с помощью выборок) с помощью tt--scorescore ( (ΔtΔt--scorescore) --) --

– дают представление дают представление о ведущих темахо ведущих темах более, чем списки, традиционно полученные с более, чем списки, традиционно полученные с

помощью меры помощью меры MIMI; ; 2.2. MIMI с высоким порогом отсеченияс высоким порогом отсечения – при прочих равных -- – при прочих равных --

более информативна для определения тематики более информативна для определения тематики коллекции, чем коллекции, чем ΔtΔt--scorescore..

3.3. Пересечение списков, полученных для разных месяцев с Пересечение списков, полученных для разных месяцев с использованием меры использованием меры MIMI ( (ΔMIΔMI), – почти пустое), – почти пустое

Page 33: «Зачем», «что» и «как» в исследовании коллокаций

Дополнительная проверка Дополнительная проверка гипотезы. Дельта. Пороггипотезы. Дельта. Порог

Еще раз про гипотезу: t-score < MI < Δt-score < MIT (подробнее про стат. обоснование в докладе Л.М.Пивоваровой)

Дельта нужда для увеличения тематической однородности выборки. КАК лучше определять дельту?

Порог нужен для отсечения редких для коллекции коллокаций. Он зависит от объема коллекции и степени тематической однородности. КАК определять порог в каждом конкретном случае?

Page 34: «Зачем», «что» и «как» в исследовании коллокаций

зачем? что? как?зачем? что? как?

Сейчас мы не ставим перед собой задачу Сейчас мы не ставим перед собой задачу практически востребованного метода практически востребованного метода – напр., извлечения напр., извлечения всехвсех терминов или терминов или

тестирования разных методик (см., напр., тестирования разных методик (см., напр., [Браславский, Соколов 2006]). [Браславский, Соколов 2006]).

Задача – изучение возможности выделения Задача – изучение возможности выделения формальных признаков, необходимых для формальных признаков, необходимых для определения предметной области коллекций определения предметной области коллекций текстов и ключевых слов, описывающих текстов и ключевых слов, описывающих рассматриваемые коллекции; рассматриваемые коллекции;

формирование наборов информационно формирование наборов информационно значимых для коллекции коллокаций и значимых для коллекции коллокаций и выделение общих для текстов коллекции выделение общих для текстов коллекции коллокаций.коллокаций.

Page 35: «Зачем», «что» и «как» в исследовании коллокаций

Зачем-2 и Что-2 и Как-2?Зачем-2 и Что-2 и Как-2?продолжение… на будущеепродолжение… на будущее что задано для списка что задано для списка

потенциальных коллокаций ??потенциальных коллокаций ??1.1. не заданы даже ключевые слова, не заданы даже ключевые слова, 2.2. ключевые слова заданы, варьируют ключевые слова заданы, варьируют

коллокаты,коллокаты,3.3. задан морфолого-синтаксический задан морфолого-синтаксический

шаблон (в комбинации с п.1. или 2),шаблон (в комбинации с п.1. или 2),4.4. заданы ключевые слова, вместо заданы ключевые слова, вместо

слова-коллокатаслова-коллоката5.5. и т.д. и т.д.

Page 36: «Зачем», «что» и «как» в исследовании коллокаций

ЛитератураЛитература Бирюк О. Л., Гусев В. Ю., Калинина Е. Ю. Словарь глагольной Бирюк О. Л., Гусев В. Ю., Калинина Е. Ю. Словарь глагольной

сочетаемости непредметных имен русского языка М., 2008 сочетаемости непредметных имен русского языка М., 2008 http://dict.ruslang.ru/abstr_noun.phphttp://dict.ruslang.ru/abstr_noun.php

Браславский П., Соколов Е. Сравнение четырех методов Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текса // автоматического извлечения двухсловных терминов из текса // Компьютерная лингвистика и интеллектуальные технологии: Труды Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая – 4 международной конференции «Диалог 2006» (Бекасово, 31 мая – 4 июня 2006 г.) / Под ред. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея. – июня 2006 г.) / Под ред. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея. – М.: Изд-во РГГУ, 2006.М.: Изд-во РГГУ, 2006.

Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических словосочетаний по текстам предметной области // терминологических словосочетаний по текстам предметной области // Труды пятой Всероссийской научной конференции "Электронные Труды пятой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL2003, Санкт-Петербург, 2003коллекции" - RCDL2003, Санкт-Петербург, 2003

Иорданская Л. Н., Мельчук И. А.. Смысл и сочетаемость в словаре. МИорданская Л. Н., Мельчук И. А.. Смысл и сочетаемость в словаре. М.: .: ЯзыкиЯзыки славянскихславянских культуркультур, 2007, 2007

Кобрицов Б.П., Ляшевская О.Н., Шеманаева О.Ю. Поверхностные Кобрицов Б.П., Ляшевская О.Н., Шеманаева О.Ю. Поверхностные фильтры для разрешения семантической омонимии в текстовом фильтры для разрешения семантической омонимии в текстовом корпусе // Компьютерная лингвистика и интеллектуальные корпусе // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог'2005" технологии: Труды международной конференции "Диалог'2005" (Звенигород, 1-6 июня, 2005 г.)/ Под ред. И.М. Кобозевой, А.С. (Звенигород, 1-6 июня, 2005 г.)/ Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П. Селегея. - М.: Наука, 2005. Нариньяни, В.П. Селегея. - М.: Наука, 2005.

Кустова Г. И. Словарь русской идиоматики. Сочетания слов со Кустова Г. И. Словарь русской идиоматики. Сочетания слов со значением высокой степени М., 2008 http://dict.ruslang.ru/magn.phpзначением высокой степени М., 2008 http://dict.ruslang.ru/magn.php

Ляшевская О. Н., Шаров С. А. Новый частотный словарь русской Ляшевская О. Н., Шаров С. А. Новый частотный словарь русской лексики 2008 http://dict.ruslang.ru/freq.phpлексики 2008 http://dict.ruslang.ru/freq.php

Page 37: «Зачем», «что» и «как» в исследовании коллокаций

Литература (продолжение)Литература (продолжение) Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация Пивоварова Л.М., Ягунова Е.В. Извлечение и классификация

терминологических коллокаций на материале лингвистических терминологических коллокаций на материале лингвистических научных текстов. Предварительные наблюдения // Материалы научных текстов. Предварительные наблюдения // Материалы второго Международного симпозиума “Терминология и знание” второго Международного симпозиума “Терминология и знание” М., 2010 (в печати)М., 2010 (в печати)

Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А. Статистический Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А. Статистический словарь русской газеты (1990 гг.) М., 1998словарь русской газеты (1990 гг.) М., 1998

Хохлова М.В. Экспериментальная проверка методов выделения Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы. Под ред. А. Мустайоки, М.В. Копотева, Л.А. Корпусные подходы. Под ред. А. Мустайоки, М.В. Копотева, Л.А. Бирюлина, Е.Ю. Протасовой. ХельсинкиБирюлина, Е.Ю. Протасовой. Хельсинки, 2008. , 2008. СС.343–357.343–357

Ягунова Е.В. Вариативность стратегий восприятия звучащего Ягунова Е.В. Вариативность стратегий восприятия звучащего текста (экспериментальное исследование на материале текста (экспериментальное исследование на материале русскоязычных текстов разных функциональных стилей). Пермь, русскоязычных текстов разных функциональных стилей). Пермь, 2008.2008.

Ягунова Е.В. Формальные и неформальные критерии вычленения Ягунова Е.В. Формальные и неформальные критерии вычленения ключевых слов из научных и новостных текстов // Материалы IV ключевых слов из научных и новостных текстов // Материалы IV Международного конгресса исследователей русского языка Международного конгресса исследователей русского языка «Русский язык: исторические судьбы и современность». М., 2010«Русский язык: исторические судьбы и современность». М., 2010

Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на языке. Опыт автоматического извлечения и классификации на материале новостных текстов – Сб. НТИ, Сер.2, №5. М., 2010 (в материале новостных текстов – Сб. НТИ, Сер.2, №5. М., 2010 (в печати)печати)

Page 38: «Зачем», «что» и «как» в исследовании коллокаций

Литература (продолжение)Литература (продолжение) Degand L., Bestgen Y.Towards automatic retrieval of idioms in Degand L., Bestgen Y.Towards automatic retrieval of idioms in

French newspaper corpora // Literary and Linguistic Computing, 18, French newspaper corpora // Literary and Linguistic Computing, 18, 2003, 249-2592003, 249-259

Iordanskaja, L., Paperno, S.: A Russian-English Collocational Iordanskaja, L., Paperno, S.: A Russian-English Collocational Dictionary of the Human Body, Columbus/Ohio 1996Dictionary of the Human Body, Columbus/Ohio 1996

Khokhlova MKhokhlova M. . Extracting Collocations in RussianExtracting Collocations in Russian: : Statistics vsStatistics vs. . DictionaryDictionary // // JADTJADT 2008: 2008: actes desactes des 9 9es Journes Journéées Internationales es Internationales dd’’Analyse Statistique des DonnAnalyse Statistique des Donnéées Textuelleses Textuelles, , LyonLyon, 12-14 , 12-14 marsmars 2008 : 2008 : Proceedings ofProceedings of 9 9th International Conference on Textual Data th International Conference on Textual Data statistical Analysisstatistical Analysis, , LyonLyon, , MarchMarch 12-14, 2008 ( 12-14, 2008 (editorseditors : : Serge Serge HeidenHeiden, , BBéénnéédicte Pincemindicte Pincemin). ). PP. 613–624.. 613–624.

Petrovic S., Snajder J., Basic B.D., Kolar M. Comparison of collocation Petrovic S., Snajder J., Basic B.D., Kolar M. Comparison of collocation extraction for document indexing // Journal of Computing and extraction for document indexing // Journal of Computing and information technology – CIT 14, 2006, 4, 321-327information technology – CIT 14, 2006, 4, 321-327

Stubbs M. Collocations and semantic profiles: om the case of the Stubbs M. Collocations and semantic profiles: om the case of the trouble with quantitative studies.Functions of language 2:11, 23-55, trouble with quantitative studies.Functions of language 2:11, 23-55, Benjamins, 1995.Benjamins, 1995.

Manning C., Schutze H. Collocations // Manning C., Schutze H. Manning C., Schutze H. Collocations // Manning C., Schutze H. Foundations of Statictical Natural Language Processing, 2002, Foundations of Statictical Natural Language Processing, 2002, pp.151-189pp.151-189

Rayson, Paul & Roger Garside (2000). Comparing corpora using Rayson, Paul & Roger Garside (2000). Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora frequency profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6.Workshop at ACL 2000. Hong Kong, 2000. P. 1-6.