лекция 6 тема 1

33
1-се тема ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ 1.1. Белем биреүҙе ойоштороуҙың моделдары и методтары 1-се-2-се лекциялар . 1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы — 3-сө-4-се, 8-се лекциялар . 1.3. Белем эҫтәүҙең логик-статистик методтары 5-се-7-се лекциялар . ҮҘ АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАРҘЫҢ ФАКУЛЬТАТИВ ӨЛӨШТӘРЕ 1.4. Тезаурус һүҙлек төҙөүҙең автоматлаштырылған технологияһы . 1.5. Телдең тәбиғи байлығын өйрәнеү миҫалы.

Upload: noobie312

Post on 05-Aug-2015

46 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: лекция 6 тема 1

1-се тема ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ

ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ 1.1. Белем биреүҙе ойоштороуҙың моделдары и методтары

—1-се-2-се лекциялар . 1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы

— 3-сө-4-се, 8-се лекциялар .

1.3. Белем эҫтәүҙең логик-статистик методтары — 5-се-7-се лекциялар .

ҮҘ АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАРҘЫҢ ФАКУЛЬТАТИВ ӨЛӨШТӘРЕ

1.4. Тезаурус һүҙлек төҙөүҙең автоматлаштырылған технологияһы .

1.5. Телдең тәбиғи байлығын өйрәнеү миҫалы.

Page 2: лекция 6 тема 1

6-сы лекция

ТЕКСТЫҢ СИНТАГМАТИК МОДЕЛЫ

Төп синтагмаларҙы фформаль тасуирлау

Яһалма синтагмаларҙы һәм синтагматик конструктивтарҙы фформаль тасуирлау

Синтагматик конструктивтарҙың сстатистик анализы

Page 3: лекция 6 тема 1

Әҙәбиәт

Материал лекции представлен в книге:

Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. /

Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM— С. 54–64.

Page 4: лекция 6 тема 1

Төп синтагмаларҙы фформаль тасуирлау

Конструктив тәбиғи тел берәмектәре : текстар корпусы, текст, контекст, фразанан тыш берҙәмлек , һөйләм, һүҙбәйләнеш, һүҙ, морфема, квази-морфема, ижек, алфавит символы

(хәреф).

Синтагма — аҫҡы кимәл тел берәмектәренең (символдарҙың) ирекһеҙ теҙмәһе .Һәр өҫкө кимәл синтагмаһы үҙ эсенә аҫҡы кимәл

синтагмаларын ала.

төп : символ, һүҙ, һөйләм, текст

яһалма : морфема, квази-морфема, ижек, һүҙбәйләнеш, , фразанан тыш

берҙәмлек , контекст һәм текстар корпусы

Төп синтагмаларҙы айырыуҙың маҡсаты

1. Тексты формаль телдәр теорияһы нигеҙендә тасуирлау.

2. Текстың тәү анализының эштәр комплексын айырып билдәләү.

Page 5: лекция 6 тема 1

Әҙәбиәт

Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А.Языковые средства диалога человека с ЭВМ. Практическое пособие / Серия «Организация взаимодействия человека с техническими средствами АСУ». В 7 кн. Кн.2. Под ред. Четверикова В.Н. М.: Высш. шк., 1990. – 159 с.

Page 6: лекция 6 тема 1

ТЕКСТЫҢ СИНТАГМАТИК СТРУКТУРАҺЫ

ТЕКСТЫҢ СИНТАГМАТИК СТРУКТУРАҺЫ — төп һәм яһалма синтагмалар нигеҙендә төҙөлгән синтагматик

конструктивтар комплексы.

Төп синтагматик конструктивтар: текстар, һүҙ йыйлмалары (өлөшләтә һәм тулы, тура һәм кире,

йышлыҡлы) — тәртипкә һалынған синтагмалар теҙмәһе Һүҙэйәркестәр —тәртипкә һалынған түбәнге кимәл синтагмалар

теҙмәһенең өҫкө кимәлсинтагмалары буйлап, йә билдәле бер тупланған берәмекбуйлап эйәртеүсе индекстар.

Page 7: лекция 6 тема 1

ТӨП СИНТАГМАЛАР (1)

.

,

.

SDlLrR ABABABABABABAB

},...,{ ЯАABR },...,{ яаABr },...,{ ZAABL },...,{ zaABl

}9,...,0{DAB

@}~,_,*,,^,\,,,/,,$,%,&,{# SAB

Предмет өлкәһенең тәбиғи тел тасуирламаһы алфавиты булып AB күплеге торһа:

ABх — хәзерге тәбиҙи тел алфавиттары (яҙма,баҫма

хәрефтәре менән айырыла ) ,

,

бында:

ABD —цифрҙар күплеге

ABS — һүҙ хәрефтәре сифатында хеҙмәт иткән айырым символдар.

Page 8: лекция 6 тема 1

ТӨП СИНТАГМАЛАР (2)

.

,

.

Һүҙҙең стоп-тамғаһы — текста һүҙҙәрҙе бер-береһенән айырырға мөмкинлек биреүсе тамғалар күплеге элементы. W һүҙенең стоп –тамғаһы stW стоптамғалар күплегенең трнзитив йөпләүсеһе булып тора:

WW STst

1n

nWW STST, где

файлаконецсимволнультабуляциякареткивозврат

строкуследнаперевоход

знакьныйвопросителзнакльныйвосклицате

скобкаквправаяскобкаквлеваяскобкакрправаяскобкакрлевая

кавычкадефисминустирезапятойсточказапятая

двоеточиеточкапробел

WST

_,_,,_

,___

,_,_

,__,__,__,__

,,//,__,

,,,

Page 9: лекция 6 тема 1

ТӨП СИНТАГМАЛАР (3)

Предметлы даирәне (ПО) тәбиғи тел тасуирламаһында һүҙ тип АВ күплегенең транзитив йөпләүсе элементтың һәм стоп тамғаның конкатенацияһын (йәғни ике һәм унан күберәк тамғаларҙың билдәле бер тәртиптә эйәреп килеүе) атайбыҙ.

)( WSTABWw

Page 10: лекция 6 тема 1

ТӨП СИНТАГМАЛАР (4)

.

Һөйләмде STS һөйләмдең стоп-тамғаһы һәм һүҙҙәрҙең транзитив йөпләүсе элементының.уларҙы айырыусыларҙың конкатенацияһы итеп ҡарайбыҙ:

;)(1

n

nWSTABW; SSTWS

абзацаконец

файлаконецсимволнульзнакьныйвопросител

знакльныйвосклицатеточка

SST

WST

SST

_

,_,_,_

,_,

;

2}____{_ кореткивозвратстрокуследнапереходабзацаконец

Page 11: лекция 6 тема 1

ТӨП СИНТАГМАЛАР (5)

Тексты ,һөйләм һымаҡ уҡ стоп-тамға ның һәм һүҙҙәрҙең транзитив йөпләүсе элементының.уларҙы айырыусыларҙың конкатенацияһы итеп ҡарайбыҙ.

1

)(n

nWSTABW;)_( файлаконецWT

Page 12: лекция 6 тема 1

ГРАММАТИКАНЫ ТЫУҘЫРЫУСЫ ТӘБИҒИ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (1)

GT –текст тыуҙырыусы грамматика

GS – һөйләм тыуҙырыусы грамматикаGW – һүҙ тыуҙырыусы грамматика

N – йөпләүсе символдар күплеге T = AB STW – – йөпләүсе символдар күплеге ю.S – баштағы йөпләмәүсе символ.

EOF = <файл аҙағы>

EOL = (<икенсе _ һыҙыҡҡа_күсеү> <кареткны_кире ҡайтарыу >)

Page 13: лекция 6 тема 1

ГРАММАТИКАНЫ ТЫУҘЫРЫУСЫ ТӘБИҒИ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (2)

ТЕКСТ ТЫУҘЫРЫУСЫ ГРАММАТИКАНЫҢ ТАСУИРЛАМАҺЫ

GT = (N, T, P, S0)

N = { S0,S1,S2,S3,S4}

T = AB STW

P = { S0 S1 EOF | EOF,

S1 S2 S1 | S2,

S2 S3 S4 | S3 | S4,

S3 w S3 | w w AB T

S4 s S4 | s s (STW \ EOF) T

Page 14: лекция 6 тема 1

ГРАММАТИКАНЫ ТЫУҘЫРЫУСЫ ТӘБИҒИ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (3)

ҺӨЙЛӘМ ТЫУҘЫРЫУСЫ ГРАММАТИКАНЫҢ ТАСУИРЛАМАҺЫ

GS = (N, T, P, S0)

N = { S0,S1,S2,S3,S4}

T = AB STW

P = { S0 S1 е | е , е STS T

S1 S2 S1 | S2,

S2 S3 S4 | S3 | S4,

S3 w S3 | w w AB T

S4 s S4 | s s (STW \ STS) T

}

Page 15: лекция 6 тема 1

ГРАММАТИКАНЫ ТЫУҘЫРЫУСЫ ТӘБИҒИ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (4)

ҺҮҘ ТЫУҘЫРЫУСЫ ГРАММАТИКАНЫҢ ТАСУИРЛАМАҺЫ.

GW = (N, T, P, S0)

N = { S0,S1,S2,S3 }

T = AB STW

P = { S0 S1 е | е , е STW T

S1 S2 S1 | S2

S2 w S3 | w w AB T

S3 s S3 | s s (STW \ EOF) T }

Page 16: лекция 6 тема 1

ЯҺАЛМА СИНТАГМАЛАРҘЫ ҺӘМ СИНТАГМАТИК КОНСТРУКТИВТАРҘЫ ФОРМАЛЬ ТАСУИРЛАУ

Генераль тулайымлыҡ = ПОРМ тәбиғи тел тасуирламаһы текстар корпусы

Эҙләнеү объекттары — текстар корпусы ның элеменнттары булып

торған айырым синтагмалар.

Төп ҡылыҡһырламалар — синтагмаларҙың текстар корпусында һәм уның өлөштәрендә абсолют осрау йышлығы.

Page 17: лекция 6 тема 1

ЯҺАЛМА СИНТАГМАЛАР (1)Текстар корпусы G — ул ПОРМ тәбиғи тел тасуирламаһы текстары күмәклеге :G = { T1, T2, ..., TN }, бында N – корпустағы текстар нисбәте , Ti – i-се текст.

Һүҙбәйләнеш wk — GT. – нан сығарыла, ул k-һүҙҙән тора, уларҙың араһындағы стоп- тамалар булмай: wk = w1w2w3..wk. Ниндәй ҙә булһа айырым һүҙ w = w1.

Һәр wk аңлатмаһына GT и конкрет текста уның осрау йышлығын күрһәткән һан ҡуябыҙ һәм килеп сыға F: wk E, бында E – теүәл һандар күплеге.

Йышлыҡ функцияһы — F = N(wk, T), бында :T – конкрет текст, wk – һүҙбәйләнеш.

Йышлыҡ функцияһының үҙенсәлектәре:N(wk,T)>0, әгәр wk T, һәм N(wk,T)=0, әгәр wk T. Бынан w = w1 килеп сыға N(w,T) = N(w1,T).

Page 18: лекция 6 тема 1

ЯҺАЛМА СИНТАГМАЛАР (2)

Т3 тексы стоп-тамғапары аппып ташланған T1 тексы менән T2 тексының ҡушылдығы булып тора.

T3 – GT. –нан сығарылған текст булып тора.

Иҫбатлау

1. Әгәр GT –нан сығарылған T1 һәм T2, бар икән, S0. аксиомаһынан сығарылған T1 һәм T2 бар.

2. T1 и Т2 –GT сикле алфавитының йөпләүсе эйәрсен символдары ,

3. Ә грамматика үҙе теләһә ниндәй оҙонлоҡта эйәрсендәр йыя ала.

4. Тимәк, T1 бөтә символдарын сығарғандан һуң , өҫтәмә рәүештә бөтә T2. символдарын сығарырға мөмкин.

5. Шулай итеп T3 GT.-нан сығарылған текст.Яҙабыҙ : T3 = T1 + T2, T1+T2 T2+T1.

Page 19: лекция 6 тема 1

ЯҺАЛМА СИНТАГМАЛАР (3)

Контекст С(T) — T тексының өҙлөкһөҙ фрагменты , йәғни GT-нан сығарылған фрагмент

Контекстың үҙенсәлектәре:N(wk, T1) + N (wk, T2) = N(wk, T1+T2) N(wk, C(T)) N(wk, T)T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [0,q]

N(wk,Сi(T)) N(wk, T), где Сi(T) Cj(T)=

Аңғартма:

• N(wk, T1) + N (wk, T2) N(wk, T1+T2),

• Текстар һөйләмдаең стоп- тамғалары менән тамамлана.

• T1 һәм T2 сиктәрендә wk һүҙбәйләнеше мөмкин түгел.

• Былай иҫәпләйбеҙ N(wk, T1) + N (wk, T2) = N(wk, T1+T2).

Page 20: лекция 6 тема 1

ЯҺАЛМА СИНТАГМАЛАР (4)

,

Йышлыҡлы һүҙ йыйлмалары — текстағы һүҙҙәрҙең ( йәки һүҙбәйләнештәр) тәртипкә һалынған күмәклеге һәм уларҙың йышлыҡ функцияларының аңлатмалары S(T) = ( <wk, N(wk,T)>).

Һүҙ йыйылмалары өҫтөндә эшҺүҙ йыйылмаларын берләштереү . S(T1) һәм S(T2) һүҙ йыйылмаларын берләштереү тип S(T1+T2) һүҙ йыйылмаһын әйтәбеҙ. Берләштерелгән һүҙ йыйылмаһына үҙҙәренең йышлыҡ функциялары менән ике текстың барлыҡ һүҙҙәре һәм һүҙбәйләнештәре инә.Бер иш һүҙҙәр йәки һүҙбәйләнештәр өсөн ҡушма йышлыҡлы функция төҙөлә.

Һүҙ йыйылмаларын тарҡатыу. S(T1)-S(T2) һүҙ йыйылмаларын тарҡатыу тип S(T*) һүҙ йыйылмаһын әйтәбеҙ.Унда T1-ән N(wk,T1) > N(wk,T2) тигеҙләмә даирәһенә ингән һүҙҙәр һәм һүҙбәйләнештәр генә инә. T*-ны S(T*) һүҙ йыйылмаһын төҙөүгә нигеҙ була алған бер гипотетик текст тип алабыҙ.

Page 21: лекция 6 тема 1

ЯҺАЛМА СИНТАГМАЛАР (5)

Синтагматик структураның сикләүҙәре: • Һүҙҙәрҙә дефисты айырып булмау,• Тик һүҙҙәрҙе һәм һөйләмдәрҙе генә таный алыу, • Өҫтәлмә структураларҙы танымау (тырнаҡлы яҙыуҙар,тура

телмәр ,башҡа формаль-синтаксик конструкциялллллллар).Яралтыусы синтагматик структура

Таныусы модель = «тапшырыусы программа-транслятор»

Тәбиғи тел ПОРМ тасуирламаһы синтагматик кодын тыуҙырыусы

синтагматик конструктивтар комплексы:

Һүҙ йыйылмалары,һүҙгәйүнәлтеүселәрҙе,һүҙбәйләнештәр теҙмәһе, контекстар, индекстар һ.б.

Page 22: лекция 6 тема 1

ЯҺАЛМА СИНТАГМАЛАР 6)

ТЕКСТЫҢ СИНТАГМАТИК МОДЕЛЫ

— ул тексты уның формаль-тел теоретик-күмәклекле тасуирламаһы нигеҙендә тексты үҙгәртеү юлы менән табылған төп синтагматик конструктивтар күплеге

рәүешендә күҙаллана.

.

GStgKKGSTG

i

STG

i

STG

:где,}{

Page 23: лекция 6 тема 1

СИНТАГМАТИК КОНСТРУКТИВТАРҘЫҢ СТАТИСТИК АНАЛИЗЫ

Текстың йышлыҡлы анализы — текстың параметрик профилен яһау.

Йышлыҡлы анализдың бурыстары • Текстар өсөн «Дәрәжә-йышлыҡ » моделында һүҙҙәрҙең бүленеш

параметрҙарын иҫәпләп сығарыу.• Текста өсөн һүҙҙәрҙең һәм парлы һүҙбәйләнештәрҙең йышлыҡ

функцияларын төҙөү: N(wij, Tj), N(wij2, Tj)}, где wij,wij

2 Tj, j =1,N.• Йышлыҡлы һүҙ йыйылмалары төҙөү.{ S(Tj) }, бында j=1,N.

• һүҙ йыйылмалары элементтарының дөйөм һанын иҫәпләп сығарыу.

jR

ijijj TwNN

0

),( , бында Rj –һүҙ йыйылмалары элементтарының һаны S(Tj).

• Генераль күмәклек өсөн «Дәрәжә-йышлыҡ » моделында һүҙҙәрҙең бүленеш параметрҙарын иҫәпләп сығарыу.

• Генераль күмәклек өсөн Мандельброт законы параметрҙарын табыу.

Page 24: лекция 6 тема 1

ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (1)

Текстың динамик анализы — t. ваҡыт арауығында асыҡланған тәбиғи тел ПОРМ

тасуирламаһы структураһында нисбәт ҡылыҡһырламаларының үҙгәреш заңын табыу.

Динамик анализдың бурыстары:• Текст структураһын асыҡлау ; • Һүҙ йыйылмалары структураһын асыҡлау, • Һүҙ йыйылмалары йөкмәткеһен асыҡлау,• Һүҙ йыйылмаларының тулыланыуын асыҡлау,

Динамик анализдың төп идеяһы Йышлыҡ арауыҡтарының үҙгәреш ҡылыҡһырламаларын

күҙәтеү.

Page 25: лекция 6 тема 1

ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (2)

Йышлыҡ F 1 F2 F 3 F 4 .... F N

1

1 - р1

р2 - р3

...

рk - рk+1

> рk+1

Бөтәһе :

Дөйөм алғанда ошондай таблица килеп сыға:

Бында: [Pk,Pk+1] – йышлыҡ арауыҡтарының сиктәре.

j

kkj TF

1

–күҙәтеү аҫтындағы текстар йәки һүҙ йыйылмалары.

Page 26: лекция 6 тема 1

ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (3)

Һүҙ йыйылмаларының структураһы билдәле бер ваҡыт арауығында текстарҙа йышлыҡ

группаларының күләменең сағыштырмаса үҙгәреүен күрһәтә.

,

),(

),,,(),,(

1 1

121

21

N

j

M

ijij

R

i

j

t

TwN

pptiPppt Бында

0

,),(),,,(

bcaеслиFwNcbatiP tit

Бында: Mj – Tj, тексындағы һүҙҙәр һаны

Rt –Ft тексындағы һүҙҙәр һаны

Page 27: лекция 6 тема 1

ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (4)

Һөҙөмтәләр таблицаға тултырыла :

Йышлыҡ F 1 F2 F 3 F 4 .... F N

1 (1,0,1) (N,0,1)

1 - р1 (1,1,р1) (N,1,р1)

р2 - р3 (2,р2,р3)

...

рk - рk+1

> рk+1

Бөтәһе: (1,0,) (1,0,) 1

«Бөтәһе» юлына үрҙә торған бағана суммаһы яҙыла , йәғни (1,0,). Күренеүенсә (N,0,) = 1

Page 28: лекция 6 тема 1

ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (5)

Һүҙ йыйылмаларының структураһы билдәле бер ваҡыт арауығында йышлыҡ группаларының

күләменең сағыштырмаса үҙгәреүен күрһәтә.

,),,,(

),,( 121

21N

R

i

R

pptiPppt

t

Бында

0

),(,1),,,(

bFwNaеслиbatiP tit

Page 29: лекция 6 тема 1

ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (6)

Һүҙ йыйылмаларының йөкмәтке динамикаһы билдәле бер ваҡыт арауығында йышлыҡ группаларының күләм

сағыштырмаһын күрһәтә .

Бында

Бында : Rt – Ft. . һүҙ йыйылмаһындағы һүҙҙәр һаны.

,

),0,,(

),,,(),,(

1

121

21

t

t

R

i

R

i

itP

pptiPppt

0

),(,1),,,(

bFwNaеслиbatiP tit

Page 30: лекция 6 тема 1

ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (7)

Һөҙөмтәләр таблицаға тултырыла :

Йышлыҡ F 1 F2 F 3 F 4 .... F N

1 (1,0,1) (N,0,1)

1 - р1 (1,1,р1) (N,1,р1)

р2 - р3 (2,р2,р3)

...

рk - рk+1

> рk+1

Бөтәһе: 1 1 1 1 1 1

Page 31: лекция 6 тема 1

ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (8)

Һүҙ йыйылмаларының тулыланыу динамикаһы билдәле бер ваҡыт арауығында йышлыҡ группаларына яңы

һүҙҙәр «үрсем биреүе» менән ҡылыҡһырлана.

где

Бында: RN – FN. һүҙ йыйылмаһындағы һүҙҙәр һаны.Rt – Ft. һүҙ йыйылмаһындағы һүҙҙәр һаны

,

),,,(

),,,(),,(

121

121

21

N

t

R

i

R

i

ppiNP

pptiPppt

0

))((&),(,1),,,( , bFwNabFwNaесли

batiP NiNtit

Page 32: лекция 6 тема 1

ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (9)

Һөҙөмтәләр таблицаға тултырыла :

Йышлыҡ F 1 F2 F 3 F 4 .... F N

1 (1, 0, 1) 1

1 - р1 (1, 1, р1) 1

р2 - р3 (2, р2, р3) 1

... 1

рk - рk+1 1

> рk+1 1

Бөтәһе: (1, 0, ) (1, 0, ) 1

Page 33: лекция 6 тема 1

ҮҘЕҢДЕ – ҮҘЕҢ ТИКШЕРЕҮ ӨСӨН ҺОРАУҘАР

Текстың синтагматик моделы нимә ул?

Төп синтагмаларҙың формаль тасуирламаларын бирегеҙ. Яһалма синтагмаларҙың формаль тасуирламаларын

бирегеҙ. Миҫалға синтагматик конструктивтар килтерегеҙ. Синтагма и синтагматик конструктиврҙы статистик

анализының төп этаптарын һанап сығығыҙ.