natural language processing · 2. शब्द-बेद ननधाटयण-सॊऻा,...

18
आटस ् अँड कॉभसट कॉरेज, आा अमाऩक का नाभ- वििास ननि ती ऩाीर फी. . बाग-3 बाषा विऻान

Upload: others

Post on 21-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

आर्टस ्अँड कॉभसट कॉरेज, आष्र्ाअध्माऩक का नाभ- विश्िास ननितृ्ती ऩार्ीर

फी. ए. बाग-3

बाषा विऻान

Page 2: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

बायत भें भहत ्बाषा-विविधता

Page 3: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

बाषा एिॊ बावषमों की सॊख्मा

बाषा जनसखं्मा (2001 की जनगणना के आधाय ऩय; रगबग)

हहॊदी 450, 000, 000

भयाठी 72, 000, 000

कोंकणी 7, 000, 000

सॊस्कृत 6000

नेऩारी 13, 000, 000

Page 4: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

बाषा एिॊ बावषमों की सॊख्मा (क्रभश्)

बाषा जनसखं्मा (2001 की जनगणना के आधाय ऩय; रगबग)

कश्भीयी 5, 000, 000

आसाभी 13, 000, 000

तमभर 60, 000, 000

भरमारभ 33, 000, 000

फोडो 1, 000, 000

भणणऩुयी 1, 000, 000

Page 5: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

प्रभुख बाषा प्रक्रक्रमा ऩहर

• भुख्मत् सयकाय की ओय से : सूचना एिॊ प्रौद्मोगगकी भॊत्रारम, भानि सॊसाधन एिॊ विकास भॊत्रारम, विऻान एिॊ तकनीकी विबाग

• हार भें औद्मोगगक सॊस्थानों द्िाया अत्मगधक रुझान : बायतीम बाषाओॊ ऩय कें हित प्रा.बा.प्र.(एनएरऩी) का प्रमास – गूगर – भाइक्रोसाफ्ट – आईफीएभ शोध प्रमोगशारा – माहू – टीसीएस

प्राकृततक बाषा प्रक्रक्रमा (एन.एर.ऩी.), बा.प्रौ.सॊ. भुॊफई शोध-दर, सयकाय औय औद्मोगगक सॊस्थानों द्िाया अत्मगधक सभगथित

Page 6: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

हहन्दी शब्दतन्त्र

• शब्दतॊत्र – एक शाब्ब्दक आॉकडासॊचम • हहॊदी शब्दतॊत्र – अॊगे्रजी शब्दतॊत्र द्िाया पे्ररयत • सॊकल्ऩना के आधाय ऩय तनमभित • ऩमािम-सभूह – शब्दतन्त्र के भुख्म आधाय • विमबन्न िाक्मगत िगों के मरए विमबन्न व्मिस्था मसद्ाॊत

Page 7: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

हहन्दी शब्दतन्त्र की सॊयचना

1. ऩमाटम-सभूह गाम,गऊ, गैमा, धेनु व्माख्मा (उदाहयण सहहत) सीॊगिारा एक शाकाहायी भादा चौऩामा

हहन्द ूरोग गाम को गो भाता कहते हैं । 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशषेण, क्रक्रमा-विशषेण । 3. सत्ता-भीभांसा ननधाटयण

Page 8: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

ऩमाटम-सभूह ननभाटण संफंधी ससद्ांत

• संक्षऺप्तता – कभ से कभ ऩमािम-शब्दों के प्रमोग से सॊकल्ऩना की एकाथिता का स्ऩष्टीकयण

• व्माऩकता – सॊकल्ऩना की एकाथिता को दशािनेिारे सबी ऩमािम-शब्दों को क्रभ से उनकी फाय

म्फायता के आधाय ऩय ऩमािमिाची-सभूह भें प्रविब्ष्ट • प्रनतस्थाऩनीमता

– ऩमािम-सभूह भें आए हुए अगधकतय शब्दों का उदाहयण-िाक्म भें बफना अथि ऩरयितिन के प्रततस्थाऩना सॊबि

– घय, गहृ, भकान, सदन, शारा, आरम, धाभ, तनकेतन, िास्तु, ऩण-भनुष्मों का छामा हुआ िह स्थान,जो दीिायों से घेयकय फनामा जाता है "इस घय भें ऩाॉच कभये हैं "

Page 9: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

शब्दतॊत्र भें सॊफॊध

• ऩमािमिाची (Synonymy)• अगधिाची (Hypernymy) / अधोिाची (Hyponymy) • विरोभाथी (Antonymy) • अॊगिाची (Meronymy) / अॊगीिाची (Holonymy) • शे्रणीकयण (Gradation) • अऩरयहामितािाची (Entailment)• प्रकायिाची (Troponymy)

Page 10: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

संऻा-येखाचित्र

गाम, गऊ

फैर काभधेनु भैनी गाम

थन

ऩूॉछ अगधिाची

गुण

अधोिाची विरोभाथी

(मरॊग)

अॊगिाची

आॊतय ्मोग्मता तनदेशी क्रक्रमा

चौऩामा,ऩशु

शाकाहायी

ऩगुयाना

सीॊगिारा एक शाकाहायी

भादा चौऩामा

Page 11: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

आँकडे

ऩमािम-सभूह 33500

एकभेि शब्द 80400

सॊफॊधमुक्त ऩमािम-सभूह

33500

हहॊदी-अॊगे्रजी मोब्जत ऩमािम-सभूह

13000

खोजे गए शब्द 260000

Page 12: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

प्रबाि, उऩमोगगता एिॊ प्रत्मऺता

• उऩमोग के मरए आनराइन उऩरब्ध (तन्शुल्क) • शोध कामि हेतु तन्शुल्क डाउनरोड की सवुिधा • बाषाविऻान आॉकडा सॊघ (LDC), ऩेंमसरिेतनमा विश्िविद्मा

रम, अभयीका द्िाया साििबौमभक उऩरब्धता • बायतीम बाषा खोज इॊब्जन ऩय काभ कयने के मरए गगूर

द्िाया क्रीत व्मािसातमक अनुऻाऩत्र• मूयोऩीम बाषा सॊसाधन सॊगठन (ELRA) द्िाया जल्द उऩरब्ध:

मूयोऩ का बाषा आॉकडा कोश • बायतीम बाषाविऻान आॉकडा सॊघ द्िाया उऩरब्ध

Page 13: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

प्रबाि, उऩमोगगता एिॊ प्रत्मऺता (क्रभश्) • विश्िबय से दैतनक उल्रेख • सन ्2006 से 2.5 राख से अगधक शब्द-खोज • 4600 से अगधक डाउनरोड • कई बायतीम बाषाओॊ के शब्दतॊत्र का कें िबफ ॊद ु• बायतीम बाषा अनुिाद, सॊऺेऩण, बाषाओॊ के भध्म खोज के मरए कई शोधकतािओॊ द्िाया आधायबूत सॊसाधन के रूऩ भें प्रमुक्त

Page 14: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

हहॊदी शब्दतॊत्र

िविड बाषा शब्दतॊत्र

उत्तय-ऩूििबाषाशब्दतॊत्र भयाठी

शब्दतॊत्र

सॊस्कृत शब्दतॊत्र

अॊगे्रजी शब्दतॊत्र

फॊगारी शब्दतॊत्र

ऩॊजाफी शब्दतॊत्र

कोंकणी शब्दतॊत्र

अन्म बायतीम बाषाओॊ के शब्दतॊत्रों की धुयी

Page 15: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

सॊरग्न शब्दतॊत्र • अऩरयमभत शब्द सॊसाधन • माॊबत्रक अनिुाद, बाषा के भध्म खोज के मरए फहुत ही राबका

यी • बाषा-अध्माऩन, प्रमशऺण, तुरनात्भक बाषाविऻान के मरए फहु

त उऩमोगी • मूयोशब्दतॊत्र के सभान ऩयॊतु विमशष्ट बायतीम बाषा अमबराऺ

णणकता के कायण सभीऺात्भक अॊतय

Page 16: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

शब्दतॊत्र ऩय आधारयत भानक अणखर बायतीम शब्दकोश

शब्दाथि हहॊदी भयाठी फॊगारी उडडमा तमभर (W1, W2, W3, W4, W5, W6 )

(W1, W2, W3, W4, W5, W6 )

(W1, W2, W3) (W1, W2 , W3) (W1, W2, W3, W4)

(W1, W2, W3)

(sun) (सूमट, सूयज, बान,ु बास्कय, प्रबाकय, हदनकय, अशंुभान, अंशुभारी)

(सूमट, बान,ु हदिाकय, बास्कय, यवि, हदनेश, हदनभणी)

... ... ...

(cub, lad, laddie, sonny, sonny boy)

(रडका, फारक, फच्िा, छोकडा, छोया)

(भुरगा, ऩोयगा, ऩोय, ऩोयगे) … … …

(son, boy) (ऩुत्र,फेर्ा,रडका,रार,सुत,फच्िा,सूत,नंदन,नन्दन,ऩूत,तनम)

(भुरगा, ऩुत्र, रेक, चियंजीि, तनम ) … … …

Page 17: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

सम्भान

• ऩी.के. ऩटिधिन प्रौद्मोगगकी विकास ऩुयस्काय, 2008 • हहॊदी शब्दतॊत्र ऩय आधारयत फहुबाषीम आॉकडासॊचम तनभािण के मरए भाइक्रो साफ्ट शोध बायत के द्िाया शोध अनुदान

• हहॊदी शब्दतॊत्र का घटक के रूऩ भें अव्मिब्स्थत सूचना प्रफॊधन के मरए आईफीएभ बायत शोध अनुदान

Page 18: Natural Language Processing · 2. शब्द-बेद ननधाटयण-सॊऻा, क्रक्रमा, विशेषण, क्रक्रमा-विशेषण।

अतंयाटष्रीम सािटबौसभक शब्दतंत्र सम्भेरन, 31 जनियी से 4 पयियी, 2010

हहॊदी शब्दतॊत्र की सपरता के कायण बा.प्रौ.सॊ. भुॊफई को अनुदत्त एक प्रभुख अॊतयािष्रीम कामिक्रभ