computational linguistics and …...3 language in india vol. 19 issue 11, nov 2019 prof. rajendran...
TRANSCRIPT
-
1 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
COMPUTATIONAL LINGUISTICS AND TECHNOLOGICAL
DEVELOPMENT OF TAMIL
Prof. Rajendran Sankaravelayuthan
Amrita Vishwa Vidyapeetham University
Coimbatore 641 112
==========================================================================
Abstract
The present monograph entitled “Computational Linguistics” written in Tamil deals mainly with
four aspects: computational linguistics in general, the processing of language at different levelvels of
analysis such as phonology, morphology, syntax and semantics, applications of computational linguistics
and technological development of Tamil. This book is not written at a stretch by me. It is the outcome of
my association with computational linguistics for the last twenty five years. So it may read like a
compilation.
The book is divided into 13 chapters.
Chapter 1 Introduction: The introduction first introduces the topic of the book ‘computational
linguistics’. It just explains the importance of studying language though computer and their problems, the
handling of language in computer, the tools for language study, the skills needed for linguists to involve
themselves in computational linguistics, the skills needed for computer scientist to involve themselves in
computational linguistics, natural language processing in Tamil, language technology and development
of language technology.
Chapter 2 Natural language Processing: Computer and language processing and the regular
expressions and automata are discussed elaborately in this chapter.
Chapter 3 Computational phonology: This chapter describes about four aspects of computational
phonology: computer phonology in general, certain important information about acoustic phonetics,
linguistics issues in text to speech mechanism and speech to text mechanism.
Chapter 4 Computational morphology: This chapter describes about the computer analysis of
morphology. It talks further about the computational modeling of morphology. This is followed by a
brief description about morphology of Tamil. The attempts to develop morphological analyzer and
morphological generator for Tamil.
Chapter 5 Computational Syntax: This chapter talks about the computational analysis of sentences.
Different grammatical formalisms for computational analysis of sentences have been introduced. Shallow
parsing is also briefly explained. The aspects of POS tagging, chunking and parsing have been discussed.
Chapter 6 Computational semantics: This chapter talks about linking computational syntax with
computational semantics. It also takes about different aspect of computational lexical semantics.
Chapter 7 Spell and grammar checking: This chapter is divided into two sections. The first section
talks about the spell checking and the second section talks about grammar checking. In the first section on
spell checking, the reasons for the spelling mistakes are discussed first. Then it elaborates on finding and
classifying spelling mistakes. This is followed by a discussion on methods of correcting spelling mistakes
such as Bayesian rules and Noisy channel models. In the second section on grammar checking, three
types of methods are discussed: syntax-based checking, statistics-based checking and rule-based
checking.
mailto:[email protected]
-
2 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
Chapter 8 Creation of lexical resources: This chapter elaborates on the creation of lexical resources like
word indexing, concordance dictionary, machine readable dictionaries, electronic thesaurus, word Net and
visual-onto-thesaurus.
Chapter 9 Word sense disambiguation: This chapter discusses at first about lexical ambiguity, different
types of lexical ambiguity, a computational model for word sense disambiguation, and different types of
word sense disambiguation. This is followed by a discussion on attempts for word sense disambiguation
in Tamil language.
Chapter 10 Machine translation: Three major types of machine translation such as human aided
machine translation, machine aided human translation and automatic machine translation. This is
followed by a discussion on limitation on machine translation and pros and cones of machine translation.
After this an elaborate discussion on development of machine translation in India is made.
Chapter 11 Developing computational tools: This chapter briefly talks about developing tools such as
machine translation systems, optical character recognition (OCR) and tools for language teaching.
Chapter 12 Technological development of Tamil.
Tamil has initiated its technological development well in advance. It has made use of all the
opportunities given to it for making it suitable for digitalization and computerization. The references
listed below stand to establish its efforts in fulfilling the need of the day i.e. technological development.
Governments, both state and central, funded liberally for the technological development of Tamil. This
helped it to develop MT systems, word Net and other NLP systems. Private organizations also contributed
for this mission. Many individuals, both from inside and abroad, literally worked for Tamil computing.
The organizations such as CIIL, AUKBCRC, Anna University, Amrita University, Tamil Virtual
Academy, Tamil University, and Madras University need to appreciated for their efforts in uplifting
Tamil in the era of Information Technology. Tamil has switched over to Unicode abandoning other
systems. Tamil has comparatively commendable resources and tools for NLP applications. Sumptuous
amount of text corpora, speech corpora and parallel corpora are available for Tamil. A good number of
speech recognition systems and text to speech systems are developed for Tamil. Reliable morphological
analyzers, morphological generators, syntactic parsers, chunkers, shallow parsers, named entity
recognition systems optical character recognition system are available for Tamil. Computational
semantics also improved in Tamil. There are attempts to develop word sense disambiguation system,
question answering system, relationship extraction system, sentiment analysis systems, automatic
summarization systems, and co reference resolution systems. Efforts are made to develop text generation
systems too for Tamil. Tamil shows only positive symptoms in the technological development.
Chapter 13: Conclusion
Key words: computational linguistics, natural language processing, computational phonology,
computational morphology, computational syntax, computational semantics, parsing, analysis, generation,
morphological analysis, morphological generation, syntactic parsing, POS tagging, chunking, text-to-
speech synthesis, speech to text recognition, spell checking, grammar checking, word sense
disambiguation, machine translation, lexical resources, machine readable dictionaries, WordNet, word
sense disambiguation, machine translation, computer aided language teaching.
-
3 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
கணினி ம ொழியியலும் த ிழ்ம ொழியின் மதொழில் நுட்ப வளர்ச்சியும்
(COMPUTATIONAL LINGUISTICS AND TECHNOLOGICAL DEVELOPMENT OF TAMIL)
பபரொசிொியர் இரொபசந்திரன் சங்கரபவலொயுதன்
அமிர்தா விஷ்வ வித்தயபீடம், க ாயம்புத்தூர்
க ாயம்புத்தூர்
நவம்பர் 2019
mailto:[email protected]
-
4 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
என்னுரை
இது என்னால் ஒகை ால ட்டத்தில் எழுதப்பட்ட நூல் அல்ல. இதன் ததாடக் ம் 1995இல்
என்று எண்ணு ின்கேன். அக் ால ட்டத்தில் தான் கபைாசிாியர் சங் ல், கபைாசிாியர் வினித்
ரசத்தன்யா கபைாசிாிரய அம்பாகுல் ர்னி என்பவர் ளின் ததாடர்பு எனக்குக் ிரடத்தது.
அச்சமயத்தில் ான்பூாில் உள்ள இந்திய ததாழில்நுட்ப நிறுவனத்தில் ஆசிாியர் ளுக்கும்
ஆய்வாளர் ளுக்கும் இயற்ர தமாழியியல் ஆய்வில் பயிற்சி அளித்து வந்தனர். அத்தர ய
பயிற்சியில் தான் நான் கமற் தசான்ன கபைாசிாியர் ரளச் சந்திக் எனக்கு வாய்பு ிரடத்தது.
முதல் முதலா ணிப்தபாேிரயக் ண்ணால் ண்டதும் ர யால் ததாட்டதும் அங்குதான்.
அவர் ள் தந்த பயிற்சிதான் என்ரன இன்ரேய நிரலக்கு ஆளாக் ியது. இந்தி-தமிழ் அனுசாை ா
என்ே ஒழுக் ரமப்பு அவர் ள் உதவியால் நான் உருவாக் ி அதன் தவளியீடு ண்டு வியந்து
ணினிதமாழியியரல என் முன்கனற்ேத்தின் ருவியா த் கதர்ந்ததடுத்கதன். இந்த அேிமு ம்
தான் எனக்கு இந்திய அைசின் நிதி நல்ர ரயப் தபற்றுத் தந்து இந்திய தமாழி ளுக் ிரடயிலான
தமாழிதபயர்ப்பு (தமிழ்-மரலயாளம் தமாழிதபயர்பு), இந்திய தமாழிக் ான தசால்வரல
உருவாக் ம் (தமிழ்ச் தசால்வரல), இந்திய தமாழி ளுக் ான தைவுத்ததாகுதி உருவாக் ம் (இந்தி-
தமிழ்) என்ே மூன்று ஆய்வுத்திட்டங் ரள தமிழ்ப் பல் ரலக் ழ தமாழியியல் துரேயில் நடத்த
வாய்பு ரள வாங் ித்தந்தது. 2011 சூனில் தமிழ் பல் ரலக் ழ த்திலிருந்து ஓய்வு தபற்ேபின்
2012 சூரலயில் க ாயம்பத்தூாில் உள்ள அமிர்தா விஷ்வ விஷ்வவித்யபீடம் (அமிர்தா
பல் ரலக் ழ ம்) என்ே நிறுவத்தில் வருர தரு கபைாசிாியைா ப் பணியாற்ே வாய்ப்பு
ிரடத்தது. அங்கு நரடதபற்ே இந்திய அைசின் நிதி நல்ர யில் நடந்த ஆங் ில-தமிழ்
தமாழிதபயர்ப்புத் திட்டத்திலும் திைாவிடம் தமாழி ளின் தசால்வரல என்பதன் ஒரு பகுதியான
மரலயாளச் தசால்வரல உருவாக்கும் ஆய்வுத்திட்டத்திலும் என் பங் ளிப்ரபச் தசய்ய முடிந்தது.
அரதத் ததாடர்ந்து தசன்ரனயிலுள்ள தமிழ் இரணய ல்விக் ழ த்தின் நிதி நல்ர யின் ீழ்
நரடதபற்ே “தமிழ் தமாழிக் ான ற்ேல் ற்பித்தல் ருவி ள் உருவாக்குதல்” என்ே திட்டத்தின்
ீழ் தமிழுக் ான ாட்சி-மூலப்தபாருண்ரமயியல் தசாற் ளஞ்சியத்ரத உருவாக்குவதில் தபரும்
பங் ாற்ேிகனன். தற்கபாது இத்தாலியிலுள்ள டிைண்கடா பல் ரலக் ழ த்துடன் இரணந்து
தசால்வரலயின் நீட்சியா உல அளவிலான அேிவு ரமயம் (Universal Knowledge core) என்ே
ஆய்வுத்திட்டதில் ஈடுபட்டுள்களன்.
-
5 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
தமிழ்ப் பல் ரலக் ழத்தில் நான் பணியாற்ேியகபாது மாணவர் ளுக்கு ணினி
தமாழியியல் ததாடர்பா நான் நடத்திய பாடங் ரளக் ணினியில் உள்ளீடு தசய்துவந்கதன்
( ணினி தமாழியியல், இயற்ர தமாழியியல் ஆய்வு, தசால்வரல, தைவுத்ததாகுதி/விாிதைவு
தமாழியியல், ஒலியியக் வியலும் கபச்சாய்வும், எழுத்துபிரழ மற்றும் இலக் ணப் பிரழ திருத்தி
என்பன சில). இரவதயல்லாம் எனது மடிக் ணினியில் கச ாித்து ரவத்து அமிர்தாப்
பல் ரலக் ழ த்திற்கு வந்தபின் அவற்ரே கமம்படுத்தி academia.edu மற்றும் Research Gate
என்ே இரணய தளங் ளில் பதிகவற்ேி வந்கதன். சில மாதங் ளுக்கு முன் கபைாசிாியர்
திருமரலயுடன் மின்னஞ்சல் மூலம் ததாடர்புத ாண்டு உரையாடிய கபாது அவாிடம் என்னிடம்
தமாழியியல் மற்றும் ணினி தமாழியியல் ததாடர்பான இருபதுக்கும் கமற்பட்ட நூல் வரைவு ள்
தவளியிடப்படாமல் இருப்பரதக் கூேிகனன். அவர் என்னிடன் அவற்ரே நூல் ளா தவளியிடக்
க ாாியகதாடு அல்லாமல் தமது Language in India என்ே மின் திங் ளாய்விதழில் தவளியிடவும்
உதவிக் ைம் நீட்டினார். இதுவரை அவர் உதவியால் மாதம் ஒரு நூல் என்ே ணக் ில் ஏழு
நூல் ள் Language in India-வில் தவளியிடப்பட்டுள்ளன. இது எட்டாவது நூலாகும்.
இது யாருக் ாவது பயன்படுமா என்று ததாியவில்ரல. சமீபத்தில் கபைாசிாியர் சங் ல்
அவர் ள் தசன்ரனயில் அண்ணா ததாழிநுட்பப் பல் ரலக் ழ த்தில் நரடகபற்ே உலத் தமிழ்
இரணய ம ாநாட்டில் உரையாற்ேியகபாது இரணயத்தில் இந்திய தமாழி ளின் டிஜிட்டல்
ஆவணங் ள் மி அாிதாகும் என்றும் மிக் குரேந்த விழுக் ாகட இந்திய தமாழி ளின் பங் ளிப்பு
என்றும் இந்திய தமாழியில் ஏைாளம் எழுதி இரணயத்தில் பதிகவற்ேம் தசய்யகவண்டும் என்று
அேிவுரை கூேினார். எனகவ அரத நிரேகவற்றும் மு மா வாவது இரத தவளியிடலாம் என்று
எண்ணு ின்கேன்.
இந்த நூல் பயனுள்ளதா இருந்தால் எனக்கு [email protected] என்ே மின்னஞ்சல்
மு விாிக்கு எழுதுங் ள். குரே நிரே இருந்தால் சுட்டிக் ாட்டுங் ள்
அன்புடன்
இைாகசந்திைன் சங் ைகவலாயுதன்
mailto:[email protected]
-
6 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
வொிசச எண் மபொருளடக்கம் பக்கம்
இயல் 1: அறிமுகம் 25
1.1. நூலின் ப ொக்கம் 25
1.2. முன்கனாடியான நூல் ள் 25
1.3. நூலின் அச ப்பு 26
1.4. நூலின் பயன்பொடு 27
1.5. கணிப்மபொறிவழி ம ொழி ஆய்வின் பதசவகளும் சிக்கல்களும் 27
1.6. கணிப்மபொறியில் ம ொழிகசளக் சகயொளுதல் 27
1.7. ம ொழி ஆய்விற்குத் பதசவப்படும் கருவிகள் 28
1.8. ம ொழி ஆய்வில் ம ொழியலொர்களுக்குத் பதசவப்படும் திறச கள் 29
1.9. ம ொழியொய்வில் கணிப்மபொறியொளர்களுக்குத் பதசவப்படும்
திறச கள்
29
1.10. இயற்சக ம ொழி ஆய்விற்கொன முன்பனற்பொடுகள் 29
1.11. ம ொழித் மதொழில் நுட்பம் 30
1.12. த ிழ் ம ொழித் மதொழிநுட்ப வளர்ச்சியின் இன்சறய ிசல 32
1.13. உல ளவில் ணினி தமாழியியலின் ததாடக் மும் வளர்ச்சியும் 35
2. இயல் 2: கணிமபொறிமூலம் ம ொழி ஆய்வு 36
2.1. இயற்சக ம ொழி ஆய்வு 36
2.2. இயற்சக ம ொழியும் மசயற்சக ம ொழியும் 36
2.3. ம ொழி ஆய்வும் கணிப்மபொறியும் 36
2.3.1. தரவுகசளச் பசகொித்தல் 39
2.3.2. தகவல்கசளப் தபறுதல் 40
2.3.3. ம ொழியின் கட்டச ப்சப ஆய்தல் 40
2.3.4. ம ொழி சடசய ஆய்தல் 43
2.3.5. பபச்சசத் மதொிந்து மகொள்ளல் 43
2.3.6. இயந்திர ம ொழிமபயர்ப்பு 43
2.4. சீரொன மவளிப்பொடுகளும் தொனியங்கிகளும் 44
2.4.1. சீரொன மவளிப்பொடுகள் 44
2.4.1.1. ிக அடிப்பசடயொன சீரொன மவளிப்பொட்டு அச ப்மபொழுங்கு 45
-
7 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
2.4.1.2. பிொித்தல், குமுமுதல், முன்னிசல 49
2.4.1.3. எளிதான எடுத்துக் ாட்டு ள் 50
2.4.1.4. லரவத்தன்ரமயான எடுத்துக் ாட்டு ள் 50
2.4.1.5. உயர் ிசல இயக்கிகள் 51
2.4.1.6. தபாதுவான எழுத்துக் ளின் குழுமங் ளின் மறுகுேியீடு ள் 52
2.4.1.7. எண்ணுவதற் ா ன் சீைான தவளிப்பாட்டு இயக் ி ள் 53
2.4.1.8. இடச்சாய்க ாடு கதரவயான சில எழுத்து ள் 53
2.4.1.9. சீைான தவளிப்பாட்டு இடப்தபயர்ப்பு, நிரனவ ம், மற்றும் லிசா 53
2.4.2. முற்று ிசலத் தொனியங்கி 55
2.4.2.1. முற்று ிசலத் தொனியங்கிகசளக் மகொண்டு ஆட்டு ம ொழிசயப்
புொிந்துமகொள்ளுதல்
56
2.4.2..2 முசறயொன ம ொழிகள் 60
2.4.2.3 ற்மறொரு எடுத்துக்கொட்டு 61
2.4.2.4 உறுதிமசய்யப்படொத முற்று ிசலத் தொனியங்கி 64
2.4.2.5 உறுதிமசய்யப்படொத முற்று ிசலத் தொனியங்கிசயக் பகொர்சவசய
ஏற்கப் பயன்படுத்தல்
65
2.4.2.6 பதடலொகத் மதொிந்துமகொள்சக 71
2.4.2.6 நிர்ணயிக் ப்பட்ட மற்றும் நிர்ணயிக் ப்படாத தானியங் ி ரள
உேவுபடுத்தல்
74
2.4.3. சீைான தமாழி ளும் முற்றுநிரலத் தானியங் ி ளும் 75
2.3.4. சுருக்கம் 78
இயல் 3: கணினி ஒலியனியல் 79
3.1. அேிமு ம் 79
3.2. ஒலியியல் ஆய்வு 80
3.3. ஒலிப்பியல் ஆய்வு 82
3.3.1. ஒலியுறுப்பு ள் 82
3.3.2. மூச்கசாட்ட இயக் ம் 87
3.3.3. ஒலிப்பி ள் 88
3.3.4. ஒலிப்பிடம் 88
-
8 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
3.3.5 ஒலிப்புமுரே 89
3.3.6. ஒலிப்பு வருணரன 89
3.3.7. தமிழ் ஒலி ளின் ஒலிப்பியல் ஆய்வு 94
3.3.7.1. உயிதைாலி ளின் ஒலிப்பியல் ஆய்வு 94
3.3.7.2. தமய்தயாலி ளின் ஒலிப்பியல் ஆய்வு 65
3.4. ஒலியியக் வியல் ஆய்வு 96
3.4.1. தமிழில் ஒலியியக் வியல் ஆய்வு 103
3.4.2. தமிழில் ஒரு எடுத்துக் ாட்டு ஒலியியக் வியல் ஆய்வு 104
3.4.2.1 தமிழ் உயிர் ளின் ஒலியியக் வியல் ஆய்வு 106
3.4.2.2. தமய்தயாலி ளின் ஒலியியக் வியல் ஆய்வு 117
3.5. உரையிலிருந்து கபச்சாக் ம் 139
3.5.1. உசரயிலிருந்து பபச்சு 140
3.5.2. ஒலியனியல் 141
3.5.3. ஒலியன்களும் ஒலியன் விதிகளும் 143
3.5.4. ஒலியனியல் விதிகளும் முற்று ிசல ொற்றிகளும் 144
3.5.5. உசரயிலிருந்து பபச்சுக்குபவண்டி உசரசய ஒலியன்களுக்குப்
மபொருத்துதல்
145
3.5.5.1. உச்சொிப்பு அகரொதிகள் 145
3.5.5.2. அகரொதிசய ப ொக்குவதற்கு அப்பொற்பட்ட உசர ஆய்வு 145
3.5.5.3. முற்று ிசல ொற்றி அடிப்பசடயில் உச்சொிப்பு அகரொதி 146
3.5.6 உசரயிலிருந்து-பபச்சில் ீக்கூறு 148
3.5.6.1 ீக்கூறின் ஒலியல் அல்லது ஒலியியக்கவியல் ப ொக்குகள் 149
3.5.6.2. பபச்சு உருவொக்கத்தில் ீக்கூறு 148
3.5.7. உரையிலிருந்து கபச்சுக்கூட்டிரணப்பாக் ம் 150
3.5.7.1. கபச்சு 151
3.5.7.2. கபசு உற்பத்தி 152
3.5.7.3. கபச்சுக் க ட்புணர்வு 153
3.5.7.4. கபச்சுக்கூட்டிரணப்பாக் த்தின் வைலாறு 155
3.5.7.5. கபச்சுக்கூட்டிரணப்பாக் த்தின் அணுகுமுரே ள் 159
-
9 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
3.5.7.5.1. ஒலிப்பியல் சார் கூட்டிரணப்பா ம் 160
3.5.7.5.2. ஒலிச்தசேிவுக் கூட்டிரணப்பாக் ம் 162
3.5.7.5.3. ஒன்ேிரணப்புக் கூட்டிரணப்பாக் ம் 164
3.5.6.5.4. அலகுத் கதர்வுக் கூட்டிரணப்பக் ம் 166
3.5.7.5.5. ஒலியுருரமக் கூட்டிரணப்பாக் ம் 167
3.5.7.5.6. தபாருண்ரமக் ளச் சிேப்புக் கூட்டிரணப்பாக் ம் 168
3.5.7.5.7. எச்.எம்.எம். அடிப்பரடயிலான கூட்டிரணப்பாக் ம் 168
3.5.7.6. கபச்சுக்கூட்டிரணப்பாக் தநேிமுரே ளின் நிரே ளும்குரே ளும் 171
3.5..7. உரையிலிருந்துப் கபச்சாக் ஒழுங்குமுரே ளின் பயன்பாடு ள் 172
3.5.8. தமிழில் உரையிலிருந்து கபச்சாக் ம் 174
3.5.8.1. தமிழில் உரையிலிருந்து கபச்சாக் த்தின் பின்னரடவு 174
3.5.8.2. தமிழில் உரையிலிருந்து கபச்சாக் த்தின் முயற்சி ள் 175
3.5.8.2.1. பிலிப்ஸ் மற்றும் கூட்டாளி ளின் உரையிலிருந்து கபச்சு மாற்ேம் 180
3.5.8.2.2. உதயகுமார் மற்றும் கூட்டாளி ளின் தமிழுக் ான எழுத்திலிருந்து
ஒலியனா மாற்றும் தீர்மானக் ிரளயரமப்புக் ற்ேல்
189
3.5.8.2.3. அருண்குமாாின் தமிழ் உரை-கபச்சு கூட்டிரணப்பாக் ஒழுங்குமுரே 196
3.6. கபச்சிலிருந்து உரையாக் ம் 212
3.6.1. கபச்சு ஒலி ளும் எழுத்துப்தபயர்ப்பும் 213
3.6.2. தானியங்கு கபச்சுப் புாிதல் 215
3.6.3. கபச்சுத் ததாழில் நுட்பத்தின் ரமல் ற் ள் 218
3.6.4. கபச்சுச் தசயலாக் த்தின் வர ள் 220
3.6.5. கபசு அேிதல் வர ள் 221
3.6.6. கபச்சு அேிதல் ஒழுங்குமுரே ளின் பயன் ளும் பயன்பாடு ளும் 222
3.6.7. தபாதுவான கபச்சுபுாிதல் ஒழுங்குமுரே 223
3.6.8. ஒலியியக் அளபுருவாக் மும் மாதிாியாக் மும் 224
3.6.8.1. ஒலியியக் ப் பண்புக்கூறு ஆய்வு 225
3.6.8.2. ஒலியியக் மாதிாி ள் 226
3.6.8.3. தழுவல் 230
-
10 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
3.6.9. தசால்சார் மற்றும் உச்சாிப்பு மாதிாியாக் ம் 232
3.6.10. தமிழில் கபச்சிலிருந்து உரையாக் ம் 235
3.6.10.1. தமிழில் கபச்சிலிருந்து உரை உருவாக் முயற்சி ள் 235
3.6.10.2. கபச்சுத் தைவு ள் 236
3.6.10.3. தமிழுக் ான அரச அடிப்பரடயிலான ததாடர்ச்சியான கபச்சு
அேிவான்
236
3.7. சுருக் வுரை 239
இயல் 4: கணினி உருபனியல் 241
4.1. அேிமு ம் 241
4.2. உருபனியல் அேிமு ம் 242
4.3. கணினி உருபனியல் ஆய்வு 253
4.3.1. உருபனியரல மாதிாிப்படுத்தல் 254
4.3.1.1. தமாழியியல் க ாட்பாடு ள் 254
4.3.1.1.1. தசால்லும் தசயற்பாங்கும் மாதிாி 255
4.3.1.1.2. தசால்லும் அடுக்கும் மாதிாி 255
4.3.1.2. உளதமாழியியல் க ாட்பாடு 258
4.3.1.2.1. மனச்தசாற் ளஞ்சியத்திலிருந்து உருபனியல் அரமப்பின் கச ாிப்பும்
மீளப்தபறுதலும்
258
4.3.1.2.2. மாதிாி வர ள் 260
4.3.1.2.1. தனித்தியங்கும் கதடல் மாதிாி 261
4.3.1.2.2.2. கலாக ா ன் மாதிாி 262
4.3.1.2.2.3. க ாக ார்ட் மாதிாி 263
4.3.1.2.2.4. வர ப்பாடு-பிளவு மாதிாி 263
4.3.1.2.2.5. தபாிதாக் ப்படகவண்டப்பட்ட உருபனியல் 264
4.3.1.2.2.6. துரணக்க ாள் பதிவு ள் மாதிாி ள் 265
4.3.1.2.2.7. தனி-பதிவு ள் மாதிாி ள் 265
4.3.1.2.2.8. எளிய கூேிடப்பட்ட மாதிாி 265
4.3.1.3. உளதமாழியியல் ண்டுபிடித்தங் ளின் குேிப்பு ள் 265
-
11 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
4.3.1.4. ணிப்தபாேி வழி ஆய்வுக் ான தபாருத்தமான மாதிாி 266
4.3.2. தமிழ் உருபனியல் 267
4.3.2.1. தபயரும் திாிபும் 268
4.3.2.2. தபயர்ப்பகுதி 269
4.3.2.3. திாிபுப் பகுதி 270
4.3.2.3.1. - த்து என்ே திாிபு ஒட்டுள்ள திாிபுப்பகுதி 271
4.3.2.3.2. -அற்று என்ே திாிபு ஒட்டுள்ள திாிபுப்பகுதி 271
4.3.2.3.3. தமய்தயாலி ள் இைட்டிப்பால் உருவாக் ப்படும் திாிபுப்பகுதி 272
4.3.2.3.4. மாற்ேிப் தபயர் ளின் திாிபுப்பகுதி 273
4.3.2.3.5. ஒலி நிைவல் சாாிர ள் இன், அன் 274
4.3.2.4. எண் குேிப்பு 275
4.3.2.5. கவற்றுரமக் குேியீடு/உருபு 275
4.3.2.6. தபயர் அடுக்கு ள் 283
4.3.2.6.1. கவற்றுரம உருபு ளும் சந்தி விதி ளும் 284
4.3.7. விரன அடுக்கு ள் 293
4.4. த ிழில் உருபனியல் ஆய்விகள் 295
4.4.1. இரொபேந்திரனின் த ிழ் உருபனியல் பகுப்பொய்வி 297
4.4.2. கபணசனின் உருபனியல் பகுப்பொய்வி 298
4.4.3. கபிலனின் த ிழ் விசனகளுக்கொன உருபனியல் பகுப்பொய்வி 298
4.4.4. மதய்வசுந்தரத்தின் உருபனியல் பகுத்துக் குறிப்பொன் 298
4.4.5. AUKBC ிறுவனத் த ிழ் உருபனியல் பகுப்பொய்வி 299
4.4.6. சவஷ்ணவியின் த ிழ் உருபனியல் பகுப்பொய்வியும் உருவொக்கியும் 299
4.4.7. வின்ஸ்டன் குருசின் ேி.எஸ். ொர்ஃப் பகுப்பொய்வியும் உருவொக்கியும் 300
4.4.8. துசரபொண்டியின் உருபனியல் பகுப்பொய்வி 302
4.4.9. RCILTS-T-இன் த ிழ் உருபனியல் பகுப்பொய்வி 302
4.4.10. RCILTS-T –இன் உருபனியல் உருவொக்கி 302
4.4.11. மபொருண்ச யக்கம் அல்லொத த ிழ் உருபனியல் 302
4.5. உருபனியலும் முற்றுநிரல மாற்ேி ளும் 304
-
12 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
4.5.1. முற்றுநிரல உருபனியல் பகுத்துக்குேித்தல் 305
4.5.2. அ ைாதியும் உருபன் அரமப்தபாழுங்கும் 307
4.5.3. முற்றுநிரல மாேி ளின் உதவியால் உருபனியல் பகுப்பாய்வு 308
4.5.4. எழுத்தலகு விதி ளும் முற்றுநிரல மாற்ேி ளும் 311
4.5.5. முற்றுநிரல மாற்ேியின் அ ைாதிரயயும் விதி ரளயும் கசர்த்தல் 311
4.5.6 பிசி ி ிகமா 312
4.6. சுருக் ம் 314
5. இயல் 5: கணினித் மதொடொியல் 315
5.1. அேிமு ம் 315
5.2. கணிப்மபொறி வழி ம ொழி ஆய்வுக்கொன இலக்கண வடிவச ப்புகள் 317
5.2.1. சூழல்வரையிலா இலக் ணம் 315
5.2.1.1. அண்ரமயுறுப்பு அணுகுமுரே ததாடைரமப்புச் சட்ட ம் 317
5.2.1.2. பகுத்தாயும் நரடமுரேத்திேன் 323
5.2.1.2.1. கமலிருந்து ீழ் மற்றும் ீழிருந்து கமல் பகுத்தாய்த்தல் 324
5.2.1.2.2. ஆழம் முதல் மற்றும் அ லம் முதல் பகுத்தாய்த்தல் 328
5.2.1.2.3. நிரலமாற்ே வரலப்பின்னலால் பகுத்தாய்த்தல் 330
5.2.1.2.3.1. மறுதைவு நிரலமாற்ே வரலப்பின்னல் ள் 332
5.2.1.2.3.2. நிரலதபறு தபாிதாக் ப்பட்ட நிரலமாற்ே வரலப்பின்னல் ள் 332
5.2.2. பாணினி இலக் ண வடிவவாதம் 338
5.2.2.1. பாணினி பகுத்தாய்வான் 343
5.2.2.1.1. முக் ியப் பகுத்தாய்வான் 343
5.2.2.1.2. குேிப்பிட்ட இடம்சார்ந்த தசாற் ரளக் குழுமுதல் 344
5.2.2.2 பகுத்தாய்வின் முக் ியத்துவம் 345
5.2.3. சார்புப் பகுப்பாய்வு 345
5.3. ஆழமில்லாப் பகுப்பாய்வு 347
5.4. தசால்வர ப்பாட்டு அரடயாளக் குழுமங் ளும் தசால்வர ப்பாடு
அரடயாளப்படுத்துர யும்
348
5.4.1. தசால்வர ப்பாட்டு அரடயாளக்குழுமங் ள் ண்டுபிடிக்கும் 349
-
13 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
முயற்சி ள்
5.4.2. தசால்வர ப்பாடு அரடயாளப்படுத்தலுக்கு ஒரு தைமான அரமப்பு 351
5.4.3. இந்தியதமாழி ளின் ரமய நிறுவனத்தின் தசால்வர ப்பாடு
அரடயாளக் குழுமம்
353
5.4.4 எ.யு.க .பி.சி நிறுவனத்தின் தசால்வர ப்பாடு அரடயாளக் குழுமம் 355
5.4.5. ரைதைாபாத் IIITஆல் உருவாக் ப்பட்ட இந்திய தமாழி ளுக் ான
தசால்வர ப்பாடு அரடயாளக் குழுமம்
360
5.4.6. அமிர்தா பல் ரலக் ழ த்தின் தசால்வர ப்பாட்டு அரடயாளக்
குழுமம்
363
5.4.7. தமிழுக் ான பிே தசால்வர பாட்டு அரடயாளப்படுத்தி ள் 363
5.4.7.1. வாசு அைங் நாதனின் கடக்தமிழ் 363
5.4.7.2. கணசனின் தசால்வர ப்பாட்டு அரடயாளப்படுத்தி 364
5.4.7.3 RCILTS-இன் தமிழ் தம்பம் 364
5.4.7.4. பாஸ் ைன் மற்றும் பிோின் இந்திய தமாழிக் ான தபாதுச்
தசால்வர ப்பாட்டு அரடயாளக்குழுமச் சட்ட ம்
354
5.4.7.5. இந்தியதமாழி ளுக் ான பிஸ் தசால்வர ப்பாட்டு
அரடயாளக்குழுமம்
371
5.4.7.6. சர்கவஸ்வைன் மற்றும் மக சன் என்கபாாின் விதி அடிப்பரடயிலான
படிநிரல அரடயாளக் குழுமம்
373
5.4.8. மூவர தசால்வர அரடயாளப்படுத்தும் வழிமுரே வரைவு ள் 373
5.4.8.1. விதி அடிப்பரடயிலான தசால்வர ப்பாட்டு அரடயாளப்படுத்தல் 374
5.4.8.2. புள்ளியியல் அடிப்பரடயிலான தசால்வர ப்பாட்டு
அரடயாளப்படுத்தல்
375
5.4.8.3. மாற்ேம் அடிப்பரடயிலான தசால்வர ப்பாட்டு
அரடயாளப்படுத்தல்
376
5.4.8.3.1. எவ்வாறு மாற்ேம் அடிப்பரடயிலான தசால்வர ப்பாட்டு
அரடயாளப்படுத்தல் விதி ள் பயன்படுத்தப்படு ின்ேன
377
5.4.8.3.2. எவ்வாறு மாற்ேம் அடிப்பரடயிலான தசால்வர ப்பாட்டு 377
-
14 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
அரடயாளப்படுத்தல் விதி ள் ற் ப்படு ின்ேன
5.5. ததாடாியல் பகுப்பான் ள் 378
5.5.1. த ிழில் மதொடொியல் பகுத்தொய்வொன்கள் 380
5.5.1.1. பொஸ்கரனின் மதொடொியல் பகுத்தொய்வொன் 380
5.5.1.2. எயுக பிசி ஆய்வுரமயத்தின் தபயர்த்ததாடர் பகுப்பான் 380
5.5.1.3. RCILTS –இன் வானவில் 381
5.5.1.4. கு ொர சண்முகத்தின் மதொடொியல் பகுத்தொய்வொன் 382
5.5.2. இந்தியதமாழி ளுக் ிரடயிலான தமாழிதபயர்ப்புக் ான ததாடாியல்
பகுத்தாய்வான்
382
5.6. த ிழில் ம ொழி சட ஆய்வி 383
5.7. சுருக் வுரை 383
6 இயல் 7: கணினிப் மபொருண்ச யியல் 384
6.1. அேிமு ம் 384
6.2. மபொருண்ச சய உருப்படுத்தம் மசய்தல் 384
6.3. மபொருண்ச யியல் ஆய்வு 384
6.4. மதொடொியலொல் இயக்கப்படும் மபொருண்ச யியல் 384
6.5. சூழல் கட்டுப்பொடில்லொத விதிகளில் மபொருண்ச யின்
விொிவொக்கங்கள்
385
6.6. முந்சதயப் பகுப்பொனில் மபொருண்ச யியல் ஆய்சவ
ஒருங்கிசணத்தல்
385
6.7. கணினிச் மசொற்மபொருண்ச யியல் 385
6.7.1. தமாழியியல் மற்றும் உளதமாழியல் பார்ரவயில்
தசாற்தபாருண்ரமயியல்
386
6.7.1.1. தசாற்தபாருண்ரமயியல் ஆய்வில் உளதமாழியியலாாின் பங்கு 387
6.7.1.1.1. ாலின் மற்றும் குல்லியன் மாதிாி 387
6.7.1.1.2. மில்லர் மற்றும் ஜாண்சன்-ரலட் மாதிாி 388
6.7.1.1.3. புாிதல் தசால்சார் அணு ல் 390
6.7.1.1.4. உருவாக் லில் தசால்சார் அணு ல் 390
6.7.1.1.5. தானியக் அல்லது ட்டுப்பட்ட தசயற்பாங் ா? இரணயான 391
-
15 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
அல்லது ததாடைான நரடமுரே
6.7.1.1.6. கூோய்வுப்தபாருண்ரமயியல் 391
6.7.1.1.7. தசயல்முரேப் தபாருண்ரமயியல் 393
6.7.1.2. தமாழியியல் தசாற்தபாருண்ரமயியல் 394
6.7.1.2.1. பங்க ற்பாளர் அரமப்பு 394
6.7.1.2.2. ரமப்தபாருள் பங் ளிப்பு ள் 395
6.7.1.2.3. கதர்வுக் ட்டுப்பாடு ள் 397
6.7.1.2.4. தசாற்தபாருண்ரம உேவு ள் 398
6.7.1.2.5. மூலப்தபாருண்ரமயியல் ள் 404
6.7.1.2.6. தசால்சார் ருத்துரு அரமப்பு 406
6.7.1.2.7. நி ழ்வு அரமப்பு ள் மற்றும் ாலச் தசால்சார் த வல் 407
6.7.1.2.8. குண மற்றும் மைபுாிரம அரமப்பு ள் 407
6.7.1.2.9. தபாருண்ரம-பனுவல் க ாட்பாட்டு தசால்சார் தசயல்பாடு ள் 409
6.7.2. மன அ ைதியும் இயந்திை அ ைாதியும் 410
6.7.2.1. இயற்ர மற்றும் தசயற்ர ப் தபாருண்ரம அலகு ளின் தபாதுவான
பண்பு ள்
411
6.7.2.2. நரடமுரேப்படுத்தும் நுட்பத்தில் உள்ள அடிப்பரட கவறுபாடு ள் 411
6.7.3. தசாற் தபாருண்ரமயியலிலிருந்து பனுவல் ஆய்வு 412
6.7.4. தசாற்தபாருண்ரமயியல் அ ைாதியா ரலக் ளஞ்சியமா 414
6.8. சுருக் வுரை 416
7. இயல் 7: எழுத்துப்பிரழத் திருத்தமும் இலக் ணப் பிரழதிருத்தமும் 417
7.1. அேிமு ம் 417
7.2. எழுத்துப்பிரழ திருத்தி 418
7.2.1. எழுத்துப் பிசழ ிகழ்வதற்கொன வொய்ப்புகள் 418
7.2.2. எழுத்துப்பிசழகசளக் கண்டறிதல்-சொிமசய்தல் சிக்கல்களின் வசககள் 419
7.2.3. ம ொழியில் இல்லொத மசொற்கசளக் கண்டறிந்து ொற்றுதலுக்கொன
மசயல்திட்டம்
420
7.2.4. பிசழ ீக்கும் வழிமுசறகள் 421
7.2.4.1. தபசியன் முரே 421
-
16 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
7.2.4.2. குரேந்த திருத்து தூைம் 425
7.3. இலக் ணப்பிரழ திருத்தி 427
7.3.1. ததாடாியல் அடிப்பரடயிலான திருத்தம் 427
7.3.2. புள்ளியியல் அடிப்பரடயிலான திருத்தம் 428
7.3.3. விதி அடிப்பரடயிலான திருத்தம் 432
7.4. நரட மற்றும் இலக் ணத் திருத்தி 432
7.4.1. க ாட்பாட்டுப் பின்னணி 433
7.5. தமிழில் எழுத்துப்பிரழ மற்றும் இலக் ணப்பிரழத் திருத்தி
உருவாக் ம்
435
7.5.1. தமிழ்ப் பல் ரலக் ழ ப் பிரழ திருத்தி 436
7.5.2. தனபாலன் மற்றும் பிோின் தமிழ் எழுத்துப்பிரழ திருத்தி 436
7.5.2.1. தமிழ்ப் பிரழ திருத்தத்தின் சிக் ல் ள் 436
7.5.2.2. தமிழ்ப் பிரழ திருத்தியின் ததாகுதி ள் 437
7.5.2.2.1. தபயர் ரளச் சாிபார்த்தல் 438
7.5.2.2.2. விரனச்தசாற் ரளச் சாிபார்த்தல் 440
7.5.2.2.3. பின்னுருபு ரளச் சாிபார்த்தல் 442
7.5.2.2.4. ஒன்றுகபால் உச்சாிக் ப்படும் எழுத்து ள் 442
7.5.2.2.5. அண்ரம விரசப் பிரழ ள் 443
7.5.2.2.6. எழுத்து நிரலநிறுத்து விதி ள் 444
7.5.2.2.7. அ ைாதிரயப் பார்த்தல் 444
7.5.2.2.8. பாிந்துரை உருவாக் ம் 444
7.5.2.3. முடிவுரை 445
7.5.3. விஜய் சங் ர் ைாமின் தமிழ்ப் பிரழதிருத்தி உருவாக்குதல் 445
7.5.3.1. எழுத்துப் பிரழதிருத்தலின் பல்கவறு அணுகுமுரே ள் 445
7.5.3.2. இந்திய தமாழி ளுக்கு இருக் ின்ே எழுத்துப் பிரழ திருத்தி ள் 446
7.5.3.3. பிரழ ண்டுபிடித்தல் 446
7.5.3.3.1. தைவுத்ததாகுதி அடிப்பரடயிலான அணுகுமுரே 447
7.5.3.3.2. தமாழியியல் அடிப்பரடயிலான அணுகுமுரே 449
-
17 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
7.5.4. ததய்வசுந்தைத்தின் தமன் தமிழ் தசால்லாளர் 453
7.5.5. எடுத்துக் ாட்டான பிரழ திருத்தி 454
7.6. சுருக் ம் 456
8 இயல் 8: தசால்மூலங் ரள உருவக்குதல் 461
8.1. அேிமு ம் 461
8.2. தசால்லரடவு உருவாக்குதல் 461
8.3. தசால்லாட்சி அ ைாதி மற்றும் தசாற்தபாருளரடவு உருவாக்குதல் 462
8.4. அ ைாதி உருவாக்குதல் 463
8.4.1. தமிழில் ணிப்தபாேி வழி அ ைாதி உருவாக்குதல் 463
8.4.2. அ ைாதி உருவாக்கும் படிநிரல ள் 463
8.4.3. ணிப்தபாேி வழி அ ைாதி-வைலாற்றுச் சுருக் ம் 464
8.4.4. ணிப்தபாேி வழி அ ைாதி: முரேரம ள் 464
8.4.5. அ ைாதி உருவாக்குவதில் இயற்தமாழி ஆய்வு 465
8.4.6. முடிவுரை 466
8.5. தசாற் ளஞ்சியம் உருவாக்குதல் 467
8.6. தசால்வரல உருவாக்குதல் 468
8.6.1. இந்கதா தசால்வரல 470
8.6.2. திைாவிடச் தசால்வரல 470
8.6.3. யூகைா தசால்வரல 471
8.6.4. தமிழ்ச் தசால்வரல 471
8.6.4.1. அ ைாதியும் தசால்வரலயும் 471
8.6.4.2. தசாற் ளஞ்சியமும் தசால்வரலயும் 472
8.6.4.3. தசால்வரலயில் உேவு ள் 472
8.6.4.4. தபயர்ச் தசால்வரல 473
8.6.4.4.1. தசாற் ளின் படிநிரல அரமப்பு 473
8.6.4.4.2. தனித்தனியான ததாடக் ி ள் 474
8.6.4.4.3. கவறுபடுத்தும் தபாருண்ரமக் கூறு ள் 475
8.6.4.4.4. சிரன-முழு உேவு 476
-
18 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
8.6.4.4.5. தபயர்ச் தசால்வரலயின் தபாருண்ரம உேவு ளின் சுருக் ம் 476
8.6.4.5. விரனச் தசால்வரல 478
8.6.4.5.1. விரனச்தசாற் ரளச் தசாற் ளங் ளா ப் பிாித்தல் 478
8.6.4.5.2. விரன ளுக்குத் தனியான ததாடக் ி ள் 478
8.6.4.5.3. ஒருதபாருள்பன்தமாழியக் குழுமங் ளா விரன ள் 478
8.6.4.5.4. விரன ளின் தபாருண்ரமக் கூோய்வு 478
8.6.4.5.5. விரன ளுக் ிரடயிலான தசால் மற்றும் தபாருண்ரம உேவு ள் 479
8.6.4.5.6. விரன ளுக் ிரடயிலான பல்தபாருள் ஒருதமாழியம் 479
8.6.4.5.7. ததாடாியல் பண்பு ளும் தபாருண்ரம உேவு ளும் 479
8.6.4.5.8. விரனச் தசால்வரலயின் தபாருண்ரம உேவு ளின் சுருக் ம் 479
8.6.4.6. தபயைரட மற்றும் விரனயரடச் தசால்வரல 480
8.6.4.7. தசால்வரலரயத் திட்டமிட்டு நரடமுரேப் படுத்தல் 481
8.6.5. முடிவுரை 482
8.7. ாட்சி மூலப்தபாருண்ரமயியல் தசாற் ளஞ்சிய உருவாக் ம் 482
8.8. சுருக் உரை 494
9. இயல் 9: தசாற்தபாருண்ரம மயக் ம்நீக் ம் 495
9.1. அேிமு ம் 495
9.2. தசாற்தபாருண்ரம மயக் ம் 495
9.3. தசாற்தபாருண்ரம மயக் நீக் த்தின் வர ள் 496
9.3.1. தசால்வர ப்பாட்டுப் தபாருண்ரம மயக் ம் 496
9.2.2. ஒப்புருதசான்ரம சார், பல்தபாருண்ரமசார் தபாருண்ரம மயக் ம் 497
9.2.3. மாற்ேப் தபாருண்ரம மயக் ம் 501
9.3. தசாற்தபாருண்ரம மயக் நீக் ம்: ஒரு ணினிசார் அணுகுமுரே 501
9.3.1. புே அேிவு மூலங் ள் 502
9.3.2. ணினிசார் தபாருண்ரம மயக் நீக் த்தின் வர ள் 502
9.3.2.1. ண் ாணிக் ப்பட்ட தபாருண்ரம மயக் நீக் ம் 503
9.3.2.2. ண் ாணிக் ப்படாத தபாருண்ரம மயக் நீக் ம் 503
9.3.2.3. அேிவு அடிப்பரடயிலான தபாருண்ரம மயக் நீக் ம் 503
-
19 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
9.3.2.4. பிே அணுகுமுரே ள் 503
9.4. தமிழில் தசாற்தபாருள் மயக் நீக் த்திற் ான தநேிமுரே ள் 504
9.4.1. த ாத்தாக் ச் கசர்ந்துவருர அணுகுமுரே 504
9.4.1.1. கசர்ந்துவருபரவ ளின் முக் ியத்துவம் 507
9.4.1.2. கவற்றுரமக் குேியீடு ளின் முக் ியத்துவம் 507
9.4.1.3. ற்ேல் ட்டம் 508
9.4.1.4. பாிகசாதரனக் ட்டம் 512
9.4.2. ருத்துரு வரைபட அ ைாதி அடிப்பரடயில் தசாற்தபாருண்ரம
மயக் நீக் ம்
514
9.4.2.1 ருத்துவரு வரைபடம் 514
9.4.2.2. ருத்துரு வரைபட அ ைாதிரயப் பயன்படுத்திப் தபாருண்ரம
மயக் நீக் ம் தசய்தல்
515
9.4.3. தசம்தமாழிப் பனுவல் ளில் தசாற்தபாருண்ரம மயக் நீக் ம் 525
9.5. முடிவுரை 527
10. இயந்திை தமாழிதபயர்ப்பு 529
10.1. அேிமு ம் 529
10.2. ணிப்தபாேி வழி தமாழிதபயர்ப்பின் கதரவ 529
10.3. ணிப்தபாேிவழி தமாழிதபயர்பின் வர ள் 530
10.4. ணிப்தபாேி வழி தமாழிதபயர்ப்பின் சில முயற்சி ள் 531
10.5. ணிப்தபாேி வழி தமாழிதபயர்ப்பின் எல்ரல ள் 533
10.6. ணிப்தபாேி வழி தமாழிதபயர்ப்பின் நிரே ளும் குரே ளும் 534
10.7. இயந்திை தமாழிதபயப்பின் வளர்ச்சி 538
10.7.1. இந்தியாவில் இயந்திை தமாழிதபயர்ப்பின் வளர்ச்சி 542
10.7.1.1. அனுசாைக் இயந்திை உதவியிலான தமாழிதபயர்ப்பு ஒழுங்குமுரே 543
10.7.1.2. சிவ மற்றும் சக்தி ஒழுங்குமுரே 546
10.7.1.3. ஆங் ிலபாைதி 547
10.7.1.4. அனுபாைதி 552
10.7.1.5. ஆங் ிலபாைதி II(2004) 552
-
20 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
10.7.1.6. மந்ைா இயந்திை தமாழிதபயர்ப்பு ஒழுங்குமுரே 553
10.7.1.7. அனுவாதக் தமாழிதபயர்ப்பு ஒழுங்குமுரே 554
10.7.1.8. உல ளாவிய வரலப்பின்னல் தமாழி அடிப்பரடயிலான ஆங் ில
இந்திய தமாழிதபயர்ப்பு
554
10.7.1.9. மாத்ைா இயந்திைதமாழிதபயப்பு ஒழுங்குமுரே 555
10.7.1.10. ஆங் ில- ன்னடா இயந்திை தமாழிதபயப்பு ஒழுங்குமுரே 555
10.7.1.11. இயந்திை தமாழிதபயர்ப்பு ஒழுங்குமுரே ளின் ஒப்பீடு 556
10.7.2. தமிழ்சார் இயந்திை தமாழிதபயர்ப்பு ள் 559
10.7.2.1. தமிழ் உருஷ்யன் தமாழிதபயர்ப்புத் திட்டம் 559
10.7.2.2. உல வரலப்பின்னல் தமாழி –தமிழுக் ான இரடதமாழி இயந்திை
தமாழிதபயர்ப்பு
561
10.7.2.3. ஆங் ிலத்திலிருந்து தமாழியியல் புத்த ங் ரளத் தமிழில்
தமாழிதபயர்க்கும் திட்டம்
562
10.7.2.4 எயுக பிசி நிறுவனத்தின் தமிச்-இந்தி தமாழிதபயர்ப்புத் திட்டம் 564
10.7.2.5. இயந்திய தமாழி ளுக் ிரடயிலான இயந்திை தமாழிதபயப்புத்
திட்டத்தில் தமிழ் தழுவிய இயந்திை தமாழிதபயர்ப்பு
564
10.7.2.8. கூகுள் தமாழிதபயர்ப்பி 574
10.8. சுருக் உரை 574
11. இயல் 11 : பிற ம ொழிக் கருவிகள் உருவொக்குதல் 576
11.1. முன்னுரை
11.2. ஒலிமபயர்ப்பி உருவொக்குதல் 576
11.3 எழுத்துப் தபயர்ப்பி உருவாக்குதல் 576
11.4. எழுத்துணொி உருவொக்குதல் 576
11.5. தசாற் ரள அ ைவாிரசப் படுத்துதல் 577
11.6. தசால்லாய்வி/தசால்லாளர் உருவாக்குதல் 577
11.7. த ிழில் கணிப்மபொறி வழி ம ொழி கற்றல், கற்பித்தல் ருவி
உருவாக் ல்
577
11.7.1. கற்றல், கற்பித்தலில் கணிப்மபொறி 579
-
21 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
11.7.2. கணிப்மபொறி வழி கற்றல்-கற்பித்தலின் சிறப்பியல்புகள் 580
11.7.3. கணினி உதவியுடன் ற்ேல் ற்பித்தல் ருவி உருவொக்குவதற்கொன
கணிப்மபொறி ம ொழிகள்
581
11.7.4. கணினி உதவியுடன் ற்ேல் ற்பித்தல் உருவொக்குவதற்கொன
பயனீட்டு ம ன்மபொருள்கள்
582
11.7.5. கணினி உதவியுடன் கற்றல்-கற்பித்தல் கருவியில் கரும் படங்கள் 583
11.7.6. கணினி உதவியுடன் கற்றல் கற்பித்தல் கருவி உருவொக்கத்தில் னித
நுண்ணறிவின் பங்கு
583
11.7.7. கணிப்மபொறி வழி ம ொழி கற்றல், கற்பித்தலின் எல்சலகள் 584
11.7.8. கணிப்மபொறி வழி த ிழ் கற்றல்-கற்பித்தலுக்கொன ம ன்மபொருள்கள் 584
11.7.9. கணிப்மபொறி வழி ம ொழி கற்றல் கற்பித்தலில் இசணயத்தின் பங்கு 585
11.7.10. ம ொழி கற்றல் ம ன்மபொருள் உருவொக்கத்தில் பிற துசறயினொின்
பங்கு
586
11.8. சுருக் உரை 587
12 இயல் 12: தமிழின் ததாழிநுட்ப வளர்ச்சி 588
12.1. அேிமு ம் 588
12.2. சவால் ளும் இரடயூறு ளும் 589
12.3. வளங் ள் மற்றும் ருவி ள் 592
12.3.1 தமாழிவளங் ள்: வளங் ள், தைவு மற்றும் அேிவுத்தளம் 592
12.3.1.1 உரைத் தைவுத்ததாகுதி ள் 592
12.3.1.2. கபச்சுத் தைவுத்ததாகுதி ள் 594
12.3.1.3. இரணத் தைவுத்ததாகுதி ள் 594
12.3.1.4. தசால்சார் மூலவளங் ள் 595
12.3.1.5. இலக் ணங் ள் 596
12.3.2. தமாழித் ததாழில் நுட்பம்: ருவி ள், ததாழில் நுட்பங் ள்
பயன்பாடு ள்
597
12.3.2.1. கபச்சு அேிதல் 597
12.3.2.2. கபச்சு உருவாக் ம் 598
12.3.2.3. இலக் ணப் பகுப்பாய்வு 599
12.3.2.3.1. கடா ன் ளா ப் பிாித்தல் 600
-
22 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
12.3.2.3.2. பகுதி ஆய்தல் 601
12.3.2.3.3. தசால்லன் ஆய்தல் 601
12.3.2.3.4. உருபனியல் பகுப்பாய்வு 602
12.3.2.3.5. உருபனியல் உருவாக் ம் 604
12.3.2.3.6. தசால்வர ப்பாடு அரடயாளப்படுத்தல் 605
12.3.2.4. ததாடாியல் பகுப்பாய்வு 606
12.3.2.4.1 கூோய்வு 607
12.3.2.4.2. ஆழமற்ே பகுப்பாய்வு 608
12.3.2.4.3. எச்சத்ததாடர் எல்ரலரய அரடயாளம் ாணல் 609
12.3.2.5. ஒலிவழி எழுத்துணர்தல் 610
12.3.2.6. தபாருண்ரமயியல் பகுப்பாய்வு 611
12.3.2.6.1. தசாற்தபாருண்ரம மயக் நீக் ம் 611
12.3.2.6.2. க ள்விப்பதில் ஒழுங் ரமப்பு 612
12.3.2.6.3. உேவு பிாித்ததடுத்தல் 613
12.3.2.6.4. உணர்வுப் பகுப்பாய்வு 614
12.3.2.6.5. தானியங் ி உரைச்சுருக் ம் 614
12.3.2.6.6. ஒத்தரதக் குேிப்பிடும் தீர்மானம் 616
12.3.2.6.7. தபயாிடப்பட்ட இருப்புப்தபாருள் ண்டுபிடிப்பு 616
12.3.2.6.8 பிே ணினிப் தபாருண்ரமயியல் ஆய்வு ள் 618
12.3.2.7. உரை உருவக் ம் 618
12.3.2.8. இயந்திை தமாழிதபயர்ப்பு 619
12.3.2.8.1. தமிழுக்கு அனுசாை ா 620
12.3.2.8.2. அனுவாதக்-ஆங் ிலத்திலிருந்து இந்திய தமாழிதமாழிதபயர்ப்பு
தசய்யும் ஒரு வலுவான ஒழுங்குமுரே
620
12.3.2.8.3. இந்திய தமாழியிலிருந்து இந்திய தமாழி ளுக்கு இயந்திை
தமாழிதபயர்ப்பு
621
12.3.2.8.4. இயந்திை தமாழிதபயர்ப்ரப கமம்படுத்துவதில் அமிர்தா விஷ்வ
வித்யபீடத்தின் பங் ளிப்பு ள்
621
-
23 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
12.3.2.8.5. இயந்திை தமாழிதபயர்ப்ரப கமம்படுத்துவதில் AUKBCRCயின்
பங் ளிப்பு
622
12.3.2.8.6. இயந்திை தமாழிதபயர்ப்ரப கமம்படுத்துவதில் தமிழ்ப் பல் ரலக்
ழ த்தின் பங் ளிப்பு
622
12.3.2.8.7. உத்தமத்தின் பங் ளிப்பு 622
12.4. மதிப்பீடு 623
12.5. எதிர் ால ஆய்வு மற்றும்வளர்ச்சிக் ான தசயல்பாடு ள் 626
துசணநூல்கள் 628
-
24 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
சுருக் க்குேியீடு ள் விாிவு ள்
தபததா தபயர்ததாடர்
விததா விரனத் ததாடர்
அஅ அரடத ாளி அரட
கவஉததா கவற்றுரம உருபுத்ததாடர்
பிஉததா பின்னுருபுத்ததாடர்
கவஉ கவற்றுரம உருபு
பிஉ பின்னுருபு
தபஅ தபயைரட
விஅ விரனயரட
விஅததா விரனயரடத் ததாடர்
தபஅததா தபயைரடத்ததாடர்
-
25 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
இயல் 1
அறிமுகம்
1.1. நூலின் ப ொக்கம்
"கணினி ம ொழியியல்“ என்ற தசலப்பில் அச ந்த இந்நூல் கணினி ம ொழியியல் ற்றும்
இயற்சக ம ொழி ஆய்வின் அடிப்பசடயொன தகவல்கசளக் கணினி ஒலியனியல், கணினி
உருபனியல், கணினித் மதொடொியல், கணினிப் மபொருண்ச யியல் என்ற தசலப்புகளில்
தருவதுடன் இவ்வொய்வினொல் ஏற்பட்ட ம ொழித் மதொழிநுட்ப முன்பனற்றங்கள் குறித்தும்
விவொிக்கின்றது. த ிழ்த் மதொடர்பொன கணினி ம ொழியியல் ற்றும் இயற்சக ம ொழி ஆய்வு
குறித்து இதுவசர மவளிவந்துள்ள ஆய்பவடுகள், கட்டுசரகள், நூல்கள் ற்றும் இசணய
தளங்களில் உள்ள தகவல்கள் இவற்றின் அடிப்பசடயில் மசய்திகசளத் திரட்டித் த ிழ் ம ொழியின்
மதொழில்நுட்ப வளர்ச்சி பற்றி விளக்கம் தர முயற்சி எடுக்கப்பட்டள்ளது.
1.2. முன்பனொடியொன நூல்கள்
இந்நூலின் முன்கனாடியா த் த ிழில் கணினியியல் குறித்து மவளிவந்துள்ள நூல் ளா
சுப்ரபயா பிள்ரள (2000) எழுதிய ”இயற்ர தமாழி ஆய்வு” என்ே நூரலயும் பாஸ் ைன் (2004)
எழுதிய ”தமிழில் ணிப்தபாேியியல், ணிப்தபாேியில் தமிழ்” என்பனவரேக் குேிப்பிடலாம்.
சுந்தைம் (2015) எழுதிய ணினித்தமிழும் ஒரு முன்கனாடியான நூலாகும்.
வாசு அைங் நாதனின் ”தமிழ்தமாழியியலுக் ான ணினிசார் அணுகுமுரே ள்”
(Computational Approaches To Tamil Linguistics) மி வும் வைகவற் த்தகுந்த பங் ளிப்பாகும்
(Ranganathan 2016b). ணினி ஒலியியல், ணினி உருபனியயல், ணினி ததாடாியல் மற்றும்
ணினி தபாருண்ரமயியல் ஆ ியவற்ேில் தமிழின் தமாழியியல் த ாள்ர ரளக்
ணக் ிடக்கூடிய மற்றும் தமாழியியல் ண்கணாட்டத்தில் தபாருத்தமான ணினியியல்சார்
வழிமுரே ரள வரையறுக் க்கூடிய நூலாசிாியைால் வடிவரமக் ப்பட்ட ஒரு விாிவான இயற்ர
தமாழி புாிதல் (Natural Language Understanding (NLU) முரேரய இந்தப் பரடப்பு
முன்ரவக் ிேது. இயற்ர தமாழி ஆய்வு மற்றும் ணினி ளால் இயற்ர தமாழி ரளப்
புாிந்துத ாள்வது ஆ ியவற்ேில் நூலாசிாியர் ஒரு பல்துரே ளின் ஒழுங்குமுரேயில் வனம்
தசலுத்து ிோர். ணினி ரளப் பயன்படுத்தி புதிய வழி ளில் தமாழிரய எவ்வாறு வடிவரமக்
முடியும் மற்றும் தானியக் ப்படுத்த முடியும் என்பரத விளக்குவதற்கு சமீபத்திய ணினிசார்
க ாட்பாடு ளும் தமாழியியல் க ாட்பாடு ளும் மி வும் முரேயான மற்றும் விாிவான முரேயில்
பயன்படுத்தப்பட்டுள்ளன.
-
26 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
இைாகசந்திைன் தாம் தமிழில் எழுதிய இயற்ர தமாழி ஆய்வு, ணினிதமாழியியல்,
விாிதைவுதமாழியியல், தமிழில் ஒலியியக் வியலும் உரையிலிருந்து கபச்சும், தமிழ் விரன ளின்
உருபனியல் பகுப்பாய்வி, த ிழில் எழுத்துப்பிசழத் திருத்தியும் இலக்கணப்பிசழத் திருத்தியும்,
தமிழ்ச்தசால்வரல, தமிழில் இயந்திை தமாழிதபயர்ப்பும் அதற் ான ருவி ள் உருவாக் மும்
என்ே தமிழ் இயற்ர தமாழி ஆய்வு மற்றும் ணினி தமாழிதமாழியியல்சார் நூல் ரள
academia.edu மற்றும் Reseach Gate என்ே இரணய தளங் ளி பதிகவற்ேம் தசய்துள்ளார்
1.3. நூலில் அச ப்பு
இந்நூல் பதிமூன்று இயல்களொகப் பகுக்கப்பட்டுள்ளது. முதல் இயல் அறிமுகம் ஆகும்.
இரண்டொவது இயலில் இயற்சக ம ொழி ஆய்வு பற்றிய சுருக்கமும் இயற்சக ம ொழி ஆய்வுக்கு
அடிப்பசடயொக அச யும் சீரொன மவளிப்பொடும் தொனியங்கிகளும் குறித்தும் விளக்கம்
தரப்பட்டுள்ளன. மூன்றொவது இயல் கணினி ஒலியனியல் ஆய்வொகும். இவ்வியலில்
ஒலியியக் வியல் ஆய்வு, உரையிலிருந்து கபச்சாய்வு, கபச்சிலிருந்து உரை ஆய்வு என்பன
பற்ேியும் தமிழில் இரவ குேித்து கமற்த ாள்ளப்பட்ட ஆய்வு ள் குேித்தும் விளக் ப்பட்டுள்ளன.
நான் ாவது இயல் ணினி உருபனியல் ஆய்வொகும். உருபனியல் பகுப்பொய்வு, உருபனியல்
உருவொக்கம் என்பன குறித்தும் தமிழில் இரவ குேித்து கமற்த ாள்ளப்பட்ட ஆய்வு ள் குேித்தும்
இவ்வியலில் விளக் ப்பட்டுள்ளன. ஐந்தொவது இயல் கணினித் மதொடொியல் ஆய்வொகும். இதில்
வொக்கியங்கசளப் பகுப்பொய்வது குறித்தும், பலவித ொன பகுப்பொய்வுகள் குறித்தும், தமிழில்
வாக் ியங் ரளப் பகுப்பாய்வது குேித்து கமற்த ாள்ளப்பட்ட ஆய்வு ள் குேித்தும் விளக்கம்
தரப்பட்டுள்ளது. ஆறொவது இயல் கணினி மபொருண்ச யியல் ஆய்வொகும். ஏழொவது இயல்
எழுத்துப் பிசழ திருத்தமும் இலக்கணப் பிசழ திருத்தம் பற்றியதொகும். இவ்வியலில் எழுத்துப்
பிசழ திருத்தம், இலக்கணப் பிசழ திருத்தம் குறித்த அடிப்பசட தகவல்கள் தரப்பட்டுள்ளன.
ப லும் த ிழில் ப ற்மகொள்ளப்பட்ட எழுத்துப் பிசழ திருத்த முயற்சிகள், இலக்கணப் பிசழ
திருத்த முயற்சிகள் பற்றியும் விளக்கப்பட்டுள்ளன. எட்டொவது இயல் மசொல் மூலங்கசள
உருவொக்குவது பற்றி விளக்குகின்றது. இதில் மசொல் மூலங்களொன இயந்திரம் படிக்கவியலும்
அகரொதி உருவொக்கம், கணினி மசொற்களஞ்சிய உருவொக்கம், மசொல்வசல உருவொக்கம் என்பன
குறித்து விளக்கம் தரப்பட்டுள்ளது. ஒன்பதொவது இயல் மசொற்மபொருள் யக்கம் பற்றியதொகும்.
இதில் மசொற்மபொருள் யக்கம் பற்றியும், மசொற்மபொருள் யக்க வசககள் பற்றியும், மசொற்மபொருள்
யக்க ீக்க வசககள் பற்றியும் த ிழில் ப ற்மகொள்ளப்பட்ட மசொற்மபொருள் யக்க ீக்க
முயற்சிகள் பற்றியும் விளக்கப்பட்டுள்ளன. பத்தாவது இயல் இயந்திை தமாழிதபயர்ப்பு குேித்து
விளக்கு ின்ேது. இதில் கவறுபட்ட இயந்திை தமாழிதபயர்ப்பு வர ள் பற்ேியும், இந்தியாவில்
கமற்த ாள்ளப்பட்ட இயந்திை தமாழிதபயர்ப்பு முயற்சி ள் பற்ேியும் தமிழ் ததாடர்பான இயந்திை
தமாழிதபயர்ப்பு ள் பற்ேியும் விளக் ப்பட்டுள்ளன.
-
27 Language in India www.languageinindia.com Vol. 19 Issue 11, Nov 2019
Prof. Rajendran S. Computational Linguistics (Monograph in Tamil)
1.4. நூலின் பயன்பொடு
இது ஒரு மதொகுப்பு நூல் என்றொலும் இத்தசகய ஆய்வு அடுத்த கட்ட ஆய்வுகளுக்குப்
பயனுள்ளதொய் அச யும். த ிழில் இயற்சக ம ொழி குறித்த பல ஆய்வுகள்
ப ற்மகொள்ளப்பட்டொலும் வளந்து வரும் இவ்வொய்வுக்களத்தில் ஏற்பட்டுள்ள முன்பனற்றம்
குறித்து ொணவர் சமுதொயம் அறியபவண்டும் அவர்கள் இதன் அடிப்பசடயில் அடுத்த கட்ட
உயர் ிசல ஆய்வுகசள ப ற்மகொள்ள பவண்டும் என்ற ஆர்வத்சதப் தூண்டும் வித ொக இந்நூல்
அச ந்துள்ளது. த ிழில் மவளிவந்துள்ள இயற்சக ம ொழி ஆய்வுகளின் ிசறகுசறகசள
ஆய்ந்து திப்பீடு மசய்யும் ஒரு ஆய்வு ிகவும் பதசவப்பட்டொலும் அத்தசகய முயற்சி இங்கு
எடுக்கப்படவில்சல.
1.5. கணிப்மபொறி வழி ம ொழி ஆய்வின் பதசவகளும் சிக்கல்களும்
கணிப்மபொறியில் ஆங்கிலத்சதத் தவிர பிற ம ொழிகசளயும் சகயொளும் சூழ் ிசல
வளர்ந்துள்ளது. குறிப்பொகக் கணிப்மபொறிசயத் த ிழில் சகயொளுதல் கடந்த சில ஆண்டுகளுக்கு
முன் மதொடங்கப் மபற்று வளர்ச்சி அசடந்து வருகிறது. மபொதுவொன பயன்பொடுகளு