คู่มือการกํากับข้อมูล thai dependency tree bank...
TRANSCRIPT
คมอการกากบขอมล Thai Dependency Tree Bank
ตามแนว Universal Dependencies v.2
จดทาโดย
วโรจน อรณมานะกล ธารทอง แจมไพบลย
ศนยวจยการประมวลผลภาษาและวจนะ
ภาควชาภาษาศาสตร คณะอกษรศาสตร
จฬาลงกรณมหาวทยาลย ๒๕๖๒
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 2
คานา
คมอเลมนเปนขอสรปทไดจากการทางานรวมกนกบผรวมงานในการกากบขอมลภาษาไทยจานวนหนงจากคลงขอมลภาษาไทยแหงชาต (ประมาณ 148,000 คา) โดยตงความมงหวงเพอสรางคลงขอมลทเปน Tree bank เผยแพรแกสาธารณะใหมขอมลรวมกนในการวเคราะหงานทตองอาศยขอมลทางวากยสมพนธภาษาไทย การกากบขอมลอาศยกรอบการวเคราะหของ Universal Dependencies1 ซงเปนกรอบการวเคราะหมาตรฐานสากลทตองการใหขอมลทวเคราะหจากหลากหลายภาษามขอมลวากยสมพนธทใชและเขาใจรวมกน คอ หมวดคา หรอ Part of Speech และความสมพนธเชงพงพา หรอ dependency relation ทเชอมโยงระหวางคาทเปนคาหลกและคาพงพา
การกากบขอมลทางภาษาศาสตรนเปนงานทตองอาศยความละเอยดและการวเคราะหทสมาเสมอ ตองอาศยการประชมหารอและนาขอสงสยในการวเคราะหขอมล หลาย ๆ ครงทมกจะตองกลบมาแกไขการวเคราะหและการกากบขอมลทไดทาไปแลว ทางโครงการคลงขอมลภาษาไทยแหงชาต จงไดจดทาคมอนเพอเปนแนวทางสาหรบผทสนใจงานกากบและวเคราะหขอมลภาษาไทยไดใชเปนแนวทางการทางานได งานนสาเรจเปนรปรางเบองตนไดโดยความรวมมอรวมใจของนสตบณฑตศกษาภาควชาภาษาศาสตรทไดชวยทาขอมลและนาปญหาทพบมาพดคยเพอแลกเปลยนความเหนและตดสนใจเลอกการวเคราะหทเหมาะสมกบภาษาไทย จงตองขอขอบคณนสตตอไปน ซงตางกไดสาเรจการศกษาจากภาควชาไปแลว
ธารทอง แจมไพบลย นชชา ถระสาโรช ศศวมล กาลนสมา อสรภาพ ลอรตนไชยยงค ศภวจน แตรงเรอง ภทณดา โสดาบน และกตองขอขอบคณนางสาวชลธร ขวญขจรเกยรต นสตบณฑตศกษาภาควชาวศวกรรม
คอมพวเตอรทเปนผตดตงระบบ Brat ทใชในการกากบขอมลหมวดคาและความสมพนธพงพาทใชในโครงการน ณ ขณะน ขอมลทมการกากบหมวดคาและความสมพนธทบอกคาหลกคาพงพาเพอสราง dependency tree ไดทาเสรจรอบแรกแลว กาลงอยระหวางการตรวจสอบความสมาเสมอของการวเคราะห และยงรอเพมเตมการวเคราะหชนดของความสมพนธในตนไมแตละตนตอไป
วโรจน อรณมานะกล ๑๑ ตลาคม ๒๕๖๑
1 http://universaldependencies.org/
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 3
หมวดคาภาษาไทย หมวดคาเปนขอมลพนฐานทางวากยสมพนธ ในตาราหลกภาษาไทยของพระยาอปกตศลปสารได
กาหนดหมวดคาไว 7 ประเภท ไดแก คานาม คาสรรพนาม คากรยา คาวเศษณ คาบพบท คาสนธาน และคาอทาน ซงเปนการจาแนกดวยเกณฑหลายเกณฑ เชน จาแนกตามเกณฑทางความหมาย ใหนามเปนคาทใชอางถงคน สตว สงของ คากรยาเปนคาแสดงอาการ เปนตน จาแนกตามเกณฑหนาท ใหคาวเศษณเปนคาใชประกอบคาอน จาแนกตามเกณฑตาแหนง ใหบพบทเปนคานาหนานาม เปนตน แตการจดหมวดคาแบบนมทมาจากไวยากรณดงเดมทมตนแบบมาจากไวยากรณกรกและไวยากรณลาตน หมวดคาลกษณะนจงอาจจะไมไดสะทอนธรรมชาตทแทจรงของภาษาไทย นกภาษาศาสตรจานวนหนงจงพยายามจาแนกหมวดคาตามแนวคดทฤษฎไวยากรณสมยใหม เชน การจาแนกดวยเกณฑหนาท (นววรรณ พนธเมธา 2527) การจาแนกตามหลกไวยากรณโครงสราง (วจนต ภาณพงศ 2532) การจาแนกตามเกณฑวากยสมพนธตามหลกทฤษฎไวยากรณศพทการก (อมรา ประสทธรฐสนธ 2543) บางกใชเกณฑหลากหลายผสมกนโดยแจกแจงรายละเอยดมากขนเ พองานประมวลผลภาษาไทย เ ชน หมวดคาในคลงขอมลออรคด (Virach Sornlertlamvanich et al. 1997) การจาแนกหมวดคาทผานมาจงมความแตกตางกนไปตามลกษณะเกณฑและแนวคดทใช
เนองจากหมวดคาเปนหนวยพนฐานทางวากยสมพนธ แมการนยามหมวดคาบางครงจะดเหมอนวาเปนเรองของความหมาย แตโดยพฤตกรรมแลว คาในหมวดคาเดยวกนกมลกษณะการเกดคลาย ๆ กน เชน คาทเปนกรยากมกปรากฏหลงคานามททาหนาทเปนประธาน บางกลมกอาจมนามตามหลงททาหนาทเปนกรรมได เปนตน เกณฑทางวากยสมพนธหรอการปรากฏรวมกบคาอน ๆ จงควรเปนหลกสาคญในการจาแนกหมวดคา หมวดคาจงเปนลกษณะเฉพาะของแตละภาษา หมวดคาภาษาไทยจงควรจาแนกโดยอาศยขอมลภาษาไทยเปนสาคญ ไมสามารถนาชดหมวดคาทใชในภาษาอนมาใชไดโดยตรงทงหมด
อยางไรกด ในการทางานประมวลผลภาษาตาง ๆ หากแตละภาษามการกาหนดใชชดหมวดคาในลกษณะตาง ๆ ทแตกตางกนโดยสนเชง จะทาใหการทางานรวมกนหลาย ๆ ภาษาเปนไปดวยความลาบากมากขน จงเกดแนวคดทจะกาหนดชดหมวดคาทสามารถใชไดกบทก ๆ ภาษา จะมเฉพาะบางสวนทยอมใหเปนเรองเฉพาะภาษาได แตกรอบการวเคราะหพนฐานแลวจะใชเหมอนกน กลมคนทมแนวคดลกษณะน จงไดเสนอโครงการ universal dependencies (UD) ซงเปนโครงการสากลสาหรบกากบหมวดคาและกากบความสมพนธระหวางคาผานการวเคราะหแบบพงพา โดยไดกาหนด POS และกาหนดความสมพนธแบบพงพา (dependency relation) ทเกดขนระหวางคาในประโยคทเปนสากลขนมา POS สาหรบใชแทกขอมลภาษาไทยในทน จงยดตามรายการทนาเสนอใน http://universaldependencies.org/ ขอควรสงเกตคอ จานวน POS ทเสนอใหใชนนมไมมาก และไมแนะนาใหตงแทกทเปนเรองเฉพาะแตละภาษา จานวนแทกจงมนอยกวาทใชกนในงาน POS Tagging ทวไป อยางไรกตาม จานวน POS ทนอยนนถกชดเชยดวยการกาหนดความสมพนธแบบพงพาทคอนขางมากแทน ทาใหยงคงสามารถแยกความตางทางวากยสมพนธออกได เชน คานามทเคยแยกเปนประเภทยอยตาง ๆ ในกรอบ UD มเพยง NOUN, PROPN คากลมทพบในภาษาไทย จน อยางคาลกษณนามถกจดเปน NOUN ซงตองไปแยกดวยวธการอนตอไป ในภาษาจนมผใช nmod:clf เปน
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 4
ตวกาหนดความสมพนธนแทน (Leung et al. 2016) ซงตอมาใน UD version 2.0 กาหนดใหใช relation “clf” เปนการบอกความสมพนธระหวาง head noun กบ classifier ในการกากบขอมลภาษาไทยในทน จงจะใช NounType:class ทมเสนอในบางภาษามาใช (ให class เปน value ของ attribute “NounType” ภายใตแทก POS: NOUN) และใช relation “clf” ประกอบดวยเมอเชอมโยงกบคานามหลก เปนตน
จานวนแทกและรายการ POS ตาง ๆ ใน UD พฒนาตอมาจากหลายโครงการ ไดแก Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), และ Interset interlingua for morphosyntactic tagsets (Zeman, 2008) เพอใหไดชดรายการทเปนมาตรฐานเดยวกนสาหรบใชไดกบภาษาตาง ๆ หลกการนอกจากจะใหใชไดกบหลากหลายภาษา กยงตองมความถกตองทางภาษาศาสตร และไมยากเกนไปทจะใหคนทวไปสามารถใชทางานไดดวย เวอรชนแรกของ UD ออกมาในเดอนตลาคม ป 2014 UD ปจจบน เปน UD เวอรชน 2
สาหรบภาษาไทย จานวน POS tag และ attribute เบองตนทจะใชกบภาษาไทย ทางโครงการคลงขอมลภาษาไทยแหงชาต ไดกาหนดวธการกากบขอมล ดงน
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 5
การกาหนดหมวดคาภาษาไทยใน UD การกาหนดหมวดคา นอกจาก POS แลว เรายงสามารถระบ attribute : value เพอใชจาแนกประเภท
ยอยของ POS นนอกได UD POS tags และ feature ตาง ๆ ทใชในทน ใชโดยเทยบเคยงจากคาอธบายทเขยนไวในเวบ http://universaldependencies.org/ แตกมคาบางกลมทอาจตองปรบเปลยนอกเพอความเหมาะสม
กลมคาเปด NOUN คานามทวไปรวมถงคานาหนาชอทงหลาย นาย นาง พล.ต. เหลานกใหกาหนด
เปน NOUN ดวย แลวโยงความสมพนธ compound ระหวาง คานาหนาชอ กบ ชอ (นาย)<-(สมชาย) คาในกลมชอสตว (นก/พราบ นก/กระยาง ปลาท ปลาสวาย) หรอชอพช (ผก/บง ตน/ตาลง ตน/มะมวง) เหลานใหกากบเปน NOUN
NounType: class Feature สาหรบใสใหคาทเปนลกษณะนาม กาหนดไวกอน แตอาจจะลบทงได เพราะสามารถใช relation clf บอกความเปน classifier ได
PROPN คานามเฉพาะ ไดแก ชอคน สถานท องคกร ผลตภณฑ ประเทศ สวนชออาหาร ชอปลา สตว ตนไม จะใหเปน NOUN
NameType: Prs Prs: person name (ใชกรณไมรวาเปน given หรอ surname) NameType: Giv Giv: given name ชอตน เชน ประยทธ อศวน เปนตน NameType: Sur Sur: surname ชอสกล เชน จนทรโอชา ขวญเมอง เปนตน NameType: Geo Geo: geographical name เชน ชอสถานท ชอประเทศ ชอจงหวด ชออาเภอ
ชอมหาวทยาลย (ในกรณทในปรบทนนตองการบงบอกสถานทตง เชน ฉนขบรถผานจฬาฯ เปนตน)
NameType: Com Com: company organization name ชอบรษท ชอประเทศ ชอมหาวทยาลย (ในกรณทปรบทนนบงถงลกษณะขององคกร เชน จฬาฯ สงนสตเขาแขงขนในรายการตาง ๆ เปนตน)
NameType: Nat Nat: nationality คาแสดงเชอชาต สญชาต NameType: Pro Pro: product เชน ไอโฟน NameType: Oth Oth: others ชอเฉพาะอน ๆ ทไมสามารถจดเขาประเภทตาง ๆ ขางตนได VERB คากรยาทงอกรรมและสกรรม VerbType: Cop Featureทกาหนดใหกบ กรยา copular ไดแกคาวา ‘คอ’ (ไมใชทกกรณทเปน
copular) จะกากบให VERB นนเปน Cop กตอเมอฝงซายและฝงขวาสอถงสงเดยวกนเทานน เชน เขาคอเพอนแท à เขา กบ เพอนแท เปนสงเดยวกน เชนนจะกากบ คอ/VERB:{VerbType: Cop} ขอสงเกตคอฝงซายและขวามกจะมสถานะเปน NOUN PRON หรอ PROPN คอ ททาหนาทเชอมความในปรจเฉท จะวเคราะหเปน SCONJ เชน การสอสารทมประสทธภาพทสดคอ การทผสงสารและผรบสารมลกษณะเหมอนกน
INTJ คาอทานทงหลาย
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 6
ADJ คาคณศพท เปนคา ขยายหลงคานาม รวมถงคาทบางจดใหเปนคากรยาคณศพท จะตองเปนคาทแสดงคณลกษณะบางอยางของคานามทอยขางหนา เชน ด สวย อวน ผอม ใหญ เลก เปนตน ในกรณทคาซงปรากฏหลงคานามนนไมไดแสดงลกษณะของคานาม แตบงความชเฉพาะหรอไมชเฉพาะ จะกากบเปน DET
ADV คาวเศษณ ขยายกรยา VERB หรอขยายคา ADJ หรอ ADV ปกตปรากฏหลงคากรยา แตมบางทปรากฏหนากรยา เชน คาวา ‘สด’ ใน สดขยน มคา ADV จาพวกหนงทไมไดขยายกรยา แตขยาย numeral, determiner, noun, pronoun ปรากฏหนานาม เชน เพยง อก ทง สก ทก แตละ หลากหลาย (หลากหลายรปแบบ) เปนตน ใหกากบเปน ADV ลกษณะนพบในตวอยางการวเคราะหภาษาอนดวย เชน ภาษาจน
กลมคาปด AUX คากรยาชวยทงทปรากฏหนาและหลงกรยาในภาษาไทย เชน ควร จะ นา ได ไป
มา เปนคาทบงบอก tense, aspect, modality ในกรณทปรากฏหนากรยาจะกากบเปน AUX แตหากปรากฏหลงกรยาจะกากบเปน ADV ได
ADP AdpType: Prep Adposition ในภาษาไทยเปน preposition อยางเดยว ไมม postposition ปรากฏหนาคานาม เชน บน ใน หนา ทาง เพอ feature นจงเปน default สาหรบ ADP ในภาษาไทย นาหนา นามวล นาม สรรพนาม หรออนพากยทาหนาทนาม
PRON PronType: Prs คาสรรพนามบคคล เชน ฉน เขา เธอ อะไร (เขาทาอะไร เธอกชอบทงนน) น (นคอสงทเขาตองการ) ใครตอใคร ลวนแต ตาง (ผคนตางยกยองเขา)
PronType: Rcp คาสรรพนาม reciprocal à กน ซงกนและกน NUM คาบอกจานวน ปรมาณ ทาหนาทเหมอน DET, ADJ, PRON บอกความหมาย
เกยวกบจานวน เปน ตวเลข คาจานวนนบ เชน 123 สบ/เอด ตวเลขทประกอบคา เชน 7 ใน Windows 7 กใหกากบ NUM
DET คาบงชเฉพาะหรอไมชเฉพาะ ใชขยายหลงคานาม เชน น นน ไหน อน ทงหมด ตางๆ ทวไป (กรณทมการละคานามและเหลอเพยงคาประเภทนคาเดยว เชน ‘ทงหมด’ กคงใหเปน DET)
CCONJ Coordinate conjunction คาเชอมสองสวนทมสถานะเทากน เชน และ (หมาและแมว) แต (ฉนอยากกนแตเธออยากนอน) หรอ (ขาว กวยเตยว หรอสเตก) เปนตน รวมถงคาททาหนาทเปน discourse marker ทเชอมความ เชน อยางไรกตาม แตถงกระนน
SCONJ Subordinate conjunction คาเชอมสวนททาหนาทเปนสวนขยายหรอ subordinate clause เชน ท วา ให จง เพอ รวมถงคาวา เชน คอ ททาหนาทเชอมความในปรจเฉท
PART คาอนภาคทวไป กรณคาอนภาคเฉพาะใหเตม feature ขางลางน PartType: Emp emphasis ใชกากบหลงวลหรออนประโยค เพอเปนการเนนเหตการณดงกลาว
ไดอกดวย เชน ‘นน’ ใน ขณะทกาลงผสมสวนตางๆเขาดวยกนนน ‘เสยอก’ ‘ซะอก’ เปนตน
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 7
PartType: Res Response ครบ คะ นะ จะ PartType: Int Interrogative หรอไม หรอ ไหม ทาไม PartType: Neg Negation ไม ม บ ใชวา ไมใชวา PartType: Adj Adjective นา เปนคาทเปน Adjective marker เมอปรากฏหนาคาใด ทาใหคา
นนทาหนาทเปน adjective ได เชน นารก นาเอนด PartType: Adv Adverb อยาง โดย เปนคาทเปน adverb marker เมอปรากฏรวมกบคาท
ตามมา จะทาใหคานนทาหนาทเปน Adv ได เชน อยางเรว โดยดวน ดวยด (Particle สองประเภทหลงกาหนดใชในภาษาไทยเปนการเฉพาะ) PUNCT เครองหมายวรรคตอนตาง ๆ ทเปนสวนหนงของขอความมหนาทในทางภาษา
เชน ๆ ฯ ฯลฯ , ? SYM เครองหมายสญลกษณตาง ๆ ทไมใช PUNCT เชน สญลกษณทางคณตศาสตร +
- * # @ รวมถง email, url [email protected] www.dummy.com เปนตน X คาทยงไมสามารถจดประเภทไดตามขางบนน ใหกากบเปน X ไปพลางกอน Feature เปน feature ทใชกากบคาใด ๆ เปนการกากบลกษณะเพมเตมของคานน ๆ ซง
ถกกากบดวย POS บางอยางไวแลว จากนนจงพจารณาตอไปวาคาดงกลาวมลกษณะใด ๆ เพมเตมอกหรอไม ลกษณะดงกลาวนน ไดแก คานาหนา (Prefix) คายอ (Abbr) และคาตางประเทศ (Foreign)
Prefix: Yes Prefix ประกอบคา เชน ชาว นก ผ การ ความ นา อยาง Abbr: Yes คายอ (POS ของคายอเปนไปตามรปเตมคานน เชน กรงเทพ/PROPN {
NameType:geo, Abbr:Yes}/ฯ/PUNCT รร./NOUN {Abbr:Yes}) Foreign: Yes คาทบศพทตางประเทศ
ขอสงเกตเพมเตมในการกำกบ POS:
1. การกำกบคำรวมกบเครองหมายไมยมก (ๆ)
คำบางคำปรากฏรวมกบเครองหมายไมยมก (ๆ) โดยปกตจะกำกบแยกเครองหมาย ๆ ออกเปน PUNCT อยางไรกด ใน
บางกรณทคำดงกลาวจำเปนตองปรากฏซำ หรอตองปรากฏรวมกบ ๆ เทานน จงจะสามารถสอความหมายทถกตอง เชน
- บนโตะเตมไปดวยเอกสารตาง ๆ - หลง ๆ เขาไมคอยมาตามนด
จะเหนวา ตาง ๆ หรอ หลง ๆ จำเปนตองปรากฏดวยกน หากปรากฏเพยงคำเดยวโดด ๆ จะสอความหมายทตางออกไป ดงนน การกำกบคำวา ตาง ๆ กบ หลง ๆ จำเปนตองกำกบรวมเปน 1 คำ ตางๆ/DET หลงๆ/CCONJ เปนตน
2. การกำกบนามวลในกลม การ- ความ-
นามวลในกลม การ- ความ- โดยปกตจะกำกบแยก การ- และ ความ- ออกมาเปนหนวย NOUN:{Prefix: Yes} แตบาง
กรณจำเปนตองรวม การ- หรอ ความ- ไวเปนสวนหนงของคำนนดวย เชน ความทรงจำ การบาน การเมอง การงาน เปนตน ขอใหพจารณาจากความหมายของคำนน ๆ เปนหลก การวเคราะหความสมพนธระหวาง การ และ หนวยกรยาวลทตามมา สามารถวเคราะหไดสองแบบ
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 8
แบบแรก ให การ เปนคำหลกโดยม POS เปน NOUN ทม feature {prefix} และมคำกรยาเปนคำพงพา เชน การสญเสยบคคลใกลชด การ >สญเสย เพราะมองในเชงวากยสมพนธวา ทงหมดทำหนาทเปน นามวล ไปเชอมโยงกบคำอนตอ การ จงควรเปนคำหลกและม POS: NOUN และหากเตม บพบทวลแสดงความเปนเจาของ เชน การสญเสยบคคลใกลชดของเขา ของเขา จะสมพนธกบ การสญเสย เหมอนอยาง หนงสอ ของเขา หากวเคราะหแบบน ความสมพนธระหวาง การ และ กรยาวลขางหลงควรเปน acl คอ clausal modifier of noun
แบบทสอง วเคราะหใหกรยาเปนหลกเพราะมองวาเปนคำเนอหา การ มความเปนคำไวยากรณจงควรเปนหนวยพงพาตามหลกทใหคำไวยากรณไมสามารถเปนหนวยหลก การ< สญเสย โดยมความสมพนธเปน mark และ การสญเสยบคคลใกลชดของเขา กจะโยงความสมพนธระหวางคำหลก สญเสย กบ >(ของ< เขา) ในเชงความหมาย การวเคราะหแบบนดเหมอนจะทำใหคำเนอหาเชอมโยงกนไดดกวา [สญเสย – บคคล, สญเสย - เขา] แตวธนทำใหมปญหายงยากในการแยกวา
เขา มบทบาททางความหมายอะไรผาน relation อะไร เพราะ (ของเขา) ปกตเปน nmod ของคำนามขางหนา กรณนจะ
ยงคงใหเปน nmod ของ สญเสย ไดไหม ถายอมได กจะกลายเปนมกรณท nmod ขยาย VERB ไดดวย และจะเปนปญหา
ตอไปในกระบวนการ parsing หรอถาแกโดยให สญเสย เปน NOUN เพราะม การ อยขางหนา กจะทำใหตองมอกกระบวนการหนงเปลยน POS ของคำได
ในทนจงเลอกการวเคราะหแบบแรกให การ เปน NOUN{prefix} ทมกรยาวลตามหลงดวยความสมพนธ acl
3. POS ของคำอาจขนกบตำแหนงในการปรากฏ
คำหนง ๆ อาจสามารถกำกบไดหลาย POS ขนกบวาคำนน ๆ ปรากฏในตำแหนงใดของขอความ ยกตวอยางคำวา
หลากหลาย จากขอความตอไปน
- อาชพหลากหลาย หลากหลาย กำกบเปน ADJ เปน dependent ของ อาชพ (ปรากฏหลงนาม)
อาชพ/NOUN หลากหลาย/ADJ
- อาชพทหลากหลาย หลากหลาย กำกบเปน VERB เปน head ของ ท
อาชพ/NOUN ท/SCONJ หลากหลาย/VERB
- หลากหลายอาชพ หลากหลาย กำกบเปน ADV เปน dependent ของ อาชพ (ปรากฏหนานาม)
หลากหลาย/ADV อาชพ/NOUN
UD เปลยนวธการวเคราะห ellipsis จากเดมทใช relation remnant มาเปนการโปรโมทหนวยรองมาเปน head
แทน เชน ถาละ head nominal จะโปรโมท dependents ตามลำดบความสมพนธนมาแทน amod > nummod > det >
nmod > case ถาละกรยา ใหโปรโมท aux หรอ cop มาแทน ถาไมมกมสองแนวทาง ทางแรกคอใหโยงตว orphan กบ
grandparent และใช composite relation คอม relation ของ headrel ตอดวย orphanrel เชน I like tea and you
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 9
coffee จะได like-(conj>nsubj)>you like-(conj>obj)>coffee ทางทสองคอใช relation “orphan” ในตวอยางนจะเปน
you-(orphan)>coffee ในทนจะเลอกใชวธทสอง relation orphan
การกำกบความสมพนธระหวางคำ
• ความสมพนธแบบพงพา dependency relation จะกำกบระหวาง head กบ dependent ลกศรตงตนมาจาก
head ไปท dependent
head dependent
• โครงสรางทไดจากความสมพนธนจะออกมาเปน dependency tree dependency จะโยงระหวางคำเนอหาเปน
หลก ในโครงสราง coordinate จงโยงระหวาง noun กบ noun หรอ verb กบ verb dependency tree ใน UD
จงตางจาก dependency tree ใน approach อน เขาใจวา การโยงแบบ UD ทำใหเหน relation ระหวาง
content word โดยตรง ซงจะเออตอการวเคราะหความหมายตอไปไดงายกวา
• สวนคำไวยากรณจะเปน dependent เปนหลก ไมมคำทมา depend ดวย กลมคำไวยากรณจงไมตอกนเปนสาย
ถามหลาย ๆ ตว กจะไปขยาย head เดยวกน
• คำทเปน multiword เชน in spite of จะโยงความสมพนธ fixed ระหวาง in >spite, in >of กรณภาษาไทย ถา
เปนคำทกำหนดใหเปนคำแลวกไมตองทำแบบน เชน อยางไรกตาม แตหากโปรแกรมตดคำไมไดตดเปนคำเดยว เชน
ถง|กระนน|ก|ตาม กจะตองกำกบความสมพนธแบบ fixed น ถง->กระนน ถง->ก ถง->ตาม และใช relation
“fixed”
• การละ จะไมมการเตมคำทหายไป จะวเคราะหไปตามรปปรากฏ ถาคำทหายเปน dependent กไมตองทำอะไร ถา
เปนคำทควรเปน head เชนคำนาม กให promote คำทควรเปน dependent ของคำนามทหายไปมาเปน head
แทน ตามลำดบดงน amod > nummod > det > nmod > case เชน He buys himself a green car and
she (buys) herself a >obj>(red) สำหรบภาษาไทย ลำดบการ promote อาจไมเปนตามน แตหลกการคงเดม
คอไมมการเตมสงทละไป
• Dependency structure ทใชในทนเปน basic tree สำหรบการใชงานลกษณะ shallow ไมใช enhanced
dependencies ทใหม null node มการบอกถง controlled/raised subject ทใชรวมกน แบบ enhanced จงม
รายละเอยดมากขน ม cross dependency เกดขนไดดวย
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 10
รายการความสมพนธ nsubj Nominal subject ความสมพนธระหวางกรยากบประธาน ในกรณทไมม predicate เชน วนน
วนศกร กใหใช nsubj (วน น)< (วน ศกร)
ฉน กน ขาว
วน น วน ศกร
csubj Clausal subject โยง subject ทเปน clause เชน What she (said)< is (interesting)
ฝน ตก อยาง รนแรง ทำให เกด นำทวม
obj Object ความสมพนธระหวางกรยากบกรรม เชน เขา (หยบ) >(เสอ)
เขา หยบ เสอ
เขา อย บาน กบ แม
iobj Indirect object ความสมพนธระหวางกรยากบกรรมรอง (ให) เงน >(เดก)
เขา ให เงน เดก
เขา ให เงน แก เดก
obl oblique nominal ใชกบ non-core argument หรอ adjunct ดจากรปประโยคจะมคำ
ไวยากรณกำกบดวย เชน (ให) เงน แก >(เดก)
พรงน ฉน จะ ไป เทยว บาน เพอน
vocative vocative โยงกรยากบนามทเปนคำเรยกขาน (แม)< อยา (เดน) มาก
แม อยา เดน มาก
obl nsubj obj case
nsubj advmod
obj mark ccomp
nsubj det
nsubj obj
csubj
obj nsubj
obj nsubj
iobj
obl
advmod aux
vocative
case
nmod
nsubj obj
obl
compound nsubj obj aux nmod
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 11
dislocated dislocated โยงคำกรยากบนามทถกยายท (หนงสอ)< เลม น ผม (ชอบ) มาก
หนงสอ เลม น ผม ชอบ มาก
aux auxiliary โยงกรยากบคำไวยากรณทบอก tense, aspect, mood, voice,
evidentiality เชน เขา (กำลง)< (จะ)< (ไป)
เขา กำลง จะ ไป
cop copula โยงระหวาง function word ทเชอม subject กบ nonverbal predicate
เชน he (is)< (honest), เธอ (คอ)< (เพอน) ฉน, เขา (เปน)< (คน) ด แตถาเปนประโยคซบซอน เชน การพนนเปนสงทมอมเมาประชาชน ใหวเคราะห เปน เปนกรยาหลกทม nsubj และ obj relation กบประธานและกรรม
เธอ คอ เพอน ฉน
mark marker โยงระหวางกรยากบคำไวยากรณทบอกถงการเปน subordinate clause
เชน เขา ร (วา)< ฝน กำลง (ตก) หรอคำวา อยาง ทใชนำหนาคำขยายกรยา เชน กน (อยาง)< (รวดเรว) ปกตเปนคำในกลม complementizer,
subordinate conjunction รวมถงคำ เชน คอ ทเปน discourse marker
เชอมความตอไป
เขา ร วา ฝน กำลง ตก
advmod Adverbial modifier โยงระหวางกรยากบคำขยายกรยา (กน) อยาง >(รวดเรว) หรอ ADV ทขยายคำอน (เกอบ)< (2000)
เพอน ของ ฉน กน อาหาร อยาง รวดเรว
case
dislocated
nsubj advmod det clf
nsubj aux
aux
cop nmod
nsubj
nsubj
ccomp
aux nsubj
mark
nsubj
nmod obj
advmod
mark
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 12
advcl Adverbial clause
modifier
โยงกบกรยาของ clause ททำหนาทขยายกรยาหลก เชน เขา (สอบถาม) เจาหนาท เพอ >(หา) ขอมล เพมเตม
เขา สอบถาม เจาหนาท เพอ หา ขอมล เพมเตม
acl Clausal modifier of
noun (adjectival clause)
คลายกบ advcl ทอนนใชขยายคำนาม เชน ผม เจอ (หนงสอ) ท คณ
>(ชอบ) ความสมพนธระหวาง การ >กรยาวล เชน การ >(สญเสย)บคคลใกลชดของเขา กวเคราะหเปน acl
ผม เจอ หนงสอ ท คณ ชอบ สด ๆ
det determiner โยงคำบงชเฉพาะหรอไมเฉพาะทขยายคำนาม เชน (หนงสอ) >(น), หนง สอ (กอง) >(น)
case Case marking โยงระหวางคำนามกบบพบท ให เงน (แก)< (เดก) clf Classifier โยงคำนามทเกยวของกบคำลกษณนาม เขากบคำลกษณนาม เชน (หนงสอ)
สาม >(เลม) (ในภาษาอน classifier เปนคำไวยากรณ จงเปน dependent
เสมอ แตในภาษาไทย อาจใชโดยไมมคำนามและทำหนาทเปนคำนามแทน
เชน เลม น จงถกจดเปน NOUN)
หนงสอ สาม เลม วาง อย ใน หอง ของ เธอ
nmod Nominal phrase
modifier
คำนามหรอนามวลทมาขยายอกคำนามหนง เชน (หองทำงาน) ของ >(หวหนา)
หอง ทำงาน ของ หวหนา ของ ฝาย บรหาร ของ โรงเรยน
amod Adjectival modifier โยงระหวางคำคณศพททมาขยายคำนาม เชน (เนอ) >(ดบ)
จาน น คอ เนอ ดบ
nummod
nsubj obj
obj
advcl
advmod
mark
nsubj obj
acl
advmod mark punct nsubj
nsubj
clf
advmod case
obl nmod
case
compound
nmod nmod
case
nmod
case case compound
cop amod
nsubj
det
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 13
appos Appositional modifier โยงระหวาง nominal phrase ทเทากนหรอ coreference เชน (สมชาย) >(ผจดการ) โรงแรม แหง น
สมชาย ผจดการ โรงแรม แหง น
nummod Numeric modifier โยงระหวาง numeral กบคำนามทเปน head เชน เงน (60)< (บาท)
ฉน ม เงน 60 บาท
conj conjunction โยงระหวางสองคำท coordinate กน เชน เขา (เขยน) จดหมาย และ >(อาน) หนงสอ
เขา ฟง วทย เขยน จดหมาย และ อาน หนงสอ
cc Coordinating
conjunction
โยงระหวาง คำ ท coordinate กบคำสนธาน เชน เขา เขยน จดหมาย (และ)< (อาน) หนงสอ
ccomp Clausal complement โยงระหวางกรยาแรกกบกรยาสองทเปน dependent clause เมอทงกรยา
ตวแรกและกรยาตวทสองตางกมประธานของตนเอง เชน เขา (บอก) วา เขา >(ชอบ) อาน หนงสอ (กรณทมการละประธานตามปกตของภาษาไทย เชน เขาบอกวาไมชอบอานหนงสอ กวเคราะหเปน ccomp เหมอนเดม)
เขา บอก วา เขา ไม ชอบ อาน หนงสอ
xcomp Open clausal
complement
คลายกบ ccomp แตกรยาของ dependent clause จะไมม subject คอใช
subject รวมกบกรยาแรก เชน He (likes) to >(swim) ภาษาไทย เชน ฉน (ชอบ) >(ไป) เทยว ทะเล (ถาเตมประธานไปประโยคจะใชไมได *ฉนชอบฉนไปเทยวทะเล) สวนกรณถาเปนความสมพนธของ serial verb ใหวเคราะห
เปน compound
ฉน ชอบ ไป เทยว ทะเล
nsubj conj
obj cc
conj
obj obj
clf appos
det nmod
clf
nummod obj nsubj
nsubj
ccomp
obj compound
mark
neg
nsubj
nsubj
xcomp
compound obj
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 14
fixed Fixed multiword
expression
เปน 1 ใน 3 relation ของ MWE (multi-word expression) ใชกรณคำท
เปน multiword ทจะตองรวบเปนคำเดยว เชน ถงกระนนกตาม = (ถง) >(กระนน), (ถง) >(ก), (ถง) >(ตาม)
ถง กระนน ก ตาม
compound compound เปน 1 ใน 3 relation ของ MWE โยงความสมพนธของคำประสม เชน
(สมด) >(โทรศพท) Relation นใน UD v2 ใหใชสำหรบ serial verb ดวยโดยใช compound:
svc สวน Compound: prt ใชกบ particle verb (put)>(up)
เขา ชอบ นง อาน หนงสอ อย บาน
ฉน หยบ เอา ไม มา ต เขา
flat Flat multiword
expression
เปน 1 ใน 3 relation ของ MWE คลายกบ compound แต flat ใชกบ
exocentric MWE ในขณะท compound เปนลกษณะแบบ endocentric
เชน (1) >(มกราคม) >(2017), (นายก) >(ชวน), (นาย)< (สมชาย), (สมชาย) >(กลาหาญ) ภาษาองกฤษ (Mr) >(Somchai) ภาษาไทย ชอ นาจะเปน
คำหลกมากกวา ยกเวนกรณ นายก >ชอ ประเทศ >ชอ รวมถงกรณคำทเปน
ชอตาง ๆ เชน ชอผลตภณฑ บรการ เชน “สนเชอเรวทนใจ” “บตรสไมลทนใจ” กใหใช flat เชอมระหวางคำในชอนน
1 มกราคม 2017
นาย สมชาย กลาหาญ
parataxis parataxis ความสมพนธแบบตอกนโดยไมมการเชอม มกใชกบการใหวงเลบขยายความ
เชน (Washington) ( >(CNN) )
list list ความสมพนธแบบเปนรายการตอๆ กน เชน (แอปเปล) >(มะละกอ) >(กลวย) >(สม)
compound
nsubj obj obj xcomp
compound
flat
flat
flat flat
nsubj obj obj
compound compound compound
fixed fixed
fixed
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 15
ใน ตะกรา ม แอปเปล มะละกอ กลวย สม
orphan orphan ความสมพนธของ dependent ทไมเขาตามมาตรฐานทกลาวมา ใชกรณทม
การละคำ ทำใหเกดความสมพนธของคคำทปกตไมเกด orphan จงเปนตว
บอกวามบางอยางหายไป ณ ตรงนน
มาน ได เหรยญ ทอง สวน ชใจ เหรยญ เงน
punct Punctuation โยงระหวาง predicate หรอคำหลกอนกบเครองหมายวรรคตอน เชน ทำไม(กลา) เรยน punct>? , อบตเหตมกเกด(ซำ) punct>ๆ
reparandum Overridden disfluency ใชกบถอยคำทพดผดแลวแกสวนใหมทถกมาแทน เชน ไป ทาง (ซาย)< –
ทาง (ขวา) แกคำพดเปลยนจาก ซาย เปน ขวา dep Unspecified dependency ใชเมอไมสามารถระบวาเปนความสมพนธแบบใดเลย จงใหเปน dep ไวกอน
root root โยง ROOT เขากบคำทเปน head หลกของประโยคหรอสวนนน
discourse discourse element ความสมพนธนใชโยงคาในกลม INTERJECTIONS เชน โอ อม โอโห, กลม discourse marker (actually, well, like) โดยโยงกรยาหลกไปยงคาอทานเหลานน
อาว ทำไม ทำ แบบ น ละ
expl expletive ใชโยงความสมพนธระหวางกรยากบสงทไมไดเปนคานามชเฉพาะชดเจน เชน มน ใน (มน)< (เปน) ไป ไม ได จะเหนไดวาคาวา มน อาจละทงไดโดยไมสงผลตอความหมาย กลาวคอ มน ในตวอยางนเปนคานาม แตไมม semantic role กบ predicate
มน เปน ไป ไม ได
advmod obj det
discourse
advmod
neg expl
advmod
discourse
list
list list case nsubj obj
conj orphan
nsubj obj cc amod amod
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 16
ตารางแสดงความสมพนธรปแบบตาง ๆ ระหวางคา
Nominals Clauses Modifier Words Function Words
Core arguments nsubj obj iobj
csubj ccomp xcomp
Non-core dependents
obl vocative expl dislocated
advcl advmod discourse
aux cop mark neg2
Nominal dependents
nmod appos nummod
acl amod det clf case
Coordination MWE3 Loose Special Other conj cc
fixed flat compound
list parataxis
orphan goeswith reparandum
punct root dep
2 เปนความสมพนธทไมปรากฏในคมอของ universal dependency ver.2 3 MWE: multi-word expression
คาอธบายความสมพนธโดยละเอยด
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต
Core
arg
umen
ts - N
omina
ls
1 nsubj nominal subject ความสมพนธระหวางกรยากบประธาน ประธานของประโยค อาจเปน คานาม (NOUN) สรรพนาม (PRON) หรออาจเปนคาคณศพท ADJ ไดในกรณทเกดการละ โดยทประธานของประโยคอาจไมจาเปนตองเปนผกระทากรยานน ๆ (agent) โดยตรงกได หากประโยคมความสมพนธแบบกรรมวาจก (passive) จะระบความสมพนธของกรยาโยงไปยงประธาน เปน nsubj:pass ความสมพนธแบบ nsubj อาจไมจาเปนตองตงตนมาจาก VERB เสมอไป ในกรณท VERB ทปรากฏในประโยคนนเปน COPULAR VERB สวนตงตนหรอ head จะเปนสงทมาเตมเตม COPULAR VERB นน ซงอาจเปน ADJ หรอ NOUN กได ในกรณทไมม predicate เชน วนนวนศกร กใหใช nsubj (วน น)< (วน ศกร) เมอไหรกตามทประธานมลกษณะเปน empty argument (ประโยคทขนตนดวย there) ความสมพนธระหวาง VERB กบประธานจะเปน expl แทน ในภาษาไทย อาจพบในประโยค เชน มนเปนไปไดวา… มน<-expl-เปน มนเปนเหมอน dummy subject
Core
arg
umen
ts -
Nom
inals
2 obj object ความสมพนธระหวางกรยากบกรรมตรงของกรยานน โดยปกตจะเปนคานาม และหากกรยานนมกรรมเพยงแคตวเดยวจะระบความสมพนธเปน obj แตหากกรยาเปนกรยาทวกรรมคอมกรรมสองตว หรอมกรรมมากกวา 2 ตว จะโยงความสมพนธใหกรรมตวหนงเปน obj (เปนกรรมทรบผลจากการกระทาหรอกรยานนโดยตรง) สวนทเหลอเปน iobj
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 18
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต Co
re
argu
men
ts -
Nom
inals
3 iobj indirect object iobj เปนความสมพนธหลกอกความสมพนธหนง โยงระหวางกรยากบกรรมรอง ไมมคาบพบทมาคนกลาง ในกรณทกรรมรองนาหนาดวยคาบพบท จะถอวากรยากบกรรมรองนนมความสมพนธแบบ obl
Core
arg
umen
ts -
Claus
es
4 csubj clausal subject เปนรปแบบความสมพนธของกรยากบประธานของประโยค โดยประธานไมใชคานามเดยวโดด ๆ แตมลกษณะเปนอนประโยค (clause) การโยงความสมพนธจะโยงจากกรยาหลก (หรอ head ของสวนเตมเตมของกรยา COPULAR) ไปยง head ของอนประโยคทเปนประธาน ซงอาจจะเปนกรยาหรอนามกได ในกรณทเปนประโยคกรรมวาจก (passive) การโยงจะระบเพมเตมเปน csubj:pass
Core
arg
umen
ts - C
lause
s 5 ccomp clausal complement เปนประเภทการโยงกรยาหลก (VERB หรอ ADJ) เขากบ head ของสวนทมาเตมเตม อนปรากฏในตาแหนงกรรมของประโยค ขอสงเกตการโยงความสมพนธนคอ ประธานของประโยคหลกกบประธานของอนประโยคทมาเตมเตมสามารถเปนคนละคนหรอคนละสงกนได เชน เขา (บอก) วา คณ >(ชอบ) อาน หนงสอ แมกรณทไมปรากฏประธาน เชน เขา (บอก) วา >(ชอบ) อาน หนงสอ กยงคงเปนความสมพนธ ccomp
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 19
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต Co
re a
rgum
ents
- Clau
ses
6 xcomp open clausal complement
เปนประเภทการโยงกรยาหลก (VERB หรอ ADJ) เขากบ head ของสวนทมาเตมเตม ความแตกตางระหวาง ccomp กบ xcomp คอ ความสมพนธแบบ xcomp นน ประธานในอนประโยคเตมเตม ไมสามารถมไดจะเปน subject เดยวกบของประโยคหลก เชน He (likes) to >(swim) ภาษาไทย เชน ฉน (ชอบ) >(ไป) เทยว ทะเล อาจมการใชคาเชอมหนากรยาหลงเปน ทจะ… ทวา…. กได เชน เชา (ชอบ) ทจะ >(ไป) ทางาน สาย คาเชอมเหลานบอกความเปน xcomp คอไมสามารถมประธานหนากรยาได ถาเทยบกบภาษาองกฤษกจะเปน non-finite (กรณประโยคอยาง ฉนชอบหนงสออานแลวตนเตน ไมวเคราะห อานแลวตนเตน เปน xcomp แตวเคราะหเปน (หนงสอ) -acl->(อาน) แลว ตนเตน คลายกบ ฉนชอบหนงสอทอานแลวตนเตน)
Non -
core
dep
ende
nt -
Nom
inals
7 obl oblique nominal ใชโยงความสมพนธระหวางคากรยาหลก คาคณศพทหรอวเศษณ กบคานามในตาแหนงกรรมของกรยานน แตตองไมใชกรรมตรง ใชกบ non-core argument หรอ adjunct ขอสงเกตของความสมพนธแบบ obl คอคานามนน ๆ มกนาหนาดวย ADPOSITION และความสมพนธระหวางคานามกบ ADP ขางหนาคอ case
นอกจากน obl ยงใชโยงความสมพนธระหวางคาขยายทเปนคานามอยขางหนาประโยคอกดวย เชน (Last night)< , I (swam) in the pool หรอภาษาไทยเชน (พรงน)< ฉน จะ (ไป) เทยว บาน เพอน
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 20
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต No
n-co
re
depe
nden
t -
Nom
inals
8 vocative vocative แสดงความสมพนธระหวางคากรยากบคานามทเปนคาเรยกขาน เชน (แม)< อยา (เดน) มาก
Non -
core
de
pend
ent -
No
mina
ls
9 expl expletive ใชโยงความสมพนธระหวางกรยากบสงทไมไดเปนคานามชเฉพาะชดเจน เชน มน ใน (มน)< (เปน) ไป ไม ได จะเหนไดวาคาวา มน อาจละทงไดโดยไมสงผลตอความหมาย กลาวคอ มน ในตวอยางนเปนคานาม แตไมม semantic role กบ predicate
Non-
core
de
pen d
ent -
No
mina
ls
10 dislocated dislocated element โยงคากรยากบคานามทถกยายท เชน (หนงสอ)< เลม น ผม (ชอบ) มาก
Non-
core
de
pend
ent -
Cla
uses
11 advcl adverbial clause modifier
โยงความสมพนธระหวางภาคแสดงกบสวนขยายภาคแสดงซงมลกษณะเปนอนประโยค เชน เขา (สอบถาม) เจาหนาท เพอ >(หา) ขอมล เพมเตม
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 21
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต
Non-
core
de
pend
ent -
Mo
difier
wor
ds 12 advmod adverbial modifier โยงความสมพนธระหวางกรยากบคาขยายกรยา เชน (กน) อยาง >(รวดเรว) รวมถงคาขยายอน ๆ ดวย
เชน (เกอบ)< (2000) (หลาย)< (เลม)
Non-
core
dep
ende
nt -
Modif
ier w
ords
13 discourse discourse element
ความสมพนธนใชโยงคาในกลม INTERJECTIONS เชน โอ อม โอโห, กลม discourse marker (actually, well, like) โดยโยงกรยาหลกไปยงคาอทานเหลานน นอกจากนยงสามารถใชโยงคากรยาไปยงคาลงทาย (PART:RES) ไดอกดวย
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 22
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต No
n-co
re
depe
nden
t -
Func
tion
Wor
ds 14 aux auxiliary เปนความสมพนธระหวางคากรยากบคาชวยกรยาตาง ๆ (คาไวยากรณทบอก tense, aspect, mood,
voice, evidentiality) โดยคากรยาจะเปน head เสมอ เปนตวตงตนโยงไปยงคาชวยกรยาแตละคา เชน เขา (กาลง)< (จะ)< (ไป)
Non-
core
dep
ende
nt -
Func
tion
Wor
ds
15 cop copula โยงระหวาง function word ทเชอม subject กบ nonverbal predicate คานามทางดานซายและขวาของ VERB:COP ตองอางถงสงเดยวกนหรอบอกคณลกษณะสงนน เชน he (is)< (honest) เธอ (คอ)< (เพอน ฉน) ในภาษาไทยจะพบความสมพนธนในประโยคทมคาวา คอ แตกรณทเปนการโยงความดวยอนพากย ใหวเคราะหคานนเปนกรยาทวไป เชน สงทสาคญคอตองพยายามทางานใหหนก (สง)<nsubj-(คอ), (คอ)-ccomp->(ทางาน) หรอ การพนนเปนสงทมอมเมาประชาชน กใหเปน การพนน<nsubj (เปน), (เปน) obj>
สง
Non -
core
dep
ende
nt -
Func
tion
Wor
ds
16 mark marker โยงระหวางกรยากบคาไวยากรณทบอกถงการเปน subordinate clause นนคอปกตจะโยงคากรยาในอนประโยคเตมเตมเขากบคาในกลม complementizer, subordinate conjunction เชน เขา ร (วา)< ฝน กาลง (ตก) หรอคาวา อยาง ทใชนาหนาคาขยายกรยา เชน กน (อยาง)< (รวดเรว) กรณของ discourse particle
ทไมใช final particle กใหวเคราะหความสมพนธเปน mark ได เชน (เพลง)ทไดเขาชงรางวล (ไดแก)<mark <(X) Y Z.
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 23
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต
Non-
core
de
pend
ent -
Fu
nctio
n W
ords
17 neg negation ใชโยงความสมพนธระหวางกรยาหลกกบคาปฏเสธ ในภาษาไทย บางกรณคาปฏเสธไมไดปรากฏกบคากรยาเสมอไป อาจปรากฏรวมกบคาขยาย เชน ทาไมได ได เปน ADV ขยาย ทา เรากจะโยงความสมพนธ neg ระหวาง ได/ADV กบ ไม/PART:NEG ทอยขางหนานน
Nom
inal
depe
nden
t -
Nom
inals
18 nmod nominal phrase modifier
คานามหรอนามวลทมาขยายอกคานามหนง เชน (หองทางาน) ของ >(หวหนา)
Nom
inal
depe
nden
t -
Nom
inals
19 appos appositional modifier โยงระหวาง nominal phrase ทเทากนหรอ coreference สงทอยในวงเวบ หรอคาอธบายอกษรยอ (สองคาอาจวางสลบตาแหนงกนได) โดย appos จะโยงจากซายไปขวาเสมอ
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 24
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต
Nom
inal
depe
nden
t -
Nom
inals
20 nummod numeric modifier เปนความสมพนธทโยงระหวางคานามกบตวเลข เชน เงน (60)< (บาท) กรณคาขยายบอกปรมาณ เชน หลาย บาง ทก แตละ ใหวเคราะหเปน advmod ขยายนามทปรากฏรวม
Nom
inal
depe
nden
t -
Claus
es
21 acl clausal modifier of noun (adjectival
clause)
คลายกบ advcl แตในกรณนใชเพอขยายคานาม เชน ผม เจอ (หนงสอ) ท คณ >(ชอบ)
Nom
inal
depe
nden
t -
Modif
ier w
ords
22 amod adjectival modifier โยงระหวางคาคณศพททมาขยายคานาม เชน (เนอ) >(ดบ)
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 25
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต
Nom
inal
depe
nden
t -
Func
tion
Wor
ds 23 det determiner โยงคาบงชเฉพาะหรอไมเฉพาะทขยายคานาม เชน (หนงสอ) >(น), หนงสอ (กอง) >(น) โดยทวไปจะโยง
คานามเขากบคาทม POS เปน DET
Nom
inal d
epen
dent
- Fu
nctio
n W
ords
24 clf classifier ใน UD v2 ใชโยงตวเลขบอกจานวนไปยงคาลกษณนามโดยยกตวอยางภาษาจน three CLF student และวเคราะหเปน three -clf>CLF, three<-nummod-student สวน this CLF bus วเคราะหเปน this-clf->CLF
this<-det-bus แตในกรณทมการละคานามหลกกให CLF เปนคาหลก three CLF วเคราะหเปน three<-
nummod-CLF ซงดไมคงท และตาราไวยากรณไทยมกวเคราะหคาลกษณนามเปนคานามประเภทหนง จงควรวเคราะหใหเลขจานวนนบสมพนธกบคาลกษณนามมากกวาคานามหลก เชน นกเรยนสามคน จะโยงความสมพนธเปน (นกเรยน) -clf->(คน), (สาม)<-nummod-(คน) , รถคนน จะวเคราะหเปน (รถ)-clf->(คน), (คน)-det->(น) และเมอมการละคานามหลก สามเลมน กยงวเคราะหแบบเดมได (สาม)<-nummod-(เลม), (เลม)-det->(น)
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 26
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต No
mina
l de
pend
ent -
Fu
nctio
n W
ords
25 case case marking โยงระหวางคานามกบบพบท (เมอไหรทขางหนาเปน SCONJ ความสมพนธจะเปน mark แตถาขางหนาเปน ADP ความสมพนธจะเปน case)
Co
ordin
ation
26 conj conjunct โยงระหวางสองคาท coordinate กน เชน เขา (เขยน) จดหมาย และ >(อาน) หนงสอ
Coor
dinat
ion 27 cc coordinating
conjunction โยงระหวางคาท coordinate เปนคาสดทายกบคาสนธาน
MWE
28 fixed fixed multiword expression
ใชกรณคาทเปน multiword ทจะตองรวบเปนคาเดยว เชน ถงกระนนกตาม = ถง >กระนน, ถง >ก, ถง >ตาม
MWE 29 flat flat multiword
expression flat ใชกบ exocentric MWE คลายกบ compound แต flat ใชกบ exocentric MWE (ในขณะท compound เปนลกษณะแบบ endocentric) ใชกบชอคน (โยงชอตน ไปหา ชอกลาง, ชอตน ไปหา
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 27
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต
นามสกล) โยงวน-เดอน-ป หรอคาภาษาตางประเทศ โดยโยงจากซายไปขวา เชน (1) >(มกราคม) >(2017), (นายก) >(ชวน), (นาย)< (สมชาย), (สมชาย) >(กลาหาญ) (ภาษาองกฤษ (Mr.) >(Somchai) แตภาษาไทย ชอ นาจะเปนคาหลกมากกวา ยกเวนกรณ นายก >ชอ ประเทศ >ชอ)
MWE
30 compound compound ใชโยงคาในกลมคาประสม เชน สมด>โทรศพท
รวมถงคากรยาเรยง ใน UD v2 กจะใหใชความสมพนธนดวย
วธโยงความสมพนธคอโยงตอกนไป เชน หมอหงขาว หมอ>หง หง>ขาว
Loos
e
31 list list ใชโยงคาในรายการ โดยตองมจานวนมากกวา 2 รายการ ตวตงตนเปนรายการแรกเสมอ
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 28
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต Lo
ose
32 parataxis parataxis ความสมพนธแบบตอกนโดยไมมการเชอม เชน (Washington) ( >(CNN) ) โดยปกตจะโยงจากซายไปขวา ใชโยงเขากบคาหรอขอความทอยในวงเลบ
Sp
ecial
33 orphan orphan ความสมพนธของ dependent ทไมเขาตามมาตรฐานทกลาวมา ใชกรณทมการละ ทาใหเกดความสมพนธของคคาทปกตไมเกด เชน มาน ได เหรยญทอง สวน (ชใจ) >(เหรยญเงน) ในตวอยางนมการละกรยาในประโยคสวนทสอง ปกตความโยง ได/VERB เขากบกรยาหลกของประโยคสวนท 2 แตเมอเกดการละเชนน จะ promote ให ชใจ เปน head ของประโยคสวนทสองโดยทยงคงม POS เปน PROPN แลวโยงความสมพนธระหวาง ชใจ กบ เหรยญเงน เปน orphan
Spec
ial
34 goeswith goes with ใชโยงความสมพนธของคาทอนทจรงตองเขยนตดกน แตอาจจะเขยนผดหรอแกไขผดพลาดจนทาใหตวหนงสอแยกจากกน เชน with out, never the less ในภาษาไทยอาจไมพบกรณเชนนมากนก อยางไรกตาม หากเกดกรณตดคามาผด เชน เกอ-กล และไมสามารถแกไขการตดคาได ใหโยง (เกอ) >(กล) เขาหากนโดยใชความสมพนธน โยงจากซายไปขวา
Spec
ial 35 reparandum overridden disfluency ใชกบถอยคาทพดผดแลวแกสวนใหมทถกมาแทน เชน ไป ทาง (ซาย)< – ทาง (ขวา) แกคาพดเปลยนจาก
ซาย เปน ขวา
Othe
r 36 punct punctuation โยงระหวาง predicate กบเครองหมายวรรคตอน
Othe
r 37 root root โยง root เขากบคาทเปน head หลกของประโยคหรอสวนนน
แกไขลาสด ๒ ม.ค. ๒๕๖๓ 29
Type ท Tagging UD ชอเตม คาอธบาย หมายเหต Ot
her 38 dep unspecified
dependency ใชเมอไมสามารถระบวาเปนความสมพนธแบบใดเลย หากเปนไปได ขอใหหลกเลยงการโยงรปแบบความสมพนธน