คู่มือการกํากับข้อมูล thai dependency tree bank...

29
คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว Universal Dependencies v.2 จัดทําโดย วิโรจน์ อรุณมานะกุล ธารทอง แจ่มไพบูลย์ ศูนย์วิจัยการประมวลผลภาษาและวัจนะ ภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ๒๕๖๒

Upload: others

Post on 08-Jan-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

คมอการกากบขอมล Thai Dependency Tree Bank

ตามแนว Universal Dependencies v.2

จดทาโดย

วโรจน อรณมานะกล ธารทอง แจมไพบลย

ศนยวจยการประมวลผลภาษาและวจนะ

ภาควชาภาษาศาสตร คณะอกษรศาสตร

จฬาลงกรณมหาวทยาลย ๒๕๖๒

Page 2: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 2

คานา

คมอเลมนเปนขอสรปทไดจากการทางานรวมกนกบผรวมงานในการกากบขอมลภาษาไทยจานวนหนงจากคลงขอมลภาษาไทยแหงชาต (ประมาณ 148,000 คา) โดยตงความมงหวงเพอสรางคลงขอมลทเปน Tree bank เผยแพรแกสาธารณะใหมขอมลรวมกนในการวเคราะหงานทตองอาศยขอมลทางวากยสมพนธภาษาไทย การกากบขอมลอาศยกรอบการวเคราะหของ Universal Dependencies1 ซงเปนกรอบการวเคราะหมาตรฐานสากลทตองการใหขอมลทวเคราะหจากหลากหลายภาษามขอมลวากยสมพนธทใชและเขาใจรวมกน คอ หมวดคา หรอ Part of Speech และความสมพนธเชงพงพา หรอ dependency relation ทเชอมโยงระหวางคาทเปนคาหลกและคาพงพา

การกากบขอมลทางภาษาศาสตรนเปนงานทตองอาศยความละเอยดและการวเคราะหทสมาเสมอ ตองอาศยการประชมหารอและนาขอสงสยในการวเคราะหขอมล หลาย ๆ ครงทมกจะตองกลบมาแกไขการวเคราะหและการกากบขอมลทไดทาไปแลว ทางโครงการคลงขอมลภาษาไทยแหงชาต จงไดจดทาคมอนเพอเปนแนวทางสาหรบผทสนใจงานกากบและวเคราะหขอมลภาษาไทยไดใชเปนแนวทางการทางานได งานนสาเรจเปนรปรางเบองตนไดโดยความรวมมอรวมใจของนสตบณฑตศกษาภาควชาภาษาศาสตรทไดชวยทาขอมลและนาปญหาทพบมาพดคยเพอแลกเปลยนความเหนและตดสนใจเลอกการวเคราะหทเหมาะสมกบภาษาไทย จงตองขอขอบคณนสตตอไปน ซงตางกไดสาเรจการศกษาจากภาควชาไปแลว

ธารทอง แจมไพบลย นชชา ถระสาโรช ศศวมล กาลนสมา อสรภาพ ลอรตนไชยยงค ศภวจน แตรงเรอง ภทณดา โสดาบน และกตองขอขอบคณนางสาวชลธร ขวญขจรเกยรต นสตบณฑตศกษาภาควชาวศวกรรม

คอมพวเตอรทเปนผตดตงระบบ Brat ทใชในการกากบขอมลหมวดคาและความสมพนธพงพาทใชในโครงการน ณ ขณะน ขอมลทมการกากบหมวดคาและความสมพนธทบอกคาหลกคาพงพาเพอสราง dependency tree ไดทาเสรจรอบแรกแลว กาลงอยระหวางการตรวจสอบความสมาเสมอของการวเคราะห และยงรอเพมเตมการวเคราะหชนดของความสมพนธในตนไมแตละตนตอไป

วโรจน อรณมานะกล ๑๑ ตลาคม ๒๕๖๑

1 http://universaldependencies.org/

Page 3: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 3

หมวดคาภาษาไทย หมวดคาเปนขอมลพนฐานทางวากยสมพนธ ในตาราหลกภาษาไทยของพระยาอปกตศลปสารได

กาหนดหมวดคาไว 7 ประเภท ไดแก คานาม คาสรรพนาม คากรยา คาวเศษณ คาบพบท คาสนธาน และคาอทาน ซงเปนการจาแนกดวยเกณฑหลายเกณฑ เชน จาแนกตามเกณฑทางความหมาย ใหนามเปนคาทใชอางถงคน สตว สงของ คากรยาเปนคาแสดงอาการ เปนตน จาแนกตามเกณฑหนาท ใหคาวเศษณเปนคาใชประกอบคาอน จาแนกตามเกณฑตาแหนง ใหบพบทเปนคานาหนานาม เปนตน แตการจดหมวดคาแบบนมทมาจากไวยากรณดงเดมทมตนแบบมาจากไวยากรณกรกและไวยากรณลาตน หมวดคาลกษณะนจงอาจจะไมไดสะทอนธรรมชาตทแทจรงของภาษาไทย นกภาษาศาสตรจานวนหนงจงพยายามจาแนกหมวดคาตามแนวคดทฤษฎไวยากรณสมยใหม เชน การจาแนกดวยเกณฑหนาท (นววรรณ พนธเมธา 2527) การจาแนกตามหลกไวยากรณโครงสราง (วจนต ภาณพงศ 2532) การจาแนกตามเกณฑวากยสมพนธตามหลกทฤษฎไวยากรณศพทการก (อมรา ประสทธรฐสนธ 2543) บางกใชเกณฑหลากหลายผสมกนโดยแจกแจงรายละเอยดมากขนเ พองานประมวลผลภาษาไทย เ ชน หมวดคาในคลงขอมลออรคด (Virach Sornlertlamvanich et al. 1997) การจาแนกหมวดคาทผานมาจงมความแตกตางกนไปตามลกษณะเกณฑและแนวคดทใช

เนองจากหมวดคาเปนหนวยพนฐานทางวากยสมพนธ แมการนยามหมวดคาบางครงจะดเหมอนวาเปนเรองของความหมาย แตโดยพฤตกรรมแลว คาในหมวดคาเดยวกนกมลกษณะการเกดคลาย ๆ กน เชน คาทเปนกรยากมกปรากฏหลงคานามททาหนาทเปนประธาน บางกลมกอาจมนามตามหลงททาหนาทเปนกรรมได เปนตน เกณฑทางวากยสมพนธหรอการปรากฏรวมกบคาอน ๆ จงควรเปนหลกสาคญในการจาแนกหมวดคา หมวดคาจงเปนลกษณะเฉพาะของแตละภาษา หมวดคาภาษาไทยจงควรจาแนกโดยอาศยขอมลภาษาไทยเปนสาคญ ไมสามารถนาชดหมวดคาทใชในภาษาอนมาใชไดโดยตรงทงหมด

อยางไรกด ในการทางานประมวลผลภาษาตาง ๆ หากแตละภาษามการกาหนดใชชดหมวดคาในลกษณะตาง ๆ ทแตกตางกนโดยสนเชง จะทาใหการทางานรวมกนหลาย ๆ ภาษาเปนไปดวยความลาบากมากขน จงเกดแนวคดทจะกาหนดชดหมวดคาทสามารถใชไดกบทก ๆ ภาษา จะมเฉพาะบางสวนทยอมใหเปนเรองเฉพาะภาษาได แตกรอบการวเคราะหพนฐานแลวจะใชเหมอนกน กลมคนทมแนวคดลกษณะน จงไดเสนอโครงการ universal dependencies (UD) ซงเปนโครงการสากลสาหรบกากบหมวดคาและกากบความสมพนธระหวางคาผานการวเคราะหแบบพงพา โดยไดกาหนด POS และกาหนดความสมพนธแบบพงพา (dependency relation) ทเกดขนระหวางคาในประโยคทเปนสากลขนมา POS สาหรบใชแทกขอมลภาษาไทยในทน จงยดตามรายการทนาเสนอใน http://universaldependencies.org/ ขอควรสงเกตคอ จานวน POS ทเสนอใหใชนนมไมมาก และไมแนะนาใหตงแทกทเปนเรองเฉพาะแตละภาษา จานวนแทกจงมนอยกวาทใชกนในงาน POS Tagging ทวไป อยางไรกตาม จานวน POS ทนอยนนถกชดเชยดวยการกาหนดความสมพนธแบบพงพาทคอนขางมากแทน ทาใหยงคงสามารถแยกความตางทางวากยสมพนธออกได เชน คานามทเคยแยกเปนประเภทยอยตาง ๆ ในกรอบ UD มเพยง NOUN, PROPN คากลมทพบในภาษาไทย จน อยางคาลกษณนามถกจดเปน NOUN ซงตองไปแยกดวยวธการอนตอไป ในภาษาจนมผใช nmod:clf เปน

Page 4: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 4

ตวกาหนดความสมพนธนแทน (Leung et al. 2016) ซงตอมาใน UD version 2.0 กาหนดใหใช relation “clf” เปนการบอกความสมพนธระหวาง head noun กบ classifier ในการกากบขอมลภาษาไทยในทน จงจะใช NounType:class ทมเสนอในบางภาษามาใช (ให class เปน value ของ attribute “NounType” ภายใตแทก POS: NOUN) และใช relation “clf” ประกอบดวยเมอเชอมโยงกบคานามหลก เปนตน

จานวนแทกและรายการ POS ตาง ๆ ใน UD พฒนาตอมาจากหลายโครงการ ไดแก Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), และ Interset interlingua for morphosyntactic tagsets (Zeman, 2008) เพอใหไดชดรายการทเปนมาตรฐานเดยวกนสาหรบใชไดกบภาษาตาง ๆ หลกการนอกจากจะใหใชไดกบหลากหลายภาษา กยงตองมความถกตองทางภาษาศาสตร และไมยากเกนไปทจะใหคนทวไปสามารถใชทางานไดดวย เวอรชนแรกของ UD ออกมาในเดอนตลาคม ป 2014 UD ปจจบน เปน UD เวอรชน 2

สาหรบภาษาไทย จานวน POS tag และ attribute เบองตนทจะใชกบภาษาไทย ทางโครงการคลงขอมลภาษาไทยแหงชาต ไดกาหนดวธการกากบขอมล ดงน

Page 5: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 5

การกาหนดหมวดคาภาษาไทยใน UD การกาหนดหมวดคา นอกจาก POS แลว เรายงสามารถระบ attribute : value เพอใชจาแนกประเภท

ยอยของ POS นนอกได UD POS tags และ feature ตาง ๆ ทใชในทน ใชโดยเทยบเคยงจากคาอธบายทเขยนไวในเวบ http://universaldependencies.org/ แตกมคาบางกลมทอาจตองปรบเปลยนอกเพอความเหมาะสม

กลมคาเปด NOUN คานามทวไปรวมถงคานาหนาชอทงหลาย นาย นาง พล.ต. เหลานกใหกาหนด

เปน NOUN ดวย แลวโยงความสมพนธ compound ระหวาง คานาหนาชอ กบ ชอ (นาย)<-(สมชาย) คาในกลมชอสตว (นก/พราบ นก/กระยาง ปลาท ปลาสวาย) หรอชอพช (ผก/บง ตน/ตาลง ตน/มะมวง) เหลานใหกากบเปน NOUN

NounType: class Feature สาหรบใสใหคาทเปนลกษณะนาม กาหนดไวกอน แตอาจจะลบทงได เพราะสามารถใช relation clf บอกความเปน classifier ได

PROPN คานามเฉพาะ ไดแก ชอคน สถานท องคกร ผลตภณฑ ประเทศ สวนชออาหาร ชอปลา สตว ตนไม จะใหเปน NOUN

NameType: Prs Prs: person name (ใชกรณไมรวาเปน given หรอ surname) NameType: Giv Giv: given name ชอตน เชน ประยทธ อศวน เปนตน NameType: Sur Sur: surname ชอสกล เชน จนทรโอชา ขวญเมอง เปนตน NameType: Geo Geo: geographical name เชน ชอสถานท ชอประเทศ ชอจงหวด ชออาเภอ

ชอมหาวทยาลย (ในกรณทในปรบทนนตองการบงบอกสถานทตง เชน ฉนขบรถผานจฬาฯ เปนตน)

NameType: Com Com: company organization name ชอบรษท ชอประเทศ ชอมหาวทยาลย (ในกรณทปรบทนนบงถงลกษณะขององคกร เชน จฬาฯ สงนสตเขาแขงขนในรายการตาง ๆ เปนตน)

NameType: Nat Nat: nationality คาแสดงเชอชาต สญชาต NameType: Pro Pro: product เชน ไอโฟน NameType: Oth Oth: others ชอเฉพาะอน ๆ ทไมสามารถจดเขาประเภทตาง ๆ ขางตนได VERB คากรยาทงอกรรมและสกรรม VerbType: Cop Featureทกาหนดใหกบ กรยา copular ไดแกคาวา ‘คอ’ (ไมใชทกกรณทเปน

copular) จะกากบให VERB นนเปน Cop กตอเมอฝงซายและฝงขวาสอถงสงเดยวกนเทานน เชน เขาคอเพอนแท à เขา กบ เพอนแท เปนสงเดยวกน เชนนจะกากบ คอ/VERB:{VerbType: Cop} ขอสงเกตคอฝงซายและขวามกจะมสถานะเปน NOUN PRON หรอ PROPN คอ ททาหนาทเชอมความในปรจเฉท จะวเคราะหเปน SCONJ เชน การสอสารทมประสทธภาพทสดคอ การทผสงสารและผรบสารมลกษณะเหมอนกน

INTJ คาอทานทงหลาย

Page 6: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 6

ADJ คาคณศพท เปนคา ขยายหลงคานาม รวมถงคาทบางจดใหเปนคากรยาคณศพท จะตองเปนคาทแสดงคณลกษณะบางอยางของคานามทอยขางหนา เชน ด สวย อวน ผอม ใหญ เลก เปนตน ในกรณทคาซงปรากฏหลงคานามนนไมไดแสดงลกษณะของคานาม แตบงความชเฉพาะหรอไมชเฉพาะ จะกากบเปน DET

ADV คาวเศษณ ขยายกรยา VERB หรอขยายคา ADJ หรอ ADV ปกตปรากฏหลงคากรยา แตมบางทปรากฏหนากรยา เชน คาวา ‘สด’ ใน สดขยน มคา ADV จาพวกหนงทไมไดขยายกรยา แตขยาย numeral, determiner, noun, pronoun ปรากฏหนานาม เชน เพยง อก ทง สก ทก แตละ หลากหลาย (หลากหลายรปแบบ) เปนตน ใหกากบเปน ADV ลกษณะนพบในตวอยางการวเคราะหภาษาอนดวย เชน ภาษาจน

กลมคาปด AUX คากรยาชวยทงทปรากฏหนาและหลงกรยาในภาษาไทย เชน ควร จะ นา ได ไป

มา เปนคาทบงบอก tense, aspect, modality ในกรณทปรากฏหนากรยาจะกากบเปน AUX แตหากปรากฏหลงกรยาจะกากบเปน ADV ได

ADP AdpType: Prep Adposition ในภาษาไทยเปน preposition อยางเดยว ไมม postposition ปรากฏหนาคานาม เชน บน ใน หนา ทาง เพอ feature นจงเปน default สาหรบ ADP ในภาษาไทย นาหนา นามวล นาม สรรพนาม หรออนพากยทาหนาทนาม

PRON PronType: Prs คาสรรพนามบคคล เชน ฉน เขา เธอ อะไร (เขาทาอะไร เธอกชอบทงนน) น (นคอสงทเขาตองการ) ใครตอใคร ลวนแต ตาง (ผคนตางยกยองเขา)

PronType: Rcp คาสรรพนาม reciprocal à กน ซงกนและกน NUM คาบอกจานวน ปรมาณ ทาหนาทเหมอน DET, ADJ, PRON บอกความหมาย

เกยวกบจานวน เปน ตวเลข คาจานวนนบ เชน 123 สบ/เอด ตวเลขทประกอบคา เชน 7 ใน Windows 7 กใหกากบ NUM

DET คาบงชเฉพาะหรอไมชเฉพาะ ใชขยายหลงคานาม เชน น นน ไหน อน ทงหมด ตางๆ ทวไป (กรณทมการละคานามและเหลอเพยงคาประเภทนคาเดยว เชน ‘ทงหมด’ กคงใหเปน DET)

CCONJ Coordinate conjunction คาเชอมสองสวนทมสถานะเทากน เชน และ (หมาและแมว) แต (ฉนอยากกนแตเธออยากนอน) หรอ (ขาว กวยเตยว หรอสเตก) เปนตน รวมถงคาททาหนาทเปน discourse marker ทเชอมความ เชน อยางไรกตาม แตถงกระนน

SCONJ Subordinate conjunction คาเชอมสวนททาหนาทเปนสวนขยายหรอ subordinate clause เชน ท วา ให จง เพอ รวมถงคาวา เชน คอ ททาหนาทเชอมความในปรจเฉท

PART คาอนภาคทวไป กรณคาอนภาคเฉพาะใหเตม feature ขางลางน PartType: Emp emphasis ใชกากบหลงวลหรออนประโยค เพอเปนการเนนเหตการณดงกลาว

ไดอกดวย เชน ‘นน’ ใน ขณะทกาลงผสมสวนตางๆเขาดวยกนนน ‘เสยอก’ ‘ซะอก’ เปนตน

Page 7: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 7

PartType: Res Response ครบ คะ นะ จะ PartType: Int Interrogative หรอไม หรอ ไหม ทาไม PartType: Neg Negation ไม ม บ ใชวา ไมใชวา PartType: Adj Adjective นา เปนคาทเปน Adjective marker เมอปรากฏหนาคาใด ทาใหคา

นนทาหนาทเปน adjective ได เชน นารก นาเอนด PartType: Adv Adverb อยาง โดย เปนคาทเปน adverb marker เมอปรากฏรวมกบคาท

ตามมา จะทาใหคานนทาหนาทเปน Adv ได เชน อยางเรว โดยดวน ดวยด (Particle สองประเภทหลงกาหนดใชในภาษาไทยเปนการเฉพาะ) PUNCT เครองหมายวรรคตอนตาง ๆ ทเปนสวนหนงของขอความมหนาทในทางภาษา

เชน ๆ ฯ ฯลฯ , ? SYM เครองหมายสญลกษณตาง ๆ ทไมใช PUNCT เชน สญลกษณทางคณตศาสตร +

- * # @ รวมถง email, url [email protected] www.dummy.com เปนตน X คาทยงไมสามารถจดประเภทไดตามขางบนน ใหกากบเปน X ไปพลางกอน Feature เปน feature ทใชกากบคาใด ๆ เปนการกากบลกษณะเพมเตมของคานน ๆ ซง

ถกกากบดวย POS บางอยางไวแลว จากนนจงพจารณาตอไปวาคาดงกลาวมลกษณะใด ๆ เพมเตมอกหรอไม ลกษณะดงกลาวนน ไดแก คานาหนา (Prefix) คายอ (Abbr) และคาตางประเทศ (Foreign)

Prefix: Yes Prefix ประกอบคา เชน ชาว นก ผ การ ความ นา อยาง Abbr: Yes คายอ (POS ของคายอเปนไปตามรปเตมคานน เชน กรงเทพ/PROPN {

NameType:geo, Abbr:Yes}/ฯ/PUNCT รร./NOUN {Abbr:Yes}) Foreign: Yes คาทบศพทตางประเทศ

ขอสงเกตเพมเตมในการกำกบ POS:

1. การกำกบคำรวมกบเครองหมายไมยมก (ๆ)

คำบางคำปรากฏรวมกบเครองหมายไมยมก (ๆ) โดยปกตจะกำกบแยกเครองหมาย ๆ ออกเปน PUNCT อยางไรกด ใน

บางกรณทคำดงกลาวจำเปนตองปรากฏซำ หรอตองปรากฏรวมกบ ๆ เทานน จงจะสามารถสอความหมายทถกตอง เชน

- บนโตะเตมไปดวยเอกสารตาง ๆ - หลง ๆ เขาไมคอยมาตามนด

จะเหนวา ตาง ๆ หรอ หลง ๆ จำเปนตองปรากฏดวยกน หากปรากฏเพยงคำเดยวโดด ๆ จะสอความหมายทตางออกไป ดงนน การกำกบคำวา ตาง ๆ กบ หลง ๆ จำเปนตองกำกบรวมเปน 1 คำ ตางๆ/DET หลงๆ/CCONJ เปนตน

2. การกำกบนามวลในกลม การ- ความ-

นามวลในกลม การ- ความ- โดยปกตจะกำกบแยก การ- และ ความ- ออกมาเปนหนวย NOUN:{Prefix: Yes} แตบาง

กรณจำเปนตองรวม การ- หรอ ความ- ไวเปนสวนหนงของคำนนดวย เชน ความทรงจำ การบาน การเมอง การงาน เปนตน ขอใหพจารณาจากความหมายของคำนน ๆ เปนหลก การวเคราะหความสมพนธระหวาง การ และ หนวยกรยาวลทตามมา สามารถวเคราะหไดสองแบบ

Page 8: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 8

แบบแรก ให การ เปนคำหลกโดยม POS เปน NOUN ทม feature {prefix} และมคำกรยาเปนคำพงพา เชน การสญเสยบคคลใกลชด การ >สญเสย เพราะมองในเชงวากยสมพนธวา ทงหมดทำหนาทเปน นามวล ไปเชอมโยงกบคำอนตอ การ จงควรเปนคำหลกและม POS: NOUN และหากเตม บพบทวลแสดงความเปนเจาของ เชน การสญเสยบคคลใกลชดของเขา ของเขา จะสมพนธกบ การสญเสย เหมอนอยาง หนงสอ ของเขา หากวเคราะหแบบน ความสมพนธระหวาง การ และ กรยาวลขางหลงควรเปน acl คอ clausal modifier of noun

แบบทสอง วเคราะหใหกรยาเปนหลกเพราะมองวาเปนคำเนอหา การ มความเปนคำไวยากรณจงควรเปนหนวยพงพาตามหลกทใหคำไวยากรณไมสามารถเปนหนวยหลก การ< สญเสย โดยมความสมพนธเปน mark และ การสญเสยบคคลใกลชดของเขา กจะโยงความสมพนธระหวางคำหลก สญเสย กบ >(ของ< เขา) ในเชงความหมาย การวเคราะหแบบนดเหมอนจะทำใหคำเนอหาเชอมโยงกนไดดกวา [สญเสย – บคคล, สญเสย - เขา] แตวธนทำใหมปญหายงยากในการแยกวา

เขา มบทบาททางความหมายอะไรผาน relation อะไร เพราะ (ของเขา) ปกตเปน nmod ของคำนามขางหนา กรณนจะ

ยงคงใหเปน nmod ของ สญเสย ไดไหม ถายอมได กจะกลายเปนมกรณท nmod ขยาย VERB ไดดวย และจะเปนปญหา

ตอไปในกระบวนการ parsing หรอถาแกโดยให สญเสย เปน NOUN เพราะม การ อยขางหนา กจะทำใหตองมอกกระบวนการหนงเปลยน POS ของคำได

ในทนจงเลอกการวเคราะหแบบแรกให การ เปน NOUN{prefix} ทมกรยาวลตามหลงดวยความสมพนธ acl

3. POS ของคำอาจขนกบตำแหนงในการปรากฏ

คำหนง ๆ อาจสามารถกำกบไดหลาย POS ขนกบวาคำนน ๆ ปรากฏในตำแหนงใดของขอความ ยกตวอยางคำวา

หลากหลาย จากขอความตอไปน

- อาชพหลากหลาย หลากหลาย กำกบเปน ADJ เปน dependent ของ อาชพ (ปรากฏหลงนาม)

อาชพ/NOUN หลากหลาย/ADJ

- อาชพทหลากหลาย หลากหลาย กำกบเปน VERB เปน head ของ ท

อาชพ/NOUN ท/SCONJ หลากหลาย/VERB

- หลากหลายอาชพ หลากหลาย กำกบเปน ADV เปน dependent ของ อาชพ (ปรากฏหนานาม)

หลากหลาย/ADV อาชพ/NOUN

UD เปลยนวธการวเคราะห ellipsis จากเดมทใช relation remnant มาเปนการโปรโมทหนวยรองมาเปน head

แทน เชน ถาละ head nominal จะโปรโมท dependents ตามลำดบความสมพนธนมาแทน amod > nummod > det >

nmod > case ถาละกรยา ใหโปรโมท aux หรอ cop มาแทน ถาไมมกมสองแนวทาง ทางแรกคอใหโยงตว orphan กบ

grandparent และใช composite relation คอม relation ของ headrel ตอดวย orphanrel เชน I like tea and you

Page 9: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 9

coffee จะได like-(conj>nsubj)>you like-(conj>obj)>coffee ทางทสองคอใช relation “orphan” ในตวอยางนจะเปน

you-(orphan)>coffee ในทนจะเลอกใชวธทสอง relation orphan

การกำกบความสมพนธระหวางคำ

• ความสมพนธแบบพงพา dependency relation จะกำกบระหวาง head กบ dependent ลกศรตงตนมาจาก

head ไปท dependent

head dependent

• โครงสรางทไดจากความสมพนธนจะออกมาเปน dependency tree dependency จะโยงระหวางคำเนอหาเปน

หลก ในโครงสราง coordinate จงโยงระหวาง noun กบ noun หรอ verb กบ verb dependency tree ใน UD

จงตางจาก dependency tree ใน approach อน เขาใจวา การโยงแบบ UD ทำใหเหน relation ระหวาง

content word โดยตรง ซงจะเออตอการวเคราะหความหมายตอไปไดงายกวา

• สวนคำไวยากรณจะเปน dependent เปนหลก ไมมคำทมา depend ดวย กลมคำไวยากรณจงไมตอกนเปนสาย

ถามหลาย ๆ ตว กจะไปขยาย head เดยวกน

• คำทเปน multiword เชน in spite of จะโยงความสมพนธ fixed ระหวาง in >spite, in >of กรณภาษาไทย ถา

เปนคำทกำหนดใหเปนคำแลวกไมตองทำแบบน เชน อยางไรกตาม แตหากโปรแกรมตดคำไมไดตดเปนคำเดยว เชน

ถง|กระนน|ก|ตาม กจะตองกำกบความสมพนธแบบ fixed น ถง->กระนน ถง->ก ถง->ตาม และใช relation

“fixed”

• การละ จะไมมการเตมคำทหายไป จะวเคราะหไปตามรปปรากฏ ถาคำทหายเปน dependent กไมตองทำอะไร ถา

เปนคำทควรเปน head เชนคำนาม กให promote คำทควรเปน dependent ของคำนามทหายไปมาเปน head

แทน ตามลำดบดงน amod > nummod > det > nmod > case เชน He buys himself a green car and

she (buys) herself a >obj>(red) สำหรบภาษาไทย ลำดบการ promote อาจไมเปนตามน แตหลกการคงเดม

คอไมมการเตมสงทละไป

• Dependency structure ทใชในทนเปน basic tree สำหรบการใชงานลกษณะ shallow ไมใช enhanced

dependencies ทใหม null node มการบอกถง controlled/raised subject ทใชรวมกน แบบ enhanced จงม

รายละเอยดมากขน ม cross dependency เกดขนไดดวย

Page 10: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 10

รายการความสมพนธ nsubj Nominal subject ความสมพนธระหวางกรยากบประธาน ในกรณทไมม predicate เชน วนน

วนศกร กใหใช nsubj (วน น)< (วน ศกร)

ฉน กน ขาว

วน น วน ศกร

csubj Clausal subject โยง subject ทเปน clause เชน What she (said)< is (interesting)

ฝน ตก อยาง รนแรง ทำให เกด นำทวม

obj Object ความสมพนธระหวางกรยากบกรรม เชน เขา (หยบ) >(เสอ)

เขา หยบ เสอ

เขา อย บาน กบ แม

iobj Indirect object ความสมพนธระหวางกรยากบกรรมรอง (ให) เงน >(เดก)

เขา ให เงน เดก

เขา ให เงน แก เดก

obl oblique nominal ใชกบ non-core argument หรอ adjunct ดจากรปประโยคจะมคำ

ไวยากรณกำกบดวย เชน (ให) เงน แก >(เดก)

พรงน ฉน จะ ไป เทยว บาน เพอน

vocative vocative โยงกรยากบนามทเปนคำเรยกขาน (แม)< อยา (เดน) มาก

แม อยา เดน มาก

obl nsubj obj case

nsubj advmod

obj mark ccomp

nsubj det

nsubj obj

csubj

obj nsubj

obj nsubj

iobj

obl

advmod aux

vocative

case

nmod

nsubj obj

obl

compound nsubj obj aux nmod

Page 11: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 11

dislocated dislocated โยงคำกรยากบนามทถกยายท (หนงสอ)< เลม น ผม (ชอบ) มาก

หนงสอ เลม น ผม ชอบ มาก

aux auxiliary โยงกรยากบคำไวยากรณทบอก tense, aspect, mood, voice,

evidentiality เชน เขา (กำลง)< (จะ)< (ไป)

เขา กำลง จะ ไป

cop copula โยงระหวาง function word ทเชอม subject กบ nonverbal predicate

เชน he (is)< (honest), เธอ (คอ)< (เพอน) ฉน, เขา (เปน)< (คน) ด แตถาเปนประโยคซบซอน เชน การพนนเปนสงทมอมเมาประชาชน ใหวเคราะห เปน เปนกรยาหลกทม nsubj และ obj relation กบประธานและกรรม

เธอ คอ เพอน ฉน

mark marker โยงระหวางกรยากบคำไวยากรณทบอกถงการเปน subordinate clause

เชน เขา ร (วา)< ฝน กำลง (ตก) หรอคำวา อยาง ทใชนำหนาคำขยายกรยา เชน กน (อยาง)< (รวดเรว) ปกตเปนคำในกลม complementizer,

subordinate conjunction รวมถงคำ เชน คอ ทเปน discourse marker

เชอมความตอไป

เขา ร วา ฝน กำลง ตก

advmod Adverbial modifier โยงระหวางกรยากบคำขยายกรยา (กน) อยาง >(รวดเรว) หรอ ADV ทขยายคำอน (เกอบ)< (2000)

เพอน ของ ฉน กน อาหาร อยาง รวดเรว

case

dislocated

nsubj advmod det clf

nsubj aux

aux

cop nmod

nsubj

nsubj

ccomp

aux nsubj

mark

nsubj

nmod obj

advmod

mark

Page 12: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 12

advcl Adverbial clause

modifier

โยงกบกรยาของ clause ททำหนาทขยายกรยาหลก เชน เขา (สอบถาม) เจาหนาท เพอ >(หา) ขอมล เพมเตม

เขา สอบถาม เจาหนาท เพอ หา ขอมล เพมเตม

acl Clausal modifier of

noun (adjectival clause)

คลายกบ advcl ทอนนใชขยายคำนาม เชน ผม เจอ (หนงสอ) ท คณ

>(ชอบ) ความสมพนธระหวาง การ >กรยาวล เชน การ >(สญเสย)บคคลใกลชดของเขา กวเคราะหเปน acl

ผม เจอ หนงสอ ท คณ ชอบ สด ๆ

det determiner โยงคำบงชเฉพาะหรอไมเฉพาะทขยายคำนาม เชน (หนงสอ) >(น), หนง สอ (กอง) >(น)

case Case marking โยงระหวางคำนามกบบพบท ให เงน (แก)< (เดก) clf Classifier โยงคำนามทเกยวของกบคำลกษณนาม เขากบคำลกษณนาม เชน (หนงสอ)

สาม >(เลม) (ในภาษาอน classifier เปนคำไวยากรณ จงเปน dependent

เสมอ แตในภาษาไทย อาจใชโดยไมมคำนามและทำหนาทเปนคำนามแทน

เชน เลม น จงถกจดเปน NOUN)

หนงสอ สาม เลม วาง อย ใน หอง ของ เธอ

nmod Nominal phrase

modifier

คำนามหรอนามวลทมาขยายอกคำนามหนง เชน (หองทำงาน) ของ >(หวหนา)

หอง ทำงาน ของ หวหนา ของ ฝาย บรหาร ของ โรงเรยน

amod Adjectival modifier โยงระหวางคำคณศพททมาขยายคำนาม เชน (เนอ) >(ดบ)

จาน น คอ เนอ ดบ

nummod

nsubj obj

obj

advcl

advmod

mark

nsubj obj

acl

advmod mark punct nsubj

nsubj

clf

advmod case

obl nmod

case

compound

nmod nmod

case

nmod

case case compound

cop amod

nsubj

det

Page 13: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 13

appos Appositional modifier โยงระหวาง nominal phrase ทเทากนหรอ coreference เชน (สมชาย) >(ผจดการ) โรงแรม แหง น

สมชาย ผจดการ โรงแรม แหง น

nummod Numeric modifier โยงระหวาง numeral กบคำนามทเปน head เชน เงน (60)< (บาท)

ฉน ม เงน 60 บาท

conj conjunction โยงระหวางสองคำท coordinate กน เชน เขา (เขยน) จดหมาย และ >(อาน) หนงสอ

เขา ฟง วทย เขยน จดหมาย และ อาน หนงสอ

cc Coordinating

conjunction

โยงระหวาง คำ ท coordinate กบคำสนธาน เชน เขา เขยน จดหมาย (และ)< (อาน) หนงสอ

ccomp Clausal complement โยงระหวางกรยาแรกกบกรยาสองทเปน dependent clause เมอทงกรยา

ตวแรกและกรยาตวทสองตางกมประธานของตนเอง เชน เขา (บอก) วา เขา >(ชอบ) อาน หนงสอ (กรณทมการละประธานตามปกตของภาษาไทย เชน เขาบอกวาไมชอบอานหนงสอ กวเคราะหเปน ccomp เหมอนเดม)

เขา บอก วา เขา ไม ชอบ อาน หนงสอ

xcomp Open clausal

complement

คลายกบ ccomp แตกรยาของ dependent clause จะไมม subject คอใช

subject รวมกบกรยาแรก เชน He (likes) to >(swim) ภาษาไทย เชน ฉน (ชอบ) >(ไป) เทยว ทะเล (ถาเตมประธานไปประโยคจะใชไมได *ฉนชอบฉนไปเทยวทะเล) สวนกรณถาเปนความสมพนธของ serial verb ใหวเคราะห

เปน compound

ฉน ชอบ ไป เทยว ทะเล

nsubj conj

obj cc

conj

obj obj

clf appos

det nmod

clf

nummod obj nsubj

nsubj

ccomp

obj compound

mark

neg

nsubj

nsubj

xcomp

compound obj

Page 14: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 14

fixed Fixed multiword

expression

เปน 1 ใน 3 relation ของ MWE (multi-word expression) ใชกรณคำท

เปน multiword ทจะตองรวบเปนคำเดยว เชน ถงกระนนกตาม = (ถง) >(กระนน), (ถง) >(ก), (ถง) >(ตาม)

ถง กระนน ก ตาม

compound compound เปน 1 ใน 3 relation ของ MWE โยงความสมพนธของคำประสม เชน

(สมด) >(โทรศพท) Relation นใน UD v2 ใหใชสำหรบ serial verb ดวยโดยใช compound:

svc สวน Compound: prt ใชกบ particle verb (put)>(up)

เขา ชอบ นง อาน หนงสอ อย บาน

ฉน หยบ เอา ไม มา ต เขา

flat Flat multiword

expression

เปน 1 ใน 3 relation ของ MWE คลายกบ compound แต flat ใชกบ

exocentric MWE ในขณะท compound เปนลกษณะแบบ endocentric

เชน (1) >(มกราคม) >(2017), (นายก) >(ชวน), (นาย)< (สมชาย), (สมชาย) >(กลาหาญ) ภาษาองกฤษ (Mr) >(Somchai) ภาษาไทย ชอ นาจะเปน

คำหลกมากกวา ยกเวนกรณ นายก >ชอ ประเทศ >ชอ รวมถงกรณคำทเปน

ชอตาง ๆ เชน ชอผลตภณฑ บรการ เชน “สนเชอเรวทนใจ” “บตรสไมลทนใจ” กใหใช flat เชอมระหวางคำในชอนน

1 มกราคม 2017

นาย สมชาย กลาหาญ

parataxis parataxis ความสมพนธแบบตอกนโดยไมมการเชอม มกใชกบการใหวงเลบขยายความ

เชน (Washington) ( >(CNN) )

list list ความสมพนธแบบเปนรายการตอๆ กน เชน (แอปเปล) >(มะละกอ) >(กลวย) >(สม)

compound

nsubj obj obj xcomp

compound

flat

flat

flat flat

nsubj obj obj

compound compound compound

fixed fixed

fixed

Page 15: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 15

ใน ตะกรา ม แอปเปล มะละกอ กลวย สม

orphan orphan ความสมพนธของ dependent ทไมเขาตามมาตรฐานทกลาวมา ใชกรณทม

การละคำ ทำใหเกดความสมพนธของคคำทปกตไมเกด orphan จงเปนตว

บอกวามบางอยางหายไป ณ ตรงนน

มาน ได เหรยญ ทอง สวน ชใจ เหรยญ เงน

punct Punctuation โยงระหวาง predicate หรอคำหลกอนกบเครองหมายวรรคตอน เชน ทำไม(กลา) เรยน punct>? , อบตเหตมกเกด(ซำ) punct>ๆ

reparandum Overridden disfluency ใชกบถอยคำทพดผดแลวแกสวนใหมทถกมาแทน เชน ไป ทาง (ซาย)< –

ทาง (ขวา) แกคำพดเปลยนจาก ซาย เปน ขวา dep Unspecified dependency ใชเมอไมสามารถระบวาเปนความสมพนธแบบใดเลย จงใหเปน dep ไวกอน

root root โยง ROOT เขากบคำทเปน head หลกของประโยคหรอสวนนน

discourse discourse element ความสมพนธนใชโยงคาในกลม INTERJECTIONS เชน โอ อม โอโห, กลม discourse marker (actually, well, like) โดยโยงกรยาหลกไปยงคาอทานเหลานน

อาว ทำไม ทำ แบบ น ละ

expl expletive ใชโยงความสมพนธระหวางกรยากบสงทไมไดเปนคานามชเฉพาะชดเจน เชน มน ใน (มน)< (เปน) ไป ไม ได จะเหนไดวาคาวา มน อาจละทงไดโดยไมสงผลตอความหมาย กลาวคอ มน ในตวอยางนเปนคานาม แตไมม semantic role กบ predicate

มน เปน ไป ไม ได

advmod obj det

discourse

advmod

neg expl

advmod

discourse

list

list list case nsubj obj

conj orphan

nsubj obj cc amod amod

Page 16: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 16

ตารางแสดงความสมพนธรปแบบตาง ๆ ระหวางคา

Nominals Clauses Modifier Words Function Words

Core arguments nsubj obj iobj

csubj ccomp xcomp

Non-core dependents

obl vocative expl dislocated

advcl advmod discourse

aux cop mark neg2

Nominal dependents

nmod appos nummod

acl amod det clf case

Coordination MWE3 Loose Special Other conj cc

fixed flat compound

list parataxis

orphan goeswith reparandum

punct root dep

2 เปนความสมพนธทไมปรากฏในคมอของ universal dependency ver.2 3 MWE: multi-word expression

Page 17: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

คาอธบายความสมพนธโดยละเอยด

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต

Core

arg

umen

ts - N

omina

ls

1 nsubj nominal subject ความสมพนธระหวางกรยากบประธาน ประธานของประโยค อาจเปน คานาม (NOUN) สรรพนาม (PRON) หรออาจเปนคาคณศพท ADJ ไดในกรณทเกดการละ โดยทประธานของประโยคอาจไมจาเปนตองเปนผกระทากรยานน ๆ (agent) โดยตรงกได หากประโยคมความสมพนธแบบกรรมวาจก (passive) จะระบความสมพนธของกรยาโยงไปยงประธาน เปน nsubj:pass ความสมพนธแบบ nsubj อาจไมจาเปนตองตงตนมาจาก VERB เสมอไป ในกรณท VERB ทปรากฏในประโยคนนเปน COPULAR VERB สวนตงตนหรอ head จะเปนสงทมาเตมเตม COPULAR VERB นน ซงอาจเปน ADJ หรอ NOUN กได ในกรณทไมม predicate เชน วนนวนศกร กใหใช nsubj (วน น)< (วน ศกร) เมอไหรกตามทประธานมลกษณะเปน empty argument (ประโยคทขนตนดวย there) ความสมพนธระหวาง VERB กบประธานจะเปน expl แทน ในภาษาไทย อาจพบในประโยค เชน มนเปนไปไดวา… มน<-expl-เปน มนเปนเหมอน dummy subject

Core

arg

umen

ts -

Nom

inals

2 obj object ความสมพนธระหวางกรยากบกรรมตรงของกรยานน โดยปกตจะเปนคานาม และหากกรยานนมกรรมเพยงแคตวเดยวจะระบความสมพนธเปน obj แตหากกรยาเปนกรยาทวกรรมคอมกรรมสองตว หรอมกรรมมากกวา 2 ตว จะโยงความสมพนธใหกรรมตวหนงเปน obj (เปนกรรมทรบผลจากการกระทาหรอกรยานนโดยตรง) สวนทเหลอเปน iobj

Page 18: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 18

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต Co

re

argu

men

ts -

Nom

inals

3 iobj indirect object iobj เปนความสมพนธหลกอกความสมพนธหนง โยงระหวางกรยากบกรรมรอง ไมมคาบพบทมาคนกลาง ในกรณทกรรมรองนาหนาดวยคาบพบท จะถอวากรยากบกรรมรองนนมความสมพนธแบบ obl

Core

arg

umen

ts -

Claus

es

4 csubj clausal subject เปนรปแบบความสมพนธของกรยากบประธานของประโยค โดยประธานไมใชคานามเดยวโดด ๆ แตมลกษณะเปนอนประโยค (clause) การโยงความสมพนธจะโยงจากกรยาหลก (หรอ head ของสวนเตมเตมของกรยา COPULAR) ไปยง head ของอนประโยคทเปนประธาน ซงอาจจะเปนกรยาหรอนามกได ในกรณทเปนประโยคกรรมวาจก (passive) การโยงจะระบเพมเตมเปน csubj:pass

Core

arg

umen

ts - C

lause

s 5 ccomp clausal complement เปนประเภทการโยงกรยาหลก (VERB หรอ ADJ) เขากบ head ของสวนทมาเตมเตม อนปรากฏในตาแหนงกรรมของประโยค ขอสงเกตการโยงความสมพนธนคอ ประธานของประโยคหลกกบประธานของอนประโยคทมาเตมเตมสามารถเปนคนละคนหรอคนละสงกนได เชน เขา (บอก) วา คณ >(ชอบ) อาน หนงสอ แมกรณทไมปรากฏประธาน เชน เขา (บอก) วา >(ชอบ) อาน หนงสอ กยงคงเปนความสมพนธ ccomp

Page 19: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 19

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต Co

re a

rgum

ents

- Clau

ses

6 xcomp open clausal complement

เปนประเภทการโยงกรยาหลก (VERB หรอ ADJ) เขากบ head ของสวนทมาเตมเตม ความแตกตางระหวาง ccomp กบ xcomp คอ ความสมพนธแบบ xcomp นน ประธานในอนประโยคเตมเตม ไมสามารถมไดจะเปน subject เดยวกบของประโยคหลก เชน He (likes) to >(swim) ภาษาไทย เชน ฉน (ชอบ) >(ไป) เทยว ทะเล อาจมการใชคาเชอมหนากรยาหลงเปน ทจะ… ทวา…. กได เชน เชา (ชอบ) ทจะ >(ไป) ทางาน สาย คาเชอมเหลานบอกความเปน xcomp คอไมสามารถมประธานหนากรยาได ถาเทยบกบภาษาองกฤษกจะเปน non-finite (กรณประโยคอยาง ฉนชอบหนงสออานแลวตนเตน ไมวเคราะห อานแลวตนเตน เปน xcomp แตวเคราะหเปน (หนงสอ) -acl->(อาน) แลว ตนเตน คลายกบ ฉนชอบหนงสอทอานแลวตนเตน)

Non -

core

dep

ende

nt -

Nom

inals

7 obl oblique nominal ใชโยงความสมพนธระหวางคากรยาหลก คาคณศพทหรอวเศษณ กบคานามในตาแหนงกรรมของกรยานน แตตองไมใชกรรมตรง ใชกบ non-core argument หรอ adjunct ขอสงเกตของความสมพนธแบบ obl คอคานามนน ๆ มกนาหนาดวย ADPOSITION และความสมพนธระหวางคานามกบ ADP ขางหนาคอ case

นอกจากน obl ยงใชโยงความสมพนธระหวางคาขยายทเปนคานามอยขางหนาประโยคอกดวย เชน (Last night)< , I (swam) in the pool หรอภาษาไทยเชน (พรงน)< ฉน จะ (ไป) เทยว บาน เพอน

Page 20: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 20

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต No

n-co

re

depe

nden

t -

Nom

inals

8 vocative vocative แสดงความสมพนธระหวางคากรยากบคานามทเปนคาเรยกขาน เชน (แม)< อยา (เดน) มาก

Non -

core

de

pend

ent -

No

mina

ls

9 expl expletive ใชโยงความสมพนธระหวางกรยากบสงทไมไดเปนคานามชเฉพาะชดเจน เชน มน ใน (มน)< (เปน) ไป ไม ได จะเหนไดวาคาวา มน อาจละทงไดโดยไมสงผลตอความหมาย กลาวคอ มน ในตวอยางนเปนคานาม แตไมม semantic role กบ predicate

Non-

core

de

pen d

ent -

No

mina

ls

10 dislocated dislocated element โยงคากรยากบคานามทถกยายท เชน (หนงสอ)< เลม น ผม (ชอบ) มาก

Non-

core

de

pend

ent -

Cla

uses

11 advcl adverbial clause modifier

โยงความสมพนธระหวางภาคแสดงกบสวนขยายภาคแสดงซงมลกษณะเปนอนประโยค เชน เขา (สอบถาม) เจาหนาท เพอ >(หา) ขอมล เพมเตม

Page 21: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 21

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต

Non-

core

de

pend

ent -

Mo

difier

wor

ds 12 advmod adverbial modifier โยงความสมพนธระหวางกรยากบคาขยายกรยา เชน (กน) อยาง >(รวดเรว) รวมถงคาขยายอน ๆ ดวย

เชน (เกอบ)< (2000) (หลาย)< (เลม)

Non-

core

dep

ende

nt -

Modif

ier w

ords

13 discourse discourse element

ความสมพนธนใชโยงคาในกลม INTERJECTIONS เชน โอ อม โอโห, กลม discourse marker (actually, well, like) โดยโยงกรยาหลกไปยงคาอทานเหลานน นอกจากนยงสามารถใชโยงคากรยาไปยงคาลงทาย (PART:RES) ไดอกดวย

Page 22: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 22

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต No

n-co

re

depe

nden

t -

Func

tion

Wor

ds 14 aux auxiliary เปนความสมพนธระหวางคากรยากบคาชวยกรยาตาง ๆ (คาไวยากรณทบอก tense, aspect, mood,

voice, evidentiality) โดยคากรยาจะเปน head เสมอ เปนตวตงตนโยงไปยงคาชวยกรยาแตละคา เชน เขา (กาลง)< (จะ)< (ไป)

Non-

core

dep

ende

nt -

Func

tion

Wor

ds

15 cop copula โยงระหวาง function word ทเชอม subject กบ nonverbal predicate คานามทางดานซายและขวาของ VERB:COP ตองอางถงสงเดยวกนหรอบอกคณลกษณะสงนน เชน he (is)< (honest) เธอ (คอ)< (เพอน ฉน) ในภาษาไทยจะพบความสมพนธนในประโยคทมคาวา คอ แตกรณทเปนการโยงความดวยอนพากย ใหวเคราะหคานนเปนกรยาทวไป เชน สงทสาคญคอตองพยายามทางานใหหนก (สง)<nsubj-(คอ), (คอ)-ccomp->(ทางาน) หรอ การพนนเปนสงทมอมเมาประชาชน กใหเปน การพนน<nsubj (เปน), (เปน) obj>

สง

Non -

core

dep

ende

nt -

Func

tion

Wor

ds

16 mark marker โยงระหวางกรยากบคาไวยากรณทบอกถงการเปน subordinate clause นนคอปกตจะโยงคากรยาในอนประโยคเตมเตมเขากบคาในกลม complementizer, subordinate conjunction เชน เขา ร (วา)< ฝน กาลง (ตก) หรอคาวา อยาง ทใชนาหนาคาขยายกรยา เชน กน (อยาง)< (รวดเรว) กรณของ discourse particle

ทไมใช final particle กใหวเคราะหความสมพนธเปน mark ได เชน (เพลง)ทไดเขาชงรางวล (ไดแก)<mark <(X) Y Z.

Page 23: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 23

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต

Non-

core

de

pend

ent -

Fu

nctio

n W

ords

17 neg negation ใชโยงความสมพนธระหวางกรยาหลกกบคาปฏเสธ ในภาษาไทย บางกรณคาปฏเสธไมไดปรากฏกบคากรยาเสมอไป อาจปรากฏรวมกบคาขยาย เชน ทาไมได ได เปน ADV ขยาย ทา เรากจะโยงความสมพนธ neg ระหวาง ได/ADV กบ ไม/PART:NEG ทอยขางหนานน

Nom

inal

depe

nden

t -

Nom

inals

18 nmod nominal phrase modifier

คานามหรอนามวลทมาขยายอกคานามหนง เชน (หองทางาน) ของ >(หวหนา)

Nom

inal

depe

nden

t -

Nom

inals

19 appos appositional modifier โยงระหวาง nominal phrase ทเทากนหรอ coreference สงทอยในวงเวบ หรอคาอธบายอกษรยอ (สองคาอาจวางสลบตาแหนงกนได) โดย appos จะโยงจากซายไปขวาเสมอ

Page 24: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 24

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต

Nom

inal

depe

nden

t -

Nom

inals

20 nummod numeric modifier เปนความสมพนธทโยงระหวางคานามกบตวเลข เชน เงน (60)< (บาท) กรณคาขยายบอกปรมาณ เชน หลาย บาง ทก แตละ ใหวเคราะหเปน advmod ขยายนามทปรากฏรวม

Nom

inal

depe

nden

t -

Claus

es

21 acl clausal modifier of noun (adjectival

clause)

คลายกบ advcl แตในกรณนใชเพอขยายคานาม เชน ผม เจอ (หนงสอ) ท คณ >(ชอบ)

Nom

inal

depe

nden

t -

Modif

ier w

ords

22 amod adjectival modifier โยงระหวางคาคณศพททมาขยายคานาม เชน (เนอ) >(ดบ)

Page 25: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 25

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต

Nom

inal

depe

nden

t -

Func

tion

Wor

ds 23 det determiner โยงคาบงชเฉพาะหรอไมเฉพาะทขยายคานาม เชน (หนงสอ) >(น), หนงสอ (กอง) >(น) โดยทวไปจะโยง

คานามเขากบคาทม POS เปน DET

Nom

inal d

epen

dent

- Fu

nctio

n W

ords

24 clf classifier ใน UD v2 ใชโยงตวเลขบอกจานวนไปยงคาลกษณนามโดยยกตวอยางภาษาจน three CLF student และวเคราะหเปน three -clf>CLF, three<-nummod-student สวน this CLF bus วเคราะหเปน this-clf->CLF

this<-det-bus แตในกรณทมการละคานามหลกกให CLF เปนคาหลก three CLF วเคราะหเปน three<-

nummod-CLF ซงดไมคงท และตาราไวยากรณไทยมกวเคราะหคาลกษณนามเปนคานามประเภทหนง จงควรวเคราะหใหเลขจานวนนบสมพนธกบคาลกษณนามมากกวาคานามหลก เชน นกเรยนสามคน จะโยงความสมพนธเปน (นกเรยน) -clf->(คน), (สาม)<-nummod-(คน) , รถคนน จะวเคราะหเปน (รถ)-clf->(คน), (คน)-det->(น) และเมอมการละคานามหลก สามเลมน กยงวเคราะหแบบเดมได (สาม)<-nummod-(เลม), (เลม)-det->(น)

Page 26: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 26

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต No

mina

l de

pend

ent -

Fu

nctio

n W

ords

25 case case marking โยงระหวางคานามกบบพบท (เมอไหรทขางหนาเปน SCONJ ความสมพนธจะเปน mark แตถาขางหนาเปน ADP ความสมพนธจะเปน case)

Co

ordin

ation

26 conj conjunct โยงระหวางสองคาท coordinate กน เชน เขา (เขยน) จดหมาย และ >(อาน) หนงสอ

Coor

dinat

ion 27 cc coordinating

conjunction โยงระหวางคาท coordinate เปนคาสดทายกบคาสนธาน

MWE

28 fixed fixed multiword expression

ใชกรณคาทเปน multiword ทจะตองรวบเปนคาเดยว เชน ถงกระนนกตาม = ถง >กระนน, ถง >ก, ถง >ตาม

MWE 29 flat flat multiword

expression flat ใชกบ exocentric MWE คลายกบ compound แต flat ใชกบ exocentric MWE (ในขณะท compound เปนลกษณะแบบ endocentric) ใชกบชอคน (โยงชอตน ไปหา ชอกลาง, ชอตน ไปหา

Page 27: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 27

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต

นามสกล) โยงวน-เดอน-ป หรอคาภาษาตางประเทศ โดยโยงจากซายไปขวา เชน (1) >(มกราคม) >(2017), (นายก) >(ชวน), (นาย)< (สมชาย), (สมชาย) >(กลาหาญ) (ภาษาองกฤษ (Mr.) >(Somchai) แตภาษาไทย ชอ นาจะเปนคาหลกมากกวา ยกเวนกรณ นายก >ชอ ประเทศ >ชอ)

MWE

30 compound compound ใชโยงคาในกลมคาประสม เชน สมด>โทรศพท

รวมถงคากรยาเรยง ใน UD v2 กจะใหใชความสมพนธนดวย

วธโยงความสมพนธคอโยงตอกนไป เชน หมอหงขาว หมอ>หง หง>ขาว

Loos

e

31 list list ใชโยงคาในรายการ โดยตองมจานวนมากกวา 2 รายการ ตวตงตนเปนรายการแรกเสมอ

Page 28: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 28

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต Lo

ose

32 parataxis parataxis ความสมพนธแบบตอกนโดยไมมการเชอม เชน (Washington) ( >(CNN) ) โดยปกตจะโยงจากซายไปขวา ใชโยงเขากบคาหรอขอความทอยในวงเลบ

Sp

ecial

33 orphan orphan ความสมพนธของ dependent ทไมเขาตามมาตรฐานทกลาวมา ใชกรณทมการละ ทาใหเกดความสมพนธของคคาทปกตไมเกด เชน มาน ได เหรยญทอง สวน (ชใจ) >(เหรยญเงน) ในตวอยางนมการละกรยาในประโยคสวนทสอง ปกตความโยง ได/VERB เขากบกรยาหลกของประโยคสวนท 2 แตเมอเกดการละเชนน จะ promote ให ชใจ เปน head ของประโยคสวนทสองโดยทยงคงม POS เปน PROPN แลวโยงความสมพนธระหวาง ชใจ กบ เหรยญเงน เปน orphan

Spec

ial

34 goeswith goes with ใชโยงความสมพนธของคาทอนทจรงตองเขยนตดกน แตอาจจะเขยนผดหรอแกไขผดพลาดจนทาใหตวหนงสอแยกจากกน เชน with out, never the less ในภาษาไทยอาจไมพบกรณเชนนมากนก อยางไรกตาม หากเกดกรณตดคามาผด เชน เกอ-กล และไมสามารถแกไขการตดคาได ใหโยง (เกอ) >(กล) เขาหากนโดยใชความสมพนธน โยงจากซายไปขวา

Spec

ial 35 reparandum overridden disfluency ใชกบถอยคาทพดผดแลวแกสวนใหมทถกมาแทน เชน ไป ทาง (ซาย)< – ทาง (ขวา) แกคาพดเปลยนจาก

ซาย เปน ขวา

Othe

r 36 punct punctuation โยงระหวาง predicate กบเครองหมายวรรคตอน

Othe

r 37 root root โยง root เขากบคาทเปน head หลกของประโยคหรอสวนนน

Page 29: คู่มือการกํากับข้อมูล Thai Dependency Tree Bank ตามแนว ...ling/contents/File/UD Annotation for Thai.pdf · adv คําวิเศษณ์

แกไขลาสด ๒ ม.ค. ๒๕๖๓ 29

Type ท Tagging UD ชอเตม คาอธบาย หมายเหต Ot

her 38 dep unspecified

dependency ใชเมอไมสามารถระบวาเปนความสมพนธแบบใดเลย หากเปนไปได ขอใหหลกเลยงการโยงรปแบบความสมพนธน