p c best -...

42
รหัสโครงการ 13P33C001 ระบบวิเคราะห์ข้อความแสดงความคิดเห็นสาหรับโรงแรม BEST 2011: การแข่งขันสุดยอดซอฟต์แวร์ประมวลผลภาษาไทย รายงานฉบับสมบูรณ์ เสนอต่อ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สานักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ กระทรวงวิทยาศาสตร์และเทคโนโลยี ได้รับทุนอุดหนุนโครงการวิจัย พัฒนาและวิศวกรรม โรงการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทย ครั้งที่ 13 ประจาปีงบประมาณ 2553 โดย น.ส.วรัญญา วรรณศรี อาจารย์ ดร.เด่นดวง ประดับสุวรรณ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์

Upload: others

Post on 31-Aug-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

รหสโครงการ 13P33C001

ระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรม BEST 2011: การแขงขนสดยอดซอฟตแวรประมวลผลภาษาไทย

รายงานฉบบสมบรณ เสนอตอ

ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต ส านกงานพฒนาวทยาศาสตรและเทคโนโลยแหงชาต

กระทรวงวทยาศาสตรและเทคโนโลย

ไดรบทนอดหนนโครงการวจย พฒนาและวศวกรรม โรงการแขงขนพฒนาโปรแกรมคอมพวเตอรแหงประเทศไทย ครงท 13

ประจ าปงบประมาณ 2553

โดย น.ส.วรญญา วรรณศร

อาจารย ดร.เดนดวง ประดบสวรรณ ภาควชาวทยาการคอมพวเตอร คณะวทยาศาสตรและเทคโนโลย มหาวทยาลยธรรมศาสตร

กตตกรรมประกาศ

การจดท าระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรม (Opinion Mining on Hotel

Reviews) สามารถกาวมาถงจดน เนองจากไดรบค าแนะน า และความชวยเหลอตางๆ จากบคคลเหลานมา

โดยตลอด ผพฒนาจงขอขอบพระคณบคคลดงตอไปน

อาจารย ดร.เดนดวง ประดบสวรรณ อาจารยประจ าภาควชาวทยาการคอมพวเตอร คณะ

วทยาศาสตรและเทคโนโลย มหาวทยาลยธรรมศาสตร ซงเปนอาจารยทปรกษาในโครงการน ไดคอยให

ค าแนะน า ปรกษาและชแนะแนวทางในการด าเนนงานทเปนประโยชนใหลลวงไปไดดวยด

ดร.ชชาต หฤไชยะศกด หวหนางานเทคโนโลยโครงสรางพนฐานสารสนเทศอจฉรยะ หนวย

ปฏบตการวจยวทยาการมนษยภาษา ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต ทคอยให

ค าปรกษาในดานการวเคราะหและสกดขอความแสดงความคดเหน ชแนะแนวทางในการพฒนาโครงการ

ในดานการวจยและเทคโนโลยตางๆทใชในการพฒนา

และสดทายนขอขอบคณโครงการการแขงขนพฒนาโปรแกรมคอมพวเตอรแหงประเทศไทยครงท

13 ซงจดขนโดยศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต ส านกงานพฒนาวทยาศาสตรและ

เทคโนโลยแหงชาต ทมอบทนอดหนนการพฒนาระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรม

ท าใหการพฒนาสามารถผานลลวงมาไดดวยด

นางสาววรญญา วรรณศร หวหนาโครงการ

บทคดยอ

เทคโนโลยเหมองขอความแสดงความคดเหนเปนเทคโนโลยทผสานเทคนคของการสบคนขอมลเขา

กบการประมวลผลทางภาษา โดยเนนการวเคราะหขอความแสดงความคดเหนตางๆเพอน ามาใชประโยชน

ในการวางแผนตอไป จงเปนอกหนงเทคโนโลยทเขามาชวยในการประเมนความพงพอใจของลกคาทมตอ

สนคาหรอการใหบรการ และทางผพฒนาไดเลงเหนวา ประเทศไทยเปนประเทศทองเทยวทมชอเสยง มท

พกมากมายส าหรบรองรบนกทองเทยว การน าขอความทอยในรปแบบการแสดงความคดเหนดวย

ภาษาธรรมชาตของผ ทเคยพกในโรงแรมตางๆมาวเคราะหขอมล โดยอาศยหลกการการวเคราะหและ

สรปผลจากขอความแสดงความคดเหนเกยวกบโรงแรมในระดบคณลกษณะ ซงจะท าใหผ ทตองการเลอก

พกโรงแรมทตรงกบความตองการ สามารถตดสนใจไดงายขน และไมตองเสยเวลาไปกบการอานขอความ

แสดงความคดเหนจ านวนมาก ดงนน ระบบนจงถกพฒนาขนโดยมวตถประสงคในการวเคราะหขอความ

แสดงความคดเหนเกยวกบโรงแรม โดยระบบจะรบขอความแสดงความคดเหนภาษาไทย มาวเคราะหแลว

ระบวาขอความแสดงความคดเหนนน แสดงทศนคตตอคณลกษณะใดของโรงแรม จากนนจะระบวา

ขอความแสดงความคดเหนนน มขวความคดเหนเปนบวก เปนลบ หรอเปนกลาง แลวน าขอความแสดง

ความคดเหนเกยวกบโรงแรมมาสรปในเชงสถตและแสดงผลในรปแบบกราฟก

ค าส าคญ: เทคโนโลยเหมองขอความแสดงความคดเหน, การวเคราะหขอความแสดงความคดเหน,

ขอความแสดงความคดเหนภาษาไทย

Abstract Thailand is famous tourism country where has a large number of hotels and resorts to support many tourists. If tourist’s opinions were analyzed by some techniques which determine their opinions from text written in natural language and summarize the viewpoint of their opinions, Tourists who want to book hotel or resort for their holiday might make their decision easier when they view those summarized opinions. Opinion mining or Sentiment analysis is the technique that applies text mining technique on human opinion written in natural language. “Opinion Mining System on Hotel Reviews” uses the opinion mining technique with information visualization to create summarized opinion in graphic view. First, the system receives input which is tourist’s opinion that is written in Thai language. Then, the opinion will be analyzed by “Feature-based sentiment analysis and summarization” method. The result of this process is the summarized opinion that opinion segments were determined feature and polarity. Finally, summarized opinion was converted to graphic view. Keywords: Opinion mining, Sentiment analysis, Thai language

สารบญ

หนา บทท 1 บทน า 1 - ความเปนมาและสาระส าคญของโครงการ 1 บทท 2 วตถประสงคและเปาหมายของโครงการ 3 บทท 3 รายละเอยดของการพฒนา 4 - เนอเรองยอ 4 - เทคนคและเทคโนโลย 6 - เครองมอทใชในการพฒนา 14 - ขอบเขตและขอจ ากด 21 บทท 4 กลมผใชระบบ 22 บทท 5 ผลของการทดสอบระบบ 23 บทท 6 ปญหาและอปสรรค 25 บทท 7 แนวทางในการพฒนาและประยกตใชรวมกบงานอนๆในขนตอไป 26 บทท 8 ขอสรปและขอเสนอแนะ 27 บทท 9 เอกสารอางอง 28 บทท 10 ประวตสวนตวและผลงานดเดนของผพฒนา 29 บทท 11 ภาคผนวก 30 - คมอการตดตง 30 - คมอการใชงาน 34

1

บทท 1 บทน า ความเปนมาและสาระส าคญของโครงการ

อตสาหกรรมการทองเทยวในประเทศไทยเตบโตขนอยางมากในทศวรรษทผานมา นบเปนอกดาน

หนงทสรางชอเสยงและรายไดใหแกประเทศเปนอยางมาก เนองจากประเทศไทยมทรพยากรธรรมชาตท

สวยงาม มเมองใหญทเปนศนยรวมความเจรญในหลายๆดาน สามารถเปนแหลงทองเทยวทเปนทนยม

สงสดในภมภาคน จากมมมองของนกทองเทยวตางชาตซงมองวาประเทศไทยเปนแหลงทองเทยวทให

ความอบอน มมตรภาพตอนกทองเทยว ทพกราคายอมเยา และนอกจากนปจจยทชวยสนบสนนใหประเทศ

ไทยไดเปรยบกวาประเทศอนๆในอาเซยนซงนบเปนคแขงทส าคญในอตสาหกรรมการทองเทยว ไดแก

ความสามารถในการรองรบดานทพกซงมจ านวนทพกมากกวาประเทศอนๆในอาเซยน จากบญชรายชอ

โรงแรม ตามพระราชบญญตโรงแรม พ.ศ.2547 ประจ าป 2550 ประเทศไทยมโรงแรมส าหรบรองรบ

นกทองเทยวประมาณ 4,800 แหง[10] นบวาเพยงพอตอการรองรบนกทองเทยว ดงนนหากมระบบการ

จดการทดแลว ประเทศไทยจะยงคงความเปนแหลงทองเทยวทเปนทนยมทสดในอาเซยน

เมอมการวางแผนการทองเทยว สงส าคญล าดบตนๆทนกทองเทยวตองสนใจคอ ทพก

นกทองเทยวจงมกจะมการหาขอมลลวงหนา เพอใหไดทพกทตรงตามความตองการมากทสด การหาขอมล

ทางอนเทอรเนตนบเปนอกวธหนงทสะดวกในการหาขอมล เวบไซตในปจจบนมกจะมนกทองเทยวมาแสดง

ความคดเหนของตนเกยวกบสถานทตางๆทเคยไปมา ใหขอมลตางๆเพอแนะน าผ ทจะไปสถานทนนใน

ภายหลง ซงทพกบางแหง อาจมผมาเขยนแสดงความคดเหนไวเปนจ านวนมาก อกทงความคดเหนของแต

ละบคคลกใหความหลากหลายในแตละมมมอง เงอนไขการตดสนใจเลอกทพกของแตละบคคลกแตกตาง

กน นกทองเทยวบางคนอาจสนใจในเรองของการบรการ บางคนอาจจะสนใจเรองอาหาร บางคนอาจ

ตองการโรงแรมทมบรรยากาศเงยบสงบเหมาะแกการพกผอน ซงการทจะหาความคดเหนทเปนมมมองท

ตองการจากปรมาณความคดเหนทมเปนจ านวนมาก อาจตองใชเวลานาน [1] การน าเสนอขอมลในระดบ

คณลกษณะ (Feature Level) จะชวยใหคนหามมมองทตองการไดสะดวกมากกวาการอานจากขอความ

ความคดเหนทถกรวบรวมเอาไว และเมอน าขอมลมาสรปใหอยในรปแบบกราฟกจะเปนอกหนงทางทชวย

ใหทราบถงแนวทางของความคดเหนทงหมดไดโดยไมตองอานขอความความคดเหนทงหมดดวยตนเอง

และชวยใหสามารถตดสนใจไดสะดวกและตรงตามความตองการมากยงขน

2

ระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรม เปนระบบทสามารถวเคราะหขอมลทอย

ในรปแบบการแสดงความคดเหนดวยภาษาธรรมชาต โดยอาศยหลกการการวเคราะหและสรปผลจาก

ทศนคตในระดบคณลกษณะ(Feature-based sentiment analysis and summarization) ท าใหขอมลการ

แสดงความคดเหนอยในรปแบบทเปนขอมลสรปใหเขาใจไดงายในรปแบบกราฟก โดยสามารถเลอก

กลบไปดขอความแสดงความคดเหนทถกน ามาวเคราะหในหวขอของมมมองทสนใจได

3

บทท 2 วตถประสงคและเปาหมายของโครงการ ศกษาและวจยวธการสกดค าบอกคณลกษณะและค าระบขวแสดงความคดเหน(Polar Word)

อตโนมตจากคลงขอความแสดงความคดเหนส าหรบโรงแรม รวมถงออกแบบและพฒนาระบบวเคราะห

ขอความแสดงความคดเหนส าหรบโรงแรมโดยสามารถแสดงผลเชงสถตและในรปแบบกราฟก เพอเพม

ความสะดวกใหแกนกทองเทยวส าหรบคนหาขอมลความคดเหนเกยวกบโรงแรมทางอนเทอรเนตในการ

เลอกโรงแรมทตรงตามความตองการของตนเอง และลดระยะเวลาในการอานขอความแสดงความคดเหน

เกยวกบโรงแรม ดวยขอมลสรปในรปแบบกราฟก

4

บทท 3 รายละเอยดของการพฒนา 3.1 เนอเรองยอ นกทองเทยวชอนายซ ตองการทจะไปเทยวทจงหวดภเกตกบครอบครว จงตองการขอมลเรอง

โรงแรมทพกภายในจงหวดภเกต ซงนายซ ตองการโรงแรมทหองพกสะอาด เงยบสงบเหมาะแกการพกผอน มววทวทศนทสวยงาม และมลานจอดรถใหบรการอยางเพยงพอ จงเขาไปดขอความแสดงความคดเหนภายในเวบไซต http://www.agoda.co.th ดงแสดงในรปท 3.1

รปท 3.1 หนาเวบไซตโรงแรมในจงหวดภเกตจาก http://www.agoda.co.th ภายในเวบไซตมขอมลโรงแรมในจงหวดภเกตมาน าเสนอมากมาย และแยกขอความแสดงความคดเหนตามโรงแรมตางๆ และแตละโรงแรมกมขอความแสดงความคดเหนเปนจ านวนมาก ดงแสดงในรป ท 3.2 ซงเปนแถบขอความแสดงจ านวนขอความแสดงความคดเหนของแตละโรงแรมในเวบไซต http://www.agoda.co.th

5

รปท 3.2 จ านวนขอความแสดงความคดเหนของแตละโรงแรมในเวบไซต agoda.co.th

รปท 3.3 ขอความแสดงความคดเหนของลกคาในเวบไซต agoda.co.th

ถงแมวาในแตละขอความแสดงความคดเหนภายในเวบไซตดงในรปท 3.3 จะมการใหคะแนนโรงแรมนนๆ ในมมมองตางๆ 6 มมมองไดแก คมคากบเงนทจาย, เลอกท าเล, การใหบรการของพนกงาน, สภาพแวดลอม/ความสะสาดของโรงแรม, ความสะดวกสบายของหองพก, อาหาร/สถานทรบประทาน

6

อาหาร แตถาหากนายซ ตองการความคดเหนทเปนรายละเอยดปลกยอยจากมมมองทง6มมมอง หรอรายละเอยดอนทไมเกยวของกบมมมองททางเวบไซตก าหนดให นายซกจะตองอานขอความแสดงความคดเหนทงหมด เพอใหไดรายละเอยดทตรงตอความตองการ อาจใชเวลานานในการอานขอความแสดงความคดเหนและน าขอมลทไดมาสรปเพอตดสนใจในการเลอกโรงแรม เชน นายซตองการโรงแรมทมอาหารอรอย จงอยากไดขอมลสรปเรองอาหารจากทกๆโรงแรม ระบบสามารถวเคราะหกรองและสกดขอความทเกยวของกบอาหารเทานน เชน "อาหารเชาอรอยมใหเลอกหลายอยาง" เปนความคดเหนในเชงบวก "อาหารเยนชด ไมไดเรอง" เปนความคดเหนในเชงลบ ระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรม สามารถสรปขอมลความคดเหนเกยวกบการเขาพกของลกคาแตละโรงแรมใหนายซได ชวยใหประหยดเวลาในการหาขอมลและชวยใหนายซสามารถตดสนใจไดงายขน

3.2 เทคนคและเทคโนโลย ระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรมมเทคนคเละเทคโนโลยทเกยวของ

ดงตอไปน 1) นพจนปรกต (Regular Expression) 2) การวเคราะหขอความแสดงความคดเหน (Opinion Mining) 3) สญกรณวตถจาวาสครปต (JavaScript Object Notation - JSON) 4) เทคนคจนตทศน (Information Visualization) 1) นพจนปรกต (Regular Expression) การประมวลผลภาษาธรรมชาตภาษาไทย มความจ าเปนทจะตองตดประโยคภาษาไทยออกเปน

ค าๆ แลวจงน าไปประมวลผลตอไป แตเนองจากธรรมชาตของภาษาไทย การแบงประโยคหรอแบงค าไมมรปแบบทตายตว มกเปนขอความทยาวตอกน มการแบงวรรคตอนเพอใหความหมายเปนไปอยางถกตอง แตกขนกบทกษะของผ เขยนเปนส าคญ หากแบงวรรคตอนผด กยอมสงผลตอการแบงประโยคหรอการตดค า รวมไปถงการประมวลผลภาษาธรรมชาต

ปจจบนกลไกการตดค าภาษาไทย แบงออกเปน 2 วธใหญๆคอการเปรยบเทยบค าจากพจนานกรมภาษาไทย และการใหระบบวเคราะหไวยากรณทเปนไปไดในภาษาไทย ซงอยางหลงเปนทนยมเนองจากภาษาไทยมค าใหมๆเกดขนมามากมาย จงเปนอกวธหนงทชวยลดตนทนการเพมเตมค าไทยใหมๆในคลงค าศพท[7]

ระบบวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรม ใชโปรแกรมการตดค า LexToPlus ซงพฒนาโดยหนวยปฏบตการวจยวทยาการมนษยภาษา ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต ในการตดค าส าหรบขอความแสดงความคดเหนจากเวบไซต http://www.agoda.co.th

ขอความแสดงความคดเหนเกยวกบโรงแรมทน ามานน เปนขอความแสดงความคดเหนทลกคาของโรงแรมทจองหองพกผานเวบไซต http://www.agoda.co.th เปนผ เขยน จงมลกษณะทเปนภาษาธรรมชาต กอนน าไปประมวลผลจงตองมการแบงประโยคและตดค าเสยกอน ผ พฒนาจงน านพจนปรกตมาประยกตใชในการแบงประโยคขอความแสดงความคดเหนจากขอความแสดงความคดเหนทงหมด

7

นพจนปรกต ใชส าหรบการอธบายรปแบบของขอความ(String) มกใชในการก าหนดรปแบบเพอคนหาขอความหรอตวอกษรวามอยในขอความทก าหนดหรอไม

รปแบบไวยากรณของนพจนปรกตทควรรจกมดงน [9] 1. การก าหนดวา ตองเปนตวแรกของขอความ เมอตองการตรวจสอบวา ขอความทก าลงตรวจสอบ ขนตนดวยค าทตองการหรอไม จะใช

เครองหมาย ^ เพอคนหาวา ขอความทจะคนหานนขนตนดวยค าทก าหนดหรอไม ตวอยาง นพจนปรกต คอ "^ส" หากน าไปคนหาในขอความ "สวสดคะ" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "คณคร สวสดคะ" จะไดคาความจรงเปนเทจ 2. การก าหนดวา ตองเปนตวสดทายของขอความ เมอตองการตรวจสอบวา ขอความทก าลงจะตรวจสอบ ลงทายดวยค าทตองการหรอไม

จะใชเครองหมาย $ เพอคนหาวา ขอความทจะคนหานนลงทายดวยค าทก าหนดหรอไม ตวอยาง นพจนปรกต คอ "บ$" หากน าไปคนหาในขอความ "สวสดครบ" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "สวสดคะ" จะไดคาความจรงเปนเทจ 3. การคนหาตวอกษร: เมอตองการตรวจสอบวา จะตองมตวอกษรจะเปนตวเลขหรอตวอกษรกได ซงตวอกขระ

นนตองไมใชชองวาง จะใชเครองหมาย . เพอคนหาวา ขอความทจะคนหานนมตวอกษรหรอตวเลขประกอบอยหรอไม

ตวอยาง นพจนปรกต คอ "^." หากน าไปคนหาในขอความ "1 2 3 สวสดคะ" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ " สวสดครบ" จะไดคาความจรงเปนเทจ 4. การก าหนดวา อาจจะมตวอกษรทก าหนดหรอไมกได ใชเครองหมาย * เพอระบวาในขอความทตองการคนหาอาจจะมหรอไมมขอความท

ก าหนดกได ถาม กอาจมไดหลายตว ตวอยาง นพจนปรกต คอ "ร*" หากน าไปคนหาในขอความ "ขอความแสดงความคดเหน" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "ระบบวเคราะหขอความ" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "คณะกรรมการ" จะไดคาความจรงเปนจรง ใชเครองหมาย ? เพอระบวาในขอความทตองการคนหาอาจจะมหรอไมมขอความท

ก าหนดกได ถาม กอาจมไดเพยงตวเดยว ตวอยาง นพจนปรกต คอ "ร?" หากน าไปคนหาในขอความ "ขอความแสดงความคดเหน" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "ระบบวเคราะหขอความ" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "บานจดสรร" จะไดคาความจรงเปนเทจ

8

5. การก าหนดใหมตวอกษรทก าหนดอยางนอย 1 ตว ใชเครองหมาย + เพอระบวาในขอความทตองการคนหาจะตองมตวอกษรนนอยางนอย 1

ตว ตวอยาง นพจนปรกต คอ "ร?" หากน าไปคนหาในขอความ "ระบบวเคราะหขอความ" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "บานจดสรร" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "ขอความแสดงความคดเหน" จะไดคาความจรงเปนเทจ 6. การตรวจสอบชองวาง ใช [[:space:]] หรออาจจะใช “ “ แทนกได แตการใช :space: จะหมายความรวมถง

เครองหมายอน ๆ เชน การยอหนา เครองหมายขนบรรทดใหม รวมทงการเวนวรรคดวย ตวอยาง นพจนปรกต คอ "[[:space:]]" หากน าไปคนหาในขอความ "ระบบ วเคราะหขอความ" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "ขอความแสดงความคดเหน" จะไดคาความจรงเปนเทจ 7. การตรวจสอบเปนชวง ใชเครองหมาย [ และ ] เพอครอมชวงทตองการ เชน ตองการระบวา ตองเปนระหวางเลข

0 – 9 เทานน เราจะเขยนวา [0-9] ตวอยาง นพจนปรกต คอ "[ก-๙]" (ก าหนดใหมเฉพาะตวอกษรภาษาไทยเทานน มตวเลข

ทเปนภาษาไทยได แตหามมตวอกษรภาษาองกฤษ) หากน าไปคนหาในขอความ "ขอความแสดงความคดเหน" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ " Alphabet" จะไดคาความจรงเปนเทจ ในกรณของตวอกษรภาษาไทย ถาจะก าหนดไมใหมตวเลข ตองก าหนดคา ระหวาง ตว ก

ไก และ ไมตร ถาก าหนดตงแต ตว ก-ฮ จะท าใหมสระไมได ซงกจะท าใหไมสามารถสะกดตวเปนค าไดอยางสมบรณ

8. การจดกลมค า หรอ ขอความ ใชเครองหมายวงเลบ () ครอม ตวอยาง นพจนปรกต คอ "^(การ)" หากน าไปคนหาในขอความ "การแสดงความคดเหน" จะไดคาความจรงเปนจรง หากน าไปคนหาในขอความ "เสนอความคดเหน" จะไดคาความจรงเปนเทจ 9. การตรวจสอบเครองหมาย หรอ สญลกษณพเศษ เนองจากในนพจนปรกตใชเครองหมายในไวยากรณ ดงนนหากตองการคนหาเครองหมาย

ดงกลาวในขอความทก าหนด จงจ าเปนตองบอกใหโปรแกรมรวา เครองหมายทใชน ไมใชเปนสวนหนงของไวยากรณ เรยกวาเปนการ escaping คอการใชเครองหมาย \ ใสไวหนาตวอกษรพเศษหรอสญลกษณนนๆ เชน * เพอระบวา ใหตรวจหาเครองหมาย * ในขอความทตองการคนหา

ระบบวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรม ใชนพจนปรกตในการก าหนดรปแบบประโยคขอความแสดงความคดเหน เมอขอความแสดงความคดเหนถกตดค าออกมาดวยโปรแกรม LexToPlus แลวจงน าค าทถกตด มาก ากบตามประเภทค าดงน

FEA – คอค าระบคณลกษณะของโรงแรม ซงแบงเปน 8 ประเภท ไดแก การบรการ, อาหาร, สภาพโรงแรม, สถานทตง, หองพก, สงอ านวยความสะดวก, ภาพรวมอนๆ

POL – คอค าระบขวความคดเหน ซงจะท าใหขอความแสดงความคดเหนสามารถระบวามความคดเหนในเชงบวก เชงลบ หรอเปนกลางได

DEG – คอค าระบปรมาณ ซงมกก ากบอยกบค าระบขวความคดเหน

9

NEG – คอค าทมความหมายในเชงลบ จากการศกษาของระบบวเคราะหขอความแสดงความคดเหน ค าทมความหมายในเชงลบมกใชน าหนาค าระบขวความคดเหน และท าใหค าระบขวความคดเหนมความหมายตรงกนขาม

STO – คอค าหยด ซงมกจะไมมความหมายในประโยค ในทนหมายถงค าวา “การ” หรอ “ความ” ซงเมอน ามาน าหนาค ากรยาแลวสามารถกลายเปนค านามในประโยคได จากการศกษาของระบบวเคราะหขอความแสดงความคดเหน ค าระบขวความคดเหนทถกน าหนาดวยค าวา “การ” หรอ “ความ” นสามารถน ามาเปนค าระบคณลกษณะของโรงแรมได

HAV – คอค าวา “ม” ซงจากการศกษาของระบบวเคราะหขอความแสดงความคดเหน ค าวา “ม” ในบางกรณเมอน าหนาค าระบคณลกษณะแลวสามารถกลายเปนค าระบขวความคดเหนได เชน “พนกงานมความกระตอรอรน” หรออาจมความหมายเปนค าระบคณลกษณะเชนเดมได เชน “มการตกแตงหองพกทสวยงาม”

AUX – คอค ากรยาชวย มกใชกบภาคแสดงของประโยค เชน พนกงานควรจะชวยเหลอแขกทมาพก ค าวา “ควรจะ” จดเปนค าในประเภทของ AUX

PRE – คอค าทเชอมค าสองค าเขาดวยกน เชนค าวา “และ”, “กบ”, “ของ” เปนตน CON – คอค าเชอมประโยค หรอค าสนธาน ระบบวเคราะหขอความแสดงความคดเหนใชค าเชอม

ประโยคในการแบงขอความแสดงความคดเหนประโยคยอยๆออกจากขอความแสดงความคดเหนทไดจากเวบไซต http://www.agoda.co.th

PAR – คอค าทใชในการลงทายประโยค ยกตวอยางเชนค าวา “เลย”, “คะ”, “ดวย” เปนตน OTH – คอค าทระบบไมสามารถระบประเภทได ระบบวเคราะหขอความแสดงความคดเหนใชค าทง 11 ประเภทน แทนค าแตละค าของขอความ

แสดงความคดเหนทน ามาวเคราะห จากนนจงน าขอความทถกแทนดวยประเภทของค าไปคนหาเปรยบเทยบกบรปแบบขอความแสดงความคดเหนทระบบวเคราะหขอความแสดงความคดเหนก าหนดไว

2) การวเคราะหขอความแสดงความคดเหน (Opinion Mining) ในปจจบนเวบไซตโดยทวไปมลกษณะทสงเสรมการแบงปนขอมล การพฒนาในดานแนวความคด

และการออกแบบ รวมถงการรวมสรางขอมลบนโลกของอนเทอรเนต แทนทแนวคดของเวบไซตในแบบเกาทเปนลกษณะการใหบรการอานเพยงอยางเดยว ดงนนขอมลบนเวบไซตจงแบงไดออกเปน 2 รปแบบคอ

1.ขอเทจจรง เปนขอมลจรงทสามารถพสจนได เชน โลกเปนดาวเคราะหทอยหางจากดวงอาทตยเปนล าดบทสาม

2. ขอคดเหน คอการแสดงทศนคตทผ เขยนมตอสงๆหนงหรอหวขอๆหนง โดยแบงออกเปน - ความคดเหนแบบตรง (Direct opinion) สามารถบอกทศนคตของผ เขยนหรอผพดได

อยางชดเจน เชน “รปทถายจากกลองตวน คณภาพด” - ความคดเหนเชงเปรยบเทยบ (Comparisons) คอการใหความเหนโดยน าสงทตองการ

แสดงความคดเหนไปเปรยบเทยบกบอกสงหนง เชน “กลองA แพงกวากลองB” [4] องคประกอบของการแสดงความคดเหน [2] ประกอบดวย 3 สวนดงปรากฏในรปท 3.4 คอ 1. ผแสดงความคดเหน (Opinion Holder) 2. วตถหรอหวขอทน ามาแสดงความคดเหน (Object) 3. ความคดเหนหรอทศนคตของผ แสดงความคดเหนทมตอหวขอทน ามาแสดงความคดเหน

(Opinion) ซงแตละหวขอทถกน ามาแสดงความคดเหนจะประกอบไปดวยคณลกษณะตางๆ (feature) สามารถเขยนในรปแบบของเซตขอมลไดดงน

Object = {F1, F2, F3, …, Fn}

10

โดย Fn คอ คณลกษณะทวตถหรอหวขอทน ามาแสดงความคดเหนม ซงสามารถแทนไดดวยเซตของขอมล

Fn = {W1, W2, W3, …, Wn} โดย Wn คอ ค าทมความหมายเหมอนกน(word synonyms) มความหมายทสามารถแทนทกบ

คณลกษณะนนๆได

รปท 3.4 องคประกอบของการแสดงความคดเหน เมอผ ใหความคดเหนแสดงความคดเหนเกยวกบวตถหรอหวขอบนคณลกษณะทเปนสวนหนงของ

วตถหรอหวขอนนๆ กจะถกน าไปตรวจสอบกบค าทมความหมายเหมอนในแตละคณลกษณะแลวน ามาตดสนวาเปนการแสดงความคดเหนในขวใด ซงอาจจะเปนจะเปนขวบวก(positive) ขวลบ(negative) หรอเปนกลาง(neutral) ดงลกษณะของขอความแสดงความคดเหนในรปท 3.5 [1,3]

รปท 3.5 ตวอยางรปแบบขอความแสดงความคดเหน

11

ซงระบบวเคราะหขอความแสดงความคดเหน คอ กระบวนการอตโนมตเพอใชตรวจสอบทศนคตของผพดหรอผ เขยนในหวขอเรองใดเรองหนง โดยอาศยการสอนคอมพวเตอรใหพจารณาอารมณความรสกดวยการประมวลผลดวยภาษาธรรมชาต (Natural Language Processing,NLP) แบงการท างานออกเปน 3 ระดบคอ

1. ระดบเอกสาร (Document Level) เปนการวเคราะหขอความแสดงความคดเหนในแบบหยาบ เนองจากเปนการน าขอความแสดงความคดเหนทงหมดจากเอกสาร มาสรปแยกขวความคดเหนเปนขวบวก ขวลบ หรอเปนกลาง

2. ระดบประโยค (Sentence Level) เปนการวเคราะหขอความแสดงความคดเหน โดยแยกขอความทเปนขอความแสดงความคดเหนออกมาจากขอความทเปนขอเทจจรงในระดบทเปนประโยค แลวน ามาแยกขวความคดเหนเปนขวบวก ขวลบ หรอเปนกลาง

3. ระดบคณลกษณะ (Feature Level) เปนการท าวเคราะหขอความแสดงความคดเหน โดยแยกลกษณะทสนใจของวตถหรอหวขอทถกแสดงความคดเหนออกมากอน แลวจงน ามาแบงขวความคดเหนเปนขวบวก ขวลบ หรอเปนกลาง และน ามาจดกลมเขากบค าทมความหมายเหมอนในแตละคณลกษณะ

ซงระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรม จะน าขอความแสดงความคดเหนของลกคามาวเคราะหขอความแสดงความคดเหนในระดบคณลกษณะ แลวน าขอมลทไดมาประมวลผลเพอใหผ ใชเขาใจไดงายขน

3) สญกรณวตถจาวาสครปต (JavaScript Object Notation - JSON)

เปนรปแบบทใชส าหรบแลกเปลยนขอมลทางคอมพวเตอร อยในรปขอความธรรมดา(Plain text) ททงมนษยและโปรแกรมคอมพวเตอรสามารถอานเขาใจได ใชรปแบบของภาษาจาวาสครปต แตไมถกมองวาเปนภาษาโปรแกรม ปจจบนเปนทนยมใชในเวบแอพพลเคชนโดยเฉพาะ Asynchronous JavaScript And XML(AJAX) ทใชสญกรณวตถจาวาสครปต เปนทางเลอกในการสงขอมล เพมจาก Extensible Markup Language(XML) ทเปนทนยมใชกนอยแตเดม สาเหตทสญกรณวตถจาวาสครปต เรมไดรบความนยมเปนเพราะกระชบและเขาใจงายกวา XML ซงตวอยางการเปรยบเทยบเปนไปตามรปท 3.6 และรปท 3.7 สญกรณวตถจาวาสครปตใช [ ] แทนอาเรย และ { } แทน Hash หรอ Associative array(ประเภทขอมลอยางยอย ทสามารถเขาถงขอมลผานขอมลอกตว โดยผานคย) [8] ระบบวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรม ใชรปแบบการแลกเปลยนขอมลแบบสญกรณวตถจาวาสครปตในการแปลงขอความแสดงความคดเหนทวเคราะหแลวใหเปนรปแบบการแสดงผลแบบกราฟก

12

ตวอยางรปแบบของ XML <profile> <person> <firstname>Scalet</firstname> <lastname>Ohara</lastname> </person> <person> <firstname>Mary</firstname> <lastname>Jane</lastname> </person> </profile>

รปท 3.6 ตวอยางรปแบบ xml ตวอยางรปแบบของ JSON เมอแปลงจาก XML ดานบน { "person" : [ { "firstname" : "Scalet", "lastname" : "Ohara" }, { "firstname" : "Mary", "lastname" : "Jane" } ] }

รปท 3.7 ตวอยางรปแบบ JSON 4) เทคนคจนตทศน (Information Visualization) เทคนคจนตทศน คอ การน าเสนอขอมลทเขาใจยาก เชนตวเลข หรอ ตวหนงสอ ทมปรมาณมากๆ

มาแสดงใหอยในรปแบบทผอานเขาใจไดงายกวาเดม เชน กราฟ แผนภาพแบบตางๆ โดยเลอกใชวธทจะน าเสนอใหผอานเขาใจไดงายทสด ซงขนกบขอมลทจะน ามาน าเสนอ วาจะเปนขอมลทอยในลกษณะใด [5]

การน าเสนอขอมลผานเทคนคจนตทศนท าไดหลายรปแบบ แตทนยมใชกนมากนนคอการน าเสนอในรปแบบทเปน 2 มต เชน Bar Chart, Pie Chart เปนตน

13

รปท 3.8 เทคนคจนตทศนแบบ Bar Chart 2 มต (ภาพจาก Google Visualization) จากรปท 3.8 แสดงถงสถตยอดขายและคาใชจายของบรษทซงสามารถท าใหผอานเขาใจไดงายกวาการน าตวเลขมาแสดงโดยตรง

รปท 3.9 เทคนคจนตทศน แบบ Pie Chart 2 มต (ภาพจาก http://24ways.org) จากรปท 3.9 แสดงถงปรมาณอาหารและเครองดมทใชบรโภคในเทศกาลครสตมาส ป 2007 ซง

สามารถแสดงใหเหนอยางชดเจนถงปรมาณทแตกตางกนของอาหารและเครองดมแตละประเภท ในรปท 3.10 เปนรปแบบการน าเสนอแบบ 3 มต ในตอนตนถกน ามาใชเพอความสวยงาม แตในแงของการใชประโยชนนน ยงคงเปนขอมลทมเพยง 1 หรอ 2 มตเทานน แตในปจจบนรปแบบการน าเสนอแบบ 3มตถกน ามาใชประโยชนมากขน เชน การน าเสนอขอมลเชงวทยาศาสตร ในรปท 8 [6]

14

รปท 3.10 เทคนคจนตทศนแบบ 3 มต ของโครงสราง DNA (ภาพจาก life.illinois.edu) ระบบวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรม ใชเทคนคจนตทศนแบบ Pie Chart ในการแสดงขอมลสรปขอความแสดงความคดเหนตามคณลกษณะของแตละโรงแรม และใชเทคนคจนตทศนแบบ Bar Chart ในการแสดงขอมลเปรยบเทยบขอความแสดงความคดเหนตามคณลกษณะของโรงแรมทเลอก

3.3 เครองมอทใชในการพฒนา ภาษาทใชในการพฒนา 1. Java ใชในการพฒนาระบบวเคราะหขอความแสดงความคดเหน 2. JSP ใชในการเขยนหนาเวบไซตเพอรบขอมลจากผใชน ามาประมวลผล 3. HTML ใชในการเขยนหนาเวบไซตเพอตดตอกบผ ใช 4. Java Script ใชในการสรางการแสดงผลขอมลดวยเทคนคจนตทศน เครองมอทใชในการพฒนา 1. Eclipse Java EE IDE for Web Developers (Open Source) 2. AppServ (Open Source) 3. JavaScript InfoVis Toolkit - thejit (Open Source) 4. Apache Tomcat 6.0 (Open source) 5. LexToPlus (Open Source) ไลบรารทใชในการพฒนา 1. Mysql Connector ส าหรบการตดตอฐานขอมล SQL ดวยภาษา Java 2. Java Excel API (JXL) ส าหรบการอานไฟล Spreadsheet

15

รายละเอยดโปรแกรมทจะพฒนา ขอมลรบเขา

- สถานท - ชอโรงแรม - มมมองทผ ใชสนใจ

ขอมลผลลพธ - กราฟกสรปขอมลจากขอความแสดงความคดเหนของสถานท หรอโรงแรมนนๆ - ขอความแสดงคดเหนทถกน ามาใชสรปขอมลแยกตามมมมองทผ ใชสนใจ

ฟงกชนการท างาน ภายในคลาส OpinionPatternAnalysis มฟงกชนการท างานใหเรยกใชดงปรากฏในรปท 3.11 ดงน

รปท 3.11 ฟงกชนการท างานในคลาส OpinionPatternAnalysis

16

1. ฟงกชน GenerateWordSegment()

ขอมลน าเขา : ขอความตวอกษร ขอมลสงออก : ArrayList ประเภท String ของขอความทถกตดค าแลว การท างาน : รบขอความเพอน าไปตดค า

2. ฟงกชน GenerateInputPattern() ขอมลน าเขา : ArrayList ประเภท String ของขอความตองการระบประเภทค า ขอมลสงออก : ArrayList ประเภท String ของขอความทระบประเภทค า การท างาน : น าขอความทตดค าแลวไประบประเภทของค าตามคลงขอความของระบบวเคราะหขอความแสดงความคดเหน

3. ฟงกชน GetDualPattern() ขอมลน าเขา : ขอความตวอกษรทมค าทระบบไมรจก ขอมลสงออก : ขอความตวอกษรทระบประเภทของค าทระบบประมวลผล การท างาน : น าขอความทมค าไมมในคลงขอความของระบบวเคราะหขอความแสดงความคดเหนมาประมวลผลเพอหาความเปนไปไดทจะเปนค าระบคณลกษณะหรอค าระบขวความคดเหน

4. ฟงกชน GenerateOpinionSegment() ขอมลน าเขา : ArrayList ประเภท String 2 ชดขอมล คอ ชดทเปนรปแบบประโยคและชดทเปนค าของรปแบบประโยค ขอมลสงออก : ขอความตวอกษร ในรปแบบของอาเรย 2 มต ประกอบดวยชดรปแบบของประโยคและชดค าของประโยค การท างาน : น าขอความทมค าไมมในคลงขอความของระบบวเคราะหขอความแสดงความคดเหนมาประมวลผลเพอหาความเปนไปไดทจะเปนค าระบคณลกษณะหรอค าระบขวความคดเหน

5. ฟงกชน ExtractUnknown() ขอมลน าเขา : ขอความตวอกษรทตองการระบประเภทของค า จากค าทยงไมมในคลงขอความของระบบวเคราะหขอความแสดงความคดเหน ขอมลสงออก : ชดขอความตวอกษรทระบประเภทของค าทยงไมมในคลงขอความของระบบวเคราะหขอความแสดงความคดเหน การท างาน : น าค าทยงไมมในคลงขอความทระบบวเคราะหขอความแสดงความคดเหนวเคราะหไดมาวเคราะหวาเปนค าระบคณลกษณะหรอค าระบขวความคดเหน

17

6. ฟงกชน IdentifyFeature() ขอมลน าเขา : ขอความตวอกษรทตองการระบความหมายตามประเภทคณลกษณะของโรงแรม ขอมลสงออก : ตวเลขจ านวนเตมทระบประเภทคณลกษณะของโรงแรม การท างาน : น าขอความมาประมวลผลเพอระบประเภทคณลกษณะของโรงแรม

7. ฟงกชน IdentifyPolar() ขอมลน าเขา : ขอความตวอกษรทตองการระบขวความคดเหน และ ตวเลขจ านวนเตมระบประเภทคณลกษณะของโรงแรม ขอมลสงออก : ตวเลขจ านวนเตมทระบขวความคดเหน การท างาน : น าขอความมาประมวลผลเพอระบขวความคดเหน

8. ฟงกชน ExtractOpinion () ขอมลน าเขา : ขอความตวอกษรทตองการวเคราะหขอความแสดงความคดเหน ขอมลสงออก : ArrayList ประเภท OpinionResult ซงประกอบดวย รปแบบของขอความแสดงความคดเหน, ขอความแสดงความคดเหนทสกดได, ค าระบคณลกษณะทสามารถสกดเพมได, ค าระบขวความคดเหนทสามารถสกดเพมได, ประเภทคณลกษณะของขอความทวเคราะห และขวความคดเหนของขอความทวเคราะห การท างาน : น าขอความมาประมวลผลเพอแยกขอความแสดงความคดเหนเกยวกบโรงแรมออกตามคณลกษณะของโรงแรม พรอมกบระบขวความคดเหนของขอความ

18

เมอน าการท างานของคลาส OpinionPatternAnalysisมาใชในการแสดงผล ท าใหมฟงกชนการท างานดงน 1. แสดงขอมลทางสถตสรปความคดเหนจากการโรงแรมทอยในสถานททผ ใชสนใจ เปรยบเทยบโดยคณลกษณะของโรงแรมทผ ใชเลอก ตามรปท 3.12

รปท 3.12 สรปความคดเหนจากการโรงแรมทอยในสถานททผ ใชสนใจ

19

2. แสดงขอมลทางสถตสรปความคดเหนทเกยวกบคณลกษณะตางๆของโรงแรมทเลอก ดงเชนในรปท 3.13

รปท 3.13 สรปความคดเหนทเกยวกบคณลกษณะตางๆของโรงแรมทเลอก

3. แสดงขอความแสดงความคดเหนทน ามาสรปเปนขอมลทางสถต ในรปท 3.14

รปท 3.14 ขอความแสดงความคดเหนทน ามาสรปเปนขอมลทางสถต

20

โครงสรางของซอฟตแวร

ระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรม ประกอบดวยขนตอนการก ากบคลงขอมล(Corpus annotation) จากคลงขอมลความคดเหน (Opinion Corpus) เพอน าชนสวนขอความแสดงความคดเหน (Opinion Piece Segment) มาแยกเปนวล และค าแตละประเภท และขนตอนการวเคราะหเพอระบคณลกษณะทขอความแสดงความคดเหนกลาวถง ระบขวความคดเหน และแสดงผลสรปขอความแสดงความคดเหนใหผ ใช ดงโครงสรางในรปท 3.15 [4]

รปท 3.15 โครงสรางระบบวเคราะหขอความแสดงความคดเหน

ทมาของไลบรารและชดทดสอบ

- Mysql Connector จากเวบไซต http://www.mysql.com/products/connector - Java Excel API จากเวบไซต http://jexcelapi.sourceforge.net - LexToPlus จาก หนวยปฏบตการวจยวทยาการมนษยภาษา ศนยเทคโนโลย

อเลกทรอนกสและคอมพวเตอรแหงชาต (NECTEC) - JavaScript InfoVis Toolkit (thejit) จากเวบไซต http://thejit.org - ชดขอความแสดงความคดเหนเกยวกบโรงแรมทใชในการประเมนผล จากเวบไซต

http://www.agoda.co.th

21

3.4 ขอบเขตและขอจ ากด 1. ระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรมน าขอความแสดงความคดเหนภาษาไทยจากลกคาในเวบไซต http://www.agoda.co.th ทแสดงความคดเหนเกยวกบโรงแรมใน กรงเทพมหานคร, เชยงใหม, เชยงราย, ภเกต, ระยอง, หวหน ชะอ า, พทยา, เกาะสมย, เกาะชางและเกาะ พพ เนองจากเปนจงหวดและสถานททองเทยวทไดรบความนยมจากนกทองเทยวเปนอนดบตนๆของประเทศไทย โดยเลอกมาจากจงหวดและสถานท 10 อนดบแรกทมขอความแสดงความคดเหนมากทสดจากเวบไซต http://www.agoda.co.th 2. ระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรมจะวเคราะหเฉพาะความคดเหนแบบตรงในคณลกษณะทก าหนด 7 คณลกษณะไดแก การบรการ, อาหาร, สภาพของโรงแรม, สถานทตง, หองพก, สงอ านวยความสะดวก และราคา [5] 3. ระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรมไมสามารถวเคราะหขอความแสดงความคดเหนเชงเปรยบเทยบได เชน - พนกงานบรการระดบเดยวกนกบโรงแรมเอ จากขอความแสดงความคดเหนน ระบบไมสามารถตดสนไดวาโรงแรมเอบรการดหรอไมด จงไมสามารถสรปผลใหผ ใชไดวา ขอความแสดงความคดเหนนเปนขวบวกหรอขวลบ - บรรยากาศเหมอนอยมลดฟส จากขอความแสดงความคดเหนดงกลาว ระบบไมมขอมลวาบรรยากาศทมลดฟสดหรอไมด จงไมสามารถสรปผลใหผ ใชไดวา ขอความแสดงความคดเหนนเปนขวบวกหรอขวลบ 4. ระบบวเคราะหขอความแสดงความคดเหนไมสามารถวเคราะหขอความแสดงความคดเหนทตองอาศยการตความหรอแปลความหมายโดยนยได เชน - ถงโรงแรมจะขนาดเลก แตราคาไมเลกตามขนาด - บรการเราอยางกบไปขอพกฟรอยางนนแหละ 5. โครงการนไมไดพฒนาในสวนของระบบการตดค าภาษาไทย ระบบวเคราะหขอความแสดงความคดเหนส าหรบโรงแรมจงอางองผลลพธการตดค าภาษาไทยจากโปรแกรม LexToPlus ในการวเคราะหขอความแสดงความคดเหน

22

บทท 4 กลมผใชระบบ

ผ ทตองการขอมลสรปจากขอความแสดงความคดเหนเกยวกบโรงแรม เพราะระบบจะชวย

วเคราะหขอความแสดงความคดเหน จากขอความแสดงความคดเหนทเปนภาษาธรรมชาตออกมาแสดงผล

ใหผ ใชในรปแบบกราฟกทมาจากการสรปขอมลในเชงสถต อกทงผ ใชสามารถเลอกดขอความทระบบสกด

ออกมาไดอกดวย

23

บทท 5 ผลของการทดสอบระบบ

จากการประเมนผลการวเคราะหดวยชดขอความแสดงความคดเหนเกยวกบโรงแรม 600 ขอความ แบงเปน 6 คณลกษณะ (การบรการ, อาหาร, สภาพโรงแรม, สถานทตง, หองพก, ราคา) จากเวบไซต http://www.agoda.co.th แตละคณลกษณะจะวเคราะหจ านวนขอความแสดงความคดเหนทงหมด 100 ขอความ สรปไดดงน การประเมนผลการสกดค าระบลกษณะและค าระบขวจากค าทไมมในคลงขอความ ค าระบคณลกษณะสามารถสกดได 516 ขอความจาก 600 ขอความ ค าระบคณลกษณะสามารถสกดได 570 ขอความจาก 600 ขอความ

ความแมนย า (Precision)

ความครบถวน (Recall)

F-Measure

การสกดค าระบคณลกษณะ (Feature Word Extraction)

ไดรบคะแนน 396.64 คดเปนรอยละ 76.87

ไดรบคะแนน 431.54 คดเปนรอยละ 83.63

80.11

การสกดค าระบขวความคดเหน (Polar Word Extraction)

ไดรบคะแนน 424.72 คดเปนรอยละ 74.51

ไดรบคะแนน 483.03 คดเปนรอยละ 84.74

79.30

การสกดค าระบคณลกษณะจากค าทไมมในคลงขอความ จากขอความแสดงความคดเหนเกยวกบโรงแรม 619 โรงแรม มลกษณะการเพมของค า ดงในภาพท 5.1

รปท 5.1 ลกษณะการสกดค าระบคณลกษณะจากค าทไมมในคลงขอความ

24

การสกดค าระบขวความคดเหนจากค าทไมมในคลงขอความ จากขอความแสดงความคดเหนเกยวกบโรงแรม 619 โรงแรม มลกษณะการเพมของค า ดงในภาพท 5.2

รปท 5.2 ลกษณะการสกดค าระบขวความคดเหนจากค าทไมมในคลงขอความ

การประเมนผลการสกดขอความ (Information Extraction) สามารถสกดได 590 ขอความจาก 600 ขอความ

ความแมนย า (Precision)

ความครบถวน (Recall)

F-Measure

การสกดค าระบคณลกษณะ (Feature Word Extraction)

ไดรบคะแนน 501.82 คดเปนรอยละ 85.05

ไดรบคะแนน 536.85 คดเปนรอยละ 90.99

87.92

การสกดค าระบขวความคดเหน (Polar Word Extraction)

ไดรบคะแนน 475.74 คดเปนรอยละ 80.63

ไดรบคะแนน 532.96 คดเปนรอยละ 90.33

85.20

จากผลการประเมนขางตนสามารถสรปไดวา ระบบวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรมสามารถวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรมจากขอความแสดงความคดเหนดวยภาษาธรรมชาตได จากนนสามารถน าขอความทวเคราะหมาสรปเปนขอมลในเชงสถตแลวแสดงในรปแบบกราฟก

25

บทท 6 ปญหาและอปสรรค

1.การตดค าและการสกดขอความแสดงความคดเหนยงมขอผดพลาด เนองจากค าศพทบางค า

อาจจะไมมในฐานขอมลของตวตดค าและคลงขอความแสดงความคดเหนเกยวกบโรงแรม

แนวทางการแกไข สกดค าระบคณลกษณะ และค าระบขวเพอระบค าทยงไมมในคลงขอความ

แสดงความคดเหนเกยวกบโรงแรม เพอน าค าไปเพมในคลงขอความแสดงความคดเหนเกยวกบโรงแรม

2. ระบบวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรมใชไลบรารและเครองมอหลายชนด

ท าใหมปญหาในการสงขอมลตดตอกน

แนวทางการแกไข ใชฐานขอมลเปนตวกลางในการแลกเปลยนขอมล

3. ขอมลโรงแรมจากเวบไซต http://www.agoda.co.th มเปนจ านวนมาก ท าใหการดงขอมลใน

สวนของเทคนคจนตทศนคอนขางชา และท าใหตองใชพนทหนาจอในการแสดงผลเกนกวาทก าหนด

แนวทางการแกไข ลดปรมาณการแสดงขอมลของเทคนคจนตทศนลง โดยแบงการแสดงผลเปน

สวนๆของแตละโรงแรม

26

บทท 7 แนวทางในการพฒนาและประยกตใชรวมกบงานอนๆในขนตอไป

แนวทางในการพฒนาและประยกตใชรวมกบงานอนๆ ไดแกการน าระบบวเคราะหขอความแสดง

ความคดเหนเกยวกบโรงแรมนประยกตใชกบการวเคราะหขอความแสดงความคดเหนในระดบคณลกษณะ

ส าหรบหวขออนๆทสนใจ ตวอยางเชน การวเคราะหขอความแสดงความคดเหนเกยวกบบรการหลงการขาย

ของบรษท, การวเคราะหขอความแสดงความคดเหนเกยวกบคณภาพสนคาของบรษท เปนตน ซงในสวนน

สามารถทจะพฒนาตอไปไดในอนาคต เพอใหรองรบกบขอความแสดงความคดเหนในหวขอทผ ใชตองการ

27

บทท 8 ขอสรปและขอเสนอแนะ

ระบบวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรมสามารถทจะวเคราะหขอความแสดง

ความคดเหนเกยวกบโรงแรมได แตเนองจากขอความแสดงความคดเหนภาษาไทย ไมมรปแบบทแนนอน

จงท าใหยงมขอผดพลาดอย หากมการปรบปรงหรอแกไขเพมเตมกจะสามารถท าใหระบบวเคราะห

ขอความแสดงความคดเหนเกยวกบโรงแรมสามารถวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรมได

อยางแมนย ายงขน และสามารถน าไปปรบใชกบการวเคราะหขอความแสดงความคดเหนในหวขออนท

นาสนใจไดอยางมประสทธภาพ

28

บทท 9 เอกสารอางอง

[1] Alisa Kongtho, et al. (2010). Thailand’s Tourism Information Service Based on

Semantic Search and Opinion Mining. Human Language Technology Laboratory (HLT), National Electronics and Computer Technology Center (NECTEC), Thailand

[2] Bing Liu. Opinion Mining and Summarization (including review spam detection), tutorial given at WWW-2008, April 21, 2008 in Beijing, China

[3] Choochart Haruechaiyasak, et al. (2010). Constructing Thai Opinion Mining

Resource: A Case Study on Hotel Reviews. Human Language Technology Laboratory (HLT), National Electronics and Computer Technology Center (NECTEC), Thailand

[4] D plus Magazine.ขยบจาก Brand Monitoring ส Sentiment Analysis.[Online].2549.คนหาเมอ 10 สงหาคม 2553.จาก http://www.dplusmag.com/world-wide-web-social-network/ขยบจาก-brand-monitoring-ส-sentiment-analysis.html

[5] Google. Visualization: Bar Chart.[Online].คนหาเมอ 13 สงหาคม 2553.จาก http://code.google.com/intl/th-TH/apis/visualization/documentation/gallery/barchart.html

[6] Jennifer Golbeck, Chang Hu. (2009). Impact of Visualization Methods on Interaction

with Search Results. Human-Computer Interaction Lab University of Maryland, College Park, MD

[7] Tai Parinya. Natural Language Processing. [Online]. คนหาเมอ 30 ธนวาคม 2553 จาก http://www.tai-parinya.com/node/269

[8] veer.เปดโลก Ajax ตอน JSON.[Online].2549. คนหาเมอ 9 พฤษภาคม 2553.จาก http://veer.exteen.com/20060110/ajax-json

[9] ทองจล ขนขาว. การใช Regular Expression ใน PHP. [Online]. คนหาเมอ 2 พฤศจกายน 2553 จาก http://www.mindphp.com/modules.php?name=Content&pa=

showpage&pid=78 [10] ปทมา วาพฒนวงศ. จ านวนโรงแรมและหองพกทสามารถรองรบนกทองเทยว.

[Online]. คนหาเมอ 10 สงหาคม 2553. จากhttp://www.popterms.mahidol.ac.th/newsletter/showarticle.php?articleid=102

29

บทท 10 ประวตสวนตวและผลงานดเดนของผพฒนา

นางสาววรญญา วรรณศร สถานทตดตอ ภาควชาวทยาการคอมพวเตอร คณะวทยาศาสตรและเทคโนโลย มหาวทยาลยธรรมศาสตร โทรศพท 08-5002-2231 E-mail [email protected] ประวตดเดน

- ผชวยวทยากรคายยวคอมพวเตอร ประจ าป2550 โดยสถาบนสงเสรมการสอนวทยาศาสตรและเทคโนโลย (สสวท.)

- ผชวยวทยากรคายยวคอมพวเตอร ประจ าป2551 โดยสถาบนสงเสรมการสอนวทยาศาสตรและเทคโนโลย (สสวท.)

- เขารวมการแขงขน ACM ICPC THAILAND 2009 โดยภาควชาวศวกรรมคอมพวเตอร มหาวทยาลยสงขลานครนทร วทยาเขตภเกต

- วทยากรคายยวคอมพวเตอร ประจ าป2552 โดยสถาบนสงเสรมการสอนวทยาศาสตรและเทคโนโลย (สสวท.)

- เปนนกศกษาผชวยสอนโครงการอบรมคอมพวเตอรโอลมปก ป 2553 (คาย2) ณ มหาวทยาลยธรรมศาตร ศนยรงสต

- เขารวมการแขงขน ACM-ICPC Thailand Central Region Programming Contest 2010 โดยภาควชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร จฬาลงกรณมหาวทยาลย รวมกบ ส านกงานสงเสรมอตสาหกรรมซอฟตแวรแหงชาต (องคการมหาชน)

30

บทท 11 ภาคผนวก

11.1 คมอการตดตง 1) ตดตงโปรแกรม AppServ ในรปท 11.1 เพอใชฐานขอมล mySQL ก าหนด user เปน root password เปน 3101

รปท 11.1 โปรแกรม AppServe

จากนนเปด Web Browser ขนมา ใส address เปน localhost เพอเปด phpMyAdmin สรางฐานขอมลชอ “opm_agoda” ดงปรากฏในรปท 11.2

รปท 11.2 การสรางฐานขอมล opm_agoda

เมอสรางฐานขอมลเสรจแลว คลกเลอก Import ตามรปท 11.3 จากนนเลอกไฟล opm_agoda.sql เพอน าตารางเขาสฐานขอมลทสราง ดงในรปท 11.4

31

รปท 11.3 การเลอกการน าเขาขอมลสฐานขอมล

รปท 11.4 การน าตารางเขาสฐานขอมล opm_agoda

เมอการน าตารางเขาสฐานขอมลเสรจเรยบรอย จะปรากฏรายชอตารางทคอลมนซายมอ และขอความแสดงสถานะการท างานทางคอลมนขวามอ ดงในรปท 11.5

รปท 11.5 หนาจอแสดงสถานะการน าเขาตารางสฐานขอมล

32

2) ตดตงโปรแกรม Apache Tomcat 6.0 ในรปท 11.6 เพอใชเปนเซรฟเวอรจ าลองภายเครอง

รปท 11.6 โปรแกรม Apache Tomcat 6.0

3) คดลอกไฟล OpinionMiningWeb.war ไปไวท Folder webapps ดงในรปท 11.7 โดยม Directories Path เปน Folder ทตดตง Apache Tomcat 6.0 ซงกคอ Folder Apache Software Foundation > Tomcat6.0 > webapps

รปท 11.7 คดลอกไฟล OpinionMIningWeb.war วางไวท Folder webapps

4) คลกเปดโปรแกรม Monitor Tomcat ตวอยางในรปท 11.8

รปท 11.8 คลกเปดโปรแกรม Monitor Tomcat

33

หลงจากนนทไอคอนมมขวาลาง เลอก Start Service ไอคอนจะเปลยนจากสเหลยมสแดงเปนสามเหลยมสเขยว ดงในรปท 11.9

รปท 11.9 การ Start Service

5) เมอ Start Service แลวจะเหนวาใน Folder webapps ม Folder ชอ OpinionMiningWeb เพมขนมา ดงในรปท 11.10

รปท 11.10 Folder OpinionMIningWeb ปรากฏขนใน Folder webapps

34

11.2 คมอการใชงาน 1) เปด Web Browser ขนมา ในทนใช Google Chrome รน 8.0.552.224 ดงในรปท 11.11

รปท 11.11 Web Browser ทใช Google Chrome รน 8.0.552.224

2) พมพทอย localhost:8080/OpinionMiningWeb ท address bar ดงในรปท 11.12 กดยนยน เพอแสดงหนาเวบไซต

รปท 11. 12 การเขาถงหนาเวบไซต

35

3) เลอกสถานทตงของโรงแรมเพอดขอมลการวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรม เหมอนในตวอยางรปท 11.13

รปท 11. 13 การเลอกสถานทตงของโรงแรม

4) เลอกโรงแรมทตองการดขอมลการวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรม เหมอนในตวอยางรปท 11.14 ระบบจะแสดงขอมลทเปนกราฟกเปนคาเรมตน

รปท 11. 14 การเลอกโรงแรมทตองการดขอมลการวเคราะหขอความแสดงความคดเหน

36

5) คลกท “แสดงผลแบบขอความ” เพอดขอมลการวเคราะหขอความแสดงความคดเหนเกยวกบโรงแรมทถกประมวลผลเพอแสดงเปนแบบกราฟก ดงในรปท 11.15

รปท 11. 15 การเลอกโรงแรมทตองการเพอดขอความทน ามาประมวลผลเพอแสดงเปนแบบกราฟก

6) เลอกการเนนสค าทระบคณลกษณะ หรอค าระบขวความคดเหนไดดวยการเลอกท Check Box “เลอกแสดงค าระบคณลกษณะ" และ “เลอกแสดงค าระบขวความคดเหน” ดงในรปท 11.16

รปท 11. 16 การเลอกการเนนสค าทระบคณลกษณะ หรอค าระบขวความคดเหน

37

6) เลอกโรงแรม 3 โรงแรมในสถานททตองการมาเปรยบเทยบตามแตละคณลกษณะได ไมเกน 3 คณลกษณะ ดงตวอยางในรปท 11.17 โดยแสดงในรปแบบกราฟกเปนคาเรมตน

รปท 11. 17 การเลอกโรงแรมเพอเปรยบเทยบในแตละคณลกษณะ

7) เลอกโรงแรม 3 โรงแรมในสถานททตองการมาเปรยบเทยบตามแตละคณลกษณะได ไมเกน 3 คณลกษณะ และสามารถเลอกดขอความแสดงความคดเหนของแตละโรงแรมได ดวยการคลกท “แสดงผลแบบขอความ” ทอยใต Drop down list ของแตละโรงแรมทเลอก ดงแสดงในรปท 11.18

รปท 11. 18 การแสดงขอความแสดงความคดเหนของโรงแรมทถกเปรยบเทยบในแตละคณลกษณะ