the next generation knowledge management for multilingual agricultural information

70
1 The Next-Generation Knowledge Management for Multilingual Agricultural Information Asanee Kawtrakul, Mukda Suktarachan, Aurawan Imsombut, Chaveewan Petchsiri, Chalermpon Sirigayon, Thana Sukvaree, Trakul Permpool, Prachaya Boonkhuan, Worapoj Peerawit, Intiraporn Mulasastra The Specialty Research Unit of Natural Language Processing and Intelligent Information System Technology Department of Computer Engineering, Kasetsart University, Bangkok, Thailand [email protected] Fifth Agricultural Ontology Service (AOS) Workshop 29 April 2004, Beijing, China

Upload: aims-agricultural-information-management-standards

Post on 29-Jul-2015

1.001 views

Category:

Education


0 download

TRANSCRIPT

1

The Next-Generation Knowledge Management for

Multilingual Agricultural Information

Asanee Kawtrakul, Mukda Suktarachan, Aurawan Imsombut, Chaveewan Petchsiri,

Chalermpon Sirigayon, Thana Sukvaree, Trakul Permpool, Prachaya Boonkhuan,

Worapoj Peerawit, Intiraporn Mulasastra

The Specialty Research Unit of Natural Language Processing and Intelligent Information System Technology

Department of Computer Engineering, Kasetsart University, Bangkok,

[email protected]

Fifth Agricultural Ontology Service (AOS) Workshop29 April 2004, Beijing, China

2

Acknowledgement

• NECTEC – I-Know (Information Extraction and Knowledge

Discovery) Project

• AFITA 2002 (First, work for Fun , then get the Fund)

3

Agenda

• Motivation

• System Architecture: Knowledge Management

• Automatic Ontology Construction and

Maintenance

• Ontology-based Knowledge Management

– Information Extraction

– Sumarization

– Knowledge Discovery

– Knowledge Tracking

4

Motivation

– Information Overload, especially, unstructured electronic articles and

reports – Language barriers

– Thailand is the Agriculture-based Country

Knowledge Management for Multilingual Agricultural Information Management

5

What is KM?

• Knowledge Acquisition • Knowledge Processing :

– Knowledge Discovery

– Best Practice

• Knowledge Service– Knowledge Tracking

6

Agricultural Information Knowledge Management

Related Projects

1. Multilingual Dictionary

2. Ontology Construction and Maintenance System

3. Knowledge Portal

• Information Extraction

• Summarization

• Knowledge Discovery

4. Knowledge Tracking

5. Machine translation

7

IntelligentSearch Engine

Knowledge Portal Processing

WWW

Unstructured,Semi-structured,

StructuredDocument

Meta DataAnnotation tools

KnowledgeStructure

Thai AGRISCorpus

Agricultural Information Bases

Real-World Ontology

Ontology Task Oriented

Ontology

MultilingualDictionary

MT KT

System Architecture

Rice

Diseases&How to protect?

How to plant in

the winter?

Follow up the price

etc.

Yield

8

Ontology Construction Ontology Construction and and

Maintenance SystemMaintenance System

9

Introduction to Ontology

Two essential aspects of Ontologies

- Real-world Ontology

- For IR, IE and Semantic Web

- Task-Oriented Ontology

- For IE, Knowledge Tracking

10

Introduction to OntologyReal World Plants Taxonomy Ontology

family genu

s

taxonomy

species plants

Part-of relation

plant reproductive organs

plant vegetative organs

fruit seeds

flower

Acalypha

concepts

instances

. . .

IS-A relation

11

Introduction to OntologyTask Oriented ontology

disease control

cause from pathogen

cause from environment

Plant Diseases

symptom

causeTreatment

Scorch

Blight

. . .IS-A relation

concepts

instances

specific relations(e.g. Cause, hasSymptom)

. . .

12

Why needs Automatic Ontology construction and maintenance

system?

• Enhance performance of Information processing system such as IR, IE, Knowledge Tracking, etc.

• Creating ontology by the expert is an expensive task and it is endless task for ontology maintenance, especially new instance.

13

Automatic Ontology Construction

System Architecture

Heuristic Rules

Structured CorpusUnstructured Corpus

Raw Text Dictionary AGROVOC Thesaurus

Morphological Analysis

Term Extraction

Structure Analysis

Database Conversion

Thesaurus Recycling

Organizing System

VerificationSystem

Semantic Relation

Identification

14

Automatic Ontology Construction

• Sources– Thesaurus– Dictionary of Agriculture – Technical paper, Published document, Encyclopedia

• Differentiation of 3 sources.Thesaurus Dictionary Text

Structuring Yes Yes No

Terms Relation Organization

Yes Yes No

Expert Validation Yes Yes No

Up-to-date Data No No Yes

Amount of Data Small Small Large

15

Ontology from AGROVOC Thesaurus

• Technique:– Convert BT/NT to IS-A Relation

• Problem:– Not all BT/NT could define to IS-A Relation

Their semantic could defined as Ingredient of and other. For example.

MILK NT: Milk Fat (Ingredient of)

• Solutions:– NLP Technique: NP Analysis

16

Ontology from Dictionary• Applied Plants Name Dictionary for adding Formal

Name, Local Name which familiar to users in retrieving and machine translating.

Acalypha EUPHORBIACEAEbrachystachya Hornem. H ตำ��แยดอยใบบ�ง Tamyae doi bai bang

( General ).chinensis Roxb. = A. indica L.delpyana Gagnep. US ข�งปอยตำ วเมี�ย Khang poi tua mia (Central).evrardii Gagnep. = A.siamensis Oliv. ex Gagehispida Burm. f. ExS เกี้��ยวเกี้ล้�า Kiao klao,ไหมพรม Mai phrom (Northern);ห�งกระรอกแดง Hang krarok daeng (Bangkok); หางแมว Hang maeo(Central) ห�ปล้าช่�อน Hu pla chon (Ratchaburi); chenille plant, Red hotcat's tail.

Family/SubfamilyGenus

Specific epithetAuthor Name Formal Name

Local NameHabit

17

Ontology from Plant Names Dictionary

• Technique:– Applied task oriented parser to extract relation terms.

– Converted terms by alphabet characteristic and position of terms to relational database

• Limitation:– Dictionary has only plant names

18

Ontology from Text

• Problems: – Concept Identification

• Variety Concept

• Concept Boundary identification

• Many Candidate Terms

– Clue Word Ambiguity– Implicit Expression

19

Problem• Concept Identification

– Variety Concept• ง� เป�น พื�ชไร�น���มี น• Saseme is field-oil crops.

Concept => Field Crop, Oil Crop, Field-Oil Crop

– Concept Boundary identification• ผงไหมี ใช�ทำ��เป�น ฟิ"ล์$มีเคล์�อบร กษ�คว�มีสดในอ(ตำส�หกรรมีประมีง• Silk powder used as film for maintain freshness in seafood industry.

Concept => film, film for maintain freshness, film for maintain freshness in seafood industry

– Many Candidate Terms • สมี(นไพืรหล้ายช่น�ดม�สรรพคุ�ณเป�นย�ร กษ�โรค แล้ะม�กี้ารน�ามาผล้�ตในระด#บอ(ตำส�หกรรมี แล้�ว เช�น กระเทำ�ยมี ใบแปะก*วย

• Many herbs can be used as medicine and some of them are manufactured in the industry level, such as garlic, ginkgo biloba.Candidate Terms => herbs, medicine, industry

20

• Clue Word Ambiguity• ทานตะว#นเป�นพ&ช่น��าม#น • Sun-flower is oil crop.

=> HYPONYM (Sun-flower, Oil Crop)

• ดอกี้ต#วผ��ม�ล้#กี้ษณะช่�อเป�นพ� �มส�เขี�ยวอ�อน• Staminate is a green bush.

=> PROPERTIES (Flower, Color)

• Implicit Expression (No Clue-word)• Phrase level

“Jasmine Rice” => HYPONYM (Jasmine Rice, Rice)

Problem

21

Solutions

Problem TechniqueConcept Identification NP Analysis by using grammatical rules and

statistical bases.

Clue Word Ambiguity heuristic rules such as using the word list of object properties to eliminate non-concept term.

Implicit Expression Name Entity Extraction

22

Forest Ontology Organizing

• Use AGROVOC Ontology to be core tree

• Merge forest ontology from dictionary and text to

core ontology by NLP Technique such as Phrase

Analysis, Term Matching

23

Plant Products

Fruit

Watermelons (a)

Crops

Oil Crops

Oil Palms

Crops

Sesame

(c)

(d)

Fruit

Tamarind

Plant Products

Fruit

Watermelons Tamarind+

Crops

Oil Crops

Oil Palms

Sesame+

Crops

Oil Crops

Oil Palms

Crops

Oil Palms

Crops

Oil Crops

Oil Palms+

Cereals

Maize Maize

Dent Maize(b)

+

Field Crops

Maize

Cereals

Maize

Field Crops

Maize

Dent Maize Dent Maize

Forest Ontology Organizing

24

Verification Tools• For the expert to verify output and add additional related

word pairs

disease controldisease control

BlightBlightFungal diseasesFungal diseases

plant diseasesplant diseases

WiltsWilts

SmutsSmutsAnthracnosisAnthracnosis

MildewsMildewsRustsRusts

Bakanae

BakanaeBakanae

โรคุถอดฝั,กี้ดาบโรคุถอดฝั,กี้ดาบ

IS-AIS-AIS-AIS-A

IS-AIS-A IS-AIS-A

IS-AIS-AIS-AIS-AIS-AIS-A

Existing Concept :Existing Concept :Bacterial leaf blightBacterial leaf blightBacterial leaf spotBacterial leaf spotBlack spotBlack spotBrown spotBrown spotCrack stemCrack stemFusarium yellowFusarium yellowGummosis Gummosis Mosaic Mosaic Peanut mottle Peanut mottle

Preview TreeAdd

term and relation adding

Predicate :Predicate :

25

Ontology-based Knowledge Management

– Information Extraction

– Summarization

– Knowledge Discovery

– Knowledge Tracking

26

Knowledge Processing Architecture

Template Construction

Template

Text Extraction

Knowledge Summary

Summarization

Knowledge Structure

Document

AnnotatedCorpus

Knowledge Discovery

Ontology

Ontology

27

Information Extraction

28

Describe in numbering

Has topic sentence

Describe in paragraph

Has plant name in title

Corpus Styleผ#กี้กี้าดหอม

ผ#กี้กี้าดหอมเป�นผ#กี้ท�-ใช่�บร�โภคุส�วนใบ เป�นผ#กี้จำ�าพวกี้ผ#กี้สล้#ดท�-ม�คุ�ณคุ�าทางอาหารส�ง น�ยมบร�โภคุกี้#น แพร�หล้ายท�-ส�ดในบรรดาผ#กี้สล้#ดด�วยกี้#น โดยส�วนใหญ่�น�ยมร#บประทานสดแบะน�ามาประกี้อบอาหารหล้าย

ช่น�ด คุนไทยน�ยมใช่�...

โรคุเน�าเล้ะ สาเหต�เกี้�ดจำากี้เช่&�อแบคุท�เร�ย Erwinia sp. เป�นโรคุท�-เกี้�ดขี1�นอย�างกี้ว�างขีวาง ท�าให�ผล้ผล้�ต ผ#กี้กี้าดหอมเส�ยหายอย�างมากี้ เป�นได�ท#�งในแปล้งปล้�กี้แล้ะโรงเกี้2บ นอกี้จำากี้น#�นย#งสามารถเกี้�ดโรคุได�ใน

ขีณะวางตล้าดแล้ะเม&-อผ��บร�โภคุซื้&�อไปแล้�วกี้2อาจำเกี้�ดโรคุน��ได�เช่�นกี้#น ล้#กี้ษณะอากี้าร อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-ง

แวดล้�อมเหมาะสมแผล้จำะขียายต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บ ต#วล้งแล้ะเน�าอย�างรวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้เย��ม ม�กี้ล้�-นแรง

มากี้ กี้ล้�-นน��จำะเป�นกี้ล้�-นเฉ่ำพาะขีองโรคุน�� หล้#งจำากี้น#�นผ#กี้จำะเน�าย�บตายไปท#�งต�น ซื้1-งอาจำแห�งเป�นส�น��าตาล้ อย��บนผ�วด�น อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อตรงกี้ล้างล้�าต�นกี้�อน

กี้ารป8องกี้#นกี้�าจำ#ด คุวรปฏิ�บ#ต�ด#งน��

1. ในกี้ารเกี้2บเกี้�-ยวคุวรใช่�ม�ดคุมๆ ต#ดให�ขีาดเพ�ยงคุร#�งเด�ยว เพ&-อไม�ให�เกี้�ดรอยแผล้ซื้��า เพ&-อป8องกี้#นกี้ารเกี้�ดแผล้ซื้1-งจำะเป�นทางเขี�าท�าล้ายขีองเช่&�อ2. หล้#งจำากี้ารเกี้2บเกี้�-ยวคุวรผ1-งผ#กี้ไว�ในท�-โปร�ง อากี้าศถ�ายเทได�ด� เพ&-อให�แผล้ตรงรอยต#ดแห�ง แล้ะทาป�นแดงท�-แผล้ด�วย...

Semi-Structure/one plant per document

29

Types of information• Entity information (has reference to entity in knowledge

structure) *may has a reference problem because surface form of the term

– Plant– Disease– Cause

• Explanation information– Symptom– Treatment

Entity information extracted by Name-entity recognitionExplanation information extracted by paragraph classification

and summarization

30

Information representation• Frame of Knowledge

– Reference to source of information

– One frame per document

– One document can has many frames

– Each frame represent one disease of the plant includes cause, symptom and treatment

<DOC id=“AGRIS0404200001”>กี้ารปล้�กี้กี้ะหล้�-าปล้�...โรคุแล้ะแมล้งศ#ตร�ท�-ส�าคุ#ญ่โรคุท�-ส�าคุ#ญ่ขีองกี้ะหล้�-าปล้� ได�แกี้�1. โรคุเน�าเล้ะขีองกี้ะหล้�-าปล้�สาเหต� เกี้�ดจำากี้เช่&�อราแบคุท�เร�ยล้#กี้ษณะอากี้าร โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอยช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2นจำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้งกี้ารป8องกี้#นกี้�าจำ#ด1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ10 องศาเซื้ล้เซื้�ยส...</DOC>

Plant-Disease: <DOC_ID=“404200001”>plant : กี้ะหล้�-าปล้�<PLANT_ID=“000123”>disease : โรคุเน�าเล้ะ<DISEASE_ID=“000456”>cause : เช่&�อรท�เร�ย<PATHOGEN_ID=“000789”>symptom : โรคุน��ด�เกี้&อบท�กี้ระยะต�บโตแต�พบมากี้ในระยะท�-treatment : ระม#ดอย�าให�เกี้�ดแผล้ท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง

Plant-Disease: <DOC_ID=“404200001”>plant : กี้ะหล้�-าปล้�<PLANT_ID=“000124”>disease : โรคุเน�าเล้ะ<DISEASE_ID=“000457”>cause : เช่&�อรท�เร�ย<PATHOGEN_ID=“000790”>symptom : โรคุน��ด�เกี้&อบท�กี้ระยะต�บโตแต�พบมากี้ในระยะท�-treatment : ระม#ดอย�าให�เกี้�ดแผล้ท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�งPlant-Disease: <DOC_ID=“404200001”>plant : กี้ะหล้�-าปล้�<PLANT_ID=“000125”>disease : โรคุเน�าเล้ะ<DISEASE_ID=“000458”>cause : เช่&�อรท�เร�ย<PATHOGEN_ID=“000791”>symptom : โรคุน��ด�เกี้&อบท�กี้ระยะต�บโตแต�พบมากี้ในระยะท�-treatment : ระม#ดอย�าให�เกี้�ดแผล้ท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง

31

Plant

Disease

Cause Symptom Treatment

Template <Template Name>{

TE: <Element-Name>([Constraint],…);…

}

Constraint:=NE-class | clue

KnowledgeStructure

Template Plant-Disease{

TE: plant (NE-class=“Plant”);TE: disease (NE-class=“Disease”);TE: cause (NE-class=“Pathogen”);TE: symptom (clue=“ ”อากี้าร , “ผ�ด”ปกี้ต� );

TE: treatment (clue=“ป8องกี้#น”, “กี้�าจำ#ด”);}

<DOC id=“AGRIS0404200001”>กี้ารปล้�กี้<plant plant_id=“000123”>กี้ะหล้�-าปล้�</plant>...โรคุแล้ะแมล้งศ#ตร�ท�-ส�าคุ#ญ่โรคุท�-ส�าคุ#ญ่ขีองกี้ะหล้�-าปล้� ได�แกี้�1. <disease disease_id=“000456” plant_id=“000123” grp_id=“1”>โรคุเน�าเล้ะขีองกี้ะหล้�-าปล้�</disease>สาเหต� เกี้�ดจำากี้<cause pathogen_id=“000789” plant_id=“000123” grp_id=“1”>เช่&�อราแบคุท�เร�ย</cause><symptom plant_id=“000123” grp_id=“1”>ล้#กี้ษณะอากี้าร โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอยช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2นจำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้ง</symptom>กี้ารป8องกี้#นกี้�าจำ#ด<treatment plant_id=“000123” grp_id=“1”>1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ10 องศาเซื้ล้เซื้�ยส</treatment>...</DOC>

<DOC id=“AGRIS0404200001”>กี้ารปล้�กี้กี้ะหล้�-าปล้�...โรคุแล้ะแมล้งศ#ตร�ท�-ส�าคุ#ญ่โรคุท�-ส�าคุ#ญ่ขีองกี้ะหล้�-าปล้� ได�แกี้�1. โรคุเน�าเล้ะขีองกี้ะหล้�-าปล้�สาเหต� เกี้�ดจำากี้เช่&�อราแบคุท�เร�ยล้#กี้ษณะอากี้าร โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอยช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2นจำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้งกี้ารป8องกี้#นกี้�าจำ#ด1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ10 องศาเซื้ล้เซื้�ยส...</DOC>

Summarization

Plant-Disease : <DOC_ID=“AGRIS0404200001”>

plant : กี้ะหล้�-าปล้� <PLANT_ID=“000123”>

disease : โรคุเน�าเล้ะ <DISEASE_ID=“000456”>

cause : เช่&�อราแบคุท�เร�ย <PATHOGEN_ID=“000789”>

symptom : โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะ ท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอย

ช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2น จำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้ง

treatment : 1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง

2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ

10 องศาเซื้ล้เซื้�ยส

Overview processes

32

Document KnowledgeStructure

Ontology

Text Extraction

Template

Problems•Multiple topics in one paragraph•Incomplete information•Dispersed information

Problems from document

33

Document KnowledgeStructure

Ontology

Text Extraction

Template

Name-Entityrecognition

Explanation information Marker

(by paragraph classification)Summarization

Relevant paragraphs

selection

Frame elements composition

Retrieve reference id

Referen

ce idNew

en

tity

Text Extraction Architecture

34

Summarization

35

Knowledge SummarizationKnowledge Summarization

Text Extraction from IE

Knowledge Summarization

Knowledge Summary

Frame Structure

DiscourseStructure Theory

36

Knowledge Interesting

• Agricultural Domain ( Thai Agri corpus )• Cause – Symptom – Treatment of Plant’s disease

• Knowledge integrations : ( Template + Discourse Structure)

• Frame-based summarization (specific information ,Min-Yen Kan,1999)

37

Discourse Structure

• Model the global structure of the text and its relations to communicative goals

• Each relations compose 2 parts

• Nucleus : represent the essential piece of information

• Satellite : indicate supporting or background information

• Represent relation of textual unit with Tree structure

38

Cause

Symptom

Treatment

Text Extraction from IE

nucleus

nucleus

nucleus

satellite

satellite

Discourse relation

A

BC

D E

Text Selected

nucleus

nucleus

nucleus

Discourse relation

A

B

D

A

B

D

Text Summary

Frame-based Discourse Summarization

Slots Information

Dis

cour

se S

umm

ariz

erF

ram

e-ba

sed

39

Symptom Extraction from IE

<symptom ref="1" grp="1"> ล้#กี้ษณะอากี้าร อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-ม

จำากี้แผล้รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��าเม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะ

ขียายต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วน

น#�นจำะอ�อนย�บต#วล้งแล้ะเน�าอย�าง รวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�น

น��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้ เย��ม ม�กี้ล้�-นแรงมากี้ กี้ล้�-นน��จำะเป�นกี้

ล้�-นเฉ่ำพาะขีองโรคุน�� หล้#งจำากี้น#�นผ#กี้ จำะเน�าย�บตายไปท#�งต�น ซื้1-งอาจำแห�ง

เป�นส�น��าตาล้อย��บนผ�วด�น อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อตรงกี้ล้างล้�าต�นกี้�อน</symptom>

Cause :

Symptom :

Treatment :

อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้รอยช่��า เล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะขียาย

ต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วน น#�นจำะอ�อนย�บต#วล้งแล้ะเน�าอย�างรวดเร2ว ท�าให�ส�วนน#�นเป7- อย

แล้ะเป�นน��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้เย��ม ม�กี้ล้�-นแรงมากี้

Template representationText Summary

SymptomSymptom

How to

40

[E] หล้#งจำากี้น#�นผ#กี้จำะเน�าย�บตายไปท#�ง

ต�น ซื้1-งอาจำแห�งเป�นส�น��าตาล้อย��บนผ�วด�น

[A] ล้#กี้ษณะ อากี้าร

อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้

รอยช่��าเล้2กี้ๆเป�นจำ�ดฉ่ำ�-าน��า

[B] เม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะขียายต#วท�กี้ท�ศทางท#�งด�าน

ยาว กี้ว�างแล้ะล้1กี้

[D] กี้ล้�-นน��จำะเป�นกี้ล้�-นเฉ่ำพาะขีองโรคุน��

Symptom Annotated from IE

[C] เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บต#วล้งแล้ะเน�า

อย�างรวดเร2วท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้า

อ#นรวดเร2ว ม� เม&อกี้เย��ม ม�

กี้ล้�-นแรงมากี้

[F] อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อตรงกี้ล้างล้�าต�นกี้�อน

<symptom ref="1" grp="1"> ล้#กี้ษณะอากี้าร อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อ เร�-มจำากี้แผล้รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะขียายต#ว

ท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บต#วล้งแล้ะ เน�าอย�างรวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้เย��ม

ม�กี้ล้�-นแรงมากี้ กี้ล้�-นน��จำะเป�นกี้ล้�-นเฉ่ำพาะขีองโรคุน�� หล้#งจำากี้น#�นผ#กี้จำะเน�าย�บตายไป ท#�งต�น ซื้1-งอาจำแห�งเป�นส�น��าตาล้อย��บนผ�วด�น อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อ

ตรงกี้ล้างล้�าต�นกี้�อน</symptom>

Cause-Result

Consequence

Elaboration Elaboration

Elaboration

Disease :โรคุเน�าด�าขีองผ#กี้กี้าดหอม

Text Summary

41

ผ กก�ดหอมี

Cause :

Symptom :

Treatment:

เช่&�อแบคุท�เร�ย

อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้ รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-งแวดล้�อมเหมาะสม

แผล้จำะขียายต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บต#วล้งแล้ะเน�าอย�าง

รวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้าอ#น รวดเร2ว ม�เม&อกี้เย��ม ม�กี้ล้�-นแรงมากี้

ในกี้ารเกี้2บเกี้�-ยวคุวรใช่�ม�ดคุมๆ ต#ดให�ขีาดเพ�ยงคุร#�ง เด�ยว เพ&-อไม�ให�เกี้�ดรอยแผล้ซื้��าหล้#งจำากี้ารเกี้2บเกี้�-ยว

คุวรผ1-งผ#กี้ไว�ในท�-โปร�ง อากี้าศถ�ายเทได�ด�

Frame Representation

Disease : โรคเน��ด��

42

Discourse Summarization Procedure

1. To generating text segmentation (EDU: Elementary Discourse Unit )

2. To Build discourse tree structure from EDUs in step 1.

3. Select leaf nodes as Knowledge Summary(salient unit) .

43

Knowledge Discovery

44

Knowledge Processing Architecture

Template Construction

Template

Text Extraction

Knowledge Summary

Summarization

Knowledge Structure

Document

AnnotatedCorpus

KnowledgeExtraction

Generalizationrules

Knowledge Discovery

Ontology

Ontology

45

Knowledge structure• Knowledge structure consists of

– Plant growing method• Variety selection

• Soil preparation

• Seedling preparation

• Cultural practice

– Plant disease and insect control• Cause and symptom

• Treatment / killing

• Protection

46

Knowledge extraction

• Relation to be extracted– Cause relation

• e.g. Pyricularia grisea Causes of Blast disease in rice

– Effect relation• e.g. The Blast symptoms caused by Pyricularia grisea

are big brown spots like eye shape on leaf and……..

– Consequence relation

47

Generalization of Cause/Result Relations

• Need processes• Knowledge representation

• Induction reasoning

• Need ontology to define the supper set of insect and micro organism: e.g Louse = {เพล้��ยไฟพร�กี้, เพล้��ยไกี้�แจำ�, เพล้��ยจำ#;กี้จำ#-นฝัอย, เพล้��ยจำ#;กี้จำ#-น ….}

48

Knowledge Discovery

• Generalized Rules x Disease(x, เพล้��ยฯ)Symptom(x, ใบ, ใบหง�กี้งอ )

x Disease(x, Disease fromLouse)Symptom(x,leaf, curve )

x Disease(x, โรคุใบไหม�/โรคุไหม�)Symptom(x, ใบ, แผล้ส�เทา)

x Disease(x, Leaf blight/Blast)Symptom(x, leaf, grey blot)

49

Knowledge Discovery

• Generalized Rules for symptom– All louses cause of curve leaf symptom in fruit

– All Blast and Blight leaf diseases in plant have

grey blots/spots

50

From Generalized Symptoms Matrix to Inductive Prediction

• By using ID3 technique X3:leaf,curve

X7:leaf, grey blot

Y

Y

N

Disease caused by louse

Leaf blight/Blast Disease

51

Information Retrieval

Multi-viewpoint Knowledge Tracking

52

Why needs Multiviewpoint Knowledge Tracking?

53

What’s Knowledge Tracking?

– Interesting Viewpoint of Knowledge that different for each user.

Technical Paper : 5

Track : Year

2000 2001 2002

1,4 2,3 5

Track :Author

Mr. A Mr. B

1,2,5 3,4

54

Information Extraction

Documents

Parsing Document Structure

Title Extraction

Bibliography Extraction

Title Bibliography

Context

55

IntelligentSearch Engine

Knowledge Portal Processing

WWW

Unstructured,Semi-structured,

StructuredDocument

Meta DataAnnotation tools

KnowledgeStructure

Thai AGRISCorpus

Agricultural Information Bases

Real-World Ontology

Ontology Task Oriented

Ontology

MultilingualDictionary

MT KT

System Architecture

Knowledge Tracking

Information in document1. Format2. Genre Type3. Subtype4. Domain5. Creator /Author6. Publisher7. Source8. Copy Right9. Identify 10. Keyword11. TitleThai12. TitleEng13. Date14. Language15. Editor/Contributor

Metadata & Ontology Based

Classification

Metadata & Ontology Based

Classification

Document ClassDocument ClassMulti-viewpointKnowledge Tracking

Multi-viewpointKnowledge Tracking

Title

Author Publisher

Keyword date

Domain

Document

Class 1 Class 2 Class n…

56

ClassificationClassification

Corpus Training SetTraining Set

Metadata Extraction

C F

A

D

B E

NewDocument

Classification Process

Genre

Agriculture Economic Sport

C F A D B E

Prototype

57

Multi-viewpoint Knowledge Tracking

Metadata Organizing

• Genre

• Domain

• Title

• Author

• Publisher

• Keyword

• Date

etc..

Plant

Disease

Cause SymptomPrevention

Ontology

Title

AuthorPublisher

Keyword date

Genre

58

Search Engine VS. Knowledge Tracking

Search Engine Knowledge Tracking

1 2 3 4 5

Computer

Documents

1 2 3 4 5

Documents

Gain Knowledge About :- Have 5 Documents in Computer

Computer

Author Year

Line Author Year

A 2000

B 2001

C 2002

Gain Knowledge About :-Have 5 Documents in Computer-3 Authors Published In Computer Domain-Computer Domain Started at year 2000- and more ...

Extract from Doc.

59

Knowledge Tracking : Different Tracking Paths (Same Documents)

1 23 4 5

Computer

Author

A B C

2000 2002 2004 2001 2002

1 2 34 5

Computer

Year

2000 2001 2002

A B C A C

Another Knowledge Gain :-Author B is a new researcher.-Author C publishes papers continuously-Author A do not publish in year 2001-And more...

Another Knowledge Gain :-Author C is only one who published in year 2001-Author A and B are pioneer researcher in domain.-And more ...

60

Tracking by domain

Plant

Disease

Cause SymptomPrevention

Domain=Plant

C F A D B E

Title=Ginger Title=Cabbage Title=Cucumber

61

Title=Cabbage

A D

Author=Doae Author=KU

Plant

Disease

Cause SymptomPrevention

Tracking by title

62

Plant

Disease

Cause SymptomPrevention

Tracking by author

Author = KU

C F A D B E

Title=Ginger Title=Cabbage Title=Cucumber

63

MetadataClassification

MachineTranslation

mode

Input word search

Contentarea

64

65

66

67

68

ConclusionTo Be continued :Forever Maintaining Ontology in

• AFITA/WCCA2004

Joint Conference the 4th International Conference of the Asian Federation of Information Technology in Agricultural andThe 2nd World Congress of Computers in Agricultural and Natural Resources

August 9-12,2004 in Bangkok, Thailand

69

THE END.

Thank you for your attention.

84

Future Works

• Dissolving Problems

– Head VS. Non-Head of NP• ม�กี้ารน�าใบหมี�อนมาใช่�เป�นอ�ห�รส ตำว$ เช่�น ปล์� ว ว คว�ย เป�นต�น

– Implicit Expression in Sentence level สารพ�ษในโล้�ต�;น ม�คุ�ณสมบ#ต�ในกี้ารไล้�แมีล์ง ถ�าใช่�ในร�ปผงจำะม�ประส�ทธิ�ภาพ

ใน กี้ารฆ่�า หมี ด เห+บ ไรไก� ปล์วก แมีล์งว น