the next generation knowledge management for multilingual agricultural information
TRANSCRIPT
1
The Next-Generation Knowledge Management for
Multilingual Agricultural Information
Asanee Kawtrakul, Mukda Suktarachan, Aurawan Imsombut, Chaveewan Petchsiri,
Chalermpon Sirigayon, Thana Sukvaree, Trakul Permpool, Prachaya Boonkhuan,
Worapoj Peerawit, Intiraporn Mulasastra
The Specialty Research Unit of Natural Language Processing and Intelligent Information System Technology
Department of Computer Engineering, Kasetsart University, Bangkok,
Fifth Agricultural Ontology Service (AOS) Workshop29 April 2004, Beijing, China
2
Acknowledgement
• NECTEC – I-Know (Information Extraction and Knowledge
Discovery) Project
• AFITA 2002 (First, work for Fun , then get the Fund)
3
Agenda
• Motivation
• System Architecture: Knowledge Management
• Automatic Ontology Construction and
Maintenance
• Ontology-based Knowledge Management
– Information Extraction
– Sumarization
– Knowledge Discovery
– Knowledge Tracking
4
Motivation
– Information Overload, especially, unstructured electronic articles and
reports – Language barriers
– Thailand is the Agriculture-based Country
Knowledge Management for Multilingual Agricultural Information Management
5
What is KM?
• Knowledge Acquisition • Knowledge Processing :
– Knowledge Discovery
– Best Practice
• Knowledge Service– Knowledge Tracking
6
Agricultural Information Knowledge Management
Related Projects
1. Multilingual Dictionary
2. Ontology Construction and Maintenance System
3. Knowledge Portal
• Information Extraction
• Summarization
• Knowledge Discovery
4. Knowledge Tracking
5. Machine translation
7
IntelligentSearch Engine
Knowledge Portal Processing
WWW
Unstructured,Semi-structured,
StructuredDocument
Meta DataAnnotation tools
KnowledgeStructure
Thai AGRISCorpus
Agricultural Information Bases
Real-World Ontology
Ontology Task Oriented
Ontology
MultilingualDictionary
MT KT
System Architecture
Rice
Diseases&How to protect?
How to plant in
the winter?
Follow up the price
etc.
Yield
9
Introduction to Ontology
Two essential aspects of Ontologies
- Real-world Ontology
- For IR, IE and Semantic Web
- Task-Oriented Ontology
- For IE, Knowledge Tracking
10
Introduction to OntologyReal World Plants Taxonomy Ontology
family genu
s
taxonomy
species plants
Part-of relation
plant reproductive organs
plant vegetative organs
fruit seeds
flower
Acalypha
concepts
instances
. . .
IS-A relation
11
Introduction to OntologyTask Oriented ontology
disease control
cause from pathogen
cause from environment
Plant Diseases
symptom
causeTreatment
Scorch
Blight
. . .IS-A relation
concepts
instances
specific relations(e.g. Cause, hasSymptom)
. . .
12
Why needs Automatic Ontology construction and maintenance
system?
• Enhance performance of Information processing system such as IR, IE, Knowledge Tracking, etc.
• Creating ontology by the expert is an expensive task and it is endless task for ontology maintenance, especially new instance.
13
Automatic Ontology Construction
System Architecture
Heuristic Rules
Structured CorpusUnstructured Corpus
Raw Text Dictionary AGROVOC Thesaurus
Morphological Analysis
Term Extraction
Structure Analysis
Database Conversion
Thesaurus Recycling
Organizing System
VerificationSystem
Semantic Relation
Identification
14
Automatic Ontology Construction
• Sources– Thesaurus– Dictionary of Agriculture – Technical paper, Published document, Encyclopedia
• Differentiation of 3 sources.Thesaurus Dictionary Text
Structuring Yes Yes No
Terms Relation Organization
Yes Yes No
Expert Validation Yes Yes No
Up-to-date Data No No Yes
Amount of Data Small Small Large
15
Ontology from AGROVOC Thesaurus
• Technique:– Convert BT/NT to IS-A Relation
• Problem:– Not all BT/NT could define to IS-A Relation
Their semantic could defined as Ingredient of and other. For example.
MILK NT: Milk Fat (Ingredient of)
• Solutions:– NLP Technique: NP Analysis
16
Ontology from Dictionary• Applied Plants Name Dictionary for adding Formal
Name, Local Name which familiar to users in retrieving and machine translating.
Acalypha EUPHORBIACEAEbrachystachya Hornem. H ตำ��แยดอยใบบ�ง Tamyae doi bai bang
( General ).chinensis Roxb. = A. indica L.delpyana Gagnep. US ข�งปอยตำ วเมี�ย Khang poi tua mia (Central).evrardii Gagnep. = A.siamensis Oliv. ex Gagehispida Burm. f. ExS เกี้��ยวเกี้ล้�า Kiao klao,ไหมพรม Mai phrom (Northern);ห�งกระรอกแดง Hang krarok daeng (Bangkok); หางแมว Hang maeo(Central) ห�ปล้าช่�อน Hu pla chon (Ratchaburi); chenille plant, Red hotcat's tail.
Family/SubfamilyGenus
Specific epithetAuthor Name Formal Name
Local NameHabit
17
Ontology from Plant Names Dictionary
• Technique:– Applied task oriented parser to extract relation terms.
– Converted terms by alphabet characteristic and position of terms to relational database
• Limitation:– Dictionary has only plant names
18
Ontology from Text
• Problems: – Concept Identification
• Variety Concept
• Concept Boundary identification
• Many Candidate Terms
– Clue Word Ambiguity– Implicit Expression
19
Problem• Concept Identification
– Variety Concept• ง� เป�น พื�ชไร�น���มี น• Saseme is field-oil crops.
Concept => Field Crop, Oil Crop, Field-Oil Crop
– Concept Boundary identification• ผงไหมี ใช�ทำ��เป�น ฟิ"ล์$มีเคล์�อบร กษ�คว�มีสดในอ(ตำส�หกรรมีประมีง• Silk powder used as film for maintain freshness in seafood industry.
Concept => film, film for maintain freshness, film for maintain freshness in seafood industry
– Many Candidate Terms • สมี(นไพืรหล้ายช่น�ดม�สรรพคุ�ณเป�นย�ร กษ�โรค แล้ะม�กี้ารน�ามาผล้�ตในระด#บอ(ตำส�หกรรมี แล้�ว เช�น กระเทำ�ยมี ใบแปะก*วย
• Many herbs can be used as medicine and some of them are manufactured in the industry level, such as garlic, ginkgo biloba.Candidate Terms => herbs, medicine, industry
20
• Clue Word Ambiguity• ทานตะว#นเป�นพ&ช่น��าม#น • Sun-flower is oil crop.
=> HYPONYM (Sun-flower, Oil Crop)
• ดอกี้ต#วผ��ม�ล้#กี้ษณะช่�อเป�นพ� �มส�เขี�ยวอ�อน• Staminate is a green bush.
=> PROPERTIES (Flower, Color)
• Implicit Expression (No Clue-word)• Phrase level
“Jasmine Rice” => HYPONYM (Jasmine Rice, Rice)
Problem
21
Solutions
Problem TechniqueConcept Identification NP Analysis by using grammatical rules and
statistical bases.
Clue Word Ambiguity heuristic rules such as using the word list of object properties to eliminate non-concept term.
Implicit Expression Name Entity Extraction
22
Forest Ontology Organizing
• Use AGROVOC Ontology to be core tree
• Merge forest ontology from dictionary and text to
core ontology by NLP Technique such as Phrase
Analysis, Term Matching
23
Plant Products
Fruit
Watermelons (a)
Crops
Oil Crops
Oil Palms
Crops
Sesame
(c)
(d)
Fruit
Tamarind
Plant Products
Fruit
Watermelons Tamarind+
Crops
Oil Crops
Oil Palms
Sesame+
Crops
Oil Crops
Oil Palms
Crops
Oil Palms
Crops
Oil Crops
Oil Palms+
Cereals
Maize Maize
Dent Maize(b)
+
Field Crops
Maize
Cereals
Maize
Field Crops
Maize
Dent Maize Dent Maize
Forest Ontology Organizing
24
Verification Tools• For the expert to verify output and add additional related
word pairs
disease controldisease control
BlightBlightFungal diseasesFungal diseases
plant diseasesplant diseases
WiltsWilts
SmutsSmutsAnthracnosisAnthracnosis
MildewsMildewsRustsRusts
Bakanae
BakanaeBakanae
โรคุถอดฝั,กี้ดาบโรคุถอดฝั,กี้ดาบ
IS-AIS-AIS-AIS-A
IS-AIS-A IS-AIS-A
IS-AIS-AIS-AIS-AIS-AIS-A
Existing Concept :Existing Concept :Bacterial leaf blightBacterial leaf blightBacterial leaf spotBacterial leaf spotBlack spotBlack spotBrown spotBrown spotCrack stemCrack stemFusarium yellowFusarium yellowGummosis Gummosis Mosaic Mosaic Peanut mottle Peanut mottle
Preview TreeAdd
term and relation adding
Predicate :Predicate :
25
Ontology-based Knowledge Management
– Information Extraction
– Summarization
– Knowledge Discovery
– Knowledge Tracking
26
Knowledge Processing Architecture
Template Construction
Template
Text Extraction
Knowledge Summary
Summarization
Knowledge Structure
Document
AnnotatedCorpus
Knowledge Discovery
Ontology
Ontology
28
Describe in numbering
Has topic sentence
Describe in paragraph
Has plant name in title
Corpus Styleผ#กี้กี้าดหอม
ผ#กี้กี้าดหอมเป�นผ#กี้ท�-ใช่�บร�โภคุส�วนใบ เป�นผ#กี้จำ�าพวกี้ผ#กี้สล้#ดท�-ม�คุ�ณคุ�าทางอาหารส�ง น�ยมบร�โภคุกี้#น แพร�หล้ายท�-ส�ดในบรรดาผ#กี้สล้#ดด�วยกี้#น โดยส�วนใหญ่�น�ยมร#บประทานสดแบะน�ามาประกี้อบอาหารหล้าย
ช่น�ด คุนไทยน�ยมใช่�...
โรคุเน�าเล้ะ สาเหต�เกี้�ดจำากี้เช่&�อแบคุท�เร�ย Erwinia sp. เป�นโรคุท�-เกี้�ดขี1�นอย�างกี้ว�างขีวาง ท�าให�ผล้ผล้�ต ผ#กี้กี้าดหอมเส�ยหายอย�างมากี้ เป�นได�ท#�งในแปล้งปล้�กี้แล้ะโรงเกี้2บ นอกี้จำากี้น#�นย#งสามารถเกี้�ดโรคุได�ใน
ขีณะวางตล้าดแล้ะเม&-อผ��บร�โภคุซื้&�อไปแล้�วกี้2อาจำเกี้�ดโรคุน��ได�เช่�นกี้#น ล้#กี้ษณะอากี้าร อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-ง
แวดล้�อมเหมาะสมแผล้จำะขียายต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บ ต#วล้งแล้ะเน�าอย�างรวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้เย��ม ม�กี้ล้�-นแรง
มากี้ กี้ล้�-นน��จำะเป�นกี้ล้�-นเฉ่ำพาะขีองโรคุน�� หล้#งจำากี้น#�นผ#กี้จำะเน�าย�บตายไปท#�งต�น ซื้1-งอาจำแห�งเป�นส�น��าตาล้ อย��บนผ�วด�น อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อตรงกี้ล้างล้�าต�นกี้�อน
กี้ารป8องกี้#นกี้�าจำ#ด คุวรปฏิ�บ#ต�ด#งน��
1. ในกี้ารเกี้2บเกี้�-ยวคุวรใช่�ม�ดคุมๆ ต#ดให�ขีาดเพ�ยงคุร#�งเด�ยว เพ&-อไม�ให�เกี้�ดรอยแผล้ซื้��า เพ&-อป8องกี้#นกี้ารเกี้�ดแผล้ซื้1-งจำะเป�นทางเขี�าท�าล้ายขีองเช่&�อ2. หล้#งจำากี้ารเกี้2บเกี้�-ยวคุวรผ1-งผ#กี้ไว�ในท�-โปร�ง อากี้าศถ�ายเทได�ด� เพ&-อให�แผล้ตรงรอยต#ดแห�ง แล้ะทาป�นแดงท�-แผล้ด�วย...
Semi-Structure/one plant per document
29
Types of information• Entity information (has reference to entity in knowledge
structure) *may has a reference problem because surface form of the term
– Plant– Disease– Cause
• Explanation information– Symptom– Treatment
Entity information extracted by Name-entity recognitionExplanation information extracted by paragraph classification
and summarization
30
Information representation• Frame of Knowledge
– Reference to source of information
– One frame per document
– One document can has many frames
– Each frame represent one disease of the plant includes cause, symptom and treatment
<DOC id=“AGRIS0404200001”>กี้ารปล้�กี้กี้ะหล้�-าปล้�...โรคุแล้ะแมล้งศ#ตร�ท�-ส�าคุ#ญ่โรคุท�-ส�าคุ#ญ่ขีองกี้ะหล้�-าปล้� ได�แกี้�1. โรคุเน�าเล้ะขีองกี้ะหล้�-าปล้�สาเหต� เกี้�ดจำากี้เช่&�อราแบคุท�เร�ยล้#กี้ษณะอากี้าร โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอยช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2นจำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้งกี้ารป8องกี้#นกี้�าจำ#ด1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ10 องศาเซื้ล้เซื้�ยส...</DOC>
Plant-Disease: <DOC_ID=“404200001”>plant : กี้ะหล้�-าปล้�<PLANT_ID=“000123”>disease : โรคุเน�าเล้ะ<DISEASE_ID=“000456”>cause : เช่&�อรท�เร�ย<PATHOGEN_ID=“000789”>symptom : โรคุน��ด�เกี้&อบท�กี้ระยะต�บโตแต�พบมากี้ในระยะท�-treatment : ระม#ดอย�าให�เกี้�ดแผล้ท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง
Plant-Disease: <DOC_ID=“404200001”>plant : กี้ะหล้�-าปล้�<PLANT_ID=“000124”>disease : โรคุเน�าเล้ะ<DISEASE_ID=“000457”>cause : เช่&�อรท�เร�ย<PATHOGEN_ID=“000790”>symptom : โรคุน��ด�เกี้&อบท�กี้ระยะต�บโตแต�พบมากี้ในระยะท�-treatment : ระม#ดอย�าให�เกี้�ดแผล้ท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�งPlant-Disease: <DOC_ID=“404200001”>plant : กี้ะหล้�-าปล้�<PLANT_ID=“000125”>disease : โรคุเน�าเล้ะ<DISEASE_ID=“000458”>cause : เช่&�อรท�เร�ย<PATHOGEN_ID=“000791”>symptom : โรคุน��ด�เกี้&อบท�กี้ระยะต�บโตแต�พบมากี้ในระยะท�-treatment : ระม#ดอย�าให�เกี้�ดแผล้ท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง
31
Plant
Disease
Cause Symptom Treatment
Template <Template Name>{
TE: <Element-Name>([Constraint],…);…
}
Constraint:=NE-class | clue
KnowledgeStructure
Template Plant-Disease{
TE: plant (NE-class=“Plant”);TE: disease (NE-class=“Disease”);TE: cause (NE-class=“Pathogen”);TE: symptom (clue=“ ”อากี้าร , “ผ�ด”ปกี้ต� );
TE: treatment (clue=“ป8องกี้#น”, “กี้�าจำ#ด”);}
<DOC id=“AGRIS0404200001”>กี้ารปล้�กี้<plant plant_id=“000123”>กี้ะหล้�-าปล้�</plant>...โรคุแล้ะแมล้งศ#ตร�ท�-ส�าคุ#ญ่โรคุท�-ส�าคุ#ญ่ขีองกี้ะหล้�-าปล้� ได�แกี้�1. <disease disease_id=“000456” plant_id=“000123” grp_id=“1”>โรคุเน�าเล้ะขีองกี้ะหล้�-าปล้�</disease>สาเหต� เกี้�ดจำากี้<cause pathogen_id=“000789” plant_id=“000123” grp_id=“1”>เช่&�อราแบคุท�เร�ย</cause><symptom plant_id=“000123” grp_id=“1”>ล้#กี้ษณะอากี้าร โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอยช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2นจำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้ง</symptom>กี้ารป8องกี้#นกี้�าจำ#ด<treatment plant_id=“000123” grp_id=“1”>1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ10 องศาเซื้ล้เซื้�ยส</treatment>...</DOC>
<DOC id=“AGRIS0404200001”>กี้ารปล้�กี้กี้ะหล้�-าปล้�...โรคุแล้ะแมล้งศ#ตร�ท�-ส�าคุ#ญ่โรคุท�-ส�าคุ#ญ่ขีองกี้ะหล้�-าปล้� ได�แกี้�1. โรคุเน�าเล้ะขีองกี้ะหล้�-าปล้�สาเหต� เกี้�ดจำากี้เช่&�อราแบคุท�เร�ยล้#กี้ษณะอากี้าร โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอยช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2นจำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้งกี้ารป8องกี้#นกี้�าจำ#ด1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ10 องศาเซื้ล้เซื้�ยส...</DOC>
Summarization
Plant-Disease : <DOC_ID=“AGRIS0404200001”>
plant : กี้ะหล้�-าปล้� <PLANT_ID=“000123”>
disease : โรคุเน�าเล้ะ <DISEASE_ID=“000456”>
cause : เช่&�อราแบคุท�เร�ย <PATHOGEN_ID=“000789”>
symptom : โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะ ท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอย
ช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2น จำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้ง
treatment : 1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง
2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ
10 องศาเซื้ล้เซื้�ยส
Overview processes
32
Document KnowledgeStructure
Ontology
Text Extraction
Template
Problems•Multiple topics in one paragraph•Incomplete information•Dispersed information
Problems from document
33
Document KnowledgeStructure
Ontology
Text Extraction
Template
Name-Entityrecognition
Explanation information Marker
(by paragraph classification)Summarization
Relevant paragraphs
selection
Frame elements composition
Retrieve reference id
Referen
ce idNew
en
tity
Text Extraction Architecture
35
Knowledge SummarizationKnowledge Summarization
Text Extraction from IE
Knowledge Summarization
Knowledge Summary
Frame Structure
DiscourseStructure Theory
36
Knowledge Interesting
• Agricultural Domain ( Thai Agri corpus )• Cause – Symptom – Treatment of Plant’s disease
• Knowledge integrations : ( Template + Discourse Structure)
• Frame-based summarization (specific information ,Min-Yen Kan,1999)
37
Discourse Structure
• Model the global structure of the text and its relations to communicative goals
• Each relations compose 2 parts
• Nucleus : represent the essential piece of information
• Satellite : indicate supporting or background information
• Represent relation of textual unit with Tree structure
38
Cause
Symptom
Treatment
Text Extraction from IE
nucleus
nucleus
nucleus
satellite
satellite
Discourse relation
A
BC
D E
Text Selected
nucleus
nucleus
nucleus
Discourse relation
A
B
D
A
B
D
Text Summary
Frame-based Discourse Summarization
Slots Information
Dis
cour
se S
umm
ariz
erF
ram
e-ba
sed
39
Symptom Extraction from IE
<symptom ref="1" grp="1"> ล้#กี้ษณะอากี้าร อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-ม
จำากี้แผล้รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��าเม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะ
ขียายต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วน
น#�นจำะอ�อนย�บต#วล้งแล้ะเน�าอย�าง รวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�น
น��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้ เย��ม ม�กี้ล้�-นแรงมากี้ กี้ล้�-นน��จำะเป�นกี้
ล้�-นเฉ่ำพาะขีองโรคุน�� หล้#งจำากี้น#�นผ#กี้ จำะเน�าย�บตายไปท#�งต�น ซื้1-งอาจำแห�ง
เป�นส�น��าตาล้อย��บนผ�วด�น อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อตรงกี้ล้างล้�าต�นกี้�อน</symptom>
Cause :
Symptom :
Treatment :
อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้รอยช่��า เล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะขียาย
ต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วน น#�นจำะอ�อนย�บต#วล้งแล้ะเน�าอย�างรวดเร2ว ท�าให�ส�วนน#�นเป7- อย
แล้ะเป�นน��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้เย��ม ม�กี้ล้�-นแรงมากี้
Template representationText Summary
SymptomSymptom
How to
40
[E] หล้#งจำากี้น#�นผ#กี้จำะเน�าย�บตายไปท#�ง
ต�น ซื้1-งอาจำแห�งเป�นส�น��าตาล้อย��บนผ�วด�น
[A] ล้#กี้ษณะ อากี้าร
อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้
รอยช่��าเล้2กี้ๆเป�นจำ�ดฉ่ำ�-าน��า
[B] เม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะขียายต#วท�กี้ท�ศทางท#�งด�าน
ยาว กี้ว�างแล้ะล้1กี้
[D] กี้ล้�-นน��จำะเป�นกี้ล้�-นเฉ่ำพาะขีองโรคุน��
Symptom Annotated from IE
[C] เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บต#วล้งแล้ะเน�า
อย�างรวดเร2วท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้า
อ#นรวดเร2ว ม� เม&อกี้เย��ม ม�
กี้ล้�-นแรงมากี้
[F] อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อตรงกี้ล้างล้�าต�นกี้�อน
<symptom ref="1" grp="1"> ล้#กี้ษณะอากี้าร อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อ เร�-มจำากี้แผล้รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะขียายต#ว
ท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บต#วล้งแล้ะ เน�าอย�างรวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้เย��ม
ม�กี้ล้�-นแรงมากี้ กี้ล้�-นน��จำะเป�นกี้ล้�-นเฉ่ำพาะขีองโรคุน�� หล้#งจำากี้น#�นผ#กี้จำะเน�าย�บตายไป ท#�งต�น ซื้1-งอาจำแห�งเป�นส�น��าตาล้อย��บนผ�วด�น อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อ
ตรงกี้ล้างล้�าต�นกี้�อน</symptom>
Cause-Result
Consequence
Elaboration Elaboration
Elaboration
Disease :โรคุเน�าด�าขีองผ#กี้กี้าดหอม
Text Summary
41
ผ กก�ดหอมี
Cause :
Symptom :
Treatment:
เช่&�อแบคุท�เร�ย
อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้ รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-งแวดล้�อมเหมาะสม
แผล้จำะขียายต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บต#วล้งแล้ะเน�าอย�าง
รวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้าอ#น รวดเร2ว ม�เม&อกี้เย��ม ม�กี้ล้�-นแรงมากี้
ในกี้ารเกี้2บเกี้�-ยวคุวรใช่�ม�ดคุมๆ ต#ดให�ขีาดเพ�ยงคุร#�ง เด�ยว เพ&-อไม�ให�เกี้�ดรอยแผล้ซื้��าหล้#งจำากี้ารเกี้2บเกี้�-ยว
คุวรผ1-งผ#กี้ไว�ในท�-โปร�ง อากี้าศถ�ายเทได�ด�
Frame Representation
Disease : โรคเน��ด��
42
Discourse Summarization Procedure
1. To generating text segmentation (EDU: Elementary Discourse Unit )
2. To Build discourse tree structure from EDUs in step 1.
3. Select leaf nodes as Knowledge Summary(salient unit) .
44
Knowledge Processing Architecture
Template Construction
Template
Text Extraction
Knowledge Summary
Summarization
Knowledge Structure
Document
AnnotatedCorpus
KnowledgeExtraction
Generalizationrules
Knowledge Discovery
Ontology
Ontology
45
Knowledge structure• Knowledge structure consists of
– Plant growing method• Variety selection
• Soil preparation
• Seedling preparation
• Cultural practice
– Plant disease and insect control• Cause and symptom
• Treatment / killing
• Protection
46
Knowledge extraction
• Relation to be extracted– Cause relation
• e.g. Pyricularia grisea Causes of Blast disease in rice
– Effect relation• e.g. The Blast symptoms caused by Pyricularia grisea
are big brown spots like eye shape on leaf and……..
– Consequence relation
47
Generalization of Cause/Result Relations
• Need processes• Knowledge representation
• Induction reasoning
• Need ontology to define the supper set of insect and micro organism: e.g Louse = {เพล้��ยไฟพร�กี้, เพล้��ยไกี้�แจำ�, เพล้��ยจำ#;กี้จำ#-นฝัอย, เพล้��ยจำ#;กี้จำ#-น ….}
48
Knowledge Discovery
• Generalized Rules x Disease(x, เพล้��ยฯ)Symptom(x, ใบ, ใบหง�กี้งอ )
x Disease(x, Disease fromLouse)Symptom(x,leaf, curve )
x Disease(x, โรคุใบไหม�/โรคุไหม�)Symptom(x, ใบ, แผล้ส�เทา)
x Disease(x, Leaf blight/Blast)Symptom(x, leaf, grey blot)
49
Knowledge Discovery
• Generalized Rules for symptom– All louses cause of curve leaf symptom in fruit
– All Blast and Blight leaf diseases in plant have
grey blots/spots
50
From Generalized Symptoms Matrix to Inductive Prediction
• By using ID3 technique X3:leaf,curve
X7:leaf, grey blot
Y
Y
N
Disease caused by louse
Leaf blight/Blast Disease
53
What’s Knowledge Tracking?
– Interesting Viewpoint of Knowledge that different for each user.
Technical Paper : 5
Track : Year
2000 2001 2002
1,4 2,3 5
Track :Author
Mr. A Mr. B
1,2,5 3,4
54
Information Extraction
Documents
Parsing Document Structure
Title Extraction
Bibliography Extraction
Title Bibliography
Context
55
IntelligentSearch Engine
Knowledge Portal Processing
WWW
Unstructured,Semi-structured,
StructuredDocument
Meta DataAnnotation tools
KnowledgeStructure
Thai AGRISCorpus
Agricultural Information Bases
Real-World Ontology
Ontology Task Oriented
Ontology
MultilingualDictionary
MT KT
System Architecture
Knowledge Tracking
Information in document1. Format2. Genre Type3. Subtype4. Domain5. Creator /Author6. Publisher7. Source8. Copy Right9. Identify 10. Keyword11. TitleThai12. TitleEng13. Date14. Language15. Editor/Contributor
Metadata & Ontology Based
Classification
Metadata & Ontology Based
Classification
Document ClassDocument ClassMulti-viewpointKnowledge Tracking
Multi-viewpointKnowledge Tracking
Title
Author Publisher
Keyword date
Domain
Document
Class 1 Class 2 Class n…
56
ClassificationClassification
Corpus Training SetTraining Set
Metadata Extraction
C F
A
D
B E
NewDocument
Classification Process
Genre
Agriculture Economic Sport
…
C F A D B E
Prototype
57
Multi-viewpoint Knowledge Tracking
Metadata Organizing
• Genre
• Domain
• Title
• Author
• Publisher
• Keyword
• Date
etc..
Plant
Disease
Cause SymptomPrevention
Ontology
Title
AuthorPublisher
Keyword date
Genre
58
Search Engine VS. Knowledge Tracking
Search Engine Knowledge Tracking
1 2 3 4 5
Computer
Documents
1 2 3 4 5
Documents
Gain Knowledge About :- Have 5 Documents in Computer
Computer
Author Year
Line Author Year
A 2000
B 2001
C 2002
Gain Knowledge About :-Have 5 Documents in Computer-3 Authors Published In Computer Domain-Computer Domain Started at year 2000- and more ...
Extract from Doc.
59
Knowledge Tracking : Different Tracking Paths (Same Documents)
1 23 4 5
Computer
Author
A B C
2000 2002 2004 2001 2002
1 2 34 5
Computer
Year
2000 2001 2002
A B C A C
Another Knowledge Gain :-Author B is a new researcher.-Author C publishes papers continuously-Author A do not publish in year 2001-And more...
Another Knowledge Gain :-Author C is only one who published in year 2001-Author A and B are pioneer researcher in domain.-And more ...
60
Tracking by domain
Plant
Disease
Cause SymptomPrevention
Domain=Plant
C F A D B E
Title=Ginger Title=Cabbage Title=Cucumber
…
61
Title=Cabbage
A D
Author=Doae Author=KU
…
Plant
Disease
Cause SymptomPrevention
Tracking by title
62
Plant
Disease
Cause SymptomPrevention
Tracking by author
Author = KU
C F A D B E
…
Title=Ginger Title=Cabbage Title=Cucumber
68
ConclusionTo Be continued :Forever Maintaining Ontology in
• AFITA/WCCA2004
Joint Conference the 4th International Conference of the Asian Federation of Information Technology in Agricultural andThe 2nd World Congress of Computers in Agricultural and Natural Resources
August 9-12,2004 in Bangkok, Thailand