multilingual access to biomedical documents stefan schulz

28
Multilingual Access to Biomedical Documents Stefan Schulz

Upload: goetz-westermann

Post on 06-Apr-2015

110 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Multilingual Access to Biomedical Documents Stefan Schulz

Multilingual Access to Biomedical Documents

Stefan Schulz

Page 2: Multilingual Access to Biomedical Documents Stefan Schulz

Company

Page 3: Multilingual Access to Biomedical Documents Stefan Schulz

Averbis GmbH

• Founded in April 2007

• Based in Freiburg im Breisgau

• Team of experts in medicine and computer sciences

Averbis GmbH

Shareholders• Kornél Markó• Philipp Daumke• Campus Technologies

Freiburg GmbH, Universitätsklinikum Freiburg

Directors

• Kornél Markó• Philipp Daumke

Scientific Board

• Prof. Dr. Rüdiger Klar• PD Dr. Stefan Schulz• Prof. Dr. Udo Hahn

Consultants

• Dr. Albrecht Zaiß• Prof. Dr. Bernhard Arnolds

Employees &Student Workers

Page 4: Multilingual Access to Biomedical Documents Stefan Schulz

Averbis GmbH

• Innovative semantic retrieval technologies based on 10+ scientific research

• Search & language technologies specifically designed for health care and life sciences

• Target market/Scope:

Health Portals &Web Sites

Patient Records in Hospitals and Medical Practices

Information inventory of medicalpublishers

Enhancementof Information Retrievals

Medical BillingServices

Patient Safety

Semantic InteroperabilitybetweenInformation Systems

Information Retrieval

Classifications

Medical DecisionMaking

Research Literaturein Scientific DatabasesHealth Portals &

Web Sites

Patient Records in Hospitals and Medical Practices

Information inventory of medicalpublishers

Enhancementof Information Retrievals

Medical BillingServices

Patient Safety

Semantic InteroperabilitybetweenInformation Systems

Information Retrieval

Classifications

Medical DecisionMaking

Research Literaturein Scientific Databases

Averbis – Scope & Business Area

Page 5: Multilingual Access to Biomedical Documents Stefan Schulz

Cross Language Information Retrieval

• Cross language information retrieval (CLIR) deals with

retrieving information written in a language different from the

language of the user's query

• CLIR research in medicine becomes especially important in

exchanging global knowledge

– Researchers want to share global research results

– Medical doctors need to exchange patient information worldwide

– Patients demand extensive access to medical information

Page 6: Multilingual Access to Biomedical Documents Stefan Schulz

• Includes Monolingal Information Retrieval

• Benefit for multilingual users– Avoid multiple queries

– Pose a question in their preferred language

• Monolingual users take advantage– if their passive knowledge is sufficient to understand documents in

a foreign language

– If (automatic) translation can be performed

– If image captions are used to search for images

Cross Language Information Retrieval

Page 7: Multilingual Access to Biomedical Documents Stefan Schulz

Freiburger Handsearch-Projekt

• Begonnen hat das Handsearching in Deutschland im Jahr 1995 […].

• Das UK Cochrane Centre koordinierte das Projekt zum Handsearching von in Europa publizierten Zeitschriften mit allgemeinem medizinischem Themenbezug. Insgesamt nahmen 16 europäische Staaten mit 12 verschiedenen Landessprachen an diesem Projekt teil.

• Von mehr als 100 Handsearchern wurden 119 Zeitschriften durchsucht. – Dabei wurden 21.620 controlled clinical trials identifiziert (12.613 RCTs und

9.007 CCTs); – davon waren 17.980 (83%) nicht als „controlled trial“ in Medline gelistet. – 6.554 (30%) stammten aus Zeitschriften, die nicht in Medline aufgenommen sind.– Etwa ein Drittel aller kontrollierten Studien wurden in einer anderen Sprache als

Englisch publiziert, davon war ein Großteil (5.300 RCTs und CCTs) aus den 20 durchsuchten deutschsprachigen medizinischen Zeitschriften.

Page 8: Multilingual Access to Biomedical Documents Stefan Schulz

Core Technology

Page 9: Multilingual Access to Biomedical Documents Stefan Schulz

Hypotheses

• The true, significant elements of language are . . . either words, significant parts ofwords, or word groupings. [Sapir 1921]

• Linguistic variations make (medical) Information Retrieval difficult

Levels of linguistic variations

Morphology

Syntax

Lexico-Semantics

Page 10: Multilingual Access to Biomedical Documents Stefan Schulz

– Inflection: diseases, appendix, -ices

– Derivation: leucozyte, leukozytic

– Composition: para|sympath|ectomy

– Acronyms: AIDS, SARS, OECD

– Orthographic Variants: oesophagus, esophagus

– Synonyms:

• Sarcoidosis, Morbus Besnier-Boeck-Schaumann, Lupus pernio, benign lymphogranulomatosis, uveoparotid fever….

– Proper Names: Aspirin, ASS, ...

Linguistic variations

Page 11: Multilingual Access to Biomedical Documents Stefan Schulz

Innovative approach

muscle

myo

muskel

muscul

inflamm

-itis

inflam

entzünd

KONZEPT

subwort herzheart

card

corazon

card

INFLAMMATIONMUSCLE

HEART

• conventional lexicons contain about 200.000 entries

• Active vocabulary is tenfold+ bigger

Innovation: subword lexicons linked across languages via a

thesaurus

Data reduction by 90% Normalisation of all linguistic variants Optimal coding efficiency retrieval performance gain up to 50%

(monolingual) and 20% (multilingual) (MedInfo 2007)

Myo|card|itis

Herz|muskel|entzünd|ung

Inflamm|ation of the heart muscle

Page 12: Multilingual Access to Biomedical Documents Stefan Schulz

Morpho-Semantic Indexing

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo-thyreose ...

Page 13: Multilingual Access to Biomedical Documents Stefan Schulz

Morpho-Semantic Indexing

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo-thyreose ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh-werte erlauben die diagnose einer primaeren hypo-thyreose ...

OrthographicRules

OrthographicNormalization

Page 14: Multilingual Access to Biomedical Documents Stefan Schulz

Morpho-Semantic Indexing

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose

Morph. SegmentationSubword Lexicon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo-thyreose ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh-werte erlauben die diagnose einer primaeren hypo-thyreose ...

OrthographicRules

OrthographicNormalization

Page 15: Multilingual Access to Biomedical Documents Stefan Schulz

Morpho-Semantic Indexing

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose

Morph. SegmentationSubword Lexicon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo-thyreose ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh-werte erlauben die diagnose einer primaeren hypo-thyreose ...

OrthographicRules

OrthographicNormalization

#up tsh #value #suggest #diagnost #primar #small #thyre

MID-Representation

#up tsh #value #permit #diagnost #primar #small #thyre Subword

Thesaurus

SemanticNormalization

Page 16: Multilingual Access to Biomedical Documents Stefan Schulz

Products

Page 17: Multilingual Access to Biomedical Documents Stefan Schulz

Averbis Search Platform

Ultrafast semantic search engine

Optimized for Health Care and Life Sciences

Content analysis and linguistic normalisation of documents

Most intuitive user interfaces

Laymen and expert ways to access information

Multi- & crosslingual

Page 18: Multilingual Access to Biomedical Documents Stefan Schulz

Features

Type Search for… Find… Others Averbis

Typos breats cancer breast cancer

Spelling oesophagus esophagus

Inflection appendix appendices

Word Order chronic bronchitis bronchitis, chronic

Derivation leukozytic leucozyte

Context parasympathectomy removal of parasympatic tissue ---

Composita myocarditis Inflammation of the heart muscle ---

Synonyms stroke apoplex ---

Abbreviations WHO World Health Organization ---

Laymen/Expert Breast removal mastectomy ---

Multilinguality HerzmuskelentzündungInflammation of the heart muscle,

myocarditis---

Page 19: Multilingual Access to Biomedical Documents Stefan Schulz

Ways to access information

• via Body Key

• E.g.

– Three levels

• Main category

• Sub category

• Diseases/Procedures (ICD/OPS)

– Categories selected by anatomy / functions

Optional customizing to category subsets / other classifications

Ear• Outer Ear• Middle Ear

- Ear Infection- Hearing Loss

• Inner Ear• Hearing

- Hearing loss• Balance

Respiratory Tract

Heart and Blood

Digestive System

Bones, Joints and Muscles

Other categories >

Urinary and Reproductive System

Page 20: Multilingual Access to Biomedical Documents Stefan Schulz

Ways to access information

Tag-Clouds

• Offer highly associated terms in addition to a free-text query

• Font size corresponds to semantic adjacency

• Allows a stepwise refinement or navigation through the information

Hip Osteo-arthritis

ArthroseHip replacement

IbuprofenDiclofenac

Sport therapy

Query: Hip Joint

Page 21: Multilingual Access to Biomedical Documents Stefan Schulz

Ways to access information

Osteoarthritis, Hip

Hip Disease

Diseases

Hip dislocation

Hip replacementReoperation

Procedures

Voltaren

Ibuprofen

Medicaments

Kold, Søren Ovesen, Janne

Researcher

Related Terms:

• Offer highly associated terms in addition to a free-text query (like in a Tag Cloud)

• Grouping in predefined categories

• Allows to search for the most frequent diseases and procedures of an anatomical structure, e.g.

• „Hip Joint -> Osteoarthritis, Hip -> Hip replacements“

Query: Hip Joint

Page 22: Multilingual Access to Biomedical Documents Stefan Schulz

Classifications

• Averbis ist Experte für die transparente Einbindung verschiedenster medizinischer Klassifikationen in das Information Retrieval

• Vorteile des Einsatzes bekannter Klassifikationen:– Semantische Interoperabilität

Beispielsweise können Leistungen verschiedener Krankenhäuser durch Verwendung von ICD/OPS einheitlich verglichen werden

– Cross-Linking zwischen Terminologien

Hierdurch können Benutzer per Mausklick von Organen zu Krankheiten, von Krankheiten zu Therapien, von Therapien zu Forschungsergebnissen etc. navigieren

– Verbesserung der Retrievalergebnisse

Durch die Verwendung von Schlagwörtern wird das Auffinden von Dokumenten enorm erleichtert

– Fallabrechnung

Effiziente Extraktion von ICD/OPS-Codes aus ärztlichen Freitexten erleichtert den klinischen Arbeitsablauf von Ärzten und führt zu mehr Zeit für die Patientenversorgung

– Patientensicherheit

Beim instituts- und landesübergreifenden Austausch von Patientendaten können durch standardisierte Terminologien Mehrfachuntersuchungen vermieden, auf Allergien und Unverträglichkeiten hingewiesen und Krankengeschichten einheitlich übermittelt werden

Page 23: Multilingual Access to Biomedical Documents Stefan Schulz

Referenzen

Page 24: Multilingual Access to Biomedical Documents Stefan Schulz

• Portal zur eigenständigen Entscheidungsfindung bei der Krankenhauswahl

• Aufgabe der Averbis: Einfacher Zugang zu Expertenwissen

– Laiensprachliche Suche

– Laiensprachliche Klassifikation

(Körpernavigation)

• Launch: – Frühjahr 2008– Microsite seit 18.06.07

Page 25: Multilingual Access to Biomedical Documents Stefan Schulz
Page 26: Multilingual Access to Biomedical Documents Stefan Schulz

Zentralbibliothek für Medizin

• Größte europäische Medizinbibliothek

• ~20 Millionen Datenbankeinträge

• 60,000 Anfragen pro Monat

• durch Averbis erstmalig intelligente und sprach-übergreifende Suche möglich

Page 27: Multilingual Access to Biomedical Documents Stefan Schulz
Page 28: Multilingual Access to Biomedical Documents Stefan Schulz

Thank you!