multilingual access to biomedical documents stefan schulz
TRANSCRIPT
Multilingual Access to Biomedical Documents
Stefan Schulz
Company
Averbis GmbH
• Founded in April 2007
• Based in Freiburg im Breisgau
• Team of experts in medicine and computer sciences
Averbis GmbH
Shareholders• Kornél Markó• Philipp Daumke• Campus Technologies
Freiburg GmbH, Universitätsklinikum Freiburg
Directors
• Kornél Markó• Philipp Daumke
Scientific Board
• Prof. Dr. Rüdiger Klar• PD Dr. Stefan Schulz• Prof. Dr. Udo Hahn
Consultants
• Dr. Albrecht Zaiß• Prof. Dr. Bernhard Arnolds
Employees &Student Workers
Averbis GmbH
• Innovative semantic retrieval technologies based on 10+ scientific research
• Search & language technologies specifically designed for health care and life sciences
• Target market/Scope:
Health Portals &Web Sites
Patient Records in Hospitals and Medical Practices
Information inventory of medicalpublishers
Enhancementof Information Retrievals
Medical BillingServices
Patient Safety
Semantic InteroperabilitybetweenInformation Systems
Information Retrieval
Classifications
Medical DecisionMaking
Research Literaturein Scientific DatabasesHealth Portals &
Web Sites
Patient Records in Hospitals and Medical Practices
Information inventory of medicalpublishers
Enhancementof Information Retrievals
Medical BillingServices
Patient Safety
Semantic InteroperabilitybetweenInformation Systems
Information Retrieval
Classifications
Medical DecisionMaking
Research Literaturein Scientific Databases
Averbis – Scope & Business Area
Cross Language Information Retrieval
• Cross language information retrieval (CLIR) deals with
retrieving information written in a language different from the
language of the user's query
• CLIR research in medicine becomes especially important in
exchanging global knowledge
– Researchers want to share global research results
– Medical doctors need to exchange patient information worldwide
– Patients demand extensive access to medical information
• Includes Monolingal Information Retrieval
• Benefit for multilingual users– Avoid multiple queries
– Pose a question in their preferred language
• Monolingual users take advantage– if their passive knowledge is sufficient to understand documents in
a foreign language
– If (automatic) translation can be performed
– If image captions are used to search for images
Cross Language Information Retrieval
Freiburger Handsearch-Projekt
• Begonnen hat das Handsearching in Deutschland im Jahr 1995 […].
• Das UK Cochrane Centre koordinierte das Projekt zum Handsearching von in Europa publizierten Zeitschriften mit allgemeinem medizinischem Themenbezug. Insgesamt nahmen 16 europäische Staaten mit 12 verschiedenen Landessprachen an diesem Projekt teil.
• Von mehr als 100 Handsearchern wurden 119 Zeitschriften durchsucht. – Dabei wurden 21.620 controlled clinical trials identifiziert (12.613 RCTs und
9.007 CCTs); – davon waren 17.980 (83%) nicht als „controlled trial“ in Medline gelistet. – 6.554 (30%) stammten aus Zeitschriften, die nicht in Medline aufgenommen sind.– Etwa ein Drittel aller kontrollierten Studien wurden in einer anderen Sprache als
Englisch publiziert, davon war ein Großteil (5.300 RCTs und CCTs) aus den 20 durchsuchten deutschsprachigen medizinischen Zeitschriften.
Core Technology
Hypotheses
• The true, significant elements of language are . . . either words, significant parts ofwords, or word groupings. [Sapir 1921]
• Linguistic variations make (medical) Information Retrieval difficult
Levels of linguistic variations
Morphology
Syntax
Lexico-Semantics
– Inflection: diseases, appendix, -ices
– Derivation: leucozyte, leukozytic
– Composition: para|sympath|ectomy
– Acronyms: AIDS, SARS, OECD
– Orthographic Variants: oesophagus, esophagus
– Synonyms:
• Sarcoidosis, Morbus Besnier-Boeck-Schaumann, Lupus pernio, benign lymphogranulomatosis, uveoparotid fever….
– Proper Names: Aspirin, ASS, ...
Linguistic variations
Innovative approach
muscle
myo
muskel
muscul
inflamm
-itis
inflam
entzünd
KONZEPT
subwort herzheart
card
corazon
card
INFLAMMATIONMUSCLE
HEART
• conventional lexicons contain about 200.000 entries
• Active vocabulary is tenfold+ bigger
Innovation: subword lexicons linked across languages via a
thesaurus
Data reduction by 90% Normalisation of all linguistic variants Optimal coding efficiency retrieval performance gain up to 50%
(monolingual) and 20% (multilingual) (MedInfo 2007)
Myo|card|itis
Herz|muskel|entzünd|ung
Inflamm|ation of the heart muscle
Morpho-Semantic Indexing
High TSH values suggest the diagnosis of primary hypo-thyroidism ...
Original
Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo-thyreose ...
Morpho-Semantic Indexing
High TSH values suggest the diagnosis of primary hypo-thyroidism ...
Original
Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo-thyreose ...
high tsh values suggest the diagnosis of primary hypo-thyroidism ...
erhoehte tsh-werte erlauben die diagnose einer primaeren hypo-thyreose ...
OrthographicRules
OrthographicNormalization
Morpho-Semantic Indexing
high tsh value s suggest the diagnos is of primar y hypo thyroid ism
er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose
Morph. SegmentationSubword Lexicon
High TSH values suggest the diagnosis of primary hypo-thyroidism ...
Original
Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo-thyreose ...
high tsh values suggest the diagnosis of primary hypo-thyroidism ...
erhoehte tsh-werte erlauben die diagnose einer primaeren hypo-thyreose ...
OrthographicRules
OrthographicNormalization
Morpho-Semantic Indexing
high tsh value s suggest the diagnos is of primar y hypo thyroid ism
er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose
Morph. SegmentationSubword Lexicon
High TSH values suggest the diagnosis of primary hypo-thyroidism ...
Original
Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypo-thyreose ...
high tsh values suggest the diagnosis of primary hypo-thyroidism ...
erhoehte tsh-werte erlauben die diagnose einer primaeren hypo-thyreose ...
OrthographicRules
OrthographicNormalization
#up tsh #value #suggest #diagnost #primar #small #thyre
MID-Representation
#up tsh #value #permit #diagnost #primar #small #thyre Subword
Thesaurus
SemanticNormalization
Products
Averbis Search Platform
Ultrafast semantic search engine
Optimized for Health Care and Life Sciences
Content analysis and linguistic normalisation of documents
Most intuitive user interfaces
Laymen and expert ways to access information
Multi- & crosslingual
Features
Type Search for… Find… Others Averbis
Typos breats cancer breast cancer
Spelling oesophagus esophagus
Inflection appendix appendices
Word Order chronic bronchitis bronchitis, chronic
Derivation leukozytic leucozyte
Context parasympathectomy removal of parasympatic tissue ---
Composita myocarditis Inflammation of the heart muscle ---
Synonyms stroke apoplex ---
Abbreviations WHO World Health Organization ---
Laymen/Expert Breast removal mastectomy ---
Multilinguality HerzmuskelentzündungInflammation of the heart muscle,
myocarditis---
Ways to access information
• via Body Key
• E.g.
– Three levels
• Main category
• Sub category
• Diseases/Procedures (ICD/OPS)
– Categories selected by anatomy / functions
Optional customizing to category subsets / other classifications
Ear• Outer Ear• Middle Ear
- Ear Infection- Hearing Loss
• Inner Ear• Hearing
- Hearing loss• Balance
Respiratory Tract
Heart and Blood
Digestive System
Bones, Joints and Muscles
Other categories >
Urinary and Reproductive System
Ways to access information
Tag-Clouds
• Offer highly associated terms in addition to a free-text query
• Font size corresponds to semantic adjacency
• Allows a stepwise refinement or navigation through the information
Hip Osteo-arthritis
ArthroseHip replacement
IbuprofenDiclofenac
Sport therapy
Query: Hip Joint
Ways to access information
Osteoarthritis, Hip
Hip Disease
Diseases
Hip dislocation
Hip replacementReoperation
Procedures
Voltaren
Ibuprofen
Medicaments
Kold, Søren Ovesen, Janne
Researcher
Related Terms:
• Offer highly associated terms in addition to a free-text query (like in a Tag Cloud)
• Grouping in predefined categories
• Allows to search for the most frequent diseases and procedures of an anatomical structure, e.g.
• „Hip Joint -> Osteoarthritis, Hip -> Hip replacements“
Query: Hip Joint
Classifications
• Averbis ist Experte für die transparente Einbindung verschiedenster medizinischer Klassifikationen in das Information Retrieval
• Vorteile des Einsatzes bekannter Klassifikationen:– Semantische Interoperabilität
Beispielsweise können Leistungen verschiedener Krankenhäuser durch Verwendung von ICD/OPS einheitlich verglichen werden
– Cross-Linking zwischen Terminologien
Hierdurch können Benutzer per Mausklick von Organen zu Krankheiten, von Krankheiten zu Therapien, von Therapien zu Forschungsergebnissen etc. navigieren
– Verbesserung der Retrievalergebnisse
Durch die Verwendung von Schlagwörtern wird das Auffinden von Dokumenten enorm erleichtert
– Fallabrechnung
Effiziente Extraktion von ICD/OPS-Codes aus ärztlichen Freitexten erleichtert den klinischen Arbeitsablauf von Ärzten und führt zu mehr Zeit für die Patientenversorgung
– Patientensicherheit
Beim instituts- und landesübergreifenden Austausch von Patientendaten können durch standardisierte Terminologien Mehrfachuntersuchungen vermieden, auf Allergien und Unverträglichkeiten hingewiesen und Krankengeschichten einheitlich übermittelt werden
Referenzen
• Portal zur eigenständigen Entscheidungsfindung bei der Krankenhauswahl
• Aufgabe der Averbis: Einfacher Zugang zu Expertenwissen
– Laiensprachliche Suche
– Laiensprachliche Klassifikation
(Körpernavigation)
• Launch: – Frühjahr 2008– Microsite seit 18.06.07
Zentralbibliothek für Medizin
• Größte europäische Medizinbibliothek
• ~20 Millionen Datenbankeinträge
• 60,000 Anfragen pro Monat
• durch Averbis erstmalig intelligente und sprach-übergreifende Suche möglich
Thank you!