multirelační guha, ferda a genetická data

22
Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE

Upload: mufutau-bell

Post on 02-Jan-2016

45 views

Category:

Documents


1 download

DESCRIPTION

Multirelační GUHA, Ferda a genetická data. Martin Ralbovský KIZI FIS VŠE. Metoda GUHA. Původní česká metoda explorační analýzy dat Založena na logice (observační kalkuly) statistice (testování hypotéz) Téměř 40 let vývoje. Metoda GUHA - princip. Patterny , hypotézy, verifikace. - PowerPoint PPT Presentation

TRANSCRIPT

Multirelační GUHA, Ferda a genetická data

Martin RalbovskýKIZI FIS VŠE

Metoda GUHA

• Původní česká metoda explorační analýzy dat• Založena na– logice (observační kalkuly)– statistice (testování hypotéz)

• Téměř 40 let vývoje

Metoda GUHA - princip

Patterny, hypotézy, verifikace

• Pattern – jedna vygenerovaná formulka observačního kalkulu

• Prime pattern – pattern, který je pravdivý v datech a nevyplývá z jiného jednoduššího pravdivého patternu

• Hypotéza = pattern• Verifikace = ověření jednoho patternu

Příklad procedury – 4FT

• Hledá asociační pravidla ve tvaruA ~ B

kde A a B jsou Booleovské atributy a ~ je 4ft-kvantifikátor

• Příklad pravidla:District(SouthEast) ~ Status(Good)

Proč multirelační?

• Původní metoda byla omezena na minování pouze nad jednou tabulkou

• Jedna tabulka – tvrzení o vlastnostech jedné entity

• Více tabulek – vztahy mezi entitamiMotivační příklad:• Údaje o klientech v jedné tabulce• Údaje o transakcích klientů v druhé tabulce

(Multi)relační metody - ILP

• ILP – inductive logic programmingvhodné pro HODNĚ relací, z pozitivních a negativních příkladů (+ background knowledge) inferuje tvrzení

• ILP propozicionalizacez vícero tabulek sestrojí jednu, nad kterou se dají spustit jiné algoritmyvýsledné atributy jsou konjunkce (negovaných) literálů predikátové logiky

(Multi)relační metody - další

WARMR• Spojení ILP a asociačních pravidel• Nejdříve provede propozicionalizaci a potom

hledá asociační pravidlaRELAGGS• Vypočítá agregace záznamů přímo v databázi• Poté hledá asociační pravidla

Multirelační GUHA - princip

• Rozdělení úlohy na hlavní a vedlejší• Master a detail tabulka - hvězdicové schéma• Přidávání patternů z vedlejší úlohy do hlavní – virtuální

atributy

Příklad:• Detail tabulka – klient často platící kartou

ClientID ~ Payment(CreditCard)• Master tabulka

District(SoutEast)&ClientPayingByCreditCard ~ Status(Good)

Multirelační GUHA – detaily

• Pro každého klienta se vyberou pouze jemu odpovídající řádky v tabulce transakcí

• Pro každého klienta je různá hodnota virtuálního atributu (prozatím 0, 1)

• Co odpovídá virtuálnímu atributu – hypotéza nebo pattern?

Multirelační GUHA – omezení

• Problém s počtem virtuálních atributů v hlavní tabulce

• Hvězdicové schéma není teoretickým, ale praktickým omezením

• Příklad

Multirelační GUHA vs. Ostatní metody

• Ze všech metod umožňuje GUHA největší expresivitu

• Tato je vykoupena omezením na malý počet relací

• Hodí se na úlohy s málo tabulkami, ideálně velká master a malá detail.

Multirelační GUHA - implementace

• Konec 90. let – implementace v rámci systému LISp-Miner – nepoužívala se

• Disertace T. Karbana, Rel-Miner – nedokončeno

• Diplomová práce A. Kuzmina, Ferda – implementace multirelačních 4FT a SD4FT– Neúspěšné pokusy na Barboře– Slibné pokusy na genetických datech

Ferda - historie

• Poslední z nástrojů implementující metodu GUHA

• Původně projekt MFF UK, nyní vyvíjen na KIZI FIS VŠE

• Založen 2003/2004• Obhájen 2006• Dále 6 diplomových a 1 bakalářská práce

Devatero řemesel…

• Vysoce modulární systém:– Používá se middleware pro komunikaci– Moduly mohou být napsány v 5 různých jazycích– Moduly mohou komunikovat libovolně po síti

• Vlastní částečně rekurzivní programovací jazyk• 7 relačních GUHA procedur, 2 multirelační

procedury, nové kvantifikátory• Podpora ontologií, podpora uživatelského

rozhodování…

Ferda - architektura

FrontEnd – praktická ukázka

Genetická data

• Datový zdroj zkompilovaný na FEL ČVUT• Měření expresí genů pomocí DNA mikrosond

Affymetrics• 2 zkoumané typy buňek – hematopoetická a

stromální (tvorba kostní dřeně)• 3 zkoumané organismy• Data měření obohacená o informace o

pathways a fluxes

Pathway a flux

• Molekulární pathway – graf reprezentující síť molekulárních reakcí a interakcí

• Full-coupled-flux (FCF) – lineární podgraf pathway (všechny geny v něm mají expresi)

Pracovní hypotéza: exprese genů nějakým způsobem souvisí s tvorbou buňek

• Úroveň genů je příliš malá granularita• Úroveň pathways je příliš velká granularita• Zkusme FCF!

Schéma genetických dat – původní podoba

Experimenty

• Virtuální atributy typu „Vysoká exprese genu X ve FCF“

• Výsledek: pravidla ve tvaru[FluxID(a) ~ GeneLevel(b)] ~ CellType(c)Použité kvantifikátory: 100% konfidence

• Prohlížení experimentů

Další práce

• Odladění + škálování• Správná diskretizace hodnot atributů• Sonda vs. chip