sql day 2012 | dev track | session 9 - data mining analiza przepływowa by m.szeliga

NASI SPONSORZY I PARTNERZY

DZIĘKUJEMY!

Analiza komórek w cytofluorymetrii przepływowej przy pomocy narzędzi

Data Mining serwera SQL 2012

Marcin Szeliga

MarcinSzeliga:Bio.ToPP()

• +15 lat doświadczenia z serwerem SQL

• Trener & konsultant • Autor książek i artykułów • SQL Microsoft

Most Valuable Professional (od 2006)

• Microsoft Specialist (od 2000)

Cele projektu

• Wykazanie przydatności automatycznej analizy danych zebranych w FCM

− FCM jest podstawową techniką identyfikacji subpopulacji komórek w szpiku kostnym i krwi obwodowej, służącą do ustalenia diagnozy oraz monitorowania leczenia w różnego typu białaczkach

• Segmentacja danych pod kątem obecności nieprawidłowych subpopulacji komórek

• Automatyczna klasyfikacja znalezionych subpopulacji i ich opis statystyczny

• Wyszukiwanie komórek nie pasujących do klastrów komórek prawidłowych, z ich oceną ilościową i statystyczną

• Monitorowanie leczenia i ocena tzw. choroby resztkowej

• Ocena zmian subpopulacji komórek u tego samego pacjenta w trakcie leczenia

Prezentacja Betacom S.A. 4

Dane

Proces eksploracji danych

Zrozumienie

problemu

Poznanie

danych

Przygotowanie

danych

Utworzenie

modeli

Ocena

wyników

Wdrożenie

5

Problem


• Jak wybrać charakterystyczne komórki? − Metoda bramkowania jest nieobiektywna

− Bramki wyznaczane są arbitralnie przez osobę przeprowadzającą analizę

− Bramki ustawiane są sekwencyjnie, co prowadzi do utraty cennych danych − Ryzyko przeoczenia istotnych dla diagnozy i monitorowania

leczenia danych

− Bramkowanie nie umożliwia analizy złożonych danych − Standardem stają się badania jednocześnie 6-9 antygenów

− Interakcje pomiędzy badanymi czynnikami są tak złożone, że metody analizy przy użyciu dwuwymiarowych wykresów punktowych zawodzą

• Jak oceniać efekty leczenia? − Eliminując z analizy 99% danych zmniejszamy

szansę wykrycia choroby resztkowej

Dane


• Dane źródłowe zebrano przy użyciu 9-kanałowego cytofluorymetru o 18-bitowej rozdzielczości:

− 17 pacjentów z białaczką (2 266 440 komórek)

− 17 pacjentów w remisji (1 248 712 komórek)

• Oprócz pacjentów w remisji oraz z ostrą białaczką limfoblastyczną, dane źródłowe pochodziły również od pacjentów na różnym etapie leczenia

− U kilku z nich procent komórek białaczkowych nie przekraczał 3%

• Ocena poprawności i reprezentatywności danych źródłowych

• Wyeliminowanie błędnych danych

Model wyboru komórek

Dane źródłowe

Eliminacja błędów FSC-A < 250000 SSC-A < 200000

Pierwsza segmentacja (FSC-A, SSC-A, CD19)

Klastry CD19+ i CD19++ (Leukemia 67% Remission 36%)

Około 80%

Klastry CD19-

Właściwa segmentacja (Wszystkie zmienne)

Około 15%


Model oceny komórek

Właściwa segmentacja (Wszystkie zmienne)

Klastry typowych komórek

Klastry komórek aberrantnych

Klastry komórek

mieszanych

Klasyfikacja

Komórki aberrantne

Ocena porównawcza (wykresy)

Komórki typowe


Zastosowanie modeli w diagnostyce

Dane pacjenta

Eliminacja błędów FSC-A < 250000 SSC-A < 200000

Sprawdzenie przynależności do klastrów CD19+ lub CD19++

65%

Komórki CD19-

Wykrycie nietypowych komórek 1%

Komórki nietypowe

30%

Sprawdzenie przynależności do głównych klastrów

Klasyfikacja

Komórki typowe Komórki białaczkowe

Klastry komórek białaczkowych

Klastry komórek mieszanych

Klastry typowych komórek


Ocena wyników


• Ogólna dokładność modelu wyniosła ponad 82% − Docelowo dokładność przekroczy 90%

• Wiarygodność poprawnych klasyfikacji wyniosła 99,7%

• Wiarygodność błędnych klasyfikacji wyniosła 98,7% − Dla większej i bardziej zróżnicowanej grupy pacjentów może spaść o kilka

procent

• Przydatność: − Analiza skupień komórek pozwoliła osiągnąć wyniki co najmniej tak samo

dobre jak dotychczas stosowane metody bramkowania

− Możliwość wiarygodnego opisu statystycznego zidentyfikowanych subpopulacji komórek (w tym ich liczebności)

− Możliwość określenia prawdopodobieństwa przynależności danej komórki do znalezionych klastrów

− Zastosowana metoda pozwoliła nie tylko wyselekcjonować abberrantne i białaczkowe komórki, ale również podać powód i stopień ich nietypowości

SQLDay 2012

Dziękując Państwu za olbrzymie zainteresowanie polską premierą Microsoft SQL Server 2012, firma Microsoft wspólnie z wydawnictwem Helion przygotowała dla Państwa 300 egzemplarzy* darmowego e-booka „SQL Server. Modelowanie i eksploracja danych”. Aby pobrać e-booka, należy wejść na stronę http://helion.pl/sqlserver2012.phtml a następnie: 1.Zalogować się (lub zarejestrować, jeżeli nie macie Państwo konta w wydawnictwie Helion) 2.Wpisać kod promocyjny Microsoft „NowaGwiazdaSQLServer2012” – uwzględniając duże litery 3.Pobrać książkę w dogodnym dla Państwa formacie. *oferta ważna do wyczerpania zapasów Mamy nadzieję, że lektura e-booka jeszcze bardziej przybliży Państwu możliwe obszary zastosowania SQL Server do modelowania i eksploracji danych W imieniu zespołu Microsoft Server & Tools dr Sławomir Strzykowski Application Platform Product Manager [email protected]

http://helion.pl/sqlserver2012.phtml

NASI SPONSORZY I PARTNERZY

DZIĘKUJEMY!

sql day 2012 | dev track | session 9 - data mining analiza przepływowa by m.szeliga

Technology