sql day 2012 | dev track | session 9 - data mining analiza przepływowa by m.szeliga
DESCRIPTION
TRANSCRIPT
NASI SPONSORZY I PARTNERZY
DZIĘKUJEMY!
Analiza komórek w cytofluorymetrii przepływowej przy pomocy narzędzi
Data Mining serwera SQL 2012
Marcin Szeliga
MarcinSzeliga:Bio.ToPP()
• +15 lat doświadczenia z serwerem SQL
• Trener & konsultant • Autor książek i artykułów • SQL Microsoft
Most Valuable Professional (od 2006)
• Microsoft Specialist (od 2000)
Cele projektu
• Wykazanie przydatności automatycznej analizy danych zebranych w FCM
− FCM jest podstawową techniką identyfikacji subpopulacji komórek w szpiku kostnym i krwi obwodowej, służącą do ustalenia diagnozy oraz monitorowania leczenia w różnego typu białaczkach
• Segmentacja danych pod kątem obecności nieprawidłowych subpopulacji komórek
• Automatyczna klasyfikacja znalezionych subpopulacji i ich opis statystyczny
• Wyszukiwanie komórek nie pasujących do klastrów komórek prawidłowych, z ich oceną ilościową i statystyczną
• Monitorowanie leczenia i ocena tzw. choroby resztkowej
• Ocena zmian subpopulacji komórek u tego samego pacjenta w trakcie leczenia
Prezentacja Betacom S.A. 4
Dane
Proces eksploracji danych
Zrozumienie
problemu
Poznanie
danych
Przygotowanie
danych
Utworzenie
modeli
Ocena
wyników
Wdrożenie
5
Problem
Prezentacja Betacom S.A. 6
• Jak wybrać charakterystyczne komórki? − Metoda bramkowania jest nieobiektywna
− Bramki wyznaczane są arbitralnie przez osobę przeprowadzającą analizę
− Bramki ustawiane są sekwencyjnie, co prowadzi do utraty cennych danych − Ryzyko przeoczenia istotnych dla diagnozy i monitorowania
leczenia danych
− Bramkowanie nie umożliwia analizy złożonych danych − Standardem stają się badania jednocześnie 6-9 antygenów
− Interakcje pomiędzy badanymi czynnikami są tak złożone, że metody analizy przy użyciu dwuwymiarowych wykresów punktowych zawodzą
• Jak oceniać efekty leczenia? − Eliminując z analizy 99% danych zmniejszamy
szansę wykrycia choroby resztkowej
Dane
Prezentacja Betacom S.A. 7
• Dane źródłowe zebrano przy użyciu 9-kanałowego cytofluorymetru o 18-bitowej rozdzielczości:
− 17 pacjentów z białaczką (2 266 440 komórek)
− 17 pacjentów w remisji (1 248 712 komórek)
• Oprócz pacjentów w remisji oraz z ostrą białaczką limfoblastyczną, dane źródłowe pochodziły również od pacjentów na różnym etapie leczenia
− U kilku z nich procent komórek białaczkowych nie przekraczał 3%
• Ocena poprawności i reprezentatywności danych źródłowych
• Wyeliminowanie błędnych danych
Model wyboru komórek
Dane źródłowe
Eliminacja błędów FSC-A < 250000 SSC-A < 200000
Pierwsza segmentacja (FSC-A, SSC-A, CD19)
Klastry CD19+ i CD19++ (Leukemia 67% Remission 36%)
Około 80%
Klastry CD19-
Właściwa segmentacja (Wszystkie zmienne)
Około 15%
Prezentacja Betacom S.A. 8
Model oceny komórek
Właściwa segmentacja (Wszystkie zmienne)
Klastry typowych komórek
Klastry komórek aberrantnych
Klastry komórek
mieszanych
Klasyfikacja
Komórki aberrantne
Ocena porównawcza (wykresy)
Komórki typowe
Prezentacja Betacom S.A. 9
Zastosowanie modeli w diagnostyce
Dane pacjenta
Eliminacja błędów FSC-A < 250000 SSC-A < 200000
Sprawdzenie przynależności do klastrów CD19+ lub CD19++
65%
Komórki CD19-
Wykrycie nietypowych komórek 1%
Komórki nietypowe
30%
Sprawdzenie przynależności do głównych klastrów
Klasyfikacja
Komórki typowe Komórki białaczkowe
Klastry komórek białaczkowych
Klastry komórek mieszanych
Klastry typowych komórek
Prezentacja Betacom S.A. 10
Ocena wyników
Prezentacja Betacom S.A. 11
• Ogólna dokładność modelu wyniosła ponad 82% − Docelowo dokładność przekroczy 90%
• Wiarygodność poprawnych klasyfikacji wyniosła 99,7%
• Wiarygodność błędnych klasyfikacji wyniosła 98,7% − Dla większej i bardziej zróżnicowanej grupy pacjentów może spaść o kilka
procent
• Przydatność: − Analiza skupień komórek pozwoliła osiągnąć wyniki co najmniej tak samo
dobre jak dotychczas stosowane metody bramkowania
− Możliwość wiarygodnego opisu statystycznego zidentyfikowanych subpopulacji komórek (w tym ich liczebności)
− Możliwość określenia prawdopodobieństwa przynależności danej komórki do znalezionych klastrów
− Zastosowana metoda pozwoliła nie tylko wyselekcjonować abberrantne i białaczkowe komórki, ale również podać powód i stopień ich nietypowości
SQLDay 2012
Dziękując Państwu za olbrzymie zainteresowanie polską premierą Microsoft SQL Server 2012, firma Microsoft wspólnie z wydawnictwem Helion przygotowała dla Państwa 300 egzemplarzy* darmowego e-booka „SQL Server. Modelowanie i eksploracja danych”. Aby pobrać e-booka, należy wejść na stronę http://helion.pl/sqlserver2012.phtml a następnie: 1.Zalogować się (lub zarejestrować, jeżeli nie macie Państwo konta w wydawnictwie Helion) 2.Wpisać kod promocyjny Microsoft „NowaGwiazdaSQLServer2012” – uwzględniając duże litery 3.Pobrać książkę w dogodnym dla Państwa formacie. *oferta ważna do wyczerpania zapasów Mamy nadzieję, że lektura e-booka jeszcze bardziej przybliży Państwu możliwe obszary zastosowania SQL Server do modelowania i eksploracji danych W imieniu zespołu Microsoft Server & Tools dr Sławomir Strzykowski Application Platform Product Manager [email protected]
NASI SPONSORZY I PARTNERZY
DZIĘKUJEMY!