-
Imputace nulových hodnot v metabolomice
Alžběta Gardloa, Matthias Templb, Karel Hronc , PeterFilzmoserb
a Laboratǒr metabolomiky, Ústav molekulárńı a translačńı medićıny,Př́ırodovědecká fakulta, UPOL,Fakultńı nemocnice Olomouc;
b Vienna University of Technology, Austria;c Př́ırodovědecká fakulta, UPOL.
Robust, 13.9. 2016
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Obsah
1 Metabolomika
2 Kompozičńı data
3 Imputace nulových hodnot
4 Simulačńı studie
5 Závěr
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Metabolomika
(Wu et al., 2011)
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Pivotové isometrické logratio (ilr) soǔradnice
• Chceme vytvǒrit ortonormálńı bázi vzhledem k Aitchisonověgeometrii, ve které prvńı ilr soǔradnice vysvětluje veškeroudůležitou informaci o zvolené složce.
• Máme kompozičńı matici Xn×D = (x1, . . . , xD).Přeuspǒrádaná kompozice s l-tým prvkem, l = 1, . . . ,D,posunutým na prvńı pozici je označena jakoX(l) = (xl , x1, . . . , xl−1, xl+1, . . . , xD) =
(x(l)1 , x
(l)2 , . . . , x
(l)l , x
(l)l+1, . . . , x
(l)D ).
Pivotové ilr soǔradnice
z(l)i =
√D − i
D − i + 1ln
x(l)i
D−i√∏D
j=i+1 x(l)j
, i = 1, . . . ,D − 1. (1)
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Druhy nulových hodnot
• Chyběj́ıćı hodnoty• Hodnota chyb́ı z nějakého důvodu - nelze změ̌rit, respondent
neodpověděl na otázku.• Nahrazeńı rozumnou hodnotou.• V metabolomice se nevyskytuj́ı často.
• Zaokrouhlené nuly• Vznikaj́ı zaokrouhlováńım dat bĺızkých nule nebo d́ıky tzv.
detekčńımu limitu p̌ŕıstroje.• Citlivost každého p̌ŕıstroje má své limity (detekčńı limit - DL) -
hodnoty pod DL jsou vyhodnoceny jako nula, i když by mělybýt p̌ŕıtomny nějaké koncentrace.
• Je ťreba nahradit s ohledem na DL.• Časté v metabolomice, zejména p̌ri použit́ı tzv. nećıleného
p̌ŕıstupu.
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Imputace zaokrouhlených nul
• Věťsina současných statistických metod neńı schopnapracovat s nulovými hodnotami → poťreba imputace.
• Současné metody nahrazováńı:
• Nahrazeńı nulových hodnot 2/3 limitu detekce nebo jinouvhodně zvolenou konstantou - často už́ıvané, ale ignorujemnohorozměrnou strukturu dat a podhodnocuje kovariančńıstrukturu.
• Metoda založená na k nejbližš́ıch sousedech - mnohorozměrná,ale pǒrád ne zcela ideálńı.
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Imputace zaokrouhlených nul - p̌ŕıstupy
• Baĺıček zCompositions v softwaru R.
• Multiplicative replacement (mult repl) - nahrazeńı pomoćıčásti DL (nap̌r. 2/3 DL).
• Multiplicative log-normal replacement (mult lognorm) -nahrazeńı nul s využit́ım multiplikativńıho lognormálńıhorozděleńı.
• Multiplicative Kaplan-Meier smoothing splinereplacement (mult KMSS) - nahrazeńı pomoćıgeometrického pr̊uměru náhodného výběru z kubickévyhlazovaćı funkce (odpov́ıdá inverzi Kaplan-Meierovy EDF).
• Log-ratio data augmentation algorithm (lr da) - využit́ıMarkov chain Monte Carlo p̌ŕıstupu pro aditivńı logratio (alr)soǔradnice.
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Imputace zaokrouhlených nul - p̌ŕıstupy
• Additive log-ratio EM algorithm (lr em) - postupné využit́ıEM algoritmu pro alr soǔradnice.
• PLS - využit́ı pivotových ilr soǔradnic a metody d́ılč́ıchnejmenš́ıch čtverc̊u - bere v úvahu kompozičńı podstatu dat iexistenci DL (v́ıce v posteru).
• Pre-selection of variables and model-based replacementof rounded zeros (method varOLS) - využ́ıvá variačńımatici pro výběr proměnných a redukci dimenze dat.
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Validačńı kritéria
1 Average difference in covariance structure (ADCS)
ADCS =
√√√√ 1(D − 1)2
D−1∑i=1
D−1∑j=1
(sij − s∗ij
)2=
1
D − 1‖S−S∗‖F ,
kde ∗ označuje imputovanou matici, S je výběrová kovariančńımatice, ‖ · ‖F je Frobeniova maticová norma.
2 Compositional error deviation (CED)
1nM
∑k∈M
da(xk , x∗k)
max{xi ,xj∈X}
{da(xi , xj)},
Aitchisonova vzdálenost dvou kompozic x a x̃:
dA(x, x̃) =
[1D
∑D−1i=1
∑Dj=i+1
(log xixj − log
x̃ix̃j
)2]1/2.
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Simulačńı studie
• Normálńı rozděleńı na simplexu (výběrovém prostorukompozic).
1 Ńızko-dimenzionálńı scéná̌r: datová matice X s n = 50pozorováńımi a D = 16 proměnnými. Pod́ıl hodnot pod DL(nul) je v rozpět́ı od 0 do 0.3, ty jsou v každé druhé proměnné.
2 Vysoce-dimenzionálńı scéná̌r: datová matice X s n = 50pozorováńımi a D = 128 proměnnými. Pod́ıl nul stejný jako vńızko-dimenzionálńım scéná̌ri.
3 10% zaokrouhlených nul, rozd́ılné dimenze: datová maticeX s n = 50 pozorováńımi a měńıćım se počtem prvk̊ukompozice (2, 4, 8, 16, 32, 64, 128, 256).
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Simulačńı studie - Ńızko-dimenzionálńı scéná̌r
● ●
● ●
●●
●●
●
●
●
●
●
●
●
●●
●
ADCS CED
1
10
0.01
0.10
1.00
0.0 0.1 0.2 0.3 0.0 0.1 0.2 0.3relative amount of rounded zeros
erro
r m
easu
re
● varOLS
PLS
mult lognorm
mult repl
lr da
lr em
mult KMSS
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Simulačńı studie - Vysoce-dimenzionálńı scéná̌r
●
●
●
● ●
●● ● ●
●●
●
●
●
●
●
●
●
ADCS CED
2
4
6
8
0.0
0.1
0.2
0.3
0.0 0.1 0.2 0.3 0.0 0.1 0.2 0.3relative amount of rounded zeros
erro
r m
easu
re
● varOLS
PLS
mult lognorm
mult repl
lr da
lr em
mult KMSS
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Simulačńı studie - Rozd́ılné dimenze
●
●
●
●
●
●
●●
●● ● ●
ADCS CED
1
10
100
0.1
1.0
10.0
0 50 100 150 200 250 0 50 100 150 200 250number of variables
erro
r m
easu
re
● varOLS
PLS
mult lognorm
mult repl
lr da
lr em
mult KMSS
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Závěr
• Častý výskyt zaokrouhlených nul v metabolomických datech→ poťreba jejich imputace.
• Současně použ́ıvané metody nahrazeńı (nap̌r. použit́ı 2/3detekčńıho limitu) nefunguj́ı korektně.
• Výhodné použit́ı metody, která kombinuje p̌ŕıstup logratiometodiky a metody d́ılč́ıch nejmenš́ıch čtvrec̊u - je zachovánamnohorozměrná povaha kompozičńıch dat.
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
-
Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr
Literatura
M. Templ, K. Hron, P. Filzmoser, A. Gardlo. Imputation of rounded zeros forhigh-dimensional compositional data. Chemometrics and Intelligent LaboratorySystems, 155:183-190, 2016.
J. Aitchison. The Statistical Analysis of Compositional Data. Chapman & Hall,London, 1986.
B. Walczak, D.L. Massart. Dealing with missing data. Part I. Chemometrics andIntelligent Laboratory Systems, 58:15-27, 2001.
J.A. Mart́ın-Fernández, K. Hron, M. Templ, P. Filzmoser, J. Palarea-Albaladejo.Model-based replacement of rounded zeros in compositional data: Classical androbust approaches. Computational Statistics & Data Analysis, 56(9):2688-2704,2012.
K. Hron, M. Templ, P. Filzmoser. Imputation of missing values for compositionaldata using classical and robust methods. Computational Statistics & DataAnalysis, 54(12):3095-3107, 2010.
L. Najdekr, A. Gardlo, L. Mádrová, D. Friedecký, H. Janečková, E.S. Correa, R.Goodacre, and T. Adam. Oxidized phosphatidylcholines suggest oxidative stressin patients with medium-chain acyl-coa dehydrogenase defficiency. Talanta,139:62-66, 2015.
Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice
MetabolomikaKompozicní dataImputace nulových hodnotSimulacní studieZáver