the microarray data analysis ana deckmann carla judice jorge lepikson jorge mondego leandra scarpari...
TRANSCRIPT
The microarray data analysis
Ana Deckmann
Carla Judice
Jorge Lepikson
Jorge Mondego
Leandra Scarpari
Marcelo Falsarella Carazzolle
Michelle Servais
Tais Herig
Summary
- Statistics background
- Introduction to microarray
- Pre-processing microarray data
- Statistics analysis
- D-maps
- measurement = truth + error
- error = bias + variance
Error model
Normalization Experimental replicate (techniques and biological) and statistics
Bias describe a systematic tendency of the measurement. Ex: dyes Cy3 and Cy5 don´t have the same efficient
Variance is often normally distributed, ex : instrumentation imperfection and biological variation
Statistics background
Introduction to microarray
-Three different microarray technologies :
- Spotted cDNA microarrays (500 to 2500 bp)
- Spotted oligonucleotide microarrays (30 to 70 bp)
- Affymetrix chips (25 bp)
- Can be used to :
- Differential gene expression studies, gene co-regulation studies, gene function identification studies. time-course studies, dose-response studies, clinical diagnosis, …
Two color architecture
Probes: 30-meros, 90% até 550 bases downstream extremidade 3’ Targets: 10ug cRNA biotinilado
Codelink architecture (one color)
higher frequency, more energy
lower frequency,
less energy
excitation
red lasergreen
laser
emission
overlay images
Scanning
A
B
C
H
G
F
D
E
1 2 3 4
1 2 3 4 5 6 7 8 9 10 11abcdefghijk
Scarpari, Leandra – 2006 – Tese Doutorado
Ludwig flags : (0) Int <= Back
(1) Irregular spots
(3) Spot ok
(4) Saturated
Ludwig scanner
Codelink flags :
(L) near background
(C) contaminated
(S) saturated
(M) masked
(G) good
Codelink scanner
A
B
C
H
G
F
D
E
1 2 3 4
LGE defined flags :
(0) – Spot ok
(1) – Spot Saturado
(2) – Int/Back <= 1.05
(3) – Area <= 110 or 50 (9x9 or 11x11)
Defined intensity :
-Int Cy3 = Area Cy3 * (median(Int Cy3)-median(Bkgd(Cy3))
-Int Cy5 = Area Cy5 * (median(Int Cy5)-median(Bkgd(Cy5))
LGE scanner
Cy3= 3329280; Cy5= 2251624 r=0.67 (fold=-1.49)
(Target median - Bkgd median) * Area = integrated intensity
pixels out pixels in > pixels outpixels in
- * =
Cy3= 222824; Cy5= 15488 r=0.069 fold=-14.5 flag=0
Cy3= 481536; Cy5= 676000 r=fold=1.40 flag=0
Cy3= 293664; Cy5= 485368 r=1.65 flag=0
Cy3= 6400; Cy5= -3584 NA (sinal:ruído<=1) flag=2
Cy3= 8767720; Cy5= 1349296 r=0.15 fold=-6.7 flag=1
Pre-processing microarray data -Bioconductor repository (http://www.bioconductor.org/)
-Log intensities
R=G Log2R=Log2G
Most genes have low gene expression levels. What happens here?
up-regulated genes
down-regulated genes
non-differentially expressed genes are now along the horizontal line:
M = 0
log2R - log2G = 0
R = G
Transformed data {(M,A)i}:
M = log2(R) - log2(G) (minus)
A = ½·[log2(R) + log2(G)] (add)
M vs A plot
log2R = red channel signallog2G = green channel signal
Density plot
1
16
Print-tip box plot
Normalization within slidesExpectation: Most genes are non-differentially expressed, i.e. most of the data points should be around M=0.
Median normalization : which sets the median of log intensity ratios to zero
Median value = 0
Lowess normalization : global lowess normalization
Print-tip normalization : print-tip group lowess normalization
X*ij=(Xij-median(GRIDj))/sd(GRIDj)
Scaled print-tip : scaled print-tip group lowess normalization
Normalization across slides-QUANTILE
QQPlot
Mean between 8 slides
-LOWESS (applied in one color microarray)
Transformed data {(M,A)i}:
M = log2(Int1) - log2(Int2) ; A= ½·[log2(Int1) + log2(Int2)]
Statistics analysis- T statistics test
The T statistics down-weight the importance of the average if the deviation is large and vice versa;
T = mean(x) / SE(x)
where SE(x)=std.dev(x)/N (standard error of the mean)
The blue gene has the lower T-value than red gene.
Top table and volcanoplotp.value F.change GENE1.01E-07 -1.5 interleukin-18 binding protein3.94E-06 -1.3234 Matrix metalloproteinase 30.000734 -1.93895 leukocyte integrin alpha chain7.25E-05 1.960643 azurocidin 1 preproprotein1.38E-09 2.317313 Macrophage-stimulating protein6.82E-05 2.34858 alpha1-antichymotrypsin
Fold change =
ratio; if ratio >=1
or
-1/ratio; if ratio < 1
Cluster data analysis
Automatizar a análise dos dados
Diferentes formatos
●
●
GeneTAC (LGE)
ScanArray (Ludwig)
CodeLink
NimbleGen (Futuro)
Objetivo do Programa
Possibilita a criação de diferentes projetos
●
●
●
●
●
Características do Programa
Estruturado por etapas
Linguagens: cgi, R (análise estatística)Banco de dados: MySql
Português e Inglês
Estrutura do Programa
Submissão dos Arquivos da Lâmina
Seleção de Dados
Normalização
Análises Estatísticas
Definição de um Projeto
Configuração da Lâmina
LGE e Ludwig
CodeLink
Criar / Selecionar um projeto
Definir o padrão
●
●
Estrutura do Programa: Definição do Projeto
Número de Placas funcionais
Estrutura do Programa: Definição do Projeto
Submissão dos arquivos
Definição dos grupos
●
●
●
Estrutura do Programa: Arquivos da Lâmina
Definição dos canais
Estrutura do Programa: Arquivos da Lâmina
Exclusão de spots indesejados●
Estrutura do Programa: Seleção dos Dados
Diferentes formas de exibir os dados
Diferentes filtros
Imagens
Estrutura do Programa: Seleção dos Dados
Métodos diferentes●
●
●
Estrutura do Programa: Normalização
Opções
Visualização
Estrutura do Programa: Normalização
●
●
Estrutura do Programa: Análises estatísticas
Fold Change
Pvalue
Estrutura do Programa: Análises estatísticas
Gráficos: Lâmina
(Fonte: Leandra Scarpari)
Grid
Gráficos: M vs A plot
M = log2(R/G)
A = ½ log2(RG)(Fonte: Leandra Scarpari)
Gráficos: M vs A plot
(Fonte: Ana Deckmann)
Gráficos: Density
(Fonte: Leandra Scarpari)
Gráficos: VolcanoPlot
Fold Change: Escala de comparação entre as razões
Pvalue: Reprodução dos dados(Quanto maior o módulo, mais diferencialmente expresso)
(Quanto menor, mais estão se reproduzindo os dados)
(Fonte: Leandra Scarpari, Ana Deckmann)
Gráficos: Clustering
Busca de padrões
(Fonte: Ana Deckmann)
Fim
Box plot
Comparison of normalization methods for Codelink Bioarray data
Differences between pair of arrays in the technical replicates :
(1) Array 1 vs array 4
(2) Array4 vs array 5
BMC Bioinfomatics 2005, 6:309
- Within slide normalization
Before After
Print-tip normalization
No norm Print tip Scaled print tip
Nucleic Acids Research, 2002, vol 30, No 4