bioinformatics genes expression

29
ancer Testicular tipo Seminoma: Genes diferencialmente expresados Sin correcciones luego de presentaci´ on Jorge Antonio P´ arraga ´ Alava Bioinform´ atica Doctorado en Ciencias de la Ingenier´ ıa menci´ on Inform´ atica Departamento de Ingenier´ ıa Inform´ atica Universidad de Santiago de Chile ———– [email protected] 13 de abril de 2015

Upload: jorge-a-parraga-a

Post on 10-Feb-2016

220 views

Category:

Documents


0 download

DESCRIPTION

bioinformatics genes expression

TRANSCRIPT

Page 1: bioinformatics genes expression

Cancer Testicular tipo Seminoma:Genes diferencialmente expresados

Sin correcciones luego de presentacion

Jorge Antonio Parraga Alava

BioinformaticaDoctorado en Ciencias de la Ingenierıa mencion Informatica

Departamento de Ingenierıa InformaticaUniversidad de Santiago de Chile

———–[email protected]

13 de abril de 2015

Page 2: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Indice

1 IntroduccionAntecedentesPreguntas de investigacionEstado del Arte

2 Esquema

3 Seleccion, analisis y filtrado de datosAdquisicion de datosPreprocesamiento

4 ClusteringClusteringInformacion biologica

5 SAMSAM normal vs cancerSAM etapas del cancer

6 Conclusiones

Cancer Testicular: Genes Diferencialmente Expresados 2 / 26

Page 3: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Antecedentes

Generalidades del cancer

El cancer de testıculo es un tumor germinal gonadal o extra-gonadal, que se ma-nifiesta por aumento de volumen testicular firme, generalmente no sensible y sinsignos inflamatorios, habitualmente unilateral. [5]

Los dos tipos principales de este cancer son seminomas y no seminomas. Los noseminomas tienden a crecer y diseminarse mas rapidamente que los seminomas.Los seminomas o tumores presentan crecimiento lento y ocurre normalmente enlos hombres entre los 30 y 40 anos de edad. [1]

En Chile, como indica [8], este tipo de cancer se produce especialmente en pacientesde entre 20 y 40 anos, con una tasa de incidencia -7 de cada 100.000 hombres-que es alta en comparacion con otros paıses latinoamericanos.

Cancer Testicular: Genes Diferencialmente Expresados Introduccion 3 / 26

Page 4: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Preguntas de investigacion

Preguntas de investigacion

Se pretende dar respuestas a las siguientes preguntas:

¿Cuales genes se expresan diferente entre muestras normales y de cancer?

¿Cuales genes se expresan diferente en las etapas del cancer?

¿Existen funciones biologicas afectadas por estos genes?

Cancer Testicular: Genes Diferencialmente Expresados Introduccion 4 / 26

Page 5: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Estado del Arte

Estudios previos

Reino Unido

Estudio sobre el genoma del tumor testicular. Del mismo, se evidencio que los genes TERT, DMRT1,y ATF7IP estan asociados con celulas germinales de cancer testicular. [7]

Estados Unidos

Analisis sobre expresion de la proteına TCL1 en 63 casos. Distribuidos en: 43 seminomas, y 20 tumoresmixtos de celulas germinales. Concluyo que la proteına TCL1 se expreso en 20 de los 23 casos deseminoma puro y en las areas seminomatosos de tumores mixtos de celulas germinales. [4]

General

El artıculo de revision, ofrece un resumen del conocimiento actual en genetica que subyace al desa-rrollo, progresion y la quimio-resistencia de tumores de celulas germinales del testıculo (TGCT), delmismo se desprende que KIT, TP53, KRAS/NRAS y BRAF son los genes mutados con mayor frecuencia

en TGCT e implicados en su patogenesis. [6]

Original

Estudio que realiza un proceso de expresion diferencial de variantes de algunos genes en pacientes concancer de testıculo. En el mismo se destaca POU5F1P3, CETN1, SPINK2, HSPA2 como genes altamenteexpresados en diferentes etapas del seminoma testicular. [3]

Cancer Testicular: Genes Diferencialmente Expresados Introduccion 5 / 26

Page 6: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Estado del Arte

Estudios previos

Reino Unido

Estudio sobre el genoma del tumor testicular. Del mismo, se evidencio que los genes TERT, DMRT1,y ATF7IP estan asociados con celulas germinales de cancer testicular. [7]

Estados Unidos

Analisis sobre expresion de la proteına TCL1 en 63 casos. Distribuidos en: 43 seminomas, y 20 tumoresmixtos de celulas germinales. Concluyo que la proteına TCL1 se expreso en 20 de los 23 casos deseminoma puro y en las areas seminomatosos de tumores mixtos de celulas germinales. [4]

General

El artıculo de revision, ofrece un resumen del conocimiento actual en genetica que subyace al desa-rrollo, progresion y la quimio-resistencia de tumores de celulas germinales del testıculo (TGCT), delmismo se desprende que KIT, TP53, KRAS/NRAS y BRAF son los genes mutados con mayor frecuencia

en TGCT e implicados en su patogenesis. [6]

Original

Estudio que realiza un proceso de expresion diferencial de variantes de algunos genes en pacientes concancer de testıculo. En el mismo se destaca POU5F1P3, CETN1, SPINK2, HSPA2 como genes altamenteexpresados en diferentes etapas del seminoma testicular. [3]

Cancer Testicular: Genes Diferencialmente Expresados Introduccion 5 / 26

Page 7: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Estado del Arte

Estudios previos

Reino Unido

Estudio sobre el genoma del tumor testicular. Del mismo, se evidencio que los genes TERT, DMRT1,y ATF7IP estan asociados con celulas germinales de cancer testicular. [7]

Estados Unidos

Analisis sobre expresion de la proteına TCL1 en 63 casos. Distribuidos en: 43 seminomas, y 20 tumoresmixtos de celulas germinales. Concluyo que la proteına TCL1 se expreso en 20 de los 23 casos deseminoma puro y en las areas seminomatosos de tumores mixtos de celulas germinales. [4]

General

El artıculo de revision, ofrece un resumen del conocimiento actual en genetica que subyace al desa-rrollo, progresion y la quimio-resistencia de tumores de celulas germinales del testıculo (TGCT), delmismo se desprende que KIT, TP53, KRAS/NRAS y BRAF son los genes mutados con mayor frecuencia

en TGCT e implicados en su patogenesis. [6]

Original

Estudio que realiza un proceso de expresion diferencial de variantes de algunos genes en pacientes concancer de testıculo. En el mismo se destaca POU5F1P3, CETN1, SPINK2, HSPA2 como genes altamenteexpresados en diferentes etapas del seminoma testicular. [3]

Cancer Testicular: Genes Diferencialmente Expresados Introduccion 5 / 26

Page 8: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Estado del Arte

Estudios previos

Reino Unido

Estudio sobre el genoma del tumor testicular. Del mismo, se evidencio que los genes TERT, DMRT1,y ATF7IP estan asociados con celulas germinales de cancer testicular. [7]

Estados Unidos

Analisis sobre expresion de la proteına TCL1 en 63 casos. Distribuidos en: 43 seminomas, y 20 tumoresmixtos de celulas germinales. Concluyo que la proteına TCL1 se expreso en 20 de los 23 casos deseminoma puro y en las areas seminomatosos de tumores mixtos de celulas germinales. [4]

General

El artıculo de revision, ofrece un resumen del conocimiento actual en genetica que subyace al desa-rrollo, progresion y la quimio-resistencia de tumores de celulas germinales del testıculo (TGCT), delmismo se desprende que KIT, TP53, KRAS/NRAS y BRAF son los genes mutados con mayor frecuencia

en TGCT e implicados en su patogenesis. [6]

Original

Estudio que realiza un proceso de expresion diferencial de variantes de algunos genes en pacientes concancer de testıculo. En el mismo se destaca POU5F1P3, CETN1, SPINK2, HSPA2 como genes altamenteexpresados en diferentes etapas del seminoma testicular. [3]

Cancer Testicular: Genes Diferencialmente Expresados Introduccion 5 / 26

Page 9: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Esquema del proceso

Cancer Testicular: Genes Diferencialmente Expresados Esquema 6 / 26

Page 10: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Adquisicion de datos

Base de datos (Microarray) de NCBI

Dataset GDS2842, Testicular seminoma progression. Se incluyen 43 muestras de expre-siones genicas (genes/probes) correspondientes a tejido testicular:

Segun el Comite Americano Conjunto del Cancer (AJCC) [2]:

pT1: Tumor limitado a los testıculos y epidıdimo sin invasion vascular / linfatica; tumor puede

invadir la tunica albugınea pero no la tunica vaginal1.

pT2: Tumor limitado a los testıculos y epidıdimo con invasion vascular / linfatica, o tumor quese extiende a traves de la tunica albugınea con afectacion de la tunica vaginal.

pT3: El tumor invade el cordon espermatico con o sin invasion linfatico / vascular.

1Tunica serosa formada por una doble lamina que rodea incompletamente el testıculo en el escroto

Cancer Testicular: Genes Diferencialmente Expresados Seleccion, analisis y filtrado de datos 7 / 26

Page 11: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Preprocesamiento

Preprocesamiento

Cancer Testicular: Genes Diferencialmente Expresados Seleccion, analisis y filtrado de datos 8 / 26

Page 12: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Preprocesamiento

Limpieza y Transformacion

Se obtiene el archivo con 12580 genes para las 43 muestras. De estos genes,existen 11 de los 13 que segun estudios previos intervienen en el desarrollo delcancer testicular.Se identifica y elimina fuentes de variacion que no sean diferencias de expresion.

Genes/probes con valores null o control en sus expresiones son eliminados.En secuencias (genes/probes) repetidas, se promedio la expresion de ella en cada una delas muestras.El dataset resultante, consta de un microarreglo con 9480 genes y 43 muestras.

El microarreglo, presenta expresion de algunos genes elevados diez, cien o masveces, por lo que se aplico la transformacion logarıtmica en base 2.

(a) (b)

Cancer Testicular: Genes Diferencialmente Expresados Seleccion, analisis y filtrado de datos 9 / 26

Page 13: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Preprocesamiento

Reduccion de Dimensionalidad

Se realizo un analisis estadıstico a traves de la prueba t para identificar los secuen-cias que presenten diferencias significativas de expresion, y los que no lo haganseran eliminados.Hipotesis

H0: µ1=µ2=...=µk Secuencias se expresan de forma similar

H1: µ1 6=µ2 6=... 6=µk Secuencias se expresan de forma diferente

Con α = 0.05. Si una secuencia presenta un valor-p ≤ α entonces se expresa de forma diferenteen el microarreglo.

Se descartan 3391 genes. De esta manera se logro reducir la dimensionalidad del dataset a5489 genes candidatos a ser expresados diferencialmente en 43 muestras.

Debido a este proceso desaparecen otros 2 genes. Por lo que en total 4 genes de los 13referenciados no estaran disponibles en el estudio. Los 9 genes que si lo haran son:

1 KIT2 KRAS3 TCL1A4 TP535 BRAF6 POU5F1P37 CETN18 SPINK29 HSPA2

Cancer Testicular: Genes Diferencialmente Expresados Seleccion, analisis y filtrado de datos 10 / 26

Page 14: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Clustering

Clustering

Cancer Testicular: Genes Diferencialmente Expresados Clustering 11 / 26

Page 15: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Clustering

Parametros de Clustering

Se realiza el proceso de clustering jerarquico con R y paquetes de Bioconductor enbase a:

Medida de distancia/similitud de pearson. Valor de correlacion ρ entre -1 y 1:El 1 indica correlacion positiva. + en una condicion, en la otra condicion +.El 0, indica que no existe correlacion entre ambas condiciones de expresion del gen.El -1, indica correlacion negativa. + en una condicion, en la otra -.

Metodo de agrupamiento average.

Cancer Testicular: Genes Diferencialmente Expresados Clustering 12 / 26

Page 16: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Clustering

Determinacion del numero de cluster

Se calcula la suma de cuadrados de errores (SSE) dentro de los grupo.

Cancer Testicular: Genes Diferencialmente Expresados Clustering 13 / 26

Page 17: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Clustering

Determinacion del numero de cluster

(SSE) grupo (1-10).

Cancer Testicular: Genes Diferencialmente Expresados Clustering 14 / 26

Page 18: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Clustering

Segun el SSE, se evalua con valores entre 3 y 10.

k 1 2 3 4 5 6 7 8 9 10

2 2816 2673 - - - - - - - -3 1924 749 2816 - - - - - - -4 1733 1083 749 1924 - - - - - -5 1733 1083 749 1187 737 - - - - -6 1730 1083 749 1187 737 3 - - - -7 1730 1083 749 1187 735 3 2 - - -8 1730 1067 749 1187 735 16 3 2 - -9 1730 992 749 75 1187 735 16 3 2 -

10 1217 992 513 749 75 1187 735 16 3 2

Se selecciona k=5.

Cancer Testicular: Genes Diferencialmente Expresados Clustering 15 / 26

Page 19: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Informacion biologica

Informacion biologica de grupos de genes

La informacion biologica de cada grupo se resume en:1 Grupo 1: Aspectos geneticos de la prostota, y varios aspectos de enlaces quımicos

de la proteına quinasa.CETN1

2 Grupo 2: Asociacion con algunos tipos de cancer, procesos de division celular ytranscripcion del ADN.

BRAFSPINK2HSPA2

3 Grupo 3: Funciones relacionadas a ribosomas y metabolismo de proteınas.KRASPOU5F1P3KIT

4 Grupo 4: Situacion similar al grupo 3, el que ademas contiene genes causantes demuchos tipos de cancer.

TCL1ATP53

5 Grupo 5: Esta altamente influenciado por genes responsables de enfermedadesrespiratorias.

Cancer Testicular: Genes Diferencialmente Expresados Clustering 16 / 26

Page 20: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

SAM normal vs cancer

Expresion Diferencial

Cancer Testicular: Genes Diferencialmente Expresados SAM 17 / 26

Page 21: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

SAM normal vs cancer

Analisis de Significancia de Microarreglos

Diseno pareado de SAM. Se muestra la comparacion de los umbrales (∆) con latasa de falsos descubrimientos (FDR) y cantidad de genes diferencialmenteexpresados.

Cancer Testicular: Genes Diferencialmente Expresados SAM 18 / 26

Page 22: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

SAM normal vs cancer

Analisis de Significancia de Microarreglos

Los genes diferencialmente expresados (40) se muestran en el plot.

Estos genes son: GAPDHS, AQP5, ARL4A, ANKRD7, AKAP4, PRM2, LDHC, LRP8,PIAS2, SPINK2, ACRV1, ZPBP, PRM1, SMCP, CCIN, CRISP2, PGAM2, DNAH7, CT62,CCT6B, TNP1, TSSK2, ODF1, ART3, LOC81691, SOCS7, SPA17, HSPA2, GSTM3, GK2,TP53TG5, DYRK3, ACR, ODF2, CRAT, IZUMO4, PRKAR2A, ZMYND10, POU5F1P3,TEKT2.

Cancer Testicular: Genes Diferencialmente Expresados SAM 19 / 26

Page 23: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

SAM etapas del cancer

Analisis de Significancia de Microarreglos

Diseno multiclase de SAM. Se muestra la comparacion de los umbrales (∆) conla tasa de falsos descubrimientos (FDR) y cantidad de genes diferencialmenteexpresados.

Cancer Testicular: Genes Diferencialmente Expresados SAM 20 / 26

Page 24: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

SAM etapas del cancer

Analisis de Significancia de Microarreglos

Los genes diferencialmente expresados (11) se muestran en el plot.

Estos genes son: 31818 at, ARID1A, ASIC2, CBR1, FGFBP1, GPD2, GSR, IL33,MPDU1, OSBPL2, PP14571, TIGR:HG4433-HT4703, VAMP1, ZNF165,ZNF189.

Cancer Testicular: Genes Diferencialmente Expresados SAM 21 / 26

Page 25: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

SAM etapas del cancer

Conclusiones

El proceso de clustering jerarquico se llevo a cabo con 5 grupos. En el primer grupose aglutinaron 1733 genes. El grupo 2, se formo de 1083 genes. Mientras que elgrupo 3 se formo con apenas 749 genes. Por su lado el grupo 4, consta de 1187genes. Finalmente el grupo 5 se formo de 737 genes.

Las funciones biologicos del primer grupo se relacionan con aspectos geneticos dela prostota, y varios aspectos de enlaces quımicos de la proteına quinasa; las delsegundo grupo se asocian con algunos tipos de cancer, procesos de division celulary transcripcion del ADN; en cambio el tercer grupo se caracteriza por funcionesrelacionadas a ribosomas y metabolismo de proteınas, situacion similar ocurre enel grupo 4, el que ademas contiene genes causantes de muchos tipos de cancer;y, finalmente el grupo 5 esta altamente influenciado por genes responsables deenfermedades respiratorias.

El analisis de significancia de microarreglos (SAM) permitio seleccionar 40 genesque muestran expresion diferencial entre muestras normales y muestras con cancer.

Cancer Testicular: Genes Diferencialmente Expresados SAM 22 / 26

Page 26: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Conclusiones

Los contrastes con estudios previos coinciden con este estudio en el hecho deque los genes SPINK2, HSPA2 y POU5F1P3 se expresan diferencialmente entremuestras de cancer y muestras de tejidos normales. Sin embargo en el caso deevaluacion de las etapas del cancer tipo seminoma no existe ninguna coincidenciacon el estado del arte, probablemente porque tales estudios no se enmarcaron enanalisis de etapas de progresion del cancer sino en la presencia o no del mismo.

El gen SPINK2 (Serine protease inhibitor Kazal-type 2) tiene alta importancia en losprocesos de proliferacion de celulas germinales masculinas, espermatogenesis, desarrollode tubulos seminıferos, gonadas masculinas y fertilizacion. 2

El gen HSPA2 (Heat shock 70kDa protein 2, isoform CRA a) interviene en los procesosde regulacion positiva de la fosforilacion de proteınas, meiosis masculina I y desarrollode la espermatida. 3

El gen POU5F1P3 (POU domain transcription factor OCT4-pg3) es parte fundamental

de la regulacion de transcripcion del ADN y del binding domain de ADN. 4

2http://www.ebi.ac.uk/QuickGO/GProtein?ac=D6RI103http://www.ebi.ac.uk/QuickGO/GProtein?ac=A0A024R6B54http://www.ebi.ac.uk/QuickGO/GProtein?ac=D5K9T5

Cancer Testicular: Genes Diferencialmente Expresados Conclusiones 23 / 26

Page 27: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Referencias I

Bray, F., Ferlay, J., Devesa, S. S., McGlynn, K. A., and Moller, H.Interpreting the international trends in testicular seminoma and nonseminomaincidence.Nature Reviews Urology 3 (2006), 532–543.

Cuccurullo, V., and Mansi, L.Ajcc cancer staging handbook: from the ajcc cancer staging manual (7thedition).European Journal of Nuclear Medicine and Molecular Imaging 38, 2 (2011),408–408.

Gashaw, I., Grummer, R., Klein-Hitpass, L., Dushaj, O., Bergmann, M.,Brehm, R., Grobholz, R., Kliesch, S., Neuvians, T., Schmid, K., Ostau,C., and Winterhager, E.Gene signatures of testicular seminoma with emphasis on expression of etsvariant gene 4.Cellular and Molecular Life Sciences CMLS 62, 19-20 (2005), 2359–2368.

Lau, S. K., Weiss, L. M., and Chu, P. G.Tcl1 protein expression in testicular germ cell tumors.American Journal of Clinical Pathology 133 (2010), 762–766.

Cancer Testicular: Genes Diferencialmente Expresados Conclusiones 24 / 26

Page 28: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Referencias II

Ruf, C., Sachs, S., Khalili-Harbi, N., Isbarn, H., Wagner, W.,Matthies, C., Meineke, V., Fisch, M., Chun, F., and Abend, M.Prediction of metastatic status in non-seminomatous testicular cancer.World Journal of Urology 32, 5 (2014), 1205–1211.

Sheikine, Y., Genega, E., Melamed, J., Lee, P., Reuter, V. E., and Ye,H.Molecular genetics of testicular germ cell tumors.American Journal of Cancer Research 2, 2 (2012), 153–167.

Turnbull, C., Rapley, E. A., Seal, S., Pernet, D., Renwick, A.,Hughes, D., Ricketts, M., Linger, R., Nsengimana, J., Deloukas, P.,Collaboration, T. U. T. C., Huddart, R. A., Bishop, D. T., Easton,D. F., Stratton, M. R., and Rahman, N.Variants near dmrt1, tert and atf7ip are associated with testicular germ cellcancer.Nature Genetics 42, 7 (2010), 604–607.

Vidal, I.El cancer que afecta principalmente a hombres jovenes en chile.Centro Oncologico Oncovida, junio 2014.

Cancer Testicular: Genes Diferencialmente Expresados Conclusiones 25 / 26

Page 29: bioinformatics genes expression

Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones

Gracias

Cancer Testicular: Genes Diferencialmente Expresados Conclusiones 26 / 26