bioinformatics genes expression
DESCRIPTION
bioinformatics genes expressionTRANSCRIPT
Cancer Testicular tipo Seminoma:Genes diferencialmente expresados
Sin correcciones luego de presentacion
Jorge Antonio Parraga Alava
BioinformaticaDoctorado en Ciencias de la Ingenierıa mencion Informatica
Departamento de Ingenierıa InformaticaUniversidad de Santiago de Chile
13 de abril de 2015
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Indice
1 IntroduccionAntecedentesPreguntas de investigacionEstado del Arte
2 Esquema
3 Seleccion, analisis y filtrado de datosAdquisicion de datosPreprocesamiento
4 ClusteringClusteringInformacion biologica
5 SAMSAM normal vs cancerSAM etapas del cancer
6 Conclusiones
Cancer Testicular: Genes Diferencialmente Expresados 2 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Antecedentes
Generalidades del cancer
El cancer de testıculo es un tumor germinal gonadal o extra-gonadal, que se ma-nifiesta por aumento de volumen testicular firme, generalmente no sensible y sinsignos inflamatorios, habitualmente unilateral. [5]
Los dos tipos principales de este cancer son seminomas y no seminomas. Los noseminomas tienden a crecer y diseminarse mas rapidamente que los seminomas.Los seminomas o tumores presentan crecimiento lento y ocurre normalmente enlos hombres entre los 30 y 40 anos de edad. [1]
En Chile, como indica [8], este tipo de cancer se produce especialmente en pacientesde entre 20 y 40 anos, con una tasa de incidencia -7 de cada 100.000 hombres-que es alta en comparacion con otros paıses latinoamericanos.
Cancer Testicular: Genes Diferencialmente Expresados Introduccion 3 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Preguntas de investigacion
Preguntas de investigacion
Se pretende dar respuestas a las siguientes preguntas:
¿Cuales genes se expresan diferente entre muestras normales y de cancer?
¿Cuales genes se expresan diferente en las etapas del cancer?
¿Existen funciones biologicas afectadas por estos genes?
Cancer Testicular: Genes Diferencialmente Expresados Introduccion 4 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Estado del Arte
Estudios previos
Reino Unido
Estudio sobre el genoma del tumor testicular. Del mismo, se evidencio que los genes TERT, DMRT1,y ATF7IP estan asociados con celulas germinales de cancer testicular. [7]
Estados Unidos
Analisis sobre expresion de la proteına TCL1 en 63 casos. Distribuidos en: 43 seminomas, y 20 tumoresmixtos de celulas germinales. Concluyo que la proteına TCL1 se expreso en 20 de los 23 casos deseminoma puro y en las areas seminomatosos de tumores mixtos de celulas germinales. [4]
General
El artıculo de revision, ofrece un resumen del conocimiento actual en genetica que subyace al desa-rrollo, progresion y la quimio-resistencia de tumores de celulas germinales del testıculo (TGCT), delmismo se desprende que KIT, TP53, KRAS/NRAS y BRAF son los genes mutados con mayor frecuencia
en TGCT e implicados en su patogenesis. [6]
Original
Estudio que realiza un proceso de expresion diferencial de variantes de algunos genes en pacientes concancer de testıculo. En el mismo se destaca POU5F1P3, CETN1, SPINK2, HSPA2 como genes altamenteexpresados en diferentes etapas del seminoma testicular. [3]
Cancer Testicular: Genes Diferencialmente Expresados Introduccion 5 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Estado del Arte
Estudios previos
Reino Unido
Estudio sobre el genoma del tumor testicular. Del mismo, se evidencio que los genes TERT, DMRT1,y ATF7IP estan asociados con celulas germinales de cancer testicular. [7]
Estados Unidos
Analisis sobre expresion de la proteına TCL1 en 63 casos. Distribuidos en: 43 seminomas, y 20 tumoresmixtos de celulas germinales. Concluyo que la proteına TCL1 se expreso en 20 de los 23 casos deseminoma puro y en las areas seminomatosos de tumores mixtos de celulas germinales. [4]
General
El artıculo de revision, ofrece un resumen del conocimiento actual en genetica que subyace al desa-rrollo, progresion y la quimio-resistencia de tumores de celulas germinales del testıculo (TGCT), delmismo se desprende que KIT, TP53, KRAS/NRAS y BRAF son los genes mutados con mayor frecuencia
en TGCT e implicados en su patogenesis. [6]
Original
Estudio que realiza un proceso de expresion diferencial de variantes de algunos genes en pacientes concancer de testıculo. En el mismo se destaca POU5F1P3, CETN1, SPINK2, HSPA2 como genes altamenteexpresados en diferentes etapas del seminoma testicular. [3]
Cancer Testicular: Genes Diferencialmente Expresados Introduccion 5 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Estado del Arte
Estudios previos
Reino Unido
Estudio sobre el genoma del tumor testicular. Del mismo, se evidencio que los genes TERT, DMRT1,y ATF7IP estan asociados con celulas germinales de cancer testicular. [7]
Estados Unidos
Analisis sobre expresion de la proteına TCL1 en 63 casos. Distribuidos en: 43 seminomas, y 20 tumoresmixtos de celulas germinales. Concluyo que la proteına TCL1 se expreso en 20 de los 23 casos deseminoma puro y en las areas seminomatosos de tumores mixtos de celulas germinales. [4]
General
El artıculo de revision, ofrece un resumen del conocimiento actual en genetica que subyace al desa-rrollo, progresion y la quimio-resistencia de tumores de celulas germinales del testıculo (TGCT), delmismo se desprende que KIT, TP53, KRAS/NRAS y BRAF son los genes mutados con mayor frecuencia
en TGCT e implicados en su patogenesis. [6]
Original
Estudio que realiza un proceso de expresion diferencial de variantes de algunos genes en pacientes concancer de testıculo. En el mismo se destaca POU5F1P3, CETN1, SPINK2, HSPA2 como genes altamenteexpresados en diferentes etapas del seminoma testicular. [3]
Cancer Testicular: Genes Diferencialmente Expresados Introduccion 5 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Estado del Arte
Estudios previos
Reino Unido
Estudio sobre el genoma del tumor testicular. Del mismo, se evidencio que los genes TERT, DMRT1,y ATF7IP estan asociados con celulas germinales de cancer testicular. [7]
Estados Unidos
Analisis sobre expresion de la proteına TCL1 en 63 casos. Distribuidos en: 43 seminomas, y 20 tumoresmixtos de celulas germinales. Concluyo que la proteına TCL1 se expreso en 20 de los 23 casos deseminoma puro y en las areas seminomatosos de tumores mixtos de celulas germinales. [4]
General
El artıculo de revision, ofrece un resumen del conocimiento actual en genetica que subyace al desa-rrollo, progresion y la quimio-resistencia de tumores de celulas germinales del testıculo (TGCT), delmismo se desprende que KIT, TP53, KRAS/NRAS y BRAF son los genes mutados con mayor frecuencia
en TGCT e implicados en su patogenesis. [6]
Original
Estudio que realiza un proceso de expresion diferencial de variantes de algunos genes en pacientes concancer de testıculo. En el mismo se destaca POU5F1P3, CETN1, SPINK2, HSPA2 como genes altamenteexpresados en diferentes etapas del seminoma testicular. [3]
Cancer Testicular: Genes Diferencialmente Expresados Introduccion 5 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Esquema del proceso
Cancer Testicular: Genes Diferencialmente Expresados Esquema 6 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Adquisicion de datos
Base de datos (Microarray) de NCBI
Dataset GDS2842, Testicular seminoma progression. Se incluyen 43 muestras de expre-siones genicas (genes/probes) correspondientes a tejido testicular:
Segun el Comite Americano Conjunto del Cancer (AJCC) [2]:
pT1: Tumor limitado a los testıculos y epidıdimo sin invasion vascular / linfatica; tumor puede
invadir la tunica albugınea pero no la tunica vaginal1.
pT2: Tumor limitado a los testıculos y epidıdimo con invasion vascular / linfatica, o tumor quese extiende a traves de la tunica albugınea con afectacion de la tunica vaginal.
pT3: El tumor invade el cordon espermatico con o sin invasion linfatico / vascular.
1Tunica serosa formada por una doble lamina que rodea incompletamente el testıculo en el escroto
Cancer Testicular: Genes Diferencialmente Expresados Seleccion, analisis y filtrado de datos 7 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Preprocesamiento
Preprocesamiento
Cancer Testicular: Genes Diferencialmente Expresados Seleccion, analisis y filtrado de datos 8 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Preprocesamiento
Limpieza y Transformacion
Se obtiene el archivo con 12580 genes para las 43 muestras. De estos genes,existen 11 de los 13 que segun estudios previos intervienen en el desarrollo delcancer testicular.Se identifica y elimina fuentes de variacion que no sean diferencias de expresion.
Genes/probes con valores null o control en sus expresiones son eliminados.En secuencias (genes/probes) repetidas, se promedio la expresion de ella en cada una delas muestras.El dataset resultante, consta de un microarreglo con 9480 genes y 43 muestras.
El microarreglo, presenta expresion de algunos genes elevados diez, cien o masveces, por lo que se aplico la transformacion logarıtmica en base 2.
(a) (b)
Cancer Testicular: Genes Diferencialmente Expresados Seleccion, analisis y filtrado de datos 9 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Preprocesamiento
Reduccion de Dimensionalidad
Se realizo un analisis estadıstico a traves de la prueba t para identificar los secuen-cias que presenten diferencias significativas de expresion, y los que no lo haganseran eliminados.Hipotesis
H0: µ1=µ2=...=µk Secuencias se expresan de forma similar
H1: µ1 6=µ2 6=... 6=µk Secuencias se expresan de forma diferente
Con α = 0.05. Si una secuencia presenta un valor-p ≤ α entonces se expresa de forma diferenteen el microarreglo.
Se descartan 3391 genes. De esta manera se logro reducir la dimensionalidad del dataset a5489 genes candidatos a ser expresados diferencialmente en 43 muestras.
Debido a este proceso desaparecen otros 2 genes. Por lo que en total 4 genes de los 13referenciados no estaran disponibles en el estudio. Los 9 genes que si lo haran son:
1 KIT2 KRAS3 TCL1A4 TP535 BRAF6 POU5F1P37 CETN18 SPINK29 HSPA2
Cancer Testicular: Genes Diferencialmente Expresados Seleccion, analisis y filtrado de datos 10 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Clustering
Clustering
Cancer Testicular: Genes Diferencialmente Expresados Clustering 11 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Clustering
Parametros de Clustering
Se realiza el proceso de clustering jerarquico con R y paquetes de Bioconductor enbase a:
Medida de distancia/similitud de pearson. Valor de correlacion ρ entre -1 y 1:El 1 indica correlacion positiva. + en una condicion, en la otra condicion +.El 0, indica que no existe correlacion entre ambas condiciones de expresion del gen.El -1, indica correlacion negativa. + en una condicion, en la otra -.
Metodo de agrupamiento average.
Cancer Testicular: Genes Diferencialmente Expresados Clustering 12 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Clustering
Determinacion del numero de cluster
Se calcula la suma de cuadrados de errores (SSE) dentro de los grupo.
Cancer Testicular: Genes Diferencialmente Expresados Clustering 13 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Clustering
Determinacion del numero de cluster
(SSE) grupo (1-10).
Cancer Testicular: Genes Diferencialmente Expresados Clustering 14 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Clustering
Segun el SSE, se evalua con valores entre 3 y 10.
k 1 2 3 4 5 6 7 8 9 10
2 2816 2673 - - - - - - - -3 1924 749 2816 - - - - - - -4 1733 1083 749 1924 - - - - - -5 1733 1083 749 1187 737 - - - - -6 1730 1083 749 1187 737 3 - - - -7 1730 1083 749 1187 735 3 2 - - -8 1730 1067 749 1187 735 16 3 2 - -9 1730 992 749 75 1187 735 16 3 2 -
10 1217 992 513 749 75 1187 735 16 3 2
Se selecciona k=5.
Cancer Testicular: Genes Diferencialmente Expresados Clustering 15 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Informacion biologica
Informacion biologica de grupos de genes
La informacion biologica de cada grupo se resume en:1 Grupo 1: Aspectos geneticos de la prostota, y varios aspectos de enlaces quımicos
de la proteına quinasa.CETN1
2 Grupo 2: Asociacion con algunos tipos de cancer, procesos de division celular ytranscripcion del ADN.
BRAFSPINK2HSPA2
3 Grupo 3: Funciones relacionadas a ribosomas y metabolismo de proteınas.KRASPOU5F1P3KIT
4 Grupo 4: Situacion similar al grupo 3, el que ademas contiene genes causantes demuchos tipos de cancer.
TCL1ATP53
5 Grupo 5: Esta altamente influenciado por genes responsables de enfermedadesrespiratorias.
Cancer Testicular: Genes Diferencialmente Expresados Clustering 16 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
SAM normal vs cancer
Expresion Diferencial
Cancer Testicular: Genes Diferencialmente Expresados SAM 17 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
SAM normal vs cancer
Analisis de Significancia de Microarreglos
Diseno pareado de SAM. Se muestra la comparacion de los umbrales (∆) con latasa de falsos descubrimientos (FDR) y cantidad de genes diferencialmenteexpresados.
Cancer Testicular: Genes Diferencialmente Expresados SAM 18 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
SAM normal vs cancer
Analisis de Significancia de Microarreglos
Los genes diferencialmente expresados (40) se muestran en el plot.
Estos genes son: GAPDHS, AQP5, ARL4A, ANKRD7, AKAP4, PRM2, LDHC, LRP8,PIAS2, SPINK2, ACRV1, ZPBP, PRM1, SMCP, CCIN, CRISP2, PGAM2, DNAH7, CT62,CCT6B, TNP1, TSSK2, ODF1, ART3, LOC81691, SOCS7, SPA17, HSPA2, GSTM3, GK2,TP53TG5, DYRK3, ACR, ODF2, CRAT, IZUMO4, PRKAR2A, ZMYND10, POU5F1P3,TEKT2.
Cancer Testicular: Genes Diferencialmente Expresados SAM 19 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
SAM etapas del cancer
Analisis de Significancia de Microarreglos
Diseno multiclase de SAM. Se muestra la comparacion de los umbrales (∆) conla tasa de falsos descubrimientos (FDR) y cantidad de genes diferencialmenteexpresados.
Cancer Testicular: Genes Diferencialmente Expresados SAM 20 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
SAM etapas del cancer
Analisis de Significancia de Microarreglos
Los genes diferencialmente expresados (11) se muestran en el plot.
Estos genes son: 31818 at, ARID1A, ASIC2, CBR1, FGFBP1, GPD2, GSR, IL33,MPDU1, OSBPL2, PP14571, TIGR:HG4433-HT4703, VAMP1, ZNF165,ZNF189.
Cancer Testicular: Genes Diferencialmente Expresados SAM 21 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
SAM etapas del cancer
Conclusiones
El proceso de clustering jerarquico se llevo a cabo con 5 grupos. En el primer grupose aglutinaron 1733 genes. El grupo 2, se formo de 1083 genes. Mientras que elgrupo 3 se formo con apenas 749 genes. Por su lado el grupo 4, consta de 1187genes. Finalmente el grupo 5 se formo de 737 genes.
Las funciones biologicos del primer grupo se relacionan con aspectos geneticos dela prostota, y varios aspectos de enlaces quımicos de la proteına quinasa; las delsegundo grupo se asocian con algunos tipos de cancer, procesos de division celulary transcripcion del ADN; en cambio el tercer grupo se caracteriza por funcionesrelacionadas a ribosomas y metabolismo de proteınas, situacion similar ocurre enel grupo 4, el que ademas contiene genes causantes de muchos tipos de cancer;y, finalmente el grupo 5 esta altamente influenciado por genes responsables deenfermedades respiratorias.
El analisis de significancia de microarreglos (SAM) permitio seleccionar 40 genesque muestran expresion diferencial entre muestras normales y muestras con cancer.
Cancer Testicular: Genes Diferencialmente Expresados SAM 22 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Conclusiones
Los contrastes con estudios previos coinciden con este estudio en el hecho deque los genes SPINK2, HSPA2 y POU5F1P3 se expresan diferencialmente entremuestras de cancer y muestras de tejidos normales. Sin embargo en el caso deevaluacion de las etapas del cancer tipo seminoma no existe ninguna coincidenciacon el estado del arte, probablemente porque tales estudios no se enmarcaron enanalisis de etapas de progresion del cancer sino en la presencia o no del mismo.
El gen SPINK2 (Serine protease inhibitor Kazal-type 2) tiene alta importancia en losprocesos de proliferacion de celulas germinales masculinas, espermatogenesis, desarrollode tubulos seminıferos, gonadas masculinas y fertilizacion. 2
El gen HSPA2 (Heat shock 70kDa protein 2, isoform CRA a) interviene en los procesosde regulacion positiva de la fosforilacion de proteınas, meiosis masculina I y desarrollode la espermatida. 3
El gen POU5F1P3 (POU domain transcription factor OCT4-pg3) es parte fundamental
de la regulacion de transcripcion del ADN y del binding domain de ADN. 4
2http://www.ebi.ac.uk/QuickGO/GProtein?ac=D6RI103http://www.ebi.ac.uk/QuickGO/GProtein?ac=A0A024R6B54http://www.ebi.ac.uk/QuickGO/GProtein?ac=D5K9T5
Cancer Testicular: Genes Diferencialmente Expresados Conclusiones 23 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Referencias I
Bray, F., Ferlay, J., Devesa, S. S., McGlynn, K. A., and Moller, H.Interpreting the international trends in testicular seminoma and nonseminomaincidence.Nature Reviews Urology 3 (2006), 532–543.
Cuccurullo, V., and Mansi, L.Ajcc cancer staging handbook: from the ajcc cancer staging manual (7thedition).European Journal of Nuclear Medicine and Molecular Imaging 38, 2 (2011),408–408.
Gashaw, I., Grummer, R., Klein-Hitpass, L., Dushaj, O., Bergmann, M.,Brehm, R., Grobholz, R., Kliesch, S., Neuvians, T., Schmid, K., Ostau,C., and Winterhager, E.Gene signatures of testicular seminoma with emphasis on expression of etsvariant gene 4.Cellular and Molecular Life Sciences CMLS 62, 19-20 (2005), 2359–2368.
Lau, S. K., Weiss, L. M., and Chu, P. G.Tcl1 protein expression in testicular germ cell tumors.American Journal of Clinical Pathology 133 (2010), 762–766.
Cancer Testicular: Genes Diferencialmente Expresados Conclusiones 24 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Referencias II
Ruf, C., Sachs, S., Khalili-Harbi, N., Isbarn, H., Wagner, W.,Matthies, C., Meineke, V., Fisch, M., Chun, F., and Abend, M.Prediction of metastatic status in non-seminomatous testicular cancer.World Journal of Urology 32, 5 (2014), 1205–1211.
Sheikine, Y., Genega, E., Melamed, J., Lee, P., Reuter, V. E., and Ye,H.Molecular genetics of testicular germ cell tumors.American Journal of Cancer Research 2, 2 (2012), 153–167.
Turnbull, C., Rapley, E. A., Seal, S., Pernet, D., Renwick, A.,Hughes, D., Ricketts, M., Linger, R., Nsengimana, J., Deloukas, P.,Collaboration, T. U. T. C., Huddart, R. A., Bishop, D. T., Easton,D. F., Stratton, M. R., and Rahman, N.Variants near dmrt1, tert and atf7ip are associated with testicular germ cellcancer.Nature Genetics 42, 7 (2010), 604–607.
Vidal, I.El cancer que afecta principalmente a hombres jovenes en chile.Centro Oncologico Oncovida, junio 2014.
Cancer Testicular: Genes Diferencialmente Expresados Conclusiones 25 / 26
Introduccion Esquema Seleccion, analisis y filtrado de datos Clustering SAM Conclusiones
Gracias
Cancer Testicular: Genes Diferencialmente Expresados Conclusiones 26 / 26