u n a m universidad nacional autónoma de méxico servicios web con aplicaciones en bioinformática...

60
U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Upload: perpetua-pinto

Post on 11-Apr-2015

106 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

U N A MUniversidad NacionalAutónoma de México

Servicios Web con aplicaciones en Bioinformática

24 de marzo, 2009

Page 2: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Introducción.Navegando a través del tiempo en la genética Era Genómica

Genoma HumanoRetos

Explosión de datos.Análisis integrados.

BioinformaticaQué es?Consorcios y Grupos.Herramientas

Web Servicesweb servicesworkflows

Page 3: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Navegando a través del tiempo en la genética

1869: Friedrich Miescher isolates DNA for the first time.

1879: Mitosis observed

1865: Mendel's Peas

Gregor Mendel describes his experiments with peas showing that heredity is transmitted in discrete units.

Walter Flemming described chromosome behavior during animal cell division.

Miescher isolated a material rich in phosphorus from the cells and called it nuclein.

http://www.genome.gov/25019887

Page 4: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

1900s

  

1900: Rediscovery of Mendel's work 1902: Orderly Inheritance of Disease Observed1902: Chromosome Theory of Heredity1909: The Word Gene Coined1911: Fruit Flies Illuminate the Chromosome Theory

1940's

1941: One Gene, One Enzyme 1943: X-ray Diffraction of DNA1944: DNA is "Transforming Principle"1944: Jumping Genes

1950's

  

      

1952: Genes are Made of DNA 1953: DNA Double Helix1955: 46 Human Chromosomes1955: DNA Copying Enzyme 1956: Cause of Disease Traced to Alteration 1958: Semiconservative Replication of DNA1959: Chromosome Abnormalities Identified

http://www.genome.gov/25019887

Page 5: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

1960's

1961: mRNA Ferries Information 1961: First Screen for Metabolic Defect in Newborns1966: Genetic Code Cracked1968: First Restriction Enzymes Described

1970's

1972: First Recombinant DNA 1973: First Animal Gene Cloned1975-77: DNA Sequencing1976: First Genetic Engineering Company1977: Introns Discovered

1980's

   

               

1981-82: First Transgenic Mice and Fruit Flies 1982: GenBank Database Formed1983: First Disease Gene Mapped1983: PCR Invented1986: First Time Gene Positionally Cloned1987: First Human Genetic Map1987: YACs Developed1989: Microsatelites, New Genetic Markers1989: Sequence-tagged Sites, Another Marker

http://www.genome.gov/25019887

Page 6: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

1990's

1990: Launch of the Human Genome Project NIH1990: ELSI Founded1990: Research on BACs1991: ESTs, Fragments of Genes1992: Second-generation Genetic Map of Human Genome1992: Data Release Guidelines Established1993: NEW HGP Five-year Plan1994: FLAVR SAVR Tomato1994: Detailed Human Genetic Map1994: Microbial Genome Project1995: Ban on Genetic Discrimination in Workplace 1995: Two Microbial Genomes Sequenced1995: Physical Map of Human Genome Completed1996: International Strategy Meeting on Human Genome Sequencing1996: Mouse Genetic Map Completed1996: Yeast Genome Sequenced1996: Archaea Genome Sequenced1996: Health Insurance Discrimination Banned1996: 280,000 Expressed Sequence Tags (ESTs)1996: Human Gene Map Created1996: Human DNA Sequence Begins1997: Bermuda Meeting Affirms Principle of Data Release 1997: E. coli Genome Sequenced1997: Recommendations on Genetic Testing1998: Private Company Announces Sequencing Plan1998: M. Tuberculosis Bacterium Sequenced1998: Committee on Genetic Testing1998: HGP Map Includes 30,000 Human Genes1998: New HGP Goals for 20031998: SNP Initiative Begins1998: Genome of Roundworm C. elegans Sequenced1999: Full-scale Human Genome Sequencing 1999: Chromosome 22

Page 7: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

2000 - 2001

2000: Free Access to Genomic Information 2000: Chromosome 212000: Working Draft2000: Drosophila and Arabidopsis genomes sequenced2000: Executive Order Bans Genetic Descrimination in the Federal Workplace2000: Yeast Interactome Published2000: Fly Model of Parkinson's Disease Reported2001: First Draft of the Human Genome Sequence Released 2001: RNAi Shuts Off Mammalian Genes2001: FDA Approves Genetics-based Drug to Treat Leukemia

The President and Prime Minister Blair issued a Joint Statement in an effort to ensure that the public derives the maximum possible benefit from the sequence of the human genome.

http://www.genome.gov/25019887

Page 8: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

2002 -2003

2002: Mouse Genome Sequenced2002: Researchers Find Genetic Variation Associated with Prostate Cancer2002: Rice Genome Sequenced2002: The International HapMap Project is Announced2002: The Genomes to Life Program is Launched2002: Researchers Identify Gene Linked to Bipolar Disorder2003: Human Genome Project Completed2003: Fiftieth Anniversary of Watson and Crick's Description of the Double Helix

2003: The First National DNA Day Celebrated2003: ENCODE Program Begins2003: Premature Aging Gene Identified

http://www.genome.gov/25019887

Page 9: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

2004 - The Future

2004: Rat and Chicken Genomes Sequenced2004: FDA Approves First Microarray2004: Refined Analysis of Complete Human Genome Sequence2004: Surgeon General Stresses Importance of Family History2005: Chimpanzee Genomes Sequenced2005: HapMap Project Completed2005: Trypanosomatid Genomes Sequenced2005: Dog Genomes Sequenced2006: The Cancer Genome Atlas (TCGA) Project Started2006: Second Non-human Primate Genome is Sequenced2006: Initiatives to Establish the Genetic and Environmental Causes of Common Diseases Launched

The Future

http://www.genome.gov/25019887

Page 10: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009
Page 11: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Retos de la genómica

Page 12: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

"If our strands of DNA were stretched out in a line, the 46 chromosomes making up the human genome would extend more than six feet [close to two metres]. If the ... length of the 100 trillion cells could be stretched out, it would be ... over 113 billion miles [182 billion kilometres]. That is enough material to reach to the sun and back 610 times." [Source: Centre for Integrated Genomics]

The Human Genome Project is involved in determining the exact order of the DNA bases of the entire human genome. The human genome contains more than 3.2 billion base pairs and more than 30 000 genes.

Explosión de datos.El genoma humano

Page 13: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome&cmd=search&term=

Que tanta informacion hay?

NCBI - National Center for Biotechnology InformationEstablished in 1988 as a national resource for molecular biology information, NCBI creates public databases, conducts research in computational biology, develops software tools for analyzing genome data, and disseminates biomedical information - all for the better understanding of molecular processes affecting human health and disease.

Page 14: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Genoma: tamaño del genoma, número de genes

Human Genome:3 billion DNA base pairs and has a data size of approximately 750 Megabytes

Page 15: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Mas bases de datos especializadas.

Page 16: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

El futuro. Análisis integrados y aplicados

Pilares

Retos

Page 17: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

I. Genomics to Biology

. Elucidating the structure of genomes and identifying the function of the myriad encoded elements will allow connections to be made between genomics and biology and will, in turn, accelerate the exploration of all realms of the biological sciences.

II. Genómica y saludLa genómica encierra la promesa del desarrollo de una medicina individualizada y el manejo de ésta para cada perfil genético.

Page 18: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Los últimos avances en la investigación en Ciencias Biológicas están produciendo un enorme crecimiento en el volumen y la

complejidad de la información biológica disponible. Las Tecnologías de la Información y las Comunicaciones son

cruciales para posibilitar el almacenamiento e interpretación de estos datos en los centros de investigación de un modo eficiente y

robusto

Bioinformática

Page 19: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Pero, ¿qué es la bioinformática?

Page 20: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Una definición de Bioinformática

Aplicación de las tecnologías de la información en Biología Molecular

Esto incluye la compilación, mantenimiento, distribución, análisis y uso de las inmensas cantidades de información biológica disponibles

Page 21: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

2 Major research areas 2.1 Sequence analysis 2.2 Genome annotation 2.3 Computational evolutionary biology 2.4 Measuring biodiversity 2.5 Analysis of gene expression 2.6 Analysis of regulation 2.7 Analysis of protein expression 2.8 Analysis of mutations in cancer 2.9 Prediction of protein structure 2.10 Comparative genomics 2.11 Modeling biological systems 2.12 High-throughput image analysis 2.13 Protein-protein docking

Principales áreas de su aplicación

Page 22: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Major Organizations Bioinformatics Organization (Bioinformatics.Org): The Open-Access Institute EMBnet European Bioinformatics Institute European Molecular Biology Laboratory The International Society for Computational Biology National Center for Biotechnology Information National Institutes of Health homepage Open Bioinformatics Foundation: umbrella non-profit organization supporting certain open-source projects in bioinformatics Swiss Institute of Bioinformatics Wellcome Trust Sanger Institute

Major Journals Algorithms in Molecular Biology Bioinformatics BMC Bioinformatics Briefings in Bioinformatics Evolutionary Bioinformatics Genome Research The International Journal of Biostatistics Journal of Computational Biology Cancer Informatics Journal of the Royal Society Interface Molecular Systems Biology PLoS Computational Biology Statistical Applications in Genetic and Molecular Biology Transactions on Computational Biology and Bioinformatics - IEEE/ACM International Journal of Bioinformatics Research and Applications List of Bioinformatics journals at Bioinformatics.fr EMBnet.News at EMBnet.org

EMBnet is the organisation world-wide bringing bioinformatics professionals to work together to serve the expanding fields of genetics and molecular ...

Page 23: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Software tools for bioinformatics simple command-line tools, complex graphical programs,CGI

Best-known algorithms:

BLAST, an algorithm for determining the similarity of arbitrary sequences against other sequences, possibly from curated databases of protein or DNA sequences.

EMBOSS. Software analysis package.

RSAT. Regulatory Sequence Analysis Tools.

Software en Bioinformática

Page 24: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

A bioinformatics « world » for humansA bioinformatics « world » for humans

http://tux.crystalxp.net/en.id.10838-brunocb-leonard-de-vinci----tux-de-vitruve.html

Page 25: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

My sweet home-made bioinformatics My sweet home-made bioinformatics platformplatform

Complete datasets

Download

Download

Do your analysis: scripts

BLAST

BLAT

RSAT

Clustalw

MEME

Download and install

Download and install

Parsing HTML

Parsing HTML

Web page only ressources

Filtered datasets

DownloadDownload

SQL queries

SQL queries

Perl

scrip

t

Perl

scrip

t

Page 26: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

My nightmare (home-made) platformMy nightmare (home-made) platform

Complete datasets

Filtered datasets

DownloadDownload

Perl

scrip

t

Perl

scrip

t

Download

Download

SQL queries

SQL queries

BLAST

BLAT

RSAT

Clustalw

MEME

Download and install

Download and install

Do your analysis: scripts

Parsing HTML

Parsing HTML

Web page only ressources

UPDATES

NEW ANNOTATION

DEPENDENCIES

UPDATES

LIBRARIESNEW DATABASE SCHEMA

Page 27: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Bye bye home-made platform…Bye bye home-made platform…

http://www.genomequest.com/landing-pages/ODI-webinar-web.html

Page 28: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

•Datos masivos. Necesidad de procesarlos e integrarlos.•Los datos se encuentran en distintos servidores, en distintas bases de datos, y en distintos formatos. Problema de intercambio de datos.

•Muchas herramientas y se encuentran en distintos servidores, en distintas formas de acceso (CGI-Forms, HTML), distintos formatos de entrada y salida, y en distintos lenguajes. Problema de interoperabilidad (comunicación entre herramientas)

Problemas :

Page 29: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Solución al Problema de intercambio de datos.

Intercambio de datos a través de un formato definido en XML.

XML permite estructurar datos y documentos en forma de árboles de etiquetas con atributos. El modelo de datos XML consiste en un árbol que no distingue entre objetos y relaciones, ni tiene noción de jerarquía de clases.

Si queremos semántica (significado)

Lenguajes para la definición de ontologías y metadatos en la web.

RDF Schema Query Language. OWL Ontology Web Language.

Page 30: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Solución al Problema de interoperabilidadUn servicio web (en inglés Web service) es un conjunto de protocolos y estándares que sirven para intercambiar datos entre aplicaciones. Distintas aplicaciones de software desarrolladas en lenguajes de programación diferentes, y ejecutadas sobre cualquier plataforma, pueden utilizar los servicios web para intercambiar datos en redes de ordenadores como Internet. La interoperabilidad se consigue mediante la adopción de estándares abiertos. Las organizaciones OASIS y W3C son los comités responsables de la arquitectura y reglamentación de los servicios Web.

Page 31: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009
Page 32: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Programs « talking » to programsPrograms « talking » to programs

retrieve-seq -org Saccharomyces_cerevisiae -feattype CDS -type upstream -format fasta …clic

kclick

#!/usr/bin/perl -wRSAT server in Bruxelles

login ssh

Anonymous access

anywhere

Page 33: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

A future bioinformatics « world » for computers ?A future bioinformatics « world » for computers ?

I have a dream…

Page 34: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

A future bioinformatics « world » for computers ?A future bioinformatics « world » for computers ?

I have a dream… Run analysis remotely

Only retrieve necessary data

Data always up-to-date

No need for local installation

A unified way to access data and programs

Programs interacting with programs over the internet

Page 35: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Web Services to the rescue ?Web Services to the rescue ?

Stein. Creating a bioinformatics nation. Nature (2002) vol. 417 (6885) pp. 119-20

« Although this proposal may seem a far cry from what happens now, the technology exists to make it reality. The World Wide Web consortium, with industry heavy-weights such as IBM and Microsoft, are providing an alphabet soup of standards: SOAP/XML, WSDL, UDDI and XSDL. »

Page 36: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

What are Web Services (WS) ?What are Web Services (WS) ?

Definition: A Web service is a software system designed to support interoperable machine-to-

machine interaction over a network Source: W3C: http://www.w3.org/TR/ws-gloss/

Service provider(server)client

network => internet

PERL scriptrun_BLAST () blastall

call run_BLAST()

send back the results

#!/usr/bin/perl -w

Page 37: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

SOAP-based Web Services: SOAP: Simple Object Access Protocol Standard of the W3C with specifications: messaging with XML, HTTP for transport

Various types of Web services : SOAPVarious types of Web services : SOAP

PERL scriptrun_BLAST () blastall

#!/usr/bin/perl -w

BLAST parameters$sequence $subst_matrix $threshold

XML

XML

XML

XML

BLAST result

XML

XML$result

HTTP

Page 38: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Various types of Web services : SOAPVarious types of Web services : SOAP

PERL scriptrun_BLAST () blastall

#!/usr/bin/perl -w

XML

<soapenv:Envelope xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:soapenv="http://schemas.xmlsoap.org/soap/envelope/" xmlns:blas="http://tempuri.org/Blast"> <soapenv:Body> <blas:searchParam soapenv:encodingStyle="http://schemas.xmlsoap.org/soap/encoding/"> <program xsi:type="xsd:string">blastp</program> <database xsi:type="xsd:string">SWISS</database> <query xsi:type="xsd:string">MHLEGRDGRR YPGAPAVELL QTSVPSGLAE LVAGKRRLPR GAGGADPSHS</query> <param xsi:type="xsd:string"></param> </blas:searchParam> </soapenv:Body></soapenv:Envelope>

XML

Request envelope

Response envelope

<soap:Envelope soap:encodingStyle="http://schemas.xmlsoap.org/soap/encoding/" xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/" xmlns:soapenc="http://schemas.xmlsoap.org/soap/encoding/" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> <soap:Body> <n:searchParamResponse xmlns:n="http://tempuri.org/Blast"> <Result xsi:type="xsd:string">BLASTP 2.2.18 [Mar-02-2008]

Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database searchprograms", Nucleic Acids Res. 25:3389-3402.

Reference for compositional score matrix adjustment: Altschul, Stephen F., John C. Wootton, E. Michael Gertz, Richa Agarwala, Aleksandr Morgulis,Alejandro A. Schaffer, and Yi-Kuo Yu (2005) "Protein database searchesusing compositionally adjusted substitution matrices", FEBS J. 272:5101-5109.

Query= query (50 letters)

Database: SWISS: SWISS sequence taken from the header [Last updateMar/02/2009] 405,506 sequences; 146,168,000 total letters

Searching..................................................done

Score ESequences producing significant alignments: (bits) Value

sp|Q04671|P_HUMAN RecName: Full=P protein; AltName: Full=Melanoc... 104 1e-22

>sp|Q04671|P_HUMAN RecName: Full=P protein; AltName: Full=Melanocyte-specific transporter protein; AltName: Full=Pink-eyed dilution protein homolog; Length = 838

Score = 104 bits (260), Expect = 1e-22, Method: Compositional matrix adjust. Identities = 50/50 (100%), Positives = 50/50 (100%)

Query: 1 MHLEGRDGRRYPGAPAVELLQTSVPSGLAELVAGKRRLPRGAGGADPSHS 50 MHLEGRDGRRYPGAPAVELLQTSVPSGLAELVAGKRRLPRGAGGADPSHSSbjct: 1 MHLEGRDGRRYPGAPAVELLQTSVPSGLAELVAGKRRLPRGAGGADPSHS 50

Database: SWISS: SWISS sequence taken from the header [Last update Mar/02/2009] Posted date: Mar 2, 2009 5:30 AM Number of letters in database: 146,168,000 Number of sequences in database: 405,506 Lambda K H 0.314 0.136 0.403

GappedLambda K H 0.267 0.0410 0.140

Matrix: BLOSUM62Gap Penalties: Existence: 11, Extension: 1Number of Sequences: 405506Number of Hits to DB: 17,615,102Number of extensions: 565364Number of successful extensions: 858Number of sequences better than 10.0: 2Number of HSP's gapped: 858Number of HSP's successfully gapped: 2Length of query: 50Length of database: 146,168,000Length adjustment: 23Effective length of query: 27Effective length of database: 136,841,362Effective search space: 3694716774Effective search space used: 3694716774Neighboring words threshold: 11Window for multiple hits: 40X1: 16 ( 7.2 bits)X2: 38 (14.6 bits)X3: 64 (24.7 bits)S1: 42 (21.9 bits)S2: 62 (28.5 bits)</Result> </n:searchParamResponse> </soap:Body></soap:Envelope>

Page 39: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Various types of Web services : SOAPVarious types of Web services : SOAP

PERL

run_BLAST () blastall

SOAP::LiteSOAP::WSDLXML::Compile::WSDL11

BLAST parameters

XML

Client

serialization

ZSISOAPpy

AXISMETRO

XMLresult deserialization

PHP-SOAP

Page 40: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Various types of Web services : SOAPVarious types of Web services : SOAP

PERL

run_BLAST ()

SOAP::Lite/Apache

XML

XML

BLAST result

Client

?

AXIS / Tomcat

deserialization

serialization

PHP-SOAP/ Apache

blastall

Page 41: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Various types of Web services : SOAPVarious types of Web services : SOAP

PERL

run_BLAST ()

XML

XML

BLAST result

Client

deserialization

serialization

blastall

PERL

BLAST parameters

XML

Client

serialization

XMLresult deserialization

XML

XML

Page 42: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

WSDL: Web Services Description Language: XML « a machine-readable description of the operations offered by the service » The server « introduce himself » to the clients

Names of the available services (=methods) Parameters of each service (name + type) Result of each service (type)

Various types of Web services : SOAP-Various types of Web services : SOAP-WSDLWSDL

<?xml version="1.0" encoding ='UTF-8' ?><?xml-stylesheet type="text/xsl" href="RSATWS.xsl"?><definitions name="RSATWS"

targetNamespace="urn:RSATWS" xmlns:tns="urn:RSATWS" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns="http://schemas.xmlsoap.org/wsdl/"

xmlns:soap="http://schemas.xmlsoap.org/wsdl/soap/" xmlns:html="http://www.w3.org/1999/xhtml" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

<types> <xsd:schema targetNamespace="urn:RSATWS" xmlns="http://www.w3.org/2001/XMLSchema" xmlns:xsd="http://www.w3.org/2001/XMLSchema">

<!-- RSA TOOLS REQUESTS --> <xsd:complexType name="RetrieveSequenceRequest"> <xsd:annotation>

<xsd:documentation>Parameters for the operation retrieve_seq.</xsd:documentation> </xsd:annotation> <xsd:sequence>

<xsd:element name="output" type="xsd:string" minOccurs="0"> <xsd:annotation> <xsd:documentation>Return type.

Accepted values: 'server' (result is stored on a file on the server), 'client' (result is directly transferred to the client),'both' (result is stored on the server and transferred to the client), and ticket (an identifier, allowing to monitor the job status and retrieve the result when it is done, is returned to the client).Default is 'both'.</xsd:documentation>

</xsd:annotation> </xsd:element> <xsd:element name="organism" type="xsd:string" minOccurs="1">

<xsd:annotation> <xsd:documentation>Organism. Words need to be underscore separated (example: Escherichia_coli_K12).</xsd:documentation> </xsd:annotation> </xsd:element>

<xsd:element name="query" type="xsd:string" minOccurs="0" maxOccurs="unbounded"> <xsd:annotation> <xsd:documentation>A list of query genes.</xsd:documentation> </xsd:annotation> </xsd:element>

<xsd:element name="all" type="xsd:int" minOccurs="0"> <xsd:annotation> <xsd:documentation>Return sequences for all the genes of the organism if value = 1. Incompatible with query.</xsd:documentation> </xsd:annotation> </xsd:element>

<xsd:element name="noorf" type="xsd:int" minOccurs="0">

Page 43: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

WSDL: The URL of the WSDL is necessary to « consume » a SOAP/WSDL Web Service

(=write a client) Allows for automatic generation of client-side libraries «  client stub »

=> Reduce the amount of code you have to write

Various types of Web services : SOAP-Various types of Web services : SOAP-WSDLWSDL

parameters

XML

Client

serialization

XMLresult deserialization

Example: to write a client for RSAT Web Services in PERL

- SOAP::WSDL installed- http://rsat.ulb.ac.be/rsat/web_services/RSATWS.wsdl- PERL library « RSATWS  » downloadable on RSAT Website, generated from the WSDL

Page 44: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Example of code for RSAT PERL Client:

Various types of Web services : SOAP-Various types of Web services : SOAP-WSDLWSDL

#!/usr/bin/perl –w

use SOAP::WSDL; use lib 'RSATWS';use MyInterfaces::RSATWebServices::RSATWSPortType;

## new soap objectmy $soap=MyInterfaces::RSATWebServices::RSATWSPortType->new();

## parametersmy %args = ('format' => ‘text’);

## Send the request to the servermy $som = $soap->supported_organisms({'request' => \%args});

## Get the resultunless ($som) { printf "A fault (%s) occured: %s\n", $som->get_faultcode(), $som->get_faultstring();

} else { my $results = $som->get_response();

my $result = $results -> get_client(); print   "Supported organism(s): \n".$result; }

Page 45: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Various types of Web services : RESTVarious types of Web services : REST

RESTful Web services: HTTP transport but no messaging system Can be seen as a way to retrieve resources via their URLs Most often used for databases Often not really considered as « Web Services »

Example:

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=U12345&rettype=fasta

>gi|540023|gb|U12345.1|AMU12345 Aepyceros melampus isolate am5 D-loop, partial sequence; mitochondrialACTACCGCTATCAATATACTCCCACAAATATCAAGAGCCTTCCCAGTATTAAATTTGCTAAAATTTTAAAAATTCAATACGAACTTCACACTCCACAGCCTCACGCGAAATTAATAATACGTATTTAAATTCTAGAGTACATACCATGAACTATCGTTTAGTACATGAATTTACACACGTCAGCCCGATCAAATGTTTATGTACATAACACATTATATATGTACATTTCAGTTTGTGTATATAGACATAACATTAATGTAATAAAGACATAATATGTATATAGTACATTAATTGATTGTCCTCAAGCATATAAGCAAGTACTAGACATTCACTAGCGGTACATAGTACATTTCATTGTTCATCGTACATAGCGCATGTCAGNCAAATCCGTTCTTGTCAACATGCATATCCCGTCCACTAGATCAC

Page 46: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Web Services: pros and consWeb Services: pros and cons

Advantages Independency of languages => interoperability Standard for accessing and describing the services Improved connectivity between the programs Possibility of constructing workflows

Drawbacks Independency of languages

not that straightforward to make a “universal” server Each language has its own “implementation” of the standard

Heavy system (SOAP/WSDL), need maintenance by service providers Efficiency => heavy network traffic + serializing/deserializing

Page 47: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

WS everywhere WS everywhere

Amazon Google http://seekda.com/

Extensive search engine for Web Services (currently 27 813 services)

http://demo.service-finder.eu (alpha version, promising)

Page 48: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

WS in BioinformaticsWS in Bioinformatics

http://www.ebi.ac.uk/Tools/webservices/

http://www.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.html

http://xml.ddbj.nig.ac.jp/index.html

http://rsat.bigre.ulb.ac.be/rsat/

http://www.genome.jp/kegg/soap/

http://api.bioinfo.no/wsdl/JasparDB.wsdl

Page 49: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Los servicios web semánticos proponen extender estas tecnologías, en vías de consolidación, con ontologías y semántica que permitan la selección, integración e invocación dinámica de servicios, dotándoles así mismo de la capacidad de reconfigurarse dinámicamente para adaptarse a los cambios (p.e. interrupción de servicios o aparición de otros más adecuados) sin intervención humana.

Agregando Significado…

Page 50: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

¿Qué son los servicios Web semánticos?

Los Servicios Web Semánticos son una nueva tecnología resultante de la combinación de la Web Semántica y los Servicios Web.

Servicios Web Semánticos = Servicios Web + WebSemántica

Page 51: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Servicios Web y Web semántica

Servicios Web: Conjunto de protocolos y estándares que permiten el intercambio de datos independientemente de plataforma y lenguaje de programación.

Web Semántica: Se basa en añadir semántica a los datos publicados en la Web de forma que las máquinas sean capaces de procesar la información contenida en los documentos de modo similar a como los usuarios humanos lo pueden hacer.

Page 52: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

¿Porqué surgen los servicios Web semánticos?

Existen en la actualidad una gran cantidad de servicios disponibles y esto hace inviable en tiempo y eficiencia que sea un usuario humano el que determine el servicio o servicios necesarios para satisfacer una necesidad concreta.

Debido a esto surgen los Servicios Web Semánticos los cuales describen a los Servicios Web con contenido semántico de forma que el descubrimiento de servicios, su composición e invocación se pueda realizar de forma automática por parte de entidades software capaces de procesar la información semántica disponible.

Page 53: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Ontologia

Representa las capacidades del servicio y sus restricciones de

uso. Integra la semántica del servicio con su descripción. Consta de los siguientes elementos:

Información funcional del servicio: entradas, salidas,

precondiciones, postcondiciones

Información no funcional : Categoría, Coste ,Calidad de servicio

Page 54: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Find Relevant Genes from Online Databases

Find Relevant Genes from Online Databases

Find Associations between Frequent TermsFind Associations between Frequent Terms

Gene Expression Analysis Gene Expression Analysis

WorkFlows. Conectando herramientas

Page 55: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009
Page 56: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Example of workflowExample of workflow

Sand et al. Nature Protocol (2008) vol. 3 (10) pp. 1604-1615

Page 57: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

Taverna: a workbench to design workflowsTaverna: a workbench to design workflows

http://taverna.sourceforge.net/

Page 58: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

WS in bioinformatics: Utopia ?WS in bioinformatics: Utopia ?

• Work is on service providers• Reluctancy of service providers to add/switch to WS– Takes time and human ressources to set up WS– Necessity to find people that are WS experts or willing to learn WS

• Lack of advertisement• Lack of a global registry

• Various WS: SOAP/REST + BioMOBY + SOAPLAB All accessed in different ways

• Lack of users !!!

Page 59: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

A future bioinformatics « world » for computers ?A future bioinformatics « world » for computers ?

I still have a dream…

Page 60: U N A M Universidad Nacional Autónoma de México Servicios Web con aplicaciones en Bioinformática 24 de marzo, 2009

AcknowledgementsAcknowledgements

Prof. Jacques van HeldenDr. Morgan Thomas

Grupo: Luis José Muniz Rascado, Jair, Lilian, Shirley, Ale, Aura

Dr. Julio Collado Vides