experiencias con software libre en repositorios de e-información

23
Experiencias con software libre en Experiencias con software libre en repositorios colectivos de e repositorios colectivos de e - - informaci informaci ó ó n n Ricard de la Vega Centre de Supercomputació de Catalunya (CESCA) 1ª Jornada de software libre para servicios y unidades de información 10 de mayo de 2007

Upload: ricard-de-la-vega-sivera

Post on 09-Jul-2015

378 views

Category:

Documents


0 download

DESCRIPTION

Ponencia presentada en la 1ª Jornada de Software Libre para Unidades y Servicios de Información (2007)http://infonautica.net/docs/jsoftlibre/programa.html

TRANSCRIPT

Page 1: Experiencias con software libre en repositorios de e-información

Experiencias con software libre en Experiencias con software libre en

repositorios colectivos de erepositorios colectivos de e--informaciinformacióónn

Ricard de la Vega

Centre de Supercomputació de Catalunya (CESCA)

1ª Jornada de software libre para servicios y unidades de información

10 de mayo de 2007

Page 2: Experiencias con software libre en repositorios de e-información

Experiencias con software libre en Experiencias con software libre en

repositorios colectivos de erepositorios colectivos de e--informaciinformacióónn

1. Introducción

2. TDR

3. RECERCAT

4. RACO

5. PADICAT

6. Conclusiones

Page 3: Experiencias con software libre en repositorios de e-información

IntroducciIntroduccióón: n: ¿¿QuQuéé es el CESCA?es el CESCA?

� Consorcio público, creado en 1991 y formado por:

• Generalitat de Catalunya

• Fundació Catalana per a la Recerca i la Innovació

• 9 universidades: UB, UAB, UPC, UPF, UdG URV, UdL, UOC y URL

• CSIC

� Gestión de e-infraestructuras de soporte a la universidad y la investigación:

• Sistemas

– Supercomputación, SED, SDF, repositorios y portales universitarios

• Comunicaciones

– Anella Científica, CATNIX y nodo de RedIRIS en Cataluña

• Promoción

– Difusión, formación y edición de la revista Teraflop

Page 4: Experiencias con software libre en repositorios de e-información

IntroducciIntroduccióónn

� Repositorios electrónicos colectivos institucionales de e-información

• El Scholarly Publishing and Academic Resources Coalition (SPARC) define los repositorios electrónicos institucionales como una colección digital que captura y preserva los resultados intelectuales

de una o más de una institución.

� e-información= tesis, docs. investigación, artículos, webs...

Con el patrocinio de:

+

2001

2005

2006

Page 5: Experiencias con software libre en repositorios de e-información

IntroducciIntroduccióónn

� Repositorios electrónicos colectivos institucionales de e-información

• El Scholarly Publishing and Academic Resources Coalition (SPARC) define los repositorios electrónicos institucionales como una colección digital que captura y preserva los resultados intelectuales

de una o más de una institución.

� e-información= tesis, docs. investigación, artículos, webs...

Con el patrocinio de:2006

Page 6: Experiencias con software libre en repositorios de e-información

IntroducciIntroduccióónn

� 3 ejes básicos

Acceso abierto

Interoperatividad(OAI-PMH)

Software libre

Page 7: Experiencias con software libre en repositorios de e-información

IntroducciIntroduccióónn

� 4 ejes básicos!

• Facilitan la adopción de procedimientos comunes

• Compartición de costes

• Mayor visibilidad

Acceso abierto

Interoperatividad (OAI-PMH)

Software libre

Colectivos

Page 8: Experiencias con software libre en repositorios de e-información

Experiencias con software libre en Experiencias con software libre en

repositorios colectivos de erepositorios colectivos de e--informaciinformacióónn

1. Introducción

2. TDR

3. RECERCAT

4. RACO

5. PADICAT

6. Conclusiones

Page 9: Experiencias con software libre en repositorios de e-información

Tesis Doctorales en Red (TDR)Tesis Doctorales en Red (TDR)

� Más de 4.400 tesis doctorales

� Acceso abierto a texto completo en formato PDF

� Más de 200.000 consultas mensuales

� Entorno multilingüe

� Proveedor de datos OAI-PMH

� 17 universidades

htt

p:/

/ww

w.t

esis

en

red

.ne

t

Page 10: Experiencias con software libre en repositorios de e-información

Tesis Doctorales en Red (TDR)Tesis Doctorales en Red (TDR)

� Más de 4.400 tesis doctorales

� Acceso abierto a texto completo en PDF

� Más de 200.000 consultas mensuales

� Entorno multilingüe

� Proveedor de datos OAI-PMH

� 17 universidades

htt

p:/

/ww

w.t

esis

en

red

.ne

t

Page 11: Experiencias con software libre en repositorios de e-información

05-07-06

Tesis Doctorales en Red (TDR)Tesis Doctorales en Red (TDR)

Page 12: Experiencias con software libre en repositorios de e-información

Tesis Doctorales en Red (TDR)Tesis Doctorales en Red (TDR)

� Primer recolector OAI-PMH de tesis españolas

� Desde principios de mayo

� De momento, con Dialnet, e-archivo y el propio TDR

Page 13: Experiencias con software libre en repositorios de e-información

Dipòsit de la Recerca de Catalunya (Dipòsit de la Recerca de Catalunya (RECERCATRECERCAT))

� Más de 3.500 documentos de investigación consultables

� Acceso abierto a texto completo a más de 2.000 docs.

� Creative Commons de Reconocimiento-NoComercial-SinObraDerivada

� 13 instituciones

� OAI-PHM service provider y data provider

htt

p:/

/ww

w.r

ece

rca

t.n

et

Page 14: Experiencias con software libre en repositorios de e-información

05-07-06

Dipòsit de la Recerca de Catalunya (Dipòsit de la Recerca de Catalunya (RECERCATRECERCAT))

RePEc

Scriptsmigración

Plugin Harvester

OAI

Page 15: Experiencias con software libre en repositorios de e-información

Revistes Catalanes amb AccRevistes Catalanes amb Accéés Obert (RACO)s Obert (RACO)

� Más de 25.000 artículos

� 117 revistas

� Acceso abierto a los artículos

� 24 instituciones

� OAI-PHM data provider

htt

p:/

/ww

w.r

aco

.ca

t

Page 16: Experiencias con software libre en repositorios de e-información

Revistes Catalanes amb AccRevistes Catalanes amb Accéés Obert (RACO)s Obert (RACO)

OAI-PMHData Provider

Plugin Import / Export

Open Journal Systems

Módulo de carga simplificado

XML

Page 17: Experiencias con software libre en repositorios de e-información

Patrimoni Digital de Catalunya (Patrimoni Digital de Catalunya (PADICATPADICAT))

� El objetivo es archivar el web catalán

� Webs con dominio .cat, bajo otros dominios en lengua catalana, ubicados en servidores

catalanes o relacionados temáticamente con Cataluña

� Modelo híbrido (captura sistemática y acciones selectivas)

� 300 acuerdos con instituciones, empresas, administraciones y particulares

htt

p:/

/ww

w.p

ad

i.ca

t

Page 18: Experiencias con software libre en repositorios de e-información

Patrimoni Digital de Catalunya (Patrimoni Digital de Catalunya (PADICATPADICAT))

� Internet Archive

• 35 M webs

• 2 PB

� Kulturarw3 (Suecia)

• 350.000 webs

• 13 TB

� PANDORA (Australia)

• 9.000 webs

• 1,2 TB

Page 19: Experiencias con software libre en repositorios de e-información

Patrimoni Digital de Catalunya (Patrimoni Digital de Catalunya (PADICATPADICAT))

� PADICAT 11-09-06

• 30 webs

• 9 GB

� PADICAT hoy

• 646 versiones

• 110 webs

• 200 GB

� PADICAT en 2009

• 100.000 webs

• 30 TB

Page 20: Experiencias con software libre en repositorios de e-información

Patrimoni Digital de Catalunya (Patrimoni Digital de Catalunya (PADICATPADICAT))

� Recolector

� Indexador

� Interfaz gráfica + buscador

webs.arc

índices

WERA +

Page 21: Experiencias con software libre en repositorios de e-información

Experiencias con software libre en Experiencias con software libre en

repositorios colectivos de erepositorios colectivos de e--informaciinformacióónn

1. Introducción

2. TDR

3. RECERCAT

4. RACO

5. PADICAT

6. Conclusiones

Page 22: Experiencias con software libre en repositorios de e-información

ConclusionesConclusiones

� Uso de software libre en todas las capas. Cluster de alta disponibilidad con Linux, Apache, Tomcat, MySQL, PostgreSQL,

etd@vt, DSpace, OJS, Heritrix, NutchWAX, WERA...

� Independencia de proveedor, comunidad, corrección de errores, pero,

sobretodo, adaptabilidad a los requisitos concretos de cada proyecto

� No al tópico que el software libre es barato. Cuesta mucho tiempo y recursos. Una solución es compartir costes con e-infraestructuras colectivas

� TDR, RECERCAT, RACO y PADICAT son casos de éxito de uso de software libre.

Page 23: Experiencias con software libre en repositorios de e-información

Muchas gracias!Muchas gracias!

Para más información: [email protected]