maria esteva
TRANSCRIPT
![Page 1: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/1.jpg)
Maria Esteva, Texas Advanced Computing Center, University of Texas at Austin
PANEL
![Page 2: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/2.jpg)
Cyberinfrastructura para la administración de datos de
investigación
Maria Esteva, Texas Advanced Computing Center, University of Texas at Austin
2EieMayo 2013, Cali, Colombia
![Page 3: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/3.jpg)
Datos & investigación
• Ciencia intensiva de datos – Teoría, experimentos, y
simulaciones en el contexto de datos masivos
• Datos sustentables– Documentados, estables,
auténticos
• Datos para diseminar conocimientos, citar, y reutilizar
![Page 4: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/4.jpg)
Formación de colecciones• Proyectos de investigación complejos y en evolución
constante • Tecnología y conocimientos cambian continuamente• Fondos para investigación inestables• Las colecciones son mas vulnerables durante el
proceso de investigación• Arquitectura y funcionalidades de una colección
pueden involucrar a varias tecnologías
![Page 5: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/5.jpg)
Perspectivas• La curación de datos tiene como tema central
el problema que trata la investigación• Enfoque desde las ciencias de la información• Enfoque desde la infraestructura
– Considerar la infraestructura y servicios desde la planificación del proyecto de investigación y a través del ciclo de vida del proyecto
![Page 6: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/6.jpg)
Infraestructura de datos @ TACC
• Equipo multidisciplinario• Corral• 6 Petabits de disco en línea • Sistema de archivo paralelo
Lustre • Transferencia de datos 1 -
10 GB/seg• Acceso Web• Flexibilidad de
configuración• Librerías de código abierto• 24/7 seguridad y
mantenimiento de los sistemas
![Page 7: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/7.jpg)
Bases de datos
• Bases de datos relacionales: MySQL, PostgreSQL, SQL Server – Pecan Street Project
• ARK y Specify• GIS (Sistema de
información geográfica)– FASTI– Instituto de Arqueología
Clásica
![Page 8: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/8.jpg)
Flexibilidad
• Centro para la Investigación del Espacio (CSR)– Almacenamiento de datos provenientes de satélites,
radares y sensores– Terremoto de Haití – 2010– El repositorio de datos de CSR fue transformado en un
repositorio web para compartir datos con los rescatistas.
![Page 9: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/9.jpg)
Multiples posibilidades• Gestión de datos durante el proyecto de investigación • Almacenamiento temporario de datos para procesos
computacionales • Acceso a colecciones de investigación • Archivo oscuro• El investigador es el curador• El equipo de TACC ofrece e implementa soluciones técnicas al
proceso de curación y colabora en la organización, estandarización y acceso de datos
![Page 10: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/10.jpg)
Implementación de colecciones
• TACC administra el acceso a los sistemas, instala los servidores/bases de datos/librerías y dependencias.
• Los usuarios tienen acceso a su código
• Triage de colecciones– ICA, 5 petabytes de
datos desorganizados
• Usuarios de distintos dominios
• Usuarios con distintos niveles de conocimientos técnicos
![Page 11: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/11.jpg)
Flujos de trabajo
– Diferentes flujos de datos
– Transición sin fisuras entre sistemas de almacenamiento y de análisis.
![Page 12: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/12.jpg)
Metadatos e integración
![Page 13: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/13.jpg)
Acceso
• Acceso web abierto al publico
• Acceso cerrado durante el periodo de embargo
• WebDav• Protegido por
contraseña• Acceso restringido al
equipo de investigación• Desde los sistemas de
visualización de TACC
![Page 14: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/14.jpg)
Preservación
• iRODS: bróker de archivos distribuidos
• Replica de archivos en Ranch, un archivo de cinta y replicación geográfica
• Seguridad y mantenimiento
• Chequeo de autenticidad de los datos
• Captura automática de metadatos técnicos
• Perspectiva sobre lo que
![Page 15: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/15.jpg)
Modelo administrativo
• 5 TB de almacenamiento gratuito a investigadores de la Universidad de Texas
• Estructura de costos anual, basada en honorarios del staff– Consultoría, curación de datos, bases de
datos y aplicaciones web
• Funciona como archivo oscuro para costear hardware
• Participamos en subsidios de investigación
![Page 16: Maria esteva](https://reader033.vdocuments.site/reader033/viewer/2022061507/5560d724d8b42a08088b53be/html5/thumbnails/16.jpg)
Data@TACC
• Weijia Xu• Christopher Jordan• David Walling• Tomislav Urban• Siva Kulaskerian