diagnÓstico do compartilhamento de dados sobre ...siaibib01.univali.br/pdf/vitor mateus rangrab...
TRANSCRIPT
UNIVERSIDADE DO VALE DO ITAJAÍ – UNIVALI
CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR – CTTMAR
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E TECNOLOGIA AMBIENTAL – PPGCTA
VITOR MATEUS RANGRAB GALVÃO
DIAGNÓSTICO DO COMPARTILHAMENTO DE DADOS SOBRE BIOD IVERSIDADE NO
CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR - CTTMar
ITAJAÍ – SC
2015
UNIVERSIDADE DO VALE DO ITAJAÍ – UNIVALI
CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR – CTTMAR
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E TECNOLOGIA AMBIENTAL – PPGCTA
VITOR MATEUS RANGRAB GALVÃO
DIAGNÓSTICO DO COMPARTILHAMENTO DE DADOS SOBRE BIOD IVERSIDADE NO
CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR - CTTMar
Trabalho de Conclusão apresentado ao Programa de
Pós-Graduação em Ciência e Tecnologia Ambiental,
como parte dos requisitos para obtenção do grau de
Mestre em Ciência e Tecnologia Ambiental.
Orientador: Dr. André Silva Barreto
ITAJAÍ – SC
2015
assinaturas docentes
DEDICATÓRIA
“Errar é humano, perdoar é preciso,
e correr atrás daquilo que realmente queremos
é uma obrigação.
Viva,ame,pense,erre,caia,levante.”
(Robert Nesta Marley)
“O maior inimigo do conhecimento não é a
ignorância, mas a ilusão do conhecimento”
(Stephen Hawking)
AGRADECIMENTOS
Agradeço aos meus pais, pelos esforços que realizaram durante minha caminhada para
me propiciarem uma educação de qualidade e contribuírem significativamente nesta etapa. Pois
hoje colho os frutos deste empenho.
Um agradecimento especial ao meu orientador, Prof. Dr. André Barreto, pois conduziu
de forma pacienciosae exemplar a construção deste trabalho, sempre disposto a ajudar a superar
as dificuldades que surgiram no decorrer desta caminhada. Deixomeu sincero reconhecimento,
respeito e admiração. Obrigado por tudo!
Gostaria de agradecer a minha esposa,Maqueline de Almeida Flores, que de forma
incontestável superou as inúmerasadversidadesencontradas neste período, aos teus incentivos e
companhia, pois sem você a realização deste trabalho seria impossível.
Ao Professor Tito Cesar Marques por seu apoio e inspiração no amadurecimento dos
meus conhecimentos e conceitos que contribuíram significativamente para a conclusão desta
jornada.
Agradeço a todos os meus colegas da DITEC, por todo o incentivo e compreensão nesta
caminhada, pelos momentos de descontração em momentos complicados em especial ao colega
Cleverson Alves Paes, por entender da importância desta caminhada, ao meu amigo Filipe
Gonçalves, pelo suporte e críticas construtivas, ao colega Luiz Augusto Leite pela parceria e
palavras de incentivo e ao colega Antuniey Teodoro pelos momentos de descontração e apoio
nas horas de maiores dúvidas.
A minha querida amiga Mariane de Almeida Flores, obrigado por estar presente nos
momentos difíceis desta caminhada e por torná-los mais descontraídos com suas brincadeiras.
Meu muito obrigadoa todas as pessoas e colegas que de uma forma ou outra
contribuíram para a concretização deste trabalho, com grandes ou pequenas ideias, ou com
palavras de incentivo.
SUMÁRIO
SUMÁRIO .............................................................................................................................................................. 6
RESUMO .............................................................................................................................................................. 10
ABSTRACT ............................................................................................................................................................ 11
1 INTRODUÇÃO .............................................................................................................................................. 12
1.1 PADRONIZAÇÃO DE METADADOS ............................................................................................................. 15
1.1.1 PADRÕES E PERFIS ........................................................................................................................... 16
1.2 SOFTWARES LIVRES ......................................................................................................................................... 21
1.3 BIOINFORMÁTICA ........................................................................................................................................... 23
1.4 CENARIO MUNDIAL DE GESTÃO DE DADOS SOBRE BIODIVERSIDADE ......................................................................... 24
1.4.1 GBIF (Global Biodiversity Information Facility) ................................................................................. 24
1.4.2 NATURESERVE .................................................................................................................................... 25
1.4.3 OBIS (Ocean Biogeographic Information System) ............................................................................... 25
1.4.4 IABIN (Inter American Biodiversity Information Network) .................................................................. 26
1.5 CENÁRIO NACIONAL DE ARMAZENAMENTO DE DADOS............................................................................ 26
1.5.1 CRIA (Centro de Referência em Informação Ambiental) ..................................................................... 29
1.5.2 PPBIO (Programa de Pesquisa em Biodiversidade) ............................................................................ 30
1.5.3 GERENCIAMENTO DE INFORMAÇÕES ........................................................................................... 30
1.8.1 OBJETIVO GERAL ................................................................................................................................................. 34
1.8.2 OBJETIVOS ESPECÍFICOS ....................................................................................................................................... 34
2 METODOLOGIA ........................................................................................................................................... 35
2.1 POPULAÇÃO AMOSTRAL .................................................................................................................................. 35
2.2 ETAPAS DO TRABALHO ..................................................................................................................................... 35
2.2.1 AVALIAÇÃO DO PÚBLICO PARTICIPANTE ..................................................................................... 36
2.2.2 CONTATO COM OS DOCENTES SELECIONADOS .......................................................................... 37
2.2.3 SELEÇÃO DO SOFTWARE ................................................................................................................. 38
2.2.4 AVALIAÇÃO DO ESFORÇO NECESSÁRIO PARA PADRONIZAÇÃO DOS DADOS ........................ 40
4 RESULTADOS ............................................................................................................................................... 40
4.1 ANALISE DAS TABELAS ENVIADAS PELOS DOCENTES DO CTTMAR ............................................................ 41
4.2 VISÕES DOS USUÁRIOS DE DADOS SOBRE BIODIVERSIDADE ..................................................................................... 43
4.3 DIGITALIZAÇÃO DOS DADOS ...................................................................................................................... 55
5 DISCUSSÃO .................................................................................................................................................. 57
6 CONCLUSÃO ................................................................................................................................................ 61
7 REFERÊNCIAS BIBLIOGRÁFICAS .................................................................................................................... 62
8 APÊNDICES .................................................................................................................................................. 69
8.1 APENDICE A - DOCUMENTOS GERADOS PELOS DOCENTES DO CTTMAR .................................................................. 69
8.2 APÊNDICE B – RESULTADOS DAS PERGUNTAS NO QUESTIONÁRIO ON-LINE ............................................................... 74
9 ANEXO ........................................................................................................................................................ 84
9.1 ANEXO A- ROTEIRO DAS ENTREVISTAS REALIZADAS COM OS DOCENTES DO CTTMAR EM SEUS
LABORATÓRIOS. ..................................................................................................................................................... 84
9.2 ANEXO B- ROTEIRO DAS ENTREVISTAS REALIZADAS ONLINE ..................................................................... 87
LISTA DE FIGURAS
Figura 1. Degradação dos Metadados associadas à ação do tempo Fonte: Michner (1997) ...................... 13
Figura 2. Número de registros armazenados no SiBBr em 2015 (acessado em 01/06/2015) .................... 28
Figura 3. Fluxograma das etapas do trabalho ............................................................................................. 36
Figura 4. Distribuição de frequência das respostas para a pergunta "Existem bancos de dados internos em seu projeto/instituição? ”, entre docentes do CTTMar e o publico externo ............................................... 44
Figura 5. Distribuição de frequência das respostas para a pergunta "Você utiliza formato de dados padronizados? (Ex: Darwin Core, EML e etc)”, entre docentes do CTTMar e o publico externo. ............ 44
Figura 6. Distribuição de frequência das respostas para a pergunta "Quanto tempo você gasta por ano com curadoria e processamento dos seus dados?”, entre docentes do CTTMar e o publico externo. ................ 45
Figura 7. Distribuição de frequência das respostas para a pergunta "Quem é dono de seus dados?”, entre docentes do CTTMar e o publico externo .................................................................................................. 45
Figura 8. Distribuição de frequência das respostas para a pergunta "Você estaria disposto a depositar seus dados em banco de dados disponíveis publicamente? ”, entre docentes do CTTMar e o publico externo 46
Figura 9. Distribuição de frequência das respostas para a pergunta "Quando você estaria disposto a partilhar seus dados?”, entre docentes do CTTMar e o publico externo. ................................................... 47
Figura 10. Distribuição de frequência das respostas para a pergunta "O que lhe faria propenso a compartilhar seus dados?”, para (A) docentes do CTTMar e (B) público externo..................................... 47
Figura 11. Distribuição de frequência das respostas para a pergunta "Se seus dados forem utilizados, como gostaria de ser citado?”, entre docentes do CTTMar e o publico externo. ....................................... 48
Figura 12. Distribuição de frequência das respostas para a pergunta "O que lhe motivaria a tornar seus dados públicos?”, para (A) docentes do CTTMar e (B) Público externo. .................................................. 48
Figura 13. Distribuição de frequência das respostas para “Você compartilha os dados gerados em seu laboratório? ”, entre docentes do CTTMar e o publico externo ................................................................. 49
Figura 14.Distribuição de frequência das respostas para a pergunta "Você reutiliza dados gerados em outros laboratórios? ”, entre docentes do CTTMar e o público externo ..................................................... 50
Figura 15. Distribuição de frequência das respostas para a pergunta “ Que tipo de Informações adicionais você precisa para avaliar a qualidade dos dados de outras pessoas? ”, para (A) docentes do CTTMar e (B) Publico geral. .............................................................................................................................................. 50
Figura 16. Distribuição de frequência das respostas para a pergunta "Você tem um plano de gestão de dados”, entre docentes do CTTMar e o Publico externo ............................................................................ 51
Figura 17. Distribuição de frequência das respostas para a pergunta "Quais tipos de metadados que você utiliza?”, entre docentes do CTTMar e o publico externo. ......................................................................... 52
Figura 18.Distribuição de frequência das respostas para a pergunta "Quais os Formatos de dados que você mais utiliza? ”, entre docentes do CTTMar e o publico externo. ............................................................... 53
Figura 19. Distribuição de frequência das respostas para a pergunta "Onde você grava seus dados? ”, entre docentes do CTTMar e o publico externo. ................................................................................................. 54
Figura 20. Distribuição de frequência das respostas para a pergunta "Onde você armazena suas copias?”, entre docentes do CTTMar e o publico externo. ........................................................................................ 54
Figura 21. Distribuição de frequência das respostas para a pergunta "Com que frequência você faz backup dos seus dados? ”, entre docentes do CTTMar e o publico externo. .......................................................... 55
Figura 22. Estimativa de tempo para estabilização da catalogação dos dados em Metadados. .................. 56
LISTA DE ABREVIATURAS E SIGLAS
BIN- BiodiversityInformation Network
CTTMar -Centro de Ciências Tecnológicas da Terra e do Mar
DataONE- Data Observation Network for Earth
GBIF – Global BiodiversityInformationFacility
LIBGEO -Laboratório de Informática da Biodiversidade e Geomática
NISO- NationalInformation Standards Organization
OCDE- Organização de Cooperações e Desenvolvimento Econômico
ONGS- Organizações não governamentais
SAPI-Sistema de Avaliação da Produção Institucional
SiBBr- Sistema de Informações sobre a Biodiversidade Brasileira
SIG - Sistema de Informações Geográficas
SIMMAM-Sistema de Apoio ao Monitoramento de Mamíferos Marinhos
UNIVALI- Universidade do Vale do Itajaí
CRIA - Centro de Referência em Informação Ambiental
PPBio - Programa de Pesquisa em Biodiversidade
RESUMO
Recentes estudos comprovam elevada diminuição na biodiversidade brasileira, pesquisas
corroboram que tal redução está relacionada a resultados de ações humanas. Sendo assim, se
fazem necessários estudos mais aprofundados sobre a biodiversidade, o meio ambiente e ainda
possibilidades de armazenamento de dados. Para que isso ocorra de forma mais harmoniosa é
imprescindível uma padronização dos dados coletados por pesquisadores. A padronização de
dados quando realizada de forma eficaz possibilita inúmeros benefícios, tanto ao meio ambiente
como a comunidade científica, o que permite a disseminação de informações e o melhoramento
na produtividade das pesquisas. Esta dissertação traz estudos com os docentes, vinculados a
Universidade do Vale do Itajaí - UNIVALI que coletam e armazenam dados sobre
biodiversidade, um dos objetivos foi avaliar a existência de políticas internas de gestão de dados
e ainda relatar a visão dos gestores sobre o compartilhamento e o risco da perda dos dados
armazenados sobre biodiversidade. Para isto, foram enviados aos docentes questionários online,
onde obtivemos 14 (quatorze) respostas. Também se realizou entrevistas com os docentes
selecionados em seus laboratórios, onde 19 (dezenove) docentes participaram desta etapa, para
fim de comparação das respostas dos docentes do CTTMar, foram enviados questionários
idênticos, também através de e-mails, a universidades federais, estaduais e particulares;
conselhos, gestores de coleções de biodiversidade e demais pesquisadores ligados a esta
temática; sendo estes o público externo desta pesquisa; onde obtivemos um total de 207
(duzentos e sete) questionários respondidos. Dentre os resultados obtidos, foi perceptível a
dificuldades no compartilhamento dos dados nos laboratórios do CTTMar, o motivo emergente é
a falta de gestão de dados institucionais. Há ainda, o risco de perda dos dados devida a forma,
por vezes inadequada, com que são tratados. A partir disto, com o intuito de possibilitar nova
perspectiva de intervenção, este estudo propôs formas de armazenamentos seguro. Assim,
levantamos informações do laboratório selecionado, tais dados foram padronizados e inseridos
em um software; todo o procedimento foi contabilizado, nas diferentes etapas, a fim de permitir
que os outros laboratórios avaliassem o investimento necessário na conversão das coleções de
dados para o armazenamento, de forma confiável.
Palavras-chaves: Biodiversidade, padronização de dados, gestão de dados.
ABSTRACT
Recent studies show large decreases in Brazilian biodiversity, researches confirm that this
reduction is associated to results of human actions. So are necessary further studies on
biodiversity, the environment, and data storage possibilities. For this to happen more smoothly it
is essential to standardize the data collected by researchers. Standardization when performed
effectively provides numerous benefits to both the environment and the scientific community,
allowing the dissemination of information and the improvement in productivity of research. This
dissertation brings studies with teachers, linked to the University of Vale do Itajaí - UNIVALI
that collect and store data on biodiversity, one of the objectives was to measure the existence of
internal data management policies and also report the managers' view about the sharing and the
risk of loss of data stored on biodiversity. For this purpose, online questionnaires were sent to
teachers, where we got fourteen answers. Also conducted interviews with teachers selected in
their laboratories, where nineteen (19) teachers participated in this stage, for purposes of
comparing the responses of CTTMar teachers, identical questionnaires were sent, also through e-
mails, the federal universities, state universities and private universities; councils, biodiversity
collections managers and other researchers linked to this theme; these being the general public of
this research; where we obtained an overall of 207 (two hundred and seven) questionnaires.
Among the obtained results, it was apparent the difficulties in sharing data in CTTMar
laboratories, the emerging reason is the lack of institutional data management. There is also the
risk of data loss because of the way, sometimes inadequate, with which they are treated. From
this, in intend to make possible new approach to intervene, this study suggested forms of secure
storage. Thus, we raise information for the selected laboratory, such data were standardized and
inserted into a software; whole procedure was accounted for, the various steps in order to enable
other laboratories to evaluate the investment required for the conversion of files into manageable
data correctly
Keywords: Biodiversity, Standardization, Data Management.
12
1 INTRODUÇÃO
O termo biodiversidade teve início quando o cientista Walter G. Rosen em 1985 planejava a
realização do fórum sobre diversidade biológica, sendo realizado na capital Washington em 21 de
setembro de 1986 (FRANCO, 2013).Hoje, o termo é amplamente conhecido não somente na
comunidade científica, mas também por estudiosos de diversas áreas que observam as crises
ambientais de nosso planeta, crises estas relacionadas também com o aquecimento global, dentre
outros diversos fatores que alteraram o ecossistema. Estudos relacionados ao meio ambiente
elucidam questões chaves para uma possível gestão ambiental consciente, pois nosso país detém um
elevado número de espécies, comportando aproximadamente cerca de 13% da biodiversidade do
planeta (MAURY, 2002).
Ao longo das últimas décadas a biodiversidade mundial vem sofrendo ameaças, gerando
grandes preocupações na comunidade científica e na população. Em nível mundial, pesquisadores,
ONGS, ambientalistas e principalmente a comunidade científica estão constantemente alertando
para os riscos e os danos que estão sendo causados ao meio ambiente (CHAPIN, 1996). A perda da
biodiversidade origina-se nas condições humanas atuais, tendo raízes econômicas, culturais e
sociais, sendo agravadas pelo crescente aumento da população. Com este cenário se faz de grande
importância ordenar nossas atividades, com base em informações técnico-científicas, para a
alocação apropriada de recursos financeiros e humanos.
Atualmente, há uma grande perda da biodiversidade, sendo as ações humanas
determinantes para este decréscimo, tornando-se imprescindível o aprimoramento de estudos
ligados a esta áreas para preservação e melhoramento da qualidade da biodiversidade (SALA et. al.,
2000). Pesquisas têm buscado compreender os padrões da diversidade biológica e têm despertado
interesse das comunidades cientificas e órgãos governamentais, que buscam gerenciar e armazenar
estes dados de uma forma mais correta e segura (PROENÇA et. al, 2009).
Para que se possa fazer a correta gestão dos recursos biológicos, uma das informações mais
fundamentais é o conhecimento da ocorrência e distribuição das espécies. Este tipo de informação
costuma ser coletada por instituições de pesquisa, universidades, órgãos governamentais e até pelo
público leigo. Uma parte dos dados coletados por estas instituições e pesquisadores acabam sendo
perdidas ou esquecidas com o passar do tempo, por vários motivos, tais como: aposentadoria dos
docentes, mortes, irregularidades na forma de armazenamento dos dados e ate mesmo questões
culturais.
13
Pesquisas realizadas na área de preservação de dados sobre a diversidade tornam-se cada vez
mais importantes, na medida em que diversas comunidades dependem de recursos ligados à
biodiversidade, pois a perda do habitat afeta diretamente e indiretamente a vida das pessoas
(GANEM, 2011).Para minimizar os problemas ligados à biodiversidade e relacionados ao meio
ambiente, é necessária uma integração de dados, onde mais pesquisadores e instituições tenham
diferentes olhares para analisar e tomar decisões, que futuramente auxiliem com a possibilidade de
minimizar a extinção e degradação de espécies ameaçadas e ambientes prejudicados por ações
humanas.
A falta de estruturação dos dados sobre biodiversidade vem prejudicando a tomada de
decisões causando perdas imensuráveis ao meio ambiente. Segundo Michner (1997) não somente a
falta de estruturação, mas também outros fatores ao longo do tempo, podem causar perda dos dados
(Figura 1). Estas perdas podem ser minimizadas através de boas políticas de gestão de dados.
Figura 1. Degradação dos Metadados associadas à ação do tempo Fonte: Michner (1997)
Para que os dados não estejam expostos a danos irreparáveis e para que haja uma forma
segura de armazenamento, onde estes sejam acessados, manuseados e utilizados corretamente,
14
devem ser seguidos certos princípios que orientam a gestão de boas práticas de gerenciamento de
dados para inserção dos dados sobre biodiversidade (Cadmanet al., 2011):
Princípio 01: Rigor
Está relacionado à correção dos dados, se o organismo está devidamente identificado ouse
sua localização é correta.
Princípio 02: Precisão
Está relacionado ao nível de detalhamento dos dados.Caso conste uma área sem coordenada
geográfica não há uma precisão, caso contenha coordenadas geográficas exatas o dado passa a ser
preciso.
Princípio 03: Qualidade ou aptidão para uso
Dados que contenham pouco rigor e baixa precisão são considerados dados de baixa
qualidade e geralmente não estão aptos para serem utilizados.Quanto mais detalhadosforem os
dados, maior será sua qualidade.
Princípio 04: Eficácia
Está relacionada à utilização para catalogação dos dados. Se o dado alcançar seu resultado
pretendido será eficaz.
Princípio 05: Eficiência
A eficiência esta relacionada à entrada (INPUT), que refere-se a entrada e o processamento
dos dados, e a saída (OUTPUT) fornecendo informações elaboradas sobre os dados inseridos.
Princípio 06: Transparência
A transparência refere-se à rigorosidade, precisão e o nível de informações fornecidas,
melhorando a acessibilidade e a aptidão para uso, quanto maior o nível de informação mais fácil é a
busca pelo dado.
Outra forma de garantirmos a usabilidade e aumentarmos o tempo de vida dos dados é
inserimos as informações em sistemas, desta forma nos possibilita a organização e manuseio com
maior facilidade o que possibilita maior segurança com as informações inseridas.
15
Um banco de dados é um sistema para armazenamento de dados, formado por um conjunto
de registros que tem como objetivo guardar e organizar as informações. Estes dados podem ser
acessados por diversas aplicações diferentes. Um banco de dados não é necessariamente um registro
único, muito menos imutável, sendo que os dados podem ser alterados ou até mesmo apagados. A
evolução dos bancos de dados também está relacionada com a evolução dos meios tecnológicos. Na
década de 50, era possível armazenar os dados em fitas magnéticas ou em cartões perfurados. A
leitura destes dados era feita sequencialmente para prover aos programas da época a execução de
tarefas específicas (SETZEL, 2005).
As tecnologias e o armazenamento de informações mudam constantemente, diminuindo o
espaço físico onde são armazenados e aumentando sua capacidade de alocação de dados, as
informações torna-se fonte de recursos para organizações de armazenamento de dados; quanto
maior o poder de armazenamento maior a lucratividade da empresa hospedeira (SILVA, 2011).
1.1 PADRONIZAÇÃO DE METADADOS
Para que ações relacionadas à preservação do meio ambiente e a biodiversidade sejam mais
bem organizadas são necessários estudos detalhados sobre o meio ambiente, suas facetas e a forma
que estão relacionados entre si. Por isso torna-se cada vez mais importante o nível de detalhamento
dos dados coletados por instituições e pesquisadores nesta área.
Para instituição de pesquisa, dados são recursos básicos e valiosíssimos, sendo assim, devem
estar organizados para permitir buscas posteriores. Porém, para que isso ocorra, é necessário
técnicas de coleta que sejam organizadas e padronizadas, pois assim mais pesquisadores terão
acesso a essas informações. Catalogar estes dados torna-se importante para pesquisas em
andamento e pesquisas futuras, por isso devem ser de simples localização e fácil acesso.
Soluções para osproblemas referentes a catalogações de dados tem surgido de programas
que catalogam e auxiliam os usuários de maneira a localizar e analisar mais facilmenteseus
conjuntos de dados. Para que estas catalogações institucionais aconteçam é necessária a
padronização dos dados sobre biodiversidade, onde os usuários sigam regras de compartilhamento e
armazenem suas coletas de forma adequada, viabilizando a outros cientistas ou interessados no
assunto, um acesso de qualidade, de maneira ágil e padronizada, e que não dificulte ou minimize o
interesse dos mesmos (SOUZA; ALVARENGA, 2004).
16
É importante para a preservação e a vida prolongada dos dados o estabelecimento de códigos
de compartilhamento ou critérios que promovam o reconhecimento sobre suas características,
facilitando a procura por dados. Isto é feito através de metadados ou representações que têm como
objetivo a descrição e identificação das características de certa coleção. Estes metadados
desempenham um papel fundamental para a administração de coleções biológicas, pois a partir
destas informações que dados serão processados, consultados e selecionadas pelo usuário.
Para Turner (2004) há diferentes formas de catalogar e descrever os metadados, sendo cada
uma delas desenvolvida para funções e objetivos específicos, para cada usuário de acordo com suas
necessidades. Possibilitando, assim, que cada usuário utilize da forma mais adequada para sua
pesquisa.
A forma correta de tratamento dos dados torna-se importante, pois permite identificar e
recuperar arquivos mais rapidamente, tornando o manuseio das informações digitais mais eficazes.
Quando dados estão disponibilizados de forma correta, gera benefício aos usuários, pois integra e
uniformiza as informações tornando os dados mais acessíveis (MODESTO, 2005).
O documento da NISO (NationalInformation Standards Organization),descreve metadados
como informações estruturadas que descrevem, explicam, localizam e possibilitam que dados sejam
recuperáveis, facilitando a busca por determinado assunto. Para a NISO o termo metadados é usado
com frequência para designar dados sobre dados ou informação sobre informação (NISO, 2001).
1.1.1 PADRÕES E PERFIS
Há uma variedade de perfis de metadados pré-definidos para áreas diferentes, onde
fornecem informações importantes sobre o conteúdo desejado (Tabela 1).
17
Tabela 1. Exemplos de padrões de metadados.
AREA PADRÃO
Ecologia EML (EcologicalMetadataLanguage)
Dados Geográficos CSDGM (Content Standard for Digital GeospatialMetadata)
Imagens NISO MIX
Recursos compartilhados DublinCore
Biologia DarwinCore
A importância de utilização de metadados esta relacionada também a recuperação e o fácil
acesso aos dados.Padrões estabelecem conjuntos de elementos, eincluem especificações de cada
elemento e esquema, com codificações a fim de permitir a interoperabilidade entre sistemas que
utilizem o mesmo padrão (BRASIL, 2015). A padronização dos dados possibilita que tenhamos
maior numero de compartilhamentos, facilitando o acesso de dados e a troca de informações
institucionais.
O guia de boas práticas do Global BiodiversityInformationFacility (GBIF) descreve a
importância de utilizarmos modelos padronizados de dados pelo fato que quando os dados estão
organizados, podem ser reutilizados para publicar e localizar dados primários de biodiversidade. A
publicação destes dados por meio da utilização de formatos padronizados a nível internacional
torna-se um procedimento relativamente rápido, trazendo inúmeros benefícios como a ampliação e
a melhoria constante das bases de dados ligadas àbiodiversidade, em níveis locais, nacionais e
internacionais, aumentando e difundindo o conhecimento de dados sobre biodiversidade de cada
região. Além disso, possibilita instituições e pesquisadores a receberem reconhecimentos pelos seus
trabalhos prestados, auxiliando também órgãos e instituições na tomada de decisões referentes a
preservação de determinada área ou espécie (CADMANet al., 2011).
Internacionalmente existem diversas iniciativas para criar padrões de metadados ligados à
biodiversidade. A seguir serão detalhados os que têm tido maior aceitação dentro da comunidade
científica.
18
1.1.1.1 Biodiversity Information Standards – TDWG
O The Darwin Core WorkingGroup(TDWG) é um grupo de trabalho de bases taxonômicas,
estabelece elos internacionais entre banco de dados sobre biodiversidade, e desenvolve padrões de
dados para que a comunidade cientifica troque informações de modo seguro (TDWG, 2015). Este
grupo passou a promover atividades em um meio colaborativo e internacional, onde diversos
profissionais tiveram participação em seus domínios, posteriormente sendo rebatizado como
BiodiversityInformation Standards. Suas atividades para padronização são realizadas das seguintes
formas:InterestGroups (Grupos de Interesse), onde os problemas são discutidos e objetivos são
traçados. Também são responsáveis por montar estratégias, métodos e tecnologias relacionadas com
o tratamento de determinado tipo de informação sobre biodiversidade. TaskGroups (Grupos
Tarefa): definem produtos específicos, a partir da definição e montam um grupo tarefa para o
desenvolvimento de ferramentas e padrões (TDWG, 2015)
Para as coleções de dados sobre biodiversidade a TDWG abrange quatro subgrupos:
coleções preservadas (para museus e herbários); coleções vivas (para jardins botânicos, zoológicos,
banco de sementes); coleta de dados (para pesquisa de campo, mapeamento de flora e fauna) e
Amostragem de DNA (para biologia molecular, amostras de substâncias naturais).
O principal padrão que é instituído pelo TDWG é o padrão Darwin Core, sendo uma
extensão do Dublin Core, que esta relacionada com a captação de informações como, imagens,
vídeos e texto(SILVA, 2014).
1.1.1.1.1 ABCD (Access to Biological Collection Data) Tanto os autores Copp e De Giovanni (2010) como Canhoset al. (2006) descrevem que o
ABCD destina-se a troca de informações de dados primários de biodiversidade, sendo mantido pelo
TDWG, que trabalha vinculado ao CODATA (Committeeon Data for Science and Technology),
sendo mais utilizado em países Europeus onde mantêm vínculo como protocolo BioCase.
O objetivo do grupo ABCD é estabelecer normas, coletar e publicar documentos de
biodiversidade, e desta forma contribuir para um intercâmbio de recuperação e coleções de dados
(ABCD, 2008).
O ABCD adota padrão XML (ExtendedMarkupLanguage) para troca de dados entre
coleções diversas, permitindo maior integração e interoperabilidade entre diversos sistemas. O
19
padrão XML cria padrões de documentos, para organização de dados em forma hierárquica
(SILVA, s.d.)
1.1.1.1.2 Darwin Core O padrão Darwin Core nasceu em um projeto ligado a Universidade de Berkeley juntamente
com o centro de pesquisa de biodiversidade da Universidade de Kansas no ano de 2003 (TDWG,
2015). O Darwin Core possui em sua estrutura um conjunto simples de elementos identificados por
marcadores e tags, permitindo uma estruturação de registros e dados de espécie a serem
compartilhados através da internet (SILVA, 2014).
DarwinCore é um mecanismo que busca uma padronização de dados primários de coleções
biológicas. Desta forma, tem o potencial de incentivar os pesquisadores a trocar informações sobre
as ocorrências de organismos bem como suas localidades. Kakodkaret al. (2009) descreve o sistema
como um facilitador de intercâmbio de informações entre diversos dados sobre
biodiversidade.Possibilita, assim, a troca de conhecimentos sobre registros de biodiversidade,
realizando o cruzamento de dados de coleções bióticas e amostras de parâmetros físicos, ainda
possuindo extensões para fornecer mecanismos de compartilhamento de informações adicionais,
tendo sido projetado para que as informações sejam acessadas com facilidade (LEITE, 2011).
Sendo o DarwinCore composto por conjuntos de dados que são identificados através de
marcadores ou tags, essa disposição estrutural tolera uma arranjo de registros e dados de espécies,
que facilita o compartilhamento dos conjuntos de dados na internet através dos documentos XML
SILVA, 2014).
1.1.1.2 Integrated Taxonomic Information System (ITIS)
O ITIS é uma organização que tem por objetivo fornecer informações sobre a taxonomia de
dados sobre biodiversidade, iniciado em 1990 por uma agência ligada ao governo federal dos
Estados Unidos, mas que hoje se tornou uma ferramenta usada mundialmente. Esta base de dados
fornece aos seus usuários uma estrutura com referências automatizadas, incluindo nome cientifico e
nomenclatura comum de espécies. Este banco de dados é revisado periodicamente, garantindo a
qualidade, revisão periódica e novas adições de espécies de fauna e flora no ambiente terrestre e
aquático (ITIS, 2015).
20
O ITIS serve com padrão, permitindo a comparação para conjunto de dados sobre
biodiversidade, tendo como objetivo incorporar as classificações de maior expressão taxonômica e
por profissionais que trabalham com taxa.
Os padrões de dados relacionados ao ITIS estão em conformidade com o Código
Internacional de Nomenclatura Botânica e o Código Internacional de Nomenclatura Zoológica, um
padrão de dados adotados pelo ITIS inclui, Bactérias, Protozoários, Plantae, Fungos, Animália,
Chromosista e Archaea (ITIS, 2015).
1.1.1.3 Dublin Core
O Dublin Core nasceu em 1994, na cidade de Chicago nos Estados Unidos, propondo a
criação de padrões para informações digitais. O Dublin Core MetadateInitiative(DCMI) é uma
organização que articula a adesão de padrões de interoperabilidade de metadados, ou seja, é a
capacidade que um sistema tem de se comunicar de forma nítida com outro sistema, desenvolvendo
vocabulários específicos, que descrevem fontes que possibilitem uma forma de descoberta de
informações, sendo um formato menos estruturado e mais especifico de adoção de sintaxe
doResourceDescripition Framework, que é uma linguagem com o intuito de representar
informações relacionadas à internet. Trata-se de um conjunto de elementos de metadados que tem
como objetivo facilitar a descrição de recursos eletrônicos, tornando-se conhecido mundialmente
(SOUZAet al., 2000).
Ainda para Souza et al. (2000), o padrão Dublin Core e composto por 15 elementos que são
preenchidos pelo autor ao fazer o upload do texto, os elementos descritos pelo padrão Dublin Core
são: Titulo, Criador, Assunto, Descrição, Editor, Colaborador, Data, Tipo, Formato, Identificador,
Fonte, Idioma, Relação, Cobertura e Direitos.
1.1.1.4 Plinian Core
O Plinian Core constitui uma lista de elementos que representa informações associadas a
táxons. O Plinian Core tem o objetivo de desenvolver padrões para compartilhamento de
informações principalmente no nível da espécie. Este sistema permite uma forma de publicar
informações sobre espécies para que ele seja interoperável. Por informações de espécies se referem
a todos os tipos de propriedades e características relacionadas a um taxon (de qualquer grau),
21
incluindo descrições, nomenclatura, estado de conservação, gestão, história natural, etc. Assim, a
cobertura Plinian Core vai além de descrições taxonômicas (PLINIAN CORE, 2013).
O Plinian Core conceitua e define atributos que integram e recuperam informações sobre
espécies, fornecendo conceitos que propõem diversos tipos de dados tais como: taxonomia da
espécie, frequência, conservação, demografia, ciclo de vida (PLINIAN CORE, 2013).
OPlinian Core abre opções para a criação de novos modelos de dados para armazenamento
de espécies, mantidos e gerenciados pelo grupo Special Profile Model, vinculado ao TSWG, os
padrões criados complementarão além dos aceitos como o padrão EML, integrarão a base do
sistema Darwin Core (TDWG, 2015).
1.1.1.5 EML (Ecological Metadata Language)
O EML foi desenvolvido para suportar o padrão de linguagem XML
(ExtensibleMarkupLanguage), sendo estruturado para uso especifico de dados ecológicos, a fim de
desempenhar duas finalidades.A primeira finalidade refere-se à definição de estrutura comum para
todos os ecologistas, a fim de homogeneizar os dados relacionados à ecologia. A segunda finalidade
consiste em proporcionar uma estrutura de fácil acesso para o desenvolvimento de softwares
relacionados a dados ecológicos.
Estes padrões permitem que usuários realizem pesquisas direcionadas e específicas para
conjunto de dados relacionados à ecologia, tornando-se de grande utilidade para ecologistas na
organização e implementação de estudos em longo prazo (BLANKMAN, 2003).
Todos os padrões apresentadosdisponibilizam os dados de forma gratuitapara
pesquisadores cadastrados, estas ações são de suma importância para o aumento e a disseminação
de informações alusivas à biodiversidade. Os dados uma vez cadastrados auxiliam a comunicação
científica, fortalecendo o intercâmbio de informações, uma vez que o dado esteja com
acessodisponível, ele pode ser reutilizado e reaproveitado mais facilmente.
1.2 SOFTWARES LIVRES
Os softwares livres, ou softwares de códigos abertos, permitem que usuários acessem estas
tecnologias sem a cobrança de licenças para o uso destas ferramentas, contrapondo os sistemas que
22
inovaram o mercado tecnológico, pois a maioria possui ônus aos usuários (IWASAKI, 2008). Isto
facilita ainda mais o acesso aos dados, por não exigirem investimento financeiro para utilizá-los.
De acordo com Iwasaky (2008) os softwares de código aberto despertam interesse de
empresas em utilizar esta ferramenta, seja participando de comunidades ou até mesmo
desenvolvendo modelos para aprender sobre suas metodologias e formas de trabalho.
Cientificamente esforços estão sendo despendidos para melhorar e capacitar indivíduos no
uso destas ferramentas. Sistemas para catalogação de dados não requerem tanta mão de obra quando
aos hardwares utilizados, porém exigem que pessoas sejam capacitadas para entender a organização
destes sistemas (BONACCORSI; ROSSI, 2006).
Para aperfeiçoar e melhorar o aproveitamento destes softwares, instituições interessadas em
utilizar tais programas devem qualificar funcionários, para que possam explorar e utilizá-los da
forma mais correta possível, maximizando a utilização dos programas, gerando assim redes de
compartilhamentos institucionais (CHENGALUR; NEVO; DEMERTZOGLOU, 2010).
Conforme a descrição de Fitzgerald (2006), o número significativo de softwares livres no
mercado e o elevado número de pessoas que vêm buscando o aperfeiçoamento no assunto, trazem
revoluções na forma que estes programas chegam ao mercado, transformando diariamente o
processo de desenvolvimento, bem como a comercialização destes softwares (AYALA et al., 2011).
Mesmo diante destas transformações, os programas de código aberto ainda enfrentam
diversas barreiras, pois muitas comunidades, tanto acadêmicas, quanto instituições privadas não
visualizam os softwares como opção segura, sendo assim, não os adotam como forma de
armazenamento padrão (QUALIPSO, 2010).
Para potencializar esta discussão, no ano de 2004 a OCDE - Organização de Cooperações e
Desenvolvimento Econômico, por meio de seminário avaliou e discutiu questões relacionadas a
softwares livres. Dentre as inúmeras demandas que foram tratadas, a temática ligada à patente dos
softwares foi exatamente a questão que mais se evidenciou como fator determinante para a
diminuição da utilização destes programas. Ainda, outra questão discutida foi a de disponibilizar
arquivos que são usados em pesquisas onde o financiamento foi proveniente de recurso público.
Para os membros da OCDE fica claro que ao disponibilizarem o acesso livre dos dados de
pesquisas, acarretará o melhoramento dos softwares e também há um consenso entre estes
pesquisadores, que ao conceberem o acesso livre dos dados de pesquisa, haverá inúmeros benefícios
na qualidade de trabalho, elevando crescentemente a produção dos sistemas científicos mundiais
(SANTOS; TOLEDO; LOTUFO, 2009).
23
Acredita-se que o aumento de investimento nos softwares livres, facilitará a acessibilidade,
diminuindo a desconfiança e possibilitando às diversas instituições a aderirem aossoftwares, visto
que é uma área em expansão, e este ramo está atingindo o mercado, pois os diversos modelos
primam por catalogar dados sobre a biodiversidade e à bioinformática. Isto remete a uma demanda
de profissionais que saibam ler o ambiente e que consigam compreender de forma digital como
estudá-lo.
1.3 BIOINFORMÁTICA
Este termo foi lançado na década de 80, quando as técnicas de sequenciamento genético
iniciaram um processo de aprimoramento. A bioinformática facilita o uso de ferramentas que
capturam, processam e analisam os dados, tornando-se um campo interdisciplinar, esta área abrange
as ciências da computação, biologia, física, medicina e matemática (BAYAT, 2002).
De acordo com Corrêa (2004) a Bioinformática compreende aspectos como coleta de
informações de biodiversidade até o processamento de análises desses dados, estando em pauta a
forma de lançamento na rede e a gestão dos dados.
Tratando-se de biodiversidade e biotecnologia ambas as áreas se entrelaçam, pois se torna
muito importante a digitalização dos dados de coleções, que se encontram alocados em jardins
botânicos, zoológicos, herbários e diversos locais de pesquisas. São nestes locais que se encontram
materiais de coletas ou dados sobre biodiversidade (SOBERON, 1999).
Entende-se que uma vez digitalizados, estes dados devem ser inseridos em um sistema
global, onde possam ser quantificados e qualificados, sendo fundamental para futuras tomadas de
decisões que dizem respeito à preservação de sistemas ambientais. Afinal, torna-se impossível
preservar o que não se tem conhecimento da existência.
Segundo Ganem (2011) instituições recebem dados diversos para analises diariamente,
exigindo que cientistas estejam preparados para catalogar e interpretar estes dados. Há
mundialmente 1,8 milhões de espécies identificadas por instituições e pesquisadores.
Para que se possam coletar adequadamente os dados que ainda encontram-se disponíveis em
nosso meio, necessitamos de tecnologias que ajudem a entender de forma mais sistemática o meio
ambiente. Os dados coletados devem seguir padrões para facilitar futuramente o entendimento do
24
conjunto dados a serem estudados, quando forem inseridos em provedores de dados tanto
institucionais quanto particulares.
Quanto às possibilidades de armazenamento as instituições podem optar por diferentes
formas, cada qual trabalhando conforme a sua demanda. Isto motiva a discussão sobre a gestão de
dados, pois possibilita a integração de recursos com facilidade e rapidez, aumentando assim o
conhecimento de dados sobre biodiversidade. Segundo Copp e De Giovanni (2010) atualmente são
criados provedores específicos para cada tipo de dado facilitando a acessibilidade de inúmeros
pesquisadores. Estes provedores fazem a leitura de dados já pré-estabelecidos, realizam o
gerenciamento e o correto armazenamento, para em seguida disponibilizar os documentos
padronizados.
1.4 CENARIO MUNDIAL DE GESTÃO DE DADOS SOBRE BIODIVERSIDADE
Técnicas de armazenamento de dados em diversos países vêm sendo desenvolvidos a fim de
estabelecer uma infraestrutura adequada para a utilização e normatização de dados relacionados à
biodiversidade. Há uma crescente preocupação para que estes dados sejam recolhidos e
armazenados de forma homogênea, pois uma gama enorme de dados com alto potencial de
aproveitamento em pesquisas que deixam de serem aproveitados. Por isso diversas instituições e
órgãos governamentais vêm adotando medidas para que estes dados sejam catalogados de forma
homogênea facilitando o acesso de pesquisadores e instituições, a fim de aumentar o conhecimento
da biodiversidade mundial existente. Serão descritos a seguir algumas destas iniciativas que tem
tido destaque no cenário mundial,
1.4.1 GBIF (Global Biodiversity Information Facility)
O GBIF dedica-se a disponibilizar dados sobre biodiversidade através da internet,
fornecendo uma plataforma para que haja uma integração de dados sobre biodiversidade, sendo
estes dados provindos de diversas fontes em torno do mundo. Esta iniciativa torna dados sobre
biodiversidade acessível para diversos pesquisadores e instituições através do seu portal, em
contínuo desenvolvimento. Atualmente, disponibiliza inúmeras informações tais como nomes
25
científicos, distribuição e localidade da ocorrência de indivíduos de fungos, micróbios, animais e
vegetais (GBIF, 2015).
Segundo Araújo (2013) este portal tem como principal incumbência disponibilizar de forma
gratuita dados sobre biodiversidade que ocorram em qualquer lugar do mundo, para que através de
pesquisas desenvolva-se um ambiente mais sustentável, e por meio de parcerias desenvolve padrões
e protocolos que garantem a integridade e a longevidade dos dados ali alocados.
O GBIF cria redes de acesso informatizadas entre recursos de dados digitais em diversos
níveis da organização biológica, geneticamente e ecologicamente a questões importantes para a
sociedade cientifica, utilizando e oferecendo serviços de georreferenciamento e SIG (Sistema de
informações Geográficas). Nestes processos incluem o trabalho em parceria com outras instituições
tais como o Catalogue of Life, a BiodiversityInformation Standards (TDWG), Consortium for
theBarcodeof Life (CBOL), a Encyclopediaof Life (EOL), e o Global Earth Observation System
ofSystems(GEOSS) (GBIF, 2015).
1.4.2 NATURESERVE
A NatureServer é uma rede de distribuição de inventários de biodiversidade que atua desde
1974, sendo uma organização sem fins lucrativos e trabalha fornecendo dados sobre conservações
da vida selvagem, mantendo parcerias com órgãos governamentais e instituições privadas. Foi
desenvolvida para criar interoperabilidade dos mais de 80 programas que compõem a rede, sendo
utilizados rigorosos conjuntos de normas para gerenciamento de dados. Estas normas fornecidas
pela NatureServer, e conhecida entre todos seus participantes, servem como uma linguagem comum
para todos os participantes que compões a rede. Este padrão de dados permite que os usuários
tenham uma rede de linguagem comum para comunicar-se tornando estes mecanismos um exemplo
bem sucedido de distribuição de dados sobre biodiversidade (BWB, 2015).
1.4.3 OBIS (Ocean Biogeographic Information System)
O OBIS foi desenvolvido em 1997 em uma conferencia através de parceria com o CoML
(Censusof Marine Life) um projeto de pesquisa multi institucional que por 10 anos realizou estudos
26
relacionados a vida marinha, conectando mais de 2.700 cientistas em mais de 80 países. Em 2009 o
OBIS passou a fazer parte da UNESCO, que mantêm estudos relacionados à oceanografia, sendo
gerida pela comissão oceanográfica intergovernamental, desde então trabalham em parcerias. O
OBIS permite que pesquisadores e instituições tenham acesso a um banco de dados contendo mais
de 80.000 espécies em 13,7 milhões de registros, facilitando o compartilhamento de dados
marinhos, ajudando na compreensão dos padrões e processos que gerem a biodiversidade marinha.
O OBIS é gerenciado por acadêmicos e instituições localizadas em todo o mundo, e tem como
objetivo a integração de base de dados biológicos oceanográficos, incluindo dados físicos e
químicos, para diversas aplicações. Seu servidor esta alocado na Universidade de Rutgers, NJ, EUA
onde mantêm seu portal em funcionamento (OBIS, 2015).
1.4.4 IABIN ( Inter American Biodiversity Information Network)
O IABIN foi criado pela OEA (Organização dos Estados Americanos), no ano de 1996,
fornece informações sobre dados de biodiversidade, bem como padrões e protocolos, também
oferece uma plataforma que permite o acesso de seus usuários a dados sobre biodiversidade,
vinculados em diversos laboratórios de diferentes países (IABIN, 2015).
Entre os objetivos traçados, conta com a construção de infraestrutura relacionada à
plataforma de internet, onde será possível a troca de dados relacionados à biodiversidade em
diferentes países. A rede de abrangência inclui sub-redes temáticas ligadas a Espécies e Espécimes,
Áreas Protegidas, Ecossistemas, Espécies Invasoras e Polinizadores. Cada sub-rede possui um
grupo de trabalho dedicado especialmente aos seus temas, e esses grupos colaboram entre si e
coordenam a transferência tecnológica para as bases regionais (IABIN, 2015).
1.5 CENÁRIO NACIONAL DE ARMAZENAMENTO DE DADOS
O Brasil garantiu o direito dos cidadãos ao acesso a dados e biodiversidade em 1981,
tornando-se lei através da criação da Lei nº 6.938/81, que tem por objetivo a preservação ambiental
e o melhoramento da qualidade do meio ambiente.Anterior a esta lei ambiental, os municípios e
estados tinham total liberdade para gerenciarem políticas ligadas ao meio ambiente, isso levava a
uma descentralização e uma gestão incorreta pelos órgãos responsáveis (FARIAS, s.d.).
27
Em 2008 instituiu-se o decreto 6.666/08, que trata de metadados geoespaciais. O decreto
descreve, entre outros artigos, a integração e disponibilidade dos dados geoespaciais, promover a
sua documentação, evitar duplicidade de ações e o desperdício de recursos, a obrigatoriedade do
compartilhamento e disseminação de dados ligados a instituições de Poder Federal e obedecer aos
padrões de metadados estabelecidos para a INDE - Infraestrutura Nacional de Dados Espaciais
(BRASIL, 2010).
O Brasil, a partir da década de 90, iniciou ativamente sua participação na
BiodiversityInformation Network (BIN), uma rede internacional criada para tratar os meios de
integrar dados sobre Biodiversidade (CANHOS, 2006).
No ano de 2015, o Governo Federal criou um portal de dados para concentrar recursos
relacionados à biodiversidade com parceria de diversas instituições e lançou o SiBBr (Sistema de
Informações sobre a Biodiversidade Brasileira,Figura 2. Este programa fornece informações sobre
diversos dados da biodiversidade brasileira, sendo o nodo brasileiro do GBIF, que juntos abrigam
dados relacionados de biodiversidade facilitando a gestão de dados que são catalogados por diversas
instituições, criando uma rede de comunicação entre os pesquisadores (SIBBR, 2015).
Até 2016 o SiBBR tem como objetivo abrigar em torno de 2,5 milhões de registros de
diversas espécies.
28
Figura 2. Número de registros armazenados no SiBBr em 2015 (acessado em 01/06/2015)
O SIBBr disponibiliza ferramentas para gerenciar e organizar dados de espécies e suas
ocorrências, assegurando que um maior número de entidades tenham acesso. É válido ressaltar que
fica a critério de cada entidade escolher os tipos de informações que integrarão o banco de dados e
qual o momento mais propício para suas divulgações. Todo este processo é gratuito sendo feito
através de uma ferramenta de código livre desenvolvida pelo GBIF, que gera conjuntos para
publicações de dados e metadados. Contudo, estas informações devem seguir alguns padrões
estabelecidos pelo GBIF.
Para exportar estes dados para o SiBBr são necessários que sigam padrões preestabelecidos,
um exemplo de padrões a ser seguido é a rede NonatoBase que se trata de um banco de dados
desenvolvido por pesquisadores Sul-Americanos. Este banco interativo compartilha e integra dados
disponíveis sobre poliquetas coletadas no Oceano Atlântico, sendo como princípio orientador do
projeto manter a base de dados aberta e de livre acesso. Ele é constituído por uma arquitetura que
conta com filtro de dados dos níveis taxonômicos, onde o usuário define quais os tipos de buscas
que pretende realizar, tais como: amostras, características do local de coleta, tipo de material
utilizado entre outros (NONATOBASE, 2015).
29
Outro exemplo de base de dados que ajuda a compartilhar, organizar e referenciar dados
geograficamente de cetáceos avistados é o Sistema de Apoio ao Monitoramento de Mamíferos
Marinhos (SIMMAM). Este projeto integra informações sobre a ocorrência de mamíferos marinhos
na costa brasileira e ajuda avaliar os danos causados sobre mamíferos marinho influenciado por
diferentes setores, tais como o tráfego de embarcações e a extração de petróleo. Através de
parcerias com instituições dos setores governamentais e da sociedade, amplia o alcance de seus
dados fornecendo e compartilhando dados para uma melhor gestão do meio ambiente.
Estas redes transformam-se num valioso recurso para pesquisadores, pois se torna de suma
importância para compreensão de padrões de biodiversidade, auxiliando tanto na catalogação de
dados como na visualização da distribuição das espécies. Mas para isso, dados precisam ser
alocados com segurança e confiabilidade, sendo necessária uma plataforma que acolha e trate estas
informações, fornecendo uma forma de interligar estes dados a portais de armazenamento e a
softwares de análise (BARRETOet al., 2012).
1.5.1 CRIA (Centro de Referência em Informação Ambiental)
O Centro de referencia em informações ambientais é um mecanismo de disseminação de
informações eletrônicas de dados sobre biodiversidade, permite a comunidade cientifica organizar,
catalogar dados sobre a biodiversidade brasileira, ajudando na preservação do meio ambiente, é
uma sociedade civil sem fins lucrativos, que tem por objetivo disseminar o conhecimento cientifico
e tecnológico, promovendo a educação e a preservação do meio ambiente (CRIA, 2015).
Fazem parte deste Centro de Referência diversos projetos como:
O Specieslink, que é uma rede colaborativa entre diversos países que trocam informações
biológicas, permitindo acesso aos registros e analises através de produção de mapas gráficos,
fornecendo também imagens e relatórios para promover o intercambio das informações.
O SICol, que foi desenvolvido pelo Programa Nacional de Biotecnologia e pelo Ministério
da Ciências e Tecnologia, tendo como objetivo a disseminação de informações sobre o Centro de
Recurso Biológicos do Brasil, integrando as diversas coleções de biotecnologia.
O Flora Brasiliensis online,disponibiliza onlineobras produzida entre 1840 e 1906 pelos
editoresCarl Friedrich Martius, August Wilhelm Eichler e IgnatzUrban, e conta com uma lista de 65
especialistas de vários países. O FloraBrasiliensis online contém dados taxonômicos de 22.767
30
espécies,sendo em sua maioria angiospermas brasileiras.Este sistema foi desenvolvido através de
parceria do CRIA,da Universidade de Campinas, Unicamp, o Jardim Botânico de Missouri. (CRIA,
2015).
1.5.2 PPBIO (Programa de Pesquisa em Biodiversidade)
OPPBio foi criado em 2009, realizando estudos sobre dados de biodiversidade brasileira. O
repositório de dados do PPBio contem imagens, vídeos e levantamentos biológicos.Todos os
arquivos estão disponíveis no site(https://ppbio.inpa.gov.br) para download, incentivando
instituições de ensino a utilizarem para fins educacionais seus dados.
O objetivo do PPBio é desenvolver competências regionais e nacionais, a fim de divulgar
conhecimento sobre a biodiversidade brasileira, disseminando seus conhecimentos de forma
planejada e organizada, contando com apoio do CNPQ com auxilio de bolsas, e no
acompanhamento e avaliação de desempenho de projetos ligados ao órgão (PPBIO, 2015)
1.5.3 GERENCIAMENTO DE INFORMAÇÕES
Modelos de padronização como os determinados pelo DataONE(Data Observation Network
for Earth ), gerenciam e promovem infraestrutura para dados sobre biodiversidade, utilizando um
padrão de metadados que interliga as diversas redes de pesquisadores. Entretanto, devido à
diversidade de dados gerados por pesquisadores, este software aceita a inserção de dados em
formato original, seja em planilhas ou editores de textos (DATAONE, 2015).
No decorrer dos anos cresce o número de recursos naturais que são catalogados em meios
digitais, esses dados geralmente são de grandes extensões, caracterizam-se como complexos, e
geralmente se faz necessário um tratamento diferenciado, pois o lançamento em um sistema é
moroso. Monitorar as mudanças que ocorrem nos dias de hoje relacionadas aos ecossistemas e a
biodiversidade é essencial para entendermos como o meio se relaciona entre si, fazendo necessário
a coleta, a documentação e a devida armazenagem destes dados (MICHENER et. al. 2012).
A integração de dados pode ser facilitada, caso os pesquisadores utilizem softwares que
armazenem as informações sobre biodiversidade em um padrão único. Apesar de ser possível gerar
31
arquivos de dados que sejam compatíveis com o DarwinCore a partir de quase qualquer tipo de
conjunto de dados estruturado, utilizando ferramentas como o TAPIR (CANHOS, 2005).
Os processos de integração e armazenamento de dados juntamente com as inovações
tecnológicas avançam significativamente, exigindo que a comunidade científica atualize-se em
conformidade com esta evolução.
Para Fernandes e Loch (2007) a importância do progresso científico é imensurável e
desejável, sendo irreversível, e cada vez mais este processo crescerá de forma acelerada, embora
exista uma diferença variável em torno do mundo. Ainda há grande dificuldade na busca por
programas e softwares que auxiliem e estejam adequados para auxiliar uma maior quantidade de
entidades. Muitos ainda revelam-se insatisfatórios, pois o meio que auxiliam a busca apresenta uma
grande variedade de dados, obrigando o pesquisador a afunilar e redefinir seu conteúdo por
resultados que melhor lhe satisfaça.
Por estas informações estarem dispersas e sem padronização, tem pouco valor para os
gestores. Assim, é fundamental que seja agregada e padronizada com metadados que permitam
encontrar estes dados e a partir dos mesmos possam tomar decisões para a correta conservação da
biodiversidade. A padronização e o armazenamento de dados quando efetivado de forma correta,
traz inúmeros benefícios, dentre os quais a praticidade e a produtividade dos trabalhos futuros estão
entre os mais evidentes. A principal razão para a existência e a utilização de perfis de metadados
está relacionada com o gerenciamento e disponibilização da informação na rede mundial de
computadores (web). Esta prática garante a confiabilidade e a vida útil dos dados existentes, ficando
acessível de uma forma automática a todas as partes interessadas. Deste modo, metadados também
servem para transformar dados brutos em conhecimento (SOUZA; ALVARENGA, 2004).
Comunidades acadêmicas vêm desenvolvendo modelos de metadados para disponibilizar
suas produções facilitando a descoberta, a recuperação e a integração de informações sobre espécies
biológicas. Iniciativas internacionais, como do DarwinCore, desenvolveram padrões de metadados
para biodiversidade, que permitem a descrição de vários tipos de recursos, paraa integração de
dados de diversas fontes. O GBIF busca estabelecer critérios e ligações de diferentes níveis de
organizações biológicas desde células a ecossistemas completos, tornando-se uma ferramenta de
acesso mundial, mas para que isso ocorra também necessita de padrões pré-estabelecidos aderindo
aos padrões DarwinCore.
OSiBBrtambém utiliza o DarwinCore para integrar informações de biodiversidade geradas
por diferentes instituições no país. Tais sistemas agregadores de dados permitem acessar dados que
32
originalmente estavam dispersos, sendo possível desenvolver pesquisas científicas de caráter mais
amplo e também fortalecer e embasar políticas públicas.
1.5.3.1 ECOLOG
Este software nasceu em 1990, mas após melhorias e mudanças significativas o programa
ganhou nova vida em 2014. O objetivo do software é disponibilizar de forma acessível os
levantamentos realizados em campo, fornecendo informações como: lista de espécies coletadas na
área do levantamento, preferências de espécies por habitat, abundancia de espécies, biometria,
morfologia e localização espacial.(ECOLOG, 2015).
Este software contribui para que sejam adotados padrões mínimos de coletas, facilitando o
intercambio de dados gerados em campo, evitando duplicidade de esforços entre projetos e
instituições.O software foi desenvolvido para ser um programa livre, distribuído gratuitamente,
porém conta com donativos para que o programa continue sendo atualizado. O programa permite o
usuário trabalhar com programas e extensões como: .xls, .xlsx, .ods, .csv, .tsv (ECOLOG, 2015).
1.5.3.2 BRAHMS, (Botanical Research and Herbarium Management System)
O software BRAHMS foi desenvolvido pela Universidade de Oxford, para gerenciar
coleções de botânica e gerenciamento herbários, fornecendo ferramentas para analisar, gerenciar e
publicar dados.
O software dispõe de cursos online para treinamento e capacitação para sua utilização, e está
interligado online com outras plataformas para investigações de herbários regionais, tornando-se
uma ferramenta de grande importância para pesquisadores na área botânica. Está restrito a tratar e
coletar dados desta área (GBIF, 2015).
33
1.5.3.3 SPECIFY
O Specify é constituído por uma plataforma gráfica acessível, permitindo um ambiente mais
agradável para o manuseio do programa, onde os campos de dados a serem preenchidos
apresentam-se em janelas a serem selecionadas, organizadas, renomeadas e refeitas sob medida para
atender às preferências de curadoria do pesquisador, eliminando a necessidade de tabulação através
de múltiplos formulários de dados (SPECIFY, 2015).
Além disso, também gerencia e avalia coleções biológicas e permite a realização do ciclo
completo de ações referentes à gestão de dados sobre biodiversidade. Foi desenvolvido em código
aberto pelo BiodiversityResearch Center, da Universidade do Kansas, e encontra-se disponível
gratuitamente para download em sua página. Este software efetua em seus bancos de dados ações
como pesquisa, catalogação, gestão de empréstimos, empréstimos, trocas de matérias, etiquetagem
do material e geração de relatórios, incluindo diversas estatísticas de uso e geração dos dados,
atividades que cada vez mais são usuais na gestão de uma coleção (SPECIFY, 2015).
1.5.3.4 BDD (Biodiversity Data Digitizer)
O BDD foi desenvolvido pela Escola Politécnica da Universidade de São Paulo,
desenvolvidoatravés de uma parceria com a rede de informações sobre biodiversidade (IABIN) e o
Instituto Nacional de Biodiversidade (INBio) da Costa Rica. O BDD é uma ferramenta que auxilia e
facilita a digitalização, manipulação e publicação de dados sobre biodiversidade. Este software se
destaca por oferecer ao usuário uma manipulação simples e objetiva dos dados. BDD baseia-se no
padrão Darwin Core (DwC), publicada por TDWG. O software disponibiliza navegadores para
acesso remotamente permitindo o usuário o acesso a um servidor externo, quando estiver instalado
em computador pessoal. Um dos principais objetivos a manipulação e o registro de ocorrência de
espécies e interação de dados, podendo exibir os dados em mapas e registros em tabelas. (BDD,
2015).
Entretanto, grande parte do valor destes dados se perde, quando não existe uma
padronização e organização dos dados institucionais. Atualmente, não se sabe qual o volume de
dados e/ou abrangência espacial das informações coletadas pelos docentes e pesquisadores ao longo
34
da história do CTTMar. Caso tal informação fosse padronizada, diversos outros trabalhos poderiam
surgir, aumentando a repercussão dos dados já pesquisados e das atividades desenvolvidas.
1.8 OBJETIVOS
1.8.1 OBJETIVO GERAL
Diagnosticar os conjuntos de dados sobre a biodiversidade existente nos laboratórios do
Centro de Ciências Tecnológicas da Terra e do Mar (CTTMar) com relação às boas práticas de
gerenciamento de dados.
1.8.2 OBJETIVOS ESPECÍFICOS
• Identificar os tipos e o modo de armazenamento dos dados sobre biodiversidades
existentes;
• Levantar as possibilidades e riscos de perda ou dano das informações sobre
biodiversidade;
• Verificar a existência de políticas de gestão dos dados sobre biodiversidade;
• Relatar a visão dos gestores sobre o compartilhamento dos dados;
• Propor estratégias para a disponibilização dos dados sobre biodiversidade;
• Dimensionar o esforço necessário para padronização dos dados sobre biodiversidade.
• Comparar a visão dos docentes do CTTMar com a de usuários de dados sobre
biodiversidade externos à UNIVALI.
35
2 METODOLOGIA
2.1 POPULAÇÃO AMOSTRAL
O estudo em questão foi realizado na Universidade do Vale do Itajaí - UNIVALI, com sede
na cidade de Itajaí, litoral norte de Santa Catarina. Os dados sobre biodiversidade do trabalho em
questão, foram obtidos junto ao Centro de Ciências Tecnológicas da Terra e do Mar - CTTMar
situado na Univali campus de Itajaí. Trata-se de um centro de referência em pesquisas, visto que o
CTTMar realiza estudos que abrangem diversas pesquisas ligadas ao meio ambiente, com uma forte
tendência de trabalhar com a pesca e o ambiente marinho, devido à sua localização(UNIVALI,
2015).
2.2 ETAPAS DO TRABALHO
Este estudo consistiu no levantamento de informações referentes à forma de
armazenamento de dados sobre biodiversidade que estão depositadosnos laboratórios do CTTMar.
Foram realizadas entrevistas com os docentes ligados ao CTTMar, a fim de identificar possíveis
dificuldades e riscos de perda de dados dos docentes em seus laboratórios. Pode-se observar na
Figura 3 as ações desenvolvidas.
36
Figura 3. Fluxograma das etapas do trabalho
2.2.1 AVALIAÇÃO DO PÚBLICO PARTICIPANTE
Na primeira etapa desta pesquisa foi identificada a quantidade de dissertações, teses e
publicações relacionadas a dados sobre biodiversidade abrangendo um período de 10 (dez) anos,
através do Sistema de Avaliação da Produção Institucional (SAPI), que gerencia as produções
científicas da instituição. O SAPI importa produções dos docentes a partir dos currículos inseridos
na Plataforma Lattes do CNPq e também a partir das produções inseridas diretamente pelos
docentes no sistema.
Foram obtidos vinte e sete mil trezentos e cinquenta e nove produções científicas, de todos
37
os docentes do CTTMar. A partir deste resultado foram realizadas breves leituras dos resumos e
títulos dos trabalhos obtidos. Posterior a esta leitura, foram selecionados os docentes que utilizam
dados sobre biodiversidade. Sendo selecionados trinta e cinco docentes para participarem das
entrevistas, totalizando, um mil trezentos e sessenta e sete produções científicas. Em seguida foi
estabelecido um ponto de corte, onde somente os docentes com mais de cinco produções na área de
biodiversidade foram selecionados.
2.2.2 CONTATO COM OS DOCENTES SELECIONADOS
O primeiro contato com os docentes vinculados ao CTTMar, foi através do envio de e-mails,
explicando e descrevendo os propósitos da pesquisa e solicitando a participação nesta pesquisa. Em
seguida foram agendadas 19 entrevistas com decentes que se propuseram a participar. Nesta fase da
pesquisa, foram realizadas visitas aos setores da unidade selecionada e entrevistas com docentes do
CTTMar, com a finalidade de conhecer a forma de trabalho e as condições de armazenamento de
dados dos docentes.
Os entrevistados responderam a um questionário com oito perguntas (Anexo
A)queabrangeram as seguintes temáticas: armazenamento de dados, quantidade estimada de dados
gerados pelo laboratório e políticas de gestão de dados. Também foi solicitado aos docentes que
enviassem cópias e modelos de arquivos de dados onde armazenavam suas informações sobre
biodiversidade para que fossem observadas as formas de armazenamento de dados.
Para as avaliações das tabelas enviadas pelos docentes e da forma com que armazenam seus
dados digitais, foram utilizadas requisitos básico proposto pelo GBIF:
• Metodologia da construção dos dados e formatação da tabela,
• Metadados bem definidos para cada conjunto específico de dados;
• Metadados estruturados sobre cada registro, contendo minimamente nome da
espécie, nome do coletor, hora da coleta, data da coleta, coordenadas geográficas
long/lat, forma de coleta e material utilizado.
Ao término das entrevistas foi solicitado que os docentes respondessem um questionário
online (Anexo B) contendo 35 perguntas objetivas relacionadas ao gerenciamento de dados sobre
biodiversidade, no qual foi utilizada a ferramenta Google Drive do Google Docs. Neste
questionário, não havia a necessidade de se identificar, garantindo assim, o anonimato dos
38
participantes. Tal questionário foi baseado na pesquisa realizada por Enke (2012).
Para Mattar (1996), quando se aplica questionários exerce-se uma pressão menor na
obtenção das respostas, facilitando o processo de participação, pois não é necessário serem
realizados, entregues ou recolhidos pessoalmente. Ressalta-se ainda que deste modo os
respondentes tinhamum maior tempo para preencher as informações possibilitando melhor
qualidade das informações prestadas, também ficam mais à vontade para responder às perguntas.
Para poder avaliar se a visão dos docentes era particular desta instituição ou semelhante a de
outros pesquisadores, foram enviados e-mails para comunidades das redes sociais e instituições
pedindo que fosse respondido o mesmo questionário utilizado pelos docentes do CTTMar. Estes e-
mails onde se explicava o propósito da pesquisa e solicitava a cooperação na realização da mesma.
No corpo do texto foi acrescido o link onde estavam disponíveisas perguntas, sendo enviadas para
universidades federais, estaduais e particulares, conselhos regionais de biologia de diversos estados,
institutos de pesquisas e demais pesquisadores que trabalham com qualquer tipo de dados sobre
biodiversidade. No total foram enviados 478 e-mails, tendo resposta de 207 questionários.
2.2.3 SELEÇÃO DO SOFTWARE
Para a escolha do software a ser utilizado para avaliar o esforço necessário para
disponibilizar os dados, o mesmodeveria atender aos pré-requisitos básicos do princípio orientador
de boas práticas de gestão de dados, que possibilitem a publicação rápida e eficiente de quaisquer
dados sobre biodiversidade. Allkin e Winfied (1993) afirmam que a escolha de um software torna-se
fundamental para um projeto de banco de dados sobre biodiversidade. Estes dados muitas vezes
requerem complexas estruturas tendo que se adequar para representá-los, devendo ser sofisticado e
de fácil manejo.
A seleção final do software se baseou em diversos critérios (Tabela 3.1) que envolviam
desde as possibilidades de uso a partir de um servidor centralizado até a gestão das coleções.
39
Tabela 2-1. Atributos avaliados na seleção do software.
Atributos Ecolog Brahms Specify BDD
Catalogação x x x x
Pesquisa x x x x
Gestão de empréstimos x
Etiquetagem de material x
Dados estatísticos x x x
Produção de relatório x x x x
Multi plataforma x x
Informação estrutura hierárquica x x
Interação com googleearth x x x x
Programa livre x x x x
Dados sobre biodiversidade x x x x
Uso de padrões estabelecidos de
metadados. x x x x
Software livre x x x x
Para a introdução das informações em um banco de dados optou-se pela utilização do
software livre chamado Specify, sendo este um software que gera coleções biológicas o qual
permite ciclos completos de gestão, permitindo a catalogação, gestão de empréstimo de materiais,
pesquisas, etiquetagem com dados do material, produção de relatórios, dados estatísticos e locais de
ocorrência.
Após a escolha do Specify, foi instalado nos servidores do LIBGEO, na estrutura
Cliente/Servidor. Este modelo permite a utilização de um computador para acessar um conjunto de
dados ou sistemas que estão alocados em outro equipamento chamado servidor. Esta estrutura
oferece benefícios como liberdade do usuário de uma única estação fixa de trabalho, preservação
dos dados inseridos e segurança dos dados, através de mecanismos como backups e restauração de
dados (SILVA, 2001).
Sendo assim, iniciamos o lançamento das informações no sistema a fim de identificar a
estimativa de investimento, em tempo e recursos humanos, para o armazenamento dos dados.
40
2.2.4 AVALIAÇÃO DO ESFORÇO NECESSÁRIO PARA PADRONIZAÇÃO DOS DADOS
Com o intuito de analisar os esforços necessários para a padronização dos dados foi
selecionado o Laboratório de Ecologia de Comunidades Aquáticas do CTTMar/UNIVALI, o qual
continha um expressivo repositório de dados. Em seguida foi realizada a estimativa de investimento
em tempo e recursos humanos, para a conversão dos dados nos formatos existentes em padrões
recomendados de armazenamento de metadados propostos pelo GBIF.
Esta análise teve como objetivo possibilitar a outros laboratórios a avaliação do
investimento necessário na conversão das coleções de dados para o armazenamento, de forma
confiável. Após a autorização do prof. Tito Cesar de Almeida, responsávelpelo laboratório, foi
realizado um levantamento mais detalhado das informações contidas nas tabelas cedidas pelo
Laboratório de Comunidades Aquáticas, com prévia autorização, e introduzidos no Specify.
A primeira tabela de dados disponibilizada pelo laboratório abrangia os seguintes dados:
campanha, data, estação, réplica, hora, profundidade da coleta, coordenada geográfica e material
coletor. Este documento estava salvo em formato de planilha, sendo que havia dezessete tabelas
para organizar o conteúdo e uma única tabela para facilitar o lançamento dos dados no programa. As
tabelas foram aperfeiçoadas, a fim de facilitar o lançamento dos dados e foram trabalhados com os
seguintes metadados: Data, Estação da coleta, Réplica, Profundidade da coleta, Hora da coleta,
Coordenadas geográficas, Nome do coletor, Nome do catalogador, Forma de coleta, Meio de
armazenamento.
4 RESULTADOS
Um dos pontos sobre o qual os docentes foram questionados se referia ao número de dados
que já foram gerados em cada laboratório. Após a síntese das respostas verificou-se que mais de 1
milhão dados já foram gerados, através de uma grande variedade de formas de coleta. Laboratórios
detêm dados desde 1994, conforme relatado pelos próprios docentes, mas alguns desses dados estão
susceptíveis a perda devido ao armazenamento inadequado.
41
4.1 ANALISE DAS TABELAS ENVIADAS PELOS DOCENTES DO CTTMAR
A discussão sobre os modelos de dados gerados pelos docentes do CTTMarserá feita
anonimamente, sendo identificados apenas através de um número sequencial. As tabelas enviadas
pelos docentes estão disponíveis no Apêndice A.
A tabela enviada pelo docente 1(Apêndice A, Figura A1),apresenta a ausência do coletor,
falta coordenadas geográficas, descrição e preenchimento completos dos campos. A insuficiência de
metadados específicos torna a planilha de difícil entendimento, inviabilizando a publicação dos
dados.
Já para o docente 2, (Apêndice A, Figura A2), metadados não são comuns para todos os
dados, impossibilitando uma coleta automática dos dados através de um software. Por outro lado
destaca-se nesta tabela campos com data, hora, local e as coordenas geográficas, itens
extremamente importantes. Porém não estáespecífico para cada espécie, isto diminui a exatidão ou
detalhamento dos dados lançados, pois existindo coordenadas geográficas exatas o dado torna-se
preciso.Observou-se também na tabela enviada pelo docente 2(Apêndice A, Figura A3), que há
uma grande variedade de dados dispersos na tabela sem a inserção de metadados, tornando a
planilhade difícil compreensão para outros pesquisadores, por não possuir metadados ou
referênciasdos dados digitados.
Na tabela enviada pelo docente 3(Apêndice A, Figura A4), os dados estão organizados em
colunas com metadados definidos para cada grupo de dados, porém ainda visualiza-se a ausência de
informações como nome do coletor, hora e espécies ou demais dados que a torne mais coerente e
compreensível, tornando o conjunto mais transparente.
O docente 4(Apêndice A, Figura A5), utiliza um conjunto de variáveis comuns para toda a
tabela, entretanto os dados, local, data e “analista” estão apenas no cabeçalho e não preenchidos, e
não sendo comum para todos os dados, tornando a tabela de difícil inserção em plataformas de
gestão de dados.
A tabela do docente 5(Apêndice A, Figura A6), apresenta boa qualidade e aptidão para
uso, pois possui todos os requisitos para inserção em um banco de dados, tem modelos de
metadados para cada grupo, dados organizados horizontalmente e coordenadas geográficas bem
definidas, fazendo com que os dados sejam precisos e tornando a tabela apta para inserção em uma
plataforma de gestão de dados.
42
A tabela encaminhada pelo docente 6(Apêndice A, Figura A7), apresenta boa qualidade e
aptidão para os dados serem inseridos em uma plataforma de gestão de dados, oferecendo modelos
de metadados definidos, sendo um item fundamental para a transparência e a precisão dos dados,
tendo todos os requisitos disponíveis para inserção em plataforma de gestão de dados.
Para o docente 7(Apêndice A, Figura A8), a tabela possui modelos de metadados definidos
para cada campo, contudo ainda faltam campos como “coletores” e principalmente coordenadas
geográficas, tornando a planilha, com pouca aptidão para uso, pois não detalha a posição e o local
correto de coleta.
O docente 8, (Apêndice A, Figura A9), utiliza uma planilha comos metadados bem
definidos para cada conjunto de dado, facilitado a inserção dos dados em uma plataforma de
gerenciamento de dados.
A forma de armazenamento do docente 9, (Apêndice A, Figura A10), encontra-se bem
definida, contendo características fundamentais, como coordenadas geograficas individuais, data da
coleta, hora da coleta, dados dispostos horizontalmentes e diversas outras informações, porém a
tebela não conta com o nome do coletor. A tabela apreseta os principais metadados para lançamento
em uma plataforma de gerenciamento de dados.
Na tabela do docente 10 (Apêndice A Figura A11), não há metadados definidos para todos
os grupos de dados, também não apresenta metadados como: coordenadas geográficas e nome do
coletor, tornando a planilhainapta para ser lançada em uma plataforma de gerenciamento de dados.
Podemos observar na (Tabela 2.1), que os docentes do CTTMar utilizam modelos
parecidos de estruturas de dados, porem ainda há uma heterogeneidade dos metadados descritos
pelos docentes, dificultando o compartilhamento dos dados.
Tabela 3.1 Atributos utilizados pelos docentes para catalogação dos dados.
Docentes
1 2 3 4 5 6 7 8 9
Metadados definidos para conjunto de dados X X X X X X
Formatação horizontal da tabela X X X X X X X X X
Nome da espécie legível X X X - X
Nome do coletor X X
Hora da coleta X X X X
Data da coleta X X X X X X X X
Coordenada geográfica X X X
43
4.2 VISÕES DOS USUÁRIOS DE DADOS SOBRE BIODIVERSIDADE
Nesta seção serão discutidos os resultados referentes às comparações entre os docentes e o
público externo. Deste modo foram mantidos nesta seção apenas os resultados ligados às respostas
aqui discutidas, mas a compilação dos resultados de todas as perguntas feitas no questionário
estádisponível no Apêndice B.
Com relação à situação profissional, 36% dos docentes do CTTMar reponderam que são
pesquisadores e dos entrevistados do público externo a maior frequência foi de estudantes de
doutorado 30% e mestrado 25%. Dos docentes do CTTMar 29% responderam que atuam na área de
ciências marinhas seguidos pela ecologia 14%. Para o público geral 18% responderam que
trabalham com ecologia seguido por 10% na área de botânica.
Quando questionados sobre os dados que costumam trabalhar regularmente, sendo questão
de múltipla escolha, 79% dos docentes do CTTMar afirmaram que trabalham com parâmetros de
água, e em seguida 57% responderam que analisam dados morfológicos..O publico externo
respondeu que trabalha com lista de espécies 45%, seguidos por dados morfológicos 44%, e dados
taxonômicos 43%. Comparando os três tipos de dados mais recorrentes dos dois públicos, observa-
se que aparecem tanto os dados morfológicos como a lista de espécies nas respostas dos dois
públicos pesquisados. Entretanto, 93%dos docentes do CTTMar e 94% do publico externo não
utilizam formatos de dados padronizados.
A maioria de ambos os grupos de entrevistados, ao serem questionados sobre o depósito de
dados, mencionou que não possui bases para depositar seus dados. Em ambos públicos, a maioria
dos participantes respondeu que não existe banco de dados internos em seu projeto/instituição para
o depósito dos mesmos Figura 4.
Uma informação importante levantada é que a maioria dos docentes do CTTMar(93%) e do
publico externo (94%) não utilizam padronização de dados Figura 5. Caso se deseje transformar
estes dados para algum padrão existente, isto demandaria um esforço de curadoria dos
mesmos.Atualmente 50% dos docentes do CTTMar responderam que gastam de uma semana a um
mês com curadoria e processamento dos dados. Já para o publico externo, mais de 50% afirmou que
gasta mais de um mês por ano com curadoria e processamento de dados Figura 6.
44
Figura 4. Distribuição de frequência das respostas para a pergunta "Existem bancos de dados internos em seu
projeto/instituição?”, entre docentes do CTTMar e o publico externo
Figura 5. Distribuição de frequência das respostas para a pergunta "Você utiliza formato de dados padronizados? (Ex:
Darwin Core, EML e etc)”, entre docentes do CTTMar e o publico externo.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Sim Não Outros
Docentes CTTMar Publico Geral
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
SIM NÃO OUTROS
Docentes CTTMar Publico GeralPúblico Externo
Público Externo Público Externo
45
Figura 6. Distribuição de frequência das respostas para a pergunta "Quanto tempo você gasta por ano com curadoria e
processamento dos seus dados?”, entre docentes do CTTMar e o publico externo.
AFigura 7 mostra que 50% dos docentes do CTTMar entendem que são donos dos seus
dados, 29% que os dados são da instituição e 14% que a agência de financiamento é proprietária dos
dados, sendo que apenas uma pessoa respondeu que estes dados não possuem dono. Do público
externo a resposta mais frequente se inverteu, com a instituição sendo a proprietária em primeiro
lugar 36% e a segunda que os próprios respondentes são donos dos dados 30%.
Em ambos os grupos a maioria das preocupações que teriam ao depositar seus dados em
banco de dados online seria a confidencialidade ou questões legais.
Figura 7. Distribuição de frequência das respostas para a pergunta "Quem é dono de seus dados?”, entre
docentes do CTTMar e o publico externo
0%
10%
20%
30%
40%
50%
60%
Menos de 1 dia 1 a 3 dias 1 semana de 1 semana a 1 mês
mais de 1 mês
Docentes CTTMAR Publico Geral
0%
10%
20%
30%
40%
50%
60%
Docentes CTTMar Pulico GeralPublico Externo
Publico Externo
46
A maior parte dos docentes do CTTMar(71%) demonstra interesse em depositar seus dados
em banco de dados públicos, mas o restante (29%) afirmam que não estariam dispostos a
compartilhar suas informações (Figura 88). Esse padrão é similar com o público externo, que na sua
maioria está disposto a depositar seus dados em um banco de dados público. Um percentual maior
dos docentes do CTTMar (21%)estaria disposto a compartilhar seus dados imediatamentequando
comparados ao publico externo (8%), mas em ambos os grupos identificou-se que a maioria dos
participantes concorda em disponibilizar seus dados após a publicação e/ou no final do projeto
(Figura 9.
Também de modo similar, em ambos os grupos os motivos que levariam ao
compartilhamento dos dados seriam a capacidade de controlar e reutilizar os próprios dados e a
possibilidade de conseguir reconhecimento ou crédito, caso os dados sejam utilizados por outras
pessoas, mas de modo inverso (Figura 10). Novamente as respostas se assemelham entre o público
externo e os docentes, quando questionados sobre como gostariam de serem citados, ambos grupos
mencionaram que a melhor opção seria nas referências, como publicações normais, 29% docentes e
18% público externo entende que, caso outra pessoa utilize seus dados, gostariam de serem
coautores da pesquisa (Figura 1111).
Figura 8. Distribuição de frequência das respostas para a pergunta "Você estaria disposto a depositar seus dados em
banco de dados disponíveis publicamente? ”, entre docentes do CTTMar e o publico externo
0%
10%
20%
30%
40%
50%
60%
70%
80%
Sim Não Outros
Docentes CTTMar Publico GeralPublico Externo Público Externo
47
Figura 9. Distribuição de frequência das respostas para a pergunta "Quando você estaria disposto a partilhar seus
dados?”, entre docentes do CTTMar e o publico externo.
(A)
(B)
Figura 10. Distribuição de frequência das respostas para a pergunta "O que lhe faria propenso a compartilhar seus dados?”, para (A) docentes do CTTMar e (B) público externo.
0%10%20%30%40%50%60%70%80%
Docentes CTTMar Publico GeralPublico Externo
48
Figura 11. Distribuição de frequência das respostas para a pergunta "Se seus dados forem utilizados, como gostaria de
ser citado?”, entre docentes do CTTMar e o publico externo.
Quando questionados sobre a motivação para tornar seus dados disponíveis, o principal
motivo seriam redes com outros cientistas para estudos interdisciplinares, tanto para os docentes do
CTTMar(43%) como para o público externo (37%;Figura 11).Em seguida, com aproximadamente
20% das respostas de ambos os grupos está a alta disponibilidade de conjuntos de dados
comparáveis para análises mais abrangentes. Outro dado interessante nesta pergunta é o percentual
de 13% dos participantes que acreditam que os dados que foram gerados com dinheiro público
deveriam tornar-se públicos. Dentre os docentes do CTTMar, apenas uma pessoa assinalou como
objeto motivador a partilha de dados, possivelmente por causa da natureza privada da UNIVALI, o
que faz com que os dados gerados na instituição tenham menor participação de recursos públicos.
(A)
(B)
Figura 12. Distribuição de frequência das respostas para a pergunta "O que lhe motivaria a tornar seus dados públicos?”, para (A) docentes do CTTMar e (B) Público externo.
0%
10%
20%
30%
40%
50%
60%
70%
80%
Nos Agradecimentos
Nas referencias com publicações
normais
Como co-autor outros
Docentes CTTMar Publico geralPúblico Externo
49
Quanto ao questionamento se compartilham os dados gerados em seus laboratórios, ambos
os resultados se assemelham; tanto os docentes do CTTMar como o publico externo afirmam que
compartilham as informações Figura 13. Apesar de mais de 50% de ambos os grupos afirmarem que
reutilizariam dados gerados em outros laboratórios, um percentual relevante, 21% e 28% não sabem
se reutilizariam os dados (Figura 14). Ao serem questionados sobre o que seria necessário saber
sobre a forma de coleta dos dados, dos docentes do CTTMar(Figura 15), acreditam que a
informação de quem recolheu os dados é importante para a avaliação. As informações adicionais
para a avaliação do publico externo quanto aos dados de outras pessoas, a maioria sendo 80% dos
participantes entende que é necessário saber como os dados foram coletados e75% mencionam a
forma de coleta.
Figura 13. Distribuição de frequência das respostas para “Você compartilha os dados gerados em seu laboratório? ”, entre docentes do CTTMar e o publico externo
0%
10%
20%
30%
40%
50%
60%
70%
Sim Não Não Sei
Docentes CTTMar Publico GeralPúblico Externo
50
Figura 14.Distribuição de frequência das respostas para a pergunta "Você reutiliza dados gerados em outros
laboratórios? ”, entre docentes do CTTMar e o público externo
(A)
(B)
Figura 15. Distribuição de frequência das respostas para a pergunta “ Que tipo de Informações adicionais você precisa para avaliar a qualidade dos dados de outras pessoas? ”, para (A) docentes do CTTMar e (B) Publico geral.
A maioria dos docentes do CTTMar informou que não possuem um plano de gestão de
dados, similar ao público externo Figura 16. Para estes últimos, cerca de 18% dos participantes não
0%
10%
20%
30%
40%
50%
60%
70%
Sim Não Não seiDocentes CTTMar Publico geralPúblico Externo
51
sabem se tem plano de gestão de dados, o que aponta para o desconhecimento deste importante
instrumento.
Figura 16. Distribuição de frequência das respostas para a pergunta "Você tem um plano de gestão de dados”, entre docentes do CTTMar e o Publico externo
Menos de 30% dosdocentes julga importante ter um plano de gestão de dados (Apêndice B7
Figura A). Já o público externo (Apêndice B7 Figura B), afirmam que é importante ter um plano de
gestão de dados, 10% responderam que é pouco importante e 8% entendem que não é importante
esta ação, mas o que se refere ao armazenamento a longo prazo(Apêndice B8 Figura A); 50% dos
docentes do CTTMar, a maioria dos entrevistados entendem que é de extrema importância
armazenarem dados para serem avaliados futuramente. O restante afirma que é muito importante o
armazenamento. O público externo (Apêndice B8 Figura B) manifestou, em sua maioria, que é de
extrema importância o armazenamento em longo prazo. Salienta-se que ainda uma porcentagem dos
participantes apontou que é pouco importante e não é importante o armazenamento.
Na questão referente à existência de um repositório de dados, (Apêndice B9 Figura A), 50%
dos docentes do CTTMar indicam que é muito importante haver tal repositório, para o público
externo (Apêndice B9 Figura B), apenas 31% acredita ser extremamente importante tal repositório
para dados primários.
Visualizando amplamente todas as respostas, conseguimos afirmar que as informações
seguem semelhantes em todas as opções preestabelecidas. Os percentuais ficam próximos para os
dois públicos pesquisados.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Sim Não Não Sei
Docentes CTTMar Publico GeralPúblico Externo
52
Podemos observar na Figura 17que se refere aos tipos de metadados mais utilizados, tanto os
docentes do CTTMar, como o público externo, seguem a mesma linha de pensamento utilizam os
nomes de organismos e localidades. Os docentes do CTTMar entendem ser importante mensurar a
data da coleta, enquanto um percentual inferior do público externo menciona que utiliza tal
metadado.
Figura 17. Distribuição de frequência das respostas para a pergunta "Quais tipos de metadados que você utiliza?”, entre
docentes do CTTMar e o publico externo.
A uma similaridade nas respostas da Figura 18, referente aos formatos de dados que são
mais utilizados pelos entrevistados, tanto os docentes do CTTMar e o público externo utilizam em
mais de 75% das vezes tabelas em formato .XLX e XLXS que se referem a planilha de dados, assim
confirmando que a maioria dos docentes do CTTMar, quando solicitados que enviassem uma copia
de seus armazenamentos de dados enviaram em tal formato; em seguida em editores de texto com
extensão .doc e .docx, tanto o público externo como os docentes do CTTMar atingem 70%. Outras
opções foram mencionadas pelo público externo, contudo com percentuais baixos de utilização.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Docentes CTTMar Publico GeralPúblico Externo
53
Figura 18.Distribuição de frequência das respostas para a pergunta "Quais os Formatos de dados que você mais utiliza? ”, entre docentes do CTTMar e o publico externo.
A Figura 19demonstra que a maioria dos pesquisadores afirmou que seus documentos são
armazenados em formato de planilhas eletrônicas como o Excel, com um percentual menor os
pesquisadores afirmaram utilizar documentos do Word para lançamento de seus dados coletados.
Cabe ressaltar que esta pesquisa nos traz a informação de que, pelo público externo, com um
percentual acima de 40%, ainda armazenam as informações manualmente, em bloco de notas, fato
preocupante pela facilidade em perder os dados coletados. Esta alternativa também foi uma opção
dos docentes do CTTMar, entretanto, com valores baixos.
0%10%20%30%40%50%60%70%80%90%
100%
Docentes CTTMar Publico Geral
0%10%20%30%40%50%60%70%80%90%
100%
Bloco de Notas, a mao ( Ex.
Manual de camop)
Tabela excel Documento Word
Banco de dados acess
outros bancos de
dados
outros
Docentes CTTMar Publico Geral
Púlico Externo
Público Externo
54
Figura 19. Distribuição de frequência das respostas para a pergunta "Onde você grava seus dados?”, entre docentes do CTTMar e o publico externo.
Visualizando a Figura 20, percebemos a fragilidade do armazenamento das cópias, sendo
que a maioria opta por manter os dados em PC próprio, logo em seguida, o PC institucional como
forma de armazenamento, posteriormente vem o disco rígido externo como preferência.
Ainda na mesma figura pode-se verificar que um percentual de quase 30% dos docentes do
CTTMar mencionam o armazenamento em servidor institucional. Esta opção foi pouco mencionada
entre o público externo que já designa os dispositivos USB e pen drives como possibilidades de
armazenamento dos dados.
Figura 20. Distribuição de frequência das respostas para a pergunta "Onde você armazena suas copias?”, entre docentes do CTTMar e o publico externo.
Observou-se, tanto nos docentes do CTTMar comono público externo, que raramente fazem
backup dos dados (Figura 21), elevando o risco da perda de dados. Também aparece nesta pesquisa
que alguns participantes nunca realizaram backup. A incidência de armazenamento mensal e
semanal apresenta-se com índices semelhantes, lembrando que estes backups são realizados,
possivelmente, em PC próprio ou institucional como a figura anterior nos mostrou tornando os
documentos vulneráveis a perda ou dano nas informações.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Docentes CTTMar Publico GeralPúblico Externo
55
Figura 21. Distribuição de frequência das respostas para a pergunta "Com que frequência você faz backup dos seus dados? ”, entre docentes do CTTMar e o publico externo.
Ficou evidente que grande parte dos docentes que trabalham com dados sobre
biodiversidade considera importante terem políticas de gerenciamento de dados, e que muitos
estariam dispostos a compartilhar seus dados após a publicação. Os entrevistados afirmam também
que, utilizam dados de outros docentes, entretanto permanecem não partilhando suas próprias
informações, A maioria dos docentesnão apresentam um plano de gestão de dados e não gravam
suas pesquisas de forma segura, aumentando consideravelmente o risco da perda a curto e a longo
prazo.
4.3 DIGITALIZAÇÃO DOS DADOS
Na tentativa de buscar soluções para uma forma de armazenamento seguro e de fácil acesso
aos docentes do CTTMar realizamos a digitalização dos dados do Laboratório de Comunidades
Aquáticas no software de gerenciamento Specify.
Para um software de gerenciamento de banco de dados ser eficiente necessita-se armazenar,
organizar e reduzir o tempo gasto com dados estatísticos e garantir a integridade e consistência dos
dados (Cavalcanti, 2011).
Foiinseridos um total de 499 registros de coleta de espécies, sendo os campos de
preenchimento obrigatório para cada registro:Data, Estação da coleta, Réplica, Profundidade da
0%5%
10%15%20%25%30%35%40%45%50%
Docentes CTTMar Publico GeralPúblico Externo
coleta, Hora da coleta, Coordenadas geográficas, Nome do coletor, Nome do catalogador, Forma de
coleta, Meio de armazenamento.
O tempo médio de digitação variou no decorrer do tempo, estabilizando em seguida a partir
do lançamento dos dados da décima tabela
ocorreu principalmente porque o software trabalha com campos completáveis automaticamente
Quando um dado já está cadastrado e
restante da informação. Após a inserção
somente sendo necessário acrescentar os atributos diferentes de cada coleta.
teve um tempo estimado de 17’ horas e 51” minutos. O tempo médi
registro foi de aproximadamente 2 minutos e 10 segundos.
pesquisador trabalhando 5 dias por semana em um mês seria capas de digitalizar 4473 .
Figura 22. Estimativa de tempo para estabilização da catalogação dos dados em Metadados.
coleta, Hora da coleta, Coordenadas geográficas, Nome do coletor, Nome do catalogador, Forma de
de digitação variou no decorrer do tempo, estabilizando em seguida a partir
dados da décima tabela (Figura 22).A redução do tempo de inserção dos dados
o software trabalha com campos completáveis automaticamente
uando um dado já está cadastrado e é inserido novamente ele completa automaticamente o
estante da informação. Após a inserção das espécies as mesmas ficam previamente catalogadas,
somente sendo necessário acrescentar os atributos diferentes de cada coleta. Esta etapa do processo
teve um tempo estimado de 17’ horas e 51” minutos. O tempo médio de digitalização para cada
damente 2 minutos e 10 segundos. Desta forma, podemos afirmar que um
pesquisador trabalhando 5 dias por semana em um mês seria capas de digitalizar 4473 .
Estimativa de tempo para estabilização da catalogação dos dados em Metadados.
56
coleta, Hora da coleta, Coordenadas geográficas, Nome do coletor, Nome do catalogador, Forma de
de digitação variou no decorrer do tempo, estabilizando em seguida a partir
A redução do tempo de inserção dos dados
o software trabalha com campos completáveis automaticamente.
inserido novamente ele completa automaticamente o
ficam previamente catalogadas,
Esta etapa do processo
o de digitalização para cada
Desta forma, podemos afirmar que um
pesquisador trabalhando 5 dias por semana em um mês seria capas de digitalizar 4473 .
Estimativa de tempo para estabilização da catalogação dos dados em Metadados.
57
5 DISCUSSÃO
Alguns dos fatores descritos por Michner (2012) também foram mencionados pelos
docentes do CTTMar nesta pesquisa, ou seja, há probabilidade de perda dos dados ao longo do
tempo. Os docentes citaram que estão susceptíveis a perdas de dados constantemente, enquanto
outros que perderam boa parte de seus dados em caso de problemas relacionados a meios físicos,
sem ter nenhuma possibilidade de recuperá-los. Para avaliar a rigorosidade, aptidão para utilização
dos dados e a forma como são transcritos os dados biodiversidade que se encontram nos
laboratórios do CTTMar
Através dos documentos enviados pelos docentes do CTTMar, foi observada a forma com
que os docentes vinculados ao CTTMar gerenciam e armazenam seus dados, ficando constatado
uma heterogeneidade nos modelos de armazenamento de dados dos laboratórios visitados. De um
modo geral há grande complexidade dos dados, mas é comum a falta de informações importantes
tais como: coordenadas geográficas, coletor, forma de coleta e principalmente uma falta de
metadados padronizados.Istodificultaria a disponibilização e a reutilização dos dados
posteriormente a outros interessados. Porém alguns laboratórios contam com metadados de boa
qualidade para uso, facilitando a disponibilização destes dados na rede.
Segundo Silva (2014) os padrões que são utilizados pela comunidade científica, causam
problemas significantes na área de pesquisa de biodiversidade. A utilização de diferentes padrões
torna os dados muito heterogêneos dificultando o acesso a outras bases de dados estruturadas.
Quando as informações não apresentam um padrão definido de abordagem ou de disponibilização
dos metadados, é necessário que sejam investidos esforços para tornar as informações padronizadas
para depois disponibilizar estas informações de forma correta, para isso é necessário investimentos
humanos e financeiros para padronizá-las (VASCONCELOS; GUEDES, 2008).
Gonzalez (2009) afirma que uma instituição consegue digitalizar 150 mil espécies por ano
tendo em média 30 digitadores trabalhando quatro horas por dia. A média de inserção de dados
inseridos por profissionais adaptados e de 2 minutos e 36 segundos.
Para cadastrar uma espécie o tempo médio de inserção dos dados do CTTMar foi de 2
minutos e 10 segundos, cada espécie lançada continha 8 atributos. Os laboratórios visitados para a
realização da entrevista apresentam mais de 1 milhão de dados coletados, para a catalogação total
destas informaçõesexpomos aqui a possibilidade de: 1 digitalizador por laboratório trabalhando 8
horas por dia;5 dias por semana, em 11 meses e 23 dias seria possível realizar a catalogação dos
58
dados dos 19 laboratórios,ou seja, se a catalogação tivesse início em janeiro, ao final do mês de
novembro os dados estariam armazenados de forma correta e segura, evitando perdas e
possibilitando a realização de trabalhos futuros. Apesar do custo relacionado aos digitalizadores ser
elevado e por tempo prolongado, torna-se irrisório frente aos benefícios e a diminuição considerável
do risco e da perda dos dados.
A falta de padronização e os hábitos de realizações de backup estão relacionados aos riscos
da perda de dados sobre biodiversidade. Sem critérios definidos os dados podem tornar-se
indisponíveis para pesquisas posteriores.
Em sua pesquisa Enkeet al. (2012) entrevistou 700 pesquisadores ligados comunidade
cientificasque trabalham com dados de biodiversidade, oriundos de diversos países, onde um dos
questionamentos foi sobre a frequência com que realizam backups de seus dados, gerando uma
diferença em relação ao trabalho proposto, pois os docentes do CTTMar e o público externo
raramente fazem backup de seus dados, enquanto os entrevistados de Enkeet al. (2012) realizam
backup de seus dados semanalmente, diminuindo o risco da perda de dados.
A carência de gerenciamento de dados adequado para o armazenamento dos dados
relacionados à biodiversidade, bem como a falta de backup das informações, é o que ocasiona alto
risco de perda dos dados a curto e longo prazo.
Em contraponto houve a manifestações dos entrevistados sobre a importância da gestão de
dados. Também foi observado que os participantes, de um modo geral, manifestaram interesse em
disponibilizar seus dados, entretanto quando questionados a forma e os moldes que isto ocorreria,
mencionavam que havia dificuldades para a efetivação desta ação.
Fecher (2015) em um estudo realizado com pesquisadores de diversos países, relatou que um
número menor de 46% dos entrevistados não tornam seus dados disponíveis eletronicamente,
também neste estudo 60% dos entrevistados, afirmaram que a falta de acesso aos dados gerados por
outros pesquisadores é um grande impedimento para o progresso da ciência (FECHER, et.al. 2015)
Já para Enkeet al (2012), pesquisadores de diversos países, estão dispostos a compartilhar
seus dados, mas devido às questõescomo mecanismos de utilização mais definidos e falta de bases
de dados apropriados diminui o compartilhamento dos arquivos.Quando Enkeet al. (2012)
questionou seus entrevistados se compartilhavam seus dados, uma parcela significativa de mais de
70% dos entrevistados responderam que costumam compartilhar os dados que geram em seus
laboratórios, porem somente após sua publicação. Ficando evidente a similaridade com este
59
trabalho que identificou que a maioria do público externo e 50% dos docentes do CTTMartambém
compartilham seus dados apos a publicação.
Enkeet al. (2012) descreve que grande parte das agencias financiadoras de projetos e revistas
estão aumentando a pressão sobe a comunidade científica para que utilizem portais de
compartilhamento de dados, pois quando compartilhados também trazem benefícios ao pesquisador
detentor dos dados, tais como aumento da visibilidade do pesquisador e a colaboração de outros
pesquisadores para analise conjunta dos dados.Instituições financiadoras de pesquisas nacionais já
incluem em seus projetos a publicação de dados em gerenciadores de dados como requisitos para o
apoio a pesquisas, mas ainda verifica-se uma diferença considerável em relação a curadoria e o
compartilhamento dos dados entre as diversas áreas da ciência. Diversos fatores, tais como
inexistência de infraestrutura adequada, pouco conhecimento das normas de metadados
eatéquestões culturais em alguns campos da Ciência dificultam o compartilhamento de dados em
certas áreas (RODRIGUES; SARAIVA, 2010).
Corrêa (2004) observou que muitos pesquisadores, em diferentes instituições, quando
utilizam banco de dados não estão correlacionados ou interligados com pesquisadores de outras
instituições, gerando uma desigualdade na capacidade de trocar informações institucionais, porém
esta realidade não tem mudado nos dias atuais.As amostras coletadas tanto dos docentes do
CTTMar como do público externo propiciaram inúmeras hipóteses de extrema importância para
demonstrar como estão conservados os dados sobre biodiversidade em nosso País. Através das
hipóteses serem representativas, pelo elevado número de participantes que responderam a pesquisa
e os participantes do CTTMar, ficou evidente algumas dificuldades que os pesquisadores enfrentam,
e uma noção acentuada das ações que devemos desenvolver para sanar ou minimizar os danos
causados pelos maus gerenciamentos dos dados.
Para Chavan e Penev(2011) o uso dos dados sobre biodiversidade cresce constantemente,
mas para que estes dados sejam gerenciados e tenham um potencial aceitável de uso, vai requerer
mecanismos de conhecimento acadêmico, também requerendo um alto grau de comprometimento e
investimento das instituições interessadas.
O IBAMA em 2002 publicou informações sobre o conhecimento científico de grupos de
pesquisadores, sobre biodiversidade brasileira. Apesar de o estudo ter se mostrado satisfatório
quanto ao conhecimento científico dos pesquisadores, o estudo buscou informações referentes aos
dados gerados por estes grupos, quando se trata da conservação dos dados nas instituições estes
demonstraram que muitos dados permanecem restritos, amostragens pouco representativas e a
60
presença de problemas na taxonomia dos acervos, são muitos destes problemas encontrados sem
mencionar a grande falta de pessoas que cataloguem os dados em suas instituições, pois isso
demanda inúmeros investimentos (SANTOS; CÂMARA, 2002).
Muitos dos investimentos que são feitos, proporcionaram uma difusão mais ampla e
consistente de informações de dados científicos. Mas muitos cientistas conservacionistas, e
instituições tem sido lentas em tornar os dados disponíveis. Estudo comunitário tem sugerido que
pesquisadores têm retidos os dados por falta de conscientização, por falta de competência técnica,
interesse pessoal e organizacional e uma falta de mecanismos adequados de tratamento dos dados
(CHAVAN; PENEV, 2011).
Por estes fatos, a produtividade de uma catalogação pode apresentar diversas variáveis
durante um período. Algumas variáveis não dependem somente do pesquisador, também depende
do hardware e software utilizados para que os dados sejam catalogados.
Para Veiga (2012) a produtividade da digitalização de dados sobre biodiversidade, está
ligada a quantidade das ocorrências que são digitalizadas por um determinado tempo, um fator
agravante para a qualidade e o tempo de inserção de dados e a rotina, pois esta pode se tornar
dispendiosa e cansativa após um período. Por isso, se faz necessário um software capaz de criar um
pré-cadastro para tornar menos maçante o trabalho de digitalização.
61
6 CONCLUSÃO
Esta pesquisa possibilitou compreender como cada docente ligado ao CTTMarorganiza seus
dados ligados ao registro de biodiversidade.Alguns se encontram catalogados e bem preservados,
porém não isentos de perdas por acidentes, Mesmo grandes instituições estão sujeitas a acidentes,
como o ocorrido no Instituto Butantã, onde mais de 535.000 (quinhentos e trinta e cinco mil)
espécies bem conservadas, coletadas por mais de um século foram perdidos em um incêndio em
função da falta de estrutura adequada para abrigar dezenas de coleções (SALLES, 2010).
Para harmonizar os dados e possibilitar futuros lançamentos via web são necessários
investimentos financeiros e a adequação da metodologia de armazenamento da instituição. Estes
custos estão relacionados a investimentos de hardware e principalmente na mão de obra para a
catalogação das espécies nos respectivos laboratórios.
Ficou evidente, que a forma com que os dados são armazenados nos laboratórios não são
adequados, pois os dados coletados encontram-se muitas vezes armazenados em computadores
pessoais, e o mesmo arquivo de dados acaba sendo gravado em outros computadores mas no mesmo
ambiente de trabalho, o que poderá ocasionar perdas no caso de acidentes no local.. Também ficou
evidente, tanto na pesquisa institucional quando a realizada com membros externos que coletam e
analisam dados sobre biodiversidade, que os pesquisadores encontram-se desestimulados em
compartilhar seus dados online. Identificamos que a causa destes fatos decorre por vários aspectos,
seja por falta de infraestrutura adequada em seus laboratórios ou por não conhecerem um plano de
gestão de dados apropriado e seguro, ou ate mesmo pela falta de incentivo institucional. Ficando
claro, após esta pesquisa, que a instituição UNIVALI não tem um plano de gestão de dados
institucional, aumentando o risco da perda de dados dos pesquisadores.
Entende-se que hoje, o compartilhamento das informações de dados sobre biodiversidade, de
forma padronizada e segura, é essencial para um amplo leque de atividades científicas, entretanto
para que a execução da gestão do banco de dados se efetive corretamente, deverá haver a disposição
dos pesquisadores em alimentar tal sistema, para que haja assim, a integração de dados sobre
biodiversidade como uma ferramenta tecnológica, o que hoje identificamos através desta pesquisa
que não existe.
Esta pesquisa buscou formas acessíveis e adequadas para que problemas de perda de dados
não venham a ocorrer em âmbito local. Identificamos que o laboratório LIBGEO disponibiliza o
hardware necessário para armazenamento seguro e de forma acessível a todos os docentes do
62
CTTMar, sendo este o recurso mais dispendioso para efetivar o gerenciamento adequado dos dados.
Para que os demais laboratórios tenham acesso a este hardware faz-se necessária a instalação de
programas que cataloguem e referenciem estes dados de forma correta, e também que sejam
interligados na forma de cliente-servidor, para diminuir as chances de perda de dados, onde os
mesmos fiquem armazenados de forma segura e com suporte tecnológico adequado. Cabe ressaltar
que tanto o programa quanto o servidor para alocação dos dados está disponível de forma gratuita,
ficando somente a cargo de cada laboratório o investimento em mão de obra para a catalogação dos
dados.
O resultado desta pesquisa demonstrou a heterogeneidade e a elevada quantidade de dados
que ainda encontram-se armazenadas pelos docentes do CTTMar. Tais informações estão alocadas
de forma inadequadas e tampouco sendo compartilhadas com a comunidade científica.
Identificou-se também, que cada laboratório visitado armazena diferentes tipos de dados,
gerando variadas informações e diferentes formas de armazenamento. Por isso estimamos um
tempo médio de catalogação, para que cada laboratório procurasse a forma mais viável de estruturar
seus dados para armazenamento.
Sendo assim, ficou evidente que a UNIVALI, juntamente como o LIBGEO tem condições de
oferecer infraestrutura adequada para que os pesquisadores cataloguem e armazenem seus dados de
forma correta e segura. Entretanto, ainda necessita-se percorrer um grande caminho, para a
estruturação e organização destes laboratórios, sendo indispensável a conscientização dos docentes
que produzem informações, para que estes resultados sejam executados de forma agradável e
correta, pois os benefícios atribuídos ao intercâmbio de informações são inúmeros e também
possibilitará a disseminação do maior objeto da pesquisa, o conhecimento.
7 REFERÊNCIAS BIBLIOGRÁFICAS
ABCD.ACCESS TO BIOLOGICAL COLLECTIONS DATA. 2008. Disponívelem < http://www.tdwg.org/activities/abcd/ >. Acessoem: 10 de julho de 2015. ALLKIN, R. WINFIELD, P.J. Cataloguing biodiversity: new approaches to old problems. Biologist, 40(4): 179-183. 1993.
63
ARAÚJO, P. de. Brasil integra a plataforma internacional de biodiversidade. Ministério do Meio Ambiente, 2013. Disponível em <http://www.mma.gov.br/informma/item/8976-brasil-integra-a-plataforma-internacional-de-biodiversidade>. Acessoem: 10 de Maio de 2015. AYALA, C. et al. Five Facts on the Adoption of Open Source Software.Software, IEEE, IEEE, v. 28, n. 2, p. 95–99, 2011. ISSN 0740-7459. Disponível em: <http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=5720716>. Acesso em: 13 de Dezembro de 2014. BARRETO, A. S.; SPERB, R. M.; BARBOSA, A. F.; SILVA JUNIOR, J. M. SIMMAM - Sistema de Apoio ao Monitoramento de Mamíferos Marinhos: uma nova ferramenta para a gestão ambiental. In: Rio Oil&Gas Expo andConference, 2012, Rio de Janeiro. Anais da RioOil&Gas Expo andConference, 2012. v. 1. p. IBP1465_12. BAYAT, A. Science, medicine, and the future: Bioinformatics. BMJ 324:1018-1022. 2002 BDD, Biodiversity Data Digitilzer, Disponível em. Disponível em:<http://200.144.182.25/bdd/polbr/index.php?r=about> Acesso em: 12 agosto de 2015. BLANKMAN, D. ; MCGANN, J. Ecological Metadata Language: Practical Application for ScientistsWritten. Albuquerque, NM, 2003. BONACCORSI, A.; ROSSI, C. Comparing Motivations of Individual Programmers and Firms to Take Part in the Open Source Movement: From Community to Business. Knowledge, Technology &Policy, Winter, v. 18, n. 4, p. 40–64, 2006. BRASIL. Ministério do Planejamento, Orçamento e Gestão Comissão Nacional de Cartografia. Plano de Ação para Implantação da Infraestrutura Nacional de Dados Espaciais. Rio de Janeiro, 2010. Disponível em <http://www.concar.gov.br/arquivo/PlanoDeAcaoINDE.pdf> . Acesso em: 12 de Agosto de 2015. _____. Ministério do Planejamento, Orçamento e Gestão Secretaria de Logística e Tecnologia da Informação. Departamento de Governo Eletrônico. Padrões de Interoperabilidade de Governo Eletrônico. Documento de Referência da ePING – Versão 2015. Disponível em http://www.governoeletronico.gov.br/acoes-e-projetos/e-ping-padroes-de-interoperabilidade.Acesso em: 13 de Agosto de 2015. BWB. BiodiversityWithoutBoundaries. Disponível em<ttp://www.natureserve.org/es/news-events/events/biodiversity-without-boundaries/biodiversity-without-boundaries/biodiversity>. Acessoem: 18 de agosto de 2015. CADMAN, M., CHAVAN, V., KING, N., ADMAN, M., CHAVAN , V., KING, N., WILLOUGHBY, S., RAJVANSHI, A., MATHUR, ILLOUGHBY, S., RAJVANSHI, A., MATHUR, V., ROBERTS, R., E HIRSCH, T. (2001). ., ROBERTS, R., E HIRSCH, T. (2001).Publicação de Dados Primários sobre biodiversidade, relacionados com AIA: Biodiversidade, relacionados com AIA: Guia de Boas Práticas do GBIF-IAIA. IAIA Guia de Boas Práticas do GBIF-IAIA. IAIA Edições Especiais Nº 7. Agosto de 2011 Edições Especiais Nº 7. Agosto de 2011 (tradução em português: APAI, 2011. Disponível em
64
<http://www.iaia.org/publicdocuments/special-publications/SP7_pt.pdf?AspxAutoDetectCookieSupport=1>. Acesso em: 20 de Agosto de 2015. CANHOS, D. A. L. (org.).Estudo de Caso Sistema de Informação on-line: a experiência do CRIA. Centro de gestão e Estudos Estratégicos. Ciência, Tecnologia e Inovação. Campinas, 2005. ___. Coleções biológicas e sistemas de informações. 2006. CAVALCANTI, M. J. (org.). ECOLOG: um sistema gerenciador de bancos de dados para levantamentos ecológicos de campo e inventários de biodiversidade. Biotupé: Meio físico, diversidade biológica e sociocultural do baixo Rio Negro. Amazônia Central – Vol. 03. Manaus, 2011. CHAPIN III F.S. ; REYNOLDS, H. L.; D'ANTONIO C.; ECKHART, V. The functional role of species in terrestrial ecosystems.Pp. 403-428 in Global change in terrestrial ecosystems. Walker B (ed). Cambridge University Press, Cambridge, 1996. CHAVAN, V.; PENEV.L.The data paper: a mechanism to incentivize data publishing in biodiversit Science. BMC Bioinformatics 2011. Disponível em <http://www.biomedcentral.com/content/pdf/1471-2105-12-S15-S2.pdf>. Acessoem 28 de abril de 2015. CHENGALUR, S. I.; NEVO, S.; DEMERTZOGLOU, P.An empirical analysis of the business value of open source infrastructure technologies.Journal of the Association for Information Systems, v. 11, n. 11, 2010. COPP, C; DE GIOVANNI, R. Biodiversity Information Standarts- TDWG.TAPIR- Network buildersGuide 2010.Disponível em<http://www.tdwg.org/activities/tapir/network-builders-guide>.Acesso em: 24 de abril de 2015. CORRÊA, P. L. P. [et al]. Uma arquitetura de sistemas voltada para a integração de base de dados distribuídas de biodiversidades. Revista Brasileira de Agroinformatica. v.6, n.1, p.30-46. 2004. CRIA. Centro de Referência em Informação Ambiental. Disponível em< http://cria.org.br>. Acesso em 10 de setembro de 2015. DATAONE. Data Observation Network for Earth. Disponível em <https://www.dataone.org>. Acessoem: 25 de Junho de 2015. ECOLOG. Sistema Gerenciador de Banco de Dados para Levantamentos Ecológicos de Campo.disponível em http://ecolog.sourceforge.net/ . Acessoem: 13 de maio de 2015. ENKE, N. [et. al]. The user’s view on biodiversity data sharing.Investigating facts of acceptance and requirements to realize a sustainable use of research data.EcologicalInformatics. 2012. FARIAS, T. Q. Aspectos gerais da política nacional do meio ambiente – comentários sobre a Lei nº 6.938/81. Revista Âmbito Jurídico. [s.d.]
65
FECHER, B.; FRIESIKE, S.; HEBING, M.What Drives Acaemic Data Sharing? PLOS One. 2015. Disponível em http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4340811/. Acesso em: 15 de setembro de 2015. FERNANDES, V. de O; LOCH, R. E. N. Proposta para padronização da cartografia cadastral urbana em meio digital. Revista Brasileira de Cartografia. n. 59/03. 2007. FITZGERALD, B. The Transformationof Open Source Software.MIS Quarterly , v. 30, n. 3, p. 587–598, 2006. FRANCO, J. L. deA. O conceito de biodiversidade e a história da conservação: da preservação da wilderness à conservação da biodiversidade. São Paulo: v. 32, n.2, p.21-48, jul/dez. 2013. GANEM,R. S. (org.) Conservação da biodiversidade: legislação e políticas públicas – Brasília: Câmara dos Deputados, Edições Câmara. Série memória e análise de leis; n. 2. 437 p. 2011. GBIF Global BiodiversityInformationFacility. Disponível em<http://www.gbif.org> Acesso: em 18 de fevereiro de 2015. GONZALES. M. Quantificação de custo e tempo no processo de informatização das coleções biológicas brasileiras: a experiência do herbário do Instituto de Pesquisas Jardim Botânico do Rio de Janeiro. Rio de janeiro, 2009. IABIN. Inter American BiodiversityInformation Network. Disponível em <http://iabin.databasin.org/>. Acesso em: 06 de Agosto de 2015. ITIS. INTEGRATED TAXONOMIC INFORMATION SYSTEM NATIONAL MUSEUM OF NATURAL HISTORY. WASHINGTON, D.C. 2015. Disponível em < http://www.itis.gov/itis_primer.html >. Aceso em: 05 de setembro de 2015. IWASAKI, E.Y. Open Source. A importância da comunicação e da relação entre empresas e comunidades para o mercado. São Paulo, 2008. Disponível em <http://www.dicas-l.com.br/download/movimento_open_source.pdf>. Acessoem: 20 de Junho de 2015. KAKODKAR, A. P.; KERKAR. S.S.; VERGHESE N.S, KAVLEKAR D. P. & C.T ACHUTHANKUTTY Darwin Core based data streamlining with Digimus 2.0. BiodiversityInformatics , v. 6, p.1-4, 2009. LEITE, M. Q.:Arquitetura de Sistemas Orientada a Serviços de Análise de Experimentos Ambientais em Weblabs de abelhas. dissertação de mestrado apresentada a escola politecnica da universidade de são paulo. sãopaulo, 2011. MATTAR, F. N. B. Pesquisa de Marketing: metodologia e planejamento. São Paulo: Editora Atlas, 336 p., Volume 1, 3a edição, 1996. MAURY, C. M. Biodiversidade Brasileira. Avaliação e identificação de áreas e ações prioritárias para a conservação, utilização sustentável e repartição dos benefícios da biodiversidade nos biomas brasileiros. Ministério do Meio Ambiente Secretaria de Biodiversidade e Florestas. Brasília: MMA/SBF, 2002. 404 p. Disponível em
66
<http://www.mma.gov.br/estruturas/chm/_arquivos/biodivbr.pdf >. Acesso em: 20 de Agosto de 2015. MICHENER, W. K. et al. Participatory design of DataONE - Enabling cyberinfrastructure for the biological and environmental sciences.EcologicalInformatics 11, 5–15 (2012). _____, W.K. [et al]. Nongeospatialmetadata for theecologicalsciences.Vol. 7. (1997). MODESTO, F. Metadados: introdução básica. São Paulo: Departamento de Biblioteconomia e Documentação da Escola de Comunicações e Artes da Universidade de São Paulo. 2005. NISO.National Information Standards Organization.UnderstandingMetadata. 2001. Disponível em < http://www.niso.org/publications/press/UnderstandingMetadata.pdf >. Acesso em: 05 de Agosto de 2015. NONATO Base, Western South AtlanticPolychetaDatabase. 2015. Disponível em <http://www.nonatobase.ufsc.br>. Acesso em: 27 de Maio de 2015. OBIS.OCEAN BIOGEOGRAPHIC INFORMATION SYSTEM.DISPONÍVEL EM <http://www.iobis.org >. Acessoem 10 de agosto de 2015. PLINIAN CORE. STANDART FOR BIODIVERSITY SPECIES INFORMATION. AB OUT. SAMA EDITED THIS PAGE ON 25 JUN · 5 REVISIONS. 2013. DISPONÍVEL EM < HTTPS://GITHUB.COM/PLINIANCORE/DOCUMENTATION/WIKI/A BOUT >. Acesso em: 05 de maio de 2015. PPBIO. Programa de Pesquisa em Biodiversidade. Disponível em <https://ppbio.inpa.gov.br/inicio> . Acesso em 10 de setembro de 2015. PROENÇA, V.; QUEIROZ, C. F.; ARAÚJO, M.; PEREIRA, H. M. Ecossistemas. 09-12-2009. Disponível em <http://ecossistemas.org>. Acesso em: 08 de dezembro de 2014. QUALIPSO. Quality Platform for Open Source Software: Trust and Quality in Open Source Systems - PáginaOficial do ProjetoQualiPSo. 2010. Disponível em: <http://www.qualipso.org>. Acesso em: 26 de maio de 2015. RODRIGUES, E. ; SARAIVA, R.Os repositórios de dados científicos: estado da arte. RepositórioCientífico de AcessoAberto de Portugal, 2010. SALA, O. E.; F. S. CHAPIN, J. J. ARMESTO, E. BERLOW, J. BLOOMELD, R. DIRZO, E. HUBERSANWALD,L. F. HUENNEKE, R. B. JACKSON, A. KINZIG, R. LEEMANS, D. M. LODGE, H. A. MOONEY, M. OESTERHELD, N. L. PO, M. T. SYKES, B. H. WALKER, M. WALKER E WALL, D. H. Biodiversity: Global biodiversity scenarios for the year 2100, Science, 287 (5459),. pp.1770-1774. 2000. SALLES, D. Incêndio no Instituto Butantan devasta coleção reunida desde 1908. Revista Veja, 2010. Disponível em <http://vejasp.abril.com.br/materia/incendio-no-instituto-butantan-devasta-colecao-reunida-desde-1908>. Acessado em 12 de Março de 2015.
67
SANTOS, M. E. R. dos; TOLEDO, P. T. M. de; LOTUFO, R. de A. (orgs.). Transferência de Tecnologia: estratégias para a estruturação e gestão de Núcleos de Inovação Tecnológica. Campinas, SP: Komedi, 2009. SANTOS, T. C. C.; CÂMARA, J. B. D. Perspectivas do Meio Ambiente no Brasil. Brasília: Edições IBAMA, 2002. Disponível em <http://www.ibama.gov.br/sophia/cnia/site_cnia/geo_brasil_2002.pdf>. Acesso em: 25 de Maio de 2015. SETZEL, V.; SILVA, F. Banco de Dados: Aprenda o que são, melhore seu conhecimento, construa os seus. São Paulo: Edgar Blücher, 2005. SIBBR. Sistema de Informações sobre a Biodiversidade Brasileira. O que é o SIBBr. Ministério de ciência e tecnologia. 2015. Disponível em <http://www.sibbr.gov.br/internal/?area=osibbr>. Acesso em: 20 de Abril de 2015. SILVA, E. K. O. da.Um estudo sobre sistemas de Banco de Dados cliente/servidor. ASPER – Associação Paraibana de Ensino Renovado. Faculdade Paraibana de Processamento de Dados. João Pessoa, 2001. Disponível em <http://www.sebraepb.com.br:8080/bte/download/Inform%C3%A1tica/190_1_arquivo_bdados.pdf>. Acessado em: 29 de Abril de 2015. SILVA, J. S. Biodiversity Informatics: Global Initiatives for Da ta integration. 7º Contecsi - International Conference on Information Systems and Technology Management.TECSI - Laboratório de Tecnologia e Sistemas de Informação feausp. [s.d]. disponível em <http://poscomp.ufabc.edu.br/images/uploaded_files/dissertacoesdefendidas/pdf/dissertacao-silvia-scheunemann.pdf >. acesso em 20 de junho de 2015. SILVA. S. S. Uma ontologia para interoperabilidade entre padrões de descrição de dados em biodiversidade ABCD e Darwin Core. Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal do ABC – UFABC. 2014. Disponível em < http://poscomp.ufabc.edu.br/images/uploaded_files/dissertacoesDefendidas/pdf/dissertacao-silvia-scheunemann.pdf >. Acesso em: 28 de Julho de 2015. SILVA, A. K. P. Segurança da Informação. Revista Científica Computação em Evolução.Faculdades Integradas ICE – Instituto Cuiabano de Educação. Ciência da Computação. Cuiabá, 2011. SOBERON, J. Linkingbiodiversityinfrmationsources.The Elsevier Science.V.14, n.7, p.291, 1999, apud CORRÊA, P. L. P. et al. Uma arquitetura de sistemas voltada para a integração de base de dados distribuídas de biodiversidades. Revista Brasileira de Agroinformatica.v.6, n.1, p.30-46. 2004. SOUZA, M. I. F.; VENDRUSCULO, L. G.; MELO, G. C. METADADOS PARA A DESCRIÇÃO DE RECURSOS DE INFORMAÇÃO ELETRÔNICA: UTILIZAÇÃO DO PADRÃO DUBLIN CORE. CIÊNCIA DA INFORMAÇÃO, V. 29, N. 1, P. 93-102, JAN./ABR. 2000.
68
SOUZA, R. R.; ALVARENGA, L. A. Web Sêmantica e suas Contribuições para a ciência da informação. Brasília, DF, v 33, n. 1, p132-141, jan/abr. 2004. Disponível em <http://www.ibicit.br/cioline/include/geotec.php?id=356&article=71&mode=pdf>. Acessado em 15 de Fevereiro de 2015. SPECIFY. Software Project. Disponível em <http://specifyx.specifysoftware.org/welcome-to-specify-6-desktop-application>. Acessado em 15 de Fevereiro de 2015. TDWG.The Darwin Core WorkingGroup.Disponível em < http://www.tdwg.org/ >. Acesso em: 10 de Agosto de 2015. TURNER, J. O que são os metadados? 2004. Disponível em: <http://www.mapageweb.umontreal.ca/tuner>. Acessado em 20 de Maio de 2014. VASCONCELOS, L; GUEDES, L. F. A. E – Surveys: Vantagens e limitações dos questionários eletrônicos via internet no contexto da pesquisa científica. 2008. VEIGA, A. K. Um estudo sobre qualidade de dados em biodiversidade: aplicação a um sistema de digitalização de ocorrências de espécies. Dissertação de Mestrado da Universidade de São Paulo. São Paulo, 2012.
69
8 APÊNDICES
8.1 APENDICE A - DOCUMENTOS GERADOS PELOS DOCENTES DO CTTMAR
Figura A1. . Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 1).
Figura A2. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 2).
.
70
Figura A3. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 2).
Figura A4. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 3).
71
Figura A5. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 4).
Figura A6. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 5).
72
Figura A7. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 6).
Figura A8. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 7).
Figura A9. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 8).
73
Figura A10. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 9).
Figura A11. Exemplo de arquivo de dados gerados pelos docentes do CTTMar (docente 10).
74
8.2 APÊNDICE B – RESULTADOS DAS PERGUNTAS NO QUESTIONÁRIO ON-LINE
(A)
(B)
Figura B1. Distribuição de frequência das respostas para a pergunta "Situação profissional? ”, para (A) docentes do CTTMar e (B) público externo.
75
(A)
76
(B)
Figura B2.Distribuição de frequência das respostas para a pergunta "Área de atuação? ”, para (A) docentes do CTTMar e (B) público externo.
77
(A)
(B)
Figura B3. Distribuição de frequência das respostas para a pergunta "Quais são os dados que você costuma trabalhar regularmente? ”, para (A) docentes do CTTMar e (B) público externo.
78
(A)
(B)
Figura B4. Distribuição de frequência das respostas para a pergunta “Existe algum banco de dados em que você pode depositar os seus dados? BANCO DE DADOS? ”, para (A) docentes do CTTMar e (B) público externo.
79
(A)
(B)
Figura B5.Distribuição de frequência das respostas para a pergunta "Que tipo de preocupação você teria ao depositar dados de pesquisa em um banco de dados on-line? ”,para (A) docentes do CTTMar e (B) público externo.
80
(A)
(B)
Figura B6.Distribuição de frequência das respostas para a pergunta "O que lhe faria propenso a compartilhar seus dados? ”,para (A) docentes do CTTMar e (B) público externo.
(A)
(B)
Figura B7.Distribuição de frequência das respostas para a pergunta “Quão importante é para seu projeto um plano de gestão de dados? ”,para (A) docentes do CTTMar e (B) público externo.
81
(A)
(B)
Figura B8. Distribuição de frequência das respostas para a pergunta “Armazenamento a longo prazo?”, para (A) docentes do CTTMar e (B) público externo.
82
(A)
(B)
Figura B9.Distribuição de frequência das respostas para a pergunta “Repositório para dados primários”para (A) docentes do CTTMar e (B) público externo.
83
(A)
(B)
Figura B10.Distribuição de frequência das respostas para a pergunta “Deposito de dados próprios em banco de dados disponíveis publicamente” para (A) docentes do CTTMar e (B) público externo.
84
9 ANEXO
9.1 ANEXO A- ROTEIRO DAS ENTREVISTAS REALIZADAS COM OS DOCENTES DO
CTTMAR EM SEUS LABORATÓRIOS.
1- Quais são os dados que você costuma trabalhar regularmente?
Dados Morfológicos- Medidas ( peso, comprimento, etc )
Dados Morfológicos- Fotos
Dados Morfológicos- Reconstrução 3D
Dados Fisiológicos- Hemograma, etc.
Dados Fisiológicos- Compostos Secundários
Dados Moleculares- Código de Barras DNA
Dados Moleculares- Sequências de DNA
Dados Moleculares- Genoma
Dados Moleculares- Expressões Genéticas
Dados Moleculares- Sequência de Proteinas
Dados Taxonômicos
Dados Anatômicos
Listas de Espécies ( presença/ausência )
Dados dos Ecossistemas-Parâmetros do Solo
Dados dos Ecossistemas - Parâmetros da água
Dados dos Ecossistemas- Parâmetros do clima
Dados dos Ecossistemas- Fatores Bióticos ( Fito, Zooplâncton, etc)
Dados do Ecossistema - Descrição de dados ( vegetação, tipos de habitat, etc)
2- Quais os tipos de metadados que você utiliza?
Nome do organismo
UNIVERSIDADE DO VALE DO ITAJAI-UNIVALI
Centro de Ciências tecnológicas da Terra e do Mar- CTTMar
Curso de Pós-Graduação Strictu-Sensuem Ciências e tecnologia Ambiental- CPGCTA
Programa de mestrado Acadêmico em Ciências e tecnologia Ambiental- PMCTA
85
Localidade
Coordenadas
Descrição da localidade
Data da coleta
Coletor
Numero de coleção
Configuração dos equipamentos
Precisão de medições
3- Quais os formatos de dados que você mais utiliza?
.txt, .csv (editor de texto)
.doc, .docx. (editor de textos)
.jpg, .tif, gif (imagens)
.fas, .fasta (sequenciamentos)
.nex (dados para análises estatísticos)
.wav (áudio)
.xls, .xlsx (planilhas eletrônicas)
.mdb (banco de dados Access)
4- Onde você armazena suas cópias locais?
PC próprio
PC Institucional
Servidor Institucional
Disco rígido externo
Pen Drive
Dispositivos USB
o EXEMPLOS COPIADOS PEN-DRIVE (CABEÇALHO CONTENDO 2 A 3 LINHAS PARA EXEMPLOS)
o PRINT SCREEN DA ORGANIZAÇÃO DOS ARQUIVOS
5- EXTIMATIVA DA QUANTIDADE DE REGISTROS JÁ COLETADOS (considerar um registro ou
organismo ou uma coleta, dependendo de como a informação é armazenada pelo docente).
86
6- Com que frequência você faz backup dos seus dados? *
Diariamente
Semanalmente
Mensalmente
Raramente
Nunca
7- QUANTO AO PROCESSO DE CONVERSÃO DO PAPEL PARA A DIGITALIZAÇÃO DOS DADOS,
COMO OCORREM?
8- POLITICA DE GESTÃO DE DADOS ( ) SIM ( ) NÃO DETALHES: ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
_____________________ ___/___/___
Docente Data
87
9.2 ANEXO B- ROTEIRO DAS ENTREVISTAS REALIZADAS ONLINE
VISÃO DOS USUÁRIOS DE DADOS DE BIODIVERSIDADE
Estas perguntas serão utilizadas em uma dissertação de mestrado sobre a visão dos usuários de dados de biodiversidade a respeito do compartilhamento dos mesmos. Todas as respostas são anônimas.
*Required Parte superior do formulário
Dados do usuário
1- Em que tipo de instituição você trabalha *
Museu
Universidade
Instituição Governamental
Organização sem fins lucrativos
Other:
2- Situação profissional? *
Pesquisador no setor privado
Pesquisador no setor Governamental
Estudante de Mestrado
Estudante de Doutorado
Professor Assistente
Professor
Other:
3- Área de Atuação *
Selecione a áre onde mais atua na geração de dados de biodiversidade
88
Climatologia
Ciências Agrícolas
Biologia Comportamental
Bioquímica
Bioinformática
Botânica
Biologia Celular
Biologia Molecular
Biologia da Conservação
Ecologia
Ecossistemas
Evolução
Fisiologia
Genética
Genômica
Geografia
Geologia
Ciências Marinhas
Microbiologia
Neurobiologia
89
Paleontologia
Psicologia
Silvicultura
Taxonomia
Virologia
Zoologia
Other:
TIPO DE DADOS
4- Quais são os dados que você costuma trabalhar regularmente? *
Selecione todos que sejam aplicáveis
Dados Morfológicos- Medidas ( peso, comprimento, etc )
Dados Morfológicos- Fotos
Dados Morfológicos- Reconstrução 3D
Dados Fisiológicos- Hemograma, etc.
Dados Fisiológicos- Compostos Secundários
Dados Moleculares- Código de Barras DNA
Dados Moleculares- Sequências de DNA
Dados Moleculares- Genoma
Dados Moleculares- Expressões Genéticas
Dados Moleculares- Sequência de Proteinas
Dados Taxonômicos
90
Dados Anatômicos
Listas de Espécies ( presença/ausência )
Dados dos Ecossistemas-Parâmetros do Solo
Dados dos Ecossistemas - Parâmetros da água
Dados dos Ecossistemas- Parâmetros do clima
Dados dos Ecossistemas- Fatores Bióticos ( Fito, Zooplâncton, etc)
Dados do Ecossistema - Descrição de dados ( vegetação, tipos de habitat, etc)
Other:
5-Quais os tipos de metadados que você utiliza? *
Selecione todos que sejam aplicáveis
Nome do organismo
Localidade
Coordenadas
Descrição da localidade
Data da coleta
Coletor
Numero de coleção
Configuração dos equipamentos
Precisão de medições
Other:
6- Quais os formatos de dados que você mais utiliza? *
91
Selecione todos que sejam aplicáveis
.txt, .csv (editor de texto)
.doc, .docx. (editor de textos)
.jpg, .tif, gif (imagens)
.fas, .fasta (sequenciamentos)
.nex (dados para análises estatísticos)
.wav (áudio)
.xls, .xlsx (planilhas eletrônicas)
.mdb (banco de dados Access)
Other:
7- Você utiliza formato de dados padronizados? ( Ex: Darwin Core, EML, ABCD e etc.) *
Sim
Não
Other:
Se sim, quais padrões são utilizados
Bancos de Dados
8- Existe alguma base de dados em que você pode depositar os seus dados? BANCO DE DADOS *
Sim
Não
9- Quanto tempo você gasta por ano com curadoria e processamento dos seus dados? *
Menos de 1 dia
92
1 a 3 dias
1 semana
De 1 semana a 1 mês
Mais de 1 mês
10- Quem é dono de seu dados? *
Eu
Minha agência de financiamento
Minha instituição
Governo
Ninguém
Eu não sei
11- Onde você grava seus dados? *
Selecione todos que sejam aplicáveis
Bloco de notas, a mão ( Ex. Manual de Campo)
Tabela Excel
Documento Word
Banco de Dados Access
Outros Bancos de dados
Other:
12- Onde você armazena suas cópias locais? *
Selecione todos que sejam aplicáveis
PC próprio
93
PC Institucional
Servidor Institucional
Disco rígido externo
Pen Drive
Dispositivos USB
Other:
13- Com que frequência você faz backup dos seus dados? *
Diariamente
Semanalmente
Mensalmente
Raramente
Nunca
Other:
14- Existem banco de dados internos em seu projeto/instituição? *
Sim
Não
Se respondeu "sim" na pergunta anterior, especifique qual o banco.
Armazenamento a longo prazo
15- Você estaria disposto a depositar seus dados em banco de dados disponíveis publicamente? *
Sim
94
Não
16- Que tipo de preocupações e objeções você teria ao depositar dados de pesquisa em banco de dados on-
line? *
Selecione todos que sejam aplicáveis
Questões de patente
Confidencialidade ou questões legais
Perda de controle
Investimento de tempo
Sem o reconhecimento do meu esforço
Qualidade dos meus dados
Falta de padrão dos dados
Conclusões erradas a partir dos meus dados
Critica sobre meus dados ou análises
Other:
17- Quando você estaria disposto a partilhar os seus dados? *
Imediatamente
Após Publicação
No final do projeto
Após 5 anos
Após 10 anos
Após minha aposentadoria
Other:
95
18- O que lhe faria mais propenso a compartilhar seus dados? *
Local para depositar meus dados
Conseguir o reconhecimento ou crédito, caso meus dados sejam utilizados por outras pessoas
Financiamento para compartilhamento
A capacidade de controlar e reutilização dos meus próprios dados
Other:
19- Se seus dados forem utilizados, como gostaria de ser citado? *
Nos agradecimentos
Nas referências como publicações normais
Como co-autor
Other:
20- Em quais condições você depositaria seu dados? *
Eu posso editar os dados após o Upload
Eu serei capaz de apagá-los
Gostaria de ser contatado se alguém quiser usar meus dados
A manutenção a longo prazo dos meus dados seria a garantia
A qualidade dos dados é assegurada
Other:
21- O que lhe motivaria a tornar seus dados disponíveis? *
Transparência dos resultados estudados
Alta disponibilidade de conjuntos de dados comparáveis para análise abrangentes
96
Redes com outros cientistas para estudos interdisciplinares
Como os dados foram gerados com dinheiro publico, deveriam tornar-se publico
Maior visibilidade entre comunidades cientifica
Other:
22- Recurso que você julga importante para um portal de dados *
Aplicativos Web 3.0 ( web semântica ativada- A Web semântica permitirá, desta forma, tornar o conteúdo
semântico da web interpretável pelo homem e também pela máquina. )
Aplicativos Web 2.0 ( fórum de discussões, grupos on-line para projetos, etc.)
Trabalhos On-line compartilhado com conjunto de dados
Anotações de conjunto de dados
possibilidade de combinar diferentes e apresentar dados sobre, por exemplo uma determinada espécie
(semelhante ao Wikipedia)
Chave de identificação digital
Disponbilidade de capacitação de computação para grandes conjuntos de dados
Other:
Reutilização dos dados
23- Você reutilizaria dados gerados em outros laboratórios?
Sim
Não
Não sei
24- Como você avalia os dados de outras pessoas? *
Pelo autor
97
Quantidade de informações adicionais
Conjunto de dados
25- Você compartilha os dados gerados em seu laboratório *
Sim
Não
26- Que tipo de informação adicional você precisa para avaliar a qualidade dos dados de outras pessoas? *
Selecione todos que sejam aplicáveis
Quem recolheu os dados
Como os dados foram coletados
Quando os dados foram coletados
Forma de coleta dados
Other:
Plano de gerenciamento de dados
27- Você tem Plano de gestão de dados? *
Sim
Não
Eu não sei
28- Por que você tem um plano de gestão de dados *
Acho uma boa ideia
Minha instituição exige
Minha agência financiadora exige
Meus colaboradores exigem
98
Other:
29- Qual a origem do plano de gestão dos seus dados? *
Eu o criei
Copiado de outra fonte
Cederam-me um modelo
Other:
30- Quão importante é para seus projetos um plano de gestão de dados? *
Não é importante
Um pouco importante
Importante
Muito importante
Extremamente importante
Other:
31- Que tipo de dados seriam valiosos para compartilhamento?
Avalie a importância para você dos serviços abaixo *
Não é
importante
Um pouco
importante Importante
Muito
importante
Extremamente
importante
Armazenamento
a longo prazo
Repositório para
dados primários
99
Não é
importante
Um pouco
importante Importante
Muito
importante
Extremamente
importante
Depósito de
dados próprios
em bancos de
dados
disponíveis
publicamente
Uso pessoal de
dados de
bancos de
dados
disponíveis
publicamente
Parte inferior do formulário