www.cesce.pt

O crescimento contínuo dos dados não é um fenómeno novo, e a tendência é que esse crescimento assuma dimensões cada vez maiores. Perante o agravamento desta realidade importa perceber até que ponto as organizações estarão realmente preparadas para a “explosão” de dados que se perspetiva.

No presente panorama económico, muitas organizações farão a gestão dos seus dados num contexto de escassez de recursos, seja porque se encontram em dificuldades financeiras ou apenas porque aplicam boas práticas de gestão de forma a acautelarem a sua competitividade e o seu futuro num contexto macroeconómico desafiante. Neste cenário económico, uma das incertezas que pode compreensivelmente surgir é se as despesas de investimento e exploração associadas à quantidade de dados perspetivada para os próximos anos serão, ou não, sustentáveis para as organizações. Indo um pouco mais longe, podemos inclusivamente questionar-nos se a situação atual ainda é comportável para, pelo menos, parte dessas organizações?

A gestão de grandes volumes de dados é algo que, regra geral, não podemos classificar nem como barato, nem como simples. Deixando de parte as questões de complexidade tecnológica, o custo de gerir grandes volumes de dados é elevado e vai muito para além do custo de aquisição. Na determinação dos custos de gestão de dados devem ser devidamente contabilizados todas as despesas diretas e indiretas que lhes estão associados, assim com os respetivos níveis de eficiência. Face a um custo elevado, as organizações pretendem assegurar que o retorno desse investimento é realisticamente superior ao seu encargo, algo que poderá ser comprometido se forem perpetuadas as abordagens clássicas herdadas de realidades passadas.

A tentação de condicionar o crescimento de dados pode revelar-se uma tarefa utópica e até mesmo indesejável, na medida em que o crescimento de dados decorre da atividade natural da empresa e a competitividade de boa parte das organizações dependerá também de processamentos e análises feitas sobre esses dados.

A consciência do problema assume proporções maiores quando se compreende que para atender aos mais diversos objetivos, utilizamos dados para criar outros dados e produzimos múltiplas cópias de dados para as mais diversas finalidades.

Não obstante a importância dos dados, a maior parte destes será gradualmente menos acedido com o decorrer do tempo. Chegará uma altura em que inevitavelmente se passarão algumas semanas, meses ou até anos desde o último acesso a boa parte desses dados. Apesar de esta situação ser bem conhecida, a maior parte das organizações demonstra muita dificuldade, ou receio, quando confrontadas com a possibilidade de eliminarem dados que já não precisem.

Outro facto interessante, é algumas organizações não explorarem convenientemente o facto da componente verdadeiramente ativa dos seus dados ser, com as devidas exceções, relativamente baixa.

Analisando o problema na ótica dos sistemas de armazenamento, encontramos várias alternativas com a possibilidade de dinamicamente reposicionarem os dados, ou segmentos de dados, nos níveis de armazenamento mais adequados, mas esta funcionalidade só resolve uma parte do problema, pois a totalidade dos dados continua na mesma a ser gerida por sistemas de armazenamento centrais e pelos respetivos servidores. Qualquer migração ou upgrade pode, neste caso, consistir num processo moroso devido ao volume de dados envolvido, sendo também verdade que alguns destes processos de alteração poderiam ser evitados, ou pelo menos adiados, se o volume de dados envolvido fosse menor.

Outro desafio que se coloca perante um universo de dados crescente, é a facilidade de encontrar, em tempo útil, a informação que pretendemos, algo que nem sempre é conseguido com a eficiência desejada, nomeadamente quando estão em causa pesquisas sobre dados não estruturados. Não basta por isso ter dados, o que é verdadeiramente importante é poder obter a informação que precisamos e, preferencialmente, com um nível de esforço reduzido.

Entre as soluções possíveis para mitigar o impacto da “explosão” de dados, encontram-se as plataformas de arquivo, normalmente baseadas em tecnologia de object storage, e as soluções de arquivo baseadas em software, umas com um carácter mais genérico e outras mais específicas, orientadas a arquivar dados de determinadas aplicações. A integração com Clouds públicas ou privadas é uma funcionalidade que se encontra normalmente bem suportada por este tipo de soluções, e que poderá ser vantajoso nalgumas situações. A pesquisa é facilitada por indexação dos conteúdos arquivados e/ou pela introdução de metadados.

Independentemente da solução que se revele mais adequada a cada organização, o importante será mesmo contemplar seriamente na estratégia de gestão de dados uma vertente de arquivo. Apesar do volume de dados já ser atualmente bastante significativo, o que se continua a verificar é que a maior parte das organizações continua a não ter uma solução de arquivo ou, quando tem, esta é utilizada apenas em ambientes de nicho dentro da organização.

José Belejo
Consultor de Soluções de Infraestruturas de Armazenamento
CESCE SI

Mais informação: dci@cesce.pt