www.cesce.pt
 


Tecnologias de armazenamento orientadas à retenção e localização

Tipicamente, organiza-se o Armazenamento de dados utilizando dois tipos de tecnologias: os discos destinados à informação de trabalho que se mantém viva, e as tapes, para cópias de segurança, com a vantagem de estas poderem ser duplicadas e transferidas fisicamente para outro local. A descida do preço, a maior capacidade e features adicionais dos discos, coloca em dúvida algumas das utilizações da tape. Uma delas tem a ver com a salvaguarda de dados permanentes e daqueles que podem ser utilizados como provas de transacções. Se combinarmos a capacidade de assegurar a inalterabilidade dos dados copiados com a facilidade da sua localização, obtemos a tecnologia de Arquivo de Conteúdo Fixo.

O Arquivo de Conteúdo Fixo é uma tecnologia para o armazenamento a longo prazo de documentos electrónicos que garante a integridade e conservação dos mesmos e a sua localização sem ambiguidades. Para tanto, esta tecnologia gera um identificador único e irrepetível para o ficheiro em função do seu conteúdo, graças a uma função hash. O identificador deve ser recordado pelas aplicações para posterior referência.

A Tecnologia de Arquivo de Conteúdo Fixo foi introduzida em 2002, mas já existem várias alternativas no mercado, e tipicamente compreendem duas etapas: a parte do puro armazenamento, em que os dados são gravados e conservados fisicamente, e a etapa de acesso ou elaboração, onde são produzidos os metadados, a identificação do ficheiro ou documento e a localização na etapa física. Quando um documento é passado para o sistema de arquivo de conteúdo fixo, a etapa de elaboração calcula o seu hash, sendo depois armazenado com base nesse hash, e não no nome ou entradas de tabelas ou directórios (como no caso dos sistemas operativos ou sistemas de ficheiros). Para recuperar o documento, o respectivo hash também é utilizado como localizador. Desta forma, o sistema pode contribuir (dependendo das configurações e versões dos fabricantes) para reduzir o espaço de armazenamento, identificando e eliminando a duplicação de documentos. E favorecer o seguimento de alterações e versões, dado que qualquer pequena alteração no conteúdo (embora o nome do ficheiro não tenha sido alterado) dá lugar a um hash (localizador) diferente.

A combinação destes elementos dá lugar a toda uma série de vantagens, embora também existam contrapartidas. Em primeiro lugar, a tecnologia de Arquivo de Conteúdo Fixo facilita a localização de documentos, e portanto reduz o tempo necessário para recuperar documentos necessários como provas, análises forenses, requisitos legais. Isto deve-se à elaboração dos metadados, pelo que requer um trabalho intensivo de CPU. Esta tecnologia permite intrinsecamente a desduplicação, a optimização do espaço de armazenamento, evitando cópias idênticas, mas há que ter cuidado quanto à interoperabilidade. É uma tecnologia especialmente pensada para informação sujeita a normas quanto à retenção de dados, garantias de integridade e não modificação, e localização e exploração de dados necessários em auditorias ou acções legais, mas isto pode incluir armazenar mais informação do que a necessária, e não é uma tecnologia barata.

Tendo isto em conta, esta tecnologia é utilizada fundamentalmente para dados permanentes e arquivados. Administrações públicas e empresas privadas estão a iniciar o caminho de eliminar custos em tempo, dinheiro e qualidade de atenção aos seus utilizadores e clientes, associados ao trabalho com papéis, digitalizando e armazenando uma variedade de documentos, facturas, pedidos, reclamações, etc., mas também chamadas de clientes, fotografias, vídeos, etc. O repositório ideal para todo este tipo de informação é precisamente a tecnologia de Arquivo de Conteúdo Fixo, porque poupa espaço, aplica políticas de retenção e ajuda a localizar os documentos quando são necessários. Além disso, a sua garantia de integridade permite a sua utilização como prova forense ou legal. Precisamente por isso esta tecnologia está também a ser considerada para o arquivo de correio electrónico. Efectivamente, são cada vez mais os sistemas de arquivo de correio electrónico que têm interfaces com a tecnologia de conteúdo fixo.

Os vectores da evolução desta tecnologia centram-se em três direcções: rendimento, interoperabilidade e redução de custos da solução.

- Rendimento: já se mencionou anteriormente que a elaboração dos metadados e o hash do ficheiro ou documento são intensivos em termos de CPU; para solucionar esta limitação, alguns fabricantes estão a associar a solução a plataformas de hardware específicas com processadores dedicados a esta função.
- Interoperabilidade: provavelmente é um dos maiores pontos de atenção neste momento; basicamente, os Sistemas de Arquivo de Conteúdo Fixo não são interoperáveis, dado que não existe neste momento uma standardização de como são gerados os metadados e as localizações. Felizmente, a SNIA (Storage Networking Industry Association) está a trabalhar na proposta de um standard que irá permitir a migração dos metadados (no formato XML) entre sistemas de arquivo de conteúdo fixo diferentes.
- Quanto à redução de custos da solução: alguns fabricantes estão a apostar em soluções de software que permitem a sua combinação com diferentes plataformas servidoras e armazenamento com uma finalidade genérica (Linux, Windows, discos SATA).

Outro elemento de evolução está em torno da salvaguarda de documentos assinados electronicamente, onde as funções de arquivo de conteúdo fixo de preservar o documento sem alteração têm de ser completadas com a função específica de custódia dedicada a preservar a cadeia da garantia de validade da assinatura e os certificados utilizados para assinar o documento.

De qualquer forma, a tecnologia de Arquivo de Conteúdo Fixo está em rápida evolução e todos os grandes fabricantes estão a fazer-lhe eco, quase sempre associado às suas estratégias de arquivo. Em quase todas as grandes organizações já está a ter uma aceitação notável para o armazenamento de logs, registos financeiros sujeitos a normas, por vezes correio electrónico, e em geral tudo aquilo que possa ser uma possível prova ou documento de requisito legal. Especialmente propensas a tirar partido desta tecnologia são as empresas do sector financeiro, seguros, e também no âmbito da administração pública, sobretudo saúde e justiça. Agora o desafio é aproveitar, não só as suas características de retenção legal, como também as de localização de conteúdos, e portanto as suas possibilidades na digitalização de conteúdos e ambientes sem papel. A redução de custos da tecnologia irá permitir superar o âmbito das grandes organizações.

 

Eduardo López
SIA Group

dci@cesce.pt