Tecnologias de armazenamento orientadas à
retenção e localização
Tipicamente, organiza-se o Armazenamento de
dados utilizando dois tipos de tecnologias: os discos destinados à
informação de trabalho que se mantém viva, e as tapes, para cópias
de segurança, com a vantagem de estas poderem ser duplicadas e
transferidas fisicamente para outro local. A descida do preço, a
maior capacidade e features adicionais dos discos, coloca em
dúvida algumas das utilizações da tape. Uma delas tem a ver com a
salvaguarda de dados permanentes e daqueles que podem ser
utilizados como provas de transacções. Se combinarmos a capacidade
de assegurar a inalterabilidade dos dados copiados com a
facilidade da sua localização, obtemos a tecnologia de Arquivo de
Conteúdo Fixo.
O Arquivo de Conteúdo Fixo é uma tecnologia
para o armazenamento a longo prazo de documentos electrónicos que
garante a integridade e conservação dos mesmos e a sua localização
sem ambiguidades. Para tanto, esta tecnologia gera um
identificador único e irrepetível para o ficheiro em função do seu
conteúdo, graças a uma função hash. O identificador deve ser
recordado pelas aplicações para posterior referência.
A Tecnologia de Arquivo de Conteúdo Fixo foi introduzida em 2002,
mas já existem várias alternativas no mercado, e tipicamente
compreendem duas etapas: a parte do puro armazenamento, em que os
dados são gravados e conservados fisicamente, e a etapa de acesso
ou elaboração, onde são produzidos os metadados, a identificação
do ficheiro ou documento e a localização na etapa física. Quando
um documento é passado para o sistema de arquivo de conteúdo fixo,
a etapa de elaboração calcula o seu hash, sendo depois armazenado
com base nesse hash, e não no nome ou entradas de tabelas ou
directórios (como no caso dos sistemas operativos ou sistemas de
ficheiros). Para recuperar o documento, o respectivo hash também é
utilizado como localizador. Desta forma, o sistema pode contribuir
(dependendo das configurações e versões dos fabricantes) para
reduzir o espaço de armazenamento, identificando e eliminando a
duplicação de documentos. E favorecer o seguimento de alterações e
versões, dado que qualquer pequena alteração no conteúdo (embora o
nome do ficheiro não tenha sido alterado) dá lugar a um hash (localizador)
diferente.
A combinação destes elementos dá lugar a toda
uma série de vantagens, embora também existam contrapartidas. Em
primeiro lugar, a tecnologia de Arquivo de Conteúdo Fixo facilita
a localização de documentos, e portanto reduz o tempo necessário
para recuperar documentos necessários como provas, análises
forenses, requisitos legais. Isto deve-se à elaboração dos
metadados, pelo que requer um trabalho intensivo de CPU. Esta
tecnologia permite intrinsecamente a desduplicação, a optimização
do espaço de armazenamento, evitando cópias idênticas, mas há que
ter cuidado quanto à interoperabilidade. É uma tecnologia
especialmente pensada para informação sujeita a normas quanto à
retenção de dados, garantias de integridade e não modificação, e
localização e exploração de dados necessários em auditorias ou
acções legais, mas isto pode incluir armazenar mais informação do
que a necessária, e não é uma tecnologia barata.
Tendo isto em conta, esta tecnologia é utilizada fundamentalmente
para dados permanentes e arquivados. Administrações públicas e
empresas privadas estão a iniciar o caminho de eliminar custos em
tempo, dinheiro e qualidade de atenção aos seus utilizadores e
clientes, associados ao trabalho com papéis, digitalizando e
armazenando uma variedade de documentos, facturas, pedidos,
reclamações, etc., mas também chamadas de clientes, fotografias,
vídeos, etc. O repositório ideal para todo este tipo de informação
é precisamente a tecnologia de Arquivo de Conteúdo Fixo, porque
poupa espaço, aplica políticas de retenção e ajuda a localizar os
documentos quando são necessários. Além disso, a sua garantia de
integridade permite a sua utilização como prova forense ou legal.
Precisamente por isso esta tecnologia está também a ser
considerada para o arquivo de correio electrónico. Efectivamente,
são cada vez mais os sistemas de arquivo de correio electrónico
que têm interfaces com a tecnologia de conteúdo fixo.
Os vectores da evolução desta tecnologia centram-se em três
direcções: rendimento, interoperabilidade e redução de custos da
solução.
- Rendimento: já se mencionou anteriormente que a elaboração dos
metadados e o hash do ficheiro ou documento são intensivos em
termos de CPU; para solucionar esta limitação, alguns fabricantes
estão a associar a solução a plataformas de hardware específicas
com processadores dedicados a esta função.
- Interoperabilidade: provavelmente é um dos maiores pontos de
atenção neste momento; basicamente, os Sistemas de Arquivo de
Conteúdo Fixo não são interoperáveis, dado que não existe neste
momento uma standardização de como são gerados os metadados e as
localizações. Felizmente, a SNIA (Storage Networking Industry
Association) está a trabalhar na proposta de um standard que irá
permitir a migração dos metadados (no formato XML) entre sistemas
de arquivo de conteúdo fixo diferentes.
- Quanto à redução de custos da solução: alguns fabricantes estão
a apostar em soluções de software que permitem a sua combinação
com diferentes plataformas servidoras e armazenamento com uma
finalidade genérica (Linux, Windows, discos SATA).
Outro elemento de evolução está em torno da salvaguarda de
documentos assinados electronicamente, onde as funções de arquivo
de conteúdo fixo de preservar o documento sem alteração têm de ser
completadas com a função específica de custódia dedicada a
preservar a cadeia da garantia de validade da assinatura e os
certificados utilizados para assinar o documento.
De qualquer forma, a tecnologia de Arquivo de Conteúdo Fixo está
em rápida evolução e todos os grandes fabricantes estão a
fazer-lhe eco, quase sempre associado às suas estratégias de
arquivo. Em quase todas as grandes organizações já está a ter uma
aceitação notável para o armazenamento de logs, registos
financeiros sujeitos a normas, por vezes correio electrónico, e em
geral tudo aquilo que possa ser uma possível prova ou documento de
requisito legal. Especialmente propensas a tirar partido desta
tecnologia são as empresas do sector financeiro, seguros, e também
no âmbito da administração pública, sobretudo saúde e justiça.
Agora o desafio é aproveitar, não só as suas características de
retenção legal, como também as de localização de conteúdos, e
portanto as suas possibilidades na digitalização de conteúdos e
ambientes sem papel. A redução de custos da tecnologia irá
permitir superar o âmbito das grandes organizações.