Brasil não preserva sua web, enquanto alguns países avançam no arquivamento digital
Carlos Eduardo Entini*
Atestado de nascimento do Brasil, a
carta de Pero Vaz de Caminha ao rei de Portugal foi preservada durante
mais de 500 anos em lugares diferentes. Atualmente arquivada na Torre do
Tombo, sede do Arquivo Nacional de Portugal, a carta de 1.500 está
acessível digitalmente
a qualquer interessado, em qualquer lugar do mundo. Cinco séculos
depois, numa era onde tudo se converge para a internet, qual a garantia
que os conteúdos produzidos originalmente em formato digital estarão
disponíveis para as gerações futuras? No momento, nenhuma.
Com 20 anos de internet, o Brasil ainda não conta com nenhuma
instituição, legislação, diretriz ou esforço que garanta que conteúdos
produzidos na web sejam vistos como patrimônio cultural e, assim,
coletados, catalogados e armazenados. Símbolo da relevância digital
deste começo de século 21, a memória das recentes manifestações de
junho, paradoxalmente, só está garantida nos formatos impressos.
A França começou a coletar a web em 1996, hoje são 20 bilhões de URLs arquivadas. Foto David Paul Carr/BnF
Pela natureza efêmera da internet, sites desaparecem ou são
atualizados frequentemente. O apagão da memória da internet já pode ser
sentido. Dificilmente seria possível contar a história e analisar as
eleições presidenciais a partir dos sites dos candidatos. Desde 1998, já
se foram quatro eleições presidenciais com a presença da internet e
nada foi coletado e sistematizado.
O problema não é só do Brasil. Poucos países têm política ou
instituições voltadas para o arquivamento web. Algumas iniciativas tem
sido tomadas para minimizar o apagão. A mais antiga delas é o Internet
Archive, de 1996. Através do Waybackmachine a instituição tem armazenado
347 bilhões de URLs de cerca de 40 países, inclusive o Brasil com 2,5
bilhões de capturas. No fim de 2012, o conteúdo total representava 10
petabytes, informa
Kristine Hanna, diretora do Internet Archive, em entrevista ao
Estadão Acervo.
Em 1996, foi a vez da Austrália coletar o conteúdo produzido e que
fazia referência ao país. O exemplo foi seguido pela Suécia, no ano
seguinte. Hoje, as instituições pioneiras estão reunidas no Consórcio
Internacional de Preservação da Internet, (IIPC na sigla em inglês).
Fundado em 2003, o IIPC é uma organização virtual, colaborativa, descentralizada, como a internet. Como
informa o site,
ele atua na construção de tecnologias e conhecimento para o novo
desafio de armazenar sistematicamente o mar de informações produzidos na
web. O Consórcio reúne cerca de 40 instituições (bibliotecas, arquivos,
Internet Archive) de 30 países - nenhum da América Latina. A sua missão
é coletar, preservar e tornar acessível o conteúdo da internet para as
futuras gerações.
A quantidade enorme de sites arquivados, e o tempo que o
Waybackmachine tem atuado, pode causar uma sensação de conforto. Mas o
projeto do Internet Archive tem suas limitações e não é possível
depositar nele a memória da rede. O critério de armazenamento são os
sites mais populares, e por questões de direitos autorais dos EUA, o
Waybackmachine só existe porque é uma organização sem fins lucrativos.
As leis de copyright americanas não permitem o armazenamento de
conteúdo, mesmo o da internet.
Se o IIPC tem o objetivo comum preservar a web e desenvolver
ferramentas comuns, cada membro tem atuado de maneira distinta. Em
contraposição ao modelo americano, a França foi o primeiro país a tratar
o arquivamento web como questão de Estado e o conteúdo da internet como
patrimônio cultural.
Página da Casa Branca de 21 de março de 2003. Coleção "Guerra do Iraque" da Biblioteca do Congresso
Utilizando a figura jurídica do depósito legal, na qual todo produtor
de conteúdo cultural (livro, jornal, disco, cd, dvd, software etc) deve
entregar uma cópia à Biblioteca Nacional Francesa, em 2006 também foi
incluído na lei a internet francesa. Outros países seguiram o
exemplo, entre eles Dinamarqua e Espanha.
O Depósito Legal foi instituído na França em 1537 pelo rei Francisco I
(1494-1547) como resposta a outra revolução que foi o surgimento da
prensa. Da mesma maneira que acontece hoje com a internet, a prensa
derramou uma quantidade enorme de documentos. E para guardar a memória e
saber tudo o que se publicava, a Biblioteca Real - hoje Biblioteca
Nacional Francesa - devia ter um exemplar de cada impresso produzido no
reino. No Brasil o depósito legal existe desde 1825, mas o envio da
produção digital não se adaptou aos novos tempos, "vale observar que a
legislação disciplina que tudo que seja publicado no país deva ser
enviado à Biblioteca, não especificando o suporte; portanto, em tese,
deveríamos receber tudo o que é produzido digitalmente também", informa
por e-mail, Luciana Grings, da Biblioteca Nacional. "A grande
dificuldade tem sido adaptar o depósito de material digital ao fato de
que a lei não está regulamentada e que ainda não temos a capacidade de
armazenamento que esta ação demanda", completa a bibliotecária.
Com a adaptação da lei francesa, todo o domínio '.fr' e tudo o que se
produz sobre a França por força da lei deve ser coletado e armazenado.
E a Biblioteca Nacional Francesa, depositária legal do conteúdo
produzido no pais, é a responsável pela
coleta e arquivamento do conteúdo web . Mesmo sem a obrigação legal, desde 2006 a BnF vem arquivando sua web. Hoje, são 20 bilhões de URLs ocupando 370 Terabytes.
Direitos autorais. Assim como no caso de outras
mídias, o depósito legal não significa a supressão dos direitos
autorais. Daí um paradoxo: para se consultar o conteúdo web francês é
necessário ir à BnF. Em breve, “os arquivos departamentais de Cayenne,
capital da Guiana Francesa, também darão acesso. Portanto os arquivos da
web francesa estarão justamente ao lado do Brasil”, brinca
Clément Oury, chefe do Depósito Legal Digital da BnF em entrevista ao
Estadão Acervo.
Coleta e análise. Além da coleta por domínio, por
exemplo '.fr', '.br', ou por mais populares como é feito pelo
Waybackmachine, muitas instituições adotaram o arquivamento por assunto.
A criação de 'coleções', como também é conhecido o processo, nada mais é
aquilo os arquivos sempre fizeram quando criam pastas, seja de assuntos
ou personalidades. Na França, a seleção de conteúdo é descentralizada.
Cada biblioteca regional pode indicar um assunto que considera relevante
para que a BnF faça a captura. Os responsáveis pela aquisição de livros
na BnF também são outros profissionais que indicam quais assuntos devem
ser arquivados.
Massa de dados. Ainda segundo Oury, que também é
tesoureiro do IIPC, os desafios de hoje no arquivamento web é indexar a
massa de informação. Atualmente é nem tudo é possível pesquisar por
palavras-chave. Em quase todas as instituições que
disponibilizam pesquisa on-line é necessário entrar com o endereço. No
caso das coleções frequentemente as páginas são indexadas por assunto,
autor ou fonte. É o caso das diversas coleções da
Biblioteca do Congresso dos EUA.
Quando existe indexação surge uma nova possibilidade de pesquisa, "o
pesquisador que trabalha com web não quer apenas achar sites antigos
para ler, ele quer também a possibilidade de fazer uma cartografia dos
sites. Por exemplo, ele quer analisar vários sites de política saber
qual deles tem ligações com outros sites de política", explica Oury.
*Colaborou Liz Batista
Fonte:
http://acervo.estadao.com.br/noticias/acervo,quem-arquivara-a-internet-para-as-futuras-geracoes,9215,0.htm