Upload
haduong
View
224
Download
0
Embed Size (px)
Citation preview
AnuarioThinkEPI2010
224
???????????????????????????????????????????????????????????????????
Informedesituación
Preservacióndigitalen2009PorMiquelTérmens
Térmens,Miquel.“Preservacióndigitalen2009”.AnuarioThinkEPI,2010,v.4,pp.224-230
I.PRESERVACIÓNDIGITAL
Resumen:Serealizaunbalancedelestadodelainvestigaciónyeldesarrollodeso-lucionesenpreservacióndigitalanivelinternacionalen2009,asícomodelasexpec-tativaspara2010.Seprestaunaespecialatenciónalseguimientodelasprincipaleslíneasdeinvestigaciónyalosdesarrollosdesoftwareespecífico,ysecaracterizanloscentrosdeinvestigaciónpreeminentesanivelmundial.
Palabrasclave:Preservacióndigital,Bibliotecadigital,Archivosdigitales.
Title:Digitalpreservationin2009
Abstract:The international stateof researchanddevelopmentofdigitalpreser-vationsolutions in2009 isassessed,aswellastheexpectationsfor2010.Wepayparticularattentiontothemonitoringof themainresearchanddevelopmentofspecificsoftware,andfeatureprominentresearchcentresworldwide.
Keywords:Digitalpreservation,Digitallibrary,Digitalarchives.
LA PRESERVACIÓN de objetos digitales(unaformagenéricadedenominarcualquierdocumentoodatoen formatodigital) aúnno cuenta en general con un corpus teóri-co asentado, metodologías aceptadas, nor-masdeuniversalseguimientoytecnologíasimplantadas.
Todosestosaspectosseencuentranengradosdistintosdedesarrollo,detalformaquehoyendía,pordecirlodeunaformasimple,todavíanoes posible adquirir un sistema de preservacióndigitalllaveenmanoparaunabiblioteca,archivo,empresaoadministraciónpública,exceptoenelcasodegrandescorporaciones.
Estarealidadnosignificaquenoseestétraba-jandooqueaúnnoseaposibleempezaraaplicaralgunasmetodologías,técnicasysolucionesparapreservar documentos o datos de una determi-nada entidad. A continuación realizaremos unrápidorepasodelestadodeladisciplinaen2009ydelasnovedadesqueseesperanpara2010.
1.Tendencias
Algunas de las líneas de investigación queparecen ya estar asentadas son el desarrollo de
emuladores,ladeterminacióndelaspropiedadessignificativasdelosdistintostiposdedocumentos,laautomatizacióndelasmigracionesdeformatosy las metodologías de auditoría y certificación.A ellas se han sumado recientemente algunasnuevas líneasde trabajoquevamosa reseñaracontinuación.
Existe una percepción generalizada de quelos actuales sistemas de archivo de la Web sehan de mejorar. Desde finales de la década de1990,InternetArchive,nosólosehadedicadoaarchivar laWebpúblicamundial, sinoque tam-biénhadesarrolladoyayudadoaconsolidarhe-rramientas para el almacenamiento, indexacióny recuperación de las páginas web, como porejemploHeritrix.http://www.archive.org/
Estasherramientasylosprocedimientosinhe-renteshansidodeusogeneralizadoentodoslosarchivoswebasociadosenelInternationalinter-netpreservationconsortium(Iipc)hastaelpuntodequehadadolaimpresiónequívocadequeelarchivodelaWeberaunasuntosolucionado.Estavisión dista mucho de la realidad: existen innu-merablesaspectostécnicosyorganizativosmejo-rablesopor resolver, como la sincronizacióndelascapturas,lascapturasincompletasdepáginas
Preservacióndigitalen2009–MiquelTérmens
AnuarioThinkEPI2010
225
??????????????????????????????????????????????????????????????????????
compuestasylacapturadewebsdinámicos.Porello,unanálisismásprofundodelaproblemáticarelacionadaconlapreservacióndelaWebseráelorigendeunanuevageneracióndeherramientasytécnicasenestesector.
“Lapreservacióndigitalestodavíaunáreadetrabajopococonocidaanivel
mundial”
Unode losámbitosenmásrápidaexpansióneslapreservacióndelasbasesdedatoscientíficas.Endeterminadasáreasdelsaberlainvestigaciónde base se está desarrollando cada vez más enred,enformadeconsorciosysobrelabasedelacolaboracióninternacional.Lamagnituddeesteproblemaesenormeyunospocosejemplosnoslomostrarán.
El detector Atlas del colisionador de partícu-lasLHCdelCern,queentróenservicioen2009,producirá320MBdedatosporsegundocuandoestéenplenofuncionamiento.ElLargesynopticsurvey telescope (Lsst), que en 2014 entrará enservicioenCerroPachón(Chile),vaagenerarporcadanochedeobservación15terabytes(15x1012)deimágenescelestesquepasaránaengrosarunabasededatosde60petabytes(60x1015).
Otrosproyectosqueenestemomentoyaestánoriginando ingentes cantidades de informaciónsonelWorldwideproteindatabank (wwPDB)yelEuropeanmolecularbiologylaboratory(Embl).Ytodosestosproyectoscientíficosinternacionalesgeneraránlosdatoscadavezaunritmomayor;
su volumen y tasa decrecimiento superan losparámetros de las apli-caciones tradicionalesy exigen la utilizacióndehardwareysoftwareespecíficos.Supreserva-ción a largo plazo, oincluso su conservacióna 5 ó 10 años vista, esuna tarea que preocu-paalosresponsablesdeestasinvestigaciones.
Ademásdelasactua-ciones particulares ini-ciadas en cada uno deestos proyectos a favordelapreservacióndesusresultados, empiezan ainvestigarse solucionesmás globales y exten-
sibles. Este es el objetivo a nivel europeo delproyecto Parse.Insight, financiado por la UniónEuropea.LosEUAluchanenestalíneadeactua-ciónaúnconmayorafán,yaqueconsideranquees una condición ineludible para mantener suprimacía mundial en investigación. Una de laspruebas de este interés la tenemos en los 100millonesdedólaresquedurante5añosapartirde 2010 va a invertir la National Science Foun-dation (NSF) en el llamado Sustainable digitaldata preservation and access network partners(DataNet),allevaracabomedianteunconjuntodeproyectosconcretos:entrelosyaadjudicadosse encuentra Data conservancy, liderado por laJohnsHopkinsUniversity,conunpresupuestode20millonesdedólares.
Dar con la solución para la preservación delos datasets científicos implica entre otras cosaspoder almacenar grandes volúmenes de datos(delordendepetabytes)einterconectarlasapli-cacionesdealtacapacidaddedistintoscentrosdeinvestigación.Enestecaminohanaparecidodostérminos:datacentresycloudcomputing.
Es necesario el uso de centros especializadosenelalmacenamientomasivodedatos(datacen-tres),aunqueellosignifiquealmacenarlosdatosfuera de las universidades y empresas que loscrearon.Tambiénseestáavanzandorápidoenelestablecimientodeaplicacionesdistribuidas,queaprovechenlosrecursosinformáticosdedistintossocios y que puedan gestionar y replicar datosendistintaslocalizaciones(cloudcomputing).Yaempieza a estar claro que el cloud computingtendráenlapreservacióndigitalunsectorimpor-tantedeaplicaciónynegocio.
Variasrazonesaconsejanelusodelosrecursosdecloudcomputing:lanecesidaddedisponerdemayores medios de procesamiento y almacena-
Figura1.Thewaybackmachine,http://www.archive.org
Preservacióndigitalen2009–MiquelTérmens
AnuarioThinkEPI2010
226
???????????????????????????????????????????????????????????????????
miento de información(no necesariamente enpropiedad); la replica-cióndedatosenalmace-namientosremotos(pormotivos de seguridad,recuerden el 11-S); eindependizarlasfuncio-nes de preservación delaspropiasdelagestióndiaria. Una prueba deesta corriente la tene-mosenelusodel siste-maiRODS,creadoporlaUniversidaddeCarolinadelNorte,porlosarchi-vos nacionales de losEUA (Nara) de maneraquepartedelosnuevosarchivos federales elec-trónicos ya no están enlasededelaNaraenVir-ginia,sino“enlanube”,entre distintos centrosde datos de la red nor-teamericana.
Unanuevaproblemá-tica está llegando tam-biénaotro tipode ins-tituciones:lasdedicadasa preservar la memoriadelpasado,básicamentearchivos y bibliotecas nacionales. Con los dona-tivos o los legados testamentarios de escritores,políticosyotrospersonajespúblicosempiezanaingresardisquetes, cintasydiscos conoriginalesinformáticos de estos personajes; los originalesdelasnovelasyanosonmanuscritos,nisiquierahojas mecanografiadas, sino disquetes antiguosconficherosgrabadosconprogramasyadesapa-recidos.
Figura2.Worldwideproteindatabank,http://www.wwpdb.org
aquellosespecializadosenpreservardocumentos.Hastaelmomento sehabíaaprovechadoel tra-bajoquedeformainicialmentedescoordinadaseestabarealizandodesdelosNationalArchivesdelReinoUnido,laLibraryofCongressylaHarvardUniversity.Enabrilde2009seanuncióelacuerdodeintegracióndelGlobaldigitalformatregistry(Gdfr),deHarvard,conPronom,de losNationalArchives,paracrearelnuevoUnifieddigitalfor-matsregistry(Udfr).Elnuevoregistromundialdeformatoscuentadesdesusiniciosconelsoporte,entreotros,delosarchivosybibliotecasnaciona-lesdeCanadá,EUA,PaísesBajosyReinoUnido.Cuando entre en funcionamiento, a finales de2010 o quizás en 2011, se convertirá en la pri-meraherramientatécnicauniversaldesoportealasaplicacionesdepreservaciónyenunejemplodecómolacooperacióninternacionalpuededarconsolucionesaplicablesalosdistintosentornosdepreservación.
El espectro de aplicación de la preservacióndigitalcadavezseestáabriendomás.Lainforma-cióntextualygráficayanoeslaúnicapreocupa-ción,sinoqueahoratambiénloeslainformaciónsonoray la imagenenmovimiento.Yenelañoque la industria del cine se ha revolucionadocon la llegada del 3D, no está de más recordar
“LaUniversidadTécnicadeVienadestacaenlaingenieríadelsoftware
aplicadaalapreservación”
Empieza a ser un verdadero problema laidentificación, conservación y consulta de estosnuevosfondos:loseManuscripts.Comoejemplo,cabereseñarquelaBritishLibrary,unadelasins-titucionesafectadas,hacreadoundepartamentotécnico específico para dar con soluciones paraestassituaciones.
Elcontroldelosformatostécnicosdelosfiche-rosapreservaresunaestrategiaclaveencualquiersistemadepreservaciónyfundamentalmenteen
Preservacióndigitalen2009–MiquelTérmens
AnuarioThinkEPI2010
227
??????????????????????????????????????????????????????????????????????
quelasnuevaspelículasya rodadas en formatodigitalnotienenlavidaasegurada.
Segúnlosestudiosdela propia academia delosOscar (TheAcademyof Motion Picture Arts& Sciences), los ficherosoriginales de una pelí-cula digital “normal”ocupan entre 2 y 10petabytes y su coste deconservación es muchomayor que el de unapelícula tradicional: así,si el coste de conserva-ciónanualdeunmastertradicional se ha calculado en 1.059 dólares, enuna película digital el coste sube a un mínimode12.514dólares,sincontarysinquesehayanresueltolosproblemastécnicosqueapareceránamedioplazo(cambiosdeformatos…).
“Elcostedeconservacióndeunapelículadigitales12vecesmayorque
eldeunpelículaenceluloide”
2.Software
2009 ha comportado interesantes novedadesde software. El año se inició con el anuncio el8 de enero de la compañía ExLibris del iniciode la comercialización de su producto Rosetta,específicoparalapreservacióndeobjetosdigita-les,desarrolladoapartirde laexperienciade laBibliotecaNacionaldeNuevaZelanda.Hastaesemomento las funciones de preservación habíanestado encomendadas a su software Digitool,un exitoso producto orientado en realidad a lagestión y acceso a colecciones digitales. Con laaparicióndeRosettasereconocequelapreserva-cióndigitalesunaactividaddistintaalagestióndeunrepositorioyportaldecoleccionesdigitalesyquerequiereunatecnologíapropia.
DeestamaneraExLibrissehaconvertidoeneltercer fabricante vendedor de software de pre-servación,despuésde IBMydeTessella.Lastresempresas y sus respectivos productos se dirigenamercadosdistintos:IBMalasgrandescorpora-cionesprivadasyalasadministracionespúblicas,Tessellaalosarchivosnacionales,yExLibrisalasbibliotecasnacionalesyuniversitarias.
Enmayo sehizopública la fusióndeDSpacey de Fedora commons, dos de los softwares derepositorios con más instalaciones, en el nuevogrupoDuraSpace.Lafusióntienecomoobjetivosumar los esfuerzos de las dos comunidades dedesarrolladoresconelfindedarrespuestaa lascrecientesdemandasdesususuarios;entreéstascabedestacarlanecesidaddeincorporarpolíticasde preservación en estos softwares, un punto
Nuevas oportunidades laborales
Un signo de la creciente aplicación de la preservación digital lo tenemos en el mercado laboral. En los países con más avances en este sector empiezan a publi-carse ofertas de trabajo pidiendo perfiles del tipo digital curator o web curator y digital preservation project manager; los dos primeros son el conservador espe-cializado en documentos digitales, que domina los formatos y las migraciones, mientras que el segundo es el director de un proyecto concreto, coordinando a un equipo multidisciplinar. En todos los casos se valora estar en posesión de conocimientos avanzados de indexación, esquemas de metadatos y organización de ontologías, así como de estructuración
de información con XML.También se empiezan a ofertar plazas para informáticos especializados, como digital heritage archive developer y digital information systems analyst, en las que será imprescindible el dominio de XML / XSLT, de lenguajes como Java y Perl, y de estándares como METS, MODS y
OAI-PMH.
Figura3.Europeanmolecularbiologylaboratory,http://www.embl.de
Preservacióndigitalen2009–MiquelTérmens
AnuarioThinkEPI2010
228
???????????????????????????????????????????????????????????????????
en el que sobretodo DSpace tenía importanteslimitaciones. DuraSpace también afrontará elreto de relacionar los repositorios con el cloudcomputing.
Aniveldeherramientasdesoftwareesteañotambiénhaaportadonovedades.Droid,queela-borada por los UK National Archives sirve paravalidarformatos,vioaparecersuv.4enjuliode2009:ahorayapuedetrabajarcongrandesdiscosaniveldeservidor.LaalternativaaDroid,JHove,hastaahorasoportadaporlaHarvardUniversity,reforzósuequipoconlaincorporacióndeCalifor-niaDigitalLibrary,PorticoyStanfordUniversity,conelfindedesarrollarlaversión2enelperiodo2008-2010.
Por último se ha indicar que en los últimosmeses se han puesto a libre disposición públicados paquetes integrados de herramientas. Elprimero de ellos es Roda 1.0, el repositorio depreservacióndearchivosdesarrolladoporMiguelFerreira, de la Universidad do Minho (Guima-rães),porencargodelaDirecciónGeneraldelosArchivos portugueses. El segundo es Plato 2.1,queformapartedelainiciativaeuropeaPlanets;enestecasoesunaherramientadeplanificaciónde proyectos de preservación preparada en la
Universidad Técnica deViena.
3.Núcleosdeinvestigaciónydesarrollo
La investigación y eldesarrollodesolucionesen preservación digitalnoesunaactividadmuyextendida,sinoqueporlo contrario se encuen-traconcentradaenunospocoscentrosdeinvesti-gaciónypaíses.
EnEuropa,ellideraz-go de los Países Bajoses innegable, con suarchivo y su bibliotecanacional al frente. Rei-no Unido destaca porlas aportaciones de laUniversity of Glasgow.Aunque con menoresresultados, también seestá actuando desdeotros países: Alemania,Austria, Italia, Portugal,RepúblicaCheca…
“ExLibrissehaconvertidoeneltercerfabricantevendedordesoftwarede
preservación,despuésdeIBMydeTessella”
Últimamente,tresnuevosfocosestánganan-dopesoyseestánposicionandoentreloslíderesdeladisciplina:elconjuntodelabibliotecaylosarchivos nacionales británicos, las universidadesinglesas por impulso del Jisc (Joint InformationSystemsCommittee) y laUniversidadTécnicadeViena.Enprimerlugar,cabepreverquelasaccio-nes cada vez más visibles de la British Library ylosUKNationalArchives,porejemploeneláreadeloseManuscripts,posiblementeseconvertiránenejemplosaseguirporsushomólogosdeotrospaíses.
Ensegundolugar,elJischapuestolapreserva-cióndigitalcomounodesusmáximosobjetivos,como su exitosa trayectoria ya demuestra; estosignifica que pronto tendremos a muchas uni-versidades británicas trabajando en esta línea yaportandosolucionesdeaplicacióninmediata.
Figura4.Ecdl2009,http://www.ecdl2009.eu
Preservacióndigitalen2009–MiquelTérmens
AnuarioThinkEPI2010
229
??????????????????????????????????????????????????????????????????????
En tercer lugar, los investigadores de la Uni-versidad Técnica de Viena están destacando enla ingeniería del software aplicada a la preser-vación.
EnEspañasedebecitarelpapeldecabecerade la Biblioteca Nacional de España, una insti-tuciónqueenlotécnicosehavistoclaramenterelanzada desde la llegada de Milagros delCorralcomodirectorageneral.Anivelexternoeste impulso se está notando en la crecienteincorporación a proyectos internacionales decooperación, entre los que destacan Europea-na yLong termpreservation (LTP).Anivelmáspráctico es de destacar que en diciembre de2009 entró en servicio el depósito seguro depreservación iArxiu, creado por el Consorci del’Administració Oberta de Catalunya, destina-do a almacenar y preservar a largo plazo losdocumentoselectrónicosdelasadministracionespúblicasdeCatalunyaquesequieranadheriralmismo.Ofreceportantounserviciodecustodiaexterna,unmodelodepreservacióndigitalquemuy pronto tendrá una gran aceptación entrelas administraciones y todavía más entre lasempresasprivadas.
Fuera de Europa sólo se detectan dos focosimportantesde investigación:OceaníayEstadosUnidos. Australia y Nueva Zelanda son fuentescontinuas de innovaciones, siempre de carácteraplicado, generadas por sus bibliotecas y archi-vos nacionales, por determinadas universidadesytambiénporgobiernosregionales,comoeldeVictoria, en el marco de la administración elec-trónica.
EstadosUnidossonlíderesenpreservaciónportresrazones:
1. Cuentanconnumerososnúcleosdeinvesti-gaciónmuysólidos;
2. Existe una capacidad de trabajo colabora-tivo entre estos núcleos que les permite sumaresfuerzosyrealizarproyectosagranescala;y
3. Algunas instituciones federales, como laLibraryofCongressylaNacionalScienceFounda-tion,odepromocióndelainvestigacióncomolaAndrewW.MellonFoundation,estánrealizando
unpapeldeincentivaciónyregulacióndelainves-tigacióncongranacierto.
Lapreservacióndigitalestodavíaunáreadetrabajopococonocidaanivelmundial,enpartedebidoasucortaexistenciayalreducidonúmerode especialistas que se dedican a ella. Ello pro-voca,entreotrasconsecuencias,lafaltadeunoscanales formales y específicos de comunicacióncientífica.Estoesespecialmenteciertoenelcasode los artículos, que tienden a repartirse entrelaspublicacionesdebiblioteconomía,archivísticay, sobre todo, de ingeniería informática. En loscongresos,encambio,seestánconsolidandounaspocasconvocatorias.Elcongresomásimportantees iPRES,quealternasucelebraciónanualentreEstadosUnidosyEuropa(laediciónde2010ten-drálugarenseptiembreenViena).Tambiéndes-tacanlaEuropeanconferenceondigitallibraries(Ecdl),enEuropa,ylaJointconferenceondigitallibraries(Jcdl),enEstadosUnidos.
4.Bibliografía
Becker,Christoph;Kulovits,Hannes;Rauber,An-dreas;Hofman,Hans.“Plato:aserviceorientedde-cision support system for preservation planning”. En:Proceedingsofthe8thACM/IEEE-CSJointconfondi-gital libraries, JCDL’08, June 16–20, 2008, Pittsburgh,Pennsylvania,USA.ACM,pp.367-370.
Bock,Nicholas.“Preservingthedataharvest”.Simme-try.Dimensionsofparticlephysics,2009,v.6,n.6,pp.18-22.
Dappert,Angela;Farquhar,Adam.“Significanceisintheeyeofthestakeholder”.M.Agostietal.(eds.):Researchandadvancedtechnologyfordigitallibraries,13thEuropeanconf.,ECDL2009,Corfu,Greece,Sept.27-Oct.2,2009.Proceedings,Lecturenotesincompu-terscience,v.5714,pp.297-308.
Thedigitaldilemma.Strategic issues inarchivingandaccessingdigitalmotionpicturematerials.AcademyofMotionPictureArtsandSciences,2007,74pp.
Térmens,Miquel.“Investigaciónydesarrolloenpre-servacióndigital:unbalance internacional”.Elprofe-sionaldelainformación,2009,v.18,n.6,pp.613-624.
Preservacióndigitalen2009–MiquelTérmens
Informeanual
MediaVaultProgramdeBerkeley
MVPinterimreport.Sept.2009http://mediavault.wordpress.com/tag/interim-report/
ElProgramaMediaVault(MVP)esunaaproxi-macióninterdisciplinarparapromoverelarchivodigitaldelosflujosdetrabajoacadémico,conser-
varlainformacióndigital,ofrecerunauto-serviciodegestióndelascoleccionesdigitales,yasegurarunentornodigitaldeapoyoalainvestigaciónyalaenseñanza,ydeserviciopúblico.
El principal problema es la falta de recursosentodoelcampusdeBerkeleyparaabordardeforma adecuada nuestra dependencia cada vezmayordelosmediosdigitales.
Algunasconclusiones:
AnuarioThinkEPI2010
230
– El problema es grande y hay que buscarsolucionescoherentes.Proveedoresdeserviciosytécnicostenemosquetrabajarjuntosyarmonizarlosesfuerzosenlamayormedidaposible.
– El problema es manejable, se puede avan-zar gradualmente. Existen medidas pragmáticasy relativamente baratas que se pueden aplicarde inmediato, que redundarían en importantesbeneficios.
– Algunas necesidades son básicas: un lugarseguroparaponerlascosasyunamanerafácildecompartirlas.Tenerunlugarseguroparaguardarlosdatosdeinvestigacióndaríamuchatranquili-dadalpersonal.
– Otrasnecesidadessoncomplejas: lapreser-vacióndigitalyelaccesopermanenteesdifícilalargoplazo.Latransferenciaderesponsabilidadesdelcreadoralcurator (elencargadodeguardarlos datos) trae consigo una gran complejidad
debidoalosrequisitosquenor-malmente se presentan paraasegurarlatransición.Hayqueserpacientesygenerososconlacomunidaddeusuariosydarsecuenta de que la complejidaddeesteámbitoesunobstáculoparalaadopcióndelMVP.
– Haypocos incentivosparahacer lo correcto. Es necesa-rioconcienciar,ycomunicarlasmejoresprácticas.
– Existe deseo de aprenderycompartir.Unadelasfortale-zasdetrabajarenunambienteacadémico es el deseo generaldeprobar cosas,experimentar,y de tolerancia a la imperfec-ción.
[...]– Sonposibleslassoluciones
comunes. Al centrarnos en elflujodetrabajoyenelciclodevida, lospuntosconflictivos se revelan iguales para la mayoríadelosusuarios.Haydepartamentosconmilesdeimágenes,otrostienenmenosarchivosperoquizánecesitan compartirlos mucho más. La escala esrelativa.
[...]Todo debe funcionar en auto-servicio. Los
usuariostienendiferentesnecesidades,capacida-desdepagarodecontribuir.Nohayunaescalamóvilentrelosricosquepuedenpagarlosservi-cios completos y los que no pueden. De hecho,elauto-servicio,esdecir,auto-empoderamiento,debeserunobjetivo.Enlamedidadeloposible,la empresa de investigación debe ser a la vezindependienteytotalmentecompatible.Elauto-servicioesclaveparaproblemasdeescalabilidadhumanosparalosproveedores,quesetraduceenmenorescostosymayorcapacidadderespuesta.
Informeanual