Uw profiel is aangemaakt

U heeft een e-mail ontvangen met een activatielink. Vergeet niet binnen 24 uur uw profiel te activeren. Veel leesplezier!

Vijf oplossingen tegen veranderde bestandsformaten en rottende bits

Home

Robert Visscher

© thinkstock

Wie bestanden opslaat op een harde schijf of in de cloud, raakt ze nooit meer kwijt, toch? Mis! Omvallende bitjes en veranderende bestandsformaten maken foto's, archieven en bronnen voorgoed ontoegankelijk. Wetenschappers, verzin een list.

De digitale foto's van het huwelijk, die heerlijke vakantie of de opgroeiende kinderen. Wie er zuinig op is, slaat ze goed op. Bijvoorbeeld op de harde schijf van een computer of in de cloud. Dan blijft het toch goed bewaard? Nee, want wie denkt dat de foto's vervolgens altijd toegankelijk zijn, komt bedrogen uit. Het gaat maar al te vaak mis, waardoor complete bestanden zomaar verdwijnen. Bij vakantiefoto's is dat al vervelend, maar voor wetenschappers zijn de gevolgen minstens zo groot.

"Hoe kunnen wetenschappers elkaars onderzoeksresultaten controleren als ze onleesbaar zijn? En hoe kan de politie goed speurwerk doen als de digitale bewijslast er niet meer is? Dit is een gigantisch probleem", zegt de Belgische wiskundige en computerwetenschapper Herbert Van de Sompel. Hij is een van de belangrijkste deskundigen op dit gebied en werkt bij het Amerikaanse Los Alamos National Laboratory.

Vint Cerf, een van de vaders van het internet, probeerde een paar jaar geleden een powerpointpresentatie uit 1997 te openen op zijn computer. Dat lukte niet. Deze vicepresident van Google schrok zich rot en waarschuwt sindsdien voor dit probleem. De ontwikkeling van computers en software gaat razendsnel. Dat heeft tot gevolg dat je oude programma's nu vaak al niet meer kan openen. "Dat geldt bijvoorbeeld ook voor een tekstverwerker als WordPerfect, die vroeger zeer populair was", zegt Marcel Ras van de Nationale Coalitie Digitale Duurzaamheid. Die werd in 2008 opgericht door een aantal grote Nederlandse collectiebeherende instellingen, waaronder de belangrijkste archieven, om digitale vergankelijkheid tegen te gaan.

Vooral archieven hebben last van veranderende bestandsformaten. Want hoe open je de oude notulen van belangrijke vergaderingen van de Tweede Kamer of de data van wetenschappelijke onderzoeken? Het meest interessante voorbeeld is de maanlanding van 1969. De data van deze missie zijn al tientallen jaren onleesbaar. Ze zijn netjes opgeslagen, maar er is geen computer meer die de gegevens kan lezen.

Omvallende bitjes
Naast deze problemen zijn er nog andere oorzaken waarom digitaal veel verloren kan gaan. Neem nou omvallende bitjes. Wanneer je een foto op een harde schijf opslaat, verandert deze in enen en nullen, bitjes. Dit gebeurt door een proces van magnetisatie. Maar na verloop van tijd vallen sommige bitjes pardoes om. Een 0 wordt een 1 en andersom. Dan doet de magnetisatie het niet goed genoeg meer en kunnen bestanden ontoegankelijk worden. Vaak heeft een harde schijf maar een levensduur van vijf jaar.

"Je wil natuurlijk weten wanneer dit precies gebeurt en welk bitje verandert", zegt David Rosenthal, computerwetenschapper en opslagspecialist van Stanford University (VS). "Maar dat weten we niet."

Ook websites zijn vergankelijk. Het wereldwijde web staat vol met links die niet meer werken - 'linkrot' genoemd. "Het kan zijn dat een link niet meer werkt na een tijdje of dat de inhoud ervan is veranderd. Bijvoorbeeld doordat een (nieuws)bericht is geüpdatet", zegt Van de Sompel.

Het is vervelend als je zelf op een link klikt die niet meer werkt. "Maar link rot is vooral een ernstig probleem voor de wetenschap. Wanneer een onderzoeker in een publicatie verwijst naar een website, dan kunnen de lezers niet controleren of klopt wat wordt beweerd." Van de Sompel publiceerde hier onlangs een studie over in het wetenschappelijke tijdschrift PLOS ONE.

Dode links
Hij ontdekte dat na een jaar al 10 tot 15 procent van de links waarnaar in wetenschappelijke publicaties wordt verwezen, dood zijn. "Bij een paper van vijf jaar geleden werkt gemiddeld genomen 40 procent van de verwijzingen niet meer", aldus Van de Sompel. Het web rot dus langzaam weg.

Ander onderzoek uit 2014 ondersteunt dit. Daaruit bleek dat meer dan 70 procent van de links in wetenschappelijke tijdschriften over wetgeving, waaronder de Harvard Law Review, niet meer werkten. Bij uitspraken van het Amerikaanse hooggerechtshof werkte de helft van de links niet meer. "Dat is verschrikkelijk. Hoe kun je dan nagaan of een uitspraak rechtvaardig was? Of deze überhaupt serieus bestuderen?", vraagt Van de Sompel.

Wetenschappers en onderzoekers werken aan oplossingen voor al deze problemen rond veranderende bestandsformaten en rottende bits en links. Hier volgen er vijf op een rij.

Lees verder na de advertentie
De ontwikkeling van computers en software gaat razendsnel. Dat heeft tot gevolg dat je oude programma's nu vaak al niet meer kan openen.

1 Oude computerprogramma's gebruiken
------------------------------------
Software die het besturingssysteem van een nieuwe computer omtovert in een oud exemplaar. Dat is de oplossing om oude bestanden, zoals foto's, presentaties en teksten, toch te openen.

Ook gebruikersgroepen van hobbyisten op internet bieden vaak uitkomst. Zij weten regelmatig weinig voorkomende bestandsformaten nog te openen en daar maken Nederlandse archieven graag gebruik van. Maar dit werkt helaas niet bij alles. De data van de maanlanding bijvoorbeeld zijn erg afwijkend en blijven dus onbereikbaar.

Van groot belang is hoe dit in de toekomst te voorkomen valt. "Bij alles wat we nu opslaan in digitale archieven geven we heel duidelijk aan wat voor soort bestand het is en waarmee je het kunt openen", zegt Ras. "Overigens werken collectiebeherende instellingen veel samen. Zodat ze op dezelfde manier afbeeldingen, tekstbestanden en in toenemende mate ook audiovisuele bronnen opslaan."

2 Trucje spoort omgevallen bit op
------------------------------------------------------
Bestanden kunnen onleesbaar worden door omvallende bitjes. Die zijn op te sporen met 'checksums'. "Een bestand kun je zien als een heel groot getal. Checksums zetten die om in een kleiner getal", zegt Dirk Roorda. Checksums zijn een soort vingerafdrukken van bestanden. Roorda is onderzoeker bij DANS, een instituut dat in Nederland data van wetenschappelijk onderzoek opslaat.

Het is handig om checksums te gebruiken, omdat je dan niet door de miljoenen bitjes van een bestand hoeft te vlooien op zoek naar die ene omgevallen bit. De checksums signaleren foutjes en kunnen die ook herstellen. "Mijn programma past daarna het bestand met de omgevallen bit net zolang aan totdat de checksum weer klopt. Dan weet je zeker dat alles weer is hersteld. Dit is een methode die naast de back-up werkt en daar ook op toegepast kan worden." De aanpak van Roorda wordt elders nog niet grootschalig toegepast.

3 Op veel plekken opslaan
------------------------------------------
Een andere methode is gegevens op zoveel mogelijk plekken overal ter wereld onafhankelijk van elkaar opslaan. Dat is de manier waarop Lockss (Lots of Copies Keep Stuff Safe), bedacht door David Rosenthal (Stanford University) werkt. Hij ontwikkelde Lockss oorspronkelijk voor het opslaan en digitaal toegankelijk maken van wetenschappelijke tijdschriften. "Maar we slaan nu ook data van wetenschappelijke onderzoeken op", vertelt hij.

Dat gebeurt op meerdere plekken. Bijvoorbeeld in Hongkong, Engeland, Australië, Italië en Duitsland. "Iedere opslagplek heeft een eigen beheerder. Wanneer diegene een foutje maakt, dan heeft dat geen effect op de andere opgeslagen bestanden. Natuurlijk kan een bit omvallen in Canada, maar de kans dat precies dezelfde bit dan ook op de andere locaties omvalt is onvoorstelbaar klein", zegt Rosenthal.

Het is een betrouwbare methode. Toch is het de vraag of deze manier van opslaan straks massaal wordt gebruikt. "Want het is niet goedkoop", zegt Rosenthal. En daarmee kaart hij een belangrijk punt aan. "Iedere oplossing om data beter en veiliger op te slaan is duurder dan het gewoon op de harde schijf van de eigen computer te zetten. Veel onderzoekers hebben geen geld voor het veilig opslaan van hun data. Ze besteden het vaak liever aan hun onderzoek en niet aan de zorgvuldige opslag ervan. Ik ben zelf wetenschapper en begrijp dat maar al te goed. Tegelijkertijd wordt daarmee het probleem onderschat."

De strijd tegen omvallende bitjes is dus ook een economisch gevecht, geeft hij terecht aan.

Het meest interessante voorbeeld is de maanlanding van 1969. De data van deze missie zijn al tientallen jaren onleesbaar. Ze zijn netjes opgeslagen, maar er is geen computer meer die de gegevens kan lezen.

4 Het web opslaan
------------------------------
Als oplossing voor links die niet meer werken, ontwikkelen onderzoekers webarchieven, die het wereldwijde web opslaan. Daardoor zie je toch waarnaar een link verwijst, ook al is de site veranderd of verwijderd.

Dat is mogelijk dankzij onder meer de Wayback Machine van webarchief Internet Archive, een non-profit organisatie in de VS. Daarbij kun je oudere versies van sites bekijken van in totaal 438 miljard pagina's. In Nederland slaat onder meer de Koninklijke Bibliotheek belangrijke sites op.

"Maar geen enkel webarchief kan alles opslaan, want het web is gigantisch groot", zegt Van de Sompel. Hij ontwikkelt daarom een eigen tijdmachine: Memento, time travel for the web. Dat is een programma dat meerdere webarchieven tegelijkertijd gebruikt. Daardoor is het bereik groter. "We kunnen webarchieven ook toepassen om links toegankelijk te houden. Wetenschappers maken bijvoorbeeld een snapshot in een webarchief van de site waarnaar ze refereren."

Ook voor de politie zijn dit soort toepassingen een uitkomst. Een interessant en recent voorbeeld is een bericht op de sociale media van een separatistenleider in Oekraïne. Hij postte op VKontakte, de Russische tegenhanger van Facebook, dat hij een vrachtvliegtuig uit de lucht had geschoten, inclusief een link naar een video van het wrak van het toestel. Toen echter bleek dat vlucht MH17 was neergehaald, verwijderde hij zijn post. Hoe we dit weten? Twee webarchieven maakten een screenshot voor en na verwijdering. "Dit soort voorbeelden geven aan hoe waardevol het is om websites te bewaren en ze toegankelijk te houden", zegt Van de Sompel.

5 Printen
--------------
Er is ook een voor de hand liggende oplossing die niets te maken heeft met slimme technieken: printen.

Dat is niet zo vreemd als op het eerste gezicht lijkt. Ras wijst op zijn bureau naar een vijftig jaar oude rode reisgids van Rome. "Dit boek heeft geen last van veranderende bestandsformaten of omvallende bitjes. Het is toegankelijk als ik de taal kan lezen. Maar met een printje doe je een interactieve website natuurlijk geen recht."

Er is ook een voor de hand liggende oplossing die niets te maken heeft met slimme technieken: printen.

Deel dit artikel

De ontwikkeling van computers en software gaat razendsnel. Dat heeft tot gevolg dat je oude programma's nu vaak al niet meer kan openen.

Het meest interessante voorbeeld is de maanlanding van 1969. De data van deze missie zijn al tientallen jaren onleesbaar. Ze zijn netjes opgeslagen, maar er is geen computer meer die de gegevens kan lezen.

Er is ook een voor de hand liggende oplossing die niets te maken heeft met slimme technieken: printen.