Om data, levetid og ansvar for fremtiden

Posted on 08/03/2006 in RettPå

Å få tak i data fra en backup eller et medium som er 15+ år gammelt, er som regel en kostbar og tidkrevende øvelse som ikke alltid lykkes. Hva gjør VI for å ivareta tilsvarende situasjon om 15 år? Sørger vi egentlig for at det er umulig?

Å vite er én ting. Å agere ut fra viten er en annen. Hvor ofte er det ikke praktisk – eller i alle fall fristende – å ignorere noe vi vet fordi det ikke passer å håndtere utfordringen? Fenomenet, om vi kan kalle det det, dukker spesielt opp når utfordringen ligger langt frem i tid. Og vi snakker ikke da om landets pensjonsforpliktelser, ozonlaget eller andre forurensnings-relaterte utfordringer.

Vi holder oss på et langt mer jordnært, IT-relatert plan. En av våre utfordringer i hverdagen er å gjøre valg som er riktige for morgendagen og – i mange tilfeller – for lang tid fremover. Å sørge for at virksomheten har optimale verktøy i forhold til eksisterende og antatte behov og tilgjengelige ressurser, hører hjemme i den enkle kategorien. Et hakk mer komplisert blir det når vi skal sørge for at våre dokumentarkiver og andre data er tilgjengelige og lesbare om 5, 10 og kanskje 25 år – i noen tilfeller enda lenger. Behovet for tilgjengelighet kan være styrt av lover og regler fra det offentlige, eller av dataenes beskaffenhet. Når tok vi oss tid til å kontrollere at vi fortsatt kan bruke data som er eldre enn 10 år, eller kanskje bare 5?

Langtidslagring av data handler om mye mer enn mediets fysiske holdbarhet.

Det er lett å se seg blind på at dette handler om lagringsmedia og deres holdbarhet. Visst er både media og forholdene de lagres under viktige, og vi er inneforstått med at deres levetid er endelig, men vi vet ikke helt hvor grensene går. For eksempel ble det for 12 år siden antatt at hjemmebrente CDer hadde en levetid på 10-15 år. Disse CDene lever fortsatt i beste velgående – uten tegn til forringelse, gitt at de var av god kvalitet. De billige variantene – som markedet fortsatt flommer over av – har langt dårligere odds. Dette vet vi fra før. Mediets kvalitet har alltid vært viktig, og for kritiske data sparer vi ikke på kvaliteten. Vi sto selv nylig overfor utfordringen å skulle hente data fra 8″ disketter fra begynnelsen av 80-tallet, som definitivt ikke hadde vært lagret under ‘vennlige forhold’ de siste 20 årene. Ett fabrikat viste seg å være fullstendig problemfritt, et annet helt umulig. Om vi kunne kjenne til denne forskjellen på det tidspunkt de ble anskaffet? Sannsynligvis. Men om han eller hun som anskaffet mediet kunne forestille seg at de skulle leses over 20 år senere? Neppe. Likevel var det sannsynligvis en del av ansvaret…

At mediet holder er imidlertid bare en del av utfordringen – kanskje halvparten. Neste trinn er å finne utstyr som er fysisk i stand til å lese mediet, og deretter programvare som kan bruke utstyret og forstå innholdet. Hvilken verdi har våre tusener av gamle magnetbånd om det ikke finnes utstyr som kan lese dem? Heldigvis finnes det selskaper som har spesialisert seg på den slags. At det koster en del, spiller som regel ingen stor rolle dersom dataene er verdifulle nok. I vårt tilfelle fantes utstyret sammen med dataene, og lot seg med rimelig innsats starte. Samtidig fikk vi en påminnelse om hvilke underverker som kunne gjøres med 56 kB hukommelse og et masselager på 512kB.

Poenget i denne forbindelse er en påminnelse om det ansvar mange av oss har for fremtidig tilgjengelighet av de data vi forvalter. I praksis betyr det å legge forholdene til rette for at det finnes pålitelige alternativer for lesing av våre gamle arkiver når generasjoner av utstyr sendes til de evige jaktmarker. Med mindre vi tar oss tid til å konvertere dataene (fornye – på fagspråket) før utstyret forsvinner. Vi kjenner ikke mange som prioriterer dette. Uansett metode er det en god og billig sikkerhetsforanstaltning å registrere fysisk format sammen med mediet. For noen medietyper er formatet implisitt, for andre det motsatte.

Den tredje utfordringen er verktøy som kan forstå dataene, og det er interessant at denne utfordringen de siste årene er blitt den største. Vi skal unnlate å utpeke syndebukker i så henseende, og heller ikke henfalle til mimring, men det er opplagt at oppgaven var langt enklere da verden i hovedsak var enten ASCII eller EBCDIC. Selv da – på 70 og 80-tallet – var imidlertid dataformat og representasjon for binære-data høyst individuelle fra leverandør til leverandør, så ingen kan hevde at utfordringen er ny.

I våre dager er de fleste datatyper et problem.

I våre dager er de fleste datatyper et problem. Verktøy som er bakover-kompatible med seg selv synes å ha blitt unntaket snarere enn regelen. Dokumentbehandlings-verktøyet (Adobe) FrameMaker, som var vår trofaste medarbeider til vi byttet plattform for et års tid siden, er et lysende unntak. Vi kan fortsatt åpne dokumenter laget på 80-tallet, som riktignok ikke nødvendigvis har riktige fonter, men ellers har både format og innhold i behold. Også andre verktøy fra samme leverandører synes å heve seg over gjennomsnittet med hensyn til bakover-kompatibilitet.

Proaktive tiltak: Hva kan vi gjøre?

Poenget i denne forbindelse er imidlertid: Hva kan vi gjøre for å unngå problemer om 10 eller 20 år? Svaret er ikke særlig komplisert og løsningen er heller ikke kostbar. Men ting tar tid, og tid er det vi har minst av. Med andre ord savner vi verktøy som gjør jobben automatisk, som vi sender data gjennom for langtidslagring, og med rimelig sikkerhet kan vite at resultatet lar seg forstå og bruke om 10 eller 20 år.

Men tilbake til løsningen: For alle slags dokumenter – brev, rapporter, notater, presentasjoner og så videre – er PDF det eneste alternativet som både tar vare på innhold og utseende. Kan vi garantere at fremtidens PDF-verktøy vil kunne lese dagens PDF-filer? Adobe, som eier formatet, vil neppe komme med en slik garanti, men vi tar sjansen. PDF (se analysen PDF: Fleksibelt, fritt, tilgjengelig) er et åpent format som støttes av hundrevis av verktøy fra utallige leverandører. Denne bredden gir sikkerhet for fremtiden. Det vil alltid finnes en plattform og et program som kan lese gamle PDF-dokumenter. Kanskje øker vanskelighetsgraden over tid, men umulig blir det ikke – ei heller om 25 år. Tilsvarende gjelder for bildeformater som jpeg, tiff og flere. De er stabile og fremtidssikre. Om vi vil begrense antall formater, kan også denne kategorien lagres som PDF. I overskuelig fremtid kan ODF, Open Document Format bli et attraktivt og naturlig alternativ til PDF, men enn så lenge er PDF den eneste som er tilliten verdig.

Verre er det med applikasjonsspesifikke formater som databasefiler og regneark. Uansett hva leverandørene måtte si, er det vanskelig å stole på at de vil være lesbare om 15 eller 25 år. Leverandører kommer og går, dataformater likeså, og når leverandøren er borte (eller spist av en annen) er det smått med ansvarligheten overfor historien. Derfor bør vår langtidslagrings-prosedyre sørge for å legge til side en tekst-representasjon av dataene, i CSV- eller et annet enkelt tekst-format, med filnavn som også forteller hvilken tegnkoding som er brukt. Tungvint? Masse data? Hvilken rolle spiller vel det når vi står der om 20 år og MÅ ha dataene? Dessuten – enkelte former for komprimering kan være akseptabelt, men velg med omhu. Også komprimerings-algoritmer kommer og går. En variant av middels kvalitet med stor utbredelse (som ZIP) er trolig et langt bedre valg enn den mest sofistikerte som enda ikke har fått fotfeste i markedet.

Når nøden er størst …

Men hva om ingen av disse mekanismene løser vårt akutte problem? Hva om vi virkelig må kjøre en 15 år gammel applikasjon for å få dekodet innholdet? Vanskelighetsgraden (og prisen) øker, men umulig er det neppe. IBM har hjelp for sine kunder, nærmest uansett alder. Verre blir det om plattformen er død, fra en leverandør som forsvant for 2 generasjoner siden, for eksempel Data General, Honeywell, Interdata – eller maskinvaren er en PDP-15 fra midten av 70-tallet? Løsningen kan være å finne på Internettet. IT-bransjen er langt mer nostalgisk enn de fleste er klar over, og det finnes hundrevis av simulatorer som kjører de mest obskure systemer. Den mest velorganiserte vi har kommet over, er SIMH, et veritabelt on line museum, emulatorer for ikke mindre enn 22 arkitekturer og linker til ferdige OS-pakker (VMS, RDOS, RSTS/E, historiske Unix-versjoner og så videre), samt enkelte verktøy (for eksempel Digitals Rdb databasesystem, som ble overtatt av Oracle) som kan lastes ned og kjøres. Selve simulatoren går på de fleste plattformer – fra Windows og OS/2 til Solaris, Linux og OS X.

Med andre ord – om hardwaren er borte for 10, 20 eller flere år siden, er det fortsatt håp – så lenge applikasjonen finnes og dataene kan leses. Spørsmålet er ‘hvor mye er dataene verdt’?

Eller – om vi flytter oss til nåtiden og våre egne utfordringer og ansvar: Skal vi ta vare på fremtiden nå, eller overlate problemene til våre etterfølgere?

Proaktive tiltak: Hva kan vi gjøre?

Når nøden er størst …

Legg igjen kommentar Avbryt svar