| Data for evigheita
Korleis kan vi sikre at elektronisk
informasjon ikkje forsvinn for oss – og at folk i framtida kan
forstå han?
I løpet av dei kommande tre åra kan vi anta at
menneskeheita skapar like mykje ny informasjon som ho har prestert
fram til dags dato. Mykje vil vere av ein art som verda sikkert kan
klare seg godt forutan.
Men om vi skiljar ut det uvesentlege, vil vi
likevel stå att med ei ufatteleg informasjonsmengd. Ho skal takast
hand om, vi vil at ho skal vare – om ikkje evig, så minst 100 år
fram i tid.
Korleis bevare ho, og korleis oppretthalde
tilgjengelegheita? Kor annleis må vi tenke i dag, for å finne
løysingar som skal verke om fem år, 15 år eller 50?
Kappløp med tida Dette er
hovudutfordringa for Mads Nygård og Kjetil Nørvåg, professorar ved
Institutt for datateknikk og informasjonsvitskap ved NTNU. Saman med
forskarar over hele verda deltek dei i kappløpet om å stanse den
digitale tidsbomba. Prosjektet dei leier, LongRec, skal finne
løysingar for langtidslagring av elektronisk informasjon.
For mens vi har klart å ta vare på skriftleg
materiale som er fleire tusen år gamalt, står vi i fare for å miste
det som er produsert etter 1990. Det vil seie alt som er lagt inn på
data, anten det er tekst, lyd eller bilde.
LongRec er på jakt etter eit lagringssystem som
må tilfredsstille mange ulike behov og brukast uavhengig av format
og maskinvare. I dag vert elektronisk informasjon lagra i mange
ulike format, som er tilpassa mange ulike maskiner. Det einaste
forskarane kan være heilt sikre på, er at format og maskiner som
blir brukt i dag, vil bli erstatta av noko heilt nytt.
Kortvarig glede Nesten frå
den eine dagen til den andre risikerer du å oppleve at maskinvare du
treng for å køyre eit bestemt dataprogram, ikkje lenger er å
oppdrive. Eller at datagrunnlaget berre er tilgjengeleg via program
som ikkje finst. For ikkje å snakke om at du har lagra bilde, lyd og
tekst på et format du korkje kan lese eller konvertere.
|
|
|
|
Informasjon og
lagring gjennom tidene. (Trykk på bilde for større versjon i
pdf-format.) Grafikk: Mads Nordtvedt |
|
| |
Tapet er sårt nok om dette skulle ramme di
private musikksamling og familiealbum. Verre å tenkje på er at
dokument som skal gjelde som rettslige bevis, kan bli borte; at
helseinformasjon forsvinn; at sikkerheitssystem kan bli sett ut av
drift.
For ikkje å snakke om at kulturarven risikerer å
gå tapt. Bare tenk på kor fattige vi ville ha vore i dag, om vi
ikkje hadde bevart oldtidas leirtavler eller kyrkjebøkene frå dei
siste hundreåra.
Prosedyrar LongRec-prosjektet
er delt opp i ulike tema, som det teknologiske og organisatoriske
rundt langtidslagring; søk i historisk informasjon; og
sikkerheit.
– Å flytte filer frå gamal til ny teknologi, for
eksempel frå tape til harddisk, eller frå gamle til nye harddiskar,
er forholdsvis enkelt. Det kan dei fleste som brukar PC, klare. Vår
utfordring er å etablere prosedyrar for korleis dette skal utførast.
Samstundes må vi sørgje for at ikkje filene forsvinn, om til dømes
eit firma eller ein organisasjon blir lagt ned eller reorganisert,
forklarer Nygård.
– Éi utfordring er å sikre at innhaldet på denne
CD-en blir ført over til eit nytt medium, til dømes ein ny CD, før
det oppstår feil på CD-en eller før lesarane for dagens CD-ar går ut
av produksjon. Ei anna utfordring er å vite kor denne CD-en er
lagra, samt kva som finst på den, den dagen ein har bruk for
innhaldet.
Endå ei utfordring er å handtere endringar av
filformat. Éi løysing er å konvertere gamal standard til det nye
formatet. Alternativet kan vere å utvikle utstyr eller program som
kan gjere det gamle formatet tilgjengeleg, utdjupar Nørvåg og
Nygård.
Mange lag informasjon Den
første løysinga er tilsynelatande den enklaste, men har ein openbar
svakheit. Ved konvertering frå eitt format til eit anna, vil ein
risikere å miste moment som ein ikkje var merksam på då
konverteringa vart utført.
Forskarane trekker fram handskrivne bøker frå
mellomalderen som eksempel:
– Konvertering til nytt format kan bety å berre
trekke ut teksten og lagre han i ei tekstfil. På den måten får vi
med informasjonen i teksten, men kanskje miste aspekt rundt
handskrifta, som både kan vere kunstnarisk og kan gje informasjon om
kven som skreiv teksten.
|
|
|
|
Det såkalla
automatlageret ved Nasjonalbiblioteket oppbevarer bøker,
tidsskrift og mikrofilm. Anlegget har plass til om lag 41 500
kassar med i alt omkring halvannan million dokument i
hengemapper. Foto: Kjell Sommerseth,
Nasjonalbiblioteket |
|
| |
Alternativet kan være å avfotografere sidene i
boka, og bruke eit program for å sjå bileta. På den måten blir all
informasjon bevart for framtida.
Søking på tid Ei stor ulempe
med dagens søkemotorteknologi er at han ikkje tek omsyn til
tidsaspektet. Dette er et formidabelt problem for dokumentsamlingar
som er skrivne gjennom fleire hundre år, for eksempel hos
Nasjonalbiblioteket.
La oss seie at du vil finne eit dokument som
inneheld ordet «Fosnavåg» og som vart skrive før år 1970. Slik
teknologien fungerar i dag, må du gå gjennom ei stor mengd søketreff
for å finne ut kva som ble skreve før 1970.
Nokre dokument inneheld eksplisitt informasjon om
når dei vart skrivne, som tilfellet er med daterte brev. Andre
dokument har ikkje den minste pekepinn om når dei vart til.
– I vår forsking vil vi mellom anna sjå på
korleis vi kan gjere effektive søk på «inneheld Fosnavåg og er
skrive før 1970». For dokument som er daterte, blir utfordringa å
utføre søket effektivt på store datamengder, med vidareutvikling av
indekseringsteknikkar.
For udaterte dokument må ein i tillegg forsøke å
tidsbestemme dokumentet, kanskje basert på statistiske
språkmodellar.
Til dømes kan vi sjå på kva for ord som vert
brukt. Er ordet «tsunami» med, er det relativt sannsynleg at
dokumentet er skrive etter 2004. Er i tillegg «Bin Laden» med, blir
vi styrka i trua på at det er skrive etter 2004, meiner
LongRec-forskarane.
Eit tilleggsproblem når ein søker i dokument frå
ulike tidsepokar, er at språket endrar seg over tid. Dette bør
søkeverktøyet kunne fange opp, slik at når ein søker etter
«Trondheim», også kan finne dokument som inneheld «Trondhjem» eller
«Nidaros». Dette gjeld sjølvsagt ikkje berre stadnamn, men alle
slags ord og uttrykk.
Sikkerheit Å
hindre uvedkommande tilgang til datafiler er ei generell
problemstilling innanfor datasikkerheit. NTNU-forskarane vil studere
fleire sikkerheitsaspekt: Korleis skal vi kunne fastslå at eit
dokument er skrive av ein bestemt person, eller kjem frå ei bestemt
bedrift?
Når eit format skal endrast, korleis skal vi vite
at ikkje informasjon blir lagt til eller fjerna i prosessen? At
ikkje historia vert forfalska?
Og når eit firma vert kjøpt
opp eller splitta, kven står da som eigar av dokumenta?
Håper å sjå lyset På lang
sikt håper Nygård og Nørvåg å bygge ut LongRec til eit EU-program. I
første omgang konsentrerer prosjektet seg om å søke løysingar for
nasjonale behov.
Blant samarbeidspartnarane er Det Norske Veritas
(DNV), som er initiativtakar til forskingsprosjektet. DNV har blant
anna behov for gode løysingar for distribusjon og sikker lagring av
digitale skipsteikningar.
Andre partnarar er Nasjonalbiblioteket, Bankanes
Betalingssentral, Riksarkivet, Brønnøysundregistra, StatoilHydro,
Norsk Reknesentral og Utanriksdepartementet. For ikkje å gløyme
CSAM, Rikshospitalets portal for helseinformatikk, og søkemotoren
Fast.
Nokre av løysingane deltakarane spør etter, har dei
felles bruk for. Andre løysingar er meir spesifikke. Uansett har
ikkje forskarane kome stort lenger enn til kartleggingsfasen. Men
databasegruppa ved Institutt for datateknikk og informasjonsvitskap
har 15 års erfaring med tidsrelaterte data og minst det dobbelte med
handsaming av store datamengder.
– No samlar vi inn alle lure tankar som er tenkte
frå før, for å bygge vidare på dei beste, seier Nygård og Nørvåg.
– Prosjektet må byggast bit for bit. Vi har
kanskje sett nokre små lys, ein dag venter forhåpentlegvis full
flombelysning.
Av Synnøve Ressem
Kontakt: Mads Nygård, Inst. for datateknikk og
informasjonsvitskap, NTNU Tlf: 735 93 470 e-post: mads.nygaard@idi.ntnu.no |