Miten kirjastojen, arkistojen ja museoiden digitaaliset kokoelmat säilytetään?

Hakala J & Rajakangas J-P (2021). Miten kirjastojen, arkistojen ja museoiden digitaaliset kokoelmat säilytetään? Tietolinja, 2021(1). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe2021061938981

Kirjastojen digitaaliset kokoelmat kasvavat nopeasti. Yleisin syy tähän on tieteellisen ja vähä vähältä muunkin julkaisutoiminnan siirtyminen verkkoon. Kansalliskirjastoissa ja muissa tieteellisissä kirjastoissa suuria digitaalisia kokoelmia syntyy myös perinteisten kokoelmien takautuvan digitoinnin ansiosta. Asiakkaiden kannalta digitalisoituminen on periaatteessa myönteistä: aineistojen saatavuus paranee. Mutta miten käy, jos kustantaja lopettaa toimintansa ja sen e-aineistot katoavat verkosta, tai jos digitoitu aineisto ”happanee” käsiin? Miten ratkaistaan tiedostomuotojen vanhenemisesta aiheutuvat ongelmat?

Kuva Elias Erici Til-Landzin vuonna 1683 julkaistusta kirjasta Icones novae. Kirjassa on yksinkertaiset mustavalkoiset puupiirrokset sadasta viidestäkymmenestä yhdeksästä Turun seudulla kasvaneesta kasvista.

Kuva 1: Aukeama Elias Erici Til-Landzin vuonna 1683 julkaistusta kirjasta Icones novae.

Digitaaliset aineistot ratkaisevat monta vaivaa, mutta luovat myös joukon uusia. Laadukkaalle paperille painetut julkaisut säilyvät hyvissä oloissa lukukelpoisina satoja vuosia, mutta tiedostot voivat siirtyä ajasta ikuisuuteen jo muutamassa vuodessa, jos tallennusväline hajoaa tai muuttuu muulla tavoin lukukelvottomaksi. Digitaalisten aineistojen pitkäaikaissäilyttäminen on iso haaste, jota ei ole vielä missään täysin ratkaistu. Tämä artikkeli kertoo, mitä digitaalisten aineistojen pitkäaikaissäilytyksellä tarkoitetaan, ja miten se on tarkoitus Suomessa hoitaa Tieteen tietotekniikan keskus CSC:n (https://www.csc.fi/) ylläpitämän pitkäaikaissäilytys- eli PAS-palvelun ja sitä hyödyntävien organisaatioiden kuten Kansalliskirjaston yhteistyönä.

Bittien ja ymmärrettävyyden säilyttäminen

Riippumatta siitä, miten digitaalisten aineistojen käyttö aiotaan hoitaa, tiedostojen (bittien) säilyttäminen on välttämätöntä. Jos tiedosto katoaa tai korruptoituu, peli on menetetty. Kaikeksi onneksi bittien säilytyksen vaatimukset tiedetään hyvin, ja niihin on olemassa toimivat tekniset ratkaisut, joiden merkittävin haaste on niiden kalleus (ks. luku Tallennus).

Pelkkä bittien säilyttäminen ei vielä takaa pitkäaikaissäilytyksen varsinaista tavoitetta eli sitä, että aineistot säilyisivät ymmärrettävinä. Ymmärrettävyys voidaan tulkita kahdella tavalla, teknisesti tai aineiston käyttäjien (kohdeyhteisön) kannalta. Yleensä otetaan huomioon vain tekniikka, mikä helpottaa ongelman ratkaisemista.

Teknisesti tiedosto on ymmärrettävissä, jos tarjolla on laitteistoympäristö, sovellus ja teknistä metatietoa, jonka avulla haluttu tiedosto voidaan avata ja tulkita. Metatieto tarkoittaa tässä tietoa tiedostomuodosta sekä ohjelmistoista, joiden avulla tiedosto on luettavissa ja mahdollisesti myös muokattavissa. Jos teknistä metatietoa ei ole, voidaan tarvita digitaalista arkeologiaa tiedostomuodon ja tarvittavien sovellusten selvittämiseksi.

Oletetaan että levykkeeltä löytynyt arvoituksellinen tiedosto on lähemmin tarkasteltuna osoittautunut Teko-ohjelmistolla laadituksi. Valtion tietokonekeskuksen Teko-tekstinkäsittelyohjelmisto oli 80-luvulla julkishallinnon de facto –standardi. Ohjelmisto toimi MS-DOS-käyttöjärjestelmässä ja katosi markkinoilta, muun muassa koska Windows-version kehittäminen epäonnistui. Sovellusta käytettiin kuitenkin valtionhallinnossa vielä 2000-luvulla[1] eikä olisi ihme, jos arkistojen kätköistä löytyisi yhä säilyttämisen arvoisia Teko-tiedostoja.

Varttuneemmille kirjastojen asiakkaille MS-DOS-käyttöjärjestelmä ja Teko-sovellus voivat olla tuttuja vuosien takaa. Heille kynnys alkuperäisten TEKO-tekstien käyttöön ei välttämättä ole ylivoimainen, jos kirjasto pystyisi tarjoamaan alkuperäistä vastaavan käyttöympäristön. Myös asiakkaat, joille aineistojen autenttisuus ulkoasua myöten on tärkeää, voisivat olla valmiita vanhojen sovellusten opiskeluun. Mutta muille asiakkaille parempi ratkaisu on migraatio eli vanhojen Teko-tekstidokumenttien muuntaminen uudempaan muotoon, siitä huolimatta, että uudessa tiedostomuodossa dokumenttien ulkoasu ja sisältökin voivat muuttua.

CSC:n PAS-palvelussa ja useimmissa muissakin PAS-järjestelmissä pitkäaikaissäilytys taataan ensisijaisesti migraation avulla. Pitkäaikaissäilytystä varten PAS-palvelua hyödyntävän organisaation on muunnettava tiedostot yhteisesti hyväksyttyyn säilytyskelpoiseen muotoon, kuten PDF:stä PDF/A:ksi tai Microsoftin Office-sovellusten OOXML:stä ODF:ksi (Open Document Format[2]). Hyödyntävä organisaatio saa siirtää palveluun muutakin kuin säilytyskelpoista aineistoa, mutta vain bitteinä säilytettäväksi. Varsinkin jos migraatiossa ei pystytä säilyttämään alkuperäisen aineiston tietosisältöä, voi olla tarpeen siirtää PAS-palveluun sekä alkuperäinen tiedosto että sen muunnettu versio, mikä mahdollistaa sen, että asiakkaat voivat valita niistä käyttöpreferenssinsä mukaan jommankumman.

Jos tiedoston migraatio ei ole mahdollista, säilytysmenetelmä on alkuperäisen käyttöympäristön jäljittely eli emulaatio. Sitä sovelletaan esimerkiksi peleihin ja muihin ohjelmistoihin, mutta mikään ei periaatteessa estä käyttämästä sitä vaikkapa Teko-teksteihin. Emulaation etu on PAS-järjestelmään tallennettujen aineistojen alkuperäisen sisällön ja ulkoasun säilyminen. Mutta vanhojen sovellusten opettelu voi olla vaikeaa, ja mitä vanhempia tarvittavat sovellukset ovat, sitä korkeampi on niiden käytön kynnys asiakkaille.

Emulaation suurin haaste voi pitkällä aikavälillä olla se, ettei tarvittavia emulointiohjelmia ole, ja niiden kehittäminen voi olla vaikeaa. Windowsissa on MS-DOS –emulointimahdollisuus, mutta rakennetaanko sitä enää Windowsin seuraajaan joskus tulevaisuudessa? Ellei, voiko tuossa tulevaisuuden käyttöjärjestelmässä varmasti ajaa MS-DOS –emulointisovellusta Windows-emulointisovelluksen päällä? Onko emulaattorisovellusten pinoaminen päällekkäin riittävän toimiva ratkaisu? Näihin kysymyksiin ei ole vastausta, mikä syö luottamusta emulointiin pitkäaikaissäilytyksen menetelmänä.

Migraatioita suunniteltaessa on päätettävä, säilytetäänkö alkuperäinen tiedosto. Ellei levytilan puute sanele muuta ratkaisua, voi olla järkevää säilyttää alkuperäiset dokumentit. Silloin autenttisuutta arvostaville asiakkaille voidaan edelleen tarjota alkuperäisen aineiston käyttömahdollisuus, ja seuraavakin migraatio voidaan tehdä virheettömistä tiedostoista, jos siihen kehitetään tarvittavat välineet.

Kohdeyhteisöt

Käyttäjien näkökulmasta pitkäaikaissäilytys nojautuu kohdeyhteisön käsitteeseen. Keille säilytettävä aineisto on tärkeä, ja missä muodossa he sen haluavat? CSC:n PAS-palvelun ylläpitäjät eivät voi tätä tietää, ja siksi jokainen PAS-palvelua joko suoraan tai välillisesti hyödyntävä organisaatio vastaa omien kohdeyhteisöjensä ja niiden muuttuvien tarpeiden seurannasta. Eli kun CSC:n ylläpitämään Fairdata PAS-palveluun on tallennettu jokin tutkimusaineisto, sen vastuuorganisaation pitää tietää miten tuota aineistoa hyödynnetään, ja ketkä sitä käyttävät.

Yksi pitkäaikaissäilytyksen suurista haasteista on se, että aikojen saatossa kohdeyhteisöt ja niiden preferenssit vaihtelevat. Tältä osin pitkäaikaissäilytys ja kokoelmapolitiikka lyövät kättä: jos painetun aineiston käyttö vähenee tai loppuu, sitä voidaan karsia esimerkiksi lähettämällä aineistoa Varastokirjastoon. Digitaalisten kokoelmien osalta PAS-palvelulle voi vuosien saatossa kehittyä vastaava rooli. Koska tallennustilan hinta laskee ainakin vielä lähivuodet nopeasti, PAS-palvelussa olevien digitaalisten aineistojen poistoa tuskin joudutaan harkitsemaan vielä aikoihin. Tärkeä ero Varastokirjastoon on se, että PAS-palvelussa säilytyksen ambitiotasoa voidaan laskea, jos kustannuksia on pakko säästää. Tämä voisi tarkoittaa esimerkiksi migraation automatisointiasteen nostoa (vähemmän muunnettujen tiedostojen manuaalisia tarkistuksia) tai jopa migraatioiden tekemättä jättämistä. Tällöin PAS-palvelu säilyttäisi aineistoa vain bittitasolla. Tämän tason säästötoimet johtavat ennen pitkää digitaaliseen arkeologiaan, jonka aiheuttamat kustannukset saattavat ennen pitkää ylittää migraation moninkertaisesti, jos vanhentumaan päässeen aineiston käyttöönotto osoittautuu haasteelliseksi.

Kun jokin digitaalinen kokoelma on aktiivikäytössä, kohdeyhteisön muutokset voivat edellyttää säilytystoimenpiteitä jo ennen kuin aineisto vanhenee teknisesti. Tutkimusaineistot ovat hyvä esimerkki tästä. Jonkin aineiston kohdeyhteisö voi kasvaa, jolloin sen käytettävyys voi kaivata parannusta. Vastaavasti kohdeyhteisön ja/tai sen tutkimusparadigman muutokset voivat edellyttää tutkimusaineiston uudelleenorganisoimista uuden tutkimusotteen edellyttämällä tavalla. PAS-palvelu ei pysty näitä muutoksia tekemään, vaan ne ovat tutkijayhteisön vastuulla.

Perinteisiin julkaisuihin kohdistunee vähemmän muutospaineita, mutta niidenkin ymmärrettävyyden säilyttäminen voi aikaa myöden edellyttää asiantuntija-apua. Esimerkiksi Daniel Jusleniuksen kuulu Vindicias Fennorum eli Suomalaisten puolustus vuodelta 1703 on koko nykyisen kohdeyhteisönsä (Suomen historian tutkijat ja harrastajat) ymmärrettävissä vain siksi, että SKS on julkaissut 1994 latinankielisestä alkuperäisteoksesta Juhani Sarsilan suomennoksen, johon sisältyy käännöksen lisäksi laaja selitysosa.

Vindicias Fennorum on, kuten kaikki muutkin Kansalliskirjaston kokoelmissa olevat Turun Akatemian väitöskirjat, digitoitu ja vapaasti kaikkien käytettävissä kirjaston Doria-palvelussa omana kokoelmanaan[3]. Suurelle osalle kirjaston käyttäjistä väitöskirjojen kieli, latina, on merkittävä este. Kohdeyhteisö on muuttunut: kun väitöskirjat kirjoitettiin, latina oli tieteen kieli. Nykyistä kohderyhmää ajatellen niitä väitöskirjoja, jotka ovat edelleen kiinnostavia (kuten pitäjänhistoriat ja kansatieteelliset tutkimukset, joista osa on onneksi ruotsinkielisiä) on suomennettu, mutta käännökset eivät ole tekijänoikeuksista vapaita eikä niitä digitoitu yhdessä alkuperäistekstien kanssa.

Kun digitaaliset julkaisut ovat uusia, ymmärrettävyyden säilyttämiseen riittää migraatio, eikä dokumenttien sisältöön tarvitse puuttua. Pitkäaikaissäilytys keskittyykin käytännössä ymmärrettävyyden tekniseen säilyttämiseen. Mutta mitä pidempään aikaa kuluu, sitä haasteellisempaa ymmärrettävyyden säilyttämisestä tulee kohdeyhteisöjen eli käyttäjien kannalta. Kieli ja maailma muuttuvat, ja tämä ongelma on riippumaton siitä, onko pitkäaikaissäilytettävä aineisto painettua vai digitaalista. Eikä ymmärrettävyyden säilyttämisessä ole kyse pelkästään käännöstarpeesta: suomenkielinenkin teksti on ennen pitkää tulkittava.

Aleksis Kiven teosten työn alla oleva kriittinen editio avaa ne tämän vuosisadan lukijoille mm. selittämällä Kiven omaperäistä sanastoa. 200 vuoden päästä tarvitaan ehkä uusi kriittinen editio edellisen vanhennuttua. Mutta näin syvälle käypä käyttäjien tarpeista lähtevä ymmärrettävyyden säilyttäminen voi olla PAS-järjestelmän tai muiden tietojärjestelmien vastuulla vain siltä osin kuin ymmärrettävyyden takaaminen on ohjelmallisesti toteutettavissa. Kun Norjan kansalliskirjaston edellinen johtaja sanoi että kirjasto digitoi koko kansallisen kulttuuriperinnön ja takaa digitaalisen informaation säilyvän käytettävissä ainakin 500 vuotta, hän tarkoitti vain teknisen ymmärrettävyyden säilyttämistä. Ei ole mahdollista taata, että nyt julkaistavat tutkimukset tai kaunokirjallisuus ovat täysin ymmärrettävissä vielä satojen vuosien päästä, ellei niiden sisältöä uudelleentulkita tulevia lukijoita varten.  Tämä tulkinta ei ole PAS-palvelun eikä edes sitä hyödyntävien organisaatioiden vaan säilytettävien aineistojen kohdeyhteisöjen vastuulla.

PAS-järjestelmän toiminta

Kuva Elias Erici Til-Landzin vuonna 1683 julkaistusta kirjasta Icones novae. Kirjassa on yksinkertaiset mustavalkoiset puupiirrokset sadasta viidestäkymmenestä yhdeksästä Turun seudulla kasvaneesta kasvista.

Kuva 2: Aukeama Elias Erici Til-Landzin vuonna 1683 julkaistusta kirjasta Icones novae.

Pitkäaikaissäilytys on prosessi, joka alkaa aineiston luonnista ja päättyy joko tietosisällön tuhoutumiseen tai sen ymmärrettävyyden katoamiseen. Ratkaisevia päätöksiä voidaan tehdä jo aivan alussa: kirjan painaminen happamalle paperille rajaa alkuperäisen dokumentin elinkaaren melko lyhyeksi. Toki jokaisen digitaalisen julkaisun alkuperäisen version elinkaari on vielä huonolaatuiselle paperille painettua kirjaa lyhyempi. PAS-palvelun tavoitteena on varmistaa, että kulttuuriorganisaatioiden vastuulla olevat digitaaliset tietosisällöt voidaan säilyttää tuleville sukupolville mahdollisimman tehokkaasti ja kattavasti. Keskitetyn ratkaisun mahdollistamat kustannussäästöt on arvioitu ja merkittäviksi osoitettu.

PAS-palvelun rahoittaa OKM ja tekniikasta vastaa CSC, mutta hyödyntävät organisaatiot päättävät, mitä aineistoja palveluun tallennetaan. Monilla meistä on oma, lakisääteinen vastuualue, jonka rajoissa neuvottelemme OKM:n kanssa sopimukset tallennettavista aineistoista ja niiden määristä.

Kansalliskirjaston ja Kansallisen audiovisuaalisen instituutin (KAVI) vastuut perustuvat Kulttuuriaineistolakiin. Toisin kuin esimerkiksi Kansallisarkisto, emme pysty ohjaamaan säilytettävien tietosisältöjen tuotantoa lainsäädännön avulla. Siksi Kansalliskirjasto voi saada vastuulleen myös ”haasteellista” aineistoa kuten interaktiivisia e-kirjoja. Sama haaste on kaikilla muillakin kansalliskirjastoilla, mikä mahdollistaa tiiviin yhteistyön.

Ongelma-aineistojen määrä on ainakin toistaiseksi ollut varsin pieni. PAS-toiminnan kannalta isompi haaste on julkaisuprosessien puutteet kuten vaikkapa se, ettei PDF/A-dokumentin julkaisemisen yhteydessä tarkisteta tiedoston validiteettia. Jos tiedostossa on jokin tekninen vika, sitä ei kelpuuteta PAS-palveluun. Sisällöntuottajien, Kansalliskirjaston ja PAS-palvelun välinen yhteistyö julkaisuprosessien suunnittelussa ja toteutuksessa on tehokas keino lievittää näitä ongelmia. PAS-palvelu voi esimerkiksi tiedottaa pitkäaikaissäilytykseen siirrettävään aineistoon kohdistuvista vaatimuksista[4] ja tukea sisällöntuottajaorganisaatioita tiedostomuotojen validoinnissa ja mahdollisten virheiden korjaamisessa.

Kansalliskirjasto ja sisällöntuottajat voivat puolestaan hioa elektronisten aineistojen vapaakappaleluovutusprosesseja niin, että aineistojen PAS-siirto on mahdollisimman vaivatonta. Käytännössä tämä voi merkitä esimerkiksi sitä, että jos elektronisella artikkelilla on Crossrefin ohjeiden mukainen teostason DOI-tunnus, sille hankitaan myös manifestaatiotason toiminnallinen tunnus, kuten URN. Tämä on tarpeen sen vuoksi, että PAS-palvelussa kaikilla aineistoilla on oltava myös manifestaatiotason toiminnallinen tunnus, mahdollisen teostason tunnuksen lisäksi.

NDSA pitkäaikaissäilyttämisen tasot

PAS-palvelu on ensimmäisten elinvuosiensa ajan keskittynyt bittien säilyttämiseen, mutta ymmärrettävyyden säilyttämiseen tähtäävä kehitystyö aloitettiin vuoden 2020 lopulla, ja maaliskuussa 2021 julkistettiin loogisen tason säilyttämisen vaatimusmäärittely[5]. Se sisältää toistasataa migraatioiden suunnitteluun ja toteutukseen liittyvää vastuuta, sekä niitä taustoittavaa tekstiä.

PAS-palvelua hyödyntävien organisaatioiden pitää esimerkiksi ”tunnistaa ja dokumentoida aineistokohtaisesti säilytyssuunnitelmiin vaikuttavat aineistojen piirteet”. Säilytyssuunnitelman avulla hyödyntävä organisaatio kertoo PAS-palvelulle mitä piirteitä jokin tietty aineistokokonaisuus sisältää, ja miten nämä piirteet tulisi säilyttää. Esimerkiksi Kansalliskirjaston säilytyssuunnitelma verkosta haravoiduille aineistoille voi määritellä tavoitetason melko vaatimattomaksi, koska migraation soveltaminen verkkoarkistoihin voi osoittautua haasteelliseksi. Päinvastainen esimerkki voisi olla elektronisten väitöskirjojen säilytyssuunnitelma, jos ja kun sellainen laaditaan PDF/A-säilytyssuunnitelman täydennykseksi.

Vaatimusmäärittely laadittiin PAS-palvelun ja sitä hyödyntävien organisaatioiden tiiviinä ja allekirjoittaneiden mielestä hedelmällisenä yhteistyönä. Urakkaa helpotti NDSA:n (National Digital Stewardship Alliance[6]) kehittämä matriisi, jossa on kuvattu keskeiset pitkäaikaissäilytykseen liittyvät tehtävät.  Se on CSC:n aloitteesta käännetty; suomennos julkaistiin tammikuussa 2021[7].

Matriisissa PAS-palvelu on jaettu viiteen toiminnalliseen alueeseen ja neljään tasoon. Toiminnalliset alueet ovat: Tallennus, Eheys, Valvonta, Metatieto ja Aineisto. Matriisin taso 1 kuvaa vähimmäisvaatimuksia ja taso 4 parasta toiminnan tasoa. Esimerkiksi Tallennusalueen tason 1 vaatimus “Pidä kahta täydellistä kopiota erillisissä sijainneissa” muuttuu tasolla 4 vaatimukseksi “Pidä ainakin kolmea kopiota eri maantieteellisissä sijainneissa, joissa onnettomuusriskit ovat keskenään erilaiset”.

Matriisin kehittäjien oletus on, että sama organisaatio vastaa kaikesta toiminnasta. Suomessa vastuut jakautuvat PAS-palvelulle ja palvelua hyödyntäville organisaatioille. Siksi meidän oli ratkaistava, kuka mistäkin vastaa. Päädyttiin siihen, että Tallennus-alueeseen liittyvät tehtävät kuuluvat täysin PAS-palvelun vastuulle. Muilla osa-alueilla vastuu jakautuu PAS-palvelun ja hyödyntävien organisaatioiden kesken. Joidenkin osatehtävien vastuu on hyödyntävällä organisaatiolla; esimerkkejä tästä ovat puuttuvan eheystiedon luominen sekä suhteiden luominen sisällöntuottajiin.

Matriisista on hyötyä kaikille pitkäaikaissäilytyksestä kiinnostuneille tahoille. Sisällöntuottajat voivat hahmottaa PAS-toiminnan kokonaisuuden ja omat vastuunsa prosessissa, joka alkaa aineistojen luonnista. PAS-palvelua hyödyntävät organisaatiot pystyvät matriisin avulla hahmottamaan omat vastuunsa, seuraamaan omaa PAS-valmiustasoaan ja suunnittelemaan tarvittavia toimenpiteitä valmiustason nostamiseksi. Ja PAS-palvelu voi kehittää järjestelmää ja prosessejaan niin, että matriisin tavoitteet täyttyvät. Eikä tekninen järjestelmä, vaikka se olisi miten hyvä, vielä riitä: tarvitaan myös koulutusta, jotta kaikki prosessiin liittyvät toimijat ymmärtäisivät omat vastuunsa ja tietäisivät, miten toimia.

NDSA-matriisin toiminnalliset alueet

NDSA-matriisissa on viisi toiminnallista aluetta: tallennus, eheys, valvonta, metatieto ja aineistot.

Tallennus

Tallennusalueen vaatimuksilla pyritään varmistamaan bittien turvattu säilyvyys satojen vuosien ajan ja ennalta ehkäisemään mahdollisia riskitekijöitä. Vähimmäisvaatimus on kahden täydellisen kopion säilyttäminen erillisissä sijainneissa, joka jo suojaa melko hyvin esim. vesivahingoilta, tulipaloilta ja muilta vastaavilta yllättäviltä tapahtumilta.

Ajan saatossa säilytettyihin aineistoihin voi iskeä bittimätä, eli tiedostoissa muuttuu jokunen nolla ykköseksi tai päinvastoin. Yksikin muutos voi heikentää aineiston käytettävyyttä tai tuhota sen kokonaan. Tallennusmediasta riippuen bittimätään on monia syitä median tuhoutumisesta kosmiseen säteilyyn (ks. https://en.wikipedia.org/wiki/Data_degradation). Mitä suurempia määriä dataa tallennetaan, sitä todennäköisempää on, että bittimätää ilmenee. Siksi suurissa järjestelmissä on pakko suojautua sitä vastaan.

Hyvä tapa estää bittimätä on NDSA-matriisin vaatimus “Pidä ainakin kolmea kopiota eri maantieteellisissä sijainneissa, joissa onnettomuusriskit ovat keskenään erilaiset”. Tällöin tiedostoja voidaan vertailla keskenään. Jos yksi kopio korruptoituu, vertailu kahta ehjää tiedostoa vasten paljastaa ongelman ja mahdollistaa vikaantuneen tiedoston korjaamisen. Tallentaminen eri sijaintipaikkoihin ja erilaisiin teknisiin tallennusjärjestelmiin suojaa bitit myös tulipalojen kaltaisilta onnettomuuksilta sekä yksittäisen tallennusjärjestelmätoimittajan katastrofaalisilta virheiltä.

PAS-palvelussa bitit ovat hyvässä tallessa: jokaisesta tiedostosta on viisi kopiota, joista yksi on ns. pimeässä arkistossa eli irrallaan tietoverkoista. Tallennusratkaisu on myös maantieteellisesti hajautettu ja siinä sovelletaan eri järjestelmätoimittajia. Vastaavan ratkaisun toteuttaminen paikallisesti esimerkiksi jokaisessa korkeakoulussa olisi tullut erittäin kalliiksi, joten PAS-järjestelmän keskittäminen oli edullinen ratkaisu, jonka avulla saatiin korkea tietoturvan taso.

Eheys

Eheystiedolla tarkoitetaan sitä, että aineiston mukana toimitetaan tarkistussumma (checksum), joka saadaan tiedostoista tietyllä algoritmilla laskemalla. Tämän tiedon perusteella voidaan varmistua esim. digitaalisena vapaakappaleena vastaanotetun aineiston eheydestä. Saapuneesta tiedostosta lasketaan tarkistussumma ja varmistetaan, että se on sama kuin ennen lähetystä. Mikäli summa on muuttunut, aineisto on korruptoitunut siirron aikana ja se pitää lähettää uudestaan.

Eheyttä ei voida taata, ellei Kansalliskirjastoon saapuville aineistoille ole laskettu tarkistussummia. Tällöin on olemassa riski, että saamamme aineisto ei ole kunnossa, ja pitkäaikaissäilytys on epäonnistunut jo ennen alkamistaan. PAS-palvelu edellyttää, että saapuville aineistoille on luotu tarkistussummat, mutta saatava hyöty on rajallinen, jos niitä ei luoda riittävän varhaisessa vaiheessa.

Lisäksi kaikki PAS-palveluun siirrettävät aineistot tulee virustarkastaa ja tarvittaessa virukset on poistettava. Aineiston pitää myös olla kirjoitussuojattu kun käytetään alkuperäistä tallennusalustaa. Nämä toimenpiteet ovat joko kokonaan hyödyntävän organisaation vastuulla tai yhteisiä PAS-palvelun kanssa.

PAS-palvelun vastuulla olevia NDSA-vaatimuksia ovat pitkäaikaissäilytettävien aineistojen eheyden tarkastaminen säännöllisin väliajoin, eheystarkastusten prosessien ja tulosten dokumentointi sekä tarkistusten yhteydessä löydettyjen korruptoituneiden tiedostojen korvaaminen eheillä. Aineiston eheys tulee myös tarkastaa aina erityisten tapahtumien tai toimenpiteiden jälkeen. Näitä tapahtumia voivat olla esimerkiksi levyjärjestelmän kaatuminen sähkökatkon tms. syyn vuoksi tai uuden levyjärjestelmän käyttöönotto.

Valvonta

Valvonta-alueen tehtäviin kuuluu PAS-palveluun tallennettuihin aineistoihin liittyvien oikeuksien määritteleminen sekä niiden toimijoiden (henkilöt ja sovellukset) määrittely ja dokumentointi, joilla tulisi olla oikeus lukea, kirjoittaa, siirtää ja poistaa aineistoa. Näitä henkilöitä voi olla myös hyödyntävissä organisaatioissa.

PAS-palvelun vastuulla on ylläpitää ja katselmoida pääsy- ja toimenpidelokeja säännöllisin väliajoin, yksilöiden henkilöt ja ohjelmistot, jotka ovat tehneet toimenpiteitä aineistolle. Dokumentoitavista toimenpiteistä sovitaan erikseen ja niiden kuvaukset tallennetaan pitkäaikaissäilytyksen metatietona PREMIS-formaatissa. Ajantasainen toimenpidelista löytyy osoitteesta http://www.digitalpreservation.fi/specifications/vocabularies.

Metatieto

Elias Erici Til-Landzin vuonna 1683 julkaistusta kirjasta Icones novae. Kirjassa on yksinkertaiset mustavalkoiset puupiirrokset sadasta viidestäkymmenestä yhdeksästä Turun seudulla kasvaneesta kasvista.

Kuva 3: Aukeama Elias Erici Til-Landzin vuonna 1683 julkaistusta kirjasta Icones novae.

NDSA-määrityksen metatietoalueen vaatimuksia ovat inventaarion tekeminen tallennetuista aineistoista, mukaan lukien nykyiset tallennuspaikat. Inventaariotieto tulee varmuuskopioida ja siitä pitää olla ainakin yksi kopio tallennettuna eri paikassa kuin aineisto. Yleisesti ottaen metatietoa tulee tallentaa riittävästi, jotta tallennetut aineistot voidaan paikallistaa ja noutaa järjestelmästä. PAS-palvelun sisältämä metatieto voi olla kuvailevaa, rakenteista tai hallinnollista; hallinnollinen metatieto jakautuu tekniseen, käyttöoikeuksia koskevaan ja pitkäaikaissäilytyksen metatietoon. PAS-palvelussa korostuu erityisesti teknisen ja pitkäaikaissäilytyksen metatiedon tärkeys. Käyttöoikeuksien metatieto koskee PAS-palvelussa vain järjestelmän sisäisiä oikeuksia esimerkiksi tiedostojen muokkaukseen ja poistoon.

PAS-palvelun tekninen metatieto kuvaa tiedostojen tekniset ominaisuudet paljon tarkemmin kuin kirjastojärjestelmien kuvaileva metatieto. Teknisessä metatiedossa voidaan esimerkiksi kuvata millaisella skannerilla kuva on tuotettu ja mitkä skannerin säädöt olivat. Pitkäaikaissäilytyksen metatieto kuvaa aineistoon kohdistuneet tapahtumat.

PAS-palvelun vastuulla on pitkäaikaissäilytyksen metadata, eli aineistoon liittyvien säilytystoimenpiteiden kirjaaminen aikatietoineen, eli kuka teki, mitä ja milloin, ja mitä toimenpiteestä seurasi. Toimenpide voi olla esimerkiksi PDF/A-tiedoston migraatio johonkin toiseen tiedostomuotoon, jolloin PAS-palvelu tai muu migraatiosta vastaava taho kirjaa toimenpiteen ajankohdan, toimijat (ohjelmisto ja vastuuhenkilö) sekä tulokset (mitä muutoksia tiedoston ulkoasuun ja sisältöön tuli) siltä osin kuin mahdollista.

PAS-hanke on määritellyt käytettävät metatietostandardit ja pakolliset metatietoelementit. Ennen aineistojen siirtämistä PAS-palveluun teknisten metatietojen mahdolliset puutteet tulee täydentää, jotta lähetetyt paketit läpäisisivät PAS-palvelun sisääntulotarkistuksen. Jokaisella tiedostolla pitää olla esim. tarkistussumma, jonka avulla voidaan varmistaa tiedoston eheys.

Aineisto

Kun aineistoa paketoidaan PAS-palveluun lähetettäväksi, sen tiedostojen tiedostomuodot pitää dokumentoida. Ei riitä, että ilmoitetaan väitöskirjan olevan PDF/A-formaatissa; on varmistettava ohjelmallisesti, että tiedostomuoto on oikeasti PDF/A ja itse tiedosto on virheetön.  Tähän tarkistukseen käytetään veraPDF-sovellusta (https://verapdf.org/); muilla tiedostoformaateilla on vastaavia sovelluksia. Sekä PAS-palvelun että sitä hyödyntävien organisaatioiden on tehtävä nämä tarkistukset, koska vain tällä tavoin voidaan varmista aineistojen tekninen säilytyskelpoisuus. On tärkeää, että pitkäaikaissäilytettävät aineistot, kuten väitöskirjat, tarkistetaan ensimmäisen kerran jo ennen niiden julkaisemista, koska tiedostojen korjaaminen jälkikäteen ilman väittelijän suostumusta voi olla juridisesti mahdotonta ja teknisesti vaikeaa.

Jokainen tiedostomuoto vanhenee ennen pitkää ja tiedostot pitää modernisoida migraation avulla, jotta niiden käytettävyys voidaan taata. PAS-palvelu seuraa teknologian kehitystä ja ilmoittaa hyödyntäville organisaatioille muunnostarpeesta. Jo ennen tiedostomuodon teknistä vanhenemista kohdeyhteisön preferenssien muuttuminen tai muut syyt, kuten modernimman tiedostomuodon vähentynyt levytilan tarve, voivat tehdä migraation järkeväksi tai jopa välttämättömäksi. Tästäkin syystä migraatioiden ajoituksessa kuskin pukilla ovat PAS-palvelua hyödyntävät organisaatiot, ilman niiden lupaa prosessi ei käynnisty. Valtamme ei kuitenkaan ole rajaton: PAS-palvelu ei toteuta migraatiota, ellei siihen ole teknisiä edellytyksiä. Siksi esim. uuteen liikkuvan kuvan tiedostomuotoon, jonka väitetään tarvitsevan 50 prosenttia vähemmän levytilaa kuin edeltäjänsä, ei voida siirtyä heti kun se on periaatteessa mahdollista. Käytettävien ohjelmistojen tulee olla riittävän luotettavia ja itse migraation hyvin testattu.

PAS-palvelua hyödyntävän organisaation vastuulla on luoda suhteet sisällöntuottajiin kuten korkeakouluihin sekä kohdeyhteisöön eli asiakkaisiin. Ellei tiedostomuodon valintaa ohjata lainsäädäntöteitse (kuten väitöskirjojen ja opinnäytteiden kohdalla on asian laita) on tärkeää kannustaa kustantajia julkaisemaan aineistot myös pitkäaikaissäilytettävässä muodossa, tai ainakin toimittamaan ne Kansalliskirjastolle pitkäaikaissäilytettävässä muodossa, kuten PDF/A-tiedostomuodossa. Ellei julkaisija tätä tee, vastuu migraatiosta siirtyy Kansalliskirjastolle tai PAS-palvelulle. PDF-tiedoston teknisestä toteutuksesta riippuen migraation tekeminen voi olla työlästä.

Kirjoittajat

Juha Hakala, erityisasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 15 (Yliopistonkatu 1), 00014 Helsingin yliopisto
etunimi.sukunimi [at] helsinki.fi

Jukka-Pekka Rajakangas, tietojärjestelmäasiantuntija
Kansalliskirjasto, tutkimuskirjasto
PL 15 (Yliopistonkatu 1), 00014 Helsingin yliopisto
etunimi.sukunimi [at] helsinki.fi

Kuvat: Til-Landz, Elias Erici. Icones novae. [B]. Aboae : [Johan Larsson Wall], 1683. Saatavissa: http://urn.fi/URN:NBN:fi-fe201803125930

Viitteet:

[1] https://fi.wikipedia.org/wiki/Teko

[2] https://fi.wikipedia.org/wiki/OpenDocument

[3] https://www.doria.fi/handle/10024/50699

[4] Aineistojen ja niiden metatietojen paketointimääritys löytyy osoitteesta URN:NBN:fi-fe2020100578093, säilytys- ja siirtokelpoisten tiedostomuotojen määritys osoitteesta URN:NBN:fi-fe2020100578095.

[5] URN:NBN:fi-fe202104059375

[6] https://ndsa.org//

[7] URN:NBN:fi-fe202101101409

4 Comments

  1. Minna von Zansen

    Aiheeseen liittyen:

    IFLA:n hallitus hyväksyi UNESCO PERSIST Guidelines for the selection of digital heritage for long-term preservation -suosituksen toisen uudistetun version 21.6.2021. Nyt dokumentti jatkaa matkaansa UNESCO:on validointia varten ja julkaistaan sen jälkeen.

  2. Goldeneye

    Miten digitaalisten kokoelmien säilytyksessä on varauduttu elektromagneettisiin pulsseihin? Esimerkiksi aurinkomyrskyyn tai lähellä räjähtävään ydinpommiin?

    Jos ja kun aurinkomyrsky tulee niin katoaako sitten kaikki digitaalinen kulttuuriperintö? Ymmärtääkseni DVD ja CD-levyt säilyvät mutta kiintolevyt pyyhkiytyvät.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.