Pitkäaikaissäilytyksen standardit

Juha Hakala
Kansalliskirjasto

Tämän artikkelin pysyvä osoite on http://urn.fi/URN:NBN:fi-fe2014120552176

 

Elektronisten aineistojen pitkäaikainen säilyttäminen edellyttää suurta joukkoa standardeja. Niitä kaikkia ei voi esitellä yhtä aikaa edes kursorisesti. Tämän artikkelin teema on pitkäaikaissäilytyksen perustan luovat standardit eli OAIS (Open Archival Information System) ja PAIMAS (Producer-Archive Interface Methodology Abstract Standard), sekä niihin perustuvat tekniset määrittelyt PAIS (Producer-Archive Interface Specification) ja MEDONA (Modélisation des échanges de données pour l’archivage). Kuvaan näiden standardien sisällön sekä sen, miten ne liittyvät toisiinsa sekä muihin pitkäaikaissäilytyksessä yleisesti käytettyihin teknisiin määrityksiin.

Yleistä

OAIS ja PAIMAS eivät ole humanistien tekoa: niistä vastaa The Consultative Committee for Space Data Systems Standards (CCSDS, http://public.ccsds.org/). Mutta KDK-hankkeessa saatujen kokemusten nojalla nämä standardit soveltuvat hyvin myös muistiorganisaatioiden yhteisen pitkäaikaissäilytysjärjestelmän perustaksi. CCSDS – jonka jäseniä ovat NASA:n ja ESA:n kaltaiset organisaatiot – pyrkii standardiensa yleiskäyttöisyyteen, ja ainakin OAIS:n osalta tässä on onnistuttu erinomaisesti.

OAIS ja PAIMAS liittyvät toisiinsa hierarkkisesti siten, että OAIS määrittelee pitkäaikaissäilytyksen viitemallin, jossa ovat mukana kaikki keskeiset toiminnot (aineiston siirto pitkäaikaissäilytys- eli PAS-arkistoon, säilytys, jakelu PAS-arkistosta sekä hallinto) ja toimijat. PAIMAS määrittelee sen, miten tiedon tuottaja ja PAS-arkisto sopivat keskenään aineiston siirrosta arkistoon. PAIS ja MEDONA ovat teknisiä standardeja, jotka linjaavat sen, miten tuotantojärjestelmät ja PAS-arkisto kommunikoivat keskenään. PAIS on täysin yhteensopiva OAIS:n ja PAIMAS:in kanssa; MEDONA:ssa on merkittäviä laajennuksia OAIS-malliin.

PAS-toimintaan osallistuvien henkilöiden on pakko tuntea OAIS; on oleellista että kaikki toimijat hahmottavat pitkäaikaissäilytyksen ja sen toimintaympäristön samalla tavoin ja käyttävät samaa terminologiaa. PAIMAS on hyödyllistä tuntea, mutta se ei vielä riitä: PAIMAS-suuntaviivojen mukaisesti eri käyttäjäyhteisöjen tulisi rakentaa omia ”Producer-Archive Interface Methodology Community Standard” -määrityksiään. Muistiorganisaatiot voivat olla tämäntyyppisen standardin laativa yhteisö, joka voisi ottaa omassa standardointityössään huomioon digitaalisiin kokoelmiinsa ja palveluihinsa perustuvat erityistarpeensa.

PAIS on vain yksi mahdollinen tapa tietojen siirtämiseen; sen rinnalla tai asemesta voidaan käyttää muita, eri käyttäjäyhteisöille tai aineistoille optimoituja standardeja. Niiden tulisi olla yhteensopivia sekä OAIS:n että PAIMAS:in tai sen kaltaisen käyttäjäyhteisökohtaisen standardin kanssa.

Näiden standardien lisäksi tarvitaan muun muassa määrityksiä siitä, miten siirrettävä aineisto ”paketoidaan” ohjelmisto- ja laitteistoriippumattomalla tavalla. PAS-arkistoon toimitettavien siirtopakettien täytyy sisältää kaikki aineiston käsittelyyn tarvittava kuvaileva ja hallinnollinen metatieto. Niitä tarvitaan jo silloin kun PAS-arkisto validoi siirretyn aineiston, mutta ilman metatietoja aineisto ei olisi myöskään löydettävissä arkistosta, eikä olisi mm. mahdollista selvittää, ketkä aineistoa saavat käyttää.

Paketointistandardit on rajattu tämän artikkelin ulkopuolelle. Niitä on jo nyt kehitetty eri tarpeisiin ja eri aineistoille useita, eikä ole todennäköistä – tai edes tarpeellista – käyttää jatkossa vain yhtä ratkaisua.

Paketointistandardien ”alapuolelta” löytyy kokonainen standardien viidakko: sisältöä koskevia standardeja kuten tiedostoformaatteja ja metatietomäärityksiä; tunnisteita toimijoille ja aineistoille; aineistojen validoinnissa tarvittavia standardeja esimerkiksi tarkistussummien laskemiseen, ja niin edelleen. Näitäkään standardeja ei tässä käsitellä muuten kuin toteamalla että pitkäaikaissäilytys ei ole mahdollista ilman riittäviä metatietoja.

 

OAIS (ISO 14721:2012, SFS 5972)

OAIS eli suomeksi Pitkäaikaissäilytyksen viitemalli on välttämätön standardi pitkäaikaissäilytykselle, koska se määrittelee ”pelikentän”: toimijat, toiminnot ja niiden väliset suhteet. Se on onnistunut tehtävässään erinomaisesti: lähes kaikki merkittävät PAS-hankkeet ja sovellukset käyttävät sen määrittelemää viitemallia ja terminologiaa.

Kaaviokuva OAIS-mallista

PAS-arkiston toiminnalliset osat

Kansallisen digitaalisen kirjaston (http://kdk.fi/fi/) PAS-hanke nojaa OAIS-mallin suomenkieliseen käännökseen. SFS-standardi julkaistiin vuonna 2009 eli ennen kuin KDK oli päässyt pitkäaikaissäilytyksessä tositoimiin. Suomennosta ollaan päivittämässä vuonna 2012 ilmestyneen OAIS-version tasolle, ja samalla viilataan mm. termien käännöksiä, koska jotkut niistä ovat osoittautuneet vähemmän onnistuneiksi. Esimerkiksi tiedon luovuttajasta on tulossa tiedon tuottaja (englanniksi Producer) ja luovutuksesta siirto (englanniksi Transfer).

OAIS-standardin määrittelemä pitkäaikaissäilytyksen viitemallia ei ole sen ilmestymisen jälkeen juuri muokattu. Uusimmassa, vuonna 2012 ilmestyneessä versiossa on muutamia pienehköjä mutta hyödyllisiä muutoksia. Mallin kestävyyttä selittää sen abstraktius ja siihen perustuva laitteisto- ja ohjelmistoriippumattomuus. PAS-toiminnassa mukana oleville OAIS antaa yleisen perustan, samalla tapaa kuin YK:n ihmisoikeuksien julistusta voidaan käyttää apuna perustuslakia laadittaessa. Mutta esimerkiksi sovellusten rakentajien on päätettävä, miten mallin yleiset periaatteet ovat kulloinkin parhaiten toteutettavissa käytännön tasolla.

PAIMAS (ISO 20652:2006)

Yksityiskohtaisempaa ja käytännönläheistä tukea toiminnan suunnitteluun ja ohjelmistokehitykseen saa PAIMAS-standardista. Se kattaa pitkäaikaissäilytyksen viitemallin toiminnoista vain pienen osan, nimittäin Hallinnosta siirtosopimuksen valmistelun ja tiedon siirrosta siirtopaketin vastaanoton ja laadunvalvonnan. Nämä ovat kuitenkin ne toiminnot, jotka ovat pitkäaikaissäilytyksen kannalta keskeisiä.

Suomessa PAIMAS-standardiin ovat tähän mennessä perehtyneet lähinnä KDK-hankkeessa mukana olevat tahot, ja niistäkin perinpohjaisemmin vain CSC. KDK-hankkeesta (ja PAIMAS-standardista) kertoo paljon se, että vaikka standardi ei ollut projektin alkuvaiheessa tuttu, jälkikäteen tehty tarkistus osoitti että hankkeessa oli edetty pitkälti PAIMAS-standardin suuntaviivojen mukaisesti.

PAIMAS-standardin mukaan monissa PAS-hankkeissa on ollut ongelmia tietojen siirrossa tuotantojärjestelmistä pitkäaikaissäilytysjärjestelmään. Tietojen sisältö tai rakenne ei ole ollut PAS-arkiston odotusten mukainen; siirtopakettien määrittely on voinut jäädä keskeneräiseksi jolloin osapuolilla on eri kuva siitä mitä on sovittu; tietojen tuottaja ei pysy sovitussa aikataulussa ja siirtovaiheessa esiintyneitä ongelmia ei havaita ajoissa (pahimmillaan ne huomataan vasta sitten kun aineistoa yritetään käyttää).

PAIMAS-standardia soveltamalla edellä mainittujen ongelmien todennäköisyyttä voidaan vähentää. Hahmoteltu toimintamalli on yksinkertaisuudessaan seuraava: neuvotellaan sopimus tietojen siirrosta, toimitetaan siirtopaketit PAS-arkistoon, ja tarkistetaan näiden pakettien oikeellisuus. Työvaiheita on neljä: Esivalmistelu, Formaali vaatimusmäärittely, Siirto ja Validointi. Näistä kaikista annetaan varsin seikkaperäiset toteutusohjeet.

Esivalmistelu jakautuu kolmeen tehtäväkokonaisuuteen (First contact; Preliminary definition, Feasibility and assessment; Establishment of a preliminary agreement) jotka on jaettu 46 tehtävään. Esimerkiksi First contact –tehtäväkokonaisuuteen liittyvät tehtävät ovat “Identify the contact persons and work organization” sekä “Exchange of general information”. Pelkästään niiden kuvaus vie kokonaisen sivun. Mutta perusteellisuus on tässä tapauksessa hyve, koska jos vain oletetaan että asiat hoituvat, päädytään juuri niihin ongelmiin joista PAIMAS varoittaa. Jos sekä tietojen tuottajaorganisaation ja PAS-arkiston neuvottelijat käyttävät siirtosopimusta valmistellessa PAIMAS-standardia lähtökohtana, on epätodennäköistä että siirtosopimuksesta jäisi mitään oleellista pois.

PAIMAS-standardin kattava esittely turvottaisi tämän artikkelin kovin pitkäksi ja koettelisi lukijan kärsivällisyyttä liikaa. Mutta nostan esille pari asiaa, jotka ovat PAS-hankkeiden kannalta tärkeitä.

Pitkäaikaissäilytyksen kustannukset pitäisi arvioida mahdollisimman tarkoin jo suunnitteluvaiheessa. Sekä PAS-arkiston että tietojen tuottajan tulee PAIMAS:in mukaan arvioida omat kulunsa lyhyellä, keskipitkällä ja pitkällä aikavälillä. Vasta kun kustannuksista on saavutettu yhteisymmärrys, voidaan neuvotella sopimus tietojen siirrosta. Jos haluttu palvelutaso maksaa liikaa, siitä on tingittävä siten, että lopputulos on kaikkien osapuolten kannalta realistinen.

PAS-arkiston ja tiedon tuottajien yhteistyö perustuu siirtosopimukseen, joka määrittelee mm.:

  • mitä aineistoa siirretään (siirtopakettien sisältö, metatiedot, pakkausstandardi) ja mikä on kohdeyhteisö joka tätä tietoa tulee käyttämään
  • miten aineisto siirretään (verkossa tai tallennevälineillä)
  • siirtoaikataulut
  • miten PAS-arkistoon siirretyt paketit validoidaan
  • sopimuksen muuttamiskäytänteet

Ilman selkeää ja kattavaa siirtosopimusta tietojen tuottaja ja PAS-arkisto voivat päätyä kiistelemään siitä, mitkä niiden vastuut ovat. Koska nämä ongelmat voivat vaarantaa aineiston säilyttämisen, on tärkeää että siirtosopimukset laaditaan huolellisesti. Mutta sopimuksia voidaan neuvottelumenettelyllä myös hallitusti muuttaa.  Nämä muutokset ovat tarpeellisia esimerkiksi silloin, kun kohdeyhteisö tai tallennettava aineisto muuttuu,

Ongelmia voi syntyä eritoten silloin, kun joko tietojen tuottajan tai PAS-arkiston toiminta päättyy. Myös näihin tilanteisiin tulisi varautua, vaikka mitään helppoa ratkaisua niihin ei ole.

PAIS ja MEDONA

Koska OAIS ja PAIMAS ovat luoneet kattavan teoreettisen perustan PAS-arkistojen rakentamiselle, voisi kuvitella että on helppoa laatia standardi joka määrittelee tuotantojärjestelmien ja PAS-arkiston välisen tiedonsiirtorajapinnan. Käytännön esimerkkien valossa tämäntyyppisten standardien rakentaminen ei sinänsä ole vaikeaa, mutta teknisesti ne voivat poiketa suuresti toisistaan. Ja kansallisten erityispiirteiden huomioon ottaminen voi aiheuttaa lipsumista myös OAIS-mallin periaatteista.

CCSDS:n PAIS-standardin perusta on yhteismitallisuus OAIS:n kanssa. Kaikki tarvittava, siis myös esimerkiksi pyyntö arkistossa olevan aineiston muuttamisesta tai poistamisesta, voidaan tallentaa siirtopaketteihin. PAIS ei määrittele OAIS-malliin kuulumattomia toimijoita eikä palveluita; se ohjeistaa vain siirtopaketin tietosisällön ja syntaksin. Tieto kulkee vain yhteen suuntaan, tietojen tuottajalta PAS-arkistoon. PAIS ei kerro sitä, miten arkisto vastaa saamiinsa toimenpidepyyntöihin (esimerkiksi kertomalla ettei validointi onnistunut), eikä standardi kata myöskään arkistoidun aineiston jakelua koskevia toimintoja. MEDONA sisältää nämä toiminnot, ja paljon muuta.

Todennäköisesti ensimmäinen virallinen PAIS:in alakohtainen rinnakkaisstandardi on tammikuussa 2014 valmistunut ranskalainen kansallinen standardi MEDONA (Modélisation des échanges de données pour l’archivage), jonka pohjalta on tarkoitus laatia ISO TC 46/SC 4:ssä myös ISO-standardi. MEDONA:n merkittävin taustavoima oli Ranskan arkistolaitos, mutta sitä on jo sovellettu Ranskassa myös kirjastosektorilla.

Arvioni MEDONA:sta perustuu ranskalaisesta standardista tehtyyn epäviralliseen englanninkieliseen käännökseen, jota aiotaan käyttää pikapuoliin aloitettavan ISO-standardoinnin pohjana. Sen vuoksi en käsittele terminologisia eroja; useimmat niistä ovat pieniä ja voidaan poistaa ISO-standardointiprosessissa helposti. Toiminnalliset erot voivat aiheuttaa enemmän päänvaivaa.

MEDONA kattaa kaikki OAIS-mallin toiminnot, ja lisää joukon omia jotka eivät oman tulkintani mukaan ole ristiriidassa mallin kanssa. Standardi määrittelee viisi toimijaa, viisi palvelua ja 28 erilaista viestiä, joiden avulla PAS-arkisto, tietojen tuottaja, mahdollinen tietojen siirrosta vastaava kolmas osapuoli, PAS-arkiston asiakas sekä ulkoinen valvontaviranomainen voivat kommunikoida keskenään.

MEDONA:an on lisätty Ranskan kansalliseen tilanteeseen perustuen kaksi OAIS-mallista puuttuvaa toimijaa, ulkoinen valvontaviranomainen ja tietojen siirrosta vastaava kolmas osapuoli. Edellisen tehtävänä on esimerkiksi auktorisoida tarvittaessa arkistoidun aineiston poistaminen tai jakelu asiakkaille. Suomessa tämän kaltaista valvojaa ei ole olemassa, mutta tietojen siirrosta PAS-arkistoon voi meilläkin vastata jokin muu taho kuin tietojen tuottaja.

MEDONA laajentaa OAIS-mallia myös uudella palvelulla: Restitution-palvelun avulla vastuu aineistosta (ja itse aineisto) voidaan siirtää arkistosta takaisin tuottajalle.

MEDONA on PAIS:in vastakohta siinä, että se määrittelee tuotantojärjestelmien ja PAS-arkiston välisen tiedonsiirron todella yksityiskohtaisesti. Esimerkiksi aineiston siirtoon voivat liittyä seuraavat viestit:

  • Transfer request
  • Transfer request acknowledgement
  • Transfer request reply
  • Transfer request reply acknowledgement
  • Transfer
  • Transfer acknowledgement
  • Transfer reply
  • Transfer reply acknowledgement

Käytännössä siirto voi hoitua paljon vähemmilläkin viesteillä. Minimissään tarvitaan vain Transfer-viesti PAIS:in tapaan. On makuasia kumpaa standardia pitää parempana; itse kallistun MEDONA:n suuntaan, mutta laajuutensa vuoksi sille olisi hyvä laatia välttämättömät toiminnot määrittelevä standardoitu profiili.

PAIS-standardi palvelee muistiorganisaatioita lähinnä yhtenä esimerkkinä siitä, miten aineistojen siirtäminen PAS-arkistoon voidaan tehdä. Muistiorganisaatiot ja muut yhteisöt tulevat kehittämään omia määrityksiään, jotka soveltuvat niiden aineistoille ja toimintatavoille, joista MEDONA on ensimmäinen. Sen tavoin jotkut näistä määrityksistä voivat myös laajentaa OAIS-mallia.

Edellä on kuvattu PAIS:in ja MEDONA:n semanttisia eroja. Entäpä syntaksi?

PAIS-standardi käyttää PAS-järjestelmään siirrettävien pakettien rakentamiseen CCSDS:n omaa XFDU (XML Formatted Data Unit, http://public.ccsds.org/publications/archive/661x0b1.pdf) -määritystä. MEDONA määrittelee kaikille viesteilleen omat, XML-pohjaiset rakenteensa. Tieto-objektien paketoimisesta siirtopakettiin molemmat standardit antavat omia, samansuuntaisia ohjeita. Kummatkin standardit korostavat sitä, että kaikilla aineistoilla on oltava tunnisteet, ja että esimerkiksi tiedostomuodot on identifioitava. MEDONA ohjeistaa myös sen, miten siirrossa mukana olevat toimijat pitää identifioida.

Useimmat muistiorganisaatiot soveltavat PAS-hankkeissaan siirtopakettien rakenneratkaisuna joko Kongressin kirjaston XML-pohjaista METS-standardia (Metadata Encoding and Transmission Standard, http://www.loc.gov/standards/mets/) tai verkkoarkistointiin tarkoitettua WARCia (Web Archive File Format, http://bibnum.bnf.fr/warc/).  CCSDS:n intressissä on ensi sijassa luonnontieteellisen tutkimusdatan säilyttäminen mihin XFDU on omiaan, kun taas esimerkiksi kirjastojen kannalta tärkeintä on julkaisujen ja verkkosivujen säilyttäminen, mihin METS ja WARC sopivat oivallisesti.

Oleellista on, että PAS-arkistoon lähetetyissä siirtopaketeissa ja arkiston tallentamissa arkistopaketeissa on kaikki pitkäaikaissäilytyksen edellyttämä metatieto ja että aineisto (tiedostot) on tulkinta- ja käsittelykelpoisessa muodossa. Syntaksin suhteen meillä on pelivaraa, kunhan kaikki oleellinen tieto saadaan paketteihin mukaan.

Lopuksi

KDK:n PAS-hanke ei ole vielä rakentanut kattavaa PAS-arkistoa, mutta se valmistunee muutaman vuoden kuluessa. Samaa teknistä infrastruktuuria voidaan käyttää myös muihin tarkoituksiin, kuten tutkimusaineistojen pitkäaikaissäilytykseen.

Tätä kirjoitettaessa meillä on jo käytettävissämme bittien tallennuspalvelu, ja sen oheen on rakennettu erilaisia lisätoimintoja, kuten siirtopakettien validointi. Näiden toimintojen mahdollistamiseksi KDK-hankkeessa on tehty suuri joukko standardointityötä. Niinpä meillä on esimerkiksi yksityiskohtainen kuvaus siitä, miten PAS-järjestelmään siirrettävä aineisto tulee paketoida, sekä arkisto- ja siirtokelpoisten tiedostomuotojen luettelo.

Tuotantojärjestelmien ja PAS-sovelluksen välinen tiedonsiirto on Suomessa toistaiseksi varsin yksinkertaista. Aineistoja on siirretty testattavaksi esimerkiksi FTP:llä. Automaattisia tuotantoprosesseja ei vielä ole; tuotantoon on ensimmäisenä menossa Kansalliskirjasto, joka tulee siirtämään CSC:llä sijaitsevaan IDA-palveluun (https://www.tdata.fi/ida) verkosta haravoitua aineistoa WARC-muodossa.

Tulevaisuudessa PAIS:in ja MEDONA:n kaltaisia standardeja tultaneen soveltamaan aineistojen siirtämisessä, jotta prosesseista saadaan tehokkaita. Pitkällä aikavälillä standardointi leikkaa myös sovelluskehityksen kuluja. Pitkäaikaissäilytyksen kriittisin kysymys on palvelun hinta, ja kustannusten saaminen hyväksyttävälle tasolle edellyttää toimintojen pitkälle vietyä automatisointia, jonka yksi keskeisin edellytys on standardointi.

 

Kirjoittajan yhteystiedot

Juha Hakala, erityisasiantuntija
Kansalliskirjasto
PL 26, 00014 HELSINGIN YLIOPISTO
Sähköposti: juha.hakala[at]helsinki.fi

 

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.