Miten e-opinnäyte kesytetään

Hakala J (2019). Miten e-opinnäyte kesytetään. Tietolinja, 2019(1). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2019041912955

Painetun kirjan kunnon pintapuolinen selvittäminen on helppoa, sillä siihen ei välttämättä tarvita mitään apuvälineitä. Vastaava elektronisen kirjan tarkastaminen on sekin joutuisaa – jos e-kirjaa voi käyttää siihen tarkoitetulla ohjelmistolla ja / tai laitteistolla kuten Adobe Acrobatilla tai Kindlellä, kirja on tavallisen lukijan kannalta riittävän hyvässä kunnossa. Mutta jos elektronisen julkaisun kunto halutaan varmistaa esimerkiksi pitkäaikaissäilytystä varten, se on syytä syynätä tarkemmin tarkoitukseen soveltuvalla ohjelmalla.

Todelliset ongelmat, kuten julkaisuun pujahtaneet virukset, pitää tietenkin poistaa aina. Mutta pienet ongelmat, kuten PDF-dokumentin nimiössä olevat virheelliset koodit, eivät välttämättä haittaa Acrobatia tai muita PDF-katseluohjelmia eivätkä niin muodoin lukijaakaan. Pitkäaikaissäilytyksen kannalta ne voivat kuitenkin olla merkittävä haitta, koska ne voivat vaikeuttaa dokumenttien migraatiota eli muuntamista uudempaan, helppokäyttöisempään tiedostomuotoon. Ja vaihdos vähemmän suvaitsevaiseen katseluohjelmaan voi tuoda aiemmin piilossa olleet virheet näkösälle.

Joissakin julkaisuprosesseissa pitkäaikaissäilytys ja sen virheettömyysvaatimukset otetaan jo nyt huomioon. Korkeakoulut julkistavat nykyään opinnäytteitä PDF/A-muodossa. Useissa korkeakouluissa opiskelijoille kerrotaan, miten eri tekstinkäsittelyjärjestelmistä voi tuottaa PDF/A-tiedoston ja miten tämän tiedoston voi validoida. Aalto-yliopiston[1] ja Turun yliopiston[2] ohjeet eroavat yksityiskohdissaan, mutta lopputulos on sama, tarkistettu PDF/A-tiedosto (Turussa muotoa PDF/A-1b ja Otaniemessä joko PDF/A-1a, 1b, -2a tai -2b), jonka voinee aikanaan siirtää sopivin metatiedoin höystettynä CSC:n ylläpitämään PAS-palveluun.

Oulun yliopiston Muuntaja-palvelu[3] ei kerro, mitä PDF/A-versiota se tuottaa, mutta lähtöformaatteja voivat olla Microsoft Officen doc- ja OOXML-tiedostomuodot, Open Officen ODT ja tavallinen PDF. Kotisivu ei kerro, miten Muuntaja validoi tiedostot, mutta sivulla on hyödyllistä tietoa siitä, miten PDF/A-muunnosongelmia voi välttää.

PDF/A on yksi PAS-palvelussa määritellyistä säilytyskelpoisista tiedostomuodoista. Perus-PDF on ainoastaan siirtokelpoinen: pitkäaikaissäilytystä varten PDF-tiedostot on muunnettava säilytyskelpoiseen PDF/A-muotoon. Migraatiossa PDF-tiedostosta poistetaan dokumentin mahdollisesti sisältämät vaikeasti säilytettävät ominaisuudet, esimerkiksi skriptit, äänet, elävä kuva tai salaukset. Sama kohtalo on aineistoilla, jotka ovat käytettävissä vain perustiedostoon linkitettyinä. Toisaalta PDF/A-tiedostoon lisätään esimerkiksi fontit, jotta se voidaan varmasti esittää oikein myös tulevaisuudessa.

Muita siirtokelpoisia formaatteja käsitellään periaatteessa samoin kuin PDF:ää, mutta muunnosvaihtoehtoja voi olla enemmän. Esimerkiksi OOXML-tiedosto jota ei tarvitse enää editoida, voidaan muuttaa PDF/A:ksi. Muussa tapauksessa ODF-tiedostomuoto on parempi vaihtoehto. ODF-muunnoksessa alkuperäisen dokumentin ulkoasu voi muuttua (esimerkiksi kaksoisalleviivaukset häviävät), mutta muunnoksen avulla luotu ODF-tiedosto on edelleen muokattavissa toisin kuin PDF/A-tiedosto.

Migraatiot ovat osa organisaatioille tarjottavaa PAS-palvelua, ja CSC tulee toteuttamaan ne aina yhdessä palvelua käyttävien organisaatioiden kanssa. PAS-palvelulla tulee olla kyvykkyys muuntaa siirtokelpoiset tiedostomuodot säilytyskelpoisiksi, samaan tapaan kuin sen pitää pystyä muuntamaan vanhentuneet, alun perin säilytyskelpoiset tiedostomuodot yhteisten päätösten mukaisiksi uudemmiksi tiedostomuodoiksi. Säilytettävien aineistojen vastuuorganisaatiot suunnittelevat migraatioprosessit yhdessä PAS-palvelun kanssa.

Opinnäytteiden julkaisuprosessin ohella myös esimerkiksi digitoinnissa tulee pyrkiä siihen, että tuotettu aineisto olisi jo valmiiksi PAS-palvelun vaatimusten mukaista, jos on varmaa tai ainakin mahdollista, että aineisto pitkäaikaissäilytetään. Esimerkiksi kirjan sivuista digitoitujen still-kuvien pitää olla säilytyskelpoisessa muodossa, ja siirtopakettiin on tallennettava still-kuvaa koskevat pakolliset tekniset metatiedot, jotka on määritelty Säilytys- ja siirtokelpoiset tiedostomuodot -ohjeessa[4]. Samasta ohjeesta löytyvät myös muita aineistotyyppejä koskevat linjaukset.

Tieteen tietotekniikan keskus CSC on rakentanut paketointikomponentti-nimisen työkalun[5] PAS-palvelun vaatimusten mukaisten siirtopakettien luomiseen. Se helpottaa pitkäaikaissäilyttämistä, mutta sen varaan ei voida laskea kaikkea. Pitkäaikaissäilytettävän aineiston koko elinkaari tulee sovittaa PAS-yhteensopivaksi. Jos esimerkiksi PDF/A-tiedoston tarkistussumma lasketaan vasta siirtopakettia luotaessa, ei ole mahdollista tarkistaa, onko tiedosto vaurioitunut julkaisuarkistossa ollessaan. Ja vaikka ei olisikaan, tiedoston eheyttä on mahdotonta todistaa, jos joku alkaa sitä epäillä. Organisaatioiden omaa aktiivisuutta tarvitaan esimerkiksi digitointi- ja luettelointiprosessien PAS-kelpoisuuden parantamisessa.

CSC:n PAS-palveluun saapuu siirtopaketteja paljon, suorastaan valtavasti. Pakettien käsittely on automaattista, ja siksi pakettien virheettömyys on tärkeää. Jos metatiedoissa tai itse tietosisällössä ilmenee paketin validointivaiheessa virhe, käsittelyprosessi pysähtyy virheilmoitukseen. Säilytyspaketti syntyy vasta sitten, kun PAS-palvelua hyödyntävä organisaatio (opinnäytteen tapauksessa asianomainen korkeakoulu) on korjannut ongelman. CSC puuttuu tilanteeseen vain, jos hyödyntävä organisaatio tarvitsee apua.

Monet ongelmat voidaan korjata ohjelmallisesti, mutta toisaalta vähäinenkin remontti voi edellyttää manuaalista työtä. Alkuperäinen siirtopaketti on joka tapauksessa lähetettävä uudelleen korjattuna. Validoimalla pitkäaikaissäilytykseen siirrettävät tiedostot mahdollisimman aikaisin ja samoin välinein kuin CSC:n PAS-palvelussa tehdään, voidaan vähentää tiedostoihin liittyvien ongelmien todennäköisyyttä.

Eri validointiohjelmat kiinnittävät huomiota eri asioihin, mistä syystä validoinnin tulos voi ainakin periaatteessa vaihdella. Siksi PAS-palvelun käyttämiä ratkaisuja olisi hyvä soveltaa myös korkeakoulujen opinnäytteiden julkaisuprosesseissa.

PAS-palvelu ja PDF/A-opinnäytteet

PAS-palvelun vastaanotossa kaikki PDF-tiedostot validoidaan ensin JHOVE-ohjelmistolla[6]. Näin voidaan olla (melko) varmoja siitä, että tiedosto on validi PDF. Jos PDF-versio on 1.7 jota JHOVE ei vielä tue, validointiin käytetään Ghostscriptiä. Jos tiedostomuoto on JHOVEn ja lähettäjän ilmoituksen mukaan PDF/A, tiedosto tarkistetaan vielä erikseen PDF/A-validointiin kehitetyllä veraPDF-sovelluksella[7].

PAS-palvelua hyödyntävä organisaatio vastaa tiedostossa ilmenneiden ongelmien ratkaisemisesta; CSC auttaa vain, jos organisaatio ei kykene ratkaisemaan ongelmaa omin voimin ratkaisemaan. E-vapaakappaleiden kaltaisten aineistojen osalta on ylipäätään tärkeää, että tiedostoja muokkaa vain se taho, jolla on niistä säilytysvastuu. PAS-palvelu huolehtii itsenäisesti bittitason säilytyksestä tallentamalla aineistoista useita kopioita, joita vertaillaan keskenään. Mutta luettavuuden säilyttäminen ei ole pelkästään tekninen operaatio, vaan se edellyttää myös tietoa potentiaalisesta käyttäjäkunnasta ja sen preferensseistä.

Päätöstä siitä, pitkäaikaissäilytetäänkö korkeakoulujen kaikki opinnäytteet keskitetysti CSC:n PAS-palvelussa, ei ole vielä tehty. Jos säilytetään, on sovittava siitä, miten ne sinne toimitetaan, ja kuka niiden luettavuuden säilyttämisestä vastaa. Vaikka korkeakoulut vastaisivat ainakin osasta aineistostaan itse, siirrosta ja säilytyksestä voivat huolehtia myös kolmannet osapuolet. Niiden vastuut tulee sopia erikseen; mahdollisia tehtäviä ovat opinnäytteiden ja muun pitkäaikaissäilytettävän aineiston haravointi  julkaisuarkistoista, aineistojen paketointi METS-standardin (Metadata Encoding & Transmission Standard)[8] mukaisiksi siirtopaketeiksi ja lähettäminen PAS-palveluun sekä säilytettävien tiedostojen muuntaminen säilytyskelpoiseen muotoon (eli migraatio).

Korkeakoulut voivat hankkia tarvittavan PAS-osaamisen ja asioida suoraan CSC:n kanssa. CSC:n tarjoamalla paketointikomponentilla ja sen käyttäjäkoulutuksilla pyritään madaltamaan yhteistyön aloittamisen kynnystä. Varsinkin pienempien korkeakoulujen voi silti olla järkevää hoitaa asia alihankintoina.

Jos PAS-toimintaa keskitetään, siirtopaketeissa olevat ongelmat selvitetään tilanteesta riippuen eri paikoissa. Siirtopaketin luontiin liittyvät ongelmat pakettien lähetyksestä vastaava taho voinee usein selvittää itse, mutta jos tietosisällöt (dokumentit ja niiden metatiedot) eivät ole kunnossa, vastuu on tietojen tuottajalla eli esimerkiksi korkeakoululla. Yleensä Kansalliskirjastolla tai palveluntarjoajat eivät voi korjata esimerkiksi PDF/A-tiedostoissa olevia teknisiä ongelmia, ellei yhteistyösopimus tätä oikeutta takaa. Vapaakappaleaineisto on poikkeus, koska Kulttuuriaineistolaki antaa Kansalliskirjastolle oikeuden muuntaa säilytyskelpoiseen muotoon tiedostoja, jotka eivät ole PAS-palvelun tiedostomuoto-ohjeistuksen mukaan[9] siirto- eivätkä säilytyskelpoisia. Tämä on tärkeää etenkin pitkäaikaissäilytyksen kannalta. Kun säilytysaika venyy vuosiksi ja vuosikymmeniksi, julkaisijat muuttavat historian lehdille ja säilytyskelpoiset tiedostomuodot ”hapantuvat” ja käytettävyys voidaan taata vain muuntamalla dokumentit tuoreempiin tiedostomuotoihin.

Tiedostomuunnosten aiheuttamia ongelmia lieventää se, että myös alkuperäinen dokumentti voidaan siirtää PAS-palveluun, joskin se säilytetään siellä vain bittitasolla. Ei-säilytyskelpoiset tiedostot on merkittävä siirtopaketeissa siten, ettei niitä validoida, koska muussa tapauksessa paketti ei läpäisisi tarkistusta.

Tätä kirjoitettaessa periaatteessa kaikki PDF/A:n variantit kelpaavat PAS-palvelulle. Korkeakoulut voivat siis periaatteessa valita vapaasti, mitä versiota opinnäytteissä käytetään. Valinta perustuu näiden PDF-varianttien ominaisuuksiin – muunnettavalla alkuperäisdokumentilla voi olla uusia ominaisuuksia, joita jokin varhaisempi PDF/A-versio ei tue.

PDF/A-1 perustuu PDF-standardin versioon 1.4, PDF/A-2 versioon 1.7. Jälkimmäisessä versiossa on joukko uusia ominaisuuksia, kuten selkeät säännöt digitaalisen allekirjoituksen tekemiseen. Lisätietoja näistä uusista piirteistä on esim. PDF Tools -yrityksen ylläpitämässä PDF/A-2 Overview -dokumentissa[10].

Versioon lisätyt kirjaimet a ja b kuvaavat yhteismitallisuuden tasoa:

Level B conformance (PDF/A-1b) indicates minimal compliance to ensure that the rendered visual appearance of a conforming file is preservable over the long term. Level A conformance (PDF/A-1a) indicates complete compliance with the ISO 19005-1 requirements, including those related to structural and semantic properties of documents.

A-tason yhteismitallisuus on tärkeää, jos tavoitteena on esteettömyys. Tosin silloin paras vaihto olisi salaamaton PDF/UA, mutta ei ainakaan toistaiseksi se ei ole PAS-kelpoinen tiedostomuoto.

PDF/A-2u –tiedostomuotoa sovelletaan esimerkiksi digitoiduille aineistoille, joissa on tärkeää saada OCR-muunnettu teksti haettavasti Unicode-muodossa.

Vuonna 2012 julkaistiin toistaiseksi viimeisin PDF/A-versio, PDF/A-3. Se vastaa edeltäjäänsä muuten, mutta se sallii muissa tiedostomuodoissa olevien tiedostojen upottamisen PDF/A-tiedostoon. PAS-palvelu takaa näiden tiedostojen säilyttämisen vain bittitasolla. Toisin sanoen, vaikka PDF/A-3 -aineistoja voi lähettää PAS-palveluun, kaikkia standardin sallimia ominaisuuksia ei pitäisi käyttää. Jos upotetut tiedostot eivät ole pitkäaikaissäilytyskelpoisia, ne eivät ennen pitkää ole enää tulkittavissa yleisesti käytössä olevilla sovelluksilla. Tällöin tulevaisuuden tutkija joutuu turvautumaan digitaaliseen arkeologiaan päästäkseen kiinni bittien takana kätkössä olevaan informaatioon.

Edellä kuvattuun ongelmaan törmätään myös esimerkiksi EPUB-standardin kanssa. EPUB on yksi PAS-palvelun pitkäaikaissäilytyskelpoisista tiedostomuodoista. Siinä on kuitenkin useita säilytyksen kannalta hankalia ominaisuuksia, kuten skriptien tai salauksen käyttömahdollisuus tai mahdollisuus linkittää EPUB-julkaisuun ulkoisia tiedostoja. Kaikki nämä ominaisuudet sisältyvät myös PDF:ään, mutta ne on kielletty PDF/A:ssa.

Toivottavasti ennen pitkää laaditaan EPUB/A, josta kaikki PAS-kelvottomat piirteet on karsittu. Sitä odotellessa EPUBia kannattaa soveltaa pitkäaikaissäilytykseen vain jos käyttäjät ohjeistetaan tuottamaan sellaisia tiedostoja, jotka ovat säilytettävissä. Valitettavasti PAS-kelpoisuus ei yleensä ole kovinkaan korkealla kustantajien prioriteettilistalla, vaan tärkeämpää on esimerkiksi toiminnallisuus. Kollegat British Libraryssä ovat tehneet kokeiluja hankalilla EPUB-aineistoilla, ja mieleeni on jäänyt lastenkirja, jota lukiessa tabletti oli käännettävä yhdessä vaiheessa ylösalaisin, jotta lukemista saattoi jatkaa. Vapaakappaletyöasemalla tämmöinen dokumentti on jo nyt hankala tapaus, eikä sen luettavuus tulevaisuudessa ainakaan parane, jos toiminnallisuuden edellyttämä ohjelmisto lakkaa toimimasta uusissa laitteisto- ja ohjelmistoympäristöissä.

Tiedostomuoto ja luettelointi

Suurinta osaa PDF/A-aineistoista (esim. gradut) ei kuvailla kirjastojärjestelmiin. Mutta jos niistä tehdään MARC-tietue, on tärkeää tallentaa myös versio, koska PDF/A:n tapauksessa niiden erot ovat merkittäviä. Tiedostomuodon versio voidaan tarvittaessa antaa kentän 347 (Digitaalisen tiedoston ominaisuudet) osakentässä $b (koodausformaatti) sekä kentän 856 osakentässä $q (tiedoston muoto) käyttötapa on samalla tapaa rajallinen. Metatietosanastossa olevat tiedostomuototermit[11] eivät toistaiseksi ota kantaa versioihin, mutta ne voidaan lisätä sanastoon.

Tiedostomuodon versiota ei tarvitse tallentaa, jos ne ovat alaspäin yhteensopivia. Valitettavasti tämä ei pidä paikkaansa esimerkiksi PDF/A:n tai EPUB:in osalta. Katseluohjelma, joka pystyy esittämään PDF/A-1b dokumentin vaivattomasti, voi olla neuvoton PDF/A-2a -dokumentin kanssa. Siksi olisi tärkeää tallentaa versio aina, kun se on dokumentin käytön tai pitkäaikaissäilytyksen kannalta tärkeää. Tämä käytäntö voitaisiin aloittaa PDF, PDF/A ja EPUB-formaateista.

Kuvailijan kannalta vaatimus tiedostomuodon version tallentamisesta on hankala, jos version selvittämiseen tarvitaan apuväline, esimerkiksi validointiohjelmisto. Mutta jos luetteloinnin kohteena olevan tiedoston eheyden tarkistus validointiohjelmalla sisällytetään osaksi kuvailuprosessia, saadaan aina myös versiotieto sekä varmistus sille, että poimintaluetteloiduissa metatiedoissa ilmoitettu tiedostomuoto on oikea. Versiotieto on pakollinen kuvailussa myös silloin, kun halutaan luoda erilliset manifestaation kuvaukset vaikkapa saman kirjan EPUB2- ja EPUB3-versioista.

Lähdeviitteet

[1] https://it.aalto.fi/fi/ohjeet/pdf-tiedoston-tallennus-pdfa-formaattiin-seka-validointi

[2] https://utuguides.fi/opinnayte/pdfa

[3] https://muuntaja.oulu.fi/

[4] http://www.digitalpreservation.fi/specifications

[5] https://github.com/Digital-Preservation-Finland/dpres-siptools

[6] http://jhove.openpreservation.org/

[7] https://verapdf.org/

[8] http://www.loc.gov/standards/mets/

[9] http://www.digitalpreservation.fi/specifications

[10] https://www.pdf-tools.com/pdf20/en/resources/pdf-iso-standards/pdfa-2-overview/

[11] https://finto.fi/mts/fi/page/m88

Kirjoittajan yhteystiedot

Juha Hakala, erityisasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 15 (Yliopistonkatu 1) 00014 Helsingin yliopisto
sähköposti: juha.hakala [at] helsinki.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.