Kuinka verkko arkistoitui?

Hakala J (2017). Kuinka verkko arkistoitui? Tietolinja, 2017(1). Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe201702151604

Vapaakappalekirjastojen tapaamisessa 30. marraskuuta 2016 juhlittiin sitä, että Kansalliskirjasto on haravoinut kotimaista verkkoaineistoa elektroniseen vapaakappalekokoelmaan Kulttuuriaineistolain[1] takaamalla mandaatilla jo 10 vuoden ajan.

Webin haravoinnin historia ulottuu kuitenkin kauemmas, yli 20 vuoden päähän. Kuvaan tässä artikkelissa sitä, miten verkon arkistoinnista tuli ensin mahdollista ja sitten tarpeellista, ja miten se muuttui kokeiluluontoisista hankkeista vakiintuneeksi osaksi monien kansalliskirjastojen vapaakappaletyötä. Näkökulmia on kolme: tekninen, juridinen ja strateginen.

Vähän historiaa

Piipahdetaan aluksi Nordunet ’93 -kokouksessa. NORDUNET[2] on vuonna 1985 perustettu pohjoismainen kansallisten korkeakoulujen ja tutkimuksen tietoverkkojen yhteistyöelin. Sen vuosittaisissa konferensseissa käsiteltiin 90-luvulla verkon teknisten kysymysten ohella myös tietopalveluita, minkä vuoksi tapaamiset olivat kirjastojenkin näkökulmasta kiinnostavia.

Vuoden 1993 NORDUNET-tapaaminen[3] pidettiin Helsingissä 15.-17. helmikuuta. Information tools –teemalle omistettiin kolmen ja puolen tunnin sessio, jonka esitelmät ja puhujat olivat:

Information tools, an overview
Peter Deutsch
Gopher
Mark McCahill
View to the future
Chris Weider
World Wide Web
Tim Berners-Lee

Kuten ohjelmasta voi päätellä, Internetissä oli tuolloin useita kilpailevia tietojärjestelmiä, eikä 1989 alkunsa saanut WWW ollut edes niistä suosituin. 1991 julkistettu Gopher[4] oli vielä alkuvuonna 1993 selvästi WWW:tä tunnetumpi.

Berners-Lee oli tuolloin jo toista kertaa esittelemässä WWW:tä Pohjoismaissa. NORDUNETin historiikki kuvaa ensimmäistä vierailua seuraavasti [Lehtisalo, s. 34]:

The nordunet community also got acquainted with www at an early stage: in 1992 Berners-Lee gave a lecture about the World Wide Web at nordunet’s NETF (nordunet Engineering Task Force) meeting in Turku, Finland.

Peter Villemoes, the General Manager of nordunet, remembers the occasion in Turku very well. He had already seen a demonstration of WWW at CERN a year earlier and he was very enthusiastic about it: “I got the ‘aha’ experience of my life. I saw a glimpse what that implied.” Unfortunately, the Nordic university networking community did not yet seem to share this enthusiasm. Villemoes recalls that the NETF audience listened to Berners-Lee rather passively. “Everybody went home and continued with Gopher, which was a much more restricted facility but with a better user interface at the time. I was much disappointed.”

WWW:n alkuvaikeuksiin on teknisiä syitä. CERNissä kehitetyt ohjelmat toimivat vain NeXT-tietokoneella[5], eikä komentopohjainen käyttöliittymä ollut houkutteleva. Tilannetta ei helpottanut se, että Berners-Leen esitys oli pedagogisesti ”haasteellinen”; hän puhui nopeasti Walesin murteella, ja vilautteli yleisölle kymmeniä kalvoja, jotka olivat täynnä tekstiä. Mark McCahillin Gopher-esittely oli huomattavasti ”myyvempi”.

Kuva: Tim Berners-Leen CERN:issä käyttämä NeXT-työasema, joka toimi maailman ensimmäisenä www-palvelimena. Lähde: Wikimedia Commons, CC-BY-SA 3.0.

Pohjoismaiden ei tarvitse ripotella tuhkaa ylleen sen vuoksi, että Berners-Lee sai NORDUnet-kokouksessa haalean vastaanoton. Samalla tavoin hänen oli käynyt myös IETF:n kokouksessa San Diegossa maaliskuussa 1992. Gopher-historiikissa [Gihring] hänen esitystään kuvataan näin:

On March 18, in a conference room of the hotel, Berners-Lee presented one possible breakthrough: the World Wide Web. It was evening. Many of the 530 conference attendees had already gone to the bar or to dinner. To the curious who stayed behind, Berners-Lee explained that the Web could be used to connect all the information on the internet through hyperlinks. You could click on a word or a phrase in a document and immediately retrieve a related document, click again on a phrase in that document, and so on. It acted like a web laid over the internet, so you could spider from one source of information to another on nearly invisible threads.

Two other programs with the potential to expand access to the internet — WAIS and Prospero — were discussed in the same session. In the reports of people who saw the presentation, the Web did not come across as the best of them, or even as particularly promising.

Alkuvuonna 1993 WWW-palvelimia oli vain kourallinen, ja ani harva oli käyttänyt niitä. Gopher sen sijaan oli tuttu useimmille. Niinpä NORDUNET 93 –kokouksen WWW-aiheiseen Birds of Feather –tapaamiseen ei ollut tunkua – meitä oli paikalla Berners-Leen lisäksi vain kourallinen. Ja toisin kuin Villemoes, en ymmärtänyt toisellakaan selittämällä WWW:n erinomaisuutta. Niin minulle kuin useimmille muillekin sen tajuamiseen tarvittiin graafinen WWW-käyttöliittymä, NCSA:ssa kehitetty Mosaic[6], jonka avulla pystyi käyttämään muitakin verkon palveluita. NORDUnet-historiikki kuvaa sen merkitystä näin [Lehtisalo, s. 34]:

Mosaic soon attracted a wide audience, and the number of Web users began to grow fast. In early 1993 there were about 100 WWW servers in the world, but by the end of the year the number was over 600. One year later the number of servers had exceeded 10,000. The year 1994 was a real breakthrough for WWW, and its success brought a lot of attention to the Internet. The information highway was now paved for the general public.

Muutosta voi kuvata myös prosentteina [Gihring]:

In 1993, Gopher was still far more popular than the World Wide Web, and Gopher traffic grew by 997 percent. But the Web was starting to catch up — that year, it grew by 341,634 percent.

Keväällä 1994 WWW:n käyttö ohitti Gopherin, ja viimeistään tuon vuoden syksyllä Gopherin ja muidenkin kilpailevien Internetin tietopalvelujen kehittäjät heittivät pyyhkeen kehään. Kovin monia nämä muutokset eivät liikuttaneet; vuoden 1995 lopussakaan Internet-käyttäjiä ei ollut kuin 16 miljoonaa. Syyskuussa 2016 meitä oli jo 3,675 miljardia eli puolet maailman väestöstä[7].

Kuva: Sir Tim Berners-Lee. Kuvaaja: Paul Clarke. Lähde: Wikimedia Commons, CC-BY-SA 4.0.

Vuonna 2004, vain reilu vuosikymmen epäonnisen NORDUNET-esiintymisensä jälkeen, Berners-Lee tuli uudestaan Suomeen noutamaan ensimmäisen Millenium-palkinnon, jonka hän sai osuudestaan WWW:n keksimisessä. Tällä Suomen visiitillä vastaanotto oli varsin erilainen kuin toistakymmentä vuotta aiemmin. Isäntien kannalta on vähän noloa, että palkinnon perustelusivu, jonka pitäisi löytyä URL-osoitteesta http://taf.fi/en/millennium-technology-prize/winner-2004/ on kadonnut (kaikkien muiden palkinnonsaajien sivut ovat tallessa). Internet Archivesta Berners-Leenkin sivu yhä löytyy, ja palkintoa taustoitetaan näin[8]:

The Web is one of many Internet-based communication services. Other computer software that uses the Internet includes electronic mail and entertainment applications such as games.

The first server and Web browser/editor software provided the foundation for the Web. Berners-Lee also produced first versions of the HTTP protocol, HTML language and URIs (Unique Resource Identifiers, sometimes called URLs). These allow Web users to access information in a variety of formats using just one program (a web browser).

Prior to the invention of the Web, exchanging information was more complex because people had to know lots of details about specific systems. The Web hid those details and provided a single interface for interacting with any type of of underlying hardware or system.

The Web also showed the true potential of hyperlinks. Quick browsing allows readers to escape from the fixed, sequential organisation of information.

Hätäinen lukija voisi vetää tästä johtopäätöksen että palkinto meni väärälle miehelle, koska Berners-Lee ei kehittänyt ensimmäistä toimivaa WWW-selainta eikä HTML-editoria. Hypertekstiä edisti Ted Nelson Xanadu-järjestelmällään[9] jo paljon ennen Berners-Leetä. Myös CERNin oma, jo 1996 kuopattu HTTP-palvelin rakennettiin kolmen henkilön yhteistyönä[10].

Minusta palkinto meni oikeaan osoitteeseen, koska ennen World Wide Webiä Internetin tietopalvelut todella olivat vain hajanainen kokoelma järjestelmiä, joilla kullakin oli oma yhteysprotokollansa ja kömpelö komentopohjainen käyttöliittymä. Palvelujen käytön vaikeus oli omiaan vieraannuttamaan tavalliset käyttäjät, ja Internet pysyi aina WWW:n tuloon asti etupäässä IT-väen temmellyskenttänä. Internetin todelliset ja potentiaaliset tiedontuottajat puolestaan tuskailivat paitsi käyttäjäkunnan kapeutta, myös helposti omaksuttavien käyttöliittymien kehittämisen vaikeutta ja yhteisen käyttöliittymän puutetta. WWW ja graafinen WWW-selain olivat ratkaisu moniin ongelmiin.

Toimivat tekniset edellytykset Internetin haravointiin syntyivät WWW:n ja sen HTTP-protokollan myötä. WWW:n ansiota oli myös verkossa tarjolla olevan informaation määrän nopea kasvu, joka teki verkosta relevantin suurelle käyttäjäkunnalle ja loi tarpeen kerätä ja säilyttää verkon tietosisältöjä. NORDUnet-raportti tiivistää asian näin [Lehtisalo, s, 34]:

… in the late 1980s and the first years of 1990s the Internet and networking in general were of no interest for ordinary people or for the media. According to Peter Villemoes, networking did not attract media “until the World Wide Web came with the real browser. Then we could read in the newspapers about what we had been doing for years!”

Haravoinnin tekniikka

WWW-palvelimista julkaistiin aluksi kirjoja, joissa listattiin Webin parhaita paloja jokseenkin kattavasti. Mutta varsin pian nämä julkaisut olivat vanhentuneita jo ilmestyessään, ja tarvittiin muunlainen ratkaisu: hakukone. Tätä kirjoitettaessa niitä on laajasti käytössä ainakin 14[11], joskin Google on selvä markkinajohtaja. Alan pioneeri oli joulukuussa 1995 julkistettu Alta Vista[12], joka suljettiin 2013.

Kuva: Altavista-hakupalvelun etusivu vuonna 1999. Lähde: Internet Archive.

Verkon hakukoneista ja verkkoarkistoista on nopeasti tullut merkittäviä tutkimusvälineitä. Molemmilla on tutkimuksen kannalta sama merkittävä heikkous [Leetaru]:

…for scholars to be able to use web archives for research, we needed far greater information on how those archives were being constructed. […] few major web archives have produced such documentation, especially relating to the algorithms that control what websites their crawlers visit, how they traverse those websites, and how they decide what parts of an infinite web to preserve with their limited resources. In fact, it is entirely unclear how the Wayback Machine has been constructed, given the incredibly uneven landscape it offers of the top one million websites, even over the past year.

Hakukoneiden ja verkkoarkistojen merkittävin ero on se, että hakukoneet eivät arkistoi indeksoimiaan aineistoja, eivätkä verkkoarkistot indeksoi arkistoimiaan aineistoja. Käyttäjän kannalta palvelut voivat siis täydentää toinen toistaan; tehokkaan käytön mahdollistamiseksi molemmat – hakukoneet ja arkistot – ovat välttämättömiä. Mutta sekä hakukoneet että verkkoarkistot voivat tarjota käyttäjille värittyneitä ja pahimmillaan täysin virheellisiä tuloksia, johtuen joko tahallisista tai tahattomista virheistä aineiston haravoinnissa ja/tai indeksoinnissa.

Ajatus arkistoivan hakurobotin kehittämisestä syntyi pian WWW:n nopean kasvun alettua. Ensimmäisenä ehätti Brewster Kahlen Internet Archive[13], joka perustettiin toukokuussa 1996. Laajamittainen haravointi käynnistyi lokakuussa 1996, vaikka ensimmäiset sivut kerättiin jo heti arkiston perustamisen jälkeen.

Kuva: Internet Archiven kotisivut tammikuussa 1997. Lähde: Internet Archive.

Euroopassa verkon arkistoinnin pioneereja olivat Pohjoismaat, kenties siksi että täällä verkkoyhteydet toteutettiin TCP/IP-pohjaisesti, kun muualla Euroopassa sinniteltiin ISO:n OSI-mallin standardien ja hitaiden X.25 –verkkojen varassa. Pohjoismaista oli toimiva verkkoyhteys Yhdysvaltoihin jo silloin, kun Keski-Euroopassa edes maan sisäiset yhteydet eivät toimineet kunnolla.

NORDINFO rahoitti Nordic Web Index –hankkeen[14], jossa rakennettiin yhteisen Web-indeksin lisäksi Combine-haravointisovellus. Kungliga biblioteket käynnisti siihen pohjautuen vuonna 1997 Kulturarw3-projektin[15], joka keräsi muokatulla Combine-haravalla ruotsalaisen verkkoaineiston useita kertoja.

Kuva: Nordic Web Indexin verkkosivu vuonna 1997. Lähde: Internet Archive.

Kansalliskirjasto osallistui vuosina 1997-2001 NEDLIB-projektiin[16], jossa meidän vastuullamme oli verkkojulkaisujen keruu ja arkistointi. Tekninen kehitystyö hankittiin CSC:ltä, missä projektista vastasi sovellusasiantuntija Mika Rissanen. Alun perin tavoitteena oli käyttää Combine-sovellusta Ruotsin tapaan, mutta siinä havaittujen puutteiden vuoksi päätettiin kehittää oma, tietokantapohjainen järjestelmä. Sen kehitys alkoi vuoden 1999 lopulla, ja päättyi syyskuussa 2002.

NEDLIB-haravaa ja sen toimintaa kuvataan allekirjoittaneen kirjoittamassa artikkelissa [Hakala 2003]. Siinä oli monia piirteitä kuten tuplatiedostojen poisto, jotka tulivat muihin arkistoiviin ”haravakoneisiin” vasta myöhemmin jos ollenkaan.

Rakenteeltaan NEDLIB-ohjelmisto oli modulaarinen. Haravointiprosessi, joita saattoi ajaa rinnakkain, vastasi verkkosivujen noutamisesta. Toinen moduli tutki haravoidut dokumentit ja etsi niistä hyperlinkit. Kolmas moduli tutki, olivatko linkit asetettujen haravointirajausten mukaisia. Haravointipyyntöjen priorisointiin oli oma modulinsa, jonka avulla haravointiaktiivisuus voitiin sovittaa kunkin kohdepalvelimen kapasiteettia vastaavaksi. Arkistointimoduli laski dokumenttien MD5-tarkistussummat, ja poisti mahdolliset tuplatiedostot. Lopuksi kerätyt tiedostot koottiin arkistointia ja myöhempää käyttöä varten tar-paketeiksi.

Kehitystyössä jouduttiin käyttämään huomattavasti arvioitua enemmän aikaa haravan tekemiseen immuuniksi tahallisille tai tahattomille haravointiansoille. 2000-luvun alussakin oli tuotantokäytössä luvattoman heikkotasoisia, mahdollisesti ”kotitekoisia” HTTP-palvelimia, joiden omituisuuksia haravan piti osata käsitellä. Ohjelmiston piti osata välttää myös tarkoitukselliset ansat, eli sivustot joille harava voisi jäädä pysyvästi silmukkaan, sekä sivut joiden HTML-koodissa oli perustavan laatuisia ongelmia.

NEDLIBin rinnalla Kansalliskirjasto osallistui vuosina 2000-2002 pohjoismaiseen Nordic Web Archive –hankkeeseen, joka kehitti käyttöliittymää haravoiduille aineistoille. Projekti herätti kansainvälistäkin huomiota ja sitä esiteltiin mm. IFLA:ssa[17]. Tavallinen hakuindeksi ei verkkoarkistolle kelpaa, koska arkiston selauksessa on kolmas ulottuvuus, aika, joka on kyettävä ottamaan huomioon. Hanketta rahoittivat NORDINFO ja Kansalliskirjastot. Projektin kehittämä NWA Toolset korvattiin sittemmin WERA (Web Archive Access) -sovelluksella.

Kaikki edellä kuvatut sovellukset ovat jo kauan sitten poistuneet tuotannosta. Mutta niiden parissa hankitut käytännön kokemukset avasivat Pohjoismaille pääsyn ensimmäisten joukossa vuonna 2003 perustettuun International Internet Preservation Consortiumiin eli IIPC:hen[18]. Se on

a membership organization dedicated to improving the tools, standards and best practices of web archiving while promoting international collaboration and the broad access and use of web archives for research and cultural heritage.

IIPC:ssä haravoinnin ja arkistoitujen dokumenttien käytön työkaluiksi ovat vakiintuneet Internet Archiven alun perin kehittämät Heritrix-harava[19] sekä Wayback Machine -ohjelmisto[20] ja sen pohjalta kehitetty Open Wayback -käyttöliittymäsovellus[21]. Pitkäaikaissäilytystä varten Heritrix tallentaa haravoidut aineistot Web Archive Format (WARC) -standardin[22] mukaisiksi paketeiksi. Kansalliskirjasto siirtää haravoidut paketit KDK-hankkeen PAS-sovellukseen varmistaakseen niiden pitkäaikaissäilytyksen, koska Wayback Machine ei tue aineistojen pitkäaikaista säilytystä. PAS-siirtoa varten WARC-paketin ympärille kääräistään vielä METS-standardin[23] mukainen pakettikuori, mikä helpottaa aineiston vastaanottoa ja käsittelyä PAS-sovelluksessa.

Kuva: Internet Archiven etusivu helmikuussa 2017.

Ohjelmistoyhteistyö tarjoaa verkkoarkistojen ylläpitäjille merkittäviä etuja. Sovelluskehitys tehdään kansainvälisenä yhteistyönä, ja muilta käyttäjiltä saa tarvittaessa tukea. Aineistoja voidaan myös helposti siirtää arkistosta toiseen; monet kansalliskirjastot ovat pyytäneet Internet Archivea poimimaan niille vanhaa aineistoa. Suomen verkkoarkistoakin voitaisiin periaatteessa täydentää vuosien 1996-2005 aineistoilla, ja muutamia vuosia sitten IA:lta pyydettiin jopa tarjous, jonka hinta oli varsin kohtuullinen.

Jos ja kun varsinainen tilaus joskus lähetetään, on ensin varmistuttava siitä, että pyyntö on Kulttuuriaineistolain mukainen. Lainmukaisuus on edellytys sille, että Internet Archivesta saatu aineisto voidaan tarjota kansallisessa verkkoarkistossamme[24] käytettäväksi lain voimaantulon jälkeen itse haravoimamme aineiston tavoin. Periaatteessa ongelmia ei pitäisi olla, laki kun edellyttää vain että haravoitava aineisto on käytettävissä verkossa, mikä kattaa myös (vapaasti käytettävät) verkkoarkistot. Laki toisin sanoen näyttäisi sallivan ulkomaisten verkkoarkistojen käyttämisen oman arkistomme täydentämiseen. Mutta verkkosivujen tuottajien mielestä voisi silti olla ongelmallista, että arkistossamme on sivuja jotka he ovat itse poistaneet verkosta jo vuosia ennen Kulttuuriaineistolain voimaantuloa.

Haravoinnin juridiikka

Teknisesti Internetin arkistointi on ollut kaikista alkuvaikeuksista huolimatta ehkä jopa odotettua helpompaa. Haravoinnin alkutaipaleella epäiltiin verkon kasvavan niin suureksi, ettei riittävää osaa kaikesta aineistosta ole enää mahdollista kerätä. Nopeasti kasvaneen tallennuskapasiteetin ansiosta nykyisillä ohjelmistoilla ja laitteistoilla pystytään kokoamaan valtavia määriä tietoja; esimerkiksi Internet Archive oli lokakuussa 2016 arkistoinut 510 miljardia tiedostoa, 273 miljardia Web-sivua 361 miljoonalta Web-sivustolta, yhteensä 15 petatavua aineistoa[25].

Kukaan ei pysty arvioimaan luotettavasti, miten suuri osuus kaikesta aineistosta on saatu talteen. Arkistoitujen uutissivustojen analyysin perusteella Leetaru epäilee, että Internet Archiven tiedonkeruussa eri maiden kohtelu ei ole tasapuolista [Leetaru]. Jos tämä pitää paikkansa, kansalliskirjastojen kaltaisten puolueettomien toimijoiden ylläpitämät kansalliset verkkoarkistot ovat välttämättömiä Internet Archiven rinnalla. Mahdollisten vääristymien korjaamiseksi Internet Archive on lähestynyt kansalliskirjastoja mm. keräysten kuratoimiseksi, jolloin he keräävät (ja tarjoavat tutkijakäyttöön), kirjastot kertovat haravoinnin kohteet (ks. myös https://archive-it.org/). Suomalaisilta tutkijoilta saadun palautteen mukaan Kansalliskirjaston ylläpitämä verkkoarkisto kattaa suomalaisen aineiston Internet Archivea paremmin, mutta tutkijat valitsevat silti mieluummin Internet Archiven sen vapaamman käytettävyyden vuoksi.

Kuva: Archive-It-palvelun etusivu helmikuussa 2017.

Verkon haravointiin liittyvä juridiikka on sitä vastoin osoittautunut odotettua hankalammaksi. Siinä missä Internet Archiven toiminta perustuu julkishallinnon sivujen osalta Yhdysvaltojen Freedom of Information Actiin[26] ja muilta osin USA:n tekijänoikeuslainsäädännön Fair use –periaatteeseen. Monissa muissa maissa on jouduttu tekemään muutoksia vapaakappalelakiin ja tekijänoikeuslakiin, tai ainakin selventämään niiden soveltamista.

Tärkein vaatimus vapaakappalelain laajentamisessa verkkoaineistoihin on se, että lain on sallittava tehokas verkkoaineistojen keruu. Muutamissa maissa laki vaati kansalliskirjastoa kysymään haravointiin luvan WWW-palvelimen ylläpitäjältä. Palvelimien määrän kasvaessa räjähdysmäisesti tämä toimintamalli osoittautui nopeasti mahdottomaksi. Kansalliskirjastolla on oltava lain nojalla oikeus kerätä kansallinen verkkoaineisto kattavasti ilman erikseen kysyttäviä lupia.

Vapaakappalelain on sallittava haravointi myös maksumuurien takaa sekä tarpeen mukaan sivuilta, joille pääsy on haravaroboteilta normaalisti kielletty robots.txt-sivun nojalla. Maksumuurien läpi päästään joko poistamalla IP-osoitteeseen perustuva tai muu rajaus, tai antamalla haravasovellukselle käyttäjätunnus ja salasana. Suojaustekniikoiden kehittyessä haravaohjelmistoihin on lisättävä niiden edellyttämät uudet ominaisuudet. Mutta nykyisen Kulttuuriaineistolain eväät loppuvat kesken esimerkiksi silloin, kun selkeästi ainoastaan suomalaiselle yleisölle tarkoitettu verkkojulkaisu on ulkomaisella palvelimella maksumuurin/rekisteröitymisen takana. Jos julkaisija ei ole suomalainen, Kansalliskirjastolla ei ole mahdollisuutta arkistoida julkaisua vapaakappalelainsäädännön perusteella.

Lainsäätäjän kannalta Internetin nopea muutos voi olla ongelma. Jos vapaakappalelaki säädetään kovin yksityiskohtaiseksi, se vanhenee nopeasti. Jos taas laki on abstrakti, kuten Norjan vapaakappalelaki, voi olla epäselvää miten sitä tulisi soveltaa, eivätkä Kansalliskirjasto ja luovutusvelvolliset välttämättä pääse asiasta sopuun.

Olipa vapaakappalelaki muotoiltu miten tahansa, haravoinnin ulottumattomiin jää aineisto, jota ei ole teknisesti mahdollista kerätä. Näitä aineistoja voidaan pyytää luovutuksina (Kansalliskirjaston luovutuspyynnöt ovat tähän asti kohdistuneet enimmäkseen e-kirjoihin ja verkkolehtiin, joita ei käytön rajoitusten vuoksi ole mahdollista kerätä tai keräyksen mahdollistaminen olisi liian hankalaa). Haravoinnin voi estää mm. syvä Web, eli aineistot jotka tallennetaan tietokantoihin tai muihin ns. ”siiloihin” erilleen muusta verkosta.

Myös rajausten tekeminen voi olla vaikeaa, koska Facebookin kaltaisista sosiaalisen median palveluista on vaikea poimia suomalaisia toimijoita vähänkään kattavasti. Vastaavan kaltainen valikointiongelma koskee myös muita kuin taatusti suomalaisia .fi- ja .ax-domaineja. Valinnan apuna on käytetty mm. kielentunnistusta sekä keräyskohteiden (lähtölinkkien, seedien) suunnittelua ja tunnistamista. Esim. vaalikeräyksissä pystytään ”melko helposti” haravoimaan ehdokkaiden ja puolueiden ym. avoimia Facebook-sivuja, Twitter-keräyksissä voidaan kerätä hashtagien avulla jne.

Verkon haravointi liittyy suoraan myös tekijänoikeuksiin: kansalliskirjastojen on saatava tehdä kopioita verkossa olevista dokumenteista. Näin vahva tekijänoikeuden rajaus on kirjattava tekijänoikeuslakiin ja EU:ssa siis viime kädessä myös tekijänoikeusdirektiiviin. Tekijänoikeuslaissa[27] Kansalliskirjaston oikeus haravoida verkkoaineistoa on kirjattu 16 b § kohtaan 3. Se määrää, että kirjasto, jolle Kulttuuriaineistolain[28] mukaan on luovutettava teoksen kappale, saa valmistaa kokoelmiinsa liitettäviksi kappaleita tietoverkoissa yleisön saataville saatetuista teoksista.

Juridisesti hankalin ongelma on se, että verkkoarkisto on aina myös henkilörekisteri. Jo Googlen avulla löytää ihmisistä paljon informaatiota, mutta armeliaasti Google sentään unohtaa vanhat synnit sitä mukaa kuin sivut poistetaan. Verkkoarkistot muistuttavat kansalliskirjastojen muitakin kokoelmia siinä, että ne eivät unohda mitään. Ja tietosuojavaltuutetun mukaan verkossa ja siis myös verkkoarkistossa jokainen henkilö saa osakseen superjulkisuutta, kun perinteisessä mediassa on tyytyminen tavalliseen julkisuuteen.

Tietosuojaongelmien helpottamiseksi (ja kustannusten leikkaamiseksi) verkkoarkistot eivät yleensä tarjoa kokotekstihakua, vaan ainoa hakumahdollisuus on verkkosivun alkuperäinen osoite. Jos tekstihaku on mahdollinen, se on voitu rajata esimerkiksi verkko-osoitteiden sisältämään tekstiin tai tiettyihin teemoihin joiden mukaan sivustot on ryhmitelty. (ks. esim. Viron verkkoarkisto[29]). Tekstihaku voidaan myös rajata vain niille työasemille, joista on pääsy myös arkistoituihin aineistoihin.

Kuva: Viron verkkoarkiston etusivu helmikuussa 2017.

Tietosuojan osalta EU-maat ovat samassa veneessä; aiemmin liberaalissa Virossakin arkiston käyttöoikeuksia on tiukennettu 1.1.2017 voimaan astuneessa uudessa vapaakappalelaissa. Uuden lain nojalla Viron verkkoarkiston WWW-käyttöliittymästä voi kuka tahansa hyödyntää vapaasti vain julkisen sektorin organisaatioiden arkistoituja sivuja, muu aineisto on käytettävissä vain erillisillä työasemilla. Suomen nykyinen laki on vielä tiukempi: Kansalliskirjaston ylläpitämän verkkoarkiston[30] aineistoihin pääsee käsiksi vain tarkoitukseen varatuilta vapaakappaletyöasemilta.

Eri maiden vapaakappalelainsäädännöissä on yhä eroja koskien verkon arkistointia. IIPC:n jäseninä on vasta 29 kansalliskirjastoa[31], ja voidaan olettaa että useimmissa konsortion ulkopuolisissa maissa vapaakappalelaki ei vielä kata verkon arkistointia. Ensimmäisenä sen salli Uusi Seelanti 2003, ja Tanskassa vastaava laki tuli voimaan 1. heinäkuuta 2005. Suomessa uuden vapaakappalelain valmistelu aloitettiin jo 90-luvulla, vaikka se tulikin voimaan vasta 1. tammikuuta 2008. Prosessia hidasti monimutkaisen valmisteluprosessin lisäksi se, että radio- ja tv-ohjelmien arkistoinnista haluttiin säätää samassa laissa.

Nykyisten lakien välillä on merkittäviä eroja koskien arkiston käyttöä. Esimerkiksi Islannin arkistoa saa tätä kirjoitettaessa käyttää kuka tahansa, kun taas Tanskassa arkiston käyttöoikeus oli alun perin rajattu tohtoritason jatko-opiskelijoille, joiden oli ensin tehtävä kirjallinen hakemus (niitä tuli ainakin alkuun vain muutamia vuodessa).

Yhteistä laeille on muun muassa se, että yksikään verkkoarkisto ei pyri kattavuuteen, vaan ne ovat vain otoksia verkossa olleista aineistoista, ja näiden otostenkin kattavuus voi vaihdella merkittävästi riippuen käytettävissä olevista henkilöstö- ja laiteresursseista. Tulevaisuuden käyttäjät ratkaisevat aikanaan, ovatko kansalliskirjastot tehneet oikeita resursointipäätöksiä. Kuten muukin vapaakappaleaineisto, verkkoarkisto muuttuu korvaamattomaksi silloin kun aineisto ei ole enää muualla käytettävissä. Perinteisille julkaisuille on tarjolla vaihtoehtoisia kanavia vuosien ja vuosikymmenien ajan, mutta verkkoaineisto voi kadota muutamassa päivässä tai jopa tunnissa.

Verkkoarkistojen ylläpidon ja käytönkin periaatteet ovat vielä mahdollisesti pitkään ”work in progress”. Kansalliskirjastot joutuvat tasapainoilemaan käyttäjien tarpeiden, omien henkilöstöresurssiensa ja tietosuojan vaatimusten välillä, ja ainakin tietosuojan suhteen voi olla välttämätöntä pelata varman päälle. Riittävän pitkällä – ja kansalliskirjastojen toimintaa ajatellen silti lyhyellä – aikavälillä voidaan kaikki ei-rikollinen haravoitu aineisto asettaa vapaasti tarjolle, mutta sitä odotellessa käyttäjien kärsivällisyys voi olla koetteella moneen kertaan.

Haravoinnin periaatteet

Vuonna 1996, kun Internet Archive jo tallensi verkkoaineistoja, ani harvat kansalliskirjastot panostivat Internet-tietosisältöjen keruuseen. World Wide Webin nopeaa muutosta CERNin ydinfyysikoiden tietoteknisestä kokeilusta globaaliksi tiedon välitys- ja -hankintakanavaksi ei osattu ennakoida, ja siihen reagoitiin hitaasti. Kansalliskirjastoja kehotettiin keskittymään vapaakappaletoiminnassaan kaupallisten kustantajien tuottamaan elektroniseen aineistoon, eli 90-luvun alkupuoliskolla etupäässä CD-ROM -levyihin. Mitään erityistä syytä itseruoskintaan kirjastoilla ei kuitenkaan ole – monilla kaupallisilla kustantajillakin meni pitkään, ennen kuin ne alkoivat aktiivisesti käyttää verkkoa hyväkseen, koska muutos edellytti paitsi uutta tekniikkaa, myös kokonaan uusien toimintamallien kuten verkkokäytön sallivien käyttölisenssien kehittämistä ja hyväksymistä. Kirjastoille muutos oli ehkä kustantajiakin merkittävämpi: elektroniset kausijulkaisut kustantajakohtaisine lisensseineen merkitsivät toimintaprosessien täydellistä muutosta. Kovin kohtalo oli perinteisillä kirjakaupoilla, joille jäi e-lisenssien hankintaan perustuvassa toimintamallissa luu kouraan.

Tervettä varovaisuutta nolompi selitys kirjastojen inertialle on perinteisten toimintamallien kahlitsema näkemys aineistojen hankinta- ja käsittelymenetelmistä. Internet-sivustoja ei voida esimerkiksi luetteloida perinteisten julkaisujen tapaan, eivätkä kustantajat voi luovuttaa verkkoon tuottamiaan aineistoja vapaakappaleina painettujen kirjojen tapaan. Uusia toimintamalleja ei voitu luoda tyhjästä, vaan ensin oli hankittava riittävät tekniset perustiedot esimerkiksi verkon arkistoinnista. Tässä suhteessa Pohjoismaiden kansalliskirjastot olivat edelläkävijöiden joukossa.

Päätös panostaa verkon tietosisältöjen arkistointiin on iso ratkaisu, mutta silti vain osa elektronista vapaakappaletoimintaa, jonka käynnistyttyä on tarpeen keskustella yleisemminkin siitä, miten elektroniset ja painetut aineistot suhtautuvat toisiinsa. Onko esimerkiksi tarpeen arkistoida sanomalehdet myös painettuina, jos ne voidaan saada elektronisina julkaisuina suoraan kustantajilta? Tarvitaanko yliopistojen väitöskirjat painettuina, jos ne ovat tarjolla elektronisesti? Ja pitäisikö vapaakappaletoiminta ulottaa muihinkin opinnäytteisiin silloin, kun ne ovat verkossa vapaasti käytettävissä ja haravoitavissa?

Verkkoarkistointi voi vaikuttaa myös kirjaston muihin prosesseihin. Onko esimerkiksi tarpeen lisätä verkkojulkaisun kuten väitöskirjan luettelointitietoihin myös kyseisen dokumentin osoite verkkoarkistossa (tai -arkistoissa)? Ja pitäisikö luetteloijien tarkistaa onko kuvailtava dokumentti arkistoitu, ja tarvittaessa tehdä arkistokopio luetteloinnin osana, sen varmistamiseksi että asiakkailla on pääsy dokumenttiin myös tulevaisuudessa?

Joillekin asiakkaille voi riittää jo tieto siitä, että jokin dokumentti on joskus ollut olemassa. Mutta useimmat tutkijat näkisivät mielellään Medelplanin puuaapisen sen sijaan että kerromme viimeisen tunnetun kappaleen tuhoutuneen Turun palossa[32]. Perinteisiä julkaisujakin on vuosisatojen mittaan kadonnut paljon, mutta verkossa hävikki on suhteellisesti ottaen paljon suurempaa, koska julkaisijat eivät useinkaan panosta aineistojen pitkäaikaiseen säilyttämiseen. Kansalliskirjastoilla, kansallisarkistoilla, radio- ja tv-arkistoilla ja muilla elektronisia aineistoja tallentavilla tahoilla on edessään mittava tehtävä, jonka hoitamiseen niiden tulee saada riittävät resurssit.

Resursointiin liittyy toki myös henkilöstöresurssien jako perinteisen ja elektronisen vapaakappaleaineiston välillä. Jos haravointiin lisätään resursseja, kansallisiin verkkoarkistoihin voidaan saada paljon lisää aineistoja, jotka saattavat olla käyttäjille tulevaisuudessa hyvin relevantteja. Ja vastuu on kansalliskirjastoilla ja muilla lain valtuuttamilla tahoilla, joilla on mandaatti verkkoaineistojen keruuseen ja säilyttämiseen.

Kuva: Sauli Niinistön presidentivaalikampanjan Facebook-sivu vuodelta 2012 Kansalliskirjaston suomalaisessa verkkoarkistossa. Verkkoarkistoon on kerätty tähän mennessä yli 2 mrd tiedostoa, jotka vievät pakattuna säilytystilaa yli 120 teratavua. Keräykset tehdään pääsääntöisesti Heritrix-haravalla. Erikseen ja muille menetelmillä on kerätty mm. sosiaalisen median aineistoja lähinnä teemakeräysten yhteydessä ja avoimia julkaisuarkistoja. Esimerkiksi päivittäisten uutissisältöjen keräyksissä aineistojen julkaisijoita on tarvittaessa pyydetty mahdollistamaan keräys maksumuurien estämättä. Jos keräys ei ole mahdollista, aineistoja pyydetään ja otetaan vastaan luovutuksina. Verkkoarkiston käyttöliittymä uudistetaan vuoden 2017 aikana. Uudistuksessa mm. luodaan helpompi pääsy teemakeräysten ja kerättyjen sosiaalisen median sisältöihin. Kerätyt aineistot ovat käytettävissä vain vapaakappaletyöasemilla.

Lähdeviitteet

[1] http://www.finlex.fi/fi/laki/ajantasa/2007/20071433

[2] https://www.nordu.net/content/about-nordunet

[3] http://www.nordu.net/content/nordunet-93

[4] https://en.wikipedia.org/wiki/Gopher_%28protocol%29

[5] https://en.wikipedia.org/wiki/NeXT_Computer

[6] https://en.wikipedia.org/wiki/Mosaic_%28web_browser%29

[7] http://www.internetworldstats.com/emarketing.htm

[8] http://web.archive.org/web/20140617133331/http://taf.fi/en/millennium-technology-prize/winner-2004/

[9] Xanadun surulliset rippeet löytyvät osoitteesta http://xanadu.com/

[10] https://en.wikipedia.org/wiki/CERN_httpd

[11] https://en.wikipedia.org/wiki/List_of_search_engines

[12] https://en.wikipedia.org/wiki/AltaVista

[13] https://en.wikipedia.org/wiki/Internet_Archive

[14] http://web.archive.org/web/19970203113316/http://nwi.ub2.lu.se/

[15] http://www.kb.se/om/projekt/Svenska-webbsidor—Kulturarw3/

[16] https://www.kansalliskirjasto.fi/extra/tietolinja/0399/longterm.html

[17] http://archive.ifla.org/IV/ifla68/papers/090-163e.pdf

[18] http://www.netpreserve.org/

[19] https://webarchive.jira.com/wiki/display/Heritrix

[20] https://en.wikipedia.org/wiki/Wayback_Machine

[21] http://www.netpreserve.org/openwayback

[22] https://en.wikipedia.org/wiki/Web_ARChive

[23] http://www.loc.gov/standards/mets/

[24] http://verkkoarkisto.kansalliskirjasto.fi/

[25] https://blog.archive.org/2016/10/23/defining-web-pages-web-sites-and-web-captures/

[26] https://en.wikipedia.org/wiki/Freedom_of_Information_Act_(United_States)

[27] http://www.finlex.fi/fi/laki/ajantasa/1961/19610404

[28] http://www.finlex.fi/fi/laki/ajantasa/2007/20071433

[29] http://veebiarhiiv.digar.ee/

[30] http://verkkoarkisto.kansalliskirjasto.fi/

[31] http://www.netpreserve.org/about-us/members

[32] https://fi.wikipedia.org/wiki/P%C3%A4lk%C3%A4neen_puuaapinen

Lähteet

Gihring, Tim: Obsolesced. MinnPost, August 2016. Elektroninen julkaisu, saatavilla osoitteesta https://www.minnpost.com/business/2016/08/rise-and-fall-gopher-protocol [tarkistettu 2016-12-28]

Hakala, Juha: Internetin pitkät varjot. Julkaisussa: Kirja tietoverkkojen maailmassa. Helsinki: Kansalliskirjasto, 2003. Elektroninen julkaisu, saatavissa osoitteesta https://www.kansalliskirjasto.fi/extra/verkkonayttelyt/kirjatietoverkkojenmaailmassa/hakala1.html [tarkistettu 2016-12-29]

Leetaru, Kalev: How much of the Internet does the Wayback machine really archive? Elektroninen julkaisu, saatavissa osoitteesta www.forbes.com/sites/kalevleetaru/2015/11/16/how-much-of-the-internet-does-the-wayback-machine-really-archive/ [tarkistettu 2016-12-28]

Lehtisalo, Kaarina: The History of NORDUnet. Elektroninen julkaisu, saatavissa osoitteesta http://www.nordu.net/history/TheHistoryOfNordunet_simple.pdf [tarkistettu 2016-12-27]

Kirjoittajan yhteystiedot

Juha Hakala, erityisasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 26 (Kaikukatu 4) 00014 HELSINGIN YLIOPISTO
sähköposti: juha.hakala [at] helsinki.fi

Itse kun olen pieneltä paikkakunnalta niin olen huomannut että Wayback Machinesta löytyy huomattavasti enemmän tallennettua aineistoa kotiseudustani kuin Verkkoarkistosta. Kansalliskirjaston Verkkoarkiston keräykset on maalaisen näkökulmasta liian ”elitistisiä”.

Olen muutaman vuoden ajan harrastanut itselle tärkeiden sivujen tallentamista Internet Archiveen, ohessa tullut huomattua se että etenkin organisaatioiden nettisivuilta tiedotteet katoavat jo parissa vuodessa. Myös uutissivustot uusivat jatkuvasti URL-osoitteiden rakenteita ja joskus uudistusten yhteydessä uutisista ovat kadonneet tai muuttuneet päiväykset, se on sitten ikävää vuosikymmenten päästä lukea Wayback Machinesta jotain uutista jossa ei näy kirjoituspäivämäärää…
Nettisivujen jatkuvasti muuttuvat URL-osoiterakenteet ovat myös vitsaus verkkoarkistojen kannalta kun sama teksti/sivu saattaa löytyä usean eri URL:n takaa.

1 Comment

Add Comment →

Arkistoija

Itse kun olen pieneltä paikkakunnalta niin olen huomannut että Wayback Machinesta löytyy huomattavasti enemmän tallennettua aineistoa kotiseudustani kuin Verkkoarkistosta. Kansalliskirjaston Verkkoarkiston keräykset on maalaisen näkökulmasta liian ”elitistisiä”.

Olen muutaman vuoden ajan harrastanut itselle tärkeiden sivujen tallentamista Internet Archiveen, ohessa tullut huomattua se että etenkin organisaatioiden nettisivuilta tiedotteet katoavat jo parissa vuodessa. Myös uutissivustot uusivat jatkuvasti URL-osoitteiden rakenteita ja joskus uudistusten yhteydessä uutisista ovat kadonneet tai muuttuneet päiväykset, se on sitten ikävää vuosikymmenten päästä lukea Wayback Machinesta jotain uutista jossa ei näy kirjoituspäivämäärää…
Nettisivujen jatkuvasti muuttuvat URL-osoiterakenteet ovat myös vitsaus verkkoarkistojen kannalta kun sama teksti/sivu saattaa löytyä usean eri URL:n takaa.

04/12/2021

Kuinka verkko arkistoitui?

Vähän historiaa

Haravoinnin tekniikka

Haravoinnin juridiikka

Haravoinnin periaatteet

Lähdeviitteet

Lähteet

Kirjoittajan yhteystiedot

1 Comment

Arkistoija

Leave a Reply Peruuta vastaus

Linkkejä

Kansalliskirjaston muut julkaisut

Tuoreimmat kommentit

Meta

Kuinka verkko arkistoitui?

Vähän historiaa

Haravoinnin tekniikka

Haravoinnin juridiikka

Haravoinnin periaatteet

Lähdeviitteet

Lähteet

Kirjoittajan yhteystiedot

1 Comment

Arkistoija

Leave a Reply Peruuta vastaus

Linkkejä

Kansalliskirjaston muut julkaisut

Tagit

Tuoreimmat kommentit

Meta