Lajittelun aakkoset

Hakala J, Clarke Sario E (2020). Lajittelun aakkoset. Tietolinja, 2020(2). Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe20201217101280

Miten lajittelen merkit? Kuinka nimet pitäisi aakkostaa? Periaatteessa yksinkertaista – aakkosjärjestyshän on ensimmäisiä asioita, joita koulussa opimme. Mutta tässä, kuten monessa muussakin asiassa, ”the devil is in the details”. Pitääkö v ja w erottaa aakkosellisessa hakemistossa toisistaan? Miten käsitellään numeroita, erikoismerkkejä ja Äiti Teresaa? Ja vaikka Federico del Sagrado Corazón de Jesús García Lorcalla eli tuttavallisemmin Lorcalla on paikka historiassa, mihin hän kuuluu aakkosellisessa hakemistossa?

Tässä artikkelissa erotetaan toisistaan merkkien, kuten numeroiden ja aakkosten, lajittelu ja henkilöiden nimien[1] aakkostus. Edellinen perustuu kansainvälisiin standardeihin ja niistä tehtyihin kansallisiin poikkeuksiin, kuten niin kutsuttujen skandinaavisten merkkien käsittelyyn pohjoismaissa. Nimien aakkostuksen perusta ovat kansalliset käytännöt, jotka voivat olla monimutkaisia ja ristiriidassa keskenään. Siksi henkilöiden nimien aakkostuksesta ei ole olemassa yleispäteviä linjauksia eikä sitä voi kattavasti automatisoida. Eri maiden käytänteitä on kerätty kansallisiin standardeihin ja ohjeistoihin kuten kirjastojen luettelointisääntöihin.

Merkkien lajittelusta

Merkkien lajittelu perustuu kolmeen standardiin. Ylimmän tason standardi on ISO/IEC 14651, joka määrittelee Unicode-merkkien lajittelun periaatteet. Se on yhteismitallinen Unicode-konsortion lajittelualgoritmin[2] kanssa. Algoritmia soveltava Unicode-merkkien lajittelutaulukko[3] päivittyy samaan tahtiin itse Unicode-merkkivalikoiman kanssa.

Unicode-lajittelualgoritmin eurooppalainen sovellus EN 13710 kattaa Unicode-algoritmista pienen osan: Euroopassa käytettävien merkistöjen eli latinalaisten, kreikkalaisten, kyrillisten, georgialaisten ja armenialaisten merkkien lajittelusäännöt sekä näiden merkistöjen keskinäisen järjestyksen eurooppalaisessa käytössä, joka voi poiketa Unicoden kansainvälisestä linjauksesta. ISO/IEC 14651:n mukaan merkit ryhmitetään lajittelussa seuraavaan järjestykseen:

  • Välilyönti ja siihen rinnastettavat merkit
  • Välimerkit
  • Erikoismerkit (symbolit)
  • Numerot
  • Latinalaiset kirjaimet
  • Muut kirjaimistot määrätyssä järjestyksessä, ensimmäisenä kreikkalaiset aakkoset

Välimerkkien ja erikoismerkkien lajittelujärjestyksen voi selvittää ilman ISO/IEC-standardiakin Unicode-konsortion ylläpitämästä lajittelutaulukosta. Siitä ilmenee esimerkiksi se, ettei yllä oleva ryhmittely ei ole täysin vedenpitävä: erikoismerkit :, ;, >, =, <, ? ja @ lajittuvat vasta arabialaisten numeroiden 0-9 jälkeen, mutta toki ennen kirjaimia. Muut välimerkit, kuten piste, huutomerkki ja pilkku, lajittuvat ennen numeroita.

EN 13710:n ylimmän lajittelutason mukaan latinalaiset kirjaimet lajittuvat seuraavasti:

a b c d e f g h i j k l m n o p q r s t u v w x y z þ

Ligatuurit[4] ja digrafit[5] lajitellaan EN 13710 -standardin mukaisesti erillisinä kirjaimina. Esimerkiksi ß aakkostetaan ss ja ligatuuri œ aakkostetaan oe. Suomalaiset poikkeukset tästä ylimmän tason järjestyksestä kuvataan tuonnempana.

Vastaava kreikan aakkosten lajittelujärjestys on:

α β γ δ ε Ϝ Ϛ ζ η θ ι κ λ μ ν ξ ο π Ϟ ρ σ τ υ φ χ ψ ω Ϡ

Aakkosista tarkkeisiin, numeroihin ja välimerkkeihin

Jos ylimmän lajittelutason kirjainten perusteella järjestämisen jälkeen on vielä osia, joiden keskinäinen järjestys ei ole selvä, siirrytään tasolle 2. Sillä määritellään tarkkeellisten kirjainten lajittelujärjestys. Tarkkeelliset kirjaimet lajitellaan heti vastaavan tarkkeettoman kirjaimen jälkeen, joten jos sanat ovat muutoin identtiset, tarkkeellisen kirjaimen sisältävä sana seuraa tarkkeetonta sanaa, vrt. sakki, šakki.

Tarkkeiden keskinäinen järjestys on EN 13710:n mukaan seuraava:

´ akuutti
` gravis
ˆ lyhyysmerkki sirkumfleksi
hattu
° yläpuolinen ympyrä
¨ treema
kaksoisakuutti
˜ tilde
. yläpuolinen piste
¸ sedilji
ogonek
¯ pituusmerkki

 

Numerot lajitellaan ennen kirjaimia, suuruusjärjestyksessä pienimmästä suurimpaan. Roomalaiset numerot lajitellaan yhteen arabialaisten numeroiden kanssa lukuarvonsa mukaan. Jokainen desimaalipilkun oikealla puolella oleva numerot käsitellään erillisenä lukuna, eli 15,927 lajittuu ennen kuin 15,93.

Tasolla 3 määritetään isojen ja pienten kirjainten lajittelujärjestys. Pienten ja isojen kirjainten välillä ei yleensä tehdä eroa, mutta jos se on ainoa ero sanojen välillä, pienikirjaiminen sana tulee ensin. Tasolla 4 määritellään välimerkkien ja välilyönnin ja siihen rinnastettavien merkkien lajittelujärjestys. Tällä tasolla Suomella ei ole omia poikkeuksia, kuten ei myöskään tasolla 3.

Kansalliset aakkosjärjestykset

EN 13710 ei sovellu Suomeen sellaisenaan, muun muassa koska se ei ota huomioon skandinaavisia kirjaimia. Esimerkiksi ä on standardin mukaan kirjain a ja treema, ja lajittuu tarkkeellisena kirjaimena heti peruskirjaimen eli a:n jälkeen. Vastaavia poikkeamia on muissakin maissa. Viron kielen aakkosten lajittelujärjestys, jossa erityisesti z-kirjaimen sijainti aiheutti päänsärkyä Rahvusraamatukogun amerikkalaiselle järjestelmätoimittajalle, on

a b c d e f g h i j k l m n o p q r s š z ž t u w õ ä ö ü x y

Lajittelussa voi olla myös sanoja koskevia lisäehtoja. Norjassa aa aakkostuu skandinaavisissa nimissä kuten å, joka on siellä aakkosten viimeinen kirjain. Muissa nimissä se aakkostuu aa:na. Perustelu tälle on se, että Norjassa å otettiin käyttöön vasta 1917. Aiemmin samaa äännettä kuvasi skandinaavisissa nimissä digrafi aa.

EN 13710 voidaan mukauttaa kansallisia tarpeita vastaavaksi lisäämällä siihen Liite H, jossa kuvataan tarvittavat poikkeukset. Kaikki Euroopan maat eivät ole tätä tehneet, mutta suomalainen lajittelustandardi SFS-EN 13710 ilmestyi kansallisine liitteineen jo 2011. Vuonna 2020 se ilmestyy päivitettynä. Uudistetun standardin mukainen suomalainen lajittelujärjestys on:

a b c d e f g h i j k l m n o p q r s=š t u v w x y z=ž å ä ö

Suomen kansalliset poikkeukset EN 13710 -standardin linjauksista ovat:

  • Kirjain hattu-s (š U+0161, Š U+0160) lajitellaan kuten kirjain s
  • Kirjain thorn (þ U+00FE, Þ U+00DE) lajitellaan kuten kirjainyhdistelmä th
  • Kirjain u ja treema (ü U+00FC, Ü U+00DC, ”saksalainen y”) lajitellaan kuten kirjain y
  • Kirjain u ja kaksoisakuutti (ű U+0171, Ű U+0170) lajitellaan kuten kirjain y
  • Kirjain hattu-z (ž U+017E, Ž U+017D) lajitellaan kuten kirjain z
  • Ångström-merkki (Å U+212B) lajitellaan kuten kirjain Å
  • Kirjain æ (æ U+00E6, Æ U+00C6, “tanskalainen ä”) lajitellaan kuten kirjain ä
  • Kirjain o ja vinoviiva yli (ø U+00F8, Ø U+00D8, “tanskalainen ö”) lajitellaan kuten kirjain ö
  • Kirjain o ja tilde (õ U+00F5, Õ U+00D5) lajitellaan kuten kirjain ö
  • Kirjain o ja kaksoisakuutti (ő U+0151, Ő U+0150) lajitellaan kuten kirjain ö

SFS-EN 13710 kattaa virallisesti vain suomen ja ruotsin kielen, mutta standardin uudistaneen työryhmän arvion mukaan Suomessa puhutut saamen kielet eivät edellytä lisäpoikkeuksia EN 13710:aan.

Merkittävin muutos uudistetun SFS-EN 13710:n ja aikaisempien ohjeiden välillä on, että v- ja w-kirjaimilla on nyt eri lajitteluarvo. Aiemmin ne lajiteltiin yhteen, koska w-kirjainta on aikanaan käytetty v-äänteen merkkinä. Vaikka sanojen kirjoitusasu on päivitetty, moniin nimiin w on edelleen jäänyt, ja näiden nimien eri versiot haluttiin pitää yhdessä vrt. Virtanen – Wirtanen, Vesterbacka – Westerbacka,. Monikielisissä aineistoissa v ja w oli mahdollista erottaa ennenkin, mikä teki vanhasta SFS 4600 -standardista hankalasti sovellettavan. Onko kirja monikielinen jo silloin, kun sen henkilöhakemistossa on ulkolaisia nimiä?

Ennen SFS-EN 13710 -standardia käytössä olleen SFS 4600:n viimeisin (kolmas) laitos on vuodelta 2000. Se ei ymmärrettävästi ole täysin yhteismitallinen 11 vuotta myöhemmin ilmestyneen SFS-EN 13710 -standardin kanssa. Tämä ongelma poistuu jo vuoden 2020 aikana SFS 4600:n päivityksen ansiosta. Uudistaminen on tarpeen, koska SFS-EN 13710 ei korvaa kotimaista standardia. Vain SFS 4600 antaa ohjeita nimien aakkostamisesta.

Henkilöiden nimien aakkostuksesta

Perinteisten suomalaisten nimien aakkostus on melko helppoa, kunhan vain muistamme jatkossa erottaa vaikkapa Virtaset ja Wirtaset toisistaan. Henkilönnimet aakkostetaan ensin sukunimen, sitten etunimen (-nimien) mukaan. Sukuimien etuliitteet af, van, von ja von der eivät vaikuta aakkostukseen, toisin kuin etuliitteet d’, de ja du.

Jos sukunimeä ei ole tai jos – kuten islantilaisissa nimissä – sitä ei oteta huomioon, aakkostetaan etunimen mukaan. Halldor Laxness tulisi siis aakkostaa H-kirjaimeen. Jos aakkostettavana olevissa nimissä on samat suku- ja etunimet, aakkostuksessa voidaan nojautua nimeen tehtyihin lisäyksiin siten, että ensin otetaan huomioon syntymä- ja kuolinajat, sitten arvo tai ammatti. SFS 4600:n edellinen laitos vuodelta 2000 otti painetun puhelinluettelon tapaan huomioon myös osoitteen, mutta uudesta laitoksesta tämä aakkostuselementti on poistettu.

Henkilökohtaiset lisänimet luetaan nimeen kuuluviksi, mutta nimeen puhuttelumuodossa sisällytettyjä arvonimiä tai titteleitä ei normaalisti oteta huomioon. Tosin niiden erottaminen voi olla vierasnimissä hankalaa. Kaarle Suuren nimessä ”Suuri” on henkilökohtainen lisänimi, mutta Pandit Nehru eli opettaja Nehru oli intialainen poliitikko Jawaharlal Nehru. Hänen lempinimeään ei saa käyttää oikean nimen sijaan. Vakiintuneen arvonimen sisältävät henkilönnimet aakkostetaan kuitenkin kyseisen arvonimen mukaan. Äiti Teresa tulee siis aakkostaa äiti-sanan mukaan, ja Neitsyt Maria neitsyt-sanan mukaan.

Haasteelliset etuliitteet

Henkilöiden nimien etuliitteiden käsittely perustuu kansallisiin linjauksiin, joita on koottu muun muassa luettelointisääntöihin. Linjausten kirjo on melkoinen, minkä vuoksi SFS 4600:n tarjoama opastus voi näyttää mielivaltaiselta, eikä se suinkaan ole kattava. Yleispäteviä periaatteita on kuitenkin ainakin kaksi. Jos etuliite kirjoitetaan aina isolla, se otetaan yleensä aakkostuksessa huomioon. Hollannissa etuliite van kirjoitetaan pienellä ja se sivuutetaan aakkostuksessa, Belgiassa se kirjoitetaan isolla ja se vaikuttaa aakkostukseen. Herbert Van de Sompel aakkostuu siis Van de Sompel, Herbert.

Toiseksi, aakkostuksessa sovelletaan joko henkilön synnyinmaan tai kotimaan linjauksia. Esimerkiksi Wernher Von Braun aakkostetaan amerikkalaisittain eli Von Braun, Wernher, eikä saksalaisittain Braun, Wernher von.

Yllä olevat säännöt eivät päde etuliitteeseen de: se joko vaikuttaa aakkostukseen tai sitten ei, maasta riippuen. Ruotsissa se otetaan huomioon, Espanjassa, Hollannissa, Portugalissa, Ranskassa ja Saksassa ei. Eikä siinä kaikki: Italiassa etuliite de vaikuttaa nimen aakkostukseen muuten, mutta ei ennen 1800-lukua eläneiden aatelisten henkilöiden nimissä.

Tämän kaltaisten mutkikkaiden sääntöjen takia virheettömän aakkosellisen henkilöhakemiston tuottaminen ohjelmallisesti on mahdotonta, jos hakemistossa on eri perustein käsiteltäviä nimiä. Lisäksi esimerkiksi Suomea varten optimoitu algoritmi ei välttämättä toimi missään muualla.

Kansalliset nimien aakkostuskäytännöt pohjautuvat satojen tai jopa tuhansien vuosien mittaisiin perinteisiin, jotka ovat sinänsä mielenkiintoisia. Espanjalaisia nimiä käsiteltäessä riittää tieto siitä, että etuliitteet la, las, los, San, Santa ja Santo vaikuttavat lajitteluun, mutta etuliitteet de, de la, de las, de los ja del eivät vaikuta. Mutta jos haluaa tietää, mihin nimien etuliitteiden kohtelu Espanjassa perustuu, on tutustuttava Espanjan nimikäytänteisiin vaikkapa Wikipedian[6] avulla. Sen avulla selviää sekin, miksi sukunimi Exposito/Esposito tai Iglesias voi olla sosiaalinen stigma kantajalleen. Ja se, miksi flamencon soittajien nimet eivät vastaa normaalia käytäntöä.[7]

Naapurimaamme Ruotsi on mielenkiintoinen tapaus. Siellä sukunimen erottaminen patronyymistä voi olla hankalaa. Kungliga biblioteket on avannut Gordionin solmun määrittelemällä aikarajaksi vuoden 1700.[8] Koska Jöran Persson kuoli ennen vuotta 1700, Persson on Jöranin isännimi ja nimi aakkostetaan etunimen Jöran mukaan. Mutta jos hän olisi kuollut 1700 tai myöhemmin, Persson olisi hänen sukunimensä ja nimi aakkostettaisiin sen mukaisesti. Varsinaiset sukunimet tulkitaan Ruotsissa toki aina sukunimiksi riippumatta henkilön kuolinajasta. Johannes Messeniuksella ei ole vaaraa joutua aakkosellisessa hakemistossa J-kirjaimen alle.

Nimissä esiintyvät artikkelit sivuutetaan ja aakkostus aloitetaan seuraavasta sanasta, joten The Who lajittuu sanan who mukaan. Tämän säännön soveltamista monimutkaistaa se, että artikkelin muotoinen lukusana tai pronomini otetaan huomioon aakkostuksessa. Siksi en blå bok lajittuu bok-sanan mukaan, mutta en man en röst en-sanan mukaan.

Nimien aakkostus on oleellisesti hankalampaa kuin merkkien lajittelu, joka ei sekään ole aivan yksinkertaista. Nimien osalta suurin haaste on sääntöjen kirjo ja tulkinnanvaraisuus. Milloin esimerkiksi arvonimi muuttuu riittävän vakiintuneeksi? Äiti Teresasta lienemme yksimielisiä, samoin luultavasti Äiti Ammasta, mutta entä Äiti Meera? Tuomari Nurmio? Onko Pyhä Paavali parempi vaihtoehto kuin Apostoli Paavali, ja jos on, niin millä perusteella? Milloin Wernher Von Braun oli asunut Yhdysvalloissa niin pitkään, että hänen nimensä aakkostusta piti muuttaa?

Merkkien lajittelua koskevat kansainväliset ja kansalliset standardit ovat hyvin vakiintuneita, eikä niihin ole odotettavissa suuria muutoksia. Mutta henkilön nimen muoto ja sitä myötä aakkostus voivat muuttua, jos kansallisesta sovinnaisnimestä luovutaan. Silloin Kustaa Vaasasta tulisi Suomessakin Gustav Vasa. Ja Lorcan paikka aakkosellisessa hakemistossa määräytyy muiden espanjalaisten nimien tapaan isän sukunimen eli Garcian mukaan. Se, että hänet tunnetaan parhaiten äidin sukunimellä, kuten myös Pablo Ruiz Picasso, ei muuta asiaa.

Lähdeviitteet

[1] Ulkomaisten paikan nimien oikeinkirjoituksesta ks. http://kaino.kotus.fi/eksonyymit/

[2] http://www.unicode.org/reports/tr10/

[3] https://www.unicode.org/Public/UCA/latest/allkeys.txt

[4] Ligatuuri = kahden tai useamman kirjaimen yhdistelmä.

[5] Digrafi = yhden äänteen merkkinä oleva kahden kirjaimen ryhmä, esim. suomen ng.

[6] https://en.wikipedia.org/wiki/Spanish_naming_customs

[7] https://en.wikipedia.org/wiki/Naming_customs_of_Hispanic_America

[8] https://metadatabyran.kb.se/auktoritetsarbete-och-agenter/personer

Kirjoittajien yhteystiedot

Juha Hakala, erityisasiantuntija
Kansalliskirjasto, kirjastoverkkopalvelut
PL 15 (Yliopistonkatu 1), 00014 Helsingin yliopisto
juha.hakala [at] helsinki.fi

Esko Clarke Sario, digikonsultti
Kvs-säätiö
esko.clarkesario [at] kvs.fi

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.