Column

Mitä tapahtuu lukutaidolle, kun tietokone ymmärtää tekstiä paremmin kuin puoli miljoonaa suomalaista?

Tämä kolumni julkaistiin alun perin YLE:ssa 13.11.2019.

* * *

Kesän lopulla Facebookin tutkijat julkaisivat tekoälymalli RoBERTan, joka harppasi luetun ymmärtämisessä pitkälle ohi kilpailevien teknologioiden. Yhtäkkiä kone selvisi sarjasta tämänkaltaisia kysymyksiä:

“. . . Monet ihmiset uskoivat optimistisesti, että alan sisäiset palkinnot paremmille työkaluille loisivat edellytyksiä hiljaisempien laitteiden kehittämiselle. Ehdotettiin jopa, että rakennustyömaiden melua voisi helpottaa..”

Kysymys: Mikä on kirjoittajan asenne alan sisäisiä palkintoja kohtaan?

Ihmiselle tehtävä olisi ollut helppo, mutta tietokoneelle arkijärki, asiayhteyksien ymmärtäminen ja luonnollisen kielen kanssa toimiminen on tähän asti ollut hankalaa. RoBERTan lisäksi myös muiden isojen teknologiayhtiöiden tekstiä lukevat, tuottavat ja ymmärtävät tekoälymallit ovat kehittyneet harppauksin.

Viime vuodet tekoälyn kehitys on ollut kuvantunnistuksen juhlaa. Me kuluttajat olemme kokeilleet vuoroin nuorentaa ja vanhentaa kuviamme, kauhistelleet aidon näköisiä tekojulkkiksia ja totutelleet ajatukseen videosta, jota voi muokata yhtä helposti kuin kuvaa. Nyt tapahtuu kuitenkin tekstin puolella.

On kuin touhukas leikki-ikäinen tekoäly olisi siirtynyt yläasteelle ja aloittanut vakavammat äidinkielen opinnot. Teoriatunneilla harjoitellaan tunnistamaan tekstin sävyä, analysoimaan Amazonin sademetsiä, ja tulkitaan väittämiä hapen ominaisuuksista.

Kielenkäyttäjänä tekoäly taas tuntuu luokan priimukselta. Opittuaan perustaidot, se osaa nykyisin korjata kielioppia ja karaoken sävelkorkeutta, tunnistaa yhden äänen yleisössä, matkia Bill Gatesia, lukea huulilta ja tunnistaa flirttailun tekstistä. Eikä teknologiaa käytetä pelkkään viattomaan puuhasteluun. Aikaisemmin tänä vuonna yhdysvaltalainen OpenAI järjestö rakensi tekstin tuottamiseen niin tehokkaan tekoälymallin, että se päätettiin julkaista vain rajattuna versiona. Järjestö pelkäsi väärinkäytöksiä: valeuutisten massasuoltamista, roskapostien ja ystäviä imitoivien bottien määrän räjähdysmäistä kasvua.

Samaan aikaan Suomessa on jo nyt puoli miljoonaa aikuista, joiden lukutaito ja luetun ymmärtäminen eivät riitä nyky-yhteiskunnassa toimimiseen. Silti toivon, että lukutaitoa ja teknologiaa ei laitettaisi vastakkain. Sanan liittäminen sanaan voi olla tietokoneen tehtävä, mutta sanan liittäminen ideaan säilyy edelleen ihmisellä. Yksinkertaisetkin sanat piilottavat joukon tunteita, kuvia, muistoja ja kokemuksia joista tietokoneella ei ole aavistustakaan.

Me ihmiset tiedämme kurkkupurkeista, paikallispolitiikasta, pienistä iloista, sellerinjuurista ja siitä, miltä maailma näyttää toisen ihmisen silmin. Sanavarasto syntyy sanoilla leikkimisestä, niiden hieromisesta sormenpäissä ja kielellä, ei tilastollisista työkaluista.

Luku- ja kirjoitustaito on tulevaisuudessa ihmisen ja tekoälyn tiimityötä.

Muutama vuosi sitten päätin itse kokeilla tekoälyä tekstintuottamisen työkaverina. Keräsin tuhansia esimerkkejä Marimekon vaatteiden nimistä, ja syötin ne neuroverkolle eli tekoälymallille. Neuroverkolle syötettiin esimerkkejä, kuten Jokapoika, Tasaraita ja Unikko. Sen tehtävä oli etsiä säännönmukaisuuksia joita ihminen ei pysty näkemään ja luoda uusia Marimekko-nimiä.

Ensimmäiset tulokset olivat karmeita. Valos, Inislö, Lahilitanti, ikEkunit, runoili tietokone. Mutta pian ymmärsin, että minulta vei peruskoulun verran hallita suomen kieli, tietokone oli saanut työskennellä vain muutaman tunnin. Annoin koneen raksuttaa lisää.

Yön jälkeen herättyäni olo oli kuin jouluaattoaamuna. Ja tulokset - ne olivat itäsuomalaisen iloisia ja tomeria. Pyininpakka, Tanohalti, Ruitintullo, Pukukka kulki koneen keksimien nimien poljento. Esimerkkejä syntyi tuhansia ja sain näkökulmia, joita en muuten olisi tullut ajatelleeksi.

Luku- ja kirjoitustaito on tulevaisuudessa ihmisen ja tekoälyn tiimityötä. Yhdessä olemme enemmän.

Kirjoittaja on lastenkirjailija, kuvittaja ja keskinkertainen koodari, joka uskoo, että maailmasta tulee parempi paikka kun tietojenkäsittelyn ammattilaisten lisäksi tarinankertojat, tutkijat ja taivaanrannanmaalarit innostuvat teknologiasta.

Aiheesta voi keskustella 13.11. klo 16.00 asti.