Vinoumat on tunnistettava ihmisvoimin

Mikä on datan vinouma?

Tietojärjestelmien yhteydessä puhutaan paljon datan vinoumista. Usein käytetään myös englanninkielistä termiä bias.

Vinoumalla on erilaisia määritelmiä. Vastuulliseen kehittämiseen liittyvät ainakin nämä:

otantaan tai testaukseen sisältyvä systemaattinen virhe, joka johtuu siitä, että valitaan tai voimistetaan yhtä tulosta tai vastausta muiden sijaan
ennakkoasenne, joka joko suosii tai vastustaa tiettyä asiaa, henkilöä tai ryhmää toiseen verrattuna, yleensä epäoikeudenmukaisena pidetyllä tavalla.

Ensimmäinen on tilasto- ja tietojenkäsittelytieteellinen tapahtuma, joka aiheutetaan tahattomasti tai tahallaan testitarkoituksessa järjestelmän tutkimus- ja tuotekehitysprosessissa. Se voidaan aiheuttaa tahallaan myös pahantahtoisesti.

Jälkimmäinen määritelmä taas viittaa ihmisen tai ryhmän ominaisuuteen, joka heijastuu järjestelmän tuottamaan tai käyttämään tietoaineistoon joko tahattomasti tai tahallisesti.

Päivitetty: 26.9.2023

Mitä vinoumista seuraa?

Vinoutunut opetus- tai tuotantodata tuottaa väistämättä vinoutuneita tuotoksia. Vaikutukset voivat vaihdella käyttökelvottomuudesta suoranaiseen haittaan: syrjintään, perusoikeuksien loukkauksiin tai muihin vaikeasti korvattaviin negatiivisiin seurauksiin.

Datan vinoumien havaitseminen ja korjaaminen ajoissa on ollut jo pitkään merkittävä tutkimuskohde niin julkisille kuin yksityisille toimijoille.

Päivitetty: 26.9.2023

Miksi vinoumia syntyy?

Haitallisten vinoumien taustalla on tyypillisesti jokin näistä:

Historiallinen data heijastaa sukupuolittuneita työmarkkinoita tai vähemmistöryhmiin liittyviä asenteita. Data kuvaa aina mennyttä aikaa. Pitkäaikaisia vinoumia sisältävän datan käyttö nykyajan järjestelmissä jatkaa samojen vinoumien elinkaarta yhteiskunnassa.
Liian vähäinen data voi itsessään heijastaa historian taakkaa. Länsimaiden väestöistä ja erityisesti valkoisesta valtaväestöstä, kerättyä dataa on yksinkertaisesti paljon enemmän kuin muista väestöryhmistä ja alueista. Helposti saatavaa dataa käytetään enemmän.
Keräys- ja valintavinoumat syntyvät tietoaineiston epäpätevästä keräämisestä ja siinä tapahtuneista virheistä. Tyypillisesti näitä ovat yksipuolisuus tai kerätyn aineiston huono soveltuvuus järjestelmälle asetettuun tavoitteeseen.
Algoritmisen mallin koulutusvaiheen suunnitteluvirheet voivat vinouttaa prosessia ja datan tulkintaa, vaikka opetusdata itsessään olisi laadukasta.

Päivitetty: 9.11.2023

Miten vinoumien haittoja voidaan ehkäistä?

Datan vinoumien koneelliseen, automaattiseen havaitsemiseen ja haittojen estämiseen (de-biasing) on yritetty kehittää yleispäteviä sovelluksia ja palveluja, mutta toistaiseksi markkinoilla ei sellaista ole. Syy tähän on kunkin algoritmisen järjestelmän sidonnaisuus omaan käyttötapaukseensa.

Vinoumien havaitseminen, hallinta ja haittojen estäminen on siis käytännössä edelleen tehtävä kussakin järjestelmässä ihmistyönä.

Vinoumien hallinnan käytännön nyrkkisääntöihin voi tutustua esimerkiksi Andrea Gaon artikkelissa Data Bias Identification and Mitigation: Methods and Practice (Medium, englanniksi).Avautuu uuteen ikkunaan.

Päivitetty: 7.8.2024

Oletko tyytyväinen tämän sivun sisältöön?

Muistilista

Digitalisoi asiointipolkusi

Tehosta tiedonhallintaa

Paranna palveluiden laatua

Turvaa tietosi

Jaa, avaa ja hyödynnä tietoa