suomi.fi
Siirry suoraan sisältöön.
Hyvät käytännöt kehittäjille

Tekoälyn vastuullinen hyödyntäminen

Toimiva tekoäly vaatii laadukasta dataa

Datankeruu on monipolvinen prosessi

Tekoälyn toiminta perustuu dataan. Siksi datan ominaisuudet tarvitsevat nykyistä enemmän eettistä huomiota. Data ei ole vain staattinen aineisto vaan kokonaisprosessi, johon kuuluvat

  • järjestelmän tavoitteenasettelu
  • tavoitteen kannalta relevantin data-aineiston tunnistaminen
  • opetusdata-aineiston kerääminen, sen menetelmät ja hallinta
  • aineiston laadun analysointi
  • datan ”siivoaminen” ja kuratointi koneellista prosessointia varten
  • mallin muodostaminen ja testaus
  • tuotantodatan käsittely
  • jatkuva seuranta ja mallin päivittäminen tarvittaessa.
Tekoälyn eettiset kysymykset ovat painottuneet tuotoksiin eikä siihen, mitä järjestelmissä käytetään. Meidän olisi keskityttävä enemmän siihen, miten dataa tuotetaan ja käsitellään. 

– Tutkija William Isaac, Google DeepMind
Päivitetty: 4.10.2023

Laatuvaatimukset korostuvat, kun dataa jaetaan

Datatalouteen perustuvassa yhteiskunnassa, jossa tietoja jaetaan ja hyödynnetään eri viranomaisten ja jopa yksityisen sektorin kanssa, ei riitä, että organisaatiot tahoillaan toimivat sisäisesti johdonmukaisesti aineistojensa suhteen.

Eri toimijoilla saattaa olla erilaisia tapoja tallentaa ja päivittää tietoaineistojaan, minkä lisäksi aineistojen rakenteellinen ja semanttinen erilaisuus vaikeuttaa niiden järkevää ja turvallista yhteiskäyttöä.

Data itsessään ei sisällä ratkaisuja eikä merkityksiä, vaan ne syntyvät vasta käytössä. Koska jokainen käyttötapaus on omanlaisensa, datan arvo ja merkitykset ovat vuorovaikutuksessa loppukäyttäjien toiminnan kanssa. Siksi on välttämätöntä, että datan tuottajien, omistajien ja käyttäjien välillä on viestintä- ja palautekanavia.

Tutustu datan laadun mittaamisen ISO-standardiin (englanniksi).Avautuu uuteen ikkunaan.

Päivitetty: 31.10.2023

AI monipuolistaa mahdollisuuksia, mutta vaatii enemmän valvonnalta

Tekoälyteknologiat ovat mahdollistaneet kaksi merkittävää muutosta datan hyödyntämiseen:

  • useista eri lähteistä tulevaa dataa voidaan analysoida yhtäaikaisesti ja ristiin
  • väljästi rakenteisen tai jopa täysin rakenteettoman datan analysointi ja käyttö on mahdollista.

Tekoälyjärjestelmissä käytetyn datan laatukysymykset ovatkin astetta monimutkaisempia. Perinteiset laatutekijät kuten ajantasaisuus ja sisäinen eheys ovat edelleen relevantteja, mutta nyt niitä arvioidaan useiden aineistojen kokonaisuuksissa. Samoin aineiston eheyttä, turvallisuutta ja tavoitteenmukaisuutta joudutaan arvioimaan moniulotteisemmin.

Osaratkaisuna monitahoisten ja -muotoisten aineistojen hallinnan vahvistamiseen voi olla systemaattinen metadatan käyttö, luokittelu ja indeksointi. Se auttaa pitämään ei-rakenteiset aineistot paremmin ”näkyvillä” ja muutenkin kokoaa eri lähteistä koostuvan aineiston samaan merkitysavaruuteen.

Päivitetty: 26.9.2023

Oletko tyytyväinen tämän sivun sisältöön?

Muistilista