1.1 Käsitteistö
Datastrategian kannalta keskeisiä käsitteitä, kuten data, informaatio ja tieto, tai vastaavasti tekoäly, koneoppiminen ja edistynyt analytiikka, käytetään monesti ristiin. Tässä dokumentissa käytetään näitä käsitteitä seuraavasti (kattavampi käsitteistö löytyy liitteestä).
Data on tietojärjestelmiin tallennettua koneellisesti käsiteltävissä olevaa “raakatietoa”. Data voi olla joko rakenteista dataa, jolla on metatiedon mukainen semanttinen merkitys, tai rakenteetonta dataa, jolla sitä ei ole. Informaatio on tulkittavissa olevaa rakenteista dataa, josta voidaan jalostaa tietoa. Tiedolla viitataan kollektiivisesti informaatiosta jalostettuun ja sisäistettyyn tietämykseen, ymmärrykseen (asioiden syitä ja yhteyksiä) ja viisauteen (perustuen laaja-alaiseen kokemukseen ja oppimiseen). Tieto sanaa käytetään kuitenkin datan sijasta vakiintuneissa suomenkielisissä yhdyssanoissa, kuten tietovarasto ja tietoallas, vaikka näissä täsmällisesti ottaen viitataankin dataan eikä tietoon.
Tekoäly termillä viitataan yleisesti autonomisiin, oppiviin ja ennustaviin algoritmeihin ja järjestelmiin (ml. robotit). Tekoälykäsitteen alla, koneoppimisella viitataan ratkaisuihin, joissa kone oppii datasta joko opetusdatan avulla (supervised) tai itseoppivasti (unsupervised) ja muuttaa itse toimintaansa annetun tavoitteen suuntaan saamansa palautteen perusteella. Edistynyt analytiikka termiä käytetään viittaamaan yleisemmin perinteistä tilastotiedettä laajempaan joukkoon dataa hyödyntäviä analyysimenetelmiä, kuten dynaaminen optimointi, simulaatiot ja ml. edellä kuvatun kaltaiset tekoälykäsitteen alle kuuluvat algoritmit.
Huom. Käsitteistö mukailee FINTO sanasto- ja ontologiapalvelun tietotermit osion (https://finto.fi/tt/fi/) määritelmiä (ks. Tieto ja data[koneluettava tieto] käsitemallit)