6.3. Dataputki ja käytetyt teknologiat

Data-alusta ja muut viitearkkitehtuurin teknologiaratkaisut muodostavat yhtenäisen kokonaisuuden, jossa raakadata jalostetaan vaiheittain tietovarannoista informaatioksi ja ennustemalleiksi. Data jalostuu seuraavasti data-alustan eri komponenteissa, ns. dataputkessa:

Kuva 10. Datan hyödyntämisen prosessi

Datastrategia_Kuva_10.jpg

Lähdejärjestelmät. Data luetaan data-alustalle lähdejärjestelmistä APIen kautta API-linjausten mukaisesti. Tietoaineisto tallennetaan data-alustalle esimerkiksi data-altaaseen (data lake), yhden loogisen kokonaisuuden sisältäminä tiedostoina. Esimerkiksi yhtenä päivänä kerätty tieto talletetaan yhteen tiedostoon.

Datan jalostaminen. Sisältö luetaan tiedosto kerrallaan ja jatkojalostetaan käsittelyä varten. Jalostus pitää sisällään tiedon oikeellisuuden tarkistuksen, mahdollisten virheiden korjauksen, yhdistämisen aiempiin tiedostoihin laajemmaksi kokonaisuudeksi sekä tarvittaessa datan aggregoinnin, anonymisoinnin tai pseudonymisoinnin. Jalostusvaiheessa suoritetaan kaikki tarvittavat tehtävät tiedon mallintamiseksi sellaiseen muotoon, joka tekee datan käyttövalmiiksi seuraavaa vaihetta eli analytiikkavaihetta varten. Käsiteltyä dataa kutsutaan usein nimellä datatuote. Datatuotteet tallennetaan data-alustan puhdistetun datan alueelle. Työkaluina käytetään data-alustan tarjoamia datan jalostustyökaluja ja skriptikieliä kuten Python.

Analytiikka ja koneoppiminen. Tiedon arvo syntyy tiedon hyödyntämisen kautta. Tämä voi tapahtua joko luomalla datatuotteista raportteja ja analyysejä tai käyttämällä koneoppimis- ja tekoälymalleja esimerkiksi ennustemallien tai oppivien algoritmien luomiseen. Lopputulokset voidaan tallettaa uusiksi datatuotteiksi. Analyysiin ja mallinnukseen käytettävät menetelmät ja työkalut valitaan käyttötapauksen mukaan. Esimerkiksi avoimen lähdekoodin Python ja R tarjoavat monipuoliset datankäsittely- ja mallinnuskirjastot. Kaupungin tavoitteena on myös julkaista kehitetyt algoritmit avoimena lähdekoodina, jolloin sidosryhmät pystyvät verifioimaan mallin toiminnan ja oikeellisuuden.

Jakelu. Analytiikkavaiheen tuloksena syntyvät datat tallennetaan tiedon jakamisen kerrokseenrelaatiotietokantaan tai muuhun tarkoituksenmukaiseen formaattiin, josta tulokset voidaan hakea rajapintojen avulla seuraavaan vaiheeseen eli datan hyödyntämiseen.

Datan hyödyntäminen. Analytiikan tulosten hyödyntäminen voi tapahtua monilla eri tavoilla ja samaa tulosjoukkoa voidaan myös hyödyntää monella eri tavalla samanaikaisesti. Yksinkertaisimmillaan tulokset julkaistaan raporttina, mutta yhä enemmän pyritään luomaan interaktiivisia graafisia visualisointeja, jotka muokkaavat datan korkeammalle abstraktiotasolle ja kertovat visualisointien avulla tarinoita jotka auttavat lukijaa ymmärtämään ilmiöitä ja trendejä. Raportoinnin ja visualisoinnin lisäksi dataa voidaan hyödyntää jakamalla dataa APIen kautta ulkopuolisille laitoksille tutkimuskäyttöön tai dataa hyödyntäville sovelluksille. Esimerkiksi rakennushankesuunnitelmissa voidaan mahdollistaa avatun datan ja kannustaa lupien hinnoittelulla tekemään yhtenäisiä suunnitelmia katuosuuksittain tai alueittain.

Luonnos