Pimeän luentosalin seinälle alkaa ilmestyä valopisteitä kiihtyvällä nopeudella. Niistä hahmottuu seittimäinen maailmankartta, suurkaupungit kirkkaina risteyskohdissa. Säkenöivä verkosto valaisee pian yleisön, luennoijan ja koko laajan salin. ”Tämä on kartta maailman väestön Twitter-aktiivisuudesta”, kertoo Marcel Salathé, digitaalisen epidemiologian professori Lausannesta. ”Kartta seuraa julkisen liikenteen valtaväyliä.”Bussiin, autoon tai junaan istahtaessaan ihmiset alkavat naputtaa puhelintaan. Jos laite sallii paikallistamisen, Twitter määrittää heidän sijaintinsa hämmästyttävällä tarkkuudella, jopa yksittäiseen kadunkulmaan.
Sosiaalisen median maailmanlaajuinen leviäminen on luonut uuden tieteen alan, digitaalisen epidemiologian. Salathé konkretisoi: ”Internet tavoittaa suuremman määrän ihmisiä kuin terveydenhuolto.”Digimaailma on parhaiten ajan tasalla. Some-kommentointi ja palvelinhaut paljastavat epidemioiden puhkeamisen, sillä ihminen menee nettiin ennen kuin lääkäriin.
Vuonna 2008 avattiin Google Flu Trends -palvelu, jonka tavoitteena oli ennustaa googlehakujen perusteella influenssaepidemioiden puhkeaminen ja ”pelastaa elämiä”. Palvelu suljettiin vuonna 2015, kun sen epäiltiin pystyvän ennustamaan parhaiten mennyttä aikaa. Miksi Google epäonnistui? Salathén mukaan yhtiö salasi sekä menetelmänsä että materiaalit, mutta on todennäköistä, että data juoksi nopeammin kuin algoritmit ehtivät kehittyä. Big Data ei hyödytä, jos signaali hukkuu kohinaan.
Epäonnistuminen oli opiksi. Juuri algoritmien jatkuvassa kehityksessä asuu datan voima. Stanfordin yliopiston tutkijat päättivät avata tietopankkinsa maailmanlaajuisen ammattilais- ja harrastajayhteisön algoritmityömaaksi. Tehtävänä oli opettaa koneäly tunnistamaan hyötykasvien sairauksia puhelimen kuvasta. Ilmaiseksi jaettava työn tulos hyödyttäisi erityisesti kehitysmaita, joissa aikainen taudintunnistus voisi pelastaa sadon. Koodaajayhteisö innostui, ja kilpaili yhä parempien analyysialgoritmien kehittämisessä. Lopputulosta pidettiin vallankumouksellisena. Keinoäly selätti asiantuntijat ja tunnisti tauteja, joita se ei ollut aiemmin nähnyt. Salathé toteaa: ”Jos big data on avoimesti saatavilla, on vain ajan kysymys, milloin joku kehittää kulloiseenkin kysymykseen sopivan algoritmin.” Lienee ilmiselvää millainen käyttöpotentiaali löytyy lääketieteen piiristä.
Data on algoritmien polttoaine. Data on valtaa, ja valta on sillä joka datan omistaa.
Kellot, aktiivisuusmittarit, biosensorit ja maailman jopa viisi miljardia älypuhelinta keräävät tietoamme synkronoiden sen internetiin, yhtiöiden syviin yksityisyydensuojasäännöksillä suljettuihin tietokantoihin, yhteiskunnan ulottumattomiin. Terveysinformaatiota varastoivat terveydenhuollon lisäksi Google, Apple, Facebook, luottokorttiyhtiöt ja kulmakaupan asiakasrekisteri. Älykkäin algoritmein ne voivat selvittää paljonko liikumme, missä matkustamme, mitä ostamme tai syömme. Ja milloin sairaus iskee. Twitter zoomaa Mäkelänkadun kulmaan, jonka liikennevaloissa Wartiovaara twiittaa: flunssaa pukkaa.
”Huolissaan kannattaa olla vain sellaisesta tiedosta, johon yhteiskunnalla ei ole pääsyä”, Salathé painottaa. Avoimesti saatavilla tämä kerätty materiaali voisi yksilöidä terveydenhoitoa ennennäkemättömällä tavalla.
Suomi on edelläkävijä avointen, yhteiskunnan sääntelemien tietokantojen kehittämisessä. Yksi uusimmista on FinnGen, joka kerää väestön genomi- ja terveystietoa, tarkasti säädeltynä, tutkijoiden käyttöön. Se mahdollistaa väestötasolla taudinsyiden molekyylitason selvitystä ja täsmähoitokohteiden tunnistamista. Data yksinään ei kuitenkaan kykene mihinkään. Mitä avoimemmin ja älykkäämmin voimme sitä käyttää, sitä tarkemmin voimme zoomata kansanterveyden ytimeen. Kone oppii, ennustaa, ennakoi ja tunnistaa, jopa päihittäen asiantuntijat. Voi pojat, mikä potentiaali!
Anu Wartiovaara
Kirjoittaja on akatemiaprofessori ja kliinisen molekyylilääketieteen professori Helsingin yliopistossa
Kolumni julkaistu Lääkärilehdessä 50–52/2019