Andmed – uus nafta või privaatsustaak? Vältigem küberprügimäge!

Juba pikemat aega on räägitud andmetel tuginevatest (data driven) organisatsioonidest. Niisamuti püüdleb pea iga organisatsioon ka kliendikesksema lähenemise poole. Huvitaval kombel on viimasel ajal need vaatenurgad läbi privaatsusteemade väga tihedalt kokku põimunud.

Kui ettevõttete kasutuses olevate andmete kohta kasutatakse tihti väljendit “uus nafta” või uue rikkuse allikas, siis seadusandjad on põhjendatult jõuliselt kaitsma asunud ka kliendi õigust privaatsusele (märksõnad GDPR-ist: „õigus tutvuda andmetega“, „õigus andmete kustutamisele“ jne). Et mõlemad pooled sellest tasakaaluharjutusest võitjana väljuks, on kriitiliselt oluline süstemaatiliselt läbi mõelda, kuidas käib ettevõtte andmehaldus ja -elutsükkel.

SEB Baltikumi andmehalduse juht Enel Pitk ja andmeteaduse juht Lennart Kitt toovad välja 7 teemat, millele on oluline tähelepanu pöörata.

Kuidas andmed tekivad ja kus neid säilitatakse? Mida suurem on ettevõte, seda rohkem on erinevaid andmeallikaid. Mida rohkem andmeallikaid, seda suurem on oht, et andmed jäävad üksteisest eraldiseisvaks ja ei kasutata „rikkuse allika“ täit potentsiaali. Täiendavaid lisavõimalusi on võimalik saavutada vaid siis, kui andmeid kombineerida ja otsida koostoimimisest täiendavat väljundit. Seepärast on oluline, et iga uus andmetekitaja on integreeritud ka kesksesse andmelattu või mistahes tsentraalsesse lahendusse.

Enne andmete kogumist tuleb läbi mõelda, mis eesmärgil andmeid kasutada tahetakse. See on oluline, et varakult saaks paika võimalikult universaalne ja korduvkasutatav struktuur ning mõistlik andmemaht, et vältida hilisemaid probleeme liiga suure andmemahu või vaid osalise andmestruktuuri tõttu. Samuti on oluline, et me ei satuks vastuollu Isikuandmete kaitse üldmäärusest (GDPR) tulenevate nõuetega isikuandete töötlemisel. Isikuandmeid kogudes peab olema selge eesmärk ning see, kelle kohta andmeid kogutakse (andmesubjekt), peab olema sellest eesmärgist teadlik. Ilma selleta isikuandmeid töödelda ei tohi.

Kas me teame, mis andmeid me oleme kogunud ja mis meil olemas on? Kujutleme ette ladu, millel puudub struktuur ning kirjeldus, kuidas asjad on lattu paigutatud. Sealt midagi leida on küll võimalik, aga kas ka õiget asja ning olulisel momendil. Täpselt samuti on ka andmetega. Iga andmepunkt on kui laos olev ese, mille puhul on oluline teada, kust see pärineb ja kas saame olla kindlad allika usaldusväärsusest (näiteks võivad andmed pärineda andmesubjektilt, välistest registritest või loome neid ise kombineerides juba olemasolevaid andmeid). Me peame teadma, kuhu andmed on paigutatud (näiteks kogutakse neid süsteemi/rakendusse, või saadetakse ka andmelattu. Andmed võivad esineda ka struktureerimata kujul näiteks Word dokumendis ja mille sisu ei ole nii lihtne „lattu riiulisse“ paigutada).

Tuleb ka ühtemoodi aru saada, mida andmepunkt tähendab. See on eriti oluline, kui mõistet annab mitmeti tõlgendada või sama nähtuse kirjeldamiseks kasutatakse erinevaid mõisteid või tuleneb erinevus konkreetsetest lisatunnustest. Mõistete defineerimine muutub tihtipeale veel kordades keerukamaks, kui tegemist on erinevate riikidega, kus samade terminitena mõistetakse tihtipeale erinevaid asju. Siit edasi kirjeldades, millal saabub andmete „parim enne“. Kuhu andmeid edasi saadetakse ja mis eesmärgil neid kasutatakse? Mis on andmetele seatud kvaliteedinormid ja kuidas neid täidetakse? Kas andmete töötlemisega kaasnevad juriidilised piirangud, või ka kaasnevad -tagajärjed? (näiteks, kui andmete kvaliteet on halb, võib see viia ebaõigete andmete esitamiseni kohustuslikes raporteerimises).

Eeltoodu ülevaate omamiseks peab olema selge, kes on andmete omanik – kelle käest küsida lisainfot, kes teab/teeb reegleid, paneb kokku laiema pildi ehk üldises mõttes nõuab ja tunneb muret oma „omandi“ pärast.

Kvaliteetsed andmed on iga andmetöötluse põhialused. Liialdamata võib isegi öelda, et kui andmekvaliteet pole tagatud, võiks kogu andmetöötluse ära jätta. Vigastel andmetel põhinev järeldus vaid võimendab vigade magnituudi. Kui vahel on andmete kvaliteedikontrollid neisse sisse ehitatud (näiteks viitenumbrite kontrollnumbrid), siis üldjuhul tuleb loogilised kontrollreeglid ise defineerida. Veel parem, piirata võimalust vigaseid andmeid süsteemi sisestada või liidestada süsteemid andmeid küsima algsüsteemidest. Samas, kui vigu tuvastada, tuleks need lahendada võimalikult algallika tasemel, mitte lõpparuandes. Süstemaatilised, kirjeldatud ja kvaliteetsete andmete salvestamine liidestataval kujul on viinud ka suurandmete (big data) kõrval uue populaarsust tõstva mõiste esile kerkimiseni – asjalikud andmed (smart data).

Tagamaks andmete asjakohasus ja vastavus (välistele) reeglitele, tuleb läbi mõelda ka andmete kustutamine. On küllaltki lihtne hakata koguma aina uusi andmekogumeid. Kuidas aga tagada, et massiivsetesse andmekogudesse talletuvad uued andmed endiselt samadel põhimõtetel? Ühest küljest aitavad selle vastu eelnevalt kirjeldatud kontrollmehhanismid. Teisalt, tuleb vahel siiski kriitilise pilguga üle vaadata ja eneselt küsida, kas vajatavad andmed on siiski vajalikud senisel kujul? Isikuandmete puhul tuleb siin appi GDPR oma nõuetega, kuid arvesse tuleb võtta ka teisi seadustest ja mõistlikkusest tulenevaid põhimõtteid. Ning kui kustutamisvajadus on reaalselt tuvastatud, kuidas seda teha süsteemsel, mittekäsitöölisel viisil?

Lisaks seadusandlusest tulevatele piirangutele, tuleb andmekäitluses silmas pidada ka eetilisi aspekte. Nagu juba mainitud, võib vigastel andmetele tehtud järeldus vaid suurendada vea suurust. Niisamuti võib teha valesid järeldusi, kui analüüs teostada või mudel õpetada kallutatud andmetel (bias data). Selle tulemusel on võimalik koostada mudeleid, mis tahtmatult võivad ka osutuda diskrimineerivaks. Et andmed võivad sisaldada ka delikaatset või konfidentsiaalset infot, tuleks läbi mõelda ka piirangud, kes ja kuidas vastavatele andmetele ligi pääseb. Kas andmetele ligipääs on ikkagi piiratud vastavalt reaalsele vajadusele ja kas neid õigusi ka regulaarselt üle vaadatakse?

Nii sisuliste, kui ka potentsiaalsete eetiliste vigade vältimiseks on tänapäeval üha tähtsam andmekirjaoskus (data literacy). Oskus leida ja asjakohaste meetoditega töödelda vajaminevaid andmeid on oskus, mida on vaja pea igas valdkonnas ja ametikohal. Nii ei ole tänapäevastes organisatsioonides ainsad „andmepakkujad“ tipptasemel analüütikud, vaid pigem peab igaühel olema põhioskused ja juurdepääs temale vajalikule andmetele – protsess, mida nimetatakse ka andmete demokratiseerimiseks ehk andmete ja oskuste toomine lõppkasutaja tasemele. Kokkuvõtete tegemisel on üha olulisemaks saamaks ka oskus andmeid adekvaatselt visualiseerida nii, et sisu pääseks esile ega oleks moonutatud. Samas on siiski mõistlik, eriti suuremates organisatsioonides, oleks tööl ka teatud spetsiifilisi oskusi omavad andme-professionaalid – andmehaldurid (data stewards), andmeteadlased (data scientist), andme insenerid (data engineerds), andmeprivaatsuse spetsialistid jne.

Kuid isegi kui andmete halduspõhimõtted ja -oskused on olemas, tuleb tagada ka ajakohased töövahendid. Et andmete valdkond kasvab pigem geomeetrilises progressioonis, siis kasutatavad lahendused peavad olema skaleeritavad, kus inimtööjõu sekkumine tuleb miinimumini viia. Üha enam kerkib esile vajadus töödelda ka struktureerimata (tekst, heli, visuaal, asukoht, emotsioon jne) ja reaalaja andmeid. Samas peaksid lahendused jääma siiski lihtsaks ja intuitiivseks, mis suudaks üksteisega liigestuda.

Allikas. SEB