Название | Kuidas mõista andmestunud maailma |
---|---|
Автор произведения | Anto Aasa, Mare Ainsaar, Mai Beilmann, Marju Himma Muischnek, |
Жанр | Руководства |
Серия | |
Издательство | Руководства |
Год выпуска | 0 |
isbn | 9789985588949 |
Eestis on andmestumine nähtavamaks muutunud seoses Euroopa andmekaitseseadusega (EP 2016), mille jõustumise ning kaasnevate piirangute tõttu on era- ja avaliku sfääri institutsioonid, aga ka n-ö andmesubjektideks peetavad indiviidid, kelle isikuandmeid kogutakse, hoitakse või töödeldakse (sageli mh nende enese teadmata), saanud teadlikumaks andmekasutamisega seotud võimalustest, ohtudest ja piirangutest. Selline areng on Eestis tõstatanud järgmised küsimused: Kas ja mis tingimustel on lubatud erafirmadel andmeid kasutada ja analüüsida? Kuidas teha andmed kättesaadavaks teadusuuringute jaoks? Kuidas tagada avatud andmete liikumine avaliku sektori institutsioonidele ja kodanikuaktivistidele? Kas ärilistel ja teaduslikel eesmärkidel andmete kogumisele peaks rakenduma erinevad piirangud? Ka siinses raamatus käsitletakse andmete kasutamise printsiipe, näiteks andmete õiguslikku kaitset ja kasutamist (ptk 1.3), andmete kasutamisega seotud eetilisi põhimõtteid (ptk 1.4) ning andmetega seotud sotsiaalse õigluse küsimusi (ptk 1.1). Sellest lähtuvalt oleme sõnastanud ka andmestunud maailma uurimise kolmanda postulaadi: andmestunud maailmas pole andmetaristu üksnes institutsionaalne omand, vaid võimalus avaliku hüve loomiseks, andmetes leiduva mitmekesisuse kaudu sotsiaalse mitmekesisuse tagamiseks ning andmepõhiste muutuste strateegiliseks juhtimiseks.
Raamatu koostajatena väidame, et andmed ja andmetes esindatud isikud pole teineteise teisikud (data doubles; vt Raley 2013; Goriunova 2019). Pigem peegelduvad andmekogudes uurijate väärtused ning (kohati aegunud) arusaamad sotsiaalsete kategooriate (sugu, rass, sissetulek, vanusegrupp, haridustase) tõlgendusjõust. Kuigi andmestumine loob loendamatud andmekogud ja teoreetilise võimaluse haarata ühiskondlikku elu kogu selle mitmekesisuses, jääb andmete mitmekesisuse küsimus sageli tähelepanuta. Andmestumine lähtub suuresti põhimõttest, et sotsiaalne reaalsus jaotatakse piiratud kategooriatesse. Ka klassikaline arvutusteaduslik meetod baseerub dihhotoomsele ehk 0–1 jaotusele ja arusaamale maailmast. Varasemalt kasutatud binaarsed kategooriad (nt 1 – õige, 2 – vale) on andmete puhastamisel, korrastamisel ja tõlgendamisel endiselt kasutusel, selmet püüelda andmete lõpmatus mitmekesisuses leiduva intersektsionaalsuse kajastamise poole (Hopkins 2019). Andmestunud ühiskonna teadmusloome (Shaw 2015; Wagner-Pacifici et al. 2015) eeldab andmete käsitlemist nii epistemoloogilise kui ka ontoloogilise nähtusena, ent tekitab lisaks hulga andmeõigluslikke (data justice) küsimusi, mille eesmärk on kindlustada, et andmed tagaks senisest suurema, mitte väiksema sotsiaalse õigluse. Nende diskussioonide põhjal oleme sõnastanud andmestunud maailma mõistmise neljanda postulaadi: lisaks tavapärastele teaduseetika nõuetele (uuritavate kahjustamise vältimine) peab andmete kogumine, analüüsimine ja tõlgendamine olema andmesubjekti ja ühiskonna seisukohalt õigustatud ja õiglane.
Eesti ühiskond pakub suurepärase võimaluse andmestumisega seotud arengusuundade analüüsiks – ühest küljest ollakse Eestis andme- ja tehnoloogiausust kannustatuna altid katsetama uudseid andmetehnoloogiaid (Runnel et al. 2009; Shaw 2015), teisalt on Eesti maailma kontekstis olnud suhteliselt tagasihoidlik valitsuse avaandmete arendamisel (McBride et al. 2018). Probleemiks on olnud eelkõige era- ja avaliku sektori ebavõrdne juurdepääs andmeressurssidele, aga ka erinevad arusaamad avalikest väärtustest ja sotsiaalsetest normidest andmelahenduste väljatöötamisel (Männiste, Masso 2020). Meil on eeskujulik digitaalne riigihaldus ja e-valitsemise taristu, ent erasektori digiteeritus on ebaühtlane ning kultuuripärandi lausdigiteerimise ja avaandmestamise algatused kipuvad venima (vt ptk 5.1).
Siiski on Eesti olnud teerajaja mitut tüüpi andmete kasutuselevõtmisel ja nende analüüsiks vajalike meetodite arendamisel. Mobiiltelefonide kõnetoiminguandmed ja mobiilpositsioneerimine sotsiaal-ruumilise segregatsiooni analüüsimiseks (Ahas et al. 2007) on üks eredaim näide (vt ptk-d 5.4 ja 2.1). Eesti digitehnoloogiate edusamme ja uuenduslikke andmelahendusi on kasutatud isegi riigi rahvusvaheliseks brändimiseks (Tammpuu, Masso 2018; Männiste, Masso 2020). Selle hiljutiseks näiteks on Eesti tehisintellekti ehk krattide lahendused.
Paljud Eesti teadlased ja selle kogumiku autorid on oma erialal uurimismeetodite edasiarendamises ja nendega eksperimenteerimises esirinnas, luues lahendusi, mida kasutavad kolleegid ja tudengid rahvusvaheliselt. Käesolev raamat esitab ülevaate Eestis välja pakutud andmestunud maailma uurimise viisidest, mis on kohandatavad rahvusvaheliselt, kuid eelkõige loodud Eesti ühiskonda arvestades. Kuna andmelahendused on loodud konkreetses sotsiaalses kontekstis, on ka andmestunud maailma mõistmise viiside korral oluline lähtuda konkreetse riigi kontekstist. Nende eelduste põhjal oleme sõnastanud viienda postulaadi: andmestunud maailma mõistmiseks – uuringu planeerimisel, andmete kogumisel, analüüsimisel ja tõlgendamisel – on oluline arvestada uuritava nähtuse ja andmete sotsiaal-kultuurilise kontekstiga.
Andmete mitmetähenduslikkusest
Kui ühiskonna andmestumisest rohkem rääkima hakati, peeti silmas eelkõige n-ö suurandmeid,4 mida defineeriti algselt eelkõige kasvanud andmemahu (volume) kaudu (ülevaateks vt nt Schäfer 2016). Hilisemad käsitlused on iseloomustanud suurandmeid viie V-ga ehk mahule lisati sellised omadused nagu mitmekesisus (variety), kiirus (velocity), tõepärasus (veracity) ja väärtus (value; Gupta et al. 2012). Viimastel aastatel on hakatud suurandmeid kirjeldama, mainides suuremat hulka omadusi (Lupton 2015), mida tuntakse ka suurandmete 13 P-na, väites et suurandmed võivad olla kõikehõlmavad (portentous), pahelised (perverse),5 isiklikud (personal), loovad (productive), osalised (partial), praktikaga seotud (practices),6 ennustavad (predictive), poliitilised (political), provokatiivsed (provocative), privaatsed (privacy), mitmetähenduslikud (polyvalent), mitmekujulised (polymorphous) ja mängulised (playful). Seetõttu käsitleme kogumiku teises osas lähemalt peamisi suurandmete mõtestamise viise – nii masinõppe ja visuaalsete meetodite kasutamise kasvu suurtes andmemassiivides tähenduslike mustrite leidmiseks kui ka tunnustepõhiselt analüüsilt indiviidipõhistele meetoditele liikumist (sotsiaalsete võrgustike analüüs ja agendipõhine modelleerimine).
Nagu paljusid uusi nähtusi, selgitati ka suurandmeid algselt arvukate metafooride kaudu (Puschmann, Burgess 2014) – suurandmeid kirjeldati allutamist vajava loodusjõu ja tarbitava ressursina. Eriti levinud on (suur)andmete nimetamine naftaks, mis loob Luke Starki ja Anna Lauren Hoffmani (2019) sõnul spetsiifilise ettekujutuse sellest, mida andmetega peaks tegema, ja tekitab mitmeid andme-eetika ja andmeõigluse probleeme, kuna on suunitletud konkurentsile, olelusvõitlusele ja võimuahnusele. Maavarametafooride asemel soovitavad kriitikud lähtuda pigem „katkiste andmete“ metafoorist, mis rõhutab, et andmed pole kunagi täiuslikud (Pink et al. 2018). Kui siiski loodusvara metafooride juurde jääda, peaks õppima ehk looduskaitse või metsamajanduse valdkonnast ja andmekaevandamise ning väärindamise asemel mõtlema näiteks andmehooldusest (data stewardship) või pakkuma välja sootuks alternatiivseid metafoore (Stark, Hoffman 2019).
Teine grupp olulisi turumajanduslikke metafoore, mis andmesuhteid vormivad, on andmeõigluse kontekstis kasutatavad ekspluateerimise (Mühlhoff 2019), isegi koloniseerimise (Chun 2018) metafoorid. Sotsiaalmeediaplatvormide kasutajaliidesed näiteks innustavad inimesi sisu jagama, laikima ja postitama, kuna see võimaldab maksimeerida turundus- ja reklaamiklientidele kasulike andmete teket. Kui tavakasutaja jaoks on andmed kõrvalprodukt, siis platvormiomanike ärimudeli perspektiivist on suhtlus väärtuslik seetõttu, et selle tagajärjel tekivad müüdavad andmed. Samas ei ole tavakasutajatel võimalik nn andmedoonorlusest loobuda või sellest mingit kasu saada. Käesoleva kogumiku kolmandasse ossa oleme koondanud indiviidide kognitiivse ekspluateerimise tagajärjel loodud tekstiandmete analüüsimise meetodite ja ka nende tajuprotsesside süstemaatilisele hindamisele keskenduvate meetodite peatükid, kuna neis toetutakse peamiselt nn andmedoonorluse käigus tekkinud andmete analüüsile.
Andmetega seotud ühiskondlikke
4
Suurandmeid on eesti keeles nimetatud ka mahtandmeteks; mõlema nimetuse korral on tegemist metafoorse konstruktsiooniga, mis ei anna üheselt edasi nähtuse mitmetähenduslikkust. Sel põhjusel oleme siinses kogumikus eelistanud seotud sotsiaalsetele protsessidele viitavat terminit „andmestumine“.
5
Andmete pahelisus tähendab siin andmetega seotud representatsioonide ambivalentsust – suurandmed ei tekita mitte ainult suurt elevust seoses tekkivate võimalustega, vaid ka hirmu ja ärevust, sest andmete loomine ja kasutamine ei pruugi suure mahu, lakkamatu loomise ja kasutamise tõttu olla kontrollitav.
6
Andmete seotus praktikaga tähendab, et suurte andmekogude loomine ja kasutamine hõlmab mitmesugust üksikisikute ja organisatsioonide andmepraktikat, sealhulgas enda kohta teadlikult teabe kogumist (nt nutikellaga), aga sageli ka enesele teadvustamata andmete loomist näiteks sotsiaalmeedia lehele sisu lisades.