neljapäev, 24. september 2020

ANDMETEADUSE JA ANDMEKAEVE SEOSEST

 SISSEKANNE # 126


Kõigepealt, kui hakata seoseid looma, tuleb defineerida seostatavad.  Andmeteaduse (data science) määratluse alla on loetud ükskõik millist tegevust,  mis aitab andmete põhjal  teha kasulikke otsuseid (https://pungas.ee/neli-sonakolksu-masinope-tehisintellekt-suurandmed-andmeteadus/). Andmekaeve  (data mining) on automaatne protsess kasulike mustrite paljastamiseks suurtest andmehulkadest, sõnastab lihtsa keeles Vikipeedia (https://et.wikipedia.org/wiki/Andmekaeve).  E-teatmik ütleb veidi keerulisemas sõnastuses sedasama: andmekaeve tähendab andmete sorteerimist eesmärgiga identifitseerida malle ja välja selgitada suhteid. Andmekaeve parameetrite hulka kuuluvad:

  •  assotsieerimine - selliste mallide otsimine, kus üks sündmus on seotud teise sündmusega;
  •  järjestamine ehk rajaanalüüs - mallide otsimine, kus üks sündmus kutsub esile teise, hilisema sündmuse;
  • klassifitseerimine - uute mallide otsimine (selle tulemusena võib muutuda viis, kuidas andmed on organiseeritud)
  • kobardamine - varem tundmatute rühmade või faktide leidmine ja visuaalne dokumenteerimine;
  • ennustamine - andmetes selliste mallide leidmine, mis võivad viia mõistlike ennustusteni tuleviku kohta.

Andmekaevandamise meetodeid kasutatakse matemaatikas, küberneetikas ja geneetikas. Veebikaevandamine, mis on üks andmekaevandamise liike kliendisuhete halduses (CRM), kasutab veebisaidi poolt kogutud hiigelsuurt infohulka kasutajate käitumismallide väljaselgitamiseks (http://vallaste.ee/) .

Andmeteaduse tegemine ei ole eraldi eesmärk, see ei moodusta akadeemilist distsipliini, vaid see on hulk meetodeid, mille abil jõuda paremini, täpsemini, kiiremini juba seatud eesmärgile.  See on võrreldav programmeerimisega, mis  samuti kätkeb endas hulga meetodeid, kuidas arvutitehnoloogia abil lahendada reaalseid probleeme (näiteks e-keskkonna loomine või äppide tegemine) (http://datasci.ee/sissejuhatus/mis-on-andmeteadus). 

Andmeteaduse ja andmekaeve seos on ilmselge, kuivõrd andmeteaduse jaoks on andmekaeve  oma  kõigi eelmainitud parameetritega  protsess, mille lõppeesmärk, causa finalis, on üldine kasu. Andmeteadust kasutatakse teenindussfääris (hinnasoovitused), meditsiinis (vähirakkude tuvastamine), finantssektoris (pettuste tuvastamine) jne -  kokkupuutevaldkond on väga lai, sest andmed on enam-vähem kõikjal.

Andmeteadus on seega andmetega tegelev valdkond ning andmekaeve metodoloogiline protsess, mis teenindab andmeteaduse eesmärke.

*          *          *

Huvitav uurimus andmekaeve ja statistika suhtest pärineb Stanfordi ülikooli statistikateadlase Jerome H. Friedmani sulest. Tõsi, see on tänapäevaks ehk aegunud, kuid selgitab siiski päris hästi andmekaeve nüansse, kuivõrd statistiline analüüs on andmekaeve üks põhikomponente tehisintellekti ja informaatika kõrval. Artikkel - Friedman, J. H. 1997. Data Mining and Statistics. What's the Connection? Proc. of the 29th Symposium on the Interface: Computing Science and Statistics, May 1997, Houston, Texas - on netist leitav: http://statweb.stanford.edu/~jhf/ftp/dm-stat.pdf .

Lõpetuseks TEDx ettekanne Taivo Pungaselt. Miks andmeteadus?? Taivo Pungas selgitab.


 

 

 

Kommentaare ei ole:

Postita kommentaar