neljapäev, 30. mai 2019

STATISTIKA ( ©Jaanika Meigas, Kairi Osula & TLÜ)

SISSEKANNE # 42



KÜSITLUSED:
Hea küsimustik:
         Selge sõnastus
         Kergesti ja üheselt mõistetavad küsimused
         Kompaktne ja kiiresti vastatav
         Vormistuselt korrektne
         Koostatud nii, et vastajate ja andmetöötlejate potentsiaalsete vigade oht oleks minimeeritud
Vältida tuleks:
         Suunavad küsimused
         Teaduslikult täpsed, kuid keeruliselt sõnastatud küsimused
         Mitmeti mõistetavad küsimused
         Ärritavad küsimused (sh küsimustikuga mittesobivad vastusevariandid.

Taustaandmed: Põhiliselt küsitakse: ● sugu ● vanus ● rahvus ● haridus ● elukoht (kas linn/küla/maakond või maja/korter). Kui võimalik, siis anda variandid ette.  Taustandmed soovitatakse lisada küsitluse lõppu.
Vanusparem oleks küsida konkreetset vanust ● hiljem on võimalik vahemikke ise teha Haridus ● kõrgeim/viimane ● alghariduseta - nt puudega inimesed, sõja aja lapsed jne
Sissetulek (bruto? Neto?) ● keskmine igakuine sissetulek ühe leibkonnaliikme kohta ● möödunud kuu kohta küsida ei pruugi alati olla hea variant - kui nt puhkus, jõulud, preemia ● lisada vastusevariantidena teiste hulgas ka järgmised valikud: ○ sissetulek puudub ○ -100 ○ 101-200 ○ ei soovi vastata.
Skaalad
·         5-punkti skaala - hoiakud, otsad peavad olema märgitud
·         intervalltunnus, võrdsed vahemikud, võib arvutada keskmist
·         kui on märgitud sõnalised vasted, siis keskmist ei arvutata
·         kas 4 või 5-punkti skaala…
·         ühes küsitluses võiksid skaalad olla ühtepidi


ANDMEANALÜÜS / STATISTIKA
Statistika on teadus, mis uurib andmete kogumist, töötlemist, analüüsi ja järelduste tegemist.
·         Kirjeldav statistika - analüüsitakse ainult kogutud andmeid.
·         Üldistav statistika - analüüsitakse kogutud andmeid (valim) ja tehakse järeldusi üldkogumile.
Tunnused
·         Nimitunnus (nt rahvus), nimitunnuse väärtuseid ei saa järjestadabinaarsed tunnused see või teine  (nt sugu).
·         Järjestustunnus (nt haridus), väärtuseid saab järjestada, aga väärtuste vahemikud ei ole võrdsed.
·         Intervalltunnus, sh arvtunnus (nt vanus, palk, rahuloluskaala), väärtused on järjestatavad ja vahemikud on võrdsed ○ kas võimalikke erinevaid väärtuseid on vähe või palju (nt laste arv, vanus)
Meetodid
● Tabelid ● Diagrammid ● Arvnäitajad (vastused, mitte algandmed)

Mugava ja paindliku analüüsi tagamiseks tuleb andmetabeli koostamisel arvestada veel mitme reegliga, millest olulisemad on järgmised:
Igale tunnusele/veerule antakse nimi, mis peab olema unikaalne, st teistest erinev, ning üsna lühike, sest pikkade nimede puhul võtab õigete tunnuste otsimine analüüsi käigus väga palju aega; ei kasutata mitut veergu ühendavaid pealkirju jms!
Igas lahtris tohib olla ainult üks väärtus e üks ühik infot, st mitut vastust ühte lahtrisse sisestada ei tohi! Seega, kui ühe ankeedi küsimuse puhul on vastajal lubatud valida mitu vastusevarianti, annab iga variant andmetabelis eraldi tunnuse/veeru.
Professionaalid väldivad andmete sisestamist tekstidena ning kasutavad selle asemel vastusevariantide kodeerimist, sest nii hoitakse kokku aega, välditakse sisestusvigu ning hiljem on võimalik andmeid paindlikumalt analüüsida. (PS! Ilma kodeerimiseeskirja teadmata ei ole sellist andmestikku sisuliselt võimalik analüüsida, professionaalsed statistikapaketid lubavad kodeerimiseeskirja sisestada koos andmetega ja oskavad seal olevaid kirjeldusi ka kasutada!)
Ühes veerus tohivad olla ainult üht tüüpi andmed, st kui on otsustatud tunnuse sõnaliste väärtuste asemel kasutada arvulisi koode, siis arvude vahele muid sümboleid ei sisestata; puuduva vastuse/väärtuse jaoks mõeldakse välja sobiv arvuline kood või jäetakse vastav lahter lihtsalt tühjaks.

Järeldustes ei tohi liialdada ebamääraste väljenditega, nt: enamasti, sageli, suuremas osas, enamjaolt, harva, kohati, tihti. Parem kasutada täpsemaid väljendeid, näiteks: alla poole (46 %), ligi kolmandikul juhtudest, peaaegu kolmveerand näidetest jne.

Sagedustabel: Isegi kui esmane küsimus eeldab ainult ühe vastusevariandi e väärtuse esinemissageduse leidmist, koostatakse arvuti abil analüüsi läbi viies mugavuse ja analüüsi kompaktsuse tõttu üldjuhul vastava tunnuse kõiki väärtusi kokkuvõttev sagedustabel.

Tulemusi uurimistöö raportis kirjalikult esitledes tuleb arvestada, et igale lisatud tabelile, diagrammile ja joonisele tuleb tekstiosas viidata ning tabelis või diagrammil olev sisu seletatakse tekstiosas lahti. Lahtiseletuseks ei sobi tabelis või diagrammil oleva arvulise info üksühene tekstina üleskirjutamine. Nii ei sobi tabelis 4 toodud tulemuste lahtiseletamiseks näiteks järgmine tekst: “47 õpilast ei kasuta Facebooki portaali üldse, 184 õpilast kasutab küllaltki regulaarselt, kuid mitte iga päev. 84 õpilast kasutab portaali mitu korda päevas, 101 kasutab tavaliselt kord päevas ja 224 õpilast kasutab Facebooki üsna harva”. Tabelis või diagrammil olevate arvuliste tulemuste lahtiseletamisel uurimistöö tekstis tuleks välja tuua üldised tendentsid (nt üle poolte vastanutest kasutavad portaali mitu korda päevas või ligikaudu 85% vastanutest kasutab portaali vähemalt üks kord päevas) ning see, mis on töö sisulises kontekstis selle tulemi korral oluline ja mida tahetakse esile tõsta.

NB!: • Sagedustabel loendab tunnuse väärtuste esinemissagedused. Tunnuse väärtuste jaotumisest ülevaatlikuma pildi saamiseks lisatakse tabelisse ka protsendid. • Kui tunnuse väärtustel on sisuline järjestus, siis tabeli ridu sageduste järgi ei järjestata. • Excelis kasutatakse sagedustabeli loomiseks vahendit Pivot Table (liigendtabel).

Tulemuste esitlusviisi valik sõltub mitmest tegurist: nt, kas tulemusi esitatakse paberil või suulises ettekandes, kes on sihtrühm ja mis on nende eeldatavad teadmised uurimuse teemavaldkonnas ning statistiliste meetodite alal jms, kuid esmatähtis on, et esitlusviis toetaks parimal viisil tulemuste sisust kiiret ja õiget arusaamist ning oleks kompaktne. 

Üldjuhul vali esitluseks:
·         diagramm, kui soovid eelkõige anda kiiret ülevaadet üldtendentsi(de)st ja suundumus(t)est
·         tabel, kui on vajalik anda edasi täpset arvulist infot või kui võrreldavate arvnäitajate suurusjärgud on väga erinevad
·         tekst, kui korraga on vaja esitada vaid üks-kaks arvulist näitajat

Väikeste valimite korral on mõistlik tulemused esitada sagedustena. Protsentide kasutamine võib lugejatele edastada kallutatud pildi andmetest e tekitada ettekujutuse, nagu oleks uuritud isikute hulgas tegelikust rohkem vastajaid. Näiteks esitades uuringu tulemusi sellisel kujul: uuringus osales 17 inimest, kellest 23,5% olid teinud rahalisi annetusi eelmise aasta jooksul, on 23,5% taga tegelikult vaid 4 inimest. Seega, korrektsem viis tulemuste esitamiseks oleks järgmine: uuringus osales 17 inimest, kellest 4 olid eelmise aasta jooksul teinud rahalisi annetusi. Soovi korral võib ülevaatlikkuse tõstmiseks sagedusele sulgudes lisada osakaalu: uuringus osales 17 inimest, kellest 4 (23%) olid eelmise aasta jooksul teinud rahalisi annetusi.
Suurte valimite korral (kui vastajaid on rohkem kui 100), võib tulemuste esitamisel kasutada ka ainult protsente. Näiteks: “Uuringus osales 350 õpilast, kellest 12% olid annetanud oma mänguasjad heategevuslikuks otstarbeks”.
NB!
Ühe või kahe arvulise näitaja esitamiseks kasuta teksti, mitte tabelit ega diagrammi.
• Kui vastajaid on alla saja, kasuta tulemuste esitamisel sagedusi. Kui vastajaid on üle saja, kasuta protsente.
• Küsitluste läbiviimise tarkvara koostatud analüüsi suhtu ettevaatlikkusega ning mõtle läbi, kas automaatselt genereeritud tulem on alati parim viis andmeid esitad


Sektordiagrammi koostamisel tasub meelde jätta järgmised nõuanded:
         Ära kasuta kujundusviisi, kus kõik sektorid on üksteisest “lahti lõigatud”, sest see vähendab diagrammi ülevaatlikkust! Sektori väljatõstmist kasutatakse siis, kui üks sektoritest on tulemuste kontekstis teistest olulisem või kesksem ning seda soovitakse seepärast rõhutada ning esile tõsta. Üldjuhul ei tõsteta siis välja kõige suuremat sektorit.
         Soovituslikult võiks ühel sektordiagrammil olla 3–9 sektorit. Liiga paljude sektorite esitamine ühel diagrammil vähendab ülevaatlikkust. Vajadusel ühenda väiksemad sektorid ühiseks sektoriks „Muu”, mis paigutatakse diagrammil viimaseks.
         1-2  sektoriga diagrammi ei tee.
         Kolmemõõtmelisus loob olukorra, kus eespool asetsevad sektorid tunduvad visuaalselt suuremad kui tagumised, mistõttu on mõistlik seda kujundusviisi vältida.
         Üldjuhul ei esitata ühel graafikul korraga sagedusi ja protsente, sest liigne numbrite rohkus võib segada andmetest kiire ja ülevaatliku ettekujutuse saamist.
         Sektorite värvi muutmiseks vali sektorid ühe kaupa (vali sektorid ning seejärel klõpsa konkreetse sektori peal) ja muuda nende värvi.

Histogramm: on tulpdiagrammi spetsiifiline alamliik, kus telgede tähendused on alati üheselt määratud. Histogramm sobib ainult arvtunnuste kirjeldamiseks, kuna sellel teljel, millele tulbad toetuvad, on alati arv-väärtustest moodustatud vahemikud. Kuna seal, kus lõppeb eelmine vahemik, algab kohe järgmine, siis on histogrammil sisuliselt sobilik asetada tulbad vahetult üksteise kõrvale. Tulpade kõrgus histogrammil kirjeldab alati vahemiku sagedust e seda, mitu tulemust (või kui suur osa tulemustest) sellesse vahemikku jäi.


Histogrammi koostamisel tuleks meeles pidada järgmisi soovitusi:
         Selleks, et arvtunnuste analüüsimiseks sobivaid meetodeid valida, tuleb teha vahet, kas tegu on väheste erinevate väärtustega arvtunnusega või paljude erinevate väärtustega arvtunnusega. Kui arvtunnusel on vähe erinevaid väärtusi, siis saab kasutada nii tavalist sagedustabelit kui ka tulpdiagrammi, sest üksikute arvväärtuste põhjal tekkivaid gruppe on vähe ja nad mahuvad kenasti tabelisse või tulpadeks ja sektoriteks vastavale diagrammile. Näited tunnustest, mille on vähe erinevaid väärtuseid:
-          Klassikaaslaste vanus: arvtunnus, millel on vähe erinevaid väärtuseid. Sinu klassikaaslaste vanused ei erine omavahel ilmselt palju rohkem kui 2–3 aasta võrra.
-          Õdede-vendade arv: arvtunnus, millel ka ei ole väga palju võimalikke erinevaid väärtusi, sest enamasti on Eesti peredes 1–3 last ja seega õdesid-vendasid ühel lapsel 0–2.
         Kui aga arvtunnusel on palju erinevaid väärtusi, siis tuleb enne sagedustabeli või diagrammi tegemist arvväärtused grupeerida e neist vahemikud moodustada nii, et tekkinud vahemikke oleks tabelis või diagrammil eraldi rea, tulba või sektorina.

KORRELATSIOON
Vastastikust seost kahe tunnuse vahel nimetatakse korrelatsiooniks:
Positiivne seos - ühe tunnuse väärtuste kasvades kasvavad ka teise tunnuse väärtused. Negatiivne seos - ühe tunnuse väärtuste kasvades teise tunnuse väärtused kahanevad.
Korrelatsioonikordaja (r) väärtus jääb -1 ja +1 vahele.
         0-0,3 - olematu, nõrk seos
         0,3-0,7 keskmise tugevusega seos
         0,7-1 tugev seos
Milline kordaja valida?!#*
Pearsoni kordaja => Intervall + intervall => seose kuju - lineaarne; erandlikud väärtused puuduvad (ei domineeri).
Spearmani kordaja => Intervall + intervall, intervall + järjestus, järjestus + järjestus => seose kuju ei ole lineaarne ja jaotusel on erandlikud väärtused.
Kendalli kordaja => järjestus + järjestus => väike valim ja palju sarnaseid väärtusi.

KESKMISED
         Kui järjestame tulemused kasvamise või kahanemise järjekorda, saame variatsioonirea.

         Mediaan on väärtus, mis jagab vaatlustulemused kahte ossa nii, et pooled on mediaanist väiksemad ja pooled suuremad.

         Aritmeetilise keskmise (keskmise v keskväärtuse) leidmiseks tuleb kõik vaatlustulemused kokku liita ning saadud summa jagada vaatlustulemuste arvuga. Aritmeetilist keskmist on korrektne arvutada ainult intervalltunnuste (sh arvtunnuste) puhul.

         Kõige enamkasutatav keskmist tendentsi väljendav suurus on keskväärtus. Kui keskväärtus ja mediaan on väga erinevad, tuleks keskmist tendentsi väljendava suurusena (keskväärtusele lisaks) kasutada mediaani, sest keskväärtus võib olla mõjutatud ühest/mitmest ebatüüpilisest, teistest väga erinevatest väärtustest, mediaani aga sellised ekstreemsed väärtused ei mõjuta.

HAJUVUS, ULATUS, STANDARDHÄLVE:

Kuigi keskmised on kõige tuntumad ja enamkasutatavad arvnäitajad, ei anna ainult keskmise teadmine meile andmete kohta täit pilti. Seetõttu tuleb osata küsida ja analüüsida ka seda, kuivõrd erinevad või sarnased on tulemused/väärtused. Väärtuste omavahelise erinevuse määra nimetatakse statistikas hajuvuseks. Hajuvus ongi keskmise kõrval teine oluline andmete jaotust iseloomustav suurus.

Ulatus on kõige üldisem ja lihtsamini leitav hajuvuse näitaja, kuid tema suur puudus on selles, et ta sõltub ainult jaotuse kahest kõige äärmisest väärtusest, mis võivad aga mingil põhjusel olla teistest väga erinevad nn ekstreemsed väärtused (tuletage meelde näidet palkadest!). Seepärast on selle näitaja usaldatavus grupi kui terviku iseloomustamisel väike ning teda kasutatakse vaid jaotusest kõige üldisema pildi saamiseks. 
Kõige sagedamini kasutatav hajuvuse näitaja on aga standardhälve. Nagu aritmeetiline keskmine, nii võtab ka standardhälve arvesse kõik vaatlustulemused. Kui meie vaatlustulemused on kõik ühesugused, siis andmetes hajuvust ei ole ning mistahes hajuvuse näitaja peaks andma vastuseks 0. Tavaliselt on aga vaatlustulemused hajuvad ning üksikud tulemused erinevad (hälbivad) keskväärtusest enamal või vähemal määral. Standardhälve ongi selline arvkarakteristik, mis võimaldab meil öelda, kui palju üksikud tulemused grupi aritmeetilisest keskmisest (keskmiselt) erinevad. Mida suurem on hajuvus, seda suuremad on erinevused ning seda suurem on ka standardhälve.

NB! • Ulatus on kõige lihtsamini leitav hajuvuse näitaja, kuid tema suur puudus on selles, et ta sõltub ainult jaotuse kahest kõige äärmisest väärtusest, mis võivad aga mingil põhjusel olla teistest väga erinevad. • Standardhälve on kõige sagedamini kasutatav hajuvuse näitaja. Mida suuremad on väärtuste omavahelised erinevused, seda suurem on ka standardhälve. Kui kõik tulemused on ühesugused, on standardhälbe väärtus 0.


KASUTATUD MATERJAL:
         Meigas, J. & Osula, K. Loengu IFI6201.DT materjalid.
         Niglas, K. Andmete esmane töötlemine, analüüsimine ja esitamine. Loengumaterjal. TLÜ Informaatika instituut.


Kommentaare ei ole:

Postita kommentaar