KÜSITLUSED:
Hea
küsimustik:
•
Selge sõnastus
•
Kergesti ja üheselt
mõistetavad küsimused
•
Kompaktne ja kiiresti
vastatav
•
Vormistuselt korrektne
•
Koostatud nii, et
vastajate ja andmetöötlejate potentsiaalsete vigade oht oleks minimeeritud
Vältida
tuleks:
•
Suunavad küsimused
•
Teaduslikult täpsed,
kuid keeruliselt sõnastatud küsimused
•
Mitmeti mõistetavad
küsimused
•
Ärritavad küsimused (sh
küsimustikuga mittesobivad vastusevariandid.
Taustaandmed:
Põhiliselt küsitakse: ● sugu ● vanus ● rahvus ●
haridus ● elukoht (kas linn/küla/maakond või maja/korter). Kui võimalik, siis
anda variandid ette. Taustandmed
soovitatakse lisada küsitluse lõppu.
Vanus
● parem oleks küsida konkreetset vanust ● hiljem on võimalik vahemikke
ise teha Haridus ● kõrgeim/viimane ●
alghariduseta - nt puudega inimesed, sõja aja lapsed jne
Sissetulek
(bruto? Neto?) ● keskmine igakuine sissetulek ühe
leibkonnaliikme kohta ● möödunud kuu kohta küsida ei pruugi alati olla hea
variant - kui nt puhkus, jõulud, preemia ● lisada vastusevariantidena
teiste hulgas ka järgmised valikud: ○ sissetulek puudub ○ -100 ○ 101-200 ○ ei
soovi vastata.
Skaalad
·
5-punkti skaala -
hoiakud, otsad peavad olema märgitud
·
intervalltunnus,
võrdsed vahemikud, võib arvutada keskmist
·
kui on märgitud
sõnalised vasted, siis keskmist ei arvutata
·
kas 4 või 5-punkti
skaala…
·
ühes küsitluses võiksid
skaalad olla ühtepidi
ANDMEANALÜÜS / STATISTIKA
Statistika
on teadus, mis uurib andmete kogumist, töötlemist,
analüüsi ja järelduste tegemist.
·
Kirjeldav
statistika - analüüsitakse ainult kogutud andmeid.
·
Üldistav
statistika - analüüsitakse kogutud andmeid (valim) ja
tehakse järeldusi üldkogumile.
Tunnused
·
Nimitunnus
(nt rahvus), nimitunnuse väärtuseid ei saa järjestada ○ binaarsed tunnused – see või teine (nt sugu).
·
Järjestustunnus
(nt haridus), väärtuseid saab järjestada, aga väärtuste vahemikud ei
ole võrdsed.
·
Intervalltunnus,
sh arvtunnus (nt vanus, palk, rahuloluskaala), väärtused on järjestatavad
ja vahemikud on võrdsed ○ kas võimalikke erinevaid väärtuseid on vähe või
palju (nt laste arv, vanus)
Meetodid
● Tabelid ● Diagrammid ● Arvnäitajad
(vastused, mitte algandmed)
Mugava
ja paindliku analüüsi tagamiseks tuleb andmetabeli
koostamisel arvestada veel mitme reegliga, millest olulisemad on järgmised:
• Igale
tunnusele/veerule antakse nimi, mis peab olema unikaalne, st teistest
erinev, ning üsna lühike, sest pikkade nimede puhul võtab õigete tunnuste
otsimine analüüsi käigus väga palju aega; ei kasutata mitut veergu ühendavaid
pealkirju jms!
• Igas
lahtris tohib olla ainult üks väärtus e üks ühik infot, st mitut vastust
ühte lahtrisse sisestada ei tohi! Seega, kui ühe ankeedi küsimuse puhul on
vastajal lubatud valida mitu vastusevarianti, annab iga variant andmetabelis
eraldi tunnuse/veeru.
• Professionaalid
väldivad andmete sisestamist tekstidena ning kasutavad selle asemel
vastusevariantide kodeerimist, sest nii hoitakse kokku aega, välditakse
sisestusvigu ning hiljem on võimalik andmeid paindlikumalt analüüsida. (PS!
Ilma kodeerimiseeskirja teadmata ei ole sellist andmestikku sisuliselt võimalik
analüüsida, professionaalsed statistikapaketid lubavad kodeerimiseeskirja
sisestada koos andmetega ja oskavad seal olevaid kirjeldusi ka kasutada!)
• Ühes
veerus tohivad olla ainult üht tüüpi andmed, st kui on otsustatud tunnuse
sõnaliste väärtuste asemel kasutada arvulisi koode, siis arvude vahele muid
sümboleid ei sisestata; puuduva vastuse/väärtuse jaoks mõeldakse välja sobiv
arvuline kood või jäetakse vastav lahter lihtsalt tühjaks.
Järeldustes
ei tohi liialdada ebamääraste väljenditega,
nt: enamasti, sageli, suuremas osas, enamjaolt, harva, kohati, tihti. Parem
kasutada täpsemaid väljendeid, näiteks: alla poole (46 %), ligi
kolmandikul juhtudest, peaaegu kolmveerand näidetest jne.
Sagedustabel:
Isegi kui esmane küsimus eeldab ainult ühe
vastusevariandi e väärtuse esinemissageduse leidmist, koostatakse arvuti abil
analüüsi läbi viies mugavuse ja analüüsi kompaktsuse tõttu üldjuhul vastava
tunnuse kõiki väärtusi kokkuvõttev sagedustabel.
Tulemusi uurimistöö raportis kirjalikult
esitledes tuleb arvestada, et igale lisatud tabelile, diagrammile ja joonisele
tuleb tekstiosas viidata ning tabelis või diagrammil olev sisu seletatakse
tekstiosas lahti. Lahtiseletuseks ei
sobi tabelis või diagrammil oleva arvulise info üksühene tekstina üleskirjutamine. Nii ei sobi tabelis 4
toodud tulemuste lahtiseletamiseks näiteks järgmine tekst: “47 õpilast ei kasuta Facebooki portaali üldse, 184 õpilast kasutab
küllaltki regulaarselt, kuid mitte iga päev. 84 õpilast kasutab portaali mitu
korda päevas, 101 kasutab tavaliselt kord päevas ja 224 õpilast kasutab
Facebooki üsna harva”. Tabelis või diagrammil olevate arvuliste tulemuste
lahtiseletamisel uurimistöö tekstis tuleks
välja tuua üldised tendentsid (nt üle poolte vastanutest kasutavad portaali
mitu korda päevas või ligikaudu 85% vastanutest kasutab portaali vähemalt üks
kord päevas) ning see, mis on töö sisulises kontekstis selle tulemi korral
oluline ja mida tahetakse esile tõsta.
NB!:
• Sagedustabel loendab tunnuse väärtuste
esinemissagedused. Tunnuse väärtuste jaotumisest ülevaatlikuma pildi
saamiseks lisatakse tabelisse ka protsendid. • Kui tunnuse väärtustel on
sisuline järjestus, siis tabeli ridu sageduste järgi ei järjestata. •
Excelis kasutatakse sagedustabeli loomiseks vahendit Pivot Table
(liigendtabel).
Tulemuste
esitlusviisi valik sõltub mitmest tegurist: nt, kas
tulemusi esitatakse paberil või suulises ettekandes, kes on sihtrühm ja mis on
nende eeldatavad teadmised uurimuse teemavaldkonnas ning statistiliste
meetodite alal jms, kuid esmatähtis on, et esitlusviis toetaks parimal viisil
tulemuste sisust kiiret ja õiget arusaamist ning oleks kompaktne.
Üldjuhul
vali esitluseks:
·
diagramm,
kui soovid eelkõige anda kiiret ülevaadet üldtendentsi(de)st ja suundumus(t)est
·
tabel,
kui on vajalik anda edasi täpset arvulist infot või kui võrreldavate
arvnäitajate suurusjärgud on väga erinevad
·
tekst,
kui korraga on vaja esitada vaid üks-kaks arvulist näitajat
Väikeste
valimite korral on mõistlik tulemused esitada sagedustena.
Protsentide kasutamine võib lugejatele edastada kallutatud pildi andmetest e
tekitada ettekujutuse, nagu oleks uuritud isikute hulgas tegelikust rohkem
vastajaid. Näiteks esitades uuringu tulemusi sellisel kujul: uuringus osales 17
inimest, kellest 23,5% olid teinud rahalisi annetusi eelmise aasta jooksul, on
23,5% taga tegelikult vaid 4 inimest. Seega, korrektsem viis tulemuste
esitamiseks oleks järgmine: uuringus osales 17 inimest, kellest 4 olid
eelmise aasta jooksul teinud rahalisi annetusi. Soovi korral võib
ülevaatlikkuse tõstmiseks sagedusele sulgudes lisada osakaalu: uuringus osales
17 inimest, kellest 4 (23%) olid eelmise aasta jooksul teinud rahalisi
annetusi.
Suurte
valimite korral (kui vastajaid on rohkem kui 100), võib tulemuste esitamisel
kasutada ka ainult protsente. Näiteks: “Uuringus
osales 350 õpilast, kellest 12% olid annetanud oma mänguasjad heategevuslikuks
otstarbeks”.
NB!
•
Ühe või kahe arvulise näitaja esitamiseks kasuta teksti, mitte tabelit ega diagrammi.
•
Kui vastajaid on alla saja, kasuta tulemuste esitamisel sagedusi. Kui vastajaid on üle saja,
kasuta protsente.
•
Küsitluste läbiviimise tarkvara koostatud analüüsi suhtu ettevaatlikkusega ning
mõtle läbi, kas automaatselt genereeritud tulem on alati parim viis andmeid
esitad
Sektordiagrammi
koostamisel tasub meelde jätta järgmised nõuanded:
•
Ära kasuta
kujundusviisi, kus kõik sektorid on üksteisest “lahti lõigatud”, sest
see vähendab diagrammi ülevaatlikkust! Sektori väljatõstmist kasutatakse siis,
kui üks sektoritest on tulemuste kontekstis teistest olulisem või
kesksem ning seda soovitakse seepärast rõhutada ning esile tõsta. Üldjuhul ei
tõsteta siis välja kõige suuremat sektorit.
•
Soovituslikult võiks
ühel sektordiagrammil olla 3–9 sektorit.
Liiga paljude sektorite esitamine ühel diagrammil vähendab ülevaatlikkust.
Vajadusel ühenda väiksemad sektorid ühiseks sektoriks „Muu”, mis paigutatakse
diagrammil viimaseks.
•
1-2
sektoriga diagrammi ei tee.
•
Kolmemõõtmelisus loob
olukorra, kus eespool asetsevad sektorid tunduvad visuaalselt suuremad kui
tagumised, mistõttu on mõistlik seda
kujundusviisi vältida.
•
Üldjuhul ei esitata ühel graafikul korraga
sagedusi ja protsente, sest liigne numbrite rohkus võib segada andmetest
kiire ja ülevaatliku ettekujutuse saamist.
•
Sektorite värvi
muutmiseks vali sektorid ühe kaupa (vali sektorid ning seejärel klõpsa
konkreetse sektori peal) ja muuda nende värvi.
Histogramm:
on tulpdiagrammi spetsiifiline alamliik, kus telgede
tähendused on alati üheselt
määratud. Histogramm sobib ainult
arvtunnuste kirjeldamiseks, kuna sellel teljel,
millele tulbad toetuvad, on alati arv-väärtustest moodustatud vahemikud. Kuna seal, kus lõppeb eelmine vahemik, algab kohe
järgmine, siis on histogrammil sisuliselt sobilik
asetada tulbad vahetult üksteise kõrvale. Tulpade kõrgus histogrammil kirjeldab alati vahemiku sagedust e seda,
mitu tulemust (või kui suur osa tulemustest) sellesse
vahemikku jäi.
Histogrammi koostamisel tuleks meeles
pidada järgmisi soovitusi:
•
Selleks, et arvtunnuste
analüüsimiseks sobivaid meetodeid valida, tuleb teha vahet, kas tegu on väheste erinevate väärtustega
arvtunnusega või paljude erinevate väärtustega
arvtunnusega. Kui arvtunnusel on vähe erinevaid väärtusi, siis saab kasutada nii tavalist sagedustabelit kui ka
tulpdiagrammi, sest üksikute arvväärtuste põhjal
tekkivaid gruppe on vähe ja nad mahuvad kenasti tabelisse või tulpadeks ja sektoriteks vastavale diagrammile. Näited
tunnustest, mille on vähe erinevaid väärtuseid:
-
Klassikaaslaste vanus:
arvtunnus, millel on vähe erinevaid väärtuseid. Sinu klassikaaslaste vanused ei erine omavahel
ilmselt palju rohkem kui 2–3 aasta võrra.
-
Õdede-vendade arv:
arvtunnus, millel ka ei ole väga palju võimalikke erinevaid väärtusi, sest enamasti on Eesti peredes
1–3 last ja seega õdesid-vendasid ühel lapsel
0–2.
•
Kui aga arvtunnusel on
palju erinevaid väärtusi, siis tuleb enne sagedustabeli või diagrammi tegemist arvväärtused grupeerida
e neist vahemikud moodustada nii, et tekkinud
vahemikke oleks tabelis või diagrammil eraldi rea, tulba või sektorina.
KORRELATSIOON
Vastastikust seost kahe tunnuse vahel
nimetatakse korrelatsiooniks:
Positiivne seos
- ühe tunnuse väärtuste kasvades kasvavad ka teise tunnuse väärtused. Negatiivne
seos - ühe tunnuse väärtuste kasvades teise tunnuse väärtused kahanevad.
Korrelatsioonikordaja
(r) väärtus jääb -1 ja +1 vahele.
•
0-0,3 - olematu, nõrk
seos
•
0,3-0,7 keskmise
tugevusega seos
•
0,7-1 tugev seos
Milline kordaja valida?!#*
Pearsoni
kordaja => Intervall + intervall => seose
kuju - lineaarne; erandlikud väärtused puuduvad (ei domineeri).
Spearmani
kordaja => Intervall + intervall, intervall +
järjestus, järjestus + järjestus => seose kuju ei ole lineaarne ja jaotusel
on erandlikud väärtused.
Kendalli
kordaja => järjestus + järjestus => väike
valim ja palju sarnaseid väärtusi.
KESKMISED
•
Kui järjestame tulemused
kasvamise või kahanemise järjekorda, saame variatsioonirea.
•
Mediaan
on väärtus, mis jagab vaatlustulemused kahte ossa nii, et pooled on mediaanist
väiksemad ja pooled suuremad.
•
Aritmeetilise
keskmise (keskmise v keskväärtuse) leidmiseks tuleb
kõik vaatlustulemused kokku liita ning saadud summa jagada vaatlustulemuste
arvuga. Aritmeetilist keskmist on korrektne arvutada ainult
intervalltunnuste (sh arvtunnuste) puhul.
•
Kõige enamkasutatav
keskmist tendentsi väljendav suurus on keskväärtus. Kui keskväärtus ja
mediaan on väga erinevad, tuleks keskmist tendentsi väljendava suurusena
(keskväärtusele lisaks) kasutada mediaani, sest keskväärtus võib olla mõjutatud
ühest/mitmest ebatüüpilisest, teistest väga erinevatest väärtustest, mediaani
aga sellised ekstreemsed väärtused ei mõjuta.
HAJUVUS, ULATUS, STANDARDHÄLVE:
Kuigi keskmised on kõige tuntumad ja
enamkasutatavad arvnäitajad, ei anna ainult keskmise teadmine meile andmete
kohta täit pilti. Seetõttu tuleb osata küsida ja analüüsida ka seda, kuivõrd
erinevad või sarnased on tulemused/väärtused. Väärtuste omavahelise erinevuse määra nimetatakse
statistikas hajuvuseks. Hajuvus ongi keskmise kõrval teine
oluline andmete jaotust iseloomustav suurus.
Ulatus on kõige üldisem ja lihtsamini leitav hajuvuse näitaja, kuid
tema suur puudus on selles, et ta sõltub ainult jaotuse kahest kõige
äärmisest väärtusest, mis võivad aga mingil põhjusel olla teistest väga
erinevad nn ekstreemsed väärtused (tuletage meelde näidet palkadest!).
Seepärast on selle näitaja usaldatavus grupi kui terviku iseloomustamisel väike
ning teda kasutatakse vaid jaotusest kõige üldisema pildi saamiseks.
Kõige sagedamini kasutatav hajuvuse
näitaja on aga standardhälve.
Nagu aritmeetiline keskmine, nii võtab ka standardhälve arvesse kõik
vaatlustulemused. Kui meie vaatlustulemused on kõik ühesugused, siis andmetes hajuvust ei ole ning
mistahes hajuvuse näitaja peaks andma vastuseks 0. Tavaliselt on aga
vaatlustulemused hajuvad ning üksikud tulemused erinevad (hälbivad)
keskväärtusest enamal või vähemal määral. Standardhälve ongi selline
arvkarakteristik, mis võimaldab meil öelda, kui palju üksikud tulemused grupi
aritmeetilisest keskmisest (keskmiselt) erinevad. Mida suurem on hajuvus, seda
suuremad on erinevused ning seda suurem on ka standardhälve.
NB!
• Ulatus on kõige lihtsamini leitav
hajuvuse näitaja, kuid tema suur puudus on selles, et ta sõltub ainult jaotuse
kahest kõige äärmisest väärtusest, mis võivad aga mingil põhjusel olla
teistest väga erinevad. • Standardhälve
on kõige sagedamini kasutatav hajuvuse näitaja. Mida suuremad on väärtuste
omavahelised erinevused, seda suurem on ka standardhälve. Kui kõik
tulemused on ühesugused, on standardhälbe väärtus 0.
KASUTATUD MATERJAL:
•
Meigas, J. & Osula,
K. Loengu IFI6201.DT materjalid.
•
Niglas, K. Andmete esmane
töötlemine, analüüsimine ja esitamine. Loengumaterjal. TLÜ Informaatika instituut.
Kommentaare ei ole:
Postita kommentaar