Andmeanalüüs ja statistika
uurimistöös
2016 Andmeanalüüsi põhimõistedNeli andmeanalüüsi juures möödapääsmatut terminit ● objekt
● tunnus
● väärtus
● skaala
Objekt / objektidVastavalt sellele, mida me uurida tahame, kogume me
andmeid kas inimeste, koolide, valgete hiirte, kalendrikuude,
kartulipõldude vms kohta.
Kõiki selliseid indiviide või üksusi, kelle/mille käest või kohta
me andmeid kogume, nimetatakse statistilises
andmeanalüüsis
objektideks.
Muutujad ja tunnusedAndmeid koguma asudes oleme valmis mõelnud mingid neid objekte
iseloomustavad omadused, mis meid huvitavad.
Näiteks: värvus, vanus, hind, kaal, arvamus millegi suhtes jne.
Selliseid omadusi nimetatakse
muutujateks.
Omadusi, mida saab mõõta nii (või mis on juba kokku võetud nii), et iga
objekti jaoks saadakse ainult üks vastus ehk üks ühik infot, nimetatakse
tunnusteks.
VäärtusedObjektid ja tunnused peavad olema valitud enne andmete kogumist.
Andmete kogumise käigus püüame saada tulemuse või vastuse iga
objekti kohta kõigi meid huvitavate tunnuste lõikes – statistika
terminoloogiast lähtudes on need
väärtused.Nii võivad tunnuse „
haridus ” võimalikud väärtused olla näiteks
„algharidus”, „põhiharidus”, „
keskharidus ” ja „kõrgharidus”, aga tunnuse
„vanus” väärtused näiteks arvud „12”, „27”, „6” jne.
Näeme, et andmed ehk väärtused võivad olla nii arvud kui ka sõnad.
Kolm tunnuste põhitüüpiÕigeks analüüsimeetodi
valikuks tuleb osata teha vahet
vähemalt kolmel tunnuste põhitüübil:
● nimitunnusel
● järjestustunnusel
● intervalltunnusel
Nimitunnused ja järjestustunnused● Nimitunnused - nt rahvus: eestlane,
venelane , soomlane ...
NB! Nimitunnusel ei ole väärtused üheselt järjestatavad,
järjestustunnusel on!
● Järjestustunnused - nt haridustase: algharidus, põhiharidus,
keskharidus, ... NB! Järjestustunnusel ei ole väärtuste vahemikud
võrdsed, intervalltunnusel on!
IntervalltunnusedIntervalltunnused, sh
arvtunnused - nt vanus: 27 a, 32 a, 51 a ...
● Intervalltunnused väheste erinevate väärtustega - nt
neljapalline rahuloluskaala: rahul, pigem rahul, pigem mitte
rahul, mitte rahul.
● Intervalltunnused paljude erinevate väärtustega - nt palk: 926
eurot,
1003 eurot, 1442 eurot ...
KaasamõtlemiseksMalle soovib oma uurimistöös rääkida
oma küla inimeste mälestustest,
mis seonduvad jõulukommetega nende lapsepõlvekodus.
Kalle tahaks võrrelda huvitegevuse võimalusi
maa ja linnakoolides.
Sassi aga
huvitab , milliseid veebilehti
tema eakaaslased kõige enam
külastavad ja milliseid nad kõige õpetlikemaks peavad.
Kas tegemist on objektide, tunnuste või väärtustega?Uurimistöö teema aktuaalsusestPikkade koolipäevade eel unistab 10. klassi õpilane Mikk sellest ajast,
millal ta saaks juba tööle minna. Töölkäimisega kaasneb
Miku arvates üks
väga suur eelis – koduseid ülesandeid ei
anta ning pärast tööpäeva oled
vaba! Sellele, et on olemas erinevaid ameteid, millest osadega kaasneb
ka (väga suures
mahus ) koduse töö jätkumine, Mikk ei mõelnud...
● Too näiteid ametikohtadest, kus ei jää nn kodutööd!
● Too näiteid aktuaalsetest teemadest täna!
● Mis muudab Sinu uurimistöö aktualseks? Valim Valimiks
nimetame üldkogumist uurimiseks valitud (üsna väikest)
objektide gruppi.
Selleks, et valimi põhjal üldkogumi kohta statistiliste meetodite abil
üldistatud järeldusi teha, tuleb valimi liikmed valida juhuslikult. Juhuslikkus
statistikas tähendab, et igal üldkogumi liikmel peab olema võrdne
võimalus valimisse valitud saada.
● Too näide enda kooli ja enda klassi põhjal! Valimite liigid... valimi „tugevuse” kahanemise järjekorras
● kõikne valim
● juhuvalim
● süstemaatiline valim
●
kihtvalim ● mugavusvalim
Näide 2 kaasamõtlemiseksJuss sai ülesandeks uurida kõiki oma kooli õpilasi. Uuringu teema oli
rahulolu kooli toiduga. Kuna Juss ja tema sõbrad olid koolitoiduga väga
rahul, ei pidanud ta vajalikuks küsitleda kedagi peale oma sõprade.
Kõikide kooli õpilaste küsitlemine oleks niikuinii liiga kaua aega võtnud.
• Kes moodustasid selles näites
üldkogumi?
• Kas
Jussi arvamus, et ta kõiki kooli õpilasi küsitleda ei jõua, oli põhjendatud?
• Kas Jussi sõprade arvamus annab ülevaate sellest, mida
arvavad kõik tema
kooli õpilased? Põhjenda vastust.
Struktureeritud andmestik ● Enne arvulisel või struktureeritud kujul olevate andmete analüüsima
asumist on mõistlik andmed sisestada andmetabelisse.
● Andmete analüüsimisel kasutada arvuti abi - säästab korduvast ja
aeganõudvast andmete loendamisest ning võimaldab kiiresti ja
mugavalt kasutada samu andmeid uute sisuliste analüüsiküsimuste
vastamiseks
Andmetabeli koostamineAlgandmetest andmetabelit koostades tuleb eelkõige meeles pidada,
et õige
andmetabel peab olema hästi lihtsa ja alati samasuguse
põhistruktuuriga:
● iga objekt saab endale tabelis ühe rea
● iga tunnus omale tabelis ühe veeru
● iga väärtus saab endale tabelis ühe lahtri
Andmetabel 1 Tabel 1. Õpilase koostatud andmetabel
Andmetabel 2 - mis on pildil valesti? Tabel 2. Professionaali koostatud andmetabel kodeeritud andmetega
Andmete korrastamineAndmete sisestamisel andmetabelisse peab olema väga hoolikas, et vältida
sisestusvigu, sest tihti pole hiljem võimalik neid vigu leida. Samas peaks enne
andmete sisulist analüüsi siiski
veenduma , et andmete sisestamisel pole tekkinud
tüüpilisi ja kergesti tuvastatavaid näpuvigu. Näiteks on tüüpilised vead sellised,
kus arvude sisestamisel on
koma jäänud panemata või on see sattunud valesse
kohta; kodeeritud andmete puhul on koodi „2” asemel
sisestatud „22” või koodi „5”
asemel „55”; tekstina sisestatavate andmete puhul on sama väärtuse jaoks
kasutatud erinevaid sõnu (nt „
Harjumaa ” ja „Harju maakond”) või on tekkinud
kirjaviga (nt „Tallinn” asemel on sisestatud „Talliin”) vms.
Andmete sorteerimineSelliste vigade leidmiseks võib kasutada erinevaid tarkvaravõimalusi, kuid
Exceli ja Google arvutustabeli puhul on üks väga
nutikas lahendus kasutada filtreerimist.
Valides Data/Sort&
Filter / Filter või .... ?
lisatakse kõigi tunnuste/veergude päisele valikunupp, millel klõpsides kuvatakse
rippmenüüs kõik veerust leitud erinevad väärtused.
Kui nende hulgas on selliseid, mis antud tunnuse puhul pole lubatud, siis saab
need sama filtreerimise võimalust kasutades üles leida ning vastavalt parandada
(vajadusel tuleb õige väärtuse teadasaamiseks otsida üles vastava objekti
mõõtmistulemuste leht või küsimustik!).
Jätan meelde!●
Tabelid varustatakse pealkirjadega
● Joonised allkirjastatakse
Tabelite pealkirjad ja
jooniste allkirjad vormindatakse soovitavalt
spetsiaalset tabeli- või joonise laadi kasutades.
Tabeli päis ja vajadusel ka esimene
veerg on soovitatav kujundada
erinevalt ülejäänud tabelist: näiteks võib päise-rea
tausta muuta
halliks või
fondi rasvaseks.
Ülevaade andmetest● Millise meetodiga saab kõige lihtsamalt ülevaate andmetest?
● Millal ja kuidas on statistiliselt korrektne oma uuringu tulemusi üldistada? ● Kas mõnikord on ainult tekst tulemuste esitamiseks parim viis?
● Mis on diagrammide eesmärk ja kuidas seda saavutada? Millist meetodit andmete analüüsimiseks kasutada?
● Andmeanalüüs algab küsimuse sõnastamisest andmete kohta.
N: „Kui suurel osal küsitlusele vastanutest on Facebooki konto?”
„Kuidas jagunevad spordipäeval saadud jooksutulemused?”
„Kas ja kui palju
hommikul ja õhtul mõõdetud õhutemperatuurid
erinevad?”
„Kas käitumise hinne on seotud hindega
klassijuhataja õpetatud aines?”
Andmete analüüsimisel ...
Pane tähele, et andmete analüüsi suunavad küsimused erinevad nii
uurimisküsimustest, mis suunavad uurimistööd
tervikuna , kui ka küsimustikus
vastajatele esitatud küsimustest!
●
Andmeanalüüsi tuleks alustada lihtsamate ühte tunnust korraga puudutavate
küsimustega, mis annavad andmetest
esialgse üldise ülevaate.
●
Pärast andmetest esialgsete kokkuvõtete ja ülevaadete tegemist on võimalik
asuda võrdlema ning
uurima ka erinevusi ja
seoseid .
Suunavad küsimused andmeanalüüsis
Näide: 10. klasside õpilaste seas viidi läbi internetikasutuse uuring.
Muuhulgas küsiti ka seda, kui sageli õpilased külastavad Facebooki portaali,
kusjuures vastamiseks anti viis vastusevarianti: mitu korda päevas; tavaliselt kord
päevas; küllalt regulaarselt, aga mitte iga päev; üsna harva, ebaregulaarselt; ei
kasuta üldse.
Andmete analüüsi suunavad küsimused:
Kui palju? Kui suur osa?
• „Kui suur osa õpilasi kasutab Facebooki iga päev?”
• „Kas ja kui palju leidub neid õpilasi, kes Facebooki üldse ei kasuta?”
• „Mis on kõige tüüpilisem kasutussagedus ehk millise vastusevariantidest on
valinud kõige suurem osa õpilastest?”
Sammud andmete analüüsimisel
●
Sõnastan konkreetsetest andmetest lähtuva küsimuse, millele tahan vastust
saada.
●
Valin püstitatud küsimusest lähtudes kasutada olevate andmete jaoks sobiva
analüüsimeetodi.
●
Tulemuste esitlemiseks valin andmete olemust ja tulemuste sisu parimal viisil
välja
toova ning sihtrühmale arusaadava ja esitluse kohale sobiva esitlusviisi
ning kujunduse.
SagedustabelIsegi kui esmane küsimus eeldab ainult ühe vastusevariandi e väärtuse
esinemissageduse leidmist, koostatakse arvuti abil analüüsi läbi viies mugavuse ja
analüüsi kompaktsuse tõttu üldjuhul vastava tunnuse kõiki väärtusi kokkuvõttev
sagedustabel, mis võiks
eelpool toodud näite 9 puhul välja näha selline:
Tabel 3. Facebooki külastuste sagedus.
Tabelite ja jooniste kasutamine tulemuste esitlemisel
Tabelid ja joonised (s.h.
diagrammid , skeemid, pildid) teevad
õige
kasutamise puhul uurimistöö kergemini
loetavaks ja
arusaadavaks. Kui
lihtsama tabeli või
skeemina teostatud joonise
saab tekitada otse tekstitöötlusprogrammi
(Google dokument, MS
Word, LibreOffice Writer ) sees leiduvaid tööriistu kasutades, siis
diagrammid ja pildid tuleb üldjuhul mõne teise tarkvaralahenduse
abil eelnevalt valmis teha ning alles seejärel tekstidokumenti
importida.
Tulemuste esitlemisel ...●
Tulemusi uurimistöö raportis kirjalikult esitledes tuleb arvestada, et igale
lisatud tabelile, diagrammile ja joonisele tuleb tekstiosas viidata ning tabelis
või
diagrammil olev sisu
seletatakse tekstiosas lahti.
●
Lahtiseletuseks ei sobi tabelis või diagrammil oleva
arvulise info üksühene
tekstina üleskirjutamine.
●
Tabelis või diagrammil olevate arvuliste tulemuste lahtiseletamisel uurimistöö
tekstis tuleks välja tuua
üldised tendentsid (nt üle poolte vastanutest
kasutavad portaali mitu korda päevas või ligikaudu 85% vastanutest kasutab
portaali vähemalt üks kord päevas) ning see,
mis on töö sisulises
kontekstis selle tulemi korral oluline ja mida tahetakse esile tõsta.
Tabelite korrastamine
Tabel 4. Internetikasutuse osakaal 2008. a erinevates riikides 6–17aastaste seas.
NB! Juhul kui tabelis toodud kategooriad
ei ole sisuliselt tähenduslikus
järjekorras, siis tuleks tabeli read
sageduste/osakaalude järgi ümber
järjestada (parempoolne tabel).
Jätan meelde!● Sagedustabel
loendab tunnuse väärtuste esinemissagedused.
● Tunnuse väärtuste jaotumisest ülevaatlikuma pildi saamiseks
lisatakse tabelisse ka
protsendid .
● Kui tunnuse väärtustel on
sisuline järjestus, siis tabeli ridu sageduste
järgi ei järjestata.
Tulemuste
esitlemine Statistilisi andmeid ja statistilise andmeanalüüsi arvulisi tulemusi saab esitada:
●
teksti sees toodud arvudena
●
tabelina
●
arvjoonise e diagrammina
Tulemuste esitlusviisi valik sõltub mitmest tegurist: nt, kas tulemusi esitatakse
paberil või suulises ettekandes, kes on sihtrühm ja mis on nende eeldatavad
teadmised uurimuse teemavaldkonnas ning statistiliste meetodite alal jms.
Esmatähtis on, et esitlusviis toetaks parimal viisil tulemuste sisust kiiret ja õiget
arusaamist ning oleks kompaktne.
Millal diagramm, millal tabel, millal tekst?
●
diagramm, kui soovid eelkõige anda kiiret ülevaadet
üldtendentsi(de)st ja
suundumus (t)est
●
tabel, kui on vajalik anda edasi täpset arvulist infot või kui
võrreldavate arvnäitajate suurusjärgud on väga erinevad
●
tekst, kui korraga on vaja esitada vaid üks-kaks arvulist näitajat
Millal sagedustena, millal protsentidena?●
Väikeste valimite korral on mõistlik tulemused esitada sagedustena.
●
Protsentide kasutamine võib lugejatele edastada kallutatud pildi andmetest e
tekitada ettekujutuse, nagu oleks uuritud isikute hulgas tegelikust rohkem
vastajaid .
Näiteks
esitades uuringu tulemusi sellisel kujul:
uuringus osales 17 inimest, kellest
23,5% olid teinud rahalisi annetusi eelmise aasta jooksul, on 23,5% taga tegelikult
vaid 4 inimest. Seega, korrektsem viis tulemuste esitamiseks oleks järgmine:
uuringus osales 17 inimest, kellest 4 olid eelmise aasta jooksul teinud rahalisi
annetusi. Soovi korral võib ülevaatlikkuse tõstmiseks sagedusele sulgudes lisada
osakaalu : uuringus osales 17 inimest, kellest 4 (23%) olid eelmise aasta jooksul
teinud rahalisi annetusi.
Jätan meelde!● Ühe või kahe arvulise näitaja esitamiseks kasuta teksti, mitte tabelit
ega
diagrammi .
● Kui vastajaid on alla saja, kasuta tulemuste esitamisel teksti sees
sagedusi. Kui vastajaid on üle saja, kasuta protsente.
● Küsitluste läbiviimise
tarkvara automaatselt koostatud analüüsi suhtu
ettevaatlikkusega ning mõtle läbi,
kas automaatselt genereeritud
tulem on alati parim viis andmeid esitada …?Erinevuste uurimine kasutades
sagedusi ja protsente● Kuidas võrrelda poiste ja tüdrukute eelistusi erinevate
firmade poolt toodetud telefonide osas?
● Võiksime küsida näiteks, millise firma telefone on poiste
hulgas kõige enam ja kas see langeb kokku tüdrukute
hulgas kõige
enamlevinud telefoni tootjaga.
● Selline küsimusepüstitus suunab meid leidma sagedusi ja
nendest lähtuvaid protsente võrreldavate gruppide lõikes.
Võrdlev sagedustabel e risttabel ● Tunnuse väärtuste jaotumise sageduste ning
protsentuaalsete osakaalude leidmiseks on kõige
otstarbekam kasutada sagedustabelit.
Kumma diagrammi valiksid - miks?Andmete kandmine tulpdiagrammileVäga levinud, kuid
sisuliselt mittesobiv viis on koostada võrdlev
tulpdiagramm võrreldavate gruppide tegelikest sagedustest, mitte
protsentuaalsest jaotusest. Samamoodi nagu ei ole ainult
sagedustega tabeli põhjal võimalik võrrelda kahe erineva
suurusega grupi tegelikke erinevusi, ei aita ka sagedusi kasutav
tulpdiagramm gruppide võrdlemisel erinevustest täpset pilti saada.
Joonisel 15 võime näha, et kõik tüdrukute vastuseid
esitavad tulbad on poiste omadest kõrgemad – see on tingitud sellest, et
tütarlapsi osales uuringus rohkem.
Andmetabel tulpdiagrammi koostamiseks ● Lisame võrreldavate gruppide tegelikele sagedustele
protsendid ja vaatame, kas võrdlemine muutub
lihtsamaks?
Tulpdiagrammi koostamisest ●
Kui tulpasid kirjedavad tekstid on pikad, siis paigutub tekst tavaliselt
automaatselt nii, et seda on ebamugav lugeda, nt kaldu või üksteise alla.
Et parem lugeda oleks, tuleks tulpdiagrammi teljed ära vahetada (vt Näide 2)
●
Tulpade järjestamiseks kahanevasse või kasvavasse järjekorda järjestame
read sagedustabelis vastavalt sageduste kahanemise või kasvamise
järjekorda.
●
Üldjuhul peaks õige visuaalse ülevaate saamiseks skaala
teljel algama 0-st.
●
Skaala jaotusühikud moodustatakse automaatselt meie sisestatud väikseima
ja suurima teljel kuvatava väärtuse järgi. Soovi korral saab neid ka muuta.
Jätan meelde!● Protsentidena väljendatud erinevuste illustreerimiseks sobib
võrdlev tulpdiagramm.
● Korrektses võrdlevas
tulpdiagrammis moodustavad iga üksiku
võrreldava grupi väärtused kokku 100%. Antud juhul
moodustavad 100% nii poiste kasutatavad
telefonid kokku kui
ka tüdrukute kasutatavad telefonid kokku.
Tulpdiagramm - näide 2KihtdiagrammKui võrreldavaid gruppe on rohkem kui kaks, läheb tavaline võrdlev
tulpdiagramm üsna kirjuks ja seega raskesti arusaadavaks.
Lahenduseks on kasutada kihtdiagrammi. Kihtdiagrammis
(ingliskeelses tarkvaras: 100% Stacked Bar) esitatakse iga
võrreldava grupi kohta üks
tulp , mis on jagatud võrdluse aluseks
oleva tunnuse väärtuste protsentuaalse osakaalu järgi kihtideks,
mis kokku moodustavad 100%.
Kihtdiagramm e lintdiagramm Sektordiagramm ●
Terviku
jaotumist osadeks kirjeldatakse tihti sektordiagrammi abil, milles kõik
kategooriad kokku moodustavad 100% ning mis toob selgelt välja iga
kategooria osa tervikust.
Joonis 7. Sektordiagramm
Sektordiagrammi puhul jätan meelde!●
Ei kasuta kujundusviisi, kus kõik
sektorid on üksteisest “lahti lõigatud”, sest
see vähendab diagrammi ülevaatlikkust! Sektori väljatõstmist kasutatakse
siis, kui üks sektoritest on tulemuste kontekstis teistest olulisem või kesksem
ning seda soovitakse seepärast rõhutada ning esile tõsta. Üldjuhul ei tõsteta
siis välja kõige suuremat
sektorit .
●
Soovituslikult võiks ühel
sektordiagrammil olla 3–9 sektorit.
Liiga paljude sektorite esitamine ühel diagrammil vähendab ülevaatlikkust.
Vajadusel ühenda väiksemad sektorid ühiseks sektoriks „Muu”, mis
paigutatakse diagrammil
viimaseks .
Sektordiagrammi puhul jätan meelde!● Kolmemõõtmelisus loob olukorra, kus
eespool asetsevad sektorid
tunduvad
visuaalselt suuremad kui
tagumised , mistõttu on mõistlik
seda kujundusviisi vältida.
● Üldjuhul ei esitata ühel graafikul korraga sagedusi ja protsente, sest
liigne
numbrite rohkus võib segada andmetest kiire ja ülevaatliku
ettekujutuse saamist. • Sektorite värvi muutmiseks vali sektorid ühe
kaupa (vali sektorid ning seejärel klõpsa konkreetse sektori peal) ja
muuda nende värvi.
Joondiagramm Joondiagrammi kasutame peamiselt trendide e ajas
toimuvate muutuste välja toomisel.
● õpilasfirma kasum kuude lõikes
● sademete hulga muutumine aastate lõikes
● temperatuuri kõikumine jne
JoondiagrammKasutatud allikadLaanpere, M., & Niglas, K., & Osula, K., &
Pata , K., (2013).
Informaatika valikaine
e-õpik gümnaasiumile “Arvuti kasutamine uurimistöös”. Loetud aadressil
http://aku.opetaja.ee/wp-content/uploads/2013/05/AKU_opikv10.pdf
Kõik kommentaarid