Laura-Ly
LotamõisANDMETE
KOGUMISE JA ANALÜÜSIMISE VIISIDKODUTÖÖ
Õppeaines:
UURIMISMEETODITE ALUSED
Rõiva-
ja tekstiiliteaduskond
Õpperühm:
RR 11
Juhendaja :
Merje Beilmann
Esitamiskuupäev:……………..
Allkiri :……………...
Tallinn
2014
Sisukord
Sissejuhatus
Andmete
kogumise ja analüüsimise viise on mitmeid – tihti räägitakse
(ehk pisut liialt üldistades) kvantitatiivsest ja kvalitatiivsest
metoodikast. Andmete kogumisest rääkides eelistan sõnapaarile
kvantitatiivne – kvalitatiivne kasutada
sisult konkreetsemaid
märksõnu: struktureeritud ja struktureerimata andmekogumise
instrumendid ja/või andmed. Struktureeritud instrumendi tüüpilise
näitena võib ette kujutada üht tavapärast ankeeti, kus vastajale
on ette antud nii küsimused kui ka võimalikud
vastuste variandid,
mille hulgast ta vastavalt juhendile sobiva(d) välja peab
valima ;
struktureerimata andmekogumise tüüpilise näitena võib ette
kujutada avatud intervjuud, mis sarnaneb vabale vestlusele, kus
intervjueerija ei esita konkreetseid lühivastust eeldavaid
küsimusi ,
vaid suunab intervjueeritavat teatud
teemadest rääkima, esitab
kuuldu põhjal täpsustavaid küsimusi ning julgustab teda oma
mõtteid põhjalikult lahti seletama ja põhjendama. Loomulikult võib
ette kujutada ka vahepealset
varianti , kus vastajale esitatakse kas
kirjalikult või suuliselt vastamiseks avatud st ilma
vastusevariantideta, kuid küllalt konkreetseid küsimusi, millele
eeldatakse
vastaja oma tõlgendusest lähtuvat, kuid siiski
suhteliselt lühidat vastust. Sellisel juhul võiks rääkida
poolstruktureeritud andmekogumise instrumendist.
Käesolevas
õppematerjali osas keskendume struktureeritud andmete töötlemiseks,
esmaseks analüüsiks ja esitlemiseks sobivatele statistilistele
meetoditele. Samas ei ole andmete
analüüsimiseks sobivate meetodite
valikul määravaks mitte niivõrd see, mis kujul on esialgsed
andmed, kuivõrd andmete kohta
esitatavate küsimuste olemus. Seega,
võib praktikas osutuda vajalikuks struktureerimata andmete selline
töötlemine, mille käigus andmetele ”
luuakse ” sobiv struktuur
kodeerimise teel, misjärel saab tekkinud struktureeritud andmeid
edasi analüüsida muuhulgas ka statistiliste meetoditega.
Käesolevat
materjali täiendab praktiliste näidete ja harjutusülesannetega,
kuid ka mõningate õppematerjali raamesse mitte mahtuvate teemade
ülevaatliku käsitlusega, loengukursuse aluseks olev slaidiprogramm.
Tekstipõhises
materjalis toodud
diagrammid on kujundatud
selliselt ,
et nad
oleksid
korrektselt loetavad ka must-valge trüki puhul, mistõttu on
välditud erinevate värvide kasutamist ning eelistatud
halle toone.
Loomulikult võib diagrammide kujundamisel kasutada ka rõõmsamaid
värve, mis aitavad sisu emotsionaalsemalt ja seeläbi
meeldejäävamalt esitada. Näiteid ja juhiseid diagrammide
kujundamise kohta leiad
eelpool mainitud slaidiprogrammist.
Mis on statistika ning kuidas oma andmed ja mõtlemine statistilise analüüsi läbiviimiseks ette valmistada?
On
olemas kolme tüüpi valesid: valed, alatud valed ja statistika
(Disraeli).
Tõepoolest ,
kasutades statistilisi meetodeid aru saamata nende sisust või siis,
halvemal juhul, arvestades kuulajate /lugejate asjatundmatust, on
statistika abil valet vanduda küllalt lihtne. Kuid kas selles on
õige süüdistada statistikat? Paljud statistika õpikud algavad
lubadusega, et lugejad ei pea matemaatikast rohkem teadma, kui oskama
lihtsalt liita, lahutada, korrutada ja jagada ning asendada toodud
valemites tähed õigete numbritega. Sellegi poolest on lugejad, kes
pole kõrgema matemaatikaga kokku puutunud, päris kohkunud nähes,
et suurem hulk lehtedest on täidetud valemite, võrrandite ja arvutustega . Pahatihti osutuvad arvutuslikud üksikasjad niivõrd
aega ja tähelepanu nõudvateks, et lugejad unustavad sootuks üldised
ideed, mida need arvutused illustreerima peaks. Sellise olukorra
vältimiseks ei pöörata kogu järgnevas käsitluses tähelepanu
mitte niivõrd valemitele ühe või teise statistiku arvutamiseks kui
püütakse selgitada statistiliste ideede (kontseptsioonide) ja
meetodite olemust ning kasutusvaldkondi sõnade, näidete ja jooniste
abil.
Statistiline mõtteviis. Kirjeldav ja üldistav statistika. Üldkogum ja valim.
Statistiline
mõtteviis on meile kõigile igapäevasest elust tuttav ja omane.
Võtame ühe lihtsa näite: ma ütlen teile, et lähen täna
teatrisse kahe kolleegiga, kusjuures üks neist on 190 cm pikk ja
teine 165 cm pikk. Millise järelduse te võite kummagi kolleegi soo
kohta kõige kindlamini teha, kui teil rohkem mingit informatsiooni
ei ole?
*
* *
Ma
arvan, et te võisite päris veendunult väita, et üks mu
kolleegidest, 190 cm pikkune , on mees ja teine, 165 cm pikkune, on
naine. Loomulikult võisite te eksida, kuid teil on igapäevasest
elust kogemus, et 190 cm pikkuseid naisi on küllalt vähe. Muidugi
ei ole te näinud kõiki mehi või kõiki
naisi
ning te olete märganud, et paljud naised on paljudest meestest pikemad ; kuid ometi võite te nähtud meeste ja naiste põhjal
küllalt julgelt teha üldistuse ja väita, et üldiselt on mehed
pikemad kui naised. Niisiis , enama informatsiooni puudumisel, tundub
teile väga tõenäoline, et pikk täiskasvanu on mees ja lühike on
naine.
Selliseid
lihtsaid näiteid statistilise mõtteviisi kasutamisest võib tuua
veel mitmeid. Iga kord, kui te kasutate fraase nagu: “Viimasel ajal
olen käinud kinos keskmiselt kaks korda kuus” või “Naised on
üldiselt jutukamad kui mehed” või “Mida varem sa kordama hakkad, seda paremini sul eksamil läheb”, teete te statistilise
avalduse, kuigi te ei ole sooritanud ühtegi arvutust . Esimeses
näites on tehtud kokkuvõte varasematest kogemustest. Teises ja
kolmandas näites on aga varasemaid kogemusi üldistatud ning tehtud
järeldus tuleviku või vaadeldust laiema sihtrühma kohta.
Tihti,
s.h akadeemiliste uuringute läbiviimise raames, on meil aga vaja
kirjeldada mingeid nähtusi või nähtuste vahelisi seoseid palju
täpsemini, kui me seda teeme igapäevases vestluses. Oma
tähelepanekute põhjal kujunenud oletuste (statistilises sõnastuses
HÜPOTEESIDE) kinnitamiseks peame me läbi viima uuringu, mis
sisaldab süstemaatilist ANDMETE kogumist antud nähtuse kohta 2 ,
kogutud andmete töötlemist, analüüsimist ning põhjendatud
järelduste tegemist.
Lihtsamal
juhul, kui meil on olemas meid huvitava sihtgrupi iga liikme kohta
andmed ning me saame eeldada, et mõõtmistulemused on täpsed, s.t
ei sisalda süstemaatilisi ega ka juhusest tingitud vigu, saame
statistiliste meetodite abil oma andmed kokku võtta ja teha uuritud
grupi kohta järeldusi, mille paikapidavuse kindluses ei ole vaja
kahelda. Nii võime näiteks peale lastevanemate küsitluse tulemuste
kokku võtmist väita, et küsitluses osalenud lastevanematest
[täpselt] 135 (62%) nõustus sellega, et erivajadustega õpilased
peaksid õppima erikoolis, mitte tavakooli klassides.
Samas
tuleb osata aru saada, et statistilise maailmavaate keskseks mõisteks
on TÕENÄOSUS, s.t statistika ei anna meile alati 100% kindlust andmete põhjal tehtud järeldustes, vaid lubab määrata, kui suur
on võimalus ühe või teise sündmuse toimumiseks, meie poolt tehtud
järelduse paikapidavuseks, jms. Statistiline mõtteviis on
mõistmine, et meie vaatlused (mõõtmised) ei ole alati täiesti
täpsed ning, et meie oletus ( hüpotees ) ning ka andmete põhjal tehtav järeldus võib kehtida näiteks 95-l (või 99-l) juhul
100-st, kuid mitte 100-l juhul 100-st. Näiteks laps, kelle pikkuseks
me oleme mõõtnud 162 cm, ei pruugi olla täpselt nii pikk, sest
meie mõõteriist ei ole absoluutselt täpne ja me teeme oma
tulemustes ümardusi. Seega võib tema pikkus olla kuskil 161,75 cm
ja 162,25 cm vahel, kuid mitte täpselt 162 cm. Kui me kasutame
olemasolevaid vaatlusandmeid järelduste tegemiseks teiste (mitte
mõõdetud) objektide kohta, näiteks juhul, kui me tahame ennustada
ühes klassis käivate laste mõõtmisel saadud keskmise pikkuse
põhjal teises klassis käivate laste keskmist pikkust, siis on meil
võimalus eksida veel palju suurem.
Seetõttu
ei saa me oma järeldustes olla alati täiesti täpsed, kuid
statistika võimaldab meil määrata võimalike vigade ulatuse ning
seda oma järeldustes arvesse võtta. Nii saame vea arvutamiseks
õigeid meetodeid kasutades teatud (piisavalt suure) tõenäosusega
väita, et lapse pikkus on näiteks vahemikus 162 ± 0,25 cm; ning
võime arvutada, et näiteks 99-l juhul 100-st jääb laste keskmine
pikkus teises klassis vahemikku 162 ± 3 cm.
Statistika
pakub meetodeid väga erinevate küsimuste lahendamiseks ning
statistilisi meetodeid võib mitmeti rühmitada, kuid enamuses
statistika käsitlustes tõmmatakse selge piir kahe statistika
valdkonna vahele:
1.
KIRJELDAV STATISTIKA, mis pakub meetodeid ( vaatlus ) andmetest
kokkuvõtete tegemiseks ja olemasolevate andmete kirjeldamiseks ning
2. ÜLDISTAV STATISTIKA, mis kasutab kogutud (vaatlus) andmeid baasina
hinnangute ja prognooside tegemiseks (veel) mitte vaadeldud
situatsioonide ning kogumite kohta.
Vaatame
veelkord neid lauseid igapäevasest elust, mida ma eelpool mainisin.
Milliseid nendest on “ kirjeldavad ” ja millised “üldistavad”
kui silmas pidada ülal mainitud tähendust?
∗ “Viimasel
ajal olen käinud kinos keskmiselt kaks korda kuus”
∗ “Naised
on üldiselt jutukamad kui mehed”
∗ “Mida
varem sa kordama hakkad, seda paremini sul eksamil läheb”
Esimene
lause on kirjeldav, teine ja kolmas aga ei piirdu vaid otseselt
kogetu kokkuvõtmisega ja teevad üldistuse või ennustuse tuleviku
kohta. Selline kahe statistika valdkonna eristamine on tihedalt
seotud kahe väga tähtsa mõistega (statistikas): VALIM ja ÜLDKOGUM .
Üldkogumi
(ehk populatsiooni) all mõeldakse kõiki juhtumeid või
situatsioone, mille kohta uurijad soovivad, et nende poolt saadud
järeldused, oletused või prognoosid kehtiksid. Näiteks võivad
erinevate valdkondade esindajad tahta teha järeldusi (kõigi)
valgete hiirte õppimisvõime kohta; ära arvata erinevatel eksamitel
läbipääsevate õpilaste (üld)arvu; ennustada viljasaaki (kõigil)
uue väetisega väetatavatel põldudel; uurida (kõigi) Tallinna
koolilaste õpimotivatsiooni jne. Nagu te näete, ei mõelda
üldkogumi all mitte ainult inimesi, vaid üldkogumi võib moodustada
mistahes meid huvitavate sarnaste objektide hulk.
On
aga selge, et tegelikus elus ei ole tihti võimalik vaadelda (mõõta,
loendada, küsitleda jne.) kõiki meid huvitavaid objekte. Seepärast
peab uurija välja valima suhteliselt väikese osa üldkogumist, et
selle põhjal teha järeldus kogu üldkogumi kohta. Sellist
uurimiseks valitud (suhteliselt väikest) objektide gruppi
nimetataksegi VALIMIKS. Näiteks psühholoog, kes uurib valgete
hiirte õppimisvõimet, loodab, et saavutatud tulemused ning seega ka
järeldused kehtivad kõigi valgete hiirte puhul - mitte ainult
praegu olemasolevate, vaid ka veel sündimata hiirte puhul ning ta
võib isegi loota, et tema tulemusi võib sedavõrd üldistada, et
need selgitaks inimese õppimist.
Seega,
paljud uurijad ületavad kättesaadava informatsiooni piiri: nad
üldistavad tulemusi valimilt üldkogumile, nähtult ja kogetult
mittenähtule ja mittekogetule. Tulles tagasi kirjeldava ja üldistava
statistika mõistete juurde, võime öelda, et kirjeldav statistika
tegeleb valimi kohta saadud andmete resümeerimise ja kirjeldamisega,
üldistava statistika ülesanne on aga järelduste tegemine laiema
objektide hulga - üldkogumi – kohta ja/või mõõtmisel tekkiva
juhusliku vea hindamine.
Praktikas
võib muidugi tulla ette ka olukord, kus uurijat huvitav sihtrühm on
suhteliselt väike (või uurimiseks eraldatud ressursid väga suured)
ning ta suudab vajalikud andmed koguda (praktiliselt) kõigi rühma
liikmete kohta. Sel juhul räägitakse kõiksest uuringust või
juhtumianalüüsist, ning eeldades, et andmekogumise meetodid on
olnud sellised, mille puhul mõõtmisinstrumendist tingitud juhusliku
vea arvestamine ei ole tähtis, võib vajalike järelduste tegemiseks
piirduda vaid kirjeldava statistika meetoditega. Kuna sisehindamise
puhul on ilmselt valdavalt tegemist just viimase olukorraga, siis piirdub antud peatükk kirjeldava statistika meetodite
tutvustamisega.
Statistiline andmestik. Andmete e tunnuste tüübid.
Vastavalt
sellele, mida me uurida tahame, koosneb meie valim kas üksikutest
inimestest, koolidest , valgetest hiirtest , kalendrikuudest, mingitest
toodetest, kartulipõldudest või millest tahes. Kõiki valimisse kuuluvaid indiviide või üksusi, kelle/mille käest või kohta
andmeid kogutakse, nimetatakse statistikas OBJEKTIDEKS. Kõigil ühte
valimisse kuuluvatel objektidel on mingid ühised omadused e
TUNNUSED, mis meid huvitavad, näiteks: värvus, vanus, hind, kaal,
arvamus millegi suhtes, jne 3. Andmeid koguma asudes , sõnastame meid
huvitavate tunnuste kohta küsimusi (nt ”Kui vana te olete?”,
”Kas teie koolis on sisehindamist varem läbi viidud ?”) ja viime
läbi vajalikud mõõtmised ning eeldame, et andmete kogumise käigus
saame iga valimi liikme kohta kõik vastused ehk statistika
terminoloogiast lähtudes: VÄÄRTUSED. Väärtused on need, mis
aitavad meil objekte üksteisest eristada: mõned objektidest on ühte
värvi, mõned teist; mõned on naised, teised mehed; mõned on
kallimad, teised odavamad, jne.
Oletame
näiteks, et teie laps hakkab kooli minema ning teil on vaja välja
valida kõige sobivam kool. Millised on need tunnused, mille põhjal
te oma valiku teeksite ehk milliseid andmeid te tahaksite erinevate
koolide kohta teada, et neist endale sobivaim välja valida?
*
* *
Toon
mõned küsimused, mis võiksid minu jaoks olulised olla. Teie
nimekiri võib olla pikem või lühem, sisaldada osasid toodud
küsimustest või kõiki, jne.
∗ Mis
tüüpi kooliga on tegu? (algkool, 9-klassiline kool, 12-klassiline
kool)
∗ Kui
kaugel on kool kodust?
∗ Kuivõrd mugavalt ja turvaliselt on lapsel võimalik kodust kooli jõuda?
(koolibuss, ühistranspordi vahend ilma ümber istumiseta, vahetades
teel ühistranspordi vahendit, jalutuskäik läbi metsatuka, jne)
∗ Milline
on kooli maine? (väga hea, hea, rahuldav, halb, väga halb)
∗ Kas
on tegu tavalise riigikooliga, erakooliga, või eri(lise)kooliga (nt
spordikool)?
∗ Millised
huviringid koolis tegutsevad? (laulukoor, korvpalli trenn,
kunstiring, jne)
∗ Mitu
paralleelklassi avatakse?
∗ Kui
suured on selles koolis klassid? (väikesed, keskmised, suured)
∗ Mis
on õpetajate keskmine vanus selles koolis?
∗ Kas
koolis on juurutatud kvaliteedikindlustussüsteem? (jah, ei)
Olles
kõne alla tulevate koolide kohta andmed kokku kogunud , tuleb
järelduste ja otsuste tegemiseks andmeid analüüsida. Lihtsamal
juhul, kui teil on andmeid vähe (antud juhul siis vaid mõne kooli
kohta), piisab sellest, et vaatate kõik andmed üle, mõtlete pisut
ja jõuategi otsusele st analüüs toimub ilma formaalseid meetodeid
kasutamata. Kui aga andmeid on rohkem, siis on mõistlik andmetest
ülevaate saamiseks neid mõne sobiva meetodi abil kokku võtma
hakata. Nii võib nt peale ankeetküsitluse läbiviimist hakata
vastuseid kokku võtma ankeete ükshaaval (korduvalt) läbi lapates
ning erinevaid vastuseid loendades. Fragment sellise analüüsi
tulemustest võiks välja näha alljärgnevalt:
Lapse toetamine ja järelaitamine õpetaja poolt?
väga
rahul IIIII IIII IIIII IIII IIIII IIII IIIII IIII 9
pigem
rahul IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII 15
pigem
rahulolematu IIIII I IIIII I IIIII I IIIII I 6
väga
rahulolematu IIIIIIII 2
Arvamus
puudub III III III III 3
Kokku 35 lapsevanemat
Selline
tulemuste käsitsi kokku võtmine ja analüüsimine on aga väga aja-
ja töömahukas ning jõuab väga harva lihtsast vastuste kokku
lugemisest sügavama analüüsini, mille käigus võiks uurida nt ka
erinevusi vastajagruppide vahel, arvamuste omavahelist seotust või
arvamuste seotust mõnede teiste näitajatega, arvamuste erinevusi
eelmiste aastate tulemustega võrreldes, jms. Seetõttu on enne analüüsima asumist mõistlik andmed sisestada andmetabelisse
kasutades selleks mõnd „ruudulise“ töölehega programmi (nt MS
Excel, OpenOffice.org Calc, Statistica, SPSS, jne) ning kasutada
andmete analüüsimisel arvuti abi. Viimane päästab meid korduvast
ja aeganõudvast andmete loendamisest ning võimaldab kiiresti ja
mugavalt kasutada samu andmeid uute sisuliste analüüsiküsimuste
vastamiseks.
Algandmetest
andmetabelit koostades tuleb eelkõige meeles pidada, et õige
andmetabel peab olema „askeetlik“ st hästi lihtsa ja alati
samasuguse põhistruktuuriga: iga objekt saab endale tabelis ühe
rea, iga tunnus omale ühe veeru ning iga väärtus ühe lahtri. Toon
kaks näidet andmetabelitest, mis on mõlemad korrektse
ülesehitusega, kuigi esimese puhul on tegu kooliõpilaste ning
teisel puhul professionaalide poolt koostatud tabeliga.
Tabel
1
Näide
kahest andmetabelist
Mugava
ja paindliku analüüsi tagamiseks tuleb andmetabeli koostamisel
arvestada veel mitmete reeglitega, millest olulisemad on järgmised:
∗ Igale
tunnusele/veerule antakse nimi, mis peab olema unikaalne st teistest
erinev ning suhteliselt lühike, sest pikkade nimede puhul võtab
õigete tunnuste otsimine analüüsi käigus väga palju aega; ei
kasutata mitut veergu ühendavaid pealkirju jms!
∗ Igas
lahtris tohib olla ainult üks väärtus e üks ühik infot st mitut
vastust ühte lahtrisse sisestada ei tohi! Seega, kui ühe ankeedi küsimuse puhul on vastajal lubatud valida mitu vastusevarianti,
annab iga variant andmetabelis eraldi tunnuse/veeru.
∗ Professionaalid
väldivad andmete sisestamist tekstidena ning kasutavad selle asemel
vastusevariantide kodeerimist, sest nii hoitakse kokku aega,
välditakse sisestusvigu ning hiljem on võimalik andmeid
paindlikumalt analüüsida (PS! ilma kodeerimiseeskirja teadmata ei
ole sellist andmestikku sisuliselt võimalik analüüsida;
professionaalsed arvutiprogrammid lubavad kodeerimiseeskirja
sisestada koos andmetega ja oskavad seal olevaid kirjeldusi ka
kasutada)
∗ Ühes veerus tohivad olla ainult üht tüüpi andmed st kui on otsustatud
tunnuse sõnaliste väärtuste asemel kasutada arvulisi koode, siis
arvude vahele muid sümboleid ei sisestata; puuduva vastuse/ väärtuse
jaoks mõeldakse välja sobiv arvuline kood või jäetakse vastav lahter lihtsalt tühjaks. Kui nüüd uuesti meelde tuletada meie
kümmet kooli valikuks olulist küsimust ja kujutleda, et nende
andmete põhjal oleks vaja koostada andmetabel, siis, mis oleks
tunnuste/veergude arv selles tabelis? * * *
Ega
päris täpset vastust selle küsimusele ei saagi anda, kuna osade
küsimuste puhul pole vastusevariantide nimekiri lõplikuna ette
antud, aga igal juhul on kindel, et kogu infot ei saa ära mahutada
kümnesse veergu, kuna 3. ja 6. küsimuse puhul võib ühe kooliga
olla seotud rohkem kui üks vastus, mis viitab vajadusele moodustada
andmestikku nende küsimuste jaoks rohkem kui üks tunnus.
Kui
nüüd eeldada, et andmestik sai korrektselt koostatud ja andmed
sisestatud, siis võiks järgmise sammuna asuda andmeid analüüsima.
Selleks on vaja kõige pealt välja mõelda ja enda jaoks selgelt
sõnastada küsimused, millele me analüüsi käigus vastuseid saada
tahame! Viimane on vajalik selleks, et otsustada, milline meetod on
antud olukorras kõige sobivam. Pane tähele, et siin räägime nüüd
hoopis teistlaadsetest küsimustest kui olid ankeedis; nt ankeedi
küsimus võib olla selline „Kuivõrd olete rahul tunni
distsipliiniga?“, analüüsi eeldav küsimus aga „Kui suur osa
vastanutest oli tunni distsipliiniga rahul ning kui suur osa mitte?“
või „Kas tüdrukute vanemad oli tunni distsipliini suhtes
rahulolematumad kui poiste vanemad?“.
Sageli
on aga analüüsi suunava küsimuse täpsest sõnastamisest õige analüüsimeetodi valikuks vähe. Kuna andmed võivad olla väga
erineva iseloomuga, siis tuleb meetodi valikul ka seda arvesse võtta;
nt kui küsida, „Kas tüdrukute ja poiste testitulemused erinevad?“
või siis „Kas poiste ja tüdrukute hobid erinevad?“, on küsimuse
tüüp täpselt sama (meid huvitavad kahe grupi vahelised
erinevused), kuid vastuse saamiseks sobiv analüüsimeetod on üsna
kindlasti erinev, sest esimesel juhul on tegemist arvuliste
andmetega, millest on lihtne arvutada nt keskmine testitulemus poiste
jaoks ning võrrelda seda siis tüdrukute keskmise testitulemusega,
kuid tüdrukute ja poiste keskmist hobi arvutada pole eriti mõistlik
ega mõttekas! Seega, tuleb teisele küsimusele vastuse saamiseks
leida mõni teine analüüsi meetod.
Andmete
tüüpidest rääkimiseks tuletame meelde ülaltoodud kümme küsimust
koolide kohta ning püüame koos mõelda, mille poolest võiks
sellistele küsimustele vastustena saadavad andmed omavahel erineda?
*
* *
Kas
panite tähele, et osad oodatavatest andmetest on esitatavad sõnadena
(nt „erakool“, „väga hea“, „jah“, „kunstiring“ jne)
ning teised arvudena (nt 5 km, 3 paralleeli, 41 aastat jne)? Selline
andmete jagamine sõnadeks ja arvudeks on algatuseks väga hea, sest
nii saame juba esimese vihje sobivate meetodite kohta: ilmselt on
küsimatagi selge, et kui andmeteks on sõnad, siis ei ole analüüsi
käigus mõistlik ega ka lubatud kasutada päris kõiki arvutustel
põhinevaid meetodeid, mis mõeldud arvuliste andmete analüüsiks.
Kuid mõelda tuleb osata ka vastupidi: mitte iga meetod, mis võib
olla andmetest ülevaate saamiseks mugav ja otstarbekas sõnaliste
väärtustega andmete puhul, ei pruugi osutuda mõistlikuks
arvandmete analüüsimisel.
Andmete kirjeldamine ehk kuidas saada kogutud andmetest paremat ülevaadet?
Tabelid ja diagrammid
Eeldame
nüüd, et oleme andmete kogumise ja korrastamise etapid läbinud ja
saame alustada andmete analüüsimist. Esimesed küsimused andmete
kohta on eeldatavasti üsna lihtsad, sest kõigepealt on vaja
andmetest saada üldine ülevaade. Võtame ühe lihtsa näite: kool
viis läbi uurimuse, kus üheksandate klasside õpilaste käest
küsiti muuhulgas ka seda, millist transpordi liiki nad kooli
jõudmiseks kasutavad.
Esmased
analüüsi eeldavad küsimused võiks olla nt sellised: „Mis on
kõige tüüpilisem viis kooli jõudmiseks?“, „Kui suur osa
õpilasi tuleb kooli jalgsi ?“, „Milliseid transpordi liike üldse
kasutatakse ja kui suur on iga transpordivahendit kasutavate õpilaste
osakaal?“.
Kõik
need küsimused eeldavad vastamist kaht tüüpi küsimustele: kui
palju? või kui suur osa? mis eeldab erinevate vastutuste e väärtuste
esinemissageduse leidmist e loendamist. Seega, tuleb meil koostada
SAGEDUSTABEL, mis võiks antud näite puhul välja näha selline:
Tabel
2
Kooli
jõudmiseks kasutatavad transpordivahendid
Sellest
tabelist saab üsna mugavalt vastused mõnedele ülal välja toodud
küsimustele, kuid kas me oskame kiiresti hinnata nende tulemuste
põhjal ka jalgsi kooli tulevate laste osakaalu või kui kerge on
näha, milliseid transpordi liike kasutatakse rohkem ja milliseid
vähem?
*
* *
Kuna
andmeid on vähe ja osakaalu hindamiseks vajalikud arvutused
suhteliselt lihtsad, siis saab muidugi vastused ka nendele
küsimustele üsna kiiresti teada, aga kas oleks ehk võimalik
andmetest ülevaate saamine lihtsamaks teha? Vaatame alljärgnevat
sagedustabelit:
Tabel
3
Kooli
jõudmiseks kasutatavad transpordivahendid
Tõepoolest,
kuna osakaal portsentides on siin selgelt välja toodud ning tabel
transpordi liikide esinemissageduse järgi sorteeritud, siis on
andmetest ülevaate saamine ning oma küsimustele vastuste leidmine
kiirem ja lihtsam kui eelmise tabeli põhjal. Kui nüüd peaks neid
tulemusi ka teistele esitlema, siis võiks veelgi sobivaima meetodid
üle edasi arutleda ning mõelda, et tabeli asemel võib tulemused
esitada ka visuaalselt st diagrammina. Koostame toodud andmetest nt
TULPDIAGRAMMI, kus iga tulba kõrgus on proportsionaalne vastavasse
kategooriasse kuuluvate õpilaste arvuga:
Joonis
1. Kooli jõudmiseks kasutatavad transpordivahendid
Keskmist tendentsi ja hajuvust väljendavad arvnäitajad.
Nagu
eelmises alalõigus mainitud, on mõnes olukorras andmete
analüüsimiseks sagedustabelite kõrval või koguni nende asemel
sobilikum kasutada arvnäitajaid. Eriti kerkib see vajadus esile, kui
tegeleme arvutunnustega, millel on palju erinevaid väärtusi, nagu
näiteks andmed palkade või testitulemuste kohta.
Suurem
osa arvnäitajatest ongi mõeldud kasutamiseks arvutunnuste korral,
kuid leidub ka selliseid, mida saab kasutada järjestustunnuste või
koguni nimitunnuste puhul. Vaatame uuesti näidet, kus meil olid
andmeteks 50 õpilase testitulemused. Jätame seekord andmete koondamise vahemikesse tegemata ja vaatleme tulemusi
üksikväärtustena. Parema ülevaate saamiseks JAOTUSEST e sellest,
milliseid tulemusi/väärtusi kui palju on, võime tulemused
järjestada kasvamise või kahanemise järjekorda saades niimoodi VARIATSIOONIREA .
Sõitsin
reede õhtul taksoga mööda Pärnu maanteed kesklinna poole.
Taksojuht vaatas hiljuti teeremondi läbinud uut teed ja kommenteeris vaikselt , et endise kahe asemel ainult üks sõidurada jäetud –
siin hakkavad suured ummikud olema.
[1]
Kokkuvõte
Käesolev peatükk algas tõdemusest, et uuringuid ei saa tihti läbi viia ilma
meid huvitavate protsesside kohta andmeid kogumata. Andmete analüüsi
tulemus saab aga usaldusväärne olla vaid juhul, kui kogutud andmete
kvaliteet on kõrge. Seepärast tuleb juba enne andmete kogumist
hoolikalt läbi mõelda, millistele küsimustele me andmete põhjal
vastuseid tahame saada ning millisel viisil on kõige otstarbekam
antud eesmärgist lähtuvalt andmeid koguda. Andmete kogumise
instrumenti (nt küsimustikku) koostama asudes tuleb järgida lisaks
sisulistele aspektidele ka tervet rida tehnilisemat laadi nõudeid ja
põhimõtteid, mis aitavad tagada olukorra, kus vastaja motivatsioon
sisuliselt õiget informatsiooni anda andmete kogumise käigus pigem
tõuseb kui langeb ning kus nii vastaja kui andmete töötleja poolt
kogemata tehtavate vigade võimalus on viidud miinimumini. Mugava
paindliku ja sügavuti mineva analüüsi tagamiseks on peale andmete
kogumist mõistlik andmed sisestada arvutisse koostades lihtsa kuid
põhireegleid järgiva struktuuriga algandmete tabeli. See esialgu
ehk mõttetuna näiv lisatöö ja -aeg, mis kulub andmetabeli koostamiseks ja andmete sisestamiseks arvutisse, tasub end
mitmekordselt ära andmete analüüsi etapis , kus andmete käsitsi
kokku võtmine on väga ajamahukas isegi väikeste andmestike korral,
kuid kus korraliku andmetabeli põhjal on arvuti abil mõne hetkega
võimalik saada ülevaade oma andmetest mitme eri nurga alt ning
leida vastused paljudele huvitavatele küsimustele.
Tsiteeritud teosed
[1]
T. Tammert , „Mu unelmate Tallinn,“ Postimees , 30 september 2014. [Võrgumaterjal]. Available: http://arvamus.postimees.ee/2937571/triin-tammert-mu-unelmate-tallinn . [Kasutatud 30 september 2014].
Kõik kommentaarid