Vastus leiad õppematerjalist: Andmeanalüüs: Faili vormistamine

Andmeanalüüs: Faili vormistamine (0)

Tallinna Tehnikaülikool - Infoteadus - andmeanal��s

5 VÄGA HEA

Esitatud küsimused

Millised �üldistavad kui silmas pidada ülal mainitud tähendust?
Mis tüüpi kooliga on tegu?
Kui kaugel on kool kodust?
Kuivõrd mugavalt ja turvaliselt on lapsel võimalik kodust kooli jõuda?
Milline on kooli maine?
Millised huviringid koolis tegutsevad?
Mitu paralleelklassi avatakse?
Kui suured on selles koolis klassid ?
Mis on õpetajate keskmine vanus selles koolis?
Mis oleks tunnuste veergude arv selles tabelis?
Kui suur osa mitte?
Kui poiste vanemad?
Kui küsida Kas tüdrukute ja poiste testitulemused erinevad?
Kui suur on iga transpordivahendit kasutavate õpilaste osakaal?
Kui palju või kui suur osa?
Milliseid transpordi liike kasutatakse rohkem ja milliseid vähem?

Laura-Ly Lotamõis
ANDMETE KOGUMISE JA ANALÜÜSIMISE VIISID
KODUTÖÖ
Õppeaines: UURIMISMEETODITE ALUSED
Rõiva- ja tekstiiliteaduskond
Õpperühm: RR 11
Juhendaja : Merje Beilmann
Esitamiskuupäev:……………..
Allkiri :……………...
Tallinn 2014

Sisukord

Sissejuhatus

Andmete kogumise ja analüüsimise viise on mitmeid – tihti räägitakse (ehk pisut liialt üldistades) kvantitatiivsest ja kvalitatiivsest metoodikast. Andmete kogumisest rääkides eelistan sõnapaarile kvantitatiivne – kvalitatiivne kasutada sisult konkreetsemaid märksõnu: struktureeritud ja struktureerimata andmekogumise instrumendid ja/või andmed. Struktureeritud instrumendi tüüpilise näitena võib ette kujutada üht tavapärast ankeeti, kus vastajale on ette antud nii küsimused kui ka võimalikud vastuste variandid, mille hulgast ta vastavalt juhendile sobiva(d) välja peab valima ; struktureerimata andmekogumise tüüpilise näitena võib ette kujutada avatud intervjuud, mis sarnaneb vabale vestlusele, kus intervjueerija ei esita konkreetseid lühivastust eeldavaid küsimusi , vaid suunab intervjueeritavat teatud teemadest rääkima, esitab kuuldu põhjal täpsustavaid küsimusi ning julgustab teda oma mõtteid põhjalikult lahti seletama ja põhjendama. Loomulikult võib ette kujutada ka vahepealset varianti , kus vastajale esitatakse kas kirjalikult või suuliselt vastamiseks avatud st ilma vastusevariantideta, kuid küllalt konkreetseid küsimusi, millele eeldatakse vastaja oma tõlgendusest lähtuvat, kuid siiski suhteliselt lühidat vastust. Sellisel juhul võiks rääkida poolstruktureeritud andmekogumise instrumendist.
Käesolevas õppematerjali osas keskendume struktureeritud andmete töötlemiseks, esmaseks analüüsiks ja esitlemiseks sobivatele statistilistele meetoditele. Samas ei ole andmete analüüsimiseks sobivate meetodite valikul määravaks mitte niivõrd see, mis kujul on esialgsed andmed, kuivõrd andmete kohta esitatavate küsimuste olemus. Seega, võib praktikas osutuda vajalikuks struktureerimata andmete selline töötlemine, mille käigus andmetele ” luuakse ” sobiv struktuur kodeerimise teel, misjärel saab tekkinud struktureeritud andmeid edasi analüüsida muuhulgas ka statistiliste meetoditega.
Käesolevat materjali täiendab praktiliste näidete ja harjutusülesannetega, kuid ka mõningate õppematerjali raamesse mitte mahtuvate teemade ülevaatliku käsitlusega, loengukursuse aluseks olev slaidiprogramm. Tekstipõhises materjalis toodud diagrammid on kujundatud selliselt , et nad
oleksid korrektselt loetavad ka must-valge trüki puhul, mistõttu on välditud erinevate värvide kasutamist ning eelistatud halle toone. Loomulikult võib diagrammide kujundamisel kasutada ka rõõmsamaid värve, mis aitavad sisu emotsionaalsemalt ja seeläbi meeldejäävamalt esitada. Näiteid ja juhiseid diagrammide kujundamise kohta leiad eelpool mainitud slaidiprogrammist.

Mis on statistika ning kuidas oma andmed ja mõtlemine statistilise analüüsi läbiviimiseks ette valmistada?

On olemas kolme tüüpi valesid: valed, alatud valed ja statistika (Disraeli).
Tõepoolest , kasutades statistilisi meetodeid aru saamata nende sisust või siis, halvemal juhul, arvestades kuulajate /lugejate asjatundmatust, on statistika abil valet vanduda küllalt lihtne. Kuid kas selles on õige süüdistada statistikat? Paljud statistika õpikud algavad lubadusega, et lugejad ei pea matemaatikast rohkem teadma, kui oskama lihtsalt liita, lahutada, korrutada ja jagada ning asendada toodud valemites tähed õigete numbritega. Sellegi poolest on lugejad, kes pole kõrgema matemaatikaga kokku puutunud, päris kohkunud nähes, et suurem hulk lehtedest on täidetud valemite, võrrandite ja arvutustega . Pahatihti osutuvad arvutuslikud üksikasjad niivõrd aega ja tähelepanu nõudvateks, et lugejad unustavad sootuks üldised ideed, mida need arvutused illustreerima peaks. Sellise olukorra vältimiseks ei pöörata kogu järgnevas käsitluses tähelepanu mitte niivõrd valemitele ühe või teise statistiku arvutamiseks kui püütakse selgitada statistiliste ideede (kontseptsioonide) ja meetodite olemust ning kasutusvaldkondi sõnade, näidete ja jooniste abil.

Statistiline mõtteviis. Kirjeldav ja üldistav statistika. Üldkogum ja valim.

Statistiline mõtteviis on meile kõigile igapäevasest elust tuttav ja omane. Võtame ühe lihtsa näite: ma ütlen teile, et lähen täna teatrisse kahe kolleegiga, kusjuures üks neist on 190 cm pikk ja teine 165 cm pikk. Millise järelduse te võite kummagi kolleegi soo kohta kõige kindlamini teha, kui teil rohkem mingit informatsiooni ei ole?
* * *
Ma arvan, et te võisite päris veendunult väita, et üks mu kolleegidest, 190 cm pikkune , on mees ja teine, 165 cm pikkune, on naine. Loomulikult võisite te eksida, kuid teil on igapäevasest elust kogemus, et 190 cm pikkuseid naisi on küllalt vähe. Muidugi ei ole te näinud kõiki mehi või kõiki
naisi ning te olete märganud, et paljud naised on paljudest meestest pikemad ; kuid ometi võite te nähtud meeste ja naiste põhjal küllalt julgelt teha üldistuse ja väita, et üldiselt on mehed pikemad kui naised. Niisiis , enama informatsiooni puudumisel, tundub teile väga tõenäoline, et pikk täiskasvanu on mees ja lühike on naine.
Selliseid lihtsaid näiteid statistilise mõtteviisi kasutamisest võib tuua veel mitmeid. Iga kord, kui te kasutate fraase nagu: “Viimasel ajal olen käinud kinos keskmiselt kaks korda kuus” või “Naised on üldiselt jutukamad kui mehed” või “Mida varem sa kordama hakkad, seda paremini sul eksamil läheb”, teete te statistilise avalduse, kuigi te ei ole sooritanud ühtegi arvutust . Esimeses näites on tehtud kokkuvõte varasematest kogemustest. Teises ja kolmandas näites on aga varasemaid kogemusi üldistatud ning tehtud järeldus tuleviku või vaadeldust laiema sihtrühma kohta.
Tihti, s.h akadeemiliste uuringute läbiviimise raames, on meil aga vaja kirjeldada mingeid nähtusi või nähtuste vahelisi seoseid palju täpsemini, kui me seda teeme igapäevases vestluses. Oma tähelepanekute põhjal kujunenud oletuste (statistilises sõnastuses HÜPOTEESIDE) kinnitamiseks peame me läbi viima uuringu, mis sisaldab süstemaatilist ANDMETE kogumist antud nähtuse kohta 2 , kogutud andmete töötlemist, analüüsimist ning põhjendatud järelduste tegemist.
Lihtsamal juhul, kui meil on olemas meid huvitava sihtgrupi iga liikme kohta andmed ning me saame eeldada, et mõõtmistulemused on täpsed, s.t ei sisalda süstemaatilisi ega ka juhusest tingitud vigu, saame statistiliste meetodite abil oma andmed kokku võtta ja teha uuritud grupi kohta järeldusi, mille paikapidavuse kindluses ei ole vaja kahelda. Nii võime näiteks peale lastevanemate küsitluse tulemuste kokku võtmist väita, et küsitluses osalenud lastevanematest [täpselt] 135 (62%) nõustus sellega, et erivajadustega õpilased peaksid õppima erikoolis, mitte tavakooli klassides.
Samas tuleb osata aru saada, et statistilise maailmavaate keskseks mõisteks on TÕENÄOSUS, s.t statistika ei anna meile alati 100% kindlust andmete põhjal tehtud järeldustes, vaid lubab määrata, kui suur on võimalus ühe või teise sündmuse toimumiseks, meie poolt tehtud järelduse paikapidavuseks, jms. Statistiline mõtteviis on mõistmine, et meie vaatlused (mõõtmised) ei ole alati täiesti täpsed ning, et meie oletus ( hüpotees ) ning ka andmete põhjal tehtav järeldus võib kehtida näiteks 95-l (või 99-l) juhul 100-st, kuid mitte 100-l juhul 100-st. Näiteks laps, kelle pikkuseks me oleme mõõtnud 162 cm, ei pruugi olla täpselt nii pikk, sest meie mõõteriist ei ole absoluutselt täpne ja me teeme oma tulemustes ümardusi. Seega võib tema pikkus olla kuskil 161,75 cm ja 162,25 cm vahel, kuid mitte täpselt 162 cm. Kui me kasutame olemasolevaid vaatlusandmeid järelduste tegemiseks teiste (mitte mõõdetud) objektide kohta, näiteks juhul, kui me tahame ennustada ühes klassis käivate laste mõõtmisel saadud keskmise pikkuse põhjal teises klassis käivate laste keskmist pikkust, siis on meil võimalus eksida veel palju suurem.
Seetõttu ei saa me oma järeldustes olla alati täiesti täpsed, kuid statistika võimaldab meil määrata võimalike vigade ulatuse ning seda oma järeldustes arvesse võtta. Nii saame vea arvutamiseks õigeid meetodeid kasutades teatud (piisavalt suure) tõenäosusega väita, et lapse pikkus on näiteks vahemikus 162 ± 0,25 cm; ning võime arvutada, et näiteks 99-l juhul 100-st jääb laste keskmine pikkus teises klassis vahemikku 162 ± 3 cm.
Statistika pakub meetodeid väga erinevate küsimuste lahendamiseks ning statistilisi meetodeid võib mitmeti rühmitada, kuid enamuses statistika käsitlustes tõmmatakse selge piir kahe statistika valdkonna vahele:
1. KIRJELDAV STATISTIKA, mis pakub meetodeid ( vaatlus ) andmetest kokkuvõtete tegemiseks ja olemasolevate andmete kirjeldamiseks ning
2. ÜLDISTAV STATISTIKA, mis kasutab kogutud (vaatlus) andmeid baasina hinnangute ja prognooside tegemiseks (veel) mitte vaadeldud situatsioonide ning kogumite kohta.
Vaatame veelkord neid lauseid igapäevasest elust, mida ma eelpool mainisin. Milliseid nendest on “ kirjeldavad ” ja millised “üldistavad” kui silmas pidada ülal mainitud tähendust?
∗ “Viimasel ajal olen käinud kinos keskmiselt kaks korda kuus”
∗ “Naised on üldiselt jutukamad kui mehed”
∗ “Mida varem sa kordama hakkad, seda paremini sul eksamil läheb”
Esimene lause on kirjeldav, teine ja kolmas aga ei piirdu vaid otseselt kogetu kokkuvõtmisega ja teevad üldistuse või ennustuse tuleviku kohta. Selline kahe statistika valdkonna eristamine on tihedalt seotud kahe väga tähtsa mõistega (statistikas): VALIM ja ÜLDKOGUM .
Üldkogumi (ehk populatsiooni) all mõeldakse kõiki juhtumeid või situatsioone, mille kohta uurijad soovivad, et nende poolt saadud järeldused, oletused või prognoosid kehtiksid. Näiteks võivad erinevate valdkondade esindajad tahta teha järeldusi (kõigi) valgete hiirte õppimisvõime kohta; ära arvata erinevatel eksamitel läbipääsevate õpilaste (üld)arvu; ennustada viljasaaki (kõigil) uue väetisega väetatavatel põldudel; uurida (kõigi) Tallinna koolilaste õpimotivatsiooni jne. Nagu te näete, ei mõelda üldkogumi all mitte ainult inimesi, vaid üldkogumi võib moodustada mistahes meid huvitavate sarnaste objektide hulk.
On aga selge, et tegelikus elus ei ole tihti võimalik vaadelda (mõõta, loendada, küsitleda jne.) kõiki meid huvitavaid objekte. Seepärast peab uurija välja valima suhteliselt väikese osa üldkogumist, et selle põhjal teha järeldus kogu üldkogumi kohta. Sellist uurimiseks valitud (suhteliselt väikest) objektide gruppi nimetataksegi VALIMIKS. Näiteks psühholoog, kes uurib valgete hiirte õppimisvõimet, loodab, et saavutatud tulemused ning seega ka järeldused kehtivad kõigi valgete hiirte puhul - mitte ainult praegu olemasolevate, vaid ka veel sündimata hiirte puhul ning ta võib isegi loota, et tema tulemusi võib sedavõrd üldistada, et need selgitaks inimese õppimist.
Seega, paljud uurijad ületavad kättesaadava informatsiooni piiri: nad üldistavad tulemusi valimilt üldkogumile, nähtult ja kogetult mittenähtule ja mittekogetule. Tulles tagasi kirjeldava ja üldistava statistika mõistete juurde, võime öelda, et kirjeldav statistika tegeleb valimi kohta saadud andmete resümeerimise ja kirjeldamisega, üldistava statistika ülesanne on aga järelduste tegemine laiema objektide hulga - üldkogumi – kohta ja/või mõõtmisel tekkiva juhusliku vea hindamine.
Praktikas võib muidugi tulla ette ka olukord, kus uurijat huvitav sihtrühm on suhteliselt väike (või uurimiseks eraldatud ressursid väga suured) ning ta suudab vajalikud andmed koguda (praktiliselt) kõigi rühma liikmete kohta. Sel juhul räägitakse kõiksest uuringust või juhtumianalüüsist, ning eeldades, et andmekogumise meetodid on olnud sellised, mille puhul mõõtmisinstrumendist tingitud juhusliku vea arvestamine ei ole tähtis, võib vajalike järelduste tegemiseks piirduda vaid kirjeldava statistika meetoditega. Kuna sisehindamise puhul on ilmselt valdavalt tegemist just viimase olukorraga, siis piirdub antud peatükk kirjeldava statistika meetodite tutvustamisega.

Statistiline andmestik. Andmete e tunnuste tüübid.

Vastavalt sellele, mida me uurida tahame, koosneb meie valim kas üksikutest inimestest, koolidest , valgetest hiirtest , kalendrikuudest, mingitest toodetest, kartulipõldudest või millest tahes. Kõiki valimisse kuuluvaid indiviide või üksusi, kelle/mille käest või kohta andmeid kogutakse, nimetatakse statistikas OBJEKTIDEKS. Kõigil ühte valimisse kuuluvatel objektidel on mingid ühised omadused e TUNNUSED, mis meid huvitavad, näiteks: värvus, vanus, hind, kaal, arvamus millegi suhtes, jne 3. Andmeid koguma asudes , sõnastame meid huvitavate tunnuste kohta küsimusi (nt ”Kui vana te olete?”, ”Kas teie koolis on sisehindamist varem läbi viidud ?”) ja viime läbi vajalikud mõõtmised ning eeldame, et andmete kogumise käigus saame iga valimi liikme kohta kõik vastused ehk statistika terminoloogiast lähtudes: VÄÄRTUSED. Väärtused on need, mis aitavad meil objekte üksteisest eristada: mõned objektidest on ühte värvi, mõned teist; mõned on naised, teised mehed; mõned on kallimad, teised odavamad, jne.
Oletame näiteks, et teie laps hakkab kooli minema ning teil on vaja välja valida kõige sobivam kool. Millised on need tunnused, mille põhjal te oma valiku teeksite ehk milliseid andmeid te tahaksite erinevate koolide kohta teada, et neist endale sobivaim välja valida?
* * *
Toon mõned küsimused, mis võiksid minu jaoks olulised olla. Teie nimekiri võib olla pikem või lühem, sisaldada osasid toodud küsimustest või kõiki, jne.
∗ Mis tüüpi kooliga on tegu? (algkool, 9-klassiline kool, 12-klassiline kool)
∗ Kui kaugel on kool kodust?
∗ Kuivõrd mugavalt ja turvaliselt on lapsel võimalik kodust kooli jõuda? (koolibuss, ühistranspordi vahend ilma ümber istumiseta, vahetades teel ühistranspordi vahendit, jalutuskäik läbi metsatuka, jne)
∗ Milline on kooli maine? (väga hea, hea, rahuldav, halb, väga halb)
∗ Kas on tegu tavalise riigikooliga, erakooliga, või eri(lise)kooliga (nt spordikool)?
∗ Millised huviringid koolis tegutsevad? (laulukoor, korvpalli trenn, kunstiring, jne)
∗ Mitu paralleelklassi avatakse?
∗ Kui suured on selles koolis klassid? (väikesed, keskmised, suured)
∗ Mis on õpetajate keskmine vanus selles koolis?
∗ Kas koolis on juurutatud kvaliteedikindlustussüsteem? (jah, ei)
Olles kõne alla tulevate koolide kohta andmed kokku kogunud , tuleb järelduste ja otsuste tegemiseks andmeid analüüsida. Lihtsamal juhul, kui teil on andmeid vähe (antud juhul siis vaid mõne kooli kohta), piisab sellest, et vaatate kõik andmed üle, mõtlete pisut ja jõuategi otsusele st analüüs toimub ilma formaalseid meetodeid kasutamata. Kui aga andmeid on rohkem, siis on mõistlik andmetest ülevaate saamiseks neid mõne sobiva meetodi abil kokku võtma hakata. Nii võib nt peale ankeetküsitluse läbiviimist hakata vastuseid kokku võtma ankeete ükshaaval (korduvalt) läbi lapates ning erinevaid vastuseid loendades. Fragment sellise analüüsi tulemustest võiks välja näha alljärgnevalt:
Lapse toetamine ja järelaitamine õpetaja poolt?
väga rahul IIIII IIII IIIII IIII IIIII IIII IIIII IIII 9
pigem rahul IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII IIIII 15
pigem rahulolematu IIIII I IIIII I IIIII I IIIII I 6
väga rahulolematu IIIIIIII 2
Arvamus puudub III III III III 3
Kokku 35 lapsevanemat
Selline tulemuste käsitsi kokku võtmine ja analüüsimine on aga väga aja- ja töömahukas ning jõuab väga harva lihtsast vastuste kokku lugemisest sügavama analüüsini, mille käigus võiks uurida nt ka erinevusi vastajagruppide vahel, arvamuste omavahelist seotust või arvamuste seotust mõnede teiste näitajatega, arvamuste erinevusi eelmiste aastate tulemustega võrreldes, jms. Seetõttu on enne analüüsima asumist mõistlik andmed sisestada andmetabelisse kasutades selleks mõnd „ruudulise“ töölehega programmi (nt MS Excel, OpenOffice.org Calc, Statistica, SPSS, jne) ning kasutada andmete analüüsimisel arvuti abi. Viimane päästab meid korduvast ja aeganõudvast andmete loendamisest ning võimaldab kiiresti ja mugavalt kasutada samu andmeid uute sisuliste analüüsiküsimuste vastamiseks.
Algandmetest andmetabelit koostades tuleb eelkõige meeles pidada, et õige andmetabel peab olema „askeetlik“ st hästi lihtsa ja alati samasuguse põhistruktuuriga: iga objekt saab endale tabelis ühe rea, iga tunnus omale ühe veeru ning iga väärtus ühe lahtri. Toon kaks näidet andmetabelitest, mis on mõlemad korrektse ülesehitusega, kuigi esimese puhul on tegu kooliõpilaste ning teisel puhul professionaalide poolt koostatud tabeliga.
Tabel 1
Näide kahest andmetabelist
Mugava ja paindliku analüüsi tagamiseks tuleb andmetabeli koostamisel arvestada veel mitmete reeglitega, millest olulisemad on järgmised:
∗ Igale tunnusele/veerule antakse nimi, mis peab olema unikaalne st teistest erinev ning suhteliselt lühike, sest pikkade nimede puhul võtab õigete tunnuste otsimine analüüsi käigus väga palju aega; ei kasutata mitut veergu ühendavaid pealkirju jms!
∗ Igas lahtris tohib olla ainult üks väärtus e üks ühik infot st mitut vastust ühte lahtrisse sisestada ei tohi! Seega, kui ühe ankeedi küsimuse puhul on vastajal lubatud valida mitu vastusevarianti, annab iga variant andmetabelis eraldi tunnuse/veeru.
∗ Professionaalid väldivad andmete sisestamist tekstidena ning kasutavad selle asemel vastusevariantide kodeerimist, sest nii hoitakse kokku aega, välditakse sisestusvigu ning hiljem on võimalik andmeid paindlikumalt analüüsida (PS! ilma kodeerimiseeskirja teadmata ei ole sellist andmestikku sisuliselt võimalik analüüsida; professionaalsed arvutiprogrammid lubavad kodeerimiseeskirja sisestada koos andmetega ja oskavad seal olevaid kirjeldusi ka kasutada)
∗ Ühes veerus tohivad olla ainult üht tüüpi andmed st kui on otsustatud tunnuse sõnaliste väärtuste asemel kasutada arvulisi koode, siis arvude vahele muid sümboleid ei sisestata; puuduva vastuse/ väärtuse jaoks mõeldakse välja sobiv arvuline kood või jäetakse vastav lahter lihtsalt tühjaks. Kui nüüd uuesti meelde tuletada meie kümmet kooli valikuks olulist küsimust ja kujutleda, et nende andmete põhjal oleks vaja koostada andmetabel, siis, mis oleks tunnuste/veergude arv selles tabelis? * * *
Ega päris täpset vastust selle küsimusele ei saagi anda, kuna osade küsimuste puhul pole vastusevariantide nimekiri lõplikuna ette antud, aga igal juhul on kindel, et kogu infot ei saa ära mahutada kümnesse veergu, kuna 3. ja 6. küsimuse puhul võib ühe kooliga olla seotud rohkem kui üks vastus, mis viitab vajadusele moodustada andmestikku nende küsimuste jaoks rohkem kui üks tunnus.
Kui nüüd eeldada, et andmestik sai korrektselt koostatud ja andmed sisestatud, siis võiks järgmise sammuna asuda andmeid analüüsima. Selleks on vaja kõige pealt välja mõelda ja enda jaoks selgelt sõnastada küsimused, millele me analüüsi käigus vastuseid saada tahame! Viimane on vajalik selleks, et otsustada, milline meetod on antud olukorras kõige sobivam. Pane tähele, et siin räägime nüüd hoopis teistlaadsetest küsimustest kui olid ankeedis; nt ankeedi küsimus võib olla selline „Kuivõrd olete rahul tunni distsipliiniga?“, analüüsi eeldav küsimus aga „Kui suur osa vastanutest oli tunni distsipliiniga rahul ning kui suur osa mitte?“ või „Kas tüdrukute vanemad oli tunni distsipliini suhtes rahulolematumad kui poiste vanemad?“.
Sageli on aga analüüsi suunava küsimuse täpsest sõnastamisest õige analüüsimeetodi valikuks vähe. Kuna andmed võivad olla väga erineva iseloomuga, siis tuleb meetodi valikul ka seda arvesse võtta; nt kui küsida, „Kas tüdrukute ja poiste testitulemused erinevad?“ või siis „Kas poiste ja tüdrukute hobid erinevad?“, on küsimuse tüüp täpselt sama (meid huvitavad kahe grupi vahelised erinevused), kuid vastuse saamiseks sobiv analüüsimeetod on üsna kindlasti erinev, sest esimesel juhul on tegemist arvuliste andmetega, millest on lihtne arvutada nt keskmine testitulemus poiste jaoks ning võrrelda seda siis tüdrukute keskmise testitulemusega, kuid tüdrukute ja poiste keskmist hobi arvutada pole eriti mõistlik ega mõttekas! Seega, tuleb teisele küsimusele vastuse saamiseks leida mõni teine analüüsi meetod.
Andmete tüüpidest rääkimiseks tuletame meelde ülaltoodud kümme küsimust koolide kohta ning püüame koos mõelda, mille poolest võiks sellistele küsimustele vastustena saadavad andmed omavahel erineda?
* * *
Kas panite tähele, et osad oodatavatest andmetest on esitatavad sõnadena (nt „erakool“, „väga hea“, „jah“, „kunstiring“ jne) ning teised arvudena (nt 5 km, 3 paralleeli, 41 aastat jne)? Selline andmete jagamine sõnadeks ja arvudeks on algatuseks väga hea, sest nii saame juba esimese vihje sobivate meetodite kohta: ilmselt on küsimatagi selge, et kui andmeteks on sõnad, siis ei ole analüüsi käigus mõistlik ega ka lubatud kasutada päris kõiki arvutustel põhinevaid meetodeid, mis mõeldud arvuliste andmete analüüsiks. Kuid mõelda tuleb osata ka vastupidi: mitte iga meetod, mis võib olla andmetest ülevaate saamiseks mugav ja otstarbekas sõnaliste väärtustega andmete puhul, ei pruugi osutuda mõistlikuks arvandmete analüüsimisel.

Andmete kirjeldamine ehk kuidas saada kogutud andmetest paremat ülevaadet?

Tabelid ja diagrammid

Eeldame nüüd, et oleme andmete kogumise ja korrastamise etapid läbinud ja saame alustada andmete analüüsimist. Esimesed küsimused andmete kohta on eeldatavasti üsna lihtsad, sest kõigepealt on vaja andmetest saada üldine ülevaade. Võtame ühe lihtsa näite: kool viis läbi uurimuse, kus üheksandate klasside õpilaste käest küsiti muuhulgas ka seda, millist transpordi liiki nad kooli jõudmiseks kasutavad.
Esmased analüüsi eeldavad küsimused võiks olla nt sellised: „Mis on kõige tüüpilisem viis kooli jõudmiseks?“, „Kui suur osa õpilasi tuleb kooli jalgsi ?“, „Milliseid transpordi liike üldse kasutatakse ja kui suur on iga transpordivahendit kasutavate õpilaste osakaal?“.
Kõik need küsimused eeldavad vastamist kaht tüüpi küsimustele: kui palju? või kui suur osa? mis eeldab erinevate vastutuste e väärtuste esinemissageduse leidmist e loendamist. Seega, tuleb meil koostada SAGEDUSTABEL, mis võiks antud näite puhul välja näha selline:
Tabel 2
Kooli jõudmiseks kasutatavad transpordivahendid
Sellest tabelist saab üsna mugavalt vastused mõnedele ülal välja toodud küsimustele, kuid kas me oskame kiiresti hinnata nende tulemuste põhjal ka jalgsi kooli tulevate laste osakaalu või kui kerge on näha, milliseid transpordi liike kasutatakse rohkem ja milliseid vähem?
* * *
Kuna andmeid on vähe ja osakaalu hindamiseks vajalikud arvutused suhteliselt lihtsad, siis saab muidugi vastused ka nendele küsimustele üsna kiiresti teada, aga kas oleks ehk võimalik andmetest ülevaate saamine lihtsamaks teha? Vaatame alljärgnevat sagedustabelit:
Tabel 3
Kooli jõudmiseks kasutatavad transpordivahendid
Tõepoolest, kuna osakaal portsentides on siin selgelt välja toodud ning tabel transpordi liikide esinemissageduse järgi sorteeritud, siis on andmetest ülevaate saamine ning oma küsimustele vastuste leidmine kiirem ja lihtsam kui eelmise tabeli põhjal. Kui nüüd peaks neid tulemusi ka teistele esitlema, siis võiks veelgi sobivaima meetodid üle edasi arutleda ning mõelda, et tabeli asemel võib tulemused esitada ka visuaalselt st diagrammina. Koostame toodud andmetest nt TULPDIAGRAMMI, kus iga tulba kõrgus on proportsionaalne vastavasse kategooriasse kuuluvate õpilaste arvuga:
Joonis 1. Kooli jõudmiseks kasutatavad transpordivahendid

Keskmist tendentsi ja hajuvust väljendavad arvnäitajad.

Nagu eelmises alalõigus mainitud, on mõnes olukorras andmete analüüsimiseks sagedustabelite kõrval või koguni nende asemel sobilikum kasutada arvnäitajaid. Eriti kerkib see vajadus esile, kui tegeleme arvutunnustega, millel on palju erinevaid väärtusi, nagu näiteks andmed palkade või testitulemuste kohta.
Suurem osa arvnäitajatest ongi mõeldud kasutamiseks arvutunnuste korral, kuid leidub ka selliseid, mida saab kasutada järjestustunnuste või koguni nimitunnuste puhul. Vaatame uuesti näidet, kus meil olid andmeteks 50 õpilase testitulemused. Jätame seekord andmete koondamise vahemikesse tegemata ja vaatleme tulemusi üksikväärtustena. Parema ülevaate saamiseks JAOTUSEST e sellest, milliseid tulemusi/väärtusi kui palju on, võime tulemused järjestada kasvamise või kahanemise järjekorda saades niimoodi VARIATSIOONIREA .
Sõitsin reede õhtul taksoga mööda Pärnu maanteed kesklinna poole. Taksojuht vaatas hiljuti teeremondi läbinud uut teed ja kommenteeris vaikselt , et endise kahe asemel ainult üks sõidurada jäetud – siin hakkavad suured ummikud olema. [1]

Kokkuvõte

Käesolev peatükk algas tõdemusest, et uuringuid ei saa tihti läbi viia ilma meid huvitavate protsesside kohta andmeid kogumata. Andmete analüüsi tulemus saab aga usaldusväärne olla vaid juhul, kui kogutud andmete kvaliteet on kõrge. Seepärast tuleb juba enne andmete kogumist hoolikalt läbi mõelda, millistele küsimustele me andmete põhjal vastuseid tahame saada ning millisel viisil on kõige otstarbekam antud eesmärgist lähtuvalt andmeid koguda. Andmete kogumise instrumenti (nt küsimustikku) koostama asudes tuleb järgida lisaks sisulistele aspektidele ka tervet rida tehnilisemat laadi nõudeid ja põhimõtteid, mis aitavad tagada olukorra, kus vastaja motivatsioon sisuliselt õiget informatsiooni anda andmete kogumise käigus pigem tõuseb kui langeb ning kus nii vastaja kui andmete töötleja poolt kogemata tehtavate vigade võimalus on viidud miinimumini. Mugava paindliku ja sügavuti mineva analüüsi tagamiseks on peale andmete kogumist mõistlik andmed sisestada arvutisse koostades lihtsa kuid põhireegleid järgiva struktuuriga algandmete tabeli. See esialgu ehk mõttetuna näiv lisatöö ja -aeg, mis kulub andmetabeli koostamiseks ja andmete sisestamiseks arvutisse, tasub end mitmekordselt ära andmete analüüsi etapis , kus andmete käsitsi kokku võtmine on väga ajamahukas isegi väikeste andmestike korral, kuid kus korraliku andmetabeli põhjal on arvuti abil mõne hetkega võimalik saada ülevaade oma andmetest mitme eri nurga alt ning leida vastused paljudele huvitavatele küsimustele.

Tsiteeritud teosed

[1]
T. Tammert , „Mu unelmate Tallinn,“ Postimees , 30 september 2014. [Võrgumaterjal]. Available: http://arvamus.postimees.ee/2937571/triin-tammert-mu-unelmate-tallinn . [Kasutatud 30 september 2014].

.DOCX Laadi alla originaalfail 19 lk · .docx · 30 allalaadimist

50 punkti Autor soovib selle materjali allalaadimise eest saada 50 punkti.

~ 19 lehte Lehekülgede arv dokumendis

2015-03-09 Kuupäev, millal dokument üles laeti

30 laadimist Kokku alla laetud

0 arvamust Teiste kasutajate poolt lisatud kommentaarid

luurus Õppematerjali autor

Faili vormistamise ülesanne Tallinna Tehnikakõrgkooli andmeanalüüsi kursuse raames (1. kursus).

valim andmetabel andmete analüüs Faili vormistamine

Kasutatud allikad

https://arvamus.postimees.ee/2937571/triin-tammert-mu-unelmate-tallinn

Sarnased õppematerjalid

docx

Vormistamise ülesanne 1

VORMISTAMISE ÜLESANNE 1 TUNNITÖÖ Õppeaines: SISSEJUHATUS ERIALASSE Tehnoloogia ja ringmajanduse instituut Õpperühm: Juhendaja: Tallinn 2021 SISUKORD 2 SISSEJUHATUS Andmete kogumise ja analüüsimise viise on mitmeid – tihti räägitakse (ehk pisut liialt üldistades) kvantitatiivsest ja kvalitatiivsest metoodikast. Andmete kogumisest rääkides eelistan sõnapaarile kvantitatiivne – kvalitatiivne kasutada sisult konkreetsemaid märksõnu: struktureeritud ja struktureerimata andmekogumise instrumendid ja/või andmed. Struktureeritud instrumendi tüüpilise näitena võib ette kujutada üht tavapärast ankeeti, kus vastajale on ette antud nii küsimused kui ka võimalikud vastuste variandid, mille hulgast ta vastavalt juhendile sobiva(d) välja peab valima; struktureerimata andmekogumise tüüpilise näitena võib ette kujutada avatud intervjuud, mis sarnaneb vabale vestlusele, kus interv

Andme-ja tekstitöötlus

docx

ANDMETE KOGUMISE JA ANALÜÜSIMISE VIISID

Laura-Ly Lotamõis ANDMETE KOGUMISE JA ANALÜÜSIMISE VIISID KODUTÖÖ Õppeaines: UURIMISMEETODITE ALUSED Rõiva- ja tekstiiliteaduskond Õpperühm: RR 11 Juhendaja: Merje Beilmann Esitamiskuupäev:................. Allkiri:.................. Tallinn 2014 Sisukord Sissejuhatus Andmete kogumise ja analüüsimise viise on mitmeid tihti räägitakse (ehk pisut liialt üldistades) kvantitatiivsest ja kvalitatiivsest metoodikast. Andmete kogumisest rääkides eelistan sõnapaarile kvantitatiivne kvalitatiivne kasutada sisult konkreetsemaid märksõnu: struktureeritud ja struktureerimata andmekogumise instrumendid ja/või andmed. Struktureeritud instrumendi tüüpilise näitena võib ette kujutada üht tavapärast ankeeti, kus vastajale on ette antud nii küsimused kui ka võimalikud vastuste variandid, mille hulgast ta vastavalt

andmeanal��s

466

doc

Andmeanalüüsi konspekt

Andemanalüüsi konspekt: Mõisteid küsitakse eksamis: näidete toomise, selgitamise, võrdlemise ja analüüsimise tasandil. Binaarne tunnus-  sugu;  jah/ei Järjestustunnus-  kooli tüüp, 1-väga hea, 2- hea jne(NB!- Õpilaste hinnang koolile),  kui suured on klaassid- väga suured, suured jne,  milline kooli maine- väga hea, hea jne,  millisesse vahemikku jääb arv (0-200, 201-301 jne) oluline oleks, et Display frequence ees oleks linnuke, siis saab teha sagedustabeli Intervalltunnus-  1-väga hea, 2-hea jne (NB!_- Kooli hoolekogu hinnang eelmise õppeaasta tulemustele?/ Kooli hoolekogu hinnang eelmise aasta juhtimisele?) ,  hulk (n: minu klassi avatakse),  vanus (keskmine vanus),  kui kaugel asub kool millestki- km-tes, Nimitunnus-  millegi nimi, huviringude nimed, kooli nimi jne,  kas koolis töötab nõustaja- ei tööta, töötab, mõlemad jne, Kiire ü

Andmeanalüüs i

pdf

Andmeanalüüs ja statistika uurimistöös

Andmeanalüüs ja statistika uurimistöös 2016 Andmeanalüüsi põhimõisted Neli andmeanalüüsi juures möödapääsmatut terminit objekt tunnus väärtus skaala Objekt / objektid Vastavalt sellele, mida me uurida tahame, kogume me andmeid kas inimeste, koolide, valgete hiirte, kalendrikuude, kartulipõldude vms kohta. Kõiki selliseid indiviide või üksusi, kelle/mille käest või kohta me andmeid kogume, nimetatakse statistilises andmeanalüüsis objektideks. Muutujad ja tunnused Andmeid koguma asudes oleme valmis mõelnud mingid neid objekte iseloomustavad omadused, mis meid huvitavad. Näiteks: värvus, vanus, hind, kaal, arvamus millegi suhtes jne. Selliseid omadusi nimetatakse muutujateks. Omadusi, mida saab mõõta nii (või mis on juba kokku võetud nii), et iga objekti jaoks saadakse ainult üks vastus ehk üks ühik infot, nimetatakse tunnusteks. Väärtused Objektid ja tunnused peavad olema valitud enne andmete kogumist. Andmete kogu

Andmeanalüüs

pdf

Äriuuringute alused

järgnevad keerukamad ja spetsiifilisemad. · Tõlkeküsimustikus otsetõlge pole alati võimalik, tuleb arvestada kohaliku keele ja kultuuriga. · Vormistus korrektne, ühtne stiil. Valim on mõõtmiseks valitud (uuringusse kaasatud) üldkogumi osa. Valimit kasutatakse, kuna koguvalimit mõõta on liiga kallis ja mahult võimatu. Statistilise analüüsi jaoks peab olema vähemalt 60-100 vastust. Vastuseid peab olema muutujatest vähemalt viis korda rohkem. Kvantitatiivne andmeanalüüs: · Statistilised andmetöötlusprogrammid, näiteks SPSS · Atribuudid o sõltumatu atribuut - manipuleeritav atribuut o sõltuv atribuut - see, mida mõõdetakse · Eeldused (normaaljaotus) · Andmeanalüüsid o Parameetrilised testid (peavad vastama eeldustele) o Testid muutujate vaheliste seoste leidmiseks (pideva atribuudi keskväärtuste võrdlemine) Korrelatsioon - seose tugevus kahe pideva atribuudi vahel

Majandus

docx

Teadustöö alused kordamisküsimused eksamiks

kasutus, sisukos ja kompelksus, esitluse ja vormistuse korrektsus, objektiivsus, tõestatavus ehk usaldusväärsus, selgus ehk arusaadavus, kriitilisus. 2. Millised on uurimistöö koostamise etapid?  Teema valimine  Info, teabe kogumine, tutvumine varasemate uuringutega  Uurimisprobleemi, eesmärgi piiritlemine  Uurimismeetodi valik  Uurimiseks vajaliku andmestiku kogumine  Uurimismaterjali analüüs  Uurimuse koostamine ja vormistamine 3. Milline on uuringutüüpide üldine klassifikatsioon? Teoreetiline uurimus, empiiriline uurimus, rakendust loov ehk arendusuurimus. 4. Mis on empiiriline uurimus? Uurimus mille eesmärkideks on nähtuste kirjeldamine, võrdlemine, seletamine, ennustamine ning tõlgendamine. Sisaldab uute andmete kogumist või olemasolevate andmete töötlemist, analüüsimist ja interpreteerimist. 5. Mis on kvalitatiivne uuring?

Kvalitatiivsed ja kvantitatiivsed uuringumeetodid

doc

RAKENDUSSTATISTIKA KONSPEKT

RAKENDUSSTATISTIKA KONSPEKT 1 SISUKORD 1 Kvantitatiivsed meetodid majanduses.........................................................................2 1.1 Põhimõisted .........................................................................................................3 1.2 Mõõtmisskaalad...................................................................................................5 2 Andmekogumit kirjeldavad parameetrid.....................................................................7 2.1 Statistilised keskmised......................................................................................... 7 2.2 Variatsiooninäitarvud...........................................................................................8 3 Valikuuringud............................................................................................................10 3.1 Valimid ja nende moodustamine...............

Planeetide geoloogia

docx

UURIMISMEETODID

Teadusliku uurimistöö olemus Mis on teaduslik uurimus? Teooria – olemus ja vajalikkus uurimistöös. Teooria ulatus. Empiiria ja andmed. Riigiteaduste põhi-paradigmad. Sotsiaalteaduste omapära. Mis on teaduslik uurimus? • Teadus ei tegele mingite muljetega, stiilis: “Ma usun, et Keskerakond on eesti- vastane partei” • Et “Keskerakonna eesti-vastasust” teaduslikult uurida: – Tuleks kõigepealt väga selgelt defineerida, mis on “eestivastasus” – mis tunnused sellega kaasas käivad. Ühesõnaga,meil peaks olema eesti- vastasuse teooria – Seejärel tuleks koostada kindel, uurimiskava, kuidas Keskerakonna eesti-vastasust uurida: mida me täpsemalt teada tahame, mis on meie andmeallikad, kuidas me neid andmeallikaid analüüsime, jne. – Võtame näiteks ette erakonna programmi ning kindlate tekstianalüüsi meetoditega (kontentanalüüs, diskursuse ananlüüs) püüame leida eesti- vastasusele leidvaid kohti – Küsitleme erakonna liikmeid ja püüame oma küs

Uurimismeetodid

Rohkem sarnaseid