Andmeanalüüsi kordamisküsimused 2015 (0)

Tallinna Tehnikakõrgkool - Infoteadus - andmeanal��s

1 Hindamata

Andmeanalüüs
Kordamisteemad
1) Uurimistsükkel: millised etapid eelnevad ja järgnevad andmeanalüüsile.

Tuleb püstitada uurimisküsimused: mida ja kelle käest tahan teada saada; millistele küsimustele tahan vastuseid.
Andmete kogumine. Enne kogumist kontrollida, ehk on andmed juba olemas ja arvestada aja- ning raharessursiga.

Vaatlus : otsevaatlus, varjatud vaatlus, osalusvaatlus
Eksperiment
Intervjuu : struktureeritud, poolstruktureeritud või struktureerimata
Küsitlus

Kas uurida valimit või üldkogumit?

Üldkogum ehk populatsioon .
Valim on üldkogumist uurimiseks eraldatud osa, mille põhjal tehakse statistilisi järeldusi üldkogumi kohta.
Valimi moodustamine:
a)tõenäosuslik:

Lihtne juhu - nimekiri

Süstemaatiline juhu- nimekiri, millest iga 10.

Kiht- valin grupid, keda küsitlen

Klaster- valin kellegi grupist
b) mittetõenäosuslik:

Mugavus- pilootuuring testina

Ettekavatsetud- vastavalt eelteadmistele valitud uuritavad

Kvoot- kaubanduskeskustes või telefoniküsitluste tüüpi

Lumepall- kasvab edasi leitud küsitletavate abil, kes juhatavad teiste sobivate küsitletavate juurde.
Heas valimiuuringus on juhuslikud valikud .
Valimi representatiivsus – valimis on sama palju inimesi kui üldkogus.
Valimi suuruse määrab aeg, raha, järelduste täpsusaste, uuritava populatsiooni suurus.
Meetodi valik
Vaadake, mis tüüpi on tunnus
–Nominaaltunnus: kasutage protsente, vastajate arve
–Järjestustunnus: kasutage protsente, vastajate arve
– Arvuline tunnus: kasutage keskmisi, standardhälbeid
Arvtunnus
Järjestustunnus
Nominaaltunnus
Nominaal -tunnus
Keskmiste võrdlus.
Usalduspiirid , T-test
Risttabelid.
Seosekordajad (hii-ruut-statistik)
Risttabelid.
Seosekordajad (hii-ruut-statistik)
Järjestus-tunnus
Keskmiste võrdlus.
Usalduspiirid, T-test
Risttabelid.
Seosekordajad (hii-ruut-statistik)
Arvtunnus
Korrelatsiooni- kordajad
Pärast analüüsi esitada tulemused, teha järeldused, uute uurimisküsimuste püstitamine.
Millised on alternatiivid kvantitatiivsetele meetoditele.
Kvalitatiivsed ja kombineeritud meetodid.
Kvantitatiivsed meetodid- kui palju midagi esineb, seoste analüüsimine, hüpoteeside testimine ; arvuline; suhteliselt palju uuritavaid
Kvalitatiivne- kuidas midagi kirjeldatakse, tihti uuritakse arvamusi , hoiakuid; sõnaline; vähem uuritavaid
2) Ankeedi koostamine: mida tuleks silmas pidada hea ankeedi koostamisel; küsimuste tüübid, vastuste tüübid.
Ankeedi struktuur

Sissejuhatus: miks uurimust tehakse, anonüümsus, võimalik tasu, tulemuste esitus, kontaktandmed tänud juba ette või lõpus
Lihtsamad küsimused, avaküsimused
Keerulisemad küsimused, põhiküsimused
Sotsiaal-demograafiline osa (sugu, vanus)
Lõpuosa, tänusõnad

Avatud küsimused – vastaja vastab oma sõnadega

Hea intervjuudes
Ei ole head sellistes uuringutes, kus vastaja peab ise kirjutama vastused kuhugi üles
Raske arvutiga töödelda
Kodeerija subjektiivsus

Suletud küsimused – vastajale on antud ette vastusevariandid

Aitavad kokku hoida aega
Lihtsam analüüsida
Peab olema kindel, et kõik võimalikud vastusevariandid on esitatud
Tõlgenduserinevused vastamisel eri gruppide vahel

Hea küsimus on

Võimalikult lühike
Viisakalt sõnastatud
Lihtsa grammatikaga
Sisaldab infot ühe teema kohta
Sama tähendusega kõigi jaoks
Sobival spetsiifilisuse tasemel

Ei ole head:

Suunavad küsimused
Keeruka ülesehitusega pikad küsimused
Eitust sisaldavad küsimused
Vastaja kogemusega mittehaakuvad küsimused

Küsimuste vastusevariandid:

Selged ja täpsed
Ei tohi omavahel kattuda
Peavad sellegipoolest katma ära kõik võimalikud vastusevariandid

Vastuste tüübid

Nominaalskaala ehk nimeskaala
- Esitab või võimaldab esitada vastuse nimetuse või kirjeldusena. Näiteks vastaja rahvus, lemmikvärv, perekonnaseis
Ordinaalskaala ehk järjestusskaala
- Esitab vastusevariandid sel viisil, et neid on võimalik hinnangu intensiivsuse alusel järjestada. Näiteks haridustase, mitmesugused rahulolu hinnangud vms (Näiteks: Likerti skaala)
Arvskaala
- Esitab või võimaldab esitada vastused arvudena

Küsimuste tüübid

Lahtised küsimused. (Millist raamatut viimati lugesid? Milline on sinu kõige meeldejäävam reisisihtpunkt?)
Kinnised küsimused. (Kas sulle meeldib reisida : Kodumaal, Välismaal)
Lahtine + kinnine . ( Millisesse valdkonda kuulub teie lemmikraamat?

Väärtkirjandus, ajaviitekirjandus, ulmekirjandus , elustiili raamatud,
... (midagi muud, täpsustage))
3) Tunnuste tüübid, näited selle kohta.

Nominaaltunnus
- Enamasti sõnaline, kuigi harvadel juhtudel võib olla ka arvuline, mõni sümbol vms
- Iseloomustab vastavat tunnust, kuid ei anna infot tunnuse omaduse intensiivsuse või suuruse kohta
- Näiteks: inimese nimi, lemmikvärv, perekonnaseis, rahvus, jalgpallimängija särginumber
Järjestustunnus ehk ordinaaltunnus
- Enamasti on sõnaline, aga võib olla ka arvuline
- Annab edasi indiviidi või objekti omaduse intensiivsust, suurust.
- Näiteks: haridustase, erinevad nõustumise (olen täiesti nõus; olen nõus; ei ole nõus; ei ole üldse nõus) või meeldivuse hinnangud vms.

Arvtunnused
- Mõõdetud arvulisena
- Võib eristada kahte arvtunnuste mõõtmise skaalat
  - Vahemikskaala : sel juhul on kõigi skaalapunktide vahemikud võrdsed, kuid skaala nullpunkt pole üheselt määratud
  - Suhteskaala: sel juhul on skaalapunktide vahemikud võrdsed ja ka nullpunkt on määratud.
- Näiteks: sissetulek, pikkus, kaal, temperatuur, vanus, laste arv

Veel tunnuste liigitamise võimalusi:

Kvalitatiivsed ja kvantitatiivsed tunnused
Diskreetsed ja pidevad tunnused
Kategoriaalsed tunnused: diskreetne kvalitatiivne tunnus
Binaarsed ehk dihhotoomsed ehk kaheväärtuselised tunnused

4) Kirjeldav statistika eri tüüpi tunnuste kohta: mis on mood, mediaan, kvantiilid, keskmine, standardhälve, dispersioon.
Nominaaltunnused

Mood – kõige sagedasem väärtus või väärtusklass

Järjestustunnused
Mood
Mediaan – punkt tunnuse skaalal, millest väiksemaid ja suuremaid väärtusi on variatsioonreas ühepalju. Mediaan jaotab skaala vaadeldava tunnuse seisukohalt kaheks võrdsagedaseks osaks.
Kvantiilid
Alumine kvartiil – punkt, millest väiksemaid väärtusi on kogumis ¼ osa.
Ülemine – punkt, millest suuremaid väärtusi on kogumis ¼ osa.
Detsiil – punkt, mis eraldab 1/10 osa väärtustest.
Normaaljaotuse sagedamini kasutatavad kvantiilid:
mediaan = 0
alumine kvartiil = -0,675; ülemine kvartiil = 0,675
Arvtunnused
Mood,
Mediaan
Kvantiilid
Aritmeetiline keskmine ehk keskväärtus
Hajuvuse näitajad
Standardhälve – kui kaugel on keskmine inimene keskmisest.
Dispersioon – standardhälbe ruut.
Variatsioonikordaja – tunnuse standardhälbe ja keskmise väärtuse suhe.
5) Jooniste kasutamine tunnuste iseloomustamiseks, eri jooniste tüübid, histogramm .
Sagedamini kasutatavad jooniste tüübid tunnuse jaotuse esitamiseks :
• Tulpdiagramm - kategooriaid pole väga palju, Ordinaal - haridus , laste arv
Histogramm on tulpdiagramm, mille puhul väärtusklassile vastava tulba pindala on võrdeline väärtusklassi sagedusega
•Joondiagramm
•Ringdiagramm
Graafiku teljed peavad olema selgesti märgistatud ja varustatud tunnuse nime ja mõõtühikuga.
Telgedel on soovitav kasutada skaalapunkte koos nimede ja arvväärtustega. Vältida tuleks katkestusi skaalal
Joonise vorm ei tohi viia tendentslikule, eelarvamuslikule tõlgendusele ( numbrite ja kujude vastavus). Joonisel esitatud informatsioon peab olema õige, ei tohi olla omavahel vastuolus .
6) Sagedustabel , selles esitatavad näitajad.
Sagedustabel koosneb:

tunnuste üksikväärtuste või väärtuste vahemike loetelust
koos nende indiviidide arvuga, kelle puhul analüüsitava tunnuse väärtus ühtib vaadeldava konkreetse väärtusega või kuulub vastavasse väärtusvahemikku.

Indiviidide hulka saame mõõta:

“tükiarvu” ehk sageduse ehk absoluutse sagedusega;
suhtelise sagedusega, mis tähendab absoluutse sageduse suhet indiviidide koguarvusse.

7) Normaaljaotus , selle kohta käivad reeglid. Kolme sigma reegel

Kui valim oli moodustatud juhuvaliku teel, siis peaks ka mõõtmisvead olema juhuslikud, sest mõõtmise käigus kombineeruvad mitmed üksteisest sõltumatud juhuslikud tegurid.
Tõenäosusteoorias on leitud, et suure arvu juhuslike sõltumatute ühetaolise jaotusega tegurite summat saab pidada normaaljaotusega juhuslikuks suuruseks.
Seega: mõõtmisviga võiks olla tüüpiliseks normaaljaotusega juhusliku suuruse näiteks.
Normaaljaotuse ehk Gaussi jaotuse graafik on kellukakujuline (inglise keeles „bell curve“) ja seda nimetatakse ka Gaussi kõveraks.

Normaaljaotus on ühetipuline keskväärtuse (keskmise) suhtes sümmeetriline jaotus.
Normaaljaotuse standardtähistuseks on N(μ,σ)
Keskmine (μ, ka m) määrab jaotuse raskuskeskme asukoha, standardhälve (σ, ka s) aga kõvera kuju.
Mida suurem on standardhälve, seda väiksema järsakusastmega on kõver.
Kõvera ja horisontaaltelje vahele jääva pinnaosa pindala näitab, kui tõenäone on juhusliku suuruse sattumine vaadeldavale lõigule.
Ka keskmisest kaugel olevad väärtused on võimalikud, kuid vähetõenäosed.

Standardiseeritud normaaljaotus N(0,1)
Muude parameetritega normaaljaotused on võimalik teisendada standardiseeritud normaaljaotuseks

Normaaljaotusega tunnuse väärtuste ulatust saab iseloomustada standardhälbega.
Kolme sigma reegel:
99,7% normaaljaotuse väärtustest asub arvude μ-3σ ja μ+3σ vahel.
Seega 99,7% normaaljaotuse väärtustest asub keskmisest +/- 3 standardhälbe ulatuses.
Kahe standardhälbe ulatuses keskmisest ühes ja teises suunas paikneb 95,5% väärtustest ja ühe standardhälbe kaugusel asub 68,3%.
Normaaljaotuse sagedamini kasutatavad kvantiilid:
mediaan = 0
alumine kvartiil = -0,675; ülemine kvartiil = 0,675
1% = -2,58 99% = 2,58
2,5% = -1,96 97,5% = 1,96
5% = -1,65 95% = 1,65
Seega

Valikuuringu korral tuleks tulemuste üldistamisel valimilt üldkogumile arvestada võimaliku veaga
Suurte arvude seadus: Küllalt suure katsete arvu korral erineb sündmuse toimumise suhteline sagedus tavaliselt küllalt vähe sündmuse tõenäosusest (Tooding 2007: 49).
- Paljude mõõtmistulemuste keskmine on tegelikule keskmisele väga lähedal
Seega saab välja arvestada, kui palju me tüüpiliselt juhuvalimit tehes võiksime eksida.

Vahemikhinnang - saadud hinnangule (näiteks keskmisele) lisatakse teatav eksimisvahemik, mis on võimalik välja arvutada eeldusel, et eksimused on juhuslikud.
8) Usalduspiirid, millal kasutada ja mis nende laiust mõjutab. Mida vaja, et arvutada usalduspiire.

Suurte arvude seadus: Küllalt suure katsete arvu korral erineb sündmuse toimumise suhteline sagedus tavaliselt küllalt vähe sündmuse tõenäosusest (Tooding 2007: 49).
- Paljude mõõtmistulemuste keskmine on tegelikule keskmisele väga lähedal
Seega saab välja arvestada, kui palju me tüüpiliselt juhuvalimit tehes võiksime eksida.

Vahemikhinnang- saadud hinnangule (näiteks keskmisele) lisatakse teatav eksimisvahemik, mis on võimalik välja arvutada eeldusel, et eksimused on juhuslikud.
Seda eksimisvahemikku nimetatakse usaldusvahemikuks. Vahemiku ülemist ja alumist piiri
nimetatakse usalduspiirideks.

Punkthinnangu puhul ei kasutata tavaliselt täiendavaid eeldusi uuritava tunnuse jaotuse kohta, vahemikhinnangu korral aga küll.
Tihti on eelduseks , et tunnus oleks normaaljaotusega.

Eksimist tulemuste üldistamisel valimilt üldkogumile me täielikult vältida ei saa. Seepärast kehtestatakse lubatava eksimise piir ehk usaldusnivoo .
Näiteks usaldusnivoo 95% tähendab, et lubame endale järeldustes eksimist maksimaalselt 5%. Sel juhul α on 5%.
Normaaljaotusega tunnuse puhul on teada, milliste punktide vahel on 95% tunnuse väärtustest (umbes keskmine +/- 2 standardhälvet).
Usaldusnivoo ei pea olema tingimata 95%, see võib uurija soovi korral olla ka laiem või kitsam.

Usaldusvahemik on seda laiem, mida:

Suurem on tunnuse hajuvus
Väiksem on valimi maht
Suurem on usaldusnivoo

Usaldusvahemik on seda kitsam, mida:

Väiksem on tunnuse hajuvus
Suurem on valimi maht
Väiksem on usaldusnivoo

Usaldusvahemiku puhul on tegemist tunnuse väärtuste piirkonnaga, kus teatud tõenäosusega asub üldkogumi tegelik keskmine.
Täpset üldkogumi keskmise asukohta me enamasti ei tea.

Kuidas saada teada, kas keskmised erinevad piisavalt palju, et kinnitada gruppide erinevust ka üldkogumil?

1. võimalus: vaadata, kas usalduspiirid kattuvad.
Kui usaldusvahemikud ei kattu, siis võime öelda, et (valitud nivool ) on tegemist statistiliselt olulise erinevusega.

Kui usaldusvahemikud kattuvad, siis tuleb kõne alla võimalus, et üldkogumi keskmine mõlema tunnuse (või grupi) puhul samas kohas.

2. võimalus: Hüpoteeside kontrollimine

Statistiliseks hüpoteesiks nimetatakse mis tahes oletust otseselt või kaudselt kas üldkogumi jaotuse kohta tervikuna või jaotuse mõne parameetri (näiteks keskmise) kohta, kusjuures seda oletust kontrollitakse valimi põhjal.

Võiks kontrollida oletust, kas keskmised hinnangud uuringus on erinevad ka üldkogumil (mitte ainult valimil, ) ehk kas hinnangute erinevus ei ole 0.
9) Hüpoteeside kontrollimine.

Hüpoteesid püstitatakse paaridena nullhüpoteesist ja alternatiivhüpoteesist.
Alternatiivhüpoteesi nimetatakse ka sisukaks hüpoteesiks.
Alternatiivhüpoteesis sõnastatakse tavaliselt see, mida tahetakse tõestada.
Nullhüpoteesiga väidetakse teatavas mõttes vastupidist alternatiivhüpoteesile.
Hüpoteesid sõnastatakse nii, et üks neist peab alati kehtima.

Statistilisi hüpoteese analüüsitakse hüpoteeside kontrollimise teel, kasutades valimit. Kontrollimisel on kaks võimalikku tulemust:

Nullhüpotees kummutatakse ja võetakse vastu alternatiivhüpotees, millega alternatiivhüpotees ongi tõestatud, sest leidus vähemalt üks valim, mille korral nullhüpotees ei pea paika.
Nullhüpoteesi ei saa kummutada ja alternatiivhüpoteesi vastu võtta, mistõttu jäädakse nullhüpoteesi väite juurde, kusjuures ei saa öelda, et sellega oleks nullhüpotees tõestatud.

Seega: alternatiiv - ja nullhüpotees pole samaväärsed. Tõestada saab ainult sisukat ehk alternatiivhüpoteesi.
Vead hüpoteeside kontrollimisel:

Esimest liiki viga tekib üldkogumis kehtiva, õige nullhüpoteesi kummutamisel valimi alusel ehk teisisõnu üldkogumi jaoks vale alternatiivhüpoteesi vastuvõtmisel.
- Kui väidame, et TÜR keskmine on kõrgem kui LR oma, aga tegelikkuses see nii pole, siis teeme esimest liiki vea.
Teist liiki viga tekib üldkogumi seisukohalt õige alternatiivhüpoteesi kõrvalejätmisel ja vale nullhüpoteesi juurde jäämisel. See on siis õige alternatiivhüpoteesi mitteäratundmise viga.
- Kui väidame, et TÜR ja LR keskmised ei erine üksteisest, kuid tegelikult erinevad, siis teeme teist liiki vea.

Vea suurust mõõdetakse tõenäosusega seda viga teha.
10) Olulisuse tõenäosus ja olulisuse nivoo.

Valikuuringu korral tuletatakse järeldused üldkogumi kohta valimi analüüsi teel.
Valimi enda kohta käivad kõik järeldused täpselt, üldkogumi kohta aga teatava veavõimalusega.
Vea suurust iseloomustatakse eksimise tõenäosusega p (olulisuse tõenäosus).
Kuna eksimist tulemuste üldistamisel valimilt üldkogumile me täielikult vältida ei saa, on levinud usaldusnivoo kasutamine. See tähendab, et järelduste tegemisel lubatakse endale teatavat eksimisvõimalust.
Seega, usaldusnivoo on meie enda poolt seatud piir.
Olulisuse tõenäosus tuleneb andmetest.

Statistiline hüpoteesipaari kontrolli protseduur on üles ehitatud nii, et olulisemaks peetakse esimest liiki vea vältimist. Sel põhjusel määratakse hüpoteesipaari kontrollimisel eelnevalt kindlaks esimest liiki vea ülempiir, mida nimetatakse olulisuse nivooks.
Hüpoteesipaari kontrollimisel tehakse järeldus nii, et esimest liiki vea tõenäosus ei ületaks olulisuse nivood . Mida väiksem on olulisuse nivoo, seda tõsikindlam on tulemus, kuid seda raskemini õnnestub alternatiivhüpoteesi vastu võtta.
Olulisuse nivoo valib uurija tavaliselt ise. Enam levinud on sotsiaalteadustes 5%-line olulisuse nivoo.
Kui valida ülesandes nullhüpoteesi väiteks soovitule vastupidine väide, siis saavutatakse olukord, mil esimest liiki vea vähendamine on sisuliselt olulisem siht.

Hüpoteeside kontrollimise käigus arvutatakse välja ka olulisuse tõenäosus – tõenäosus teha esimest liiki viga (tähistus p)

Kui
p > olulisuse nivoo jääda nullhüpoteesi juurde
p p – olulisuse tõenäosus
Olulisuse nivoo – maksimaalne eksimise piir, mida me endale lubame
Sammud hüpoteeside kontrollimisel:
1) Sõnastada sisuline hüpotees .
2) Leida, millised mõõdetud tunnused võimaldavad püstitatud hüpoteesi kontrollida.
3) Sõnastatakse sisukas hüpotees (ehk alternatiivhüpotees), mis väljendab soovitava väite tõesust ja sellele vastupidine nullhüpotees.
Kahepoolne sisukas hüpotees - kas hinnangud on samad või erinevad.
Juhul kui uurija omab uuritava nähtuse kohta mingit eelteavet, võib kasutada ka ühepoolset sisukat hüpoteesi – kas keskmine hinnang on kõrgem või madalam teisest.
4) Määratakse millist olulisuse nivood soovitakse kasutada.
Näiteks: 0,05
5) Leitakse, missugust testi saab püstitatud hüpoteesi kontrollimiseks kasutada. (nt T-test).
6) Arvutatakse andmestiku põhjal välja teststatistiku väärtus.
7) Leitakse teststatistikule vastav olulisuse tõenäosus.
8) Kui olulisuse tõenäosus on väiksem kui valitud olulisuse nivoo (ehk maksimaalne eksimise tõenäosus, mida me endale lubame), siis on sisukas hüpotees tõestatud.
9) Kui olulisuse tõenäosus on suurem kui olulisuse nivoo, siis jääb hüpotees tõestamata.
Hüpoteeside kontrollimisel ei ole mõtet:

kõikse uuringu korral
juhul, kui valim ei ole esindav ja tema disain ei ole teada

Hüpoteeside kontrollimine hii-ruut statistiku puhul:

Hii-ruut-statistiku puhul on teada, kuhu piirkonda peaksid nullhüpoteesi kehtimisel tema väärtused jääma.
Kui hii-ruut-statistiku väärtus on sellest piirist suurem, võib arvata, et ka üldkogumil on vaadeldud tunnuste vahel seos olemas.

11) T-test keskmiste võrdlemiseks.
Valemis: m – keskmine, s – standardhälve, n – vastanute arv
Teststatistikute (ka T-statistiku) kohta on teada, missuguses vahemikus peaksid olema nende väärtused siis, kui kehtib nullhüpotees. Kui valimi põhjal arvutatud teststatistiku väärtus sellesse vahemikku ei sobi, siis on tema olulisuse tõenäosus p väga väike. Sel juhul kummutatakse nullhüpotees ja võetakse vastu sisukas hüpotees (mis ongi tulemus, mida me soovisime).
Kui olulisuse tõenäosus on väiksem kui valitud olulisuse nivoo (ehk maksimaalne eksimise tõenäosus, mida me endale lubame), siis on sisukas hüpotees tõestatud.
Kui olulisuse tõenäosus on suurem kui olulisuse nivoo, siis jääb hüpotees tõestamata.
Kui
p > lubatav viga jääda nullhüpoteesi juurde
p p – olulisuse tõenäosus
12) Risttabel , protsendid risttabelis.
Risttabel on selline tabel, kus on esitatud vastajate jaotus kahe tunnuse lõikes.
Risttabeli elementideks on read, veerud ja lahtrid , mille järgi nimetatakse ka tabelisse märgitavaid protsente.
•Rea protsendid: mitu % selle rea inimestest kuulub ühte või teise veergu.
• Veeru protsendid: mitu % selle veeru inimestest kuulub ühte või teise ritta.
•Üldised protsendid: mitu % selle tabeli inimestest kuulub ühte või teise lahtrisse.
13) Hii-ruut-statistik, selle kasutamine seose uurimiseks risttabelis, Crameri V, milliste tunnuste puhul kasuatatakse hii-ruut statistikut. järjestus- ja nominaaltunnused
•Tunnuste vahel on statistiline seos siis, kui ühe tunnuse käitumine sõltub teise tunnuse väärtustest. Näiteks kui inimese valimiseelistus sõltuks tema soost.
•Uurides seost nominaaltunnuste vahel võetakse appi risttabel.
•Seost risttabelis mõõdetakse hii-ruut-statistiku (²-statistiku) abiga. Hii-ruut-statistiku idee:
•Kõrvutada reaalset (näiteks küsitluse tulemusena tekkinud) risttabelit sellise risttabeliga, mille saaksime kui tunnuste vahel ei oleks statistilist seost.
Näiteks: milline näeks välja vastajate valimiseelistus siis, kui mehed ja naised ei pooldaks erinevaid kandidaate.
•Hii-ruut statistiku arvutamisel võrreldakse omavahel tegelikku tabelit ja seda tabelit, milles seost pole.
•Kui nende tabelite erinevus on suur, siis on ka hii-ruut-statistik suure väärtusega.
•Kui need tabelid on täpselt ühesugused, on hii-ruut-statistiku väärtuseks 0.
Seega: leitakse, kui palju tegelik jaotus erineb hüpoteetilisest jaotusest
•Hii-ruut-statistik on 0 siis, kui tegelik ja teoreetiline ( hüpoteetiline ) jaotus langevad täielikult kokku. Sel juhul tunnuste vahel seos puudub.
•Hii-ruudu maksimum sõltub sellest, kui suur on tabel (lühema külje pikkus) ja vastanute arv.
•Kuna erineva tabeli suuruse ja erineva indiviidide arvu põhjal arvutatud hii-ruut-statistikud ei ole omavahel võrreldavad, on hii-ruut-statistikust tuletatud mitmeid muid seosekordajaid.
Crameri V
•Kui tunnused on sõltumatud, siis 0; tugevaim seos 1.
•Saab kasutada sagedustabeli kuju ja kogumi suurust arvesse võtmata.

Hii-ruut-statistiku kasutamisel oleks vajalik, et selle aluseks olevas tabelis ei oleks tühje (või väga väikese vastajate arvuga) lahtreid.
Et neid vältida, on vahel kasulik tunnuseid ümber kodeerida: liita mõned väga väheste vastajate arvudega grupid või kategooriad kokku.

Ümberkodeerimise puhul tuleb aga silmas pidada, et liidetud gruppide sees ilmnenud erinevused lähevad siis kaotsi.
14) Hajuvusdiagramm(HD) ja korrelatsioonikordajad seose uurimiseks kahe arvtunnuse vahel. Probleemid korrelatsioonikordajate kasutamisel.
HD- mitteteaduslikes töödes, punktid, kuhu poole kaldu, kasvav - suundumus alt üles. Kui punktid kindlalt kuskile poole välja veninud, siis tugev seos.
•Kasvav seos
Ühe tunnuse suured väärtused esinevad sageli koos teise tunnuse suurte väärtustega. Ühe tunnuse väikesed väärtused esinevad koos teise tunnuse väikeste väärtustega.
•Kahanev seos
Ühe tunnuse suur väärtus esineb koos teise tunnuse väikese väärtusega.
•Seos puudub, tunnused on sõltumatud
See, milline on ühe tunnuse väärtus, ei mõjusta teise tunnuse väärtust.
Hajuvusdiagrammi põhjal saab anda esialgse hinnangu tunnuste vahelise seose tugevusele.
Lineaarne e Pearsoni korrelatsioonikordaja (KK) tähis r; y= 0x=0 - üldine keskmine
Korrelatsioonianalüüs - kui punktid 1 ja 3, siis kasvav; suurim +1, väikseim -1. Tugev seos - üle 0,5
Vastavalt sellele, milline on korrelatsioonikordaja märk, räägitakse positiivsest ja negatiivsest korrelatsioonist tunnuste vahel.
Lineaarse korrelatsioonikordaja väärtus asub –1 ja 1 vahel.
Kui tunnuste vahel on kasvav seos, on korrelatsioonikordaja positiivne. Ühe tunnuse väärtuste suurenedes teise tunnuse väärtused keskmiselt suurenevad.
Kui tunnuste vahel on kahanev seos, on korrelatsioonikordaja negatiivne. Ühe tunnuse väärtuste suurenedes teise tunnuse väärtused keskmiselt vähenevad.
Kui tunnuste vahel on täielik lineaarne sõltuvus , on korrelatsioonikordaja absoluutväärtus võrdne ühega.
Kui korrelatsioonikordaja väärtus on 0, siis öeldakse, et tunnused on mittekorreleeritud. Sellest ei järeldu aga, et need tunnused on sõltumatud.
•Korrelatsioonikordajate abiga saame mõõta tunnuste koosmuutuvust ehk kovariatsiooni.
•Seose sümmeetrilisus: enamasti ei saa öelda, kumb kumba põhjustab
Nõrgad kohad:

erindid - teistest väga palju erinevad uurimisobjektid .

Ainult lineaarne

Kaks erinevat punktiparve

Anscombe´i kvartett
•Kui tunnuste vahel on märgata ühist käitumist, siis ei pruugi see tegelikult alati tuleneda nendevahelisest sisulisest seosest.
•Olla ettevaatlik seoste tõlgendamisel: erindid; erinevad grupid; seos, mis tuleneb mingitest kõrvalistest tunnustest/nähtustest
Spearmani astakKK, astak - in. järjekorra nr.
Soo, rahvuse lõikes ei saa korrelatsiooni kasutada. Kasutatakse arvtunnuste puhul.
•Spearmani korrelatsioonikordaja kasutab mõõtmistulemuste asemel nende astakuid.
•Astakkorrelatsioonikordaja väärtus vaatab tunnuse väärtuste järjestust.
•Seetõttu pole astakkorrelatsioonikordaja ka nii tundlik erindite suhtes.
•Võib teatud mööndustega kasutada ka järjestustunnuste puhul.

.DOCX Laadi alla originaalfail 11 lk · .docx · 21 allalaadimist

Andmeanalüüsi kordamisküsimused 2015 #10

Andmeanalüüsi kordamisküsimused 2015 #11

50 punkti Autor soovib selle materjali allalaadimise eest saada 50 punkti.

~ 11 lehte Lehekülgede arv dokumendis

2015-12-26 Kuupäev, millal dokument üles laeti

21 laadimist Kokku alla laetud

0 arvamust Teiste kasutajate poolt lisatud kommentaarid

dulcinea Õppematerjali autor

Andmeanalüüsi kordamisküsimused vastustega eksamiks

andmeanalüüs kordamisküsimused eksam Uurimistsükkel Nominaal-tunnus Arvtunnus

Sarnased õppematerjalid

docx

Kordamiskusimused infoteadus

Andmeanalüüs 1)Uurimistsükkel: millised etapid eelnevad ja järgnevad andmeanalüüsile. Eelnevad: Uurimusprobleem, uurimusmeetodi valik (kvantitatiivne, kombineeritud, kvalitatiivne), valimi koostamine, andmestiku loomine. Järgnevad: Andmete analüüsimine ja tulemuste esitamine. Millised on alternatiivid kvantitatiivsetele meetoditele. kombineeritud, kvalitatiivne 2) Ankeedi koostamine: mida tuleks silmas pidada hea ankeedi koostamisel; küsimuste tüübid, vastuste tüübid. Võimalikult lühike, viisakalt sõnastatud, lihtsa grammatikaga, sisaldab infot ühe teema kohta, sama tähendusega kõigi jaoks, sobival spetsiifilisuse tasemel Ankeedi struktuur, sissejuhatus, miks uurimust tehakse, anonüümsus, võimalik tasu, tulemuste esitus, kontaktandmed, tänud juba ette, lihtsamad küsimused, avaküsimused, keerulised ja põhiküsimused. Sotsiaal-demograafilline osa, lõpusõna ja tänud. Küsimuste tüübid: Avatud ( vastaja vastab oma sõnadega) Suletud (vastajal

Infoteadus

docx

Kvant met

Kvant met 40% EKSAM 25% KT 25% 10% Kirjandus: SAMM, Tooding L-M jne Uurimisprobleemi püstitamine (sots)teaduses: Probleemi leidmine ja teema sõnastamine Probleemipüstituse põhjendus Kuidas ma saan aru, et see on selline probleem, mida tasub uurida? Selle praktiline tähtsus, seos teiste valdkondadega, takistavad tegurid selle uurimisel Täpsustamine Millist osa ma sellest probleemist uurida tahan? Alamülesanded v teemad Kas ja mida varasemast teada on? Teooriad, varasemad uurimused Operatsionaliseerimine Kuidas defineerida Kuidas mõõta, uurida Analüüsimeetodi valik Sotsiaalsete probleemide konstrueerimine Sots.teaduses on uurija oma uurimisobjekti (ühiskonna) osa ja mõjutab seda enda tegevusega Statistika kui relv (sots)poliitikas Numbrilised väited sots elu kohta (n-ö objektiivsed) Sots probleemide tõlgendus, põhjendus Sots probleem: kas see on olemas v on see kellegi poolt konstruee

Ainetöö

doc

Andmeanalüüsi kordamisküsimused

Andmeanalüüs Kordamisteemad 1) Uurimistsükkel: millised etapid eelnevad ja järgnevad andmeanalüüsile. Uurimisprobleem, kust probleem tuleb, teooria, praktiline probleem, varasemad uurimused Konkreetsed uurimisküsimused: mida teada tahan, millistele küssadele tahan vastust, hüpoteeside sõnastamine. Uurimismeetodid: Millised meetodid aitavad lahendada. Kvantitatiivsed meetodid- kui palju midagi esineb, arvuline, suhteliselt palju uuritavad. Kvalitatiivsed meetodid- Kuidas midagi kirjaldatakse, sõnaline, vähem uuritavad. Kombineeritud meetodid- kasut koos. Andmed.kas olemas või vaja koguda. Keda uurida: kas valim või üldkogum. Kuidas andmeid koguda: küsitlus, intervjuu, Vaatlus Andmete sisestamine ja analüüs, tulemuste esitamine ja järelduste tegemine 2) Ankeedi koostamine: mida tuleks silmas pidada hea ankeedi koostamisel; küsimuste tüübid, vastuste tüübid. Ankeedi struktuur · Sissejuhatus: miks uurimust tehakse, anonüümsus, võimalik tasu, tulemuste esi

andmeanal��s

doc

Andmeanalüüs sots.teadustes

MAINORI KÕRGKOOL Juhtimise instituut Annika Krutto ANDMEANALÜÜS SOTSIAALTEADUSTES Loengukonspekt Tartu 2009 SISUKORD SISSEJUHATUS...........................................................................................................................3 1. ANDMEANALÜÜSI põhimõisted ......................................................................................... 3 1.1 Üldkogum ja valim............................................................................................................... 3 1.2. Valimi valikumeetodid.........................................................................................................4 1.3. Mõõtmismeetod ja mõõtmisvahend ....................................................................................5 1.4. Andmetabel..........................................................................................................................7 2. Val

Uurimustöö metoodika

docx

Andmetöötlus alused

Kordamine arvestustööks 1. Mis on üldkogum? Üldkogumehk populatsioon huvialuste objektide hulk (lõpmatu). on objektide (nähtuste, isendite, protsesside) hulk, mille kohta soovitakse teha teaduslikult põhjendatud järeldusi 2. Mis on valim? Esinduslik valim. Valimmõõdetud objektide hulk (lõplik). on üldkogumist eraldatud objektide hulk, mille mõõtmise ja vaatlemise alusel tehakse järeldusi üldkogumi kohta. Igal üldkogumi elemendil peab olema võrdne võimalus valimisse sattumiseks Esinduslik valim -valimisse saGunud isikud peavad esindama populatsioonis esinevaid uuritavaid tunnuseid 3. Mis on andmestik? Rühmitamata ja rühmitatud andmestik. 4. Arvuline tunnus pidev, diskreetne. Pidevvõib omada väärtusi mingil lõigul. Diskreetnearvuliste tunnuste võimalike väärtuste hulk on lõplik või loenduv. 5. Mittearvuline tunnus järjestustunnus, nominaaltunnus. Järjestustunnusmittearvuline tunnus, mille väärtused on järjestatavad (Krafti klass

Andmetöötlus alused

docx

Andmetöötluse arvestustööks kordamismaterjalid

1. Mis on üldkogum?..............................................................................................................3 2. Mis on valim? Esinduslik valim.........................................................................................3 3. Mis on andmestik? Rühmitamata ja rühmitatud andmestik...............................................3 4. Arvuline tunnus – pidev, diskreetne...................................................................................3 5. Mittearvuline tunnus – järjestustunnus, nominaaltunnus...................................................3 6. Mis on juhuslik suurus?......................................................................................................3 7. Kuidas on defineeritud jaotusfunktsioon? Jaotusfunktsiooni skitseerimine, graafikult lugemine (kvantiil, kvartiil, mediaan, täiendkvantiil)............................................................3 8. Mis on juhusliku suuruse p-kvantiil? Mis on juhusliku suuruse

Kategoriseerimata

docx

Andmetöötluse kordamine

Kordamine arvestustööks 1. Üldkogum (uurimisobjekt, populatsioon) on teatud nähtuste (objektide) hulk, mida soovitakse objektiivsete meetoditega tundma õppida. 2.. Valimiks nimetatakse teatud hulka üldkogumi elemente, mille mõõtmisandmed on uurija käsutuses. Esinduslik valim. 3. Valimi mõõtmisandmed moodustavad andmestiku. Rühmitamata ja rühmitatud andmestik. 4. Arvuline tunnus pidev, diskreetne. Pidev võib omada väärtusi mingil lõigul. Diskreetne arvuliste tunnuste võimalike väärtuste hulk on lõplik või loenduv 5. Mittearvuline tunnus järjestustunnus, nominaaltunnus. Järjestustunnus mittearvuline tunnus, mille väärtused on järjestatavad (Krafti klass, puistu Orlovi boniteet). Nominaaltunnus mittearvuline tunnus, mille väärtused pole järjestatavad. 6. Juhuslik suurus ehk juhuslik muutuja suurus või muutuja, mille väärtus enne mõõtmist või katset ei ole teada. 7. Kuidas on defineeritud jaotusfunktsioon? Jaotusfunktsiooni skitseeri

Andmetöötlus

docx

Statistika kordamisküsimused

1. MÕÕTMINE Mõõtmine on objektide võrdlemine - Korraga saab võrrelda ainult kaht objekti omavahel. Kui objekte palju, valitakse välja üks (etalon) ning teisi võrreldakse sellega. Otsene mõõtmine ja kaudne mõõtmine – otseste mõõtmiste kaudu Nimi- ehk nominaalskaala – objektide eristamiseks – sugu, rahvus, huvid, kaubakood, ettevõtte registrinumber Järjestusskaala – võimaldab objekte järjestada mingi tunnuse alusel – nt ettevõtted: väikesed, keskmised, suured – küsitlus: "poolt", pigem poolt kui vastu", "pigem vastu kui poolt", "vastu" – intervallid skaalajaotuste vahel pole võrdsed Intervallskaala – skaalajaotuste intervallid on võrdsed  Vahemikskaala – nullpunkti asukoht kokkuleppeline – ajaskaala, Celsiuse skaala temperatuuri mõõtmiseks – võib leida vahesid, ei tohi leida suhteid  Suhteskaala – nullpunkt fikseeritud absoluutselt – objekti pikkus, kaal, töötajate arv, käive, m

Statistika

Rohkem sarnaseid