Andmeanalüüsi konspekt (0)

Q: Kuidas testida normaaljaotust?

Vastus leiad õppematerjalist: Andmeanalüüsi konspekt

Q: Mida näitab väljundiaken Output?

Vastus leiad õppematerjalist: Andmeanalüüsi konspekt

Q: Kuidas aga lahendada olukorda kus on mitu erinevat sõltumatut muutujat millel omakorda on mitu taset?

Vastus leiad õppematerjalist: Andmeanalüüsi konspekt

Q: Kuidas me hüpoteesi uurima hakkame?

Vastus leiad õppematerjalist: Andmeanalüüsi konspekt

Q: Mida täpsemalt vaadata?

Vastus leiad õppematerjalist: Andmeanalüüsi konspekt

Q: Mis juhtub siis kui parameetriliste testide parameetrid ehk eeldused siin kontekstis ei ole täidetud?

Vastus leiad õppematerjalist: Andmeanalüüsi konspekt

Q: Kust leida mitteparameetrilised testid?

Vastus leiad õppematerjalist: Andmeanalüüsi konspekt

Tartu Ülikool - Informaatika - Andmeanalüüs

5 VÄGA HEA

Esitatud küsimused

Kuidas testida normaaljaotust?
Mida näitab väljundiaken Output?
Kuidas aga lahendada olukorda kus on mitu erinevat sõltumatut muutujat millel omakorda on mitu taset?
Kuidas me hüpoteesi uurima hakkame?
Mida täpsemalt vaadata?
Mis juhtub siis kui parameetriliste testide parameetrid ehk eeldused siin kontekstis ei ole täidetud?
Kust leida mitteparameetrilised testid?

ANDMEANALÜÜSI KONSPEKT

Sisukord

Andmefailid SPSS ’is 2
Normaaljaotuse kontroll 2
ANOVA vs T-test 2
ANVOA või regressioonanalüüs 3
Efekti suurus 3
Andmeanalüüs SPSS’is 4
Kirjeldav statistika 4
Kuidas testida normaaljaotust? 4
Sagedustabeli analüüs (Hii-ruut) 5
Ühesuunaline ANOVA 5
Faktoriaalne ANOVA 6
Korduvmõõtmsite ANOVA (Repeated measures ANOVA) 6
Kurskall-Wallise test (e. mitteparameetriline ANOVA) 7
T-test sõltumatute gruppidega 7
T-test sõltuvate gruppidega 8
Mann -Whintey U Test (e. mitteparameetriline t-test) 8
Korrelatsioon 9
Lineaarne (paaris) regressioon 10
Logistiline regressioon 11

Andmefailid SPSS’is

1) Sõltumatute gruppidega katseplaan
KI
valed
6iged
VAS
vanus
sugu
katsetingimus
1
5
3
1,4
21
m
1
5
9
1
1,1
21
m
1
9
4
5
0,6
22
n
1
21
21
1
6
19
n
1
17
26
3
2,8
22
n
1
27
13
2
0,9
21
n
1
30
2
6
5,6
24
m
1
Analüüs - Faktoriaalne ANOVA (two way ANOVA)
2) Sõltuvate gruppidega katseplaan
Sugu
Maskuliinsed sõnad
Vabalt valitud sõnad
Feminiinsed sõnad
mees
10
13
7
naine
12
8
8
mees
6
18
12
mees
12
10
12
mees
10
12
10
naine
12
15
14
naine
10
6
12
naine
13
15
11
Analüüs - Korduvmõõtmiste ANOVA
NB! Sugu on katseisikute vaheline (between subject ) faktor. Tegemist on seega segatüüpi disainiga – faktor „sõnade tüüp“ on kõikidel katseisikutel sama, faktor „sugu“ jaotab katseisikud kahte gruppi.

Normaaljaotuse kontroll

Enne parameetrilise testi tegemist tuleks kontrollida muutujate normaaljaotust
SPSS’is on selleks kaks testi: Shapiro Wilki test (väiksemate valimite puhul, kuni 2000) ja Kolmogorov Smirnov (n > 2000)
Analyze -> Descriptive Statistics - > Explore -> Plots
Kui p > .05 siis on normaaljaotusega (st nullhüpotees – on normaaljaotusega)
NB! kui asümmeetriakordaja (ingl. k. skewness ) ja ekstsess (ingl. k. kurtosis) on vahemikus -1 kuni 1, siis võib pidada andmeid normaaljaotusele vastavaks

ANOVA vs T-test

Esimest liiki viga tekib siis, kui võetakse vastu alternatiivne hüpotees, aga tegelikult on õige nullhüpotees (raske viga; näidatakse erinevuse või seose olemasolu, mida tegelikult pole).
Teist liiki viga tekib siis, kui jäädakse nullhüpoteesi juurde, ehkki tegelikult on õige alternatiivne hüpotees. See on kergem viga, mis tihti tähendab, et alternatiivse hüpoteesi tõestamiseks tuleb andmeid juurde koguda.
Iga kord kui teete t-testi on I tüüpi vea tõenäosus 5 % (olulisusnivoo 0.05). Kui teete mitu testi, siis suureneb tõenäosus leida vale positiivseid tulemusi.
ANOVA kasutamine hoiab I tüüpi vea tõenäosuse 5% peal.
Kui võrdlete omavahel rohkem kui kahte gruppi, siis tuleks alati eelistada ANOVA’t.

ANVOA või regressioonanalüüs

Kui meil sõltumatu muutuja koosneb kategooriatest, siis on parem kasutada ANOVA’t.
Kui sõltumatu muutuja on pidev tunnus, siis on parem kasutada regressiooni.
ANOVA’ga hinnatakse gruppide keskmiste erinevust.
Regressiooniga saab ennustada sõltuva muutuja väärtust prediktori (sõltumatu muutuja) väärtuste põhjal.

Efekti suurus

Efekti suurus on statistiline näitaja, mis võimaldab lisaks statistilisele olulisusele kirjeldada gruppidevahelisi erinevusi. Efekti suurust saab väljendada mitmete statistikutega; ilmselt levinuim on Cohen -i d. Kokkuleppeliselt tähistavad Cohen’i d väärtused väikest efekti väärtusel d = 0.2; keskmise suurusega efekti väärtus on d = 0.5; suure efekti väärtuse algus on d = 0.8.
SPSS-is ei ole funktsiooni/käsklust, millega saaks paari kliki abil efekti suurust (st Coheni d-d) kätte. Seega on mõned alternatiivid – kiirelt Coheni d arvutamiseks saab kasutada kalkulaatorit, mis asub aadressil http://www.uccs.edu/~lbecker/ . Siin pole muud kunsti, kui et tuleb väärtused lahtritesse sisestada ( kasutage punkti, mitte koma ).
Mitteparameetriliste testide puhul on aga vaja kasutada teistsuguseid kalkulaatoreid. Erinevaid efekti suurusi saab arvutada leheküljel https://www.psychometrica.de/effect_size.html

Andmeanalüüs SPSS’is

Kirjeldav statistika

Kui me tahame teadmisi andmestiku kohta, kas kirjeldavat või järeldavat, pöördume menüüribal oleva käskluse Analyze poole. Käesolevas praktikumis vaatame kirjeldava statistika võimalusi selle käskluse alt.
Valige Analyze käskluse alt Descriptive statistics ning sealt edasi Frequencies..., avaneb järgnev dialoogikast:
?
Joonisel näete, et vasakul on muutujad. Kui te tahate mingi muutuja kohta kirjeldavat informatsiooni, viige see muutuja paremale poole (joonisel tühi kast). Seejärel klikake käsklusele Statistics. Sealt saate erinevate vajalike kirjeldavate statistikute arvutamist „ tellida “. Charts all on võimalik kasutada histogrammi joonistamise võimalust.
Joonisel olev küsimärk käib osutatud linnukese kohta. Display frequency tables annab käskluse moodustada iga pikkuse kohta sagedustabel . Küsimärk on juurde tehtud, et uurida, kas sellise tabeli koostamine on vajalik. Mis on tabelite ja jooniste eesmärk?

Kuidas testida normaaljaotust?

Selleks järgige järgmist käskluste rida: Analyze-> Descriptive Statistics-> Explore-> (ärge unustage valida sõltuvateks muutujateks ruumiline mõtlemine ja sõnavara ning sõltumatuks muutujaks sugu)
Plots-> Normality Plots with tests
Võite ära märkida, et tahate joonist histogrammi kujul. Kui olete need sammud ära teinud, peaks teil tulema alljärgnev tabel:
Tests of Normality
Sugu
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic
df
Sig.
Statistic
df
Sig.
ruumiline
mees
,093
608
,000
,974
608
,000
naine
,071
742
,000
,985
742
,000
Sõnavara
mees
,091
608
,000
,988
608
,000
naine
,071
742
,000
,989
742
,000
a. Lilliefors Significance Correction
Selleks, et vastata küsimusele – kas on tegemist normaaljaotusega või mitte – peame esmalt välja nuputama, millist testi vaatame. Kolmogorov-Smirnov testi on mõttekas vaadata siis, kui valim on väga suur (tuhanded indiviidid), Shapiro-Wilk test on kohane väikese valimi puhul (u 50-2000 indiviidi). Meie andmestikus on 1350 inimest, seega võiks kasutada Shapiro-Wilk testi. Juurde tasub aga märkida, et mõlemad testid on üsna tundlikud äärmuslike väärtuste ning valimi suuruse suhtes, mistõttu teatud olukordades ei pruugi nende testi alusel tehtud otsustused olla täpsed!
Järgnevalt tuleb vaadata Sig.-i (olulisuse tõenäosus). Kui Sig on väiksem kui 0.05, siis ei ole testi(de) kohaselt andmed normaaljaotuslikud. Kas meie ülesandes on andmestik selle testi kohaselt normaaljaotusega?
Normaaljaotuse testimist saab testada mitmel juhul – eelpool oli kirjeldatud normaaljaotustesti. Samuti saab aga normaaljaotuslikkust vaadata asümmeetriakordaja, järsakusastme ning joonise abil. Lõppude lõpuks on andmeanalüütik see, kes peaks sisuliselt lahti mõtestama tulemused.
Nii asümmeetriakordaja kui ka järsakusastme väärtuse 0 korral loetakse andmestikku (ideaalselt) normaaljaotuslikuks; paraku on pisut ebarealistlik oodata käitumisteadustes säärast ideaalset jaotust. Seepärast on teadlased kokku leppinud, et kui asümmeetriakordaja ning järsakusaste jäävad -1 ja 1 vahele, võib sisuliselt rääkida normaaljaotusest.

Sagedustabeli analüüs (Hii-ruut)

Kahe kategoriaalse tunnuse analüüsimiseks saame kasutada Hii-ruut testi.
SPSS’is näeksid andmed välja järgmised:
Selle analüüsi tegemiseks SPSS’is järgige alltoodud käsklusi:
Analyze – Descriptives – Crosstabs

Avanenud aknas üks muutuja lahtrisse „Rows“ ja teine muutuja lahtrisse „Columns“.

Statistics aknast saate valida Hii-ruut analüüsi, tehke linnuke Chi- square ette.

Mida näitab väljundiaken (Output)?

Kõige olulisem on tabel Chi-Sqaure Test.
Vaadake rida " Pearson Chi-Square". Esimene number näitab Hii-ruut statistiku suurust, teine number vabadusastmeid ja kolmas number näitab p-väärtust. Kui p-väärtus on alla 0.05, siis on jaotustes oluline erinevus.

Ühesuunaline ANOVA

Kui sõltuv muutuja on pidev tunnus ja meil on üks sõltumatu muutuja rohkem kui 2 tasemega, siis saame kasutada ühefaktorilist ANOVAT – One-Way ANOVA. Selle analüüsi tegemiseks SPSS’is järgige alltoodud käsklusi:
Analyze – Compare Means – One-Way ANOVA

Avanenud aknas viite sõltuva muutuja kasti Dependent list, sõltumatu muutuja on Factor.

Ehkki ANOVA ise näitab, kas esineb gruppievahelisi erinevusi, siis dispersioonanalüüs ei näita, milliste gruppide vahel need erinevused on. Menüüst Post Hoc saate valida nn järeltesti ehk post hoc testi, mis analüüsib konkreetsete tingimuste vahelisi erinevusi. Kui grupidde hajuvused on sarnased, tuleks kasutada Tukey (HSD) testi, kui aga ei ole sarnased, on soovitatav kasutada Games -Howell testi.
Options aknast saate lisaks valida kirjeldavate statistikute kuvamise (Descriptive) ja samuti saate ka hajuvust testida (Homogeneity of variance test).

Mida näitab väljundiaken (Output)?

Kui valisite kirjeldava statistika kuvamise, siis see peaks olema esimene tabel, mis ANOVA puhul näidatakse. Seal on mh kajastatud gruppide suurused, nende keskmised mõõdetud parameetril, jms.
Järgmisena peaks olema hajuvustest – selle abil otsustaste, kumma post hoc testi tulemusi vaatate . Kui p> .05 (ehk ei ole statistiliselt olulist erinevust), on tegemist sarnase hajuvusega ning vaadata tuleks Tukey testi tulemusi; kui aga p Games-Howell testi tulemusi.
ANOVA tabel meid kõige enam huvitava küsimuse vastust – kas gruppide vahel on statistiliselt olulised erinevused või mitte. Sig (ehk olulisuse tõenäosus) annab meile vastuse. Kui p post hoc testi, et välja selgitada, kus täpsemalt on erinevus(ed).
Post hoc testide tabel näitab erinevate gruppide vahelisi võrdlusi. Oluline on siingi jälgida, millised nendest võrdlustest on statistiliselt olulised.

Faktoriaalne ANOVA

Kuidas aga lahendada olukorda, kus on mitu erinevat sõltumatut muutujat, millel omakorda on mitu taset? Sellist olukorda võiks näitlikustada ravimiuuringuga, kus vaadatakse kahe erineva ravimi mõju kahe erineva doosiga. Saaksime järgneva uuringu ülesehituse: 2 ( ravim 1, ravim2) x 2 (madal doos , kõrge doos) eksperiment . Eeltoodud kujul raporteeritakse tihtipeale faktoriaalset eksperimenti.
Faktoriaalse lahenduse puhul saab rääkida peaefekti(de)st ja interaktsioonist (koosmõjust). Eeltoodud näite puhul tähendab peaeefekt seda, et nt ainult ravimitüübist oleneb, kas ravi on efekti või ei – seevastu ravimi doos ei ole oluline; realistlikum on ehk teistpidi – doos on oluline, ent ravimitüüp mitte. Interaktsioon tähendab aga nt seda, et ravimite efektiivsus sõltub doosist – nt ravim1 on efektiivne siis, kui doos on kõrge, ravim2 on aga efektiivne siis, kui doos on madal.
Kõigi taoliste faktoriaalsete lahenduste puhul saab SPSS-is kasutada sama lahenduskäiku:
Analyze – General Linear Model – Univariate
Kui eeltoodud käsklus on sisestatud , siis on väga palju valikuid . Esmalt määratlege ära sõltuv muutuja ning sõltumatud muutujad (Fixed Factors).

Plots alt pange vanusegrupp horisontaalsele teljele ning sugu olgu eraldi joontena. Vajutage Add ning jätkake.
Post hoc käskluse alt võite valida mõlemad sõltumatud muutujad ning Tukey test.
Options alt valige sõltumatud muutujad ning nende interaktsioon. Display käskluse alt saate valida erinevate statistikute kuvamist. Enamasti tasub valida kirjeldavad statistikud, hajuvustest, efektisuurus ning võib valida ka statistilise jõu (statistical power ).
Kui olete kõik valikud ära teinud, teostage analüüs.

Väljundiaknas on mitmed tabelid ning üks joonis. Sarnaselt one-way ANOVA-ga on ka faktoriaalses lahenduses esmalt toodud kirjeldavad statistikud, seejärel hajuvustest, ANOVA-tabel ning post hoc analüüsid. Viimasena on joonis, mis ilmestab graafiliselt kas peamõju või interaktsiooni.
ANOVA tabel (ehk Test of Between- Subjects Effects) annab infot selle kohta, kas mudel, sõltumatute muutujate peamõjud ning interaktsioon on statistiliselt olulised. Lisaks on võimalik teada saada, mis on nende peamõjude ja interaktsiooni efekti suurus ja statistiline jõud.
Post hoc tabelid näitavad gruppide keskmisi. Kui nt analüüs näitab, et interaktsioon on statistiliselt oluline, siis tasub raporteerida seal tabelis toodud keskmised.

Korduvmõõtmsite ANOVA (Repeated measures ANOVA)

See on sarnane tavalise ANOVA-ga (One Way ANOVA). Tavalise ANOVA-ga võrdlesime erinevusi sõltumatute gruppide vahel. Korduvmõõtmiste ANOVA-ga saame võrrelda erinevusi sõltuvate gruppide korral. Eksperimentaalpsühholoogias kohtab seda analüüsi üsna sageli, sest eelistatakse kasutada katsedisaine, kus kõik katseisikud teevad kõik tingimused läbi (sõltuvate gruppidega katsedisain).
Korduvmõõtmistega andmete puhul peavad SPSS’is olema ühe katseisiku andmed ühel real :
Koruvmõõtmiste ANOVA analüüsi leiate:
Analyze – General Linear Model – Repeated Measures

Kurskall-Wallise test (e. mitteparameetriline ANOVA)

Kui parameetrilise ANOVA eeldused ei ole täidetud, on olemas ka mitteparameetriline analoog: Kruskall-Wallis test. SPSS-is jõuab sinna nii: Analyze – Nonparametric Tests – Legacy dialogs – K Independent Samples. Üldjoontes sarnaneb edasine lahenduskäik parameetrilise testi omale.
Kui teil on katses mitu sõltumatut muutujate, siis selle testi puhul peate analüüsima neid eraldi.
Post-hoc testide puhul peate samuti kasutama mitteparameetrilisi teste (vaadake peatükki „Mann-Whintey U Test (e. mitteparameetriline t-test)“).

T-test sõltumatute gruppidega

Kahe sõltumatu grupi keskmiste erinevuse uurimiseks kasutame kahe sõltumatu grupiga ( Student ’i) t testi.
Selleks, et keskmisi võrrelda(2 sõltumatut gruppi): Analyze – Compare Means – Independent Samples T Test.
Kuidas me hüpoteesi uurima hakkame? Esmalt väljundiaknas kuvatud tabelitest ja arvudest: Independent Samples T-testi tulemused ja nende tõlgendamine:
Group Statistics
Sugu
N
Mean
Std. Deviation
Std. Error Mean
matemaatika
1
608
9.46
4.516
.183
2
742
7.35
3.856
.142
Esimeses tabelis tuuakse ära mõlema grupi valimi suurus, aritmeetiline keskmine, standardhälve ja aritmeetilise keskmise standardviga.
Teise tabeli esimeses pooles tuuakse ära Levene’i test gruppide dispersioonide võrdlemiseks:
Teise tabeli teises pooles on info gruppide keskmiste võrdlemiseks:
Statistikas on saanud traditsiooniks kasutada olulisusnivoosid 0.01 (ehk 1%) ja 0.05 (ehk 5%). Valides olulisusnivooks 0.05, peab olulisustõenäosus selleks, et nullhüpoteesi ümber lükata, olema väiksem kui 0.05 ning vastavalt olulisusnivoo 0.01 korral peab ta olema väiksem kui 0.01.
Seega – mida täpsemalt vaadata? Esmalt visake pilk peale tabeli esimesele osale, kus on Levene-i test – seda on oluline silmas pidada, et teaksite, kumma rea tulemusi edasi lugeda. Kui Levene’i testi Sig on suurem kui 0.05, vaatame edaspidi ülemist tabelirida (näitab, et jaotuste „kujud“ ei erine statistiliselt oluliselt); kui Levene’i test Sig on väiksem kui 0.05, loeme edaspidi alumist rida (näitab, et jaotuste „kujud“ erinevad statistiliselt oluliselt).
Kuid teadmisest, kuidas näevad välja gruppide keskmised ning kas gruppide vaheline erinevus on oluline või mitte, üksi ei piisa. Need tulemused tuleb kuidagi ka kirjapilti saada. T testi raporteeritakse järgnevalt:
Selles suvalises näidislauses leiti, et loengutes kohalkäijate keskmine tulemus (M = 4.51, SD = 0.30) on statistiliselt oluliselt kõrgem kui neil, kes magavad sisse ja kohale ei tule (M = 2.92, SD = 0.31), t(kirjuta siia df väärtus) = (kirjuta siia t väärtus), p = 0.008, [efektisuuruse statistik] = (kirjuta efekti suurus siia).

T-test sõltuvate gruppidega

Lahenduskäik on sarnane sõltumatute valimitega t-testi korral; kaks olulist erinevust siiski on. Kui sõltumatu t-testi puhul kontrollisime sõltuvate muutujate eeldusi , siis sõltuvate valimitega t-testi korral tuleb kontrollida esimese ja teise (või ajaliselt mõne muu) mõõtmiskorra vahe normaaljaotuslikkust. Selleks tekitame käskluse Compute variable abil veel kaks muutujat: U_vahe ning A_vahe. Kui need muutujad on olemas, saate nende normaaljaotuslikkust testida juba harjumuspärasel viisil.
Kui eeldused on üle vaadatud, erineb käesolev analüüs sõltumatute valimitega testist viimase käskluse poolest: Analyze – Compare Means – Paired -Samples T Test. Variable 1 alla pange esimese mõõtmise muutuja ning Variable 2 alla valige tema paariline teisest mõõtmiskorrast.
Väljundiakna (Output) loogika on enam-vähem sama, mis sõltumatute valimitega testi puhul.

Mann-Whintey U Test (e. mitteparameetriline t-test)

Mis juhtub siis, kui parameetriliste testide parameetrid (ehk eeldused siin kontekstis) ei ole täidetud? Väga lihtne – appi saab võtta mitteparameetrilised testid.
Kust leida mitteparameetrilised testid? Tähelepanu! Ei ole samas kohas, kus t-testid!
Käsklusterida: Analyze – Nonparametric Tests – Legacy Dialogues – 2 Independent Samples.
Vanemates SPSS-i versioonides võivad sõltumatute ja sõltuvate gruppidega t testid olla muud moodi nimetatud. Kui nõnda, siis vasted võivad olla järgmised:
Parameetriline
Mitteparameetriline
2 sõltumatu valimiga t test
Mann-Whitney U Test
Sõltuva valimiga t test
Wilcoxon Signed Ranks Test
Sõltumatute valimitega t-testi raporteerimine käib nõnda:
Selles suvalises näidislauses leiti, et loengutes kohalkäijate keskmine tulemus (N = kohalkäijate arv, Mastak = keskmise astaku väärtus) on statistiliselt oluliselt kõrgem kui neil, kes magavad sisse ja kohale ei tule (N = kohalkäijate arv, Mastak = keskmise astaku väärtus), U = U väärtus, p = toodud Sig.
Sõltuva valimiga t-testi mitteparameetrilise analoogini jõudmine järgi eeltoodud käsklusterea loogikat:
Käsklusterida: Analyze – Nonparametric Tests – Legacy Dialogues – 2 Related Samples.
Väljundiaknas näete erinevust statistikutes – ehkki nii parameetrilistes kui ka mitteparameetrilistes testides kuvatakse teile olulisuse tõenäosust, näete te mitteparameetriliste testide tulemustes keskmise (mean) asemel keskmist astakut (mean rank ); samuti on mitteparameetrilises analoogis olulisel kohal Wilcoxoni Z (sõltumatute valimite puhul Mann-Whitney U). Need statistikud tuleb teil raporteerida järgnevalt:
Wilcoxoni Signed Ranks Test näitas, et otse vaatava pilguga pilte hinnati statistiliselt oluliselt atraktiivsemaks kui kõrvale vaatava pilguga pilte, Z = ..., p = .02.
Alternatiivselt:
Wilcoxoni Signed Ranks Test näitas, et otse vaatava pilguga piltide atraktiivsuse astakud olid statistiliselt oluliselt kõrgemad kui kõrvale vaatava pilguga piltide astakud, Z = ..., p = .02.

Korrelatsioon

Korrelatsiooni kasutatakse selleks, et uurida muutujate vahelisi seoseid ning nende seoste tugevust. Parameetriline seosekordaja on Pearsoni r, mitteparameetrilisteks seosekordajateks on Spearmani roo ning Kendalli tau. Mitteparameetriliste analüüside korral kasutatakse tihtipeale Spearmani roo statistikut, ent Kendalli tau-d peetakse paremaks näitajaks väiksematel valimitel.
Pearsoni korrelatsioonikordaja eeldused:

muutujad peaksid olema mõõdetud intervall või suhteskaalal;
lineaarne seos muutujate vahel (hea viis testimiseks -> Scatterplot -> visuaalselt hinnata seose olemust);
ei tohiks olla märkimisväärseid erindeid (saab samuti hinnata joonise abil);
muutujad peaksid olema vähemalt ligilähedaselt normaaljaotuslikud.

Korrelatsioonikordajate väärtused jäävad vahemikku -1 ja 1, kusjuures mida enam selle vahemiku piiridele lähemal, seda tugevam seos (korrelatsioon väärtusega 0 tähendab seose puudumist); ühtlasi näitab väärtuse ees olev pluss- või miinusmärk ka seos suunda. Positiivne korrelatsioonikordaja tähendab, et kui ühe muutuja väärtused kasvavad, kasvavad ka teise muutuja väärtused; negatiivne korrelatsioonikordaja aga näitab, et kui ühe muutuja väärtused kasvavad, teise muutuja väärtused kahanevad .
Lisaks saab SPSS-is testida seoste statistilist olulisust (nii ühe- kui ka kahesuunalise hüpoteesi puhul).
Korrelatsioonikordaja on sisuliselt ka efekti suuruse ning mudeli seletusvõime näitaja. Võttes korrelatsiooni ruutu, saame R2 statistiku ehk, eesti keeles, determinatsioonikordaja. Kui me seda kordajat sajaga korrutame, saame protsendid selle kohta, kui palju ühe muutuja varieerimine teise muutuja varieeruvusest seletab. Näiteks kui kahe muutuja – X ja Y – vaheline korrelatsioon r = 0.20, siis R2= (0.20)2= 0.20*0.20 = 0.04 ning muutuja X seletab ära 0.04*100 = 4% muutuja Y varieeruvusest.
Väga oluline on tähele panna ja meelde jätta, et korrelatsioon ei näita põhjuslikkust. Ka tulemuste raporteerimisel saame rääkida muutujatevahelisest seosest, mitte ühe muutuja mõjust teisele. Statistiliselt võttes saame rääkida kolmest võimalikust põhjuslikkuse suunast . Eeltoodud näite põhjal võivad nad olla järgnevad:

Muutuja X põhjustab muutuja Y varieerumist.

Muutuja Y põhjustab muutuja X varieerumist.

Kolmas muutuja Z põhjustab nii muutuja X kui ka muutuja Y varieerumist.
Enne statistikute uurimist vaatame aga hajuvusdiagrammi (scatter plot ). Mille leiate Graphs menüü alt.
Graphs – Legacy Dialogs – Scatter/Dot – Simple Scatter.
Kui teete joonisele topeltkliki, saate lisada ka lineaarset seost kujutavad joone joonisele. Joone lisamisel peaks olema ilmsem, millise seosega on tegemist.
Kuidas aga see graafiline info statistikutes väljendub? Korrelatsioonide leidmiseks kasutage käsklusterida Analyze – Correlate – Bivariate. Options alt saate valida, mida teha puuduva andmestikuga. Vaikimisi peaks seal olema käsklus Exclude cases pairwise, mis tähendab, et kui terve indiviidi/andmerea sees on ühel muutujal väärtus puudu, siis ainult seda andmepunkti ei kasutata edaspidises analüüsis – kõigi teiste muutujate vahelisi korrelatsioone aga vaadatakse. Exclude cases listwise aga eemaldab terve indiviidi/andmerea. Viimast käsklust kasutades oleksid kõikides korrelatsioonimaatriksi lahtrites valimid võrdsed.

Lineaarne (paaris)regressioon

Regressioon on korrelatiivne protseduur , mis võimaldab tulemuse väärtusi korrelatsiooni alusel mingi teise muutujaga ennustada. Korrelatsioon ja regressioon on olemuselt üsna sarnased mõisted; arvuliselt on tegelikult Pearsoni r, mis väljendab kahe muutuja (nt X ja Y) vahelist seost, üsna sama väärtusega kui standardiseeritud regressiooni koefitsient. See tähendab ka seda, et determinatsioonikordaja R2 on sarnase väärtusega. Ühtlasi on oluline teada, et nii korrelatsioon kui ka lihtne, lineaarne paarisregressioon ei ütle otseselt ära põhjuslikkuse suunda.
Viimast lauset silmas pidades on oluline ära mainida, et regressiooni puhul on väga oluline see, kumb kahest muutujast – kas, meie näites, X või Y – on prediktor (ehk ennustav muutuja; ingl k predictor; sisuliselt sõltumatu muutuja) ning kumba muutujat ennustatakse (ingl k outcome variable; sisuliselt sõltuv muutuja). Regressioonianalüüsi tulemusena saadakse võrrand, mis kirjeldab iga prediktori osakaalu ennustatavas muutujas. Seesama võrrand on graafiliselt regressioonisirge võrrandiks, kus vabaliige kirjeldab y- teljega lõikumispunkti (intercept) ning sirge tõus (gradient) kirjeldab sirge paiknemist y- ja x-telje vahel (vt Fieldi õpikust lk 199). Sisuliselt üritab lineaarne regressioon läbi andmepunktide parve joonistada sirge, millest võimalikult palju väärtusi on sarnase kaugusega.
Regressioonianalüüsi läbiviimiseks on 6 eeldust :

sõltuva muutuja andmed on intervall- või suhteskaalal (st on pidevtunnus);

muutujatevaheline suhe on lineaarne;

puuduvad märkimisväärsed erindid (outliers);

vaatluste sõltumatus;

püsihajuvus (homoskedastilisus; homoscedasticity);

jääkide normaaljaotuslikkus (normality of residuals).
Kui 1. ja 4. eeldust saab juba lausa enne uuringu läbiviimist täita, siis eeldused 2, 3 ja 5 on testitavad hajuvusdiagrammiga, st üldist pilti on võimalik vaadelda graafiliselt. Eeldust 6 saame testida siis, kui viime läbi regressioonianalüüsi.
Lineaarse regressiooni läbiviimiseks tuleks järgida käsklusterida: Analyze – Regression – Linear. Dependent on sõltuv muutuja, Independent on prediktor. Statistics alt valida Estimates, Model Fit ning Descriptives. Salvestame ka regressioonijäägid uue muutujana: Save – Residuals – Unstandardized. Pärast analüüsi läbiviimist tuleb selle uue, salvestatud muutujaga läbi viia normaaljaotuslikku test.
Tulemustena kuvatakse mitu tabelit. Leiate, et on (a) kirjeldavat statistikat (nt mõlema muutuja keskmised); (b) muutujatevahelised korrelatsioonid ; (c) muutujate lisamine/eemaldamine mudelisse (paarisregressiooni puhul ebaoluline); (d) mudeli kokkuvõte, kus on kirjeldatud mh determinatsioonikordaja R2 – korrutades seda väärtust 100-ga, saame teada, kui suure osa kogu ennustatava muutuja (siin: testitulemus) variatiivsusest kirjeldab ära prediktor (siin: vanus). (e) ANOVA tulemused mudeli olulisuse hindamiseks (kui Sig.

.DOCX Laadi alla originaalfail 12 lk · .docx · 48 allalaadimist

100 punkti Autor soovib selle materjali allalaadimise eest saada 100 punkti.

~ 12 lehte Lehekülgede arv dokumendis

2018-09-26 Kuupäev, millal dokument üles laeti

48 laadimist Kokku alla laetud

0 arvamust Teiste kasutajate poolt lisatud kommentaarid

BlaBlaE Õppematerjali autor

Tegemist on SPSSI juhendiga.

Andmefailid SPSS’is 2
Normaaljaotuse kontroll 2
ANOVA vs T-test 2
ANVOA või regressioonanalüüs 3
Efekti suurus 3
Andmeanalüüs SPSS’is 4
Kirjeldav statistika 4
Kuidas testida normaaljaotust? 4
Sagedustabeli analüüs (Hii-ruut) 5
Ühesuunaline ANOVA 5
Faktoriaalne ANOVA 6
Korduvmõõtmsite ANOVA (Repeated measures ANOVA) 6
Kurskall-Wallise test (e. mitteparameetriline ANOVA) 7
T-test sõltumatute gruppidega 7
T-test sõltuvate gruppidega 8
Mann-Whintey U Test (e. mitteparameetriline t-test) 8
Korrelatsioon 9
Lineaarne (paaris)regressioon 10
Logistiline regressioon 11

SPSS ANDMEANALÜÜS KONSPEKT ANOVA T-TEST KORRELATSIOON

Kasutatud allikad

https://www.psychometrica.de/effect_size.html

Sarnased õppematerjalid

docx

Statistiline modelleerimine praktikumide juhised.

Käskluserida: Analyze Compare Means Independent Samples T Test Independent Samples T-testi tulemused ja nende tõlgendamine: a) Esimeses tabelis tuuakse ära mõlema grupi valimi suurus, aritmeetiline keskmine, standardhälve ja aritmeetilise keskmise standardviga. Group Statistics Std. Error Sugu N Mean Std. Deviation Mean matemaatika 1 608 9.46 4.516 .183 2 742 7.35 3.856 .142 b) Teise tabeli esimeses pooles tuuakse ära Levene'i test gruppide dispersioonide võrdlemiseks: c) Teise tabeli teises pooles on info gruppide keskmiste võrdlemiseks: Statistikas on saanud traditsiooniks kasutada olulisusnivoosid 0.01 (ehk 1%) ja 0

Statistiline modelleerimine

doc

Andmetöötlus psühholoogias

Soo defineerimine: Variable view - soolahtrist Values... - 1=mees, 2=naine - data view - ülevalt view - value labels ette linnuke Kasvavas järjekorras järjestamine: Teed lahtri aktiivseks mida järjestada soovid - ülevalt Data - Sort cases - valid mida soovid sortida - linnuke ascending lahtri ees kindlalt ja OK Mingi väärtuse minimaalse ja maksimaalse väärtuse leidmine, standardhälve, keskmine: Analyze - descriptive statistics - descriptives/frequencies (kui vaja ekstsessi, histogrammi kellukat jn) - valid mille puhul tahad uurida - Options - valid milliseid väärtusi leida tahad ja ok, vastused ilmuvad OutPuti aknasse. Charts all on võimalik kasutada histogrammi joonistamise võimalust. Joonisel olev küsimärk käib osutatud linnukese kohta. Display frequency tables annab käskluse moodustada iga pikkuse kohta sagedustabel. Küsimärk on juurde tehtud, et uurida, kas sellise tabeli koostamine on vajalik. Uue muutuja arvutamine: Transform - Compute variable - kirjutad u

Ülevaade psühholoogiast

docx

Statistiline modelleerimine teooria kokkuvõte 2020

Size matemaatik Student 9.253 1348.000 <.001 0.506 a Welch 9.110 1198.429 <.001 0.502 Mann- 287893.50 <.001 0.276 Whitney 0 Group Descriptives Group N Mean SD SE matemaatika Mees 608 9.461 4.516 0.183 Naine 742 7.352 3.856 0.142 Paired-Samples T-Test  Ei ole vaja uurida valimite hajuvuse sarnasust (Levene’i test), kuna valim on sama.  Normaaljaotuslikkuse uurimiseks on hea Shapiro-Wilki test, kuna on vaja esimesest mõõtmisest lahutada teise mõõtmise tulemused ning alles siis nende normaaljaotuslikkust hinnata, Shapiro-Wilkiga on see juba enne tehtud.

Statistiline modelleerimine

pdf

Gretl juhend 2016

Gretl - Gnu Regression, Econometrics and Time Series Library Gretl on avatud koodil põhinev vabavara, mida võib legaalselt installeerida oma kodusesse arvutisse või sülearvutisse. Programmi koduleht http://gretl.sourceforge.net/ TÖÖ PROGRAMMIGA Gretl Käivitada programm – avaneb menüü 1. Andmete importimine – File → Open data → Import → nimi.xlsx. Selleks et oleks võimalik andmetabelit Gretl-isse importida tuleb tabel eelnevalt sobivale kujule viia: a) kontrollida, et Exceli tabeli esimeses reas oleksid muutujate nimed (ei peaks sisaldama täpitähti) ning teisest reast alates andmed. sulgeda Exceli fail; b) avada programm Gretl; c) valida File/Open data/Import/Excel d) otsida Exceli fail (muuta Files of type) e) valida, mitmendast veerust ja reast importimist alustatakse f) näidatakse töölehtede , muutujate ja vaatlustulemuste arv g)

Infoharidus

docx

Ökonomeetriline projekt - Brutopalga sõltuvus haridustasemest, meeste osakaalust ning linlaste osakaalust maakondade lõikes

656.1979 Saare mk 2 0.5000 0.1216 0.4965 0 0 0 756.2620 Tartu mk 8 0.7310 0.2839 0.5085 0 0 0 568.4212 Valga mk 8 0.6107 0.1528 0.5191 0 0 0 644.6344 Viljandi mk 8 0.4835 0.1362 0.5000 0 0 0 617.3966 Võru mk 4 0.3459 0.1338 0.4848 0 0 0 Lisa 4. Kirjeldav statistika Mean Median Minimum Maximum Aasta 2006,5 2006,5 2005,0 2008,0 DAasta_1 0,25000 0,00000 0,00000 1,0000 DAasta_2 0,25000 0,00000 0,00000 1,0000 DAasta_3 0,25000 0,00000 0,00000 1,0000 Brutopalk 541,92 538,98 381,38 848,48 Linlased 0,53146 0,48996 0,28571 0,90379 Korgharitud 0,16853 0,15343 0,080000 0,32438 Mehed 0,51469 0,50979 0,43827 0,60377

Majandus

docx

Ökonomeetria kontrolltöö kordamisküsimused 2020

Ökonomeetria KT kordamisküsimused 1. Ökonomeetrilise mudeli komponendid. ● Modelleeritavad näitajad: endogeenselt (sisemiselt) määratud ehk sõltuvad muutujad (Y). Väärtused määratakse mudeli siseselt ● Modelleeritavat nähtust mõjutavad näitajad: eksogeenselt (väliselt) määratud ehk sõltumatud, seletavad muutujad (X). Väärtused määratakse mudeli väliselt. ● Statistiliste meetoditega hinnatavad mudeli parameetrid (b). ● Juhuslik komponent ehk vealiige (u). 2. Andmetüübid. Ökonomeetriline mudel baseerub arvandmetel: ● Ristandmed (cross-sectional) ● Aegread (time series) ● Paneelandmed (panel data) Andmed saavad olla kas ● Kvalitatiivsed (ei saa mõõta arvudega, nt haridustase) ● Kvantitatiivsed (mõõdetakse arvudega, nt vanus) 3. Valimvaatlused ja parameetri hinnangu mõiste. ● Uuritav objekt on üldkogum ● Andmebaas on üldjuhul valim Järeldusi soovime teha üldkogumi kohta, selleks kasuta

Ökonomeetria

docx

Statilised järeldused

Võta data view ja sisesta sinna vastuseid, mida valim on andnud: Valimisse tuli 17 objekti. Enne üldistamist antakse ülevaade, kes meil seal andmestikus on ehk räägime valimist, sest see on kõige alus. Meil on kaks tunnus –sagedustabeleid oleks halb teha. Arvutame keskväärtuse, standardhälbe ja võrdleks läbi selle. N=17 Võta alaize ja descripive statistics Kui öeldakse keskväärtus, siis mõeldakse aritmeetilist väärtust ja see on MEAN ehk MIlma puhul tuleb kindlasti standardhälve suurem, sest see sõltub vastuste varieeruvusest Tulemused: Kõik tulemused saab ka SPSSi keskkonda –nt wordi File-Export Standardhälve tuleb alati välja võrdluses. Erinevus on 1,88 punkti. Viiepunkti skaalal on see päris suur. Siit tuli välja, et kõik on eluga rohkem rahul kui ilmaga. See tulemus võib olla ilmselge, aga siiski peaks tegema alati t- testi. T test on kahe üldkogumi keskväärtuste võrdlemine

Ainetöö

pdf

Uurmismeetodid psühholoogias

Uurimismeetodid psühholoogias (SOPH.00.282; 6 EAP) Kokku käsitletakse loengutes/seminarides/praktikumides seitset suuremat teemat, lisaks tuleb lugeda ka õpikust Kõigi teemade kohta on õppejõud koostanud lühikonspektid, mida auditoorse töö käigus pikemalt kommenteeritakse (koos näidetega). Mõnede teemadega kaasnevad praktilised tööd, kokku 5. Iga töö kohta tuleb vormistada aruanne/protokoll (tähtaeg määratakse iga töö kohta eraldi). Kuna on tegemist võimalikult praktilise kursusega, siis on auditoorsel tööl kohalolek kohustuslik. Aine lõpeb kirjaliku eksamiga. Eelduseks eksamile pääsemiseks on kontrolltöö sooritamine (9. aprill 2012) ja praktiliste tööde tegemine ning esitamine. Lisaks on vaja osaleda mõnes psühholoogilises uurimuses aineväliselt (2h). Teemad: · Eksperimentaalne meetod psühholoogias · Uurimistöö allikad. Uurimustöö eetika (praktiline töö nr. 1; Ch 6-7) · Mõõtmine ja mõõtmisskaalad (praktiline töö nr 2; Ch 8) ·

Psühholoogia

Rohkem sarnaseid