Vajad kellegagi rääkida?
Küsi julgelt abi LasteAbi
Logi sisse

Statistiline modelleerimine teooria kokkuvõte 2020 (0)

1 Hindamata
Punktid




Statistiline modelleerimine – 
kokkuvõte Muutujad:Sõltuvad muutujad (dependent, outcome variables) – muutujad, mis on uurimise 
keskmes, millele uurija arvab, et teised muutujad mõju avaldavad. Nö katseisikust 
sõltuv muutuja.  Sõltumatud muutujad (independent, predictor variables) – muutujad, mille kohta 
uurija arvab, et neil võiks olla mõju uuritavatele muutujatele.  Statistilise analüüsi keskmes on uurida, kuidas teatud tunnused koos muutuvad.  Kui on vaja muutujat iseloomustada, on kaks põhilist viisi, kuidas seda teha: o Milline on selle muutuja tüüpiline väärtus?
o Kui hästi iseloomustab see tüüpiline väärtus kõiki mõõdetud juhtumeid? Ehk  kui palju on varieeruvust selle tüüpilise väärtuse “ümber”? Statistika jagunemine:Kirjeldav statistika (descriptive stat.) meetodid andmetest kokkuvõtete tegemiseks 
ning kirjeldamiseks. („65-70% USA elanikest on ülekaalulised või rasvunud.“)  Järeldav statistika (inferential stat.) kasutab andmeid baasina hinnangute 
andmiseks ja prognooside tegemiseks. („Ülekaalulisus on II tüübi diabeedi 
riskifaktorite hulgas.“)  Kirjeldav statistika tegeleb valimi resümeerimisega, järeldava statistika ülesanne on 
üldistuste tegemine üldkogumi kohta.  Üldkogum (populatsioon)     on teatud nähtuste (objektide, isikute) hulk, mida soovitakse objektiivsete meetoditega tundma õppida (näiteks üliõpilased Eestis)  Valimiks     nimetatakse teatud hulka üldkogumi elemente, mille mõõtmisandmed on  uurija käsutuses Mõõteskaalad:Kategoorilised muutujad o Binaarne skaala     – kahene skaala (binaarkood: 0;1) o Nominaalne skaala     – eristab andmeid, kuid ei anna suunda ega väärtust (nt  sugu, kodulinn, rass jms) o Ordinaalne ehk järjestusskaala     – eristab andmeid ja annab suuna, kuid mitte  vahemike (nt haridustase või subjektiivne rahulolu)  Pidevad muutujad o Intervallskaala     – eristab andmeid, annab suuna ja vahe nende suuruste vahel, kuid puudub nullpunkt (nt temperatuur Celvini või Farenheiti skaalal (Kelvini 
skaalal on defineeritud absoluutne nullpunkt -273,15°C)) o Suhteskaala     - eristab kõiki eelnevaid punkte, kuid lisaks eksisteerib ka  nullpunkt (nt raha) o Lickerti skaalal tehtud mõõtmisi on lubatud käsitleda vajadusel pideva  muutujana Jaotused (normaaljaotus, negatiivne asümmeetria, positiivne asümmeetria):


Andmetöötluse alused:
Valemid ja tähised
n või N – juhtumite arv  x – muutuja  X̅ või µ – keskmine  i – indekseerimistähis  σ või SD – standardhälve (standard deviation)  σ2 või SD2 – hajuvus  Σ – summeerimine Standardhälve  Näitab, kui hästi keskmine esindab mõõdetud andmeid.  Muutjal on keskmine väärtus ja iga juhtum on sellest teatud kaugusel: x1- X̅  Hajuvus on keskmine ruutkaugus, seega standardhälve on nö keskmine kaugus  keskmisest:   Normaaljaotuse puhul paikneb kõigist mõõtetulemustest 68,27% ±1SD95,45% ±2SD
ja 99,73% ±3SD kaugusel keskmisest.  Kaugus keskmisest (indiv. tulemusest lahutada keskmine) jagatud standardhälbega;  z-skoor   Iga z-skooriga on seotud teatud tõenäosus, mille järgi on võimalik hinnata selle 
väärtuse esinemissagedust. Andmeanalüüsimeetodeid välja töötades on kasutatud eeldusi:  Kui tunnus on arvuline ja ligilähedane normaaljaotusele, saab sellele rakendada 
parameetrilist statistikat.  Järjestustunnuste või mitte-normaaljaotuslike tunnuste puhul tuleks kasutada 
mitteparameetrilisi teste.  Statistilised momendid  Mõningaid jaotuse kirjeldamiseks kasutatud kirjeldavaid statistikuid nimetatakse ka 
momentideks.  Esimest järku moment on aritmeetiline keskmine, teiseks momendiks on hajuvus, 
kolmandaks asümmeetria ja neljandaks järsakus. 


 Esimest ja teist järku momendid (keskmine ja hajuvus) aitavad hinnata muutuja 
tüüpilist väärtust ja seda kui hästi see tüüpiline väärtus kõiki mõõdetud juhtumeid 
iseloomustab (ehk hajuvust keskmise ümber)  Kolmandat ja neljandat järku momendid on abiks andmete normaaljaotuslikkuse 
hindamisel. Shapiro-Wilk test  Uurib, kas andmestik erineb oluliselt normaaljaotusest.  Kui olulisuse tõenäosus (p) on väiksem kui 0.05, siis testi kohaselt andmed ei ole 
normaaljaotuslikud. o Vaikimisi eeldame, et andmestikes muutuja jaotus ei erine oluliselt  normaaljaotusest. S-W hindab, kas meil on piisavalt tõendeid, et see väide 
ümber lükata. Standardiseerimine  Tulemuste z-skooridele viimine  Valem:   Peaks olema lähedane normaaljaotusele:  Standardiseeritud andmestiku keskmine antakse kujul: Xe-A ;see tähendab, et X-i 
komakohta peab liigutama A võrra vasakule, et saada selle andmestiku keskmist 
väärtust:  Keskmine väärtus on alati 0 või väga lähedal 0-le.  Standardhälve on täpselt 1. Skewness – asümmeetriakordaja • Kokkuleppeliselt on tegemist normaaljaotusega, kui asümmeetriakordaja väärtus on 
vahemikus [-2; 2], konservatiivsemalt ka [-1; 1] Kurtosis – järsakuskordaja ehk ekstsess • Kokkuleppeliselt on tegemist normaaljaotusega, kui järsakusastmekordaja väärtus on
vahemikus [-2; 2], konservatiivsemalt ka [-1; 1] • Standardviga SEM  Hindab, kuidas on KI testi tulemused kordusmõõtmistel jaotunud tema nö tõelise 
tulemuse ümber. Näitab, kui palju meie ennustused mudeli parameetrite kohta võivad
varieeruda.  Valimite aritmeetiliste keskmiste jaotuse standardhälve.


Lihtsustatult: SEM= σ / √nn, ehk valimi standardhälve jagatuna valimi suuruse 
ruutjuurega.  Üksiktulemuste puhul SEM = σx   √n 1- rxx, kus SEM on funktsioon testi reliaablusest 
rxx ja testiskooride variatiivsusest σx.  Mida suurem hajuvus valimis, seda suurem standardviga.  Standardviga saab vähendada, suurendades valimi suurust.  Mida väiksem standardviga, seda kindlamad võime olla, et valimi aritmeetiline 
keskmine on lähedane üldkogumi keskväärtusele. Usalduspiirid  Üldkogumi keskväärtuse usalduspiiriks nim. valimi põhjal määratud vahemikku, kuhu 
valimi keskmine kuulub teatud tõenäosusega (enamasti 95%, aga ka 99%). Ehk kui 
kordaksime testi, siis selle teatud tõenäosusega jääks ka uue valimi keskmine 
nendesse piiridesse. Kui näiteks kahe võrreldava grupi usalduspiirid ei kattu, saame 
öelda, et tõenäoliselt laieneb valimi erinevus ka populatsioonile.  Vastavalt usaldusnivoo väärtusele arvutatakse parameetri usalduspiirid so. kaks arvu,
mille vahel parameeter asub etteantud tõenäosusega.  Valem 95% usalduspiiride arvutamiseks:  Alumine usalduspiir= X̅-1.96SD*SEM  Ülemine usalduspiir= X̅+1.96SD*SEM  Usaldusnivoo (confidence level) on psühholoogias 95%, ehk et 95 % tõenäosusega 
on tulemus usaldusäärne.  Olulisusnivoo (level of significance) ehk vea tõenäosus on sellisel juhul p=0,05 ehk 
tõenäosus eksida valimi tulemuste populatsioonile laiendamises on 5% o Esimest liiki viga – arvatakse, et tulemused kehtivad populatsioonile, kuigi ei  kehti (false positive) o Teist liiki viga – arvatakse, et tulemused ei kehti populatsioonile, kuigi  kehtivad (false negative) Hüpoteeside testimine ehk keskmiste võrdlemine: Vaja vastata küsimustele: (1) kas rühmad (või valimid  ja nende jaotused) on nii sarnased, et 
võime öelda, et nad kuuluvad samasse üldkogumisse või (2) on nad nii erinevad, et 
esindavad kahte erinevat üldkogumit? (Nt. Kas naissoost üliõpilased saavad sõnavaratestis 
paremaid tulemusi kui meessoost üliõpilased?) Hüpoteesi kontrollimine:  püstitada nullhüpotees (nt erinevust ei ole) ning alternatiivne e. sisuline hüpotees 
(erinevus on)  defineerida testimise protseduur, sealhulgas olulisuse nivoo (psühholoogias 95%)  otsustada, millist keskmiste erinevuste testi kasutada    arvutada teststatistikud ja nendega seotud olulisuse tõenäosused  arvutada efekti suuruse näitajad  teha järeldus, kas andmed on kooskõlas nullhüpoteesiga või mitte Nullhüpotees ja alternatiivne hüpotees:  Alustatakse eeldusest, et valimid ei erine; H0: μ1= μ 2 (nullhüpotees)  Kui erinevus kahe valimi aritmeetilise keskmise vahel osutub liiga suureks (ehk on 
statistiliselt oluline erinevus), et pidada neid valimeid ühest üldkogumist pärinevaks, 
lükatakse nullhüpotees ümber ja jäädakse alternatiivse hüpoteesi juurde. Efekti suurus:


 Leidnud statistiliselt olulise mõju (erinevuse), tuleb arvutada ka, kui suur see mõju 
(erinevus) on.  Arvutatakse Coheni d o d < 0,2 – väike efekt
o 0,2 < d < 0,8 – keskmine ehk arvestatav efekt 
o d > 0,8 – suur efekt  Nö on tegu keskmiste erinevusega standardhälbe ühikus. Ehk kui d=0,5, siis 
keskmised erinevad üksteisest poole standardhälbe võrra. Võrreldavate rühmade liigitamine (T-testid)  On üksteisest kaks sõltuvat või sõltumatut rühmad  Kui erinevad rühmad tekivad näiteks sootunnuste (või muu rühmitava tunnuse) 
alusel, siis on rühmad üksteisest sõltumatud ja kasutatakse t-testi sõltumatute 
rühmade 
jaoks (independent samples t-test)  Kui võrreldakse ühe ja sama katsegrupi seisundeid erinevail ajahetkedel 
(kordusmõõtmised), siis on tegemist omavahel sõltuvate rühmadega ja kasutatakse 
sõltuvate rühmade t-testi (dependent samples/ paired-samples t-test)  Andmed peavad olema vähemalt intervall skaalal (mõõdetav tunnus peab olema 
pidev muutuja)  Sõltuvate rühmade t-testi puhul peab olema normaaljaotus, mis on moodustatud 
järgmiselt: ühel korral mõõdetud tulemustest on lahutatud teisel korral mõõdetud 
tulemused.  Sõltumatute gruppidega t-testi puhul peaksid olema dispersioonid sarnased (seda 
saab kontrollida Leveni testiga). Kui gruppide suurused on sarnased, siis ei ole selle 
eelduse rikkumine väga tõsine. JASPis saab arvutada t-testi statistiku, mis arvestab 
selle eelduse rikkumisega (Welchi statistik). o Kui Levene’i testi Sig on suurem kui 0.05, vaatame Student T-testi; kui  Levene’i test Sig on väiksem kui 0.05, siis Welshi oma.  T-statistik, df (vabadusastmed), p, Cohenid (efektisuurus) o T-statistik – mida suurem, seda parem (seda tõenäolisem, et grupid erinevad)
o p – mida väiksem, seda parem (seda väiksem eksimistõenäosus; p<0,05)
o Coheni d – mida suurem, seda parem (kui suur on leitud erinevus)
o df – valimi suurusest lahutatakse maha võrreldavate gruppide arv  Kategoriaalset tunnust, mille alusel grupid jaotatakse, nimetatakse faktoriks (pole 
seotud faktoranalüüsiga!)  One-Sample T-test – kui on vaja võrrelda tulemusi mingi olemasoleva väärtusega. T-testi tulemuste raporteerimine: Uurides meeste ja naiste matemaatikatestide tulemusi 
leiti, et meeste keskmine tulemus (M = 9,46, SD = 4,5) on statistiliselt oluliselt kõrgem kui 
naistel (M = 7,35, SD = 3,86), t(1198,43) = 9,11, p<0.001, d=0,5.


Paired-Samples T-Test  Ei ole vaja uurida valimite hajuvuse sarnasust (Levene’i test), kuna valim on sama.  Normaaljaotuslikkuse uurimiseks on hea Shapiro-Wilki test, kuna on vaja esimesest 
mõõtmisest lahutada teise mõõtmise tulemused ning alles siis nende 
normaaljaotuslikkust hinnata, Shapiro-Wilkiga on see juba enne tehtud.  Kui S-W ei kinnita normaaljaotuslikkust, saab seda kontrollida ka vastata uue tulba 
loomise kaudu (mõõtmistulemuste lahutustehe). Mitteparameetrilised testid  Järjestustunnuste (nt Likerti skaala tulemused), normaaljaotusest erineva jaotuse ja 
väga väikeste valimite puhul (<30) tuleks eelistada mitte-parameetrilisi analooge. Test  Statistic  df  Effect Size  matemaatik
a  Student  9.253 1348.000  < .001  0.506     Welch  9.110 1198.429  < .001  0.502     Mann-
Whitney  287893.50 0  < .001  0.276  Group Descriptives    Group  N  Mean  SD  SE  matemaatika  Mees  608  9.461 4.516  0.183     Naine 742  7.352 3.856  0.142 



 Sõltumatu t-testi asemel nt Mann-Whitney test  Sõltumatu ANOVA asemel nt Kruskal-Wallis test  Sõltuvate rühmade t-testi asemel nt Wilcoxoni test  Sõltuva ANOVA asemel nt Friedmani test  Võrreldakse järjestusi, tavaliselt peamine mõõtmisalus keskmise asemel mediaan Dispersioonanalüüs ehk ANOVA
Rohkem kui kahe võrreldava grupi vahel tehakse mõõtmised ANOVAga (ANalysis Of 
VAriance) Sõltumatute gruppidega    ( between subjects    )    ANOVA     Ühefaktoriline dispersioonanalüüs (One-Way ANOVA)  On 1    sõltumatu     muutuja, millel on mitu taset     (nt akadeemilise testi tulemused  keskharidusega, bakalaureuse kraadi ja magistri kraadiga inimeste vahel).  Leiab, kas üldse leidub rühmade vahel statistiliselt olulisi erinevusi ning kui, siis 
milliste.  Nullhüpotees  H0: μ1= μ 2=….= μn , ehk alamkogumite keskväärtused ei erine  Sisukas hüpotees H1: leidub vähemalt üks alamkogumite paar, mille korral μi≠ μ j   Sõltuv tunnus peab olema vähemalt intervallskaalal, grupeeriv tunnus kategooriline 
(mitte pidev).  Tunnuse hajuvused võrreldavates gruppides võiks olla sarnased (Levene’i test)  Tunnuse jaotus (gruppides eraldi võetuna) peaks olema ligilähedane 
normaaljaotusele. Mitmefaktoriline dispersioonianalüüs (Two-Way ANOVA)  Kasutatakse, kui meil on üks arvuline sõltuv muutuja, aga mitu kategoorilist 
sõltumatut muutujat (tavaliselt 2 või 3), millel on omakorda mitu taset (nt sugu ja 
haridustase). Sõltuvate gruppide (    within-subject    ) ehk korduvmõõtmiste (    repeated measures    ) ANOVA   


 Kasutatakse siis, kui sõltumatud muutujad on mõõdetud samal valimil. Ka siin võib 
faktoreid olla üks või mitu.  Näiteks uuritakse, kas inimeste sooritus tähelepanuülesandes (sõltuv muutuja) on 
erinev sõltuvalt sellest, kas talle mängitakse kõrvaklappidest klaverimuusikat, rokk-
muusikat või valget müra (I faktor, 3 taset) - iga inimene teeb ülesanded läbi kolm 
korda erineva taustamuusikaga. Segatüüpi dispersioonanalüüs (    mixed    - model    ) ANOVA      Korduvmõõtmiste ANOVA, millel on lisaks sõltuvate gruppide faktorile (within-
subjects) ka mõni sõltumatute gruppide faktor (between-subjects)  Näiteks uuritakse, kas lisaks taustamuusikale (I faktor, 3 taset, sõltuvad grupid) võiks 
sooritust tähelepanuülesandes mõjutada ka katseisiku sugu (II faktor, 2 taset, 
sõltumatud grupid). ANOVA tulemuste tõlgendamine  Esmalt vaja üldse uurida, kas grupid on normaaljaotuslikud (asümmeetria- ja 
järsakuskordaja [-2;2]/ Shapiro-Wilk p>0,05)  p-väärtus – kui p<0,05, siis seletavad grupid ära mingi olulise osa andmete 
varieeruvusest, kuid ei täpsusta, millised grupid. On vaja teha post-hoc analüüs!  η² (eeta ruut) – näitab ANOVA puhul efektisuurust; varieerub 0-1, näitab, mitu 
protsenti varieeruvusest meie faktor selgitab.  Vaja uurida ka homogeensust (JASP Assumption checks); Levene test p>0,05, kui 
hajuvused on homogeensed. (Kui hajuvused ei ole homogeensed, kasutada Welchi 
testi)  Post-hoc analüüs – kas p-väärtus <0,05? Kui jah, siis on erinevused tulemuste 
vahel statistiliselt olulised. Tulemuste raporteerimine: ANOVA - mood.gain  Cases  Sum of Squares  df  Mean Square  η²  drug  3.453  2  1.727  18.611  < .001  0.713  Residuals 1.392  15  0.093  Post Hoc Comparisons - drug  Mean Difference  SE  p tukey  p holm  anxifree  joyzepam  -0.767  0.176  - 4.360  0.002  0.001     placebo  0.267  0.176  1.516  0.312  0.150  joyzepam placebo  1.033  0.176  5.876  < .001  < .001  Ühesuunaline dispersioonanalüüs (One-Way ANOVA) näitas, et ärevuse hinnang erines 
oluliselt gruppide vahel (F(2,15) = 18,6; p < .01, η2 =0,71). Post-hoc keskmiste võrdlused 
näitasid, et joyzepami manustanud uuritavate keskmine raporteeritud meeleolu oli kõrgeim 
(M = 1,48; SD = 0,21), erinedes statistiliselt nii platseebost (p < 0,01; M = 0,45; SD = 0,28) 
kui anxifreest (p < 0,001; M = 0,71; SD = 0,39). Anxifree ja platseebo vaheline võrdlus ei 
osutunud statistiliselt oluliseks (p = 0,150).


II sõltumatu muutuja lisamine:  NÄIDE: Eksperimentaatorid jagasid katsealused gruppidesse selliselt, et igasse 
ravimi gruppi (platseebo, anxifree ja joyzepam) sattus sama palju inimesi, kes käisid 
teraapias ja kui neid, kes ei käinud. Sellise katse disainist kõnelemisel võidakse 
öelda, et tegu oli 3 (platseebo, anxifree ja joyzepam) x 2 (teraapia, mitte teraapia) 
eksperimendiga, milles sõltuvaks muutujaks oli uuringus osalejate meeleolu.  Seda tüüpi katseplaani puhul räägitakse ka peaefektidest ja interaktsioonist 
(koosmõjust). Eelnevalt toodud näite puhul tähendaks peaefekt näiteks, et uuringus 
osalejate raporteeritud meeleolu sõltus oluliselt ravimi tüübist (sõltumata sellest, kas 
teraapias osaleti või mitte). Sellisel juhul oleks tegemist ravimitüübi peaefektiga
Võib olla aga ka nii, et uuringus osalejate meeleolu hinnangud sõltusid teraapias 
käimisest (sõltumata sellest, kas ravimit võeti või mitte), so teraapia peaefekt. Võib 
olla ka nii, et kummalgi faktoril oli oma sõltumatu panus meeleolu hinnangule. Sellisel 
juhul räägiksime kahest peaefektist (ravimi ja teraapia omast). Neljas võimalus on, 
et ühe faktori mõju sõltub teisest faktorist (interaktsioon) ANOVA - mood.gain  Cases  Sum of Squares df Mean Square  F  η²  drug  3.453  2  1.727  31.71 4  < .001 0.713  therapy  0.467  1  0.467  8.582  0.013 0.096  drug ✻ therapy 0.271  2  0.136  2.490  0.125 0.056  1. Ravimi mõju on statistiliselt oluline (p< .001) ning on vastutav 71,3% muutuste eest  patsientide meeleolus. 2. Teraapia mõju on statistiliselt oluline (p=0,013), kuid see on vastutav vaid 9,6%  muutuste eest. 3. Ravimite ja teraapia vahel puudub statistiliselt oluline seos (p=0,125).
 Mitteparameetrilise analoogina Kruskal-Wallis test; taas oluline ennekõike p-väärtus 
(<0,05 – erinevus on oluline)  Mitteparameetrilise post-hoc analüüsi puhul Dunni meetod. Korduvmõõtmiste ANOVA tulemuste tõlgendamine  Esmalt tähelepanu p-väärtusele, et määrata, kas tulemus on statistiliselt oluline.  Vaadata faktortasemete vahede hajuvuse sarnasust ehk sfäärilisust (assumptions 
check JASPis); Kui Mauchly testi p-väärtus on <0.05, siis on eeldus rikutud ja seega 
peaksime kasutama F-statistiku raporteerimisel kohandatud vabadusastmete väärtusi
ja p-väärtust. Kui Greenhouse-Geisseri väärtus on väiksem kui 0.75, siis 
kasutatakse kokkuleppeliselt Greenhouse-Geisseri korrektsiooni. Vastasel korral 
Huynh-Feldti nimelist korrektsiooni.  Saadud tulemuste raporteerimisel saab otsustada, kas esitada korrigeeritud 
vabadusastmed: F(dfkorrigeeritud; dfresid.korrigeeritud) = X; p < X, η2 = X või raporteerida 
korrigeerimata vabadusastmed koos Greenhouse-Geisseri väärtusega: F(dfalgne, dfresid. 
algne ) = X; p < X, η2 = X, GG=X (vabadusastmed korrigeerimata). Korrigeeritud  vabadusastmed ise ütlevad vähe, kuid esitatuna koos GG väärtusega, on võimalik 
lihtsalt GG-a läbi korrutada. Korrelatsioon  Uurib, kas eksisteerib seos kahe pideva muutuja vahel (muutuja intervall- või 
suhteskaalal)  Näitab seose suunda (pos – muutujad kasvavad koos, neg – ühe kasvades teine 
kahaneb) ja tugevust.  Korrelatsioonikordaja on sisuliselt ka efekti suuruse ning mudeli seletusvõime näitaja


Pearsoni korrelatsioon r  o Varieerub [-1;1], kus 1/-1 on täiuslik pos/neg seos ning 0 on seose puudumine
o Skaala on ordinaarne, mitte lineaarne (ehk seos 0,2 ei ole 2x suurem kui seos 0,1) o Et saada aru, kui palju ühe muutuja varieeruvus seletab teise muutuja  varieeruvust, on vaja arvutada determinatsioonikordaja ehk r-ruut o Kui r=0,1, siis r    2 =0,01 ehk 1% ühe muutuja varieeruvusest on selgitatav teise    muutuja avrieeruvusega. r=0,5 puhul on r2=0,25 ehk juba 25% varieeruvusest!  Alternatiivsed korrelatsioonid:     o Astakkorrelatsioon Spearmani roo (Spearman rank correlation): kui muutujad  on ordinaalsed. Kasutatakse mitteparameetrilistel testidel. (Paneb paika 
väärtuste järjekorra ja siis arvutab Pearsoni korrelatsioon) o Kui üks muutuja on binaarne ja teine on pidev: punkt-biseriaalne (point- biserial). Korrelatsiooni leidmine:  Esmalt uurida, kas andmed on pideva jaotusega ja normaaljaotuslikud (et otsustada, 
kas vaadata Pearsoni r-i või Spearmani roo-d)  Uurida, kas andmetes on mingeid suuri erandeid (hea vaadata jooniselt; scatter 
plots); vahel on õigustatud andmete välja viskamine (nt on vanuseks pandud 500 – 
tegemist on selgelt trükiveaga)  Vaadates täpsemalt korrelatsiooni, oleks oluline vaadata ka olulisust (report 
significance)  Tulemuste raporteerimine: Korrelatsioonanalüüs näitas, et PISA tulemuste ja 
demokraatiaindeksi vahel on tugev positiivne korrelatsioon (r = .79, p < .001). Regressioon  Lihtsustatult: joonevõrrandi leidmine  y=ax + b y – sõltuva muutuja väärtus
x – sõltumatu muutuja väärtus
a – tõus
b – vabaliige  Üritab leida, milline oleks nö kõige parem joon läbi tulemuste pilve, mis ennustaks 
kõige rohkem tulemusi ja teeks kõige vähem vigu.  Nimetatakse ka Ordinary Least Squares OLS, kuna leitakse selle järgi, millisel juhul 
on ruutvigade summa kõige väiksem. Lineaarne- ehk paarisregressioon Eeldused:  Sõltuva muutuja andmed on intervall- või suhteskaalal (st on pidevtunnus);  Vaatluste sõltumatus;  Muutujatevaheline suhe on lineaarne – kontrollime hajuvusdiagrammiga;  Puuduvad märkimisväärsed erindid (outliers) – kontrollime hajuvusdiagrammiga; Koostamine JASPis:  Valige Regression - Linear Regression.  Tõstke sõltuv muutuja kasti nimega Dependent Variable ja sõltumatu muutuja ehk 
prediktor kasti nimega Covariate. Tulemuste tõlgendamine:


o Regressioonivõrrand: sissetulek = −3.57 × vanus + 409,98  a näitab, kui palju muutub y ühe x-ühiku muutumise korral (iga aastaga
sissetulek väheneb 3,57 võrra)  Oluline on R2 ehk kui suure osa kogu ennustatava muutuja variatiivsusest kirjeldab 
ära prediktor.  ANOVA tabelis ennekõike oluline p-väärtus <0,05, mis näitab, kas mudel on 
statistiliselt oluline.  Koefitsentide tabeli põhjal saab ehitada regressioonivõrrandi  (Uuring nr 2:) Coefficients  Mode   Unstandardized Standard Error Standardized  H   ₁  (Intercept) 331.581  1.883  176.120  < .001     AGE_R  -1.021  0.044  -0.345  -23.115  < .001   Vanuse regressioonikordaja ehk tõus on -1,02 ehk kui vanus suureneb ühe ühiku 
võrra, väheneb probleemilahendusoskus 1,02 punkti võrra.  Standardiseeritud ühikutes on tõus -0,345 ehk kui vanus suureneb ühe ühiku võrra, 
väheneb probleemilahendusoskus 0,345 standardhälbe võrra.  p< .001 ehk prediktor on statistiliselt oluline.  Vabaliige on 331,58  Saab kirjutada standardiseerimata regressioonivõrrandi: 
y(probleemilahendusoskus)=-1.02x(vanus)+331,58Standardiseeritud võrrandis taandatakse vabaliige välja ning tõus märgitakse 
standardiseeritud kujul. Mitmene regressioon  Paarisregressiooni puhul üks sõltumatu muutuja ehk prediktor, mitmese 
regressiooni puhul mitu prediktorit
.  Kasutusel endiselt determinatsiooni kordaja, kuid tähistatakse D, mis koosneb 
prediktorite r2-dest.  Tulemused esitatakse standardiseeritud kujul, kuna iga prediktori kohta on eraldi 
vabaliige ning nende esitamine ei ole mõistlik. Eeldused:  Seoste lineaarsus (saab joonena väljendada)  Vaatluste sõltumatus  Sõltumatud muutujad ehk prediktorid ei tohi omavahel olla väga tugevalt seotud (üle 
0,8), vastasel juhul nimetatakse seda multikollineaarsuseks.  Pidevad või binaarsed muutujad (kodeeritud 1 ja 0)


 Ei ole ekstreemseid juhtumeid  Kõik relevantsed muutujad on mudelis  Regressioonimudeli jäägid peavad olema normaaljaotuslikud. o Kui ei ole normaaljaotuslik, siis tõenäoliselt seletavad sõltumatud muutujad  paremini vaid ühte osa sellest valimist Läbi viimine (JASP)  Tuleks kontrollida prediktorite omavahelisi seoseid (korrelatsiooni tabelid)  Regressioni alt Linear Regression.  Dependent Variable on sõltuv muutuja ning Covariates on prediktorid; standartne 
meetod on „    Enter    “.    o Enter – kõik muutujad pannakse sisse samal ajal. Muutujate valik peab olema  teoreetiliselt põhjendatud; o Stepwise – programm valib välja, millised prediktoritest lisatakse mudelisse, ja teeb seda järjestikuselt (prediktori ennustusvõime järgi); o Remove – programm võtab prediktoreid välja;
o Backward – programm võtab järjest kõiki prediktoreid hõlmavast mudelist välja nõrgema ennustusvõimega prediktoreid; o Forward – programm alustab kõige tugevamale prediktoritele nõrgemate  prediktorite lisamist.  Kollineaarsust saab testida ka Collineary diagnosticsiga – kui selle tolerance näitaja 
on <0,1 või VIF>10, on tegemist problemaatilisel tasemel prediktorite-vahelise 
seotusega.  Uurida ka mudeli jääke (Residuals) (normaaljaotuslikkus ja ekstreemsed juhtumid) o Casewide diagnostics, valida Standard residuals valikusse 2SD ühikut, mille  sisse jääb >95% normaaljaotuse andmetest. Kontrollida, kas antud andmete 
hulk jääb <5% kogu andmestikust. o Standardized Residuals Histogram – jälgida, et andmed oleksid koondunud  nulli ümber ja mõlemale poole nulli langeb enam-vähem võrdselt jääke.  Ühtlasi: residual: statistics min, max ja mean selle hindamiseks. o Q-Q Plot Standardized Residuals - niinimetatud tõenäosuspaber ehk kvantiil- kvantiil diagramm (ingl. k. Q-Q plot). Sirge joon esindab normaaljaotust ja 
punktid jääke. Täiusliku normaaljaotuse korral oleksid kõik punktid joone peal. 
Kõrvalekalded joonest on tavalised otstes, kuid keskel ei tohiks neid esineda. o Cook’s distance > 1 tähistab oluliselt erinevaid andmeid, mis tõmbavad  ülejäänud mudelit enda poole. Andmete tõlgendamine  Model Summary tabel, kus ennekõike tähtis kohandatud R2, mis näitab, kui suure osa
sõltuvast muutujast kirjeldavad ära prediktorid.  ANOVA tabel - annab tulemused mudeli olulisuse hindamiseks (p-väärtus)  Koefitsientide tabeli - näitab prediktori väärtust ning olulisust mudelis. Kui prediktori p-
väärtus on alla 0.05, siis on selle prediktori mõju statistiliselt oluline. Tulemuste raporteerimine:


Model Summary - PVNUM1  Mode R²  Adjuste d R²  RMSE  H   ₁  0.279  0.07 8  0.077  54.02 3  ANOVA  Model    Sum of Squares  df  Mean Square  H   ₁  Regression  1.095e +6  365069.781  125.088  < .001     Residual  1.301e +7  4458  2918.511     Total  1.411e +7  4461  Note.  The intercept model is omitted, as no meaningful information can be shown. Coefficients  Collinearity Statistics  Mode   Unstandardize Standar d Error  Standardize Toleranc VIF  H   ₁  (Intercept
)  254.753  2.723  93.56 9  < .001     H_Q03b  -6.197  0.817  -0.128  -7.581  < .001  0.725  1.37 9     H_Q03c  14.140  0.861  0.299  16.43 0  < .001  0.626  1.59 7     H_Q03d  2.491  0.881  0.047  2.827  0.005  0.763  1.31 0  Lineaarne regressioon näitas, et kuludega arveldamine (calculating costs or budgets; β = -
0.128, p < .001
), murdude ja protsentide arvutamine (use or calculate fractions or 
precentages; β = 0.299, p < .001), kalkulaatori kasutamine (use a calculator; β = 0.047, p 
< .05
) ennustasid numbrilist võimekust statistiliselt olulisel määral. Mudel seletas 7.7% 
variatiivsusest
 numbrilise võimekuse tulemusest, kohandatud R 2 = 0.077, F(3, 4458) = 
125.088, p < .001.
Regressioon binaarse muutujaga  Regressioon, kus sõltumatu muutuja on binaarne väärtus (nt sugu)  Muutujad tähistatakse kui 0 ja 1, 0 on referentsmuutuja  Sisuliselt saaks samad tulemused t-testi puhul Simpsoni paradoks – esineb, kui juhtumid on jagatud mingi tunnuse poolest gruppideks.


Logistiline regressioon  Sõltuv muutuja on dihhotoomne väärtus (nt jah/ei, on/ei ole, 0/1); see eeldab ka 
vastavat muutuja kodeerimist (st kujule 0 ja 1), sest arvutatakse sündmuse 
asetleidmise tõenäosust  On üks või rohkem sõltumatut muutujat.  Omavahel sõltumatud ja mitte kollineaarsed vaatlused.  Šansid (odds) – tõenäosus, et midagi juhtub, jagatud tõenäosusega, et see sama asi
ei juhtu (eeldades, et need kaks on ainsad võimalikud variandid). o Šansid=P(y=1) / 1−P(y=1)
Kui šansid on 1, peavad murrujoone pooled olema võrdsed ehk tõenäosus  (probability) P=50% Järelikult: kui šansid<1, on mitte-juhtumise tõenäosus suurem kui juhtumise  Pr; kui šansid>1, on juhtumiste Pr suurem kui mitte-juhtumise Pr. Šansid [0; ∞] (varieeruvad 0st lõpmatuseni)
o Riskitõenäosus: šanss 1 on keskmine juhuslik, šanss üle 1 räägib grupi  kuuluvuse kasuks, alla 1 selle kahjuks.  Logaritm – ühe arvu väljendamine teise arvu astmena o logb(x) = y ehk b y = x Nt arvust 1 logaritm, mille baas on 10    : log10(1) = mis astmele tuleks 10 tõsta,  et saada 1? (Iga arv astmel 0 on 1) Logaritmida saab ainult positiivseid arve (logaritmi baas suurem 0st) Naturaallogaritmi    ln     baas on e (ehk ümardatult umbes 2,71) Šansside logaritm ehk logit on ln(P(y=1) / 1−P(y=1))Logistiline regressioon on nagu tavaline regression, kus me ennustame 
šanside logaritmi läbi pidevate või binaarsete sõltumatute muutujate.
ln(P(y=1) / 1−P(y=1))=ax+b  šansid = p / 1−p ja p = šansid / 1+šansidNäide: logit(hääletamine) = 0.283 + 0.019 × vanus Kui vanus on 50, siis logit(hääletamine)=1,223


logit(h)=ln(h)=loge(h)=1,223; järelikult hääletamise šansid on e1,223=3,4 Kui šansid hääletada on 3,4, siis järelikult on hääletamise tõenäosus:  p= 3,4/1+3,4=0,77 s.o. 77% tõenäosus, et 50-aastane kodanik 
läheb hääletama.
 Logistilise regressiooni puhul ei mõtle me sõltuvast muutujast kui binaarsest   
tunnusest vaid pigem kui vastavatesse gruppidesse kuulumise šansside logaritmist.  Mudeli sobivuse hindamisel kasutatakse pseudo R2  Üritame saada mudeli, mis klassifitseerib korrektselt, kas meie juhtumid kuuluvad 
gruppi (1) või ei kuulu (0). Logistilise regressioonianalüüsi läbi viimine (JASP)  Võiks vaadata üle sõltuva muutuja grupisuuruste jaotuvuse, ideaalis on grupid 
võrdsed, kui ei ole, tasub seda järelduste tegemisel arvesse võtta.  Regression - Logistic Regression o Dependent variable – sõltuv binaarne muutuja (nt suitsetaja-mittesuitsetaja) o Method – „Enter“ o Covariates – pideval skaalal olevad sõltumatud muutujad (nt kaal) o Factors – nominaalsel skaalal olevad sõltumatud muutujad (nt sugu)  Model summary tabelist oluline pöörata tähelepanu p väärtusele, et teada, kas mudel 
on statistiliselt oluline. X2 ehk hiiruut test võrdleb tulemust nullmudeliga.  Samuti võib vaadata pseudo r2-te (sageli raporteeritakse Cox&Snell ja Nagelkerke 
tulemuste vahemik)  Tuleks valida ka odds ratio, mis näitab riskitõenäosust. Kui see suhe on üle 1, siis see
ütleb, et kui prediktori väärtus suureneb ühe ühiku võrra, kasvab šanss nii palju,
et aset leiab ennustatav sündmus
. Kui aga väärtus on alla 1, siis see näitab, et 
sündmuse asetleidmise šanss väheneb (kirjeldab nt kaalu muutumise ühikut)   Samuti oluline Coefficients tabelist p-väärtused, mis kirjeldavad individuaalselt iga 
teguri statistilist olulisust.  Kui Wald statistic on nullist erinev, ja seda statistiliselt oluliselt (p), siis me võime 
öelda, et prediktori panus mudeli ennustusvõimesse on oluline.  Tabeli all ütleb JASP, mis on valitud kummaks kategooriaks (öeldud 1, 0 on 
baaskategooria)  Alamenüüst Statistics Confusion matrix ja Proportions. o Vaadates maatriksi peadiagonaali (ülevalt vasakult alla paremale), näeb  mudeli ennustusvõimet ning neid liites saab teada, mitu vaatlust ennustab 
mudel õigesti.


 Sensitivity/Recall ja Specificity. o Sensitiivsus näitab korrektselt klassifitseeritud positiivsete tulemuste  (true positives) osakaalu. Spetsiifilisus näitab korrektselt klassifitseeritud 
negatiivsete tulemuste (true negatives) osakaalu. o Hea mudel suudab tuvastada nii positiivseid kui negatiivseid tulemusi. Tulemuste raporteerimine Model Summary - smoke  Model  Deviance  AIC  BIC  df  Χ²  McFadd en R²  Nagelkerke R²  Tjur R²  Cox & Sne ll R²  H   ₀  188.769  190.7 69  194.2 54  24 0  H   ₁  176.638  184.6 38  198.5 77  23 7  12.1 31  0.0 07  0.06 4  0.090  0.0 63  0.0 49  Performance metrics   Value  Sensitivity  0.995  Specificity  0.000  Coefficients  Wald Test    Estimate  Standard Error  Odds Ratio  Wald Statis tic  df  weight  0.0 37  0.018  1.03 2.035  4.14 0  1  0.0 42  healthra
te  0.3 60  0.114  1.43 3.158  9.97 5  1  0.0 02  Note.  smoke level 'no' coded as class 1.  Logistiline regressioon tehti, et hinnata, kas sugu, tervisele antud hinnang ja kaal ennustavad
seda, kas inimene suitsetab või ei suitseta. Logistilise regressiooni mudel oli statistiliselt 
oluline, χ2 (37) = 21.257, p < .001, R2 = 4.9-9.1% (Cox & Snelli ja Nagelkerke), sensitivity
= 99.5%, specificity = 0%.
 Mitte-suitsetamist ennustas kaalu suurenemine (Exp(B) = 1.038,
p < .05)
. Samuti ennustas suitsetamist tervisele antud hinnang (Exp(B) = 1.440, p < .05) – 
kui tervisele antud hinnang suurenes, siis vastaja suurema tõenäosusega ei suitsetanud. Faktoranalüüs  Analüüsimeetod tunnuste omavaheliste seoste uurimiseks


 Faktor ehk mingi latentne konstrukt, mida ei saa otseselt mõõta (nt intelligentsus, 
motivatsioon)  Faktorite arvutamine kaudsete mõõtmiste kaudu (nt küsimustikud) – põhineb 
korrelatsioonimaatriksil ehk tugineb muutujate omavahelistele seostele.  Tüübid: o Uuriv faktoranalüüs (exploratory FA) – eesmärk otsida andmetest ühiseid  latentseid faktoreid; kõige levinum ja kõige enam kasutatud ka seminaritöödes o Kinnitav faktoranalüüs (confirmatory FA) – tahame teada, kas hüpoteetiline  mudel on parem kui mõni alternatiivne mudel o Peakomponentide analüüs (principal components analysis) – eesmärk on  välja selgitada väiksem hulk komponente, mis vastutavad esialgsete 
muutujate varieeruvuse eest. Nimetatakse ka andmete taandamiseks.  Faktoranalüüs proovib seletada ühist osa varieeruvusest ning peakomponentide 
analüüs proovib seletada kogu variatiivsust.  Nii uuriv faktoranalüüs kui ka kinnitav faktoranalüüs põhinevad mõlemad nn 
ühisfaktori mudelil (common factor model).  Joonisel 1 On kujutatud ühisfaktori mudel: kõik mõõdetud muutujad (Muutuja 1- 
Muutuja 5) on mõjutatud osaliselt ühiste faktorite (Faktor 1 ja Faktor 2) ja osaliselt 
unikaalsete komponentide (Jääk 1-Jääk 5 poolt).  Uuriv faktoranalüüs püüab kindlaks teha mõõdetud tunnuste “taga” oleva 
faktorstruktuuri. Kinnitav faktoranalüüs võimaldab teha kindlaks, kas hüpoteetiline 
mudel kinnitub andmetele o Peakomponentide analüüsis toimub vastupidine protsess: eeldatakse, et  muutujatest tekib uus komponent (joonisel nooled vastupidised). o EFA käigus eeldatakse, et mõõdetud muutujate varieeruvuse eest vastutavad  tekkivad ühisfaktorid ja unikaalsed faktorid. PCA käigus tekitatakse uued 
muutujad lihtsalt kui lineaarkombinatsioonid mõõdetud muutujatest  Faktoranalüüs eeldab, et latentne tunnus on vaadeldud tunnuste vaheliste   
korrelatsioonide põhjuseks  FA ei tõesta siiski põhjuslike seoseid.  Kui nt joonisel 1 oleks iga faktor seotud vaid oma enda muutujatega, nimetatakse 
seda lihtsaks faktorstruktuuriks. FA eeldused:  Arvtunnused (võivad olla ka järjestusskaalal); saab arvutada korrelatsioone (r / rho)  Tunnuste vahel peaks olema märkimisväärseid lineaarseid seoseid (enne 
korrelatsioonianalüüsiga kontrollida)  Andmeid valimis vähemalt 10x rohkem mõõdetud tunnuseid (valim võiks olla 
hinnanguliselt vähemalt 200)


Olulised protsessid:  Faktorite eraldamise meetod (kõige levinum on maximum likelyhood)  Faktorite pööramine – täisnurkne (orthogonal) või kaldnurkne (oblique); parandab 
üldist faktorite seletusvõimet, kui on rohkem kui 1 faktor. o Täisnurkne pööramine – lineaarsed kombinatsioonid on alati 90° nurga all  ning see eeldab, et faktorid ei ole omavahel korreleeritud o Kaldnurkne pööramine – ei kehti eelnevad eeldused; psühholoogias  peamiselt kasutatav meetod!  Faktorite arvu eraldamine Kaiseri kriteerium – omaväärtused (Eigenvalues y-teljel; näitavad faktori  seletusvõimet) suuremad kui 1 Catelli kriteerium – võetakse arvesse faktorid enne jõnksu (enne kui tekib  platoo); kohati subjektiivne. Paralleelanalüüs – programm simuleerib paralleelandmestiku, millega saadud  tulemusi võrrelda. Mõitsed:  Faktorlaadung (factor loadings)– mõõdetud tunnuse ja faktori vahelised 
korrelatsioonid; standardiseeritud kujul 0-1; tahetakse näha, et kõik tunnused nt 
laaduvad tugevalt ühe, nõrgalt teiste tunnustega. (Kui nt mõni tunnus laadub kõigiga 
0,3, tasub kaaluda selle tunnuse välja jätmist)  Omaväärtus (Eigenvalue)  kui hästi faktor mudelisse sobib; kirjeldusaste, mida 
suurem, seda parem (tasuks arvestada vaid neid, mis on suuremad kui 1 – Kaiseri 
kriteerium!))  Kommunaliteet (communality) – kui suure osa tunnuse variatiivsusest seletab ära 
faktormudel; mida suurem kommunaliteet, seda parem (kui vaja mingeid tunnuseid 
välja jätta, tasuks vaadata suure faktorlaadungi ja väikese kommunaliteediga 
tunnuseid).  Omapäraelemendid ehk jäägid (uniqueness) – 1-kommunaliteet; variatiivsus, mis 
jääb faktorite poolt seletamata.   Läbiviimine JASPis  Exploratory FA – kõik huvipakkuvad andmed variables aknasse  JASP annab automaatselt Oblique pööramise meetodi (selle alt kõige levinum valik 
oblimin – analüüsi raporteerides tuleb välja tuua). Kui on ainult 1 faktor, pole vaja 
pöörata.  Estimation methodi alt kõige soovitatavam maximum likelyhood  Hea valida ka joonis (kui rohkem kui 1 faktor, vaja faktorkorrelatsiooni tabelit)  Valida faktorlaadungi meetod ja otsustada, mitu faktorit arvesse võtta võimalikest 
(nõrkasid variante välja jättes on võimalik mudelit parandada)  Highlight valiku alt saab määrata faktorlaadungi piiri, alla mille ei näidata.  (Lisaks saab tellida eelduseid kontrollivad analüüsid KMO test ja Bartlett’s test. KMO 
test ehk Kaiser-Meyer-Olkini test hindab andmete sobivust faktoranalüüsi 
kasutamiseks ning võiks soovituslikult olla suurem kui 0.5. Bartletti test hindab valimi 
sfäärilisust ning siin tuleks vaadata testi p-väärtust, mis võiks olla väiksem kui 0.05. 
Tegemist soovituslike suurustega.)  (Additional fit indices – RMSEA võiks olla väiksem kui 0,08; TLI võiks olla suurem kui 
0,9/0,95)  (Path diagrammi joonisel alati mõõdetud tunnused kastides ja latentsed tunnused 
ringikestes) Peakomponentide analüüs PCA


 Peakomponentide analüüsi eesmärk on välja selgitada väiksem hulk komponente, 
mis vastutavad esialgsete muutujate varieeruvuse eest. Faktoranalüüs ja 
peakomponentide analüüs on matemaatilises mõttes erinevad. Faktoranalüüsi käigus
eeldatakse, et mõõdetud muutujate varieeruvuse eest vastutavad tekkivad 
ühisfaktorid ja unikaalsed faktorid. Peakomponentide analüüsi käigus tekitatakse 
uued muutujad lihtsalt kui lineaarkombinatsioonid mõõdetud muutujatest Kinnitav faktoranalüüs (JASPis)  Saab kontrollida tunnuste kuuluvust faktorisse (eelnevate analüüside alusel)  Vaja teha valikud: o Additonal OutpuI – Additional Fit Measures  Fit indices tabelist vaadata CFI ja TLI, mis võiks mõlemad olla üle 
0,9/0,95  Other fit measures RMSEA ja SRMR võiks olla alla 0,06/0,08 o Plots – Model plots – Show parameters  Faktorlaadungid visuaalsel kujul o Advanced – Standardization – All  Faktorlaadungid iga tunnuse kohta on nähtavad standardiseeritud 
kujul, samuti saab näha nende p-väärtust.

Document Outline

  • Andmetöötluse alused:
  • Võrreldavate rühmade liigitamine (T-testid)
  • Dispersioonanalüüs ehk ANOVA
  • Korrelatsioon
  • Regressioon
  • Faktoranalüüs

Vasakule Paremale
Statistiline modelleerimine teooria kokkuvõte 2020 #1 Statistiline modelleerimine teooria kokkuvõte 2020 #2 Statistiline modelleerimine teooria kokkuvõte 2020 #3 Statistiline modelleerimine teooria kokkuvõte 2020 #4 Statistiline modelleerimine teooria kokkuvõte 2020 #5 Statistiline modelleerimine teooria kokkuvõte 2020 #6 Statistiline modelleerimine teooria kokkuvõte 2020 #7 Statistiline modelleerimine teooria kokkuvõte 2020 #8 Statistiline modelleerimine teooria kokkuvõte 2020 #9 Statistiline modelleerimine teooria kokkuvõte 2020 #10 Statistiline modelleerimine teooria kokkuvõte 2020 #11 Statistiline modelleerimine teooria kokkuvõte 2020 #12 Statistiline modelleerimine teooria kokkuvõte 2020 #13 Statistiline modelleerimine teooria kokkuvõte 2020 #14 Statistiline modelleerimine teooria kokkuvõte 2020 #15 Statistiline modelleerimine teooria kokkuvõte 2020 #16 Statistiline modelleerimine teooria kokkuvõte 2020 #17 Statistiline modelleerimine teooria kokkuvõte 2020 #18 Statistiline modelleerimine teooria kokkuvõte 2020 #19
Punktid 100 punkti Autor soovib selle materjali allalaadimise eest saada 100 punkti.
Leheküljed ~ 19 lehte Lehekülgede arv dokumendis
Aeg2020-12-01 Kuupäev, millal dokument üles laeti
Allalaadimisi 40 laadimist Kokku alla laetud
Kommentaarid 0 arvamust Teiste kasutajate poolt lisatud kommentaarid
Autor Kristiina Elisa Adson Õppematerjali autor
Kokkuvõte TÜ aine Statistiline Modelleerimine aine teooria osast.
Teemad:
Andmetöötluse alused (muutujate liigid, kirjeldav ja järeldav statistika, skaala liigid, jaotused, standardhälve, standardiseerimine, järsakuskordaja ja asümmeetria kordaja, standardviga, usalduspiirid, hüpoteesid, efekti suurus)
T-testid, nende liigid, omadused ja läbiviimine.
Dispersioonanalüüs ehk ANOVA liigid omadused ja läbiviimine.
Korrelatsioonianalüüsi omadused ja läbiviimine.
Regressioonianalüüsi liigid omadused ja läbiviimine (k.a. mitmene regressioon ja logistiline regressioon).
Faktoranalüüsi omadused ja läbiviimine.

Sarnased õppematerjalid

Statistiline modelleerimine praktikumide juhised
30
docx

Statistiline modelleerimine praktikumide juhised.

Kui need muutujad on olemas, saate nende normaaljaotuslikkust testida juba harjumuspärasel viisil. Käsklusrida: Analyze - Compare Means ­ Paired-Samples T Test Variable 1 alla pange esimese mõõtmise muutuja ning Variable 2 alla valige tema paariline teisest mõõtmiskorrast. Väljundiakna (Output) loogika on enam-vähem sama, mis sõltumatute valimitega testi puhul. 3) EFEKTI SUURUSE ARVUTAMINE Efekti suurus on statistiline näitaja, mis võimaldab lisaks statistilisele olulisusele kirjeldada gruppidevahelisi erinevusi. Efekti suurust saab väljendada mitmete statistikutega; ilmselt levinuim on Cohen-i d. Kokkuleppeliselt tähistavad Cohen'i d väärtused väikest efekti väärtusel d = 0.2; keskmise suurusega efekti väärtus on d = 0.5; suure efekti väärtuse algus on d = 0.8. SPSS-is ei ole funktsiooni/käsklust, millega saaks paari kliki abil efekti suurust (st Coheni d-d) kätte

Statistiline modelleerimine
Andmeanalüüsi konspekt
12
docx

Andmeanalüüsi konspekt

ANVOA või regressioonanalüüs Kui meil sõltumatu muutuja koosneb kategooriatest, siis on parem kasutada ANOVA't. Kui sõltumatu muutuja on pidev tunnus, siis on parem kasutada regressiooni. ANOVA'ga hinnatakse gruppide keskmiste erinevust. Regressiooniga saab ennustada sõltuva muutuja väärtust prediktori (sõltumatu muutuja) väärtuste põhjal. Efekti suurus Efekti suurus on statistiline näitaja, mis võimaldab lisaks statistilisele olulisusele kirjeldada gruppidevahelisi erinevusi. Efekti suurust saab väljendada mitmete statistikutega; ilmselt levinuim on Cohen-i d. Kokkuleppeliselt tähistavad Cohen'i d väärtused väikest efekti väärtusel d = 0.2; keskmise suurusega efekti väärtus on d = 0.5; suure efekti väärtuse algus on d = 0.8. SPSS-is ei ole funktsiooni/käsklust, millega saaks paari kliki abil efekti suurust (st Coheni d-d) kätte.

Andmeanalüüs
Andmetöötlus psühholoogias
7
doc

Andmetöötlus psühholoogias

- Tunnuse, mille järgi toimub rühmitamine, valite aknasse: Factor - Aknast Post Hoc, teete linnukese kastidesse LSD ja Bonferroni (need on gruppide võrdlemise erinevad meetodid) ­ ehkki ANOVA näitab, kas gruppide vahel on erinevusi, näitavad post hoc testid, mis gruppide vahel on erinevused. - Options aknast teete linnukese Descriptive ja Homogenity of the variance test juurde EFEKTI SUURUSE ARVUTAMINE Efekti suurusvi on statistiline näitaja, mis võimaldab lisaks statistilisele olulisusele kirjeldada gruppidevahelisi erinevusi. Efekti suurust saab väljendada mitmete statistikutega; ilmselt levinuim on Cohen-i d. Kokkuleppeliselt tähistavad Cohen'i d väärtused väikest efekti väärtusel d = 0.2; keskmise suurusega efekti väärtus on d = 0.5; suure efekti väärtuse algus on d = 0.8. SPSS-is ei ole funktsiooni/käsklust, millega saaks paari kliki abil efekti suurust kätte. Seega on mõned alternatiivid ­

Ülevaade psühholoogiast
Ökonomeetriline projekt - Brutopalga sõltuvus haridustasemest-meeste osakaalust ning linlaste osakaalust maakondade lõikes
36
docx

Ökonomeetriline projekt - Brutopalga sõltuvus haridustasemest, meeste osakaalust ning linlaste osakaalust maakondade lõikes

TALLINNA TEHNIKAÜLIKOOL Majandusteaduskond Rahandus ja majandusteooria instituut Matemaatika, statistika ja ökonomeetria õppetool Laura Kallasvee, Liisi Saksakulm BRUTOPALKADE SEOS HARIDUSE, SOO JA ELUKOHAGA EESTI MAAKONDADE LÕIKES AASTATEL 2005-2008 Ökonoomeetriline projekt Juhendaja: dotsent Ako Sauga Tallinn 2014 SISUKORD SISSEJUHATUS.........................................................................................................................4 1. REGRESSIOONANALÜÜS..................................................................................................7 1.1. Ökonomeetriline mudel....................................................................................................7 1.2. Töös kasutatavad andmed..........................................

Majandus
Ökonomeetria kontrolltöö kordamisküsimused 2020
70
docx

Ökonomeetria kontrolltöö kordamisküsimused 2020

Parameetrite hinnangute standardvead näitavad, kui täpsed on parameetrite hinnangud. Täpsemate hinnangute saamiseks peavad x väärtused võimalikult palju hajuma. Usalduspiiride leidmisel lähtutakse sellest, et parameetrite hinnangute standardiseeritud erinevused tegelikest väärtustest alluvad t jaotusele vabadusastmete arvuga. 23. Hüpoteeside testimine parameetrite jaoks ja parameetrite statistilise olulisuse kontrollimine (t-test). Parameetrite statistiline olulisus Kõige sagedamini on regressioonmudeli korral vaja testida, kas tunnused Y ja X on omavahel seotud, st kas tõusuparameeter a erineb oluliselt nullist. Ökonomeetriapakettides leitakse t ja p väärtused just selle juhu jaoks. See on parameetrite statistilise olulisuse kontrollimine. Kui nullhüpotees on ümber lükatud (võetakse vastu sisukas hüpotees), on parameeter oluliselt nullist erinev, järelikult seos on olemas. 24

Ökonomeetria
Gretl juhend 2016
32
pdf

Gretl juhend 2016

Gretl - Gnu Regression, Econometrics and Time Series Library Gretl on avatud koodil põhinev vabavara, mida võib legaalselt installeerida oma kodusesse arvutisse või sülearvutisse. Programmi koduleht http://gretl.sourceforge.net/ TÖÖ PROGRAMMIGA Gretl Käivitada programm – avaneb menüü 1. Andmete importimine – File → Open data → Import → nimi.xlsx. Selleks et oleks võimalik andmetabelit Gretl-isse importida tuleb tabel eelnevalt sobivale kujule viia: a) kontrollida, et Exceli tabeli esimeses reas oleksid muutujate nimed (ei peaks sisaldama täpitähti) ning teisest reast alates andmed. sulgeda Exceli fail; b) avada programm Gretl; c) valida File/Open data/Import/Excel d) otsida Exceli fail (muuta Files of type) e) valida, mitmendast veerust ja reast importimist alustatakse f) näidatakse töölehtede , muutujate ja vaatlustulemuste arv g)

Infoharidus
Uurmismeetodid psühholoogias
25
pdf

Uurmismeetodid psühholoogias

teisest küljest - osata hinnata kriitiliselt teiste poolt tehtud uurimuste tulemusi. 1. Seletus teaduslikus psühholoogias: 1 NT - lähedaste värvide vahel valides RT pikeneb; valikute suurenedes RT pikeneb: 1 numbri esitamisel RT=187 ms; 2 numbrit RT=316; 6 numbrit RT=532; 10 numbrit RT=622 ms Olenemata sellest, millisest teadusest on jutt, eksisteerivad mõned baaselemendid. Tähtsaimad nendest on andmed (empiirilised vaatlused; eksperimentaalse mõõtmise tulemused) ja teooria (organiseeritud mõistete süsteem, mis lubab ennustada andmeid). Ajalooliselt on kujunenud nii, et erinevad teadlased kasutavad erinevaid lähenemisviise, sõltuvalt sellest, kumb pool on nende jaoks tähtsam, kumb on "esimene". Traditsioon alates F.Bacon'ist (1561-1626) on uskuda empiiriliste vaatluste esmatähtsust. Teooriate väljatööt. aluseks on eelkõige empiirilised andmed - see on induktsioon kui meetod.

Psühholoogia
19
docx

1) Ökonomeetrilise mudeli komponendid: Endogeensed muutujad - sõltuvad muutujad, väärtused mudeli siseselt Y Eksogeensed muutujad – sõltumatud muutujad, modelleeritavat nähtust mõjutavad X Statistiliste meetoditega hinnatavad mudeli parameetrid β Juhuslik komponent – vabaliige u Y= f (X, β, u) 2) Andmetüübid: Arvandmed, ristandmed (erinevad objektid samal ajamomendil), aegread (sama objekti erinevatel ajamomentidel), paneelandmed (ristandmed + aegread) 3) Valimivaatlused ja parameetri hinnangu mõiste: Valimi parameetrite põhjal leitakse üldkogumi parameetrite hinnangud. 4) Punkthinnang, intervallhinnang Punkthinnang – statistik, mis annab parameetrite ühese väärtuse (aritmeetiline keskmine on valimi punkthinnang kogumi keskväärtusele) Intervallhinnang – usaldusvahemik, lõik, mis sisaldab parameetri tegelikku väärtust mingi etteantud tõenäosusega. 5) Hinnangufunktsioon: Reegel üldkogumi parameetri(te)

Kategoriseerimata




Meedia

Kommentaarid (0)

Kommentaarid sellele materjalile puuduvad. Ole esimene ja kommenteeri



Sellel veebilehel kasutatakse küpsiseid. Kasutamist jätkates nõustute küpsiste ja veebilehe üldtingimustega Nõustun