ANDMEANALÜÜSI KONSPEKT Sisukord Andmefailid SPSS'is................................................................................................ 2 Normaaljaotuse kontroll.......................................................................................... 2 ANOVA vs T-test...................................................................................................... 2 ANVOA või regressioonanalüüs............................................................................... 3 Efekti suurus........................................................................................................... 3 Andmeanalüüs SPSS'is........................................................................................... 4 Kirjeldav statistika...........
7,15 7,08 7,12 7,45 7,65 7,70 7,16 6,80 7,65 7,90 A4 7,36 6,15 8,38 7,87 8,21 7,66 6,90 8,45 8,05 8,42 8,00 6,95 8,50 8,65 8,62 Anova: Two-Factor With Replication SUMMARYB1 B2 B3 B4 B5 Total A1 Count 3 3 3 3 3 15 Sum 21,93 22,69 19,22 21,58 25,01 110,43 Average 7,31 7,563333 6,406667 7,193333 8,336667 7,362
mõõdeti iga katseala poogenditelt 10 juhuslikult 64 61 65 58 52 51 50 50 58 59 58 53 59 53 54 56 ogendite keskmised okka pikkused erinevad? gendite okka pikkuste keskväärtused ühesugused. ral on okka pikkuse keskväärtus teistest erinev. ata Analysis, Avova: Single Factor. Anova: Single Factor SUMMARY Groups Count Sum Average Variance iline väärtus, siis N 10 618 61.8 7.5111111111 e korral on vähema P 10 509 50.9 2.9888888889 NPK 10 560 56 4 Kontroll 10 569 56.9 10.7666666667
Mhv<-lm(ig5~hv,PD.1.2E) summary(Mhv) # Mdh: ig5 = a + b1*d + b2*h Mdh<-lm(ig5~d_k+h,PD.1.2E) summary(Mdh) # Mdhv: ig5 = a + b1*d + b3*hv Mdhv<-lm(ig5~d_k+hv,PD.1.2E) summary(Mdhv) # Mhhv: ig5 = a + b2*h + b3*hv Mhhv<-lm(ig5~h+hv,PD.1.2E) summary(Mhhv) # Mdhhv: ig5 = a + b1*d + b2*h + b3*hv Mdhhv<-lm(ig5~d_k+h+hv,PD.1.2E) summary(Mdhhv) # diagnostka AIC(M0,Md,Mh,Mhv,Mdh,Mdhv,Mhhv,Mdhhv) library(car) vif(Mdhhv) vif(Mdhv) vif(Mdh) anova(Md,Mdh) anova(Md,Mdhv) anova(Md,Mdhhv) anova(Mdhv,Mdhhv) anova(Mdh,Mdhhv) par(mfcol=c(1,1), las=1) plot(Md) # 2: Näslundi funkts. PD.KU<-subset(PD.1,pl=="KU") par(mar=c(4.7,4.7,1,1)) plot(h~d_k, PD.KU, xlim=c(0,35),ylim=c(0,20),xlab="Diameeter, cm", ylab="Kõrgus, m") abline(v=seq(0,40,10),lty=3,col="grey75") abline(h=seq(0,25,5),lty=3,col="grey75") # abijooned #lineariseerides Mnsld.1 <- lm(I(d_k/(h-1.3)^(1/3))~d_k, PD.KU) summary(Mnsld.1) PD.KU$h.nsld<- 1.3+(PD.KU$d_k/
statistiliselt oluliselt atraktiivsemaks kui kõrvale vaatava pilguga pilte, Z = ..., p = .02. Alternatiivselt: Wilcoxoni Signed Ranks Test näitas, et otse vaatava pilguga piltide atraktiivsuse astakud olid statistiliselt oluliselt kõrgemad kui kõrvale vaatava pilguga piltide astakud, Z = ..., p = .02 6. PRAKTIKUM 1) KESKMISTE VÕRDLEMINE ENAM KUI KAHE GRUPI KORRAL (ONE-WAY ANOVA) Sageli hõlmavad eksperimentaalsed uuringud enam kui kahe grupi või tingimuse võrdlusi. Näiteks võib ravimiuurijaid huvitada, kas (a) ravim on parem kui platseebo ning (b) kui suur doos ravimit on parima mõjuga? Tihtipeale võrreldakse sellistes olukordades nt kolme gruppi platseebot saanud, madala ning kõrge doosiga eksperimentaalsed rühmad. Dispersioonanalüüsi saab kasutada mitme grupi võrdlemisel.
Kui S-W ei kinnita normaaljaotuslikkust, saab seda kontrollida ka vastata uue tulba loomise kaudu (mõõtmistulemuste lahutustehe). Mitteparameetrilised testid Järjestustunnuste (nt Likerti skaala tulemused), normaaljaotusest erineva jaotuse ja väga väikeste valimite puhul (<30) tuleks eelistada mitte-parameetrilisi analooge. Sõltumatu t-testi asemel nt Mann-Whitney test Sõltumatu ANOVA asemel nt Kruskal-Wallis test Sõltuvate rühmade t-testi asemel nt Wilcoxoni test Sõltuva ANOVA asemel nt Friedmani test Võrreldakse järjestusi, tavaliselt peamine mõõtmisalus keskmise asemel mediaan Dispersioonanalüüs ehk ANOVA Rohkem kui kahe võrreldava grupi vahel tehakse mõõtmised ANOVAga (ANalysis Of VAriance) Sõltumatute gruppidega (between subjects) ANOVA Ühefaktoriline dispersioonanalüüs (One-Way ANOVA)
SUMMARY OUTPUT Regression Statistics Multiple R 0,997117 R Square 0,994242 Adjusted R Square 0,993923 Standard Error 0,050087 Observations 20 ANOVA df SS MS F Significance F Regression 1 7,797748 7,797748 3108,303 1,3E021 Residual 18 0,045156 0,002509 Total 19 7,842905 Coefficients Standard Error t Stat Pvalue Lower 95%Upper 95% Lower 95,0% Upper 95,0%
t-testi parameetri empiiriline väärtus mittekehtiv nullhüpotees, I liiki viga, ii liiki viga, teststatistiku empiiriline väärtus olulisuse nivoo olulisuse nivoo vähendamine sisukas hüpotees, olulisuse nivoo, liiki vea, tõke analüüsimeetod hüpoteesi statistilisel kontrollimisel saadi olulisuse tõenäosuseks uuritava tunnuse jaotuse võrdlemisel normaaljaotusega Test 9 ühefaktoriline dispersioonanalüüs anova nullhüpoteesi dispersioonanalüüs, teststatistik, faktori poolt põhjustatud seletatud hajumine suurem, seletamata hajumine teststatistiku f väärtus toodud anova tabeli korral funktsioontunnus faktor korrelatsioonimaatriks negatiivne kovariatsioon, autokorrelatsioon, spearmani korrelatsioon summaarne dispersioon arvutusvalemis, kovariatsioon õige hajumisdiagramm hajumisdiagramm, tunnuste vaheline seos kõige tugevam korrelatsioonikordaja ja kovariatsioon
VIF 5,2364658507 7,072 21,354 21,609 TOL 0,1909684945 0,141 0,047 0,046 x1 SUMMARY OUTPUT Regression Statistics Multiple R 0,8994617866 R Square 0,8090315055 Adjusted R Square 0,7963002725 Standard Error 5,684885887 Observations 145 ANOVA df SS MS F Regression 9 18483,362517209 2053,706946357 63,5469877603 Residual 135 4362,9202190334 32,3179275484 Total 144 22846,282736242 Coefficients Standard Error t Stat P-value Intercept 45,2325050445 4,5122271955 10,0244298625 5,0841941E-018
14 8 2 Multiple R 0,9346801 6 5 10 R Square 0,8736269 1,8 1 1 Adjusted R Square 0,8578302 11,5 10 10 Standard Error 2,056276 9,3 5 2 Observations 10 6 4 6 12,2 10 18 ANOVA df SS MS Regression 1 233,84283 233,84283 intercept on 0 Residual 8 33,826167 4,2282709 Total 9 267,669 CoefficientsStandard Error t Stat
VIF= 1,2446687131 1,0669192298 3,039482 2,616432 SUMMARY OUTPUT Regression Statistics Multiple R 0,4532791876 R Square 0,2054620219 Adjusted R Square 0,1061447747 Standard Error 811,7647244022 Observations 37 ANOVA df SS MS F Regression 4 5452896,128908 1363224 2,068745 Residual 32 21086782,96908 658962 Total 36 26539679,09799 Coefficients Standard Error t Stat P-value
t-testid võrdlevad kahe üldkogumi keskväärtusi. Sõltuvad valimid – samad objektid, erinevad (võrreldavad) tunnused KAKS INTERVALL TUNNUST(nt. rahulolu haridusega riigis võrreldes rahuloluga tervishoiu süsteemiga riigis). Kaks gruppi või tunnust. Kuna võrdleb keskväärtusi, siis tunnuseks peab olema intervalltunnus. Sõltumatud valimid – erinevad objektid, sama tunnus. (Nt meeste ja naiste üldine rahulolu, kus mehed ja naised on 2 erinevat gruppi ja rahulolu on intervalltunnus). ANOVA-Nagu sõltumatute v. T-test 3 või enama grupiga. Sõltuv tunnus peab olema intervalltunnus. Võrreldavad grupid (3 või enam gruppi!) sõltumatud. Hajuvused peavad olema gruppides sarnased (Levens test). Tulemuste jaotus vastab normaaljaotusele (loetakse kehtivaks ilma kontrollimata). Kui ANOVA eeldused ei ole täidetud, siis MPAR (mitteparameetrilised väärtused) test Kruskal-Wallis või Games-Howell. Kui H1, siis Post-Hoc testid, et välja selgitada, milliste gruppide vahel on erinevused
403 16304.20885 13839.56372 14305.26396 15973.00018 SUMMARY OUTPUT Regression Statistics Multiple R 0.93001005 R Square 0.864918694 Adjusted R Square 0.856476112 Standard Error 197.413872 Observations 18 ANOVA df SS MS Regression 1 3992595.82144818 3992595.821 Residual 16 623555.789662928 38972.23685 Total 17 4616151.61111111 Coefficients Standard Error t Stat Intercept 3076.114111 99.2070711068 31.00700461 Väärtus jooksevhindades, miljoni-0
Regressioonisirge lisamiseks Chart Layout Trendline Linear trendline. Andmete lisamiseks graafikult, parem klõps Format trendline ja kaks alumist ticki teha. Tee regressioonanalüüs: Data analysis: regression. Seejärel pane paika võrrand, a+b*otsitav; a ja b saad regressioonitabelist. a=intercept ja b on selle all. Seejärel püstita hüpoteesid: H0: regressioonivõrrand ei ole statistiliselt oluline; H1: regressioonivõrrand on statistiliselt oluline. P väärtus on ANOVA all, significance F. NÄITED: Prognoosige hinge kinni pidamise võimet kehalise võimekuse testi abil, Prognoosige tudengite massi nende pikkuse abil. Kui palju võiks keskmiselt kaaluda 170 cm pikkune tudeng? Prognoosige pikkust jalanumbri alusel. Hiiruut-test: Vt ka PRAKS 7 Kõige pealt tee kahemõõtmeline Pivottable, kus columni tunnuse panen ka value alla. Et saada rea ja veeruprotsente, lisa value alla veel kaks korda sama tunnust ja seejärel parema klõpsuga show values as.
8 3472 Rhone-Poulence Roren 5142 28.0 1621 Schering-Plough 5104 20.1 2098 Warner-Lambert Co. 7039 37.0 2006 SUMMARY OUTPUT Regression Statistics Multiple R 0.9800610328 R Square 0.9605196281 Adjusted R Square 0.8890910566 Standard Error 1989.3430527166 Observations 15 ANOVA df SS MS F Significance F Regression 1 1347945730.06 1347945730.06 340.60658825 1.044501E-010 Residual 14 55404800.9395 3957485.78139 Total 15 1403350531 Coefficients Standard Error t Stat P-value Lower 95%
t Critical one-tail 1,65 P(T<=t) two-tail 0,001 P<0,05 t Critical two-tail 1,96 eri tõugude (tõug1 ja tõug 3) sigade pekipaksused erineb oluliselt tõugude vahel. Mitu põrsast saadakse pesakonnas rohkem või vähem, kui lihassilma läbimõõt (X2) suureneb 1 mm võrra. Regression Statistics Multiple R 0,021 R Square 0,000 Adjusted R Square -0,002 Standard Error 2,20 Observation s 500,00 ANOVA Significanc df SS MS F eF Regression 1 1,02 1,02 0,210 0,647 Residual 498 2410,94 4,84 Total 499 2411,96 Coeffici Standard P- Lower Upper ents Error t Stat value Lower 95% Upper 95% 95,0% 95,0%
3. 0,7 |r| < 1,0 - tugev seos 4. r = 0 - seos puudub t= =ABS(r(Pikkus,JalaNr)*SQRT(n(Pikkus,JalaNr)-2)/SQRT(1-r(Pikkus,JalaNr)*r(Pikkus,JalaNr))) 2. Data-Data Analysis- Correlation- Input Range (Pikkus, Mass, Pea_P, Jalanr Praks 6 Regressioonanalüüs graafiliselt ja protseduuriga Regression. Data Analysis- Regression- Input Y Range pikkus, Input X Range jalanr, Labels Hüpoteeside paar, mille testimiseks vajaliku p-väärtuse väljastab Excel tabelisse ANOVA, on kujul: H0: regressioonivõrrand ei ole statistiliselt oluline H1: regressioonivõrrand on statistiliselt oluline ehk H0: leitud võrrand ei ole parem võrreldes konstantse võrrandiga H1: leitud võrrand on parem võrreldes konstantse võrrandiga ehk H0: Pikkus = a H1: Pikkus = a + b×Jalanumber Reaalselt rakendada on põhjust vaid statistiliselt olulist regressioonivõrrandit. Praks 7 2-mõõtmelised sagedustabelid Pivot Table'i vahendiga; hii2-test funktsiooniga CHITEST.
Multiple R 0,992007635 0,992008 R Square 0,9840791479 PEAB HAKKAMA JÄLGIMA Adjusted R Square 0,9787721973 KORRIGEERITUD DETERMINANTSIOONI Standard Error 72,7438428093 STEYX FUNTKSIOONIGA SAAB LEIDA Observations 5 VAATLUSTULEMUSTE ARV ANOVA (DISPERSIOON ANALÜÜS) df SS ESS Regression 1 981245 RSS Residual 3 15875 TSS Total 4 997120
!! T-testi raporteerimine: Selles suvalises näidislauses leiti, et loengutes kohalkäijate keskmine tulemus (M = 4.51, SD = 0.30) on statistiliselt oluliselt kõrgem kui neil, kes magavad sisse ja kohale ei tule (M = 2.92, SD = 0.31), t(kirjuta siia df väärtus) = (kirjuta siia t väärtus), p = 0.008. KESKMISTE VÕRDLEMINE ROHKEM KUI KAHE SÕLTUMATU RÜHMA KORRAL Kas andmete piisavuse testi keskmised tulemused on erinevad defineeritud vanuseklasside lõikes? - Analyze-> Compare means-> ANOVA - Aknast valite tunnuse, mille keskmiste erinevust uurite aknasse: Dependent list - Tunnuse, mille järgi toimub rühmitamine, valite aknasse: Factor - Aknast Post Hoc, teete linnukese kastidesse LSD ja Bonferroni (need on gruppide võrdlemise erinevad meetodid) ehkki ANOVA näitab, kas gruppide vahel on erinevusi, näitavad post hoc testid, mis gruppide vahel on erinevused. - Options aknast teete linnukese Descriptive ja Homogenity of the variance test juurde EFEKTI SUURUSE ARVUTAMINE
Log-log mudeli kordaja näitab, mitu % muutub Y, kui X suureneb 1%. See on elastsuskordaja. Log- log mudeli kordaja on konstantne. Lin-log ja log-lin mudel 29) Sagedamini kasutatavad erikujulised mudelid: log-log, log-lin, lin-log ja hüperboolne mudel (loneg 2 vbl) 30) Mitmese lineaarse regressioonmudeli parameetrite tõlgendamine q=79-0,54p+0,19p+u Kui p1 tõuseb 1 ühiku võrra ja teised tunnused jäävad konstantseks, siis q väheneb 0,54 võrra 31) ANOVA tabel, F-statistiku arvutamine ANOVA tabel analüüsib varieeruvust. Ruutude summasid näeb ANOVA tabelis, peale mudeli hindamist F- statistiku empiirilist väärtust võrreldakse F-jaotuse kriitilise väärtusega (või empiirilisele väärtusele vastavat olulisuse tõenäosust p võrreldakse olulisuse nivooga Q) F statistik on keskruutude jagatis. Allub Fisheri ehk F- jaotusele. Võib olla väga suur, piire pole. Väärtus ei ole nii hästi tõlgendatav. On seotud
Vabaliige 199,9 0,000 Lineaarne regressioonimudel N=1554, R²=0,006 Determinatsioonikordaja R² näitab, kui suure ulatuse sõltuva muutuja variatsioonist antud sõltumatu muutuja ära seletab. Antud sobivusastet näitava statistiku väärtus on 0,006, mis tähendab, et seos sõltuva ja sõltumatute tunnuste vahel on väga nõrk. Ka mudeli statistilise olulisuse kontroll dispersioonanalüüsi ANOVA abil (F=3,26) näitab, et tegemist ei ole testi keele õppimisele kuluva aja prognoosimiseks kõige sobilikuma mudeliga. Kuna antud mudeli puhul on olulisuse tõenäosus 0,02 väiksem kui 0,05 (p< 0,05), võib öelda, et sõltumatute tunnuste mõju sõltuvale tunnusele on nõrk aga statistiliselt olulise tõenäosusega. Kuid analüüsi huvides jätkan siiski. Statistiliselt oluline seos sõltuva ja sõltumatu tunnuse vahel on distsiplineeriv keskkond, mis
21. Graafik kõrguse ja diameetri vahelise sõltuvuse hindemiseks Joonis 1. Kõrguse sõltuvus diameetrist 8 22. Data analytics Regression. Kõrguse sõltuvus diameetrist Tabel 7 Regression Statistics Multiple R 0,80539 R Square 0,648654 determinatsioonikordaja Adjusted R Square 0,638007 Standard Error 1,327431 Observations 35 ANOVA Significance df SS MS F F Regression 1 107,3533 107,3533 60,92444 5,39E-09 Residual 33 58,14841 1,762073 Total 34 165,5017 Coefficients Standard Error t Stat P-value Lower 95%
30 P(T<=t) two-tail 0,0460686 H1 t Critical two-tail 1,9752875 Tabel 31. Regressioonanalüüs, kõik valitud tunnused on sees. 1. SUMMARY OUTPUT Regression Statistics Multiple R 0,5233956 R Square 0,273943 Adjusted R Square 0,2505218 Standard Error 2,4548203 Observations 161 ANOVA Significanc df SS MS F eF 70,4839905 11,6963695 Regression 5 352,42 9 9 1,33E-09 934,052 Residual 155 1 6,02614256 1286,47 Total 160 2
Determinatsioonikordaja populatsioonil ja Adjusted R Square 0,0198118147 korrigeeritud determinatsioonikordaja immigratsioonil on võrdne ligikaudu 3,98%,. Standard Error 240384591,86 mudeli standardviga Korrigeeritud determinatsioonikordaja on Observations 50 vaatluspunktide arv 1,98%. ANOVA df SS MS F Significance F Regression 1 1,15015E+017 1,2E+017 1,990401 0,1647474991 Residual 48 2,77367E+018 5,8E+016 Total 49 2,88868E+018 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 94575011,592 37913746,956 2,494478 0,01611 18344315,5246 1,7E+008
R Square 0.901782946 Adjusted R Square 0.882139535 50 Standard Error 26.93268322 0 Observations 7 0 8 16 23 31 39 55 Keelt pingutav jõud F, (N) ANOVA df SS MS F Significance F Regression 1 33300.0100167 33300.01002 45.90765596 0.0010646876 Residual 5 3626.84712613 725.3694252 Total 6 36926.8571429 Väärtus Viga t Stat P-value Lower 95% Vabaliige 43.76795274 17.5771500574 2.490048307 0.055157825 -1.4155499054 Graafiku tõus 3
põhjuseid on, seda suurem on tööstress (r = 0,87; p<0,05). Tabel 2. Tööstressi koondskoori ja vanuse seos tööstressi põhjustega. Põhjused Vanus -0,00 Tööstressi koondskoor 0,87* Märkus: *statistiliselt olulised korrelatsioonid, p<0,05 3 3. ülesanne Kontrollige hüpoteesi paikapidavust (ANOVA + joonis/ sugu ja 3 sümptomite ploki alaskaalat) ning esitage asjakohane järeldus. Hüpotees: Tööstressi sümptomite keskmise taseme avaldumine on meestel ja naistel 3 vastaval alaskaalal erinev. 2,4 2,3 2,2 2,1 Tööstressi sümptomite keskmine tase 2,0
32) Kas saadud regressioonivõrrandi kordajad on usaldatavalt nullist erinevad? On usaldatavalt nullist erinevad, sest m 33) Kui suured on saadud regressioonivõrrandi kordajate vead? 34) Arvutage saadud võrrandi järgi, kui suur on selle puu võra algus, mille diameeter on 15 cm ja kõrgus 16 m? 30. SUMMARY OUTPUT Regression Statistics Multiple R 0.733264 R Square 0.537676 Adjusted R Sq 0.511991 Standard Error 0.721537 Observations 20 ANOVA df SS MS F Significance F Regression 1 10.89841 10.89841 20.9337 0.000235 Residual 18 9.371086 0.520616 Total 19 20.2695 Coefficients Standard Error t Stat P-value Lower 95%Upper 95%Lower 95,0% Upper 95,0% Intercept 3.850082 0.444476 8.662071 7.8E-008 2.916272 4
Seega tekkis neli gruppi: HC, HE, LC ja LE. Testi tulemused näitasid, et grupp E tulemused (123,10) olid kõrgemad, kui grupp C (116,21) omad. Pärast õppematerjalide omandamise testi (MIMMS) osalesid kõik ka motivatsiooni testis, mille tulemustest selgus, et CBIM abil õppinud õpilaste sisemine motivatsiooni oli kõrgem, kui neil, kes õppisid ainult teooriaga (grupp E M = 12,75, grupp C M = 9,63). Hüpoteeside uurimiseks kasutati kahesuunalist ANOVA analüüsi ning ebaühtlaste gruppide suuruste tõttu kasutati SAS GLM protseduuri. Üldiste tulemustena saadi, et esinesid statistiliselt olulised erinevused nii motivatsiooni testi tulemustes [F(3,309) = 18.25, p = 0,0001] kui ka MIMMS tulemustes [F(3,308) = 21.50, p < 0.001]. Samuti esines ka statistiliselt oluline erinevus nii motivatsiooni testi tulemuste kui ka MIMMS tulemustes kõrge sisemise kotivatsiooni ja madala sisemise motivatsiooniga gruppide vahel.
Regressioonanalüüsi tulemused on esitatud tabelis 6. Enese kontrolliks kirjutasin välja ka regressioonivõrrandi, mis pidid olema sama, mis graafikul. h=0,4093*d+3,9025 Tabel 6. Regressioonanalüüs kõrguse sõltuvuse leidmiseks diameetrist Regression Statistics Multiple R 0,881340398 R Square 0,776760897 Adjusted R Square 0,760815246 Standard Error 0,585169098 Observations 16 ANOVA df SS MS F Significance F Regression 1 16,68045478 16,68045 48,71302735 6,45445E-06 Residual 14 4,793920222 0,342423 Total 15 21,474375 Upper Coefficients Standard Error t Stat P-value Lower 95% 95%
4,3146666667 55,1666666667 2,8333333333 3,56666667 2,5 2,9 y x x x x x SUMMARY OUTPUT Regression Statistics Multiple R 0,2914756837 R Square 0,0849580742 Adjusted R Square 0,0522780054 Standard Error 14,0519899745 Observations 30 ANOVA df SS MS F Significance F Regression 1 513,330843841 513,330844 2,599690801 0,1181007 Residual 28 5528,83582283 197,458422 Total 29 6042,16666667 Coefficients Standard Error t Stat P-value Lower 95%
212,50 10,240 R Square 0,867254 200,22 9,820 Adjusted R Square 0,8506607 207,61 10,081 Standard Error 0,2506178 214,18 11,200 Observations 10 227,03 11,230 ANOVA x y df SS Regression 1 3,2827547444 vabaliige -2,0057989331 Residual 8 0,5024741556 tõus 0,0588035857 Total 9 3,7852289
b) Fitted, actual plot (hinnatud mudel, tegelikud andmed) Näide: tegeliku Y ja arvutusliku Ŷ vaheline seos c) regressioonijääkide normaaljaotuse kontrollimine Tabelid - menüü Analysis a) display actual, fitted data, residual (algandmed, arvutuslikud Y, ja regressioonijäägid (üks osa tabelist) b) forecasts - Y arvutusliku 95%-lised prognoosiväärtused c) confidence intervals – regressioonikordajate usalduspiirid d) ANOVA tabel (Excelis teostatud regressiooni väljundtabeli keskmine tabel (hajuvused, R2, F)) 5. Multikollineaarsuse testimine OLSi menüü Tests –> Collinearity 6. Heteroskedastiivsuse kontrollimine Heteroskedastiivsuse kontrollimiseks kasutada OLS-i menüüd Tests ja avanevast rippmenüüst valida White’s test või muu huvipakkuv test ja anda hinnang regressioonijääkide varieeruvuse konstantuse kohta (kas esineb
keskkond), õpetaja tugi (kategooriad: “mitte kunagi”, “mõned tunnid”, “enamus tundidest” ja “iga tund”. Suurem väärtus näitab paremat õpetaja toetust.) ja sugu (nominaaltunnus, tunnusteks andmestikus 0=mees ja 1=naine). Regressoonimudeli eeslduste kohaselt on ülejäänud tunnused mõõdetud arvuliselt, kodeeritud on puuduvad väärtused, mis muidu ei ole arvulised. Mudeli statistilise olulisuse kontroll dispersioonanalüüsi ANOVA abil (F=102,8) näitab, et mudel sobib matemaatika ärevuse prognoosimiseks. Kuna antud mudeli puhul on olulisuse tõenäosus on 0,00 väiksem kui 0,05 võib öelda, et sõltumatute tunnuste mõju sõltuvale tunnusele on statistiliselt oluline. Tabelis 2 on ära toodud mudeli parameetrid, mis annavad ülevaate mudeli „headuse“ ja prognoosi täpsuse kohta. Mudeli “headust” hinnatakse selle põhjal kui tugev on seos sõltumatute tunnuste komplekti ja sõltuva tunnuse vahel ja standardviga
Joonis 3. Jääk ei sõltu Y suurusest. 4 Tabel 3.: Esimene näitajate regressioonanalüüs SUMMARY OUTPUT Regression Statistics Multiple R 0,880423638 R Square 0,775145783 0,7-1 v.hea Adjusted R Square 0,768167549 Standard Error 5,53563172 Observations 300 ANOVA df MS F Significance F Regression 9 3403,864 111,0805 1,45893E-88 Residual 290 30,64322 Väga usaldusväärne Total 299 Upper
loomaliha nõutav kogus väheneb 0,54 naela elaniku kohta aastas. ● Kui sealiha hind tõuseb 1 sent ja loomaliha hind jääb konstantseks, siis loomaliha nõutav kogus suureneb 0,195 naela elaniku kohta aastas. ● Kui x2 suureneb ühiku võrra ja ülejäänud seletavad tunnused x3 , … xk jäävaks samaks, siis y muutub b2 võrra. ● Ceteris paribus: kõik muu jääb samaks ● bj on y marginaalväärtus xj suhtes, matemaatiliselt osatuletis 31. ANOVA tabel, F-statistiku arvutamine. ANOVA tabel N-valimi maht K-parameetrite arv F statistik on keskruutude jagatis. Allub Fisheri ehk F- jaotusele Programmis Gretl näeb ANOVA tabelit, kui mudeli aruandes valida Analysis -> ANOVA 32. Regressioonmudeli statistilise olulisuse kontrollimine F-testiga.
-ynurk)ruut Regression Statistics Multiple R 0.6973221 R Square 0.4862582 Adjusted R Sq 0.4730853 Standard Erro 2.6420214 Observations 41 ANOVA df SS MS Regression 1 257.66725 257.66725 Residual 39 272.2308 6.9802769 Total 40 529.89805 Coefficients
kriitiliseks väärtuseks on Dkr = 0,265. ; Osa B. Dispersioonanalüüs 9. Jagada korrastamata algandmete valim viieks võrdse mahuga osaks võttes gruppideks valimi arvud järjekorranumbriga 1-12;13-24;25-36;37-39;49-60. Kontrollida nii moodustatud gruppide keskväärtuste homogeensushüpoteesi h0=1=2=3=4=5 kasutades dispersioonanalüüsi metoodikat (ANOVA-test) ja võttes olulisuse nivooks =0,05 Sgen=Pj-((/pq) p=5; q=12 p=5; q=12 Sfac=(Rj2/q)-((Rj)2/pq) Sjääk=Sgen- Sfac fac=Sfac/(p-1) jääk=Sjääk/p(q-1) Femp=fac/jääk Järeldus: Hüpotees kehitb kuna Femp = 0,84 < Fkr = 4,9 Osa C. Regressioonanalüüs 10. Võtta korrastatud valimist 7 arvu järjekorranumbritega 1;10,20;30;40;50 ja 60, kus järjekorranumber on parameeter y ja arv valimist parameeter x. Leida
41 8. Arutelu 8.1 Vask (Cu) Kalade lihastes on vähem metalle kui muudes kudedes Vase sisaldus emaste ahvenate maksas varieerub piirides 2,24 kuni 26,49 mg/kg kuivmassi kohta ja isastes kalades 12,57 kuni 47,82mg/kg Keskmiste andmete alusel on vase sisaldus isaste kalade maksas kõrgem kui emastes (joonis...), kuigi see erinevus ei ole statistiliselt usaldusväärne (ANOVA, P>0,05). Pikkuse järgi vase sisaldus maksas väheneb kala pikkuse kasvuga (tabel:...) Võrreldes maksaga on vase sisaldused emaste ahvenate lihastes oluliselt madalamad kui isastes kalades (ANOVA; P< 0,01) Vase sisaldus emase ahvena maksas korreleerub kala vanusega; - 0,507 , P< 0,05 Nii emase kui isase ahvena maksas korreleerub Cu/Zn; P<0,01. teiste gruppide vahel korrelatsiooni ei esinenud. (korrelatsiooni tabel esitatud lisas, statistica 8,0). 8.2 Tsink (Zn)
tunnuste vahel esineb seos. Millist analüüsimeetodit tuleb kasutada? 2 - test 14. Hüpoteesi statistilisel kontrollimisel saadi olulisuse tõenäosuseks 0,012. Kui kasutada olulisuse nivood 5%, siis milline on järeldus? Kehtib sisukas hüpotees 15. Millist testi kasutatakse uuritava tunnuse jaotuse võrdlemisel normaaljaotusega? ? 2 - test Ühefaktoriline dispersioon-, korrelatsioonanalüüs - Test 9 1. Millal kasutatakse ühefaktorilist dispersioonanalüüsi (ANOVA)? a. faktortunnus nimiskaalas ja 3 või rohkem väärtust b. funktsioontunnus intervallskaalas c. faktortunnus järjestusskaalas ja 3 või rohkem väärtust d. funktsioontunnus intervallskaalas. 2. Milline on nullhüpotees dispersioonanalüüsi korral? Funktsioontunnuse keskväärtused on kõikides rühmades võrdsed. 3
Seos lineaarse ehk Pearsoni korrelatsioonikordajaga r. Ühe tunnuse x korral, kui lineaarne mudel y = b + ax + u R2 = r2 Ruutude summasid näeb ANOVA tabelis, peale mudeli hindamist Analysis -> ANOVA Determinatsioonikordaja sisu on paremini mõistetav. Korrelatsioonikordaja näitab ka seose suunda, mida determinatsioonikordaja ei näita. ESS RSS
Heteroskedastiivsuse test........................................................................................29 Lisa 11. Multikollineaarsuse test...........................................................................................30 Lisa 12. Jääkliikmete normaaljaotuse testid.........................................................................31 Lisa 13. Jääkliikmete normaaljaotuse graafik.......................................................................32 Lisa 14. ANOVA tabel...........................................................................................................33 Lisa 15. Mudeli jääkliikmete kirjeldavad statistikud............................................................34 Lisa 16. Lõpliku mudeli regressioonikoefitsientide koovariatsiooni maatriks.....................35 Lisa 17. Mudeli stabiilsuse test (Chow test).........................................................................36 SISSEJUHATUS
4 3.84 3.19 kõrgem Multiple R 0.294367 EHF 1 556.2 11892.5 3.61 3.56 kõrgem R Square 0.086652 EHF 1 617.3 8803.9 4.26 3.71 esimene Adjusted R 0.077784 EHF 1 585.9 11231.4 4.08 3.67 kõrgem Standard E 2205.78 EHF 1 587.3 11280.9 3.90 3.29 sorditu Observatio 105 EHF 1 598.1 11589.1 3.61 3.12 esimene EHF 1 629.3 10291.2 3.71 3.26 kõrgem ANOVA EHF 1 663.3 12418.7 3.69 3.37 sorditu df EHF 1 646.4 9801.1 3.81 3.41 sorditu Regression 1 EHF 1 552.7 9090.1 3.92 3.33 esimene Residual 103 EHF 1 592.0 13483.3 3.86 3.30 esimene Total 104 EHF 1 622.4 8910.1 4.58 3.61 sorditu EHF 1 547.1 9786.0 3.24 3.51 esimene Coefficients
Leibkonnapea elab linnas 3790,96 3275,197777778 6893,851851852 Leibkonnapea elab maal 2029,0125 1624,43875 2708,625 Kõik Leibkonnad 3 388,23 2 897,88 5 937,23 SUMMARY OUTPUT Regression Statistics Multiple R 0,948422877 R Square 0,899505953 Adjusted R Square 0,896460679 Standard Error 1160,052615 Observations 35 ANOVA df SS MS F Significance F Regression 1 397496237,381 397496237,4 295,37766127 4,969708E-018 Residual 33 44408828,2678 1345722,069 Total 34 441905065,649 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0%Upper 95,0%
81 75 100 75 80 70 65 67 65 61 100 100 55 75 55 70 58 58 55 66 59 78 76 Kehamass, kg 74 72 70 68 66 Dispersioonanalüüsi arvutustulemus Anova: Single Factor SUMMARY Groups Count Sum Ei 38 2673 Enam ei, aga olen suitsetanud 8 608 Jah 11 792 ANOVA Source of Variation SS df
Korrelatsioon - seose tugevus kahe pideva atribuudi vahel Regressioon - millisel määral sõltumatud atribuudid mõjutavad sõltuvat atribuuti, mängitakse läbi erinevad kombinatsioonid Faktoranalüüs - lubab vähendada atribuutide arvu vähemaks hulgaks faktoriteks o Testid gruppide vaheliste erinevuste leidmiseks T-test ANOVA - kahe või enama grupi omavaheline võrdlus o Mitteparameetrilised testid Chi-ruut - atribuudi väärtuse võrdlemine eeldatava väärtusega (usaldusväärsus) KVALITATIIVNE UURING Kvalitatiivse lähenemise kesksed rõhuasetused: · Sündmusi ja sotsiaalset keskkonda nähakse läbi nende inimeste silmade, keda uuritakse · Täpne kirjeldus ja konteksti rõhutamine · Protsessi rõhutamine · Paindlikkus ja piiratud struktuur
46 42,1644144144 8,492855217 1,05 1392 37 40,4813393791 10,2040816327 1,05 1293 korranumbrist. 1) SUMMARY OUTPUT Regression Statistics Multiple R 0,8331163283 R Square 0,6940828165 Adjusted R Square 0,68466998 Standard Error 219,67192353 Observations 135 ANOVA df SS MS F Significance F Regression 4 14233112 3558278 73,7379 1,69E-032 Residual 130 6273248 48255,75 Total 134 20506360 Coefficients Standard Error t Stat P-value Lower 95%
· võsundilised võsundiliselt levivad kõrrelised ja lõikheinalised · rohundid liblikõielised ja kaheidulehelised rohundid (suhteliselt laiu lehti moodustavad taimed) Statistilisel andmetöötlusel kasutati programmpaketti STATISTICA. Eluvormide jaotumise, võsude pindala, biomassi ja liigirikkuse seoseid majandamis- ja niiskusreziimiga analüüsiti kasutades ühefaktorilise dispersioonanalüüsi (one way ANOVA) moodulit. Töötluste vaheliste erinevuste olulisuse mõõtmiseks kasutati Tukey testi. Tulemused loeti statistiliselt usaldusväärseks P < 0,05 juures. Nende alusel on koostatud artikli käsikiri, mis analüüsib lammirohumaade taimkatte liigirikkuse, bioproduktsiooni ja taimkatte muutuste seoseid niiskus- ja majandamistingimustega (lisa 4). 24 3. TULEMUSED 3.1. Niidu- ja metsakoosluste pindala muutused 20
Kogu eksperimendi vältel koguti iga 10 sekundi tagant katsealuste ja ruumi seisundi infot. Mõõdeti südamerütmi, temperatuuri 10'st erinevast keha osast ja kõikvõimalikke eelpool mainitud ruumi tingimusi. Katse eesmärk oli uurida südamerütmi seoseid seega kehaosade temperatuur jäeti otsesest analüüsimisest välja. Andmete analüüsiks kasutati ühesuunalist variatsiooni alaüüsi meetodi (ANOVA), paaris T-testi(paired T-test) ning kahe näidisega T- Testi (two-sample T-test). Kõik satistilised numbrid teostati 95%'lisuse täpsusega. Tulemused Südamerütmi ja kogu muu katsealuste andmete võrdlus Individuaalselt olid südamerütmi kiirused väga erinevad, isegi kui arvestadda, et tegevused olid võrdsed kõigil katsealustel. Kuid üleüldine katsetulemuste muster kahe erineva ruumi tingimustes oli sarnane.
y^ p y^ p su t (k , ) 247180.956 7 1441.14480 7 1,70 y^ palumine y^ p su t (k , ) 247180.956 7 1441.14480 7 1,70 9.4 Järeldus: 90%lise tõenäosusega järgib 10000 abiellude 16727 kuni 21631 sündi. 10. Protseduur Regression SUMMARY OUTPUT Regression Statistics Multiple R 0.940941045 R Square 0.885370049 Adjusted R Square 0.881276123 Standard Error 1401.579976 Observations 30 ANOVA df SS Regression 1 424835227.446 Residual 28 55003940.021 Total 29 479839167.467 Coefficients Standard Error Intercept 5767.471447 740.827303296 X Variable 1 1.341186029 0.0912003793 11. Kasutatud materjalide loetelu 1 Kodutöö E4 juhend statistika_kodutoo_juhend_2017_kaug.pdf
5 1 3 2 2 2 5 2 3 SUMMARY OUTPUT 2 1 2 4 1 2 Regression Statistics 1 2 2 Multiple R 0.664 6 1 3 R Square 0.440 4 1 3 Adjusted R 0.423 6 2 3 Standard Er 1.199 2 3 2 Observatio 68.000 3 1 2 2 2 2 ANOVA 2 1 1 df SS MS 5 2 3 Regression 2 73.561 36.781 5 5 3 Residual 65 93.439 1.438 6 3 3 Total 67 167.000 4 2 3 1 1 1 Coefficients Standard Error t Stat 3 1 3 Intercept -0.011 0