kasvupind kokku, ha; X4 - investeering 4 1 0,3163 0,2069 kokku, kr = 0,2374 X1 + 265,4184 X2 - 1,4094 X3 + 0,0007 X4 + 648,6321 R2= 0,3163 Antud mudel kirjeldab 31,63 % segavilja müügi varieeruvusest Mitmene korrelatsioonikordaja Multiple R= 0,5624 Determinatsioonikordaja R Square= 0,3163 Korrigeeritud det. Kordaja Adjusted R Square= 0,2069 Jääkstandardhälve Standard Error= 549,7855 Regressioonikordajad x1 0,2374 Segavilja saagikus, kg/ha x2 265,4184 Teravilja müügi osakaal kogumüügist x3 -1,4094 Kasvupind kokku, ha x4 0,0007 Investeering kokku, kr
x ebakompetents vs võimalik viga; x sisesed ja välised tegurid on sassi aetud. x olulised tegurid võivad välja jääda; SWOTi plussid: x lihtne; x võimaldab anda hinnangu stateegiale/taktikale x pole töömahukas; x aitab konsensust ja grupitööd teha. 4. MIDA NÄITAB REGRESSIOONVÕRRANDI DETERMINATSIOONIKORDAJA? Mudeli headust hinnatakse tema kirjeldatuse tasemega, mida väljendab determinatsioonikordaja. Determinatsioonikordaja näitab argumendi X võimet kirjeldada uuritava suuruse Y hajuvust. D väärtus on 0 ja 1 vahel: 0<= D <= 1. Kui D=1, siis mudel (sõltumatu muutuja X) kirjeldab muutuja Y täielikult; kui D = 0, siis mudel ei kirjelda Y käitumist üldse. Determinatsioonikordaja on järgmise omadusega: uue muutuja mudelisse lülitamisel determinatsioonikordaja alati kasvab
korrelatsioonikordaja ja kovariatsioon hajumisdiagramm, esitatud seos positiivne korrelatsioon, negatiivne korrelatsioon, pearsoni korrelatsioonikordaja, lineaarne korrelatsioonikordajad, tunnuste vahel on kõige tugevam seos, monotoonne seos, spearmani korrelatsioonikordaja tõene, väär, suurendades suurust x suureneb ka y, korrelatsioonikordaja Test 9 regressioonanalüüs, regressioonmudeli parameetrite hinnang, vähimruutude meetod, jäägid, kriipsukesed determinatsioonikordaja determinatsioonikordaja näitab vaatluste arv, korrigeeritud determinatsioonikordaja, kordaja a, vabaliige b, kordaja a standardviga regressioonanalüüs kolm mudel, kõige parem mudel regressioonmudelid valiksid diagrammil toodud sõltuvuste kirjeldamiseks, logaritmiline, pöördvõrdeline, eksponentsiaalne regressioonaanalüüsil, regressioonmudel regressioonijääkide diagramm, muutuv dispersioon, heteroskedastiivsus järeldused on õiged, regressioonimudel
Millised on võimalikud probleemid sõltuvate fiktiivsete muutujate kasutamisel? Sõltuvate fiktiivsete muutujate kasutamiseks valitakse lineaarse tõenäosuse, logit ja probit mudeleid. Nende kasutamise põhiliseks probleemiks on see, et jääkliikmed on heteroskedastiivsed. Samuti probleemiks võib olla see, et tõenäosuste näitajad võivad mitte olla lineaarses seoses selgitava muutujaga. Tõenäosuse koefitsiendid võivad olla suurem kui üks või negatiivsed. (seda ei tohi olla) Determinatsioonikordaja võib olla väike. Millised on negatiivse autokorrelatsiooni vähendamise võimalused: Andmete teisendamine (nt logaritmeerimine) Faktoranalüüsi kasutamine Andmerea pikendamine Autokorrelatsiooni omapära (trendi) elimineerimine Sesoonsuse kasutamine, diferentside võtmine, uute andmete mudeli juurde võtmine Milles seisneb VAR mudelite põhimõte? Põhimõtte seisneb selles, et majanduses ei ole võimalik vahet teha eksogeensetel ja
Standardvead, usalduspiirid Parameetrite statistilise olulisuse kontrollimine Determinatsioonikordaja Mudeli korrektne esitamine Erindi mõju Vabaliikme olulisus
See on parameetrite statistilise olulisuse kontrollimine. Kui nullhüpotees on ümber lükatud (võetakse vastu sisukas hüpotees), on parameeter oluliselt nullist erinev, järelikult seos on olemas. 24. Koguhajuvus, seletatud hajuvus, jääkhajuvus ja neid iseloomustavad suurused. ● Sõltuva tunnuse Y koguhajuvus on TSS ● Sõltuva tunnuse Y jääkhajuvus on RSS. ● Regressioonmudeliga kirjeldatud hajuvus ehk seletatud hajuvus ESS =TSS-RSS 25. Determinatsioonikordaja, selle arvutus ja tõlgendamine. Determinatsioonikordaja näitab, kui suur osa koguhajumisest on mudeli poolt ära seletatud Kui mudeli parameetrid on statistiliselt olulised, tuleb hinnata ka mudeli kirjeldusvõimet. Kvantitatiivseks kirjeldamiseks kasutatakse determinatsioonikordajat R2. Kui võrrelda determinatsioonikordajat ja korrelatsioonikordajat, siis determinatsioonikordaja sisu on paremini mõistetav, aga ei näita seose suunda. 26. Mudeli korrektne esitamine
......................................8 20. Regressioon - Andmete filtreerimine.......................................................................... 8 21. Graafik kõrguse ja diameetri vahelise sõltuvuse hindemiseks....................................8 22. Data analytics Regression. Kõrguse sõltuvus diameetrist........................................9 22. 1 Jääkstandardhälve ja kõrguse standardhälve............................................................9 23. Determinatsioonikordaja............................................................................................. 9 2 Sissejuhatus Kodutöö on proovitükk nr. 815 kohta. Andmed pärinevad failidest ,,prt815.xls" mis pärineb Eesti Maaülikooli kohalikust võrgust, ja Külliki Kiviste kodulehelt1 allalaetud failist kodu5.xls 1 Külliki Kiviste koduleht [www.eau.ee/~kkiviste/] (16.04.2012)
1204819 43 19 0.2289157 50 11 0.1325301 83 alaadimiskiirus jääb alla 29Mbit/s F*(x) 0.0963855 0.2168675 0.373494 0.5180723 0.6385542 0.8674699 1 Antud on ostujõu pariteeti arvestav sisemajanduse koguprodukt inimese kohta SKP (PPP) ja ja Arvutada regressioonisirge parameetrid a ja b. (Käsitsi ja Exceli funktsioonide abil.) Arvutada determinatsioonikordaja r2. (Käsitsi ja Exceli funktsiooni abil.) Selgitada näitaja sisulis Teha graafik, millele on kantud antud punktid (xi, yi), regressioonisirge y = a + bx ja determinatsi Prognoosida, milline oleks keskmine oodatav eluiga, kui SKP on 50 000. Kirjutada lahenduse juu Leida prognoosi 90%lised usalduspiirid. Kirjutada lahenduse juurde lause, mis ütleb, mida arvut x y
25 721 000 6361000 591000 24 051 706 37000 356000 23 837 000 1669000 757000 23 580 000 265000 846000 1 340 021 202000 14000 Y, X1 SUMMARY OUTPUT Regression Statistics Paariskorrelatsioonikordaja on ligikaudu Multiple R 0,1995386059 korrelatsioonikordaja 0,20% ja see on positiivne keskmise R Square 0,0398156552 determinatsioonikordaja tugevusega seos. Determinatsioonikordaja populatsioonil ja Adjusted R Square 0,0198118147 korrigeeritud determinatsioonikordaja immigratsioonil on võrdne ligikaudu 3,98%,. Standard Error 240384591,86 mudeli standardviga Korrigeeritud determinatsioonikordaja on Observations 50 vaatluspunktide arv 1,98%. ANOVA
väärtused just selle juhu jaoks. See on parameetrite statistilise olulisuse kontrollimine. Kui nullhüpotees on ümber lükatud (võetakse vastu sisukas hüpotees), on parameeter oluliselt nullist erinev, järelikult seos on olemas. 27. Koguhajuvus, seletatud hajuvus, jääkhajuvus ja neid iseloomustavad suurused. Sõltuva tunnuse Y koguhajuvus on TSS ja sõltuva tunnuse Y jääkhajuvus on RSS. Regressioonmudeliga kirjeldatud hajuvus ehk seletatud hajuvus ESS =TSS-RSS 28. Determinatsioonikordaja, selle arvutus ja tõlgendamine. Kui mudeli parameetrid on statistiliselt olulised, tuleb hinnata ka mudeli kirjeldusvõimet. Kvantitatiivseks kirjeldamiseks kasutatakse determinatsioonikordajat R2. Determinatsioonikordaja näitab, kui suur osa koguhajumisest on mudeli poolt ära seletatud. RSS/TSS = R2 29. Mudeli korrektne esitamine. Regressioonanalüüsi põhitulemuste esitamisel esitatakse: · parameetrite hinnangud · parameetrite standardvead · determinatsioonikordaja R2 · valimi
29. Nimeta regressioonvõrrandi tüübid (ka valemid). Analüüsi lugemisokus. 30. Mida iseloomustab korrelatsioonikordaja? Korrelatsioonikordajaid kasutatakse seose uurimiseks kahe arvulise või pikema skaalaga järjestustunnuse vahel. Meetodi plussiks on, et see võimaldab kirjeldada nii seose suunda kui ka seose tugevust. Kõige sagedamini kasutatakse lineaarset ehk Pearsoni korrelatsioonikordajat ja Spearmani astakkorrelatsioonikordajat. 31. Mida iseloomustab determinatsioonikordaja? Determinatsioonikordaja R2 iseloomustab mudeli kirjeldusvõimet. See näitab, kui suure osa sõltuva tunnuse koguhajuvusest moodustab regressioonhajuvu 32. Mida iseloomustab jääkstandardhälve? Jääkstandardhälve e. prognoosiviga iseloomustab funktsioontunnuse erinevust regressioonijoonest. 33. Milleks kasutatakse dispersioonanalüüsi? Analüüsi lugemisoskus. 34. Mis on funktsioontunnus? 35. Mis on argumenttunnus? 36. Ronald Fisher oli inglise matemaatik ja evolutsiooniteoreetik. Ta formaliseeris loodusliku
9,35 7,7 3,3 5,25 5,8 2,7 13,7 8,9 3,1 9,55 7,2 2,8 10,8 8,5 3,8 9,4 9 4,2 11,2 8 3,8 9 7,7 3,9 8,1 7,3 4 Kokku 16 25) Joonisel 1 on graafik kõrguse (y) ja diameetri (x) vahelise sõltuvuse hindamiseks. Graafikult on välja toodud ka regressioonisirge võrrand ja determinatsioonikordaja (R2). Joonis 1. Kõrguse sõltuvus diameetrist. 26) Kasutades MS exceli protseduuri 'Regression' tegin regressioonanalüüsi kõrguse sõltuvuse leidmiseks diameetrist. Regressioonanalüüsi tulemused on esitatud tabelis 6. Enese kontrolliks kirjutasin välja ka regressioonivõrrandi, mis pidid olema sama, mis graafikul. h=0,4093*d+3,9025 Tabel 6. Regressioonanalüüs kõrguse sõltuvuse leidmiseks diameetrist Regression Statistics
Standardiseeritud kordajad Mitmene regressioonmudel I ANOVA tabel F-test ja mudeli statistilise olulisuse kontroll Korrigeeritud determinatsioonikordaja Parameetrite statistilise olulisuse kontroll · Klassikalise lineaarse regressioonmudeli eeldused · Heteroskedastiivsus Näited
Tabel 1. Faktorite seos testi keele õppimiseks kuluva ajaga (minutit nädalas) Regressioonikordaja Olulisuse tõenäosus Õpetaja toetus 1,41 0,191 Kodused õppimist toetavad vahendid -0,40 0,768 Distsiplineeriv keskkond -3,80 0,003 Vabaliige 199,9 0,000 Lineaarne regressioonimudel N=1554, R²=0,006 Determinatsioonikordaja R² näitab, kui suure ulatuse sõltuva muutuja variatsioonist antud sõltumatu muutuja ära seletab. Antud sobivusastet näitava statistiku väärtus on 0,006, mis tähendab, et seos sõltuva ja sõltumatute tunnuste vahel on väga nõrk. Ka mudeli statistilise olulisuse kontroll dispersioonanalüüsi ANOVA abil (F=3,26) näitab, et tegemist ei ole testi keele õppimisele kuluva aja prognoosimiseks kõige sobilikuma mudeliga. Kuna antud mudeli
tunnuste vahelisi seoseid. 29. Nimeta regressioonvõrrandi tüübid (ka valemid). Analüüsi lugemisokus. 1) lineaarne regressioon - H = b0 + b1 * D 2) mitmene regressioon - HV = b0 + b1*D + b2*H 30. Mida iseloomustab korrelatsioonikordaja? Korrelatsioonikordajaid kasutatakse seose uurimiseks kahe arvulise või pikema skaalaga järjestustunnuse vahel. Meetodi plussiks on, et see võimaldab kirjeldada nii seose suunda kui ka seose tugevust. 31. Mida iseloomustab determinatsioonikordaja? Determinatsioonikordaja R2R2 iseloomustab mudeli kirjeldusvõimet. See näitab, kui suure osa sõltuva tunnuse koguhajuvusest moodustab regressioonhajuvus 32. Mida iseloomustab jääkstandardhälve? Jääkstandardhälve e. prognoosiviga iseloomustab funktsioontunnuse erinevust regressioonijoonest. 33. Milleks kasutatakse dispersioonanalüüsi? Analüüsi lugemisoskus. Dispersioonanalüüsi eesmärk on kontrollida gruppidevaheliste erinevuste statistilist olulisust. 34. Mis on funktsioontunnus? Y=b0+b1*x 35
Korrelatsioonikordaja absoluutväärtus? Korrelatsioonikordaja märk näitab seose suunda: U ! 0 tähendab, et ühe suuruse kasvamine suurendab teise keskväärtust; U 0 tähendab, et ühe suuruse kasvamine vähendab teise keskväärtust. U iseloomustab korrelatsiooni tugevust: mida suurem on lineaarse korrelatsioonikordaja keskväärtus, seda tugevam on seos suuruste vahel. 19. Mida näitab regressioonvõrrandi determinatsioonikordaja? Oletame lineaarset seost: suuruse Y keskväärtus sõltub suurusest X lineaarselt: Y^ DX E Determinatsioonikordaja iseloomustab mudeli headust. Lineaarse korrelatsioonikordaja väärtus võrdub ruutjuurega determinatsioonikordajast. Determinatsioonikordaja näitab argumendi X võimet kirjeldada uuritava suuruse Y hajuvust. 20. Mida näitab otsustusmuutuja kordaja (tõus) lineaarses ühe otsustusmuutujaga regressioonvõrrandis?
kasutatakse dispersioonide liitmise lauset Dispersiooni arvutamise juures: leitakse hälvete ruutude aritm keskmine regressioonikordaja iseloomustab sõltuva muutuja vähenemist sõtumaty muutuja ühe ühikulise muutumise korral Dispersioonanalüüsi eesmärk: Uuritava nähtuste tegurite mõju olulisuse hindamine Dispersioon on: standardhälbe ruut hälvete ruutude aritmeetiline keskmine Regressioonanalüüsikäigus regressiooniseose selgitusvõimet kirjeldab determinatsioonikordaja hinnatakse parameetreid enamasti vähimruututde meetodil kasutatakse parameetrite leidmisel sageli vähimruutude meetodit tuleb kontrollida parameetrite statistilist olulisust Regressioonianalüüsi eesmärk: Kirjeldada korrelatiivset seost matemaatika funktsioonina Lineaarne regressioonimudelil: Regressiooni kordaja b abil saame kirjeldada seose tugevust Tugeva negatiivse lineaarse seose korral
oluliselt nullist erinev, järelikult seos on olemas 24) Koguhajuvus, seletatud hajuvus, jääkhajuvus ja neid iseloomustavad suurused (loeng 3 slaid 13) Koguhajuvus iseloomustab sõltuva tunnuse hajumist ümber selle keskväärtuse. TSS ESS = TSS - RSS. Regressioonmudeliga seletatud hajuvus Jääkhajuvus RSS F-statistik on seletatud hajuvust iseloomustav keskruut jagatud jääkhajuvust iseloomustava keskruuduga. 25) Determinatsioonikordaja, selle arvutus ja tõlgendamine Kui suur osa koguhajumisest on mudeli poolt ära seletatud. R = ESS/TSS = 1 - RSS/TSS. R = r. Puudus: lisades mudelisse uusi tunnuseid alati suureneb 26) Mudeli korrektne esitamine Regressioonanalüüsi põhitulemuste esitamisel esitatakse: Parameetrite hinnangud, parameetrite standardvead, determinatsioonikordaja R2, valimi maht n 27) Regressioon läbi nullpunkti Ühe tunnuse korral y = ax + u
n xi yi xi yi 30 3973897337 228693 479744 b n xi2 ( xi ) 2 30 1979529261 2286932 5.2 Kontrollime tulemust Exceli funktsiooni abil: a = 5767.47145 b = 1.34118603 5.3 Leitud parameetrite abil koostame regressioonisirge võrrand: y = 1.341186 x + 5767.4714 6. Determinatsioonikordaja r2 6.1.1 Mõõdetud väärtuste yi koguvariatsioon sv 2 (y i y )2 479839167.47 6.1.2 Selgitamata päritoluga variatsioon: 2 s r ( yi y^ i ) 2 55003940.02 6.1.3 Determinatsioonikordaja: 2 s 55003940.02 r 1 r2 1 2 sv 47983916,47 6.2 Kontrollime tulemust Exceli funktsiooni abil: r2 = 0
Palun filtreerige oma proovitükil 1. rinde peapuuliigi andmetest välja need, kus on mõõdetud ka kõrgus (h>0) ja võra algus (hv>0). Kopeerige filtreeritud andmetest välja diameetri, kõrguse ja võra alguse andmed teisele töölehele. Kirjutage, kui suur tuli vaatluste arv N. 25) Joonistage graafik kõrguse (y) ja diameetri (x) vahelise sõltuvuse hindamiseks. Tooge graafikul välja ka regressioonisirge võrrand ja determinatsioonikordaja (R 2). 26) Käivitage protseduur 'Regression' ning tehke regressioonanalüüs kõrguse sõltuvuse leidmiseks diameetrist. Esitage regressioonanalüüsi tulemused. Kirjutage välja regressioonivõrrand (kas on sama, mis graafikul?) 27) Kas saadud regressioonivõrrand on usaldatav? 28) Kui suur on saadud võrrandi jääkstandardhälve? Kui suur on kõrguse standardhälve? Mida iseloomustab jääkstandardhälve? 29) Kui suur on determinatsioonikordaja
tugevam on seos suuruste vahel. Siin keskmine seos. Kuna F>Ftabeli(p=0,95), siis regressioonvõrrand on statistiliselt usaldatav. DW=1,6 - autokorrelatsioon puudub. Astmefunktsioon: =0,31 =0,52 Kuna +<1, siis tootlikkuse tõstmine on kahjulik. R=0,5, seega ühe suuruse kasvamine suurendab teise keskväärtust. Siin keskmine seos. Kuna F>Ftabeli(p=0,95), siis regressioonvõrrand on statistiliselt usaldatav. DW=1,5 autokorrelatsioon puudub. Veel tuleks leida D (Determinatsioonikordaja D näitab, kui suur protsent uuritava majandusnäitaja Y 2 hajuvusest on seletatav regressioonvõrrandiga). D=R 3. FUNKTSIONAALNE KULUANALÜÜS Staadium Peamised lahendatavad küsimused Infostaadium 1. Missugune toode on ja mis on tema otstarve? 2. Kui kõrge on toote omahind? 3
2. Regressioonijääkide ei aritmeetiline keskmine (e katusega) on võrdne nulliga, st 3. Sõltuva muutuja arvutuslike väärtuste i aritmeetiline keskmine võrdub sõltuva muutuja aritmeetilise keskmisega Y katusega , st 4. Regressioonijäägid ei ei ole korreleeritud sõltuva muutuja arvutuslike väärtustega , st 5. Regressioonijäägid ei ei ole korreleeritud sõltumatu muutuja väärtustega Xi, st 7. Statistilise seose tugevus: determinatsioonikordaja (hajuvuse (RSS, TSS, ESS) mõõtmine (joonised)), korrelatsioonikordaja, jääkstandardhälve, kovariatsioon, (eespool toodud näitajate olemus, selgitus joonise abil). Kordajate omavahelised seosed. JÄÄKHAJUVUS Vahet Yi i nimetatakse jäägiks. Jääkide ruutude summa on jääkhajuvus. RSS = ei2=(Yi- i)2 Lineaarse regressioonisirge puhul on jääkhajuvus vähim. Mistahes teise sirge puhul on jääkhajuvus suurem kui jääkhajuvus regressioonisirge puhul. REGRESSIOONHAJUVUS
tunnusele on statistiliselt oluline. Tabelis 2 on ära toodud mudeli parameetrid, mis annavad ülevaate mudeli „headuse“ ja prognoosi täpsuse kohta. Mudeli “headust” hinnatakse selle põhjal kui tugev on seos sõltumatute tunnuste komplekti ja sõltuva tunnuse vahel ja standardviga. Kirjeldav mudel ning prognoos on seda täpsem, mida tugevamini sõltumatu(d) tunnus(ed) sõltuva tunnusega seotud on. Antud juhul on determinatsioonikordaja R² väärtus 0,213, mis tähendab, et seos sõltuva ja sõltumatute tunnuste vahel on olemas (0≤ R² ≤1). Kasutades korrelatsioonanalüüsi (Pearson), uurisin tegurite omavahelisi lineaarseid korrelatsioone. Sotsiaalteaduste puhul võib küllaltki tugevaks seoseks pidada juba korrelatsioonseoseid tugevusega (absoluutväärtuselt) üle 0,5. Kuna lineaarne korrelatsioon eeldab arvulisi tunnuseid, on sugu sellest analüüsist välja jäetud. Tabel 1. Tunnuste vaheline korrelatsioonseos
Autokorrelatsiooni testitakse aegridade puhul. Kui juhuslikud vead korreleeruvad omavahel, siis on olemas autokorrelatsioon. Kui autok. Esineb, tuleb mudel ümber vaadata, tuleb muuta spetsifikatsiooni. 2. Asümptootilised hinnangud kui juhuslike vigade normaaljaotuse eeldus ei ole täidetud, siis usalduspiirid on asümptootilised. Nad on täpsed siis, kui valimi maht on lõpmatu; lõpliku valimi mahu korral usalduspiirid on ligikaudsed. 3. Determinatsioonikordaja (D=R²) väljendab regressioonimudeli poolt kirjeldatud hajuvuse suhet (ESS explained sum of squares) modelleeritava näitaja (endogeense muutuja) koguhajuvusse (TSS total sum of squares). 4. Dispersioon iseloomustab juhusliku suuruse Xi erinevust keskväärtusest, seega iseloomustab tunnuse hajuvust. Valimi dispersiooni kui üldkogumi dispersiooni hinnangu
Palun filtreerige oma proovitükil 1. rinde peapuuliigi andmetest välja need, kus on mõõdetud ka kõrgus (h>0) ja võra algus (hv>0). Kopeerige filtreeritud andmetest välja diameetri, kõrguse ja võra alguse andmed teisele töölehele. Kirjutage, kui suur tuli vaatluste arv N. N= 20 25) Joonistage graafik kõrguse (y) ja diameetri (x) vahelise sõltuvuse hindamiseks. Tooge graafikul välja ka regressioonisirge võrrand ja determinatsioonikordaja (R 2). 26) Käivitage protseduur 'Regression' ning tehke regressioonanalüüs kõrguse sõltuvuse leidmiseks diameetrist. Esitage regressioonanalüüsi tulemused. Kirjutage välja regressioonivõrrand (kas on sama, mis graafikul?) y = 1,8883x - 4,1935 27) Kas saadud regressioonivõrrand on usaldatav? Ei ole, sest p=0,284736 28) Kui suur on saadud võrrandi jääkstandardhälve? Kui suur on kõrguse standardhälve? 0.721537 Mida iseloomustab jääkstandardhälve
Deterministlik komponent = tinglik keskväärtus E[Y|X]. Regressioonanalüüsi käigus leitakse regressioonmudeli deterministlik component y= αx+ β + ε. Lineaarse mudeli hindamine = parima sirge leidmine Vähimruutude meetod – Objektiivne kriteerium: Empiiriliste punktide ja sirge vastavate punktide vaheliste kauguste ruutude summa on minimaalne. Vähimruutude meetod tähendab mudeli standardvea minimeerimist Regressioonanalüüs ei ole pööratav. Determinatsioonikordaja iseloomustab mudeli kirjeldusvõimet. Standardviga iseloomustab funktsioontunnuse väärtuste yi kõrvalekallet regressioonmudeliga määratud väärtustest ŷi. Mudel kirjeldab suuruste vahelist seost: mis suunas üks suurus teist mõjutab; kui palju mõjutab; kas mõju on lineaarne või mittelineaarne. Mudel võimaldab prognoosimist. Mudel võimaldab välja tuua erindeid. Regressioonanalüüs võimaldab hinnata mudeli parameetrite arvväärtusi. Ei ütle, milline matemaatiline
Mittetäielik seos- korrelatiivne seos. Seose suund loetakse positiivseks kui ühe tunnuse väärtuse kasvades kasvavad ka teise tunnuse väärtused ning negatiivseks kui ühe tunnuse väärtuste kasvades teise tunnuse väärtused kahanevad. Korrelatsioonikordaja näitab, kui suure osa ühe tunnuse varieeruvusest on selgitatav teise tunnuse varieeruvuse kaudu. Väljendab lineaarse seose olemasolu, seose tugevust ja suunda arvuliste tunnuste vahel. (intervallskaala korral viimane). Determinatsioonikordaja näitab kui suure osa ühe tunnuste hajuvusest on kirjeldatud teise tunnuse poolt. Näitab kahe tunnuse koosvarieeruvust protsendina. Seost kirjeldava mudeli leidmiseks kasutatakse regressioonanalüüsi. Aegreaks nimetatakse arvandmete rida, mis kirjeldab suuruse ajalist muutumist. Aegrida saadakse korduvvaatluse kasutamisel. Momentrida- iga element on seotud teatud ajamomendiga. Perioodrida- Iga element on seotud mingi ajavahemikuga, perioodiga.
Parameetrite tõlgendus lineaarse mudeli korral: · a0 - vabaliige ehk konstantne liige, mis annab y väärtuse, kui kõigi sõltumatute tunnuste väärtused on nullid · a1 - x1 kordaja, näitab, kui palju suureneb y, kui x1 suureneb 1 võrra ja teised sõltumatud tunnused jäävad samaks · a2 - x2 kordaja, näitab, kui palju suureneb y, kui x2 suureneb 1 võrra ja teised sõltumatud tunnused jäävad samaks Determinatsioonikordaja mõõdab, kui hästi regressioonisirge lähendab vaatlusandmeid. Väärtus väljendab, kui suur osa sõltuva muutuja Y kogumuutusest on selgitatav sõltumatu muutuja X muutumisega. Determinatsioonikordaja väärtus rahuldab võrratusi: Regressioonmudeli statistilise olulisuse kontrollimiseks kasutatakse statistikapaketi poolt väljaarvutatud olulisuse tõenäosust p-value, mida võrreldakse olulisuse nivooga . Mida väiksem on olulisuse tõenäosus, seda olulisem mudel on.
muutuja väärtused kasvavad, kasvavad ka teise muutuja väärtused; negatiivne korrelatsioonikordaja aga näitab, et kui ühe muutuja väärtused kasvavad, teise muutuja väärtused kahanevad. Lisaks saab SPSS-is testida seoste statistilist olulisust (nii ühe- kui ka kahesuunalise hüpoteesi puhul). Korrelatsioonikordaja on sisuliselt ka efekti suuruse ning mudeli seletusvõime näitaja. Võttes korrelatsiooni ruutu, saame R2 statistiku ehk, eesti keeles, determinatsioonikordaja. Kui me seda kordajat sajaga korrutame, saame protsendid selle kohta, kui palju ühe muutuja varieerimine teise muutuja varieeruvusest seletab. Näiteks kui kahe muutuja X ja Y vaheline korrelatsioon r = 0.20, siis R2= (0.20)2= 0.20*0.20 = 0.04 ning muutuja X seletab ära 0.04*100 = 4% muutuja Y varieeruvusest. Väga oluline on tähele panna ja meelde jätta, et korrelatsioon ei näita põhjuslikkust. Ka tulemuste
Foward- mudelisse lisatakse sammhaaval need tunnused, mis mõjutavad sõltuvat tunnust statistiliselt olulisel määral Backward- kõik tunnused pannakse mudelisse ning hakatakse statistiliselt vähem olulisi välja võtma. Paarisregressiooni puhul pole mingit tähtsust meetodil. Ehk vaikimisi meetod Enter sobib väga hästi. Vajuta OK! Tulemuseks mitu tabelit: Esimeses tabelis tuuakse ära muutujate vaheline korrelatsioon (R) ja determinatsioonikordaja (R square), mis näitab regressioonivõrrandi ennustusvõimet (korruta 100ga). Näiteks: Model summary tabel output aknas: R-ruut ehk determinatsioonikordaja ütleb et 70% lugemise tulemustest on kirjeldatud/ennustatud ära matemaatika tulemuste kaudu. Kordaja statistiline olulisus: ANOVA tabeli viimane sig. Järgmises tabelis on regressioonivõrrandi statistilise olulisuse näitaja. Ehk teisisõnu, kui kasutame antud võrrandit ennustamiseks, kui suur on eksimise tõenäosus
suunda, siis regressioonanalüüs võimaldab vaäljendada lisaks sellele veel seoseid kvantitatiivselt väljendada. Võimaldab luua matemaatilise mudeli kirjeldamaks tunnuste vahelisi seoseid. Suurust x nimetatakse sõltumatuks suuruseks ja suurust y nimetatakse sõltuvaks suuruseks. Eesmärk leida “parim” x ja y vahelist seost iseloomustava funktsiooni võrrandit, mille saamiseks kasutatakse kõige sagedamini vähimruutude meetodit. Determinatsioonikordaja R2 – näitab, kui suur osa y-st on määratud x-I poolt. Saab hinnata, kui palju sõltuva muutujua hajuvusest on regresioonimudeli poolt kirjeldatud. Võimalikud väärtused 0…1. Mitmene regresioon – sõltumatuid muutujaid on võrrandisse võetud rohkem kui üks. Et võrrelda regressioonmudeleid, milled sõltumatute muutujate arv ja/või valimite mahud on erinevad, on kasutusele võetud kohandatud ehk reguleeritud determinatsioonikordaja (adjusted R2).
Süstemaatiliste vigade esinemine nivelleerimiskäigus. n Joonisel 1 on graafik, mille X-teljel on käigu pikkus Li ja Y-teljel on i=1 n kõrguskasvude erinevuste summad di . Joonisele on lisatud ka regressioonisirge i=1 (Add Trendline) koos determinatsioonikordaja ruuduga (R2). Ülesanne 3: Kontrolli Tabelis 2 toodud joonemõõtmise seeria normaaljaotust graafiliselt histogrammi abil. Leia seeria hulgast erindid. Kas mõõtmisseeria on peale erindite eemaldamist täpsem. Mille põhjal otsustate? Histogrammi lasime Excelil esmalt teha nö vabalt- me ei andnud vahemikke (Bin Range) programmile ette. Tulemus on toodud joonisel 2. 3 Histogram(sagedustabel) 9 8 7
Palun filtreerige oma proovitükil 1. rinde peapuuliigi andmetest välja need, kus on mõõdetud ka kõrgus (h>0) ja võra algus (hv>0). Kopeerige filtreeritud andmetest välja diameetri, kõrguse ja võra alguse andmed teisele töölehele. Kirjutage, kui suur tuli vaatluste arv N. Vaatluste arv N=28 25) Joonistage graafik kõrguse (y) ja diameetri (x) vahelise sõltuvuse hindamiseks. Tooge graafikul välja ka regressioonisirge võrrand ja determinatsioonikordaja (R 2). 26) Käivitage protseduur 'Regression' ning tehke regressioonanalüüs kõrguse sõltuvuse leidmiseks diameetrist. Esitage regressioonanalüüsi tulemused. Kirjutage välja regressioonivõrrand (kas on sama, mis graafikul?) 27) Kas saadud regressioonivõrrand on usaldatav? ei ole kuna kuna p väärtus on suurem kui 0,05 28) Kui suur on saadud võrrandi jääkstandardhälve? Kui suur on kõrguse standardhälve? Mida iseloomustab jääkstandardhälve
põllumajanduses hõivatute osakaalust (AGR, protsent kõigist hõivatutest). Regressioonanalüüs viidi läbi Excelis ja tulemuseks saadi joonisel olev tabel. a. Vastav mudel koos determinatsioonikordajaga: PCNIC= -18,9 AGR + 1318 R2= 0,632 b. Järeldus: riikides, kus põllumajanduses hõivatute osakaal on suurem, on keskmine sissetulek elaniku kohta väiksem. 5. Determinatsioonikordaja näitab kui suure osa summaarsest varieerumisest kirjeldab ära seosega seletatud varieerumine. 6. Lineaarse mudeli y= ax+b parameetrite hinnangute leidmiseks viidi Excelis läbi regressioonanalüüs ja saadi joonisel toodud tabel. Sea vastavusse suurused ja nende väärtused. a. kordaja a standardviga 0,004, b. determinatsioonikordaja 0,798, c. korrigeeritud determinatsioonikordaja 0,787, d. kordaja a -0,0318, e. vabaliige b 7,368,
valida samast Add Trendline...-aknast (sama aken avaneb ka peale hiire parempoolse nupu topeltklõpsu trendijoonel) lipik Options ja märkida seal ära käsud Display equation on chart ja Display R-squared value on chart. Tulemuseks on joonis, kus lisaks punkti parvele on kujutatud ka regressiooni joon, regressioonivõrrand ja determinatsioonikordaja R2. http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (1 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs Antud näite korral on meil tudengi kaal prognoositav tema pikkusest valemiga Kaal = -107,5 + 0,9967*Pikkus, kusjuures selline mudel võimaldab ära kirjeldada 82% tunnuse 'Kaal' hajuvusest. NB
Küsimus 15 Kui suur on nende üliõpilaste %, kelle pikkus on vähemalt 180 cm? (vastuse lahtrisse sisestage ainult arv) Õige Hindepunkte 1.00/1.00 Vastus: 60 Küsimus 16 Kui suur on nende üliõpilaste %, kelle pikkus on vahemikus 175-190 cm? (vastuse lahtrisse sisestage ainult arv) Õige Hindepunkte 1.00/1.00 Vastus: 40 Küsimus 17 Millises vahemikus asub determinatsioonikordaja R2 väärtus? Õige Hindepunkte Valige üks: 1.00/1.00 a. -1 kuni 0 b. 0 kuni 1 c. -1 kuni 1 Küsimus 18 Kooli 12 õpetaja keskmine vanus on 37 aastat. Eile saabus sellesse kooli loenguid pidama külalisprofessor, kes on 50 Õige aastane. Milline on nüüd 13 õpetaja keskmine vanus? Hindepunkte 1.00/1.00 Valige üks: a. 37 b. 41 c. 39 d
- Konstantne seos – ühe tunnuse väärtused ei muutu, kui muutuvad teise tunnuse väärtused. Nii seose suunda, kuju kui ka tugevust on võimalik hinnata hajuvusdiagrammi abil. Seose kuju - kui kuju on raske hinnata, siis saab joonisele kanda erineva kujuga regressioonijooned ning hiljem, lähtudes determinatsioonikordajate võrdsusest, anda lõplik hinnang andmetele kõige pareimini sobiva joone kohta. Determinatsioonikordaja ( ) näitab, kui suure osa ühe (sõltuva) muutuja varieeruvusest suudavad ära kirjeldada teised (sõltumatud) muutujad. Ehk tuleb vaadata millise jne R 2 on suurim. ( kui R2 r 0,6474, siis 64,74%) . sellest tulenevalt korrelatsioonikordaja väärtus on r = 0,805 ( ) ERINEVAD SEOSEKORDAJAD 3 1
hinnang valitsuse tööle mittearvuline valu tugevus mittearvuline Küsimus 14 Millises vahemikus asub determinatsioonikordaja R2 väärtus? Õige Hindepunkte Valige üks: 1.00/1.00 a. -1 kuni 0 b. -1 kuni 1 c. 0 kuni 1 Küsimus 15 Ühes väikses linnas on korterite hinna aritmeetiline keskmine 65 000 eurot, kuid hinna mediaan on 35 000 eurot. Kuidas on see Õige võimalik? Hindepunkte 1.00/1.00 Valige üks: a
Andmed on täielikud, vigadeta. matemaatiline statistika Matemaatika haru, mis uurib statistika teoreetilisi aluseid matemaatiline statistika Tegeleb andmete kogumise ja kirjeldamisega rakendusstatistika Sinu vastus on õige. Küsimus 18 Millises vahemikus asub determinatsioonikordaja R2 väärtus? Õige Hindepunkte Valige üks: 1.00/1.00 a. 0 kuni 1 Märgi küsimus lipuga b. ‐1 kuni 1 c. ‐1 kuni 0 Küsimus 19 Järgmine tabel näitab ühe väikse riigi nafta ostukogust ühe nädala jooksul ning barreli hinda kolmes erinevas kohas : Õige
Vähimruutude meetodil leitud regressioonikordajad on parameetrite tegelike väärtuste parimaks hinnanguks siis, kui on täidetud vastavad eeldused (nn. klassikalise regressioonianalüüsi eeldused). Mitmese lineaarse regressioonimudeli korral ei piisa statistilise sõltuvusest arusaamiseks ainult regressioonivõrrandist Lisaks regressioonivõrrandile on vaja teada ka seose tihedust iseloomustavat näitajat -; selleks on mitmese lineaarse regressioonimudeli korral determinatsioonikordaja. Seose tiheduse näitajad: Hälvete korrutise summa võib olla seose tihedust iseloomustavaks näitajaks. Mida suurem on hälvete korrutise summa, seda tihedam on seos ning mida väiksem on hälvete korrutise summa seda nõrgem seos.Positiivsete omaduste tõttu ongi korrelatsioonikordaja kujunenud üheks põhiliseks seose tihedust iseloomustavaks näitajaks. Kvalitatiivne hinnang korrelatsioonikordaja väärtustele: Korrelatsioonikordaja r väärtusedHinnand seose tiheduse kohta
seoste tugevust. Parameetriline seosekordaja on Pearsoni r, mitteparameetrilisteks seosekordajateks on Spearmani roo ning Kendalli tau. Mitteparameetriliste analüüside korral kasutatakse tihtipeale Spearmani roo statistikut, ent Kendalli tau-d peetakse paremaks näitajaks väiksematel valimitel. Korrelatsioonikordaja on sisuliselt ka efekti suuruse ning mudeli seletusvõime näitaja. Võttes korrelatsiooni ruutu, saame R2 statistiku ehk, eesti keeles, determinatsioonikordaja. Kui me seda kordajat sajaga korrutame, saame protsendid selle kohta, kui palju ühe muutuja varieerimine teise muutuja varieeruvusest seletab. Näiteks kui kahe muutuja X ja Y vaheline korrelatsioon r = 0.20, siis R2= (0.20)2= 0.20*0.20 = 0.04 ning muutuja X seletab ära 0.04*100 = 4% muutuja Y varieeruvusest. Väga oluline on tähele panna ja meelde jätta, et korrelatsioon ei näita põhjuslikkust.
Regressioonivõrrand lahti kirjutatuna leitud kordajate väärtusi kasutades Kehamass = a+b x Pikkus, Kehamass= -115,066555+1,06301991 x Pikkus Prognoos 170 cm pikkuse tudengi kehamassile leitud regressioonivõrrandi põhjal Arvutused: 65,646829784 Vastus täislausega: Keskmine tudeng , kes on 170 cm pikkus, võiks kaaluda 65,65 kg Kirjeldage leitud regressioonivõrrandi abil saadavate prognooside täpsust vähemalt ühe näitaja (mitmen determinatsioonikordaja) põhjal NB! Peab olema üheselt arusaadav, millis(t)e arvu(de) põhjal see järeldus on tehtud! Determinatsioonikordaja R2 - kasutatakse, et näidata andmete kirjeldatavust. Näitab, kui suure osa prognoositav see mudel ära kirjeldada. Meil on R Square: 0 0,404973521269058 1 Kas leitud regressioonivõrrand on statistiliselt oluline? Ülesandele vastav hüpoteesipaar: H0: regressioonivõrrand ei ole statistiliselt oluline
kahjuks. y = a+bx , a näitab punkti kus sirge lõikab y telge;b regressioonikordaja (kõige tähtsam komponent ehk joone tõus). B näitab kui mitme ühiku võrra muutub y kui x muutub 1 ühiku võrra. Mida suurema nurga all regressioonisirged lõikuvad, seda nõrgem on nähtustevaheline seos! Suurim nurk on 90 kraadi, see tähendab, et seos on nõrk. · Funktsiooni headus on selgitusvõime. Selgitusvõime näitaja on determinatsioonikordaja R2. Determinatsioonikordaja näitab, kui suure osa sõltuva suuruse hälvete ruutude summana mõõdetud koguhajuvusest seos ära seletas. Ruutjuurt determinatsioonikordajast nimetatakse üldjuhul korrelatsioniindeksiks (r) ehk korrelatsioonikordajaks ehk korrelatsioonikoefitsiendiks. Korrelatsioonikordaja väärtused on vahemikus -1 kuni 1. · Korrelatsioonikordajaid on palju. Sagedamini kasutatav on kovariatsioon (koos varieerumine ehk koos erinemine)
...................................................................... 69 11 Nähtustevahelised seosed ................................................................................................... 71 11.1 Korrelatsioonanalüüs ............................................................................................................ 71 11.2 Lineaarse korrelatsioonikordaja puudused ........................................................................... 72 11.3 Determinatsioonikordaja ...................................................................................................... 74 11.4 Mitmene korrelatsioon ......................................................................................................... 74 11.5 Regressioonanalüüs............................................................................................................... 75 12 Aegridade analüüs ..............................................................................
Sõltub suurel määral erinditest, täpsem, kui neid ei ole. väärtused, - Mida lähemal on r absoluutväärtus ühele, seda tugevamalt on tunnused omavahel seotud. Omadused: Väärtus asub lõigus 1 kuni 1 -1r1. Kui tunnused on kasvavalt seotud on r>0. Kui tunnused on kahanevalt seotud, on r<0. Kui tunnused on sõltumatud, siis r0 Nõrk seos: kordaja |r|< kui 0.3 Keskmine seos: kordaja 0.3< |r| < 0.7. Tugev seos: kordaja |r|> 0.7. determinatsioonikordaja - on korrelatsioonikordaja ruut. Sisult näitab, kui suur osa ühe tunnuse väärtusest on kirjeldatav teise tunnuse väärtuse kaudu, tihti väljendatakse protsentides. 26. Juhusliku suuruse keskväärtuse usalduspiirid - kõik esitatud väited kehtivad teatud tõenäosusega, mida nimetatakse usaldusnivooks . Kui valim on suur (n>30) kasutatakse normaaljaotust Enimlevinud väärtus on 0.95. Kui valim väike, siis kasutame Studenti jaotust 27
valitud 0,6, kuigi tegelikult juba nii sileda joone puhul, nagu ka varem mainitud, ei anna selle silumine tegelikult midagi juurde. 20 Joonis 24. Joonis 25. 21 2.4. Silumine regressioonjoonega Pärast erinevate regressioonjoontega katsetamist selgus, et kõige paremini kirjeldab joonistel 26 ja 27 ära toodud nii Tartu kui ka Tallinna rahvastiku arvulist muutust ajas selle silumine ruutpolünoomiga. Tartu puhul oli determinatsioonikordaja, mis näitab, kui hästi regressioonisirge lähendab vaatlusandmeid, väärtus 0,9364, Tallinna puhul lausa 0,9831 ehk siis sobib peaaegu ideaalselt antud joone silumiseks. Joonis 26. Joonis 27. 2.5. Aegrea kompleksanalüüs, multiplikatiivne mudel 22 Uuriti sesoonse komponendi sõltuvust dekaadi osast. Ehk siis, kuidas käitub rahvastiku muutumine aastakümnete erinevates osades. Joonistelt 28 ja 29 on näha, et teatud
Oodatav eluiga 1 Vaesuse määr -0,245 1 Allikas: Autori arvutused 3.2 Regressiooni analüüs Regressiooni analüüsiga uuris autor, millised statistilised seosed esinevad oodatava eluea ja 66- aastaste või vanemate inimeste vaesuse määra vahel (vt Lisa 1). Regressiooni analüüsis kasutati samuti 38 erineva riigi OECD andmete näitajaid. Uurides regressiooni analüüsi tulemusi, ilmnes, et determinatsioonikordaja väärtus on 6%, mis tähendab, et 6% ühe muutuja muutumisest on selgitatav teise poolt. Seega vaesuse määr mõjutab ligikaudu 6% oodatava eluea muutumisest. Samuti tulemuste analüüsis on näha, et oodatava eluea ja 66-aastaste või vanemate inimeste vaesuse määra vahel ei esinenud statistilist olulist erinevust, kuna statistiliselt olulise erinevuse väärtus oli 86,2% (p=0,138). Vaadates regressiooni analüüsi käigus saadud diagrammi (vt joonis 3), on samuti näha, et näitajate
Tugeva samasuunalise lineaarse seose y=a+bx korral regressioonikordaja on alati vahemikus 0 kuni +1 - kindlalt vale, võib olla mis iganes (nii neg kui üle ühe), näitab x ühikulist mõju y-le lineaarse kor.kordaja ja regr.funktsiooni parameetri a märgid langevad kokku regr.kordaja peab olema eranditult positiivne - õige, (muidu võib olla neg) aga loe küsimust, samasuunaline. parameetri a abil saame kirjeldada seose selgitusvõimet - vale, kirjeldame determinatsioonikordaja abil, a näitab seda, kus lõikab y telge lineaarne seos ei saagi olla samasuunaline - vale, saab olla sama- ja vastassuunaline Seoste analüüsil korrelatsioonikordaja väärtusega 1,2 näitab positiivset ja väga tugevat seos - vale, ei saa olla suurem kui 1 regressiooniseos on leitav ainult aegridade andmetel - vale, vahet pole kor.kordaja absoluutväärtused paiknevad alati vahemikus 0 kuni 1 – õige regr
Paariskorrelatsioonikordaja ehk Pearsoni korrelatsioonikordaja (arvtunnused, lineaarne seos) Järjestustunnuste korral kasutatavad seosekordajad on: Spearmanni korrelatsioonikordaja, Fechneri korrelatsioonikordaja, Kordaja , Somersi d, Kendalli korrelatsioonikordaja ja Kendalli Kendalli korrelatsioonikordajad: Kui tunnustel ei ole korduvaid väärtusi, saame välja arvutada Kendalli korrelatsioonikordaja. Kui esineb võrdseid tunnuseid, kasutatakse Kendalli . d = R 2 = r 2 Determinatsioonikordaja näitab, millise osa üldvariatsioonist on kirjeldatud argumenttunnuse muutumisega. Seose kuju uurimist nimetatakse regressioonanalüüsiks. Seose kuju uurimisel kasutatakse vähimruutude meetodit. Seoste uurimise puhul määratakse kindlaks sõltumatu tunnus (x) ja sõltuv tunnus (y). Regressioonikordaja (b) näitab, kui palju suureneb resultaatsuurus keskmiselt, kui argumendi x arvväärtus kasvab ühe ühiku võrra. Et tulemusi laiendada üldkogumile testime: H0: kor
Usaldusväärseks saab lugeda näitajat siis, kui ta on üle 4. T-stat e. t kriitiline on tõene, kui näitajad on suuremad kui 2, saadud regressioonianalüüsis on see väiksem. P- value peab olema alla 0,05, siis on õige, kuid antud töös on see suurem. Et saada usaldusväärsemaid andmeid, tegime uue regressioonianalüüsi. Selleks eemaldasime mõned näitajad. Eemaldasime ostetud-, müüdud ja omatarbeveised. Uue regressioonigraafiku tulemused olid paremad. Determinatsioonikordaja oli 0,77, mis on väga hea. F kriteerium tuli167, mis näitab et see on õige. P value väärtus peab olema alla 0,05, kuid oli ikkagi rohkem. Meie ülesandes on kõikidel näitajatel P- value osa näitajaid suuremad kui 0,05 ehk näitajad ei ole usaldusväärsed. Kriteerium T- stat peab olema üle 2 , saadud lahendis oligi see üle 2. Kuna osa näitajaid klapib sellega, mis peab olema, ja osa mitte, siis ei saa lugeda päris usaldusväärseks.