x probleemid informatsiooniga; x sisesed ja välised tegurid on sassi aetud. SWOTi plussid: x lihtne; x pole töömahukas; x võimaldab anda hinnanguid strateegiale/taktika suhtes (TOWS); x aitab konsensust ja grupitööd teha. 2. ETTEVÕTTE TOOTLIKKUSE (Y) MODELLEERIMINE: REGRESSIOONVÕRRAND y = 90,8x1 + 133,6x2 + 23,2 R=0,64 F=4,4 Ftabeli(p=0,95)=3,6 DW=1,6 x1 energiaga varustatus x2 põhivaraga varustatus Regressioonimudel astmefunktsioonina y = 9,7x10,31 x20,52 R=0,5 F=7,1 Ftabeli(p=0,95)=3,6 DW=1,5 Regressioonimudel standardiseeritud mastaabis y = 0,12x1 + 0,28x2 Interpreteerida mudelid. Mis andmeid veel oleks vaja, mida nad näitaksid? Kui energiaga varustatus kasvab 1 võrra, siis ettevõtte tootlikkus kasvab 90,8 võrra (põhivaraga varustatuse muutumatuks jäädes). Kui põhivaraga varustatus kasvab 1 võrra, siis ettevõtte tootlikkus kasvab 133,6 võrra
juurde, mille kohaselt tarbimise sissetulekuelastsus naistel ei erine statistiliselt oluliselt väärtusest 0.8. Ülesanne 3. Investeeringute analüüsis kasutatakse regressioonimudelit rt = B0 +B1rmt + ut, kus rt – aktsia dividendimäär rmt – aktsiaturuindeks e. börsiindeks Parameetrit B1 tõlgendatakse investeeringute analüüsis beeta koefitsiendina (beta cofficient), millega väljendatakse tururiski. Finantsökonomeetriast on tuntud regressioonimudel, mis iseloomustab IBM aktsia kasumimäära kujunemist Chicago aktsiaturul. Mudel on konstrueeritud H. R. Fogleri ja S. Ganapathy poolt 1956-1976. a. andmetel, kasutades 240 ajamomenti. rt 0,7264 1,0598rmt (0,3001) (0,0728) 2 R = 0,4710 Kui beetakoefitsient (B1) on suurem kui üks, siis investeeringute analüüsis järeldatakse, et tegemist on agressiivse e. püsimatu väärtpaberiga. Konstrueerige hüpoteesipaar sellise
Labor 1 - ül 2 Leida regressioonimudel Y = a0 + a1 X, kui perede arv on X ja autode arv Y. Regressioonikordajate (parameetri hinnangute) ja usalduspiiride leidmiseks kasutada vahendit Andmed - Data Analysis - Regression. Alevik Perede arv (X) A 7000 B 7500
4.2 0,017 - statistik: 31,46 Järeldus:lükatakse tagasi 4.3 - statistik: 6 Järeldus:lükatakse tagasi 7 statistik: 0,29 Järeldus: lükatakse tagasi 8 F- statistik: F= 0,404 Järeldus: võetakse vastu 9 9.1 2,73 2,08 Regressioonimudel: 9.2, 9.3 3,89 olulisus: pole oluline 1,16 olulisus: on oluline 9.4 F-statistik: F=1,64 Järeldus: võetakse vastu 9.5 Väljundi usaldusvahemiku poollaiused : :: : Rakendusstatistika arvutusgraafiline töö nr. 1 OSA A 1. On antud valim A mahuga N = 25 Abistavad tehted on koondatud tabelisse jrk ni xi ni * xi ni
9 Seeriate arv : ( 8,2 ) Pikima seeria pikkus : ( 7,9 ) Käänupunkte : ( 11, 35) 10 Korrelatsioonitegur: ( 0,75 ) t-statistik : t = 0,86 Järeldus: tagasi lukata Determinatsioonitegur: ( 0,56 ) z-statistik : z = 1,37 Järeldus:tagasi lukata 11 11.1 6,3 - 1.40 Regressioonimudel: 11.2, 11.3 1,101 olulisus: oluline 3,65 olulisus: oluline 11.4 F-statistik: F = 0,386 Järeldus: võetakse vastu 11.5 Väljundi usaldusvahemiku poollaiused : : : : Rakendusstatistika arvutusgraafiline töö nr. 1 OSA A 1. Küsimus On antud valim A mahuga N = 25 16 35 38 49 51 69 1 69 19 87 3 44 24 84 7 41 41 10 79 15 87 82 5 76 1
Tabel 1. Faktorite seos testi keele õppimiseks kuluva ajaga (minutit nädalas) Regressioonikordaja Olulisuse tõenäosus Õpetaja toetus 1,41 0,191 Kodused õppimist toetavad vahendid -0,40 0,768 Distsiplineeriv keskkond -3,80 0,003 Vabaliige 199,9 0,000 Lineaarne regressioonimudel N=1554, R²=0,006 Determinatsioonikordaja R² näitab, kui suure ulatuse sõltuva muutuja variatsioonist antud sõltumatu muutuja ära seletab. Antud sobivusastet näitava statistiku väärtus on 0,006, mis tähendab, et seos sõltuva ja sõltumatute tunnuste vahel on väga nõrk. Ka mudeli statistilise olulisuse kontroll dispersioonanalüüsi ANOVA abil (F=3,26) näitab, et tegemist ei ole testi keele õppimisele kuluva aja prognoosimiseks kõige sobilikuma mudeliga. Kuna antud mudeli
Pikima seeria pikkuse järgi (Lmax = 2) => H0 2=Lmax<3.3(log25+1)7,9 Seeriate arvu järgi ( Ns = 14 ) => H0 Käänupunktide arvu järgi (p = 20) => H0 Kuna kõik võrratused kehtivad, võib aegrea mediaankriteeriumi järgi ja käänupunktide kriteeriumi järgi lugeda juhuslikuks. Osa B Andmed: paarisvalim (xj,yj) mahuga 2x5 arvu (valim B1, N = 5), pluss korduskatsete sari dispersiooni määramiseks mahuga 7 arvu (valim B2, w = 7). 10. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1 x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks a = 0.05): 10.1 leida mudeli parameetrite hinnangud b0 ja b1 xi yi (xi-x)^2 3,1 12,1 0,0036 4,9 23,9 3,4596 4,2 16,8 1,3456 1,9 9,2 1,2996
4 3,8 9,4 0,92 2,58 0,8464 6,6564 2,3736 5 3,2 5,1 0,32 -1,72 0,1024 2,9584 -0,5504 keskväärtus ed 2,88 6,82 Läbi keskväärtuste leiame Korrelatsiooniteguri : 0,927071 t-statistik : 4,283259 Determinatsioonitegur: 0,85946 z-statistik : 2,31526 11. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1 x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks = 0.05) xi 0,8 4,9 1,7 3,8 3,2 yi 2,7 14,4 2,5 9,4 5,1 10.1 Leida parameetrite hinnangud b0 ja b1 Kasutame järgmisi valemeid: x = 2,88 Vx = 10,75 = 6,82 b1 = 2,87 b0 = -1,43 Regressioonimudel: y = 2,87x 1,43 11.2 Nüüd leiame b1 ja b0 usaldusvahemikud
Pikima seeria pikkuse järgi (Lmax = 2) => H0 2=Lmax<3.3(log25+1)7,9 Seeriate arvu järgi ( Ns = 14 ) => H0 Käänupunktide arvu järgi (p = 20) => H0 Kuna kõik võrratused kehtivad, võib aegrea mediaankriteeriumi järgi ja käänupunktide kriteeriumi järgi lugeda juhuslikuks. Osa B Andmed: paarisvalim (xj,yj) mahuga 2x5 arvu (valim B1, N = 5), pluss korduskatsete sari dispersiooni määramiseks mahuga 7 arvu (valim B2, w = 7). 10. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1 x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks a = 0.05): 10.1 leida mudeli parameetrite hinnangud b0 ja b1 xi yi (xi-x)^2 4,9 8,8 3,3124 2,2 0,4 0,7744 4,3 4,6 1,4884 1,2 1,3 3,5344
dispersioon 0,9546532 0,9546532 1,0893455 0,4273490 standardhälve 0,9770635 0,9770635 1,0437172 0,6537194 asümmeetria 0,0242053 0,0242053 -0,0776017 1,0749260 ekstsess -1,2346162 -1,2346162 0,2091444 0,5817139 3. Leida p.2 saadud tulemuste põhjal Y keskväärtuse sõltuvust X jaotuse kujuparameetrist S ja teisenduse parameetrist T kirjeldav regressioonimudel y = b0 + b1S + b2T + b12ST (normeeritud ja lähtemeetrikas). S T ST j z z z z=z * z y s 1 + + + + 0,0116768 0,2007607 2 + - + - 0,0334324 1,2053410 3 + + - - 0,0085858 0,9546532
e: Korrelatsiooniteguri leidmiseks kasutasin Exceli funktsiooni CORREL ja sain väärtuseks r = -0,945. Determinatsioonotegur d=r2 = 0,893 Korrelimatuse kontroll t- ja z-statistiku abil: T-statistik: (Tp = 2,13) t=r (N -2)/(1-r)2 = -5,013 < 2,13 = H1 Z-statistik: (Zp = 1,6449) z = 0,5* (N-3)ln((1+r)/(1-r) = -2,424 < 1,6449 = H1 Mõlema statistiku järgi ei saa Ho tagasi lükata ning X ja Y korrelatsioon tuleb lugeda mitteoluliseks. 11. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1 x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks = 0.05) 11.1 . Leida mudeli paramaatrite hinnangud b0 ja b1 xi yi (xi-x)^2 4,0 0,1 1,0 1,0 5,5 4,4
d= r2
Determinatsioonitegur d= 0,7410
f = N-1=5-2=3
tkr=t0,975(3)=3,1824
Nullhüpoteesi vastu võtmiseks peab |t|< tkr , Seega nullhüpotees võetakse vastu.
Z0,95=1,645
Nullhüpoteesi vastu võtmiseks peab |z0|
Matrikli Number = XXXX1, keskmisele palgale lisaks 1. Ülesanne 1 Hinnata üldkogumi keskmisi: keskmist palka, keskmist kulu spordile ja keskmist kulu meelelahutusele. Leida usaldusvahemikud keskmistele usaldusnivool 0,90 ja 0,99. Keskmise leidmiseks kasutasin valemit : OpenOffices vastas sellele funktsioon AVERAGE. Usaldusvahemike leidmiseks kasutasin funktsiooni CONFIDENCE, kuhu oli ühe argumendina vaja standardhälvet, mille sain funktsiooni STDEVP abil. Alpha on 1-β . Size on valimi suurus(50). Ülesanne 2 Hinnata mittesuitsetajate osakaalu üldkogumis (a) meeste seas, (b) naiste seas usaldusnivool 0,95. Kuna valimi maht jääb alla 30, siis kasutan Studenti jaotust (OpenOffices vastab F^-1 TINV funktsioon) β=0.95 α = (1 + β) / 2 (number) a studenti jaotuse kvantiilide puhul k* = n – 1 (degree_freedom Leian p* = k/n (kus k on mittesuitsetavate arv ja n koguarv) Naistel vahemik (59.2% ; 95.4%) Meestel vahemik (49.3% ...
Xkesk=3,0 Ykesk=9,0 Vx=9,6 Vy=56, 4 6 9 37 Determinatsioonitegur Korreleerimatuse kontroll: (a) t-statistiku abil 3,1824 => H1 (b) z-statistiku abil 1,9602 => H1 Seega mõlema teststatistiku jargi saab H0 tagasi lukata ja tuleb lugeda x ja y korrelatsioon oluliseks. 11. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1 x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks a = 0.05): 11.1 leida mudeli parameetrite hinnangud b0 ja b1 Keskmine Xi 5,1 2,8 1,1 2,2 4 3,04 yi 15,3 6,9 7,2 6,1 9,8 9,06 Excel: INTERCEPT
5,1 19,3 98,43 4,4944 67,8976 3,7 13,1 48,47 0,5184 4,1616 2,2 6,8 14,96 0,6084 18,1476 1,1 7,2 7,92 3,5344 14,8996 2,98 11,06 194,7 9,188 109,772 r- korrelatsioonitegur determinatsioonitegur t-statistik järelikult x ja y on korreleeritud z-statistik järelikult x ja y on korreleeritud 11. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1 x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks a = 0.05): 11.1 leida mudeli parameetrite hinnangud b0 ja b1 xi yi xiyi xi2 yi2 dxi dyi dxidyi dxi2 dyi2 1,00 2,80 8,90 24,92 7,84 79,21 -0,18 -2,16 0,39 0,03 4,67 2,00 5,10 19,30 98,43 26,01 372,49 2,12 8,24 17,47 4,49 67,90
determinatsioonikordaja determinatsioonikordaja näitab vaatluste arv, korrigeeritud determinatsioonikordaja, kordaja a, vabaliige b, kordaja a standardviga regressioonanalüüs kolm mudel, kõige parem mudel regressioonmudelid valiksid diagrammil toodud sõltuvuste kirjeldamiseks, logaritmiline, pöördvõrdeline, eksponentsiaalne regressioonaanalüüsil, regressioonmudel regressioonijääkide diagramm, muutuv dispersioon, heteroskedastiivsus järeldused on õiged, regressioonimudel lineaarset mudelit kolme erineva sõltumatute tunnuste komplekti korral, determinatsioonikordaja ja korrigeeritud determinatsioonikordaja regressioonmudeli hindamisel saadud anova tabelid regressioonmudeli hindamisel saadud aruanne, tunnused on statistiliselt olulised x1 x2 x3 x4 regressioonmudelis olevate sõltumatute tunnuste omavaheline korrelatsioon, heteroskedastiivsus, multikollineaarsus Test 11 momentrida, perioodrida, voosuurus, vaosuurus
Võrratus kehtib. Järelikult on selle kriteeriumi järgi ka tegemist juhusliku reaga. Osa B. 10. Leida x ja y seose jaoks korrelatsioonitegur ja determinatsioonitegur. Kontrollida x ja y korreleerimatust t-statistiku ja z-statistiku abil, võttes olulisuse nivooks = 0.05. D=r2=0,89 t0,975(3)= 3,1824 |t| > t1-/2 (f), x ja y voib lugeda korreleeritud suurusteks. | Z0,975=1,96 z0> z1-/2 , voib x ja y lugeda korreleeritud suurusteks. 11. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1*x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks = 0.05): 11.1 leida mudeli parameetrite hinnangud b0 ja b1 11.2 leida mudeli parameetrite hinnangute b0 ja b1 usaldusvahemikud 11.3 kontrollida mudeli liikmete olulisust (märkus: jätta edaspidi igal juhul mõlemad liikmed mudelisse alles) 11.4 kontrollida mudeli adekvaatsust 11.5 leida mudeli poolt prognoositava väljundi usaldusvahemikud punktides x = 1, x = 3 ja x = 5 11
9 Seeriate arv : ( , ) Pikima seeria pikkus : ( , ) Käänupunkte : ( , ) 10 Korrelatsioonitegur: ( 0,94 ) t-statistik : t = 0,44 Järeldus: tagasi lukata Determinatsioonitegur: ( 0,89 ) z-statistik : z = 2,46 Järeldus:tagasi lukata 11 11.1 1,36 -3,25 Regressioonimudel: 11.2, 11.3 0,48 olulisus: oluline 1,58 olulisus: pole oluline 11.4 F-statistik: F = 4,01 Järeldus: võetakse vastu 11.5 Väljundi usaldusvahemiku poollaiused : : 1,876 : 1,614 Osa A Valim A mahuga N=25 variatsioonirida:
(B) (Sig) Huvi matemaatika vastu -0,37 0,000 Distsiplineeriv keskkond -0,15 0,000 Õpetaja tugi -0,06 0,025 Sugu 0,07 0,001 Vabaliige -0,15 0,000 Lineaarne regressioonimudel; soo tunnuse koodid: 0 – mees, 1 – naine; N=1577, R²=0,213 Tabelist 2 selgub, et statistiliselt oluline seos esineb kõigi sõltuva ja sõltumatute tunnuste vahel. Kõige tugevamat seost matemaatika ärevusega omab huvi matemaatika vastu (B=- 0,37), näidates, et mida suurem on huvi matemaatika vastu, seda madalam on matemaatika ärevus. Sellele järgneb distsiplineeriv keskkond (B=-0,15), näidates, et mida vähem distsiplineeriv on keskkond, seda suurem on matemaatika ärevus
Et me saaksime hüpoteesi vastu võtta (keskväärtuste homogeensus), siis peab arvutatud F- statistik olema väiksem kui tabelist võetud F-statistiku kriitiline väärtus. Nii see ka on ja seega võtame hüpoteesi vastu ja loeme keskväärtused homogeenseteks. 9. Käsitledes valimit A aegreana pikkusega N = 25 ... kontrollida olulisuse nivoo = 0.05 juures selle juhuslikkust mediaankriteeriumi ja käänupunktide kriteeriumi järgi. OSA B 10.Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1 x = 0,05 10.1 leida mudeli parameetrite hinnangud b0 ja b1 1 N b1 = ( xi - x )( yi - y ) Vx i=1 bo = y - b1 x x V on sisendi ruuthajuvus N Vx = ( xi - x ) 2 Vx = 9,752 i =1 Arvutused tegin Excelis b1 = 3,16 bo = 2,37 Lineaarne regressioonimudel: y = 2,37 +3,16 x 10.2 leida mudeli parameetrite hinnangute b0 ja b1 usaldusvahemikud P(b j - b j j b j + b j ) = 1 - b j = t ( w -1) s (b j ) 1- 2
t=0,8837 √(5−2)/(1−0,8837 2)=3,271
f = N-1=5-2=3
tkr=t0,975(3)=3,1824
Nullhüpoteesi vastu võtmiseks peab |t|< tkr , Seega nullhüpoteesi ei võeta vastu.
1+r
z 0=0,5 √ ( N −3 )∗ln ( 1−r )
1+0,8837
z 0=0,5 √ ( 5−3 )∗ln ( 1−0,8837 )=2,785
Z0,95=1,645
Nullhüpoteesi vastu võtmiseks peab |z0|
Fkr (0.05,4,45) 5.3 Femp Fkr Järeldus: Kuna , siis moodustatud gruppide keskväärtuste H 0 : 1 2 3 4 5 homogeensushüpotees kehtib. Teiste sõnadega faktoril ei ole süstemaatilist mõju. Osa C 10. Regressioonanalüüs Tabel 7. Lineaarne regressioonimudel y1 t kr s y1 yˆ xi yi Δxi Δyi x2i ΔxiΔyi Δx2i Δy2i i ei e 2i
Korrelatsioonitegur r = 0,76 Determinatsioonotegur d = r2 = 0,57 Korrelimatuse kontroll t- ja z-statistiku abil: t-statistik: Tp = 2,1318 t=r (N −2)/(1−r)2 = 0,8563 < 2,1318 = H1 Z-statistik: Zp = 1,6449 z = 0,5(N-3)ln((1+r)/(1-r) = -0,6047 < 1,6449 = H1 Mõlema statistiku järgi ei saa Ho tagasi lükata ning X ja Y korrelatsioon tuleb lugeda mitteoluliseks. 11. Leida ühefaktoriline lineaarne regressioonimudel y = b 0 + b1 x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks α = 0.05) 11.1 . Leida mudeli paramaatrite hinnangud b0 ja b1 xi yi (xi - )2 0,9 1,8 3,69 4,2 9,9 1,90
Kokku 231 4758 359 Rühmade keskväärtused: Rühmade dispersioonid: Üldkeskmine: Üldine rühmasisene dispersioon: Rühmadevaheline dispersioon: F-statistik: F-statistiku kriitiline väärtus (tabelist): Hüpoteesi vastuvõtmiseks peab F < Fkr: nii see on (0,38 < 2,87). Seega võetakse hüpotees vastu ja keskväärtused loetakse hüpoteesi põhjal homogeenseteks. Osa B 9. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1x ja analüüsida selle täpsust (olulisuse nivool = 0,05) 9.1 leida mudeli parameetrite hinnangud b0 ja b1. Veerg1 xi yi Veerg2 (x_i-x )^2 2,8 0,7 0,08 4,9 8,8 3,31 1,2 1,3 3,53 2,2 0,4 0,77 4,3 4,6 1,49
Osa C. Regressioonanalüüs 10. Võtta korrastatud valimist 7 arvu järjekorranumbritega 1;10,20;30;40;50 ja 60, kus järjekorranumber on parameeter y ja arv valimist parameeter x. Leida ühefaktoriline lineaarne regressionimudel y=a+bx ja analüüsida selle täpsusnäitajaid, võttes vastavates testides ja arvutustes olulisuse nivooks =0,05 = 51,14 = 30,14 =-x = - y = - y 10.1 a ja b hinnangud = 0,65 a = y- bx= -2,21 y= y + b b-hinnang: 0,632548 a-hinnang: -2,20747 y= -2,21+0,63x Regressioonimudel: y= -2,21+0,63x 10.2 a ja b hinnangute usaldusvahemikud 10.3 Prameetrite a ja b olulisuse kontroll = = temp b= 16,94256 suurem kui tkr temp a= -59,1262 väiksem kui tkr
26.0638 N(μ,σ) X2-statistik U(0,100) X2-statistik DN-statistik 0.13 F-statistik 0.142 Seerijate arv 7 Pikima seeria pikkus 4 Käänupunktid 9 Korrelatsioonitegur 0.973 t-statistik Determinatsioonitegur 0.946 z-statistik 6.331 11 4.400 b0 b1 Δb0 Δb1 Regressioonimudel F-statistik 7.248 3.024 -2.431 4.294 3.221 1.160 y = 4,294x - 2,43 1.171 0.3 Vahemik ni Pi 0.25 0-20 5 0.2 20-40 6 0.24 0.2 40-60 7 0.28
H1: p ei võrdu 0. Nullhüpoteesi kontrolliks kasutatakse korrelatsiooni hinnangu põhjal lleitud statistikut t, mis x ja y normaaljaotuse korral on f=N-2 vabadusastmetega t- jaotusega. Seega, kui valitud olulisuse nivoo alfa juures kriitiline väärtus on suurem kui leitud t, võtakse nullhüpotees vastu. Kasutatakse ka Fisheri teisendust: korreleerimatuse nullhüpoteesi kontrolliks arvutatakse z-statistik, mis on jaotunud normeeritud normaaljaotusega N(0,1). Lineaarne ühefaktoriline regressioonimudel. Mudeli leidmiseks vajalike katsetulemustena on vaja paarisvalimit, mis koosneb katse tulemusel saadud paarisvaatlustest. Vastav lineaarne seosemudel x ja y vahel on esitatav kujul: yi=b0+b1xi+ei, kus e tähistab juhuslikku müra i'ndas katses. Suurus x on sõltumatu muutuja, y sõltuv muutuja. Eeldatakse, et: *mudeli parameetrite väärtused on mingid fikseeritud arvud, mida tuleb hinnata *häiringu,müra väärtused eri katsetes on sõltumatud juhuslikud suurused, mille keskväärtus on 0
9 55.3 15 -15 9.188 109.772 29.906 xk 2.98 11.06 Korrelatsioonitegur: 0,9416 Determinatsioonitegur: 0, 8867 t-statistik: 0.54887119 z-statistik: 1.82906558 Tabelist võetud (tõenäosus - 0.975): t-statistik; 3.1824 z-statistik: 1.9602 Kuna mõlema puhul on tabeli statistik suurem, siis on tulemus vastuvõetav ning hüpoteesid vastu võetud. 11. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1x ja analüüsida selle täpsust (olulisuse nivool α = 0,05) 11.1 leida mudeli parameetrite hinnangud b0 ja b1. Keskmine x 3.7 1.1 5.1 2.8 2.2 2.98 y 13.1 7.2 19.3 8.9 6.8 11.06 xi-xk^2 0.5184 3.5344 4.4944 0.0324 0.6084 1.8376
Korrelatsioonitegur (CORREL-funktsioon MS Excelis) Determinatsioonitegur Hüpoteesi kontrolliks kasutatakse korrelatsiooni hinnangu põhjal leitud statistikut Et hüpotees vastu võetaks peab seega hüpotees võetakse vastu ja x ja y on korreleerimatud. Hüpoteesi kontrolliks kasutatakse Fisheri teisendust Et hüpotees vastu võetaks peab seega hüpotees võetakse vastu ja x ja y on korreleerimatud. 11. Leida ühefaktoriline lineaarne regressioonimudel ja analüüsida selle täpsust võttes olulisuse nivooks 11.1 Leida mudeli parameetrite hinnangud b0 ja b1 1 4,8 10,2 3,460 2 4,1 11,1 1,346 3 2,7 9,8 0,058 4 2,2 7,1 0,548 5 0,9 2,1 4,162 summa 2,94 8,06 9,572 11.2 Leida mudeli parameetrite hinnangute b0 ja b1 usaldusvahemikud
( ) ( ) Hüpoteesi vastuvõtmiseks peab F < Fkr: nii see on (0,44 < 2,87). Seega võetakse hüpotees vastu ja keskväärtused loetakse hüpoteesi põhjal homogeenseteks. 8 Arvutusgraafiline töö | Mihkel Heinmaa | Osa B 9. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1x ja analüüsida selle täpsust (olulisuse nivool = 0,05) 9.1 leida mudeli parameetrite hinnangud b0 ja b1. keskmine xi 5,1 2,8 1,1 2,2 4 3,04 yj 15,3 6,9 7,2 6,1 9,8 9,06
1+(−0,945) z-statistiku abil z 0=0,5 √ (N −3)ln 1+ r ( 1−r )=0,5 √(5−3) ln ( 1−(−0,945) )=−2,521 z 1−α /2=1,96 Et hüpotees vastu võetaks peab z 1−α /2 > z ⟹1,96>−2,521 seega hüpotees võetakse vastu ja x ja y on korreleerimatud. 11. Leida ühefaktoriline lineaarne regressioonimudel y = b 0 + b1x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks α = 0,05 11.1 Leida mudeli parameetrite hinnangud b0 ja b1 xi yi (xi-xkesk)2 2 3,5 1 4 0,1 1 3 1,2 0 1 5,5 4 5 0,2 4 Xkesk = 3 Ykesk = 2,1 ∑ 10 ^y =b 0+ b1 x
= 0,93∗ 1−0,86 =4,31 |t| < t1-α/2 (f) t0,975 (3)=3,1824 4,31 > 3,1824 H0 tagasi lükatud ja korreleeritud Z0-statistik: 1+r 1+0,93 z 0=0,5 √ ( N −3 ) ln ( 1−r )=0,5 √ ( 5−3) ln ( 1−0,93 )=2,35 Z1-α/2= 1,645 2,35>1,645 korreleeritud 11. Leida ühefaktoriline lineaarne regressioonimudel y = b 0 + b1 x ja analüüsida selle täpsust (võttes vastavates testides jm arvutustes olulisuse nivooks α = 0.05) 11.1 . Leida mudeli paramaatrite hinnangud b0 ja b1 xi yi (xi-x̅ )^2 4,9 20,3 3,4596 1,9 7,7 1,2996 1,2 7,9 3,3856 4,3 14,1 1,5876 2,9 9,9 0,0196 3,04 11,98 9,752 keskmin keskmin
0,93 Determinatsioonitegur Korreleerimatuse kontroll: · t - statistiku abil > 3,18 => H1 f= 3; t1- /2(f)=3,1824 Kuna |t|kr t1-/2 (f), siis H1 leiab kinnitust ning lugeda, et lähtudes t-statistikust, on x ja y korreleeritud suurused. · z - statistiku abil > 1,96 = H1 Valitud olulisuse nivoo juures z0 z1-/2 Järelikult leiab kinnitust H1 ning lähtudes z statistikust võib lugeda x ja y korreleeritud suurusteks. 11. Leida ühefaktoriline lineaarne regressioonimudel y = b0 + b1x ja analüüsida selle täpsust (olulisuse nivool = 0,05) 11.1 Leida mudeli parameetrite hinnangud b0 ja b1. = 2,37 y = 2,37 + 3,16 x 11.2 Leida mudeli parameetrite hinnangute b0 ja b1 usaldusvahemikud. Arvutustel kasutan korduskatsete seeria B2 andmeid. y0 = 4,81 = 1,92 = Leian t-statistiku: f=6 t1-/2(f) = t0.975(6) = 2.447 b1 = t0,975 (6) * s(b1) = 2,447 * 0,447 = 1,09 b0 = t0,975(6) * s(b0) = 2,447 * 1,072 = 2,62 Usaldusvahemikud on järgmised:
Nullhüpoteesi kontrolliks kasutatakse korrelatsiooni hinnangu põhjal lleitud statistikut t, mis x ja y normaaljaotuse korral on f=N-2 vabadusastmetega t-jaotusega. Seega, kui valitud olulisuse nivoo juures kriitiline väärtus on suurem kui leitud t, võtakse nullhüpotees vastu. Kasutatakse ka Fisheri teisendust: korreleerimatuse nullhüpoteesi kontrolliks arvutatakse z-statistik, mis on jaotunud normeeritud normaaljaotusega N(0,1). Lineaarne ühefaktoriline regressioonimudel. Mudeli leidmiseks vajalike katsetulemustena on vaja paarisvalimit, mis koosneb katse tulemusel saadud paarisvaatlustest. Vastav lineaarne seosemudel x ja y vahel on esitatav kujul: yi=b0+b1xi+ei, kus e tähistab juhuslikku müra i'ndas katses. Suurus x on sõltumatu muutuja, y sõltuv muutuja. Eeldatakse, et: mudeli parameetrite väärtused on mingid fikseeritud arvud, mida tuleb hinnata
122 Hiiu 94 0 0 1 123 Ida-Viru 94 0 0 1 124 Jõgeva 94 0 0 1 125 Järva 94 0 0 1 126 Lääne 94 0 0 1 127 Lääne-Viru 94 0 0 1 128 Põlva 94 0 0 1 129 Pärnu 94 0 0 1 130 Rapla 94 0 0 1 131 Saare 94 0 0 1 132 Tartu 94 0 0 1 133 Valga 94 0 0 1 134 Viljandi 94 0 0 1 135 Võru 94 0 0 1 Koostada regressioonimudel. Anda hinnang regressioonijääkidele Koostada diagramm regressioonijääkide sõltuvuse kohta vaatluse järjekorranumbrist. Täiendada mudelit fiktiivsete muutujatega (aasta iseloomustamiseks) (ilmastiku mõju arvestamiseks) Koostada uus regressioonimudel ja diagramm punkti 3 kohaselt. Võrrelda erinevaid mudeleid. Teravilja Teravilja osakaal Fosforväetis teravilja saagikus
Mõlema statistiku järgi ei saa H0 tagasi lükata ning X ja Y korrelatsioon tuleb lugeda mitteol (xi-x)(yi-y) xi∙yi 11.1. y = b0 + b1x 4.07 1.62 8.25 41.58 Vx = 8.03 3.28 1.26 b1 = 2.00 1.38 20.28 b0 = -1.72 -0.92 6.6 Regressioonimudel: y = 2x-1,72 16.07 11.2. yr 1.9 0.1 2.0 4.5 0.7 1.5 2.4
sv 2 (y i y )2 479839167.47 6.1.2 Selgitamata päritoluga variatsioon: 2 s r ( yi y^ i ) 2 55003940.02 6.1.3 Determinatsioonikordaja: 2 s 55003940.02 r 1 r2 1 2 sv 47983916,47 6.2 Kontrollime tulemust Exceli funktsiooni abil: r2 = 0.88537005 6.3 Järeldus: Lineaarne regressioonimudel kirjeldab mõõdetud suurusi hästi 0,8 0 88,5% sõltuva muutuja (sündinud laste) kogumuudust on kirjeldatud regressioo 7. X ja Y tunnuste graafik Abiellude arvu ja sündinute laste arvu korrelatsiooniväli koos regressioonisirg Sündinute 30000 laste arv 25000 20000 f(x) = 1.3411860293x + 5767.4714469089 15000 R² = 0.8853700495 10000 5000
H0: Kahe tunnuse vahel ei esine olulist korrelatsiooni. 5.2 Kui seos on oluline, kuidas intepreteerite seda seost (ühe lahtri alusel). 6 Regressioon 6.1 Mida näitab determinatsioonikoefitsient (protsentides) Determinatsioonikoefitsient näitab, kui suur osa Y varieeruvusest on kirjeldatud mudeliga Y’’. R2 = 0.775 => 77,5% Seega kui R2 = 1, siis on tegelikud väärtused regressioonisirgel. 6.2 Formuleerida nullhüpotees mudeli kui terviku kohta. Teha otsustus (F-test). H0: Regressioonimudel ei aita kirjeldada sõltuvat tunnust => (Pr > |t|) < 0.05 6.3 Kuidas interpreteeritakse tunnusele vastavat regressioonikoefitsienti B (parameter estimate) y = ax1 + b y on sõltuv tunnus, x1, x2, jne. on sõltumatud tunnused 6.4 Nullhüpoteesi formuleerimine konkreetse sõltumatu tunnuse sobivuse kohta lineaarsesse mudelisse. Otsustus ühe sõltumatu tunnuse põhjal. H0: Antud sõltumatu tunnus ei aita oluliselt kirjeldada sõltuva tunnuse varieeruvust. =>
i i 2 DW n ¦H i 1 i 2 Valemist on näha, et autokorrelatsiooni olemasolu korral on kriteeriumi väärtus väike. Durbin-Watsoni statistikut kasutatakse 1. järku autokorrelatsiooni avastamiseks (ut = U ut-1 + vt, kus juhuslik viga vt rahuldab klassikalisi eeldusi). Durbin-Watsoni statisiku kasutamise eeldused: x regressioonimudel peab sisaldama konstantset liiget x mudel ei sisalda sõltuva muutuja viitajaga liikmeid (nt. Yt-1, Yt-2 ) n ¦ (u t u t1 ) 2 t 2 d n ¦ ut2 t 1 Kehtivad võrratused: 0 <= d <= 4 0 dl du 2 4- du 4- dl 4 |-----------|--------|--------|--------|--------|-----------| 0 < d < dl - positiivne korrelatsioon
x 2 i 7074,85 a y b x 30,14 0,618 47,8 0,59 y^ y bxi 1 1 ei 2 2 34 6,8 n2 72 Regressioonimudel y= 30,14+0,618x 10.2 a ja b hinnangute usaldusvahemikud 2 6,8 b 0,031 xi 7074,85 2 2 xi 2 6,8 23107
nende töötlemiseks vajalik tarkvara. d) hindamisprotsessi tulemuste testimine ja analüüs. e) ökonomeeetrilise mudeli väljatöötamine kujutab endast iteratsiooniprotsessi, mille käigus korrigeeritakse mudelit, leitakse parameetritele uued hinnangud, testitakse saadud tulemisi jne. Kuni saadakse vastuvõetav tulemus. Klassikaline regressioonianalüüs- kõikidest võimalikest regressioonimudelitest leiab ökonomeetriliste mudelite koostamisel kõige enam kasutamist mitmene lineaarne regressioonimudel. Taolise regressioonimudeli koostamist nim. ka klassikaliseks regressioonianalüüsiks. Antud juhul eeldatakse, et sõltuvat muutujat Y mõjutavad mitu sõltumatut muutujat X1, X2,-;Xn ning nende mõju sõltuvale muutujale on lineaarne. Regressioonivõrrand-;-;-;-;-;-;-;-;-;-;-;-;-;-;-;-; Mudeli parameetrite hindamiseks kasutatakse üldtuntud vähimruutude meetodit. Regressioonivõrrandi parameetrite -;-;-;-;-;-;-;-;-;.
1537,75 60,443 98 60 51,43 29,9 9604 7 2645,0449 894,01 7 0,4 326 211 0 0,3 22968 4613,23 7785,0658 2740,87 210,7 x = 326/7= 46,57 y = 211/7=30,1 b =4613,13/7785,0658= 0,59 2=1/(7-2)*7,24=1,448 a =30,1-0,59*46,57=2,6237 Regressioonimudel: y=2,6237 +0,59*x 10.2 Mudeli parameetrite hinnangute a ja b usaldusvahemikud. ab=1,448/7785=0,014 oa=(1,448*22968)/(7*7785)=0,61 tkr=2,78 0,59-2,78*0,014tkr kehtib H0, st liige ei ole oluline
98 60 51 29,9 9604 9 1 894,01 58,915 5 5 2394 848 2740,8 329 211 0 0,3 3 4793 0 7 210,7 0,3 31,808 x = 329/7= 47 y = 211/7=30,1 b =4793/8480= 0,566 2=1/(7-2)*31,808=6,36 a =30,1-0,566*47=3,498 Regressioonimudel: y=3,498 +0,566*x 10.2 Mudeli parameetrite hinnangute a ja b usaldusvahemikud. ab=6,36/8480=0,027 oa=(6,36*23943)/(7*8480)=1,6 tkr=2,57 0,566-2,57*0,027
gruppide keskväärtused võivad olla võrdsed. Erinevused gruppide vahel olid juhuslikud ning usaldustasemel α=0,05 süstemaatilist komponenti ei esinenud. Osa C. Regressioonanalüüs 10. Võtta korrastatud algandmete valimist 7 arvu x järjekorranumbritega 1; 10; 20; 30; 40; 50 ja 60, kus järjekorranumber on parameeter y ja arvväärtus valimist parameeter x. Leida ühefaktoriline lineaarne regressioonimudel y=a+bx ja analüüsida selle täpsusnäitajaid, võttes testides ja arvutustes olulisuse nivooks =0,05 10.1 Leida mudeli parameetrite a ja b hinnangud ∑𝑛 𝑖=1 ∆𝑦𝑖 ∆𝑥𝑖 x =xi - xk y = yi - yk 𝑏= ∑𝑛 2 a = yk – bxk
3.9554294976 1.935494 2.447 0.2220807286 2.4908574516 delta b1 delta b0 disp(ad) F F(kr)(0,95;3,6) 1.1531595662 3.861966 5.493463 2.5057064043 4.757 s(y)RUUT 2.192381 y(1) 5.890924 y(3) 13.80178 y(5) 21.71264 s(y1/x) 1.167342 delta(y1/x) 2.856486 s(y3/x) 0.662444 delta(y3/x) 1.620999 s(y5/x) 1.136495 delta(y5/x) 2.781004 Joonis 5. Regressioonimudel 30 25 20 Katsepunktid y=3,96x+1,94 15 y Usaldusvahemiku alampiir Usaldusvahemiku ülempiir 10 5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
uuritava nähtuse prognoosimudelina. Trendi valiku probleemi lahendamine on otstarbekas seostada ka formaalse statistilise analüüsiga, eeskätt trendifunktsiooni statistilise usaldatavuse hindamisega. Trendifunktsiooni valiku formaalse kriteeriumina saab kasutada selle ruutkeskmist viga ehk standardviga Statistika eksami vanad küsimused Eksam 2005 1. Esindusviga on ruutjuur valimite keskmiste dispersioonist (ÕIGE) 2. Regressioonimudel ja regressioonianalüüs iseloomustab kahe tunnuse vahelist seost a) Regressioonanalüüs: x – sõltumatu muutuja, y – sõltuv muutuja, regress – taandareng b) Mida suurem on lõikenurk, seda nõrgem on nähtustevaheline seos c) Regressioonikordaja näitab, kui palju muutub sõltuv muutuja y, kui argumendi x väärtused muutuvad 1 ühiku võrra d) Kui regressioonikordajad 0st erinevad, siis on nähtuste vahel korrelatiivne seos
sobiva funktsiooni valimine, eriti veel siis, kui trendifunktsiooni kasutatakse uuritava nähtuse prognoosimudelina. Trendi valiku probleemi lahendamine on otstarbekas seostada ka formaalse statistilise analüüsiga, eeskätt trendifunktsiooni statistilise usaldatavuse hindamisega. Trendifunktsiooni valiku formaalse kriteeriumina saab kasutada selle ruutkeskmist viga ehk standardviga Statistika eksami vanad küsimused 2. Regressioonimudel ja regressioonianalüüs iseloomustab kahe tunnuse vahelist seost a) Regressioonanalüüs: x sõltumatu muutuja, y sõltuv muutuja, regress taandareng b) Mida suurem on lõikenurk, seda nõrgem on nähtustevaheline seos c) Regressioonikordaja näitab, kui palju muutub sõltuv muutuja y, kui argumendi x väärtused muutuvad 1 ühiku võrra d) Kui regressioonikordajad 0st erinevad, siis on nähtuste vahel korrelatiivne seos
Mõlemal juhul selgub, et x ja y väärtused on korreleerimata, mis tähendab, et väärtused on lineaarselt sõltuvad. Ülesandes 11 on läbiviidud lineaarne regressioonanalüüs. Selle osadena on leitud parameetrite hinnangud b0 ja b1, nende hinnangute usaldusvahemikud jms. Samuti on kontrollitud nende liikmete kooskõlalisust katseandmetega leitud mudeli võis lugeda adekvaatseks. Viimasena on esitatud ka regressioonimudeli graafik. Regressioonimudel avaldub võrrandina: y = -3,09 + 2,03x. Statistilised meetodid ja mudelid ning nende rakendamine geenitehnoloogia valdkonnas Statistika on laialtlevinud teadusharu, mida saab rakendada väga mitmetes valdkondades. Minu isiklik kokkupuude statistikaga on eelkõige seotud geenitehnoloogiaga. Geenitehnoloogia, õigemini nimetades ekperimentaalbioloogia, on loodusteaduste haru, mis tegeleb erinevate bioloogiliste materjalide uurimisega. Iga katse teostatakse mitmete
2 s2 ( y ) N x i 2 s ( b0 ) = =2,5 V x i=1 N t 0,975 ( 6 )=2,45 b j=t 0,975 ( 6 ) s ( b j ) b 0=3,9, b1 =1,2 11.3 H 0 : 2ad= 2 ( y ) , H 1 : 2ad > 2 ( y ) ^y i=b 0+ b1 x i N 1 2 s = ad N -d j=1 ( y i- ^y i )2=5,5 Joonis 5. Regressioonimudel 30 25 Katsepunktid y=3,96x+1,94 Usaldusvahemiku alampiir 20 y 15 10 Usaldusvahemiku ülempiir 5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 x s 2ad F= 2 =2,5 s ( y)
Korrelatsioonikordaja - nullist erinev ka täiesti juhuslike arvupaaride korral. Valem: Spearmani korrelatsioonikordaja – Mudel - reaalses maailmas esineva objekti analoog, mis asendab seda objekti tunnetusprotsessis Matemaatiline mudel - mingit reaalses maailmas eksisteerivat nähtust kirjeldavate matemaatiliste seoste kogum Lineaarne mudel y=ax+b, lineaarliikme kordaja a näitab, kui palju muutub y, kui x suureneb 1 võrra. Vabaliige b näitab sõltuva muutuja y väärtust, kui x=0 Regressioonimudel – yi = deterministlik component + juhuslik component. Deterministlik komponent on see oluline osa, mille mudel peab välja tooma. Deterministlik komponent = tinglik keskväärtus E[Y|X]. Regressioonanalüüsi käigus leitakse regressioonmudeli deterministlik component y= αx+ β + ε. Lineaarse mudeli hindamine = parima sirge leidmine Vähimruutude meetod – Objektiivne kriteerium: Empiiriliste punktide ja sirge vastavate punktide vaheliste kauguste ruutude summa on minimaalne