285 (Leitud Laplace' tabelist). Kuna teststatistik on suurem kui kriitiline piirkond, lükkame nullhüpoteesi tagasi. Saame öelda, et mehed kulutavad meelelahutusele rohkem raha kui naised. Ülesanne 5 Uurida üldkogumi palga ja kulu spordile vahelist seost. Olgu palk sõltumatu tunnus – x ja kulu spordile sõltuv tunnus -y. Koostada hajuvusdiagramm. Koostada lineaarse regressiooni võrrand. Leida kogu-, jääk- ja regressioonhajuvus. Kui suure osa koguhajuvusest moodustab regressioonhajuvus? Kas see on oluline? Hajuvusdiagrammi sain OpenOffice XY(scatter) joonise abil, kus x-teljel on palk ning y-teljel kulutused spordile. Lineaarse regressiooni leidmiseks on vaja leida a ja b, vastavalt Kuid mis on leitavad ka OpenOffice funktsioonide INTERCEPT ja SLOPE abil. Vastavad tulemused tulid: a = -60.8243633 b = 0.139701932 ja seega võrrand on ŷ = a + bx ehk ŷ = -60.8243633 + 0.139701932x
mille puhul multikollineaarsus on välistatud. Faktorid on tavaliselt kvalitatiivsed suurused. Kuna tunnuste arv väheneb ja seos esialgsete muutujatega on ligikaudne, siis osa infot läheb paratamatult kaduma. 23. Mida näitab esialgse muutuja kommunaliteet? Mingi tunnuse (muutuja) kommunaliteediks nimetatakse faktormaatriksi vastava rea elementide ruutude summat, see näitab sellist osa selle tunnuse koguhajuvusest, mida faktorid suudavad kirjeldada. Kui faktorite arv on väiksem mõõdetud tunnuste arvust, siis tunnuse kommunaliteet (faktorite poolt seletatav hajuvus) on väiksem kui 1 , st osa vastava muutuja hajuvusest jääb kirjeldamata (kommunaliteediprobleem). Kui eraldatakse kaks faktorit, siis reeglina seletavad nad koguhajuvusest suurema osa kui seda teeks üks faktor hi2 D i21 D i22 Kommunaliteetide algväärtused valitakse ette ja lisatakse korrelatsioonimaatriksi peadiagonaali elementidele.
4) Vaadeldes hajusdiagrammi veendun, et sõltuvus on ligikaudu lineaarne: Regressivõrrand , kus Antud võrrandeid kasutades, saame b0 = 408,62 b1 = 0,73 ning regressivõrrand y = 408,62 + 0,73 x Jääkhajuvuse leiame valemi abil: SSE = 44408832,97 Regressioonhajuvuse valemi abil: SSR = 397492258,80 Koguhajuvuse valemi abil: SST = 441905065,65 Regressioonhajuvus moodustab ligikaudu 89,95% koguhajuvusest. R2=SSR/SST=0,90 , seega seos on oluline! OSA 2: 1) Genereerisin lõigul [0,1] ühtlasest jaotusest 100 arvu. Valimkeskmine 0,4920 AVERAGE Valimdispersioon 0,0906 VAR Valimstandardhälve 0,3010 STDEV 2) 90% usalduspiirid tegelikule keskväärtusele =0,5 [0,4981 , 0,5019] ja tegelikule dispersioonile 2=0,083 [0,0667 , 0,1068] Valimkeskmine ei sisaldu arvutatud usaldusvahemikus kuid valimdispersioon sisaldub
Korrelatsioonikordajaid kasutatakse seose uurimiseks kahe arvulise või pikema skaalaga järjestustunnuse vahel. Meetodi plussiks on, et see võimaldab kirjeldada nii seose suunda kui ka seose tugevust. Kõige sagedamini kasutatakse lineaarset ehk Pearsoni korrelatsioonikordajat ja Spearmani astakkorrelatsioonikordajat. 31. Mida iseloomustab determinatsioonikordaja? Determinatsioonikordaja R2 iseloomustab mudeli kirjeldusvõimet. See näitab, kui suure osa sõltuva tunnuse koguhajuvusest moodustab regressioonhajuvu 32. Mida iseloomustab jääkstandardhälve? Jääkstandardhälve e. prognoosiviga iseloomustab funktsioontunnuse erinevust regressioonijoonest. 33. Milleks kasutatakse dispersioonanalüüsi? Analüüsi lugemisoskus. 34. Mis on funktsioontunnus? 35. Mis on argumenttunnus? 36. Ronald Fisher oli inglise matemaatik ja evolutsiooniteoreetik. Ta formaliseeris loodusliku valiku teooria ja formuleeris loodusliku valiku teoreemid. Ta tegeles statistiliste meetoditega ning
2) mitmene regressioon - HV = b0 + b1*D + b2*H 30. Mida iseloomustab korrelatsioonikordaja? Korrelatsioonikordajaid kasutatakse seose uurimiseks kahe arvulise või pikema skaalaga järjestustunnuse vahel. Meetodi plussiks on, et see võimaldab kirjeldada nii seose suunda kui ka seose tugevust. 31. Mida iseloomustab determinatsioonikordaja? Determinatsioonikordaja R2R2 iseloomustab mudeli kirjeldusvõimet. See näitab, kui suure osa sõltuva tunnuse koguhajuvusest moodustab regressioonhajuvus 32. Mida iseloomustab jääkstandardhälve? Jääkstandardhälve e. prognoosiviga iseloomustab funktsioontunnuse erinevust regressioonijoonest. 33. Milleks kasutatakse dispersioonanalüüsi? Analüüsi lugemisoskus. Dispersioonanalüüsi eesmärk on kontrollida gruppidevaheliste erinevuste statistilist olulisust. 34. Mis on funktsioontunnus? Y=b0+b1*x 35. Mis on argumenttunnus? Y=b0+b1*x 36
tähtsam komponent ehk joone tõus). B näitab kui mitme ühiku võrra muutub y kui x muutub 1 ühiku võrra. Mida suurema nurga all regressioonisirged lõikuvad, seda nõrgem on nähtustevaheline seos! Suurim nurk on 90 kraadi, see tähendab, et seos on nõrk. · Funktsiooni headus on selgitusvõime. Selgitusvõime näitaja on determinatsioonikordaja R2. Determinatsioonikordaja näitab, kui suure osa sõltuva suuruse hälvete ruutude summana mõõdetud koguhajuvusest seos ära seletas. Ruutjuurt determinatsioonikordajast nimetatakse üldjuhul korrelatsioniindeksiks (r) ehk korrelatsioonikordajaks ehk korrelatsioonikoefitsiendiks. Korrelatsioonikordaja väärtused on vahemikus -1 kuni 1. · Korrelatsioonikordajaid on palju. Sagedamini kasutatav on kovariatsioon (koos varieerumine ehk koos erinemine). Korrelatsioonikordaja kirjeldab vaid lineaarset seost! · Korrelatsioonikordaja saab olla vahemikus -1 kuni 1
Ka siis, kui lisame suvalise juhusliku tunnuse. Et paremini võrrelda mudeleid, kus on erinev arv tunnuseid, kasutatakse korrigeeritud (modifitseeritud, adjusted) determinatsioonikordajat: kus n on valimi maht ja k mudeli parameetrite arv. Kui lisame mudelisse ühe tunnuse, siis on korraga kaks efekti: Korrigeeritud determinatsioonikordaja tõlgendus ei ole sama, mis tavalisel determinatsioonikordajal R2 , sest valem on teistsugune, komplitseeritud. Kui suur osa koguhajuvusest on mudeliga seletatud, näitab ikka tavaline determinatsioonikordaja R2 . Korrigeeritud determinatsioonikordaja on vaid üks kvantitatiivne näitaja, mida kasutatakse erinevat arvu tunnuseid sisaldavate mudelite võrdlemiseks. 34. Parameetrite mitteolulisuse võimalikud põhjused. 1. Tunnus ei sobi mudelisse. 2. Teooriast lähtudes peaks tunnus suurust Y mõjutama ja mudelis olema, kuid valimi maht on liiga väike ja standardviga tuleb liiga suur. 3. Esineb multikollineaarsus.