Kuna teststatistik on suurem kui kriitiline piirkond, lükkame nullhüpoteesi tagasi. Saame öelda, et mehed kulutavad meelelahutusele rohkem raha kui naised. Ülesanne 5 Uurida üldkogumi palga ja kulu spordile vahelist seost. Olgu palk sõltumatu tunnus – x ja kulu spordile sõltuv tunnus -y. Koostada hajuvusdiagramm. Koostada lineaarse regressiooni võrrand. Leida kogu-, jääk- ja regressioonhajuvus. Kui suure osa koguhajuvusest moodustab regressioonhajuvus? Kas see on oluline? Hajuvusdiagrammi sain OpenOffice XY(scatter) joonise abil, kus x-teljel on palk ning y-teljel kulutused spordile. Lineaarse regressiooni leidmiseks on vaja leida a ja b, vastavalt Kuid mis on leitavad ka OpenOffice funktsioonide INTERCEPT ja SLOPE abil. Vastavad tulemused tulid: a = -60.8243633 b = 0.139701932 ja seega võrrand on ŷ = a + bx ehk ŷ = -60.8243633 + 0.139701932x Kuna OpenOffice, kuigi suutlik andmeanalüüsi juures, jõudsin lahendusteni, milles ma ei olnud
Probleemid korrelatsioonikordajate kasutamisel. Kasvav seos Ühe tunnuse suured väärtused esinevad sageli koos teise tunnuse suurte väärtustega. Ühe tunnuse väikesed väärtused esinevad koos teise tunnuse väikeste väärtustega. Kahanev seos Ühe tunnuse suur väärtus esineb koos teise tunnuse väikese väärtusega. Seos puudub, tunnused on sõltumatud See, milline on ühe tunnuse väärtus, ei mõjusta teise tunnuse väärtust. Hajuvusdiagrammi põhjal saab anda esialgse hinnangu tunnustevahelise seose tugevusele. Korrelatsioonianalüüs: Korrelatsioonikordajate abiga saame mõõta tunnuste koosmuutuvust ehk kovariatsiooni. Seose sümmeetrilisus: enamasti ei saa öelda, kumb kumba põhjustab Kui tunnuste vahel on märgata ühist käitumist, siis ei pruugi see tegelikult alati tuleneda nendevahelisest sisulisest seosest.
· Seost risttabelis mõõdetakse hii-ruut-statistiku (c²-statistiku) abiga. Crameri V - Kui tunnused on sõltumatud, siis 0; tugevaim seos 1. · Saab kasutada sagedustabeli kuju ja kogumi suurust arvesse võtmata. 14) Hajuvusdiagramm ja korrelatsioonikordajad seose uurimiseks kahe arvtunnuse vahel. Spearmani korrelatsioonikordaja järjestustunnuste korral. Probleemid korrelatsioonikordajate kasutamisel. Hajuvusdiagrammi põhjal saab anda esialgse hinnangu tunnustevahelise seose tugevusele. Vastavalt sellele, milline on korrelatsioonikordaja märk, räägitakse positiivsest ja negatiivsest korrelatsioonist tunnuste vahel. Kui tunnuste vahel on kasvav seos, on korrelatsioonikordaja positiivne. Kui tunnuste vahel on kahanev seos, on korrelatsioonikordaja negatiivne. Spearmani korrelatsioonikordaja kasutab mõõtmistulemuste asemel nende astakuid.
Ehk tunnuste väärtused liiguvad samasuunaliselt. - Kahanev seos – kui ühe muutuja väärtused kasvavad, siis teise muutuja väärtused langevad. Tunnuste väärtused liiguvad erinevates suundades. - Konstantne seos – ühe tunnuse väärtused ei muutu, kui muutuvad teise tunnuse väärtused. Nii seose suunda, kuju kui ka tugevust on võimalik hinnata hajuvusdiagrammi abil. Seose kuju - kui kuju on raske hinnata, siis saab joonisele kanda erineva kujuga regressioonijooned ning hiljem, lähtudes determinatsioonikordajate võrdsusest, anda lõplik hinnang andmetele kõige pareimini sobiva joone kohta. Determinatsioonikordaja ( ) näitab, kui suure osa ühe (sõltuva) muutuja varieeruvusest suudavad ära kirjeldada teised (sõltumatud) muutujad. Ehk tuleb vaadata millise jne R 2 on suurim. ( kui
ühte ja sama asja. Madala sisereliaabluse põhjuseks võib olla see, kui testi küsimused ei mõõda sama asja. NB! tähtis järeldus: ühe ja sama testi reliaablus on erinev olenevalt populatsioonist – st selle suurusest ja koostisest! (testid on vähem usaldusväärsemad neil juhtudel kus individuaalsed erinevused on väikesed!) 15. Miks on lisaks reliaabluskoefitsiendile vaja analüüsida ka hajuvusdiagrammi? Hajuvusdiagrammi abil on võimalik kindlaks teha, kas seos analüüsitavate suuruste vahel on lineaarne, mis on Pearsoni r-i eelduseks. 16. Sisereliaabluse leidmise põhiidee ja koefitsiendid (KR20; Cronbachi alpha). Sisereliaablus näitab, kuivõrd iga testi küsimus mõõdab sedasama nähtust, mida kõik teised testi küsimused. Standardiseeritud Cronbachi alfa: * alfa = k x r_{ij} / (1 + (k-1) x r_{ij}), see on funktsioon kahest suurusest * k - küsimuste arv
vasakult paremale. Lineaarse korrelatsiooni tugevust näitab Pearsoni korralatsioonikordaja (r). Pearson tõestab ka põhjusliku seose esitatud andmete vahel, sest korrelatsioon võib olla, aga samas ei pruugi kahe näitaja vahel olla põhjuslikku seost. Vajalik intervallskaala. Erind näiteks üks punkt on teistest eraldi, see võib tugevalt vähendada või suurendada korrelatsiooni. Seetõttu vajalik vaadata ka hajuvusdiagrammi. Erindit tuleb analüüsida vajadusel välja jätta. Lineaarse korrelatsioonikordaja puuduste tõttu kasutatakse ka teisi seosekordajaid Spearmanni, Kendalli. Siis kui arvad, et nähtuste vahel peaks tulema tugev seos, aga r tuleb väga väike siiski. Korrelatsioon puudub: r=0; korrel on nullist erinev r =/ 0 (võrdusmärg läbiva kriipsuga) 17. Korrelatsioonikordaja (p) 2 juhusliku suuruse X ja Y vahelise lineaarse, seose tugevust ja
tekst ja ruumiline Kas kõik korrelatsioonid on statistiliselt olulised? Oluline kui Sig väiksem kui 0,05 (N ja korrelatsioonikordaja enda suurus) Nupu all Option on võimalik valida välistamist: Pairwise(nt kui sõnavaral üks vastus puudu, siis jäetakse välja arvutamata need korrelatsioonid, kus see vastus on puudulik) and Listwise deletion (Piisab sellest, kui üks vastus puudu alatestis ja jäetakse terve see indiviid välja) Tunnuste vahelised seosed graafiliselt (hajuvusdiagrammi saab teha ainult kahe muutuja vahel): Graphs - legacy dialogs - Scatter/Dot - Simple ... - x=matemaatika, y=diagrammid (Kõrgeim korreltsioon) On võimalik ka regressioonijoont lisada graafikule: Topeltklõps graafikul ja siis klõpsata nupul Add Fit Line at Total Sealt tuleb R(ruut)=0,301 tähendab et 30% on ühisvariatiivsust (kõrgeima korrelatsiooniga) Lineaarteisendus ja sirge võrrand: transform - compute variable - Uusr=24-5*Ruumiline
fikseeritud). Korrelatsioon-Korrelatsioon (korrelatsioonikordaja, korrelatsioonitegur, korrelatsioonikoefitsient) on levinuim arvkarakteristik iseloomustamaks kahe sõltuva juhusliku suuruse X ja Y vahelist (lineaarset) seost. Korrelatsiooni hindamiseks katseandmete järgi on vaja nn paarisvalimit, mis koosneb katse/vaatluse tulemusel saadud paarisvaatlustest (xi, yi), kus i = 1, 2, ..., N; N on valimi maht. Paarisvaatluste valimi põhjal saab koostada hajuvusdiagrammi, mis kujutab endast vastavat punktiparve (x,y)-tasandil. Lineaarset mudelit y = 0 + 1x nimetame edaspidi (lineaarseks ühefaktoriliseks) regressioonimudeliks ning selle mudeli hinnanguks on katseandmete põhjal arvutatav (prognoosi)mudel y = b0 + b1x, kus vabaliikme 0 hinnanguks on b0 ja lineaarliikme (tundlikkuse) 1 hinnanguks b1. Mudeli parameetrite leidmisel on sobivaimaks meetodiks vähimruutude meetod, mille kohaselt
· Mõjutub kolmandast tunnusest ehk punktid moodustavad mingi kolmanda tunnuse suhtes tõusva (langeva) pilve. · Tunneb ära vaid lineaarse seos, muu seose korral (ruutfunktsionaalne seos vms) võib anda tulemuseks nõrga või olematu sõltuvuse. Kõik puudused on üldjuhul näha hajuvusdiagrammilt, seega peab tunnustevahelise lineaarse seose määramisel lisaks kordaja leidmisele alati vaatama ka vastavat hajuvusdiagrammi. 3.4. Lineaarne ühe argumendiga regressioonmudel Regressioonanalüüs tegeleb tunnustevaheliste seoste funktsionaalse kirjeldamisega (ehk matemaatilise võrdusena määramisena) ning selle seose täpsuse, kasulikkuse ja olulisuse hindamisega. Lineaarne mudel (lihtregressioon) on lihtsaim ja kõige sagedamini kasutatav mudel kujul Y= aX + b+e, kus tunnust Y nimetatakse sõltuvaks ehk uuritavaks ehk funktsioontunnuseks
Kui punktid kindlalt kuskile poole välja veninud, siis tugev seos. ·Kasvav seos Ühe tunnuse suured väärtused esinevad sageli koos teise tunnuse suurte väärtustega. Ühe tunnuse väikesed väärtused esinevad koos teise tunnuse väikeste väärtustega. ·Kahanev seos Ühe tunnuse suur väärtus esineb koos teise tunnuse väikese väärtusega. ·Seos puudub, tunnused on sõltumatud See, milline on ühe tunnuse väärtus, ei mõjusta teise tunnuse väärtust. Hajuvusdiagrammi põhjal saab anda esialgse hinnangu tunnuste vahelise seose tugevusele. Lineaarne e Pearsoni korrelatsioonikordaja (KK) tähis r; y= 0x=0 - üldine keskmine Korrelatsioonianalüüs - kui punktid 1 ja 3, siis kasvav; suurim +1, väikseim -1. Tugev seos - üle 0,5 Vastavalt sellele, milline on korrelatsioonikordaja märk, räägitakse positiivsest ja negatiivsest korrelatsioonist tunnuste vahel. Lineaarse korrelatsioonikordaja väärtus asub 1 ja 1 vahel.
seos; pluss- pos. seos. Negatiivne seos tähendab, et ühe näitaja väärtuste kasvades teise näitaja väärtused kahanevad või vastupidi, sisuliselt muutuvad näitajate väärtused vastassuunas. Positiivse seose puhul liiguvad näitajate väärtused samas suunas: kui ühe näitaja väärtused suurenevad, siis suurenevad ka teise näitaja väärtused. Seos võib olla kasvav, kahanev või konstantne. Seost hinnatakse hajuvusdiagrammi abil- mida paremas seoses punktid, seda suurem on korrellatsioonikordaja. Alati ei piisa ainult korrelatsioonikordaja väärtuse leidmisest, tuleb vaadata ka algandmeid, mis annavad infot, miks selline korrelatsioonikordaja väärtus tuli ehk siis tuleb joonistada hajuvusdiagramm. Enimkasutatavad korrelatsioonikoefitsiendid mõõdavad enamasti lineaarset seost, korrelatsioonanalüüs ei näita põhjuslikku seost. Pidevad andmed- Pearson, Spearman, Kendall
Ka tulemuste raporteerimisel saame rääkida muutujatevahelisest seosest, mitte ühe muutuja mõjust teisele. Statistiliselt võttes saame rääkida kolmest võimalikust põhjuslikkuse suunast. Eeltoodud näite põhjal võivad nad olla järgnevad: 1 Muutuja X põhjustab muutuja Y varieerumist. 2 Muutuja Y põhjustab muutuja X varieerumist. 3 Kolmas muutuja Z põhjustab nii muutuja X kui ka muutuja Y varieerumist. Enne statistikute uurimist vaatame aga hajuvusdiagrammi (scatter plot). Mille leiate Graphs menüü alt. Graphs Legacy Dialogs Scatter/Dot Simple Scatter. Kui teete joonisele topeltkliki, saate lisada ka lineaarset seost kujutavad joone joonisele. Joone lisamisel peaks olema ilmsem, millise seosega on tegemist. 9 Kuidas aga see graafiline info statistikutes väljendub? Korrelatsioonide leidmiseks kasutage käsklusterida
muutuja mõjust teisele. Statistiliselt võttes saame rääkida kolmest võimalikust põhjuslikkuse suunast. Eeltoodud näite põhjal võivad nad olla järgnevad: 1 Muutuja X põhjustab muutuja Y varieerumist. 2 Muutuja Y põhjustab muutuja X varieerumist. 3 Kolmas muutuja Z põhjustab nii muutuja X kui ka muutuja Y varieerumist. 1) KORRELATSIOON Enne statistikute uurimist vaadata ka hajuvusdiagrammi: Graphs Legacy Dialogs Scatter/Dot Simple Scatter Lisa joonisele ka lineaarset seost kujutav joon! Graafilise info väljendumine statistikutes: (korrelatsioon) Analyze Correlate Bivariate Options alt valida, mida teha puuduva andmestikuga. Vaikimisi peaks seal olema käsklus Exclude cases pairwise, mis tähendab, et kui terve indiviidi/andmerea sees
Alati ei pruugi lineaarse korrelatsioonikordaja suurus anda meile objektiivset informatsiooni. Järgnevas näites on seose tugevus genereeritud ühe, teistest tugevasti erineva vaatluse poolt. See on erind. Erindi kõrvalejätmine oleneb olukorrast, analüüsija peab otsustama, kas erind sobib uuritavasse kogumisse või mitte. Lineaarne korrelatsioonikordaja on kergesti mõjutatav erindite poolt. Seetõttu tuleb lisaks korrelatsioonikordaja arvutamisele analüüsida alati ka hajuvusdiagrammi. Iga erindit tuleb analüüsida ja otsustada, kas see kuulub samasse kogumisse ülejäänud vaatlustega. 72 Matemaatika ja statistika 2008/2009 Näide 11-2 Lineaarse korrelatsiooni tundlikkus erindite suhtes Kasutades Eesti Pangast saadud statistilisi andmeid hoiuste kohta erinevates regioo- 60