Joonisel 1 on graafik, mille X-teljel on käigu pikkus Li ja Y-teljel on i=1 n kõrguskasvude erinevuste summad di . Joonisele on lisatud ka regressioonisirge i=1 (Add Trendline) koos determinatsioonikordaja ruuduga (R2). Ülesanne 3: Kontrolli Tabelis 2 toodud joonemõõtmise seeria normaaljaotust graafiliselt histogrammi abil. Leia seeria hulgast erindid. Kas mõõtmisseeria on peale erindite eemaldamist täpsem. Mille põhjal otsustate? Histogrammi lasime Excelil esmalt teha nö vabalt- me ei andnud vahemikke (Bin Range) programmile ette. Tulemus on toodud joonisel 2. 3 Histogram(sagedustabel) 9 8 7 6 5 Sagedus 4 3 2 1 0
üldkogumist, leia 2-statistik, vabadusastmete arv ja P-väärtus 0,4399943 4. Kas toodud empiiriline ja teoreetiline jaotus (normaaljaotus) on sobivad või sobimatud? sobivad Olgu proovitüki andmeil leitud männi diameetri aritmeetiline keskmine 35,2 cm ja standardhälve 5,1 cm (ülesannete 5 kuni 8 algandmed) 5. Eeldades männi diameetri normaaljaotust, leida mitu protsenti diameetritest on jämedamad, kui 28 cm P(X>28)= 92,0990 6. Eeldades männi diameetrite korral normaaljaotust, x0,7= 37,9 leida jaotuse 0,7-kvantiil, leia 0,2-täiendkvantiil. x0,8= 39,5 Leia alumine kvartiil, mediaan, variatsioonikordaja 31,8 35,2 14,5 7
........ 2 ANVOA või regressioonanalüüs............................................................................... 3 Efekti suurus........................................................................................................... 3 Andmeanalüüs SPSS'is........................................................................................... 4 Kirjeldav statistika............................................................................................... 4 Kuidas testida normaaljaotust?........................................................................... 4 Sagedustabeli analüüs (Hii-ruut).........................................................................5 Ühesuunaline ANOVA........................................................................................... 5 Faktoriaalne ANOVA............................................................................................. 6 Korduvmõõtmsite ANOVA (Repeated measures ANOVA)............................
Rakendusstatistika arvestusharjutus. Osa A. N=25 1. Leida keskväärtuse, dispersiooni, standardhälbe, mediaani ja haarde hinnangud. Keskväärtus Dispersioon Standardhälve Mediaan Me=49 Haare 2. Leida keskväärtuse ja dispersiooni usaldusvahemikud (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10). Keskväärtuse usaldusvahemik: = 0,10 t0,1; 24= 1,71 Dispersiooni usaldusvahemik: = 0,10 ja 3. Kontrollida järgmisi hüpoteese (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10) 3.1 H0: = 50 alternatiiviga H1: 50 Et Hüpotees vastu võetaks, peab tkr > t; 1,71 > 0,6. Hüpotees võetakse vastu. H0: 2 = 800 alternatiiviga H2: 2 800 Et hüpotees vastu võetaks peab jääme kahe kriitilise väärtuse vahele: 13,84 < 21,2< 36,42. Hüpotees võetakse vastu. 4. Leida valimile vastav empiiriline histogramm võrdlaiade vahemikega 0-20, 20-40, 40- 60, 60-80 ja 80-100 ning kontrollida 2 -testi järgi olulisuse nivool = 0
Keskväärtus: Excel: AVERAGE x=45, 04 Dispersioon: Excel: VAR Sx²=1164,123 Standardhälve: Sx=34,1193 Mediaan: Mediaan on variatsioonirea keskmine element paarituarvulise valimi korral või kahe keskmise elemendi poolsumma paarisarvulise valimi korral. Me=38 Haare: R=97 2. Leida keskväärtuse ja dispersiooni usaldusvahemikud (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10). Keskväärtuse usaldusvahemik: = 0,10 t0,1; 24= 1,711 (Studenti tabelist) Dispersiooni usaldusvahemik: = 0,10 ja (leitud Exceli CHIINV funktsiooniga) 3. Kontrollida järgmisi hüpoteese (eeldades uldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10): 3.1 H0: = 50 alternatiiviga H1: 50 1 Et Hüpotees vastu võetaks, peab tkr > t; 1,711 > -0,7268
OSA A 1. Hindame valimi parameetreid Hindamiseks kasutame järgmised valemid: Keskväärtus: 44,12 Dispersioon: 673,44 Standardhälve: 25,95 Mediaani ja haarde leidmiseks teeme valimi liikmete ümberjärjestuse: Mediaan: 51 Haare: 92-4= 88 2. Leiame keskväärtuse ja dispersiooni usaldusvahemikud (usaldusnivoo = 0,10), eeldades üldkogumi normaaljaotust Keskväärtuse jaoks kasutame t-statistikut f = N 1 = 24 t0,95(24) = 1,7109 = 8,88 (poollaius) P(35,24 < < 53) = 0,9 Dispersiooni jaoks kasutame 2-statistikut f = N 1 = 24 20.95(24) = 36,415 20.05(24) = 13,848 P (443,9 < 2 < 1167,15) = 0,9 3. Kontrollime hüpoteese keksväärtuse ja dispersiooni kohta, eeldades üldkogumi normaaljaotust, ja kasutades usaldusnivood = 0,10 3.1 H0: = 50; H1: 50 Kontrollimiseks kasutame t-statistikut: t = 1,1329 f = N 1 = 24
Keskväärtus: Excel: AVERAGE x=46,20 Dispersioon: Excel: VAR Sx²=867,9167 Standardhälve: Sx=29,46 Mediaan: Mediaan on variatsioonirea keskmine element paarituarvulise valimi korral või kahe keskmise elemendi poolsumma paarisarvulise valimi korral. Me=46 Haare: R=99 2. Leida keskväärtuse ja dispersiooni usaldusvahemikud (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10). Keskväärtuse usaldusvahemik: = 0,10 t0,1; 24= 1,711 (Studenti tabelist) Dispersiooni usaldusvahemik: = 0,10 ja (leitud Exceli CHIINV funktsiooniga) 3. Kontrollida järgmisi hüpoteese (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10): 3.1 H0: = 50 alternatiiviga H1: 50 1 Et Hüpotees vastu võetaks, peab tkr > t; 1,711 > -0,6449
MHT0030 RAKENDUSSTATISTIKA ARVUTUSGRAAFILINE TÖÖ Andmete kood: 248199 Osa A 1. Keskväärtus Dispersioon Standardhälve Mediaan Haare 2. Eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks leian usaldus- vahemikud. Keskväärtuse usaldusvahemik on arvutatud MS Exceli TINV-funktsiooniga: Dispersiooni usaldusvahemik ja on arvutatud MS Exceli CHIINV-funktsiooniga 3. Eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks kontrollin hüpoteese 3.1 alternatiiviga Et hüpotees vastu võetaks peab seega hüpotees võetakse vastu. 3.2 alternatiiviga
Standardhälve: Excel: STDEV Mediaan: Mediaan on variatsioonirea keskmine element paarituarvulise valimi korral või kahe keskmise elemendi poolsumma paarisarvulise valimi korral. Excel: MEDIAN Haare: 2. Eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks =0,10. Keskväärtuse usaldusvahemik: ( ) = 0,10 t, N-1 on arvutatav Exceli TINV funktsiooniga: 1,711 (või leida Studenti tabelist) ( )
Sx = 28,538 Mediaan: Mediaan on variatsioonirea keskmine element paarituarvulise valimi korral või kahe keskmise elemendi poolsumma paarisarvulise valimi korral. Excel: MEDIAN Me = 41 Haare: R = 87 1 = 86 2. Leida keskväärtuse ja dispersiooni usaldusvahemikud (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10). Keskväärtuse usaldusvahemik: = 0,10 t0,1; 24= 1,711 (Studenti tabelist) Dispersiooni usaldusvahemik: = 0,10 ja on arvutatavad Excel'i CHIIVN funktsiooniga ning on vastavalt: 33,196 ja 13,848 3. Kontrollida järgmisi hüpoteese (eeldades uldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10): 3.1. H0: = 50 alternatiiviga H1: 50
Keskväärtus: Excel: AVERAGE x = 46,20 Dispersioon: Excel: VAR Sx² = 867,92 Standardhälve: Sx = 29,46 Mediaan: Mediaan on variatsioonirea keskmine element paarituarvulise valimi korral või kahe keskmise elemendi poolsumma paarisarvulise valimi korral. Me = 46 Haare: R= 99 - 0 = 99 2. Leida keskväärtuse ja dispersiooni usaldusvahemikud (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10). Keskväärtuse usaldusvahemik: = 0,10 Dispersiooni usaldusvahemik: = 0,10 ja (leidsin need Exceli CHIINV funktsiooni abil) 3. Kontrollida järgmisi hüpoteese (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10): 3.1 H0: = 50 alternatiiviga H1: 50 1 Et Hüpotees vastu võetaks, peab tkr > t; 1,711 > -0,645. Hüpotees võetakse vastu. 3
1. Valimi parameetrite hindamine. Kasutan järgmisi valemeid: Keskväärtus: 44,28 Dispersioon: 772,46 Standardhälve: 27,79 Mediaani ja haarde leidmiseks teeme valimi liikmete ümberjärjestust: 1; 2; 5; 14; 18; 19; 25; 27; 31; 33; 37; 39; 39; 45; 46; 50; 56; 63; 65; 71; 74; 77; 83; 89; 98 Mediaan: 39 Haare: 98 1 = 97 2. Leian keskväärtuse ja dispersiooni usaldusvahemikud (usaldusnivoo = 0.10), eeldades üldkogumi normaaljaotust Keskväärtuse jaoks kasutame t-statistikut f = N 1 = 24 t0.95(24) = 1.711 = 9.51 Keskväärtuse usaldusvahemik arvutatakse valemiga: P(34,77 < < 53,79) = 90% Dispersiooni usaldusvahemiku leidmiseks kasutatakse 2-statistikut f = N 1 = 24 P (509,10 < 2 < 1338,75) = 90% 3. Kontrollime hüpoteese keskväärtuse ja dispersiooni kohta, eeldades üldkogumi normaaljaotust, ja kasutades usaldusnivood = 0.10 3.1 H0: = 50; H1: 50 Kontrollimiseks kasutame t-statistikut:
kummutamise teel, kasutades teststatistikut. Hüpoteesi kontrolli eeskirja (meetodit) nimetatakse testiks e. kriteeriumiks, hüpoteesi paikapidavuse kontrollimist testimiseks. Iga testi aluseks on teatud valem, millega arvutatud suurust nim. teststatistikuks e. statistikuks. Statistilise hüpoteesi kontrollimine Eeldatakse, et uuritava kogumi andmed jaotuvad sarnaselt testi aluseks olevale teoreetilisele jaotusele Eeldatava teoreetilise jaotusena kasutatakse sageli normaaljaotust või sellega sarnaseid jaotusi. Juhul kui leitud teststatistiku väärtus on ebatõenäoline, võrreldes tema teoreetilise jaotusega, loetakse nullhüpotees kummutatuks ja sisukas hüpotees tõestatuks. Kui sisukat hüpoteesi tõestada ei õnnestu, jäädakse nullhüpoteesi juurde, mis võib tähendada, et 1) olukord vastas nullhüpoteesile või 2) valimi maht oli liiga väike sisuka hüpoteesi tõestamiseks. Vead hüpoteeside kontrollimisel
X~t(10) 0,2 0,1 t 0 -4 -3 -2 -1 0 1 2 3 4 Kui vabadusastmete arv k on vähemalt 30, võib usalduspiiride määramisel Studenti jaotuse asemel kasutada normeeritud normaaljaotust. Studenti jaotus on oluline väikesearvuliste valimite korral. Väikeste valimitega tegelevat statistikaharu nimetatakse mikrostatistikaks. Normaaljaotuse keskväärtuse usalduspiirkond. Usalduspiirkonna leidmine: P (| X - m |< ) = n n P (| X - m | < )= s s n
Sx²=1072,74 Standardhälve: Excel: STDEV Sx=32,75 Mediaan: Mediaan on variatsioonirea keskmine element paarituarvulise valimi korral või kahe keskmise elemendi poolsumma paarisarvulise valimi korral. Excel: MEDIAN Me=74 Haare: =96-0=96 R=96 2. Leida keskväärtuse ja dispersiooni usaldusvahemikud (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10). Keskväärtuse usaldusvahemik: = 0,10 t0,1; 24= 1,711 (Studenti tabelist) (Arvutatud excelis väärtuste ümardusi rakendamata) Usaldusvahemiku poollaius: 11,2 Dispersiooni usaldusvahemik: = 0,10 ja (leitud Exceli CHIINV funktsiooniga) 3. Kontrollida järgmisi hüpoteese (eeldades üldkogumi normaaljaotust ning võttes olulisuse
palju. Ka piirkonda (-a; ) ja ( ;+a) kuulumise tõenäosused on võrdsed. standardiseeritud normaaljaotus tabelis on ainult üks (stanardiseeritud) normaaljaotus, siis tabeli kasutamiseks peame ,,oma" normaaljaotuse standardiseerima st teisendama F0 = keskväärtus =0 ja standardhälve =1 kolme sigma reegel. 13. Binoomjaotuse lähendamine normaaljaotusega kui normaaljaotust tahetakse rakendada diskreetse JS puhul ja katsete arv n>50, siis lähendame binoomjaotust normaaljaotusega: 14. Studenti jaotus - Student'i jaotus tekib, kui normaaljaotusega JS üldkogumist teha väike valim ja arvutada selle põhjal JS keskmist (see ei võrdu üldkogumi keskväärtusega). Statistikas kasutatakse Student'i jaotuse jaotusfunktsiooni mitmesuguste vigade hindamisel. Võrreldes normaaljaotusega on siin 2 parameetrit.
37 54 94 32 19 33 69 51 89 43 18 88 9 30 62 41 81 54 49 54 15 94 85 43 87 1.Leida keskvaartuse, dispersiooni, standardhalbe, mediaani ja haarde hinnangud. Keskväärtus: Dispersioon: Standardhälve:26,56 Mediaan: Me = 51 Haare: 2. Leida keskvaartuse ja dispersiooni usaldusvahemikud (eeldades uldkogumi normaaljaotust ning vottes olulisuse nivooks a = 0.10). 1.Keskväärtuse usaldusvahemik: = 0,10 t0,1; 24= 1,711 (Studenti tabelist) P( 53,24 1,711< P
Standardhälve = 2 = 814,4 = 28,54 Mediaan Me = 41 Variatsioonirea keskmine arv (juhul kui on tegemist paarituarvutlise valimiga) või kahe keskmise elemendi poolsumma (kui on tegemist paarisarvulise valimiga) (Lisaks saadav kasutades Exceli funktsiooni MEDIAN) Haare Valimi suurima ning väikseima elemendi vahe R = x max - x min R= 97 - 0 = 97 2. Jaotuse analüüs Võtan olulisuse nivooks = 0,10 ning eeldan normaaljaotust. Keskväärtuse usaldusvahemik 1) Keskväärtuse ja standardhälbe hinnangud: 1 N 1 N µ^ = xi = xi = 44,8 N i =1 25 i =1 1 N 1 N ^ 2 = s 2 = i N - 1 i =1 ( x - µ ^ ) 2 = ( xi - 44,8) 2 = 814,4 24 i =1 s= s 2 = 814,4 = 28,54
sagedusintervallidega (Joonis 4). Sagedusintervallid kujunevad jällegi valimi väikseimale liikmele intervalli väärtust juurde liites. Tarvilike intervallide arv antud ülesandes on 4, haare 3,3 ja nende põhjal arvutatud intervalli väärtus on 0,825. Joonistelt näeme, et selle valimi puhul on tegemist normaaljaotusega, sest enamus tulemusi asetseb leitud keskmise lähedal ning graafiku kuju vastab normaaljaotust iseloomustavale. Mõõtmistulemuste vead on juhuslikku laadi (aritmeetiline keskmine 0 või selle lähedane), sest vigade aritmeetiline keskmine on 0,7 (nulli lähedane). 4 Histogram 10 8 6 Sagedus 4 2 0 -1.2 -0.1 1 More Kõrguskasvud Joonis 3
Standardhälve: s x = 31,12 Mediaan: Mediaan on variatsioonirea keskmine element paarituarvulise valimi korral või kahe keskmise elemendi poolsumma paarisarvulise valimi korral. Me = 62 Haare: R = 91 – 1 = 96 2. Leida keskväärtuse ja dispersiooni usaldusvahemikud (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks α = 0.10). Keskväärtuse usaldusvahemik: α = 0,10 t0,1; 24 = 1,7109 (Studenti tabelist) Dispersiooni usaldusvahemik: α = 0,10 ja on vastavalt: 13,8484 ja 36,4150 3. Kontrollida järgmisi hüpoteese (eeldades uldkogumi normaaljaotust ning võttes olulisuse nivooks α = 0.10): 3.1. H0 : μ = 50 alternatiiviga H1 : μ 50
9989555 tabelist ^2 crit 14.1 Intervallida arv 10 järeldus: Võib eeldada normaaljaotuse mitteesinemisest põhikogumis · Hinnata nominaaljaotuse võimalus mõõtmisele B mõõtmistulemuste alusel. Empiiriline 2EMP= Kriitiline 2CRIT on saadav 2 tabelist. Tabelist kriitiline 2CRIT [=0,05, (10 3 = 7) = 14,1 (ühepoolne)] 2CRIT 2EMP Võib eeldada normaaljaotust põhikogumis · Leida dispersioonianalüüsi alusel süstemaatilise komponendi mõju mõõtme B mõõtepunktide vahel. Tuleb teha järeldus: Võib eeldada süstemaatilise effekti puudumist mõõtepunktide vahel, kui FEMP< FCRIT Faktorite arv p, antud töös on faktoreid 10 Korduste arv faktori sees q, antud töös on korduseid faktoris 10. Arvutusvalemid: SGEN= SFACT= SRES= SGEN- SFACT s2RES= SRES/p(q-1) Vabadusaste k2=(p*(q-1))=9
2. Keskväärtuse usaldusvahemik eeldusel, et põhikogumi jaotus on normaaljaotus ja olulisuse nivoo = 0,10: t, N-1 on arvutatav Exceli TINV funktsiooniga: 1,711 Dispersiooni usaldusvahemik eeldusel, et põhikogumi jaotus on normaaljaotus ja olulisuse nivoo = 0,10 ning põhikogumit moodustavate mõõdiste arv n = 25: ja on arvutatav Exceli CHIINV funktsiooniga, ning on vastavalt: 36,415 ja 13,843 3. Kontrollida järgmisi hüpoteese (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0,10) 3.1 H0: = 50 alternatiiviga H1: 50 Et Hüpotees vastu võetaks, peab tkr > t; 1,71 > -0,645. Seega hüpotees H0 võetakse vastu. 3.2 H0: 2 = 800 alternatiiviga H2: 2 800 Et hüpotees H0 vastu võetaks peab jääme kahe kriitilise väärtuse vahele: 13,84 < 26,04 < 36,42. Hüpotees võetakse vastu. 4. Leida valimile vastav empiiriline histogramm võrdlaiade vahemikega 0-20, 20-40, 40-
Mida esinduslikum on valim, seda paremini iseloomustavad valimi tulemused üldkogumit, valimi esinduslikkuse tagamiseks oli vajalik objektide juhuslikkus (sobiv valikumeetod) ja valimi suurus. Punkthinnangud on erinevate valimite põhjal erinevad, seepärast on kasutusel vahemikhinnang üldkogumi keskmise usaldusvahemik ja statistilised hüpoteesid mingid piiravad väited üldkogumi keskmisele või osakaalule. Järgnevas punktis tutvustame üht levinumat ja lihtsamat jaotust - normaaljaotust, millel põhineb suur osa statistika meetodeid. 4.1. Normaaljaotus Kõige tuntuim pidev jaotus on normaaljaotus, mis lihtsustatult tähendab, et tunnuse enamus väärtusi on normaalsed ehk sarnased keskmisele. Normaaljaotust iseloomustab 2 parameetrit, keskväärtus ja standardhälve ja tähistame normaaljaotust X ~ N ( µ, ) . Normaaljaotus on pidev ja keskväärtuse suhtes sümmeetriline, seega mediaan ja keskväärtus on võrdsed. Toodud omadused
8 25,127 25,139 9 7,708 5,0 3,09 9 25,140 25,152 2 4,671 3,1 0,37 10 25,153 25,166 2 2,313 1,5 0,16 Summa 50 48,1 15,9 Samm h: 0,13 5. Normaaljaotuse võimalus mõõtmele B χ2EMP: 15,9 χ2KRIT: 9,5 (α=0,05; n=50) Kuna χ2EMP >χ2KRIT , siis ei saa eeldada normaaljaotust põhikogumis 6. Dispersioonanalüüsi alusel süstemaatilise komponendi möju mõõtme B mõõtepunktide vahel. Faktori Kordus d, p=5 ed F1 F2 F3 F4 F5 yi1 yi12 yi2 yi2 2 yi3 yi32 yi4 yi42 yi5 yi52 1 25,092 629,608 25,077 628,856 25,118 630,914 25,133 631,668 25,129 631,467
6,0 Samm h: 0,013 5,0 ni 4,0 ni' 3,0 2,0 1,0 0,0 1 2 3 4 5 6 7 8 9 10 Ei saa eeldada normaaljaotust põhikogumis, kuna 2EMP >2KRIT 6. Normaaljaotuse võimalus mõõtmele B 2EMP 15,9 2KRIT 9,5 (=0,05; n=50) 7. Faktorid, p=5 Kordused F1 F2 F3 F4 Kordused yi1 yi12 yi2 yi22 yi3 yi32 yi4 yi42
olulisuse nivoo = 0,10: t, N-1 arvutasin Exceli TINV funktsiooniga ( on ka leitav Studenti tabelist): 1,711 Leian dispersiooni usaldusvahemiku eeldusel, et põhikogumi jaotus on normaaljaotus ja olulisuse nivoo = 0,10 ning põhikogumit moodustavate mõõdiste arv n = 25: ja arvutasin Exceli CHIINV funktsiooniga, vastavalt: 36,415 ja 13,848 3. Kontrollin järgmisi hüpoteese (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0,10) 3.1 H0: = 50 alternatiiviga H1: 50 Hüpoteesi vastu võtmiseks peab tkr > t; 1,711 > -0,645, seega võtan nullhüpoteesi vastu. 3.2 H0: 2 = 800 alternatiiviga H2: 2 800 Xxxxx xxxxx xxxx
Homoseksuaalide õiguste hinnangu keskmine eri vanusgruppides keskmine eri hariduastmetel Keskmiste astakute võrdlus Kuigi sõltuvate jaotuste tunnused olid lähedased normaaljaotusele, ei klappinud need täielikult. Näiteks Kolmogorovi-Smirnovi testi alusel ei tohiks neid kumbagi 7 normaaljaotuseks lugeda. Seega uurisin mõjusid ka normaaljaotust mitte-eeldava Kruskali- Wallise testi alusel. Kruskali-Wallise testi alusel on immigrantide hinnangud erinevad olulisuse tõenäosusega alla 0,05 vanusgruppide lõikes (teststatistik 115 vabadusastmete 6 korral). Sugu on Kruskali- Wallise testi alusel eristav faktor olulisuse tõenäosusega 0,09 (teststatistik 3 vabadusastme 1 korral) ja haridustase olulisuse tõenäosusega 0,08 (teststatistik 8 vabadusastmete 4 korral). On
7 25,102 25,113 4 12,423 7,8 1,87 8 25,114 25,126 8 10,683 6,7 0,24 9 25,127 25,138 12 7,837 4,9 10,10 10 25,139 25,152 3 4,798 3,0 0,00 50 46,7 15,4 Samm h: 0,013 6. Normaaljaotuse võimalus mõõtmele B χ2EMP 15,4 2 χ KRIT 9,5 (α=0,05; n=50) Ei saa eeldada normaaljaotust põhikogumis, kuna χ2EMP >χ2KRIT 7. Faktori Kordus d, p=5 ed F1 F2 F3 F4 F5 yi1 yi12 yi2 yi22 yi3 yi32 yi4 yi42 yi5 25,10 1 25,077 628,856 25,049 627,452 25,133 631,668 25,133 631,668 63
x i−´x ) = 25−1 =772,46 Standarhälve s x =√ s x 2 = √ 772,46 = 27,79 Mediaan Mediaan on variatsioonirea keskmine element paarituarvulise valimi korral või kahe keskmise elemendi poolsumma paarisarvulise valimi korral. Me = 39 Haare Haare on suurima ja vähima elemendi vahe R = xmax – xmin R = 98-1 = 97 2. Keskväärtuse ja dispersiooni usaldusvahemik (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks α = 0.10). Keskväärtuse usaldusvahemik: sx sx ( P ´x −t 1−α / 2,N −1 ∙ √N < μ < ´x + t 1−α /2, N−1 ∙ √N ) =1−α α = 0,10
µ^ = x = xi = 46, 2 N i =1 Excel: AVERAGE 1.2 dispersiooni 1 N ^ 2 = s 2 = ( xi - x )2 = 867,9 N - 1 i =1 Excel: VAR 1.3 standardhälbe sx = sx2 = 29, 46 Excel: STDEV 1.4 mediaani Me = 46 Excel: MEDIAN 1.5 haarde R = xmax - xmin = 99 - 0 = 99 2. Eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0,10, leian 2.1 keskväärtuse usaldusvahemikud P ( x - µ < µ < x + µ ) = p s 29, 46 µ = t1- ( f ) = 1, 7109 = 10, 29 2 N 24 Student'i teguri leidsin tabelist. P (46, 2 - 10, 29 < µ < 46, 2 + 10, 29) = 1 - 0,10 P (35,91 < µ < 56, 49) = 0,90 2
10,3 11,2 12 0,840 11,9 12,1 13 9 0,945 6,6 13,9 14,8 4 1,000 3,5 10 9.Normaaljaotuse graafik Joonistasin graafiku (tulpdiagrammi), mis illustreerib, kui hästi on diameeter lähendatav normaaljaotusega (Joonis 3). Joonis 3. Diameetri jaotuse võrdlemine normaaljaotusega. 10. Normaaljaotuse ülesanded Eeldame diameetri normaaljaotust. Normaaljaotuse parameetriteks µ ja on rühmitatud andmetest arvutatud aritmeetiline keskmine ja standardhälve (Kiviste A 2007). Normaaljaotuse eeldusel on vastused antud tabelis 8. Tabel 8. Arvutused normaaljaotuse eeldusel leida, mitu protsenti diameetritest on väiksemad kui 9 cm, 60% leida, mitu protsenti diameetritest on suuremad kui 11 cm, 17,7% leida diameetri mediaan, 8,2 cm
N 1 Keskväärtus: ´x = N ∑ xi = 45,8 i=1 Dispersioon: N 1 s= 2 ∑ N−1 i=1 ( xi −´x ) 2 = 1073,2 Standardhälve: s= √ s2 = 32,8 Mediaan: Me = 44 (järjestatud arvurea keskmine arv) Haare: R=x max −x min =97 2. Leida keskväärtuse ja dispersiooni usaldusvahemikud (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks α = 0.10). Keskväärtuse usaldusvahemik P( ´x −∆ μ< μ< x´ + ∆ μ ) = P s t 0,95 ( 24 )❑=1,711 ∆ μ= ∙ t 0,95 ( 24 )=¿ √N 11,5 P= (45,8 – 11,5 ¿ μ<¿ 45,8 + 11,5) = P( 34,3 ¿ μ<57,3 ¿=0,9 Dispersiooni usaldusvahemik
Keskväärtus: Excel: AVERAGE x=53,24 Dispersioon: Excel: VAR Sx²=705,69 Standardhälve: Sx=26,56 Mediaan: Mediaan on variatsioonirea keskmine element paarituarvulise valimi korral või kahe keskmise elemendi poolsumma paarisarvulise valimi korral. Me=51 Haare: R=94-9=85 2. Leida keskväärtuse ja dispersiooni usaldusvahemikud (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0.10). Keskväärtuse usaldusvahemik: = 0,10 t0,1; 24= 1,711 (Studenti tabelist) Dispersiooni usaldusvahemik: = 0,10 ja (leitud Exceli CHIINV funktsiooniga) 3. Kontrollida järgmisi hüpoteese (olulisuse nivoo = 0.10): 3.1 H0: = 50 alternatiiviga H1: 50 1 Et Hüpotees vastu võetaks, peab tkr > t; 1,711 > 0,61. Hüpotees võetakse vastu. 3.2 H0: 2 = 800 alternatiiviga H2: 2 800
0,1. Seega usaldustõenäosus p = 1 = 1 0,1 = 0,9 ehk 90% k = n-1 = 24 näitab vabaduse astmeid. Dispersiooni usaldusvahemikud: leian - jaotuse täiendkvantiilid. Seda teen kasutades Exceli funktsiooni: Dispersiooni 90%-line usalduspiirkond on (679 ; 1791) Keskväärtuse usaldusvahemik: Keskväärtuse 90%-line usalduspiirkond on (47,38 ; 69,34) 3.Kontrollida järgmisi hüpoteese: (Eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0,1) alternatiiviga Studenti funtktsioon: t(0,1;24) = 1,711 Hüpotees vastab tõele, kuna ja 1,3 < 1,711 Võtan vastu H0 hüpoteesi. alternatiiviga 2 statistiku vasak kriitiline piir: 2 statistiku parem kriitiline piir: Kuna , siis on tingimus täidetud ning hüpotees kehtib. Võtan vastu H0 hüpoteesi. 4.Valimile vastav empiiriline histogramm võrdlaiade vahemikega Vahemi km ni Pi 0-20 4,00 0,16
Intervall ^2 crit 14.1 Intervallida arv 10 Järeldus: Võib eeldada normaaljaotuse mitteesinemisest põhikogumis. · Hinnata nominaaljaotuse võimalus mõõtmisele B mõõtmistulemuste aluse Kriitiline 2CRIT on saadav 2 tabelist. =14.1 Tabelist kriitiline 2CRIT [=0,05, (10 3 = 7) = 14,1 (ühepoolne)] 2CRIT 2EMP Võib eeldada normaaljaotust põhikogumis · Leida dispersioonianalüüsi alusel süstemaatilise komponendi mõju mõõt me B mõõtepunktide vahel. Tuleb teha järeldus: Võib eeldada süstemaatilise effekti puudumist mõõtepunktide vahel, kui FEMP< FCRIT Faktorite arv p, antud töös on faktoreid 10 Korduste arv faktori sees q, antud töös on korduseid faktoris 10. Arvutusvalemid ja tulemused: Vabadusaste k2 = (p*(q-1)) = 90 Vabadusaste k1 = (p-1) = 9
Seega usaldustõenäosus p = 1 = 1 0,1 = 0,9 ehk 90% k = n-1 = 24 näitab vabaduse astmeid. Dispersiooni usaldusvahemikud: leian - jaotuse täiendkvantiilid. Seda teen kasutades Exceli funktsiooni: Dispersiooni 90%-line usalduspiirkond on (536,45 ; 1410,64) Keskväärtuse usaldusvahemik: Keskväärtuse 90%-line usalduspiirkond on (35,08 ; 54,60) 3. Küsimus Kontrollida järgmisi hüpoteese: Eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0,1 alternatiiviga 4 Studenti funtktsioon: t(0,1;24) = 1,711 Hüpotees vastab tõele, kuna ja 0,90 < 1,711 Võtan vastu H0 hüpoteesi. alternatiiviga 2 statistiku vasak kriitiline piir: 2 statistiku parem kriitiline piir: , siis on tingimus täidetud ning hüpotees kehtib. Võtan vastu H0 hüpoteesi. a.i. 4. Küsimus Leida valimile vastav empiiriline histogramm võrdlaiade vahemikega 0-20, 20-40, 40-60, 60-80 ja 80-100
0,523 - ( 2,78 0,022) = 0,462 a - t kr^ y < a^ < a + t kr^ y 0,523 + ( 2,78 0,022) = 0,584 - 0,92 - ( 2,78 0,41) = -2,06 0,462 < b^ < 0,584 - 0,92 + ( 2,78 0,41) = 0,22 - 2,06 < a^ < 0,22 10.3 Mudelite liikmete olulisus. Paarregressiooni jaoks kontrollitakse tavaliselt ainult b olulisust. Eeldatakse, et hälve regressioonist järgib normaaljaotust. Nullhüpotees H0: b=0 H1:b0 b 0,523 t EMP (b) = ^ x 2 i = 2,875 6164,8 =24,2 t EMP (b) = 24,8 t kr (0,05;3) = 2,78 tEMP>tkr kehtib H1: b0 (b on oluline) 10.4 Mudeli adekvaatsus s R2 d =1 - s2 s R2 = ( yi - y^ i ) 2 = ei2 = 11,5 s 2 = ( y - y ) 2 = yi2 = 1700,8 11,5 d =1 - = 0,99
sõltumatud, 4) arvutab erinevate, ka reaalse välistavad ja eluga seotud sündmuste mittevälistavad. tõenäosusi; Tõenäosuste 5) selgitab juhusliku suuruse liitmine ja jaotuse olemust ning juhusliku korrutamine. suuruse arvkarakteristikute Bernoulli valem. (keskväärtus, mood, mediaan, Diskreetne ja pidev standardhälve) tähendust, juhuslik suurus, kirjeldab binoom- ja binoomjaotus, normaaljaotust; kasutab Bernoulli jaotuspolügoon valemit tõenäosust arvutades; ning 6) selgitab valimi ja üldkogumi arvkarakteristikud mõistet, andmete (keskväärtus, süstematiseerimise ja statistilise mood, mediaan, otsustuse usaldatavuse dispersioon, tähendust; standardhälve). 7) arvutab juhusliku suuruse Rakendusülesande jaotuse arvkarakteristikuid ning d. teeb nende alusel järeldusi Üldkogum ja valim
P ( ( 60-182,12 ) 768,372 < < ( 60-1 ) 768,372 39,62 2 )=1-0,05 P ( 581,76< 2 <1144,218 )=0,95 Standradhälbe << usaldusvahemik: 23,496 33,808 3. Kontrollin järgmisi hüpoteese (eeldades üldkogumi normaaljaotust ning võtsin olulisuse nivooks = 0,05) 3.1 H0: = 50 alternatiiviga H1: 50 x´ - t= N s 48,63-50 t= 60=-0,3819 27,720 t kr=2 (tabelist) Hüpoteesi vastu võtmiseks peab tkr > t; 2 > -0,3819, seega võtan nullhüpoteesi vastu. 3.2 H0: 2 = 800 alternatiiviga H2: 2 800 s 2 ( N -1 ) 2= 2 2 768,372 ( 60-1 ) = =56,667
Näidis raporteering: Meeste (n = 111, mastak = 139.66) ja naiste (n = 119, mastak = 92.96) keskmised astakud erinesid statistiliselt oluliselt määral, (Mann-Whitney) U = 9286.50, p = 0.00. Kahe sõltuva rühma keskmiste omavaheline võrdlemine: Olukorras kus on samu indiviide mõõdetud kaks korda on vaja kasutada paarikaupa võrdlemise t-testi. Analyze -> Compare means -> Paired Samples T test - lisad mõlemad mille keskmist tahad võrrelda ja ok Kuidas testida normaaljaotust? Selleks järgige järgmist käskluste rida: Analyze-> Descriptive Statistics-> Explore-> (ärge unustage valida sõltuvateks muutujateks ruumiline mõtlemine ja sõnavara ning sõltumatuks muutujaks sugu) Plots-> Normality Plots with tests Võite ära märkida, et tahate joonist histogrammi kujul. Kui olete need sammud ära teinud, peaks teile ilmuma tabel. Selleks, et vastata küsimusele kas on tegemist normaaljaotusega või mitte peame esmalt välja nuputama, millist testi vaatame
04 0.056667 0.063333 0.046667 0.063333 0.05 0.033333 0.05 0.006667 0.01 0.01 0.003333 0.013333 0.013333 0.01 0.006667 0.01 0.026667 0.01 0.026667 0.033333 0.016667 0.033333 0.01 0.006667 0.01 0.026667 0.01 0.026667 0.013333 0.003333 0.013333 0.01 0.006667 0.01 Dn: 0.113333 χ^2 test: χ^2kr (0,05; 7) = 14.07 χ^2emp = Σ(ni-ni')^2/n'i = 58.75 χ2emp > χ2kr 58.75 > 14.07 Põhikogumis ei esine normaaljaotust. Osa B. Dispersioonanalüüs 9. Jagada korrastamata algandmete valim viieks võrdse mahuga osaks võttes gruppideks valimi arvud järjekorranumbriga 1.-12; 13.-24; 25.-36; 37.-48 ja 49.-60. Kontrollida nii moodustatud gruppide keskväärtuste homogeensushüpoteesi H0: µ1=µ2=µ3=µ4=µ5 kasutades dispersioonanalüüsi metoodikat (ANOVA-test) ja võttes olulisuse nivooks =0,05 Faktor
ga. Kui uuritakse kahe faktori mõju, siis kahefaktorilise DA-ga. Kui uuritakse kolme ja enama faktori mõju, siis mitmefaktorilise DA-ga. T-test kui valimeid on 1-2. Eelduseks, et uuritav tunnus on arvuline ja normaaljaotusega. H0 kooliskäidud aastate arv on normaaljaotusega (sisukas hüpotees) H1 kooliskäidud aastate arv ei ole normaaljaotusega (alternatiivne hüpotees) Kui sig >=0.05 siis on H1, muidu H0. Suurte valimite puhul normaaljaotust ei pea kontrollima. Dispersioonanalüüs kui valimeid 3+ Kasutades kirjeldavat statistikat, uurige, milline on indiviidide keskmine abiellumisiga (tunnus agewed) ning seejärel testige hüpoteesi, kas mehed ja naised abielluvad esimest korda keskmiselt sama vanalt. Millist testi kasutate ja millised eeldused peavad olema selleks täidetud? Milline on varieeruvus soo lõikes? Esitage saadud tulemustest sisuline kokkuvõte.
2 on arvutatav Exceli CHIINV funktsiooniga, ning on vastavalt: 36,415 ja 13,843 P ( ( 25−136,42 ) ∙705,69 <σ < ( 25−1 ) ∙ 705,69 2 13,85 )=1−0,10 P ( 465,10<σ 2<1223 )=0 , 90 3. Kontrollida järgmisi hüpoteese (eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks α = 0,10) 3.1 H0: μ = 50 alternatiiviga H1: μ 50 x´ −μ t= √N s 53,24−50 t= √25=0,61 26,56 t kr=1,71 Et Hüpotees vastu võetaks, peab tkr > t; 1,71 > -0,641. Seega hüpotees H0 võetakse vastu. 3
Taham, et tõenäosus, et me mitte üheski võrdluses I liiki viga ei tee, oleks samuti 5%. Seega peame iga üksiku testi korral kas väiksemat olulisuse nivood soovitavalt a/testide arv, kus a on soovitav lõplik olulisuse nivoo (tav a=0,05) · Kruskal-Wallis test ei eelsa normaaljaotust ega võrdset gruppidesisest hajuvust! Põhineb astakutel ning võrdleb, kas astkute keskmised gruppides erinevad oluliselt üksteisest.
k ∙ σ^ 2 24 ∙ 814,056 σ 2ülemine = = =1410,84 13,848 χ ( 2 ( 1+ p ) 2 ; n−1) Dispersiooni 90%-line usalduspiirkond on (536,52 ; 1410,84) 2 P(536,52< σ^ <1410,84) 3. Kontrollida järgmisi hüpoteese: (Eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks α = 0,1) 3.1 H 0 : μ=50 alternatiiviga H 1 : μ ≠ 50 t statistik = |√N ´ s || 25 28,53 | ( x −μ0 ) = √ ( 44,84−50 ) =|−0,9043|≈|−0,90| Studenti funtktsioon: t(0,1;24) = 1,7109 Hüpotees vastab tõele, kuna |t|>t 1−∝ /2 (f ) ja |−0,90| < 1,7109 H0 hüpotees vastu võetud.
Eeldused testi läbiviimiseks: 1. uuritav tunnus on arvuline 2. uuritav tunnus on normaaljaotusega (seda on võimalik testida) Eelduste kontrollimine: Tunnusetüüpi vaatleb uurija ise, normaaljaotuse olemasolu saab analüüsida testidega nagu Kolmogorov-Smirnovi või Shapiro-Wilki. Sageli võivad need testid näidata, et normaaljaotus puudub(kui sig on alla 0,05), kuid tsentraalse piirteoreemi kohaselt on suurte valimite korral alati tegu normaaljaotusega. Normaaljaotust saab hinnata ka visuaalselt- histogrammi, karpdiagrammi, tõenäosuspaberi jne abil. Meil on valim, mille abil tahame uurida keskväärtust üldkogumis. Testime hüpoteeside paari. H0 µ = µ0 üldkogumi keskväärtus vastab mingile standardile H1 µ µ0 üldkogumi keskväärtus ei vasta sellele standardile Kui eeldused on kontrollitud ja testitavad hüpoteesid on paigas, võime asuda t-testi läbiviimise juurde. Selleks tuleb meil välja arvutada t-statistiku väärtus(valemiga).
koosmõjuga, kusjuures kõigi nende tegurite mõjud on samas suurusjärgus. Näiteks kultuuride
saagikus, inimese pikkus jpm. Nii on rakendusi normaaljaotusele palju.
Kolme sigma reegel: Normaalse (normaal-)jaotuse jaotuskõvera alusest pindalast jääb
vahemikku keskväärtus pluss-miinus standardhälve, 68,3%; keskväärtus pluss-miinus
kahekordne standardhälve, jääb 95,4%; keskväärtus pluss-miinus kolmekordne
standardhälve, jääb 99,7%.
Lisaks sellele saab normaaljaotust kasutada Bernoulli jaotuse asemel, kui n ja m suured.
Kui n aga p 0 saab binoomjaotust lähendada normaaljaotusega
1
Pn, k ( x)
npq
a - np b - np
P(a
( ) ( < )= ( < ) ( < )= ( ) ( ) => => { ( < ) ( < ) => ( ) Normaaljaotus ja Laplace’i veafunktsioon. Tõenäosuse leidmine selle veafunktsiooni abil Olgu X ~ N(μ,σ). Siis standardiseeritud juhuslik suurus = (0,1). Lineaarteisendus ei riku normaaljaotust. ( )= + ( ) Laplace’i vaefunktsioon: ( )= ∫ √ Tõenäosuse leidmine veafunktsiooni abil: ( )= ( )= ( )– F( )= + ( ) ( + ( )) = ( ) ( ) 23. Koondumine jaotuse järgi. Tsentraalse piirteoreemi eeldused. Selle teoreemi väide Koondumine jaotuse järgi
sarnanev kuju. 19. Binoomjaotuse lähendamine normaaljaotusega, Laplace´i piirteoreemid selle kohta. Poissioni piirteoreemi kohaselt, kus juhuslik suurus X on binoomjaotusega B(n,p), siis katsete arvu piiramatul suurendamisel on binoomjaotus lähendatav Poissoni jaotusega P(λ), kus λ=n*p. Osutub, et kui sündmuse esinemise ja mitteesinemise kordade arvu tõenäosused on ligikaudu võrdsed, võib binoomjaotuse ligikaudseks arvutamiseks kasutada normaaljaotust. Nimelt kehtivad Laplace'i lokaalne ja integraalne piirteoreem. Sellisel juhul on normaaljaotuse keskväärtus ja standardhälve määratud binoomjaotusega N(np, √ npq ) Laplace'i lokaalne piirteoreem: Tõenäosus, et n sõltumatu katse tulemusena, milles igaühes toimub sündmus tõenäosusega p, toimub sündmus täpselt k korda on piisavalt suure katsete arvu korral ligikaudu võrdne: 2 −x
hulk jääb <5% kogu andmestikust. o Standardized Residuals Histogram – jälgida, et andmed oleksid koondunud nulli ümber ja mõlemale poole nulli langeb enam-vähem võrdselt jääke. Ühtlasi: residual: statistics min, max ja mean selle hindamiseks. o Q-Q Plot Standardized Residuals - niinimetatud tõenäosuspaber ehk kvantiil- kvantiil diagramm (ingl. k. Q-Q plot). Sirge joon esindab normaaljaotust ja punktid jääke. Täiusliku normaaljaotuse korral oleksid kõik punktid joone peal. Kõrvalekalded joonest on tavalised otstes, kuid keskel ei tohiks neid esineda. o Cook’s distance > 1 tähistab oluliselt erinevaid andmeid, mis tõmbavad ülejäänud mudelit enda poole. Andmete tõlgendamine Model Summary tabel, kus ennekõike tähtis kohandatud R2, mis näitab, kui suure osa