H x x HV x x HKO x x Rikke kood x x Kahjustusast x x e 2 3. Rühmitamine A) Vaatluste arv N: 175. B) miinimum: 4 cm. C) maksimum: 19,7 cm. D) haare: 15,7 cm. E) klasside arv: 8. F) rühma samm: 2. G) Pool sammu 1. 4. Jaotushistogramm, jaotusfunktsioon X-teljel klassi keskmised x-teljel klassi ülemised väärtused 5. Kvantiilid Leian diameetri kvantiilid tõenäosuste 0,1; 0,9; 0,75; 0,25 ja 0,5 jaoks. 3 Rühmitamata andmed: 0,1-kvantiil: 6,27 cm; 0,9-kvantiil: 14.48 cm; 0,75-kvantiil: 12.40 cm; 0,25-kvantiil: 7,63 cm; 0,5-kvantiil: 9,85 cm. Rühmitatud andmed: 0,1-kvantiil: 6,3; 0,9-kvantiil: 15 cm; 0,75-kvantiil: 12,5 cm; 0,25-kvantiil: 7,8; 0,5-kvantiil: 10cm. 6. Täiendkvantiil Täiendkvantiiliks nimetatakse juhusliku suuruse q-täiendkvantiili suuruse sellist väärtust xq,
Juhendmaterjalidena on kasutatud K.Kiviste kodulehte (Kiviste K., 2009) ja A. Kiviste raamatut (Kiviste A., 2007). Töö eesmärgiks oli antud proovitüki andmete rühmitamine ja analüüs kasutades selleks MS Exceli keskkonda ning statistilise analüüsi metoodikat ning valemeid. Töös on esitatud proovitüki üldiseloomustus, tunnuste liigid, koostatud risttabel, rühmitatud andmed enamuspuuliigi keskmise diameetri järgi, esitatud jaotushistogramm ning jaotusfunktsiooni graafik, leitud kvantiilid ja kvartiilid ning esitatud põhilised karakteristikud. 3 1. Proovitüki üldiseloomustus Proovitüki 710 kvartaliks on RO203, eralduse number on 9, kasvukohatüübiks on jõnesekapsa-mustika. Peapuuligiks on mänd, peapuuliigi vanuseks on 65 aastat. Proovitüki raadius 1 rinde puude jaoks on 25 cm, raadius 2 rinde puude jaoks on 10 cm. Reljeef on lainjas, mikroreljeef on matlik. Andmed mõõdeti 1. Juunil 2002. aastal. 2. Tunnuste liigid
nt haridustase, rahuolu hinnangu, Likerti skaala) Arvskaala (Esitab või võimaldab esitada vastused arvudena) 4) Kirjeldav statistika eri tüüpi tunnuste kohta: Mood- kõige sagedasem väärtus või väärtusklass Mediaan-Punt tunnuse skaalal, millest väiksemaid ja suuremaid väärtusi on variatsioonreas ühepalju. Mediaan jaotab skaala vaadeldava tunnuse seisukohalt kaheks võrdsagedaseks osaks. Kvantiilid- jagunevad alumine kvartiil- punkt, millest väiksemaid väärtusi on kogumis üks neljandik osa. Ülemine kvartiil- punkt millest suuremaid väärtusi on kogumis üks neljandik osa. Kvantiilid jagavad tunnuse väärtuste järjestatud rea teatud arvuks võrdseteks osadeks. Sagedamini kasutatavad kvantiilid on detsiilid, kvintiilid ja kvartiilid. Keskmine- õenäoliselt kõige sagedamini kasutatav näitaja statistilisel andmete analüüsis on aritmeetiline keskmine ehk keskväärtus.
7 7. Kvantiil ja täiendkvantiil. Juhusliku suuruse p-kvantiiliks (0
kvantiilid (tõenäosuste 0,1; 0,9; 0,75: 0,25 ja 0,5 jaoks). Rühmitatud andmete korral leidsin kvantiilid jaotusfunktsioonigraafikult ja rühmitamata andmete korral kasutasin vastavaid Exceli funktsioone. Leidsin enda andmestiku põhjal diameetri 0,3 täiendkvantiili.Tulemused kandsin tabelisse 3. 8 8. Juhuslikku suurust iseloomustavad karakteristikud. Arvutasin mõlemal andmestikul (rühmitamata ja rühmitatud) juhuslikku suurust (puu
nullpunkt on määratud. Näiteks: sissetulek, pikkus, kaal, temperatuur, vanus, laste arv Veel tunnuste liigitamise võimalusi: Kvalitatiivsed ja kvantitatiivsed tunnused Diskreetsed ja pidevad tunnused Kategoriaalsed tunnused: diskreetne kvalitatiivne tunnus Binaarsed ehk dihhotoomsed ehk kaheväärtuselised tunnused 4) Kirjeldav statistika eri tüüpi tunnuste kohta: mis on mood, mediaan, kvantiilid, keskmine, standardhälve, dispersioon. Nominaaltunnused · Mood kõige sagedasem väärtus või väärtusklass Järjestustunnused Mood Mediaan punkt tunnuse skaalal, millest väiksemaid ja suuremaid väärtusi on variatsioonreas ühepalju. Mediaan jaotab skaala vaadeldava tunnuse seisukohalt kaheks võrdsagedaseks osaks. Kvantiilid Alumine kvartiil punkt, millest väiksemaid väärtusi on kogumis ¼ osa. Ülemine punkt, millest suuremaid väärtusi on kogumis ¼ osa.
N: Celsiuse temperatuuriskaala; vanusevahemikud 15-19 / 20-24/ 25-29 Suhteskaala – nullpunktil on sisuline tähendus. N: pikkusmõõt, massimõõt 1.2 Mida võimaldab mingi skaala (asenda konkreetne skaala) Nominaalskaala =/≠ Ordinaalskaala =/≠ ; > Intervallskaala =/≠ ; > ; +/− Suhteskaala =/≠ ; > ; +/− ; ×/÷ 2 Ühe tunnuse analüüs 2.1 Kvantiilid - kirjuta välja kvartiilide 1,2 ja 3 väärtused Kvantiilid on korrastatud statistilise rea liikmed, mis jagavad rea n-ks võrdse liikmete arvuga osaks. Nt kvartiilid on 25%, 50% ja 75%. 2.2 Millised on keskmised Mahukeskmised: Aritmeetiline kekmine Harmooniline keskmine Astmekeskmine Geomeetriline keskmine Asendikeskmised: 3 / 10 Mood Mediaan Kvantiilid 2
Omadused (2 kuju: jaotusfunktsioon ja jaotustihedus) Jaotusfunkts- def tõenäosusena, et juh. Su. Väärtus ei ületa funkts argumenti x. Tingimused: monotoonsus, normeeritud. Jaotustih- jaotusfunkts tuletis Arvkarakteristikud- jaotusseaduse järgi leitavad funktsionaalid, millega opereerimine lihtsam (infokadu) Keskväärtus enimkasut, iseloom.juh.su. jaotuse keskkoha/tsentri asukohta Dispersioon ja standardhälve enimkasut hajuvuse iseloomust, seotud, standardhdispersiooni ruutjuur Kvantiilid- juh.su. p-kvantiil väärtus, millest vasakule jäävale jaotuse osale vastab tõenäosus p. ka protsentiilid (detsiil, kvartiil). Mediaan- jaotuse keskpunkt, sümmeetmediaan=keskv Moment- nende põhjal saab konstr eri momentkarakt, nt asümmeetria ja ekstsess. Asümmeetria näitab jaotuse sümmeetrilisust, kui sümm, siis võrdub 0. Kui pole 0, siis märk näitab, kumb saba väljavenitatum. Neg vasak, pos parem Ekstsess näitab sabade väljavenitatust võrreldes normaaljaotusega
nullpunkt on määratud. Näiteks: sissetulek, pikkus, kaal, temperatuur, vanus, laste arv Veel tunnuste liigitamise võimalusi: · Kvalitatiivsed ja kvantitatiivsed tunnused · Diskreetsed ja pidevad tunnused · Kategoriaalsed tunnused: diskreetne kvalitatiivne tunnus · Binaarsed ehk dihhotoomsed ehk kaheväärtuselised tunnused 4) Kirjeldav statistika eri tüüpi tunnuste kohta: mood, mediaan, kvantiilid, keskmine, standardhälve, dispersioon. Mood- kõige sagedasem väärtus või väärtusklass, mehed naised Mediaan punkt tunnuse skaalal, millest väiksemaid ja suuremaid väärtusi on variatsioonreas ühepalju. Mediaan jaotab skaala vaadeldava tunnuse seisukohalt kaheks võrdsagedaseks osaks. Kvantiilid Alumine kvartiil punkt, millest väiksemaid väärtusi on kogumis ¼ osa. Ülemine kvartiil punkt, millest suuremaid väärtusi on kogumis ¼ osa. · Arvtunnused
36.1192 ni φ(ui) pi ni' (ni-ni')^2/ni' χ2α/2 8 0.19 0.19 4.75 2.223684 χ21-α/2 6 0.42 0.23 5.75 0.01087 2 0.68 0.26 6.5 3.115385 hii-ruut kvantiilid 4 0.87 0.19 4.75 0.118421 χ α/2(f) 2 5 0.97 0.1 2.5 2.5 χ21-α/2(f) 25 24.25 7.968359
teljel klassi keskmised, jaotusfunktsioonil klassi ülemisi piire. 7 Joonis 1. Diameetri jaotushistogramm Joonis 2. Diameetri jaotusfunktsioon 6. Kvantiil, täiendkvantiil Juhusliku suuruse p-kvantiiliks nimetatakse sellist juhuslikku suuruse väärtust xp, millest väiksemate väärtuste esinemise tõenäosus on p (Kiviste A 2007). Rühmitatud andmete korral leidsin kvantiilid jaotusfunktsiooni graafikult ja rühmitamata andmete korral kasutasin vastavaid Exceli funktsioone (Tabel 5). Tabel 5. Diameetri kvantiilid rühmitatud ja rühmitamata andmete korral Rühmita- Rühmita mata tud andmed andmed 0,1-kvantiil 4,51 4,9 0,25-kvantiil 5,55 4,9 0,75-kvantiil 10,5 10,9 0,9-kvantiil 12,54 12,5
20,95 15 20,7 10 14,9 5 15,95 0 14,4 6,2 9 11,8 14,6 17,4 20,2 23 25,8 16,7 diameeter cm 14,7 8,55 12,25 23,9 15,8 9,1 16,45 15,9 18,55 Kvantiilid Rühmitamata Rühmitatud 18,9 0,1 kvantiil (alumine detsiil) 9,18 10 9,65 0,9 kvantiil (ülemine detsiil) 21,15 21,6 17,9 0,75 kvantiil (ülemine kvartiil) 19,05 20 15,45 0,25 kvantiil (alumine kvartiil) 13,1 13,2
Ennutused, projektsioonid: kellele ja mille põhjal Ruumis (geograafiliselt): kas on võrreldavad (seadusandlus, normid, keel) Gruppide vahel: gruppide suurused Eri probleemide võrdlus Võrdlusülesanded andmeanalüüsis Üks v mittu tunnust? Jaotuse võrdlus v mingi parameetri võrdlus Kuidas jaotusi võrrelda? Millega võrrelda? Mille alusel võrrelda? Milliseid jaotusparameetreid võrrelda? Nt: -mood, mediaan, kvantiilid -keskmine, standardhälve, dispersioon - kujuparameetrid (ekstsess ja järsakuskordaja) Tunnuse jaotus Jäotus üldarvudena v protsentidena Segadustabel, risttabel Jaotus joonisel Võrdlus normaaljaotusega Parameetrite võrdlus Mood- kõige sagedasem väärtus v väärtusklass Mediaan- punkt tunnuse skaalal, millest väiksemaid ja suuremaid väärtusi on variatsioonreas ühepalju. Mediaan jaotab skaala
kokku 25 21,179 lambda= 0,0187829 s Standardhälve= 26,56 Mediaan= 51 Haare= 85 2. =0.10 p=0.90 f=N-1=24 Poollaius = t0.95 Kvantiilid= t0.95(24)=1.71 1,710882 Keskväärtuse usaldusvahemiku poollaius= 1,71*26.56/ruutjuur25-st 44,15 < 9,09 < 62,33 dispersiooni usaldusvahemik:
puhul kordaja näitab seost tarbimiskulude ja sissetuleku vahel, kui hoiused on ühesugused, nende võimalik mõju likvideeritud. Aegridade puhul (valimi maht T, perioodi pikkus, aastate arv): osakorrelatsioonikordaja näitab seost tarbimiskulude ja sissetulekuu vahel, kui hoiused ei muutu. 32. Paiknevuse karakteristikud annavad teavet tunnuse väärtuse paiknemise kohta tunnuste väärtuste hulgas (keskväärtus, mood, mediaan, kvantiilid). Kui mood, mediaan, keskväärtus langevad kokku, on tegu normaaljaotusega. 33. Parim hinnang ka efektiivne hinnang. Hinnang, mille varieeruvus Var(...) (dispersioon) on kõige väiksem. Vähima dispersiooniga hinnang. 34. Pidev arvuline tunnus võib omandada kõiki arvulisi väärtusi mingist piirkonnast. N: SKP, kasum, toodangu maht. 35. Positiivne korrelatsioon -- ühe suuruse kasvades teine suurus samuti kasvab. 36
1) Leitakse dispersiooni hinnang: 1 N 1 N ^ 2 = s 2 = i N - 1 i =1 ( x - µ ^ ) 2 = ( xi - 44,8) 2 = 814,42 24 i =1 2 2) Valitud usaldustõenäosuse p ja vabadusastmete arvu f = N-1 järgi leitakse jaotuse kvantiilid. Kasutasin selleks CHISQ.INV(a;f) funktsiooni Excelis. 2 a/2 = 13,85 2 1-a/2 = 36,42 3) Leitakse usaldusvahemik ( N - 1) s 2 ( N - 1) s 2 P 2 < < 2 2 = 1 - x 1-a/2 x a/2 24 814,42 24 814,42 P < 2 < = 1 - ( )
9 19 1172 41 0,41 10 15 keskväärtuse usaldusv. 1462 43 0,43 11 49 44,1 62,3 18 43 0,43 12 30 540 49 0,49 13 69 chi-square kvantiilid 248 51 0,51 14 94 36,415 13,848 1661 54 0,54 15 43 dispersiooni usaldusv. 105 54 0,54 16 85 465 1223 1009 54 0,54 17 87 1140 62 0,62
14 36 15 54 Keskväärtuse usaldusvah. 16 84 alumine ülemine 17 33 35,2402 52,9998 18 69 19 55 2/2 0,05 2 20 92 1-/2 0,95 21 11 22 12 hii-ruut kvantiilid 2 23 5 /2 (f) 13,848 2 24 71 1-/2 (f) 36,415 25 55 Dispersiooni usaldusvah. alumine ülemine 443,8457 1167,146158
kirjeldada juhusliku suuruse arvkarakteristikute abil: 1) Keskväärtus: enim kasutatav asendikarakteristik. Selle abil iseloomustatakse juhusliku suuruse jaotuse keskkoha/tsentri asukohta 2) Dispersioon ja standardhälve: on enimkasutatavad arvkarakteristikud juhusliku suuruse hajuvuse iseloomustamiseks (keskväärtuse suhtes). Dispersioon on standardhälve ruudus ja standardhälve on vastavalt dispersiooni ruutjuur. 3) Kvantiilid: Juhusliku suuruse p-kvantiil xp on selline juhusliku suuruse väärtus, millest vasakule jäävale jaotuse osale vastab tõenäosus p (seejuures 0p1): P(X < xp) = F(xp) = p 4) Mediaan: oluliseim kvantiil, mediaan on jaotuse keskpunktiks tõenäosuse järgi: mediaanist nii vasakule kui paremale sattumise tõenaosus on võrdselt 0.5. Sümmeetrilise jaotuse korral on mediaan võrdne keskväärtusega. 5) Momendid, asümmeetria, ekstsess: kasutatakse juhusliku suuruse omaduste iseloomustamiseks.
60 100 7 10 100 200 9 12 200 500 12 15 Intervalli laiuse saame, kui valimi suurima ja vähima väärtuse vahe jagame valitud intervallide arvuga. Sagedusjaotus näitab kui palju vaatlusi langeb igasse intervalli. Mahukeskmised aritmeetiline keskmine, harmooniline keskmine, geomeetriline keskmine jt. i ( n + 1) ( Qi ) = 4 Asendi- ehk struktuurikeskmised mediaan, mood, kvantiilid (kvartiilid, detsiilid jt) Mood kõige sagedamini esinev liige kogumis Kvartiilid jagavad kogumi neljaks võrdseks osaks, detsiilid 10-ks. Hajuvuskarakteristikud jagunevad: Absoluutsed variatsiooninäitarvud variatsiooniamplituud, keskmine lineaarhälve, dispersioon, standardhälve jt. Suhtelised variatsiooninäitarvud erinevad variatsioonikoefitsiendid Variatsiooniamplituud - Näitab variatsiooni ulatust kogumis (R = X X )
*valitud usaldustõenäosuse p ja vabadusastmete arvu f=N-1 järgi leitakse t-jaotuse tabei või arvutiprogrammi abil vajalik t-jaotuse kvantiil *arvutatakse usaldusvahemiku poollaius delta müü *leitakse usaldusvahemik Tõenäosuse järgi sümmeetrilise kahepoolse usaldusvahemiku arvutamiseks on järgmised: *leitakse dispersiooni hinnang *valitud usaldustõenäosuse p ja vabadusastmete arvu f=N-1 järgi leitakse X 2-jaotuse tabeli või arvutiprogrammi abil vajalikud X2-jaotuse kvantiilid *leitakse usaldusvahemik Statistiline hüpotees on mingi väide üldkogumi jaotuse parameetrite kohta. Kontrollitavat väidet nimetatakse nullhüpoteesiks ja seda välistavad alternatiivset väidet alternatiivseks hüpoteesiks. Hüpoteesi kontrollimine seisneb valimi põhjal otsuse langetamises või nullhüpoteesi või alternatiivse hüpoteesi kasuks. Seejuures võib esindeda kaht liiki vigu: *esimest liiki viga tekib, kui H0 on õige, ent kontrollil loetakse õigeks H1
2 N 24 Student'i teguri leidsin tabelist. P (46, 2 - 10, 29 < µ < 46, 2 + 10, 29) = 1 - 0,10 P (35,91 < µ < 56, 49) = 0,90 2.2 dispersiooni usaldusvahemikud ( N - 1) s2 ( N - 1) s2 P 2 <2 < = p 1- ( f ) 2 ( f ) 2 2 -jaotuse kvantiilid leian tabelist. 2 24 867,9 24 867,9 P <2 < = 1 - 0,10 36, 415 13,848 P ( 572, 0 < 2 < 1504, 2 ) = 0,90 3. Eeldades üldkogumi normaaljaotust ning võttes olulisuse nivooks = 0,10, kontrollin järgmisi hüpoteese: 3.1 H0: = 50 alternatiiviga H1: 50 x-µ 46, 2 - 50 t= N = 25 = 0, 64 s 29, 46
vahe standardhälbe hinnanguga ja korrutades saadu ruutjuurega valimi mahust. Tabelist võtsin kriitilise kvantiili t1-/2(f), f=N-1, ja kuna t tkr, võetakse nullhüpotees 16 vastu. Kontrollimaks hüpoteesi H0: 2=800, leidsin 2-statistiku, korrutades f dispersiooni hinnanguga ja jagades saadu antud dispersiooniga. Tabelist võtsin kriitilised kvantiilid 2/2(f) ja 21-/2(f) ning kuna 2/2(f) 2 21-/2(f), siis võetakse nullhüpotees vastu. 4. Kontrollimaks Pearsoni 2-testi järgi olulisuse nivool = 0,10, et kogumi jaotuseks on normaaljaotus, koostasin võrdlaiade vahemikega histogrammi (joonis 1) vahemikus 0- 100, viie jaotusega, tulpade kõrguseks suhteline sagedus ehk vahemikku sattumise tõenäosus. Valitud intervallipiirideks said siis 20, 40, 60, 80 ja 100, mis normeerisin,
arvutiprogrammi abil vajalik t-jaotuse kvantiil arvutatakse usaldusvahemiku poollaius leitakse usaldusvahemik Sammud Tõenäosuse järgi sümmeetrilise kahepoolse usaldusvahemiku arvutamiseks on järgmised: leitakse dispersiooni hinnang valitud usaldustõenäosuse p ja vabadusastmete arvu f=N-1 järgi leitakse X 2-jaotuse tabeli või arvutiprogrammi abil vajalikud X2-jaotuse kvantiilid leitakse usaldusvahemik Statistiline hüpotees on mingi väide üldkogumi jaotuse parameetrite kohta. Kontrollitavat väidet nimetatakse nullhüpoteesiks ja seda välistavad alternatiivset väidet alternatiivseks hüpoteesiks. Hüpoteesi kontrollimine seisneb valimi põhjal otsuse langetamises või nullhüpoteesi või alternatiivse hüpoteesi kasuks. Seejuures võib esindeda kaht liiki vigu:
0 0 0 Dispersioon D(X)=µ2 6. Normaaljaotusega juhuslik suurus: jaotustihedus, jaotusfunktsioon, keskväärtus, dispersioon, väärtuse lõiku või vahemikku sattumise tõenäosuse arvutamine. Standardse normaaljaotusega juhuslik suurus ja selle jaotusfunktsioon (x) . (x) tabeli kasutamine tõenäosuste leidmiseks. Kvantiilid ja kvantiilide leidmine (x) tabelist. Mistahes normaaljaotusega juhusliku suuruse tõenäosuste arvutamise taandamine standardse normaaljaotusega juhusliku suuruse tõenäosuste x -µ x -µ arvutamisele (valemi P( x1 X x 2 ) = 2 - 1 tõestus). Olgu juhuslik suurus X~N(µ,) Pidev juhuslik suurus X on normaaljaotusega, kui tema jaotustihedus avaldub kujul
575829 Stand.norm.jaotuse täiendkvantiil: 2.5758293 Vastus: intervall, millisse sattumise tõenäosus on 0,95 võrdub [-2,58;2,58]. Ülesanne 8. Olgu teada, et arvuti keskmine eluiga on 54 kuud, standardhälbega 8 kuud. Milline peaks olema tootva firma poolt pakutav garantiiaeg, mille jooksul töötamise lõpetanud arvuti vahetatakse uue vastu, kui firma ei taha vahetada ümber rohkem kui 1% müüdud arvutitest. Ülesande lahendamisel kasutada üldise ja standardse normaaljaotuse kvantiilid. (Vastus: 35 kuud) X-arvutite eluiga keskmine eluiga: 54 kuud standardhälve: 8 kuud tõenäosus alfa: 0.01 alfa kvantiil: 35.4 Standardse norm.jaotuse alfa-kvantiil: -2.326348 garantiiaeg (alfa-kvantiil): 35.389217 Vastus: firma poolt pakutav garantiiaeg on 35,4 kuud e 3 aastat. 1000 1 Kokku: 1 100.0% 1000 1 Kokku: 1 100.0%
Enamkasutatavad diagrammid: · tulpdiagramm · histogramm · lintdiagramm · sektordiagramm · joondiagramm Diagrammi ei ole mõtet kasutada, kui andmestik on väga hajutatud, andmed ei peegelda mingeid muutusi või kui andmeid on liiga vähe või liiga palju. ANDMEANALÜÜS: KIRJELDAV STATISTIKA Mood on variatsioonreas kõige sagedamini esinev liige. Mediaan on jaotuse keskmine liige, millest mõlemale poole jääb võrdne arv elemente. Kvantiilid on asendikeskmised, mis jaotavad korrastatud statistilise rea võrdseteks osadeks. Aritmeetiline keskmine on elementide keskväärtus. Variatsioon ehk hajuvus on kõige suurema ja kõige väiksema väärtuse vahe. Kõige levinumaks näitajaks on standardhälve. Standardhälve iseloomustab vastuste harjuvust keskmise ümber. Variatsioonikoefitsient on standardhälbe ja aritmeetilise keskmise suhe. VALIMI MOODUSTAMINE