2) standardviga = uuritava tunnuse standardhälve / ruutjuur valimi suurusest Populatsioon Valim keskväärtus (EX, ) keskmine (x) pop. dispersioon (DX,2) valimi dispersioon (s2) pop. mediaani valimi mediaan 3 5. Hinnangu täpsuse iseloomustamine - usaldusintervall Jaotuse -kvantiiliks (q) nimetatakse väärtust, millest väiksemate väärtuste osakaal on . NÄITEKS: juhusliku suuruse X 0,1-kvantiiliks on 20, q0,1=20, siis P(X<20)=0,1 ehk 10% uuritava tunnuse väärtustest on väiksemad kui 20 Standardne normaaljaotus: N(0,1) keskväärtus on 0 ja dispersioon on 1 Kui on midagi vaja arvutada, annab Märt mingi tabeli arvudega :D s
Alumine kvartiil 9260 Ülemine kvartiil 11409 Kvartiilide vahe 2149 Dispersioon 3780832,1571429 Standardhälve 1944,4 Üldkogumi keskväärtuse usaldusintervall (usaldusnivooga 95% Usaldusnivoo 1- 0,95 Olulisuse nivoo 0,05 Vabaduse aste n-1 20 T-jaotuse täiendkvantiil 2,1 Alumine usalduspiir 9112,33
μ,σ X ~ μ lahendaja vanusega aastates ja standardhälve σ = N ¿ ) , kus keskväärtus 2∗lahendaja kinganumber 10 ning Y = aX+U, kus konstant a võrdub lahendaja kinga 0, σ numbriga ning U N ¿ ), kus σ =2∗(lahendaja vanus aastates ) . Ülesanne 1) Leidke lineaarne korrelatsioonikordaja corr(X,Y). 2) Leidke juhuslike suuruste X+Y keskväärtusele 0.95 usaldusintervall. Mis on selle intervalli suurim ja vähim väärtus? Lahendus Ülesanne on lahendatud MS Exceli abil. Lahendaja andmed: X ~ N (21;8.4) Y = 42X + U U ~ N (0, 42) X ja U väärtuste saamise jaoks kasutan NORM.INV(RAND();0;42) funktsiooni. Nr X U Y=42X +U 1 33.21 16.70 1411. 065 783 555 2 14.16 - 589.5
usaldusnivool statistiliselt üksteisega sarnased või erinevad üksteisest. Ülesanne 1: Valguskaugusmõõturit kalibreeriti baasjoonel pikkusega 100,020 m. Kalibreerimisel mõõdeti baasjoont 10 korda, tulemused on esitatud Tabelis 1. Tabel 1. Algandmed: EDM kalibreerimisel saadud tulemused (m) 1 t test for µ at 0.002 level of significance. Usaldusintervall H_0: Sample mean = µ Nullhüpoteesi juurde jäädes mõõtmiste keskmine mahub etteantud 0.002 usaldus intervalli H_a: Sample mean =/ µ Alternatiivnehüpotees lükkab ümber nullhüpoteesi Test statistic: t = 4.472 Rejection criterion: t = 4.472 > 3.541 = critical t Reject H_0 Järeldus: Võtame vastu alternatiivse hüpoteesi: mõõtmisete keskmine etalonipikkus ei mahu etteantud usaldus intervalli Ülesanne 2 χ²- test.
Upper 95,0% 0.983 -1.037 1.016 -1.037 1.016 0.107 -0.040 0.401 -0.040 0.401 0.000 0.933 1.869 0.933 1.869 atistiliselt oluline. Kui tihti külastat e nädalas toidukau Kehakaal plust? 3 1 Arv-ja järjestustunnuste usaldusintervall 5 4 2 3 Kaal 5 2 Standradhälve 1.56 2 1 Aritmeetiline keskmine 3.49 4 4 Keskväärtuse standardviga (SE) 95 0.19 1 5 2*SE 0.37 6 3 4 3 Usaldusintervall 95% 3.31 6 4 alumine piir 3.12
suuruse arvutamiseks kalkulaatoreid. Näiteks vabalt võib alla laadida kalkulaatori veebilehtelt MaCorr Research Solutions Online (MaCorr) (joonis 2) või toetudes juhistele arvutada oma uurimuse valimi suurus otse veebis (Resolution Research 2012) (joonis 3). Määra usaldusnivoo Määra valimivea piirid usaldusintervall Sisesta ppopulatsiooni suurus Arvutatatud valimi suurus Valimi tulemi tõenäosus Valimivea piirid Joonis 2 Valimi suuruse kalkulaator (Allikas: MacCorr) Usaldusnivoo (Confidence Level) Millist usaldusnivood vajate
dispersioonanalüüs) eeldab kahte tunnust: üht kategoriaalset tunnust, mis kirjeldab võrreldavaid gruppe ning üht arvtunnust, mille osas gruppe võrrelda tahetakse. Dispersioonanalüüsi keerulisemate mudelite puhul võib lisanduda nii grupeerivaid kui ka uuritavaid tunnuseid. Kui aga korraga soovitakse vaadelda mitut sõltuvat tunnust, siis räägitakse mitmemõõtmelisest dispersioonanalüüsist (Atkinson; Nevill 2001). 2.3 Usaldusintervallid Hinnatava parameetri usaldusintervall (vahemikhinnang) kujutab enesest sellist piirkonda parameetri punkthinnangu ümber, mis katab parameetri õige väärtuse küllalt suure etteantud tõenäosusega. Täpsuse huvides räägitakse vahel ka alumisest ja ülemisest usalduspiirist (du Prel et. al 2009). 2.4 Student t-test Üheks rakendatavamaks testiks aritmeetiliste keskmiste võrdlemisel on t-test, nimetatakse ka selle väljamõtleja varjunime Student järgi Studenti t-testiks. Erinevad
Ülesanne1 Mis tüüpi tunnus on lehmade arv. Leia tunnuse lehmade arv jaoks: 1) Leia statistikud ja kirjelda nende abil tunnuse jaotust. 2) Kas tunnus on normaaljaotusega? 3) Tee histogramm 4) Leia üldkogumi keskväärtuse 95% usaldusintervall Valimi põhjal Lehmade arv Lehmade arv on diskreetne tunnus. 667 Lehmade arv 722 1339 Mean 842,4194 Keskväärtust ja mediaani võib lugeda ligilähedaseks, mi 1636 Standard Error 40,80659 Järsakus on väike. 1048 Median 832,5 1886 Mode 1074 klassipiirid
Largest(2) 191 Smallest(2) 160 Confidence Level(99,0%) 3,008004 Alumine 99% usalduspiir 172,5 Ülemine 99% usalduspiir 178,5 Miks on 90% usaldusintervall kitsam? Mida täpsem me tahame tulemust saada , seda laiem on usalduspiir. 90% usalduspiir ei ole nii täpne, nagu 95% ja 99% usalduspiirid. Järeldus: Mida täpsem me tahame tulemust saada , seda laiem on usalduspiir. Näiteks alumine 90% usalduspiir on 173,6
Põhimõisted hüpoteeside testimisel: · Olulisustõenäosus (p-value) on eksimuse tõenäosus sisuka hüpoteesi eelistamisel. · Olulisuse nivoo () ehk riskitase ehk riskiprotsent ehk riski kriitiline tase ehk uurija seatud tõke esimest liiki vea tõenäosusele ehk tase, mille juures saab veel sisuka hüpoteesi vastu võtta. · Usaldusnivoo on tõese otsuse tõenäosus ( = 1 ). Eksimuse vastandsündmus on tõene otsus. · Usaldusintervall ehk usalduspiirkond ehk usaldusvahemik sisaldab etteantud tõenäosusega parameetri tegelikku väärtust. Paarikaupa esitatud hüpoteesid peavad teineteist välistama ja üks neist peab kindlasti kehtima. KOGUMITE VÕRDLEMINE Kaks kogumit: · sõltuvad valimid · sõltumatud valimid Kogumeid tuleb võrrelda, et oleks teada, kas muutunud tingimused mõjutavad tunnuse jaotust üldkogumis
näitaja standardhälve valimis s= (x xi;)2 (2): n 75 näitaja keskmine standardviga valimis sx = s N-n (3): n N kus: xi muutuva näitaj üksikväärtused, N üldkogumi elementide arv, n - valimi elementide arv. Üldkogumi usaldusintervall Uuringu lõppeesmärgiks on anda muutuva näitaja hinnangud üldkogumi kohta. Valimite abil ei saa hinnata üldkogumi parameetreid täpselt, kuid täpsus on seda suurem, mida suurem on valim (piiriolukord tekkib, kui valimi suurus saab võrdseks üldkogumiga ( n=N) ja standardviga muutub nulliks). Valimi suuruse määramisel on otstarbekas kehtestada intervall, mille piirdesee peaks üldkogumi näitaja väärtus jääma
valemiga: Dx = ((xi X)2)/n 1. Analoogselt määratakse teised juhusliku suuruse arvkarakteristikud. Empiirilised arvkarakteristikud on teatud määral juhuslikud, kuid kõik empiirilised karakteristikud koonduvad tõenäosuse järgi katsete arvu tõkestamatul suurenemisel juhusliku suuruse vastavateks karakteristikuteks. Seega, küllalt suure katsete arvu puhul võib lugeda empiirilised karakteristikud ligikaudselt võrdseteks arvkarakteristikutega. 17. Usaldusintervall, usaldustõenäosus ja kooskõlakriteeriumid (Pearsoni ja Kolmogorovi kriteeriumid). Usalduspiirkond: Juhusliku suuruse arvkarakteristikute hinnangud on ise ka juhuslikud suurused. Mida väiksem on on valimi maht (vaatluste arv n), seda ebatäpsemad hinnangud saadakse. Empiiriliste arvkarakteristikute täpsuse iseoomustamiseks määratakse lisaks arvkarakteristiku hinnangule valitud tõenäosusele vastav usalduspiirkond. Olgu arvkarakteristiku hinnang tähistatud a*. Andes ette mingi
põlvkonnas ühine eellane. Kuna koalestsentsi tõenäosus igas põlvkonnas on 1/2N, siis keskmiselt tuleb oodata 2N põlvkonda kuni kaks liini koalestseeruvad. Valem: P=1/2Ne 4. Kuidas arvutada keskmist oodatavat TMRCA ehk puu sügavust, kasutades suhtelist aega populatsioonisuuruse suhtes? Miks on genealoogiliste puude kõrgusel suur hajuvus? Natalja Sellepärast, et viimane koalestsentsiaeg on pikk ja jaotuvus on ebasümeetriline. Lisaks on usaldusintervall 95%, mis annab Ne-le väga laiad piirid, mis muudabki genealoogilise puu hästi hajusaks. 5. Kirjelda liinide koalestseerumist populatsiooni kasvamise/kahanemise korral! Kuidas see mõjutab genealoogia puu kuju? Natalja Keskmine aeg, mis kulub esimese koalestsentsini k liini puhul, on 2N/((k(k-1)/2). Populatsiooni suurenedes see aeg suureneb, seega koalestseerumise kiirus väheneb võrdeliselt populatsiooni suurenemisega.
Kui suur peab valim olema? Müüdid: Mida suurem, seda parem 10% (5%) üldkogumist Tõde: valimi suurus EI OLE seotud üldkogumi suurusega Valimi suurust mõjutavad: Kas me tahame analüüsida alagruppe? Kas analüüsitav objekt (e-õpe) varieerub tugevalt? Millise täpsusega andmeid me tahame? Valimimahu arvutamine Varieeruvus: e-õppe kasutajate protsent üldkogumis Piloodi põhjal 54%, seega max. (50%) lähedal Usaldusintervall (analüüsi täpsus) Pluss-miinus 2%; 4%; 5% Valimimahu arvutamiseks valem Tõenäosus x varieeruvusega : usaldusintervalliga. Usaldusintervalli mõju valimimahule Antud näite puhul: 5% intervalli puhul n = 382 tudengit 4% intervalli puhul n = 596 tudengit 2% intervalli puhul n = 2385 tudengit Kui kõik vastaks küsimustikule, piisaks 596 tudengi küsitlemisest. Tegelikult seda ei juhtu. Seega valimimahtu tuleb suurendada.
•Isikuandmete probleem Kui suur peab valim olema? •Müüdid: –Mida suurem, seda parem –10% (5%) üldkogumist •Tõde: valimi suurus EI OLE seotud üldkogumi suurusega •Valimi suurust mõjutavad: –Kas me tahame analüüsida alagruppe? –Kas analüüsitav objekt (e-õpe) varieerub tugevalt? –Millise täpsusega andmeid me tahame? Valimimahu arvutamine •Varieeruvus: e-õppe kasutajate protsent üldkogumis –Piloodi põhjal 54%, seega max. (50%) lähedal •Usaldusintervall (analüüsi täpsus) –Pluss-miinus 2%; 4%; 5% •Valimimahu arvutamiseks valem (1,96)² x (0,54 x 0,46) n = ------------------------------- (0,04)² •Tõenäosus x varieeruvusega : usaldusintervalliga. Usaldusintervalli mõju valimimahule •Antud näite puhul: –5% intervalli puhul n = 382 tudengit –4% intervalli puhul n = 596 tudengit –2% intervalli puhul n = 2385 tudengit •Kui kõik vastaks küsimustikule, piisaks 596 tudengi küsitlemisest. Tegelikult seda ei juhtu.
statistika Millest sõltub andmeanalüüsimeetodi valik, andmete tüübid, üldistava statistika meetodite kontekst Vea hindamine, Normaaljaotuse PROPORTSIOONID Normaaljaotuse põhjal saame järeldada, väärtuste standardiseerimine Statistiline järeldamine, stattistiline üldistamine Vahemikhinnang, usaldusintervall, korrelatsioonianalüüs Korrelatsioonikordajad, pearsoni r, Spearmani roo Korrelatsioonikordajad, crameri V, , milline kordaja valida, Tulemuste esitamine, rakenduslik uurimus, empiiriline uuring, uurimistüüpide omavahelised seosed Andmekogumismeetodid, pilootuuring, küsimustik, üldine skeem, millest sõltub andmeanalüüsi valik, Tunnuse tüübid, eeltöö-andmestiku korrastamine, sugu, vanus, kool, õppevaldkond, Tegevusala,