Leidsid 33 sarnast õppematerjali, mis on seotud failiga "Andmetöötlus alused". Need materjalid aitavad sul teemat sügavamalt mõista.
valim, hüpotees, üldkogum, statistik, kvantiil, normaaljaotus, gauss, arvuline, jaotusfunktsioon, standardhälve, nullhüpotees, järjestustunnus, tihedusfunktsioon, graafik, hajuvus, usaldusnivoo, sisukas, arvulise, populatsioon, esinduslik, valimisse, andmestik, diskreetne, nominaaltunnus, jaotusfunktsiooni, keskväärtus, hajuvuse, karakteristikudKordamine arvestustööks 1. Üldkogum (uurimisobjekt, populatsioon) on teatud nähtuste (objektide) hulk, mida soovitakse objektiivsete meetoditega tundma õppida. 2.. Valimiks nimetatakse teatud hulka üldkogumi elemente, mille mõõtmisandmed on uurija käsutuses. Esinduslik valim. 3. Valimi mõõtmisandmed moodustavad andmestiku. Rühmitamata ja rühmitatud andmestik. 4. Arvuline tunnus pidev, diskreetne. Pidev võib omada väärtusi mingil lõigul. Diskreetne arvuliste tunnuste võimalike väärtuste hulk on lõplik või loenduv 5. Mittearvuline tunnus järjestustunnus, nominaaltunnus. Järjestustunnus mittearvuline tunnus, mille väärtused on järjestatavad (Krafti klass, puistu Orlovi boniteet). Nominaaltunnus mittearvuline tunnus, mille väärtused pole järjestatavad. 6. Juhuslik suurus ehk juhuslik muutuja suurus või muutuja, mille väärtus
vahe. Ei anna varieerumisest täielikku pilti, sest sõltub ainult kahest äärmisest väärtusest Keskmine absoluuthälve - Dispersioon - Hälvete ruutude aritmeetiline keskmine on dispersion. Puudus - ühikuks on tunnuse X ühik ruudus. Standardhälve - ruutjuur dispersioonist. Standardhälbe ühik on sama, mis tunnusel X Variatsioonikordaja on standardhälbe ja aritmeetilise keskmise suhe: Esitatakse tavaliselt protsentides. Näitab, mitu protsenti moodustab standardhälve aritmeetilisest keskmisest. Standardiseeritud väärtus näitab, mitmekordse standardhälbe σ kaugusel aritmeetilisest keskmisest asub vaadeldav väärtus xi Assümeetria - Asümmeetria on jaotuskõvera maksimumi kõrvalekaldumine sümmeetriateljest. Kui jaotuskõvera maksimum (mood) on sümmeetriateljest (mediaan) paremal pool, on tegemist on negatiivse ehk vasakkaldelise asümmeetriaga. Kui maksimum on sümmeetriateljest vasakul, on tegemist positiivse ehk paremkaldelise asümmeetriaga
küsimustele tahan vastuseid. Andmete kogumine. Enne kogumist kontrollida, ehk on andmed juba olemas ja arvestada aja- ning raharessursiga. Vaatlus: otsevaatlus, varjatud vaatlus, osalusvaatlus Eksperiment Intervjuu: struktureeritud, poolstruktureeritud või struktureerimata Küsitlus Kas uurida valimit või üldkogumit? Üldkogum ehk populatsioon. Valim on üldkogumist uurimiseks eraldatud osa, mille põhjal tehakse statistilisi järeldusi üldkogumi kohta. Valimi moodustamine: a)tõenäosuslik: 1. Lihtne juhu- nimekiri 2. Süstemaatiline juhu- nimekiri, millest iga 10. 3. Kiht- valin grupid, keda küsitlen 4. Klaster- valin kellegi grupist b) mittetõenäosuslik: 1. Mugavus- pilootuuring testina 2. Ettekavatsetud- vastavalt eelteadmistele valitud uuritavad 3
Majandusstatistika eksamiküsimused FK100 1. Statistika mõiste. Üldkogum ja valim. Rühmitatud andmed. Statistilise materjali graafiline esitamine (histogramm ja kumulatiivse sageduse graafik). Statistika on andmete kogumine ja töötlemine, statistilised andmekogumid, teadusharu, mille põhiülesandeks on massinähtuste vaatlemine, nende kohta andmete kogumine ja analüüsimine ning selle põhjal järelduste ja üldistuste tegemine ning praktiliste lahenduste pakkumine Üldkogum antud tunnustega elementide hulk (nt. koolis õpilaste hulk), N
statistiline), mtteklassikalised(subjektiivne,intersubjektiivne) Juhuslikuks suuruseks nim suurust, mis järjekordse katse tulemusel omandab mingi mittennustatava väärtuse mingist võimalikust väärtuste hulgast. Diskreetne juhuslik suurus: võimalike väärtuste hulk on lõplik Pidev juhuslik suurus: võimelike väärtuste hulk on kontiinum Jaotusfunktsioon on tõenäosus, et juhusliku suuruse väärtus ei ületa funktsiooni argumenti. Jaotusfunktsioon peab rahuldama järgmisi tingimusi: monotoonsus (kui b>a, siis F(b)>F(a), normeeritus (x-lõpmatus korrral lim F(x)=0, xlõpmatus lim F(x)=1) Jaotustihedus on jaotusfunktsiooni tuletis. Arvkarakteristikud kujutavad endast mingeid jaotusseaduse järgi leitavad funktsionaale, millega opereerimine/arvutused on enamasti lihtsamad kui kogu jaotusseadusega opereerimine. Juhusliku suuruse arvkarakteristikuid võib jagada: moment ja mittemomentkarakteristikud, asendi-,hajuvus- ja kujukarakteristikud,
.
Juhuslikuk suurus- suurust, mis järjekordse katse tulemusel omandab mingi mitteennustatava väärtus
mingist võimalikust väärtuste hulgast.
Juhusliku suuruse põhiliigid:
diskreetne juhuslik suurus: võimalike väärtuste hulk on lõplik või loenduv (nt variantide nr'id)
pidev juhuslik suurus: võimalike väärtuste hulk on pidev (nt mõõtetulemused pidevalt skaalalt)
Juhusliku suuruse omadused määrab (täielikult) tema jaotusseadus:
jaotusfunktsioon - tõenäosus, et juhuslik suurus väärtus ei ületa funktsiooni argumenti x: F(x) = P (X
MAINORI KÕRGKOOL Juhtimise instituut Annika Krutto ANDMEANALÜÜS SOTSIAALTEADUSTES Loengukonspekt Tartu 2009 SISUKORD SISSEJUHATUS...........................................................................................................................3 1. ANDMEANALÜÜSI põhimõisted ......................................................................................... 3 1.1 Üldkogum ja valim............................................................................................................... 3 1.2. Valimi valikumeetodid.........................................................................................................4 1.3. Mõõtmismeetod ja mõõtmisvahend ....................................................................................5 1.4. Andmetabel.....................................................................................................
Tunnikontrollis: Kui juhuslik suurus X on binoomjaotusega X~B(n; p), siis tema tõenäosusfunktsioon avaldub kujul P(X=x)= Cxn px (1-p)n-x astmes x (X=x)= Poissoni jaotus: P e- x! a ma seda kasutada küll ei oska xd - keskmine õnnetuste arv muidu 3. Jaotus- ja tihedusfunktsioon Siin olid Märdil ainult erinevad funktsioonid ja 0 teksti. Jaotusfunktsioon on juhusliku suuruse universaalne iseloomustaja, mis kirjeldab võimalike väärtuste tõenäosuste jaotust. Jaotustabel x 0 1 3 P(X=x) 0,8 0,1 0,1 Leia E(X2): 02x0,8+12x0,1+32x0,1= 1 1
● Statistiliste meetoditega hinnatavad mudeli parameetrid (b). ● Juhuslik komponent ehk vealiige (u). 2. Andmetüübid. Ökonomeetriline mudel baseerub arvandmetel: ● Ristandmed (cross-sectional) ● Aegread (time series) ● Paneelandmed (panel data) Andmed saavad olla kas ● Kvalitatiivsed (ei saa mõõta arvudega, nt haridustase) ● Kvantitatiivsed (mõõdetakse arvudega, nt vanus) 3. Valimvaatlused ja parameetri hinnangu mõiste. ● Uuritav objekt on üldkogum ● Andmebaas on üldjuhul valim Järeldusi soovime teha üldkogumi kohta, selleks kasutame valimit. Valimi parameetrite põhjal leitakse üldkogumi parameetrite hinnangud. Valimi põhjal leiame mudeli parameetrite hinnangud. Valim on juhuvalim => hinnang on juhuslik suurus. 4. Punkthinnang, intervallhinnang. Punkthinnang (point estimate) on statistik, mis annab parameetrile ühese väärtuse. Näiteks valimi aritmeetiline keskmine on punkthinnang kogumi keskväärtusele.
aasta sügissemestri KT õppimiseks Teooria 1. Ökonomeetrilise mudeli komponendid. Endogeensed (sõltuvad Y), eksogeensed (sõltumatud, X), hinnatavad parameetrid (beeta) ja juhuslik komponent ehk vealiige (u) 2. Andmetüübid. Kvalitatiivsed, kvantitatiivsed, ristandmed, aegread, paneelandmed 3. Valimvaatlused ja parameetri hinnangu mõiste. Uuritav objekt on üldvalim, andmebaas on üldjuhul valim. Järledusi teeme üldkogumi kohta ja selleks kasutame valimit. Valimi parameetrite põhjal leitakse üldkogumi parameetrite hinnangud. Valim on juhuvalim, hinnang on juhuslik suurus. Suvaline valimi andmete põhjal arvutatud funktsioon on statistik ning erinevad valimid annavad statistikutele erinevad väärtused. Statistik on juhuslik suurus. 4. Punkthinnang, intervallhinnang. Punkthinnang on statistik, mis annab parameetrile ühese väärtuse (nt valimi arit. Keskmine on
objekti kohta mingi tõenäosuslik mudel, sh hinnates mudeli arvparameetreid ja kontrollides erinevaid hüpoteese objekti mudeli kohta. Mediaani hinnang: - kasvavalt järjestatud valimi keskelement (kui valimi maht on paaritu arv) - kasvavalt järjestatud valimi keskelementide poolsumma (kui valimi maht on paarisarv) Haare: valimi suurima ja vähima elemendi vahe Statistika põhiteoreem: Empiiriline jaotusfunktsioon FN(x) on teoreetilise (üldkogumi) jaotusfunktsiooni F(x) nihutamata ja mõjus hinnang. Histogramm: Histogramm on enimkasutatav (üldkogumi) jaotustiheduse hinnang. Histogrammi kasutatakse ettekujutuse saamiseks üldkogumi jaotusseadusest ning ta kujutab endast tulpdiagrammi, mille tulpade kõrgused näitavad vastavasse vahemikku sattumise sagedust. 2-jaotus on kasutusel normaaljaotusega juhusliku suuruse dispersiooni hinnangu jaoks usaldusvahemike arvutamisel.
Statistika teooria I 1. Kirjeldava statistika põhimõisted: aritmeetiline keskmine, mediaan, kvartiilid, mood, dispersioon, standardhälve, haare. Esitada definitsioonid ja osata antud andmeväärtuste puhul neid mõisteid rakendada N x + x 2 + ... + x N xi Aritmeetiline keskmine: µ = 1 = i =1 N N N-üldkogumi maht Aritmeetilise keskmise erijuht on kaalutud keskmine:
1. Üldkogum – ehk populatsiooni all mõeldakse kõiki juhtumeid või situatsioone, mille kohta uurijad soovivad, et nende poolt saadud järeldused või prognoosid kehtiksid. Valim – liikmed tuleb valida juhuslikult, st igal üldkogumi liikmel peab olema võrdne võimalus saada valitud valimisse. Valimimaht – Valimisse valitavate objektide arv. Tunnuste- all mõistetakse liikmeid kirjeldavaid erinevaid omadusi. 2. Statistilise uurimistöö etapid. Mingi probleemi statistilise uurimisel läbitakse 4 tööetappi: Uuringu ettevalmistamine Statistiline vaatlus või eksperiment Vaatlusandmete kokkuvõtte ja esialgne töötlemine
Seda võib anda tabeline, funktsioonina, diagrammina või muul sarnasel viisil, mis määrab ära vastavuse juhusliku suuruse väärtuse ja selle omandamise tõenäosuse. 24. Kuidas on diskreetse juhusliku suuruse jaotus seotud sündmuse tõenäosusega? Diskreetse juhusliku suuruse jaotus määrab ära juhusliku suuruse ja selle omandamise tõenäosuse ning seega ka teatud sündmuste tõenäosuse saab jaotusest lihtsalt leida. 25. Mis on jaotusfunktsioon? Sõnasta korrektne definitsioon. Jaotusfunktsiooniks nimetatakse funktsiooni F(x), mis näitab tõenäosust, kus juhuslik F ( x i )=P ( X ≤ xi ) = ∑ p( x j) suurus on väiksem või võrdne x-i väärtusest. x ≤x j i 26. Kuidas leitakse diskreetsete juhuslike suuruste summa X+Y ja tema jaotus. Kahe määratud(on antud jaotus) juhusliku suuruse summaks X+Y loeme juhuslikku
astendamisel saadud arvude aritmeetilisi keskmisi. Arvu, millega momendi leidmisel hälbeid astendatakse, nimetatakse momendi järguks. VARIATSIOONINÄITARVUD · Variatsiooniamplituud (R= Xmax-Xmin)näitab äärmuste vahet. Äärmusi kirjeldab, ei kirjelda seda mis on kogumi sees. Väheväärtuslik, infot pea ei olegi. · Absoluutsed variatsiooninäitarvud: variatsiooniamplituud, keskmine lineaarhälve, dispersioon ja standardhälve, kvartiilhälve. Absoluutsete variatsiooninäitarvude suurus sõltub variantide absoluutväärtustest, mis muudab nad erinevate ridade võrdlemisel raskesti kasutatavateks. Teiseks probleemiks absoluutsete varieeruvusnäitarvude kasutamisel on ühik. Neil on mõõdetava suurusega sama ühik, mis muudab võimatuks erinevate ühikutega suuruste hajuvuse võrdlemise. · Keskmine lineaarhälve (d katusega) ehk keskmine absoluuthälve. Hälve ehk erinevus
iseloomustab tunnuse hajuvust. Valimi dispersiooni kui üldkogumi dispersiooni hinnangu tähiseks on tavaliselt Sruut, üldkogumi dispersiooni tähiseks ruut (kasutatakse teisi tähiseid ka: var, D(X)). Seega, mida suurem on Xi väärtus võrreldes keskväärtusega, (aritmeetilise keskmisega) seda suurem on hajuvus e dispersiooni. 5. Dispersiooni meetod 6. Diskreetne arvuline tunnus omab vaid täisarvulist väärtust, n laste arv perekonnas, eesti elanike arv. 7. DurbinWatsoni test. Kasut 1. järku autokorrelatsiooni avastamiseks. Kasut.tingimused: reg.mudel sisaldab vabaliiget. Mudel ei sisalda sõltuva muutuja viitajaga liikmeid (nt Yt1, Yt2) 8. Fiktiivne muutuja (dummy) iseloomustavaid binaarseid muutujaid. Binaarne muutuja
b. suurema informatiivsusega järjestusskaala c. kõige informatiivsem intervallskaala 2. Uuringufirma viib Eesti elanikkonna hulgas läbi tööjõu-uuringut. Vali õiged terminid, mis tähistavad toodud mõisteid. a. Eesti elanik objekt b. Uuringu teostamiseks kasutatakse intervjuusid mõõtmismeetod c. Tallinna elanikud osakogum d. need isikud, keda küsitletakse valim e. Intervjuul esitatavate küsimuste komplekt mõõtmisvahend f. Eesti elanikkond üldkogum g. inimese vanus tunnus h. need inimesed, kelle sissetulek on väiksem kui 5000 kr osakogum i. inimese sissetulek tunnus 3. Milliste vaatlustega on tegemist? a. küsimustiku täitmine veebis ankeetvaatlus b. andmete hankimine internetist dokumentaalvaatlus c
Statistiliste meetoditega hinnatavad mudeli parameetrid β Juhuslik komponent – vabaliige u Y= f (X, β, u) 2) Andmetüübid: Arvandmed, ristandmed (erinevad objektid samal ajamomendil), aegread (sama objekti erinevatel ajamomentidel), paneelandmed (ristandmed + aegread) 3) Valimivaatlused ja parameetri hinnangu mõiste: Valimi parameetrite põhjal leitakse üldkogumi parameetrite hinnangud. 4) Punkthinnang, intervallhinnang Punkthinnang – statistik, mis annab parameetrite ühese väärtuse (aritmeetiline keskmine on valimi punkthinnang kogumi keskväärtusele) Intervallhinnang – usaldusvahemik, lõik, mis sisaldab parameetri tegelikku väärtust mingi etteantud tõenäosusega. 5) Hinnangufunktsioon: Reegel üldkogumi parameetri(te) hinnangu(te) leidmiseks 6) Hinnangute omadused: Nihe, efektiivsus, mõjusus, asümptootiline jaotus, asümptootiline efektiivsus 7) Hinnangu nihe, nihketa hinnang
Kahjus- 21,5 25,5 4 tatud 7 Hukkunu 23,4 27,6 5 d 1 Kokku 110 130 2 4 0 18) H0 -nullhüpotees väljendab uurijat mittehuvitavat juhtu. Nullhüpoteesi pole võimalik tõestada ning kui uurija tahab mingisugust erinevust tõestada siis tuleb tal uurimist jätkata H1-sisukas hüpotees, mida uurija soovis tõestada. Hüpoteeside kontrollimisel püütakse tõestada sisukas hüpotees nullhüpoteesi kummutamise teel. 19) 1. liiki viga tekib siis, kui võetakse vastu sisukas hüpotees aga tegelikult on tegemist nullhüpoteesiga.Tegemist on raske veaga, mis tekib siis kui uurija tahab tõestada erinevust või seost mida tegelikult ei ole. 20) Tavaliselt antakse metsanduslikes uurimustöödes 1. liiki vea tõenäosuseks =0,05.
mis seob juhusliku suuruse väärtused ja nende tõenäosused: pi=P(X=xi).( esitatud
valemina, tabelina, arvupaaridena või graafikuna). keskväärtus - EX = E(X).
kus xi tähistab diskreetse juhusliku suuruse x väärtust ja p i selle
tõenäosust. Keskväärtus on juhusest sõltumatu suurus, mis paikneb väikseima ja suurima
väärtuse vahel
dispersioon, - Dispersioon on hälbe ruudu keskväärtus. DX = D(X) = E(X-EX) 2=
standardhälve - Standardhälve on ruutjuur dispersioonist
7. Jaotusfunktsioon. - Juhusliku suuruse jaotusfunktsioon on funktsioon, mis seob väärtusega
x vastavusse tõenäosuse, et Xx. Tähistame F-ga
F(x )=P(Xx ) tõenäosus, et JS kuulub paljude väärtuste korral
0 0
teatavasse piirkonda P(a
............................. 7 19. Millal kasutata kahepoolset ja millal ühepoolset hüpoteesi?......................................8 20. Regressioon - Andmete filtreerimine.......................................................................... 8 21. Graafik kõrguse ja diameetri vahelise sõltuvuse hindemiseks....................................8 22. Data analytics Regression. Kõrguse sõltuvus diameetrist........................................9 22. 1 Jääkstandardhälve ja kõrguse standardhälve............................................................9 23. Determinatsioonikordaja............................................................................................. 9 2 Sissejuhatus Kodutöö on proovitükk nr. 815 kohta. Andmed pärinevad failidest ,,prt815.xls" mis pärineb Eesti Maaülikooli kohalikust võrgust, ja Külliki Kiviste kodulehelt1 allalaetud failist kodu5.xls 1
punkti, mille koordinaadid vastavad vektori koordinaatidele. 16. Lineaartehted vektoritega koordinaatides. 1) Korrutamine / jagamine arvuga korrutada/jagada läbi kôik koordinaadid 2) Liitmine / lahutamine liita/lahutada omavahel vastavad koordinaadid. 18. Kahe vektori skalaarkorrutis (mõiste, omadused, avaldis koordinaatides). Kahe vektori skalaarkorrutis nim. nende vektorite pikkuste ja nendevahelise nurga koosiinuse korrutist. ab = |a||b|cos Omadused: 1) On arvuline suurus 2) ab = 0, kui a = 0 vôi b = 0 vôi a risti b 3) ab = 1, kui a || b Avaldis koordinaatides: a*b = (a1b1 + a2b2 + a3b3). 17. Kahe vektori vektorkorrutis (mõiste, omadused, avaldis koordinaatides). Kahe vektori vektorkorrutis nim. vektorit, mille: 1) Pikkus on vôrdne nende vektorite pikkuste ja nendevahelise nurga siinuse korrutisega; 2) Siht on rist môlema vektoriga määratud tasandiga; 3) Suund on määratud Parema Käe ReegliTM järgi
Asendikarakteristikud(annavad infot selle kohta, kuidas tunnuse väärtus paikneb). Need on aritmeetiline keskmine, mediaan ja mood. Nende välja arvutamine oleneb sellest, pas meil on tegu pidevate(mingi vahemik) või diskreetsete(1 väärtus) andmetega. Hajuvuskarakteristikud(kui erinevad on väärtused valimi erinevatelobjektidel).Nende eesmärgiks on mõõta andmete varieeruvust andmekogumis(iseloomustavad tunnuse üksikväärtuseerinevust keskmisest) Need on dispersioon ja standardhälve. ASENDIKARAKTERISTIKUTE ARVUTAMINE 1.1. Tabuleerimata(rühmitamata) diskreetsed andmed Keskmine- näiteks KOKKU TOOTEID/NENDES ESINENUD VIGADE ARV. Näitetabelis= 2190/1500=1,46 viga on keskmiselt. X= / Mediaan- kasutatakse kumulatiivset sagedust. Me=(n+1)/2. Mediaan näitetabelis on 750,5, sellele vastav vigade arv on 1. Samamoodi arvutatakse teisi kvartiile. Mood- kõige sagedasem suurus. Näitetabelis on kõige rohkem(440 korda) 0 viga. Mood on 0.
Selle saamiseks liidetakse kokku kõigi vastajate antud tunnuste väärtused ja jagatakse saadud summa vastajate arvuga. Tulemuseks on näitaja, mida võib käsitleda kui tüüpilist või läbilõikelist vastust vaatlusalusele küsimusele. Standardhälve- iseloomustab vastuste hajuvust keskmise ümber. Standardhälbe saab, kui leida kõigi vastajate vastuste erinevus üldisest keskmisest ning arvutada nende erinevuste keskmine. Seega näitab standardhälve tüüpilist erinevust üldisest keskmisest. Kui standardhälve on suur, siis võib arvata, et vastajate vastused on enamasti üldisest keskmisest kaugel. Kui standardhälve on väike, siis on vastajate vastused antud üldise keskmise lähedale. Viimasel juhul tundub, et vastajad on olnud oma vastustes küllaltki üksmeelsed.(kui kaugel on keskmine inimene keskmisest inimesest). Dispersioon- on standardhälbe ruut. Seda kasutatakse tunnuse hajuvuse iseloomustamiseks nagu standardhälvetki.
Lineaarne regressioonimudelil: 1. pole põhjus ega tagajärge 2. kordaja võb olla nii pos kui neg 3. vabaliikme abil saame kirjeldada seoste tugevust 4. regressiooni kordaja b abil saame kirjeldada seose tugevust Dispersioonanalüüsi eesmärk on: 1. dispersioonide leidmine 2. uuritava nähtuste tegurite mõju olulisuse hindamine Valimi andmete põhjal saadi järgmised tulemused: aritm.keskmine=80 ja standardhälve 20. Üldkogumi maht 1200. Kui suur peaks olema valim, et teha kindlaks üle 110 väärtusega elementide osakaalu üldkogumis täpsusega +/-4 ühikut, usaldatavusega 95%. 1. 1700 (üldkogum 1200) 2. 1280 (üldkogum 1200) 3. Ei saa arvutada, sest dispersioon ei ole teada (standarthälbe väärtus on olemas, tõstam ruutu saan dispersiooni, 2. Tahan teha kindlaks elementide osakaalu, ehk et kui dispersiooni ei tea, saan arvutada võttes maksimaalse dispersiooni)
ANDMEANALÜÜS: KIRJELDAV STATISTIKA Mood on variatsioonreas kõige sagedamini esinev liige. Mediaan on jaotuse keskmine liige, millest mõlemale poole jääb võrdne arv elemente. Kvantiilid on asendikeskmised, mis jaotavad korrastatud statistilise rea võrdseteks osadeks. Aritmeetiline keskmine on elementide keskväärtus. Variatsioon ehk hajuvus on kõige suurema ja kõige väiksema väärtuse vahe. Kõige levinumaks näitajaks on standardhälve. Standardhälve iseloomustab vastuste harjuvust keskmise ümber. Variatsioonikoefitsient on standardhälbe ja aritmeetilise keskmise suhe. VALIMI MOODUSTAMINE Valikuuring on statistiline uuring, milles otsustused kogumi kohta tehakse valimi (kogumi ühe osa) baasil. Valim peab olema representatiivne ehk andma õige ettekujutuse uuritava elanikkonna omadustest. Valimi moodustamise meetodid: · Juhuslik valik teatud kogumist valitakse valim juhuslikult. Igal inimesel on võrdselt
)∫ = ∫ ( )= |+ ∫ = √2 D(X) = E(X ) – E (X) = σ + μ – μ2 = σ2 2 2 2 2 22. Olgu meil juhuslik suurus X normaaljaotusega. Olgu meil konstandid a b. Kuidas leida tõenäosust P ( a X b) ? P(a b) = F(b) F(a). Et juhusliku suuruse X jaotusfunktsioon F(x) defineeritakse kui tõenäosus, siis 0 ( ) 1 on tõene, kuna ( < )= ä (( < ) + ( )) = = ( < )+ ( < ) ( ) ( < )= ( < ) ( < )= ( ) ( ) => => { ( < ) ( < ) => ( )
Ennutused, projektsioonid: kellele ja mille põhjal Ruumis (geograafiliselt): kas on võrreldavad (seadusandlus, normid, keel) Gruppide vahel: gruppide suurused Eri probleemide võrdlus Võrdlusülesanded andmeanalüüsis Üks v mittu tunnust? Jaotuse võrdlus v mingi parameetri võrdlus Kuidas jaotusi võrrelda? Millega võrrelda? Mille alusel võrrelda? Milliseid jaotusparameetreid võrrelda? Nt: -mood, mediaan, kvantiilid -keskmine, standardhälve, dispersioon - kujuparameetrid (ekstsess ja järsakuskordaja) Tunnuse jaotus Jäotus üldarvudena v protsentidena Segadustabel, risttabel Jaotus joonisel Võrdlus normaaljaotusega Parameetrite võrdlus Mood- kõige sagedasem väärtus v väärtusklass Mediaan- punkt tunnuse skaalal, millest väiksemaid ja suuremaid väärtusi on variatsioonreas ühepalju. Mediaan jaotab skaala vaadeldava tunnuse seisukohalt kaheks võrdsagedaseks osaks
Regressioonianalüüsi kõige üldisem eesmärk: 1. kirjldada korrlatiivset seost metemaatika funktsioonina Pidev juhuslik suurus... 2. võib omada ükskõik milliseid väärtusi tema võimalikke väärtusi hõlmavas arvuvahemikus. 3. juhuslikku suurust nim pidevaks juhuslikuks suurusesks, kui tema võimalike väärtuste hulk on loenduv. Normaalselt jaotuvas kogumis... 1. ei toimu väärtuste varieerumist 2. standardhälve peab võrduma nulliga 3. jaotuskõver on sümmeetriline 4. mõlemasuunalised kõrvalekalded ei ole võrdvõmalikud Normaaljaotuse korral 1. aritm, keskmine ei saa olla suurem ku geom. Keskmine 2. geom. Keskmine on alati aritm. Keskmisega võrdne 3. ei ole aritm. Keskmise ja mediaanig võrdsed 4. geom. Keskmine ja aritm. Keskmne on alati sama tähendusega 5. kolmandat järku standardmoment on võrdne nulliga 6
Ordinary Least Squares hindamismeetodid Valim ( xi , yi ) i = 1,..., n Silutud väärtused y^ i = ax ^ i + b^ · Vähimruutude meetod: Silutud väärtuste y^ i erinevus vaatlusandmetest yi on hälbed ehk jäägid kõige tuntum;
77 Standardviga Median 179.00 Mediaan Mode 164.00 Mood Standard Deviation 11.32 Standardhälve Sample Variance 128.25 Dispersioon Kurtosis -1.44 Ekstsess Skewness -0.02 Asümmeetriakordaja Range 29
Binoomjaotus: DJS jaotus, mille korral jaotustabel defineeritakse valemiga (Bernoulli valem) P ( X = k ) = C nk p k (1 - p ) n-k , k=0,1,...,n. Juhuslik suurus X on sündmuse A toimumiste arv n sõltumatul katsel, kui sündmuse toimumise tõenäosus igal katsel on p. Sündmuse mittetoimumise tõenäosus igal katsel on siis q=1-p. Binoomjaotusega on näiteks praakdetailide arv korduval võtmisel, läbipõlevate pirnide arv. Keskväärtus: EX=np, dispersioon DX=npq, standardhälve npq Poisson'i jaotus: DJS jaotus, mille korral jaotustabel defineeritakse valemiga k - P( X = k ) = e , k=0,1,... k! Sarnaselt binoomjaotusele juhuslik suurus tekib n katsel toimuvast k sündmusest, lisaks n ja p0. Näiteks kirjavigade arv masinakirjutajal/sekretäril. Rikete arv seadmes. Tööõnnetuste arv. Keskväärtus: EX= , dispersioon DX= . Poissoni piirteoreem: kui katste arv n ja p0 nii, et np= , siis koondub k -
nullpunkt (nt raha) o Lickerti skaalal tehtud mõõtmisi on lubatud käsitleda vajadusel pideva muutujana Jaotused (normaaljaotus, negatiivne asümmeetria, positiivne asümmeetria): Andmetöötluse alused: Valemid ja tähised n või N – juhtumite arv x – muutuja X̅ või µ – keskmine i – indekseerimistähis σ või SD – standardhälve (standard deviation) σ2 või SD2 – hajuvus Σ – summeerimine Standardhälve Näitab, kui hästi keskmine esindab mõõdetud andmeid. Muutjal on keskmine väärtus ja iga juhtum on sellest teatud kaugusel: x1- X̅ Hajuvus on keskmine ruutkaugus, seega standardhälve on nö keskmine kaugus keskmisest: Normaaljaotuse puhul paikneb kõigist mõõtetulemustest 68,27% ±1SD, 95,45% ±2SD ja 99,73% ±3SD kaugusel keskmisest.