Statistika
üldiseks eesmärgiks on: asjakohastest
eeldustest
lähtudes leida vaadeldava stohhastilise objekti kohta mingi
tõenäosuslik mudel, sh hinnates mudeli arvparameetreid ja
kontrollides erinevaid hüpoteese objekti mudeli kohta.
Mediaani hinnang:-
kasvavalt järjestatud valimi keskelement (kui valimi maht on paaritu
arv)
-
kasvavalt järjestatud valimi keskelementide poolsumma (kui valimi
maht on
paarisarv )
Haare :
valimi suurima ja vähima elemendi vahe
Statistika
põhiteoreem: Empiiriline jaotusfunktsioon FN(x) on teoreetilise (üldkogumi) jaotusfunktsiooni
F(x) nihutamata ja mõjus hinnang.
Histogramm :
Histogramm
on enimkasutatav (üldkogumi) jaotustiheduse hinnang. Histogrammi
kasutatakse ettekujutuse saamiseks üldkogumi jaotusseadusest ning ta
kujutab endast tulpdiagrammi, mille tulpade kõrgused näitavad
vastavasse vahemikku sattumise sagedust.
χ2-
jaotus
on kasutusel normaaljaotusega juhusliku suuruse dispersiooni hinnangu
jaoks usaldusvahemike arvutamisel.
t-jaotus
(Studenti jaotus)
on kasutusel normaaljaotusega juhusliku suuruse keskvaartuse hinnangu
jaoks usaldusvahemike arvutamisel.
F-jaotus
( Fisheri jaotus) on
kasutusel kahe normaaljaotusega juhusliku suuruse dispersioonide
hinnangute võrdlemisel
osana mitmetes hüpoteeside kontrolli
skeemides.
Momentide
meetod: Meetodi
põhimote seisneb selles, et üldkogumile vastavad seosed jaotuse
parameetrite ja arvkarakteristikute vahel kantakse üle valimile ja
vastavalt valimist saadud arvkarakteristikute hinnangutele
arvutatakse nende seoste järgi parameetrite
hinnangud . Meetodi
sammud on seega järgmised:
Leida üldkogumile vastava juhusliku suuruse jaotuse jaoks arvkarakteristikute avaldised /seosed sõltuvalt jaotuse parameetritest
Leida nendest seostest poordseosed, avaldades parameetrid arvkarakteristikute kaudu (st lahendada vastav võrrandisüsteem)
Arvutada valimi järgi arvkarakteristikute hinnangud
Arvutada valimi arvkarakteristikute järgi parameetrite hinnangud, kasutades leitud pöördseoseid.
Suurima
tõepära meetod: Meetodi
aluseks on põhimõte leida sellised jaotuse parameetrite väärtused,
et antud konkreetse valimi jaoks oleks suurim just nimelt selle
valimi saamise tõenäosus.
Vähimruutude
meetod: Vähimruutude
meetod on tavalisim meetod erinevate juhuslike suuruste seosemudelite
parameetrite leidmisel (nt regressioonanalüüsis).
Nullhüpotees-
kontrollitav
väide
Alternatiivhüpotees-
nullhüpoteesi
välistav alternatiivne väide
Statistiline
hüpotees
tekib tavaliselt mingi vaadeldava juhusliku suuruse kohta käiva
väite (oletuse, hüpoteesi, ...) formaliseerimisel.
esimest
liiki viga tekib,
kui H0 on õige, ent kontrollil loetakse õigeks (võetakse vastu) H1
(sellise vea tõenäosust tähistatakse α);
teist
liiki viga tekib,
kui H0 pole õige, ent kontrollil loetakse H0 õigeks (võetakse
vastu) (sellise vea tõenäosust tähistatakse β).
Hüpoteeside
kontrolli tavapärased sammud on järgmised:
Formuleeritakse kontrollitav hü ja valitakse teststatistik x.
Valitakse olulisuse nivoo α.
Leitakse teststatistiku x kriitiline piirkond X1 .
Valimi järgi arvutatakse teststatistiku x väärtus.
Järelduse tegemine. Kui x väärtus satub kriitilisse piirkonda X1 , siis nullhüpotees H0 lükatakse tagasi, vastasel juhul H0 võetakse vastu.
Pearsoni
χ 2 –test: χ2-
test on üks levinumaid teste jaotushüpoteeside kontrollimisel.
Testis kasutatav teststatistik iseloomustab erinevust hüpoteetilise
ja empiirilise jaotuse vahel histogrammi vahemikele vastavate
hüpoteetilise ja empiirilise sageduse kaudu.
Kolmogorovi-Smirnovi
test: Hü kontrollimine
Kolmogorovi-Smirnovi testi abil kasutab erinevust hüpoteetilise ja
empiirilise jaotusfunktsiooni vahel ning põhineb asjaolu, et
nullhüpoteesi H0: F(x,θ) = F0(x,θ) tõesuse korral statistik on N
→ ∞ puhul jaotunud Kolmogorovi jaotusseaduse järgi (kui jaotuse
parameetrid θ on teada ja F0(x) täpselt fikseeritud).
Korrelatsioon -Korrelatsioon
(korrelatsioonikordaja, korrelatsioonitegur,
korrelatsioonikoefitsient) on levinuim arvkarakteristik
iseloomustamaks kahe sõltuva juhusliku suuruse X ja Y vahelist
(lineaarset) seost.
Korrelatsiooni
hindamiseks katseandmete järgi on vaja nn paarisvalimit, mis koosneb
katse/vaatluse tulemusel saadud paarisvaatlustest (xi, yi), kus i =
1, 2, ..., N; N on valimi maht. Paarisvaatluste valimi põhjal saab
koostada hajuvusdiagrammi, mis kujutab endast vastavat punktiparve
(x,y)-tasandil.
Lineaarset
mudelit y = β0 + β1x nimetame
edaspidi (lineaarseks
ühefaktoriliseks)
regressioonimudeliks ning selle mudeli hinnanguks on katseandmete
põhjal arvutatav (prognoosi)mudel y = b0 + b1x, kus vabaliikme β0
hinnanguks on b0 ja lineaarliikme (tundlikkuse) β1 hinnanguks b1.
Mudeli
parameetrite leidmisel
on sobivaimaks meetodiks vähimruutude
meetod, mille
kohaselt parameetrite hinnanguks tuleb valida sellised arvud, mille
korral erinevused tegelike katsetulemuste ja mudeli põhjal
prognoositud väärtuste vahel oleksid minimaalsed nende erinevuste ruutude summa minimeerimise mõttes.
Mudeli
analüüs
1)Katse
dispersiooni leidmine (Sobivaimaks lähenemisviisiks väljundi y
dispersiooni hindamiseks on enamasti eraldi korduskatsete seeria
läbiviimine mingi suvalise, ent fikseeritud sisendi x väärtuse
juures)
2)
Mudeli parameetrite hinnangute ja mudeli väljundi prognoosi
dispersioon ja usaldusvahemikud (põhinevad t-statistiku kasutamisel )
3)
Mudeli liikmete olulisuse kontroll (kui tekib kahtlus, kas sisend X
mõjutab väljundit Y, kas vabaliige b0 erineb nullist)
4)
Mudeli adekvaatsuse kontroll (kontrollitakse, kas mudel tervikuna on
katseandmetega kooskõlas, levinuim viis on adekvaatsustest, kus
adekvaatsusdispersiooni võrreldakse väljund dispersiooniga vastava
F-statistiku abil)
5)
Jääkide analüüs. Lisamärkused (vahed katsest saadud
väljundiväärtuste ja mudeli poolt prognoositud väärtuste vahel)
Dispersioonanalüüs
(ühe faktoriline)
Analoogiliselt
regressioonanalüüsiga tegeleb ka dispersioonanalüüs (võimaliku)
seose selgitamisega sisendi x ja väljundi y vahel. Erinevuseks on
see, et dispersioonanalüüsis on sisend x mitte
pidev/ kvantitatiivne /mõõdetav, vaid nn
rühmitav/kvalitatiivne/ diskreetne suurus, mida tavaliselt
nimetatakse faktoriks. Sisendil x on k võimalikku
väärtust/varianti/režiimi, mida tavaliselt nimetatakse tasemeks
(nivooks). Väljundiks y on nagu regressioonanalüüsiski mingi
pidev/kvantitatiivne/mõõdetav
suurus y. Näited: erinevate väetiste või sortide või
mullastikutüübi mõju põllukultuuri saagikusele, erinevate
pinnaisolatsioonimaterjalide mõju pooljuhtseadise lekkevoolule,
eriala mõju vilistlaste palgale.
Eksete tsensuur (anomaaliate eristamine)
Ekse ( anomaalia , jäme viga) on ekslik katse- või vaatlustulemus, mis
tavaliselt on eristatav (suhteliselt) suure kõrvalekaldena ülejäänud
/ õigetest katse- või vaatlustulemustest. Ekse tekib mingi tõrke
või vea tõttu katse tegemisel või katse tulemuste fikseerimisel
(nt katsetingimuste
rikkumine ,
mõõtevahendi rike , näidu lugemine valelt skaalalt, viga tulemi
kirjapanekul/registreerimise, arvutus- või teisendusviga).
Eksete
äratundmise kriteeriumid on kahte liiki:
(a) statistilised (formaalsed) (Statistiliste
kriteeriumide abil saab eristada
arvuliselt
palju erinevate katsetulemuste erinevuse statistilist olulisust
(vastava erinevuse/ekse esinemistoenaosuse hindamise kaudu).
(b)
mittestatistilised (sisulised, need eelistatavad) (Mittestatistilised
/sisulised kriteeriumid viivad kahtluse korral katseandmete kogumise
tingimuste
reprodutseerimisele
ja võimalike vigade/ rikete tagantjärgi identifitseerimisele (näited
elektroonikajm mõõtmistest). Kui sisulisi kriteeriume saab
rakendada, siis järeldused on üsna selged. Ent sageli
sellist
tagantjärgi-selgitamist ei õnnestu rakendada.)
Aegridade
analüüs
Sageli
tekib vajadus kirjeldada ajas kulgevaid protsesse, milles sisalduvad
juhuslikud komponendid ja häiringud (nt sademete hulk päevas,
koormus energiasüsteemis, aktsiakursid, ..). Selliste protsesside
seiretulemused moodustavad aegread ning aegridade põhjal mudelite
hindamist, sellest
järelduste
tegemist jms nimetatakse aegridade analüüsiks.
Juhuslik
sündmus
on midagi mis mingi katse tulemusel võib toimuda.
Juhuslike
sündmustega seonduvad põhimõisted:
1)
Vastastikku välistuvad sündmused: mis ei sisalda samu
elementaarsündmusi (nt A: ruutu kaart, B: ärtu kaart)
2)
Vastastikku mittevälistuvad sündmused: mis sisaldavad samu
elementaarsündmusi (nt A : ruutu kaart, B: piltkaart)
3)
Sündmuste sisalduvus: kui toimub A, toimub ka B (kõik sündmuses A
sisalduvad elementaarsündmused sisalduvad ka sündmuses B (nt A:
ärtu sõdur, B: ärtu piltkaart, C: piltkaart korral A Ì B Ì C)
4)
Vastandsündmus A: sisaldab kõik elementaarsündmused, mis ei
sisaldu sündmuses A (nt A: must kaart, B: punane kaart)
Iga
sündmusega seondub tema tõenäosus,
mis on mingi arv nullist kuni üheni. Tõenäosus iseloomustab
sündmuse esinemissagedust katsetes (ka võimalikkust, osakaalu vms).
Tõenaosusteooria seisukohalt on tõenaosus sündmuse mõõduks ning
tõenäosuse omadused tulenevad tõenäosusteooria
aksiomaatikast:
1.
Normeeritusaksioom: 0 £ P(A)
£ 1
2.
Liitmisaksioom: vastastikku välistuvate sündmuste loenduva summa
tõenäosus võrdub nende sündmuste tõenäosuste summaga, st P( Σ
Ai ) = Σ P( Ai ) kui AiAj = O (σ-aditiivsus)
3. Tinglik tõenäosus määratletakse seosega P(A/B) = P(AB) / P(B)
(tinglik tõenäosus näitab sündmuse A toimumise tõenäosust
tingimusel, et sündmus B
on
juba toimunud ja P(B) > 0)
Tõenäosuse
määramise viisid:
1)
Klassikalised (kombinatooren, geomeetriline, statistiline)
2)
mitteklassikalised (subjektiivne/intersubjektiivne,
kuuluvusfunktsiooni väärtus...)
Juhuslikuks
suuruseks
nimetatakse suurust, mis järjekordse katse tulemusel omandab mingi
mitteennustatava väärtuse mingist võimalikust väärtuste hulgast.
Juhusliku
suuruse põhiliigid:
1)
diskreetne juhuslik suurus, mille võimalike väärtuste arv on
lõplik või loenduv
2)
pidev juhuslik suurus, võimalik väärtuste hulk on kontiinum
Juhusliku
suuruse omadused määrab lõplikult ära jaotusseadus,
mida saab esitada:
1)
jaotustihedusena, mis def jaotusfunktsiooni tuletisena
2)
jaotusfunktsioonina, mis def tõenäosusena
Diskreetne
juhuslik suurus
Tingimused:
mittenagtiivsus ja normeeritus
Üldtingimused
jaotusfunktsioonile: monotoonsus ja normeeritus
Pidev
juhuslik suurus
Pidev
juhuslik suurus
võimalike
väärtuste hulk on pidev (kontiinum), nt enamik mõõtmistulemusi
inseneripraktikas.
Jaotusfunktsioon
F(x) ja jaotustihedus f(x) on omavahel
üksüheselt
seotud nagu integraal ning tuletis ning nende põhiomadused
on järgmised:
1)
omavaheline seos
2)
monotoonsus: kui b>a, siis F(b) ≥ F(a); f(x) ≥ 0
3)
normeeritus
4)
lõigu tõenäosus
Juhusliku
suuruse arvkarakteristikud
Juhul
kui pole vaja teada juhusliku suuruse omadusi täielikult/ammendavalt,
vaid piisab juhusliku suuruse põhiomaduste teadmisest, võib neid
juhusliku suuruse põhiomadusi kirjeldada juhusliku suuruse
arvkarakteristikute
abil:
1)
Keskväärtus:
enim
kasutatav asendikarakteristik. Selle abil iseloomustatakse juhusliku
suuruse jaotuse keskkoha/tsentri asukohta
2)
Dispersioon
ja standardhälve: on
enimkasutatavad arvkarakteristikud juhusliku suuruse hajuvuse iseloomustamiseks (keskväärtuse suhtes). Dispersioon on
standardhälve ruudus ja standardhälve on vastavalt dispersiooni ruutjuur .
3)
Kvantiilid:
Juhusliku
suuruse p- kvantiil xp on selline juhusliku suuruse väärtus, millest
vasakule jäävale jaotuse osale vastab tõenäosus p (seejuures
0≤p≤1): P(X
4)
Mediaan:
oluliseim
kvantiil, mediaan on jaotuse keskpunktiks tõenäosuse järgi:
mediaanist nii vasakule kui paremale sattumise tõenaosus on võrdselt
0.5. Sümmeetrilise jaotuse korral on mediaan võrdne keskväärtusega.
5)
Momendid,
asümmeetria, ekstsess: kasutatakse
juhusliku suuruse omaduste iseloomustamiseks. Momentide
põhjal saab konstrueerida erinevaid momentkarakteristikuid.
Asümmeetria
näitab jaotuse sümmeetrilisust (sümmeetrilse jaotuse puhul
asümmeetria võrdub nulliga, negatiivse asümmeetria korral on pikem
vasakpoolne saba, positiivse asümeetria puhul on pikem parempoolne
saba. Ekstsess
näitab
jaotus sabade suhtelist väljavenitatust võrreldes normaaljaotusega.
6)
Mood:
Moodiks
nimetatakse diskreetse juhusliku suuruse puhul suurima tõenäosusega
juhusliku suuruse väärtust, pideva jaotuse korral jaotustiheduse
graafiku maksimumkohta.
7)
Variatsioonitegur:
Positivsete
juhuslike suuruste (X≥0) korral kasutatakse juhusliku suuruse
suhtelise hajuvuse iseloomustamiseks.
8)
Jaotuse
parameetrid
Olulisemad
jaotuse parameetrid
Olulisemad
diskreetseda jaotusseadused
1)
Binomiaaljaotus:
Binomiaaljaotus tekib nn Bernoulli katsete skeemi kasutamisel:
tehakse järjest n sõltumatut katset, mille tulemusel võib toimuda
sündmus A. Sündmuse A toimumise tõenäosus igas katses on p, ja
vastavalt mittetoimumise tõenäosus q = 1 – p
2)Poissonijaotus:
on
vaadeldav kui binomiaaljaotuse piirjuhtum, kui p → 0 ja n → ∞.
Jaotus on kasutatav sellistes olukordades, kus juhuslikel ajahetkedel
tekivad mingid sõltumatud sündmused suht püsiva piisavalt väikese
sagedusega (nn statsionaarne sündmuste voog: nt liiklusõnnetuste
teke, radioaktiivse lagunemise protsessid, tõrked seadmetes).
Olulisemad pidevad jaotusseadused
1)
Ühtlane
jaotus:
ühtlane jaotus tekib ülalt ja alt piiratud juhusliku suuruse
korral, kui selle lubatud muutumisvahemiku sees kõik juhusliku
suuruse väärtused on tekke mõttes samaväärsed. Jaotuse
parameetriteks on juhusliku suuruse muutumisintervalli alumine piir a
ja ülemine piir b: a ≤ X ≤ b, b>a. Oluline
erijuhtum
on ühtlane jaotus parameetritega a=0, b=1, mida nimetatakse
standard- voi baasjaotuseks ja tähistatakse X~U(0,1).
2)
Eksponentjaotus:
Eksponentjaotus kirjeldab näiteks mingi sündmuse toimumisaja
jaotust eeldusel , et sündmuse tekkimise jaoks kõik ajahetked on
samaväärsed. Kasutatakse töökindlustehnikas,
teenindussüsteemides. Jaotuse kirjeldamiseks kasutatakse tavaliselt
ühe parameetriga mudelit, kus parameeter λ on sündmuste voo
intensiivsusena/sagedusena.
3)
Normaaljaotus :
Normaaljaotus
on domineerivalt kõige olulisem jaotus (nimetatakse ka Gaussi
jaotuseks). Tekkemehhanism on esmajoones seotud keskse piirteoreemiga
tõenäosusteoorias. Sellel teoreemil on tingimuste poolest veidi
erinevaid variante, ent üldistatult võib öelda, et suvalise
ühtmoodi jaotunud sõltumatute juhuslike suuruste summa või
keskväärtuse jaotus läheneb liidetavate arvu kasvades
normaaljaotusele. Kokkuvõtvalt võib seega öelda, et normaaljaotuse
teke on väga sagedane ning seotud esmajoones juhuslike suuruste mõju
liitumisega (sh süsteemitehnikas nt summaatoritega või lineaarsete
süsteemidega, kvaliteeditehnikas hajuvuse nn jõemudeliga,
metroloogias mõõtemääramatuste /halvete liitumisega jm).
Normaaljaotusel on kaks parameetrit, mis ühtivad vastava juhusliku
suuruse keskväärtuse ja standardhälbega ning mida seetõttu
tähistataksegi μ ja σ. Normaaljaotuse olulisim erijuhtum on jaotus
parameetrite väärtustega μ=0 ja σ=1, mida nimetatakse normeeritud
normaaljaotuseks; seda tähistatakse X~N( 0,1).
4)
Lognormaalne
jaotus: tekib,
kui vaadeldava juhusliku suuruse logaritm on jaotunud normaaljaotuse
kohaselt: kui juhuslik suurus Y on jaotunud normaaljaotuse järgi,
siis juhuslik suurus X =expY on jaotunud lognormaalse jaotusseaduse
järgi. Näideteks võivad olla isikute sissetulekutega seotud jaotused (palkade jaotus, pärandi suuruse jaotus jms), organismide
mahu/kaalu liigisisene jaotus või tajude logaritmilise skaalaga
seotud jaotused.
Kahe
juhusliku suuruse sõltuvus. Korrelatsioon
Juhuslikuks
vektoriks
nimetatakse vektorit , mille komponentideks on juhuslik suurus.
Liigid:
pidev ja diskreetne. Näited:
Lendava objekti (kosmoseaparaat, golfipall, mürsk, meteoriit )
maandumiskoha koordinaadid (X,Y); Eksamisessioonil saadavate hinnete
kogum (nt 4 eksamit, igal eksamil võimalik tulemus 0, 1, ..., 5); Pereliikmete pikkused; Kuukäive kaupluseketi poodides...
Olulised
aspektid:Vektori
komponentide arv; Vektori komponentide vastastikune sõltuvus
/sõltumatus; Jaotusseadus.
Diskreetne
kahekomponendiline vektor :
Diskreetse kahekomponendilise vektori (X,Y) jaotus antakse
kahemõõtmelise jaotustabelina või -valemina, mis iga väärtuspaari
(xi,yj) jaoks fikseerib selle tõenäosuse pij = P(X=xi , Y=yj ).
Jaotusfunktsioon avaldub kujul F(x,y) = Σi, j pij │xi
Kõik kommentaarid