SHAPE OF DISTRIBUTION Shapes What terms are used to describe shapes of • people? • buildings? • countries? Examples of distribution 3 Shape of distribution Use the term “skew” • no skew • right skew • left skew No skew ~ xx Right skew (or positive skew) ~ xx Left skew (or negative skew) ~ x x Remember Mean moves in the direction of the skewness Example Number of burglaries reported in 1996 for nine universities. 61, 11, 1, 3, 2, 30, 18, 3, 7 (a) Find the mean and median (b)Determine the type of skewness of the distribution Skewness of distributions What is the skewness of the following distributions? Income Easy test Hard test 10 Coefficient of Skewness
tundmiseks on otstarbekas need leida ka eraldi. Tulemused on toodud tabelis 1. Tabel 1. Valimi asendi- ja hajuvuskarakteristikud Mean 37.8 1 Standard Error 0.4 Median 37.9 Mode 32.1 Standard Deviation 3.1 Sample Variance 9.7 Kurtosis (järsakuse kordaja) -0.9 Skewness (assümeetriakordaja ) -0.0 Range 11.2 Minimum 31.9 Maximum 43.1 Sum 1890.7 Count 50 Järgnevalt laseme Excel’il koostada histogrammi (Joonis 1), andes ette ainult valimi andmeveeru. Histogram 15 10 Sagedus 5 0 31
a. Küttimiste arv Mean 623.6333333333 Mean Standard Error 72.6617811813 Standard Er Median 470.5 Median Mode Err:512 Mode Standard Deviation 397.9849662152 Standard D Sample Variance 158392.033333333 Sample Var Kurtosis -0.7414717599 Kurtosis Skewness 0.6579241972 Skewness Range 1446 Range Minimum 71 Minimum Maximum 1517 Maximum Sum 18709 Sum Count 30 Count Statistika toob ära mõlemal aastal enim ja vähem kütitud loomade arvu.
Standard Error 34337359,309124 Ülemine piir Sagedus Median 49546822,5 35340021 16 Mode #N/A 103340021 23 Standard Deviation 242801796,155206 171340021 6 Sample Variance 5,895271222E+016 239340021 2 Kurtosis 19,8300035296 307340021 0 Skewness 4,4412335712 375340021 1 Range 1335109979 443340021 0 Minimum 1340021 511340021 0 Maximum 1336450000 579340021 0 Sum 5912821548 647340021 0 Count 50 715340021 0
Lesbian; Bisexual (GLB) and heterosexual people. Experiment 1 examined the acoustic characteristics of single words produced by both men and women who identified as either GLB or heterosexual. The largest differences between GLB and heterosexual women were in the F1 frequency of /e/ and the F2 frequency of /oR/. The largest differences between the groups of men were in the F1 frequency of /e/ and /a/, and the spectral skewness of the fricative /s/. Experiment 2 showed that listeners' judgments of perceived sexual orientation were related to the acoustic parameters found to differ in Experiment 1: Listeners showed greater sensitivity to differences in men's sexual orientation when listening to words containing low front vowels than when listening to words containing back vowels. Moreover, Regression analyses showed that judgments of men's sexual orientation were influenced by /s/ skewness, the F1 frequency of low
võimalikku väärtust Andmebaasis mittearvuline tunnus on kodeeritud 0=mees, 1=naine. Antud ettevõttes töötab kokku 474 inimest - 46%töötajatest(mean) e. 216 (sum) on naised. Mehi on rohkem, kui naisi. Standardviga ±2% . VANUS- Pidev tunnus-mõõdetav arvtunnus Keskmine töötajate vanus 37,19 aastat(mean). Standardviga keskmisel vanusel ±0,5 aastat(standard error). 50% töötajatest on nooremad ja 50% vanemad, kui 32 aastat. Nooremaid inimesi on rohkem kui vanemaid(skewness-assümeetria näitaja). Kõige rohkem on 30,33 aastaseid(mode).. Noorim töötaja on 23 aastane(min), vanim 64,5 aastane(max). Vanimast kolmas töötaja on 64,25 aastane(largest) ja noorimast viies 23,42 aastane(smallest). Vanuste varieeruvus 41,5 aastat(range). RAHVUS- Nominaaltunnus-mittearvuline tunnus, mille vastusevariante ei saa sisuliselt järjestada Eelnevalt kodeeritud mittearvuline tunnus, kus 0=eestlane, 1=muulane. Eestlasi on rohkem. SUGU/RASS Nominaaltunnus (kodeeritud)
viimase aasta viimase jooksul 10 päeva jooksul Standard Deviation 8,516717 rohkem kuiviimase aasta tagasi kuu jooksul Sample Variance 72,53446 rohkem kuiviimase aasta tagasi 10 päeva jooksul Kurtosis -0,530136 rohkem kuiviimase aasta tagasi kuu jooksul Skewness -0,052543 rohkem kuiviimase aasta tagasi aasta jooksul Range 36 viimase aasta viimase jooksul aasta jooksul Minimum 157 rohkem kuiviimase aasta tagasi 10 päeva jooksul Maximum 193 rohkem kuiviimase aasta tagasi
232 Spacing parameters Hybrid parameters Height characteristic average parameters RSm Rq Rsk PSm Mean width of the profile elements Pq Root mean square slope Psk Skewness WSm (RSm = Sm at ISO4287 '84) Wq Wsk Mean value of the profile element width Xs Root mean square value of the ordinate slopes Quotient of mean cube value of the ordinate within a sampling length. dZ/dX within a sampling length. values Z(x) and cube Pq, Rq, Wq respectively,
PIIRVIGA (delta) 12,76136 Standard Error 4,964388 Intervalli al piir. 185,04 Median 200 Intervalli ül PIIR. 210,6 Mode 200 Standard Deviation 72,45285 Sample Variance 5249,416 Kurtosis 0,022152 Skewness 0,289226 Range 350 Minimum 50 Maximum 400 Sum 42128,9 Count 213 Confidence Level(95,0%) 9,785885 Kasutades hii-ruut testi
Mediaan Median 25 17 Mood Mode 28 17 Standardhälve Standard Deviation 5,19442458 17 Dispersioon Sample Variance 26,9820467 18 Ekstsess Kurtosis 1,75506677 18 Asümmeetriakordaja Skewness 1,029546 18 Haare ehk variatsioonanaplituudRange 31 18 Miinimum Minimum 17 18 Maksimum Maximum 48 18 Summa Sum 15370 18 Maht Count 597 18
2003 781 162,5 Mean 197,7882629108 2003 560 165,0 Standard Error 4,9643877499 2003 214 166,7 Median 200 2003 554 166,7 Mode 200 2003 767 168,0 Standard Deviation 72,4528539178 2003 349 170,0 Sample Variance 5249,4160408362 2003 204 180,0 Kurtosis 0,0221523606 2003 222 180,0 Skewness 0,2892263686 2003 268 180,0 Range 350 2003 502 180,0 Minimum 50 2003 203 183,4 Maximum 400 2003 444 195,1 Sum 42128,9 2003 441 197,0 Count 213 2003 229 200,0 Confidence Level(95,0%) 9,7858853479 2003 233 200,0
1636 Standard Error 40,80659 Järsakus on väike. 1048 Median 832,5 1886 Mode 1074 klassipiirid 748 Standard Deviation 321,3114 400 401 Sample Variance 103241 600 1113 Kurtosis 0,795697 800 846 Skewness 0,803413 1000 631 Range 1532 1200 836 Minimum 354 1400 973 Maximum 1886 1600 388 Sum 52230 1800 1089 Count 62 2000
Aasta 2006,5 2006,5 2005,0 2008,0 DAasta_1 0,25000 0,00000 0,00000 1,0000 DAasta_2 0,25000 0,00000 0,00000 1,0000 DAasta_3 0,25000 0,00000 0,00000 1,0000 Brutopalk 541,92 538,98 381,38 848,48 Linlased 0,53146 0,48996 0,28571 0,90379 Korgharitud 0,16853 0,15343 0,080000 0,32438 Mehed 0,51469 0,50979 0,43827 0,60377 Std. Dev. C.V. Skewness Ex. kurtosis Aasta 1,1275 0,00056191 0,00000 -1,3600 DAasta_1 0,43667 1,7467 1,1547 -0,66667 DAasta_2 0,43667 1,7467 1,1547 -0,66667 DAasta_3 0,43667 1,7467 1,1547 -0,66667 Brutopalk 103,68 0,19133 0,50751 -0,066847 Linlased 0,17413 0,32765 0,70856 -0,56678 Korgharitud 0,060711 0,36024 1,3526 1,0369 Mehed 0,029298 0,056924 0,55109 0,87306 5% perc
x Pikkus) Andmete eraldamine: Data - select cases - If condition is satisfied ette linnuke - klikid If...-le - valid nt ainult meeste tulemuste saamiseks vasakult Sugu, siis = ja 1 (sest 1=mees ja tahan ainult meeste tulemusi) ja continue. Kui valid samas aknas (Select cases) alumisest osast Filter Out Unselected cases, siis on naiste andmed jätkuvalt näha aga nendega ei arvestata, kui valid Delete unselected cases, siis kustutab süsteem kõikide naiste andmed ära. Asümmeetriakordaja = skewness (Asümmeetriakordaja iseloomustab jaotuse asümmeetriat keskmise suhtes.) Kvartiilid = quartiles (Kvartiilid jaotavad rea neljaks võrdsete liikmete arvuga osaks. Kvartiile on kolm: esimene ehk alumine kvartiil Q1, teine kvartiil Q2, mis on võrdne mediaaniga ja kolmas ehk ülemine kvartiil Q3. Alumiseks kvartiiliks nimetatakse tunnuse väärtust, millest väiksemaid (või võrdseid) liikmeid on variatsioonreas ¼ ehk 25%.
mõjusad: valimi mahu kasvamisel koonduvad nad parameetrite tegelikeks väärtusteks. · Kui see eeldus pole täidetud: hinnangud ei ole mõjusad · Visuaalne kontroll: jääkide diagrammi uurimine. · Formaalsed testid põhinevad jääkliikmete jaotuse kuju võrdlemisel normaaljaotuse kujuga. Jarque-Bera test; Doornik-Hanseni test 52. Jarque-Bera testi idee, nullhüpotees, sisukas hüpotees. Jarque-Bera (JB) testi korral leitakse analüüsitava suuruse asümmeetriakordaja S (skewness) ja püstakuse kordaja K (kurtosis). Normaaljaotuse korral S = 0 ja K = 3. Normaaljaotuse korral JB=0, järelikult nullhüpoteesiks on, et jääkliikmed alluvad normaaljaotusele. Kui JB empiiriline väärtus ületab kriitilise (p on väiksem kui alfa), lükatakse H0 normaaljaotuse esinemise kohta ümber. KOKKUVÕTTE: 53. Multikollineaarsus, selle liigitus. Regressioonmudeli korral eeldame, et tunnused x2 , x3 ,.., xk on sõltumatud, st nad ei ole omavahel seotud
Normaaljaotuse kontroll - Enne parameetrilise testi tegemist tuleks kontrollida muutujate normaaljaotust - SPSS'is on selleks kaks testi: Shapiro Wilki test (väiksemate valimite puhul, kuni 2000) ja Kolmogorov Smirnov (n > 2000) - Analyze -> Descriptive Statistics - > Explore -> Plots - Kui p > .05 siis on normaaljaotusega (st nullhüpotees on normaaljaotusega) - NB! kui asümmeetriakordaja (ingl. k. skewness) ja ekstsess (ingl. k. kurtosis) on vahemikus -1 kuni 1, siis võib pidada andmeid normaaljaotusele vastavaks ANOVA vs T-test - Esimest liiki viga tekib siis, kui võetakse vastu alternatiivne hüpotees, aga tegelikult on õige nullhüpotees (raske viga; näidatakse erinevuse või seose olemasolu, mida tegelikult pole). - Teist liiki viga tekib siis, kui jäädakse nullhüpoteesi juurde, ehkki tegelikult on õige alternatiivne hüpotees
väiksem kui portfelli B oma, siis see tähendab, et esimene portfell on olnud stabiilsem ning vastupidiselt teise portfelli väärtus on rohkem kõikunud. Suurem kõikuvus viitab suuremale riskisusele. (www.tarkinvestor.ee) Tabel 10. Mitu tundi oma põhitöökohal tavaliselt nädalas töötate / töötasite, kui võtate arvesse ka kõik tasustatud ja tasustamata ületunnid? N Valid 1417 Missing 244 Mean 41,59 Median 40,00 Mode 40 Std. Deviation 10,405 Skewness ,213 Std. Error of Skewness ,065 Range 99 Minimum 1 Maximum 100 Percentiles 25 40,00 50 40,00 75 45,00 Joonis 12. Töötundide arv nädalas Kokku koguti vastuseid _____________________ respondendilt, kellest _______________ keeldus vastamast või ei teadnud vastust Vastajate keskmine töötundide arv nädalas oli _____________ tundi. Pooled vastajatest märkisid tööajaks vähem ja pooled rohkem kui ___________________ tundi. Kuna mediaan ja keskväärtus on väga sarnased, võime järeldada, et andmete jaotus on
2 ÜÜÜÜÜÜÜÜÜ 5 I I.........I.........I.........I.........I.........I 0 6 12 18 24 30 Mean 1.152 Std Err .063 Median 1.000 Mode 1.000 Std Dev .364 Variance .133 Kurtosis 2.287 S E Kurt .798 Skewness 2.038 S E Skew .409 Range 1.000 Minimum 1.000 Maximum 2.000 Sum 38.000 Valid Cases 33 Missing Cases 0 ------------------------------------------------------------------------------- Page 4 SPSS/PC+ 6/12/ 2 This procedure was completed at 10:26:32 *---------------------------------- * Kahe tunnuse analyys - sagedusjaotuse risttabel (harj6 ja harj7).
12. Ankeedile vastamise kuupäev Mean 42979.74 Standard E 1.839294 Median 42984 Mode 42983 Standard D 26.84361 Sample Var 720.5792 Kurtosis 20.76526 Skewness -4.376422 Range 245 Minimum 42803 Maximum 43048 Sum 9154685 Count 213 1. kasutad tundides digiva 2. kasutad tundides? [Nutit 2.kasutad[Tahvelarvuti] 9/11/2017 18:50:48 0 Harva Harva 9/10/2017 21:35:04 Jah Harva Ei kasuta 9/10/2017 22:50:11 Jah Harva
ümber lükata. Standardiseerimine Tulemuste z-skooridele viimine Valem: Peaks olema lähedane normaaljaotusele: Standardiseeritud andmestiku keskmine antakse kujul: Xe-A ;see tähendab, et X-i komakohta peab liigutama A võrra vasakule, et saada selle andmestiku keskmist väärtust: Keskmine väärtus on alati 0 või väga lähedal 0-le. Standardhälve on täpselt 1. Skewness – asümmeetriakordaja • Kokkuleppeliselt on tegemist normaaljaotusega, kui asümmeetriakordaja väärtus on vahemikus [-2; 2], konservatiivsemalt ka [-1; 1] Kurtosis – järsakuskordaja ehk ekstsess • Kokkuleppeliselt on tegemist normaaljaotusega, kui järsakusastmekordaja väärtus on vahemikus [-2; 2], konservatiivsemalt ka [-1; 1] • Standardviga SEM Hindab, kuidas on KI testi tulemused kordusmõõtmistel jaotunud tema nö tõelise
Summa kontr. Summa nisu saagikus Mean 22,9485924428 Standard Error 0,6359637424 Median 21,2627129666 Mode 20 Standard Deviation 9,8111707676 Sample Variance 96,2590718303 Kurtosis 1,3465461532 Skewness 0,9044604205 Range 59,1893555188 Minimum 3,2857142857 Maximum 62,4750698045 Sum 5461,76500139 Count 238 Logaritmiliselt normaalne jaotus LOGNORMDIST intervalli ül. sagedus F(ül piir) Vah.tn.pi Teor. Sag
mõlemad testid on üsna tundlikud äärmuslike väärtuste ning valimi suuruse suhtes, mistõttu teatud olukordades ei pruugi nende testi alusel tehtud otsustused olla täpsed! Järgnevalt tuleb vaadata Sig.-i (olulisuse tõenäosus). Kui Sig on väiksem kui 0.05, siis ei ole testi(de) kohaselt andmed normaaljaotuslikud. Praktikas aga on omajagu harv normaaljaotustestide põhjal leida normaaljaotuslikkust levinud on asümmeetriakordaja (skewness) ning ekstsessi (kurtosis) vaatamine. Nii K-S kui ka S-W testidel on omad probleemid; üheks neist on liigne tundlikkus äärmuslikele väärtustele ehk erinditele (outliers). Andmeid peetakse normaaljaotuslikult siis, kui nii asümmeetriakordaja kui ka järsakusaste/ekstsess on vahemikus (-0.5;0.5); liberaalsemalt on aga levinud ka vahemike (-1; 1) kasutamine 4) GRUPPIDE KESKMISED JA USALDUSPIIRID Käsklusrida: Analyze - Compare Means
Standard Deviation 11.32 Standardhälve Sample Variance 128.25 Dispersioon Kurtosis -1.44 Ekstsess Skewness -0.02 Asümmeetriakordaja Range 29.00 Haare Minimum 164.00 Väikseim väärtus Maximum 193
Mode 2003 1 6 4 4 4 Standard Deviation 2,730164 0,490703 3,106143 24,787281 0,916312 1,126845 Sample Variance 7,453796 0,240789 9,648123 614,409299 0,839628 1,26978 Kurtosis -0,95987 -1,84381 -0,71639 -0,59609723 0,015361 -1,04477 Skewness 0,68429 0,410269 0,014344 -0,48900657 -0,34518 -0,59308 Range 8 1 14 93 4 3 Minimum 2000 1 1 3 1 1 Maximum 2008 2 15 96 5 4 Sum 611138 427 2529 14421 597 876
3. kasutatud tunnid Mean 1.7986755319 Standard Error 0.1089018002 Median 1 Mode 1 Standard Deviation 1.4931862555 Sample Variance 2.2296051936 Kurtosis 4.3121875448 Skewness 1.8892115412 Range 8 Minimum 0 Maximum 8 Sum 338.151 Count 188 Bin Frequency Cumulative % 0 2 1.06% 0.00782 1 1.60% 0.01564 1 2.13% Histogram 0
Haridus, teadus Harjumaa Mean Töötlev tööstus Harjumaa Standard Error Töötlev tööstus Harjumaa Median Haridus, teadus Tallinn Mode Põllumajandus, metsandus Harjumaa Standard Deviation Töötlev tööstus Tallinn Sample Variance Töötlev tööstus Tallinn Kurtosis Teenindus Tallinn Skewness Teenindus Harjumaa Range Töötlev tööstus Tallinn Minimum Töötlev tööstus Harjumaa Maximum Töötlev tööstus Tallinn Sum Põllumajandus, metsandus Harjumaa Count Töötlev tööstus Tallinn Confidence Level(95,0%) Kaubandus Tallinn Kaubandus Harjumaa Ostude summa kokku
2003 173 205,7 Mean 197,7883 2003 203 183,4 Standard Error 4,964388 2003 204 180,0 Median 200 2003 209 233,3 Mode 200 2003 212 160,0 Standard Deviation 72,45285 2003 214 166,7 Sample Variance 5249,416 2003 215 130,0 Kurtosis 0,022152 2003 220 60,0 Skewness 0,289226 2003 222 180,0 Range 350 2003 227 106,7 Minimum 50 2003 229 200,0 Maximum 400 2003 230 150,0 Sum 42128,9 2003 231 240,0 Count 213 2003 233 200,0 2003 234 87,5 2003 236 50,0 2003 237 60,0 2003 240 250,0
Friedrich Wohler synthesized urea, demonstrating that life processes operate under well-known chemical laws and are therefore subject to experimentation and control, and leading to today's vast strides in biochemistry. When Friedman subsumed cryptanalysis under statistics, he likewise flung wide the door to an armamentarium to which cryptology had never before had access. Its weapons—measures of central tendency and dispersion, of fit and skewness, of probability and sampling and significance—were ideally fashioned to deal with the statistical behavior of letters and words. Cryptanalysts, seizing them with alacrity, have wielded them with notable success ever since. This is why Friedman has said, in looking back over his career, that The Index of Coincidence was his greatest single creation. It alone would have won him his reputation. But in fact it was only the beginning. He and Mrs
Standard Error 184.53701512 standrad viga Median 3666 median Mode #N/A mode Standard Deviation 885.00843434 standrad hälve Sample Variance 783239.92885 variatsioonikordaja Kurtosis -1.149402015 kurtosis Skewness -0.15651816 skewness Range 2840 haare Minimum 1998 min Maximum 4838 max Sum 81805 summa Count 23 count
Median 3314 3,5 128 8 Mode 2780 3,8 98 9 Standard Deviation 789,55825458 0,53724298 14,3815096591 1,3383078639 Sample Variance 623402,23737 0,28863002 206,8278200753 1,7910679385 Kurtosis -0,687695682 -0,53919645 -0,5128025788 0,1993941548 Skewness -0,1674898162 0,242675368 -0,2660975849 -0,8172795924 Range 3918 2,7 56 6 Minimum 1444 2,4 97 3 Maximum 5362 5,1 153 9 Sum 1905077 2078,06 74521 4494