Hard test 10 Coefficient of Skewness 11 Interpreting Coefficient of Skewness Values range from -3 to +3 Box plot Also known as box-and-whisker plot. 13 Example Draw a box-plot for the following data: 15, 13, 6, 5, 12, 28, 22, 18 Skewness from box plot 15 Outliers •An extremely high or an extremely low data value when compared with the rest of the data values. •Discuss examples When is a value an outlier? When the value is a) greater than Q3 + 1.5(interquartile range) b) less than Q1 – 1.5(interquartile range) Example Check this data for outliers 5 6 12 13 15 18 22 50
has to be fast. Nextly he discussed about addressing data quality – even if one can find the data quickly and put it in the proper context for the audience, the value of data will be jeopardized if the data is not accurate or timely. He continued with displaying meaningful results – people have a hard time understanding a graph that has 10 billion plotting points, so clustering data is one way to solve this. And lastly dealing with outliers – many analytics remove the outliers from the data. I conclued my presentation with some thoughts that I came across during the search for information. Big data is inevitable in today’s world business and it helps keeping your customers satisfied. In the future it is likely that Data volumes will continue to grow, Ways to analyse data will improve and More tools for analysis will emerge.
täpsed! Järgnevalt tuleb vaadata Sig.-i (olulisuse tõenäosus). Kui Sig on väiksem kui 0.05, siis ei ole testi(de) kohaselt andmed normaaljaotuslikud. Praktikas aga on omajagu harv normaaljaotustestide põhjal leida normaaljaotuslikkust levinud on asümmeetriakordaja (skewness) ning ekstsessi (kurtosis) vaatamine. Nii K-S kui ka S-W testidel on omad probleemid; üheks neist on liigne tundlikkus äärmuslikele väärtustele ehk erinditele (outliers). Andmeid peetakse normaaljaotuslikult siis, kui nii asümmeetriakordaja kui ka järsakusaste/ekstsess on vahemikus (-0.5;0.5); liberaalsemalt on aga levinud ka vahemike (-1; 1) kasutamine 4) GRUPPIDE KESKMISED JA USALDUSPIIRID Käsklusrida: Analyze - Compare Means Vaatame andmeid ka graafiliselt. Joonistame usalduspiirid. Selleks tuleb valida järgnevad käsklused: Ül: Leiame naiste ja meeste matemaatika keskmise tulemuse.
Heteroskedastiivsus (2. eeldus pole täidetud) esineb enamasti ristandmete juures. Juhuslike liikmete dispersioon on konstantne (homoskedastiivsus). Kui pole konstantne, siis on heteroskedastiivsus. Var(ui )= const 40. Heteroskedastiivsuse võimalikud põhjused. · Matemaatilise mudeli vale kuju näiteks log-lin asemel hinnatakse lineaarset mudelit · Mõni oluline seletav tunnus on mudelist välja jäänud · Üks või mitu seletavat tunnust on asümmeetrilised. · Üksikute erindite (outliers) esinemine vaatluste hulgas. · Andmekogumismeetodid paranevad -> vaatlusvigade suurus väheneb, st juhuslikud liikmed vähenevad · Muud põhjused suurema kasumiga ettevõtetel on dividendipoliitikas suuremad erinevused suurema sissetulekuga peredel on säästmisharjumused rohkem hajunud HETEROSKEDASTIIVSUST VÕIB PÕHJUSTADA NII MUDEL KUI KA ANDMED 41. Heteroskedastiivsuse mõju parameetrite hinnangutele. Vealiikmete dispersioon EI ESINE parameetrite HINNANGUTE arvutusvalemites
(intercept) ning sirge tõus (gradient) kirjeldab sirge paiknemist y- ja x-telje vahel (vt Fieldi õpikust lk 199). Sisuliselt üritab lineaarne regressioon läbi andmepunktide parve joonistada sirge, millest võimalikult palju väärtusi on sarnase kaugusega. Regressioonianalüüsi läbiviimiseks on 6 eeldust: 1 sõltuva muutuja andmed on intervall- või suhteskaalal (st on pidevtunnus); 2 muutujatevaheline suhe on lineaarne; 3 puuduvad märkimisväärsed erindid (outliers); 4 vaatluste sõltumatus; 5 püsihajuvus (homoskedastilisus; homoscedasticity); 6 jääkide normaaljaotuslikkus (normality of residuals). Kui 1. ja 4. eeldust saab juba lausa enne uuringu läbiviimist täita, siis eeldused 2, 3 ja 5 on testitavad hajuvusdiagrammiga, st üldist pilti on võimalik vaadelda graafiliselt. Eeldust 6 saame testida siis, kui viime läbi regressioonianalüüsi.
Homoskedastiivsus Heteroskedastiivsus · Üks või mitu seletavat tunnust on asümmeetrilised. Y · Üksikute erindite (outliers) esinemine vaatluste hulgas. Y · Andmekogumismeetodid paranevad -> vaatlusvigade suurus väheneb, st juhuslikud liikmed vähenevad x x
kõige rohkem tulemusi ja teeks kõige vähem vigu. Nimetatakse ka Ordinary Least Squares OLS, kuna leitakse selle järgi, millisel juhul on ruutvigade summa kõige väiksem. Lineaarne- ehk paarisregressioon Eeldused: Sõltuva muutuja andmed on intervall- või suhteskaalal (st on pidevtunnus); Vaatluste sõltumatus; Muutujatevaheline suhe on lineaarne – kontrollime hajuvusdiagrammiga; Puuduvad märkimisväärsed erindid (outliers) – kontrollime hajuvusdiagrammiga; Koostamine JASPis: Valige Regression - Linear Regression. Tõstke sõltuv muutuja kasti nimega Dependent Variable ja sõltumatu muutuja ehk prediktor kasti nimega Covariate. Tulemuste tõlgendamine: o Regressioonivõrrand: sissetulek = −3.57 × vanus + 409,98 a näitab, kui palju muutub y ühe x-ühiku muutumise korral (iga aastaga
– Kontrollimiseks salvestada jääkliikmed ja viia läbi nende keskväärtuse võrdlemine nulliga (t-test). 45. Mis on heteroskedastiivsus, mis on homoskedastiivsus. 46. Heteroskedastiivsuse võimalikud põhjused. • Matemaatilise mudeli vale kuju. – näiteks log-lin asemel hinnatakse lineaarset mudelit • Mõni oluline seletav tunnus on mudelist välja jäänud. • Üks või mitu seletavat tunnust on asümmeetrilised. • Üksikute erindite (outliers) esinemine vaatluste hulgas. • Andmekogumismeetodid paranevad -> vaatlusvigade suurus väheneb, st juhuslikud liikmed vähenevad. • Muud põhjused – suurema kasumiga ettevõtetel on dividendipoliitikas suuremad erinevused; – suurema sissetulekuga peredel on säästmisharjumused rohkem hajunud. HETEROSKEDASTIIVSUST VÕIB PÕHJUSTADA NII MUDEL KUI KA ANDMED 47. Heteroskedastiivsuse mõju • Vealiikmete dispersioon EI ESINE parameetrite HINNANGUTE arvutusvalemites.
Setts and the city John Davison 02.12.11 BADGERS · Urban badgers What is a sett? · A kind of underground burrows, where they rest during the day Badger study · Badgers are well studied, but bias towards · Natural historants · Wildlife host for important disease: bowline tuberculosis · Model species for studying social behaviour · Two general characteristics: use of settts, socio-territorial organisation Badger setts main setts and the outliers · Badgers use main setts and a number of `outlier' setts · Outlier setts o Parasite avoldance? o Aggression avoldance? o Effeicient travel? · Main sett o Thermodynamic o Anti-predator Rural badgers group sociality · Live in social group < 30 individuals · Groups form through delayed dispersal · Group member share setts and above-ground space · Groups defend territories (even from the same species)
already doing better than the treatment group at the start, then adjust for the baseline in your analysis. Ignore dropouts People who drop out of trials are statistically much more likely to have done badly, and much more likely to have had side- e ects. They will only make your drug look bad. So ignore them, make no attempt to chase them up, do not include them in your final analysis. Clean up the data Look at your graphs. There will be some anomalous `outliers', or points which lie a long way from the others. If they are making your drug look bad, just delete them. But if they are helping your drug look good, even if they seem to be spurious results, leave them in. `The best of five ... no ... seven ... no ... nine!' If the difference between your drug and placebo becomes significant four and a half months into a six-month trial, stop the trial immediately and start writing up the results: things might get less impressive if you carry on