Andmeanalüüs MS Exceli abil (6)

4 HEA

Andmeanalüüs MS Exceli abil
Andmeanalüüs MS Exceli abil
Järgnev õpetus püüab võimalikult 'puust ja punaselt' ette näidata elementaarse andmeanalüüsi teostamise võimalused MS Excelis . Samas ei ole see materjal mõeldud matemaatilise statistika konspektiks, vastavad teadmised/materjalid eeldatakse kasutajal enesel olemas olevat. Seetõttu pole ka eriti tegeletud konkreetsete näidetega ega tulemuste tõlgendamisega.
See konspekt ei ole Andres Kiviste 1998 aastal ilmunud vihiku "Matemaatilise statistika algteadmisi ja rakenduslikke näiteid MS Exceli keskkonnas" ümbertrükk. MS Wordi dokumendina oli ta olemas juba pool aastat enne ülalnimetatud raamatu ilmumist ja sai siis ka tudengitele kätte jagatud. Kiviste raamatut võite kasutada kui lisa siinsele õpetusele, saamaks enam statistika ja ka tõenäosusteooria alaseid algteadmisi.
Põhilised andmeanalüüsi teostamise vahendid MS Exceli keskkonnas on funktsioonid ja protseduurid, aga ka Chart Wizard'i abil lisatavad joonised ja Pivot Table'iga konstrueeritavad tabelid. Järgnevad kirjeldused baseeruvad versioonil MS Excel 97, kuid selle erinevus nii eelnevast kui ka uuemast (Excel 2000) versioonist on statistilise andmetöötluse osas minimaalne (nn. tehnilisi erinevusi on jooniste ja tabelite konstrueerimisel).
Lühidalt peamistest andmeanalüüsi teostamise vahenditest Excelis
Joonised Funktsioonid Protseduurid Risttabelid (Pivot Table) Sagedustabelid ja -histogrammid
Pidev arvtunnus Diskreetne arvtunnus Mittearvuline tunnus Arvkarakteristikud Usalduspiirid Hüpoteeside kontroll
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/ (1 of 2)29.05.2006 15:08:49 Andmeanalüüs MS Exceli abil
Üldskeem z-test (keskväärtuse võrdlemine konstandiga, kahe üldkogumi keskväärtuste võrdlemine teadaolevate dispersioonide korral) t-test (kahe üldkogumi keskväärtuste võrdlemine võrdsete ja mittevõrdsete dispersioonide, sõltuvate ja sõltumatute vaatluste korral) F-test (kahe üldkogumi dispersioonide võrdlemine) Korrelatsioonanalüüs Regressioonanalüüs 2 Kahemõõtmeline sagedustabel , -test Dispersioonanalüüs (pole veel)
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/ (2 of 2)29.05.2006 15:08:49 Andmeanalüüs MS Exceli abil - vahendid
Andmeanalüüs MS Exceli abil
Peamised MS Exceli andmeanalüüsi teostamise vahendid
Joonised Funktsioonid Protseduurid Pivot Table
Joonised
MS Exceli põhiline jooniste tegemise vahend on Chart Wizard, mis on käivitatav nupu alt või menüüst Insert käsuga Chart....
Joonise tegemiseks tuleb hiirega valida analüüsitav andmeblokk, klikkida Chart Wizard'i nupul, valida graafiku tüüp ja järkjärgult Next-käsuga edasi liikudes kujundada sobiv graafik soovitud asukohta . Muidugi on võimalik jooniseid ka hiljem kujundada, parandada jne.
Siinkohal ei hakka jooniste tegemisel enam pikemalt peatuma , kuna igas Exceli juhendis on sellest piisavalt juttu ja midagi sellist, kus ilma näpuga rida ajamata võiks saada vale tulemuse, pole ka oodata.
Linke:
http://www.ut.ee/~kaidoh/arvutiopetus/ http://www.math.ut.ee/kursused/sjs_informaatika/Excel/Excel.html
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (1 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - vahendid
Funktsioonid
MS Exceli funktsioonid on leitavad nupu alt (või lisatavad menüüst Insert käsuga Function ...). Statistikafunktsioonid paiknevad järgnevalt avaneva akna vasakpoolses tulbas nimetuse Statistical all.
Märkides ära mingi funktsiooni, näitab Excel selle kirjapilti (süntaksit) koos võimalike argumentidega ja annab ka lühikirjelduse. Pikem seletus iga funktsiooni kohta on leitav Help-nupu alt.
Kõigil funktsioonidel tuleb sisestada argumendid (kas klaviatuurilt või andmetabelist hiirega valides ), mis võivad koosneda nii ühest arvust (vabadusastmete arv, olulisuse nivoo) kui ka tervest andmeblokist (ilma tunnuse nimeta).
Funktsiooni rakendamise tulemusena väljastatakse tavaliselt kasutaja poolt eelnevalt märgitud lahtrisse üks arv - funktsiooni väärtus (keskväärtus, olulisuse tõenäosus), mis peale argumentide valikut ilmub kontrolliks ka funktsiooniakna allserva (Formula result ) [vanematel Exceli versioonidel üles paremasse nurka].
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (2 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - vahendid
Protseduurid
MS Exceli statistikaprotseduuride loetelu avaneb menüüst Tools käsu Data Analysis alt.
NB! Kui Data Analysis Teie arvutis puudub, tuleks liikuda menüüst Tools käsule Add-Ins... ja tehe avanevas aknas " linnuke " nimetuse Analysis ToolPak ees olevatesse kastidesse. Kui Te ka nüüd, peale OK vajutamist, ei leia menüüst Tools käsku Data Analysis, on MS Exceli statistikaprotseduurid jäänud Teie arvutis ilmselt installeerimata (soovi korral tuleks installeerimist korrata ).
Sarnaselt funktsioonidega tuleb iga statistikaprotseduuride loetelust valitud analüüsi korral sisestada argumendid (andmeblokid).
Kuid erinevalt funktsioonidest võib sisestatav andmeblokk sisaldada esimeses reas ka tunnuse nime, mida programm kasutab hiljem tulemuste väljatrükis. Sellisel juhul tuleb teha "linnuke" nimetuse Labels (in First Row) ees olevasse kasti.
Samuti tuleb erinevalt funktsioonidest määrata ka tulemuste väljastamise asukoht: Output Range - tulemus väljastatakse olemasolevale lehele, määrata tuleb
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (3 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - vahendid
väljundi vasaku ülemise nurga aadress (tulemus samale lehele andmetabeliga) või töölehe nimi ja väljundi vasaku ülemise nurga aadress; New Worksheet Ply - tulemus väljastatakse uuele loodavale töölehele (soovi korral saab viimasele anda ka nime, trükkides selle valiku taga asuvasse tekstikasti); New Workbook - tulemus väljastatakse uude loodavasse tööraamatusse (faili).
Ülejäänud valikud sõltuvad juba konkreetsest protseduurist ja saavad kirjeldatud selle õpetuse järgnevais osades.
Võrreldes funktsioonidega sisaldab väljund eneses ka märksa rohkem informatsiooni, koosnedes tavaliselt ühest või mitmest tabelist ja/või joonisest.
Pivot Table
Neljas andmeanalüüsil kasutatav MS Exceli vahend on Pivot Table (nn. pöördtabel või risttabel ), mille konstrueerimiseks tuleb liikuda menüüst Data käsule Pivot Table Report ....
Esimese sammuna tuleb valida, millisel kujul on uuritav andmestik (vaikimisi ühel lehel paiknev Exceli andmetabel, ülejäänud valikud võimaldavad konstrueerida risttabeli ka mitte-Exceli andmete või mitme andmetabeli baasil). Edasi vaatame juhtu, kus andmestikuks on ühel lehel paiknev Exceli andmetabel.
Teise sammuna tuleb määrata uuritav andmeblokk (kas klaviatuurilt või hiirega andmetabelist. Kui kursor asus enne analüüsi algust andmetabelil, pakub MS Excel vaikimisi andmeblokiks kogu andmestikku). Soovitud lahtrid võib märgistada ka enne käsu Pivot Table Report... valimist.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (4 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - vahendid
Kolmandas, peale Next-käsku avanevas aknas toimub põhiline tabeli konstrueerimine: Akna paremas osas paiknevast tunnuste loetelust hiirega tunnuseid Pivot Table'i plaanile lohistades saab määrata nii rea- ja veerufaktori(d) (ROW ja COLUMN ) kui ka tunnuse(d), mille väärtused fikseerivad erinevad tabeli leheküljed (PAGE). Topeltklõps DATA-lahtrisse lohistatud tunnustel avab rippmenüü, kust saab valida, millisel kujul see tunnus esitada (milliseid arvkarakteristikuid leida).
Viimase, neljanda sammuna, tuleb määrata tabeli asukoht - kas uus alles loodav või juba eksisteeriv tööleht.
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (5 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - sagedustabelid
Andmeanalüüs MS Exceli abil
Sagedustabelid
Pidev arvtunnus Diskreetne arvtunnus Mittearvuline tunnus
Pidev arvtunnus
Pideva arvtunnuse klassifitseerimiseks (rühmitamiseks) ja sagedustabeli moodustamiseks on MS Exceli statistikaprotseduuride (Tools -> Data Analysis) hulgas protseduur Histogram .
Selle rakendamiseks on esmalt vaja moodustada rühmitamiseeskiri rühmade ülemiste piiride bloki näol. Näiteks, kui me soovime jagada tunnust 'pikkus' klassidesse: 165 ja alla selle, 166-180, 181-195 ja üle 195 cm, siis peame Excelis sisestama arvudebloki 165, 180, 195:
Pikkus 182 164 168 176 186 193 179 193 164 Bin_pikkus 165 180 195
Piisab vaid kolmest klassipiirist, kuna protseduur Histogram genereerib ise alati ühe lisaklassi rühmitamiseeskirjaga mittemääratud väärtuste tarvis (antud juhul siis inimestele pikkusega üle 195 cm).
Protseduuri Histogram aknas tuleb täita järgmised väljad:
Input Range - algandmete blokk (tavaliselt üks tulp); Bin Range - rühmade ülemiste piiride väärtuste blokk; Labels - märgitakse tunnuse nime või tähise olemasolu korral andmebloki ülemises reas; Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook); Pareto (sorted histogramm ) - sagedused järjestatakse kahanevas järjekorras; Cumulative Percentage - arvutatakse jaotusfunktsiooni väärtused; Chart Output - tulemused väljastatakse lisaks tabelile ka graafikul (tulpdiagrammina).
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/sagedustab.html (1 of 4)29.05.2006 15:08:54 Andmeanalüüs MS Exceli abil - sagedustabelid
Prots. Histogram aken
Peale lahtrite täitmist protseduuri Histogram tellimisaknas saame MS Ecxeli uuele töölehele järgneva tabeli ja graafiku.
Bin_pikkus Frequency Cumulative %
165 2 22.22%
180 3 55.56%
195 4 100.00%
More 0 100.00%
NB! Saadud sagedustabeli ja graafiku tõlgendamisel tuleb silmas pidada, et toodud arvud (tabeli esimeses veerus ja graafiku x-teljel) pole mitte rühmade keskmised, vaid ülemised piirid, ja edasiste väärarusaamade vältimiseks oleks soovitav need asendada tegelike väärtustevahemikega.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/sagedustab.html (2 of 4)29.05.2006 15:08:54 Andmeanalüüs MS Exceli abil - sagedustabelid
Diskreetne arvtunnus
Esimene variant on konstrueerida sagedustabel ja tulpdiagramm analoogselt pidevale arvtunnusele protseduuri Histogram abil.
Erinevus on vaid rühmitamiseeskirjas. Nimelt peab enne protseduuri käivitamist olema moodustatud rühmitamiseeskiri tunnuse kõigi erinevate väärtuste bloki näol. See väärtuste blokk tuleb omistada ka protseduuri aknas väljale Bin Range.
Matemaatika hinne 3 4 4 5 4 3 4 3 5 Bin_hinne 3 4 5
Ühe väärtustest (tavaliselt suurima, antud näites siis hinde '5') võib jätta ka ette andmata, kuna Excel lisab jällegi ise ühe klassi võimalike defineerimata väärtuste tarvis, tähistades selle väljatrükis sõnaga More.
-----------------------------------------------
Teine variant on kasutada sagedustabeli konstrueerimisel Pivot Table'i abi (lähemalt on sellest juttu järgnevas, mittearvulise tunnuse sagedustabeli tegemist käsitlevas osas).
Mittearvuline tunnus
Esimene variant on kodeerida tunnus arvuliseks ja analüüsida seejärel kui diskreetset arvtunnust.
-----------------------------------------------
Teine variant on kasutada Pivot Table't (käsk Pivot Table Report menüüst Data).
- Pivot Table kaks esimest sammu läbige nagu tavaliselt (st., andke Excelile ette uuritav andmeblokk (või nõustuge arvuti pakutuga) ja klikkige nupul Next). - Tabeli konstrueerimise aknas (vt. pilti) tuleb lohistada mittearvuline uuritav tunnus veeru - (või rea-) faktori kohale (vastavalt lahtritesse Column või Row). - Tabeli Data- ossa lohistada tunnuste loetelust sama tunnus. - Kui Data-lahtrisse ei teki kirja ' Count of ...', tehke lohistatul topeltklõps ning valige leitavaks arvkarakteristikuks tunnuse väärtuste arv Count.
Kas te armastate mannaputru? ei ei jah ei jah vist jah jah ei
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/sagedustab.html (3 of 4)29.05.2006 15:08:54 Andmeanalüüs MS Exceli abil - sagedustabelid
Tulemusena saame järgmise sagedustabeli:
Count of Mannapuder ? Mannapuder? ei jah vist Grand Total Total 4 4 1 9
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/sagedustab.html (4 of 4)29.05.2006 15:08:54 Andmeanalüüs MS Exceli abil - sagedustabelid
Andmeanalüüs MS Exceli abil
Arvkarakteristikud
Protseduur Valemid Pivot Table Descriptive Statistics
Valemid
Esiteks on arvkarakteristikud võimalik leida, realiseerides nende arvutamise valemid Exceli valemitena. Mõned vähekasutatavad parameetrid ongi ainult nii leitavad (näiteks üldkogumi ekstsess ja asümmeetriakordaja).
Järgmises väljavõttes MS Exceli ekraanipildist on valemireal näha tunnuse 'Pikkus' keskmise arvutamiseks kasutatav valem, mille tulemusena arvuti väljastas kursoriga määratud kohta soovitud arvkarakteristiku.
Keerulisemate valemite korral on enne lõpliku vastuse saamist vigade vältimiseks soovitav leida mitmeid vahetulemusi (näiteks tunnuse väärtuste ruudud , nende summad jne.).
-----------------------------------------------
Teiseks on kõigi enamkasutatavate arvkarakteristikute leidmiseks MS Exceli funktsioon, näiteks AVERAGE - aritmeetiline keskmine, STDEV - standardhälbe valimhinnang, SKEW - asümmeetriakordaja jne. Kõigi nende funktsioonide argumendiks on uuritava tunnuse väärtusi sisaldav andmeblokk.
Tunnuse 'Pikkus' keskväärtus leituna funktsiooni AVERAGE abil.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (1 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
Funktsiooni argumentidena on ette antud lahtrid B1-J1, mis sisaldavad uuritava tunnuse väärtusi.
NB! Funktsioonide korral sisestatakse andmeblokk ilma tunnuse nimeta.
Protseduur Descriptive Statistics
Kolmas viis leida tunnuseid iseloomustavaid arvkarakteristikuid on protseduur Descriptive Statistics, mis peale "linnukese" tegemist valiku Summary statistics ette väljastab korraga kõik olulisemad valimi arvkarakteristikud ja valiku Confidence Level for Mean korral ka keskväärtuse usaldusintervalli.
Protseduuri Descriptive Statistics (Tools -> Data Analysis) tellimisaknas tuleb määrata järgmised väljad:
Input Range - algandmete blokk (võib sisaldada ka mitut veergu (rida), st. võib analüüsida korraga mitut tunnust); Grouped By - määratakse andmete paigutus blokis, tavaliselt on erinevad tunnused paigutatud erinevatesse tulpadesse (Columns), kuid võivad olla ka erinevates ridades (Rows); Labels In First Column - märgitakse tunnuse nime või tähise olemasolu korral andmebloki ülemises reas; Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook); Summary statistics - määratakse, kas karakteristikute väärtused üldse väljastatakse; Confidence Level for Mean - määratakse usaldusnivoo protsentides keskväärtuse usalduspiiride arvutamiseks; Kth Largest - määratakse järjekorranumber K, et teada saada suuruse poolest K-ndat väärtust; Kth Smallest - määratakse järjekorranumber K, et teada saada väiksemalt poolt K- ndat väärtust.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (2 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
Descriptive statistics
Ülaltoodud valikute tulemusel saame MS Exceli uuele töölehele järgneva tunnuse 'Pikkus' arvkarakteristikute tabeli (lisatud ka eestikeelsed vasted):
Pikkus Mean 178.33 Keskmine Standard Error 3.77 Standardviga Median 179.00 Mediaan Mode 164.00 Mood Standard Deviation 11.32 Standardhälve Sample Variance 128.25 Dispersioon Kurtosis -1.44 Ekstsess Skewness -0.02 Asümmeetriakordaja Range 29.00 Haare Minimum 164.00 Väikseim väärtus Maximum 193.00 Suurim väärtus Sum 1,605.00 Summa Count 9.00 Valimi maht Liidetav keskväärtuse usalduspiiride Confidence Level(95.0%) 8.70 arvutamiseks
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (3 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
Pivot Table
Olulisemate arvkarakteristikute leidmiseks mingi klassifitseeriva tunnuse eri tasemetel võib kasutada ka Pivot Table abi.
Näiteks olgu meil peale pikkuse teada ka tunnuse 'Sugu' väärtused:
Sugu Mees Naine Naine Mees Mees Mees Mees Mees Naine Pikkus 182 164 168 176 186 193 179 193 164
Ja soovime leida meeste ja naiste arvu ning keskmisi pikkusi eraldi mõlema soo korral. Täites Pivot Table's lahtrid nagu juuresoleval pildil, saame tulemuseks tabeli, kus on kirjas vaatluste arv (Count) ja keskmised (Average) pikkused nii sugude kaupa kui ka kõik kokku.
Sugu Data Mees Naine Grand Total
Count of Pikkus 6 3 9
Average of Pikkus 184.83 165.33 178.33
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (4 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (5 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
Andmeanalüüs MS Exceli abil
Usalduspiirid
Protseduur Valemid Descriptive Statistics
Valemid
Enamkasutatavad usalduspiirid on MS Excelis konstrueeritavad erinevatest funktsioonidest moodustatavate valemite abil. Vajalikud valemid on toodud enamuses statistikaraamatuis. Siinkohal võiks lisada vaid erinevate jaotuste (täiend)kvantiilide arvutamiseks mõeldud Exceli funktsioonid (funktsioonide nimetuste taga sulgudes olevate argumentide väärtused tuleb ise ette anda, - olulisuse nivoo, n - valimi maht): , , .
Näiteks lahtrites A1-J1 ( lahtris A1 on tunnuse nimi) paikneva tunnuse 'Pikkus' keskväärtuse 95%-lise alumise ja ülemise usalduspiiri saame arvutada vastavalt valemitest:
ja .
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/uspiir.html (1 of 3)29.05.2006 15:08:58 Andmeanalüüs MS Exceli abil - sagedustabelid
-----------------------------------------------
Funktsioon CONFIDENCE(, s, n)
Juhul, kui uuritava tunnuse dispersioon on teada, on keskväärtuse usalduspiiride leidmiseks kasutatav funktsioon CONFIDENCE(, s, n). See funktsioon väljastab suuruse väärtuse etteantud olulisuse nivoo , teadaoleva standardhälbe ja valimi mahu n korral.
NB! Saadud arv näitab usalduspiiride kaugust keskväärtusest, usalduspiiride eneste leidmiseks tuleb see siis kas liita või lahutada aritmeetilisest keskmisest.
Protseduur Descriptive Statistics
Kui uuritava tunnuse dispersioon ei ole teada (ja nii see tavaliselt on), on kasutatav protseduuri Descriptive Statistics valik Confidence Level for Mean. Tellimusakna täitmine kulgeb analoogselt arvkarakteristikute leidmisel kirjeldatuga, lisaks võib ette anda usaldusnivoo (1-)*100% (vaikimisi on selleks 95%). Tulemusena väljastatakse arvkarakteristikute tabelis suurus , mis näitab uuritava tunnuse keskväärtuse kaugust oma alumisest ja ülemisest usalduspiirist olulisuse nivool . (Vt. ka arvkarakteristikute leidmine protseduuri Descriptive Statistics abil.)
Usalduspiirid leitakse liites saadud arvu pluss- ja miinusmärgiga tunnuse aritmeetilisele keskmisele:
ülemine usalduspiir ,
alumine usalduspiir .
(Samad valemid on ülal näitena realiseeritud MS Exceli valemitena, kus ka protseduuri Descriptive Statistics poolt väljastatav suurus arvutatakse ise.)
[email protected]
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/uspiir.html (2 of 3)29.05.2006 15:08:58 Andmeanalüüs MS Exceli abil - sagedustabelid
http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/uspiir.html (3 of 3)29.05.2006 15:08:58 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll
Andmeanalüüs MS Exceli abil
Hüpoteeside kontroll
Üldine skeem
z-test Kahe üldkogumi keskväärtuste Üldkogumi keskväärtuse võrdlemine võrdlemine teadaolevate dispersioonide konstandiga korral t-test Keskväärtuste võrdlemine Kahe üldkogumi Keskväärtuste võrdlemine mittevõrdse keskväärtuste võrdlemine võrdse dispersiooniga dispersiooniga sõltuvate vaatluste korral üldkogumite korral üldkogumite korral
F-test Kahe üldkogumi dispersioonide võrdlemine
Üldine skeem
Sõltuvalt andmete olemusest ja kontrollitava hüpoteesi tüübist on MS Excelis mitmeid erinevaid võimalusi vastava analüüsi teostamiseks. Järgnev skeem annab lühiülevaate, millist funktsiooni või protseduuri millal ja mis järjekorras kasutada.
Protseduur z-Test: Two Sample for means
Varieeruvus Protseduur Mõlema üldkogumi võrreldavates t-Test: Two Sample dispersioonid on teada üldkogumites on erinev Assuming Unequal (p=0,05) Variances Protseduur t-Test: Paired Two Sample for Means
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot.html (1 of 2)29.05.2006 15:08:59 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll
Kahe üldkogumi keskväärtuste võrdlemiseks nii sõltuvate kui ka funktsioon sõltumatute vaatluste ning nii TTEST(Array1,Array2, võrdsete kui ka mittevõrdsete Tails ,Type) dispersioonide korral on kasutatav ka
Soovitakse võrrelda üldkogumi Funktsioon keskväärtust konstandiga ZTEST( Array ,X, Sigma )
Soovitakse kontrollida hüpoteesi Protseduur esimese üldkogumi suuremast varieeruvusest F-Test: Two-Sample for (H1: ) Variances
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot.html (2 of 2)29.05.2006 15:08:59 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (z-test)
Andmeanalüüs MS Exceli abil
Hüpoteeside kontroll
Üldine skeem
z-test Kahe üldkogumi keskväärtuste Üldkogumi keskväärtuse võrdlemine võrdlemine teadaolevate dispersioonide konstandiga korral
Üldkogumi keskväärtuse võrdlemine konstandiga
MS Exceli funktsioon ZTEST(Array, X, Sigma) võimaldab normaaljaotusega tunnuse kohta kontrollida kahepoolset hüpoteesi selle tunnuse keskväärtuse m võrdumisest mingi konstandiga c: .
Array - algandmete blokk (ilma tunnuse nimeta); X - konstant, millega võrdumist kontrollitakse (c); Sigma - populatsiooni teadaolev standardhälve (NB! Võib ka puududa , siis arvutab programm ise valimi standardhälbe ja kasutab seda).
Tulemuseks väljastab Excel eelnevalt kursoriga määratud lahtrisse olulisuse tõenäosuse p väärtuse. Kui leitud p http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot_ztest.html (1 of 2)29.05.2006 15:09:00 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (z-test)
Kahe üldkogumi keskväärtuste võrdlemine teadaolevate dispersioonide korral
Kahe üldkogumi keskväärtuse võrdlemine teadaolevate dispersioonide korral on võimalik MS Exceli protseduuriga z-Test: Two Sample for means (Tools -> Data Analysis).
Protseduuril tuleb ette anda
mõlema valimi andmete blokid (Variable 1 Range ja Variable 2 Range); oletatav keskväärtuste erinevus (vaikimisi null) - Hypothesized Mean Difference ; anda ette mõlema valimi teadaolevad dispersioonid (Variable 1 Variance ( known ) ja Variable 2 Variance (known)); kui andmete blokid sisaldasid esimeses reas/veerus nime, tuleb teha "linnuke" märgendi Labels ette; määrata olulisuse nivoo (vaikimisi 0,05) - Alpha; määrata tulemuste väljastamise asukoht.
Et tunnuste varieeruvust üldkogumis tavaliselt ei teata, siis leiab vaadeldav protseduur ka vähest kasutust . Tema väljund on analoogne järgnevalt vaadeldavate t-testide tulemusel saadavate tabelitega.
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot_ztest.html (2 of 2)29.05.2006 15:09:00 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (t-test)
Andmeanalüüs MS Exceli abil
Hüpoteeside kontroll
Üldine skeem
t-test Keskväärtuste võrdlemine Keskväärtuste võrdlemine Kahe üldkogumi mittevõrdse võrdse dispersiooniga keskväärtuste võrdlemine dispersiooniga üldkogumite korral sõltuvate vaatluste korral üldkogumite korral
Protseduur Funktsioon Protseduur Funktsioon Protseduur Funktsioon t-Test: Two Sample TTEST t-Test: Two Sample TTEST t-Test: Paired Two TTEST Assuming Equal Assuming Unequal Sample for Means Variances Variances
Kahe üldkogumi keskväärtuste võrdlemine - t-test
Keskväärtuste võrdlemine võrdse dispersiooniga üldkogumite korral
Kui funktsiooni FTEST poolt väljastatud olulisuse tõenäosus p >= 0,05, oleme sunnitud jääma nullhüpoteesi juurde, st. et varieeruvus kahes võrreldavas üldkogumis on ühesugune. Sellisel juhul saame nende üldkogumite keskväärtusi võrrelda protseduuri t-Test: Two Sample Assuming Equal Variances abil.
Protseduuri tellimisaknas tuleb täita järgmised väljad: Variable 1 Range - suurema aritmeetilise keskmisega valimi andmete blokk; Variable 2 Range - väiksema aritmeetilise keskmisega valimi andmete blokk; Hypothesized Mean Difference - oletatav keskväärtuste erinevus (vaikimisi null); Labels - märgitakse nime või tähise olemasolul andmebloki esimeses reas; Alpha - olulisuse nivoo (vaikimisi 0,05); Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).
Rakendades seda protseduuri F-testi peatüki lõpus vaadeldud mannaputru armastavate ja mittearmastavate tudengite kaalude erinevuse selgitamiseks, täidame väljad tellimisaknas
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot_ttest.html (1 of 4)29.05.2006 15:09:02 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (t-test)
ja saame tulemuseks järgmise tabeli:
t-Test: Two-Sample Assuming Equal Variances
Variable 1 Variable 2
Mean 65.875 64.250 Aritmeetilised keskmised
Variance 226.125 138.724 Dispersioonid
Observations 8 20 Valimite mahud
Pooled Variance 162,255 Ühendatud valimi dispersioon
Hypothesized Mean 0 Oletatav keskmiste erinevus Difference
df 11 Vabadusastmete arv
t Stat 0.305 t- statistik
P(T 0,05, siis ei õnnestu meil tõestada kehakaalude varieeruvuse erinevust.
Mannapuder? Kaal ei 63 64 88 88 48 57 52 67 ja 54 55 57 62 85 70 60 46 69 55 71 60 85 66 62 52 90 55 60 71
Kahe üldkogumi dispersioonide võrdlemine - F-test
Ühepoolne hüpotees
Hüpoteesi esimese üldkogumi suuremast varieeruvusest (H1: ) võimaldab kontrollida protseduur F-Test: Two-Sample for Variances (Tools -> Data Analysis).
Protseduuri tellimisaknas tuleb täita järgmised väljad: Variable 1 Range - suurema aritmeetilise keskmisega valimi andmete blokk; Variable 2 Range - väiksema aritmeetilise keskmisega valimi andmete blokk; Hypothesized Mean Difference - oletatav keskväärtuste erinevus (vaikimisi null); Labels - märgitakse nime või tähise olemasolul andmebloki esimeses reas; Alpha - olulisuse nivoo (vaikimisi 0,05); Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).
Protseduur väljastab tabelina järgmised suurused
Mean Aritmeetiline keskmine Variance Dispersioon Observations Valimi maht
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot_Ftest.html (2 of 3)29.05.2006 15:09:04 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (F-test)
df Vabadusastmete arv F F-statistik P(F Data Analysis).
Avanevas sisestusaknas tuleb määrata: Input Range - algandmete blokk (tunnused peavad paiknema järjestikustes veergudes); Grouped by - määratakse, kas tunnusvektorid on orienteeritud veerge pidi (Columns) või ridu pidi (Rows); Labels in First Row - märgitakse nimede või tähiste olemasolu korral tunnuste bloki esimeses reas; Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).
Tulemuseks on Exceli töölehele väljastatav kolmnurkse kujuga korrelatsioonikordajate maatriks :
Pikkus Kaal Mat.hinne Pikkus 1 Kaal 0.90652 1 Mat.hinne -0.16377 -0.223 1
Korrelatsioonikordajaga kirjeldatava lineaarse seose statistilise olulisuse üle otsustamiseks on mugav kasutada korrelatsioonikordajate olulisuse tabelit, mis on leitav enamuse statistikaõpikute lisades. Teine võimalus uuritava lineaarse seose statistilise olulisuse kontrollimiseks on teostada kahe uuritava tunnusega tavaline lineaarne regressioon protseduuri Regression abil. Lineaarse regressiooniseose statistilist olulisust iseloomustav olulisuse tõenäosus p kehtib ka lineaarse korrelatsioonikordaja jaoks (täpsemalt regressioonanalüüsi teostamisest Exceliga vt järgmisest peatükist).
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/korrel.html (2 of 3)29.05.2006 15:09:05 Andmeanalüüs MS Exceli abil - korrelatsioonanalüüs
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/korrel.html (3 of 3)29.05.2006 15:09:05 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Andmeanalüüs MS Exceli abil
Regressioonanalüüs
Chart Wizard Protseduur Regression Funktsioonid
Chart Wizard
Kahe tunnuse vahelisest sõltuvusest visuaalse ülevaate saamiseks on analüüsi esimese sammuna kasulik teha nende tunnuste vaheline hajuvusdiagramm (scatter plot ).
Näiteks tudengite pikkuste ja kaalude vahelise seose iseloomustamiseks saame alljärgneva toodud graafiku.
Lihtsaim viis kahe tunnuse vahelise regressioonanalüüsi tegemiseks on:
aktiveerida joonis; valida menüüst Chart käsk Add Trendline...; valida avanenud menüüst punktiparve kuju paremini jälgiv regressioonijoon (peale tavalise lineaarse regressiooni - Linear - on punktiparvele sobitatavad ka mitmed keerulisemad kõverad); valida samast Add Trendline...- aknast (sama aken avaneb ka peale hiire parempoolse nupu topeltklõpsu trendijoonel) lipik Options ja märkida seal ära käsud Display equation on chart ja Display R-squared value on chart.
Tulemuseks on joonis, kus lisaks punkti parvele on kujutatud ka regressiooni joon, regressioonivõrrand ja determinatsioonikordaja R2.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (1 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Antud näite korral on meil tudengi kaal prognoositav tema pikkusest valemiga Kaal = -107,5 + 0,9967*Pikkus, kusjuures selline mudel võimaldab ära kirjeldada 82% tunnuse 'Kaal' hajuvusest.
NB! Joonise tegemisel paigutage vertikaalsele teljele (y-teljele) uuritav (prognoositav) tunnus ja horisontaalteljele (x-teljele) argumenttunnus.
Protseduur Regression
Täieliku lineaarse regressioonanalüüsi tegemiseks on MS Exceli keskkonnas protseduur Regression (Tools -> Data Analysis). Erinevalt Chart Wizard'st või funktsioonidest võimaldab see teostada ka mitmest regressioonanalüüsi, argumenttunnuste blokid peavad siis vaid paiknema üksteise kõrval (et neid saaks ette anda ühe pideva andmeblokina)
Protseduuri sisestusaknas tuleb määrata:
Input Y Range - funktsioontunnuse andmete blokk; Input X Range - argumenttunnus(t)e andmete blokk; Labels - märgitakse nimede või tähiste olemasolu korral tunnuste bloki esimeses reas; Constant is Zero - märgitakse, kui tahetakse kontrollida tunnuste vahelist võrdelist sõltuvust (vabaliige a = 0); Confidence Level - usaldusnivoo parameetrite 1- usalduspiiride arvutamiseks; Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).
Nende sisestuste põhjal moodustatakse kolm tabelit lineaarse regressioonanalüüsi parameetrite hinnangute, nende veahinnangute ja dispersioonanalüüsiga.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (2 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Soovi korral võib sisestusaknas täiendavalt tellida :
Residuals - kõigi vaatluste prognoosijäägid; Standardizised Residuals - kõigi vaatluste standardiseeritud prognoosijäägid; Residuals Plot - prognoosijääkide graafik argumenttunnuse suhtes; Line Fit Plot - funktsioontunnuse ja prognooside graafik argumenttunnuse suhtes; Normal Probability Plot - funktsioontunnuse empiiriliste kvantiilide graafik (tõenäosuspaber).
Protseduuri Regression väljund
SUMMARY OUTPUT Regression Statistics Regressiooni statistikud Multiple R 0.9065 Mitmene korrelastsioonikordaja R Square 0. 8218 Determinatsioonikordaja Adjusted R Square 0.8158 Determinatsioonikordaja nihketa hinnang Standard Error 5.2218 Jääkstandardhälve Observations 32 Vaatluste arv
ANOVA Regressioonanalüüsi tulemuste dispersioonanalüüs
df SS MS F Significance F Vabadusastmete Hälvete ruutude Keskruut F-statistik Mudeli olulisuse arv summa tõenäosus (p)
Regression 1 3771.8629 3771.8629 138.3303 2.7085E-08 Regressioonisirge
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (3 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Residual 30 818.0121 27.2671 Prognoosijäägid
Total 31 4589.8750 Kokku
Regressioonivõrrandi kordajate analüüs
Coefficients Standard t Stat P-value Lower 95% Upper 95% Parameetri Error t-statistik Parameetri Alumine Ülemine hinnang Hinnangu olulisuse 95%-line 95%-line statndardviga tõenäosus usalduspiir usalduspiir
Intercept -107.5023 14.6057 -7.3603 3.37E-08 -137.3311 -77.6735 Vabaliige a
Pikkus 0.9967 0.0847 11.7614 9.2E-13 0.8236 1.1697 Regr. kordaja b
Protseduur Regression võimaldab väljastada ka kolm joonist:
Neist esimene, valikuga Residuals Plot tellitav , iseloomustab prognoosijääkide paiknemist argumenttunnuse suhtes. Kui regressioonanalüüsi eeldused on täidetud, peavad punktid sellel graafikul paiknema juhuslikult, ühtlaselt hajutatud punktiparvena.
Teine, valikuga Line Fit Plot tellitav graafik, näitab funktsioontunnuse ja prognooside paiknemist argumenttunnuse suhtes. See graafik on analoogne Chart Wizard'i abil saaduduga, kus hajuvusdiagrammile lisati lineaarne regressioonijoon (ka sellel graafikul võib prognoosidele vastavad punktid omavahel ühendada, saades nii regressioonisirge). Selline pilt on põhiline kahe tunnuse vahelise seose illustreerimiseks kasutatav joonis.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (4 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Kolmas, valikuga Normal Probability Plot tellitav graafik, on jällegi kasutatav regressioonanalüüsi eelduste täidetuse kontrollimiseks. Ideaalvariandis paiknevad selle graafiku punktid ühel diagonaalsel sirgel. Kui see nii ei ole, ei jaotu uuritav tunnus vastavalt normaaljaotusele.
Funktsioonid
Lineaarse regressioonivõrrandi parameetrite a ja b arvutamiseks võib kasutada ka funktsioone:
SLOPE(Known_y's,Known_x's) - väljastatakse regressioonisirge tõus b ette antud funktsioontunnuse y ja argumenttunnuse x blokkide korral;
INTERCEPT(Known_y's,Known_x's) - väljastatakse regressioonisirge vabaliige a ette antud funktsioontunnuse y ja argumenttunnuse x blokkide korral.
Determinatsioonikordaja R2 on leitav funktsioonist RSQ(Known_y's,Known_x's).
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (5 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (6 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - 2-mõõtmeline sagedustabel
Andmeanalüüs MS Exceli abil
Kahemõõtmeline sagedustabel. 2-test
Kahemõõtmeline 2-test sagedustabel
Kahemõõtmeline sagedustabel
Mittepidevate tunnuste vahelise seose iseloomustamiseks kasutatav kahemõõtmeline sagedustabel on MS Excelis konstrueeritav Pivot Table abil.
1. Selleks tuleb valida reafaktoriks üks ja veerufaktoriks teine uuritav tunnus.
2. Tabeli Data-lahtrisse lohistada suvaline tunnus paremal asuvast tunnuste loetelust ning peale hiire vasaku nupu topeltklõpsu sellel valida leitavaks arvkarakteristikuks vaatluste arv Count.
Pivot Table 2-mõõtmeline sagedustabel
3. Rea ja/või veeru suhteliste sageduste leidmiseks tuleb korrata sammu 2, st. lohistada tabeli Data-lahtrisse uuesti üks tunnus vasakul asuvast loetelust ning määrata leitavaks arvkarakteristikuks Count. Kuid lisaks sellele tuleb valida leitavate arvkarakteristikute määramise aknast käsk Options >>, mille tagajärjel avatud aken pikeneb. Pikenenud aknast määrata rippmenüüst Show data as: valik % of row reasageduste või % of
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/2sagedustab.html (1 of 4)29.05.2006 15:09:12 Andmeanalüüs MS Exceli abil - 2-mõõtmeline sagedustabel
column veerusageduste leidmiseks.
Pivot Table - suhtelised sagedused
Konstrueerides absoluutseid sagedusi ja suhtelisi reasagedusi sisaldava kahemõõtmelise sagedustabeli tudengite soo ja mannapudrulembuse uurimiseks, saame tulemuse kujul
Mannapuder? Sugu Data ei ja võib-olla Grand Total Count of Mannapuder? 3 7 1 11 Mees Count of Mannapuder?2 27.27% 63.64% 9.09% 100.00% Count of Mannapuder? 9 12 1 22 Naine Count of Mannapuder?2 40.91% 54.55% 4.55% 100.00% Total Count of Mannapuder? 12 19 2 33 Total Count of Mannapuder?2 36.36% 57.58% 6.06% 100.00%
Tabelist loeme välja, et kokku uuriti 33 tudengit, neist 11 olid mehed ja 22 naised, 57,6% armastas ja 36,4% ei armastanud mannaputru, oma suhtumist mannapudrusse ei osanud väljendada 2 tudengit (so.6%). Meeste ja naiste võrdlusest näeme, et veidi üle veerandi (27,3%) meestest ei armasta mannaputru, samas kui naiste hulgas on mannaputru mittearmastavate isikute osakaal 40,9%. Mannapudrusse suhtusid positiivselt 63,6% mees-tudengitest ja 54,6% naistudengitest.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/2sagedustab.html (2 of 4)29.05.2006 15:09:12 Andmeanalüüs MS Exceli abil - 2-mõõtmeline sagedustabel
2-test
Mittepidevate tunnuste vahelise seose statistilise olulisuse kontrollimiseks sobib MS Exceli keskkonnas funktsioon CHITEST(actual_range, expected_range), kus actual_range ja expected_range on vastavalt empiirilise ja teoreetilise sagedustabeli andmeblokid ilma ääresummadeta.
Empiiriline (andmete põhjal konstrueeritud) sagedustabel on saadav jällegi Pivot Table abil:
Count of Mannapuder? Mannapuder? Sugu ei ja võib-olla Grand Total Mees 3 7 1 11 Naine 9 12 1 22 Grand Total 12 19 2 33
Funktsiooni CHITEST esimeseks argumendiks (actual_range) on helehall andmeblokk ülaltoodud sagedustabelist.
Teoreetilise (tunnuste sõltumatusele vastava ideaalse) sagedustabeli lahtrid täidetakse valemi järgi arvutatud suurustega.
Lihtsaim on seda teha samal lehel Pivot Table'i väljastatud sagedustabeliga. Teoreetilise sagedustabeli ülemine vasakpoolne lahter täidetakse valemi =$E3*B$5/$E$5 väärtusega (siin E3 on lahter, kus paikneb empiirilise sagedustabeli esimese rea summa, B5 on lahter, kus paikneb empiirilise sagedustabeli esimese veeru summa ja E5 on lahter, kus paikneb empiirilise sagedustabeli kogusumma).
Järgnevalt tuleb sisestatud valem kopeerida kõigisse teoreetilise sagedustabeli lahtritesse. Tulemuseks on arvude blokk, mis tuleb funktsioonile CHITEST anda ette teise argumendina (expected_range):
4 6.333 0.667 8 12.667 1.333
Peale argumentide määramist sisestusaknas
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/2sagedustab.html (3 of 4)29.05.2006 15:09:12 Andmeanalüüs MS Exceli abil - 2-mõõtmeline sagedustabel
väljastab MS Excel eelnevalt kindlaksmääratud lahtrisse 2-testi olulisuse tõenäosuse p väärtuse. Kui p Antud näite korral saame olulisuse tõenäosuseks p = 0,69. Seega ei ole meil alust lugeda seost tudengite soo ja mannapudrulembuse vahel statistiliselt oluliseks.
Märkus. 2-testi kasutamine on õigustatud vaid juhul, kui kõigis teoreetilise sagedustabeli lahtrites paiknevad sagedused on neljast suuremad (nij > 4). Seega ei pruugi vaadeldud andmete korral 2-testi põhjal tehtud järeldused vastata tegelikkusele. Saamaks usutavamaid tulemusi, on vajalik andmestiku suurendamine (küsitleda tuleb rohkem tudengeid).
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/2sagedustab.html (4 of 4)29.05.2006 15:09:12

.PDF Laadi alla originaalfail 43 lk · .pdf · 537 allalaadimist

100 punkti Autor soovib selle materjali allalaadimise eest saada 100 punkti.

~ 43 lehte Lehekülgede arv dokumendis

2008-11-26 Kuupäev, millal dokument üles laeti

537 laadimist Kokku alla laetud

6 arvamust Teiste kasutajate poolt lisatud kommentaarid

LyAnn Õppematerjali autor

Statistika

statistika

Sarnased õppematerjalid

docx

Biomeetria test

järgi. Regresioonivõrrandi olulisus 5.Dispersioon Keskmiste erinevus mitmes Pidev arvtunnus- keskmised, analüüs grupis (üle 2) Tunnus, millel on vahe väärtused (üle 2) Praks 3- Kirjeldav statistika. Arvkarakteristikute leidmine funktsioonide ja protseduuri Descriptive Statistics abil. Usalduspiirid (protseduur Descriptive Statistics) Vaatluste arv- f- Statistical- Count Keskmine väärtus - =AVERAGE(Alguskoordinaat:Lõppkoordinaat) Mediaan - =MEDIAN(Alguskoordinaat:Lõppkoordinaat) Standardhälve - = STDEV.S (Alguskoordinaat:Lõppkoordinaat) Minimaalne väärtus - =MIN(Alguskoordinaat:Lõppkoordinaat) Maksimaalne väärtus - =MAX(Alguskoordinaat:Lõppkoordinaat) Standardviga =Sthälve/SQRT(vaatluste arv)

Biomeetria

docx

Nimetu

mõne klassikalise teoreetilise jaotusega. Töös on kasutatud Aakre metskonna proovitükki nr. 613 andmeid, mis on saadud EMÜ Metsanduse ja maakorralduse serveris võrgukaustast public:/Metsandusliku andmetöötluse alused 2011/2011]. Samuti on kasutatud K.Kiviste kodulehte [http://www.eau.ee/~kkiviste] kust oli võimalik saada väga täpseid juhiseid, lühendeid ja valemeid ülesande sooritamiseks. . Töö eesmärk on tundma õppida hinnangute, hüpoteeside ja regressiooni koostamist MS Exceli keskkonnas ning neid uurida proovitüki nr. 613 andmete põhjal. Lisamaterjalina kasutasin ka A.Kiviste poolt välja antud raamatut ,,Matemaatiline statistika MS Exeli keskkonnas" Punkt h i n n a n g u d , v a h e m i k h i n n a n g u d , v a li m i m a h t Eeldade s, et proovitü kil mõõdet ud andmete põhjal tahame teha

Andmetöötlus alused

xlsx

Statistika ülesanned 4. Andmetöötlus.

Female 1107 Female 1237 Male 585 Male 500 Female 703 Male 868 Male 400 Male 1200 Female 1400 Female 1300 Male 750 Female 1131 Male 634 Female 400 Male 781 Male 600 Female 536 Male 830 Female 810 Male 299 Female 200 Male 1308 Female 929 Female 805 Male 628 Male 276 Male 460 Male 2000 Female 761 Female 717 Female 787 Male 900 Male 500 g. Confidence interval (CI) for Mean (big sample) Tegeliku keskmise FB sõprade arvu usaldusvahemik usaldusnivool 95% ja 99% Üldkogumi keskväärtuse 𝜇 usa ▁( valimi suurus n =COUNT 294 kus

Andme-ja tekstitöötlus

466

doc

Andmeanalüüsi konspekt

Graafikuid saab muuta 200 topeltklõpsutades selle peal. Frequency 100 Std. Dev = ,69 Mean = 1,2 0 N = 563,00 1,0 2,0 3,0 4,0 Kodakondsus Risttabelite koostamine Statistics – Summarize – Crosstabs Row(s): reamuutuja(d)

Andmeanalüüs i

docx

Tõenäosusteooria ja statistika

üksnes äärmiste liikmete erisusi.St et suhteliselt erinevate ridade variatsiooniamplituudid võivad osutuda võrdseteks. Keskmine lineaarhälve – Variantide individuaalväärtuste ja nende aritmeetilise keskmise vaheliste hälvete absoluutväärtuste aritmeetiline keskmine. See üldistab lineaarhälve kogumi kõigi liikmete vahelisi erisusi. Selle mõõtühikuks on üksikväärtuste mõõtühik. Variatsioonikoefitsient keskmise lineaarhälbe järgi. – Lineaarhälbe abil ei saa võrrelda eri mõõtüh. esitatud ridade varieerumist. Seda saab lahendada suhtelise variatsiooninäitarvu e. Koefitsiendi arvutamisega. Saadud variats.koefitsient on nimetu suurus, ta on võrreldav mistahes teise nähtuse kohta arvutatud variats.koef.ga. Dispersioon – selle arvutamisel tõstetakse individuaalväärtused ja nende aritmeetiliste keskmiste vahelised hälved ruutu. See omadus ongi teinud disp. Kõige rohkem kasutatava variatsiooninäitarvu

Tõenäosusteooria ja statistika

xls

Hinnangud, hüpoteesid, regressioon

Dkesk (MA; 1.rin) F-Test Two-Sample for Variances 31.15 27.35 65 prt 64 prt 6 32.75 Mean 21.57846 4.921364 25.6 Variance 16.30719 7.352315 26.7 Disp. Oma 7.3523146 Observatio 65 110 33.25 Disp. 64 16.307185 df 64 109 27.7 P-väärtus 0.0001 F 2.217966 27.55

Andmetöötlus alused

doc

Matemaatika andmestiku analüüs

5 21 0,95018 0,23954 40,96176 Summad 171 0,95018 162,4808 p= 3,6579E-10 Järelikult H1 - tunnuse hinne jaotus ei lähene normaaljaotusele Tabel 15. Kirjeldavad statistikud. aasta sugu test eksam/kool hinne kood Mean 2003,731 1,4 8,291803 50,0729167 3,491228 2,872131 Standard Error 0,156329 0,028098 0,177857 1,46060454 0,070072 0,064523 Median 2003 1 8 53 4 3 Mode 2003 1 6 4 4 4 Standard Deviation 2,730164 0,490703 3,106143 24,787281 0,916312 1,126845

Statistika

pdf

loeng1

8. Statsionaarsed aegread II. 9. Mittestatsionaarsed aegread. 10. Paneelandmed. 11. Tõenäosusmudelid I. 12. Tõenäosusmudelid II. Täpsemalt vt laiendatud ainekava. Õppemeetodid Hübriidõpe 1. – 13. õppenädal • Loengut videotena – Teooria, mõistete, meetodite seletamine, näited. Loenguslaidid ja videod on saadaval õpikeskkonnas Moodle. Materjalid avanevad iga nädala alguses. • Praktikumid videotena ja kontaktõppes (soovijatele). – Andmeanalüüs programmis Gretl. – Ülesannete tekstid ja andmefailid õpikeskkonnas Moodle. • Onlain konsultatsioonid igal neljapäeval kell 10:00. • Iseseisev töö – Videote vaatamine, töö õppematerjalidega, interaktiivsed demod, iseseisev töö andmefailidega, enesekontrolli testid, kodutöö ökonomeetriline projekt. Kontaktõppes praktikumid soovijatele 2.-13. õppenädal Praktikum-konsultatsioonid on mõeldud neile üliõpilastele, kes lisaks

Kategoriseerimata

Rohkem sarnaseid