Andmeanalüüs MS
Exceli abil
Andmeanalüüs MS Exceli abil
Järgnev õpetus püüab võimalikult 'puust ja punaselt' ette näidata elementaarse andmeanalüüsi teostamise võimalused MS
Excelis . Samas ei ole see materjal mõeldud matemaatilise statistika konspektiks, vastavad teadmised/materjalid eeldatakse kasutajal
enesel olemas olevat. Seetõttu pole ka eriti tegeletud konkreetsete näidetega ega tulemuste tõlgendamisega.
See konspekt ei ole Andres
Kiviste 1998 aastal ilmunud vihiku "Matemaatilise statistika algteadmisi ja rakenduslikke näiteid MS Exceli keskkonnas" ümbertrükk. MS
Wordi dokumendina oli ta olemas juba pool aastat enne ülalnimetatud raamatu ilmumist ja sai siis ka tudengitele kätte jagatud. Kiviste raamatut võite kasutada kui lisa siinsele õpetusele, saamaks enam statistika ja ka tõenäosusteooria alaseid algteadmisi.
Põhilised andmeanalüüsi teostamise vahendid MS Exceli keskkonnas on funktsioonid ja protseduurid, aga ka
Chart Wizard'i abil lisatavad joonised ja
Pivot Table'iga konstrueeritavad tabelid. Järgnevad kirjeldused baseeruvad versioonil MS
Excel 97, kuid selle erinevus nii
eelnevast kui ka uuemast (Excel 2000) versioonist on statistilise andmetöötluse osas minimaalne (nn. tehnilisi erinevusi on
jooniste ja
tabelite konstrueerimisel).
Lühidalt peamistest andmeanalüüsi teostamise vahenditest Excelis
Joonised Funktsioonid Protseduurid Risttabelid (Pivot Table)
Sagedustabelid ja -histogrammid
Pidev arvtunnus
Diskreetne arvtunnus Mittearvuline tunnus Arvkarakteristikud
Usalduspiirid Hüpoteeside kontroll
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/ (1 of 2)29.05.2006 15:08:49 Andmeanalüüs MS Exceli abil
Üldskeem z-test (keskväärtuse võrdlemine konstandiga, kahe üldkogumi keskväärtuste võrdlemine teadaolevate dispersioonide korral) t-test (kahe üldkogumi keskväärtuste võrdlemine võrdsete ja mittevõrdsete dispersioonide, sõltuvate ja sõltumatute vaatluste korral) F-test (kahe üldkogumi dispersioonide võrdlemine) Korrelatsioonanalüüs Regressioonanalüüs 2 Kahemõõtmeline
sagedustabel , -test Dispersioonanalüüs (pole veel)
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/ (2 of 2)29.05.2006 15:08:49 Andmeanalüüs MS Exceli abil - vahendid
Andmeanalüüs MS Exceli abil
Peamised MS Exceli andmeanalüüsi teostamise vahendid
Joonised Funktsioonid Protseduurid Pivot Table
Joonised
MS Exceli põhiline jooniste tegemise vahend on Chart Wizard, mis on käivitatav nupu alt või menüüst
Insert käsuga Chart....
Joonise tegemiseks tuleb hiirega valida analüüsitav andmeblokk, klikkida Chart Wizard'i nupul, valida graafiku tüüp ja järkjärgult Next-käsuga edasi liikudes kujundada sobiv
graafik soovitud
asukohta . Muidugi on võimalik jooniseid ka hiljem kujundada, parandada jne.
Siinkohal ei hakka jooniste tegemisel enam
pikemalt peatuma , kuna igas Exceli juhendis on sellest piisavalt
juttu ja midagi sellist, kus ilma näpuga rida ajamata võiks saada vale tulemuse, pole ka oodata.
Linke:
http://www.ut.ee/~kaidoh/arvutiopetus/ http://www.math.ut.ee/kursused/sjs_informaatika/Excel/Excel.htmlhttp://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (1 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - vahendid
Funktsioonid
MS Exceli funktsioonid on leitavad nupu alt (või lisatavad menüüst Insert käsuga
Function ...). Statistikafunktsioonid paiknevad järgnevalt avaneva akna vasakpoolses tulbas nimetuse Statistical all.
Märkides ära mingi funktsiooni, näitab Excel selle kirjapilti (süntaksit) koos võimalike argumentidega ja annab ka lühikirjelduse. Pikem seletus iga funktsiooni kohta on leitav Help-nupu alt.
Kõigil funktsioonidel tuleb sisestada argumendid (kas klaviatuurilt või andmetabelist hiirega
valides ), mis võivad koosneda nii ühest arvust (vabadusastmete arv, olulisuse nivoo) kui ka tervest andmeblokist (ilma tunnuse nimeta).
Funktsiooni
rakendamise tulemusena väljastatakse tavaliselt kasutaja poolt eelnevalt märgitud
lahtrisse üks arv - funktsiooni väärtus (keskväärtus, olulisuse tõenäosus), mis peale argumentide valikut ilmub kontrolliks ka funktsiooniakna allserva (Formula
result ) [vanematel Exceli versioonidel üles paremasse nurka].
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (2 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - vahendid
Protseduurid
MS Exceli statistikaprotseduuride
loetelu avaneb menüüst
Tools käsu Data
Analysis alt.
NB! Kui Data Analysis Teie arvutis puudub, tuleks
liikuda menüüst Tools käsule Add-Ins... ja
tehe avanevas
aknas "
linnuke " nimetuse Analysis ToolPak ees olevatesse kastidesse. Kui Te ka nüüd, peale OK vajutamist, ei leia menüüst Tools käsku Data Analysis, on MS Exceli statistikaprotseduurid jäänud Teie arvutis ilmselt installeerimata (soovi korral tuleks installeerimist
korrata ).
Sarnaselt funktsioonidega tuleb iga statistikaprotseduuride loetelust valitud analüüsi korral sisestada argumendid (andmeblokid).
Kuid erinevalt funktsioonidest võib sisestatav andmeblokk
sisaldada esimeses reas ka tunnuse nime, mida programm kasutab hiljem tulemuste väljatrükis. Sellisel juhul tuleb teha "linnuke" nimetuse Labels (in
First Row) ees olevasse kasti.
Samuti tuleb erinevalt funktsioonidest määrata ka tulemuste väljastamise asukoht: Output Range - tulemus väljastatakse olemasolevale lehele, määrata tuleb
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (3 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - vahendid
väljundi vasaku ülemise nurga aadress (tulemus samale lehele andmetabeliga) või töölehe nimi ja väljundi vasaku ülemise nurga aadress; New Worksheet Ply - tulemus väljastatakse uuele loodavale töölehele (soovi korral saab
viimasele anda ka nime, trükkides selle valiku taga asuvasse tekstikasti); New
Workbook - tulemus väljastatakse uude loodavasse tööraamatusse (faili).
Ülejäänud
valikud sõltuvad juba konkreetsest protseduurist ja saavad kirjeldatud selle õpetuse järgnevais osades.
Võrreldes funktsioonidega sisaldab väljund eneses ka märksa rohkem informatsiooni, koosnedes tavaliselt ühest või mitmest tabelist ja/või joonisest.
Pivot Table
Neljas andmeanalüüsil kasutatav MS Exceli vahend on Pivot Table (nn. pöördtabel või
risttabel ), mille konstrueerimiseks tuleb liikuda menüüst Data käsule Pivot Table
Report ....
Esimese sammuna tuleb valida, millisel kujul on uuritav
andmestik (vaikimisi ühel lehel paiknev Exceli andmetabel, ülejäänud valikud võimaldavad
konstrueerida risttabeli ka mitte-Exceli andmete või mitme andmetabeli baasil). Edasi vaatame juhtu, kus andmestikuks on ühel lehel paiknev Exceli andmetabel.
Teise sammuna tuleb määrata uuritav andmeblokk (kas klaviatuurilt või hiirega andmetabelist. Kui
kursor asus enne analüüsi algust andmetabelil, pakub MS Excel vaikimisi andmeblokiks kogu andmestikku). Soovitud
lahtrid võib märgistada ka enne käsu Pivot Table Report... valimist.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (4 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - vahendid
Kolmandas, peale Next-käsku avanevas aknas toimub põhiline tabeli konstrueerimine: Akna paremas osas paiknevast tunnuste loetelust hiirega tunnuseid Pivot Table'i
plaanile lohistades saab määrata nii rea- ja veerufaktori(d) (ROW ja
COLUMN ) kui ka tunnuse(d), mille väärtused fikseerivad erinevad tabeli leheküljed (PAGE). Topeltklõps DATA-lahtrisse lohistatud tunnustel avab rippmenüü, kust saab valida, millisel kujul see tunnus esitada (milliseid arvkarakteristikuid leida).
Viimase,
neljanda sammuna, tuleb määrata tabeli asukoht - kas uus alles loodav või juba eksisteeriv tööleht.
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/vahendid.html (5 of 5)29.05.2006 15:08:52 Andmeanalüüs MS Exceli abil - sagedustabelid
Andmeanalüüs MS Exceli abil
Sagedustabelid
Pidev arvtunnus Diskreetne arvtunnus Mittearvuline tunnus
Pidev arvtunnus
Pideva arvtunnuse klassifitseerimiseks (rühmitamiseks) ja
sagedustabeli moodustamiseks on MS Exceli statistikaprotseduuride (Tools -> Data Analysis) hulgas
protseduur Histogram .
Selle rakendamiseks on
esmalt vaja moodustada rühmitamiseeskiri rühmade ülemiste piiride bloki näol. Näiteks, kui me
soovime jagada tunnust 'pikkus' klassidesse: 165 ja alla selle, 166-180, 181-195 ja üle 195 cm, siis peame Excelis sisestama arvudebloki 165, 180, 195:
Pikkus 182 164 168 176 186 193 179 193 164 Bin_pikkus 165 180 195
Piisab vaid kolmest klassipiirist, kuna protseduur Histogram genereerib ise alati ühe lisaklassi rühmitamiseeskirjaga mittemääratud väärtuste tarvis (antud juhul siis inimestele pikkusega üle 195 cm).
Protseduuri Histogram aknas tuleb täita järgmised väljad:
Input Range - algandmete
blokk (tavaliselt üks tulp); Bin Range - rühmade ülemiste piiride väärtuste blokk; Labels - märgitakse tunnuse nime või tähise olemasolu korral andmebloki ülemises reas; Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook); Pareto (sorted
histogramm ) -
sagedused järjestatakse
kahanevas järjekorras; Cumulative Percentage - arvutatakse jaotusfunktsiooni väärtused; Chart Output - tulemused väljastatakse lisaks tabelile ka graafikul (tulpdiagrammina).
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/sagedustab.html (1 of 4)29.05.2006 15:08:54 Andmeanalüüs MS Exceli abil - sagedustabelid
Prots. Histogram aken
Peale lahtrite täitmist protseduuri Histogram tellimisaknas saame MS Ecxeli uuele töölehele järgneva tabeli ja graafiku.
Bin_pikkus
Frequency Cumulative %
165 2 22.22%
180 3 55.56%
195 4 100.00%
More 0 100.00%
NB! Saadud sagedustabeli ja graafiku tõlgendamisel tuleb silmas pidada, et toodud arvud (tabeli esimeses veerus ja graafiku x-teljel) pole mitte rühmade keskmised, vaid ülemised piirid, ja
edasiste väärarusaamade vältimiseks oleks
soovitav need
asendada tegelike väärtustevahemikega.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/sagedustab.html (2 of 4)29.05.2006 15:08:54 Andmeanalüüs MS Exceli abil - sagedustabelid
Diskreetne arvtunnus
Esimene variant on konstrueerida
sagedustabel ja tulpdiagramm analoogselt pidevale arvtunnusele protseduuri Histogram abil.
Erinevus on vaid rühmitamiseeskirjas. Nimelt peab enne protseduuri käivitamist olema moodustatud rühmitamiseeskiri tunnuse kõigi erinevate väärtuste bloki näol. See väärtuste blokk tuleb omistada ka protseduuri aknas väljale Bin Range.
Matemaatika hinne 3 4 4 5 4 3 4 3 5 Bin_hinne 3 4 5
Ühe väärtustest (tavaliselt suurima, antud näites siis hinde '5') võib jätta ka ette andmata, kuna Excel lisab jällegi ise ühe klassi võimalike defineerimata väärtuste tarvis, tähistades selle väljatrükis sõnaga More.
-----------------------------------------------
Teine variant on kasutada sagedustabeli konstrueerimisel Pivot Table'i abi (lähemalt on sellest juttu järgnevas, mittearvulise tunnuse sagedustabeli tegemist käsitlevas osas).
Mittearvuline tunnus
Esimene variant on kodeerida tunnus arvuliseks ja analüüsida seejärel kui diskreetset arvtunnust.
-----------------------------------------------
Teine variant on kasutada Pivot Table't (käsk Pivot Table Report menüüst Data).
- Pivot Table kaks esimest sammu läbige nagu tavaliselt (st., andke Excelile ette uuritav andmeblokk (või nõustuge arvuti pakutuga) ja klikkige nupul Next). - Tabeli konstrueerimise aknas (vt. pilti) tuleb lohistada mittearvuline uuritav tunnus
veeru - (või rea-) faktori kohale (vastavalt lahtritesse Column või Row). - Tabeli Data-
ossa lohistada tunnuste loetelust sama tunnus. - Kui Data-lahtrisse ei teki kirja '
Count of ...', tehke lohistatul topeltklõps ning valige leitavaks arvkarakteristikuks tunnuse väärtuste arv Count.
Kas te armastate mannaputru? ei ei jah ei jah
vist jah jah ei
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/sagedustab.html (3 of 4)29.05.2006 15:08:54 Andmeanalüüs MS Exceli abil - sagedustabelid
Tulemusena saame järgmise sagedustabeli:
Count of
Mannapuder ? Mannapuder? ei jah
vist Grand Total Total 4 4 1 9
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/sagedustab.html (4 of 4)29.05.2006 15:08:54 Andmeanalüüs MS Exceli abil - sagedustabelid
Andmeanalüüs MS Exceli abil
Arvkarakteristikud
Protseduur Valemid Pivot Table Descriptive Statistics
Valemid
Esiteks on arvkarakteristikud võimalik leida, realiseerides nende arvutamise valemid Exceli valemitena. Mõned vähekasutatavad
parameetrid ongi ainult nii leitavad (näiteks üldkogumi
ekstsess ja asümmeetriakordaja).
Järgmises väljavõttes MS Exceli ekraanipildist on valemireal näha tunnuse 'Pikkus' keskmise arvutamiseks kasutatav valem, mille tulemusena arvuti väljastas kursoriga määratud kohta soovitud arvkarakteristiku.
Keerulisemate valemite korral on enne lõpliku vastuse saamist
vigade vältimiseks soovitav leida mitmeid vahetulemusi (näiteks tunnuse väärtuste
ruudud , nende
summad jne.).
-----------------------------------------------
Teiseks on kõigi enamkasutatavate arvkarakteristikute leidmiseks MS Exceli funktsioon, näiteks
AVERAGE - aritmeetiline keskmine, STDEV - standardhälbe valimhinnang, SKEW - asümmeetriakordaja jne. Kõigi nende funktsioonide argumendiks on uuritava tunnuse väärtusi sisaldav andmeblokk.
Tunnuse 'Pikkus' keskväärtus leituna funktsiooni AVERAGE abil.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (1 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
Funktsiooni argumentidena on ette antud lahtrid B1-J1, mis sisaldavad uuritava tunnuse väärtusi.
NB! Funktsioonide korral sisestatakse andmeblokk ilma tunnuse nimeta.
Protseduur Descriptive Statistics
Kolmas viis leida tunnuseid iseloomustavaid arvkarakteristikuid on protseduur Descriptive Statistics, mis peale "linnukese" tegemist valiku Summary statistics ette väljastab korraga kõik olulisemad valimi arvkarakteristikud ja valiku
Confidence Level for
Mean korral ka keskväärtuse usaldusintervalli.
Protseduuri Descriptive Statistics (Tools -> Data Analysis) tellimisaknas tuleb määrata järgmised väljad:
Input Range - algandmete blokk (võib sisaldada ka mitut
veergu (rida), st. võib analüüsida korraga mitut tunnust); Grouped By - määratakse andmete
paigutus blokis, tavaliselt on erinevad tunnused paigutatud erinevatesse tulpadesse (Columns), kuid võivad olla ka erinevates ridades (Rows); Labels In First Column - märgitakse tunnuse nime või tähise olemasolu korral andmebloki ülemises reas; Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook); Summary statistics - määratakse, kas karakteristikute väärtused üldse väljastatakse; Confidence Level for Mean - määratakse
usaldusnivoo protsentides keskväärtuse
usalduspiiride arvutamiseks; Kth Largest - määratakse järjekorranumber K, et teada saada suuruse poolest K-ndat väärtust; Kth Smallest - määratakse järjekorranumber K, et teada saada väiksemalt poolt K- ndat väärtust.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (2 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
Descriptive statistics
Ülaltoodud valikute tulemusel saame MS Exceli uuele töölehele järgneva tunnuse 'Pikkus' arvkarakteristikute tabeli (lisatud ka eestikeelsed vasted):
Pikkus Mean 178.33 Keskmine Standard
Error 3.77 Standardviga Median 179.00 Mediaan Mode 164.00 Mood Standard
Deviation 11.32 Standardhälve Sample Variance 128.25 Dispersioon Kurtosis -1.44 Ekstsess Skewness -0.02 Asümmeetriakordaja Range 29.00
Haare Minimum 164.00 Väikseim väärtus
Maximum 193.00 Suurim väärtus Sum 1,605.00 Summa Count 9.00 Valimi maht Liidetav keskväärtuse usalduspiiride Confidence Level(95.0%) 8.70 arvutamiseks
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (3 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
Pivot Table
Olulisemate arvkarakteristikute leidmiseks mingi klassifitseeriva tunnuse eri
tasemetel võib kasutada ka Pivot Table abi.
Näiteks olgu meil peale pikkuse teada ka tunnuse 'Sugu' väärtused:
Sugu Mees Naine Naine Mees Mees Mees Mees Mees Naine Pikkus 182 164 168 176 186 193 179 193 164
Ja soovime leida meeste ja naiste arvu ning keskmisi pikkusi eraldi mõlema soo korral. Täites Pivot Table's lahtrid nagu juuresoleval pildil, saame tulemuseks tabeli, kus on kirjas vaatluste arv (Count) ja keskmised (Average) pikkused nii sugude kaupa kui ka kõik kokku.
Sugu Data Mees Naine Grand Total
Count of Pikkus 6 3 9
Average of Pikkus 184.83 165.33 178.33
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (4 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/arvkar.html (5 of 5)29.05.2006 15:08:55 Andmeanalüüs MS Exceli abil - sagedustabelid
Andmeanalüüs MS Exceli abil
Usalduspiirid
Protseduur Valemid Descriptive Statistics
Valemid
Enamkasutatavad usalduspiirid on MS Excelis konstrueeritavad erinevatest funktsioonidest moodustatavate valemite abil. Vajalikud valemid on toodud
enamuses statistikaraamatuis. Siinkohal võiks lisada vaid erinevate jaotuste (täiend)kvantiilide arvutamiseks mõeldud Exceli funktsioonid (funktsioonide nimetuste taga sulgudes olevate argumentide väärtused tuleb ise ette anda, - olulisuse nivoo, n - valimi maht): , , .
Näiteks lahtrites A1-J1 (
lahtris A1 on tunnuse nimi) paikneva tunnuse 'Pikkus' keskväärtuse 95%-lise alumise ja ülemise usalduspiiri saame arvutada vastavalt valemitest:
ja .
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/uspiir.html (1 of 3)29.05.2006 15:08:58 Andmeanalüüs MS Exceli abil - sagedustabelid
-----------------------------------------------
Funktsioon CONFIDENCE(, s, n)
Juhul, kui uuritava tunnuse dispersioon on teada, on keskväärtuse usalduspiiride leidmiseks kasutatav funktsioon CONFIDENCE(, s, n). See funktsioon väljastab suuruse väärtuse etteantud olulisuse nivoo , teadaoleva standardhälbe ja valimi mahu n korral.
NB! Saadud arv näitab usalduspiiride kaugust keskväärtusest, usalduspiiride eneste leidmiseks tuleb see siis kas liita või lahutada aritmeetilisest keskmisest.
Protseduur Descriptive Statistics
Kui uuritava tunnuse dispersioon ei ole teada (ja nii see tavaliselt on), on kasutatav protseduuri Descriptive Statistics valik Confidence Level for Mean. Tellimusakna täitmine kulgeb analoogselt arvkarakteristikute leidmisel kirjeldatuga, lisaks võib ette anda usaldusnivoo (1-)*100% (vaikimisi on selleks 95%). Tulemusena väljastatakse arvkarakteristikute tabelis suurus , mis näitab uuritava tunnuse keskväärtuse kaugust oma alumisest ja ülemisest usalduspiirist olulisuse
nivool . (Vt. ka arvkarakteristikute leidmine protseduuri Descriptive Statistics abil.)
Usalduspiirid leitakse liites saadud arvu pluss- ja miinusmärgiga tunnuse aritmeetilisele keskmisele:
ülemine usalduspiir ,
alumine usalduspiir .
(Samad valemid on ülal näitena realiseeritud MS Exceli valemitena, kus ka protseduuri Descriptive Statistics poolt väljastatav suurus arvutatakse ise.)
[email protected]http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/uspiir.html (2 of 3)29.05.2006 15:08:58 Andmeanalüüs MS Exceli abil - sagedustabelid
http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/uspiir.html (3 of 3)29.05.2006 15:08:58 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll
Andmeanalüüs MS Exceli abil
Hüpoteeside kontroll
Üldine skeem
z-test Kahe üldkogumi keskväärtuste Üldkogumi keskväärtuse võrdlemine võrdlemine teadaolevate dispersioonide konstandiga korral t-test Keskväärtuste võrdlemine Kahe üldkogumi Keskväärtuste võrdlemine mittevõrdse keskväärtuste võrdlemine võrdse dispersiooniga dispersiooniga sõltuvate vaatluste korral üldkogumite korral üldkogumite korral
F-test Kahe üldkogumi dispersioonide võrdlemine
Üldine skeem
Sõltuvalt andmete olemusest ja kontrollitava hüpoteesi tüübist on MS Excelis mitmeid erinevaid võimalusi vastava analüüsi teostamiseks. Järgnev skeem annab lühiülevaate, millist funktsiooni või protseduuri millal ja mis järjekorras kasutada.
Protseduur z-Test: Two Sample for
meansVarieeruvus Protseduur Mõlema üldkogumi võrreldavates t-Test: Two Sample
dispersioonid on teada üldkogumites on erinev Assuming Unequal (p=0,05) Variances Protseduur t-Test:
Paired Two Sample for Means
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot.html (1 of 2)29.05.2006 15:08:59 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll
Kahe üldkogumi keskväärtuste võrdlemiseks nii sõltuvate kui ka funktsioon sõltumatute vaatluste ning nii TTEST(Array1,Array2, võrdsete kui ka mittevõrdsete
Tails ,Type) dispersioonide korral on kasutatav ka
Soovitakse võrrelda üldkogumi Funktsioon keskväärtust konstandiga ZTEST(
Array ,X,
Sigma )
Soovitakse kontrollida hüpoteesi Protseduur esimese üldkogumi suuremast varieeruvusest F-Test: Two-Sample for (H1: ) Variances
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot.html (2 of 2)29.05.2006 15:08:59 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (z-test)
Andmeanalüüs MS Exceli abil
Hüpoteeside kontroll
Üldine skeem
z-test Kahe üldkogumi keskväärtuste Üldkogumi keskväärtuse võrdlemine võrdlemine teadaolevate dispersioonide konstandiga korral
Üldkogumi keskväärtuse võrdlemine konstandiga
MS Exceli funktsioon ZTEST(Array, X, Sigma) võimaldab normaaljaotusega tunnuse kohta kontrollida kahepoolset hüpoteesi selle tunnuse keskväärtuse m võrdumisest mingi konstandiga c: .
Array - algandmete blokk (ilma tunnuse nimeta); X - konstant, millega võrdumist kontrollitakse (c); Sigma - populatsiooni teadaolev standardhälve (NB! Võib ka
puududa , siis arvutab programm ise valimi standardhälbe ja kasutab seda).
Tulemuseks väljastab Excel eelnevalt kursoriga määratud lahtrisse olulisuse tõenäosuse p väärtuse. Kui leitud p
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot_ztest.html (1 of 2)29.05.2006 15:09:00 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (z-test)
Kahe üldkogumi keskväärtuste võrdlemine teadaolevate dispersioonide korral
Kahe üldkogumi keskväärtuse võrdlemine teadaolevate dispersioonide korral on võimalik MS Exceli protseduuriga z-Test: Two Sample for means (Tools -> Data Analysis).
Protseduuril tuleb ette anda
mõlema valimi andmete blokid (Variable 1 Range ja Variable 2 Range); oletatav keskväärtuste erinevus (vaikimisi null) - Hypothesized Mean
Difference ; anda ette mõlema valimi teadaolevad dispersioonid (Variable 1 Variance (
known ) ja Variable 2 Variance (known)); kui andmete blokid sisaldasid esimeses reas/veerus nime, tuleb teha "linnuke" märgendi Labels ette; määrata olulisuse nivoo (vaikimisi 0,05) - Alpha; määrata tulemuste väljastamise asukoht.
Et tunnuste varieeruvust üldkogumis tavaliselt ei teata, siis leiab vaadeldav protseduur ka vähest
kasutust . Tema väljund on analoogne järgnevalt vaadeldavate t-testide tulemusel saadavate tabelitega.
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot_ztest.html (2 of 2)29.05.2006 15:09:00 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (t-test)
Andmeanalüüs MS Exceli abil
Hüpoteeside kontroll
Üldine skeem
t-test Keskväärtuste võrdlemine Keskväärtuste võrdlemine Kahe üldkogumi mittevõrdse võrdse dispersiooniga keskväärtuste võrdlemine dispersiooniga üldkogumite korral sõltuvate vaatluste korral üldkogumite korral
Protseduur Funktsioon Protseduur Funktsioon Protseduur Funktsioon t-Test: Two Sample TTEST t-Test: Two Sample TTEST t-Test: Paired Two TTEST Assuming Equal Assuming Unequal Sample for Means Variances Variances
Kahe üldkogumi keskväärtuste võrdlemine - t-test
Keskväärtuste võrdlemine võrdse dispersiooniga üldkogumite korral
Kui funktsiooni FTEST poolt väljastatud olulisuse tõenäosus p >= 0,05, oleme sunnitud jääma nullhüpoteesi juurde, st. et varieeruvus kahes võrreldavas üldkogumis on ühesugune. Sellisel juhul saame nende üldkogumite keskväärtusi võrrelda protseduuri t-Test: Two Sample Assuming Equal Variances abil.
Protseduuri tellimisaknas tuleb täita järgmised väljad: Variable 1 Range - suurema aritmeetilise keskmisega valimi andmete blokk; Variable 2 Range - väiksema aritmeetilise keskmisega valimi andmete blokk; Hypothesized Mean Difference - oletatav keskväärtuste erinevus (vaikimisi null); Labels - märgitakse nime või tähise olemasolul andmebloki esimeses reas; Alpha - olulisuse nivoo (vaikimisi 0,05); Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).
Rakendades seda protseduuri F-testi peatüki lõpus vaadeldud mannaputru armastavate ja mittearmastavate
tudengite kaalude erinevuse selgitamiseks, täidame väljad tellimisaknas
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot_ttest.html (1 of 4)29.05.2006 15:09:02 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (t-test)
ja saame tulemuseks järgmise tabeli:
t-Test: Two-Sample Assuming Equal Variances
Variable 1 Variable 2
Mean 65.875 64.250 Aritmeetilised keskmised
Variance 226.125 138.724 Dispersioonid
Observations 8 20
Valimite mahud
Pooled Variance 162,255 Ühendatud valimi dispersioon
Hypothesized Mean 0 Oletatav keskmiste erinevus Difference
df 11 Vabadusastmete arv
t Stat 0.305 t-
statistikP(T 0,05, siis ei õnnestu meil tõestada kehakaalude varieeruvuse erinevust.
Mannapuder? Kaal ei 63 64 88 88 48 57 52 67 ja 54 55 57 62 85 70 60 46 69 55 71 60 85 66 62 52 90 55 60 71
Kahe üldkogumi dispersioonide võrdlemine - F-test
Ühepoolne hüpotees
Hüpoteesi esimese üldkogumi suuremast varieeruvusest (H1: ) võimaldab kontrollida protseduur F-Test: Two-Sample for Variances (Tools -> Data Analysis).
Protseduuri tellimisaknas tuleb täita järgmised väljad: Variable 1 Range - suurema aritmeetilise keskmisega valimi andmete blokk; Variable 2 Range - väiksema aritmeetilise keskmisega valimi andmete blokk; Hypothesized Mean Difference - oletatav keskväärtuste erinevus (vaikimisi null); Labels - märgitakse nime või tähise olemasolul andmebloki esimeses reas; Alpha - olulisuse nivoo (vaikimisi 0,05); Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).
Protseduur väljastab tabelina järgmised suurused
Mean Aritmeetiline keskmine Variance Dispersioon Observations Valimi maht
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/hypot_Ftest.html (2 of 3)29.05.2006 15:09:04 Andmeanalüüs MS Exceli abil - hüpoteeside kontroll (F-test)
df Vabadusastmete arv F F-statistik P(F Data Analysis).
Avanevas sisestusaknas tuleb määrata: Input Range - algandmete blokk (tunnused peavad
paiknema järjestikustes veergudes); Grouped by - määratakse, kas tunnusvektorid on orienteeritud veerge pidi (Columns) või ridu pidi (Rows); Labels in First Row - märgitakse nimede või tähiste olemasolu korral tunnuste bloki esimeses reas; Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).
Tulemuseks on Exceli töölehele väljastatav kolmnurkse kujuga korrelatsioonikordajate
maatriks :
Pikkus Kaal Mat.hinne Pikkus 1 Kaal 0.90652 1 Mat.hinne -0.16377 -0.223 1
Korrelatsioonikordajaga kirjeldatava lineaarse seose statistilise olulisuse üle otsustamiseks on mugav kasutada korrelatsioonikordajate olulisuse tabelit, mis on leitav enamuse statistikaõpikute lisades. Teine võimalus uuritava lineaarse seose statistilise olulisuse kontrollimiseks on teostada kahe uuritava tunnusega tavaline lineaarne regressioon protseduuri
Regression abil. Lineaarse regressiooniseose statistilist olulisust iseloomustav olulisuse tõenäosus p kehtib ka lineaarse
korrelatsioonikordaja jaoks (täpsemalt regressioonanalüüsi teostamisest Exceliga vt järgmisest peatükist).
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/korrel.html (2 of 3)29.05.2006 15:09:05 Andmeanalüüs MS Exceli abil - korrelatsioonanalüüs
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/korrel.html (3 of 3)29.05.2006 15:09:05 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Andmeanalüüs MS Exceli abil
Regressioonanalüüs
Chart Wizard Protseduur Regression Funktsioonid
Chart Wizard
Kahe tunnuse vahelisest sõltuvusest visuaalse ülevaate saamiseks on analüüsi esimese sammuna kasulik teha nende tunnuste vaheline hajuvusdiagramm (scatter
plot ).
Näiteks tudengite pikkuste ja kaalude vahelise seose iseloomustamiseks saame alljärgneva toodud graafiku.
Lihtsaim viis kahe tunnuse vahelise regressioonanalüüsi tegemiseks on:
aktiveerida joonis; valida menüüst Chart käsk Add Trendline...; valida avanenud menüüst punktiparve kuju paremini jälgiv regressioonijoon (peale tavalise lineaarse regressiooni - Linear - on punktiparvele sobitatavad ka mitmed keerulisemad kõverad); valida
samast Add Trendline...-
aknast (sama aken avaneb ka peale
hiire parempoolse nupu topeltklõpsu trendijoonel) lipik Options ja märkida seal ära käsud
Display equation on chart ja Display R-squared
value on chart.
Tulemuseks on joonis, kus lisaks punkti parvele on kujutatud ka regressiooni joon, regressioonivõrrand ja
determinatsioonikordaja R2.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (1 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Antud näite korral on meil
tudengi kaal prognoositav tema pikkusest valemiga Kaal = -107,5 + 0,9967*Pikkus,
kusjuures selline mudel võimaldab ära kirjeldada 82% tunnuse 'Kaal' hajuvusest.
NB! Joonise tegemisel
paigutage vertikaalsele teljele (y-teljele) uuritav (prognoositav) tunnus ja horisontaalteljele (x-teljele) argumenttunnus.
Protseduur Regression
Täieliku lineaarse regressioonanalüüsi tegemiseks on MS Exceli keskkonnas protseduur Regression (Tools -> Data Analysis). Erinevalt Chart Wizard'st või funktsioonidest võimaldab see teostada ka mitmest regressioonanalüüsi, argumenttunnuste blokid peavad siis vaid paiknema üksteise kõrval (et neid saaks ette anda ühe pideva andmeblokina)
Protseduuri sisestusaknas tuleb määrata:
Input Y Range - funktsioontunnuse andmete blokk; Input X Range - argumenttunnus(t)e andmete blokk; Labels - märgitakse nimede või tähiste olemasolu korral tunnuste bloki esimeses reas; Constant is
Zero - märgitakse, kui tahetakse kontrollida tunnuste vahelist võrdelist sõltuvust (vabaliige a = 0); Confidence Level - usaldusnivoo parameetrite 1- usalduspiiride arvutamiseks; Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).
Nende sisestuste põhjal moodustatakse kolm tabelit lineaarse regressioonanalüüsi parameetrite hinnangute, nende veahinnangute ja dispersioonanalüüsiga.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (2 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Soovi korral võib sisestusaknas täiendavalt
tellida :
Residuals - kõigi vaatluste prognoosijäägid; Standardizised Residuals - kõigi vaatluste
standardiseeritud prognoosijäägid; Residuals Plot - prognoosijääkide graafik argumenttunnuse suhtes; Line Fit Plot - funktsioontunnuse ja prognooside graafik argumenttunnuse suhtes; Normal
Probability Plot - funktsioontunnuse empiiriliste kvantiilide graafik (tõenäosuspaber).
Protseduuri Regression väljund
SUMMARY OUTPUT Regression Statistics Regressiooni statistikud Multiple R 0.9065 Mitmene korrelastsioonikordaja R
Square 0.
8218 Determinatsioonikordaja Adjusted R Square 0.8158 Determinatsioonikordaja
nihketa hinnang Standard Error 5.2218 Jääkstandardhälve Observations 32 Vaatluste arv
ANOVA Regressioonanalüüsi tulemuste dispersioonanalüüs
df SS MS F Significance F Vabadusastmete Hälvete ruutude Keskruut F-statistik Mudeli olulisuse arv summa tõenäosus (p)
Regression 1 3771.8629 3771.8629 138.3303 2.7085E-08
Regressioonisirgehttp://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (3 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Residual 30 818.0121 27.2671 Prognoosijäägid
Total 31 4589.8750 Kokku
Regressioonivõrrandi
kordajate analüüs
Coefficients Standard t Stat P-value
Lower 95% Upper 95% Parameetri Error t-statistik Parameetri Alumine Ülemine hinnang Hinnangu olulisuse 95%-line 95%-line statndardviga tõenäosus usalduspiir usalduspiir
Intercept -107.5023 14.6057 -7.3603 3.37E-08 -137.3311 -77.6735 Vabaliige a
Pikkus 0.9967 0.0847 11.7614 9.2E-13 0.8236 1.1697 Regr. kordaja b
Protseduur Regression võimaldab väljastada ka kolm joonist:
Neist esimene, valikuga Residuals Plot
tellitav , iseloomustab prognoosijääkide paiknemist argumenttunnuse suhtes. Kui regressioonanalüüsi eeldused on täidetud, peavad punktid sellel graafikul paiknema juhuslikult, ühtlaselt
hajutatud punktiparvena.
Teine, valikuga Line Fit Plot tellitav graafik, näitab funktsioontunnuse ja prognooside paiknemist argumenttunnuse suhtes. See graafik on analoogne Chart Wizard'i abil saaduduga, kus hajuvusdiagrammile lisati lineaarne regressioonijoon (ka sellel graafikul võib prognoosidele vastavad punktid omavahel ühendada,
saades nii regressioonisirge). Selline pilt on põhiline kahe tunnuse vahelise seose illustreerimiseks kasutatav joonis.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (4 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
Kolmas, valikuga Normal Probability Plot tellitav graafik, on jällegi kasutatav regressioonanalüüsi
eelduste täidetuse kontrollimiseks.
Ideaalvariandis paiknevad selle graafiku punktid ühel diagonaalsel sirgel. Kui see nii ei ole, ei
jaotu uuritav tunnus vastavalt normaaljaotusele.
Funktsioonid
Lineaarse regressioonivõrrandi parameetrite a ja b arvutamiseks võib kasutada ka funktsioone:
SLOPE(Known_y's,Known_x's) - väljastatakse regressioonisirge tõus b ette antud funktsioontunnuse y ja argumenttunnuse x blokkide korral;
INTERCEPT(Known_y's,Known_x's) - väljastatakse regressioonisirge vabaliige a ette antud funktsioontunnuse y ja argumenttunnuse x blokkide korral.
Determinatsioonikordaja R2 on leitav funktsioonist RSQ(Known_y's,Known_x's).
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (5 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - regressioonanalüüs
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/regress.html (6 of 6)29.05.2006 15:09:10 Andmeanalüüs MS Exceli abil - 2-mõõtmeline sagedustabel
Andmeanalüüs MS Exceli abil
Kahemõõtmeline sagedustabel. 2-test
Kahemõõtmeline 2-test sagedustabel
Kahemõõtmeline sagedustabel
Mittepidevate tunnuste vahelise seose iseloomustamiseks kasutatav kahemõõtmeline sagedustabel on MS Excelis konstrueeritav Pivot Table abil.
1. Selleks tuleb valida reafaktoriks üks ja veerufaktoriks teine uuritav tunnus.
2. Tabeli Data-lahtrisse lohistada
suvaline tunnus paremal asuvast tunnuste loetelust ning peale hiire vasaku nupu topeltklõpsu sellel valida leitavaks arvkarakteristikuks vaatluste arv Count.
Pivot Table 2-mõõtmeline sagedustabel
3. Rea ja/või veeru suhteliste sageduste leidmiseks tuleb korrata sammu 2, st. lohistada tabeli Data-lahtrisse uuesti üks tunnus vasakul asuvast loetelust ning määrata leitavaks arvkarakteristikuks Count. Kuid lisaks sellele tuleb valida leitavate arvkarakteristikute määramise aknast käsk Options >>, mille tagajärjel avatud aken pikeneb. Pikenenud aknast määrata rippmenüüst Show data as: valik % of row reasageduste või % of
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/2sagedustab.html (1 of 4)29.05.2006 15:09:12 Andmeanalüüs MS Exceli abil - 2-mõõtmeline sagedustabel
column veerusageduste leidmiseks.
Pivot Table - suhtelised sagedused
Konstrueerides absoluutseid sagedusi ja suhtelisi reasagedusi sisaldava kahemõõtmelise sagedustabeli tudengite soo ja mannapudrulembuse uurimiseks, saame tulemuse kujul
Mannapuder? Sugu Data ei ja võib-olla Grand Total Count of Mannapuder? 3 7 1 11 Mees Count of Mannapuder?2 27.27% 63.64% 9.09% 100.00% Count of Mannapuder? 9 12 1 22 Naine Count of Mannapuder?2 40.91% 54.55% 4.55% 100.00% Total Count of Mannapuder? 12 19 2 33 Total Count of Mannapuder?2 36.36% 57.58% 6.06% 100.00%
Tabelist loeme välja, et kokku uuriti 33 tudengit, neist 11 olid mehed ja 22 naised, 57,6%
armastas ja 36,4% ei armastanud mannaputru, oma
suhtumist mannapudrusse ei osanud väljendada 2 tudengit (so.6%). Meeste ja naiste võrdlusest näeme, et veidi üle veerandi (27,3%) meestest ei armasta mannaputru, samas kui naiste hulgas on mannaputru mittearmastavate isikute osakaal 40,9%. Mannapudrusse suhtusid positiivselt 63,6% mees-tudengitest ja 54,6% naistudengitest.
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/2sagedustab.html (2 of 4)29.05.2006 15:09:12 Andmeanalüüs MS Exceli abil - 2-mõõtmeline sagedustabel
2-test
Mittepidevate tunnuste vahelise seose statistilise olulisuse kontrollimiseks sobib MS Exceli keskkonnas funktsioon CHITEST(actual_range, expected_range), kus actual_range ja expected_range on vastavalt empiirilise ja
teoreetilise sagedustabeli andmeblokid ilma ääresummadeta.
Empiiriline (andmete põhjal konstrueeritud) sagedustabel on saadav jällegi Pivot Table abil:
Count of Mannapuder? Mannapuder? Sugu ei ja võib-olla Grand Total Mees 3 7 1 11 Naine 9 12 1 22 Grand Total 12 19 2 33
Funktsiooni CHITEST esimeseks argumendiks (actual_range) on helehall andmeblokk ülaltoodud sagedustabelist.
Teoreetilise (tunnuste sõltumatusele vastava ideaalse) sagedustabeli lahtrid täidetakse valemi järgi arvutatud suurustega.
Lihtsaim on seda teha samal lehel Pivot Table'i väljastatud sagedustabeliga. Teoreetilise sagedustabeli ülemine vasakpoolne
lahter täidetakse valemi =$E3*B$5/$E$5 väärtusega (siin E3 on lahter, kus paikneb empiirilise sagedustabeli esimese rea summa, B5 on lahter, kus paikneb empiirilise sagedustabeli esimese veeru summa ja E5 on lahter, kus paikneb empiirilise sagedustabeli kogusumma).
Järgnevalt tuleb
sisestatud valem kopeerida kõigisse teoreetilise sagedustabeli lahtritesse. Tulemuseks on arvude blokk, mis tuleb funktsioonile CHITEST anda ette teise argumendina (expected_range):
4 6.333 0.667 8 12.667 1.333
Peale argumentide määramist sisestusaknas
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/2sagedustab.html (3 of 4)29.05.2006 15:09:12 Andmeanalüüs MS Exceli abil - 2-mõõtmeline sagedustabel
väljastab MS Excel eelnevalt kindlaksmääratud lahtrisse 2-testi olulisuse tõenäosuse p väärtuse. Kui p Antud näite korral saame olulisuse tõenäosuseks p = 0,69. Seega ei ole meil alust lugeda seost tudengite soo ja mannapudrulembuse vahel statistiliselt oluliseks.
Märkus. 2-testi kasutamine on õigustatud vaid juhul, kui kõigis teoreetilise sagedustabeli lahtrites paiknevad sagedused on neljast suuremad (nij > 4). Seega ei pruugi vaadeldud andmete korral 2-testi põhjal tehtud järeldused vastata tegelikkusele. Saamaks usutavamaid tulemusi, on vajalik andmestiku
suurendamine (küsitleda tuleb rohkem tudengeid).
[email protected] http://ph.eau.ee/~ktanel/kool_ja_too/ märts, 2000
http://www.htg.tartu.ee/~a9tp/mirror/www.eau.ee/%257Ektanel/kool_ja_too/stat_excelis/2sagedustab.html (4 of 4)29.05.2006 15:09:12
Kõik kommentaarid