Slide 1
Harilik lineaarne
regressioonmudel
Loenguplaan
• Seos kahe tunnuse vahel
–
kovariatsioon –
korrelatsioon • Harilik lineaarne regressioonmudel
–
Vähimruutude meetod parameetrite hinnangute leidmiseks
– Parameetrite tõlgendamine
– Standardvead,
usalduspiirid – Parameetrite statistilise olulisuse kontrollimine
– Determinatsioonikordaja
– Mudeli
korrektne esitamine
– Erindi mõju
– Vabaliikme olulisus
– Mittelineaarsed lineariseeritavad mudelid
Kovariatsioon
(
)(
)
XY
X
Y
E
X
Y
=
−
−
μ
X ja μY on vastavalt suuruste X ja Y
keskväärtused (
)(
)
1
1
n
XY
i
i
i
x
x
y
y
n
=
=
−
−
Diskreetsete tunnuste korral
X
Y
XY
X
Y
−
Erinevalt dispersioonist võib kovariatsioon olla
nii positiivne kui ka negatiivne
covariation
–
koos muutumine
(
)2
2
X
E
X
=
−
Dispersioon: ühe suuruse hajumine
Kovariatsioon:
kahe suuruse
koosmuutumine
(
)2
2
1
1
n
i
i
x
x
n
=
=
−
[ ],
[ ]
X
Y
E X
E Y
=
=
Kovariatsiooni omadused
XY
YX
=
1. Sümmeetrilisus
2. Kui X=Y, siis
2
XX
X
=
• Kovariatsioon on dispersiooni
üldistus • Dispersioon on kovariatsiooni
erijuht :
kovariatsioon
iseendaga 3.
Sõltumatute juhuslike suuruste kovariatsioon on võrdne nulliga:
0
XY
=
Vastupidine ei kehti, st kui kovariatsioon on null,
ei pruugi suurused olla sõltumatud.
Näiteks
4. Kui
σ
XY ≠ 0, siis nimetatakse suurusi X ja Y korreleeruvateks
Positiivne kovariatsioon: suurematele X
väärtustele vastavad
ka suuremad Y
väärtused, väiksematele X väärtustele
väiksemad Y väärtused
Negatiivne kovariatsioon: suurematele X
väärtustele
vastavad väiksemad Y väärtused, väiksematele X
väärtustele suuremad Y väärtused.
0
XY
0
XY
Korrelatsioonikordaja
• Kovariatsiooni puudus: absoluutväärtus võib olla väga
suur! => Raske hinnata seose tugevust.
• Normeeritakse nii, et absoluutväärtuse maksimaalne
väärtus oleks 1
1
1
XY
XY
XY
X
Y
r
r
=
−
• Korrelatsioonikordaja absoluutväärtus näitab lineaarse
seose tugevust.
• Märk näitab seose suunda: positiivne või negatiivne.
Korrelatsioonikordaja
A ja C vahel on tugevam seos kui A ja B vahel.
r
AB = 0,58
r
AC= - 0,87
X
Y
XY
X
Y
−
Näide: positiivne ja negatiivne
korrelatsioon
Elektrienergia tarbimine
Suurbritannia erinevates linnades
1930. aastate lõpus.
Andmed
pärinesid 42 linnast.
Allikas: Houthakker, H. S. 1951. Some
Calculations on
Electricity Consumption in Great
Britain .
Journal of the
Royal Statistical Society.
Series A, Vol. 114, 359-371.
Tarbija sissetuleku ja tarbimise
vahel on positiivne korrelatsioon,
r = 0,767.
Hinna ja tarbimise vahel on
negatiivne korrelatsioon,
r = - 0,274.
Seos on, aga edasi?
Kas on võimalik leida seost kirjeldavat matemaatilist mudelit?
Et
teades tarbija sissetulekut, saaks prognoosida elektrienergia
keskmist tarbimist.
Tarbija sissetuleku ja tarbimise vahel on positiivne korrelatsioon, r = 0,767.
Harilik lineaarne
regressioonmudel
Tinglik keskväärtus
Eesti meeste keskmine pikkus on 179 cm
PIKKUS 179
u
=
+
kus u
on juhuslik
komponent . Konkreetse mehe pikkus sõltub paljudest
teguritest, mida see juhuslik komponent
arvestab .
Ühe konkreetse mehe pikkus (cm)
E PIKKUS
179 cm
=
See on
tingimusteta keskväärtus (unconditional mean )
Poisslapse pikkus aga sõltub
vanusest ning lisaks paljudest muudest teguritest.
Näiteks 2-16 aastase poisslapse keskmine pikkus sentimeetrites
E PIKKUS VANUS
80, 4 6 VANUS
=
+
PIKKUS
80, 4 6 VANUS u
=
+
+
See on
tinglik keskväärtus (
conditional mean): keskväärtus sõltub vanusest.
Ühe konkreetse
poisi pikkus
E Y X
Tinglik keskväärtus üldiselt:
Juhusliku suuruse Y
keskväärtus sõltub juhusliku suuruse X väärtustest.
Regressioonanalüüs
Regressioonmudel koosneb deterministlikust ja juhuslikust
komponendist y =
deterministlik komponent + juhuslik komponent
y
ax
b
u
=
+ +
Näiteks lineaarne regressioonmudel
deterministlik
komponent ehk
tinglik keskväärtus
juhuslik
komponent
Regressioonanalüüs uurib suuruste vahelist sõltuvust ja võimalusi selle
funktsionaalseks kirjeldamiseks etteantud valemi põhjal.
Regressioonanalüüsi käigus leitakse regressioonmudeli deterministlik
komponent, st leitakse vastava matemaatilise funktsiooni parameetrite
hinnangud .
=E
y
Y X
u
+
Tinglik keskväärtus on deterministlik komponent
Regressioonjoone parameetrite
hindamismeetodid • Vähimruutude meetod:
– kõige tuntum;
– minimeeritakse hälvete
ruutude summat • lineaarne mudel: harilik vähimruutude meetod OLS (Ordinary
Least
Squares);
•
mittelineaarne mudel: mittelineaarne vähimruutude meetod NLS
(Nonlinear Least Squares);
• teatud juhtudel üldistatud vähimruutude meetod GLS (Generalized
Least Squares).
• Suurima
tõepära meetod (
maximum likelihood
estimation, MLE)
– leitakse parameetrite väärtused, mille korral antud valimi
tõenäosus on kõige suurem;
– kasutatakse peamiselt aegridade modelleerimisel ja
tõenäosusmudelite korral.
Vähimruutude meetod OLS
Valim ( ,
)
1,...,
i
i
x y
i
n
=
ˆ
ˆ
ˆ
i
i
y
ax
b
=
+
Silutud väärtused
Silutud väärtuste erinevus vaatlusandmetest y
i on
hälbed ehk jäägid
(residuals):
ˆ
i
i
i
u
y
y
= −
Vähimruutude meetod: regressioonmudeli parameetrite hinnangud
leitakse nii, et jääkide ruutude summa on minimaalne.
2
1
min
n
i
i
u
=
→
Y
X
y
i
u
i
y
i
Y
X
Ordinary Least
Squares Demo ˆ
i
y
Parameetrite hinnangute valemite
tuletamine ˆ
ˆ
ˆ
i
i
i
i
i
u
y
y
y
ax
b
=
−
=
−
−
(
)2
2
1
1
ˆ
ˆ
ˆ
ˆ
( , )
min
n
n
i
i
i
i
i
RSS a b
u
y
ax
b
=
=
=
=
−
−
→
Hälvete ruutude summa RSS (Residual Sum of Squares)
ˆ
ˆ
( , )
0
ˆ
ˆ
ˆ
( , )
0
ˆ
RSS a b
a
RSS a b
b
=
=
2
2
ˆ
ˆ
ˆ
i
i
i
x y
n x y
a
x
n x
b
y
ax
−
=
−
= −
Hälbed
Tuleb leida kahe
muutuja funktsiooni
miinimumkoht.
Matemaatilisest analüüsist: I järku
osatuletised peavad
võrduma nulliga.
ˆ
ˆ
( , )
RSS a b
Tõestus vt näiteks A.
Sauga , „Statistika õpik
majanduseriala üliõpilastele“, lisa A.9.
OLS hinnangute omadused
On võimalik näidata (
Gauss -
Markovi teoreem ), et sel moel
leitud hinnangud on
•
nihketa ;
• efektiivsed, so vähima dispersiooniga kõigi nihketa
lineaarsete hinnangute seas;
•
lineaarsed vaatluste y
i suhtes.
KUI
kehtivad klassikalise lineaarse mudeli eeldused.
Vastavaid
eeldusi ja nende testimist vaatame järgmistes
loengutes.
Kui CLRM (
Classical Linear Regression Model) eeldused on
täidetud, annab vähimruutude meetod
parima lineaarse nihketa
hinnangu (
BLUE ,
Best Linear Unbiased Estimator).
Mudeli hindamise tulemus, näide
Sissetulek ja elektrienergia tarbimine.
Tähistused: elektrienergia tarbimine Y, elanike sissetulek X.
i
i
i
y
b
ax
u
= +
+
Leiame mudeli
parameetrite hinnangud.
Regressioonmudeli hindamise aruanne
programmis Gretl :
Parameetri b hinnang
ˆ 274
b
Parameetri a hinnang
ˆ 1,68
a
274 1,68
i
i
i
y
x
u
=
+
+
Mudel
houthakker.gdt
Arvutus mudeli järgi, näide
Mingis linnas oli elanike keskmine
sissetulek 800 GBP aastas.
Kui suur oli seal elektrienergia
tarbimine pere kohta?
800
i
x =
ˆ
274 1,68
i
i
y
x
=
+
ˆ
274 1,6
800
8
1618
i
y =
+
=
kWh aastas
See on silutud väärtus ehk mudelväärtus.
Mingi konkreetse pere tegelik tarbimine:
274 1,68 800
1618
i
i
i
y
u
u
=
+
+ =
+
kWh aastas
b
Mudeli parameetrite tõlgendus, näide
ˆ
ˆ
ˆ
y
b
ax
= +
Parameetri a
tõlgendus:
kui sissetulek on 1 GBP (ehk
ühiku võrra) suurem, on
elektrienergia tarbimine aastas
1,68 kWh võrra suurem.
Kui sissetulek on 100 GBP võrra
suurem, on tarbimine aastas
168 kWh võrra suurem
168
100
Parameetri
b tõlgendus:
kui sissetulek on 0, on tarbimine 274 kWh.
NB! Ei pruugi olla õige, sest 0 lähedal andmed puuduvad.
ˆ
274 1,68
i
i
y
x
=
+
Lineaarse mudeli parameetrite tõlgendus
üldjuhul
a
sirge tõus.
Näitab, kui palju muutub y,
kui x
muutub ühiku võrra.
b konstant ehk
vabaliige.
Näitab, millega võrdub y, kui x=0.
a
1
a
y
b
ax
= +
NB! Selline tõlgendus pole alati
realistlik !
Tõusuparameetrite võrdlemine, näide
Tarbimismudel näitab, kuidas kulud mingile hüvisele sõltuvad
kogukuludest .
X kulud kokku pereliikme kohta aastas.
Y kulud teatud hüvise
tarbimisele , pereliikme kohta aastas.
2012. aasta andmed.
0,1
34
3
4
y
x
u
=
+
+
Toit
0, 4
464
2 7
y
x
u
= −
+
+
Transport
0,0277
97
y
x
u
=
+
+
Side
0
500
1000
1500
2000
2500
0
5000
10000
Toit
Side
Transport
Vabaliikme tõlgendus transpordikulude
mudelis ? Kulud ei saa olla negatiivsed!
Millal tekivad kulud transpordile? Siis, kui
kogukulud pereliikme kohta on ca 1880
eurot aastas.
Kulud kokku, eurot
Kul
ud
hüv
is
el
e,
eurot
Kuidas saadi 1880? 464
0, 247
y
x
u
= −
+
+
Transport
0
500
1000
1500
2000
2500
0
5000
10000
TransportKulud kokku, eurot
Kul
ud
hüv
is
el
e,
eurot
1880
0
464
0, 247x
= −
+
0, 247
464
x
−
= −
464
1878,54 1880
0, 247
x =
=
0, 247
464
x =
Parameetrite standardvead
Vähimruutude meetodi tulemusel saadakse minimaalne jääkliikmete summa
(
)2
2
2
1
1
ˆ
ˆ
2
2
n
n
i
i
i
i
i
u
y
ax
b
s
n
n
=
=
−
−
=
=
−
−
Parameetrite hinnangute standardvead:
(
)
2
2
1
( )
i
x
se b
se
n
x
x
=
+
−
(
)2
( )
i
se
se a
x
x
=
−
Näitavad, kui täpsed on parameetrite hinnangud.
2
1
min
mingi arv
n
i
i
u
=
→
=
Selle põhjal leitakse dispersiooni hinnang.
Jagatud läbi vabadusastmete
arvuga n-2, kus n valimi maht.
Mudeli
standardviga 2
se
s
=
standard error of regression
Standardvead, näide
Parameetrite hinnangute
standardvead
Jääkliikmete ruutude summa
Mudeli standardviga
2
1
6974580
417,5698
2
42
2
n
i
i
u
se
n
=
=
=
−
−
houthakker.gdt
Sissetulek ja
elektrienergia
tarbimine
Kui seletav tunnus x varieerub vähe
y
x
x
y
x
x
Parameetrite hinnangute standardvead:
(
)2
i
x
x
−
Kui
väike, siis standardvead suured
Täpsemate hinnangute saamiseks peavad x väärtused võimalikult palju
hajuma .
(
)2
( )
i
se
s
x
x
a =
−
(
)2
2
1
( )
i
x
se b
se
n
x
x
+
−
=
t-jaotus
2
2
1
−
Parameetrite hinnangute usalduspiirid
Usalduspiiride leidmisel lähtutakse sellest, et parameetrite hinnangute
standardiseeritud erinevused tegelikest väärtustest
alluvad t jaotusele
vabadusastmete arvuga
ˆ
ˆ
( )
,
( )
ˆ
ˆ
( )
( )
a
a
b
b
t
t
se a
se b
−
−
2
ˆ
ˆ
( )
( )
a
t
se a
2
ˆ
ˆ
( )
( )
b
t
se b
Kui võtta usaldatavuseks 1-
α, siis parameetrite hinnangute usalduspiirid:
Viirutatud ala: tõenäosus, et parameetri tegelik väärtus
jääb usalduspiiridesse.
Punane ala: tõenäosus, et tegelik väärtus on väljaspool
usalduspiire.
2
n
= −
Parameetrite usalduspiirid ja sirge asend
(a) lineaarliikme, (b) vabaliikme ja (c) mõlema parameetri
määramatusest tingitud
regressioonsirge asendi
määramatus .
Lineaarliikme
määramatus
Vabaliikme
määramatus
Mõlema parameetri
määramatus
ˆa
a
ˆb
b
ˆa
a
ˆb
b
ˆa
a
+
ˆa
a
−
ˆa
ˆb
b
+
ˆb
b
−
ˆb
t-väärtused ja usalduspiirid, näide274,019
1,866
146,882
1,68242
7,555
0, 222697
Suhted, mis
alluvad t-jaotuseleParameetrite hinnangute usalduspiirid
usaldatavusega 95%
Programmis Gretl peale mudeli hindamist
Analysis ->
Confidence intervals for
coefficients houthakker.gdt
Sissetulek ja
elektrienergia
tarbimine
Näide: riigi SKP ja peaministri nime pikkus
Riik
Peaminister Tähtede arv
nimes n
SKP, mld eurot
Eesti
Andrus
Ansip 11
16,0
Läti
Valdis
Dombrovskis
17
20,2
Leedu
Andrius
Kubilius
15
30,7
Soome
Jyrki
Katainen
13
189,4
Rootsi Fredrik Reinfeldt
16
387,9
Taani
HelleThorning - Schmidt 21
239,2
Norra Jens
Stoltenberg
15
349,1
14,0
54,7
SKP
n
=
−
Aasta 2011
Parameetrite statistiline olulisus
Kõige sagedamini on regressioonmudeli korral vaja testida, kas tunnused Y
ja X
on omavahel seotud, st kas tõusuparameeter a erineb oluliselt nullist.
Nullhüpotees H
0: Sisukas hüpotees H
1:
Kriitiline piirkond (vastu
võtta H
1)
2
0
0
| |
( )
a
a
t
t
p
=
Kahepoolne hüpotees
See on parameetrite statistilise olulisuse
kontrollimine. Kui nullhüpotees on
ümber lükatud (võetakse vastu sisukas hüpotees), on
parameeter oluliselt
nullist erinev, järelikult seos on olemas.
ˆ
ˆ
ˆ
ˆ
)
0
(
( )
a
a
t
se a
se a
−
=
=
Sellisel juhul
Ökonomeetriapakettides
leitakse t ja p
väärtused just
selle
juhu jaoks.
Teistel juhtudel tuleb teha
lisaarvutusi.
Demo: parameetri olulisus
Näide: parameetrite statistiline olulisus
Vastab
kahepoolsele
nullhüpoteesile
H0: a=0
Olulisuse tõenäosus p on 3,2∙10-9 , mis on väiksem kui olulisuse nivoo
0,05, nullhüpotees on ümber lükatud.
On tõestatud, et elanike sissetuleku ja elektrienergia tarbimise vahel on
statistiliselt oluline seos: parameetri a hinnang on oluliselt erinev nullist.
Sissetulek ja elektrienergia tarbimine
Tähistused: elektrienergia tarbimine Y, elanike sissetulek X
i
i
i
y
b
ax
u
= +
+
houthakker.gdt
Näide: riigi SKP ja peaministri nime pikkus
Riik
Peaminister
Tähtede arv
nimes n
SKP mld eurot
Eesti
Andrus
Ansip
11
16,0
Läti
Valdis
Dombrovskis
17
20,2
Leedu
Andrius
Kubilius
15
30,7
Soome
Jyrki
Katainen
13
189,4
Rootsi
Fredrik
Reinfeldt
16
387,9
Taani
HelleThorning - Schmidt
21
239,2
Norra
Jens
Stoltenberg
15
349,1
14,0
54,7
SKP
n
=
−
0,51 0,05
p =
Võtta vastu H
0. Nime pikkus n
ei mõjuta SKP-d .
Aasta 2011
Näide:
CAPM mudel ja agressiivne
investeering Finantsvarade hindamise mudel CAPM (Capital
Asset Pricing Model)
𝑅𝑖 − 𝑅𝐹 = 𝛼𝑖 + 𝛽𝑖(𝑅𝑀 − 𝑅𝐹) + 𝑢𝑖
R
i
investeeringu i
oodatav
tulumäär ;
R
F
riskivaba tulumäär antud turul (näiteks riigi võlakirjade
tulusus );
R
M
turuportfelli tulusus (turuportfell esindab kõiki turul ringlevaid
väärtpabereid );
β
i
investeeringu i
süstemaatilise riski mõõt ehk
beetakordaja ;
u
i
juhuslik komponent, mis iseloomustab spetsiifilist riski.
Kui
β
i > 1, on tegemist agressiivse investeeringuga: investeeringu
tulumäära liikumine on suurem kui turuportfellil, investeeringu risk on turu
keskmisest kõrgem.
Tuleb testida hüpoteesipaari H
0: β ≤ 1
H
1: β > 1
St regressioonmudeli beetakordajat peab võrdlema arvuga 1.
Hüpoteeside
testimine parameetrite jaoks
üldjuhul
0
ˆ
ˆ
( )
a
t
se a
a
−
=
Kasutatakse t- testi, teststatistik
nullhüpoteesile vastav parameetri väärtus
ˆ
( )
se a parameetri hinnangu standardviga (leitakse mudeli hindamisel)
parameetri hinnang
0
0
0
a
a
a
a
a
a
=
Nullhüpotees H
0:
Sisukas hüpotees H
1:
Kriitiline piirkond (võtta
vastu H
1)
0
0
0
2
| |
( )
( )
2
a
a
a
a
a
a
t
t
t
t
p
p
Kahepoolne
Ühepoolne
0
ˆa
a
ν on vabadusastmete arv, kus n on valimi maht ja K mudeli
parameetrite arv (koos vabaliikmega)
α on olulisuse nivoo (tavaliselt 0,05)
n
K
= −
Mudeli kirjeldusvõime
Kui mudeli
parameetrid on statistiliselt olulised, tuleb
hinnata ka mudeli kirjeldusvõimet.
Kvantitatiivseks kirjeldamiseks kasutatakse
determinatsioonikordajat R2.
Vasakpoolsel joonisel on mudeli kirjeldusvõime suurem
kui parempoolsel.
Koguhajuvus , seletatud
hajuvus ,
jääkhajuvus (
)2
i
TSS
y
y
=
−
Total Sum of Squares
Sõltuva tunnuse Y koguhajuvus
Y
(
)2
ˆ
i
i
RSS
y
y
=
−
Residual Sum of Squares
Sõltuva tunnuse Y jääkhajuvus
Regressioonmudeliga kirjeldatud hajuvus ehk seletatud hajuvus
ESS
TSS
RSS
=
−
Explained Sum of Squares
NB! Erinevates õpikutes võivad tähistused olla erinevad!
Nt Wooldridge: SST, SSR, SSE
Determinatsioonikordaja R2
Arvutamise põhimõte:
y
Kogu
hajumine
Seletamata
hajumine
Mudeli
poolt
seletatud
hajumine
2
1
ESS
RSS
R
TSS
TSS
=
=
= −
seletatud hajumine
koguhajumine
Determinatsioonikordaja näitab, kui suur osa koguhajumisest on mudeli
poolt ära seletatud.
Y
Demo
Determinatsioonikordaja programmis Gretl
Ruutude summasid näeb
ANOVA tabelis, peale mudeli hindamist Analysis -> ANOVA
ESS
RSS
TSS
houthakker.gdt
Determinatsioonikordaja ja lineaarne
korrelatsioonikordaja
Seos lineaarse ehk
Pearsoni korrelatsioonikordajaga r.
Ühe tunnuse x korral, kui lineaarne mudel
R2 = r2
Determinatsioonikordaja sisu on paremini mõistetav.
Korrelatsioonikordaja näitab ka seose suunda, mida
determinatsioonikordaja ei näita.
y
b
ax
u
= +
+
Mudeli korrektne esitamine2
ˆ
ˆ
...
( ( ))
( ( ))
...
y
b
a x
u
R
se b
se a
n
=
+
+
=
=Regressioonanalüüsi põhitulemuste esitamisel esitatakse
• parameetrite hinnangud;
• parameetrite standardvead;
• determinatsioonikordaja R2;
• valimi maht n (lugeja jaoks vajalik, kui soovib t-testi läbi viia).
VARIANT 2: Mõnikord esitatakse parameetrite all sulgudes standardvigade
asemel vastavad t-
statistiku väärtused. See võimaldab lugejal neid kohe
võrrelda vastava
kriitilise väärtusega.
VARIANT 3: Mõnikord esitatakse sulgudes vastavad olulisuse
tõenäosused . Sellisel juhul ei pea lugeja
arvutama kriitilist väärtust, võib
kohe võrrelda olulisuse nivooga ja hinnata, kui võimsalt on mingi tunnuse
mõju tõestatud.
Variandid 2 ja 3 on vastuvõetavad vaid siis, kui huvi pakub vaid
koefitsientide erinevus nullist.
Näide mudeli esitamisest2
274 1,68
0,588
(147) (0, 22)
42
t
y
x
u
R
n
=
+
+
=
=
Elektrienergia kasutamine
i
i
i
yb ax
u
= +
+
Elektrienergia tarbimine (kWh aastas) Y, elanike sissetulek X (GBP)
houthakker.gdt
Näide mudeli esitamisest
Elektrienergia kasutamine
i
i
i
y
b ax
u
= +
+
Elektrienergia tarbimine (kWh aastas) Y, elanike sissetulek X (GBP)
2
274 1,68
0,588
(147) (0, 22)
42
t
y
x
u
R
n
=
+
+
=
=
houthakker.gdt
Näide mudeli esitamisest
Elektrienergia kasutamine
i
i
i
y
b ax
u
= +
+
Elektrienergia tarbimine (kWh aastas) Y, elanike sissetulek X (GBP)
2
274 1,68
0,588
(147) (0, 22)
42
t
y
x
u
R
n
=
+
+
=
=
houthakker.gdt
Erindi mõju
Üks
erind võib oluliselt mõjutada regressioonmudeli parameetrite
hinnanguid.
ˆ 2,8
58
ˆ 2,1
89
y
x
y
x
=
+
=
+
Demo: erindi mõju
Vabaliikme olulisus
Vabaliikme statistilist olulisust
lineaarses mudelis enamasti
ei
kontrollita , sest ilma vabaliikmeta lineaarset mudelit enamasti ei
kasutata.
Vabaliikme olemasolu on vajalik vähimruutude meetodi kasutamise
seisukohalt. Vabaliige garanteerib
, et regressioonijääkide summa
0.
i
i
u =
Mitmete regressioonanalüüsi käigus leitavate suuruste valemite (nt
determinatsioonikordaja) tuletamisel kasutatakse seda omadust.
Demo: vabaliikme olulisus
Vabaliikmega ja ilma, näide0
i
i
u =
52,7
i
i
u =
i
i
i
y
b ax
u
= +
+
i
i
i
y
ax
u
=
+
houthakker.gdt
Regressioon läbi
nullpunkti Mõnikord tuleb siiski hinnata lineaarset mudelit, kus teatud
kaalutlustest lähtudes peab vabaliige
puuduma .
Seda nimetatakse
regressiooniks läbi nullpunkti (Regression
through the
Origin , RTO) ja sellise mudeli
üldkuju ühe tunnuse
korral on
y
ax
u
=
+
ˆy ax
=
Deterministlik komponent on võrdeline seos
2
y
x
=
?
0
i
i
u =
Testida, kas
Determinatsioonikordaja kasutamine
küsitav. Erinevad
paketid arvutavad
erinevalt.
Näide: regressioon läbi nullpunkti
Ajakirjas Journal of
Environmental Horticulture 2006. aastal ilmunud artiklis
analüüsiti, kuidas
puukoore tootmine sõltub
metsaraie mahust . Kasutati
andmeid USA erinevatest piirkondadest aastatel 1986-2001.
Kui metsa ei raiuta, siis puukoort turule ei tule. Seepärast kasutati ilma
vabaliikmeta lineaarset mudelit
y
ax
u
=
+
ˆ 0,89
ˆ 1,01
y
x
y
x
=
=
kus y on kuiva puukoore kogus (tuh tonni), x
raiemaht antud piirkonnas
(mln kuupjalga).
USA kirdeosa jaoks saadi
lehtpuu okaspuu Allikas: Lu, W et al, (2006), Estimation of U.S.
Bark Generation and Implications for Horticultural
Industries, Journal of Environmental Horticulture, Vol.
24 , 29-34
LINEARISEERITAVAD MUDELIDNäide: log-log mudel, 12
salary
1174
0,015sales
0,015
R
=
+
=
Lineaarne mudel
esinevad
erindid Kuidas
töötasu (salary, tuh $) sõltub
ettevõtte müügikäibest (
sales , mln $)
209 USA ettevõtte andmed.
2
salary
4,8 0, 257
sale
ln
ln
s
0, 211
R
=
+
=
Logaritmime tunnuseid,
saame log-log mudeli
Näide: log-log mudel, 2
Logaritmimata tunnused on väga asümmeetrilised. Sagedusdiagrammid:
salary
sales
Logaritmitud tunnused on sümmeetrilisemad
ln(salary)
ln(sales)
log-log mudeli kordaja tõlgendus
salary
1174
0,015sales
=
+
Lineaarne mudel
Kui
käive tõuseb 1 mln $ võrra, siis
töötasu tõuseb 0,015 tuh $ võrra
Kuidas töötasu (salary, tuh $) sõltub ettevõtte käibest (sales, mln $).
l salary
4,8 0, 257
sales
n
ln
=
+
log-log mudel
Kui käive tõuseb 1%, siis
töötasu tõuseb 0,257%
Log-log
mudeli kordaja näitab, mitu % muutub Y, kui X suureneb 1%.
See on
elastsuskordaja .
Lineaarne mudel:
piirkalduvus on
konstantne .
Log-log mudel: elastsuskordaja on konstantne.
Näide: log-lin mudel
USA SKP püsihindades, mld $
Allikas: http://www.usgovernmentspending.com
ln
(SKP
)
Sõltuva tunnuse
logaritmimine teisendab eksponentsiaalse kõvera
lineaarseks.
ln
t
y
b
r t
= +
Eksponentsiaalne kasv
( )
(0)
rt
y t
y
e
=
Lineariseeritud mudel
SK
P
, mld
USD
Parameeter r
on
kasvumäär .
Eksponentsiaalse mudeli lineariseerimine
( )
(0)
rt
y t
y
e
=
(
)
ln ( )
ln
(0)
rt
y t
y
e
=
ln ( )
ln (0)
ln
rt
y t
y
e
=
+
ln ( )
ln (0)
y t
y
rt
=
+
ln (0)
b
y
=
ln ( )
y t
b
rt
= +
log-
lin mudel, sõltumatu tunnus aeg t
Näide: USA SKP kasvumäära hindamine
ln
t
t
y
b
r t
u
= +
+
y on SKP mld $, t on aeg aastates (t=1 aastal 1800)
Aruanne programmis Gretl
USA SKP kasvumäär
on olnud keskmiselt
3,65% aastas.
2
4
ˆ
ln
2,0942
0,036496
0,9953
(0,0212)
(1,74 10 )
t
y
t
R
−
=
+
=
usa_gdp.gdt
Tähtsamad ökonomeetrias kasutatavad
lineariseeritavad mudelid
2
lineaarne mudel
log-log mudel ln
ln
log-lin mudel ln
1
1
lin-log mudel
ln
1
1
1
hüperboolne mudel
x
y
b
ax
u
a
a
y
y
y
b
a
x
u
a
a
x
y
b
ax
u
ay
ax
y
b
a
x
u
a
a
x
y
y
b
a
u
a
a
x
x
xy
= +
+
= +
+
= +
+
= +
+
= +
+
−
−
Piirkalduvus
y
x
Elastsus y x
x y
Mudeli kuju
Mudeli nimetus
Muud lineariseeritavad mudelid2
2
i
i
i
i
i
i
i
i
y
a
bz
u
z
x
y
a
bx
u
= +
+
→
= →
= +
+
i
i
i
i
i
i
i
i
y
a
b z
u
z
x
ya
bx
u
= +
+ →
= →
= +
+
Korrata logaritme!
Mudelite
interpreteerimiseks PEAB OSKAMA ümber
käia logaritmidega.
Moodles on materjal
logaritmide kordamiseks:
valemid ja harjutused (2 lk).
Kõik kommentaarid