Keeleteadus konspekt 2018 sügis
Kui on mitmekeelne korpus,
siis on tõlked panud vastavusse (mis on mille tõlge)
Korpusuuring on olemuslikult vaatluslik uurimus (observation). Ei saa muuta jälgid
järeldused
Semantiliste tunnuste märgendamine. Kelle intuitsioon kasutamine seda. Lubatakse enda
intuitsiooni põhjal järeldusi teha, kui on väga suured andmemahud mida suurte numbritega
teha.
Ideaalis on korpusuuring puhas kasutuspõhine lähenemine
Korpusuuringus materjali semantiline märgendamine otsustus on võrdlusprotsess oma
intuitsiooniga?
Korpusuuringute tulemuste mudeldamine (juhuslikud metsad jm). Nt 300milj sõna pealt
uuring liiga vähe infot mudel ja siis saab vaadata, kas arvuti käituks sama moodi selle
olemasoleva info põhjal.
Mida uuritakse
Sagedus (sõna, võrm, paus)
Kollokatsioone
Ngramme
Keskmist silpide arvu sõnas, foneemide arvu sõnas)