Keeleteadus konspekt 2018 sügis
Korpusuuring on olemuslikult vaatluslik uurimus (observation). Ei saa muuta jälgid
järeldused
Semantiliste tunnuste märgendamine. Kelle intuitsioon kasutamine seda. Lubatakse enda
intuitsiooni põhjal järeldusi teha, kui on väga suured andmemahud mida suurte numbritega
teha.
Ideaalis on korpusuuring puhas kasutuspõhine lähenemine
Korpusuuringus materjali semantiline märgendamine otsustus on võrdlusprotsess oma
intuitsiooniga?
Korpusuuringute tulemuste mudeldamine (juhuslikud metsad jm). Nt 300milj sõna pealt
uuring liiga vähe infot mudel ja siis saab vaadata, kas arvuti käituks sama moodi selle
olemasoleva info põhjal.
Mida uuritakse
Sagedus (sõna, võrm, paus)
Kollokatsioone
Ngramme
Keskmist silpide arvu sõnas, foneemide arvu sõnas)
Sketch Engine: näiteks trigrammid (Ngramm koosesinemised (ka bi) kõige sagedamini
esinevad kolmikus ,,et see on" ,,ei ole võimalik" ,,see ei ole" jne
Wordnet https://www.cl