Keeleteadus konspekt 2018 sügis
Korpusuuringus materjali semantiline märgendamine otsustus on võrdlusprotsess oma
intuitsiooniga?
Korpusuuringute tulemuste mudeldamine (juhuslikud metsad jm). Nt 300milj sõna pealt
uuring liiga vähe infot mudel ja siis saab vaadata, kas arvuti käituks sama moodi selle
olemasoleva info põhjal.
Mida uuritakse
Sagedus (sõna, võrm, paus)
Kollokatsioone
Ngramme
Keskmist silpide arvu sõnas, foneemide arvu sõnas)
Sketch Engine: näiteks trigrammid (Ngramm koosesinemised (ka bi) kõige sagedamini
esinevad kolmikus ,,et see on" ,,ei ole võimalik" ,,see ei ole" jne
Wordnet https://www.cl.ut.ee/ressursid/teksaurus/index.php#sec5 alammõisted ja
ülemmõisted eesti keele sõnade kohta loodud seosed
Süntesaator http://www.filosoft.ee/gene_et/
ANALÜSAATOR http://www.filosoft.ee/html_morf_et/html_morf.cgi
KOLLOKATSIOONID
Foneetikakorpus https://www.keel.ut.ee/et/foneetikakorpus
KORP
Tüpoloogilised andmebaasid