Lühidalt arvutilingvistikast
Arvutuslingvistika uurimisrühma koduleheküljel www.cl.ut.ee on kirjakeele
korpused, mille keskseks on 80ndate korpus. Selline süsteem aitab näiteks mõista keele
muutumist 20ndal sajandil. Korpuste koostamisega tegelevadki eelpoolmainitud Tartu
Ülikool ja EKI. EKI korpuse maht on 10,4 miljonit sõnavormi, millest ca 80% on
ajalehetekstid. Kuna tegemist on juhuslikult kogutud materjalide, pole tegemist
represantiivse korpusega.
Keeletehnoloogilisi lahendusi on kergem teha pigem kitsale allkeelele näiteks: "on
võimalik luua masintõlkesüsteem, mis tõlgib edukalt HewlettPackardi printeri
manuaale, kuid mingi teise firma manuaalidega võib ta juba hätta jääda. Sellise süsteemi
loomist alustatakse muidugi kõigi HewlettPackardi printeri manuaalide korpuseks
koondamisega." (Arvutimaailm, 2002).
Probleemi on lahendatud nii, et korpuste maht on viidud sellel tasemele, et seda saab
kasutada erinevatel eesmärkidel. ,,Korpuslingvistikas räägitakse palju korpuse