Lühidalt arvutilingvistikast
6
3. Eesti keele korpused, keeleressursid ja teised
,,Elektrooniliste sõnastike tegemisega on rohkem või vähem tegevuses TÜ, EKI, Festart,
Filosoft jm uurimis ja kommertsasutused." (Arvutimaailm, 2002). Keeleressurssidega
tegelemine nõuab nii materiaalseid kui ka inimressursse, kuid sellesse tasub investeerida.
Keeletoodete areng on sõltuv sellest, kui hästi kättesaadavad ning mahukad on ressurssi
elektroonilised sõnastikud, terminoloogiabaasid, teksti- ja kõnekorpused ning formaalsed
grammatikad. Korpus on elektrooniline keele kogum, mille alusel saab keelt analüüsida,
treenida arvutiprogramme töötamaks tekstidega, kontrollida keele kohta käivaid
teooriaid. Arvutuslingvistika uurimisrühma koduleheküljel www.cl.ut.ee on kirjakeele
korpused, mille keskseks on 80ndate korpus. Selline süsteem aitab näiteks mõista keele
muutumist 20ndal sajandil. Korpuste koostamisega tegelevadki eelpoolmainitud Tartu
Ülikool ja EKI