Tekstikorpustest - 2 õppematerjali

"tekstikorpustest" - 2 õppematerjali

Arvutilingvistika kordamisküsimused vastustega

andmebaasi kaasatud ebaregulaarselt. 14. Missuguseid allikaid kasutati ühendverbide andmebaasi loomisel? Andmebaas koondab 5 inimkasutajale mõeldud sõnastiku andmeid, Filosofti tesauruse materjale ja 20 miljonist sõnast koosnevast tekstikorpusest statistiliste meetoditega leitud püsiühendeid (seda eksperimenti on lähemalt kirjeldatud artiklis Heiki-Jaan Kaalep, Kadri Muischnek (2003). Püsiühendite leidmine suurtest tekstikorpustest. Eesti Keele Instituudi toimetised 12. Toimiv keel I Töid rakenduslingvistika alalt. Eesti Keele Sihtasutus Tallinn, lk. 101-118) 15. Missugused on Eesti Kirjakeele Sagedussõnastiku andmetel 2 eesti keeles kõige sagedasemat tegusõnavormi? Olema 44904; Saama 5894 Oli 8861; On - 19184 16. Mis on TEKsaurus? Tesaurus on liik mõistelist sõnaraamatut. See kujutab endast sõnakogu, kus sõnad

544

pdf

Mitmekeelne oskussuhtlus

nende väljundi puhastamiseta, seda aga annab vähemalt osaliselt delegeerida sõnastiku lugejatele, kasutades ära nende keelehuvi, asjade korrastamise soovi ja kuulumisvajadust. Seega, kui valite metoodikat mõne suurema sõnastikuprojekti jaoks või mõtlete terminoloogiateemalise lõputöö peale, pakuksime edasiuurimiseks järgmisi suundi (sulgudes ingliskeelsed märksõnad guugeldamise lihtsustamiseks). • Terminite automaatse otsimisega tekstikorpustest tegeleb ter- minituvastus (term extraction). Mitmesuguste statistiliste mee- toditega mõõdetakse keelendite kummalisust, st ainuomasust vaatlusalusele teksti(liigi)le, lähtudes hüpoteesist, et kummalisus korreleerub terminilisusega. Täiendavalt võidakse kasutada ka lingvistilist infot, näiteks terminikandidaatide sõnaliigikuuluvust. Ühesõnaliste terminite tuvastamine on suhteliselt lihtne, mitme- sõnalisi leida on veidi keerulisem

Inimeseõpetus → Inimeseõpetus

39 allalaadimist

"tekstikorpustest" - 2 õppematerjali

Arvutilingvistika kordamisküsimused vastustega

Mitmekeelne oskussuhtlus