· verbi ja noomeni püsivad ühendid, sh väljendverbid (lokku lööma, meelde tuletama), tugiverbiühendid (tööd tegema, kõnet pidama) ja kollokatsioonid (selgeks tegema, avaldust esitama). · ahelverbid ehk finiitse verbi ühendid infiniidiga (sai pidama, pani ajama) on andmebaasi kaasatud ebaregulaarselt. 14. Missuguseid allikaid kasutati ühendverbide andmebaasi loomisel? Andmebaas koondab 5 inimkasutajale mõeldud sõnastiku andmeid, Filosofti tesauruse materjale ja 20 miljonist sõnast koosnevast tekstikorpusest statistiliste meetoditega leitud püsiühendeid (seda eksperimenti on lähemalt kirjeldatud artiklis Heiki-Jaan Kaalep, Kadri Muischnek (2003). Püsiühendite leidmine suurtest tekstikorpustest. Eesti Keele Instituudi toimetised 12. Toimiv keel I Töid rakenduslingvistika alalt. Eesti Keele Sihtasutus Tallinn, lk. 101-118) 15. Missugused on Eesti Kirjakeele Sagedussõnastiku andmetel 2 eesti keeles kõige
et õhkkond vabam oleks. Vesteldakse vabalt valitud teemadel, argidialoogid on spontaansed. Lindistatakse ka poolspontaanseid institutsionaalseid monolooge. Lindistuste märgendamiseks ja segmentimiseks kasutatakse programmi Praat Sõnatasandi esmane segmentatsioon saadakse automaatse kõnetuvastuse abil, märgendus vaadatakse käsitsi üle. Häälikutasand segmenditakse käsitsi. Morfoloogiline märgendus tehakse Filosofti analüsaatoriga, aga ei ühestata. Korpusest saab otsida ühe sõna piires. Vastuseks antakse 2-sekundiline helilõik koos märgendusega Vana kirjakeele korpus VAKK Koostanud vana kirjakeele uurimisrühm 2008. detsembri seisuga oli korpuses 1 50 802 sõnet Eesmärgiks teha vana kirjakeele tekstid uurijatele ja huvilistele veebis kättesaadavaks Korpuses on olulisemad tekstid 16. – 18. sajandist Korpuses on kõik teadaolevad 16