Lühidalt arvutilingvistikast
Mõeldud on koguda erinevat ,,tüüpi suulist kõnet, nii
argivestluse kui ka avaliku suhtluse keelekasutus, nii spontaanset kui ettevalmistatud
kõnet, nii monolooge kui ka dialooge." (Hennoste 2000: 257). Literateerimisel on
kasutatud konversatsioonianalüüsi ja kõik nimed ning identifitseeritavad numbrid on
asendatud. Samuti on lisatud vajalik taustakirjeldus jms. Korpus on liigendatav mitmete
allkeele kaudu. ,,Allkeeled jaotatakse sotsiolingvistiliselt kahte suurde rühma:
kasutajakeskselt defineeritud murded ning situatsioonikeskselt defineeritud registrid."
(Hennoste 2000: 257). Tegemist on linnakeelekorpusega ja seega murderühmi paju ei ole,
suurimad jagunemised käivad kolme suurema linna Tallinna, Tartu ja Pärnu järgi ning
on seotud konkreetset piirkonda mõjutanud murdega/murretega. Teine suur allkeelte
rühm on registrid suhtlusviisid ja füüsilised tingimused. Korpuses on nii silmas silma
vestlused, telefonivestlused kui ka monoloogid.