Lühidalt arvutilingvistikast
Arvutianalüüsil on
kõige olulisemad kodeerimise süstematiseeritus ja ennustatavus. Statistika inspiratsiooni
ei salli. Keelelised variatsioonid (pausid, venitused jms) võivad olla nii olulised kui ka
ebaolulised ning tihti on raske otsustada kummaga on tegemist. Kui erinevate
variatsioonide jaoks kasutada mitmesuguseid sümboleid jms võib tulemuseks olla see, et
transkriptsioon ei ole enam inimesele arusaadav, seega tuleks luua kaks korpust üks on
loetav inimestele, teine maasinatele. Arusaadavalt on see aga suhteliselt tüütu.
Arvutitranskriptsiooni üheks näiteks on TEI, milles on välja töötanud komplekti juhiseid,
ning ideeliselt peaksid olema sellega võimelised töötama ükskõik millise eriala uurijad ja
tekst peaks olema arvuti poolt loetavasse vormid viidav sõltumata sellest, millise riistvara
või tarkvaraga on tegemist ja sõltumata keelesta. TEI suurima puudused on täpitähtede
puudumine ja vähene inimesekesksus. TEI-l on probleeme ka korraga rääkimis