Scänner
RESOLUTSIOON
TÜÜP
FAILI FORMAAT
ÜHENDATAVUS
HIND
Tekstituvastus
OCR ehk tekstituvastus (optical character recognition) on tehnoloogia, mille abil
digitaalsest pildifailist eraldatakse tekst. Seda võimalust sisaldab skanneri tarkvara,
samuti mõned spetsiaalsed arvutiprogrammid. Eesmärk on muuta pildi kujul olev tekst
töödeldavaks ning võimaldada tekstisisest otsingut. Tänu tekstituvastustehnoloogiale
on võimalik paberdokumentidest, PDFfailidest ja pildistatud dokumentidest luua
redigeeritav tekstifail.
Skaneerimise käigus saadakse trükisest või ka käsitsi kirjutatud tekstist digitaalne pilt,
pildifail. Pildifaili teatavasti tekstitöötlusvahenditega töödelda ei saa. Kuidas muuta
pildi kujul olev tekst töödeldavaks? Siin tulebki appi tekstituvastustarkvara. See tunneb
ära tähed ja numbrid, mis moodustavad skaneeritud kujutise (pildifaili), ning teisendab