The US Postal Service använder optisk teckenigenkänning ( OCR ) teknik för att läsa adresserna på försändelser . För den post som skall läsas av en OCR- post sorterare , dock , adresser och teckensnitt måste formateras på ett visst sätt . OCR-program är användbart för att konvertera skannade bilder av maskinskrivna eller handskrivna dokument till sökbara elektroniska text , men det finns nackdelar som begränsar dess tillämpningar . Begränsade Dokument
OCR fungerar bäst med god kvalitet textdokument . Handskrivna dokument kan inte vara lätt att läsas av OCR-program . Likaså , maskinskrivna typsnitt som liknar handstil - samt icke - latinska teckensnitt - skapa många fel under OCR-processen . Om dokumentet har dålig kontrast , är skrynkligt eller smutsig , eller texten och bakgrunden är likartad i mörker , då OCR inte fungerar bra . OCR har svårt med dokument som har både bilder och text . Kalkylblad kommer också att producera fler fel .
Noggrannhet
Ingen OCR-program är 100 procent korrekt . Antalet fel beror på kvaliteten och typen av dokument, inklusive det använda teckensnittet . Fel som uppstår under OCR inkluderar feltolkar bokstäver , hoppa över bokstäver som är oläsbar , eller blanda ihop text från intilliggande kolumner eller bildtexter bild . Om hög noggrannhet krävs - som med konvertering av digitala böcker till elektroniskt format - då en sanering av den elektroniska texten kommer att behövas Addera ditt arbete -arounds
OCR har svårigheter med att skilja mellan tecken , såsom antalet noll och en huvudstad " O. " För att komma runt detta , kan en särskild OCR teckensnitt att användas , till exempel att skriva ut noll . Dock fungerar detta endast för dokument skapade med OCR i åtanke , till exempel enkäter . När du skapar frågeformulär som kommer att vara handskrivna , forskare använder också boxar för varje bokstav .
Merarbete
Även om skannad bild av originaldokumentet är hög - kvalitet , ytterligare åtgärder måste ske för att rensa upp i OCR- text . Det är mycket arbetskrävande att rätta till de fel som skapats av OCR . En person har att manuellt jämföra det ursprungliga dokumentet och elektronisk text . Människor gör även fel när du skriver text från ett dokument , men ibland är det snabbare att hoppa över OCR steget .