Ako používať Tesseract OCR v jazyku Java

Obsah

inštrukcia

Knižnice optického rozpoznávania znakov spoločnosti Tesseract ponúkajú vývojárom spôsob skenovania dokumentov a textu do obrázka. Používajú sa na ukladanie obrázkov dokumentov, ktoré už nepotrebujete na papieri. Môžete ich použiť v jazyku Java vytvorením riadiacich slučiek pre každý znak a zapísaním každého do súboru. Ak chcete použiť knižnice Tesseract, musíte pre funkcie OCR zahrnúť "namespace" Java.

inštrukcia

Knižnice Tesseract umožňujú používateľom skenovať svoje dokumenty (John Foxx / Stockbyte / Getty Images)

Kliknite pravým tlačidlom myši na súbor Java, ktorý chcete použiť na vytvorenie dokumentu OCR. Kliknite na "Otvoriť s" a vyberte Java editor podľa vášho výberu.
Pridajte názvový priestor knižnice OCR do hornej časti súboru. Skopírujte a vložte nasledujúci kód do zdrojového súboru:

com.tplan.robot.imagecomparison.tesseractocr
Vytvorte kód zodpovedný za skenovanie znakov pre súbor. Napríklad nasledujúci kód vytvorí slučky cez každý znak v súbore a zapíše ich do obrazového súboru:

(I = 1; {i} <{riadky} +1; i = {i}) je množina hodnôt, ktoré sú definované ako: +1) {Typeline "{_TOCR_LINE {i}}"}
Kliknite na tlačidlo "Uložiť" v editore a kliknite na tlačidlo "Spustiť" spustiť kód v prekladači Java.