Ako používať Tesseract OCR v jazyku Java

Autor: Robert Simon
Dátum Stvorenia: 20 V Júni 2021
Dátum Aktualizácie: 1 December 2024
Anonim
Ako používať Tesseract OCR v jazyku Java - Články
Ako používať Tesseract OCR v jazyku Java - Články

Obsah

Knižnice optického rozpoznávania znakov spoločnosti Tesseract ponúkajú vývojárom spôsob skenovania dokumentov a textu do obrázka. Používajú sa na ukladanie obrázkov dokumentov, ktoré už nepotrebujete na papieri. Môžete ich použiť v jazyku Java vytvorením riadiacich slučiek pre každý znak a zapísaním každého do súboru. Ak chcete použiť knižnice Tesseract, musíte pre funkcie OCR zahrnúť "namespace" Java.


inštrukcia

Knižnice Tesseract umožňujú používateľom skenovať svoje dokumenty (John Foxx / Stockbyte / Getty Images)
  1. Kliknite pravým tlačidlom myši na súbor Java, ktorý chcete použiť na vytvorenie dokumentu OCR. Kliknite na "Otvoriť s" a vyberte Java editor podľa vášho výberu.

  2. Pridajte názvový priestor knižnice OCR do hornej časti súboru. Skopírujte a vložte nasledujúci kód do zdrojového súboru:

    com.tplan.robot.imagecomparison.tesseractocr

  3. Vytvorte kód zodpovedný za skenovanie znakov pre súbor. Napríklad nasledujúci kód vytvorí slučky cez každý znak v súbore a zapíše ich do obrazového súboru:

    (I = 1; {i} <{riadky} +1; i = {i}) je množina hodnôt, ktoré sú definované ako: +1) {Typeline "{_TOCR_LINE {i}}"}


  4. Kliknite na tlačidlo "Uložiť" v editore a kliknite na tlačidlo "Spustiť" spustiť kód v prekladači Java.