Grafikai tervezés - Webdesign - Honlapkészítés | Websablon | Wordpress
OCR
Kategóriák : Alkalmazás, Tutorial
Ingyen optikai karakter felismerés, szkennelés – free OCR, scanner
Optical Character Recognition
• Bevezető
Ingyenes, open source karakterfelismerő program letölthető a http://www.szoftverbazis.hu/szoftver/freeocr-v2-6-VH14.html oldalról. Nyílt forráskódú konzolos programot használ. A .net keretrendszerrel megírt alkalmazás pedig egy kezelőfelületet ad hozzá.
• Más nyelvek használata
A rendelkezésre álló nyelvekhez tartozó fájlokat a http://code.google.com/p/tesseract-ocr/downloads/list oldalon tölthetjük le. Kicsomagolva a „/WINDOWS/tessdata” könyvtárba kell másolni az állományokat, és a freeORC program felismeri, alkalmazza. A magyar nyelvhez hasonló a spanyol, amely kis hibával jól felismeri a kisbetűs karaktereket. Az ű-t ü-nek, az ő-t ö-nek mutatja. A nagy betűk felismerése sem teljesen korrekt.
• Kezelőfelület működése
Ha beszkenneltünk egy lapot, akkor a bal oldalon található ikonokkal forgathatunk a képen. Az egérkurzort a szöveg fölé helyezve, és folyamatos bal egérgomb nyomva tartása mellett egy szövegrészt jelölhetünk ki. Az OCR ikonra kattintva csak ez a kis rész kerül beolvasásra. A felismert karakterek, szöveg a jobb oldalra íródnak. Jobb oldalról a vágólapra másolhatjuk a szöveget.
• Magyar karakterek felismerése
Vannak a neten, igaz angol nyelvű leírások, amelyek elmagyarázzák, hogy egy adott fontkészlettel beolvasott képfájlt hogyan lehet értelmezhetővé tenni a program számára. Itt nem csak a betűk összessége, hanem a fontkészlet típusa is számít a felismerhetőség szempontjából. Itt található egy tutorial, hogyan készíthetünk magyar nyelvi modult: http://www.scribd.com/doc/16747664/Tesseract-Trainingfor-Khmer-LanguageFor-Posting