భాషందం, భువనందం, బ్రతుకందం

Wednesday, May 19, 2010

Tesseract OCR for Telugu - Part 2

Teaching Tesseract

భువనేశ్వరి మనకు ఉత్తబుఱ్ఱనిచ్చి ఈ భూమండలం మీదుకు నెట్టింది అందులో మనం దొరికిన అడ్డమైన చెత్తా నింపాము। అది పవిత్రమని ఇది అపవిత్రమని, అది ఆశయమని ఈ ఆదర్శమని, ఇది మమదని అది పరదని। తెలుఁగునాట పుట్టాము కాబట్టి తెలుఁగు మమదని భావించి సుందరతెలుఁగు అక్షరాలు నింపాము అందులో – అలా మీరు ఈ టపా చదవగలుగుతున్నారు। అలానే గూగులేశ్వరి మనకు అందించిన ఈ టెస్సరాక్టు.exe అనే బుఱ్ఱకు మనము చుట్టూ సరుకులు జేర్చాలి, అప్పుడా బుఱ్ఱ ఉచ్చైశ్రవములా పరిగెట్టి తెలుఁగు చదవగలుగుతుంది। ఆ సరుకులనే TESSDATA అంటారు।


TESSDATA
ఇంగ్లీషు చదివే సామర్థ్యాన్ని ఇచ్చే సరుకులు
tessdata/
eng.freq-dawg,
eng.word-dawg,
eng.user-words,
eng.inttemp,
eng.normproto,
eng.pffmtable,
eng.unicharset,
eng.DangAmbigs
వీటిని మనం గూగులు కోడు నుండే దింపుకోవచ్చుఁ. tesseract-2.00.eng.tar.gz {from here}

మన ధ్యేయం ఇప్పుడు తెలుగు tessdata
tessdata/
tel.freq-dawg,
tel.word-dawg,
tel.user-words,
tel.inttemp,
tel.normproto,
tel.pffmtable,
tel.unicharset,
tel.DangAmbigs

"లెస్సగా" తయారు చేయడం.

TEST RUN for OCRing English text.
బళ్ళో చేర్చుకునెటప్పుడు ఎవరైనా ముందు వీడికి అస్సలు ఎంత వచ్చో తేల్చుకొని దానిని బట్టి పై తరగతిలో వేయడం జరుగుతుంది। అలానే ముందు అసలు ఇది ఆంగ్లాన్ని అర్థం చేసుకొనగలదనే నమ్మకాన్ని మీకు ఏర్పరచి అప్పుడు దీనికి మనము తెలుఁగు నేర్పుకోవడం చేస్తే ఒక పద్ధాతిగానుంటుంది।
ఇది చాలా తేలిక
1) Move the bin.dlg\..\tessdata folder to bin.dlg (the tessdata folder must be in the same place as the tesseract.exe)
2) Copy the downloaded tessdata\eng.* files to the bin.dlg\tessdata directory.
2) run from command line tesseract image.tif output


SAMPLE IMAGES
1) Sample images can be created using MS Paint, GIMP etc.
Write the required text on to a file, and save the image as a TIFF file.
In GIMP, Set
Image -> Mode -> Indexed -> Use black & White 1-bit pallete
and Save
image.tif Compression: CCITT Group 4 fax
Note: Compression reduces image size greatly, you may try with and without compression to test if the LIBTIFF dlls are getting linked properly.

2) You can use real world images, like scanned copies of newspaper clippings or books.
eg: - Sample here.

3) You will get your output to the output.txt file.



Once you are good with this, you can move to Part 3.

No comments:

Post a Comment

నవతరంగం సినిమా తెవికీ పొద్దు కూడలి తెలుగుబ్లాగు సాహిత్యం