Loading...

Nettoyage d'image et OCR

Support for GdPicture Light Imaging Toolkit and GdPicture Pro Imaging ActiveX/SDK.

Nettoyage d'image et OCR

Postby tAkAmAkA » Sat Jun 20, 2009 3:26 pm

Bonjour Loïc,

Je fais des essais en vue d'indexer par LAD des actes d'état civil.
Je suis gêné par la présence de multiples caractères successifs (comme le tiret ou l'étoile) utilisés en remplissage de fin de ligne ou en interligne.

J'utilise la méthode Imaging2.OCRTesseractGetCharCode (i) pour détecter des séquences de caractères et Imaging2.OCRTesseractGetCharLine(i) pour chercher une ligne.

Une ligne ne comportant que des tirets n'est pas repérée.

J'aimerai donc nettoyer l'image avant d'appliquer l'OCR.

A ce sujet voici mes remarques et suggestions:

1- FxRemoveLine... : ces méthodes effacent tout y compris les portions horizontales(ou vert.) des caractère et les pixels isolés. Ne faudrait-il pas introduire un paramétrage pour définir à partir de combien de pixel de long (de haut) on considère une ligne, ainsi qu'une largeur de bande de part et d'autre (haut et bas ou gauche et droite) exempte de pixels permettant de confirmer qu'il s'agit d'une ligne?

2- FxParasite... : un parametrage en largeur hauteur permettrait de supprimer les "gros" parasites. (peut-être utile aussi pour FxFillHole...)

3-FxDilate: produit l'effet inverse (= FxErode), par contre c'est Ok pour FxDilateV, 4 et 8. (il me semble avoir déjà posté sur un cas similaire)

Voilà, c'est tout pour le moment. Je joins un exemple d'image avec tirets parasites.

Merci de votre attention.
Cordialement
Jissé
TiretsActe.tif
Exemple tirets parasites
tAkAmAkA
 
Posts: 54
Joined: Mon Oct 27, 2008 6:38 pm

Re: Nettoyage d'image et OCR

Postby Loïc » Mon Jun 22, 2009 6:45 pm

Bonjour,

J'ai eu un problème pendant la migration du site vers un serveur dédié. Votre image semble avoir disparu. Pouvez vous la joindre à nouveau ?

Cordialement,

Loïc
Loïc Carrère, support team.
www.orpalis.com
User avatar
Loïc
Site Admin
 
Posts: 4437
Joined: Tue Oct 17, 2006 10:48 pm
Location: France

Re: Nettoyage d'image et OCR

Postby tAkAmAkA » Mon Jun 22, 2009 8:47 pm

Bonjour,
Je la joins et l'envoie sur esupport.
Attachments
TiretsActe.tif
tAkAmAkA
 
Posts: 54
Joined: Mon Oct 27, 2008 6:38 pm

Re: Nettoyage d'image et OCR

Postby Loïc » Thu Jun 25, 2009 10:16 am

Bonjour,

Désolé pour le délai de réponse mais vous m'avez posé une véritable colle.

Les filtres d'effacement automatiquement de lignes horizontales et/ou verticales sont optimisés pour supprimer des lignes telles que des lignes de tableaux & traits de soulignements.

Malheureusement dans votre image, les "lignes" ne sont que des suites successives de caractères "tiret". Le moteur a donc un peu de mal à les considérer comme des lignes "réelles" et par conséquent, effectue également une érosion des caractères.

Dans votre cas la solution la plus efficace me semble de ne pas tenir compte des caractères ayant une hauteur inférieur à un seul qui correspondrait à la hauteur moyenne de vos tirets majorée de 20%. Vous pouvez effectuer ce genre de filtre en utilisant les fonctions OCRTesseractGetCharTop & OCRTesseractGetCharBottom.

Dites moi si vous voulez plus de détail.

Cordialement,

Loïc Carrère
Loïc Carrère, support team.
www.orpalis.com
User avatar
Loïc
Site Admin
 
Posts: 4437
Joined: Tue Oct 17, 2006 10:48 pm
Location: France


Return to GdPicture [Pro] ActiveX

Who is online

Users browsing this forum: No registered users and 1 guest