Bonjour Loïc,
Je fais des essais en vue d'indexer par LAD des actes d'état civil.
Je suis gêné par la présence de multiples caractères successifs (comme le tiret ou l'étoile) utilisés en remplissage de fin de ligne ou en interligne.
J'utilise la méthode Imaging2.OCRTesseractGetCharCode (i) pour détecter des séquences de caractères et Imaging2.OCRTesseractGetCharLine(i) pour chercher une ligne.
Une ligne ne comportant que des tirets n'est pas repérée.
J'aimerai donc nettoyer l'image avant d'appliquer l'OCR.
A ce sujet voici mes remarques et suggestions:
1- FxRemoveLine... : ces méthodes effacent tout y compris les portions horizontales(ou vert.) des caractère et les pixels isolés. Ne faudrait-il pas introduire un paramétrage pour définir à partir de combien de pixel de long (de haut) on considère une ligne, ainsi qu'une largeur de bande de part et d'autre (haut et bas ou gauche et droite) exempte de pixels permettant de confirmer qu'il s'agit d'une ligne?
2- FxParasite... : un parametrage en largeur hauteur permettrait de supprimer les "gros" parasites. (peut-être utile aussi pour FxFillHole...)
3-FxDilate: produit l'effet inverse (= FxErode), par contre c'est Ok pour FxDilateV, 4 et 8. (il me semble avoir déjà posté sur un cas similaire)
Voilà, c'est tout pour le moment. Je joins un exemple d'image avec tirets parasites.
Merci de votre attention.
Cordialement
Jissé
