Alors voilà, je vois propose un second TP sur la reconnaissance de caractères avec tesseract-ocr. Il fait écho à une situation rencontrée dans « la vraie vie ». Lors de notre dernier trek, le guide nous à lu un joli texte sur l’alpinisme issu d’un vieux magazine Petzl. Il nous a laissé prendre en photo sa photocopie du texte, qu’il traîne avec lui depuis dieu seul sait combien de temps. Autant vous dire que niveau qualité de la source on est pas au top.
Un peu comme la chronique de Raphaël Enthoven sur l’alpinisme je voulais partager ce texte avec vous. Bon, je pourrais me contenter de vous claquer la photo du texte ci dessous, mais je me suis dis que c’était l’occasion de ressortir tesseract-ocr pour un TP en conditions réelles.
Voici l’image source en question :
Autant vous dire que c’est pas gagné d’avance pour la reconnaissance de caractères avec tesseract-ocr.
Préparation
Alors deux trucs que j’ai fait à la main (dans paint.net) avant de commencer :
- Empiler les colonnes pour avoir un texte d’une seul colonne dans le bon ordre ; et
- appliquer un seuil en passant en noir et blanc (comme proposé à la fin