Vivre, Reconnaissance de caractères avec Tesseract-OCR

OCR

Alors voilà, je vois propose un second TP sur la reconnaissance de caractères avec tesseract-ocr. Il fait écho à une situation rencontrée dans « la vraie vie ». Lors de notre dernier trek, le guide nous à lu un joli texte sur l’alpinisme issu d’un vieux magazine Petzl. Il nous a laissé prendre en photo sa photocopie du texte, qu’il traîne avec lui depuis dieu seul sait combien de temps. Autant vous dire que niveau qualité de la source on est pas au top.

Un peu comme la chronique de Raphaël Enthoven sur l’alpinisme je voulais partager ce texte avec vous. Bon, je pourrais me contenter de vous claquer la photo du texte ci dessous, mais je me suis dis que c’était l’occasion de ressortir tesseract-ocr pour un TP en conditions réelles.

Voici l’image source en question :

Autant vous dire que c’est pas gagné d’avance pour la reconnaissance de caractères avec tesseract-ocr.

Préparation

Alors deux trucs que j’ai fait à la main (dans paint.net) avant de commencer :

  1. Empiler les colonnes pour avoir un texte d’une seul colonne dans le bon ordre ; et
  2. appliquer un seuil en passant en noir et blanc (comme proposé à la fin
Lire la suite

Reconnaissance de caractères avec TESSERACT-OCR

OCR

Marre des Captchas à noix ? aucun problème aujourd’hui on va résoudre ça grâce à la reconnaissance de caractères. Ça va se traduire sous forme d’une un gros TP pour debian (8.2 Jessie) où on va s’intéresser particulièrement au logiciel TESSERACT-OCR (OCR pour Optical Character Recognition).

Note : Tesseract-OCR n’a absolument rien à voir avec le tesseract des Avengers ou du film Cube, comme ça s’est dit…

Pour la petite histoire, il s’agit d’un logiciel initialement développé par HP (entre 1985 et 1995) puis abandonné. En 2005 le code source est finalement libéré sous licence Apache, et maintenu depuis par des équipe de Google. Tesseract-OCR est LA référence dans les moteurs de reconnaissance de caractères, il reconnait 60 langues au moment de la rédaction de cet article, à le bon gout d’être opensource et est déjà packagé sous la plupart des grosse distribution Linux : ce qui fait qu’il est utilisable quasiment clé en main sans trop se poser de question.

Sans transition, le github du projet : https://github.com/tesseract-ocr
(et l’ancien site sur Google Code      : https://code.google.com/p/tesseract-ocr/)

Installation de TESSERACT-OCR

Pour les barbus, compilation depuis les sources

Avant de pouvoir installer Tesseract, il faut déployer un autre soft en prérequis.

Leptonica

Leptonica est … Lire la suite