Reconnaissance de caractères avec TESSERACT-OCR

OCR

Marre des Captchas à noix ? aucun problème aujourd’hui on va résoudre ça grâce à la reconnaissance de caractères. Ça va se traduire sous forme d’une un gros TP pour debian (8.2 Jessie) où on va s’intéresser particulièrement au logiciel TESSERACT-OCR (OCR pour Optical Character Recognition).

Note : Tesseract-OCR n’a absolument rien à voir avec le tesseract des Avengers ou du film Cube, comme ça s’est dit…

Pour la petite histoire, il s’agit d’un logiciel initialement développé par HP (entre 1985 et 1995) puis abandonné. En 2005 le code source est finalement libéré sous licence Apache, et maintenu depuis par des équipe de Google. Tesseract-OCR est LA référence dans les moteurs de reconnaissance de caractères, il reconnait 60 langues au moment de la rédaction de cet article, à le bon gout d’être opensource et est déjà packagé sous la plupart des grosse distribution Linux : ce qui fait qu’il est utilisable quasiment clé en main sans trop se poser de question.

Sans transition, le github du projet : https://github.com/tesseract-ocr
(et l’ancien site sur Google Code      : https://code.google.com/p/tesseract-ocr/)

Installation de TESSERACT-OCR

Pour les barbus, compilation depuis les sources

Avant de pouvoir installer Tesseract, il faut déployer un autre soft en prérequis.

Leptonica

Leptonica est … Lire la suite