Reconnaissance de caractères avec TESSERACT-OCR

OCR

Marre des Captchas à noix ? aucun problème aujourd’hui on va résoudre ça grâce à la reconnaissance de caractères. Ça va se traduire sous forme d’une un gros TP pour debian (8.2 Jessie) où on va s’intéresser particulièrement au logiciel TESSERACT-OCR (OCR pour Optical Character Recognition).

Note : Tesseract-OCR n’a absolument rien à voir avec le tesseract des Avengers ou du film Cube, comme ça s’est dit…

Pour la petite histoire, il s’agit d’un logiciel initialement développé par HP (entre 1985 et 1995) puis abandonné. En 2005 le code source est finalement libéré sous licence Apache, et maintenu depuis par des équipe de Google. Tesseract-OCR est LA référence dans les moteurs de reconnaissance de caractères, il reconnait 60 langues au moment de la rédaction de cet article, à le bon gout d’être opensource et est déjà packagé sous la plupart des grosse distribution Linux : ce qui fait qu’il est utilisable quasiment clé en main sans trop se poser de question.

Sans transition, le github du projet : https://github.com/tesseract-ocr
(et l’ancien site sur Google Code      : https://code.google.com/p/tesseract-ocr/)

Installation de TESSERACT-OCR

Pour les barbus, compilation depuis les sources

Avant de pouvoir installer Tesseract, il faut déployer un autre soft en prérequis.

Leptonica

Leptonica est … Lire la suite

D.E.S. – Data Encryption Standard en PowerShell

Salut les gens !
Avant de commencer, j’espère que les TPs sur Enigma vous ont intéressés, et si vous les avez loupés : c’est par ici.

Et pour ceux qui viennent d’arriver, je rappelle qu’on reprend ici les principaux algorithmes de cryptographie de l’histoire. Jusqu’ici on a vu, que des algorithmes de substitution (poly-)alphabétique avec César, Vigenère, et Enigma. On vous a aussi montré comment attaquer ces algorithmes à l’aide de propriétés statistiques : Fréquence des lettres ou indice de coïncidence ; le tout saupoudré d’un peu de brute-force.

Vous aviez aimé ? bien, parce que c’est fini, aujourd’hui on rentre (doucement) dans la cours des grands (avec des poils, et tout) et on commence avec un monument de Crypto Moderne : D.E.S. – Data Encryption Standard.

D.E.S., Data Encryption Quoi ?

Data Encryption Standard est le nom d’un algorithme datant de 1977 dans sa première version. Il fait suite à la demande du NBS (aujourd’hui appelé le NIST pour National Institute of Standards and Technology) d’un algorithme de chiffrement à destination des entreprises. C’est à peu de choses près la même histoire que pour AES (pour Advanced Encryption Standard) plus récemment, mais on y viendra.

Pour DES … Lire la suite

Les cookies c’est bon : mangez-en !

Les plus attentifs d’entre-vous auront noté l’apparition d’une banderole relative à l’utilisation des cookies sur le site.

Alors oui, c’est pas très joli (déjà c’est pas rose dirait mon apprentie), c’est même limite un peu chiant pour l’utilisateur en fait, mais :

C’est la Loi (et « ici la loi c’est moi« , hein.)

Des Cookies et des lois…

Si vous cherchez quelques infos exactes sur ce qui est précisément demandé par la loi, je vous renvoi vers le site de la CNIL :

ici : http://www.cnil.fr/vos-obligations/sites-web-cookies-et-autres-traceurs/que-dit-la-loi/bandeau-cookie/
et là : http://www.cnil.fr/vos-obligations/sites-web-cookies-et-autres-traceurs/que-dit-la-loi/

Si on suit « à la lettre » ce que dit la loi, il faut fournir un moyen de refuser l’utilisation de ces fichiers…. sans couper l’accès au site. Korben, s’est intéressé au problème dans cet article. Où on se rend compte que c’est pas vraiment évident à mettre en œuvre. Qu’il faut aller chercher dans les sources du site pour placer un bon gros « IF(COOKIE_OK) » devant chaque création de cookie en fonction votre envie du jour de visiteur.

Et ici ?

Du coup, j’ai regardé ce que mon site pose comme gâteaux sur vos navigateurs pour les amadouer :

Déjà j’utilise l’extension Cookie … Lire la suite

Cryptanalyse d’Enigma par l’indice de coïncidence

Enfin la partie la plus intéressante.

Cryptanalyse d’Enigma – Historiquement

Détermination du câblage interne des rotors

Même après la première guerre mondiale, les états continuaient à surveiller et décrypter les conversations des pays voisins. À partir de 1926, les messages allemands commencèrent à être chiffrés par Enigma. Les cryptanalystes alliés renoncèrent vite à briser Enigma, du à sa difficultés, et surement pensant qu’une invasion serait impossible.

Mais la Pologne, se sentant menacé par ses voisins (5400km de frontière, entouré seulement par des états ennemis), décida de se lancer dans la cryptanalyse d’Enigma. Trois spécialistes s’en chargèrent dont Maksymilian Ciezki. Malgré tout leur possible, et la version commerciale d’Enigma (qui avait des rotors différents, et qui ne possédait pas de fiches) la cryptanalyse n’avançait pas. C’est grâce à un espion Allemand, Hans-Thilo Schmidt que le bureau polonais trouva une faille. Il leur transmit les instructions d’utilisation de la machine, les directives pour fixer une clé, et plusieurs fois le cahier des configurations du mois, ainsi que quelques informations.

Des mathématiciens se joignirent au Bureau du Chiffre polonais, donc un certain Marian Rejewski un jeune étudiant de 23 ans. Précédemment, nous avons vu que les messages chiffrés étaient précédé de 6 lettres (la … Lire la suite