Reconnaissance de caractères avec TESSERACT-OCR

Marre des Captchas à noix ? aucun problème aujourd’hui on va résoudre ça grâce à la reconnaissance de caractères. Ça va se traduire sous forme d’une un gros TP pour debian (8.2 Jessie) où on va s’intéresser particulièrement au logiciel TESSERACT-OCR (OCR pour Optical Character Recognition).

Note : Tesseract-OCR n’a absolument rien à voir avec le tesseract des Avengers ou du film Cube, comme ça s’est dit…

Pour la petite histoire, il s’agit d’un logiciel initialement développé par HP (entre 1985 et 1995) puis abandonné. En 2005 le code source est finalement libéré sous licence Apache, et maintenu depuis par des équipe de Google. Tesseract-OCR est LA référence dans les moteurs de reconnaissance de caractères, il reconnait 60 langues au moment de la rédaction de cet article, à le bon gout d’être opensource et est déjà packagé sous la plupart des grosse distribution Linux : ce qui fait qu’il est utilisable quasiment clé en main sans trop se poser de question.

Sans transition, le github du projet : https://github.com/tesseract-ocr
(et l’ancien site sur Google Code      : https://code.google.com/p/tesseract-ocr/)

Installation de TESSERACT-OCR

Pour les barbus, compilation depuis les sources

Avant de pouvoir installer Tesseract, il faut déployer un autre soft en prérequis.

Leptonica

Leptonica est … Lire la suite

Varnish devant WordPress sur Apache

Alors je ne sais pas si vous avez remarqué, mais le blog va (un peu) plus vite à charger ces derniers temps ? Après mon serveur n’est pas monstrueux non plus (1 cœur/2GB RAM : ne vous amusez pas à me faire un DDOS, ça tombera probablement dès la 10ème connexion simultané…)

Bref, j’ai suivi une partie de cet article pour essayer d’améliorer, modestement les performances du blog, j’ai déjà :

  • Mis facilement WP Super Cache en place, et fait les réglages associés ;
  • Ajouté le Plugin WP Smush pour compresser les images sans pertes (toujours ça de gagné) ;
  • Utilisé gtmetrix.com et webpagetest.org pour savoir quoi améliorer sur le site ; et
  • J’ai fait un peu de ménage dans les « grosses » images qui étaient sur la page d’accueil, pour éviter qu’elles ne soient re-sizées par votre navigateur, et vous servir de suite celle à la bonne taille.

Bon après j’ai sauté la partie gestion des commentaires (il n’y en a presque pas pour l’instant), et je n’ai pas encore abordé la partie base SQL. Du coup il me reste le caching avec un reverse-proxy pour continuer d’optimiser.

Optimiser pour quoi faire ?

Alors c’est très simple : … Lire la suite

Les cookies c’est bon : mangez-en !

Les plus attentifs d’entre-vous auront noté l’apparition d’une banderole relative à l’utilisation des cookies sur le site.

Alors oui, c’est pas très joli (déjà c’est pas rose dirait mon apprentie), c’est même limite un peu chiant pour l’utilisateur en fait, mais :

C’est la Loi (et « ici la loi c’est moi« , hein.)

Des Cookies et des lois…

Si vous cherchez quelques infos exactes sur ce qui est précisément demandé par la loi, je vous renvoi vers le site de la CNIL :

ici : http://www.cnil.fr/vos-obligations/sites-web-cookies-et-autres-traceurs/que-dit-la-loi/bandeau-cookie/
et là : http://www.cnil.fr/vos-obligations/sites-web-cookies-et-autres-traceurs/que-dit-la-loi/

Si on suit « à la lettre » ce que dit la loi, il faut fournir un moyen de refuser l’utilisation de ces fichiers…. sans couper l’accès au site. Korben, s’est intéressé au problème dans cet article. Où on se rend compte que c’est pas vraiment évident à mettre en œuvre. Qu’il faut aller chercher dans les sources du site pour placer un bon gros « IF(COOKIE_OK) » devant chaque création de cookie en fonction votre envie du jour de visiteur.

Et ici ?

Du coup, j’ai regardé ce que mon site pose comme gâteaux sur vos navigateurs pour les amadouer :

Déjà j’utilise l’extension Cookie … Lire la suite

ZeroBin, ou comment faire Google Keep sans Google mais avec AES

Je veux vous présenter un outil qu’un collègue anonyme (merci Grégoire) m’a fait découvrir ce matin : ZeroBin.

ZeroBin :

ZeroBin

Ce projet open source propose de vous fournir un Pastebin qui a le bon goût de ne pas analyser tout ce que vous y écrivez pour vous placer de la pub ensuite.

Pourquoi ?

Parce que tout ce que vous y enverrez est chiffré en AES (256), et que le serveur ne sait donc pas ce qu’il stocke, il ne voit que du texte chiffré, du bruit en gros.

Comment ça marche ?

Lors de l’upload votre navigateur chiffre le contenu via une clé *secrète*.
C’est simple d’utilisation, car la clé est placée dans le lien que l’outil vous renvoi après l’upload, comme ci-dessous :

https://zerobin.net/?ca9e881b88da443e#/mubgNofdYrpDu61GikEmsPlZqJGKS0v2RD4IEtvNiE=

Mais si c’est dans l’URL le serveur reçoit bien la clé ?

C’est là que c’est beau, en fait si vous regardez bien le lien en exemple ci-dessus :
On a 3 morceaux :

A. le site,

https://zerobin.net/

Je passe c’est comme d’hab ça.

B. votre “note”,

?ca9e881b88da443e

Ça c’est comme sur n’importe quel site en PHP, ou vous demanderiez l’accès à la ressource `man of stelle` (par exemple). Vous verrez dans l’URL :… Lire la suite