OCR

Pour modifier la page utiliser l'onglet Modifier avec formulaire.

Résumé	Faire de la reconnaissance de caratères sous LINUX.
Auteur(s)	BILLARD FM
Licence	CC-BY-SA 3
Date de création	20 février 2018

Sommaire

Intentions / Contexte

Numériser des textes

Partir d'un fichier image d'un texte, pour obtenir un fichier texte exploitable.

Sous Linux, plusieurs outils existent, pour cette fois Tesseract sera exploité.

Installer soit en ligne de commande ou par le gestionnaire de paquet tesseract-ocr, puis les langues que vous souhaitez exploiter.

Prendre une photo du texte ou bien le scanner. Cette étape doit être faite en mode noir et blanc avec le maximum de contraste.
Si l'étape précédente ne vous a pas permis d'obtenir une image couleur, avec Gimp passer le mode de l'image en palette noir et blanc >Image-> Mode->Couleurs indexées-> Palette noir et blanc 1 bit.
export en jpg
puis dans le répertoire ou se trouve l'image saisir : tesseract ./monimage.jpg texte

Ceci va convertir le contenu de l'image monimage.jpg en un fichier texte texte.txt