OCR
Ce wiki a été archivé en 2018.
Le nouveau wiki se trouve à: ressources.labomedia.org Les fonctionnalités sont désactivées: vous pouvez faire une recherche sur Google site:https://wiki.labomedia.org et découvrir La Labomedia. |
De Centre de Ressources Numériques - Labomedia
OCR |
---|
Pour modifier la page utiliser l'onglet Modifier avec formulaire.
Résumé | Faire de la reconnaissance de caratères sous LINUX. |
---|---|
Auteur(s) | BILLARD FM |
Licence | CC-BY-SA 3 |
Date de création | 20 février 2018 |
Sommaire
Intentions / Contexte
Numériser des textes
Principe de fonctionnement
Partir d'un fichier image d'un texte, pour obtenir un fichier texte exploitable.
Besoins / Compétences
Documentation
Sous Linux, plusieurs outils existent, pour cette fois Tesseract sera exploité.
Installation
Installer soit en ligne de commande ou par le gestionnaire de paquet tesseract-ocr, puis les langues que vous souhaitez exploiter.
Exploitation
- Prendre une photo du texte ou bien le scanner. Cette étape doit être faite en mode noir et blanc avec le maximum de contraste.
- Si l'étape précédente ne vous a pas permis d'obtenir une image couleur, avec Gimp passer le mode de l'image en palette noir et blanc >Image-> Mode->Couleurs indexées-> Palette noir et blanc 1 bit.
- export en jpg
- puis dans le répertoire ou se trouve l'image saisir : tesseract ./monimage.jpg texte
Ceci va convertir le contenu de l'image monimage.jpg en un fichier texte texte.txt
- Le changement de langue se fait avec l'option -i lang