OCR

Ce wiki a été archivé en 2018.

Le nouveau wiki se trouve à: ressources.labomedia.org

Les fonctionnalités sont désactivées: vous pouvez faire une recherche sur Google site:https://wiki.labomedia.org et découvrir La Labomedia.

De Centre de Ressources Numériques - Labomedia
Aller à : navigation, rechercher
OCR
Image défaut fiche idée.png


Pour modifier la page utiliser l'onglet Modifier avec formulaire.

Résumé Faire de la reconnaissance de caratères sous LINUX.
Auteur(s) BILLARD FM
Licence CC-BY-SA 3
Date de création 20 février 2018


Intentions / Contexte

Numériser des textes

Principe de fonctionnement

Partir d'un fichier image d'un texte, pour obtenir un fichier texte exploitable.

Besoins / Compétences

Documentation

Sous Linux, plusieurs outils existent, pour cette fois Tesseract sera exploité.

Installation

Installer soit en ligne de commande ou par le gestionnaire de paquet tesseract-ocr, puis les langues que vous souhaitez exploiter.

Exploitation

  1. Prendre une photo du texte ou bien le scanner. Cette étape doit être faite en mode noir et blanc avec le maximum de contraste.
  2. Si l'étape précédente ne vous a pas permis d'obtenir une image couleur, avec Gimp passer le mode de l'image en palette noir et blanc >Image-> Mode->Couleurs indexées-> Palette noir et blanc 1 bit.
  3. export en jpg
  4. puis dans le répertoire ou se trouve l'image saisir  : tesseract ./monimage.jpg texte

Ceci va convertir le contenu de l'image monimage.jpg en un fichier texte texte.txt

  1. Le changement de langue se fait avec l'option -i lang