91 votes

Quelle est la meilleure solution d'OCR, la plus simple ?

J'aimerais numériser une bonne quantité de papiers qui traînent, avec le moins de tracas possible. J'aimerais les convertir en images avec Simple Scan, puis les convertir en texte avec OCR. Existe-t-il une bonne application d'OCR avec une interface graphique qui me donnera de bons résultats en appuyant simplement sur un bouton ?

79voto

Rob Gray Points 1556
  • GOCR de est un programme de reconnaissance optique de caractères (ROC) qui convertit les images scannées de texte en fichiers texte.

  • CLARA est une autre bonne option graphique.

  • OCRAD de est un OCR qui peut être utilisé comme une application console autonome, ou comme un backend pour d'autres programmes.

  • KOOKA de Après avoir installé Kooka et les programmes d'OCR, vous devez diriger Kooka vers l'emplacement d'installation de l'OCR pour qu'il puisse convertir le JPEG en texte.

  • OCRFeeder de est un système d'analyse de la mise en page des documents et de reconnaissance optique des caractères.

  • Tesseract de est un utilitaire en ligne de commande, très simple à utiliser, qui permet d'installer le paquet de langue. tesseract-ocr-eng de aquí .

Jetez un coup d'œil à ceci page .

Nota:
Pour exécuter tesseract Allez dans le terminal et tapez ce qui suit

tesseract imagefile.tif outputfile.txt

Tesseract ne peut lire qu'un fichier TIFF - si vous avez un JPEG ou un PDF ou autre, vous devrez le convertir. En outre, l'extension du nom de fichier doit être .tif, et non .tiff, sinon Tesseract se trompe.

14voto

kenorb Points 8840

Il existe quelques outils populaires d'OCR en ligne de commande que vous pouvez utiliser (je ne suis pas sûr qu'ils aient une interface graphique) :

  • Tesseract ( ReadMe , FAQ ) (Python)

    Également disponible pour : Tesseract .NET , Tesseract iOS

    Un moteur d'OCR qui a été développé aux laboratoires HP entre 1985 et 1995... et maintenant chez Google. Tesseract est probablement le moteur d'OCR open source moteur OCR disponible.

    Utilisation :

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
  • GOCR

    Reconnaissance de caractères à code source ouvert. Il convertit les images scannées de texte en fichiers texte. GOCR peut être utilisé avec différents front-ends, qui ce qui le rend très facile à porter sur différents OS et architectures. Il peut ouvrir de nombreux formats d'images différents, et sa qualité s'améliore quotidiennement. de façon quotidienne.

  • OCRopus ™ ( FAQ ) (écrit en Python, NumPy, et SciPy)

    Système de reconnaissance optique de caractères axé sur l'utilisation de l'apprentissage automatique à grande échelle pour résoudre les problèmes d'analyse avec analyse de la mise en page, reconnaissance de caractères, modélisation statistique du langage naturel et capacités multilingues.

    Le moteur OCRopus est basé sur deux projets de recherche : un haute performance de reconnaissance de l'écriture manuscrite développé au milieu des années 90 et déployé par le bureau du recensement américain, et une nouvelle mise en page à haute performance d'analyse de la mise en page.

    Le développement d'OCRopus est sponsorisé par Google et est initialement destiné aux efforts de conversion de documents à haut débit et à grand volume. Nous pensons qu'il sera également un excellent système d'OCR pour de nombreuses autres applications.

  • Tessnet2 (Open source, OCR, Tesseract, .NET, DOTNET, C#, VB.NET, C++/CLI)

    Tesseract est un moteur OCR C++ à code source ouvert. Tessnet2 est un assemblage .NET qui expose des méthodes très simples pour faire de l'OCR. Tessnet2 est sous licence Apache 2 (comme Tesseract), ce qui signifie que vous pouvez l'utiliser comme vous le souhaitez, y compris dans des produits commerciaux.

Quelques autres : ABBYY CLI OCR pour Linux , Asprise OCR

Pour une liste plus complète, consultez : Liste des logiciels de reconnaissance optique de caractères à Wikipedia

Voir aussi : wanghaisheng/awesome-ocr - Une liste de ressources prometteuses en matière de ROC sur GitHub.

12voto

mxdsp Points 3576

Gscan2PDF

OCR sur des documents PDF ou scannés de plusieurs pages

C'est probablement le moyen le plus simple. Gscan2pdf est un outil graphique qui vous permet non seulement de numériser des fichiers, mais aussi d'importer des fichiers et d'effectuer une reconnaissance optique de caractères sur ceux-ci. Installez gscan2pdf d'ici Install gscan2pdf à partir du Centre logiciel Ubuntu ou en exécutant cette commande dans un terminal :

sudo apt-get install gscan2pdf
  • Exécuter gscan2pdf
  • Importez le pdf (Ctrl+O)
  • En option : Outils > Nettoyage
  • Choisissez Outils > Enregistrement OCR (Ctrl+S).

Gscan2PDF peut utiliser des moteurs d'OCR personnalisables, la valeur par défaut est la suivante tesseract-ocr

Vous pourriez envisager de sélectionner la langue appropriée. Dans ce cas, vous devrez installer tesseract-ocr-LANGLANG est le code de langue à trois lettres de la norme ISO 639-2. Actuellement, 108 langues sont disponibles sur le dépôt 16.04.

10voto

Jacob Vlijm Points 78990

Juste parce qu'il fonctionne très bien et devrait certainement être dans la liste :

gimageReader
Exemple à partir d'une capture d'écran :

enter image description here

Il est dans les dépôts (j'ai répondu sur la 18.10, mais je l'utilise depuis longtemps).

9voto

Nalin.x.Linux Points 91

linux-intelligent-ocr-solution

Clause de non-responsabilité - Je suis étroitement lié au développement de cette solution opensource.

Lios peut convertir des impressions en texte en utilisant un scanner ou un appareil photo.

Il peut également produire du texte à partir d'images numérisées provenant d'autres sources telles que des fichiers PDF, des images ou des dossiers contenant des images.

Le programme est totalement accessible aux malvoyants.

Comme je suis étroitement lié - j'aimerais avoir un retour d'information.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X