PDA

View Full Version : Quatre logiciels d'OCR


fabrice
05-28-2005, 05:42 PM
Introduction

Pour changer un document imprimé sur papier en fichier texte sur un PC, il faut un scanner et un bon logiciel de reconnaissance optique des caractères.
Vous désirez obtenir, à partir d'un livre ou de tout autre document papier, un fichier de texte que vous pourrez facilement éditer et modifier sur votre PC ? Il existe heureusement un moyen qui évite de devoir tout retaper au clavier. Il faut, tout d'abord, numériser le document avec un scanner. Et faire ensuite appel aux talents d'un logiciel d'OCR (Optical Character Recognition), c'est-à-dire de reconnaissance optique des caractères. A charge pour ce logiciel d'identifier les lettres et symboles présents sur l'image numérisée, puis de les convertir en texte, en tentant de respecter la mise en page et les éléments graphiques.
En général, un logiciel d'OCR d'entrée de gamme est livré avec votre scanner. Si ce n'est pas le cas ou si vous souhaitez un logiciel plus évolué, il faudra investir. Car... le seul logiciel gratuit de notre sélection ne nous a vraiment pas convaincus.

La transcription automatique mise à l'épreuve
Pour déceler points les forts et faibles de ces quatre logiciels, nous leur avons soumis plusieurs documents numérisés avec un scanner. Les tests ont été effectués en mode de transcription automatique, sans avoir recours aux outils de traçage destinés notamment à isoler images et zones d'écritures manuscrites.

Le premier document de test possède une mise en page assez simple réalisée avec Word. Il contient du texte découpé en multiples paragraphes, dans lesquels nous avons pris soin de varier les justifications, de jouer sur les polices et la taille des caractères et d'alterner du texte en gras, italique et surligné. Il comporte aussi un petit tableau. Le deuxième document soumis à l'acuité des logiciels est une page de Micro Hebdo , tirée de la rubrique Logiciels Pas à pas. Sa mise en page, conçue autour de modules de texte enrichis d'images, est plus complexe, donc plus difficile à interpréter.

Dernière épreuve : la retranscription d'une page de petites annonces d'un quotidien. En plus des multiples pavés de texte à la mise en page variée et d'un tableau important, vient s'ajouter une difficulté supplémentaire : une qualité d'impression médiocre, qui peut gêner l'interprétation des caractères.



[b]1.- Abbyy FineReader OCR 7.0 Professional

Ce logiciel s'est montré à la hauteur. Seuls les grands tableaux et quelques caractères spéciaux l'ont un peu dérouté. et on apprécie, entre autres, son correcteur orthographique.

Grâce à ses multiples fenêtres, FineReader permet de suivre en détail et en temps réel l'avancement de la retranscription des documents. Le logiciel est très pointu sur le signalement des erreurs. Un message d'avertissement apparaît si la qualité de numérisation semble insuffisante pour obtenir de bons résultats. Ensuite, les éventuelles erreurs de retranscription sont surlignées. Elles peuvent être facilement rectifiées avec le correcteur orthographique.
Résultat des tests : FineReader s'est montré brillant pour la reproduction de la mise en page et la reconnaissance des lettres sur des documents de qualités diverses. Seuls les tableaux d'envergure et certains caractères spéciaux (l'arobase, par exemple) l'ont dérouté.

L'avis de la rédaction

On aime

L'affichage, le module de correction orthographique, la qualité globale de retranscription, les nombreux formats et paramètres d'enregistrement.

On n'aime pas

La mauvaise gestion des sous-cellules dans les tableaux.

Mention Très bien

Ce qu'il vous faut

PC 400 MHz

64 Mo de mémoire vive

220 Mo sur le disque dur

Windows 98 et suivants


2.- Omnipage Pro 14 Standard

Voici un programme de bonne tenue. Il a juste un peu de mal sur les mises en page un peu complexes. En particulier lorsque le texte est en colonnes.
Que l'on choisisse ou non d'utiliser l'assistant, la prise en main du logiciel est rapide. Son interface, où s'affichent en simultané le document numérisé et celui qui est retranscrit, offre une bonne visibilité du travail en cours. Un gestionnaire de document permet de connaître en un clin d'oeil le nombre de pages converties, et indique si elles ont été enregistrées ou si l'orthographe a été vérifiée.

Pour la retranscription du texte, le respect des paragraphes et de la typographie, Omnipage présente une bonne qualité générale, au moins égale à celle de FineReader. Mais sur des mises en page un peu plus compliquées, il a parfois du mal à isoler les images, et se révèle totalement dérouté dès qu'on lui soumet du texte en colonnes.

L'avis de la rédaction

On aime

Le module de correction orthographique, la qualité globale de retranscription.

On n'aime pas

La mauvaise gestion du texte en colonnes.

Mention Bien

Ce qu'il vous faut

PC 500 MHz

256 Mo de mémoire vive

135 Mo sur le disque dur

Windows 98SE et suivants


3.- Readiris Pro 10

Si ce logiciel est agréable à utiliser, il enregistre un taux d'erreurs trop important. ainsi, il est inégal sur les tableaux et ne reconnaît pas les polices aux lettres liées.
Le logiciel Readiris, bien qu'agréable à utiliser, ne soutient pas la comparaison face à ses concurrents Omnipage et FineReader. Certes, ses résultats sont en général de bonne qualité sur du texte courant. Et il analyse de manière pertinente les blocs contenant des images et du texte. Mais il est dépassé dès qu'on lui soumet une police aux lettres liées, fait l'impasse sur les soulignements et est assez inégal sur les tableaux. Autant d'erreurs que l'on ne découvre pas tout de suite.
En effet, le logiciel étant dénué d'éditeur de texte, il faut enregistrer le document au format souhaité pour le découvrir et procéder aux corrections. A son avantage, Readiris peut enregistrer les documents dans une vingtaine de formats et les envoyer par courriel

L'avis de la rédaction

On aime

La possibilité d'enrichir le dictionnaire de polices, les multiples formats d'enregistrement, la clarté de l'interface.

On n'aime pas

L'absence de fenêtre de visualisation des résultats, le taux d'erreurs.

Mention Bien

Ce qu'il vous faut

PC 400 MHz

128 Mo de mémoire vive

120 Mo sur le disque dur

Windows 98 et suivants


4.- SimpleOCR 3.1

Ce programme gratuit n'est pas à la hauteur de la tâche qu'il est censé accomplir. Il ne respecte pas la mise en page d'origine et se révèle incompétent avec les tableaux.
Au vu des résultats obtenus avec SimpleOCR 3.1, on peut se demander s'il n'est pas plus rapide d'avoir recours à... la saisie des documents. Il est en effet difficile de trouver une ressemblance entre le document original et celui obtenu après analyse. SimpleOCR ne conserve rien de la mise en page originale. Il ignore les paragraphes, la taille des caractères, les polices, sans compter les nombreuses erreurs de reconnaissance de lettres qui conduisent à une déformation du sens des mots.
Le summum est atteint avec les tableaux : incapable d'identifier les cellules, il les transforme en une suite illogique de lettres, sigles et chiffres. Et les documents ne peuvent être enregistrés qu'en. txt ou .doc.

L'avis de la rédaction

On aime

La gratuité.

On n'aime pas

Le manque d'efficacité globale, l'enregistrement limité à deux formats, les menus en anglais.

Mention Recalé

Ce qu'il vous faut

PC 300 MHz

128 Mo de mémoire vive

26 Mo sur le disque dur

Windows 98 et suivants