Compter le nombre de mots dans un fichier PDF

Question

Compter le nombre de mots dans un fichier PDF

Demandé el 13 de Décembre, 2010: Quand la question a-t-elle été
127898 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Comment puis-je obtenir le nombre de mots d'un fichier PDF? Je pense que la plupart des fichiers PDF pour lesquels je veux obtenir le nombre total de mots ont une couche de texte intégrée, donc je n'ai pas besoin de OCR.

La tâche a été soulevée lors de la recherche de certains articles scientifiques de taille connue, par exemple 15000 mots. La plupart des articles modernes sont publiés au format PDF.

Demandé el 13 de Décembre, 2010 par osgx

Answer 1

5 Réponses

Answer 2

113voto

Metaxal Points 353

Réponse rapide :

pdftotext myfile.pdf - | wc -w

Réponse longue :

Si vous êtes sur Unix, vous pouvez utiliser pdftotext :

http://linux.about.com/od/commands/l/blcmdl1_pdftote.htm

puis faire le compte des mots dans le fichier généré. Si vous êtes sur Unix, vous pouvez utiliser :

wc -w converted-pdf.txt

pour obtenir le compte des mots.

Voir aussi le commentaire de frabjous - en gros, vous pouvez le faire en une seule étape en redirigeant vers stdout au lieu d'un fichier temporaire :

pdftotext myfile.pdf - | wc -w

Répondu el 13 de Décembre, 2010 par Metaxal (353 Points )

Answer 3

15voto

math Points 2507

Ceci est une tâche difficile et pas facile à résoudre. Si vous voulez vraiment un résultat exact, copiez paragraphe par paragraphe dans votre visualiseur de PDF dans un fichier texte et vérifiez-le avec l'outil wc -w. La raison pour ne pas utiliser pdftotext dans ce cas est que les formules mathématiques peuvent également figurer dans la sortie et être considérées comme des "mots". (Alternativement, vous pourriez modifier la sortie que vous obtenez de pdftotext). Une autre raison pour laquelle cela pourrait échouer sont les titres : "4.3.2 Foo Bar" est compté comme trois mots.

Une solution consiste à ne compter que les mots commençant par un caractère de [A-Za-z]. Donc ce que je fais habituellement est une approche en deux étapes :

obtenez la liste des mots uniques et vérifiez s'il y a trop de faux positifs à l'intérieur :

pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words

Je n'utilise pas de dictionnaire ici, car certaines fautes d'orthographe ne compteraient pas comme des mots.
Obtenez cette liste de mots et recherchez-la dans la sortie de pdftotext :

pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l

Je sais que cela pourrait être fait en une seule ligne, mais alors je ne pourrais pas voir facilement le résultat du filtre de la première étape. Le -F peut vous aider comme indiqué dans le commentaire de moi ci-dessous (merci).

Répondu el 10 de Janvier, 2013 par math (2507 Points )

Answer 4

10voto

zuba Points 2253

J'ai simplement essayé un programme gratuit, Translator's Abacus. Vous pouvez faire glisser et déposer différents types de fichiers (y compris des PDF), et il ouvre un navigateur avec un rapport imprimable du nombre de mots pour chaque document. Ça a bien fonctionné pour moi. (Il est spécifiquement créé pour les comptages de mots et son poids est seulement de 435 Ko... c'est-à-dire, pas une "grosse application"). Translator's Abacus ne fonctionne pas sur les PDF 1.5 ou plus récents.

Alternativement : vous pouvez simplement Ctrl+A pour sélectionner tout le texte dans Acrobat Reader puis copier-coller dans un programme comme Microsoft Word (qui affiche un compteur de mots dans la barre d'état en bas de l'écran).

Répondu el 7 de Avril, 2011 par zuba (2253 Points )

Answer 5

2voto

Bruce Crawford Points 121

Une façon simple de faire cela si vous utilisez Acrobat Pro est d'exporter le PDF vers un document Microsoft Word puis de compter les mots dans Word. Sinon, vous pouvez l'exporter vers un fichier texte brut et utiliser un utilitaire de comptage de mots dans l'éditeur de texte de votre choix. Je viens de faire un décompte de mots sur un article pdf en utilisant la méthode Word et cela m'a pris seulement 30 secondes pour terminer.

J'espère que cela vous aidera.

Répondu el 12 de Avril, 2016 par Bruce Crawford (121 Points )

Answer 6

2voto

s.ouchene Points 150

Sous Windows, à partir de Microsoft Office 2013, vous pouvez ouvrir un fichier PDF dans MS Word. Voici un exemple d'un fichier PDF que j'ai ouvert dans MS Word 2016 :

Une fois ouvert, vous pouvez voir le nombre de mots en bas à gauche de la barre d'état de MS Word.

Répondu el 28 de Janvier, 2020 par s.ouchene (150 Points )

Compter le nombre de mots dans un fichier PDF

Réponses

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

Compter le nombre de mots dans un fichier PDF

Réponses

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: