82 votes

Compter le nombre de mots dans un fichier PDF

Comment puis-je obtenir le nombre de mots d'un fichier PDF? Je pense que la plupart des fichiers PDF pour lesquels je veux obtenir le nombre total de mots ont une couche de texte intégrée, donc je n'ai pas besoin de OCR.

La tâche a été soulevée lors de la recherche de certains articles scientifiques de taille connue, par exemple 15000 mots. La plupart des articles modernes sont publiés au format PDF.

1voto

user55926 Points 11

Vous pouvez installer OCRFeeder. Dans celui-ci, choisissez Fichier->Importer PDF->Détecter et reconnaître automatiquement toutes les pages->Exporter vers ODT et le document libreoffice writer sera prêt pour le comptage des mots ou toute autre fonction RTF que vous souhaiterez utiliser.

1voto

techtonik Points 2945

Notez que si votre PDF est produit à partir de sources Latex, vous avez plusieurs façons de compter les mots à partir de ces sources, consultez TeX - LaTeX SE.

En particulier, Latex est capable de faire son propre décompte détaillé : enter image description here

0voto

Justin Kredible Points 2727

Je trouve le compteur de mots inclus dans abracadabra tools pratique. L'installation est un peu bizarre cependant.

0voto

Franck Dernoncourt Points 17479

Vous pouvez utiliser le JavaScript console d'Adobe Acrobat avec le code suivant, que j'ai pris de la réponse de Dave Merchant sur forums.adobe.com:

var cnt=0;
for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p);
console.println("Il y a " + cnt + " mots dans ce fichier.");

Testé avec Adobe Acrobat Pro DC 2018.011.20040 sur Windows 7 SP1 x64 Ultimate.


Pour activer la console JavaScript :

entrer la description de l'image ici

Pour ouvrir la fenêtre de la console JavaScript :

CTRL + J

entrer la description de l'image ici

PS : Si vous avez la source LaTeX correspondant au PDF : Calcul correct du nombre de mots d'un document LaTeX.

-1voto

Vladimir Points 1

La norme de facto, utilisée par les traducteurs depuis environ 2000, est Outil de décompte de mots AnyCount. Il effectue des décomptes de mots dans des fichiers PDF et 37 autres formats.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X