Comment puis-je comparer le contenu des fichiers .pdf, en excluant les noms de fichiers de la comparaison ?

Question

Comment puis-je comparer le contenu des fichiers .pdf, en excluant les noms de fichiers de la comparaison ?

Demandé el 18 de Mars, 2012: Quand la question a-t-elle été
4326 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je utilise généralement WinMerge pour voir les différences entre les fichiers, mais dans ce cas, cela n'aide pas. Les fichiers que je compare ont des noms différents, ce qui crée des faux positifs lorsque 2 fichiers avec le même document à l'intérieur ont des noms différents.

J'ai un dossier contenant de nombreux répertoires représentant tous les fournisseurs avec lesquels mon entreprise fait affaire, et ils comprennent de nombreux fichiers .pdf de reçus et factures. C'est la liste principale des fournisseurs. Les factures et reçus sont nommés de telle sorte que les noms n'ont pas de sens sans la structure de répertoire environnante pour fournir un contexte. Par exemple, ici nous avons "Fournisseurs/Entreprise Foo/Produit Bar/Facture n°3.pdf".

Ensuite, j'ai un autre dossier avec de nombreux reçus et factures, qui étaient maintenus séparément de la liste principale des fournisseurs, et censés inclure une copie manuellement créée de chaque reçu et facture entré dans l'entrée appropriée de la structure de répertoire principale des fournisseurs. Ces reçus et factures devaient être renommés pour faciliter la lecture par le comptable et savoir à quoi ils se rapportent. Par exemple, ici nous avons "Taxes/Entreprise Foo Produit Bar.pdf".

J'ai recherché des fichiers de type .pdf dans le dossier de niveau supérieur de la liste principale des fournisseurs, de sorte que mes résultats de recherche incluent des reçus et des factures de tous les fournisseurs dans la structure de répertoire. Ensuite, j'ai copié ces fichiers .pdf dans un autre dossier sur mon bureau, pour pouvoir les comparer. J'ai comparé ces fichiers aux fichiers du dossier 'taxes' en utilisant WinMerge pour voir si certains des fichiers du dossier 'taxes' n'existent pas dans les répertoires des 'fournisseurs principaux', et vice versa.

Mais WinMerge compte les fichiers comme différents juste parce que leurs noms de fichiers ne correspondent pas. Je dois savoir si le contenu des fichiers est différent malgré le nom du fichier.

Il y a des centaines de ces fichiers et s'il y en a dans le dossier 'taxes' qui ne sont pas dans leur répertoire correspondant des 'fournisseurs principaux', je dois rectifier cela et les classer correctement.

Est-ce que quelqu'un peut recommander un outil qui peut faire cela?

Demandé el 18 de Mars, 2012 par cdvonstinkpot

Answer 1

5 Réponses

Answer 2

2voto

Bewc Points 201

Je pense que le comparateur de contenu PDF i-net serait utile.

Il est maintenant en Version 2.0 offrant une interface graphique et des options de tarification flexibles. Il y a toujours une version d'essai gratuite de 30 jours où vous pouvez vérifier tous les aspects du logiciel.

Résultat de comparaison

Répondu el 18 de Mars, 2012 par Bewc (201 Points )

Answer 3

2voto

Eroen Points 6113

Si vous disposez d'un environnement Unix (Si vous êtes sur Windows, je recommande Cygwin), vous pouvez facilement trouver des fichiers en double sous le répertoire actuel avec quelque chose comme ceci :

find . -type f -exec md5sum '{}' '+' | sort | uniq -D -w 32

La sortie affichera le md5sum et le nom de chaque fichier qui a au moins un doublon (même md5sum). Les doublons apparaissent juste après l'autre dans l'ordre alphabétique. Remplacez le . après find par le chemin sous lequel vous souhaitez chercher s'il ne s'agit pas du répertoire actuel.

Éditer :

À l'inverse, pour obtenir les fichiers qui n'ont pas de doublons, vous pouvez utiliser

find . -type f -exec md5sum '{}' '+' | sort | uniq -u -w 32

Cela n'affichera que les fichiers sans aucun doublon sous le répertoire actuel.

Répondu el 18 de Mars, 2012 par Eroen (6113 Points )

Answer 4

0voto

Lazy Badger Points 3648

Vous pouvez (devez vraiment) utiliser le plugin xdocdiff pour WinMerge, si vous comparez le contenu visuellement
CompareIt! peut afficher (à peu près) et visualiser dans des fenêtres de comparaison des fichiers PDF sans plugins supplémentaires
DiffPDF compare et affiche les fichiers comparés encore mieux (voir capture d'écran sur la page), multiplateforme

Comme solution alternative, vous pouvez envisager de stocker des copies en texte brut de chaque PDF sous le même nom (converties à l'aide, par exemple, de pandoc) et de comparer uniquement les versions textuelles avec n'importe quel outil

Répondu el 19 de Mars, 2012 par Lazy Badger (3648 Points )

Answer 5

0voto

Tar Points 265

Venez de le faire, voici ce que j'ai utilisé, ça a bien fonctionné et c'était simple!

http://www.qtrac.eu/diffpdf.html

Répondu el 19 de Mars, 2012 par Tar (265 Points )

Answer 6

0voto

CyberOPS Points 136

Essayez l'application "PDF Compare", qui compare à la fois les métadonnées des documents pdf et les images de page au niveau des pixels :

https://www.microsoft.com/en-us/store/p/pdfcompare/9n9dmzjbz2nl#

Répondu el 6 de Mars, 2018 par CyberOPS (136 Points )

Comment puis-je comparer le contenu des fichiers .pdf, en excluant les noms de fichiers de la comparaison ?

Réponses

Éditer :

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

Comment puis-je comparer le contenu des fichiers .pdf, en excluant les noms de fichiers de la comparaison ?

Réponses

Éditer :

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: