4 votes

Comment puis-je comparer le contenu des fichiers .pdf, en excluant les noms de fichiers de la comparaison ?

Je utilise généralement WinMerge pour voir les différences entre les fichiers, mais dans ce cas, cela n'aide pas. Les fichiers que je compare ont des noms différents, ce qui crée des faux positifs lorsque 2 fichiers avec le même document à l'intérieur ont des noms différents.

J'ai un dossier contenant de nombreux répertoires représentant tous les fournisseurs avec lesquels mon entreprise fait affaire, et ils comprennent de nombreux fichiers .pdf de reçus et factures. C'est la liste principale des fournisseurs. Les factures et reçus sont nommés de telle sorte que les noms n'ont pas de sens sans la structure de répertoire environnante pour fournir un contexte. Par exemple, ici nous avons "Fournisseurs/Entreprise Foo/Produit Bar/Facture n°3.pdf".

Ensuite, j'ai un autre dossier avec de nombreux reçus et factures, qui étaient maintenus séparément de la liste principale des fournisseurs, et censés inclure une copie manuellement créée de chaque reçu et facture entré dans l'entrée appropriée de la structure de répertoire principale des fournisseurs. Ces reçus et factures devaient être renommés pour faciliter la lecture par le comptable et savoir à quoi ils se rapportent. Par exemple, ici nous avons "Taxes/Entreprise Foo Produit Bar.pdf".

J'ai recherché des fichiers de type .pdf dans le dossier de niveau supérieur de la liste principale des fournisseurs, de sorte que mes résultats de recherche incluent des reçus et des factures de tous les fournisseurs dans la structure de répertoire. Ensuite, j'ai copié ces fichiers .pdf dans un autre dossier sur mon bureau, pour pouvoir les comparer. J'ai comparé ces fichiers aux fichiers du dossier 'taxes' en utilisant WinMerge pour voir si certains des fichiers du dossier 'taxes' n'existent pas dans les répertoires des 'fournisseurs principaux', et vice versa.

Mais WinMerge compte les fichiers comme différents juste parce que leurs noms de fichiers ne correspondent pas. Je dois savoir si le contenu des fichiers est différent malgré le nom du fichier.

Il y a des centaines de ces fichiers et s'il y en a dans le dossier 'taxes' qui ne sont pas dans leur répertoire correspondant des 'fournisseurs principaux', je dois rectifier cela et les classer correctement.

Est-ce que quelqu'un peut recommander un outil qui peut faire cela?

2voto

Bewc Points 201

Je pense que le comparateur de contenu PDF i-net serait utile.

Il est maintenant en Version 2.0 offrant une interface graphique et des options de tarification flexibles. Il y a toujours une version d'essai gratuite de 30 jours où vous pouvez vérifier tous les aspects du logiciel.

Résultat de comparaison

2voto

Eroen Points 6113

Si vous disposez d'un environnement Unix (Si vous êtes sur Windows, je recommande Cygwin), vous pouvez facilement trouver des fichiers en double sous le répertoire actuel avec quelque chose comme ceci :

find . -type f -exec md5sum '{}' '+' | sort | uniq -D -w 32

La sortie affichera le md5sum et le nom de chaque fichier qui a au moins un doublon (même md5sum). Les doublons apparaissent juste après l'autre dans l'ordre alphabétique. Remplacez le . après find par le chemin sous lequel vous souhaitez chercher s'il ne s'agit pas du répertoire actuel.

Éditer :

À l'inverse, pour obtenir les fichiers qui n'ont pas de doublons, vous pouvez utiliser

find . -type f -exec md5sum '{}' '+' | sort | uniq -u -w 32

Cela n'affichera que les fichiers sans aucun doublon sous le répertoire actuel.

0voto

Lazy Badger Points 3648
  1. Vous pouvez (devez vraiment) utiliser le plugin xdocdiff pour WinMerge, si vous comparez le contenu visuellement
  2. CompareIt! peut afficher (à peu près) et visualiser dans des fenêtres de comparaison des fichiers PDF sans plugins supplémentaires
  3. DiffPDF compare et affiche les fichiers comparés encore mieux (voir capture d'écran sur la page), multiplateforme

Comme solution alternative, vous pouvez envisager de stocker des copies en texte brut de chaque PDF sous le même nom (converties à l'aide, par exemple, de pandoc) et de comparer uniquement les versions textuelles avec n'importe quel outil

0voto

Tar Points 265

Venez de le faire, voici ce que j'ai utilisé, ça a bien fonctionné et c'était simple!

http://www.qtrac.eu/diffpdf.html

0voto

CyberOPS Points 136

Essayez l'application "PDF Compare", qui compare à la fois les métadonnées des documents pdf et les images de page au niveau des pixels :

https://www.microsoft.com/en-us/store/p/pdfcompare/9n9dmzjbz2nl#

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X