1 votes

PDF avec un code source bizarre - peut-on en extraire quelque chose ?

Le frère de mon petit ami s'est suicidé le week-end dernier et a laissé derrière lui un testament... sous la forme d'un PDF endommagé. J'ai essayé de le réparer en utilisant les différents services en ligne, en vain. En examinant le code source du PDF, il est clair qu'il se passe quelque chose de très étrange. Il y a d'énormes blocs de caractères "ÿ" qui se répètent, puis des morceaux de HTML, y compris une fonction JavaScript partielle "mergeOptions()", qui ressemble à quelque chose que l'on utilise pour l'autocomplétion. Comment cela a-t-il pu arriver ? Le PDF devrait contenir uniquement un scan du testament manuscrit. Je comprends que les fichiers PDF peuvent devenir corrompus lors du transfert d'un appareil à un autre, mais comment une page HTML aurait-elle pu se mêler au code source ? De plus, il semble que ce soit une page que le frère de mon petit ami aurait pu consulter, car elle concerne son travail, mais ce n'est pas quelque chose qu'il aurait inclus dans son testament.

Il semble que réparer le fichier soit une cause perdue (j'ai essayé Foxit, Xpdf, GhostScript, et quelques autres trucs), mais n'y a-t-il aucun moyen de récupérer quelque chose ? Entre les absurdités se trouvent des blocs de code qui ressemblent à du code PDF. Mais même lorsque je supprime les absurdités et ajoute des en-têtes PDF au code source, le PDF apparaît comme une page vierge.

De plus, y a-t-il une explication à ce qui aurait pu arriver à ce fichier ? C'est juste déconcertant. Le fichier était sur un disque dur, donc au début, nous avons pensé qu'il aurait pu être corrompu lors du transfert du portable au disque dur. Mais nous avons maintenant récupéré le fichier du portable également et il est exactement le même.

Toute aide/conseil serait grandement apprécié, merci !!

Modification pour ajouter un extrait de ce que contient le fichier :

ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ...

Le JavaScript est juste là cette fois-ci. Ensuite, il y a des blocs alternés du caractère ÿ et du type de code montré ci-dessus. Le fichier commence et se termine avec les blocs ÿ. Je les ai raccourcis dans cet extrait - ils sont en réalité beaucoup plus longs.

Je ne sais pas si c'est la bonne manière de partager le fichier mais le voici :

https://1drv.ms/b/s!AnGtFF6JZrtsgWSEYq_UiU7ib0rQ?e=xJpgFg

Merci beaucoup pour toute votre aide, je suis vraiment émue. Une mort violente est une chose horrible.

1voto

Joep van Steen Points 111

SI un JPEG y est encore encodé en tant que JPEG, vous devriez pouvoir le récupérer ainsi :

  1. Obtenez une copie de JpegSnoop
  2. Déposez le fichier dessus
  3. Ignorez la plainte de l'outil
  4. Outils > Recherche d'image

entrez la description de l'image ici


ÉDIT

Ayant maintenant eu l'opportunité d'examiner le fichier :

Avec une entropie de 0,99, le fichier peut à peine contenir des données, même à partir d'un simple fichier texte, vous vous attendriez à une entropie plus élevée. Plus l'entropie est élevée, plus il y a de données en général, alors qu'une entropie nulle signifierait aucune donnée du tout. C'est un moyen rapide d'évaluer la quantité de données utiles qu'un fichier peut contenir.

Je travaille avec, récupère et répare des données JPEG tous les jours et je suis convaincu de dire que votre fichier ne contient aucune donnée JPEG, pas même de fragments.

Très probablement, le fichier que vous avez actuellement est aussi bon que inutile.

Plutôt qu'un cas de réparation, il s'agit d'un cas où vous pouvez essayer de voir si vous pouvez récupérer le fichier. Je vous conseillerais donc de :

  • consulter un spécialiste de la récupération de données ou trouver une communauté où ces personnes se retrouvent, suggestion : www.reddit.com/r/datarecovery/.
  • ce que vous pourriez faire vous-même est de copier l'image du lecteur à partir duquel vous avez extrait le fichier : renseignez-vous sur ddrescue.
  • Une fois que vous avez le fichier image, mettez le lecteur de côté et travaillez exclusivement avec le fichier image.
  • utilisez un logiciel de récupération de fichiers et voyez si des versions supprimées du document sont récupérables.
  • si cela ne donne rien, un outil comme PhotoRec pourrait essayer de récupérer chaque fichier PDF sur le lecteur.
  • puisque à un moment donné une photo d'un document physique a été prise, vous pourriez également envisager d'élargir la recherche aux fichiers JPEG et voir si le JPEG qui a ensuite été intégré dans un fichier PDF existe toujours quelque part.

0voto

Tonny Points 26909

Tout d'abord, désolé pour votre perte.
Devoir faire face à un problème de récupération de données en plus de cela est vraiment malheureux.
Et je sais exactement ce que vous ressentez. J'ai vécu une situation similaire avec le disque dur cassé de l'ordinateur portable de mon oncle après son décès.

Cela ressemble à un dommage du disque dur qui est survenu APRÈS la création du fichier PDF et AVANT que vous n'ayez essayé de lire le fichier pour la première fois.
Il semble que chkdsk ou un autre outil de récupération ait "réparé" le problème mais en le faisant a fusionné le PDF avec d'autres données aléatoires et non liées (probablement le contenu du cache du navigateur).
Ce n'est pas inhabituel. Aucune solution automatisée de réparation n'est 100% précise. Mais c'est vraiment embêtant dans ce cas.
Les caractères ÿ sont un autre indicateur de cela. C'est de l'unicode 0x00FF et un motif répétitif de 00 et FF bytes est souvent le contenu par défaut d'un bloc de disque vide. Si cela est lié au fichier par chkdsk lors de la réparation, c'est ce que vous obtenez généralement.

Ce qui aggrave les choses, c'est que le PDF contenait probablement une image intégrée (probablement en JPG) s'il s'agissait d'une numérisation d'un document papier. (Les PDF ne peuvent pas stocker de données binaires nativement, c'est uniquement un format vectoriel. Les données binaires sont toujours intégrées sous forme de blob dans un autre format. Pour les images généralement en JPEG ou parfois PNG ou TIFF.)
Donc même si vous parvenez à réparer quelque peu les en-têtes PDF, vous avez toujours affaire à la corruption de l'image intégrée. Réparer cela (avec des parties de l'image manquantes/écrasées également) est presque impossible car la plupart des formats d'image ont une compression interne et réparer un fichier compressé endommagé est plusieurs ordres de grandeur plus compliqué que pour un fichier non compressé.

Je crains donc que ce PDF soit perdu.

Cependant peut-être tout n'est pas perdu.

Passez en revue tout l'ordinateur pour voir si une autre copie se cache quelque part (dossiers cache/temp). S'il y a des sauvegardes, vérifiez si elles remontent avant que la corruption ne se produise.
Regardez également chaque fichier image que vous pouvez trouver. S'il s'agissait d'un testament numérisé, il y a de fortes chances qu'il ait été enregistré dans un format image quelque part avant d'être importé dans le fichier PDF.
Vérifiez également les documents de traitement de texte (doc, docx, etc.). Il est possible que le PDF était à l'origine dans Word ou Wordpad puis "enregistré en tant que PDF". Le fichier original pourrait toujours être présent, peut-être sous un nom différent.
(Dans mon propre cas, j'ai trouvé 3 documents Word appelés Untitled.docx contenant des données pertinentes. Mon oncle les a enregistrés, mais n'a jamais pris la peine de leur donner un nom approprié.)

Pensez également au stockage en ligne. Si le PDF a été sauvegardé là-bas (par exemple OneDrive), il se pourrait qu'une version antérieure et valide soit toujours disponible dans l'historique des versions.
Vérifiez également le stockage de photos (en ligne) sur son téléphone. Il est possible que la "numérisation" était à l'origine une photo du document papier et que cette photo soit toujours disponible.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X