71 votes

Pourquoi les PDF générés à partir de MS Word sont-ils si volumineux?

J'ai créé un simple document MS Word contenant juste cette phrase :

Ceci est un petit document.

Rien d'autre. Ensuite, j'ai enregistré ce document en DOCX et en PDF. Voici les tailles de fichiers :

DOCX : 12 kB
PDF : 89 kB

Cette différence est énorme, techniquement, et cela commence vraiment à m'embêter quand des documents principalement textuels qui font des dizaines de ko en DOCX créent des PDF qui font des centaines de ko. Qu'est-ce qui est si inefficace dans le format PDF ? Ou bien Word utilise-t-il simplement un algorithme de sortie terrible ?

Par ailleurs, les paramètres de sortie PDF étaient définis pour créer le fichier le plus petit possible :

Options de sortie PDF

28 votes

Je suppose que le PDF intègre la police de caractères, ce qui est nécessaire pour qu'un document soit vraiment portable.

0 votes

Vous pouvez ouvrir les propriétés pour voir si la police est incorporée ou non

0 votes

Pouvez-vous ajouter un lien vers le pdf et peut-être aussi le docx ?

105voto

James Smith Points 718

Si vous ouvrez le PDF dans notepad++ vous trouverez :

9 0 obj
<>
stream
xœì}    XTGºvÕ9½/t7Ðl
..... de nombreux autres octets...   ëH|  
endstream
endobj
10 0 obj

et cet objet est référencé ici à la fin dans l'instruction /FontFile2 :

6 0 obj
<>
endobj

Les polices utilisées par le document Word sont incorporées dans le PDF afin que le pdf soit autonome.

J'ai utilisé ce diaporama pour décrypter les instructions PDF.

Si vous souhaitez éviter que les polices soient incorporées dans le fichier PDF, assurez-vous que votre document Word utilise l'une des 14 polices standard disponibles dans les visualiseurs PDF, (source Wikipedia)

  • Times New Roman > Times (v3) (en régulier, italique, gras, et gras italique)
  • Courier New > Courier (en régulier, oblique, gras et gras oblique)
  • Arial > Helvetica (v3) (en régulier, oblique, gras et gras oblique)
  • Symbol > Symbol
  • Wingdings > Zapf Dingbats

6 votes

2 votes

Sidenote: Le diaporama lié (une présentation Powershell) vaut la peine d'être lu. Très détaillé. Ne manquez pas les commentaires où il explique la structure d'un PDF.

4voto

poletaew Points 144

Cela m'est arrivé de nombreuses fois dans Microsoft Word en essayant d'exporter un simple manuscrit en PDF. Un document Word de 5 à 8 pages, d'environ 50 Ko, se transformera en un fichier PDF de plus de 10 Mo, ce qui est bien trop gros pour être envoyé par e-mail de manière raisonnable.

La réponse de Rene est sur la bonne voie - le problème est que les polices sont intégrées dans le document - mais utiliser simplement l'une des polices standard ne résoudra pas nécessairement le problème.

Tous mes documents étaient en Times New Roman, n'utilisant rien de plus sophistiqué que du gras et de l'italique. Du moins, c'est ce que je pensais. Il s'avère que j'avais activé le crénage automatique dans mon modèle par défaut (pour des raisons évidentes). Lors de l'exportation en PDF, Word intégrait en fait chacune de ces ligatures en tant qu'objet de police distinct dans le document, le gonflant au-delà de toute croyance.

La solution est simple, il suffit de se rappeler de le faire à chaque fois :

  1. Sélectionner l'ensemble du texte dans le document.
  2. Format → Police → Avancé
  3. Décocher "Crénage des polices"

De manière intéressante, vous pouvez laisser les ligatures, les alternatives contextuelles et d'autres fonctionnalités typographiques avancées activées ; elles n'ont aucun effet perceptible sur la taille du PDF résultant.

Réexportez le document en PDF, et il ne fera plus que quelques centaines de Ko. Malheureusement, le crénage n'est pas de qualité optimale, je ne recommanderais donc pas d'imprimer de cette façon, mais cela fonctionne parfaitement pour envoyer par e-mail un document.

-3voto

Ben Sandeen Points 191

Pour donner une réponse moins technique qui pourrait aider est que les PDF utilisent des vecteurs (c'est-à-dire : des équations mathématiques) pour décrire tout ce que vous voyez. Toutes les courbes et lignes sont définies par des équations mathématiques, et donc il y aura nécessairement beaucoup d'informations à retenir, notamment lorsque vous avez des images dans vos documents.

L'avantage de cela est que vous pouvez théoriquement zoomer indéfiniment sans perdre de résolution ou de détails, car les lignes et courbes n'ont pas de largeur, elles peuvent donc s'adapter à votre zoom.

Tout comme le récent changement de police de Google a réduit la taille du logo de ~14 Ko à ~300 octets, des polices plus simples aideront probablement à réduire la taille de votre fichier.

4 votes

Cette analogie ne fonctionne pas du tout. Le changement de logo de Google n'était pas seulement la police de caractères, mais aussi des dégradés à plats ce qui explique la différence de taille. De plus, l'exportation d'un document vers une grande image bitmap sera beaucoup plus grande qu'une police de caractères + texte. Les équations mathématiques, comme vous l'avez trompeusement indiqué, ne sont que des paires de coordonnées entières, dont il y en a peut-être une grosse douzaine par glyphe. Et comme il s'agit d'une police de caractères, elle n'a pas besoin d'être répétée pour chaque lettre.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X