9 votes

Comment extraire les images d'un document Word depuis Linux

Existe-t-il un outil (Linux) en ligne de commande permettant d'extraire toutes les images d'un document MS Word (de préférence un outil capable de gérer le format .docx) ?

0 votes

S'agit-il d'une version linux avec une interface utilisateur ou uniquement en ligne de commande ?

0 votes

@Jeff - Un utilitaire en ligne de commande serait utile pour les grandes opérations en mode batch.

24voto

Lesmana Points 18245

Comme les fichiers docx sont des fichiers zip, vous pouvez dézipper le fichier docx, puis extraire les fichiers image.

Je n'ai pas de Microsoft Office à tester et j'ai donc téléchargé des fichiers docx aléatoires sur Internet. Il semble que les images soient toujours stockées dans un fichier de type word/media dans l'archive.

Cette commande va extraire tous les fichiers du répertoire media de l'archive :

unzip foo.docx "word/media/*"

Cette commande n'extraira que *.jpeg des fichiers :

unzip foo.docx "*.jpeg"

Notez que vous devez spécifier "*.jpg" si les fichiers sont enregistrés en tant que jpg au lieu de jpeg . Je suppose qu'il est également possible que les images soient stockées dans un autre format. Je n'ai aucune idée si les images peuvent être stockées à un autre endroit que le site Web de l word/media répertoire. Vous pouvez utiliser unzip -l pour lister le contenu de l'archive.

0 votes

Eh bien, c'est utile ! Savez-vous si cela est valable pour les anciens formats .doc ?

4 votes

Les plus âgés doc n'était pas zippé. C'était soit un XML monolithique, soit un blob binaire. Vous pouvez en savoir plus à ce sujet aquí .

1voto

JCOidl Points 141

J'ai écrit un programme Python open source appelé ofc_media qui fait essentiellement le dézippage mentionné dans la réponse de lesmana, mais automatise un peu le processus de recherche. Il fonctionne également sur les documents au format OpenDocument, peut limiter l'extraction à certaines extensions de fichiers, etc.

0voto

JoshReedSchramm Points 1729

L'enregistrement d'un document Word en tant que page web est une technique utilisée sous Windows pour extraire toutes les images dans un dossier : http://support.microsoft.com/kb/555171

C'est peut-être un peu long, mais vous pourriez peut-être contrôler Open Office sous Linux à partir de la ligne de commande pour extraire les images, éventuellement en les convertissant en page Web et en les plaçant dans le dossier de support qu'il crée.

1 votes

J'ai trouvé cela problématique. Certaines de mes images sont devenues des fichiers EMZ - des fichiers EMF compressés, je crois. Noting sur mon système Windows 10 a pu ouvrir les EMZ (je n'ai pas essayé sur ma boîte Linux). Cependant, en renommant le *.docx en *.zip et en l'ouvrant, j'ai pu accéder aux fichiers EMF que j'ai pu utiliser facilement.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X