Comment extraire les images d'un document Word depuis Linux

Question

Comment extraire les images d'un document Word depuis Linux

Demandé el 23 de Mai, 2011: Quand la question a-t-elle été
6388 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Existe-t-il un outil (Linux) en ligne de commande permettant d'extraire toutes les images d'un document MS Word (de préférence un outil capable de gérer le format .docx) ?

Demandé el 23 de Mai, 2011 par Hooked

0 votes

S'agit-il d'une version linux avec une interface utilisateur ou uniquement en ligne de commande ?

Commenté el 23 de Mai, 2011 par Scott

0 votes

@Jeff - Un utilitaire en ligne de commande serait utile pour les grandes opérations en mode batch.

Commenté el 23 de Mai, 2011 par Hooked

Answer 1

3 Réponses

Answer 2

24voto

Lesmana Points 18245

Comme les fichiers docx sont des fichiers zip, vous pouvez dézipper le fichier docx, puis extraire les fichiers image.

Je n'ai pas de Microsoft Office à tester et j'ai donc téléchargé des fichiers docx aléatoires sur Internet. Il semble que les images soient toujours stockées dans un fichier de type word/media dans l'archive.

Cette commande va extraire tous les fichiers du répertoire media de l'archive :

unzip foo.docx "word/media/*"

Cette commande n'extraira que *.jpeg des fichiers :

unzip foo.docx "*.jpeg"

Notez que vous devez spécifier "*.jpg" si les fichiers sont enregistrés en tant que jpg au lieu de jpeg . Je suppose qu'il est également possible que les images soient stockées dans un autre format. Je n'ai aucune idée si les images peuvent être stockées à un autre endroit que le site Web de l word/media répertoire. Vous pouvez utiliser unzip -l pour lister le contenu de l'archive.

Répondu el 23 de Mai, 2011 par Lesmana (18245 Points )

0 votes

Eh bien, c'est utile ! Savez-vous si cela est valable pour les anciens formats .doc ?

Commenté el 23 de Mai, 2011 par Hooked

4 votes

Les plus âgés doc n'était pas zippé. C'était soit un XML monolithique, soit un blob binaire. Vous pouvez en savoir plus à ce sujet aquí .

Commenté el 23 de Mai, 2011 par Lesmana

Answer 3

1voto

JCOidl Points 141

J'ai écrit un programme Python open source appelé ofc_media qui fait essentiellement le dézippage mentionné dans la réponse de lesmana, mais automatise un peu le processus de recherche. Il fonctionne également sur les documents au format OpenDocument, peut limiter l'extraction à certaines extensions de fichiers, etc.

Répondu el 12 de Mai, 2021 par JCOidl (141 Points )

Answer 4

0voto

JoshReedSchramm Points 1729

L'enregistrement d'un document Word en tant que page web est une technique utilisée sous Windows pour extraire toutes les images dans un dossier : http://support.microsoft.com/kb/555171

C'est peut-être un peu long, mais vous pourriez peut-être contrôler Open Office sous Linux à partir de la ligne de commande pour extraire les images, éventuellement en les convertissant en page Web et en les plaçant dans le dossier de support qu'il crée.

Répondu el 7 de Août, 2012 par JoshReedSchramm (1729 Points )

1 votes

J'ai trouvé cela problématique. Certaines de mes images sont devenues des fichiers EMZ - des fichiers EMF compressés, je crois. Noting sur mon système Windows 10 a pu ouvrir les EMZ (je n'ai pas essayé sur ma boîte Linux). Cependant, en renommant le *.docx en *.zip et en l'ouvrant, j'ai pu accéder aux fichiers EMF que j'ai pu utiliser facilement.

Commenté el 28 de Juin, 2018 par ScottWelker

Comment extraire les images d'un document Word depuis Linux

Réponses

Questions en vedette

Top Tags

SistemesEz.com

Powered by:

Comment extraire les images d'un document Word depuis Linux

Réponses

Questions en vedette

Top Tags

Dans notre réseau

SistemesEz.com

Powered by: