Berkeley MBOX est fondamentalement un format de texte brut, vous pouvez donc le visualiser simplement avec less
Vous devez cependant connaître les protocoles SMTP et MIME pour comprendre ce que vous regardez. Chaque ligne qui correspond à l'expression régulière ^From
(avec un espace après les quatre lettres) est le début d'un nouveau message. Les messages électroniques modernes utilisent divers codages de transport MIME qui peuvent être très variés, allant de presque lisibles par l'homme ( =?utf-8?Q?Like_this?=
) à complètement oblique (base64).
Vous pouvez utiliser csplit
sur la même regex pour diviser le fichier en messages individuels, ou utilisez la commande formail
qui fait partie du paquetage Procmail, avec l'utilitaire -s
option. Cette dernière offre un certain nombre d'options pour activer diverses heuristiques si le fichier d'entrée n'est pas complètement bien formé, etc.
Pour les messages électroniques à forte composante graphique et au contenu potentiellement problématique (c'est-à-dire les spams), il m'est arrivé de lancer Thunderbird dans une instance Virtualbox et de m'assurer qu'il n'avait pas accès à Internet, puis d'y importer la boîte aux lettres pour un rendu HTML moderne, etc. Si un message nécessite des images provenant d'un serveur externe, vous obtenez simplement un espace réservé si l'image ne peut être récupérée.