J'ai trouvé cette question en cherchant à convertir un PDF scanné en PDF sélectionnable par du texte. J'ai ensuite découvert pdfsandwich avec lequel j'ai eu de très bons résultats et je suis surpris qu'il ne soit pas détaillé dans les réponses jusqu'à présent.
Plus d'informations sont disponibles ici : http://www.tobias-elze.de/pdfsandwich/
Il utilise la bibliothèque de reconnaissance optique de caractères tesseract sponsorisée par Google en coulisse mais simplifie les étapes de traitement et de création de PDF.
À partir de décembre 2020, il est inclus dans les dépôts officiels d'Ubuntu. Pour l'installer :
sudo apt update && sudo apt install pdfsandwich
Pour traiter un PDF appelé input.pdf :
pdfsandwich input.pdf
Par défaut, votre sortie apparaîtra sous la forme de quelque chose comme input_ocr.pdf
Sous Ubuntu 20.04, cela n'a pas fonctionné initialement en raison d'un problème de permissions de Ghostscript. Cela peut être contourné en ajoutant des commentaires XML () autour des lignes suivantes dans /etc/ImageMagick-6/policy.xml (dans mon fichier, il s'agissait des lignes 90 à 95) :
Référence pour cette correction : https://www.itechlounge.net/2020/09/web-imagickexception-attempt-to-perform-an-operation-not-allowed-by-the-security-policy-pdf/
Pour lire la documentation :
man pdfsandwich