Je suis désolé si cela a déjà été demandé auparavant, mais malheureusement, il y a tellement de questions sur ce genre de chose et bien qu'elles soient toutes liées, de nombreuses situations qui s'appliquent à une instance peuvent ne pas s'appliquer à une autre, donc voici mon problème.
J'ai un fichier avec la sortie d'un pdfgrep d'une expression régulière contenant plusieurs lignes de sortie. La façon dont le fichier texte est formaté est la suivante:
/chemin/vers/fichier_1/contenant/chaîne_regexe chaîne_regexe_1
/chemin/vers/fichier_1/contenant/chaîne_regexe chaîne_regexe_1
/chemin/vers/fichier_1/contenant/chaîne_regexe chaîne_regexe_1
/chemin/vers/fichier_2/contenant/chaîne_regexe chaîne_regexe_1
/chemin/vers/fichier_2/contenant/chaîne_regexe chaîne_regexe_2
/chemin/vers/fichier_3/contenant/chaîne_regexe chaîne_regexe_2
/chemin/vers/fichier_3/contenant/chaîne_regexe chaîne_regexe_2
/chemin/vers/fichier_3/contenant/chaîne_regexe chaîne_regexe_3
/chemin/vers/fichier_3/contenant/chaîne_regexe chaîne_regexe_3
/chemin/vers/fichier_3/contenant/chaîne_regexe chaîne_regexe_3
/chemin/vers/fichier_3/contenant/chaîne_regexe chaîne_regexe_3
Alors que pdfgrep a parfaitement isolé les informations que j'essayais de tirer des fichiers, il y a malheureusement un grand nombre de chaînes regex en double. Normalement, supprimer les lignes en double ne poserait pas de problème pour moi, mais le problème que j'ai ici est que, bien que la chaîne regex extraite des fichiers originaux soit un doublon, elle peut provenir d'un fichier complètement différent. Je veux seulement que la regex pour laquelle j'ai fait la recherche pdfgrep initiale apparaisse une seule fois dans la liste. Je veux supprimer toutes les entrées en double de cette chaîne ainsi que du chemin associé. Comment puis-je faire cela?