fc.exe
est meilleur pour la comparaison de texte car il est conçu pour fonctionner comme *nix diff, c'est-à-dire qu'il compare les lignes séquentiellement, en montrant les différences réelles et en essayant de resynchroniser (si les sections différentes ont des longueurs différentes). Il a aussi quelques options de contrôle utiles (texte/binaire, sensibilité à la casse, numéros de ligne, longueur de resynchronisation, taille du tampon de mismatch) et fournit un statut de sortie (-1 mauvaise syntaxe, 0 fichiers identiques, 1 fichiers différents, 2 fichiers manquants). Étant un (très) vieil utilitaire DOS, il a quelques limitations. Notamment, il ne fonctionne pas automatiquement avec Unicode, traitant le 0 MSB des caractères ASCII comme un terminateur de ligne de sorte que le fichier devient une séquence de lignes de 1 caractère (@kennycoc : utilisez l'option /U pour spécifier que LES DEUX fichiers sont Unicode, à partir de WinXP) et il a également une taille de tampon de ligne dure de 128 caractères (128 octets ASCII, 256 octets Unicode) de sorte que les longues lignes sont divisées et comparées séparément.
compare-object est conçu pour déterminer si 2 objets sont identiques du point de vue de leurs membres. Si les objets sont des collections, ils sont traités comme des SETS (voir l'aide compare-object), c'est-à-dire des collections NON ORDONNÉES sans doublons. Deux ensembles sont égaux s'ils ont les mêmes éléments membres sans tenir compte de l'ordre ou des doublons. Ceci limite sévèrement son utilité pour la comparaison de fichiers texte pour les différences. Premièrement, le comportement par défaut collecte les différences jusqu'à ce que l'objet entier (fichier = tableau de chaînes de caractères) ait été vérifié, perdant ainsi l'information concernant la position des différences et obscurcissant les différences qui sont appariées (et il n'y a pas de concept de numéro de ligne pour un SET de chaînes de caractères). L'utilisation de -synchwindow 0 entraîne l'émission des différences au fur et à mesure qu'elles se produisent, mais l'empêche d'essayer de se resynchroniser. Ainsi, si un fichier comporte une ligne supplémentaire, les comparaisons de lignes suivantes peuvent échouer même si les fichiers sont identiques (jusqu'à ce qu'une ligne supplémentaire compensatoire soit ajoutée dans l'autre fichier, réalignant ainsi les lignes correspondantes). Cependant, powershell est extrêmement polyvalent et une comparaison de fichiers utile peut être effectuée en utilisant cette fonctionnalité, bien qu'au prix d'une complexité substantielle et avec certaines restrictions sur le contenu des fichiers. Si vous avez besoin de comparer des fichiers texte avec de longues lignes (> 127 caractères) et où les lignes correspondent pour la plupart 1:1 (quelques changements de lignes entre les fichiers mais pas de doublons dans un fichier, comme une liste textuelle d'enregistrements de base de données ayant un champ clé), alors en ajoutant des informations à chaque ligne indiquant dans quel fichier elle se trouve, sa position dans ce fichier, puis en ignorant les informations ajoutées pendant la comparaison (mais en les incluant dans la sortie), vous pouvez obtenir une sortie de type *nix diff comme suit (abréviations des alias utilisées) :
diff (gc file1 | % -begin { $ln1=0 } -process { '{0,6}<<:{1}' -f ++$ln1,$_ }) (gc file2 | % -begin { $ln2=0 } -process { '{0,6}>>:{1}' -f ++$ln2,$_ }) -property { $_.substring(9) } -passthru | sort | out-string -width xx
où xx est la longueur de la ligne la plus longue + 9
Explication
-
(gc file | % -begin { $ln=0 } -process { '{0,6}<<:{1}' -f ++$ln,$_ })
récupère le contenu du fichier et ajoute le numéro de ligne et l'indicateur de fichier (<< ou >>) à chaque ligne (en utilisant l'opérateur chaîne de format) avant de le transmettre à diff.
-
-property { $_.substring(9) }
dit à diff de comparer chaque paire d'objets (chaînes de caractères) en ignorant les 9 premiers caractères (qui sont le numéro de ligne et l'indicateur de fichier). Ceci utilise la possibilité de spécifier une propriété calculée (la valeur d'un bloc script) au lieu du nom d'une propriété.
-
-passthru
permet à diff de sortir les différents objets d'entrée (qui incluent le numéro de ligne et l'indicateur de fichier) au lieu des différents objets comparés (qui ne le font pas).
-
sort-object
puis remet toutes les lignes dans l'ordre.
out-string arrête la troncature par défaut de la sortie pour s'adapter à la largeur de l'écran (comme noté par Marc Towersap) en spécifiant une largeur suffisamment grande pour éviter la troncature. Normalement, cette sortie devrait être placée dans un fichier qui est ensuite visualisé en utilisant un éditeur défilant (par exemple le bloc-notes).
Note
Le format de numéro de ligne {0,6} donne un numéro de ligne de 6 caractères justifié à droite, avec un espace (pour le tri). Si les fichiers ont plus de 999 999 lignes, il suffit de modifier le format pour qu'il soit plus large. Cela nécessite également de modifier le paramètre $_.substring
(3 de plus que la largeur du numéro de ligne) et la valeur xx de la chaîne de sortie (longueur maximale de la ligne + $_.substring
paramètre).