Source PDF : http://download.microsoft.com/download/8/0/1/801a191c-029d-4af3-9642-555f6fe514ee/cff.pdf
Le code de caractère réel utilisé est 0xDE dans le flux de contenu compressé. La façon dont il apparaît dans l'éditeur de texte de votre choix peut varier.
BT
/F4 1 Tf
9.5 0 0 9.5 210 664.663 Tm
(Appendix B)Tj
1.2632 -1.3158 TD
-0.0002 Tc
-0.0021 Tw
(PredeÞned Encodings)Tj
ET
Nous avons un code de caractères, maintenant quelle est la police de caractères ? /F4
nous amène à Obj 4322
qui est une police simple non intégrée (codage à un seul octet), avec MacRomanEncoding
.
Ce codage est défini dans la norme PDF, à l'annexe Latin character set and encodings
.
Notez que ces valeurs sont en octal, donc 0xDE
devient o336
et en regardant sous la colonne MAC, nous constatons qu'il s'agit de la ligature "fi". U+FB01
.
Pourquoi "fi" est-il remplacé par þ ?
Ce n'est pas le cas, le "þ" est en fait le code de caractère octal. o336
ce qui, combiné au codage MacRoman du PDF, donne la ligature "fi". Si vous aviez un éditeur de texte qui supporte le MacRomanEncoding PDF, vous verriez la ligature.