J'essaie d'entraîner Tesseract pour certaines polices de caractères à l'aspect étrange, comme Palace par exemple. J'ai essayé un moyen simple - produire des données de traçage avec http://trainyourtesseract.com/ et ensuite avoir fait un appel comme
api->Init(".\\tessdata", "eng+Palace",OEM_TESSERACT_ONLY). api->SetPageSegMode(PSM_SINGLE_LINE); api->SetImage(image); // Get OCR result outText = api->GetUTF8Text();
Le résultat pour une ligne comme
M P S T a o e h i l n p r s t u w y
est en dessous, aucun glyphe n'est correctement reconnu :
.MDXXXo,XkX.n.mX.XnoX
Est-ce que l'entraînement par le courtesseract produit de mauvaises données d'entraînement ou est-ce que je fais de mauvais appels, et comment gérer de tels cas ?
Actualle, j'ai essayé la même chose avec des polices moins drôles, mais aussi la reconnaissance ne s'améliore presque pas.
Je joins le fichier tiff et mes données entraînées pour le Palais.
Merci d'avance à tous pour votre aide, Yuliana