Pour un tokenizeur-lemmatiseur avec sortie xml (<w lem="lemme">mot</w>), il est parfois intéressant de filtrer les balises à lemmatiser, par exemple pas dans les notes, ou pas dans le front.
Pour se faire, il faudrait un automate XML qui garde la mémoire de la branche xml, puis il faut modifier le tokenizer pour pouvoir lui envoyer des bouts de texte au fur et à mesure.
Pour un tokenizeur-lemmatiseur avec sortie xml (<w lem="lemme">mot</w>), il est parfois intéressant de filtrer les balises à lemmatiser, par exemple pas dans les notes, ou pas dans le front.
Pour se faire, il faudrait un automate XML qui garde la mémoire de la branche xml, puis il faut modifier le tokenizer pour pouvoir lui envoyer des bouts de texte au fur et à mesure.